开源项目,开源代码,开源文档,开源新闻,开源社区

可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。

solari 2016-02-12 78611 0

Zeppelin 数据分析分布式/云计算/大数据

1.概述在编写 Flink，Spark，Hive 等相关作业时，要是能快速的将我们所编写的作业能可视化在我们面前，是件让人兴奋的时，如果能带上趋势功能就更好了。今天，给大家介绍这么一款工具。它就

ti826184 2016-01-21 32642 0

Zeppelin Hadoop 分布式/云计算/大数据

以读取BigQuery以进行表连接等操作。如果想在Dataflow上使用一些开源资源（比如说 Spark中的机器学习库），也是很方便的为了配合Dataflow， Google Cloud Platform

jopen 2015-01-08 76376 0

分布式/云计算/大数据 Google Cloud Dataflow

Paracel和Spark/GraphLab的主要区别是什么？ Spark 和GraphLab都是非常成功的分布式计算框架，它们各自有着很多吸引用户的优点，但也存在一些局限性。Spark提出了RDD的概念并赋予其一系列的

yne7 2015-03-30 17278 0

Paracel 分布式/云计算/大数据

内核相同的设计原则，只是设计在不同的抽象层级上。它运行在一个机房的所有服务器上并且通过 API 的形式给应用（比如 Hadoop，Spark，Kafka，Elastic Search）提供资源管理、计划任务等功能。 Mesos 是一个在

shenxidd 2016-12-30 9432 0

Mesos 软件架构

Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像

jopen 2015-12-28 33401 0

Hadoop 大数据分布式/云计算/大数据 Apache Flink

拿Spark on Mesos记录子，即使是基于Spark的Marathon调度，也需要用户开发一个Frameworks。上生产需要很多代码，团队之前代码加到将近一千，用来专门解决Spark运行在

JeaWagstaff 2017-09-11 33759 0

Mesos Docker

retrieve her favorite recipes. 6. Spark – 微型Web框架 Back to pure Java, Spark is a Sinatra inspired micro web

jopen 2014-10-18 14303 0

Java工具

虽然大数据往往将关系型数据库当作靶子，但事实上真正生产环境的Hadoop和Spark等大数据平台，每天大部分工作仍然是为SQL查询提供服务，所以，SQL on Hadoop就成了竞争最激烈的技术领域。

jopen 2015-05-20 10665 0

Apache Drill

目前Owen还在花费大量时间担当Apache Spark目的贡献者，他想重写Oryx，将Spark而不是MapReduce作为主要的处理框架，因为Spark已经成为下一代大数据应用的热门技术。由于性能

jopen 2014-03-01 24541 0

Oryx 机器学习

Shark 是一个大型的数据仓库系统为 Spark 的设计与 Apache Hive 兼容。它处理 Hive QL 的性能比 Apache Hive 快 30 倍。支持 Hive 查询语言、元存储、序列化格式和用户自定义函数。

jopen 2012-10-22 12686 0

Shark

集群上执行，可以避免数据在 Hadoop 集群和单独的深度学习集群之间移动；同 Hadoop 数据处理和 Spark 机器学习管道一样，深度学习也可以定义为 Apache Oozie 工作流中的一个步骤； YARN

vgtr 2015-10-27 15225 0

Hadoop

Windows Exodus, Pandion, Psi, Spark Linux Gajim, Gossip, Kopete, Pidgin, Psi, Spark, Tkabber Macintosh Adium

tumeimey 2016-05-10 650 0

电话/通讯/IM聊天 Openfire

底层文件系统、兼容Hadoop MapReduce和 Apache Spark 等特征。Tachyon能够为集群框架（如Spark、MapReduce等）提供内存级速度的跨集群文件共享服务。Tachy

dy223 2015-03-26 11635 0

Tachyon

语言，使用Java编写。可实现三大功能：(1) 可定制算法；(2) 多个执行模式，包括单个，Hadoop 批量和 Spark 批量；(3) 自动优化。 SystemML的机器学习主要基于两方面： SystemML 语言，声明式机器学习

jopen 2016-06-18 9116 0

机器学习 Apache SystemM

Spring MVC/Spring Boot Grails Dropwizard Vert.x Play Spark Vaadin Ninja Jodd jHipster In order to infer the

jopen 2014-11-17 279294 0

Java

腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分：MapReduce和Spark，两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析，并对两个计算引擎的Shuffle过程进行比较。

jopen 2014-05-21 56177 0

shuffle 数据挖掘

其他节点上部署以保证更好的负载平衡。 7.Spark共享RDD Apache Ignite提供了一个Spark RDD抽象的实现，他允许跨越多个Spark作业时方便地在内存内共享状态，不管是在同一

jopen 2016-01-12 22857 0

分布式/云计算/大数据

P22

可信虚机（VM2）通过普通管道或网络访问原有虚机（VM1）中的HDFS API，进而读写HDFS文件 12. 案例二：Spark改造使用单独的可信虚机（VM2/3）将用户的计算与其他组件隔离使用剪裁过的JAR包以减小TCB

cpp45 2015-01-18 627 0

分布式/云计算/大数据方案 Apache Intel diff

Pipeline形成的过程(Pipeline的概念在后续会有定义)。典型的例子比如你开发的一个Spark Streaming程序，一个Storm程序，一个Tomcat Web服务，都是一个Transformer。

JanaColechi 2016-01-31 8059 0

Tomcat Kafka Web服务器 Spark Streaming

Spark MLLib 的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

Java Tomcat Apache Web服务器 Hadoop 数据挖掘 Intel 大数据机器学习 Kafka Shark Openfire Docker Java工具 Apache Drill 数据分析 Apache Flink 软件架构 Tachyon Mesos Spark Streaming Zeppelin Apache SystemM 电话/通讯/IM聊天分布式/云计算/大数据 diff Oryx shuffle Paracel Google Cloud Dataflow

【译】大数据分析平台搭建教程：基于Apache Zeppelin Notebook和R的交互式数据科学经验

Hadoop - Zeppelin 使用心得经验

分布式计算框架：Google Cloud Dataflow 经验

Paracel：豆瓣开发的大型分布式计算框架，用于机器学习、图算法经验

Mesos 架构与去哪儿的统一框架实践经验

新一代大数据处理引擎 Apache Flink 经验

基于Mesos/Docker构建数据处理平台经验

7 个你应该知道的Java工具资讯

Apache Drill 1.0发布资讯

简单的实时大规模机器学习基础架构：Oryx 经验

数据仓库系统，Shark 0.2 发布资讯

雅虎如何在Hadoop集群上实现大规模分布式深度学习资讯

openfire应用和开发指南文档

Tachyon：一个高性能、高容错、基于内存的开源分布式存储系统资讯

Apache SystemM v0.10.0-incubating 发布，一个机器学习语言资讯

2014-2015年排名前10位的基于Java的Web框架资讯

通过腾讯shuffle部署对shuffle过程进行详解经验

Apache Ignite（二）：核心特性一览（V1.4.0版本）经验

大数据应用 - 数据安全和数据分析文档

Transformer架构解析经验

Spark MLLib 的相关搜索

关键词

【译】大数据分析平台搭建教程：基于Apache Zeppelin Notebook和R的交互式数据科学 经验

Hadoop - Zeppelin 使用心得 经验

分布式计算框架：Google Cloud Dataflow 经验

Paracel：豆瓣开发的大型分布式计算框架，用于机器学习、图算法 经验

Mesos 架构与去哪儿的统一框架实践 经验

新一代大数据处理引擎 Apache Flink 经验

基于Mesos/Docker构建数据处理平台 经验

7 个你应该知道的Java工具 资讯

Apache Drill 1.0发布 资讯

简单的实时大规模机器学习基础架构：Oryx 经验

数据仓库系统，Shark 0.2 发布 资讯

雅虎如何在Hadoop集群上实现大规模分布式深度学习 资讯

openfire应用和开发指南 文档

Tachyon：一个高性能、高容错、基于内存的开源分布式存储系统 资讯

Apache SystemM v0.10.0-incubating 发布，一个机器学习语言 资讯

2014-2015年排名前10位的基于Java的Web框架 资讯

通过腾讯shuffle部署对shuffle过程进行详解 经验

Apache Ignite（二）：核心特性一览（V1.4.0版本） 经验

大数据应用 - 数据安全和数据分析 文档

Transformer架构解析 经验

Spark MLLib 的相关搜索

关键词

【译】大数据分析平台搭建教程：基于Apache Zeppelin Notebook和R的交互式数据科学经验

Hadoop - Zeppelin 使用心得经验

Paracel：豆瓣开发的大型分布式计算框架，用于机器学习、图算法经验

Mesos 架构与去哪儿的统一框架实践经验

基于Mesos/Docker构建数据处理平台经验

7 个你应该知道的Java工具资讯

Apache Drill 1.0发布资讯

数据仓库系统，Shark 0.2 发布资讯

雅虎如何在Hadoop集群上实现大规模分布式深度学习资讯

openfire应用和开发指南文档

Tachyon：一个高性能、高容错、基于内存的开源分布式存储系统资讯

Apache SystemM v0.10.0-incubating 发布，一个机器学习语言资讯

2014-2015年排名前10位的基于Java的Web框架资讯

通过腾讯shuffle部署对shuffle过程进行详解经验

Apache Ignite（二）：核心特性一览（V1.4.0版本）经验

大数据应用 - 数据安全和数据分析文档

Transformer架构解析经验