开源项目,开源代码,开源文档,开源新闻,开源社区

此外，Flink只需要三个命令就可以运行在Hadoop的新MapReduce框架Yarn上， 5. 完全兼容Hadoop Flink支持所有的Hadoop所有的输入/输出格式和数据类型，这就使得开

jopen 2015-01-16 16983 0

1、就连最不看好微软的人都必须承认，该公司支持 Hadoop 开源架构的决定是极为正确的。微软决定放弃海量数据架构 Dryad 转而支持 Hadoop，主要是因为其客户不断要求能在 Hadoop 环境中储存、管理并分析各种数据。

fmms 2012-03-27 10377 0

微软

和Web爬虫。 Nutch的创始人是 Doug Cutting ，他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch 诞生于2002年8月，是Apache旗下的一

jopen 2015-05-09 13572 0

Apache Nutch

esos kernel利用资源管理和调度的API在整个数据中心或云环境中运行和提供引用（例如，Hadoop，Spark，Kafaka，Elastic Search）。即Apache Mesos在整个数

jopen 2015-03-21 155049 0

集群/负载均衡 Apache Mesos

Massive Data Sets ， CS246H Mining Massive Data Sets: Hadoop Labs ， CS341 Project in Mining Massive Data Sets

jopen 2015-11-02 42372 0

数据挖掘

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据

jopen 2014-12-19 23822 1

Spark

机器学习理论主要是设计和分析一些让计算机可以自动学习的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与统计推断学联系尤为密切，也被称为统计学习

jopen 2015-07-29 38260 0

算法机器学习

Agent还有可定制能力。美国Firstar银行使用Marksman数据挖掘工具，根据客户的消费模式预测何时为客户提供何种产品。Firstar银行市场调查和数据库营销部经理发现：公共数据库中存储着关于每

kanckzhang 2012-02-07 616 0

数据挖掘

这套卓越的开源方案。 9、 Hadoop Hadoop 项目与Apache关系密切，允许用户以分布式途径在计算机集群中处理大型数据集。Hadoop的设计思路涵盖了单一服务器到成千上万

jopen 2013-07-04 9838 0

开源项目

Facebook有数百个日志类别(categories)。 Hadoop and Hive Hadoop的是一个开源的map-reduce实现，使得它可以在进行大数据上进行运算。

jopen 2014-09-19 26739 0

Facebook

本文主要帮助初学者快速了解Spark，不会面面俱到，但核心一定点到。详细内容可参考Spark入门教程-1 Spark是继Hadoop之后的下一代分布式内存计算引擎，于2009年诞生于加州大学伯克利分校AMPLab实验室，现在主

jiushi506 2017-03-07 18089 0

Spark 分布式计算分布式/云计算/大数据

2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数 b)

qq3466460 2016-02-18 5840 0

分布式/云计算/大数据

Programming Environment Data Management and Visualization Hadoop Platform and Application Framework Global Warming

hd_open 2017-03-08 12697 0

软件开发

6》一书。 Hadoop: 《照亮Hadoop 征程》这部以Hadoop为核心内容的论著并不仅仅针对技术读者，同时也适用于其它缺乏技术知识储备但对大数据颇为关注的群体。《照亮Hadoop征程》

jopen 2015-03-12 26664 0

编程

faster than Hadoop for iterative algorithms (memory caching) and up to 10x faster than Hadoop for single-pass

jopen 2014-10-11 83020 0

Scala开发 Awesome Scala

上不断变化的需求。特别是，当前可用的解决方案不是只支持一个特定类型的工作（例如 Apache Oozie 来优化Hadoop计算）或太过抽象难以扩展（例如单一的 Azkaban ）。考虑到上述的情况，我们开始构建一个高

g4mm 2015-04-24 39953 0

Pinball 工作流引擎

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

jopen 2016-05-26 26899 0

分布式分析 Apache Kylin

明确语义：模式中每个字段的doc属性明确定义了字段的语义。兼容性：模式处理数据格式变化，使像Hadoop或Cassandra这样的系统可以跟踪上游数据变化，只将有变化的数据传给它们自己的存储，而不必进行重新处理。

yne7 2015-03-30 20451 0

Kafka 消息系统

使用Flume将数据收集到HDFS，然后进行清洗和分析。后来，根据业务需要，我们有了两个Hadoop集群，并且部署在不同的地方（北京和西安），而所有的日志收集服务器在北京，因此需要将日志数据通过外网传输到西安，于是有了这样的部署：

jopen 2015-11-30 50542 0

日志日志处理

在写这个框架之前，我对分布式计算进行了长时间的思考，也看了老外写的其他开源框架,当我们把复杂的hadoop当作一门学科学习时，似乎忘记了我们想解决问题的初衷：我们仅仅是想写个程序把几台甚至更多的机器一

fmms 2011-12-06 35341 0

分布式分布式/云计算/大数据

hadoop 电影票房预测的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

Facebook 软件开发工作流引擎分布式数据挖掘开源项目消息系统机器学习 Kafka Spark 分布式计算 Apache Flink Apache Nutch Apache Kylin Apache Mesos 日志处理集群/负载均衡 Scala开发分布式/云计算/大数据 Pinball Awesome Scala

大数据分析引擎Apache Flink升级成为Apache顶级项目资讯

看好微软未来6大原因：放下了独裁者的身份资讯

Apache Nutch 1.10 发布，搜索引擎资讯

Apache Mesos是什么？经验

数据挖掘的学习资源经验

开源分布式计算系统，Spark 1.2 发布资讯

决策树算法介绍及应用经验

学年论文(数据挖掘在商业上的应用) 文档

10大引导世界技术革新的开源项目资讯

世界最大的PHP站点 Facebook后台技术探秘经验

30分钟概览Spark分布式计算引擎经验

Hive任务优化经验

我们总结了370个免费学习编程的国外大学公开课经验

技术人必读:19本免费指南性编程书籍资讯

Scala开发资源集合：Awesome Scala 经验

Pinterest 开源工作流管理 —— Pinball 经验

分布式分析引擎 Apache Kylin v1.5.2 发布资讯

用Apache Kafka构建流数据平台的建议经验

记录一下互联网日志实时收集和实时计算的简单方案经验

分布式计算框架 Fourinone 经验

hadoop 电影票房预测的相关搜索

关键词

大数据分析引擎Apache Flink升级成为Apache顶级项目 资讯

看好微软未来6大原因：放下了独裁者的身份 资讯

Apache Nutch 1.10 发布，搜索引擎 资讯

Apache Mesos是什么？ 经验

数据挖掘的学习资源 经验

开源分布式计算系统，Spark 1.2 发布 资讯

决策树算法介绍及应用 经验

学年论文(数据挖掘在商业上的应用) 文档

10大引导世界技术革新的开源项目 资讯

世界最大的PHP站点 Facebook后台技术探秘 经验

30分钟概览Spark分布式计算引擎 经验

Hive任务优化 经验

我们总结了370个免费学习编程的国外大学公开课 经验

技术人必读:19本免费指南性编程书籍 资讯

Scala开发资源集合：Awesome Scala 经验

Pinterest 开源工作流管理 —— Pinball 经验

分布式分析引擎 Apache Kylin v1.5.2 发布 资讯

用Apache Kafka构建流数据平台的建议 经验

记录一下互联网日志实时收集和实时计算的简单方案 经验

分布式计算框架 Fourinone 经验

hadoop 电影票房预测 的相关搜索

关键词

大数据分析引擎Apache Flink升级成为Apache顶级项目资讯

看好微软未来6大原因：放下了独裁者的身份资讯

Apache Nutch 1.10 发布，搜索引擎资讯

Apache Mesos是什么？经验

数据挖掘的学习资源经验

开源分布式计算系统，Spark 1.2 发布资讯

决策树算法介绍及应用经验

10大引导世界技术革新的开源项目资讯

世界最大的PHP站点 Facebook后台技术探秘经验

30分钟概览Spark分布式计算引擎经验

Hive任务优化经验

我们总结了370个免费学习编程的国外大学公开课经验

技术人必读:19本免费指南性编程书籍资讯

分布式分析引擎 Apache Kylin v1.5.2 发布资讯

用Apache Kafka构建流数据平台的建议经验

记录一下互联网日志实时收集和实时计算的简单方案经验

hadoop 电影票房预测的相关搜索