大数据分析引擎Apache Flink升级成为Apache顶级项目 资讯

此外,Flink只需要三个命令就可以运行在Hadoop的新MapReduce框架Yarn上, 5. 完全兼容Hadoop Flink支持所有的Hadoop所有的输入/输出格式和数据类型,这就使得开

jopen 2015-01-16   16983   0

看好微软未来6大原因:放下了独裁者的身份 资讯

1、就连最不看好微软的人都必须承认,该公司支持 Hadoop 开源架构的决定是极为正确的。微软决定放弃海量数据架构 Dryad 转而支持 Hadoop,主要是因为其客户不断要求能在 Hadoop 环境中储存、管理并分析各种数据。

fmms 2012-03-27   10377   0
微软  

Apache Nutch 1.10 发布,搜索引擎 资讯

和Web爬虫。 Nutch的创始人是 Doug Cutting ,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch 诞生于2002年8月,是Apache旗下的一

jopen 2015-05-09   13572   0

Apache Mesos是什么? 经验

esos kernel利用资源管理和调度的API在整个数据中心或云环境中运行和提供引用(例如,Hadoop,Spark,Kafaka,Elastic Search)。即Apache Mesos在整个数

jopen 2015-03-21   155049   0

数据挖掘的学习资源 经验

Massive Data Sets , CS246H Mining Massive Data Sets: Hadoop Labs , CS341 Project in Mining Massive Data Sets

jopen 2015-11-02   42372   0

开源分布式计算系统,Spark 1.2 发布 资讯

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据

jopen 2014-12-19   23822   1
Spark  

决策树算法介绍及应用 经验

机器学习理论主要是设计和分析一些让计算机可以自动学习的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算 法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习

jopen 2015-07-29   38260   0
P9

  学年论文(数据挖掘在商业上的应用) 文档

Agent还有可定制能力。 美国Firstar银行使用Marksman数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。Firstar银行市场调查和数据库营销部经理发现:公共数据库中存储着关于每

kanckzhang 2012-02-07   616   0

10大引导世界技术革新的开源项目 资讯

这套卓越的开源方案。 9、 Hadoop Hadoop 项目与Apache关系密切,允许用户以分布式途径在计算机集群中处理大型数据集。Hadoop的设计思路涵盖了单一服务器到成千上 万

jopen 2013-07-04   9838   0

世界最大的PHP站点 Facebook后台技术探秘 经验

Facebook有数百个日志类别(categories)。 Hadoop and Hive Hadoop的是一个开源的map-reduce实现,使得它可以在进行大数据上进行运算。

jopen 2014-09-19   26739   0

30分钟概览Spark分布式计算引擎 经验

本文主要帮助初学者快速了解Spark,不会面面俱到,但核心一定点到。 详细内容可参考Spark入门教程-1 Spark是继Hadoop之后的下一代分布式内存计算引擎,于2009年诞生于加州大学伯克利分校AMPLab实验室,现在主

Hive任务优化 经验

2.    举例: a)    假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数 b) 

qq3466460 2016-02-18   5840   0

我们总结了370个免费学习编程的国外大学公开课 经验

Programming Environment Data Management and Visualization Hadoop Platform and Application Framework Global Warming

hd_open 2017-03-08   12697   0

技术人必读:19本免费指南性编程书籍 资讯

6》一书。 Hadoop: 《 照亮Hadoop 征程 》 这部以Hadoop为核心内容的论著并不仅仅针对技术读者,同时也适用于其它缺乏技术知识储备但对大数据颇为关注的群体。《照亮Hadoop征 程》

jopen 2015-03-12   26664   0
编程  

Scala开发资源集合:Awesome Scala 经验

faster than Hadoop for iterative algorithms (memory caching) and up to 10x faster than Hadoop for single-pass

jopen 2014-10-11   83020   0

Pinterest 开源工作流管理 —— Pinball 经验

上不断变化的需求。特别是,当前可用的解决方案不是只支持一个特定类型的工作(例如 Apache Oozie 来优化Hadoop计算)或太过抽象难以扩展(例如单一的 Azkaban )。考虑到上述的情况,我们开始构建一个高

g4mm 2015-04-24   39953   0

分布式分析引擎 Apache Kylin v1.5.2 发布 资讯

Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

jopen 2016-05-26   26899   0

用Apache Kafka构建流数据平台的建议 经验

明确语义:模式中每个字段的doc属性明确定义了字段的语义。 兼容性:模式处理数据格式变化,使像Hadoop或Cassandra这样的系统可以跟踪上游数据变化,只将有变化的数据传给它们自己的存储,而不必进行重新处理。

yne7 2015-03-30   20451   0

记录一下互联网日志实时收集和实时计算的简单方案 经验

使用Flume将数据收集到HDFS,然后进行清洗和分析。 后来,根据业务需要,我们有了两个Hadoop集群,并且部署在不同的地方(北京和西安),而所有的日志收集服务器在北京,因此需要将日志数据通过外网传输到西安,于是有了这样的部署:

jopen 2015-11-30   50542   0

分布式计算框架 Fourinone 经验

在写这个框架之前,我对分布式计算进行了长时间的思考,也看了老外写的其他开源框架,当我们把复杂的hadoop当作一门学科学习时,似乎忘记了我们想解决问题的初衷:我们仅仅是想写个程序把几台甚至更多的机器一

fmms 2011-12-06   35341   0
1 2 3 4 5 6 7 8 9 10