开源项目,开源代码,开源文档,开源新闻,开源社区

Apache Falcon 提供了一个用于治理和编排 Hadoop 内部和周边数据流的数据处理框架。该框架为获取和处理数据集、复制与保留数据集、重新定向位于非Hadoop扩展中的数据集、维护审核跟踪与沿袭提供了关

jopen 2015-01-19 5410 0

Falcon

Drill是一个分布式系统用于大型数据集的互动分析，类似于 Google 的 Dremel。据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍，“Drill”

openkk 2012-08-22 17499 0

Hadoop 分布式/云计算/大数据

于 Apache Hadoop 和 Apache HBase . 构建。Tigon 严重依赖开源项目 Tephra 和 Apache Twill 提供紧密的集成到已有的 Hadoop/HBase 集群中。

jopen 2014-12-15 15625 0

Tigon 分布式/云计算/大数据

成为基金会的顶级项目。项目新的首页是： http://drill.apache.org/ 为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会发起了一项名为“Drill”的开源项目。Apache Drill

jopen 2014-12-02 6914 0

Apache Drill

AMPLab 的集群计算平台。 Spark 被称为“Hadoop 的瑞士军刀”，拥有非凡的速度和易用性。Spark 立足于内存计算，相比 Hadoop MapReduce，Spark 在性能上要高 100

jopen 2014-02-28 14848 0

Spark

式系统基础架构 Hadoop 到 Twitter 旗下实时数据处理平台 Storm 等各种软件和工具。而 Summingbird 所提供的正是一种能让开发者同时利用 Hadoop 和 Storm

jopen 2014-02-28 9841 0

C语言

算法模式实现的分布式计算框架，拥有 Hadoop MapReduce 所具有的优点，并且解决了 Hadoop MapReduce 中的诸多缺陷。 2.1 初识 Spark 2.1.1 Hadoop MRv1 的局限

没心没肺 2016-01-27 56246 0

Spark 分布式/云计算/大数据

P26

HDFS启用HA高可用性(基于Quorum-based Storage) 16 5.CDH安装使用lzo 22 5.1 hadoop_lzo安装 22 5.2 配置MapReduce： 23 5.3相关服务重启 25 6.安装Storm

marvel1014 2016-12-26 2280 0

分布式/云计算/大数据手册 Apache x86 Go

P4

案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。 Nutch 0.8 完全使用Hadoop重写了骨干

228823266 2012-01-17 582 0

搜索引擎 nutch

Functions Virtualization，NFV）平台功能初级版、Sahara套件也支持Hadoop和Spark来快速建置与管理大资料丛集。每隔半年就推出新版本的OpenStack云

jopen 2014-10-26 11784 0

OpenStack

rk 仅仅是崭露头角。在过去的几年时间，随着 Hadoop 技术爆炸和大数据逐渐占据主流地位，几件事情逐渐明晰：对所有数据而言，Hadoop 分布式文件系统（HDFS）是一个直接存储平台。 YARN

jopen 2015-08-26 14607 0

Apache Spark

XMLSerializer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import

jopen 2015-08-18 2257 0

MapReduce

P38

List(v2))->List(k3,v3) 8. Spark基础Shuffle 9. Spark基础Spark为什么比Hadoop快大致的业务需求： 1.gn口数据，根据手机号码、msisdn、lac、ci计算总流量 2

516304276 2016-11-23 980 0

SQL Basic

，项目的core部分的代码只有63个Scala文件，非常短小精悍。 Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在

f663x 2015-03-13 27556 0

Apache Spark

：Spark 0.6核心代码有2万行，Hadoop 1.0为9万行，2.0为22万行。一方面，感谢Scala语言的简洁和丰富表达力；另一方面，Spark很好地利用了Hadoop和Mesos（伯克利另一个进入

jopen 2014-09-12 16979 0

Spark

的商业智能功能。微软与 Hortonworks 合作，在 SQL Server 中集成了开源的 Apache Hadoop ，从而提供大数据处理功能。正如 Hortonworks 的 CEO，Eric Baldeschwieler

jopen 2011-10-29 17400 0

SQL Server

ClouderaSearch带来了全文索引，实时查询和针对CDH和你的企业级数据中心的扩展、灵活性的索引服务。由Apache Hadoop和Apache Solr提供，是企业级的开源搜索。Cloudera Search带来了扩展

jopen 2014-11-17 40636 0

搜索引擎 ClouderaSearch

[root@hadoop01 ~]# killall -9 redis-server ##########压缩redis文件并拷入另一台机器######### [root@hadoop01 data]#

jopen 2015-10-22 14555 0

Redis NoSQL数据库

P12

Spark 传奇华为开源软件中心程广卫 2. 大数据技术发展历程 3. Hadoop：大道至简 4. Hadoop：八仙过海Twister(Indiana 大学) Haloop(Washington大学)

xcn4 2014-11-29 472 0

分布式/云计算/大数据 Apache Java Python Go

hive是什么？ hive是基于hadoop构建的数据仓库基础架构，通过提供一系列的工具，使得用户能够方便的做数据ETL，数据结构化，并针对存放在hadoop上的海量数据进行查询和分析。 hi

jopen 2013-12-28 22846 0

分布式/云计算/大数据 Hive

Apache 基金会宣布 Falcon 成为顶级项目资讯

Drill 一个分布式系统用于大型数据集的互动分析经验

分布式流处理框架：Tigon 经验

Apache Drill 成为 Apache 基金会顶级项目资讯

分布式计算系统 Spark 成为 Apache 顶级项目资讯

【科技英雄传】C语言之父的侄子重塑Twitter 资讯

Spark设计理念与基本架构经验

cdh集群部署手册(for cdh5) 文档

Nutch 源代码学习(5)-解读 Nutch -运行,爬行过程文档

新版 OpenStack 首度支持 NFV 网络功能虚拟化资讯

Apache Spark不过时的六大理由资讯

Mapreduce任务实现邮件监控代码段

spark 文档

Apache Spark 1.3 发布，基于内存计算的开源的集群计算系统资讯

开源集群计算环境，Spark 1.1.0 发布资讯

Denali不复存在：SQL Server 2012已经宣布，关注BI和大数据资讯

强大的大数据全文索引解决方案-ClouderaSearch 经验

Redis部署管理持久化迁移经验

Spark 核心技术剖析文档

hive指南经验

K-means Hadoop 的相关搜索

关键词

Apache 基金会宣布 Falcon 成为顶级项目 资讯

Drill 一个分布式系统用于大型数据集的互动分析 经验

分布式流处理框架：Tigon 经验

Apache Drill 成为 Apache 基金会顶级项目 资讯

分布式计算系统 Spark 成为 Apache 顶级项目 资讯

【科技英雄传】C语言之父的侄子重塑Twitter 资讯

Spark设计理念与基本架构 经验

cdh集群部署手册(for cdh5) 文档

Nutch 源代码学习(5)-解读 Nutch -运行,爬行过程 文档

新版 OpenStack 首度支持 NFV 网络功能虚拟化 资讯

Apache Spark不过时的六大理由 资讯

Mapreduce任务实现邮件监控 代码段