开源项目,开源代码,开源文档,开源新闻,开源社区

是一个运行在Hadoop（Doug Cutting 在06年3月份加入了Yahoo ）上的并行处理架构，有了Pig 使得普通的程序员具有了分析处理gigantic数据集的能力。附带一下 Hadoop 基本进入了实用阶段

风云lucky 2011-07-22 513 0

将只访问本地一台主机；当 Pig 在 MapReduce 模式运行的时候， Pig 将访问一个 Hadoop 集群和 HDFS 的安装位置。这时， Pig 将自动地对这个集群进行分配和回收。因为 Pig

jopen 2013-11-22 82817 0

数据挖掘 Pig

类、分类、推荐等很多经典算法，并且提供了很方便的云服务的接口。 MLlib MLlib是Apache自己的Spark和Hadoop机器学习库，它被设计用于大规模高速度地执行MLlib所包含的大部分常见机器学习算法。MLli

jopen 2014-12-18 52979 0

机器学习

came across as a Heroku add-on . It is based on Hadoop but seems to be based abandoned Mortar Recommendation

jopen 2015-06-18 18486 0

推荐系统推荐引擎

Apache Hadoop、Oracle Data Integrator with Application Adapter for Handoop、Oracle Loader for Hadoop 和开源分布式统计语言

jopen 2011-10-17 32386 0

Oracle NOSQL

持久化由MySQL, Memcached [3], Facebook 的 Cassandra [4], Hadoop 的 HBase [5] 完成。Memcached 使用了MySQL的内存Cache。Facebook

jopen 2015-03-24 29946 0

系统架构软件架构

取进度修复了一系列bug。 bboss大数据抽取工具功能特点如下：实现db到hadoop hdfs数据导入功能，提供高效的分布式并行处理能力，可以采用数据库表分区、按字段分区、表分区+分区字段二次分区三种方式并行

jopen 2015-08-28 10387 0

bboss

Apache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用

jopen 2015-06-11 16817 0

Apache Spark

MapReduce和专用的迭代编程模型（如Pregel）等。论文中实现的RDD在迭代计算方面比Hadoop快二十多倍，同时还可以在5-7秒的延时内交互式地查询1TB的数据集。第一作者 Matei

jopen 2015-01-07 65000 0

Spark 分布式/云计算/大数据

高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中的所有动作流数据。

jopen 2016-01-05 10274 0

消息系统

所有发布的消息保留一段可配置的时间。这让消费者很灵活，他们可以来去自由而不影响群集，并适合像Hadoop集群这样的脱机消费者。生产者能够选择那一个主题，主题的那一个分区，来发布该消息。消费者自己也

jopen 2014-01-05 27142 0

Apache Kafka

克隆版）。HDFS 是 Hadoop 分布式文件系统。有趣的是，微软于 2011 年放弃了海量数据架构 Dryad 转而支持 Hadoop 大数据框架，主要是因为其客户不断要求能在Hadoop环境中储存、管理并分析各种数据。（关于

yge3 2015-05-16 11710 0

微软

Lucene 的，支持分布式，可扩展，具有容错功能，准实时的搜索方案。优点：开箱即用，可以与 Hadoop 配合实现分布式。具备扩展和容错机制。缺点：只是搜索方案，建索引部分还是需要自己实现。在搜索

openkk 2012-08-23 4505 0

Common Gui Tools

P31

HBase Features(Cont.)和Hadoop无缝集成 Hadoop分析后的结果可直接写入HBase；存放在HBase的数据可直接通过Hadoop来进行分析。 12. HBase能用于Online场景吗？Why

hadoopfans 2011-08-16 4086 0

Hadoop 分布式/云计算/大数据 Java SQL Basic

bboss大数据抽取工具4.0.8发布 bboss大数据抽取工具功能特点如下：实现 db 到hadoop hdfs 数据导入功能，提供高效的分布式并行处理能力，可以采用数据库分区、按字段分区、分页方式并行批处理抽取

jopen 2015-08-01 11007 0

bboss

aboutyun.com/thread-8927-1-1.html Mapreduce在hadoop中是一个比较难以的概念。下面需要用心看，然后自己就能总结出来了。概括： comb

jopen 2016-01-18 18332 0

分布式/云计算/大数据

P27

Cassandra(FB) Elasticsearch Hadoop 基于Hadoop及Elasticsearch的大数据存储根据不同的业务需求选择适合的技术方案云智慧选择Hadoop及Elasticsearch作为最终存储系统

cd62 2015-01-29 509 0

Python开发方案报告 Apache Python

P11

org/hadoop/HiveHIVE入门刘春安 2. Hive定义，作用数据类型创建表查看表结构命令修改表导入数据编写HQL 自定义函数目录 3. Hive 是建立在 Hadoop 上的数

kunshou 2012-09-13 533 0

分布式/云计算/大数据 SQL

一个非常成熟的分布式操作系统，可以用来运行除 Spark 以外的很多系统。 Hadoop YARN - Hadoop 的资源管理器。术语表术语解释 Application 在 Spark 上运行的工作，

jopen 2015-10-22 10414 0

Spark 分布式/云计算/大数据

Hadoop，HBase，NO-SQL是当今业界比较火的一些名词。满互联网都是对它的他们的赞许，其实光芒的背后还有部分缺点。本文只是我vogts的一些观点和想法。 HBase的优点：分布式，

dmc3 2015-07-25 14364 0

HBase NoSQL数据库

K-means Hadoop 的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

NOSQL Python Java SQL Apache Oracle Hadoop HBase 数据挖掘消息系统系统架构机器学习推荐引擎 Spark Apache Kafka Basic Common Gui Tools Apache Spark 软件架构推荐系统 bboss Python开发分布式/云计算/大数据 NoSQL数据库 Pig

Google的Sawzall,Yahoo的Pig和微软的Dryad 文档

pig的各种运行模式与运行方式详解经验

机器学习的11个开源项目经验

推荐系统资源列表（List of Recommender Systems）经验

Oracle加入NoSQL阵营资讯

Facebook 的系统架构经验

大数据抽取工具，bboss v4.0.9 发布资讯

Apache Spark 1.4 发布，开源集群计算系统资讯

分布式计算 Spark 入门介绍经验

消息系统kafka及其变种Jafka、Metamorphosis (MetaQ) 经验

Apache Kafka —一个不同的消息系统资讯

微软正式发布分布式大规模图数据处理引擎 Graph Engine 1.0 预览版资讯

几种常见的基于Lucene的开源搜索解决方案对比博客

毕玄-HBase简介与实践分享文档

大数据抽取工具，bboss 4.0.8 发布资讯

MapReduce中combine、partition、shuffle的作用是什么经验

APM Python Application Performance 文档

HIVE 入门文档

Spark 集群概述经验

一个DBA眼中的HBase 经验

K-means Hadoop 的相关搜索

关键词

Google的Sawzall,Yahoo的Pig和微软的Dryad 文档

pig的各种运行模式与运行方式详解 经验

机器学习的11个开源项目 经验

推荐系统资源列表（List of Recommender Systems） 经验

Oracle加入NoSQL阵营 资讯

Facebook 的系统架构 经验

大数据抽取工具，bboss v4.0.9 发布 资讯

Apache Spark 1.4 发布，开源集群计算系统 资讯

分布式计算 Spark 入门介绍 经验

消息系统kafka及其变种Jafka、Metamorphosis (MetaQ) 经验

Apache Kafka —一个不同的消息系统 资讯

微软正式发布分布式大规模图数据处理引擎 Graph Engine 1.0 预览版 资讯

几种常见的基于Lucene的开源搜索解决方案对比 博客

毕玄-HBase简介与实践分享 文档

大数据抽取工具，bboss 4.0.8 发布 资讯

MapReduce中combine、partition、shuffle的作用是什么 经验

APM Python Application Performance 文档

HIVE 入门 文档

Spark 集群概述 经验

一个DBA眼中的HBase 经验

K-means Hadoop 的相关搜索

关键词

pig的各种运行模式与运行方式详解经验

机器学习的11个开源项目经验

推荐系统资源列表（List of Recommender Systems）经验

Oracle加入NoSQL阵营资讯

Facebook 的系统架构经验

大数据抽取工具，bboss v4.0.9 发布资讯

Apache Spark 1.4 发布，开源集群计算系统资讯

分布式计算 Spark 入门介绍经验

Apache Kafka —一个不同的消息系统资讯

微软正式发布分布式大规模图数据处理引擎 Graph Engine 1.0 预览版资讯

几种常见的基于Lucene的开源搜索解决方案对比博客

毕玄-HBase简介与实践分享文档

大数据抽取工具，bboss 4.0.8 发布资讯

MapReduce中combine、partition、shuffle的作用是什么经验

HIVE 入门文档

Spark 集群概述经验