开源项目,开源代码,开源文档,开源新闻,开源社区

TDBank 接入数据的。我们离线数据处理使用 TDW 平台。TDW 基于 Hive、Pig、Hadoop、Spark 等研发，支持 SQL、Pig Latin、MR、SPARK 等编程接口，为业务提供离线服务。

jopen 2014-11-25 33331 0

技术型的高科技创业公司都是喜欢闪闪发光的新东西，而 “大数据” 跟 3年前火热程度相比反而有些凄惨。虽然 Hadoop 创建于 2006年，在 “大数据” 的概念兴起到达白热化是在 2011年至 2014年期间，当时在媒体和行业面前，大数据就是

jopen 2016-02-24 39098 0

大数据

property.dataDir的配置；其中hbase.rootdir对应Hadoop的$HADOOP_HOME/etc/hadoop/core-site.xml文件中fs.defaultFS的值；hbase

李新广 2015-07-10 1620 0

NoSQL数据库

为基础实现搜索引擎应用。Nutch的创始人是 Doug Cutting ，他同时也是Lucene、Hadoop和Avro开源项目的创始人下面是Nutch的发展历程： 2002 年 8 月由

jopen 2015-04-07 11686 0

nutch

came across as a Heroku add-on . It is based on Hadoop but seems to be based abandoned Mortar Recommendation

jopen 2015-03-20 18977 0

推荐系统推荐引擎

Apache Spark 1.6.1 发布了，Apache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载

jopen 2016-03-11 27731 0

聚合函数查询。四、分布式数据库架构--排序分组分页参考解决方案解决方案1：Hadoop + Hive。思路：使用Hadoop HDFS来存储数据，通过Hdoop MapReduce完成数据计算，通过Hive

jopen 2014-09-20 40840 0

分布式

查考site： http://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-site/YARN.html yarn结构图如下： 1、yarn

jopen 2016-01-19 9492 0

YARN 分布式/云计算/大数据

ZooKeeper是Hadoop的正式子项目，它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务

jopen 2013-07-08 41351 0

分布式/云计算/大数据 ZooKeeper

由 HDFS 提供的文件系统抽象管理。 Cubert 架构 Cubert 运行在 Hadoop 之上，新的框架可以抽象所有的存储到数据块，这将除了让操作者能帮助更好的管理数据之外，还能让其

jopen 2014-11-12 8535 0

Cubert

此外，Flink只需要三个命令就可以运行在Hadoop的新MapReduce框架Yarn上， 5. 完全兼容Hadoop Flink支持所有的Hadoop所有的输入/输出格式和数据类型，这就使得开

jopen 2015-01-16 16983 0

Apache Flink

类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值，Apache基金会提出了 Hadoop平台。该平台的MapReduce框架一步步发展，已经成为大数据处理的核心技术。然而，MapReduce刚刚“称霸”大数据不久，

jopen 2015-08-31 12885 0

Spark

1、就连最不看好微软的人都必须承认，该公司支持 Hadoop 开源架构的决定是极为正确的。微软决定放弃海量数据架构 Dryad 转而支持 Hadoop，主要是因为其客户不断要求能在 Hadoop 环境中储存、管理并分析各种数据。

fmms 2012-03-27 10377 0

微软

Appliance的其中一个组件，Big Data Appliance是一个集成了Hadoop、NoSQL Database、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。下面是NoSQL

fmms 2011-10-05 29330 1

NOSQL

和Web爬虫。 Nutch的创始人是 Doug Cutting ，他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch 诞生于2002年8月，是Apache旗下的一

jopen 2015-05-09 13572 0

Apache Nutch

esos kernel利用资源管理和调度的API在整个数据中心或云环境中运行和提供引用（例如，Hadoop，Spark，Kafaka，Elastic Search）。即Apache Mesos在整个数

jopen 2015-03-21 155049 0

集群/负载均衡 Apache Mesos

Massive Data Sets ， CS246H Mining Massive Data Sets: Hadoop Labs ， CS341 Project in Mining Massive Data Sets

jopen 2015-11-02 42372 0

数据挖掘

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据

jopen 2014-12-19 23822 1

Spark

这套卓越的开源方案。 9、 Hadoop Hadoop 项目与Apache关系密切，允许用户以分布式途径在计算机集群中处理大型数据集。Hadoop的设计思路涵盖了单一服务器到成千上万

jopen 2013-07-04 9838 0

开源项目

Facebook有数百个日志类别(categories)。 Hadoop and Hive Hadoop的是一个开源的map-reduce实现，使得它可以在进行大数据上进行运算。

jopen 2014-09-19 26739 0

Facebook

K-means Hadoop 的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

NOSQL 分布式数据挖掘开源项目 ZooKeeper 大数据 nutch 推荐引擎 Spark Cubert Apache Flink Apache Nutch Apache Mesos YARN 推荐系统集群/负载均衡分布式/云计算/大数据 Facebook NoSQL数据库

从业务驱动和技术实现角度谈腾讯大数据资讯

2016年，大数据还是回事么？资讯

HBase0.96安装步骤文档

Nutch的发展历程资讯

推荐系统大全Recommender Systems 经验

Apache Spark 1.6.1 发布，集群计算环境资讯

分布式数据库架构--排序、分页、分组、实现经验

yarn的初步理解经验

zookeeper安装经验

LinkedIn开源大数据计算引擎Cubert，并为此创建新的语言资讯

大数据分析引擎Apache Flink升级成为Apache顶级项目资讯

Spark之后，谁将接手大数据资讯

看好微软未来6大原因：放下了独裁者的身份资讯

Oracle 发布 NoSQL 数据库资讯

Apache Nutch 1.10 发布，搜索引擎资讯

Apache Mesos是什么？经验

数据挖掘的学习资源经验

开源分布式计算系统，Spark 1.2 发布资讯

10大引导世界技术革新的开源项目资讯

世界最大的PHP站点 Facebook后台技术探秘经验

K-means Hadoop 的相关搜索

关键词

从业务驱动和技术实现角度谈腾讯大数据 资讯

2016年，大数据还是回事么？ 资讯

HBase0.96安装步骤 文档

Nutch的发展历程 资讯

推荐系统大全Recommender Systems 经验

Apache Spark 1.6.1 发布，集群计算环境 资讯

分布式数据库架构--排序、分页、分组、实现 经验

yarn的初步理解 经验

zookeeper安装 经验

LinkedIn开源大数据计算引擎Cubert，并为此创建新的语言 资讯

大数据分析引擎Apache Flink升级成为Apache顶级项目 资讯

Spark之后，谁将接手大数据 资讯

看好微软未来6大原因：放下了独裁者的身份 资讯

Oracle 发布 NoSQL 数据库 资讯

Apache Nutch 1.10 发布，搜索引擎 资讯

Apache Mesos是什么？ 经验

数据挖掘的学习资源 经验

开源分布式计算系统，Spark 1.2 发布 资讯

10大引导世界技术革新的开源项目 资讯

世界最大的PHP站点 Facebook后台技术探秘 经验

K-means Hadoop 的相关搜索

关键词

从业务驱动和技术实现角度谈腾讯大数据资讯

2016年，大数据还是回事么？资讯

HBase0.96安装步骤文档

Nutch的发展历程资讯

Apache Spark 1.6.1 发布，集群计算环境资讯

分布式数据库架构--排序、分页、分组、实现经验

yarn的初步理解经验

zookeeper安装经验

LinkedIn开源大数据计算引擎Cubert，并为此创建新的语言资讯

大数据分析引擎Apache Flink升级成为Apache顶级项目资讯

Spark之后，谁将接手大数据资讯

看好微软未来6大原因：放下了独裁者的身份资讯

Oracle 发布 NoSQL 数据库资讯

Apache Nutch 1.10 发布，搜索引擎资讯

Apache Mesos是什么？经验

数据挖掘的学习资源经验

开源分布式计算系统，Spark 1.2 发布资讯

10大引导世界技术革新的开源项目资讯

世界最大的PHP站点 Facebook后台技术探秘经验