开源项目,开源代码,开源文档,开源新闻,开源社区

Apache HCatalog是基于Apache Hadoop之上的数据表和存储管理服务。包括：提供一个共享的模式和数据类型的机制。抽象出表，使用户不必关心他们的数据怎么存储。提供可操作的

jopen 2011-11-29 36236 0

些索引可以是不同的类型。当前该实现在Lucene和Hadoop mapfiles 让大型高负荷的索引变简单能为许多具有大型Lucene或Hadoop Mapfile 的索引碎片的服务器提供服务在不同服务器上复制碎片以保证性能和容错性

fmms 2012-02-06 15191 0

Hadoop Lucene 分布式/云计算/大数据

些索引可以是不同的类型。当前该实现在Lucene和Hadoop mapfiles 让大型高负荷的索引变简单能为许多具有大型Lucene或Hadoop Mapfile 的索引碎片的服务器提供服务在不同服务器上复制碎片以保证性能和容错性

openkk 2012-06-08 17729 0

存储系统分布式/云计算/大数据

apache.org/gora-0.6 >，还有一些重要的改进，新功能和依赖升级。最值得关注的是 Hadoop，HBase 和 Solr 依赖升级，还有关于 MongoDB 模块的重要 bug 修复。 Gora

jopen 2015-02-21 9740 0

Apache Gora

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low- cos

jopen 2012-09-10 15771 0

分布式分布式/云计算/大数据

Shifu 是一个针对 Hadoop 开源的，终端到终端的机器学习平台。Shifu为数据科学家而设计，简化构建机器学习模型的生命周期。特性：快速 - Shifu基于Hadoop，分布式神经网络

jopen 2014-07-30 28593 0

Shifu 机器学习

大数据的心脏Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。Hadoop 一直帮助解

jopen 2015-02-06 18854 0

开源

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google

pm45e 2015-08-03 19305 0

HBase

HDFS-RAID 是Facebook基于hadoop-20-append分支(第一代Hadoop)开发的raid方案，对HDFS的修改极少，主要包括为NameNode增加了根据block信息找到bl

jopen 2015-03-17 26058 0

HDFS 分布式/云计算/大数据

市场营销到医疗保健保险。既可以用来做市场营销模拟的建模，统计客户来源，保留和流失。也可用来预测疾病的风险和病患者的易感性。随机森林是一个可做能够回归和分类。它具备处理大数据的特性

jopen 2013-06-11 83811 0

Python Python开发

是从我们看来随机的样本中解释或测试一个总体的性质；而机器学习则更侧重于做出预测，即使这个预测缺乏完美的解释（也叫作「黑盒预测」）。今天，我们正在目睹机器学习向深度学习的范式转变，这个转变为机器学

jopen 2016-01-02 15659 0

数据挖掘统计学

P26

Hive是Hadoop项目中的一个子项目，由FaceBook向Apache基金会贡献，其中TaoBao也是其中一位使用者+贡献者，Hive被视为一个仓库工具，可以将结构化的数据文件映射为一张数据库表，并可以将sql语句转换为

hywhyw1985 2013-05-24 3884 0

分布式/云计算/大数据

P4

Ganglia的安装与配置 0 前记：之前由于Hadoop集群的搭建和数据的收集，再一次部署了Ganglia来收集系统层监测数据。虽然之前已经部署过一次，但是此次部

真不是梦 2017-01-05 1860 0

系统监控

服务。它需要满足高可用性、高性能、能随机读写、快速故障恢复、数据快照、回滚等特性。实现简述 hadoop dfs 可被看做一个可靠的、随时可扩展的“磁盘”；但美中不足的是其不能随机写，只能追加写入，

openkk 2012-06-05 14813 0

云计算分布式/云计算/大数据

和企业私有云的架构一样，对企业的大数据平台，我们很难直接去简单复制互联网的海量存储或计算平台技术，如Hadoop、HBase、 Spark；因为这些技术搭建的只是一个数据的基础设施，要在传统企业实施“大数据

jopen 2015-02-09 49157 0

OLAP 分布式/云计算/大数据

Hadoop ： Hadoop 在使用原理上基本上遵照了 Map 、 Reduce 这样的一种模式进行项目的实际开发与交互，将一个个任务分解成映射与合并两种方式，然而通过映射进行分类与简化，从而产

jopen 2015-07-08 17537 0

分布式分布式/云计算/大数据

P4

numPartitions); 函数返回对于的reduce task ID 用户也可以不提供Partitioner，这是Hadoop会使用默认的。 2.4 Combiner Combiner使得map task与reduce

gaofei8704 2013-06-19 624 0

分布式/云计算/大数据

最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache（一个开源软件的基金组织）的一个项目，由Apache 来负责维护，Pig是一个基于 Hadoop的大规模数据分析平

jopen 2015-01-10 18860 0

分布式/云计算/大数据 Apache Pig

org.apache.hadoop hadoop-common ${hadoop.version}

jopen 2016-01-12 10801 0

Hadoop 中文分词 Java

得知，Tachyon是一个高性能、高容错、基于内存的开源分布式存储系统，并具有类Java的文件API、插件式的底层文件系统、兼容Hadoop MapReduce和 Apache Spark 等特征。Tachyon能够为集群框架（如Sp

dy223 2015-03-26 11635 0

Tachyon

数据表和存储管理服务 HCatalog 经验

分布式存储系统 Katta 经验

分布式存储系统 Katta 经验

Apache Gora 0.6 发布，NoSQL 的 ORM 框架资讯

分布式文件系统 HDFSd 经验

机器学习框架：Shifu 经验

这7个开源技术支撑起整个互联网时代资讯

分布式NoSQL数据库，HBase 1.1.1 发布下载资讯

HDFS-RAID原理和实现经验

Python 实现的随机森林经验

机器学习与统计学是互补的吗？资讯

Hive and Hbase入门文档

ganglia的安装与配置文档

cloudxy 新一代弹性云计算平台经验

大数据的OLAP技术经验

常见分布式计算框架特点经验

MapReduce 程序编程框架文档

Apache Pig的前世今生经验

Pig + Ansj 统计中文文本词频经验

Tachyon：一个高性能、高容错、基于内存的开源分布式存储系统资讯

hadoop 电影票房预测的相关搜索

关键词

数据表和存储管理服务 HCatalog 经验

分布式存储系统 Katta 经验

分布式存储系统 Katta 经验

Apache Gora 0.6 发布，NoSQL 的 ORM 框架 资讯

分布式文件系统 HDFSd 经验

机器学习框架：Shifu 经验

这7个开源技术支撑起整个互联网时代 资讯

分布式NoSQL数据库，HBase 1.1.1 发布下载 资讯

HDFS-RAID原理和实现 经验

Python 实现的随机森林 经验

机器学习与统计学是互补的吗？ 资讯

Hive and Hbase入门 文档

ganglia的安装与配置 文档

cloudxy 新一代弹性云计算平台 经验

大数据的OLAP技术 经验

常见分布式计算框架特点 经验

MapReduce 程序编程框架 文档

Apache Pig的前世今生 经验

Pig + Ansj 统计中文文本词频 经验

Tachyon：一个高性能、高容错、基于内存的开源分布式存储系统 资讯

hadoop 电影票房预测 的相关搜索

关键词

Apache Gora 0.6 发布，NoSQL 的 ORM 框架资讯

这7个开源技术支撑起整个互联网时代资讯

分布式NoSQL数据库，HBase 1.1.1 发布下载资讯

HDFS-RAID原理和实现经验

Python 实现的随机森林经验

机器学习与统计学是互补的吗？资讯

Hive and Hbase入门文档

ganglia的安装与配置文档

cloudxy 新一代弹性云计算平台经验

大数据的OLAP技术经验

常见分布式计算框架特点经验

MapReduce 程序编程框架文档

Apache Pig的前世今生经验

Pig + Ansj 统计中文文本词频经验

Tachyon：一个高性能、高容错、基于内存的开源分布式存储系统资讯

hadoop 电影票房预测的相关搜索