数据表和存储管理服务 HCatalog 经验

Apache HCatalog是基于Apache Hadoop之上的数据表和存储管理服务。 包括: 提供一个共享的模式和数据类型的机制。 抽象出表,使用户不必关心他们的数据怎么存储。 提供可操作的

jopen 2011-11-29   36236   0

分布式存储系统 Katta 经验

些索引可以是不同的类型。当前该实现在Lucene和Hadoop mapfiles 让大型高负荷的索引变简单 能为许多具有大型Lucene或Hadoop Mapfile 的索引碎片的服务器提供服务 在不同服务器上复制碎片以保证性能和容错性

fmms 2012-02-06   15191   0

分布式存储系统 Katta 经验

些索引可以是不同的类型。当前该实现在Lucene和Hadoop mapfiles 让大型高负荷的索引变简单 能为许多具有大型Lucene或Hadoop Mapfile 的索引碎片的服务器提供服务 在不同服务器上复制碎片以保证性能和容错性

openkk 2012-06-08   17729   0

Apache Gora 0.6 发布,NoSQL 的 ORM 框架 资讯

apache.org/gora-0.6 >,还有一些重要的改进,新功能和依赖升级。最值得关注的是 Hadoop,HBase 和 Solr 依赖升级,还有关于 MongoDB 模块的重要 bug 修复。 Gora

jopen 2015-02-21   9740   0

分布式文件系统 HDFSd 经验

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low- cos

jopen 2012-09-10   15771   0

机器学习框架:Shifu 经验

Shifu 是一个针对 Hadoop 开源的,终端到终端的机器学习平台。Shifu为数据科学家而设计,简化构建机器学习模型的生命周期。 特性: 快速 - Shifu基于Hadoop,分布式神经网络

jopen 2014-07-30   28593   0

这7个开源技术支撑起整个互联网时代 资讯

大数据的心脏Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop 一 直帮助解

jopen 2015-02-06   18854   0
开源  

分布式NoSQL数据库,HBase 1.1.1 发布下载 资讯

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google

pm45e 2015-08-03   19305   0
HBase  

HDFS-RAID原理和实现 经验

HDFS-RAID 是Facebook基于hadoop-20-append分支(第一代Hadoop)开发的raid方案,对HDFS的修改极少,主要包括为NameNode增加了根据block信息找到bl

jopen 2015-03-17   26058   0

Python 实现的随机森林 经验

市场营销到医疗保健保险。 既可以用来做 市场营销模拟的建模 ,统计客户来源,保留和流失。也可用来 预测疾病的风险 和病患者的易感性。 随机森林是一个可做能够回归和分类。 它具备处理大数据的特性

jopen 2013-06-11   83811   0

机器学习与统计学是互补的吗? 资讯

是从我们看来随机的样本中解释或测试一个总体的性质;而机器学习则更侧重于做出预测,即使这个预测缺乏完美的解释(也叫作「黑盒预测」)。 今天,我们正在目睹机器学习向深度学习的范式转变,这个转变为机器学

jopen 2016-01-02   15659   0
P26

  Hive and Hbase入门 文档

 Hive是Hadoop项目中的一个子项目,由FaceBook向Apache基金会贡献,其中TaoBao也是其中一位使用者+贡献者,Hive被视为一个仓库工具,可以将结构化的数据文件映射为一张数据库表,并可以将sql语句转换为

hywhyw1985 2013-05-24   3884   0
P4

  ganglia的安装与配置 文档

Ganglia的安装与配置 0  前记:        之前由于Hadoop集群的搭建和数据的收集,再一次部署了Ganglia来收集系统层监测数据。        虽然之前已经部署过一次,但是此次部

真不是梦 2017-01-05   1860   0

cloudxy 新一代弹性云计算平台 经验

服务。它需要满足高可用性、高性能、能随机读写、快速故障恢复、数据快照、回滚等特性。 实现简述 hadoop dfs 可被看做一个可靠的、随时可扩展的“磁盘”;但美中不足的是其不能随机写,只能追加写入,

openkk 2012-06-05   14813   0

大数据的OLAP技术 经验

和企业私有云的架构一样,对企业的大数据平台,我们很难直接去简单复制互联网的海量存储或计算平台技术,如Hadoop、HBase、 Spark;因为这些技术搭建的只是一个数据的基础设施,要在传统企业实施“大数据

jopen 2015-02-09   49157   0

常见分布式计算框架特点 经验

HadoopHadoop 在使用原理上基本上遵照了 Map 、 Reduce 这样的一种模式进行项目的实际开发与交互,将一个个任务分解成映射与合并两种方式,然而通过映射进行分类与简化,从而产

jopen 2015-07-08   17537   0
P4

  MapReduce 程序编程框架 文档

numPartitions); 函数返回 对于的reduce task ID 用户也可以不提供Partitioner,这是Hadoop会使用默认的。 2.4 Combiner Combiner使得map task与reduce

gaofei8704 2013-06-19   624   0

Apache Pig的前世今生 经验

最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Apache 来负责维护,Pig是一个基于 Hadoop的大规模数据分析平

jopen 2015-01-10   18860   0

Pig + Ansj 统计中文文本词频 经验

org.apache.hadoop hadoop-common ${hadoop.version}

jopen 2016-01-12   10801   0

Tachyon:一个高性能、高容错、基于内存的开源分布式存储系统 资讯

得知,Tachyon是一个高性能、高容错、基于内存的开源分布式存储系统,并具有类Java的文件API、插件式的底层文件系统、兼容Hadoop MapReduce和 Apache Spark 等特征。Tachyon能够为集群框架(如Sp

dy223 2015-03-26   11635   0
Tachyon  
1 2 3 4 5 6 7 8 9 10