Spark SQL 初探: 使用大数据分析2000万数据 经验

Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不

jopen 2014-12-11   177140   0
P9

  一位架构师谈海量计算存储 文档

上宣布,他们每天的数据净增量达到了1个PB,每个礼拜需要新增1000台服务器存储这些数据。 再来看看我们自己公司内部的情况,基于hadoop的云梯一群集已经达到了1400台服务器的规模,淘宝数据仓库的数据量已经达到了1PB(实际存储3

videostorm 2013-10-26   485   0

大型计算平台 HPCC 3.4 发布 资讯

是一个大规模并行处理计算平台,用于解决大数据问题。类似 Hadoop 平台。 The most obvious and direct competitor to Hadoop is HPCC Systems , an

fmms 2011-11-29   6897   1

数据表和存储管理服务 HCatalog 经验

Apache HCatalog是基于Apache Hadoop之上的数据表和存储管理服务。 包括: 提供一个共享的模式和数据类型的机制。 抽象出表,使用户不必关心他们的数据怎么存储。 提供可操作的

jopen 2011-11-29   36236   0
P7

  大数据存储和处理技术 文档

大数据存储和处理技术 • Hadoop:分布式存储和计算平台 • HDFS:分布式文件系统 • MapReduce:分布式计算框架 • NOSQL:分布式数据库 • MPP、内存计算与流计算平台 •

loveqiqi 2015-05-09   693   0

分布式存储系统 Katta 经验

些索引可以是不同的类型。当前该实现在Lucene和Hadoop mapfiles 让大型高负荷的索引变简单 能为许多具有大型Lucene或Hadoop Mapfile 的索引碎片的服务器提供服务 在不同服务器上复制碎片以保证性能和容错性

fmms 2012-02-06   15191   0

分布式存储系统 Katta 经验

些索引可以是不同的类型。当前该实现在Lucene和Hadoop mapfiles 让大型高负荷的索引变简单 能为许多具有大型Lucene或Hadoop Mapfile 的索引碎片的服务器提供服务 在不同服务器上复制碎片以保证性能和容错性

openkk 2012-06-08   17729   0

Apache Gora 0.6 发布,NoSQL 的 ORM 框架 资讯

apache.org/gora-0.6 >,还有一些重要的改进,新功能和依赖升级。最值得关注的是 Hadoop,HBase 和 Solr 依赖升级,还有关于 MongoDB 模块的重要 bug 修复。 Gora

jopen 2015-02-21   9740   0

分布式文件系统 HDFSd 经验

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low- cos

jopen 2012-09-10   15771   0

机器学习框架:Shifu 经验

Shifu 是一个针对 Hadoop 开源的,终端到终端的机器学习平台。Shifu为数据科学家而设计,简化构建机器学习模型的生命周期。 特性: 快速 - Shifu基于Hadoop,分布式神经网络

jopen 2014-07-30   28593   0

这7个开源技术支撑起整个互联网时代 资讯

大数据的心脏Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop 一 直帮助解

jopen 2015-02-06   18854   0
开源  

分布式NoSQL数据库,HBase 1.1.1 发布下载 资讯

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google

pm45e 2015-08-03   19305   0
HBase  

甲骨文预测:2017年大数据的变化趋势 资讯

根据企业管理者的观点,数据孤岛扩散难题成为普遍困扰。无论是面向 NoSQL、Spark 还是 Hadoop,现有数据库方案都将在新的一年中迎来更多协作对象。可以肯定的是,只要企业未有找到真正完美的存储

jopen 2017-02-16   17529   0

HDFS-RAID原理和实现 经验

HDFS-RAID 是Facebook基于hadoop-20-append分支(第一代Hadoop)开发的raid方案,对HDFS的修改极少,主要包括为NameNode增加了根据block信息找到bl

jopen 2015-03-17   26058   0
P64

  大数据智能分析解决方案介绍-ibm 文档

8. 大数据主要与大型数据集相关 在大数据的新世界中,我们必须更换所有陈旧系统 大数据就是 Hadoop 较为陈旧的事务数据已经不再重要 数据仓库已是昨日黄花 大数据适合熟知互联网的企业。传统业务与大数据毫无关系

guet_lee 2017-01-15   10670   0
P26

  Hive and Hbase入门 文档

 Hive是Hadoop项目中的一个子项目,由FaceBook向Apache基金会贡献,其中TaoBao也是其中一位使用者+贡献者,Hive被视为一个仓库工具,可以将结构化的数据文件映射为一张数据库表,并可以将sql语句转换为

hywhyw1985 2013-05-24   3884   0
P4

  ganglia的安装与配置 文档

Ganglia的安装与配置 0  前记:        之前由于Hadoop集群的搭建和数据的收集,再一次部署了Ganglia来收集系统层监测数据。        虽然之前已经部署过一次,但是此次部

真不是梦 2017-01-05   1860   0

cloudxy 新一代弹性云计算平台 经验

服务。它需要满足高可用性、高性能、能随机读写、快速故障恢复、数据快照、回滚等特性。 实现简述 hadoop dfs 可被看做一个可靠的、随时可扩展的“磁盘”;但美中不足的是其不能随机写,只能追加写入,

openkk 2012-06-05   14813   0

大数据的OLAP技术 经验

和企业私有云的架构一样,对企业的大数据平台,我们很难直接去简单复制互联网的海量存储或计算平台技术,如Hadoop、HBase、 Spark;因为这些技术搭建的只是一个数据的基础设施,要在传统企业实施“大数据

jopen 2015-02-09   49157   0

常见分布式计算框架特点 经验

HadoopHadoop 在使用原理上基本上遵照了 Map 、 Reduce 这样的一种模式进行项目的实际开发与交互,将一个个任务分解成映射与合并两种方式,然而通过映射进行分类与简化,从而产

jopen 2015-07-08   17537   0
1 2 3 4 5 6 7 8 9 10