开源项目,开源代码,开源文档,开源新闻,开源社区

Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不

jopen 2014-12-11 177140 0

Spark SQL 分布式/云计算/大数据

P9

上宣布，他们每天的数据净增量达到了1个PB，每个礼拜需要新增1000台服务器存储这些数据。再来看看我们自己公司内部的情况，基于hadoop的云梯一群集已经达到了1400台服务器的规模，淘宝数据仓库的数据量已经达到了1PB（实际存储3

videostorm 2013-10-26 485 0

分布式/云计算/大数据

是一个大规模并行处理计算平台，用于解决大数据问题。类似 Hadoop 平台。 The most obvious and direct competitor to Hadoop is HPCC Systems , an

fmms 2011-11-29 6897 1

云计算

Apache HCatalog是基于Apache Hadoop之上的数据表和存储管理服务。包括：提供一个共享的模式和数据类型的机制。抽象出表，使用户不必关心他们的数据怎么存储。提供可操作的

jopen 2011-11-29 36236 0

分布式分布式/云计算/大数据

P7

大数据存储和处理技术 • Hadoop:分布式存储和计算平台 • HDFS：分布式文件系统 • MapReduce：分布式计算框架 • NOSQL：分布式数据库 • MPP、内存计算与流计算平台 •

loveqiqi 2015-05-09 693 0

分布式/云计算/大数据

些索引可以是不同的类型。当前该实现在Lucene和Hadoop mapfiles 让大型高负荷的索引变简单能为许多具有大型Lucene或Hadoop Mapfile 的索引碎片的服务器提供服务在不同服务器上复制碎片以保证性能和容错性

fmms 2012-02-06 15191 0

Hadoop Lucene 分布式/云计算/大数据

些索引可以是不同的类型。当前该实现在Lucene和Hadoop mapfiles 让大型高负荷的索引变简单能为许多具有大型Lucene或Hadoop Mapfile 的索引碎片的服务器提供服务在不同服务器上复制碎片以保证性能和容错性

openkk 2012-06-08 17729 0

存储系统分布式/云计算/大数据

apache.org/gora-0.6 >，还有一些重要的改进，新功能和依赖升级。最值得关注的是 Hadoop，HBase 和 Solr 依赖升级，还有关于 MongoDB 模块的重要 bug 修复。 Gora

jopen 2015-02-21 9740 0

Apache Gora

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low- cos

jopen 2012-09-10 15771 0

分布式分布式/云计算/大数据

Shifu 是一个针对 Hadoop 开源的，终端到终端的机器学习平台。Shifu为数据科学家而设计，简化构建机器学习模型的生命周期。特性：快速 - Shifu基于Hadoop，分布式神经网络

jopen 2014-07-30 28593 0

Shifu 机器学习

大数据的心脏Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。Hadoop 一直帮助解

jopen 2015-02-06 18854 0

开源

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google

pm45e 2015-08-03 19305 0

HBase

根据企业管理者的观点，数据孤岛扩散难题成为普遍困扰。无论是面向 NoSQL、Spark 还是 Hadoop，现有数据库方案都将在新的一年中迎来更多协作对象。可以肯定的是，只要企业未有找到真正完美的存储

jopen 2017-02-16 17529 0

Oracle 云计算

HDFS-RAID 是Facebook基于hadoop-20-append分支(第一代Hadoop)开发的raid方案，对HDFS的修改极少，主要包括为NameNode增加了根据block信息找到bl

jopen 2015-03-17 26058 0

HDFS 分布式/云计算/大数据

P64

8. 大数据主要与大型数据集相关在大数据的新世界中，我们必须更换所有陈旧系统大数据就是 Hadoop 较为陈旧的事务数据已经不再重要数据仓库已是昨日黄花大数据适合熟知互联网的企业。传统业务与大数据毫无关系

guet_lee 2017-01-15 10670 0

分布式/云计算/大数据方案报告 Intel C/C++

P26

Hive是Hadoop项目中的一个子项目，由FaceBook向Apache基金会贡献，其中TaoBao也是其中一位使用者+贡献者，Hive被视为一个仓库工具，可以将结构化的数据文件映射为一张数据库表，并可以将sql语句转换为

hywhyw1985 2013-05-24 3884 0

分布式/云计算/大数据

P4

Ganglia的安装与配置 0 前记：之前由于Hadoop集群的搭建和数据的收集，再一次部署了Ganglia来收集系统层监测数据。虽然之前已经部署过一次，但是此次部

真不是梦 2017-01-05 1860 0

系统监控

服务。它需要满足高可用性、高性能、能随机读写、快速故障恢复、数据快照、回滚等特性。实现简述 hadoop dfs 可被看做一个可靠的、随时可扩展的“磁盘”；但美中不足的是其不能随机写，只能追加写入，

openkk 2012-06-05 14813 0

云计算分布式/云计算/大数据

和企业私有云的架构一样，对企业的大数据平台，我们很难直接去简单复制互联网的海量存储或计算平台技术，如Hadoop、HBase、 Spark；因为这些技术搭建的只是一个数据的基础设施，要在传统企业实施“大数据

jopen 2015-02-09 49157 0

OLAP 分布式/云计算/大数据

Hadoop ： Hadoop 在使用原理上基本上遵照了 Map 、 Reduce 这样的一种模式进行项目的实际开发与交互，将一个个任务分解成映射与合并两种方式，然而通过映射进行分类与简化，从而产

jopen 2015-07-08 17537 0

分布式分布式/云计算/大数据

Spark SQL 初探：使用大数据分析2000万数据经验

一位架构师谈海量计算存储文档

大型计算平台 HPCC 3.4 发布资讯

数据表和存储管理服务 HCatalog 经验

大数据存储和处理技术文档

分布式存储系统 Katta 经验

分布式存储系统 Katta 经验

Apache Gora 0.6 发布，NoSQL 的 ORM 框架资讯

分布式文件系统 HDFSd 经验

机器学习框架：Shifu 经验

这7个开源技术支撑起整个互联网时代资讯

分布式NoSQL数据库，HBase 1.1.1 发布下载资讯

甲骨文预测：2017年大数据的变化趋势资讯

HDFS-RAID原理和实现经验

大数据智能分析解决方案介绍-ibm 文档

Hive and Hbase入门文档

ganglia的安装与配置文档

cloudxy 新一代弹性云计算平台经验

大数据的OLAP技术经验

常见分布式计算框架特点经验

K-means Hadoop 的相关搜索

关键词

Spark SQL 初探： 使用大数据分析2000万数据 经验

一位架构师谈海量计算存储 文档

大型计算平台 HPCC 3.4 发布 资讯

数据表和存储管理服务 HCatalog 经验

大数据存储和处理技术 文档

分布式存储系统 Katta 经验

分布式存储系统 Katta 经验

Apache Gora 0.6 发布，NoSQL 的 ORM 框架 资讯

分布式文件系统 HDFSd 经验

机器学习框架：Shifu 经验

这7个开源技术支撑起整个互联网时代 资讯

分布式NoSQL数据库，HBase 1.1.1 发布下载 资讯

甲骨文预测：2017年大数据的变化趋势 资讯

HDFS-RAID原理和实现 经验

大数据智能分析解决方案介绍-ibm 文档

Hive and Hbase入门 文档

ganglia的安装与配置 文档

cloudxy 新一代弹性云计算平台 经验

大数据的OLAP技术 经验

常见分布式计算框架特点 经验

K-means Hadoop 的相关搜索

关键词

Spark SQL 初探：使用大数据分析2000万数据经验

一位架构师谈海量计算存储文档

大型计算平台 HPCC 3.4 发布资讯

大数据存储和处理技术文档

Apache Gora 0.6 发布，NoSQL 的 ORM 框架资讯

这7个开源技术支撑起整个互联网时代资讯

分布式NoSQL数据库，HBase 1.1.1 发布下载资讯

甲骨文预测：2017年大数据的变化趋势资讯

HDFS-RAID原理和实现经验

Hive and Hbase入门文档

ganglia的安装与配置文档

cloudxy 新一代弹性云计算平台经验

大数据的OLAP技术经验

常见分布式计算框架特点经验