开源项目,开源代码,开源文档,开源新闻,开源社区

P31

HBase Features(Cont.)和Hadoop无缝集成 Hadoop分析后的结果可直接写入HBase；存放在HBase的数据可直接通过Hadoop来进行分析。 12. HBase能用于Online场景吗？Why

hadoopfans 2011-08-16 4086 0

P27

Cassandra(FB) Elasticsearch Hadoop 基于Hadoop及Elasticsearch的大数据存储根据不同的业务需求选择适合的技术方案云智慧选择Hadoop及Elasticsearch作为最终存储系统

cd62 2015-01-29 509 0

Python开发方案报告 Apache Python

P11

org/hadoop/HiveHIVE入门刘春安 2. Hive定义，作用数据类型创建表查看表结构命令修改表导入数据编写HQL 自定义函数目录 3. Hive 是建立在 Hadoop 上的数

kunshou 2012-09-13 533 0

分布式/云计算/大数据 SQL

QJM源码分析 Hadoop QJM的实现用到了paxos算法，pasos算法是是莱斯利·兰伯特于1990年提出的一种基于消息传递的一致性算法。这个算法被认为是类似算法中最有效的。pasos算法用在hadoop

光荣复兴 2014-03-30 1921 0

P50

千兆网络,分层负载均衡-lvs Terracotta, JVM-level cluster 存储池-hadoop 数据库集群-Continuent,squeoia,mysql 自动化维护管理-cfengine+SVN

huafenged 2011-08-18 518 0

集群集群/负载均衡方案 HTTP Go

引言 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系

yun007x 2010-12-28 6248 0

分布式/云计算/大数据

P29

阿里云（云计算服务团队）淘宝/一淘（网页抓取团队）技术方向：搜索离线系统2 3. 提纲搜索离线系统技术体系 Hadoop-2.0 YARN介绍 Stream Service 计算模型 Stream Service 服务调度

defeqw 2015-11-30 546 0

搜索引擎 SQL

P17

Avro简介一、avro产生的背景 Avro（读音类似于[ævrə]）是Hadoop的一个子项目，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人）牵头开发，当前最新版本1

zhangym 2014-11-26 1225 0

数据（有可能重复），如何找出这三十台机器中，根据某关键字，重复出现次数最多的前100条？要求用Hadoop来做。 (4) 设计一个系统，要求写速度尽可能高，说明设计原理。 (5) 设计一个高并发系统，说明架构和关键技术要点。

wujiuliu 2013-06-01 8501 0

面试题目试题

P27

术服务基础服务项目实施流程数据工场产品架构 11. Hadoop MRJob/Task级别运行日志MR级别运行日志各个环节延迟系统吞吐Hadoop HDFS文件Meta目录Meta文件，目录统计信息权

lxz 2014-01-03 2361 0

分布式/云计算/大数据方案培训 HTTP Java

P44

database）、分布式搜索后端（distributed search backend）、 Hadoop以及第一代和第二代键值数据存储（key-value store），而且这套系统一直运行至今。

june.zk 2016-09-12 479 0

P19

processing. Speed Ease of Use Generality Integrated with Hadoop 3. Spark Ecosystem 4. What is spark streamingSpark

nn34 2014-12-16 789 0

分布式/云计算/大数据报告 Apache

P19

processing. Speed Ease of Use Generality Integrated with Hadoop 3. Spark Ecosystem 4. What is spark streamingSpark

jszhaogy 2016-01-28 387 0

Spark 分布式/云计算/大数据

P19

举个例子，用户输入语句：lucene AND learned NOT hadoop。说明用户想找一个包含lucene和learned然而不包括hadoop的文档。第二步：对查询语句进行词法分析，语法分析，及语言处理。

jianhu01 2012-07-01 3204 0

搜索引擎

hbase master 占一台，其他7台作为hbase的region server 注意：此处不讨论hadoop 情景：我们有7亿的数据，需要做查询操作，需要从1.7亿的表中查找一个字段，并写入到7亿数据的表中。

beauty2003 2016-05-10 2312 0

P18

shtml hadoop： Yahoo！在06年雇佣Doug Cotting，希望通过支持Hadoop来提高其计算能力，以对抗Google的GFS。Hadoop实现了一个分布式文件系统(Hadoop Distributed

gonow86 2013-01-30 680 0

分布式/云计算/大数据

P48

是为分布式应用程序提供高性能协调服务的工具集合，也是Google的Chubby一个开源的实现，是Hadoop 的分布式协调服务。它包含一个简单的原语集5，分布式应用程序可以基于它实现配置维护、命名服务、

sum154346 2017-07-25 1698 0

分布式/云计算/大数据方案报告 Apache Clojure

P31

ParallelGzipCsvInput Parallel GZIP CSV file input reader 79 Hadoop File Input Big Data HadoopFileInputPlugin Read

chiangandy 2017-04-01 981 0

数据挖掘教学手册 HTTP Go

的：高效存储HBase数据。它基于Hadoop的TFile类，模仿了Google的Bigtable架构中使用的SSTable格式。之前HBase采用的是Hadoop MapFile类，实践证明性能不够高。图8展示了具体的文件格式：

lanbocui 2012-08-21 2112 0

分布式/云计算/大数据

P60

Case 2 –hadoop HBase& Hive2003年Google三篇论文:GFS,MapReduce,Bigtable Hbase是一个分布式开源数据库，基于Hadoop分布式文件系统，模

xrogzu 2015-11-13 731 0

方案 Apache HTTP Java Go

Hadoop 的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

Apache Hadoop RHadoop HadoopDB RedHadoop Hadoop2 Hadoop大数据精通Hadoop Hadoop YARN Awesome Hadoop HadoopDoctor Hadoop MapReduce Spring for Apache Hadoop Hadoop2015 Hadoop 大数据 Python Java SQL Clojure Apache 搜索引擎 Hadoop HTTP 数据挖掘 Spark Basic Python开发集群/负载均衡分布式/云计算/大数据面试题目

毕玄-HBase简介与实践分享文档

APM Python Application Performance 文档

HIVE 入门文档

QJM源码分析文档

Java计算池技术架构文档

HDFS架构设计文档

搜索离线生产集群中的流计算文档

Avro 简介中文文档文档

系统设计面试题思路综述文档

淘宝数据应用开发平台idata 文档

the log：每个程序员都应该知道有关实时数据的统一抽象文档

Spark streaming 的监控和优化文档

Spark streaming 的监控和优化文档

全文检索原理文档

hbase优化文档

淘宝TFS 文档

大数据（离线/实时）计算架构文档

pentaho61教学文件文档

HBase Architecture(译)：上（2）文档

开源的SaaS解决方案_0.9 文档

Hadoop 的相关搜索

关键词

毕玄-HBase简介与实践分享 文档

APM Python Application Performance 文档

HIVE 入门 文档

QJM源码分析 文档

Java计算池技术架构 文档

HDFS架构设计 文档

搜索离线生产集群中的流计算 文档

Avro 简介中文文档 文档

系统设计面试题思路综述 文档

淘宝数据应用开发平台idata 文档

the log：每个程序员都应该知道有关实时数据的统一抽象 文档

Spark streaming 的监控和优化 文档

Spark streaming 的监控和优化 文档

全文检索原理 文档

hbase优化 文档

淘宝TFS 文档

大数据（离线/实时）计算架构 文档

pentaho61教学文件 文档

HBase Architecture(译)：上（2） 文档

开源的SaaS解决方案_0.9 文档

Hadoop 的相关搜索

关键词

毕玄-HBase简介与实践分享文档

HIVE 入门文档

QJM源码分析文档

Java计算池技术架构文档

HDFS架构设计文档

搜索离线生产集群中的流计算文档

Avro 简介中文文档文档

系统设计面试题思路综述文档

the log：每个程序员都应该知道有关实时数据的统一抽象文档

Spark streaming 的监控和优化文档

Spark streaming 的监控和优化文档

全文检索原理文档

hbase优化文档

大数据（离线/实时）计算架构文档

pentaho61教学文件文档

HBase Architecture(译)：上（2）文档