开源项目,开源代码,开源文档,开源新闻,开源社区

Hive 是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

fmms 2012-02-05 11519 0

Hive

P39

1安装客户端首先获得客户端软件，然后解压安装包（以下用$HADOOP_HOME代替hadoop客户端解压后的路径）： $ tar -xzvf hadoop-0.20.1-tdw-0.1-lite.tar.gz

gtimehero 2013-01-04 1102 1

数据挖掘手册

P11

以设置这个标志：Put.writeToWAL(boolean)。WAL log文件是一个标准的Hadoop SequenceFile（现在还在讨论是否应该把文件格式改成一个更适合HBase的格式）。在

dutianmin 2012-08-27 4513 0

分布式/云计算/大数据

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hi

jopen 2015-11-09 51967 1

Impala

一个叫katta的开源项目进入我的视线，它是一个分布式索引建立和管理工具，底层是hadoop的hdfs分布式文件系统，hadoop是当今云计算的热门使用项目，由apatch开源是一个海量数据的处理和存储方

fmms 2012-03-15 74648 0

分布式搜索引擎

器盒子的主要内容，而仅仅是一个装饰。热门: 几乎所有（没有使用 Hadoop 进行分析的）大数据技术冷门: （使用 Hadoop 的）大数据技术每个人都喜欢自己是圈子的大人物，如果不是，那就

cjan_ly 2017-05-15 33896 0

JavaScript

储所有的数据。对于任何记录，索引都可以快速地获取列上的数据。 Map-reduce的实现 Hadoop 的流数据处理效率非常高，列式存储的优点体现的淋漓极致。因此， HBase 和 Hypertable

jopen 2014-08-31 59438 0

数据库

P11

intelligence），海量数据的搜集和分析发展尤为迅速，意味着使用传统的数据仓库解决方案会变得极其昂贵。Hadoop是一个流行的开源框架，实现了map-reduce，使用普通硬件就能对海量数据进行存储和处理。然

xnbw 2016-01-12 526 0

分布式/云计算/大数据方案

，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase在列上实现了Bigtable 论文提到的压缩算法、内存操作和布隆过滤器。Base是Apache Hadoop的数据库，能够对

jopen 2014-12-03 22768 0

HBase NoSQL数据库

P28

SDC 插码分析 WEB LOG 分析 syslog 10. 二、底层平台-Hadoop/mapreduce Hadoop是一个分布式系统基础架构，由Apache基金会开发用户可以在不了解分布式底层细

hellokitty 2013-01-18 868 0

方案 Apache HTTP SQL Go

ODPS是分布式的海量数据处理平台，提供了丰富的数据处理功能和灵活的编程框架。本文从ODPS面临的挑战、技术架构、Hadoop迁移到ODPS、应用实践注意点等方面带领我们初步了解了ODPS的现状与前景。初识ODPS

jopen 2014-10-30 45061 0

ODPS 分布式/云计算/大数据

P13

linux-server host_name server-80 contact_groups hadoop_group#使用自己定义的联系人组 alias slave-80 address 10.2.1

小牛牛 2015-03-24 535 0

系统监控

关。了解 Twitter Storm、它的架构，以及批处理和流式处理解决方案的发展形势。 Hadoop（大数据分析领域无可争辩的王者）专注于批处理。这种模型对许多情形（比如为网页建立索引）已经足够，但还存在其他一些使用模型，它们

jopen 2012-12-05 35880 0

分布式/云计算/大数据 Twitter Storm

前言在使用hadoop集群的时候,所有的任务都是最终以Application的形式跑在集群中,不管你是自己写的MR程序亦或是你写的hive sql转化成的mr任务,最终都是以Application应用的身份在跑

jopen 2016-01-04 34807 0

分布式/云计算/大数据

Zookeeper监控 5. 图表展示 6. Master属性监控（HBase版本、作者、Hadoop版本...） 7. Master的RPC的统计软件环境：只支持Linux 使用框架

jopen 2013-08-01 52761 0

HBase 系统监控

http://d3kbcqa49mib13.cloudfront.net/spark-1.1.0-bin-hadoop1.tgz 如果你是奋发图强的好码农，你可以自己下载源码：http://github.com/apache/spark

jopen 2014-11-25 17404 0

Spark 分布式/云计算/大数据

高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。 kafka的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中的所有动作流数据。

jopen 2014-04-30 13444 0

消息系统 Apache Kafka

高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中的所有动作流数据。

jopen 2012-06-28 13178 0

Kafka

Photo / Tom Jester Hadoop创业公司Hortonworks最近在大数据产品Data Platform中增加了对Apache Kafka的支持，不过目前还处于技术预览模式。

jopen 2014-08-30 12640 0

Kafka

Appliance的其中一个组件，Big Data Appliance是一个集成了Hadoop、NoSQL Database、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。 Oracle NoSQL

码头工人 2019-01-17 856 0

NoSQL数据库

数据仓库平台 Apache Hive 0.8.1 发布资讯

腾讯TDW分布式数据仓库用户手册文档

HBase 存储架构文档

大数据分析查询引擎Impala 资讯

分布式搜索方案选型经验

21 个编程的热门/冷门趋势经验

五大主流数据库模型经验

Hive理论 Hive-基于Map-Reduce框架的数据仓库解决方案文档

非关系性分布式数据库：HBase 经验

基于协同过滤的商品推荐引擎文档

ODPS技术架构及应用实践经验

Nagios介绍以及安装文档

使用 Twitter Storm 处理实时的大数据经验

YARN批处理方式kill Applications解决方案经验

HBase集群监控工具：Ella 经验

Spark实战：单节点本地模式搭建Spark运行环境经验

分布式消息订阅：Apache Kafka 经验

分布式发布订阅消息系统，Apache Kafka 0.7.1-incubating 发布资讯

Hortonworks 集成 Kafka，领跑快数据资讯

NoSQL Database 开源项目

K-means Hadoop 的相关搜索

关键词

数据仓库平台 Apache Hive 0.8.1 发布 资讯

腾讯TDW分布式数据仓库用户手册 文档

HBase 存储架构 文档

大数据分析查询引擎Impala 资讯

分布式搜索方案选型 经验

21 个编程的热门/冷门趋势 经验

五大主流数据库模型 经验

Hive理论 Hive-基于Map-Reduce框架的数据仓库解决方案 文档