数据仓库平台 Apache Hive 0.8.1 发布 资讯

Hive 是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

fmms 2012-02-05   11519   0
Hive  
P39

  腾讯TDW分布式数据仓库用户手册 文档

1安装客户端 首先获得客户端软件,然后解压安装包(以下用$HADOOP_HOME代替hadoop客户端解压后的路径): $ tar -xzvf hadoop-0.20.1-tdw-0.1-lite.tar.gz

gtimehero 2013-01-04   1102   1
P11

  HBase 存储架构 文档

以设置这个标志:Put.writeToWAL(boolean)。WAL log文件是一个标准的Hadoop SequenceFile(现在还在讨论是否应该把文件格式改成一个更适合HBase的格式)。在

dutianmin 2012-08-27   4513   0

大数据分析查询引擎Impala 资讯

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数 据。已有的Hive系统虽然也提供了SQL语义,但由于Hi

jopen 2015-11-09   51967   1
Impala  

分布式搜索方案选型 经验

一个叫katta的开源项目进入我的视线,它是一个分布式索引建立和管理工具,底层是hadoop的hdfs分布式文件系统,hadoop是当今云计算的热门使 用项目,由apatch开源是一个海量数据的处理和存储方

fmms 2012-03-15   74648   0

21 个编程的热门/冷门趋势 经验

器盒子的主要内容,而仅仅是一个装饰。 热门: 几乎所有(没有使用 Hadoop 进行分析的)大数据技术 冷门: (使用 Hadoop 的)大数据技术 每个人都喜欢自己是圈子的大人物,如果不是,那就

cjan_ly 2017-05-15   33896   0

五大主流数据库模型 经验

储所有的数据。对于任何记录,索引都可以快速地获取列上的数据。 Map-reduce的实现 Hadoop 的流数据处理效率非常高,列式存储的优点体现的淋漓极致。因此, HBase 和 Hypertable

jopen 2014-08-31   59438   0
P11

  Hive理论 Hive-基于Map-Reduce框架的数据仓库解决方案 文档

intelligence),海量数据的搜集和分析发展尤为迅速,意味着使用传统的数据仓库解决方案会变得极其昂贵。Hadoop是一个流行的开源框架,实现了map-reduce,使用普通硬件就能对海量数据进行存储和处理。然

xnbw 2016-01-12   526   0

非关系性分布式数据库:HBase 经验

,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase在列上实现了Bigtable 论文提到的压缩算法、内存操作和布隆过滤器。Base是Apache Hadoop的数据库,能够对

jopen 2014-12-03   22768   0
P28

  基于协同过滤的商品推荐引擎 文档

SDC 插码分析 WEB LOG 分析 syslog 10. 二、底层平台-Hadoop/mapreduce Hadoop是一个分布式系统基础架构,由Apache基金会开发用户可以在不了解分布式底层细

hellokitty 2013-01-18   868   0
方案   Apache   HTTP   SQL   Go  

ODPS技术架构及应用实践 经验

ODPS是分布式的海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架。本文从ODPS面临的挑战、技术架构、Hadoop迁移到ODPS、应用实践注意点等方面带领我们初步了解了ODPS的现状与前景。 初识ODPS

jopen 2014-10-30   45061   0
P13

  Nagios介绍以及安装 文档

linux-server host_name server-80 contact_groups hadoop_group#使用自己定义的联系人组 alias slave-80 address 10.2.1

小牛牛 2015-03-24   535   0

使用 Twitter Storm 处理实时的大数据 经验

关。了解 Twitter Storm、它的架构,以及批处理和流式处理解决方案的发展形势。 Hadoop(大数据分析领域无可争辩的王者)专注于批处理。这种模型对许多情形(比如为网页建立索引)已经足够,但还存在其他一些使用模型,它们

jopen 2012-12-05   35880   0

YARN批处理方式kill Applications解决方案 经验

前言 在使用hadoop集群的时候,所有的任务都是最终以Application的形式跑在集群中,不管你是自己写的MR程序亦或是你写的hive sql转化成的mr任务,最终都是以Application应用的身份在跑

jopen 2016-01-04   34807   0

HBase集群监控工具:Ella 经验

Zookeeper监控 5. 图表展示 6. Master属性监控(HBase版本、作者、Hadoop版本...) 7. Master的RPC的统计 软件环境: 只支持Linux 使用框架

jopen 2013-08-01   52761   0

Spark实战:单节点本地模式搭建Spark运行环境 经验

http://d3kbcqa49mib13.cloudfront.net/spark-1.1.0-bin-hadoop1.tgz 如果你是奋发图强的好码农,你可以自己下载源码:http://github.com/apache/spark

jopen 2014-11-25   17404   0

分布式消息订阅:Apache Kafka 经验

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 kafka的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2014-04-30   13444   0

分布式发布订阅消息系统,Apache Kafka 0.7.1-incubating 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2012-06-28   13178   0
Kafka  

Hortonworks 集成 Kafka,领跑快数据 资讯

Photo / Tom Jester Hadoop创业公司Hortonworks最近在大数据产品Data Platform中增加了对Apache Kafka的支持,不过目前还处于技术预览模式。

jopen 2014-08-30   12640   0
Kafka  

NoSQL Database 开源项目

Appliance的其中一个组件,Big Data Appliance是一个集成了Hadoop、NoSQL Database、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。 Oracle NoSQL

码头工人 2019-01-17   856   0
1 2 3 4 5 6 7 8 9 10