数据序列化系统 Apache Avro 经验

Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的 创始人Doug Cutting(也是Lucene,Nutch等项目的创始人)牵头开发。Avro是一个数据序列化系统,设计用于支持大

openkk 2012-04-11   25237   0

数据仓库平台,Apache Hive 0.9.0 发布 资讯

发布,该版本包含大量新特性、改进和 bug 修复,详情请看 改进记录 。 Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能

fmms 2012-04-30   13948   0

NoSQL 的 ORM 框架,Apache Gora 0.6.1 发布 资讯

Apache Avro 1.7.6 Apache Hadoop 1.2.1 and 2.5.2 Apache HBase 0.98.8-hadoop2 (although also tested with

jopen 2015-09-16   9092   0

Facebook测试屏幕跟踪软件 资讯

,Facebook 将利用一个定制版本的 Hadoop。Facebook 不是第一家这么做的公司,营销公司 Shutterstock 也是利用 Hadoop 分布式文件系统分析用户在网站上的光标移动数据。

jopen 2013-10-31   7942   0

JSON查询语言 Jaql 经验

理。使用 Hadoop 的 Map-Reduce 作为并行计算平台。 Jaql最终设计目标包括: 半结构化分析:实现易于操作和分析JSON数据 并行处理:Jaql查询能够利用Hadoop的Map-

openkk 2011-12-18   25975   0

NoSQL的ORM框架 Apache Gora 经验

MySQL, HSQLDB, flat files in local file system of Hadoop HDFS. Data Access : An easy to use Java-friendly

jopen 2012-02-03   33934   0
P82

  京东金融大数据分析平台总体架构-v1.0 文档

层外部大数据商城系统Hadoop元数据云数据推送平台数据平台导入临时区数据平台导出临时区NAS 存储ETL程序区 10. 大数据分析平台总体架构——数据交换层NAS存储Hadoop集群元数据区数据平台

guet_lee 2017-01-12   6513   0

学习笔记:The Log(我所读过的最好的一篇分布式技术文章) 经验

1 Log的价值 1) Log是如下系统的核心: 分布式图数据库 分布式搜索引擎 Hadoop 第一代和第二代K-V数据库 2) Log可能跟计算机的历史一样长,并且是分布式数据系统和实时计算系统的核心。

jopen 2015-07-20   53392   0

那些年,追过的开源软件和技术 问答

图(views)的结构。 搜索 Nutch :是一个开源Java 实现的搜索引擎,当时Hadoop的前身就是为了做这个项目。 Lucene :基于Java的全文检索引擎,很有名也非常强大,

jopen 2015-03-09   47481   5

腾讯宣布推出第三代高性能机器学习计算平台Angel 并于2017年全面开源 资讯

能力也不落后于美国。 过去几年,获得冠军的团队,用的基本上都是Hadoop和Spark,其实腾讯的大数据平台,也是始于Hadoop的。 我们之所以能获得四项的冠军,是我们经历了几年的打磨,追求

jopen 2016-12-19   44892   0
P10

  HBase Architecture(中) 文档

现顺序化存储优化,以得到最好的IO性能。 1.3.  HLogKey类 当前的WAL实现采用了Hadoop SequenceFile,它会将记录存储为一系列的key/values。对于WAL来说,va

lanbocui 2012-08-21   2232   0

Apache Kylin 综述 经验

Kylin是一个开源的 分布式分析引擎 ,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力(可以把Kylin定义为 OLAP on Hadoop )。Apache Kylin于2015年1

caotans 2017-01-04   26137   0

淘宝开放平台技术历程 经验

了第一个1000w日均调用,此时两个互联网的新兴技术开始在开放平台中尝试,Memcached和Hadoop。今天看来这两个技术已经被大规模使用,2008年时却是在吃螃蟹,2 台虚拟机要抗1000w的路

jopen 2012-10-14   98746   0
P39

  Mahout in Action 中文版 文档

法处理情况下的机器学习工具。在目前阶段,这种可伸缩性由java实现,有些部分基于Apache Hadoop这个分布式计算框架实现。 Mahout是java库。它不支持用户接口,预装好的服务器。以及安装

Mon 2013-12-01   5643   0
P8

  RocketMQ-原理简析(适合初级使用者) 文档

息存储可以分布式集群化,具有了水平扩展的能力。 作者 何鹏 关注分布式存储与计算相关框架,包括Hadoop、YARN、HBase、Storm、Spark、MQ等 peng.he.ia@gmail.com

657226016 2018-05-20   885   0

百分点个性化推荐引擎的学习 经验

安全可靠。根据不同的应用需求,存储层细分为Redis集群,Membase集群,MySQL集群和Hadoop/HDFS四类。 Redis集群。百分点推荐引擎采用了Redis作为缓存,用于存储热门数据,包

jopen 2014-12-01   52321   0

每天近百亿条用户数据,携程大数据高并发应用架构涅槃 经验

HDFS是携程海量数据的主要存储,两者来自Hadoop 生态体系。Hadoop 这块大家已经很熟悉, 如果不熟悉的同学只要知道Hadoop 主要用于大数据量存储和并行计算批处理工作。 Hive 是基于Hadoop平台的数据仓库

每天TB级数据处理,携程大数据高并发应用架构涅槃 经验

HDFS是携程海量数据的主要存储,两者来自Hadoop 生态体系。Hadoop 这块大家已经很熟悉, 如果不熟悉的同学只要知道Hadoop 主要用于大数据量存储和并行计算批处理工作。 Hive 是基于Hadoop平台的数据仓库

Hive配置运行及表的操作 经验

Hive-default.xml l  Hadoop-site.xml(或core-site.xml等) l  Hadoop-default.xml 注意:以上提到的hadoop-site.xml及haddop-default

jopen 2014-01-28   42701   0

HBase优化实战 经验

HBase写入缓慢,查看HBase日志,经常有慢日志如下: WARN org.apache.hadoop.ipc.HBaseServer- (responseTooSlow): {“processingtimems”:36096

jopen 2015-12-05   22044   0
1 2 3 4 5 6 7 8 9 10