Coursera数据工程师董飞:硅谷大数据的过去与未来 资讯

剑拔弩张;在传统数据库,Oracle 收购了 MySQL,DB2 是老牌银行专用,而 Teradata 则做了多年数据仓库。 Apps 领域的大数据公司更多,比如社交消费领域的 Google、 Amazon、Netflix、Twitter

jopen 2015-01-27   53601   0

腾讯TDW:大型Hadoop集群应用 经验

distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。

jopen 2015-07-28   19632   0
P72

  hadoop原理与实践01_v1.0 文档

用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高 使用的模型越来越复杂,计算量指数级上升45 46. 场景146质监数据仓库准实时采集组织机构 代码系统缺陷产品 召回行政许可检验检测商品条码标准信息标准化管理…特种设备 检验特种设备

小辉x 2016-05-16   660   0

2015 Bossie评选:最佳开源大数据工具 资讯

界标准的外部数据源可以方便的进行整合,并进行数据转换和分析数据。你可能会问:“我不会有更好的数据池或数据仓库工具吗?请认清这是在NoSQL领域。 9. Drill Drill是一种用于大型数据集的

jopen 2015-10-21   51330   0

梁堰波:主流SQL on Hadoop框架选择 资讯

SQL在这方面的优势非常明显,提供了一个非常灵活、可扩展的架构。但是Spark SQL是基于内存的,元数据放在内存里面,不适合作为数据仓库的一部分来使用。所以有了Spark SQL的HiveContext,就是兼容Hive的Spark

mf7x 2015-07-24   26619   0
Hadoop  

Hive配置运行及表的操作 经验

table) 默认情况下,当你创建Hive表时,hive将复杂管理表数据,即Hive会把表数据存储到它的数据仓库目录下(warehouse directory)。这种方式创建的表我们称之为托管表(managed

jopen 2014-01-28   42701   0

后Hadoop时代的大数据架构 经验

据分析程序的高级语言和对这些程序进行评估的基础设施一起组成。 Hive :用于Hadoop的一个数据仓库系统,它提供了类似于SQL的查询语言,通过使用该语言,可以方便地进行数据汇总,特定查询以及分析存

b77m 2015-04-22   140189   0
P12

  sap_bw_增量管理 文档

增量管理 标准数据源增量 增量管理是向数据仓库提供数据时所必需的,其作用在于及时加载数据仓库的源系统中更改的数据,以及把需要传输到数据仓库的数据缩小到最相关的数据范围。此外,增量管理将有助于您对各自

Cathy123 2017-02-21   723   0
P15

  DB2 存储过程编写规范 文档

编写风格的一致性和连贯性,特定此规范。 二.编写背景 目前数据库工具有很多种,考虑到数据仓库开发的实用性,数据仓库开发工具选择了DB2。 招商银行研发中心技术标准 数据库技术标准系列 三.适用范围 本

wdjzjsf 2014-07-02   2579   0

Hermes:来自腾讯的实时检索分析平台 经验

Solr、ES:偏重于为小规模的数据提供全文检索服务;Hermes:则更倾向于为大规模的数据仓库提供索引支持,为大规模数据仓库提供即席分析的解决方案,并降低数据仓库的成本,Hermes数据量更“大”。 Solr、ES的使用特点如下:

jopen 2014-12-30   38264   0

PayPal高级工程总监:读完这100篇论文 就能成大数据高手 资讯

阅读一下下面的几篇非常有价值的文献,它们帮为你“恶补”一下诸如 NoSQL(非结构化)数据存储、数据仓库大规模计算及分布式系统等相关领域的背景知识: 计算中心即计算机 【6】 ( Data center

jopen 2015-07-07   40256   0
P42

  第4章 企业架构之数据架构建设 文档

应用数据库(Application Data Bases) Ⅲ.主题数据库(Subject Data Bases) Ⅳ.数据仓库(Data Warehouse) 综合 办公人力 资源 技术 管理计划 统计 生产 管理用电 管理安全

wz_316 2017-02-28   2143   0

CockroachDB beta-20160908 发布 资讯

isolation,简称SI)和顺序的快照隔离(SSI)语义,后者是默认的隔离级别。 蟑螂是一个分布式的K/V数据仓库,支持ACID事务,多版本值存储是其首要特性。主要的设计目标是全球一致性和可靠性,从蟑螂的命名上

jopen 2016-09-08   8405   0

VMware计划交出SpringSource、Cloud Foundry和GemFire 资讯

图使用它在商业云服务上占据一席之地。同时,Amazon已经为其云产品添加了如 Redshift 数据仓库这样的服务,明显关注于吸引企业用户。 早在七月份论及这项举措的可能性时,GigaOM的Om Malik和Stacey

jopen 2012-12-13   12371   0
VMware  
P4

  应用结构规划 文档

机票 组合 CRM:客户、卡、积分、DataMart 监控:异常、消息处理历史、服务状态 BI:数据仓库 4. 产品选型ESB 选择条件:维护管理、硬件要求、性能指标、开发接口友好性、价格、服务承诺与水平、成功案例

victorzcs 2012-07-19   417   0

Oracle 绑定变量 博客

1.对于隔相当一段时间才执行一次的sql语句,这是利用绑定变量的好处会被不能有效利用优化器而抵消 2.数据仓库的情况下。 转自: http://www.cnblogs.com/skyblue/archive/2007/09/11/889953

tomivy 2010-11-30   1648   0

MapReduce模式、算法和用例 资讯

第二大部分是关于 MapReduce 模式,Katsov 讨论了包括多关系形 MapReduce 模式,通常用于数据仓库应用程序。这些模式在 Hive 和 Pig 实现中广泛使用,并包括基于推断/函数的数据选择,数据

openkk 2012-02-15   17978   0
P12

  Spark 核心技术剖析 文档

:完整生态系统Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式。Spark当下已成为Apache基金会的顶级开源项目,拥有着庞大

xcn4 2014-11-29   472   0

hive指南 经验

hive是什么? hive是基于hadoop构建的数据仓库基础架构,通过提供一系列的工具,使得用户能够方便的做数据ETL,数据结构化,并针对存放在hadoop上的海量数据进行查询和分析。 hi

jopen 2013-12-28   22846   0

Pinterest使用MemSQL和Spark Streaming进行实时数据分析 资讯

这些能力: 高性能事件日志:即使用一个叫Singer的代理来收集事件日志,然后把它们运送到集中的数据仓库中。 可靠的日志传输和存储:即通过Apache kafka和一个叫 Secor 的持久化服务来可靠将这些事件写入到长期数据存储

mip33 2015-04-19   12920   0
1 2 3 4 5 6 7 8 9 10