开源项目,开源代码,开源文档,开源新闻,开源社区

剑拔弩张；在传统数据库，Oracle 收购了 MySQL，DB2 是老牌银行专用，而 Teradata 则做了多年数据仓库。 Apps 领域的大数据公司更多，比如社交消费领域的 Google、 Amazon、Netflix、Twitter

jopen 2015-01-27 53601 0

大数据

distributed Data Warehouse，腾讯分布式数据仓库）基于开源软件Hadoop和Hive进行构建，打破了传统数据仓库不能线性扩展、可控性差的局限，并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。

jopen 2015-07-28 19632 0

Hadoop 分布式/云计算/大数据

P72

用户的应用和分析结果呈整合趋势，对实时性和响应时间要求越来越高使用的模型越来越复杂，计算量指数级上升45 46. 场景146质监数据仓库准实时采集组织机构代码系统缺陷产品召回行政许可检验检测商品条码标准信息标准化管理…特种设备检验特种设备

小辉x 2016-05-16 660 0

Hadoop 分布式/云计算/大数据方案 Apache Go

界标准的外部数据源可以方便的进行整合，并进行数据转换和分析数据。你可能会问：“我不会有更好的数据池或数据仓库工具吗？请认清这是在NoSQL领域。 9. Drill Drill是一种用于大型数据集的

jopen 2015-10-21 51330 0

大数据

SQL在这方面的优势非常明显，提供了一个非常灵活、可扩展的架构。但是Spark SQL是基于内存的，元数据放在内存里面，不适合作为数据仓库的一部分来使用。所以有了Spark SQL的HiveContext，就是兼容Hive的Spark

mf7x 2015-07-24 26619 0

Hadoop

table）默认情况下，当你创建Hive表时，hive将复杂管理表数据，即Hive会把表数据存储到它的数据仓库目录下（warehouse directory）。这种方式创建的表我们称之为托管表（managed

jopen 2014-01-28 42701 0

Hive 数据挖掘

据分析程序的高级语言和对这些程序进行评估的基础设施一起组成。 Hive ：用于Hadoop的一个数据仓库系统，它提供了类似于SQL的查询语言，通过使用该语言，可以方便地进行数据汇总，特定查询以及分析存

b77m 2015-04-22 140189 0

Hadoop 分布式/云计算/大数据

P12

增量管理标准数据源增量增量管理是向数据仓库提供数据时所必需的，其作用在于及时加载数据仓库的源系统中更改的数据，以及把需要传输到数据仓库的数据缩小到最相关的数据范围。此外，增量管理将有助于您对各自

Cathy123 2017-02-21 723 0

P15

编写风格的一致性和连贯性，特定此规范。二.编写背景目前数据库工具有很多种，考虑到数据仓库开发的实用性，数据仓库开发工具选择了DB2。招商银行研发中心技术标准数据库技术标准系列三.适用范围本

wdjzjsf 2014-07-02 2579 0

DB2 数据库服务器

Solr、ES：偏重于为小规模的数据提供全文检索服务；Hermes：则更倾向于为大规模的数据仓库提供索引支持，为大规模数据仓库提供即席分析的解决方案，并降低数据仓库的成本，Hermes数据量更“大”。 Solr、ES的使用特点如下：

jopen 2014-12-30 38264 0

搜索引擎 HERMES

阅读一下下面的几篇非常有价值的文献，它们帮为你“恶补”一下诸如 NoSQL（非结构化）数据存储、数据仓库大规模计算及分布式系统等相关领域的背景知识：计算中心即计算机【6】（ Data center

jopen 2015-07-07 40256 0

大数据

P42

应用数据库(Application Data Bases) Ⅲ.主题数据库(Subject Data Bases) Ⅳ.数据仓库(Data Warehouse) 综合办公人力资源技术管理计划统计生产管理用电管理安全

wz_316 2017-02-28 2143 0

软件架构方案报告

isolation，简称SI）和顺序的快照隔离（SSI）语义，后者是默认的隔离级别。蟑螂是一个分布式的K/V数据仓库，支持ACID事务，多版本值存储是其首要特性。主要的设计目标是全球一致性和可靠性，从蟑螂的命名上

jopen 2016-09-08 8405 0

Cockroach JavaScript Lisp

图使用它在商业云服务上占据一席之地。同时，Amazon已经为其云产品添加了如 Redshift 数据仓库这样的服务，明显关注于吸引企业用户。早在七月份论及这项举措的可能性时，GigaOM的Om Malik和Stacey

jopen 2012-12-13 12371 0

VMware

P4

机票组合 CRM：客户、卡、积分、DataMart 监控：异常、消息处理历史、服务状态 BI：数据仓库 4. 产品选型ESB 选择条件：维护管理、硬件要求、性能指标、开发接口友好性、价格、服务承诺与水平、成功案例

victorzcs 2012-07-19 417 0

软件架构 Java

１．对于隔相当一段时间才执行一次的ｓｑｌ语句，这是利用绑定变量的好处会被不能有效利用优化器而抵消２．数据仓库的情况下。转自： http://www.cnblogs.com/skyblue/archive/2007/09/11/889953

tomivy 2010-11-30 1648 0

eCromedos JavaScript HTML

第二大部分是关于 MapReduce 模式，Katsov 讨论了包括多关系形 MapReduce 模式，通常用于数据仓库应用程序。这些模式在 Hive 和 Pig 实现中广泛使用，并包括基于推断/函数的数据选择，数据

openkk 2012-02-15 17978 0

MapReduce

P12

：完整生态系统Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式。Spark当下已成为Apache基金会的顶级开源项目，拥有着庞大

xcn4 2014-11-29 472 0

分布式/云计算/大数据 Apache Java Python Go

hive是什么？ hive是基于hadoop构建的数据仓库基础架构，通过提供一系列的工具，使得用户能够方便的做数据ETL，数据结构化，并针对存放在hadoop上的海量数据进行查询和分析。 hi

jopen 2013-12-28 22846 0

分布式/云计算/大数据 Hive

这些能力：高性能事件日志：即使用一个叫Singer的代理来收集事件日志，然后把它们运送到集中的数据仓库中。可靠的日志传输和存储：即通过Apache kafka和一个叫 Secor 的持久化服务来可靠将这些事件写入到长期数据存储

mip33 2015-04-19 12920 0

Coursera数据工程师董飞：硅谷大数据的过去与未来资讯

腾讯TDW:大型Hadoop集群应用经验

hadoop原理与实践01_v1.0 文档

2015 Bossie评选：最佳开源大数据工具资讯

梁堰波：主流SQL on Hadoop框架选择资讯

Hive配置运行及表的操作经验

后Hadoop时代的大数据架构经验

sap_bw_增量管理文档

DB2 存储过程编写规范文档

Hermes：来自腾讯的实时检索分析平台经验

PayPal高级工程总监：读完这100篇论文就能成大数据高手资讯

第4章企业架构之数据架构建设文档

CockroachDB beta-20160908 发布资讯

VMware计划交出SpringSource、Cloud Foundry和GemFire 资讯

应用结构规划文档

Oracle 绑定变量博客

MapReduce模式、算法和用例资讯

Spark 核心技术剖析文档

hive指南经验

Pinterest使用MemSQL和Spark Streaming进行实时数据分析资讯

数据仓库的相关搜索

关键词

Coursera数据工程师董飞：硅谷大数据的过去与未来 资讯

腾讯TDW:大型Hadoop集群应用 经验

hadoop原理与实践01_v1.0 文档

2015 Bossie评选：最佳开源大数据工具 资讯

梁堰波：主流SQL on Hadoop框架选择 资讯

Hive配置运行及表的操作 经验

后Hadoop时代的大数据架构 经验

sap_bw_增量管理 文档

DB2 存储过程编写规范 文档

Hermes：来自腾讯的实时检索分析平台 经验

PayPal高级工程总监：读完这100篇论文 就能成大数据高手 资讯

第4章 企业架构之数据架构建设 文档

CockroachDB beta-20160908 发布 资讯