P25

  大用户量下的系统架构 文档

独立折分和部署 数据读写部分只交给服务处理 尽量减少服务之间的相互依赖 Controll负责服务之间的调度 8. 8简洁的扩展因为简洁,所以容易Mysql的读写分离和分库 分布式的Memcache 多个Service的布署

heydaies 2014-12-11   559   0
P27

  淘宝数据应用开发平台idata 文档

背景——进入淘宝数据平台数据规模数据产品总台架构概览——数据应用开发架构产品架构技术架构深入——关键服务介绍知识库(元数据)调度数据集成IDE成本优化生命周期展望——数据创造未来大纲 3. 每日新增数据20T 累积数据14P 2000+服务器的云计算平台

lxz 2014-01-03   2361   0
P26

  ODI 定时任务 文档

agentservice.bat -r -s myFirstAgent ETL 控制中心 2009年3月3日 没有评论 不少ETL工具为了控制复杂的元数据,都有一个中央的控制台,像是OWB 的Control

chkang0710 2013-07-07   3363   0
P11

  BI开源工具调研报告 文档

开源工具调研报告 1 BI系统的简述 从技术角度来说 BI 包含了 ETL、DW、OLAP、DM等多环节。简单的说就是把交易系统已经发生过的数据,通过ETL工具抽取到主题明确的数据仓库中,OLAP后生成Cube或报表,透过Portal展现给用户,用户

winstonw 2013-08-16   6303   0
P66

  pentaho商业智能套件的介绍 文档

然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析

1020103722 2014-07-26   741   0
数据挖掘   方案   Intel   Java   SQL  

分布式数据仓库系统:Apache Tajo 经验

实现的分布式数据仓库系统,特点是低延迟、高可伸缩,提供专用查询和针对存储在HDFS上的大数据集和其他数据源的ETL 工具。 特点: 可伸缩性和低延迟 完全分布式的 SQL 查询处理,基于存储雨 HDFS 的大数据集

jopen 2013-11-21   49163   0
P47

  浙商银行数据仓库系统高层架构设计文档 文档

5 历史数据的处理 21 4.3 ETL处理架构 22 4.3.1 ETL调度 23 4.3.2 ETL监控 24 4.3.3 数据质量控制 24 4.3.4 ETL任务 25 CZB & IBM 机密

tianwenbo 2012-06-20   606   0
P7

  kettle 接口抽取同步应用实例 文档

设计通用提取时间的Transformation 先更改接口配置表的结束时间点到当前系统时间 update etl_interface_config c set c.eic_end_time = case when

xzz168 2014-10-13   5431   0
P8

  开放无限基于短彩技术部的数据仓库数据库规划概要设计说明书 文档

概要设计说明书.doc》中的设计,数据仓库中数据库用户分两种类型: u 虚拟用户,系统用户包括:ETL、DSS、STAGE、ODS、EDS、DM、 REF u 开发用户,开发用户即数据仓库开发人员数据开发的帐户

ytoms 2013-02-27   1801   0

Spark在美团的实践 经验

SQL结合Python脚本来完成。这种方式存在效率问题,当数据量比较大的时候,流程的运行时间较长,这些ETL流程通常处于比较上游的位置,会直接影响到一系列下游的完成时间以及各种重要数据报表的生成。 基于以

樱桃大丸子 2016-04-09   55580   0

Apache Tajo 0.10.1 发布,分布式数据仓库 资讯

发布,Tajo 是一个分布式数据仓库系统,基于 Hadoop 实现,特点是低延迟、高可伸缩,提供专用查询和 ETL 工具 特点: 可伸缩性和低延迟 完全分布式的 SQL 查询处理,基于存储雨 HDFS

jopen 2015-06-30   11292   0

分布式数据仓库系统,Apache Tajo v0.9 发布 资讯

Tajo 是一个分布式数据仓库系统,基于 Hadoop 实现,特点是低延迟、高可伸缩,提供专用查询和 ETL 工具 特点: 可伸缩性和低延迟 完全分布式的 SQL 查询处理,基于存储雨 HDFS

jopen 2014-10-21   7434   0
P10

  Pentaho企业版安装说明 文档

Pentaho公司发布的Pentaho BI 套件企业版,是一个综合性商业开源商务智能项目,涵盖了绝大部分的商业智能所需,包括ETL(数据提取、转换和加载),报表,OLAP(联机分析处理),仪表盘,数据挖掘。 这一次的发布更注重允

kongfb 2011-07-13   644   0
P20

  kettle 基础整理 文档

Kettle开发流程 Kettle组件介绍 案例介绍 3. 什么是KettleKettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。 Kettle

junb_chen 2017-04-23   1508   0
数据挖掘   培训   HTTP   SQL   XML  
P39

  腾讯TDW分布式数据仓库用户手册 文档

4.1.2 check文件 35 4.1.3 其他约定 35 4.2 ETL 35 4.2.1 ETL流程图 36 4.2.2 ETL接口配置文档规范 36 4.3 测试 39 附录A:用户应提供的资料汇总

gtimehero 2013-01-04   1102   1
P50

  SharePoint 2010 商业智能(BI)解决方案 文档

在星型结构中,维度的层次结构存储在维度表本身 在雪花型结构中,层次结构被分为单独的表 18. 三、什么是ETL过程?数据从数据源向目标数据仓库抽取(Extract)、转换(Transform)、装载(Load)的过程

fujita731 2012-12-13   10417   0
数据挖掘   方案   培训   C#   Basic  
P27

  实时数据平台技术实践(v4) 文档

高复杂度计算任务并发性差 海量数据处理能力不足 存储能力有限 扩展性差 成本高 后期遇到的问题 越来越多的ETL任务需要12点后才能完成 任务排队现象严重 基于流量等大数据量的批量计算和复杂推荐类算法基本无法应付

cpp45 2015-01-18   2782   0
P27

  实时数据平台技术实践 文档

高复杂度计算任务并发性差 海量数据处理能力不足 存储能力有限 扩展性差 成本高 后期遇到的问题 越来越多的ETL任务需要12点后才能完成 任务排队现象严重 基于流量等大数据量的批量计算和复杂推荐类算法基本无法应付

c6g3 2015-02-18   2289   0
P21

  Oracle Data Integrator 技术白皮书 文档

2 2 E-LT 体系结构 3 2.1 传统的ETL 3 2.2 E-LT 4 3 声明设计(DECLARATIVE DESIGN) 6 3.1 传统的ETL设计 6 3.2 声明设计(Declarative

803616 2013-03-22   2765   0

基于Apache Camel的EIP集成 经验

语句更新或写入到DB数据库表中。这些都可以通过Camel配置文件来实现。 对DB集成和传统的ETL最大的区别就在于Camel的DB集成更加容易将Http,WS和DB数据库操作能力整合起来。即通过H

jopen 2016-01-13   24408   0
1 2 3 4 5 6 7 8 9 10