P65

  数据仓库基础培训 文档

数据仓库体系结构与设计 数据仓库的相关概念 数据仓库的项目过程 16. 数据仓库的技术要求-ETL数据仓库的技术要求包含如下几个方面: ETL(Extract/Transformation/Load):用户从数据源抽取出所需的数据,经过数据清洗、转换

klona1988 2012-03-23   2447   0

梁堰波:主流SQL on Hadoop框架选择 资讯

“YARN还是Mesos讨论之后(圆桌讨论: YARN & Mesos,论集群资源管理所面临的挑战 ;深度分享: Mesos资源调度与管理的深入分享与交流 )” ,CSDN Spark用户群迎来了 大数据专家—— 明略数据 梁堰波

mf7x 2015-07-24   26619   0
Hadoop  

Apache Spark 1.2.0发布:引入基于Netty的实现,支持高可用,并提供机器学习API 资讯

Databricks Cloud这样的托管服务中。在Hadoop环境中,YARN是集群管理器,帮助启动和调度运行Spark应用的分布式组件。YARN可以将Spark和 MapReduce负载在同样的集群硬件上多路复用。

jopen 2015-01-10   22324   0
P16

  BI商务智能解决方案及讲解 文档

Session1:医院智能分析业务与需求 Session2:解决方案技术框架与Demo效果; Session3:关键技术和实现;   ETL-如何确定起始来源数据 How is the system-of-record determined

wazljnnl6n 2011-10-11   496   0
P11

  数据仓库比较Oracle vs DB2 文档

参考文档和文献 3 1.5 文档概述 4 2 相关的产品比较 5 2.1 数据仓库 5 2.2 ETL工具 5 2.3 OLAP 6 2.4 展示工具 6 3 开发过程 7 3.1 Oracle的开发过程

hanwangabc 2012-04-08   3229   0
P9

  kettle规范文档 文档

1 ETL开发原则 ETL的开发目前使用IBM的Datastage Designer工具,在开发人员的客户机上这客户端工具进行开发,不允许使用远程登录到服务器的方法进行开发,ETL的开发原则涉及很多

snowyon 2016-11-21   1073   0
P11

  PentahoBI 套件学习总结文档 文档

 目录 Pentaho BI 服务器和管理控制台 2 ETL及Kettle 3 Action Sequence 3 Pentaho报表工具—Pentaho Report Designer 3 数据仓库基本概念及其设计

1020103722 2014-07-26   6038   0

Coursera如何用Docker完成批处理作业? 经验

instances和clusters四种模式,其中Tasks主要面向在短时间内,或固定周期内需要大量计算资源的批处理作业。‌‌ ETL,图片格式转换, 图片调整,OCR,PDF生成,天气预报,日志分析,特征抽取,自动化测试,以及搜索

jopen 2016-01-04   12437   0
Docker  
P81

  数据仓库和数据挖掘综述 文档

-Oriented)、集成的、可变的、 当前或接近当前的。 7. 基本概念—ETL, 元数据,粒度,分割ETL ETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。Microsoft

108439162 2011-11-29   5306   0
P82

  数据仓库基础与数据挖掘综述 文档

-Oriented)、集成的、可变的、 当前或接近当前的。 7. 基本概念—ETL, 元数据,粒度,分割ETL ETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。Microsoft

w0739_wang 2012-01-11   4838   0
P81

  数据挖掘讲座 文档

-Oriented)、集成的、可变的、 当前或接近当前的。 7. 基本概念—ETL, 元数据,粒度,分割ETL ETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。Microsoft

landman 2016-04-08   3242   0
P81

  数据仓库与数据挖掘综述 文档

-Oriented)、集成的、可变的、 当前或接近当前的。 7. 基本概念—ETL, 元数据,粒度,分割ETL ETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。Microsoft

nn2e 2014-03-31   501   0

如何让Hadoop支持优先级且性能可预测 经验

YARN(一种新的Hadoop资源管理器)能够实现任务抢占,为队列中的其它任务腾出调度空间。容量调度器与公平调度器可以通过静态配置杀死那些占用集群资源的任务,从而让高优先级任务进行调度。 当队列中堆积了等待资源的任务,这些工具就可

LukeOlivare 2016-06-17   11606   0
P14

  元数据管理模块方案 文档

3.3.4 无关性分析 8 3.4数据稽核 9 3.4.1 稽核规则管理 9 3.4.2 稽核任务调度 9 3.4.3 稽核结果分析 10 3.4.4 数据质量评估 10 3.4.5 数据问题管理 10

ralphone 2015-01-26   13732   0
方案  

大数据-数据采集和集成 经验

数据库采集同步 对于数据库采集同步,当前谈到比较多的工具主要有Sqoop和结构化数据库间的ETL工具,当然当前对于开源的Kettle和Talend本身也集成了大数据集成内容,可以实现和hdfs,

BraHewitt 2016-04-13   27311   0
P29

  中国建设银行DW&MIS(一期)项目目标总体架构 文档

源数据、数据整合层、数据缓储区、数据仓库、数据集市、元数据管理 数据架构关键考虑因素:总分行数据分布、数据保留原则、数据返回、ETL工具选择、ETL设计原则、数据质量检查、相关系统 3. DW&MIS项目总体架构目标及原则DW&MIS 总体架构目标

vebasan 2012-04-01   8939   0

吕信:PrestoDB在京东的应用实践 资讯

PPDO的开发,因为京东商城跟Facebook这边实现业务场景还是有所不同的,因为Facebook那边大部分的业务都是对于ETL完成之后的数据进行了分析和查询。但是京东它有一个很广的应用的业务场景,比如说6.18、或者双11我

jopen 2015-06-26   36048   0

解密IFTTT的数据架构 资讯

S3中的数据经过ETL平台Cranium的转换和归一化后,输出到AWS Redshift中。Cranium允许利用SQL和Ruby编写ETL任务、定义这些任务之间的依赖性以及调度这些任务的执行。Cranium支持利用Ruby和

jopen 2015-11-12   15511   0
架构  

一篇文看懂Hadoop:风雨十年,未来何去何从 资讯

对YARN未来的发展产生影响。如何提高YARN性能、如何与容器技术深度融合,如何更好的适应短任务的调度,如何更完整的多租户支持、如何细粒度的资源管控等都是企业实际生产中迫在眉睫的需求,需要YARN解决

jopen 2016-03-10   25303   1
Hadoop  

从Hadoop到Spark的架构实践 经验

心,并通过ETL将数据进行格式化处理,储存到 HDFS。其中,排名和推荐算法的实现都采用了MapReduce,系统中只存在离线批量计算,并通过基于Azkaban的调度系统进行离线任务的调度。 第一

jopen 2015-06-08   49372   0
1 2 3 4 5 6 7 8 9 10