为什么越来越多的公司在使用Spark Streaming 资讯

虽然针对不同的目标和业务案例使用Spark Streaming的方式也不同,但其主要场景包括: 流ETL——将数据推入存储系统之前对其进行清洗和聚合 触发器——实时检测异常行为并触发相关的处理逻辑 数据

jopen 2016-01-03   21174   0

2015 Bossie评选:最佳开源大数据工具 资讯

器。 Hive1.2也带来了改进的SQL的兼容性,使组织利用它更容易的把从现有的数据仓库通过ETL工具进行转移。在规划中讲主要改进:以内存缓存为核心的速度改进 LLAP,Spark的机器学习库的集

jopen 2015-10-21   51330   0

每个软件工程师都应该知道的有关实时数据的统一概念 经验

integration)这个短语应该不止这么简单,但是我找不到一个更好的解释。而更常见的术语 ETL 通常只是覆盖了数据集成的一个有限子集(译注:ETL,Extraction-Transformation-Loading的缩

jopen 2014-02-10   98975   0
P120

  数据仓库与数据挖掘原理及应用v2 文档

引言 1.2 体系结构 1.3 组成 1.4 元数据 1.5 数据粒度 1.6 数据模型 1.7 ETL 4. 1.1 引言 数据仓库定义 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。

nn2e 2014-03-31   839   0
数据挖掘   Intel   Java   SQL   XML  

我所经历的大数据平台发展史(二):非互联网时代 • 下篇 资讯

ata cleaning 指定清洗规则、为源数据与目标提供ETL mapping (备注:ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,给数码看的,互联

jopen 2016-02-29   25323   0
P16

  cpu并行计算集群设计方案 文档

aNode的映射。DataNode负责处理文件系统客户端的文件读写请求,并在NameNode的统一调度下进行数据块的创建、删除和复制工作。图1-3所示为HDFS的体系结构。HDFS的关键元素: Blo

勇敢勒小虎 2017-01-10   2568   0

看看 Medium 的开发团队用了哪些技术? 资讯

滚动等event日志从S3导入Redshift。 任务通过一个内部调度和监控工具Conduit调度。我们用了一个基于断言的调度模型,只有条件满足的时候,任务才会执行。从产品角度来讲,这是不可或缺的

jopen 2016-01-28   32998   0

Medium开发团队谈架构设计 资讯

滚动等event日志从S3导入Redshift。 任务通过一个内部调度和监控工具Conduit调度。我们用了一个基于断言的调度模型,只有条件满足的时候,任务才会执行。从产品角度来讲,这是不可或缺的

jopen 2015-11-30   32585   0
设计  
P24

  大数据分析系统架构之探讨 文档

meNode的工作以及JobTracker的工作。JobTracker的主要职责就是启 动、跟踪和调度各个Slave的任务执行。还会有多台slave,每一台slave通常具有DataNode的功能并负责TaskTracker的工作。

guet_lee 2017-01-12   2237   0
P24

  大数据分析系统架构 文档

meNode的工作以及JobTracker的工作。JobTracker的主要职责就是启 动、跟踪和调度各个Slave的任务执行。还会有多台slave,每一台slave通常具有DataNode的功能并负责TaskTracker的工作。

wzf1118 2016-11-04   2940   0
P26

  kettle5.x使用步骤带案例超详细版 文档

Kettle使用方法介绍 1、Kettle概念 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle

caoxp930 2016-06-10   3245   0
P2

  学习Kettle遇到的问题 文档

就尽量想办法用procedure , 实在不行才是calculate 步骤。 3,观察kettle log 生成的方式来了解你的ETL操作最慢的地方。 4,能使用truncate table 的时候,就不要使用delete all row

wbb0509 2013-09-23   2824   0
P101

  中国电信经分系统介绍 文档

只有经过一定的处理,才能分析去话的方向是联通、电信,国际,特殊呼叫等 适用于随机获取数据 23. ETL 环境和处理流程来源 OLTP 系统数据转化引擎缓存来源 主机或 C/S 系统转化引擎数据仓库企业

joeblack 2012-05-27   3687   0
方案   培训   HTML   Intel   Scala  
P17

  一张图看懂美国大数据 文档

强化也是正在快速发展。 ETL/混合 ETL表示提取 (Extract),转换(Transform) 和加载 (Load),显现了这一部分的数据生态系统的核心。本质上,ETL/混合解决方案是帮助数据专家匹配不相似的

guet_lee 2017-01-12   1235   0

开源 BI 工具 Metabase 简介 经验

和 Gitlab,不过从目前的状况看,ChartIO 成熟度要优于 Metbase 很多。 与 ETL 结合 虽说 Metabase 可以让不懂 SQL 的业务人员轻松分析业务数据。但由于 OLTP

jopen 2015-10-24   113277   0
P25

  建设银行广东省分行数据挖掘系统建设方案 文档

形成企业级中央数据仓库,以中央数据仓库为纽带完成业务数据向管理信息的过渡; 2、“工预善其事,必先利其器”,引进ETL、前端信息展现工具、系统集成门户等先进的数据仓库和商业智能解决方案,进一步完善我分行管理信息平台技

tianwenbo 2012-06-20   527   0
P29

  华宇物流商务智能报表与分析项目建议书 文档

29 3.2微软商务智能总体架构与主要功能 微软商务智能解决方案功能模块包括数据抽取、转换与加载(ETL)、数据仓库(Data Warehouse)、多维联机数据分析(OLAP)与挖掘(Data Min

miuo 2012-01-16   5416   0
P29

  微软商务智能解决方案--报表分析与展现(模板)-v1.0 文档

应用的整体解决方案等,如分析性CRM、金融风险管理等。 商务智能的技术体系主要有数据清洗与加载(ETL)、数据仓库(DW)、在线分析处理(OLAP)、数据挖掘(DM),以及前端报表、分析展现等部分组成。

hh7633757 2016-07-27   2714   0
方案  

百度多维度数据监控采集和聚合计算的运维实践分享 经验

html 大家好,我是百度运维部平台研发工程师颜志杰,毕业后一直在百度做运维平台开发,先后折腾过任务调度(CT)、名字服务(BNS)、监控(采集&计算);今天很高兴和大家一起分享下自己做“监控”过程中的一些感想和教训。

jopen 2015-10-28   28792   0
百度  
P19

  数据管理知识体系 文档

数据交换服务4数据交换服务…企业数据服务总线元数据管理安全管理平台监控数据采集数据采集任务调度数据复制ETL工具全量复制增量复制全量抽取增量抽取数据清洗数据转换数据装载数据存储专用数据采集接口 12.

小小小鱼啊 2017-08-30   1090   0
数据结构   SQL   XML   Basic  
1 2 3 4 5 6 7 8 9 10