P58

  大数据的十个技术前沿 文档

图并行(GraphLab),模型并行(Petuum) 减少通讯 缓存,一致性,本地性(locality),划分(cut)和调度 同步、半同步(e.g. Petuum)和异步,批量与个别,全部与变化部分(Spark bit torrent)

cpp45 2015-01-18   4260   0

构建大数据生态需要哪些核心技术? 经验

是用户可以接触到的各种API,中间是提供RestAPI的server,还有负责session管理和调度的master,监控job运行的worker等,下面是真正的计算引擎和存储引擎。 接下来简

ozhc1633 2016-04-23   39175   0

美团大众点评合并:背后技术力量的对比回顾 资讯

还有2个HBase线上集群。使用 Puppet管理集群,之后由于业务需要,又自行开发了Taurus调度系统。并于2012年数据库仓库转向Hadoop/Hive。在2013年建立主 要的大数据架构后,大

jopen 2015-10-14   38763   0
大众  
P5

  Hive性能调校 文档

多的集群资源。 15. Mapper与Reducer数量的优化 折衷:数量太大,会导致任务的启动、调度和运行过程的开销太大;数量太小,无法很好地利用集群的并发特性。 Hive会在接收到查询任务后,根据

xnbw 2016-01-12   1164   0
P34

  商务智能(BI)平台介绍 文档

引擎数据集成引擎OLAP 引擎挖掘引擎(DM)业务数据库(OLTP)ETLDW 27. 企业数据仓库ETL(抽取、转换、加载)即席查询、预定义报表、自定义报表、OLAP、数据挖掘、专题分析模型元数据管理W

ice_1 2012-11-11   7902   0
P12

  Kettle 工具介绍 文档

1.1 kettle工具的优势 1.1.1 kettle开源、高效 Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高 效稳定。Kettle中有两种脚本文件,transf

opend7y8 2012-12-24   3314   0
P28

  Kattle API实战 文档

Kettle是什么?kettle:是一个开源ETL工具。kettle提供了基于java的图形化界面,使用很方便,kettle的ETL工具集合也比较多,常用的ETL工具都包含了。 为什么使用KETTLE JAVA

yushiqi66 2011-03-16   6424   0
P112

  第三方数据交换平台方案v1.1.4 文档

Piston远程数据交换中间件 32 3.3 领域模型和逻辑设计 34 3.3.1 概述 34 3.3.2 任务调度引擎 34 3.3.3 规则处理引擎 37 3.3.4 系统核心功能设计概述 43 3.3.5 数据导入设计

ralphone 2015-01-26   1654   0
方案  
P50

  Hadoop 实战手册 文档

2012/09/07 完善内容 添加机器配置详解,和配置文件详解 2012/09/07 完善内容 添加任务调度,机架感知 目录 EasyHadoop集群部署入门文档 2 目录 2 1. 文档概述 3 2. 背景

ka520 2015-11-14   434   0
P81

  TERADATA 模型 介绍_20130315 文档

数据仓库中的数据是一系列某一时刻生成的复杂的快照 数据集合 3. 目录LDM基本概念BOS LDM介绍LDM设计流程 4. 4ETL服务器数据清洗/转换/加载 文本文件主机中间业务信贷EBank数 据 源面向应用 3NF数据集市 Data

nanalov 2014-10-15   3336   0
数据挖掘   手册   Perl   SQL  

大数据分析技术生态圈一览 资讯

SAS 这是一款软件套件,可以挖掘、改动、管理和检索来自众多数据源的数据。 提取、转换和加载(ETL) IBM Datastage 使用一种高性能并行框架,整合多个系统上的数据。 Informatica

勿忘初心321 2016-01-08   26145   0

商业智能(BI)的产生与发展 问答

的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理。 以保证数据的正确性,然后经过 ETL 过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、

njgghhe 2016-01-07   8742   0

Hadoop工具在其不断进化中披荆斩棘 资讯

义脚本,有三种不同的高效选择值得我们关注。 Pig:高级声明性语言来指定跑在Hadoop上的ETL工作,提供高级命令来处理文件的每一行,数据集过滤,数据子集分组,排序以及其他常用的操作。Pig对于

jopen 2014-12-17   9930   0
Hadoop  
P25

  Hive/HBase Integration or,MaybeSQL 文档

production cluster per day; mixture of ad-hoc queries and ETL/reporting queries They want it all and they want

flyfoxs 2011-08-31   4038   0

GitHub上整理的一些工具 经验

l.js Kettle:开源的ETL工具 Pentaho:以工作流为核心的开源BI系统 Mondrian:开源的Rolap服务器 Oozie:开源hadoop的工作流调度引擎 开源的数据分析可视化

jopen 2015-11-18   110476   0
Github  

ODPS技术架构及应用实践 经验

ODPS采用抽象的作业处理框架将不同场景的各种计算任务统一在同一个平台之上,共享安全、存储、数据管理和资源调度,为来自不同用户需求的各种数据处理任务提供统一的编程接口和界面。 和 阿里云的其他云计算服务一样,ODPS也是采用HTTP

jopen 2014-10-30   45061   0

GitHub上整理的一些工具 资讯

Kettle:开源的ETL工具 Pentaho:以工作流为核心的开源BI系统 Mondrian:开源的Rolap服务器 Oozie:开源hadoop的工作流调度引擎 开源的数据分析

jopen 2015-02-16   97295   1
Github  

帮助 Medium 阅读时间达到 2600 年的技术栈 资讯

Redshift。 我 们使用 Conduit 来对任务做调度,这是一个内部工具,可以管理计划、数据依赖,还可以进行监控。我们的任务调度模型是基于断言的,只有一个的所有的依赖都满足了,这个任务 才会

jopen 2015-11-25   25514   0
Medium  

GitHub上整理的一些资料 经验

l.js Kettle:开源的ETL工具 Pentaho:以工作流为核心的开源BI系统 Mondrian:开源的Rolap服务器 Oozie:开源hadoop的工作流调度引擎 开源的数据分析可视化工具:Weka、Orange、KNIME

jopen 2014-11-25   115612   0
Github  

JasperSoft BI 开源项目

基于模块化设计的JasperSoft BI套件提供了报表整合,分析,报表制作,ETL与数据集成等功能模块。

码头工人 2019-01-17   1391   0
1 2 3 4 5 6 7 8 9 10