Kettle 开源项目

(Kettle ETTL Environment)是一个元数据(is a meta-data)驱动的ETL工具. 可以不要写代码就能够执行复杂的数据转换。Kettle支持大多数当前流行的数据库系统。

码头工人 2019-01-17   7471   0

Scriptella 开源项目

Scriptella是一个开源ETL(Extract-Transform-Load)和脚本执行工具。它最主要的特点是简单,你不必学习其它复杂基于XML的语言。Scriptella使用SQL脚本来执行必需的转换。

码头工人 2019-01-17   6843   0

基于Java的开源数据挖掘解决方案:RapidMiner 经验

机器学习、NLP、推荐、预测等方法(推荐只占其中很小一部分),而且带有GUI的数据分析环境,数据ETL、预处理、可视化、评估、部署等整套系统都有。 项目主页: http://www.open-open

jopen 2013-11-11   41538   0

分布式计算系统:Onyx 经验

Sqoop, Twitter Crane 等等 用途? 实时的事件流处理 连续计算 ETL 在 MapReduce 进行数据转换 数据清理 数据摄入和存储媒介传输 项目主页:

jopen 2015-02-19   18230   0

Scala 机器学习框架:Conjecture 经验

ure 无缝集成了 Hadoop 和 Scalding,可以处理大型的数据,同时还集成了现有的 ETL processes。 项目主页: http://www.open-open.com/

jopen 2015-08-09   10770   0

SpagoBI 开源项目

证与分发这些BI对象。 SpagoBI特性包括支持Portal、report、OLAP、QbE、ETL、dashboard、文档管理、元数据管理、数据挖掘与地理信息分析。

码头工人 2019-01-17   8728   0

Apache Crunch:简化MapReduce编程的Java库 经验

API的功能。Crunch开发者也可以使用Crunch原语来定义API,为客户提供涉及一系列复杂MapReduce作业的高级ETL、机器学习和科 学计算功能。 Crunch起步 可以从 Crunch的网站 下载最新版本的

jopen 2013-07-18   18336   0

揭秘 IFTTT 每天处理几十亿事件数据的基础结构 资讯

我们希望能尽快开源。 商业智能 用Cranium(内部ETL平台)将S3中数据变换和归一化后导入到AWS Redshift。Cranium使我们能够用SQL和Ruby编写ETL 任务(job),它定义了这些任务之间的

jopen 2015-11-20   9786   0

中国移动集中化BI探索:数据仓库与Hadoop混搭 资讯

doop与数据仓库的使用细节,让用户在使用这些数据时尽量无感知;在数据的ETL采集预处理环节,尽量采用Hadoop与分布式ETL的方式,提高数据转换效率,同时降低成本。 另外,运营商庞大分散的组织

jopen 2013-01-04   16327   0
Hadoop  

开源ESB-Talent产品研究 经验

2)WebService+DB适配数据插入 由于Talend最早本身就是做ETL工具的,可以看到对于ETL相关能力的支持相对强大,基本涵盖了所有常见主流数据的数据查询,数据插入和更新的相关适配器。对于核心操作如下:

jopen 2016-01-18   37571   0

如何使用Spark大规模并行构建索引 经验

//数组数据清洗转换 val fields=line.split( "\1" ,- 1 ).map(field =>etl_field(field)) //将清洗完后的数组映射成Tuple类型 val tuple=buildTuble(fields)

toly_me 2016-02-01   25775   0

Airbnb架构要点分享 经验

查询…… 这两个Hadoop集群使用 Kafka 保持同步。Airbnb创建有自己的工作流和ETL工具 Airflow ( GitHub页面 )。该工具已经钩入HDFS、Hive、Presto、S

jopen 2015-09-22   22226   0

100个替代昂贵商业软件的开源应用 资讯

是一个完整的商业智能套件,包括一个联机分析处理(OLAP)服务器,Excel 插件,数据提取,转换和加载(ETL)和移动支持。基础版本只包括联机分析处理(OLAP)服务器和有限版 Excel 插件,可在开源许可

jopen 2015-01-19   130633   1
开源  

Hadoop:分布式计算平台初探 经验

user program的副本中有一个称为master,其余称为worker,master是负责调度的,为空闲worker分配作业(Map作业或者Reduce作业),worker的数量也是可以由用户指定的。

jopen 2014-12-03   24277   0

阿里巴巴数据产品经理工作总结篇 经验

可钻取到子行业,商品类目可钻取到商品叶子类目等 输出:分析需要用何种图表进行展现 数据的ETL开发——数据的清洗,转换,装载流程占用了数据产品开发的大半资源,不规范的数据源会导致这一块的资源更大程度的占用。比如同样是供

mxf8 2015-03-16   75669   0
P26

  Kettle例子加文档 文档

1. 什么Kettle? Kettle是一个开源的ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)项目,项目名很有意思,水壶。按项目负责人Matt的说法:把

rxpcj1 2011-02-26   16909   0

日志系统之基于Zookeeper的分布式协同设计 经验

样在之前的文章中我也提及我们在日志解析上的选择是morphline。morphline是个在Hadoop生态系统中的ETL Framework。morphline也有一个配置文件用于定义一系列的Commands。而它也有固定部分和可变部分,因为解析主要应用了

jopen 2015-12-27   19191   0

开源MySQL数据仓库解决方案:Infobright 经验

自带的MyISAM难以支持高并发,若想充分利用服务器资源,需开启另外的MySQL实例 对中文等多字节文字支持不好 仅支持单核调度 缺少原厂的支持 ICE与IEE版本区别 IEE包含针对大多数企业工作需求的附加特性,如:

jopen 2014-12-02   37085   0

DataCleaner 3.5.1 发布,数据质量分析 资讯

DataCleaner 是一个数据质量分析工具,可让您进行数据分析,验证和模拟类似ETL的任务。这些活动可以帮助您管理和监控数据质量,以确保您的数据是有用的,适用于您的业务情况。它可用于主数据管理(M

jopen 2013-06-13   6337   0

数据仓库平台,Apache Hive 0.9.0 发布 资讯

改进记录 。 Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

fmms 2012-04-30   13948   0
1 2 3 4 5 6 7 8 9 10