开源项目,开源代码,开源文档,开源新闻,开源社区

(Kettle ETTL Environment)是一个元数据(is a meta-data)驱动的ETL工具. 可以不要写代码就能够执行复杂的数据转换。Kettle支持大多数当前流行的数据库系统。

码头工人 2019-01-17 7471 0

其它开源项目

Scriptella是一个开源ETL(Extract-Transform-Load)和脚本执行工具。它最主要的特点是简单，你不必学习其它复杂基于XML的语言。Scriptella使用SQL脚本来执行必需的转换。

码头工人 2019-01-17 6843 0

其它开源项目

机器学习、NLP、推荐、预测等方法（推荐只占其中很小一部分），而且带有GUI的数据分析环境，数据ETL、预处理、可视化、评估、部署等整套系统都有。项目主页： http://www.open-open

jopen 2013-11-11 41538 0

数据挖掘 RapidMiner

Sqoop, Twitter Crane 等等用途？实时的事件流处理连续计算 ETL 在 MapReduce 进行数据转换数据清理数据摄入和存储媒介传输项目主页：

jopen 2015-02-19 18230 0

Onyx 分布式/云计算/大数据

ure 无缝集成了 Hadoop 和 Scalding，可以处理大型的数据，同时还集成了现有的 ETL processes。项目主页： http://www.open-open.com/

jopen 2015-08-09 10770 0

机器学习 Conjecture

证与分发这些BI对象。 SpagoBI特性包括支持Portal、report、OLAP、QbE、ETL、dashboard、文档管理、元数据管理、数据挖掘与地理信息分析。

码头工人 2019-01-17 8728 0

BI商业智能工具

API的功能。Crunch开发者也可以使用Crunch原语来定义API，为客户提供涉及一系列复杂MapReduce作业的高级ETL、机器学习和科学计算功能。 Crunch起步可以从 Crunch的网站下载最新版本的

jopen 2013-07-18 18336 0

分布式/云计算/大数据 Apache Crunch

我们希望能尽快开源。商业智能用Cranium（内部ETL平台）将S3中数据变换和归一化后导入到AWS Redshift。Cranium使我们能够用SQL和Ruby编写ETL 任务（job），它定义了这些任务之间的

jopen 2015-11-20 9786 0

基础结构

doop与数据仓库的使用细节，让用户在使用这些数据时尽量无感知；在数据的ETL采集预处理环节，尽量采用Hadoop与分布式ETL的方式，提高数据转换效率，同时降低成本。另外，运营商庞大分散的组织

jopen 2013-01-04 16327 0

Hadoop

2)WebService+DB适配数据插入由于Talend最早本身就是做ETL工具的，可以看到对于ETL相关能力的支持相对强大，基本涵盖了所有常见主流数据的数据查询，数据插入和更新的相关适配器。对于核心操作如下：

jopen 2016-01-18 37571 0

Web服务企业服务总线开源企业服务总线ESB

//数组数据清洗转换 val fields=line.split( "\1" ,- 1 ).map(field =>etl_field(field)) //将清洗完后的数组映射成Tuple类型 val tuple=buildTuble(fields)

toly_me 2016-02-01 25775 0

分布式/云计算/大数据

查询…… 这两个Hadoop集群使用 Kafka 保持同步。Airbnb创建有自己的工作流和ETL工具 Airflow （ GitHub页面）。该工具已经钩入HDFS、Hive、Presto、S

jopen 2015-09-22 22226 0

Airbnb 软件架构

是一个完整的商业智能套件，包括一个联机分析处理(OLAP)服务器，Excel 插件，数据提取，转换和加载（ETL）和移动支持。基础版本只包括联机分析处理(OLAP)服务器和有限版 Excel 插件，可在开源许可

jopen 2015-01-19 130633 1

开源

user program的副本中有一个称为master，其余称为worker，master是负责调度的，为空闲worker分配作业（Map作业或者Reduce作业），worker的数量也是可以由用户指定的。

jopen 2014-12-03 24277 0

Hadoop 分布式/云计算/大数据

可钻取到子行业，商品类目可钻取到商品叶子类目等输出：分析需要用何种图表进行展现数据的ETL开发——数据的清洗，转换，装载流程占用了数据产品开发的大半资源，不规范的数据源会导致这一块的资源更大程度的占用。比如同样是供

mxf8 2015-03-16 75669 0

阿里巴巴项目管理

P26

1. 什么Kettle？ Kettle是一个开源的ETL（Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程）项目，项目名很有意思，水壶。按项目负责人Matt的说法：把

rxpcj1 2011-02-26 16909 0

数据挖掘

样在之前的文章中我也提及我们在日志解析上的选择是morphline。morphline是个在Hadoop生态系统中的ETL Framework。morphline也有一个配置文件用于定义一系列的Commands。而它也有固定部分和可变部分，因为解析主要应用了

jopen 2015-12-27 19191 0

分布式/云计算/大数据 ZooKeeper

自带的MyISAM难以支持高并发，若想充分利用服务器资源，需开启另外的MySQL实例对中文等多字节文字支持不好仅支持单核调度缺少原厂的支持 ICE与IEE版本区别 IEE包含针对大多数企业工作需求的附加特性，如：

jopen 2014-12-02 37085 0

数据挖掘 Infobright

DataCleaner 是一个数据质量分析工具，可让您进行数据分析，验证和模拟类似ETL的任务。这些活动可以帮助您管理和监控数据质量，以确保您的数据是有用的，适用于您的业务情况。它可用于主数据管理（M

jopen 2013-06-13 6337 0

DataCleaner

改进记录。 Hive是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

fmms 2012-04-30 13948 0

Apache Hive

ETL调度的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

项目管理 Hadoop 数据挖掘阿里巴巴 ZooKeeper Apache Hive DataCleaner 机器学习 Web服务软件架构 Airbnb Onyx 基础结构企业服务总线分布式/云计算/大数据企业服务总线ESB Apache Crunch RapidMiner Infobright Conjecture 其它开源项目 BI商业智能工具

Kettle 开源项目

Scriptella 开源项目

基于Java的开源数据挖掘解决方案：RapidMiner 经验

分布式计算系统：Onyx 经验

Scala 机器学习框架：Conjecture 经验

SpagoBI 开源项目

Apache Crunch：简化MapReduce编程的Java库经验

揭秘 IFTTT 每天处理几十亿事件数据的基础结构资讯

中国移动集中化BI探索：数据仓库与Hadoop混搭资讯

开源ESB-Talent产品研究经验

如何使用Spark大规模并行构建索引经验

Airbnb架构要点分享经验

100个替代昂贵商业软件的开源应用资讯

Hadoop：分布式计算平台初探经验

阿里巴巴数据产品经理工作总结篇经验

Kettle例子加文档文档

日志系统之基于Zookeeper的分布式协同设计经验

开源MySQL数据仓库解决方案：Infobright 经验

DataCleaner 3.5.1 发布，数据质量分析资讯

数据仓库平台，Apache Hive 0.9.0 发布资讯

ETL调度的相关搜索

关键词

Kettle 开源项目

Scriptella 开源项目

基于Java的开源数据挖掘解决方案：RapidMiner 经验

分布式计算系统：Onyx 经验

Scala 机器学习框架：Conjecture 经验

SpagoBI 开源项目

Apache Crunch：简化MapReduce编程的Java库 经验

揭秘 IFTTT 每天处理几十亿事件数据的基础结构 资讯

中国移动集中化BI探索：数据仓库与Hadoop混搭 资讯

开源ESB-Talent产品研究 经验

如何使用Spark大规模并行构建索引 经验

Airbnb架构要点分享 经验

100个替代昂贵商业软件的开源应用 资讯

Hadoop：分布式计算平台初探 经验

阿里巴巴数据产品经理工作总结篇 经验

Kettle例子加文档 文档

日志系统之基于Zookeeper的分布式协同设计 经验

开源MySQL数据仓库解决方案：Infobright 经验

DataCleaner 3.5.1 发布，数据质量分析 资讯

数据仓库平台，Apache Hive 0.9.0 发布 资讯

ETL调度 的相关搜索

关键词

Apache Crunch：简化MapReduce编程的Java库经验

揭秘 IFTTT 每天处理几十亿事件数据的基础结构资讯

中国移动集中化BI探索：数据仓库与Hadoop混搭资讯

开源ESB-Talent产品研究经验

如何使用Spark大规模并行构建索引经验

Airbnb架构要点分享经验

100个替代昂贵商业软件的开源应用资讯

Hadoop：分布式计算平台初探经验

阿里巴巴数据产品经理工作总结篇经验

Kettle例子加文档文档

日志系统之基于Zookeeper的分布式协同设计经验

DataCleaner 3.5.1 发布，数据质量分析资讯

数据仓库平台，Apache Hive 0.9.0 发布资讯

ETL调度的相关搜索