GitHub上整理的一些工具 资讯

DH5,基于YARN MRv2集成了Spark可直接用于生产环境的Hadoop,对于企业快速构建数据仓库非常有用。 Ceph:Linux分布式文件系统(特点:无中心) Storm:实时流数据处理,

jopen 2015-02-16   97295   1
Github  

GitHub上整理的一些资料 经验

DH5,基于YARN MRv2集成了Spark可直接用于生产环境的Hadoop,对于企业快速构建数据仓库非常有用。 Ceph:Linux分布式文件系统(特点:无中心) Storm:实时流数据处理,可以

jopen 2014-11-25   115612   0
Github  
P18

  各种系统架构图与详细说明 文档

集工具完成数据的统一管理与维护。对于结构化资源,我们将通过全面的接口管理体系进行相应资源采集模板的搭建,采集后的数据经过有效的资源审核和分析处理后进入到数据交换平台进行有效管理。 3 数据分析与展现

41897179 2015-04-02   19114   0

DBA的40条军规 经验

createIndex({idCardNum:1},{background:1}) 4、所有线上业务库均必须搭建MHA高可用架构,避免单点问题。 5、给业务方开权限时,密码要用MD5加密,至少16位。权限如

majijia505 2017-03-08   36628   0
MySQL   DBA  

Splunk初体验——像Google那样搜索你的数据 经验

维团队很有用。 以上几点,就决定了Splunk的市场非常的大,这家公司的概念是流式数据领域的数据仓库,2012在纳斯达克上市,不过这两年被人做空,股票大跌。因为很多云计算厂商都能提供这种服务,例如阿里云1MB/S都是免费的。

jopen 2014-09-01   102970   0
Splunk  

Presto:Facebook的分布式SQL查询引擎 资讯

数据处理和分析是 Facebook 为 10 亿多活跃用户开发和交付产品的核心所在。 我门拥有世界上最大的数据仓库之一,存储了大约 300PB 以上的数据。 这些数据被一系列不同种类的程序所使用, 包括传统的数

jopen 2013-11-10   26154   0
Presto  

Hive详细教程 经验

查询语言 统一的元数据管理 简单编程 Hive的安装 1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hiv

jopen 2014-05-01   58657   0
Hive  

免费的 ETL 工具 Benetl 资讯

Benetl 是 PostgreSQL 数据库的一个免费的 ETL 工具,同时也支持 MySQL。用于从包括 csv、txt和 excel 文件中抽取数据进行转换并导入到数据库中。 项目地址:

jopen 2011-10-28   33493   0
ETL  

监控解决方案,Hawkular 1.0 Alpha1 发布 资讯

alerts for data from pinger [HAWKULAR-138] - Kettle rarely shutdown gracefully [HAWKULAR-140] - Fix

jopen 2015-06-04   8929   0

详解Hadoop核心架构 经验

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。

jopen 2015-07-30   19557   0

Pivotal开源基于PostgreSQL的数据库Greenplum 资讯

开源大规模并行处理(MPP)数据库Greenplum,其架构是针对大型分析型数据仓库和商业智能工作负载专门设计的。借助MPP这种高性能的系统架构,Greenplum可以将TB级的数据仓库负载分解,并使用所有的系统资源并行处理单个查询。

jopen 2015-11-03   11634   0

Coursera数据工程师董飞:硅谷大数据的过去与未来 资讯

BigQuery 剑拔弩张;在传统数据库,Oracle 收购了 MySQL,DB2 是老牌银行专用,而 Teradata 则做了多年数据仓库。 Apps 领域的大数据公司更多,比如社交消费领域的 Google、

jopen 2015-01-27   53601   0

成为专业程序员路上用到的各种优秀资料、神器及框架 经验

NET:一个通用的关系型数据库客户端,基于.NET 4.0开发的,做简单的处理还是蛮方便的 Navicat Premium:支持MySql、PostgreSQL、Oracle、Sqlite和SQL Server的客户端,通用性上不如Database

ymquan1987 2017-03-09   38211   0

浅谈开源大数据平台的演变 经验

现不俗;小部分离线存储和计算需求,在对性能要求不高的情况下,也可以使用Hadoop实现。因此,在 搭建大数据处理平台的初期,Hadoop能满足90%以上的离线存储和离线计算需求,成为了各大公司初期平台的首选。

jopen 2015-11-21   25453   0

盘点大数据开源软件Google Trends指数 资讯

上的数据进行快速地交互式分析。Presto的设计和编写是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Facebook称Presto的性能比诸如Hive和MapReduce要好上10倍有多。

jopen 2017-04-06   46308   0
P3

  一种基于Java的异构数据库同步实现 文档

己的应用特性、完整性控制和安全性控制。 异构数据库可以是同为关系型数据库系统的Oracle、 mysql、SQL Server等,也可以是不同数据模型的数据库,如关系、模式、层次、网络、面向对象,函数型数据库共同组成一个异构数据库系统。

林城_大少 2014-11-26   8855   0

浅谈开源大数据平台的演变 经验

现不 俗;小部分离线存储和计算需求,在对性能要求不高的情况下,也可以使用Hadoop实现。因此,在搭建大数据处理平台的初期,Hadoop能满足90%以 上的离线存储和离线计算需求,成为了各大公司初期平台的首选。

b77m 2015-04-22   37643   0

如何让Hadoop结合R语言做统计和大数据分析? 资讯

是基于Hadoop的一个 数据仓库 工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合 数据仓库 的统计分析。

jopen 2015-12-23   48265   0
Hadoop  

一篇文看懂Hadoop:风雨十年,未来何去何从 资讯

快速数据的查询和分析,填补HDFS和HBase之间的空白。其出现将进一步把Hadoop市场向传统数据仓库市场靠拢。 Apache Arrow项目为列式内存存储的处理和交互提供了规范。目前来自Apache

jopen 2016-03-10   25303   1
Hadoop  

大众点评数据平台架构变迁 经验

GreenPlum采用双集群热备,一大一小,部分关键报表数据同时在两个集群存储、计算。 3.传输:公司的DBA同学将数据从Mysql、SQLServer拉出来,落地成文件。传输程序每天凌晨解析落地的文件,然后将数据load到greenplum

cnffe 2015-11-06   25029   0
架构  
1 2 3 4 5 6 7 8 9 10