0推荐
28K 浏览

数据仓库中的 SQL 性能优化(Hive篇)

一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致...
jopen 10年前   
0推荐
85K 浏览

开源的BI工具:re:dash

re:dash 是一款开源的BI工具,提供了基于web的数据库查询和数据可视化功能。
jopen 10年前   
0推荐
67K 浏览

开源的MySQL数据仓库解决方案:Infobright

Infobright是一款基于独特的专利知识网格技术的列式数据库。Infobright简单易用,快速安装部署,使用中无需复杂操作,能大幅度减少管理工作;在应对50TB甚至更多数据量进行多并发...
jopen 10年前   
0推荐
64K 浏览

Hive深入浅出

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hi...
jopen 10年前   
0推荐
18K 浏览

数据挖掘

什么是数据挖掘? 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现前所未知的有用模式。数据挖掘还可以预测未来的观测结果。并非所有的信息发现任务都...
jopen 10年前   
0推荐
23K 浏览

图数据挖掘浅析

互联网发展至今,数据规模越来越大,数据结构越来越复杂,而且对系统的需求越来越高。如果学习 过数据结构,那么都知道图是放在最后一个结构,当你学习了图,那么应该感知到前面的链表,队列,树都是在图上面...
jopen 10年前   
0推荐
24K 浏览

web数据挖掘工具:Pattern

Pattern由比利时安特卫普大学CLiPS实验室出品,客观的说,Pattern不仅仅是一套文本处理工具,它更是一套web数据挖掘工具,囊括了数据抓取模块(包括Google, Twitter, ...
jopen 10年前   
0推荐
56K 浏览

通过腾讯shuffle部署对shuffle过程进行详解

摘要:腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle...
jopen 10年前   
0推荐
176K 浏览

Hive SQL 编译过程详解

Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳...
jopen 10年前   
0推荐
34K 浏览

腾讯分布式数据仓库:TDW

TDW,腾讯分布式数据仓库项目,在Hadoop的基础上开发的腾讯内部最大的离线数据处理平台。TDW支持Oracle功能兼容的SQL语法,支持PB及的存储和TB及的计算等。
jopen 10年前   
0推荐
34K 浏览

一张图看懂Kettle

Pentaho Kettle , 强大的PDI (ETL)工具。
jopen 10年前   
0推荐
79K 浏览

数据清洗工具OpenRefine

数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。 怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。
jopen 10年前   
0推荐
23K 浏览

Hive查询

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这...
jopen 10年前   
0推荐
43K 浏览

Hive配置运行及表的操作

Hive的配置文件名为hive-site.xml,你可以在Hive安装目录下的conf目录下找到这个文件。如果你发现该目录下没有这个文件,你可以通过复制hive-default.xml.temp...
jopen 10年前   
0推荐
20K 浏览

Hive安装简介

Hive是基于Hadoop的数据仓库平台。 Hive提供了类SQL查询语言。Hive的数据存储于HDFS中。一般情况下,用户提交的查询将被Hive转换为MapReduce作业并提交给Had...
jopen 10年前   
0推荐
20K 浏览

Hive自定义函数

当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。
jopen 10年前   
0推荐
110K 浏览

开源的数据挖掘工具

本文的主要内容编译自Blaz Zupan和Janez Demsar的一篇论文(Open-Source Tools for Data Mining)。我仅仅选择其中的要点和大家共享,同时加入一些个...
jopen 10年前   
0推荐
83K 浏览

pig的各种运行模式与运行方式详解

Pig 有两种运行模式: Local 模式和 MapReduce 模式。当 Pig 在 Local 模式运行的时候, Pig 将只访问本地一台主机;当 Pig 在 MapReduce 模式运行的...
jopen 10年前   
0推荐
58K 浏览

pig中各种sql语句的实现

Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。使用...
jopen 10年前   
0推荐
49K 浏览

分布式数据仓库系统:Apache Tajo

Tajo 是一个基于 Hadoop 实现的分布式数据仓库系统,特点是低延迟、高可伸缩,提供专用查询和针对存储在HDFS上的大数据集和其他数据源的ETL 工具。
jopen 10年前   
1 2 3 4 5 6 7 8 9

经验分享,提升职场影响力

投稿

热门问答

    热门文档