大数据领域一些实用工具

y37f 9年前

大数据指的是海量数据的分析处理,可能是EB级的数量处理,我们之前也提到过大数据拥有4V特性,Volume(大量)、Velocity(高 速)、Variety(多样)、Value(价值),对于大数据的分析处理,需要有专门设计的硬件和软件工具进行专业化处理,大数据经过收集再到清洗计算挖掘再到展现和利用,每一步可用的工具都不同,下面我们就来扒一扒大数据领域一些实用工具吧。

1、  收集工具

由于大数据数据集的体量非常巨大高达EB级,而数据源来来自于各种公开信息、传感器、气候等各种渠道,以互联网渠道举例,网站公开信息、交易记录、 评价信息、网络日志、视频、事监控、大型电子商务、门户信息或垂直媒体等各种渠道。像八爪鱼采集器也是新一代采集技术的大数据收集工具,除此以外,数据源 收集这块目前比较常见的工具有:

scraperWIKI(可从多种数据源获取数据,生成自定义视图)

needlebase(可编写代码自动化抓取公开网站)

2、  数据处理

Hadoop (能够对大量数据进行分布式处理的软件框架,具有高可靠性、高扩展性、高效性和高容错性)

Storm(分布式实时计算系统,开源系统,支持多种编程语言,可处理Hadoop的批量数据)

Apache Drill(有助于Hadoop用户实现更快查询海量数据集)

RapidMiner(分布式数据挖掘,免费提供数据挖掘技术和库,支持JAVA代码)

3、  数据存储(计算)

Apache Hadoop

NoSql 数据库 – MongoDB, Cassandra, Hbase

SQL 数据库 – MySql(Oracle), MariaDB, PostgreSQL, TokuDB

4、  数据清洗

DataWrangler(基于网络服务的可视化组数据清洗和重排工具,文本编辑简单,但不适合商业或敏感信息处理)

Google Refine(支持多种格式数据的聚类分析,无电子表格计算功能)

OpenRefine (交互数据转换工具,可对新的行数据进行编码)

5、  数据分析

Jaspersoft(报告和分析服务器)

Pentaho(数据集成和业务分析)

Splunk(IT分析平台)

Talend(大数据集成,数据管理和应用集成)

6、展现工具

可视化展现工具

EXCEL/ CSV/JSON(很对企业人员均会用到的数据分析工具)

Google Chart API(动态图标工具,须支持JavaScript的设备上使用)

Flot(线框图表库,支持所有支持canvas的浏览器

D3(支持SVG渲染的另一种JavaScript库,提供大量线性图和条形图之外的复杂图表样式)

Processing(数据可视化的招牌工具,编写简单的代码即可编译成JAVA)

FUSION TABLES(可根据地理位置可视化数据)

Gephi(进行社交图谱数据可视化分析的常用工具)

SPSSSAS

R(大数据预测分析工具)

Modest Maps(本身的地图库较小,但是配合WAX等扩展库很强大)

OpenLayers(可靠性高的地图库)

除了上述介绍的一些工具外,每个类别还有很多其他的工具可实现,有兴趣的朋友可以进一步去了解。