Twitter Storm 实时数据处理框架分析总结 经验

Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架(原来是由BackType开发,后BackType被Twitter收购,将Storm作为Twitter的实时数据分析)。实时数据处理的应用场景很广泛,如上篇文

fmms 2012-02-03   122111   0

强大的可扩展数据操作与分析Python库:pandas 经验

pandas是一个提供快速、可扩展和展现数据结构的Python库。目标是成为成为使用Python处理实践和实际数据分析的模块。并且想成为任何语言都能使用的最强大的可扩展的数据操作与分析开源工具。 主要的特性如下:

jopen 2014-03-16   35670   0

连接MySQL数据库时常见故障问题的分析与解决 经验

(using password:NO) 下面,首先分析说明这两种错误信息分别在什么情况下会出现: 描述:使用mysql连接命令或连接工具,对远程数据库进行连接时,可能会出现以上两种错误信息,下面以命令的连接方式进行说明。

openkk 2012-08-28   45509   0

基于Hadoop的大规模数据分析平台:Apache Pig 经验

Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

jopen 2013-04-03   21109   0

开源分析数据存储系统:Druid_Analytics 经验

Druid 是为大型数据集上实时探索查询而设计的开源分析数据存储系统, 它的设计意图是在面对代码部署、机器故障以及其他产品系统遇到不测时能保持100%正常运行。它也可以用于后台用例,但设计决策明确定位线上服务。

jopen 2014-11-14   20827   0

Druid 实时数据分析存储系统 经验

简介 Druid 是一个开源的,分布式的,列存储的,适用于实时数据分析的存储系统,能够 快速聚合、灵活过滤、毫秒级查询、和低延迟数据导入 。 Druid在设计时充分考虑到了高可用性,各种节点

jopen 2015-11-16   19643   0

Spark大数据分析框架的核心部件 经验

Spark大数据分析框架的核心部件 Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark

jopen 2016-01-05   18274   0

基于日志文件的数据挖掘机理分析与研究 经验

com/archives/41312 摘 要: 介绍了数据挖掘的定义,分析了日志数据面临的挑战及对其进行挖掘的原因。讨论了日志数据挖掘的需求,归纳了对日志数据挖掘的具体内容,总结了日志数据挖掘的具体应用。该研究对加强企事业

MartinCudmo 2016-02-21   39034   0

使用python抓取并分析数据—链家网(requests+BeautifulSoup) 经验

本篇文章是使用python抓取数据的第一篇,使用request+BeautifulSoup的方法对页面进行抓取和数据提取。通过使用requests库对链家网二手房列表页进行抓取,通过Beautiful

azkb6080 2016-12-03   26851   0
P29

  oracle数据库性能优化实务第6讲db cache分析与优化 文档

1. Oracle数据库性能优化 第六讲:DB CACHE分析与优化主讲人:白鳝 2. Oracle的DB CACHE存储最近使用过的数据块 通过LRU 算法管理(8i开始引入了tch) DB_BLOCK_SIZE

adt126 2014-01-16   629   0
P4

  数据挖掘与分析心得体会 文档

进,大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求!而数据挖掘便应运而生了。正如书中所说:数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做出贡献。 1、数据挖掘 数

xsh1019 2013-01-05   10919   0
P4

  2016年大数据分析市场的21个趋势预测 文档

2016年大数据分析市场的21个趋势预测 (来源:易达大数据)导读:随着社交媒体、移动化和云计算的发展,数据分析及相关的技术已经作为一款具有颠覆性的技术在这个数字时代占有了一席之地了。在过去的20

P7

  数据挖掘中聚类分析的技术方法 文档

数据挖掘中聚类分析的技术方法 汤效琴 戴汝源 摘 要:数据挖掘是信息产业界近年来非常热门的研究方向,聚类分析数据挖掘中的核心技术。本文对数据挖掘领域的聚类分析方法及代表算法进行分析,并从多个方面对

likfefe 2016-01-14   2335   0

3D Slicer - 开源的数据可视化和图像分析软件包 经验

Slicer是一个开源的数据可视化和图像分析软件包。3D Slicer本身设计支持多种平台,包括Windows, Linux 和 Mac Os X。3D Slicer是一种很方便的观察医学图像数据三维场景的工具软件。它具有以下特性:

jopen 2012-03-12   107389   0

组织,分析和分享生物医学研究数据的开源软件:LabKey Server 经验

LabKey Server 是一套开源软件,帮助科学家组织,分析和分享生物医学研究的数据。LabKey Server是一个安全的,基于Web的数据管理平台,该软件是模块化,可配置和可定制的为每个实验室的需要。

jopen 2013-11-19   17649   0

Twitter 数据实时分析处理攻击 Storm 经验

流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在 计算时就将结果以流的形式输出

jopen 2012-11-12   22492   0

实时数据分析仪表盘框架:FnordMetric 经验

FnordMetric 是个基于redis/ruby 的实时事件跟踪应用,是个收集和可视化时间序列数据的框架,用户可以在几分钟内创建漂亮的实时分析仪表盘。 FnordMetric Enterprise FnordMetric

jopen 2014-02-09   27481   0
P24

  大数据分析系统架构之探讨 文档

Tachyon: 15 Mesos: 16 Yarn: 16 BlinkDB : 17 三、结构化数据生态圈: 18 DBSync: 18 OLAP 19 HANA 19 Spark与Hadoop的对比

guet_lee 2017-01-12   2237   0

高性能分析数据库 Impala 升级为 Apache 顶级项目 资讯

 Impala 孵化成功,升级为顶级项目。 Impala 是一个高性能分析数据库,可针对存储在 Apache Hadoop 集群中的 PB 级数据进行闪电般快速的分布式 SQL 查询。Impala 还是一个现代化,大规模分布式,大规模并行的

jopen 2017-11-29   28846   0

Spark生态系统中的图数据分析知识 经验

如何定义图数据? Michael Malak:就事论事,图结构看上去并非像股价图那样,而是边和点的集合。但这只是一种模糊的数学抽象。更具体地说,在书的第一章中我们将真实世界中的图划分为五类:网络、

pcus3589 2016-10-19   7473   0
1 2 3 4 5 6 7 8 9 10