P49

  文档式数据库在Hadoop集群中的应用 文档

提纲大数据回顾Batch Analytics传统的结构化数据依然是最常见的数据非结构化的情绪表达和客户行为快速增长企业现存的非结构化数据蕴含大量开放文本视频音频在业务操作中被使用博客,论坛以及评论反映了客户的声音volume30%组织需要每天处理>100GB数据批处理更新从每天提升到每小时,每分钟,甚至实时复杂事件处理能够即时产生信息发送给分析系统实时流数据处理大数据:信息驱动力3v海量数据规模高时效性多样化50%组织拥有和处理>10TB数据10%已经处理>1PB电子商务和Web日志可产生每分钟上万的数据项社交媒体应用每分钟产生百万交互活动Hadoop与NoSQL–解决BigData的核武器Hadoop

tony2007 2015-06-19   1856   0

破解迷雾:关于大数据Hadoop的九大误区 资讯

这些毫无根据的印象涉及所需技能储备、技术方案类型以及技术匹配方式等多个层面,盲目偏信只会将大家引入歧途。

jopen 2015-06-23   11979   0
Hadoop  
P36

  以Hadoop为核心的大数据开放平台建设 文档

以Hadoop为核心的大数据开放平台建设孙利兵驾驭大数据大数据技术发展大数据技术发展大数据技术有哪些不足大数据技术本身百花齐放,如何用好每项技术是个难题大数据技术内部融合性不够大数据技术与其他传统技术的融合性不够我们缺少什么?缺乏一个能融合现有大数据技术的技术技术领域如何解决大数据技术应用难的问题?

w327 2015-05-25   779   0

Hadoop数据仓库的终结者吗? 资讯

在过去三年,Hadoop生态系统已经大范围扩展,很多主要IT供应商都推出了Hadoop连接器,以增强Hadoop的顶层架构或是供应商自 己使用的Hadoop发行版。鉴于Hadoop的部署率呈指数级的增长,以及其生态系统不断地深入而广泛地发展,我们很想知道Hadoop的崛起是否会导 致传统数据仓库解决方案的终结呢。

jopen 2014-01-14   17929   0
Hadoop  

Hive:基于hadoop数据仓库工具 经验

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件 映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快 速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

jopen 2014-11-25   24320   0

Hadoop 数据管理平台:Apache Falcon 经验

Apache Falcon 提供了一个用于治理和编排 Hadoop 内部和周边数据流的数据处理框架。该框架为获取和处理数据集、复制与保留数据集、重新定向位于非Hadoop扩展中的数据集、维护审核跟踪与沿袭提供了关 键性的管控框架。Knox拓展了Hadoop的安全边界,实现了与LDAP、用于证书管理的活动目录等框架进行了充分整合,为跨Hadoop和所有相关项 目的授权提供了一个通用服务。

jopen 2015-01-19   24215   0

Hadoop时代的大数据架构 经验

提 到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我 把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给大家有个铺垫,简单讲一些相关开源组件。

b77m 2015-04-22   140189   0

数据(一) - hadoop生态系统及版本演化 经验

HDFS:分布式存储系统(Hadoop Distributed File System):提供了高可靠性、高扩展性和高吞吐率的数据存储服务 HDFS源自于Google的GFS论文 (发表于2003年10月 ),是GFS克隆版 YARN:资源管理系统(Yet Another Resource Negotiator):负责集群资源的统一管理和调度,Hadoop 2.0新增系统,使得 多种计算框架可以运行在一个集群中

jopen 2016-01-20   22814   0
P32

  基于hadoop数据仓库技术 文档

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

cqn1512 2013-05-02   3410   0
P30

  淘宝Hadoop数据分析 文档

基本概念Hadoop的应用范围Hadoop底层实现原理Hive与数据分析Hadoop集群管理典型的Hadoop离线分析系统架构常见问题及解决方案关于打扑克的哲学打扑克与MapReduce

lxz 2014-01-03   3863   0
P36

  以Hadoop为核心的大数据开放平台建设 文档

以Hadoop为核心的大数据开放平台建设孙利兵驾驭大数据大数据技术发展大数据技术发展大数据技术有哪些不足大数据技术本身百花齐放,如何用好每项技术是个难题大数据技术内部融合性不够大数据技术与其他传统技术的融合性不够我们缺少什么?缺乏一个能融合现有大数据技术的技术技术领域如何解决大数据技术应用难的问题? 解读以Hadoop为核心,融合其他技术的平台系统Avro是实现融合的关键技术Cloudera在做-Hadoop应用体验Cloudera在做-Hadoop开发体验DevelopWithCDK讯飞如何应对这个技术挑战?讯飞大数据开放平台以数据导向为理念以Hadoop为核心融合优秀技术因地制宜的使用技术提升大数据用户体验

ee37 2015-07-05   501   0
P12

  淘宝 Hadoop 数据分析实践 文档

数据分析选型历程; Hadoop简介; 系统架构; 集群介绍; 近期对Hadoop的改造实践。

wsldg 2012-02-28   678   0

Hadoop 通用数据摄取框架:Gobblin 经验

Gobblin 是 Hadoop 通用数据摄取框架,可以从各种数据源中提取,转换和加载海量数据。比如:数据库,rest APIs,filers,等等。Gobblin 处理日常规划任务需要所有数据摄取 ETLs,包括作业/任务规划,任务分配,错误处理,状态管理,数据质量检测,数据发布等等。

jopen 2015-09-15   31462   0

Hadoop数据处理解决方案:Cascalog 经验

Cascalog 是 Hadoop 上的数据处理解决方案,无需 hassle。

jopen 2014-10-29   14108   0

微软数据库拥抱Hadoop 资讯

在西雅图举行的 PASS 峰会上,微软副总裁 Ted Kumert宣布,Hadoop 分布式计算平台将整合到下一个版本的关系数据库 SQL Server 2012、Windows Server 和 Azure 中。Hadoop 是一个顶级 Apache 开源项目,雅虎是最主要的贡献者,主要被应用于分析大容量数据集。整合 Hadoop 将让微软的客户能分析和处理大数量的非结构化数据。SQL Server 总经理 Doug Leland 称,微软与 Hortonworks 建立了战略合作关系,帮助微软将 Hadoop 移植到 Windows Server 和 Azure。Hortonworks 是雅虎的多位核心开发者成立的 Hadoop 支持咨询团队。

jopen 2011-10-14   30596   2
Hadoop  

数据处理一定需要Hadoop吗? 资讯

Google强大的搜寻引擎每天处理庞大的搜寻数据,靠的是数十万的伺服器同时作工。然而一般企业并无法使用Google所用的内部搜寻引擎工具,所以,拥有处理大数据工具的分散式运算平台Hadoop应运而生。

dy223 2015-03-26   12892   0

Cascading——针对Hadoop MapReduce的数据处理API 博客

Cascading API的核心概念是管道和流。所谓管道,就是一系列处理步骤(解析、循环、过滤等等),这些步骤定义了将要进行的数据处理,而流就是带有数据源与数据接收 器(data-sink)的管道的联合。 Cascading是一个新式的针对Hadoop clusters的数据处理API,它使用富于表现力的API来构建复杂的处理工作流,而不是直接实现Hadoop MapReduce的 算法。 该 处

Hadoopp 2012-09-28   1196   0

Hadoop 开源项目

Hadoop是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。Hadoop为应用程序透明的提供了一组稳定/可靠的接口和数据运动。在Hadoop中实现了Google的MapReduce算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。此外,Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。由于应用了map/

码头工人 2019-01-17   890   0

hadoop 博客

找hadoop找到这里,留个脚印

qooxdoo 2010-11-28   1466   0

Google 复杂的招聘流程 资讯

去 Google 工作想必是许多人的梦想。还记得以前有位老兄 Matthew Epstein 吗?他专门制作了一个 googlepleasehireme 网站,想以此混进 Google。虽然 Techcrunch 的编辑好心的预言他会被雇佣,但最终结果还是碰了壁。Google 让他走正规渠道。   Google 之所以有吸引力不仅因为它的庞大,它的野心和梦想,而且因为那里的环境非常人性化。那里有免费午餐、干洗店、健身中心、游泳池和视频游戏区。员工们甚至可以带着宠物来上班。

jopen 2011-10-27   8309   1
Google  
1 2 3 4 5 6 7 8 9 10