P20

  Hadoop 主要子项目介绍 文档

在Hadoop已经发展成为包含多个子项目的集合。虽然其核心内容是MapReduce和Hadoop分布式文件系统(HDFS),但Hadoop下的 Common、Avro、Chukwa、Hive、HBase等

706394187 2015-05-23   807   0

Spark在美团的实践 经验

美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各

樱桃大丸子 2016-04-09   55580   0

《Hadoop基础教程》之初识Hadoop 经验

随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File System,google公司为了存储海量搜索数据而设计的专用文件系统。 2004年Nutch创始人Doug

jopen 2015-01-12   27646   0
P39

  存储简单简介 文档

存储解决方案(DAS NAS SAN)5. 数据保护与回收6. 存储集群与虚拟化7. HDFS与其他分布式文件存储8. SKyForm存储管理 3. 世界第一台硬盘存储器是由IBM公司的 艾伦·舒加特 在1956年发明的,其型号为IBM

lyglyg1394 2016-04-12   2096   0
方案   手册   Swift   Go   ini  

Hadoop 新 MapReduce 框架 Yarn 详解 经验

Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考

jopen 2014-05-14   171737   0

Hadoop MapReduceV2(Yarn) 框架 经验

Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考

jopen 2014-09-11   22474   0
P53

  Oracle大数据解决方案- 文档

数据 Variety 文本/图片/视频/文档等 增长速度很快 Velocity 海量数据的及时有效分析 用户基数庞大/设备数量众多/实时海量/数据指数级别增长 价值密度低Value 单条数据并无太多价值,但庞大的数据量蕴含巨大财富

xiao_xiong 2013-05-14   3836   0
P7

  大数据存储和处理技术 文档

Hadoop:分布式存储和计算平台 • HDFS:分布式文件系统 • MapReduce:分布式计算框架 • NOSQL:分布式数据库 • MPP、内存计算与流计算平台 • 大数据查询和分析技术( SQL

loveqiqi 2015-05-09   693   0

MemSQL 4提供社区版本,并支持地理空间智能以及与Spark集成 资讯

ql4-community-edition 内存数据库 MemSQL 的最新版本支持事务和分析,并提供了一个供组织免费使用的 社区版本 。MemSQL 4于5月20日 发布 ,支持关系型、JS

jopen 2015-06-03   8006   0
MemSQL  

大数据与Hadoop之间是什么关系? 经验

的一个开源项目,它是一个对大量数据进行分布式处理的软件架构,在这个架构下组织的成员HDFS(Hadoop分布式文件系统),MapReduce、 Hbase 、Zookeeper(一个针对大型分布式系统的可靠协调系统),

pm45e 2015-08-03   32007   0
P35

  Hadoop及mapreduce入门 文档

Hadoop, Why?数据太多了,需要能存储、快速分析Pb级数据集的系统 单机的存储、IO、内存、CPU有限,需要可扩展的集群 使用门槛低,数据分析是个庞杂的问题,MPI太复杂 单点故障问题 –机器多了单点故障成为正常的异常

P35

  Hadoop及Mapreduce入门 文档

Hadoop, Why?数据太多了,需要能存储、快速分析Pb级数据集的系统 单机的存储、IO、内存、CPU有限,需要可扩展的集群 使用门槛低,数据分析是个庞杂的问题,MPI太复杂 单点故障问题 –机器多了单点故障成为正常的异常

lxz 2014-01-03   2919   0

Dpark源码剖析一(概述) 经验

Dpark/Spark中最重要的核心就是RDD(弹性分布式数据集,Resilient Distributed Datasets),为了给今后的分析打下基础,这篇文章首先会解释RDD相关的重要概念。接着

P64

  河北省电力公司石家庄培训中心档案管理系统投标文件-技术 文档

求将其行业或下属单位的所有数据进行全面的整合,利用现代的网络技术、安全技术、搜索引擎等技术,实现分布式的、虚拟的、统一管理、统一利用的档案管理信息平台。目前国内外均已对此进行了大量的研究,国家档案局十

221664 2016-07-18   1422   0
培训  
P24

  Apache Hadoop介绍 文档

HadoopApache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。 4. Hadoop 组成Hadoop corePIGHBaseZooKeeper

观光阁 2011-05-15   17718   0
P44

  中国移动Big Cloud平台(经分培训)v1.0 文档

能力打造互联网神话大规模数据处理和存储(五大巫术) 分布式文件系统 GFS 并行计算框架 MapReduce 分布式数据库 BigTable 分布式锁服务 Chubby 云计算集群管理和调度系统创新数据中心技术

ljp123456 2014-03-22   2311   0

开源大数据处理工具汇总(上) 经验

QL, 其主要优点包括: ❶让用户在Hadoop获得更多的查询匹配。其中包括类似OVER的字句分析功能,支持WHERE查询,让Hive的样式系统更符合SQL模型。 ❷优化了Hive请求执行计划

jopen 2016-01-05   78569   0
P51

  自己动手写网络爬虫(二) 文档

分布式爬虫 分布式爬虫 第2章 分布式爬虫 随着互联网技术的发展以及风起云涌的云计算浪潮。爬虫技术也逐渐向着分布式方向发展。比如,Google的爬虫就是使用成千上万台小型机和微机进行合作,完成分布式

Wyh_D_Void 2011-05-23   890   0

一淘网的系统架构 经验

Cache:负责分布式缓存搜索结果数据,从而缩短响应时间,提高前端系统的吞吐量。 此外,为了一淘团队的运营效率,我们还在构建一套“从收集Query和Click日志开始,进行数据统计、关联分析、异常报警和

jopen 2014-01-15   25496   0

一位老码农的编程简史 博客

编写小程序,如磁盘格式化工具、俄罗斯方块、扫雷。 2001,Windows me系统来了,算法分析/操作系统/编译原理重量级课程,自学Delphi/C++ Build/VC/HTML/ASP等,写了很多练习小程序,并开始网站开发。

jopen 2012-05-30   2306   0
1 2 3 4 5 6 7 8 9 10