Hadoop 2.1.0 beta 发布,HDFS提供SnapShot模块 资讯

Hadoop 2.1.0 Beta 版 HDFS 提供了SnapShot 模块。用于数据备份、回滚,以防止因用户的失误操作导致集群出现问题。本文先做一个简单的介绍,其他的文章在来介绍Snapshot 本身的实现机制。

jopen 2013-08-28   9095   0
Hadoop  

Zettaset起诉英特尔剽窃其Hadoop大数据软件 资讯

Zettaset控诉英特尔的Hadoop发行版是其旗舰产品的翻版 Zettaset近日控告英特尔抄袭其大数据软件,Zettaset在起诉书中指出,英特尔的Hadoop管理软件与Zettaset的

jopen 2013-10-15   5196   0
Hadoop  

设计高可用性、容错和数据隔离的Hadoop集群 资讯

原文 http://www.infoq.com/cn/articles/Hadoop-Cluster Hadoop不再仅仅是一个时髦词,它已成为业务需求。数据总是大量涌入,但是在最近,我们可能已经

jopen 2015-01-22   14728   0
Hadoop  

Hadoop 数据迁移工具,Apache Sqoop 1.4.6 发布 资讯

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。

pjp 2015-05-10   21332   0

贾扬清:希望Caffe成为深度学习领域的Hadoop 资讯

我们也在 继续摸索。 《程序员》:经常有人说,好的开源工具不等于好的产品。我了解的Caffe的安装和配置还比较复杂,有开发者评价说Caffe文档好,上手方 便。但那个巨大的protobuf配置文件

jopen 2015-07-07   40649   0
Hadoop  

大象的崛起!Hadoop七年发展风雨录 资讯

争关系时候,招聘了Doug(Hadoop创始人),把Google老大赖以生存的DFS与Map-Reduce开源了,开始了Hadoop的童年时期。 差不多在2008年的时候,Hadoop才算逐渐成熟。 从

fmms 2011-09-11   30305   4

华为在Hadoop重要贡献公司名单内,排在Google和Cisco之前 资讯

Yahoo新成立的Hadoop公司Hortonworks,开始与Cloudera争夺领导者地位。 Hortonworks最近发布“Yahoo对Hadoop贡献”一文,标榜Yahoo是Hadoop最大贡献者,Cloudear

fmms 2011-10-08   8423   0
Hadoop  

eBay使用Hadoop和HBase成功构建下一代搜索 资讯

eBay 在 Hadoop 世界(Hadoop World)大会 的主题演讲中展示了一种全新的搜索引擎 Cassini 的架构,该引擎预计在2012年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用

码头工人 2011-11-23   15897   0
Hadoop   HBase  

Facebook使用Corona提升Hadoop的可伸缩性 资讯

Corona Improves Hadoop Scalability At Facebook Facebook 已经 开源了 Corona ,这是一款内部开发的用以改善 Hadoop MapReduce 调度的软件。

jopen 2012-11-22   6643   0

2分钟读懂大数据框架Hadoop和Spark的异同 资讯

谈到大数据,相信大家对 Hadoop 和 Apache Spark 这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。

jopen 2015-12-15   18423   0
Hadoop  

Apache Hadoop YARN的一个抽象层:Twill 经验

Twill是 Apache Hadoop YARN 的一个抽象层。它能够减少开发分布应用程序的复杂性,让开发人员可以更加关注他们的业务逻辑。它通过一个类似于Java线程的简单而直观的编程模型来暴露 Apache

jopen 2013-12-11   18505   0

lucene + hadoop 分布式搜索运行框架:Nut 经验

计算为核心的架构设计是Nut区别于Solr、Katta的地方。 Nut是一个Lucene+Hadoop分布式并行计算搜索框架,能对千G以上索引提供7*24小时搜索服务。在服务器资源足够的情况下能达到每秒处理100万次的搜索请求。

jopen 2014-01-02   13759   0

基于Hadoop的海量图片存储模型 的分析和设计 经验

squid实现负载的降低和提高用户访问速度。这里我们采用Hadoop作为我们设计图片存储系统的基础,一方面是因为Hadoop开源的特性,方便我们根据业务需求做一些源代码方面的改善;令一方面,Hadoop可以部署在廉价的PC上,通过

jopen 2014-01-02   84435   0
Hadoop  

Hadoop2.2.0中HDFS的高可用性实现原理 经验

Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障

jopen 2014-04-22   78538   0

hadoop-2.4.0完全分布式集群搭建 经验

新版本日志系统预计存储在TB级别,并且需要统计分析一些数据(离线统计,非即时),所以选择廉价linux服务器搭建一个hadoop集群,1个namenode,1个resourcemanager(mapreduce新框架yarn,去掉了原来的

jopen 2014-05-08   44807   0

Hadoop - 你不得不了解的大数据工具 经验

如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume)。

fmms 2012-02-21   67402   0

Hadoop 进行分布式并行编程, 第 1 部分 经验

Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop

jopen 2014-01-23   40789   0
P20

  分布式计算开源框架Hadoop入门实践 文档

分布式计算开源框架Hadoop介绍 ── 分布式计算开源框架Hadoop入门实践(一) 在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger

softmind 2011-10-08   6215   0

海量数据的二度人脉挖掘算法(Hadoop 实现) 经验

关系放到内存中,计算的时候依次查找;先说明下我没有明确的诊断对比,这样做的效果一定没 基于hadoop实现的好;只是自己,想用hadoop实现下,最近也在学;若有不足的地方还请指点。 首先,我的初始数据是文件,每一行为一个follow

openkk 2012-09-01   67412   0
Hadoop   算法  

基于Hadoop的大规模数据分析平台:Apache Pig 经验

Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复

jopen 2013-04-03   21109   0
1 2 3 4 5 6 7 8 9 10