微软数据库拥抱Hadoop

jopen 12年前
     <p>在西雅图举行的 PASS 峰会上,微软副总裁 Ted Kumert<a href="/misc/goto?guid=4958193501270694379">宣布</a>,<a href="/misc/goto?guid=4958183274341148845">Hadoop</a> 分布式计算平台将整合到下一个版本的关系数据库 SQL Server 2012、Windows Server 和 Azure 中。<a href="/misc/goto?guid=4958193502739443563">Hadoop</a> 是一个顶级 Apache 开源项目,雅虎是最主要的贡献者,主要被应用于分析大容量数据集。整合 Hadoop 将让微软的客户能分析和处理大数量的非结构化数据。SQL Server 总经理 Doug Leland 称,微软与 <a href="/misc/goto?guid=4958193503475412989">Hortonworks</a> 建立了战略合作关系,帮助微软将 Hadoop 移植到 Windows Server 和 Azure。Hortonworks 是雅虎的多位核心开发者成立的 Hadoop 支持咨询团队。<br /> <img title="hadoop-logo.jpg" border="0" alt="hadoop-logo.jpg" src="https://simg.open-open.com/show/00dad2633094e5e4cb6c952ac32e81fe.jpg" width="300" height="71" /><br /> <br /> </p>    <div class="inherit_c wrap_text">     <p>Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。</p>     <p>Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而 且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。</p>     <p>下面列举hadoop主要的一些特点:</p>     <ol>      <li>扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。</li>      <li>成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。</li>      <li>高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。</li>      <li>可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。 </li>     </ol>     <p><b>Hadoop主要子项目</b></p>     <ol>      <li>Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common</li>      <li>HDFS: Hadoop 分佈式文件系統 (Distributed File System) - HDFS (Hadoop Distributed File System)</li>      <li>MapReduce:并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API</li>      <li>HBase: 类似Google BigTable的分布式NoSQL列数据库。(HBase 和 Avro 已经于2010年5月成为顶级 Apache 项目[1])</li>      <li>Hive:数据仓库工具,由非死book贡献。</li>      <li>Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由非死book贡献。</li>      <li>Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。 </li>     </ol>     <p><b>Hadoop发展历史</b></p>     <p>Hadoop这个名字不是一个缩写,它是一个虚构的名字。该项目的创建者,Doug Cutting如此解释Hadoop的得名:"这个名字是我孩子给一头吃饱了的棕黄色大象命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意 义,并且不会被用于别处。小孩子是这方面的高手。Googol就是由小孩命名的。"</p>     <p>Hadoop及其子项目和后继模块所使用的名字往往也与其功能 不相关,经常用一头大象或其他动物主题(例如:"Pig")。较小的各个组成部分给与更多描述性(因此也更俗)的名称。这是一个很好的原则,因为它意味着 可以大致从其名字猜测其功能,例如,jobtracker 的任务就是跟踪MapReduce作业。</p>     <p>从头开始构建一个网络搜索引擎是一个雄心勃勃 的目标,不只是要编写一个复杂的、能够抓取和索引网站的软件,还需要面临着没有专有运行团队支持运行它的挑战,因为它有那么多独立部件。同样昂贵的还有: 据Mike Cafarella和Doug Cutting估计,一个支持此10亿页的索引需要价值约50万美元的硬件投入,每月运行费用还需要3万美元。 不过,他们相信这是一个有价值的目标,因为这会开放并最终使搜索引擎算法普及化。</p>     <p>Nutch项目开始于2002年,一个可工作的抓取工具和搜索系 统很快浮出水面。但他们意识到,他们的架构将无法扩展到拥有数十亿网页的网络。在 2003年发表的一篇描述Google分布式文件系统(简称GFS)的论文为他们提供了及时的帮助,文中称Google正在使用此文件系统。 GFS或类似的东西,可以解决他们在网络抓取和索引过程中产生的大量的文件的存储需求。具体而言,GFS会省掉管理所花的时间,如管理存储节点。在 2004年,他们开始写一个开放源码的应用,即Nutch的分布式文件系统(NDFS)。</p>     <p>2004年,Google发表了论文,向全世界介绍了MapReduce。 2005年初,Nutch的开发者在Nutch上有了一个可工作的MapReduce应用,到当年年中,所有主要的Nutch算法被移植到使用MapReduce和NDFS来运行。</p>     <p>Nutch 中的NDFS和MapReduce实现的应用远不只是搜索领域,在2006年2月,他们从Nutch转移出来成为一个独立的Lucene 子项目,称为Hadoop。大约在同一时间,Doug Cutting加入雅虎,Yahoo提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统(见后文的补充材料)。在2008年2月,雅 虎宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。</p>     <p>2008年1月,Hadoop已成为Apache顶级项目,证明它是成功 的,是一个多样化、活跃的社区。通过这次机会,Hadoop成功地被雅虎之外的很多公司应用,如Last.fm、非死book和《纽约时报》。(一些 应用在第14章的案例研究和Hadoop维基有介绍,Hadoop维基的网址为<a href="/misc/goto?guid=4958193504202104128" target="_blank">http://wiki.apache.org/hadoop/PoweredBy</a>。)</p>     <p>有 一个良好的宣传范例,《纽约时报》使用亚马逊的EC2云计算将4 TB的报纸扫描文档压缩,转换为用于Web的PDF文件。 这个过程历时不到24小时,使用100台机器运行,如果不结合亚马逊的按小时付费的模式(即允许《纽约时报》在很短的一段时间内访问大量机器)和 Hadoop易于使用的并行程序设计模型,该项目很可能不会这么快开始启动。</p>     <p>2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据 的系统。运行在一个910节点的群集,Hadoop在209秒内排序了1 TB的数据(还不到三分半钟),击败了前一年的297秒冠军。同年11月,谷歌在报告中声称,它的MapReduce实现执行1TB数据的排序只用了68 秒。 在2009年5月,有报道宣称Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。</p>     <p>构建互联网规模的搜索引擎需 要大量的数据,因此需要大量的机器来进行处理。Yahoo!Search包括四个主要组成部分:Crawler,从因特网下载网页;WebMap,构建一 个网络地图;Indexer,为最佳页面构建一个反向索引;Runtime(运行时),回答用户的查询。WebMap是一幅图,大约包括一万亿条边(每条 代表一个网络链接)和一千亿个节点(每个节点代表不同的网址)。创建和分析此类大图需要大量计算机运行若干天。在 2005年初,WebMap所用的基础设施名为Dreadnaught,需要重新设计以适应更多节点的需求。Dreadnaught成功地从20个节点扩 展到600个,但需要一个完全重新的设计,以进一步扩大。Dreadnaught与MapReduce有许多相似的地方,但灵活性更强,结构更少。具体说 来,每一个分段(fragment),Dreadnaught作业可以将输出发送到此作业下一阶段中的每一个分段,但排序是在库函数中完成的。在实际情形 中,大多数WebMap阶段都是成对存在的,对应于MapReduce。因此,WebMap应用并不需要为了适应MapReduce而进行大量重构。</p>     <p>Eric Baldeschwieler(Eric14)组建了一个小团队,我们开始设计并原型化一个新的框架(原型为GFS和MapReduce,用C++语言编 写),打算用它来替换Dreadnaught。尽管当务之急是我们需要一个WebMap新框架,但显然,标准化对于整个Yahoo! Search平台至关重要,并且通过使这个框架泛化,足以支持其他用户,我们才能够充分运用对整个平台的投资。</p>     <p>与此同时,我们在关注 Hadoop(当时还是Nutch的一部分)及其进展情况。2006年1月,雅虎聘请了Doug Cutting,一个月后,我们决定放弃我们的原型,转而使用Hadoop。相较于我们的原型和设计,Hadoop的优势在于它已经在20个节点上实际应 用过。这样一来,我们便能在两个月内搭建一个研究集群,并着手帮助真正的客户使用这个新的框架,速度比原来预计的快许多。另一个明显的优点是Hadoop 已经开源,较容易(虽然远没有那么容易!)从雅虎法务部门获得许可在开源方面进行工作。因此,我们在2006年初设立了一个200个节点的研究集群,我们 将WebMap的计划暂时搁置,转而为研究用户支持和发展Hadoop。</p>     <p>Hadoop大事记 2004年-- 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。<br /> 2005年12月-- Nutch移植到新的框架,Hadoop在20个节点上稳定运行。<br /> 2006年1月-- Doug Cutting加入雅虎。<br /> 2006年2月-- Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。<br /> 2006年2月-- 雅虎的网格计算团队采用Hadoop。<br /> 2006年4月-- 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。<br /> 2006年5月-- 雅虎建立了一个300个节点的Hadoop研究集群。<br /> 2006年5月-- 标准排序在500个节点上运行42个小时(硬件配置比4月的更好)。<br /> 06年11月-- 研究集群增加到600个节点。<br /> 06年12月-- 标准排序在20个节点上运行1.8个小时,100个节点3.3小时,500个节点5.2小时,900个节点7.8个小时。<br /> 07年1月-- 研究集群到达900个节点。<br /> 07年4月-- 研究集群达到两个1000个节点的集群。<br /> 08年4月-- 赢得世界最快1 TB数据排序在900个节点上用时209秒。<br /> 08年10月-- 研究集群每天装载10 TB的数据。<br /> 09年3月-- 17个集群总共24 000台机器。<br /> 09年4月-- 赢得每分钟排序,59秒内排序500 GB(在1400个节点上)和173分钟内排序100 TB数据(在3400个节点上)。</p>    </div>    <p></p>