基于hadoop 网络爬虫

jopen 12年前

一。用hadoop作网络爬虫的原因

爬虫程序的海量计算特性要求必须要用分布式方式来实现。一般爬虫爬取的是整个互联网上的所有或部分数据，这个数据量一般是P byte级，至少也是T byte级，因此用分布式的方式来获取这是不二之选。在众多的分布式计算框架里hadoop绝对是个中翘楚，从hadoop的用户名单中可以看出hadoop的应用范围已经非常广泛，hadoop本身已经接近成熟。因此hadoop是首选。

hadoop提供了自动的集群管理，任务分配，负载平衡。因此在hadoop之上构建爬虫程序可以省略这部分代码，这将极大的减少代码量。

二。主要思路

1.遍历整个网络的算法：网页之间是通过link连接起来的，link把所有的页面连接成了一个网，这个网可以用数据结构里的图来表示，用遍历图的算法就可以遍历整个网络了。

2任务切分：以站点为单位来切分爬取工作，每个站点对应一个map任务。系统要维护一个全局站点表，站点表用来记录那些站点已经爬取过，那些尚未爬取，那些正在爬取，并且还要向其中加入新发现的站点。

3.map阶段：每个map完成一个站点的爬取任务，同时把发现的新站点加入到全局站点表。生成的<k,v>就是<url ,url对应的页面数据>。此时要维护一个url的hashtable用来记录已经爬取到的页面，并防止相同的页面被重复爬取。

4.reduce阶段：主要任务是把所有的<url ,url对应的页面数据>存储到hdfs货hbase种去。

三。心得

爬虫程序并不是hadoop典型应用场景。hadoop一般应用于海量数据分析和挖掘，这种场景中首先存在着海量输入数据，并且最终得产出物事一个数据量很小的分析数据，在map过程中对海量数据进行划分成小块并进行分布式处理，在reduce的过程中将大量的中间数据进行合并，并最终得到较小的分析结果。

爬虫程序几乎没有输入，并且最终的产出物是海量数据，这和hadoop的典型应用完全是相反的。在爬虫程序的应用场景中reduce阶段几乎是多余的，几乎可以把reduce阶段的工作放到map的末尾来做。

虽然不符合hadoop的典型应用场景，但爬虫程序一样可以从hadoop上获得极大的好处（自动的集群管理，任务分配，负载平衡）。

基于hadoop 网络爬虫

相关经验

目录