Heritrix

Heritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

该项目主页:http://crawler.archive.org/

本页【Web爬虫】其它开源项目



 


Email:pe_mail2006 AT 163.com 闽ICP备05011699号 友情链接