C#编写的多线程网络爬虫:NCrawler

jopen 11年前

NCrawler是一个简单并且非常高效的多线程网络爬虫。采用C#开发,基于管道的处理器。它包含HTML, Text, PDF, 和 IFilter 文档的处理器并语言检测(Google)。能够很方便添加管道步骤来抽取、使用和修改信息。

项目主页:http://www.open-open.com/lib/view/home/1349860634322