Go开源爬虫软件,Pholcus 0.7.4 发布

jopen 8年前

Pholcus(幽灵蛛)是一款纯Go语言编写的重量级爬虫软件,清新的GUI界面,优雅的爬虫规则、可控的高并发、任意的批量任务、多种输出方式、大量Demo,支持横纵向两种抓取模式,支持模拟登录和任务取消等,并且考虑了支持分布式布局。

Pholcus 0.7.4 发布,更新如下:

  1. Spider中添加Namespace func(*Spider) string与SubNamespace func(self *Spider, dataCell map[string]interface{}) string两个字段,实现自定义数据库、表单及文件的名称

  2. 简化数据库配置信息

  3. mongodb输出中,将采集结果字段直接作为数据存储字段,便于检索

  4. 更新计时器等spider中公用方法

  5. 可通过DownloaderID指定下载器,其中phantomjs下载支持请求中定义js,用法Request.Temp["JS"]=js编码(请更新surfer下载器)

  6. AddOutFeild(key)返回索引位置

  7. 增加输出统计报告的打印

  8. 提高被取消的请求删除去重记录的精确度

下载页面:v0.7.4