Go 爬虫软件,Pholcus 0.7.3 发布

jopen 8年前

Pholcus(幽灵蛛)是一款纯Go语言编写的重量级爬虫软件,清新的GUI界面,优雅的爬虫规则、可控的高并发、任意的批量任务、多种输出方式、大量Demo,支持横纵向两种抓取模式,支持模拟登录和任务取消等,并且考虑了支持分布式布局。

Pholcus 0.7.3 发布,更新内容如下:

全面升级
一、界面升级:
1. Windows下编译时自动添加图标
2. web及cmd版的命令行窗口添加软件名称

二、下载器相关升级:
1. 初步增加PhantomJS下载器,实现双下载引擎,可在请求中指定
2. 下载控制转移至Request中,从而下载更灵活
3. Request增加重定向跳转次数控制功能
4. Request可以支持无限重载
5. Request增加序列化方法
6. 下载器实例改为全局唯一

三、规则语法升级:
1. 文本结果输出方法改为Output(ruleName string, resp context.Response, item interface{})
2. 文件输出方法建议用FileOutput(resp *context.Response, name ...string)
3. 更改解析函数Parse(resp *context.Response, ruleName ...string),ruleName为空时调用Root函数
4. OutFeild()方法改为IndexOutFeild()
5. Spider结构体新增CreatItem(ruleName string, item map[int]interface{}) map[string]interface{},将map索引自动转换为OutFeild字段
6. Spider结构体新增代理服务器列表
6. AddQueue()接收
Request参数,UseCookie改为EnableCookie
7. 规则方法库中升级timer计时器

四、数据库操作升级:
1. 优化更新mongodb操作方法库
2. 数据库连接池增加空闲连接定时回收

下载页面:v0.7.3