Java 爬虫框架,SeimiCrawler v0.2.6 发布

jopen 8年前

特别介绍

2016.01.05:专门为SeimiCrawler工程打包部署的maven-seimicrawler-plugin已经发布可用,详细请继续参阅maven-seimicrawler-plugin或是详细文档中"工程化打包部署章"节。

Change log

v0.2.6

  • 增加统一的启动入口类,配合未来SeimiCrawler的maven构建plugin一起使用

  • meta refresh方式跳转优化,设置最多上限为3次,防止遇到持续刷新页面无法跳出

  • bug fix:修复在Request中自定义数据无法传向Response的问题

SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。

简介

SeimiCrawler是一个敏捷的,支持分布式的Java爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以 及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想 上SeimiCrawler受Python的爬虫框架Scrapy启发很大,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且 普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath,默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。

原理示例

基本原理

SeimiCrawler v0.2.6 发布,Java 爬虫框架

来自: http://www.oschina.net/news/69741/seimicrawler-0-2-6