Java垂直爬虫:webmagic 经验

一个网络爬虫工具包 webmagic的发起源于工作中的需要,其定位是帮助开发者更便捷的开发一个垂直的网络爬虫。 webmagic的功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久

jopen 2013-06-13   41583   0

Java爬虫框架,WebMagic 0.4.0 发布 资讯

webmagic 采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化), 支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。 webmagic包含强大的页面抽取功能,

jopen 2013-11-07   20176   0

Java 爬虫框架,WebMagic 0.4.1 发布 资讯

此次更新加强了Ajax抓取的功能,并进行了一些功能改进。同时引入了重要的脚本化功能"webmagic-script",为今后的 WebMagic-Avalon计划 做准备。 功能增强: 修复了抓取完页面后,Spider偶尔无法退出的问题。

jopen 2013-11-28   8579   0

Java爬虫框架,WebMagic 0.5.3 版本发布 资讯

webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。 以下是爬取oschina博客的一段代码: ? 1 2 Spider.create(

jopen 2016-01-21   17541   0

开源的Java垂直爬虫框架:webmagic 经验

webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。作者曾经

jopen 2013-11-28   121151   0
P

Java入门(Java Gossip) 文档

在介绍的Java时,要对新手解释第一个程式格外的困难,因为一个最简单的爪哇程式就包括了档案管理,类别,主程式,命令列索引等要解释,我很想对您说,反正一个基本程式就这么写就对了,但想了一下这也不对,还是一个一个说明,如果您暂时无法理解,不用担心,目前只是一些观念还用不到而已,可以先跳过,以后会再一一见到应用的。

hb0308513 2011-01-12   4308   0
Java开发   Java   Go  
P150

  Java核心教程(Core Java) 文档

1. Core Java 2. 第一章:进入Java世界 3. 程序语言发展历程机器语言:二进制机器代码,不便理解,不好记忆,与硬件平台相关,不具有可移植性。 汇编语言:用助记符号来描述,与机器代码一一对应,能够理解,但同样不可移植。

taoxiaoyin 2011-11-08   906   0
Java开发   HTML   C/C++   Go   Basic  
P35

  java讲义-----java类集 文档

类集简单来讲就是一个动态的对象数组,此对象数组可以改变大小,可以任意的实现对象的增加、删除、输出。所有的类集存放java.util包中。 (2)类集的划分 1、存放单值:Collection 2、存放一对值:Map 3、输出:Iterator

fengzaonan 2012-07-11   2368   0

Wordpress 的Java接口 - Wordpress Java 经验

Wordpress Java 是一个小型的 Java 库,用来通过 Wordpress 的 XMLRPC 接口与 WordPress 进行交互。 项目主页: http://www.open-open

openkk 2012-04-10   55150   0

java 博客

java  studying!

小嗝嗝 2011-05-16   454   0

JAVA 博客

import java.io.File; import java.awt.image.BufferedImage; import javax.imageio.ImageIO; public class

crashwall 2010-12-25   1687   0
B2C  
P11

  java核心,java内存分配原理,java多态 文档

· 深入Java核心 Java内存分配原理精讲(1) 栈、堆、常量池虽同属Java内存分配时操作的区域,但其适用范围和功用却大不相同。本文将深入Java核心,详细讲解Java内存分配方面的知识。 J

linyk 2016-01-13   371   0

如何评价你的Java/Java EE技能 资讯

英文原文: Hi there . . ! How would you rate your Java/Java EE skills? To know,is to know that you know

jopen 2014-04-29   24923   0
Java  

Java总结篇系列:Java泛型 经验

ger类型的值或其他编码原因,很容易出现类似于//1中的错误。因为编译阶段正常,而运行时会出现“java.lang.ClassCastException”异常。因此,导致此类错误编码过程中不易发现。

go7148 2017-09-14   34382   0

Java NIO的通讯组件:Gecko-Java 经验

Gecko是一个Java NIO的通讯组件,它在一个轻量级的NIO框架的基础上提供了更高层次的封装和功能。支持的RPC调用方式包括RR(request-response)和pipeline 特性:

jopen 2014-07-20   13620   0

Java数据库 Java DB 经验

Java DB 是 SUN 公司推出的基于 Apache Derby 的 100% 纯 Java 的数据库服务器。支持事务处理、权限控制、SQL标准,而且易用。大小只有差不多 2.5 兆左右。 Full-featured

fmms 2011-12-10   85488   0
Java  

Java Socket类库 Java Sockets 经验

Java Sockets是C++ Sockets的一个子集Java实现类库。基于 java.nio.* non-blocking network i/o 类实现。 示例代码: public class

fmms 2012-01-06   60542   0

java的oauth库 Scrible-Java 经验

scribe-java是一个java语言的oauth库, 代码很干净利落很容易扩展而且用起来很方便.支持的第三方登录平台包括:Google、Facebook、Yahoo、LinkedIn、 Twitt

fmms 2012-05-14   46744   0

MongoDB 的 Java驱动 - MongoDB Java Driver 经验

MongoDB Java Driver 是 MongoDB 的 Java 客户端开发包。 项目主页: http://www.open-open.com/lib/view/home/1339812198335

openkk 2012-06-15   67010   0

ImageMagick的 Java 接口 im4java 经验

im4java是 ImageMagick 的另一个Java开源接口。与 JMagick 不同之处在于im4java只是生成与ImageMagick相对应的命令行,然后将生成的命令行传至选中的IM-command(使用

fmms 2012-02-10   26644   0
1 2 3 4 5 6 7 8 9 10