webmagic的发起源于工作中的需要,其定位是帮助开发者更便捷的开发一个垂直的网络爬虫。 webmagic的功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),开发者可以便捷的使用xpath和正则表达式进行链接和内容的提取,只需编写少量代码即可完成一个定制爬虫。
打星727次(最新的数据以原仓库为准),Fork238次,可以说已经有一定的用户群。 结巴分词(java版)只保留的原项目针对搜索引擎分词的功能(cut_for_index、cut_for_searc
这个场景下就可以使用 CountDownLatch 协调线程之间的调度了。在直接创建线程的年代(Java 5.0 之前),我们可以使用 Thread.join() 。在 JUC 出现后,因为线程池中的线程不能直接被引用,所以就必须使用
这篇文章探索Java缓存的新标准:javax.cache。 怎么融入到Java生态系统(Java Ecosystem) 这个标准由JSR107所提出,它的作者同样也是标准制定的领导者。JSR107
javaee7-samples 是一个项目用来演示 Java EE 7 各种新特性的示例,有超过 160 个示例程序,包括: batch/batchlet-simple batch/chunk-checkpoint
Lemon是一款基于Java开发的开源OA。 我们的目标是逐步吸收各种业务需求,最终发展成为能够包含所有功能的工具栈,实现尽量减少编码,只通过配置就完全各种定制需求。 业务介绍 OA - Office
Maveryx 是一个自动化的功能和基于GUI的Java应用的回归测试工具。 Maveryx 通过提供一组动态的GUI对象来消除对 GUI 框架的依赖。此功能用于自动识别和管理的变化,同时确保应用程序不足的缺陷能够测试到。
ehcache-jcache 是 ehcache 对 JCache 标准 API (JSR107) 的实现。
HtmlExtractor是一个Java实现的基于模板的通用的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtrac
Dropwizard 是一个开源的Java框架,用于开发OPS友好、高性能的基于REST的后端。它是由 Yammer 开发的,来驱动基于JVM的后端。 Dropwizard提供同类最佳的Java库到一个嵌入式应用程序包。它由以下部分组成:
1.java实现截图并保存到本地 提供给大家三个方法,也是整理的,都不是很难,大家需要的看看哈 2.原理都相似 --------------------------------------
1、ArrayList 代理类: package proxy; import java.util.ArrayList; import java.util.Collection; /** * ArrayList 的代理类
在这篇文章中,我们探讨在应用中使用Java数据网格在内存中缓存Java对象的5大理由。在后面的文章中,我们将探讨一些其他的数据网格功能,超越数据存储,可以彻底改变你的Java体系结构,就像网格计算和事件。
主频即翻倍的时代已经过去了,程序员的编程方式发生了彻底的改变。在目前这个多核多处理器的时代,涌现了原生支持多线程的语言(如 Java)以及分布式并行计算框架(如 Hadoop)。 为了使程序充分地利用多核 CPU,简单地实现一个
Macker 是一个适用于Java开发人员用来检查架构规则的工具。你可以定制一个适合特定项目架构的规则文件,也可以为您的代码撰写通用的规则说明。 项目主页: http://www.open-open
求X天后的日期 import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Calendar;
B3log Solo 是款开源的博客程序,不仅可以运行在 GAE、 BAE 上,也可以运行在标准 Servlet 容器上。
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader;
做博客或bbs时;文章中经常会有些敏感词要去掉; 以下是一个java实现这个功能的小例题: 两个个文件words.properties和KeyWordFilter.java; 1、words.properties文件是个文本文件;内容如下:
1. PMD from http://pmd.sourceforge.net/ PMD能够扫描Java 源代码,查找类似以下的潜在问题: 可能的bug——try/catch/finally/switch语句中返回空值。