NekoHTML
NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface (XNI),后者是Xerces2的实现基础。
更多NekoHTML信息
JTidy
JTidy 是 HTML Tidy用Java实现的移植版本,提供了一个HTML的语法检查器和很好的打印功能。类似它的非Java产品,JTidy可以用来清除格式不好和不对的HTM。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。
更多JTidy信息
HotSAX
HotSAX是一个快速,小型的footprint, 用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于Apache Xerces分析器。
更多HotSAX信息
Jericho HTML Parser
Jericho HTML Parser是一个简单而功能强大的Java HTML解析器库,可以分析和处理HTML文档的一部分,包括一些通用的服务器端标签,同时也可以重新生成无法识别的或无效的HTML。它也提供了一个有用的HTML表单分析器。
更多Jericho HTML Parser信息
HTML Parser
Java HTML Parser
TagSoup
HtmlRipper
Cobra
Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。
更多Cobra信息
HtmlCleaner
HtmlCleaner是一个开源的Html文档解析器。HtmlCleaner能够重新排序每个元素然后生成结构良好(Well-Formed)的XML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。
更多HtmlCleaner信息
Java Mozilla Html Parser
VietSpider HTMLParser
VietSpider HTMLParser是一个纯Java实现的HTML DOM解析器,支持HTML4.0.1。它是一个快速的语法检查器,利用相对应的结束标签自动关闭元素,能够处理匹配错误的内联元素标签。

更多VietSpider HTMLParser信息
jsoup
jsoup是一个Java HTML Parser。能够从URL、文件或字符串解析HTML。利用DOM遍历或CSS选择器查找和抽取数据。能够操作HTML元素,属性和文本。能够依据一个白名单过滤用户提交的内容。
更多jsoup信息
rendersnake
rendersnake是一个用于生成HTML页面的Java开源类库,能够与标准JSP和Spring MVC集成。利用其编写的Java代码具有可维护、易于复用、类型校验、可测试和简单的特点。
收录时间:2011-02-20 11:16:34
更多rendersnake信息
jsoup Cookbook中文版
HTML4J