HTML操作类库 - 开源经验 - 第1页

0推荐

117K 浏览

可通过DOM，CSS以及类jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作...

StaSloane 10年前

HTML操作类库

0推荐

55K 浏览

jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

EvieReinhar 10年前

HTML操作类库

0推荐

40K 浏览

php_http_parser 是基于node.js http-parser的PHP扩展，可用于实现纯异步PHP程序

jopen 11年前

HTML操作类库 php_http_parser

0推荐

38K 浏览

PostHTML是一个转换HTML/ XML的工具。 PostHTML本身是非常小的。它只包括一个HTML解析器，一个HTML节点树API和一个节点树stringifier。

jopen 11年前

HTML操作类库 PostHTML

0推荐

74K 浏览

JsoupXpath 是一款纯Java开发的使用xpath解析html的解析器，xpath语法分析与执行完全独立，html的DOM树生成借助Jsoup，故命名为JsoupXpath.为了在jav...

gwxd 11年前

HTML操作类库 Jsoupxpath

0推荐

43K 浏览

Oga是一个采用Ruby编写的XML/HTML解析器。它提供了一个易于使用的API来解析，修改和查询文档（使用XPath表达式）。Oga不需要系统库如libxml，使得它能够更简便和更快的安装在...

jopen 12年前

HTML操作类库 Oga

0推荐

88K 浏览

AngleSharp是一个.NET库，让你能够解析基于尖括号的超文本如：HTML, SVG, 和MathML。AngleSharp的一个重要方面是，CSS也可以解析。该解析器构建建立在官方W3C规范之上。

jopen 12年前

HTML操作类库 AngleSharp

0推荐

41K 浏览

pup是一个命令行工具，用于处理HTML。它从标准输入读取，打印到标准输出，并允许用户使用CSS选择器过滤页面的某些部分。

jopen 12年前

HTML操作类库 pup

0推荐

59K 浏览

HtmlExtractor是一个Java实现的基于模板的通用的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。

jopen 12年前

HtmlExtractor HTML操作类库

0推荐

49K 浏览

lxml是Python语言中功能最丰富，最容易使用的XML和HTML文档处理库。它处理速度非常快，同时对内存十分友好，据统计已有超过两百万次的下载量。

jopen 12年前

HTML操作类库 lxml

0推荐

90K 浏览

BoilerPipe是一个开源java类库，能从html中剔除广告和其他附加信息，提取出目标信息，如正文内容。可以通过配置不同的extractor来extract目标内容。

jopen 12年前

HTML操作类库 BoilerPipe

0推荐

45K 浏览

网页去噪需要去掉与网页内表达内容不相关的文字，如广告，评论等等。现在对于博客、新闻类的网页去噪已经有很多的应用，比如常用的印象笔记、有道笔记就用到了相关的技术。

jopen 12年前

HTML操作类库正文

0推荐

39K 浏览

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

jopen 12年前

HTML操作类库 XPath

0推荐

43K 浏览

Google开源的Gumbo，用的OC对Gumbo的一个封装OCGumbo。一个功能点就是想根据OCGumbo里面的各种Query、Find方法写一个自动解析器，解析某一页面的时候只需要读取一...

jopen 12年前

Objective-C HTML操作类库

0推荐

44K 浏览

scrape.py是从网页抓取内容的Python模块。使用它，您可以轻松地抓取页面，跟踪链接，并提交表格，Cookies，重定向和SSL自动处理。（对于SSL，你要么需要一个带socket.s...

jopen 12年前

HTML操作类库 scrape.py

0推荐

75K 浏览

Jumony Core首先提供了一个近乎完美的HTML解析引擎，其解析结果无限逼近浏览器的解析结果。不论是无结束标签的元素，可选结束标签的元素，或是标记属性，或是CSS选择器和样式，一切合法的，...

jopen 13年前

HTML操作类库 Jumony

0推荐

94K 浏览

NSoup是 jsoup (http://jsoup.org) HTML 解析器的一个.NET移植。

jopen 13年前

HTML操作类库 NSoup

0推荐

76K 浏览

lxml登场，使用类似lxml的工具，你可以把一个HTML文件转换为XML文件。毕竟，一个XHTML文件属于XML文件的一种。就我们知道的网站作者很少关心HTML文件的规范。大部分的网站有不完整...

jopen 13年前

HTML操作类库 lxml

0推荐

69K 浏览

woody 是一款 Java 的HTML 解析/提取器，用法非常类似 webmagic, 是对其抽取模板完全重写，之所有单独提取出来是因为为来更好可重用。

jopen 13年前

HTML操作类库 woody

0推荐

41K 浏览

Xsoup是基于Jsoup开发的HTML抽取器，提供了XPath支持。相比另一个常用的基于XPath的HTML抽取器HtmlCleaner，Xsoup有较大的性能优势，解析时间和抽取时间...

jopen 13年前

HTML操作类库 Xsoup

jsoup 解析HTML信息

使用Jsoup解析和操作HTML

PHP的HTTP解析扩展：php_http_parser

HTML 处理利器 PostHTML 入门教程

使用 xpath 解析 html 的解析器：Jsoupxpath

用Ruby编写的XML/HTML解析器：Oga

用于解析HTML的.NET库：AngleSharp

在命令行解析HTML：pup

Java网页信息抽取组件：HtmlExtractor

处理HTML和XML的Python库：lxml

提取正文内容的Java类库：BoilerPipe

网页去噪，获取网页正文相关开源项目

XPath 语法

Objective-C的HTML解析库集合

提取HTML信息的 Python 模块：scrape.py

HTML解析引擎：Jumony

类似于JSoup的Net版HTML解析器：NSoup

使用lxml抓取网页

HTML 解析/提取器：woody

HTML抽取器：Xsoup

热门问答

热门文档