• jsoup 解析HTML信息

     发表于 11 个月 前

    可通过DOM,CSS以及类jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API, 可通过DOM,CSS以及类似于jQ...

  • 使用Jsoup解析和操作HTML

     发表于 11 个月 前

    jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取...

  • PHP的HTTP解析扩展:php_http_parser

     发表于 1 年 前

    php_http_parser 是基于node.js http-parser的PHP扩展,可用于实现纯异步PHP程序 ...

  • HTML 处理利器 PostHTML 入门教程

     发表于 1 年 前

    PostHTML是一个转换HTML/ XML的工具。 PostHTML本身是非常小的。它只包括一个HTML解析器,一个HTML节点树API和一个节点树stringifier。 ...

  • 使用 xpath 解析 html 的解析器:Jsoupxpath

     发表于 1 年 前

    JsoupXpath 是一款纯Java开发的使用xpath解析html的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath...

  • 用Ruby编写的XML/HTML解析器:Oga

     发表于 2 年 前

    Oga是一个采用Ruby编写的XML/HTML解析器。它提供了一个易于使用的API来解析,修改和查询文档(使用XPath表达式)。Oga不需要系统库如libxml,使得它能够更简便...

  • 用于解析HTML的.NET库:AngleSharp

     发表于 2 年 前

    AngleSharp是一个.NET库,让你能够解析基于尖括号的超文本如:HTML, SVG, 和MathML。AngleSharp的一个重要方面是,CSS也可以解析。该解析器构建建...

  • 在命令行解析HTML:pup

     发表于 2 年 前

    pup是一个命令行工具,用于处理HTML。它从标准输入读取,打印到标准输出,并允许用户使用CSS选择器过滤页面的某些部分。...

  • Java网页信息抽取组件:HtmlExtractor

     发表于 2 年 前

    HtmlExtractor是一个Java实现的基于模板的通用的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 ...

  • 处理HTML和XML的Python库:lxml

     发表于 2 年 前

    lxml是Python语言中功能最丰富,最容易使用的XML和HTML文档处理库。它处理速度非常快,同时对内存十分友好,据统计已有超过两百万次的下载量。 ...

  • 提取正文内容的Java类库:BoilerPipe

     发表于 2 年 前

    BoilerPipe是一个开源java类库,能从html中剔除广告和其他附加信息,提取出目标信息,如正文内容。可以通过配置不同的extractor来extract目标内容。 ...

  • 网页去噪,获取网页正文相关开源项目

     发表于 2 年 前

    网页去噪需要去掉与网页内表达内容不相关的文字,如广告,评论等等。现在对于博客、新闻类的网页去噪已经有很多的应用,比如常用的印象笔记、有道笔记就用到了相关的技术。 ...

  • XPath 语法

     发表于 2 年 前

    XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 ...

  • Objective-C的HTML解析库集合

     发表于 2 年 前

    Google开源的Gumbo,用的OC对Gumbo的一个封装OCGumbo。 一个功能点就是想根据OCGumbo里面的各种Query、Find方法写一个自动解析器,解析某一页面的时...

  • 提取HTML信息的 Python 模块:scrape.py

     发表于 3 年 前

    scrape.py是从网页抓取内容的Python模块。使用它,您可以轻松地抓取页面,跟踪链接,并提交表格,Cookies,重定向和SSL自动处理。 (对于SSL,你要么需要一个带s...

  • HTML解析引擎:Jumony

     发表于 3 年 前

    Jumony Core首先提供了一个近乎完美的HTML解析引擎,其解析结果无限逼近浏览器的解析结果。不论是无结束标签的元素,可选结束标签的元素,或是标记属性,或是CSS选择器和样式...

  • 类似于JSoup的Net版HTML解析器:NSoup

     发表于 3 年 前

    NSoup是 jsoup (http://jsoup.org) HTML 解析器的一个.NET移植。 ...

  • 使用lxml抓取网页

     发表于 3 年 前

    lxml登场,使用类似lxml的工具,你可以把一个HTML文件转换为XML文件。毕竟,一个XHTML文件属于XML文件的一种。就我们知道的网站作者很少关心HTML文件的规范。大部分...

  • HTML 解析/提取器:woody

     发表于 3 年 前

    woody 是一款 Java 的HTML 解析/提取器,用法非常类似 webmagic, 是对其抽取模板完全重写,之所有单独提取出来是因为为来更好可重用。 ...

  • HTML抽取器:Xsoup

     发表于 3 年 前

    Xsoup是基于Jsoup开发的HTML抽取器,提供了XPath支持。 相比另一个常用的基于XPath的HTML抽取器HtmlCleaner,Xsoup有较大的性能优势,解析...