0推荐
90K 浏览

提取正文内容的Java类库:BoilerPipe

BoilerPipe是一个开源java类库,能从html中剔除广告和其他附加信息,提取出目标信息,如正文内容。可以通过配置不同的extractor来extract目标内容。

经验分享,提升职场影响力

投稿

热门问答

    热门文档