Goose是一个能够抽取网页中文章正文的Java开源项目。它能够对一个给定的网页进行计算并提取文章的主要内容和该页面中哪一张是最重要的图片。 <DIV class=date>收录时间:2011-01-11 20:28:27</DIV>