goose是一个开源的HTML内容/文章抽取器,采用Java实现。 <DIV class=date>收录时间:2011-05-16 14:44:17</DIV>