Java开源搜索引擎 Apache Nutch 1.5 发布

openkk 10年前
   <div id="p_fullcontent" class="detail">     <p><img alt="Java开源搜索引擎 Apache Nutch 1.5 发布" src="https://simg.open-open.com/show/78b7a9788bbcdbb61fe13a912ddff2da.gif" width="121" height="48" /></p>     <p><a href="/misc/goto?guid=4958343346553899173" target="_blank">Nutch </a>是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。</p>     <p>尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不利于广大Internet用户.</p>     <p>Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的 费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有 动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.</p>     <p>Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:</p>     <ul>      <li>每个月取几十亿网页 </li>      <li>为这些网页维护一个索引 </li>      <li>对索引文件进行每秒上千次的搜索 </li>      <li>提供高质量的搜索结果 </li>      <li>以最小的成本运作 </li>     </ul>     <p><span style="font-weight:bold;">Nutch 每半年发布一个新版本,今天 Apache Nutch 1.5 发布了,该版本包含很多改进,同时升级了 Tika 到 1.1 版本</span>,升级 Hadoop 到 1.0.0 版本,改进 LinkRank 和 WebGraph 元素,提供一些新的插件例如黑名单、过滤以及名字解析等等。</p>     <p>详情请看:<a href="/misc/goto?guid=4958343347377160011" target="_blank">http://www.apache.org/dist/nutch/CHANGES-1.5.txt</a></p>    </div>