0

Yioop! 0.92 发布,PHP 全文搜索引擎

jopen 7年前

Yioop! 是一个开源的搜索引擎采用PHP开发,使用MySQL或SQLite 来自存储数据。

它可以配置抓取任何页面或指定链接地址范围或对限制URL数量,可用它搭建一个网站的搜索引擎(如Google自定义搜索)。

利用其提供的默认安装程序,每天可以抓取和索引数百万的页面。还可以通过运行更多的爬虫(支持分布式)增加每天抓取和索引的页面数。

开源的PHP搜索引擎 - Yioop!

它支持的索引文件类型包括:HTML, DOC, PNG, JPG, GIF, XML, sitemaps, RSS等。

此外,这个系统还可以通一个基于Web的管理界面来进行控制。

发布说明: This version includes a new hybrid inverted index/suffix tree indexing scheme that should make calculating search results from future crawls faster (doesn't affect old crawls). It can make use of HTTP ETag: and Expire: information when deciding whether to download a URL it has seen before. It also supports the creation of classifiers using active learning. These can be used to label and add scoring information to documents during a crawl. This release includes improvements to the RSS feed news_updater and a segmenter for Chinese