P20

  Solr配置企业搜索平台 文档

SOLR搭建企业搜索平台。

fengyong 2011-06-17   7540   0
P5

  Solr:强大的企业级搜索引擎平台 文档

Solr是Lucene下面的一个用Java写的开源子工程项目,它是一个非常强大的企业级搜索平台,它的主要特征包括强大的全文检索、高亮显示、分面搜索、动态聚类、数据库集成、富文本(比如word、PDF)及地理空间搜索等。Solr高度可扩展,提供分布式搜索及索引复制,它为许多世界上大的网站提供了强大的搜索服务,诸如CNet、Zappos等。Solr使用Lucene的搜索核心库来做全文检索,它的接口采用HTTP/XML和JSONAPIs传输数据,这使得它更易用并可以支持不同的语言。Solr强大的配置可以允许它被定制成各种没有Java代码的应用,你还可以通过扩展它的插件来获得更多的自定义功能。

fengyong 2011-06-17   8969   0
P9

  Nutch全文搜索学习笔记 文档

sky_jun101 2011-06-14   4846   0
搜索引擎   HTTP   HTML   Basic   nutch  
P6

  高级Lucene全文检索应用示例及代码简析 文档

Lucene是apache软件基金会 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包及架构,提供了完整的查询引擎和索引引擎,实现了一些通用的分词算法,预留很多词法分析器接口。本文以myrss.easyjf.com网站系统中使用Lucene实现全文检索的代码为例,简单演示Lucene在实际项目中的应用。<br>   使用Lucene实现全文检索,主要有下面三个步骤:<br>   1、建立索引库:根据网站新闻信息库中的已有的数据资料建立Lucene索引文件。<br>   2、通过索引库搜索:有了索引后,即可使用标准的词法分析器或直接的词法分析器实现进行全文检索。<br>   3、维护索引库:网站新闻信息库中的信息会不断的变动,包括新增、修改及删除等,这些信息的变动都需要进一步反映到Lucene索引文件中。

haoyougen 2011-06-13   569   0
P32

  搜索引擎的研究与实现 文档

网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。<br> 新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。<br> 本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。

txin0000 2011-06-10   2574   0
P18

  Lucene初级教程 文档

Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。2 lucene的工作方式lucene提供的服务实际包含两部分:一入一出。所谓入是写入,即将你提供的源(本质是字符串)写入索引或者将其从索引中删除;所谓出是读出,即向用户提供全文搜索服务,让用户可以通过关键词定位源。

endlesshb 2011-04-19   674   0
P5

  nutch应用-安装与使用 文档

Nutch的爬虫抓取网页有两种方式,一种方式是Intranet Crawling,针对的是企业内部网或少量网站,使用的是crawl命令;另一种方式是Whole-webcrawling,针对的是整个互联网,使用inject、generate、fetch和updatedb等更底层的命令。本文将以使用Nutch为笔者在CSDN处的个人专栏文章内容建立搜索功能为例,来讲述Intranet Crawling的基本使用方法(假设用户电脑系统已安装好JDK、Tomcat和Resin,并做过相应的环境配置)。

523520954 2011-04-12   8825   0
P32

  Carrot2聚类工具简介 文档

Carrot2是一个开源的基于搜索结果的聚类引擎Lucene索引结果Lucene索引index由若干段(segment)组成,每一段由若干的文档(document)组成,每一个文档由若干的域(field)组成,每一个域由若干的项(term)组成。项是最小的索引概念单位,它直接代表了一个字符串以及其在文件中的位置、出现次数等信息。域是一个关联的元组,由一个域名和一个域值组成,域名是一个字串,域值是一个项,比如将“标题”和实际标题的项组成的域。文档是提取了某个文件中的所有信息之后的结果,这些组成了段,或者称为一个子索引。子索引可以组合为索引,也可以合并为一个新的包含了所有合并项内部元素的子索引。

sky_jun101 2011-03-08   717   0
P19

  Sphinx搜索引擎架构与使用文档(和mysql结合)v1.1 文档

Sphinx Search 是由俄罗斯人Andrew Aksyonoff 开发的高性能全文搜索软件包,在GPL与商业协议双许可协议下发行。<br> Sphinx的特征: <br>•Sphinx支持高速建立索引(可达10 MB/秒,而Lucene建立索引的速度是1.8MB/秒) <br>•高性能搜索(在2-4 GB的文本上搜索,平均0.1秒内获得结果) <br>•高扩展性(在单一CPU上,实测最高可对100GB的文本建立索引,单一索引可包含1亿条记录) <br>•支持分布式检索 <br>•支持基于短语和基于统计的复合结果排序机制 <br>•支持任意数量的文件字段(数值属性或全文检索属性) <br>•支持不同的搜索模式(“完全匹配”,“短语匹配”和“任一匹配”) <br>•支持作为Mysql的存储引擎

webphp 2011-02-19   566   0
P4

  Lucene3.0之搜索 文档

Lucene3.0之查询处理(1):原理1、查询的三种方式①顺序查询:简单,但查询效率低②索引查询:快速,需要基础索引结构支撑2、理论模型①布尔模型:基于集合论和布尔代数的一种简单检索模型②向量模型:查询串和文档之间分配不同的权值,权值大小放映了文档库中的文档与用户查询串的相关度。查询得到的结果文档按照权值计算相关度有关排序,所以向量模型得到的匹配文档可以是全部精确匹配,也可以是部分匹配查询串。

lxfsbxh 2010-12-17   723   0
P7

  Lucene3.0分词系统 文档

Lucene3.0分词原理与分词系统分词原理建立索引和查询的过程中,都是以基本的语素项为单位的。基本的语素项就是通过分词得到。这个过程决定了索引单元金额最终的匹配过程。分词在文本索引的建立过程和用户提交检索过程中都存在。利用相同的分词器,把短语或者句子切分成相同的结果,才能保证检索过程顺利进行。

lxfsbxh 2010-12-17   503   0
P

Lucene2.3.2使用手册 文档

Lucene是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。Lucene以其方便使用、快速实施以及灵活性受到广泛的关注。它可以方便地嵌入到各种应用中实现针对应用的全文索引、检索功能,本总结使用lucene--2.3.2。

zohan 2010-12-01   308   0
P4

  Compass学习文档1 文档

Compass是第一个实现java搜索引擎的开源框架,它是基于Lucene之上的,提供更简单的搜索引擎API,事务支持,对象到搜索引擎映射(Annotations&XML),Xml到搜索引擎映射,可以和Hibernate,Spring集成,功能非常的强大。如果用Hibernate,Spring做的项目需要搜索引擎的话,Compass是个非常好的选择。个人认为:如果说Lucene是搜索引擎中的JDBC,那么Compass就是Hibernate。而Compass和Hibernate不仅仅是比喻的像,它们的类和用法,和作用也非常的像。Compass是用面向对象编程方法来实现搜索。如果会Hibernate的话学Compass是非常容易的。

feizibangzi 2010-11-15   640   0
P9

  Compass文档笔记 文档

Compass是基于Lucene 的更高层的抽象,假如你正打算做关于搜索方面的模块的话,那我建议你使用Compass,他提供了可配置方案,而且比Lucene更加容易使用。如果你的系统中使用Spring, Hibernate,JDO, IBatis。。。 Compass是最好的选择,他能够非常方便的集成到现有系统中去。

fmms 2010-10-11   6528   0
P41

  Lucene简介 文档

Lucene是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene 就能对你的文档进行索引和搜索。比如你要对一些 HTML 文档,PDF 文档进行索引的话你就首先需要把 HTML 文档和 PDF 文档转化成文本格式的,然后将转化后的内容交给 Lucene 进行索引,然后把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。不指定要索引的文档的格式也使 Lucene 能够几乎适用于所有的搜索应用程序。Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。

jamiesun 2010-10-09   575   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档