P5

基于搜索统计技术中文分词算法的应用研究 文档

中文分词是影响中文搜索引擎性能的一个重要因素,而歧义识别则是中文分词中需 要解决的一个问题,本文简要介绍了目前主要的几种中文分词算法,并提出了基于搜索统计 技术的中文分词算法,通过实验证明,它具有良好的歧义识别能力。

pgw6 2012-12-05   2925   0
P4

lucene高亮代码 文档

lucene高亮代码

saidasaida727 2012-12-04   4546   0
P9

  搜索引擎solr环境配置、分词及索引操作 文档

搜索引擎solr环境配置、分词及索引操作

huafenged 2012-11-22   3880   0
P19

Sphinx搜索引擎架构与使用文档(和 MySQL结合)V1.1 文档

Sphinx Search 是由俄罗斯人Andrew Aksyonoff 开发的高性能全文搜索软件包,在GPL与商业 协议双许可协议下发行。 Sphinx的特征: ·Sphinx支持高速建立索引(可达10 MB/秒,而Lucene建立索引的速度是1.8MB/秒) ·高性能搜索(在2-4 GB的文本上搜索,平均0.1秒内获得结果) ·高扩展性(在单一CPU上,实测最高可对100GB的文本建立索引,单一索引可包含1亿条记录) ·支持分布式检索 ·支持基于短语和基于统计的复合结果排序机制

huamao114 2012-11-17   5040   0
P408

《数学之美与浪潮之巅》 文档

从本周开始,我们将定期刊登 Google 科学家吴军写的《数 学之美》系列文章,介绍数学在信息检索和自然语言处理中的主 导作用和奇妙应用。

barce_liu 2012-11-07   5438   0
P46

A Comparison of Open Source Search Engines (开源搜索引擎的比较) 文档

现今,可以选择的开源产品很多, 而要决定是采用哪个开源产品, 就必须认真考虑每个开源产品的不同的特性。对这些搜索引擎划分的依据可以是开发的编程语 言, 索引文件的存储(倒排文件, 数据库, 还是其他 文件格式), 查询的能力(布尔运算, 模糊查询, 词根替换等等), 排序策略, 支持索引的文件类型, 在线索引能力和增量索引的能力。 其他值得考虑的重要因素是项目的最后更新日期, 当前版本和项目的活跃度。 这些因素之所以重要是因为, 如果一个开源搜索引擎在近期没有更新的话, 那么要满足现在的网站的话, 可能存在很多的缺陷和问题。 利用这些特性就可以给出一个大体上的划分, 同时能够减少待选的开源产品的数目。 最后, 考虑不同负 载的时候搜索引擎的性能, 当信息量增加时, 性能的如何降低的,这些也非常重要。 此时,就要分析数据量和索引时间的对比情况, 索引阶段所用的资源, 和检索阶段的性能。

ppm4j 2012-11-04   4647   0
P12

  Lucene的Highlighter实现文章摘要的自动提取 文档

使用Lucene自带的Highlighter就可以实现对原始文件摘要的提取工作。Highlighter类有一个getBestFragment方法,这个方法有多个重载的方法。使用Lucene自带的Highlighter就可以实现对原始文件摘要的提取工作。Highlighter类有一个getBestFragment方法,这个方法有多个重载的方法

zfr046 2012-11-02   10502   0
P550

Lucene 3.0 原理与代码分析完整版 文档

本系列文章将详细描述几乎最新版本的Lucene的基本原理和代码分析。Lucene是一个高效的,基于Java的全文检索库。

小游戏 2012-10-31   394   0
P527

Lucene 原理与代码分析完整版 文档

Lucene 是一个高效的基于Java 的全文检索库 。 所以在了解 Lucene 之前要费一番工夫了解一下全文检索。 那么什么叫做全文检索呢?这要从我们生活中的数据说起。 我们生活中的数据总体分为两种:结构化数据和非结构化数据结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。 当然有的地方还会提到第三种,半结构化数据,如XML,HTML 等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。 非结构化数据又一种叫法叫全文数据。

hellohank 2012-10-29   284   0
P7

主要分布式搜索引擎技术的研究 文档

讨论了当前搜索引擎的主要技术以及这些技术的原理。介绍了基于 P2P的搜索技术 ,以及 JAXT搜索框架的基本原 理 ,重点给出了基于 Map /Reduce技术分布式搜索引擎的实现。对今后搜索引擎的发展也作出了相应的探讨。

ppmnyw 2012-10-24   424   0
P18

  Lucene 3.1 使用教程 文档

全文检索就如同ORM,是一个概念。ORM的框架有很多种:Hibernate、TopLink、iBatis等,我们之前学习的是Hibernate。同样的,全文检索领域中也有多种框架,Lucene就是其中的一个用开源的全文检索框架。对索引库的操作可以分为两种:管理与查询。管理索引库使用IndexWriter,从索引库中查询使用IndexSearcher。Lucene的数据结构为Document与Field。Document代表一条数据,Field代表数据中的一个属性。一个Document中有多个Field,Field的值为String型,因为Lucene只处理文本。

a565810900 2012-10-16   3527   0
P3

基于Compass框架的电子商务网站搜索引擎设计 文档

摘 要 详细介绍全文搜索技术的基本原理 阐述了 Lucene 框架和 Compass 框架的功能 并通过 Compass 框架实现一个电子商务网站的搜索引擎 Compass 框架和 Spring Hibernate 的组 合使用极大方便了开发者 提高了企业级应用开发的效率

youcanping 2012-10-13   418   0
P1

  Lucene 基本概念 文档

Lucene它最主要就是做两件事:建立索引和进行搜索来看一些在lucene中使用的术语,这里并不打算作详细的介绍,只是点一下而已----因为这一个世界有一种好东西,叫搜索。 建立索引:Document:文档;Document相当于一个要进行索引的单元,任何可以想要被索引的文件都必须转化为Document对象才能进行索引。

lydouble0 2012-09-27   3257   0
P35

  lucene 初级学习资料 文档

lucene简介lucene是什么?lucene是一套JavaAPI,它不是一个独立的搜索引擎系统,但是你可以使用lucene开发搜索引擎系统。现在我们学习lucene主要是学习如何使用别人开源的东西,来组建自己想要的搜索引擎系统。在这里我是和大家共同讨论学习lucene,前些日子我先简单的学习了一下,下面给大家具体的介绍一下lucene.lucene有什么(也就是lucene的组成)(1)indexer(2)searcher一个完整的搜索引擎有四部分组成,lucene可以完成两部分。

zzc0112 2012-09-24   3191   0
Lucene   搜索引擎   HTML   Java   SQL  
P41

Building 50TB-scale search engine with MySQL and Sphinx 文档

利用MySQL + Sphinx 构建拥有50TB数据的搜索引擎。

majysky 2012-09-24   399   0
P55

开源搜索技术与FirteX检索平台 文档

10:402/22大纲?搜索技术与开源平台–搜索技术简介–Lucene、Lemur等开源平台及相关工具介绍?FirteX-高性能全文索引与检索平台–为什么做FirteX?–使用FirteX–理解和扩展FirteX10:403/22大纲?搜索技术与开源平台–搜索技术简介–Lucene、Lemur等开源平台及相关工具介绍?FirteX-高性能全文索引与检索平台–为什么做FirteX?–使用FirteX–理解和扩展FirteX

bluecll 2012-09-23   407   0
P46

ch7.现代信息检索 - 基于邻近度的信息检索模型 文档

ch7.现代信息检索 - 基于邻近度的信息检索模型

wuchang114 2012-09-22   2655   0
P72

ch6.现代信息检索 - 相关反馈与查询扩展 文档

ch6.现代信息检索 - 相关反馈与查询扩展

wuchang114 2012-09-22   417   0
P20

ch5.现代信息检索 - 高级信息检索模型 文档

ch5.现代信息检索 - 高级信息检索模型

wuchang114 2012-09-22   507   0
P57

ch4.现代信息检索 - 经典信息检索模型 文档

现代信息检索 - 经典信息检索模型 - 布尔模型与矢量空间模型

wuchang114 2012-09-22   3043   0
1 2 3 4 5 6 7 8 9 10