P4

基于lucene的中文全文检索系统的研究与设计 文档

提出了一种基于 Lucene 的中文全文检索系统模型。通过分析 Lucene 的系统结构, 系统采用了基于统计的网页正文 提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文 本聚类的办法, 使检索结果分类显示, 提高了用户的查找的效率。实验数据表明, 该系统在检索中文网页时, 在效率、 精度和 结果处理等方面性能明显提高。

steven2016 2016-07-07   417   0
P75

基于Lucene的中文自然语言搜索引擎 文档

基于Lucene的中文自然语言搜索引擎摘要Internet技术的飞速发展,信息的发布与共享超越了时空的限制,人类进入一个前所未有的“信息爆炸”时代。互联网信息的极速膨胀提供给用户海量的信息资源的同时,也带来了寻找信息的困难。如果没有一个强有力的工具来帮助人们寻找、发掘有用的信息,人们就会被湮没在信息的海洋中,迷失方向。搜索引擎正是为了解决网络“信息迷航”问题而诞生的技术。它以一定的策略在因特网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。它成为连接用户和互联网的最佳纽带,起到网络信息导航的作用。然而由于搜索引擎技术涉及数据库管理、信息检索、人工智能、自然语言处理、机器学习等诸多学科,各商业公司都不愿意将自己的搜索技术公布于众,这使得搜索引擎的应用,受到了某种程度的限制。然而,开源工具Lucene的出现,使得搜索引擎开发者可以简单、快捷、并且有针对性地实现相当强大的搜索功能。首先,本文针对Lucene中的中文分析器不符合汉语的习惯,造成检索查全率、查准率以及检索性能不够理想,实现基于标准中文词库和前向最大匹配算法的中文分析器。

meke 2016-03-04   386   0
P32

Lucene 教程 文档

Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。 <br> 目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene 就能对你的文档进行索引和搜索。比如你要对一些 HTML 文档,PDF 文档进行索引的话你就首先需要把 HTML 文档和 PDF 文档转化成文本格式的,然后将转化后的内容交给 Lucene 进行索引,然后把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。不指定要索引的文档的格式也使 Lucene 能够几乎适用于所有的搜索应用程序。

p45ld 2015-12-31   6514   0
P39

Lucene in Action 中文版 文档

Lucene in Action是关于Lucene 最全面的资料。它在以下的十个章节中包含的信息围绕所有你创 建基于 Lucene 的复杂应用时用到的知识。这是一个平滑和轻松的合作过程的结果,就像和 Lucene 社 区一样。当人们有类似的兴趣,并且不论要面对怎样的现实都想为全球知识共享做贡献时,Lucene 和 Lucene in Action例示了我们可以做些什么。

ka520 2015-11-14   8453   0
P457

Lucene in Action 文档

Lucene started as a self-serving project. In late 1997, my job uncertain, I sought something of my own to market. Java was the hot new programming language, and I needed an excuse to learn it. I already knew how to write search software, and thought I might fill a niche by writing search software in Java. So I wrote Lucene. A few years later, in 2000, I realized that I didn’t like to market stuff. I had no interest in negotiating licenses and contracts, and I didn’t want to hire peo- ple and build a company. I liked writing software, not selling it. So I tossed Lucene up on SourceForge, to see if open source might let me keep doing what I liked.

ka520 2015-11-14   1840   0
P95

Lucene 的应用 文档

第一章:Lucene简介搜索引擎的历史什么是Lucene全文检索系统的结构为什么使用LuceneLucene倒排索引原理LuceneImplementations基于Lucene的搜索程序CompassNutch开源搜索引擎列表全球商用搜索市场Heritrix介绍课堂练习:Heritrix简单抓取任务的设置搜索引擎的历史萌芽:Archie、Gopher起步:Robot(网络机器人)的出现与Spider(网络爬虫)发展:Excite、Galaxy、Yahoo等繁荣:Infoseek、AltaVista、Google和Baidu

逆光行走 2015-03-26   5080   0
P23

  Lucene 3.0 实战 文档

全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。 关于全文检索,我们要知道:1,只处理文本。2,不处理语义。3,搜索时英文不区分大小写。4,结果列表有相关度排序。 在信息检索工具中,全文检索是最具通用性和实用性的。

烟波天客 2015-03-18   2360   0
P

Lucene 3.0.0 API 文档 文档

Apache Lucene是一个高性能,功能完整的文本搜索引擎库。

gongjinxun 2015-01-02   137   0
P28

  基于lucene的搜索引擎 文档

引言本文用lucene和Heritrix构建了一个Web搜索应用程序Lucene是基于Java的全文信息检索包,它目前是ApacheJakarta家族下面的一个开源项目。Lucene很强大,但是,无论多么强大的搜索引擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫Spider。网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。

2804915145 2014-11-29   238   0
P53

Annotated Lucene(源码剖析中文版) 文档

Apache Lucene 是一个高性能(high-performance)的全能的全文检索(full-featured text search engine)的搜 索引擎框架库,完全 (entirely) 使用 Java 开发。 它是一种技术 (technology) ,适合于(suitable for) 几乎(nearly) 任何一种需要全文检索(full-text search)的应用,特别是跨平台(cross-platform)的应用。 Lucene 通过一些简单的接口(simple API)提供了强大的特征(powerful features): 可扩展的高性能的索引能力(Scalable, High-Performance Indexing)  超过 20M/分钟的处理能力(Pentium M 1.5GHz)  很少的 RAM 内存需求,只需要 1MB heap  增量索引(incremental indexing)的速度与批量索引(batch indexing)的速度一样快  索引的大小粗略(roughly)为被索引的文本大小的 20-30%

jackiewu55 2014-10-22   4090   0
P7

Lucene 全攻略 文档

本文首先介绍了Lucene的一些基本概念,然后开发了一个应用程序演示利用Lucene建立索引并在该索引上进行搜索的过程。

nfbw 2014-09-14   150   0
P47

Lucene -学习文档 文档

本课程是企业级的搜索系统,既可以自成体系,拿出来作为一个单独的系统里来 使用;也可以集成到其他现有的系统中,成为其他系统的一个重要的模块(现在 很多网站内部都集成了一个全文检索系统,很多OA 系统都有一个全文检索系 统)。 Lucene 是apache 软件基金会4 jakarta 项目组的一个子项目,是一个开放源代码 的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索 引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德 文两种西方语言)。Lucene 的目的是为软件开发人员提供一个简单易用的工具 包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整 的全文检索引擎。

jielysong 2014-09-10   163   0
P528

Lucene in Action 2 文档

Lucene in Action, Second Edition delivers details, best practices, caveats, tips, and tricks for using the best open-source search engine available. This book assumes the reader is familiar with basic Java programming. Lucene’s core itself is a single Java Archive (JAR) file, less than 1MB and with no dependencies, and integrates into the simplest Java stand-alone console program as well as the most sophisticated enterprise application.

jielysong 2014-09-10   2791   0
P73

Apache Lucene源代码剖析 文档

Apache Lucene 是一个高性能( high-perf ormance )的全能的全文检索( full-featured text search engine )的搜索引擎框架库,完全( entirely )使用 Java 开发。它是一种技术( technol ogy ), 适合于( suitable for )几乎( nearly )任何一种需要全文检索( full-text search )的应用,特别 是跨平台( cross-platform )的应用。

hwz8407 2014-08-15   182   0
P8

  Lucene.net基本应用 文档

Lucene.net基本应用

240996650 2014-07-30   2199   0
P35

Lucene 4.0 的灵活索引 API 文档

Lucene 4.0 的灵活索引 API

fhp0917 2014-07-23   3519   0
P

Lucene 4.6 API 文档 文档

Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java资讯检索程式库。 人们经常提到资讯检索程式库,虽然与搜索引擎有关,但不应该将资讯检索程式库与搜索引擎相混淆。 <br>  全文检索服务主要由两大部门构成:索引器及搜索器。索引器主要负责对文件名称及文件内容进行分词,并创建索引表。搜索器负责检索索引表,获取相关内容信息,并显示

guoshun 2014-07-08   190   0
P87

Realtime Search with Lucene 文档

Lucene made great progress towards realtime search with the Near-realtime search feature (NRT) added in 2.9 NRT reduces search latency (time it takes until a document becomes searchable) significantly, using the new IndexWriter.getReader()

dinckham 2014-05-27   130   0
P61

基于Lucene的Web搜索引擎实现 文档

摘要随着信息技术不断发展、互联网信息不断丰富,搜索引擎的发展速度也越来越快,目前仅Google收录的网页就超过80亿。伴随着搜索引擎的飞速发展,相应的瓶颈问题也开始出现:索引数据库越来越大,需要的维护成本越来越高;索引数据源单一,通常只限于文本内容;索引缺乏通用性和灵活性等等。而Lucene具有开放性和易扩展性,对于解决搜索引擎目前的问题有很好的应用价值。本文通过研究设计并开发实现一个小型简单的基于Lucene的Web搜索引擎,来研究Lucene在搜索引擎领域的应用前景。主要工作包括:(1)分析了W,eb搜索引擎的组成结构和工作原理,在此基础上进行了基于Lucene的Web搜索引擎的整体结构设计,并将系统分为网页搜集子系统、索引检索子系统、查询结果排序子系统等三个模块。(2)针对各个模块的功能进行了设计开发,设计了相关信息的存储机制,并根据搜索引擎的工作原理实现了各模块之间的交互。(3)深入分析并实现了多线程网页搜集、运用Lucene实现索引和检索、搜索结果的页面优先度计算等等基于Lucene的Web搜索引擎的关键技术。

ZL先生 2014-05-17   4675   0
P45

  Lucene 使用代码实例之搜索文档 文档

1,Query类:这是一个抽象类,用于将用户输入的查询字符串封装成Lucene能够识别的Query,它具有TermQuery,BooleanQuery,PrefixQuery等多种实现。2,Term类:用于描述搜索的基本单位,其构造函数是Term(“fieldName”,”queryWord”),其中第一个参数代表要在文档的哪一个Field上进行搜索,第二个参数代表要搜索的关键词。

纠结的忘忆 2014-04-24   755   0
1 2 3 4 5 6 7