P309

  罗刚著:自己动手写搜索引擎 文档

30分钟实现的搜索引擎,我们从一个简单的搜索引擎入手,实现一个简单的指定目录文件的搜索引擎。实现之前需要有java开发方面的基础知识。

emmerich 2011-08-23   982   0
P6

  Linux中使用eclipse编译nutch-1.0 文档

test1go 2011-08-19   4298   0
搜索引擎   HTTP   Java   nutch  
P6

  Lucene学习笔记 文档

Directory的另外一个实现类是RAMDirectory,测试的时候可以将索引保存在内存中,然后测试完成后就自动销毁了,不在硬盘中留下任何痕迹。 2:Lucene只能处理文本。因为Lucene的内核本身只处理String和Reader两种对象。可以处理非文本,但是处理起来没有那么简单,需要转换。

menglh 2011-08-18   4772   0
P28

  基于java的搜索引擎的设计与实现 文档

网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。 新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。 本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。

lijinfei 2011-08-16   5085   0
P40

  信息服务平台基础设施 - 搜索引擎 文档

典型搜索引擎、 搜索引擎分类、 搜索引擎的成功之道、 搜索引擎系统技术原理、 数据库检索与全文检索区别、 打造元器件知识库服务平台、 信息服务平台未来趋势——个性化服务推荐

hot00123 2011-08-16   4273   0
P34

  全文检索及Lucence 文档

全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。

gongandkai 2011-08-16   6056   0
P25

  Lucene培训 文档

Lucene简介、Lucene工程代码结构、核心Index类介绍、Lucene各种Query 。

yintaibing 2011-08-15   6587   0
P40

  Lucene&Solr苏宁易购搜索组 文档

Lucene是什么包括:全文索引库。简单的语言解析功能。不包括:爬虫、文档格式解析、“PageRank”等排序算法。

yintaibing 2011-08-15   682   0
P41

  文本挖掘的 文档

文本高层次理解的对象可以是仅包含简单句子的单个文本也可以是多个文本组成的文本集,但是现有的技术手段虽然基本上解决了单个句子的分析问题,但是还很难覆盖所有的语言现象,特别是对整个段落或篇章的理解还无从下手。 将数据挖掘的成果用于分析以自然语言描述的文本,这种方法被称为文本挖掘(Text Mining)或文本知识发现(Knowledge Discovery in Text).

cameron6 2011-08-14   6240   0
P24

  Solr Lucene开发经验 文档

Lucene是一个使用Java语言写的全文检索开发包(API),利用它可以实现强大的检索功能,它的详细介绍大家可以去Google上搜索一下,本文重点放在Solr相关的讨论上。

jiangyad 2011-08-07   7126   0
P63

  开源企业搜索引擎solr的应用教程 文档

Apache Solr 是一个开源的搜索服务器,Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。定制 Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一个描述所有 Field 及其内容的 XML 文档就可以了。定制搜索的时候只需要发送 HTTP GET 请求即可,然后对 Solr 返回的信息进行重新布局,以产生利于用户理解的页面内容布局。Solr 1.3 版本开始支持从数据库(通过 JDBC)、RSS 提要、Web 页面和文件中导入数据,但是不直接支持从二进制文件格式中提取内容,比如 MS Office、Adobe PDF 或其他专有格式。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用 Solr 创建的索引。

SevnInfor 2011-08-02   776   0
P648

  搜索引擎核心技术与实现(基于Lucene和Solr) 文档

第一章首先概要的介绍搜索引擎的总体结构和基本模块,然后会介绍其中的最核心的模块:全文检索的基本原理。为了尽快普及搜索引擎开发技术,本章介绍的搜索引擎结构可以采用开源软件实现。为了通过实践来深入了解相关技术,本章中会介绍相关的开发环境。本书介绍的搜索技术使用Java编程语言实现,之所以没有采用性能可能会更好的C/C++,是希望读者不仅能够快速完成相关的开发任务,而且可以把相关实践作为一个容易上手的游戏。另外,为了集中关注程序的基本逻辑,书中的Java代码去掉了一些错误和异常处理,实际可以运行的代码可以在本书附带的光盘中找到。在以后的各章中会深入探索搜索引擎的每个组成模块。

SevnInfor 2011-08-02   2133   0
P17

  Windows下Nutch的安装 文档

ggyi2003 2011-07-31   5937   0
搜索引擎   HTTP   HTML   XML   nutch  
P17

  Nutch初体验 文档

Lucene 不是完整的应用程序,而是一个用于实现全文检索的软件库。 Nutch 是一个应用程序,可以以 Lucene 为基础实现搜索引擎应用。

ggyi2003 2011-07-31   550   0
P5
P4

  聚类方法及原理介绍 文档

将物理或抽象对象的集合分组成为有类似的对象组成的多个簇的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。在许多应用中,可以将一个簇中的数据对象作为一个整体来对待。   目前在文献中存在大量的聚类算法。算法的选择取决于数据的类型、聚类的目的和应用。如果聚类分析备用作描述或探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。

fivesmallq 2011-07-23   4445   0
P9

  Lucene多线程操作实现 文档

Lucene多线程操作实现对于并发,Lucene遵循以下规则: 1.允许任意多的读操作并发,即任意数量用户可同时对同一索引做检索操作。2.即便正在进行索引修改操作(索引优化、添加文档、删除文档),依然允许任意多的检索操作并发执行。3.不允许并发修改操作,也就是说同一时间只允许一个索引修改操作。Lucene内部已经对多线程安全进行了处理,很多操作都使用了lock进行多线程同步锁定。只要遵循一定的规则,就可以在多线程环境下安全运行Lucene。 

shenhua 2011-07-21   564   0
P4

  一个例子学懂搜索引擎(lucene) 文档

其实,lucene是一个很容易上手的搜索引擎框架,传统的搜索引擎,涉及到爬虫,也就是爬取网页,然后对网页进行加工,也就是索引,最后用于搜索,lucene这个框架可以很方便的帮你做到后面两个步骤,也就是索引和搜索!本文尝试通过一个例子,使大家掌握lucene的使用核心方法,包括分词、索引、搜索不同的目录、搜索不同的域,希望大家通过这个实例,对lucene和搜索引擎能有比较全面的认识! 其实,lucene是一个很容易上手的搜索引擎框架,传统的搜索引擎,涉及到爬虫,也就是爬取网页,然后对网页进行加工,也就是索引,最后用于搜 索,lucene这个框架可以很方便的帮你做到后面两个步骤,也就是索引和搜索!本文尝试通过一个例子,使大家掌握lucene的使用核心方法,包括分 词、索引、搜索不同的目录、搜索不同的域,希望大家通过这个实例,对lucene和搜索引擎能有比较全面的认识!

shenhua 2011-07-21   560   0
P4

  Solr简介 文档

Solr是一个开源企业搜索服务器。她是一个成熟的互联网搜索引擎(就像baidu,google),同时她也是一个优秀的企业搜索引擎。她是使用Java编写的,便于进一步扩展和修改。服务器通讯采用HTTP和XML,除了一些搜索、返回结果列表常用功能,Solr还具有一些其他高级应用如:关键词高亮显示、搜索结果分类(大多数电子商务网站都可以见到)、拼写检查、自动建议、相似搜索结果。

shit_up 2011-07-21   7546   0
P44

  搜索引擎解密(Lucene与Solr) 文档

chaohuis 2011-07-11   5916   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档