P28

  基于java的搜索引擎的设计与实现 文档

网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。 新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。 本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。

lijinfei 2011-08-16   5085   0

基于Lucene封装的搜索引擎 Regain 经验

Regain是一个基于Jakarta Lucene封装的搜索引擎。它能够索引和查询多种格式的文件(当前支持的格式包括:HTML、XML、Excel、Powerpoint、Word、 PDF和RTF)。此外它还提供一个标签库以便易于将搜索结果展示在JSP页面中

fmms 2012-01-01   22440   0
P54

  基于Solr的搜索引擎研究与实现 文档

摘要随着信息时代的来临,人们的生活、学习、工作和娱乐已经与信息技术充分的融为一体。随着群众对互联网参与度的增加和企事业单位信息化的逐步深入,信息量也成倍地增长,如何能更好地从浩如烟海的数字信息中快速、精准地查找到需要的信息,成为全国人民的迫切需求。尤其是处于信息化建设道路上的中小企业,如何快速且廉价地开放自己的信息检索系统,对于企业的成长至关重要。本文介绍了搜索引擎的基本原理,对搜索引擎的一些核心技术进行了介绍与深入的分析;介绍了Lucene搜索引擎工具包的架构及其基本使用;对基于开源搜索引擎包Lucene的搜索框架Solr进行架构、代码、配置等方面的研究;最后设计并实现了一个基于Solr1.3的简单可用的多库搜索引擎。整个设计过程致力于提高管理维护的方便性和可扩展性。

victorzcs 2012-07-19   5866   0
P28

  基于lucene的搜索引擎 文档

引言本文用lucene和Heritrix构建了一个Web搜索应用程序Lucene是基于Java的全文信息检索包,它目前是ApacheJakarta家族下面的一个开源项目。Lucene很强大,但是,无论多么强大的搜索引擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫Spider。网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。

2804915145 2014-11-29   681   0

Crawlzilla - 基于集群的搜索引擎 经验

Crawlzilla是一个基于集群的搜索引擎部署工具。它可以帮助用户建立集群中的搜索引擎,提供了管理机制(如:集群管理,爬管理,索引池管理)。

jopen 2012-10-12   19525   0

基于Redis的Python搜索引擎 pyredise 经验

pyredise 是一个基于 Python 和 Redis 的简单快速的搜索引擎。

fmms 2012-04-29   18220   0
P9

  基于内容的图像搜索引擎 文档

基于内容的图像检索。摘要:常人在平日的生活中只能记住自己听到过内容的10%,记住自己阅读过内容的30%,却能记住自己看过内容的80%。视觉是人类获得信息的重要途径。越来越多的图像搜索引擎亮相公众,人们的图片检索更加快捷。本文介绍了基于内容图像检索技术的原理及基于这些原理的近几年出现的图像搜索引擎。关键词:搜索引擎;图像检索;

wushijie 2014-02-28   4473   0
P648

  搜索引擎核心技术与实现(基于Lucene和Solr) 文档

第一章首先概要的介绍搜索引擎的总体结构和基本模块,然后会介绍其中的最核心的模块:全文检索的基本原理。为了尽快普及搜索引擎开发技术,本章介绍的搜索引擎结构可以采用开源软件实现。为了通过实践来深入了解相关技术,本章中会介绍相关的开发环境。本书介绍的搜索技术使用Java编程语言实现,之所以没有采用性能可能会更好的C/C++,是希望读者不仅能够快速完成相关的开发任务,而且可以把相关实践作为一个容易上手的游戏。另外,为了集中关注程序的基本逻辑,书中的Java代码去掉了一些错误和异常处理,实际可以运行的代码可以在本书附带的光盘中找到。在以后的各章中会深入探索搜索引擎的每个组成模块。

SevnInfor 2011-08-02   2133   0

基于P2P的搜索引擎:YaCy 1.2 发布 资讯

YaCy是一个个人的网络爬虫和网络搜索引擎。这也是一个基于P2P的Web索引交换网络没有中央服务器,并没有设限的可能性。网页抓取可以在本地,或者你可以触发所有其他YaCy同行的网络爬虫来共同协作抓取Web页面。 YaCy可以显示出有趣的文字,图片,音频和视频的搜索结果,并直接链接到OGG,MP3和视频文件。它有一个协作式的书签系统和许多Web发布功能。

jopen 2012-11-08   7784   0
YaCy  

基于P2P的搜索引擎:YaCy 经验

YaCy是一个个人的网络爬虫和网络搜索引擎。这也是一个基于P2P的Web索引交换网络没有中央服务器,并没有设限的可能性。网页抓取可以在本地,或者 你可以触发所有其他YaCy同行的网络爬虫来共同协作抓取Web页面。 YaCy可以显示出有趣的文字,图片,音频和视频的搜索结果,并直接链接到OGG,MP3和视频文件。它有一个协作式的书签系统和许多Web发布功能。

jopen 2012-11-08   18871   0

基于NodeJS和Redis的轻量级搜索引擎Reds 经验

Reds 是一个轻量的基于NodeJS和Redis的搜索引擎,由TJ Holowaychuk 开发,这个模块原本是为优化 Kue 搜索能力而开发,但是它也非常适合作为轻量的通用搜索库而加入到Blog、文档系统中去。

jopen 2014-12-24   14431   0
P13

  基于搜索引擎优化的策略研究 文档

本文从搜索引擎谈起,介绍了其工作流程以及出现的一些实际问题,从而提出搜索引擎优化。在介绍了搜索引擎优化定义、目的以及价值后,从搜索引擎优化自身的发展、用户行为分析、基于Z39.50的元搜索引擎的应用等方面,对搜索引擎优化的策略进行系统的总结,并针对这三种优化策略提出一系列具体的优化方法,搜索引擎技术优化、个性化服务的丰富与完善、大力发展特色搜索引擎等等。最后,对搜索引擎优化的发展前景进行了展望与总结。

GreenYue 2014-06-08   3842   0
P4

  基于HITS算法的搜索引擎概述 文档

摘要:本文简要介绍了目前搜索引擎中应用较为广泛的一种算法——HITS算法。HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法通过两个评价权值 - 内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。它专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority。

yuchihuo 2012-05-28   4032   0

8 个基于 Lucene 的开源搜索引擎 资讯

Lucene是一种功能强大且被广泛使用的搜索引擎,以下列出8种基于Lucene的搜索引擎,你可以想象他们有多么强大...

fmms 2012-02-06   16907   0
Lucene  

9个基于Java的搜索引擎框架 经验

在这个信息相当繁杂的互联网时代,我们已经学会了如何利用搜索引擎这个强大的利器来找寻目标信息,比如你会在Google上搜索情人节如何讨女朋友 欢心,你也会在百度上寻找正规的整容医疗机构(尽管有很大一部分广告骗子)。那么如果在你自己开发的网站系统中需要能让用户搜索一些重要的信息,并且能以 结构化的结果展现给用户,下面分享的这9款Java搜索引擎框架或许就可以帮助到你了。

jopen 2014-09-03   34907   0

基于Redis与Node.js实现的全文搜索引擎 Reds 经验

Reds是由LearnBoost公司的TJ Holowaychuk开发的一个基于Redis的Node.js全文搜索引擎,其代码加上注释也只有300行。不得不说又是一个Redis的最佳实践,它的主要原理是通过Redis的sets数据结构将分词后的词语碎片进行存储。

fmms 2012-01-01   28816   0

基于lucene 4.3的知识图谱搜索引擎:XunTa 经验

1.XunTa是什么? XunTa是在lucene4.3上创建的通过“知识点”来找人的搜人引擎。 输入一个关键词(或组合),XunTa返回一个排名列表,排在前面的人是与该关键词(组合)最相关的“达人”。

jopen 2014-11-08   16601   0
P10

  lucene-基于java的全文搜索引擎简介 文档

Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。

Wuzjaa 2017-04-09   2346   0

搜索引擎 Summa 经验

Summa是一种由java开发的,快速模块化和可扩展的搜索引擎

fmms 2012-02-06   14892   0
P21

  搜索引擎技术 文档

Lily以NoSQL技术为主题,是建立在云计算上的内容仓库(content repository)。它是基于Apache的 HBase(存储)和Solr(索引/搜索),并提供了大型内容集合存储与检索的解决方案。可运用在 门户网站,内容管理系统,及时搜索,档案应用,文案管理,等等。 Lily的优势在于她强大的搜索能力,无论是文本匹配还是全文索引,通通都能搞 定。但我觉得Lily在获取这些优势的同时付出了相当大的代价,最主要的代价就是系统的复杂性。想想看,为了能够使用Lily,你需要安装并维护以下系 统:HDFS, HBase, Zookeeper, SOLR, Lily. 这些系统任何一个都可能让Operation Team抓狂,更不用说他们混在一起了。

lingmeiwen 2011-12-26   4208   0
1 2 3 4 5 6 7 8 9 10