搜索引擎索引原理

mww8 贡献于2015-06-28

作者 微软用户  创建于2011-04-06 06:21:00   修改者USER  修改于2011-04-30 08:03:00字数5332

文档摘要:搜索引擎原理全文索引:根据搜索结果来源的不同,全文搜索引擎可分为两类:一类拥有自己的网页抓取、索引、检索系统(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot)程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,Google和百度就属于此类。另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
关键词:

搜索引擎原理 全文索引: 根据搜索结果来源的不同,全文搜索引擎可分为两类:一类拥有自己的网页抓取、索引、检索系统(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot)程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,Google和百度就属于此类。 另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。 原理:启动数据库的全文索引服务存储过程:sp_fulltext_service  2、初始化全文索引存储过程:sp_fulltext_database  3、建立全文索引目录存储过程:sp_fulltext_catalog 4、在全文索引目录中添加删除表标记存储过程:sp_fulltext_table 5、在全索引目录的表中添加或删除列标记存储过程sp_fulltext_column 目录索引  与全文搜索引擎相比,目录索引有许多不同之处。  首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。  其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo这样的超级索引,登录更是困难。  此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。  最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。  目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。 目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。这种引擎的特点是找的准确率比较高。目录引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。 元搜索引擎  元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。 原理:我们可将元搜索引擎看成具有双层客户机/服务器结构的系统。用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求,搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户。当然,某些元搜索引擎具有略微不同的机制。如下图: 几种不同的元搜索比较: 搜魅网(someta):集合了百度、google、搜狗、雅虎多家主流搜索引擎的结果,提供网页、资讯、网址导航等聚合查询。另外,搜魅网突破了元搜索引擎没有自己的蜘蛛的瓶颈,提供了网站查询的功能。 佐意综合搜索(chinazss):佐意网提供的综合搜索,结合了Google\Baidu\yahoo\等知名搜索引擎,更细分了不同的搜索类别,如软件搜索,游戏搜索,视频搜索,新闻搜索,网页搜索,地图搜索,音乐搜索,企业搜索等。看似页面简单,却搜索功能却很强大。佐意综合搜索可以说是元搜索中的一个典范。 该搜索引擎还可直接查询手机号码归属地,IP查询等。 觅搜 (MetaSoo):最近发现的一个使用了Ajax技术的中文元搜索引擎,可搜索谷歌、百度、雅虎一搜、搜狗、有道等。用户可以自行设置各搜索引擎的可信度(权重),觅搜会根据各搜索引擎重复等情况计算得分,最高100分,然后按照得分排序。这是Ajax技术在元搜索引擎中的第一次应用。 北斗搜索 :跟前面地比较,北斗是目前唯一能用的元搜索引擎,当然也是最好的了。速度还可以;结果来自百度、搜狗、雅虎;左侧有深入搜索、相关搜索; 缩略图功能很cool;可以评价结果。 垂直搜索引擎 垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。 垂直搜索的特点:  (1)、搜索是一个产业商业联盟的平台,一个集成产业链的上下游公司的搜索门户。  (2)、垂直搜索的表现方式和google,baidu的表现方式不同,结构化的搜索和非结构化搜索并用。  (3)、从广告模式上 提供了除 google adsense 和 百度竞价排名广告 之外的另一种可能。 6、垂直搜索引擎的三个特点:  (1)、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点:  比如:找工作的搜索引擎的数据来源于: 等等;  股票搜索引擎 的数据来源于:等股票站点;  (2)、垂直搜索引擎抓取的数据倾向于结构化数据和元数据:  比如:我们找工作关注的:  职位信息: 软件工程师;  公司名称,行业名称:软件公司,外包行业等;  地点:北京,海淀;  (3)、垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索:  比如: 找:海淀 软件工程师 的工作等。 7、垂直搜索引擎站点的8条准则:  1、选择一个好的垂直搜索方向。俗话说男怕选错行,这一点对于搜索引擎来说也是一样的,除了选择的这个行业有垂直搜索的大量需求外,这个行业的数据属性最好不要和  Yahoo,Google等通用搜索的的抓取方向重叠。  目前热门的垂直搜索行业有:购物,旅游,汽车,工作,房产,交友等行业。搜索引擎对动态url数据不敏感也是众所周知的,这些可以作为垂直搜索引擎的切入点;  2、评价所选垂直搜索行业的网站、垂直搜索内容、行业构成等情况:  我们都知道垂直搜索引擎并不提供内容来源,它的数据依赖爬虫搜集,并做了深度加工而来的。因此考虑垂直搜索引擎的所处的大环境和定位至关重要。  3、深入分析垂直搜索引擎的索引数据特点:  垂直搜索引擎的索引数据过于结构化,那么进入的门槛比较低,行业竞争会形成一窝蜂的局面;如果搜索数据特点是非结构化的,抓取,分析这样的数据很困难,进入壁  垒太高,很可能出师未捷身先死。  4、垂直搜索引擎的索引数据倾向于结构化数据和元数据,这个特点是区别于yahoo,google等通用搜索引擎的,这是垂直搜索引擎的立足点。而垂直搜索引擎是根植于某一个行业 ,因此行业知识,行业专家这些也是通用搜索引擎不具备的。也就是说进入垂直搜索是有门槛的。  5、垂直搜索引擎的搜索结果要覆盖整个行业,搜索相关性要高于通用搜索引擎,贴近用户搜索意图,搜索结果要及时。  6、垂直搜索引擎的web 2.0 需求:  垂直搜索引擎的搜索数据由于带有结构化的天性,相对于通用搜索引擎的全文索引而言,更显的少而精。因此,设计的时候要提供收集用户数据的接口,同时提供tag,积  分等机制,使搜索结果更加“垂直”。  7、垂直搜索引擎的目标是帮助用户解决问题,而不只是向通用搜索引擎一样发现信息:  这一点是垂直搜索引擎的终极目标。 在做垂直搜索引擎的时候你需要考虑:什么问题是这个行业内的特殊性问题,什么问题是一般性问题。keso多次提到google的目标是  让用户尽快离开google,而垂直搜索引擎应该粘住用户。一般来说,使用垂直搜索引擎的用户都是和用户的利益需求密切相关的。所谓利益需求是我自己独创的,大意是和用户工作密切相关,生活中必不可少的需求,而求有持续性。比如:学生找论文,业主找装修信息等等这样的需求。因此粘住用户,让用户有反馈的途径是一个关键部分。  8、垂直搜索引擎的社区化特征:  这一条和第9条是相关的。  俗话说物以类聚,人以群分,垂直搜索引擎定位于一个行业,服务于一群特定需求的人群,这个特点决定了垂直搜索的社区化行为。人们利用垂直搜索引擎解决问题,分享回馈。现在做网站都讲求社区化,所以垂直搜索引擎本质上还是:对垂直门户信息提供方式的一次简化性的整合。 搜索技巧 使用双引号进行精确查找 搜索引擎大多数会默认对搜索词进行分词搜索。这时的搜索往往会返回大量信息,如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来(即在英文输入状态下的双引号),这样得到的结果最少,最精确。 例如:在搜索框中输入“电脑技术”,这时只反馈回网页中有“电脑技术”这几个关键字的网页,而不会返回包括“电脑”和“技术”的网页,这会比输入电脑技术得到更少、更好的结果。 这里的双引号可以是全角的中文双引号“”,也可以是半角的英文双引号""。而且可以混合使用,例如: “电脑技术" , "电脑技术“搜狗都是可以智能识别的。 使用多个词语搜索 由于搜狗只搜索包含全部查询内容的网页,所以缩小搜索范围的简单方法就是添加搜索词。 添加词语后,查询结果的范围就会比原来的“过于宽泛”的查询小得多。输入多个词语搜索(不同字词之间用一个空格隔开),可以获得更精确的搜索结果。 例如:想了解北京动物园的相关信息,在搜索框中输入 “ 北京 动物园” 获得的搜索效果会比输入 “ 动物园” 得到的结果更好。 减除无关资料 如果要避免搜索某个词语,可以在这个词前面加上一个减号(“-”, 英文字符)。但在减号之前必须留一空格。Sogou查询非常简洁方便,只需输入查询内容并敲一下回车键 (Enter),或单击“搜狗搜索”按钮即可得到最相关的资料。 在指定网站内搜索 如果想知道某个站点中是否有自己需要找的东西,可以把搜索范围限定在这个站点中,提高查询效率。在想要搜索指定网站时,使用site语法,其格式为:查询词+空格+site:网址。 例如,只想看搜狐网站上的世界杯内容,就可以这样查询: 世界杯 site:sohu.com 。 搜狗也支持多站点查询,多个站点用"|"隔开,如: 利率网 site:www.4c2.cn|www.52585.cn (site:和站点名之间,不要带空格。 ) 除了基本站内查询外,搜狗还为站长和网站管理员们提供了更加强大的功能,使用的时候不加关键词,只需要输入“site:站点域名”,就可以查找你的网站在搜狗的收录量。提供的功能包括: · 收录查询:输入“site:网站域名”,可以查到站点在sogou的收录情况,如果博客地址,就可以知道你的博客在搜狗的收录情况,比如: 17173   Good Feel   MC的共享空间 · 域名后缀:你可以查看一个域名或者子域名下的内容,结果按照重要性排序。比如 “site:cn”是指在所有网站域名最后为cn的收录情况,您可以试着查询一下这些网站:国内公司   政府机关   教育机构   香港地区网站 · 支持https:所有以https:// 开头的网站链接也都能使用站内查询查找,比如: 招商银行一网通主站 · 端口查询:大部分网站使用80端口,不需要特别指定,但有些开在其他端口,这个时候使用“site:站点域名:端口号”进行查询即可。 · 海量数据支持:搜狗的站内查询内容丰富,针对您的查询站点,提供全面的数据 文档搜索 在互联网上有许多非常有价值的文档,例如DOC、PDF等,这些文档质量都比较高、相关性强,并且垃圾少。所以在查找信息时不妨用文档搜索。其搜索语法为:查询词+空格+Filetype:格式,格式可以是DOC、PDF、RTF、ALL(全部文档)(搜狗即将支持PPT、XLS格式)。例如:市场分析 filetype:doc,其中的冒号是中英文符号皆可,并且不区分大小写。filetype:doc可以在前也可以在后,但注意关键词和filetype之间一定要有个空格。例如:filetype:doc 市场分析。 filetype语法也可以与site语法混用,以实现在指定网站内的文档搜索。例如在中国农业大学和清华大学网站内搜索有关“章宝龙”的文档,就可以用:site:www.hzaima.com|www.niuo.cn filetype:all 章宝龙

下载文档到电脑,查找使用更方便

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享文档获得金币 ] 1 人已下载

下载文档