P16

ikanalyzer中文分词使用手册 文档

1.IKAnalyzer2012介绍IKAnalyzer是一个开源的,基亍java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立亍Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

a51927841 2015-10-15   5417   0
P123

基于内容的音频信息分类检索技术研究 文档

,着重研究了音频特征的分析、分类器设计和语音信息检索这几方面的问题。本文的主要工作和研究成果包括以下几个方面:(1)音频特征分类方法的研究音频分类主要以一些主观或者客观的音频特征为基础,音频特征的选取要能够充分体现出音频在时域和频域中的重要分类特性。因此,音频特征的分析与提取也就成为音频分类问题的基础和重点。如何有效地提取音频特征,并保持特征间相互独立,减少信息冗余就是需要进一步解决的重要问题。本文在音频特征分析中,引入独立分量分析算法,用来提取音频最为关键并高维独立的特征,提高特征的可分性。同时,在此基础上,利用支持向量机良好的分类性能,对各类音频数据的特征进行分类,即提出一种将独立分量分析和支持向量机结合而构成的混合模型用于音频特征分类问题,收到较好的效果。

pnxx 2015-09-27   2168   0
P7

  Elasticsearch 分布式搜索配置文件详解 文档

 Elasticsearch是一个开源的分布式实时搜索与分析引擎,支持云服务。它是基于Apache Lucene搜索引擎的类库创建的,提供了全文搜索能力、多语言支持、专门的查询语言、支持地理位置服务、基于上下文的搜索建议、自动完成以及搜索片段(snippet)的能力。Elasticsearch支持RESTful的API,可以使用JSON通过HTTP调用它的各种功能,包括搜索、分析与监控。下面是讲述了elasticsearch分布式搜索配置文件各类参数的具体含义。

afreon 2015-08-04   467   0
P79

elasticsearch中文指南 文档

Elasticsearch是一个高可扩展的、开源的全文本搜索和分析工具。它允许你以近实时的方式快速存储、搜索、分析大容量的数据。

pm45e 2015-08-02   24106   0
P7

Sphinx 使用手册(PHP版) 文档

一、简介1.环境与支持Sphinx支持MySQL等数据库。搜索API支持PHP、Java等语言。高性能的搜索(在2–4GB的文本数据上,平均每次检索响应时间小于0.1秒),提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法。2.测试结果1数据库1200万条记录,最大搜索条数设为1000万,耗时3.x秒,其余两台超时。2数据库1200万条记录,最大搜索条数设为10万,耗时0.8秒,两台同时访问为0.9秒,用mysql直接搜索为24秒。3数据库1200万条记录最大条数设为1,000,耗时0.0x秒。4百度搜索后返回百万条记录实际最多可访问740条,google为880条,我们可以设为500条,查询速率在0.01秒级别。

maczhis 2015-07-21   725   0
P324

Apache Solr 初学者指南 文档

Configure your own search engine experience with real-world data with this practical guide to Apache Solr

enene 2015-07-08   6197   0
P7

  搜索引擎索引原理 文档

搜索引擎原理全文索引:根据搜索结果来源的不同,全文搜索引擎可分为两类:一类拥有自己的网页抓取、索引、检索系统(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot)程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,Google和百度就属于此类。另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

mww8 2015-06-28   4667   0
P12

  复杂的1秒图解google搜索技术 文档

在你点击了Google搜索按钮之后到看到结果这不足1秒钟的时间内,它做了什么?大家不妨看看谷歌搜索流程图,这张流程图展示了每天拥有3亿次点击量的Google搜索按钮背后搜索引擎在那不到1秒的响应时间内所进行的处理。

b455 2015-06-18   362   0
P43

  Building a Real time, Solr-powered Recommendation Engine 文档

Overview of Search & Matching Concepts Recommendation Approaches in Solr: Attribute-based Hierarchical Classification Concept-based More-like-this Collaborative Filtering Hybrid Approaches

cff2 2015-05-17   2532   0
P719

Elasticsearch权威指南 文档

ElasticSearch是一个开源的分布式搜索引擎,具备高可靠性,支持非常多的企业级搜索用例。像Solr4一样,是基于Lucene构建的。支持时间时间索引和全文检索。

gxw6 2015-05-03   928   0
P43

  Building a Real-time, Solr-powered Recommendation Engine 文档

Overview of Search & Matching Concepts Recommendation Approaches in Solr: Attribute-based Hierarchical Classification Concept-based More-like-this Collaborative Filtering Hybrid Approaches Important Considerations & Advanced Capabilities

xw56 2015-04-30   2012   0
P408

Apache Solr Reference Guide Covering Apache Solr 4.9 文档

This guide describes all of the important features and functions of Apache Solr. It is free to download from . http://lucene.apache.org/solr/ Designed to provide high-level documentation, this guide is intended to be more encyclopedic and less of a cookbook. It is structured to address a broad spectrum of needs, ranging from new developers getting started to well-experienced developers extending their application or troubleshooting. It will be of use at any point in the application life cycle, for whenever you need authoritative information about Solr.

petty 2015-04-21   2726   0
P42

去哪儿网酒店实时搜索技术 文档

关于去哪儿酒店搜索•定位–垂直搜索平台•目标–SmartYourHotelReservation•目前规模–搜索210家酒店预订站点–支持全球22699个城市–覆盖368892家酒店主要议题•系统结构总览•服务拆分和系统可用性•实时报价搜索的设计考量•监控系统

xymqx 2015-04-14   4577   0
P328

Apache Solr4 Cookbook 英文版 文档

超过100个技与来让Apache Solr4更快,更稳定返回更好的结果。

逆光行走 2015-03-26   3198   0
P95

Lucene 的应用 文档

第一章:Lucene简介搜索引擎的历史什么是Lucene全文检索系统的结构为什么使用LuceneLucene倒排索引原理LuceneImplementations基于Lucene的搜索程序CompassNutch开源搜索引擎列表全球商用搜索市场Heritrix介绍课堂练习:Heritrix简单抓取任务的设置搜索引擎的历史萌芽:Archie、Gopher起步:Robot(网络机器人)的出现与Spider(网络爬虫)发展:Excite、Galaxy、Yahoo等繁荣:Infoseek、AltaVista、Google和Baidu

逆光行走 2015-03-26   5411   0
P286

Elasticsearch in Action 全文检索 文档

ElasticSearch是一个开源的分布式搜索引擎,具备高可靠性,支持非常多的企业级搜索用例。像Solr4一样,是基于Lucene构建的。支持时间时间索引和全文检索。 它对外提供一系列基于java和http的api,用于索引、检索、修改大多数配置。ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。

ruan203 2015-03-24   1206   0
P0

Introduction to Information Retrieval (信息检索导论) 文档

对于搜索引擎的初学者里说,本书是一本绝对值得阅读的书目。作者从最简单的布尔检索到一个完整的搜索引擎,逐步深入,逐步引导读者思考,对建造一个大型搜索引擎需要用到的架构和算法都有所涉猎,看完后会对搜索引擎有一个大概的认识,对其基本原理也会有所了解。搜索引擎并不仅仅是检索信息,它还有一个更重要的用处是对返回的结果进行排序,而这往往是非常重要的。<br>本书从计算机科学领域的角度出发,介绍了信息检索的基础知识,并对当前信息检索的发展做了回顾,重点介绍了搜索引擎的核心技术,如文档分类和文档聚类问题,以及机器学习和数值计算方法。书中所有重要的思想都用示例进行了解释,生动形象,引人入胜,实现了理论与实战的完美结合。<br> 本书的三位作者均是信息检索领域的顶级专家,两位来自学术教育界,一位来自硅谷业界,使本书既具备深厚的理论基础,又代表了尖端科技水准。因此,该书甫一出版,即被奉为该领域的权威著作,备受瞩目。目前已被众多世界名校采用为信息检索课程的教材。

lolibaso 2015-03-21   1086   0
P23

  Lucene 3.0 实战 文档

全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。 关于全文检索,我们要知道:1,只处理文本。2,不处理语义。3,搜索时英文不区分大小写。4,结果列表有相关度排序。 在信息检索工具中,全文检索是最具通用性和实用性的。

烟波天客 2015-03-18   2679   0
P685

Elasticsearch: The Definitive Guide 文档

Learn how to use Elasticsearch, an open source, distributed, RESTful search engine built on top of Apache Lucene. Each chapter in this book tackles a particular facet of Elasticsearch with separate sections for beginners more advanced programmers. If you’re a beginner, advanced techniques are not required reading, but you can revisit them once you have a solid understanding of the basics.

ded3b 2015-01-24   8156   0
P14

搜索意图识别_搜狗张帆 文档

什么是意图识别哪里需要意图识别意图识别有什么用意图识别通用搜索VS垂直搜索通用搜索特点:抓取互联网上一切有价值癿页面,统一建立索引,以关键字匹配为基本检索方式,以网页title和summary为展现方式。目前以google,百度,搜狗,搜搜,有道为代表。垂直搜索特点:以一特定类别为主题,只抓取不主题相关信息,根据主题特点有针对性癿建立相应癿索引检索方式,筛选方式,以及展现方式。目前以机票搜索,地图搜索,购物搜索,招聘搜索,房产搜索,软件搜索,知识搜索,学术搜索等为代表。

w3xd 2015-01-12   3820   0
1 2 3 4 5 6 7 8 9 10