11款开放中文分词引擎大比拼 经验

Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。

moonbigboy 2016-01-30   99407   0

http协议中文分词 http-scws 更新 资讯

http-scws (基于scws的http协议中文分词),软件基于scws 1.1.7版本二次开发,基于libevent进行http封装,请求更简单 功能: 1.词库为文本文件方式,增加、删除更方便

jopen 2011-12-24   28129   0

Chinese Dialect Convert(开源中文方言分词转换器) 资讯

那么既然我们能够大力开发中文翻译为英文的软件,又为何不为保护国家文化遗产开发一款普通话转方言的分词翻译软件呢。Chinese dialect convert 是一款基于方言分词翻译的软件,软件实现的核

hiphopmatt 2012-08-09   25178   1

jiebaR 0.1 发布,R语言中文分词 资讯

jiebaR 是"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment)

jopen 2014-11-04   15769   0
jiebaR  

Lucene中文分词“庖丁解牛” Paoding Analysis 开源项目

Paoding's Knives中文分词具有极高效率和高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。高效率:在PIII 1G内存个人机器上,1秒可准确分词100万汉字。采用基于不限制个数的词典

码头工人 2019-01-17   1035   0
P3

  深入IK分词 文档

首先,介绍一下IK的整个分词处理过程: 1. Lucene的分词基类是Analyzer,所以IK提供了Analyzer的一个实现类IKAnalyzer。首先,我们要实例化一个IKAnalyzer,它

chennaid 2011-12-19   471   0
P7

  Lucene3.0分词系统 文档

 Lucene3.0分词原理与分词系统 分词原理 建立索引和查询的过程中,都是以基本的语素项为单位的。基本的语素项就是通过分词得到。这个过程决定了索引单元金额最终的匹配过程。 分词在文本索引的建立过程

lxfsbxh 2010-12-17   503   0

数据挖掘-分词入门 经验

社会化数据大量产生,硬件速度上升、成本降低,大数据技术的落地实现,让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术,不过买来的数据挖掘书籍一打开全是大量的数学公式,

jopen 2014-09-16   78040   0
P11

  中文语音识别技术在C#中的应用 文档

.Net平台下开发中文语音应用程序 摘要: 语音是人类最自然的交互方式,也是现阶段软件用户界面发展的最高目标。微软公司一直积极推动语音技术的发展,并且公布了语音开发平台Speech SDK帮助开发人员实现语音应用。

ebuilder 2012-03-31   763   0
C#  
P

HTC技术中文参考手册 文档

HTC是HTML Component的缩写,是IE5及后续版本浏览器所支持的客户端组件。HTC就是一组以DHTML为基础封装了客户端行为的脚本,每HTC以*.htc的文件存储,一个HTC是一个客户端“类”。

aweilz 2011-03-10   655   0
P

ACE自适配通信环境中文技术文档 文档

 ACE自适配通信环境(ADAPTIVE Communication Environment)是可以自由使用、开放源码的面向对象(OO)构架(Framework),在其中实现了许多用于并发通信软件的核心模式。ACE提供了一组丰富的可复用C++包装外观(Wrapper Façade)和构架组件,可跨越多种平台完成通用的通信软件任务,其中包括:事件多路分离和事件处理器分派、信号处理、服务初始化、进程间通信、共享内存管理、消息路由、分布式服务动态(重)配置、并发执行和同步,等等。

linewstar 2012-07-11   538   0

Java 分布式中文分词组件,word v1.3 发布 资讯

word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录

jopen 2015-08-28   14412   0
word  

Java 分布式中文分词组件,word v1.3.1 发布 资讯

word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录

jopen 2015-10-05   12527   0
word  

Genius 分词 3.1.2 版本发布 资讯

Genius 分词 3.1.2 版本发布 本次的主要更新: 1、修复空白字符 导致分词进程崩溃的情况 。 2、重构基本分词的算法; 优化CRF处理工序,增强语义识别能力 。 Genius

jopen 2014-03-25   7171   0
Genius  

Go语言写的分词模块:goseg 经验

Go语言写的分词模块,使用了最大概率路径+单层神经网络。 goseg: A Chinese Word Segmentation Library in GoLang goseg use max probability

jopen 2014-09-10   22944   0

使用python进行汉语分词 经验

目前我常常使用的分词有结巴分词、NLPIR分词等等 最近是在使用结巴分词,稍微做一下推荐,还是蛮好用的。 一、结巴分词简介 利用结巴分词进行中文分词,基本实现原理有三: 基于Trie树

wcwx 2015-01-04   16288   0

NodeJieba "结巴"分词的Node.js版本 经验

NodeJieba 是"结巴"中文分词的 Node.js 版本实现, 由 CppJieba 提供底层分词算法实现, 是兼具高性能和易用性两者的 Node.js 中文分词组件。 特点 词典载入方式灵活,

jopen 2016-01-02   50325   0

Lucene.net入门学习(结合盘古分词 经验

2读出流程 用户提供搜索关键词,经过analyzer处理。(我们下面代码采用的是盘古分词 ,其相关分词原理 可以再它的官网上可以看到 http://pangusegment.codeplex.com/

jopen 2014-09-23   97435   0

java版结巴分词:jieba-analysis 经验

结巴分词的原始版本为python编写,目前该项目在github上的关注量为170, 打星727次(最新的数据以原仓库为准),Fork238次,可以说已经有一定的用户群。 结巴分词(java版)只保

jopen 2013-08-06   123449   0

IK分词器原理与源码分析 经验

引言 做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点,一个是在数据量比较大的时候,搜索引擎的查询速度快,第二点在于,搜索引擎能做到比数据库更理解用户。第一

jopen 2016-01-12   46083   0
1 2 3 4 5 6 7 8 9 10