开源项目,开源代码,开源文档,开源新闻,开源社区

P6

中文分词技术一、为什么要进行中文分词？词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此

autorun365 2011-11-09 3661 0

基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化内存中中文分词每秒钟大约100万字(速度上已经超越ictclas) 文件读取分词每秒钟大约30万字

jopen 2012-09-06 64613 0

中文分词

genius中文分词，是基于crf条件随机场的分组件 Feature 支持pinyin分词支持用户自定义break 支持用户自定义词典支持词性标注 Install 安装git: 1) ubuntu

jopen 2013-10-23 19357 0

中文分词

fromerr=qlrJk7Di 在Elasticsearch中，内置了很多分词器（analyzers），但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持，比较常用的是中科院 ICTCL

xnrf3714 2016-02-21 27149 0

中文分词 ElasticSearch 搜索引擎 Elastic Search

net/secisland/blog/617822 在Elasticsearch中，内置了很多分词器（analyzers），但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持，比较常用的是中科院 ICTCL

mpnl7080 2016-02-19 28701 0

ElasticSearch 搜索引擎

PyNLPIR是基于 NLPIR/ICTCLAS Chinese segmentation software 的一个Python封装。 PyNLPIR能够让使用NLPIR很方便得进行中文分词处理。 import

jopen 2014-12-12 66381 0

PyNLPIR Python开发

的搜索引擎，阿里巴巴的商机搜索、8848的购物搜索等也陆续面世，自然，搜索引擎技术也成为技术人员关注的热点。搜索引擎技术的研究，国外比中国要早近十年，从最早的Archie，到后来的Excite，

seailove 2011-01-17 1459 0

Go中文分词词典用前缀树实现，分词器算法为基于词频的最短路径加动态规划。支持普通和搜索引擎两种分词模式，支持用户词典、词性标注，可运行 JSON RPC服务。分词速度单线程

jopen 2014-09-10 23603 0

sego 中文分词

背景，solr 带有一个默认的分词，但是对中文支撑不好，比如：你好自带的话，是拆成你，和好两个字，但是实际对中国人，中文的含义应该是你好，因此为了对中文更好的支撑，引用第三方库支撑现在第三方库，支撑比较多的，有

chyx413332087 2013-04-12 4089 0

车联网

Chinese Segmentor是什么? Chinese Segmentor 基于CRFs的中文分词系统，使用sgd训练，速度快，并且支持Online learning和Incremental

jopen 2014-04-09 22043 0

中文分词 Chinese Segmentor

又一个基于mmseg的cjk中文分词器，首先按照Unicode text segmentation,uax 29的国际标准分词，即首先切分英文与数字等，再在切出的中文串句子上采用MMSEG分词，词典使用搜狗分词库。

jopen 2016-02-16 33419 0

中文分词

Segment Library in Python based on HMM Model 基于HMM模型的中文分词用法将finalseg目录放置于当前目录或者site-packages目录 import

jopen 2012-09-22 38645 0

中文分词

NLP中的中文分词技术作者：mjs （360电商技术组）随着需求的变化和技术的发展，互联网企业对数据的分析越来越深入，尤其是自然语言处理处理领域，近几年，在搜索引擎、数据挖掘、推荐系统等应用方面，都向前

jopen 2015-01-09 102281 0

中文分词

phpSplit 是一个基于php开发的中文分词库。居于Unicode编码词典的php分词器只适用于php5，必要函数 iconv 本程序是使用RMM逆向匹配算法进行分词的，词库需要特别编译，本类里提供了

jopen 2016-01-03 31150 0

中文分词

.html 中文分词问题是绝大多数中文信息处理的基础问题，在搜索引擎、推荐系统（尤其是相关主题推荐）、大量文本自动分类等方面，一个好的分词系统是整个系统成功的关键。主流的分词思路有三种，分别

jopen 2015-12-24 43768 0

中文分词

http://www.bitstech.net/2016/01/25/漫话中文分词/ 一、背景美国小伙Tom在中国已经半年了，自认为中文已经不错，就想测试一下自己的水平到底有多高。于是，他收到了下面这样

AlysaB34 2016-01-25 40860 0

中文分词

是一个开源的 Java 中文分词工具，基于中科院的 ictclas 中文分词算法，比其他常用的开源分词工具（如mmseg4j）的分词准确率更高。介绍一下Ansj！ Ansj中文分词是一款纯Java的

jopen 2012-11-10 67156 0

中文分词

phpSplit 是一个基于php开发的中文分词库。居于Unicode编码词典的php分词器只适用于php5，必要函数 iconv 本程序是使用RMM逆向匹配算法进行分词的，词库需要特别编译，本类里提供了

jopen 2015-11-22 35815 0

phpSplit 中文分词

"哑哈"中文分词，更快或更准确，由你来定义。通过简单定制，让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently

jopen 2013-08-19 22139 0

Python 中文分词

jcseg是使用Java开发的一个中文分词器，使用流行的mmseg算法实现。 1。目前最高版本：jcseg 1.6.9 。 2。mmseg四种过滤算法，分词准确率达到了97%以上。 3。支持自定义词库。在lex

jopen 2012-10-19 72494 0

中文分词

中文分词技术文档

Ansj 中文分词经验

genius中文分词经验

ElasticSearch 分词篇：中文分词经验

Elasticsearch 2.2.0 分词篇：中文分词经验

Python的中文分词：PyNLPIR 经验

中文分词技术（转）博客

Go中文分词：sego 经验

solr建立中文分词博客

基于CRFs的中文分词系统：Chinese Segmentor 经验

基于mmseg的cjk中文分词器经验

基于HMM模型的中文分词：finalseg 经验

NLP中的中文分词技术经验

phpSplit - PHP 中文分词包经验

中文分词的原理与实践经验

漫话中文分词经验

Java中文分词器 - Ansj 经验

PHP 中文分词包：phpSplit 经验

Python 中文分词库“Yaha 经验

中文分词器：jcseg 经验

基于深度学习的词位标注中文分词的相关搜索

关键词

中文分词技术 文档

Ansj 中文分词 经验

genius中文分词 经验

ElasticSearch 分词篇：中文分词 经验

Elasticsearch 2.2.0 分词篇：中文分词 经验

Python的中文分词：PyNLPIR 经验

中文分词技术（转） 博客

Go中文分词：sego 经验

solr建立中文分词 博客

基于CRFs的中文分词系统：Chinese Segmentor 经验

基于mmseg的cjk中文分词器 经验

基于HMM模型的中文分词：finalseg 经验

NLP中的中文分词技术 经验

phpSplit - PHP 中文分词包 经验

中文分词的原理与实践 经验

漫话中文分词 经验

Java中文分词器 - Ansj 经验

PHP 中文分词包：phpSplit 经验

Python 中文分词库“Yaha 经验

中文分词器：jcseg 经验

基于深度学习的词位标注中文分词 的相关搜索

关键词

中文分词技术文档

Ansj 中文分词经验

genius中文分词经验

ElasticSearch 分词篇：中文分词经验

Elasticsearch 2.2.0 分词篇：中文分词经验

中文分词技术（转）博客

solr建立中文分词博客

基于mmseg的cjk中文分词器经验

NLP中的中文分词技术经验

phpSplit - PHP 中文分词包经验

中文分词的原理与实践经验

漫话中文分词经验

基于深度学习的词位标注中文分词的相关搜索