开源项目,开源代码,开源文档,开源新闻,开源社区

apache.org/ 下载中文分词IK Analyzer： http://code.google.com/p/ik-analyzer/downloads/list （注意下载的是IK Analyzer

jopen 2012-09-12 103747 0

Lucene 中文分词

作为国内知名的开源的中文分词器，对于中文分词有其独有的特点，对于 elasticsearch 这一不错的文档检索引擎来说 Elasticsearch + Jcseg 这个组合，在处理中文检索上，可以说是

jopen 2015-10-25 34427 0

ElasticSearch 搜索引擎

training.utf8测试数据：icwb2-data/testing/pku_ test.utf8正确分词结果：icw... 解压后取出以下文件：训练数据：icwb2-data/training/pku_

ybw8 2015-06-04 29001 0

Python Python开发

P7

Analyzer 3.0 中文分词器 - Lucene索引 1.IK Analyzer 3.0介绍 IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1

alonecong 2013-05-17 546 0

搜索引擎 IKanalyzer

是我们指定的词库路径，词库文件都在这个文件夹底下，并且名字要以words开头，以dic做后缀，例如 words_my.dic。作为演示，在词库里添加爱他美高富帅值得强调的是：这个词典文件必须是utf-8格式的，否则无法识别。

jopen 2016-01-07 11029 0

Solr 搜索引擎

交道的中文来说，并没有类似英文空格的边界标志。而理解句子所包含的词语，则是理解汉语语句的第一步。汉语自动分词的任务，通俗地说，就是要由机器在文本中的词与词之间自动加上空格。一提到自动分词，通常会

moonbigboy 2016-01-30 99407 0

中文分词

http-scws (基于scws的http协议中文分词)，软件基于scws 1.1.7版本二次开发，基于libevent进行http封装，请求更简单功能： 1.词库为文本文件方式，增加、删除更方便

jopen 2011-12-24 28129 0

中文分词

那么既然我们能够大力开发中文翻译为英文的软件，又为何不为保护国家文化遗产开发一款普通话转方言的分词翻译软件呢。Chinese dialect convert 是一款基于方言分词翻译的软件，软件实现的核心就是基于方言分词库的最大粒度分词器。下面我将详细介绍

hiphopmatt 2012-08-09 25178 1

language IKanalyzer Java MySQL

jiebaR 是"结巴"中文分词的R语言版本，支持最大概率法（Maximum Probability），隐式马尔科夫模型（Hidden Markov Model），索引模型（QuerySegment）

jopen 2014-11-04 15769 0

jiebaR

Paoding's Knives中文分词具有极高效率和高扩展性。引入隐喻，采用完全的面向对象设计，构思先进。高效率：在PIII 1G内存个人机器上，1秒可准确分词100万汉字。采用基于不限制个数的词典文件对文章进行有

码头工人 2019-01-17 1035 0

搜索引擎

P49

中文搜索引擎核心技术揭密:中文分词信息的飞速增长，使搜索引擎成为人们查找信息的首选工具，Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加，越来越多的公司

injurewolf 2012-06-15 752 0

搜索引擎

Genius 分词 3.1.2 版本发布本次的主要更新： 1、修复空白字符导致分词进程崩溃的情况。 2、重构基本分词的算法；优化CRF处理工序，增强语义识别能力。 Genius

jopen 2014-03-25 7171 0

Genius

Go语言写的分词模块，使用了最大概率路径+单层神经网络。 goseg: A Chinese Word Segmentation Library in GoLang goseg use max probability

jopen 2014-09-10 22944 0

goseg 中文分词

目前我常常使用的分词有结巴分词、NLPIR分词等等最近是在使用结巴分词，稍微做一下推荐，还是蛮好用的。一、结巴分词简介利用结巴分词进行中文分词，基本实现原理有三：基于Trie树结构

wcwx 2015-01-04 16288 0

Python开发 Python

是"结巴"中文分词的 Node.js 版本实现，由 CppJieba 提供底层分词算法实现，是兼具高性能和易用性两者的 Node.js 中文分词组件。特点词典载入方式灵活，无需配置词典路径也可

jopen 2016-01-02 50325 0

nodejieba 中文分词

结巴分词的原始版本为python编写，目前该项目在github上的关注量为170，打星727次（最新的数据以原仓库为准），Fork238次，可以说已经有一定的用户群。结巴分词(java版)只保

jopen 2013-08-06 123449 0

中文分词 jieba-analysis

引言做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点，一个是在数据量比较大的时候，搜索引擎的查询速度快，第二点在于，搜索引擎能做到比数据库更理解用户。第一

jopen 2016-01-12 46083 0

中文分词

P42

分词系统研究完整版 ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统，难能可贵的是该版的Free版开放了源代码，为我们很多初学者提供了宝贵的学习材料。

wccy100 2015-09-28 1463 0

中文分词可以查看: http://www.open-open.com/74.htm 1、 StopAnalyzer StopAnalyzer 能过滤词汇中的特定字符串和词汇，并且完成大写转小写的功能。

openkk 2010-10-24 4678 0

Storm ODF

CWSharp 是 .Net 的中英文分词组件。特性内嵌多种分词算法及可扩展的自定义分词接口 StandardTokenizer BigramTokenizer StopwordTokenizer

mmntt 2015-07-20 35214 0

CWSharp 中文分词

Lucene 3.6 中文分词、分页查询、高亮显示等经验

Elasticsearch 中文分词插件 jcseg 安装（Ubuntu 14.04 下）经验

用Python写一个简单的中文分词器经验

Lucene的IKAnalyzer3.0 中文分词器+全解文档

solr5.3.1 添加中文分词之mmseg4j 经验

11款开放中文分词引擎大比拼经验

http协议中文分词 http-scws 更新资讯

Chinese Dialect Convert(开源中文方言分词转换器) 资讯

jiebaR 0.1 发布，R语言中文分词资讯

Lucene中文分词“庖丁解牛” Paoding Analysis 开源项目

中文搜索引擎核心技术揭密:中文分词文档

Genius 分词 3.1.2 版本发布资讯

Go语言写的分词模块：goseg 经验

使用python进行汉语分词经验

NodeJieba "结巴"分词的Node.js版本经验

java版结巴分词：jieba-analysis 经验

IK分词器原理与源码分析经验

分词系统研究完整版(ICTClAS) 文档

Lucene3.0 的几种分词系统博客

CWSharp - .Net中英文分词组件经验

基于深度学习的词位标注中文分词的相关搜索

关键词

Lucene 3.6 中文分词、分页查询、高亮显示等 经验

Elasticsearch 中文分词插件 jcseg 安装 （Ubuntu 14.04 下） 经验

用Python写一个简单的中文分词器 经验

Lucene的IKAnalyzer3.0 中文分词器+全解 文档

solr5.3.1 添加中文分词之mmseg4j 经验

11款开放中文分词引擎大比拼 经验

http协议中文分词 http-scws 更新 资讯

Chinese Dialect Convert(开源中文方言分词转换器) 资讯

jiebaR 0.1 发布，R语言中文分词 资讯

Lucene中文分词“庖丁解牛” Paoding Analysis 开源项目

中文搜索引擎核心技术揭密:中文分词 文档

Genius 分词 3.1.2 版本发布 资讯

Go语言写的分词模块：goseg 经验

使用python进行汉语分词 经验

NodeJieba "结巴"分词的Node.js版本 经验

java版结巴分词：jieba-analysis 经验

IK分词器原理与源码分析 经验

分词系统研究完整版(ICTClAS) 文档

Lucene3.0 的几种分词系统 博客

CWSharp - .Net中英文分词组件 经验

基于深度学习的词位标注中文分词 的相关搜索

关键词

Lucene 3.6 中文分词、分页查询、高亮显示等经验

Elasticsearch 中文分词插件 jcseg 安装（Ubuntu 14.04 下）经验

用Python写一个简单的中文分词器经验

Lucene的IKAnalyzer3.0 中文分词器+全解文档

11款开放中文分词引擎大比拼经验

http协议中文分词 http-scws 更新资讯

jiebaR 0.1 发布，R语言中文分词资讯

中文搜索引擎核心技术揭密:中文分词文档

Genius 分词 3.1.2 版本发布资讯

使用python进行汉语分词经验

NodeJieba "结巴"分词的Node.js版本经验

IK分词器原理与源码分析经验

Lucene3.0 的几种分词系统博客

CWSharp - .Net中英文分词组件经验

基于深度学习的词位标注中文分词的相关搜索