开源项目,开源代码,开源文档,开源新闻,开源社区

Technology）时代的今天，自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说，并没有类似英文空格的边界标志。而理解句子所包含的词语，则是理解汉语语句的第一步。汉语自动分词的任务，通俗地说，就是要由机器在文本中的词与词之间自动加上空格。

moonbigboy 2016-01-30 99407 0

中文分词

http-scws (基于scws的http协议中文分词)，软件基于scws 1.1.7版本二次开发，基于libevent进行http封装，请求更简单功能： 1.词库为文本文件方式，增加、删除更方便

jopen 2011-12-24 28129 0

中文分词

那么既然我们能够大力开发中文翻译为英文的软件，又为何不为保护国家文化遗产开发一款普通话转方言的分词翻译软件呢。Chinese dialect convert 是一款基于方言分词翻译的软件，软件实现的核

hiphopmatt 2012-08-09 25178 1

language IKanalyzer Java MySQL

jiebaR 是"结巴"中文分词的R语言版本，支持最大概率法（Maximum Probability），隐式马尔科夫模型（Hidden Markov Model），索引模型（QuerySegment）

jopen 2014-11-04 15769 0

jiebaR

Paoding's Knives中文分词具有极高效率和高扩展性。引入隐喻，采用完全的面向对象设计，构思先进。高效率：在PIII 1G内存个人机器上，1秒可准确分词100万汉字。采用基于不限制个数的词典

码头工人 2019-01-17 1035 0

搜索引擎

P3

首先，介绍一下IK的整个分词处理过程： 1. Lucene的分词基类是Analyzer，所以IK提供了Analyzer的一个实现类IKAnalyzer。首先，我们要实例化一个IKAnalyzer，它

chennaid 2011-12-19 471 0

搜索引擎

P7

Lucene3.0分词原理与分词系统分词原理建立索引和查询的过程中，都是以基本的语素项为单位的。基本的语素项就是通过分词得到。这个过程决定了索引单元金额最终的匹配过程。分词在文本索引的建立过程

lxfsbxh 2010-12-17 503 0

Lucene 搜索引擎 lucene分词系统源代码

社会化数据大量产生，硬件速度上升、成本降低，大数据技术的落地实现，让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术，不过买来的数据挖掘书籍一打开全是大量的数学公式，

jopen 2014-09-16 78040 0

数据挖掘

P11

.Net平台下开发中文语音应用程序摘要：语音是人类最自然的交互方式，也是现阶段软件用户界面发展的最高目标。微软公司一直积极推动语音技术的发展，并且公布了语音开发平台Speech SDK帮助开发人员实现语音应用。

ebuilder 2012-03-31 763 0

C#

P

HTC是HTML Component的缩写，是IE5及后续版本浏览器所支持的客户端组件。HTC就是一组以DHTML为基础封装了客户端行为的脚本，每HTC以*.htc的文件存储，一个HTC是一个客户端“类”。

aweilz 2011-03-10 655 0

前端技术手册

P

　ACE自适配通信环境（ADAPTIVE Communication Environment）是可以自由使用、开放源码的面向对象（OO）构架（Framework），在其中实现了许多用于并发通信软件的核心模式。ACE提供了一组丰富的可复用C++包装外观（Wrapper Façade）和构架组件，可跨越多种平台完成通用的通信软件任务，其中包括：事件多路分离和事件处理器分派、信号处理、服务初始化、进程间通信、共享内存管理、消息路由、分布式服务动态（重）配置、并发执行和同步，等等。

linewstar 2012-07-11 538 0

网络工具包

word 分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录

jopen 2015-08-28 14412 0

word

word 分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录

jopen 2015-10-05 12527 0

word

Genius 分词 3.1.2 版本发布本次的主要更新： 1、修复空白字符导致分词进程崩溃的情况。 2、重构基本分词的算法；优化CRF处理工序，增强语义识别能力。 Genius

jopen 2014-03-25 7171 0

Genius

Go语言写的分词模块，使用了最大概率路径+单层神经网络。 goseg: A Chinese Word Segmentation Library in GoLang goseg use max probability

jopen 2014-09-10 22944 0

goseg 中文分词

目前我常常使用的分词有结巴分词、NLPIR分词等等最近是在使用结巴分词，稍微做一下推荐，还是蛮好用的。一、结巴分词简介利用结巴分词进行中文分词，基本实现原理有三：基于Trie树

wcwx 2015-01-04 16288 0

Python开发 Python

NodeJieba 是"结巴"中文分词的 Node.js 版本实现，由 CppJieba 提供底层分词算法实现，是兼具高性能和易用性两者的 Node.js 中文分词组件。特点词典载入方式灵活，

jopen 2016-01-02 50325 0

nodejieba 中文分词

2读出流程用户提供搜索关键词，经过analyzer处理。（我们下面代码采用的是盘古分词，其相关分词原理可以再它的官网上可以看到 http://pangusegment.codeplex.com/

jopen 2014-09-23 97435 0

Lucene 搜索引擎 Lucene.net

结巴分词的原始版本为python编写，目前该项目在github上的关注量为170，打星727次（最新的数据以原仓库为准），Fork238次，可以说已经有一定的用户群。结巴分词(java版)只保

jopen 2013-08-06 123449 0

中文分词 jieba-analysis

引言做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点，一个是在数据量比较大的时候，搜索引擎的查询速度快，第二点在于，搜索引擎能做到比数据库更理解用户。第一

jopen 2016-01-12 46083 0

中文分词

11款开放中文分词引擎大比拼经验

http协议中文分词 http-scws 更新资讯

Chinese Dialect Convert(开源中文方言分词转换器) 资讯

jiebaR 0.1 发布，R语言中文分词资讯

Lucene中文分词“庖丁解牛” Paoding Analysis 开源项目

深入IK分词器文档

Lucene3.0分词系统文档

数据挖掘-分词入门经验

中文语音识别技术在C#中的应用文档

HTC技术中文参考手册文档

ACE自适配通信环境中文技术文档文档

Java 分布式中文分词组件，word v1.3 发布资讯

Java 分布式中文分词组件，word v1.3.1 发布资讯

Genius 分词 3.1.2 版本发布资讯

Go语言写的分词模块：goseg 经验

使用python进行汉语分词经验

NodeJieba "结巴"分词的Node.js版本经验

Lucene.net入门学习（结合盘古分词）经验

java版结巴分词：jieba-analysis 经验

IK分词器原理与源码分析经验

中文分词技术的相关搜索

关键词

11款开放中文分词引擎大比拼 经验

http协议中文分词 http-scws 更新 资讯

Chinese Dialect Convert(开源中文方言分词转换器) 资讯

jiebaR 0.1 发布，R语言中文分词 资讯

Lucene中文分词“庖丁解牛” Paoding Analysis 开源项目

深入IK分词器 文档

Lucene3.0分词系统 文档

数据挖掘-分词入门 经验

中文语音识别技术在C#中的应用 文档

HTC技术中文参考手册 文档

ACE自适配通信环境中文技术文档 文档

Java 分布式中文分词组件，word v1.3 发布 资讯

Java 分布式中文分词组件，word v1.3.1 发布 资讯

Genius 分词 3.1.2 版本发布 资讯

Go语言写的分词模块：goseg 经验

使用python进行汉语分词 经验

NodeJieba "结巴"分词的Node.js版本 经验

Lucene.net入门学习（结合盘古分词） 经验

java版结巴分词：jieba-analysis 经验

IK分词器原理与源码分析 经验

中文分词技术 的相关搜索

关键词

11款开放中文分词引擎大比拼经验

http协议中文分词 http-scws 更新资讯

jiebaR 0.1 发布，R语言中文分词资讯

深入IK分词器文档

Lucene3.0分词系统文档

数据挖掘-分词入门经验

中文语音识别技术在C#中的应用文档

HTC技术中文参考手册文档

ACE自适配通信环境中文技术文档文档

Java 分布式中文分词组件，word v1.3 发布资讯

Java 分布式中文分词组件，word v1.3.1 发布资讯

Genius 分词 3.1.2 版本发布资讯

使用python进行汉语分词经验

NodeJieba "结巴"分词的Node.js版本经验

Lucene.net入门学习（结合盘古分词）经验

IK分词器原理与源码分析经验

中文分词技术的相关搜索