开源项目,开源代码,开源文档,开源新闻,开源社区

Go中文分词库，支持中英文，混合词组，自定义字典。安装&运行 go get github.com/zhengchun/cwsharp-go go run test.go 说明 StandardTokenizer

fm3d 2015-08-10 13378 0

Google Go/Golang开发 cwsharp-go

“结巴”中文分词：做最好的Python中文分词组件 “Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the

jopen 2014-07-29 23919 0

Jieba 中文分词

结巴中文分词的 iOS 版本。底层使用的依然是 CppJieba 。用法启动后在框里面输入待分词的句子，然后按回车键即可。致谢感谢 [fxjsy] 的结巴中文分词 jieba

jopen 2014-12-24 18112 0

中文分词 iOS开发移动开发

P49

中文搜索引擎核心技术揭密:中文分词信息的飞速增长，使搜索引擎成为人们查找信息的首选工具，Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加，越来越多的公司

injurewolf 2012-06-15 752 0

搜索引擎

这是基于大名鼎鼎中科院的Ictclas中文分词算法编写的Java实现版本，比常用的开源mmseg4j的分词准确率高。目前我们自己站内的搜索将逐渐从mmseg4j算法替换成Ansj中文分词算法。项目主页：

jopen 2012-09-26 55920 0

中文分词

结巴分词 0.34 发布，更新内容如下： 2014-10-20: version 0.34 1. 提升性能，词典结构由Trie改为Prefix Set，内存占用减少2/3, 详见：https://github

jopen 2014-10-20 17739 0

中文分词

以前都是用C++对中文进行分词，也用过Python的“结巴”分词，最近用了一下Java的Ansj中文分词，感觉还不错。下面是用Ansj对中文进行分词的一个简单例子，希望能对大家有用。 1

jopen 2014-11-26 55094 0

Ansj Java开发

jieba "结巴"中文分词：做最好的Python中文分词组件 Feature 支持两种分词模式： 1）默认模式，试图将句子最精确地切开，适合文本分析； 2）全模式，把句子中所有的可以成词的词语都扫描出来，适合搜索引擎。

jopen 2012-10-03 67578 0

Python 中文分词

该软件是基于IK analyzer中文分词系统，以及基于知网的词语相似度计算一文，开发的能够将普通话转换为方言的分词翻译系统。软件采用基于词库的中文方言分词，对普通话的句子进行最大分词，从而进行方言的转换。由于

jopen 2012-07-11 39944 0

中文分词

套全新中文分词工具包 pkuseg，这一工具包有如下三个特点：高分词准确率。相比于其他的分词工具包，当使用相同的训练数据和测试数据，pkuseg 可以取得更高的分词准确率。多领域分词。不同

jopen 2019-01-10 10177 0

pkuseg

目前的分词器大部分都是单机服务器进行分词，或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢，相对spark来说代码书写较繁琐。本文使用

x286 2015-05-25 149807 0

Spark 中文分词

平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词，于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单，同时分词的结果也令人印象深刻，有兴趣的可以到它的在线演示站点

jopen 2015-09-11 18293 0

jieba.NET .NET开发

Chinese Segmentor是什么? Chinese Segmentor 基于CRFs的中文分词系统，使用sgd训练，速度快，并且支持Online learning和Incremental l

jopen 2014-04-09 22043 0

中文分词 Chinese Segmentor

简介 CppJieba是"结巴"中文分词的C++版本特性源代码都写进头文件 src/*.hpp 里， include 即可使用。支持 utf-8, gbk 编码，但是推荐使用 utf-8 编码，

jopen 2014-12-13 80333 0

中文分词

Introduction NodeJieba 只是 CppJieba 简单包装而成的 node 扩展，用来进行中文分词。详见 NodeJiebaBlog Install npm install nodejieba

jopen 2014-12-13 61855 0

中文分词

TextRank4ZH 用于自动从中文文本中提取关键词和摘要，基于 TextRank 算法，使用 Python 编写。 TextRank 算法可以用来从文本中提取关键词和摘要（重要的句子）

jopen 2014-12-02 56194 0

中文分词 TextRank4ZH

摘要：为解决中文搜索的问题，最开始使用 PHP 版开源的 SCWS ，但是处理人名和地名时，会出现截断人名地名出现错误。开始使用 NLPIR 分词，在分词准确性上效果要比 SCWS 好。本文介绍如何在

jopen 2015-06-13 294916 0

中文分词

HanLP中文分词solr插件基于HanLP，支持Solr5.x，兼容Lucene5.x。快速上手将 hanlp-portable.jar 和 hanlp-solr-plugin.jar 共

xcxc 2015-08-23 70352 0

HanLP 中文分词

cut Golang写的中文分词开发包。参考 sego 两个重要方法 // Dictionary结构体实现了一个字串前缀树， // 一个分词可能出现在叶子节点也有可能出现在非叶节点 type

jopen 2015-10-24 16418 0

cut Google Go/Golang开发

又一个基于mmseg的cjk中文分词器，首先按照Unicode text segmentation,uax 29的国际标准分词，即首先切分英文与数字等，再在切出的中文串句子上采用MMSEG分词，词典使用搜狗分词库。 Features:

jopen 2016-02-16 33419 0

中文分词

中文分词技术的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

PHP Java Python jQuery Android Subversion Apache YUI jQuery插件 HTTP Web框架 iText OpenCV CakePHP JSP 数据库管理工具 Java开发 JavaScript框架 Servlet 应用服务器版本控制系统图表/报表制作图形/图像处理 PDF工具包 Python开发地理信息系统GIS 分布式/云计算/大数据 Glance Documentation Toad

go中文分词：cwsharp-go 经验

Jieba: 结巴中文分词经验

"结巴"中文分词的iOS版本经验

中文搜索引擎核心技术揭密:中文分词文档

Ansj中文分词 - 开源的高准确率Java中文分词器经验

结巴分词 0.34 发布，Python 中文分词组件资讯

Java中文分词器Ansj的使用经验

Python中文分词组件结巴：jieba 经验

中文分词库 Chinese dialect convert 经验

北大开源中文分词工具包pkuseg 资讯

Spark + ansj 对大数据量中文进行分词经验

jieba中文分词的.NET版本：jieba.NET 经验

基于CRFs的中文分词系统：Chinese Segmentor 经验

"结巴"中文分词的C++版本：CppJieba 经验

"结巴"中文分词的Node.js版本经验

中文分词库：TextRank4ZH 经验

中科院NLPIR中文分词java版经验

HanLP中文分词solr插件经验

Golang的中文分词开发包：cut 经验

基于mmseg的cjk中文分词器经验

中文分词技术的相关搜索

关键词

go中文分词：cwsharp-go 经验

Jieba: 结巴中文分词 经验

"结巴"中文分词的iOS版本 经验

中文搜索引擎核心技术揭密:中文分词 文档

Ansj中文分词 - 开源的高准确率Java中文分词器 经验

结巴分词 0.34 发布，Python 中文分词组件 资讯

Java中文分词器Ansj的使用 经验

Python中文分词组件结巴：jieba 经验

中文分词库 Chinese dialect convert 经验

北大开源中文分词工具包pkuseg 资讯

Spark + ansj 对大数据量中文进行分词 经验

jieba中文分词的.NET版本：jieba.NET 经验

基于CRFs的中文分词系统：Chinese Segmentor 经验

"结巴"中文分词的C++版本：CppJieba 经验

"结巴"中文分词的Node.js版本 经验

中文分词库：TextRank4ZH 经验

中科院NLPIR中文分词java版 经验

HanLP中文分词solr插件 经验

Golang的中文分词开发包：cut 经验

基于mmseg的cjk中文分词器 经验

中文分词技术 的相关搜索

关键词

Jieba: 结巴中文分词经验

"结巴"中文分词的iOS版本经验

中文搜索引擎核心技术揭密:中文分词文档

Ansj中文分词 - 开源的高准确率Java中文分词器经验

结巴分词 0.34 发布，Python 中文分词组件资讯

Java中文分词器Ansj的使用经验

Spark + ansj 对大数据量中文进行分词经验

"结巴"中文分词的Node.js版本经验

中科院NLPIR中文分词java版经验

HanLP中文分词solr插件经验

基于mmseg的cjk中文分词器经验

中文分词技术的相关搜索