Java中文分词组件:word 经验

Java实现的中文分词组件,提供了多种基于典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量,能识别人名、地名、组织机构名等未登录。同时提供了Lucene、

jopen 2014-04-30   76300   0

Python 中文分词库 snailseg 经验

Chinese Words Segment Library in Python 简单的中文分词库 在线分词效果展示 https://snailsegdemo.appspot.com/ Usage

jopen 2012-09-19   30177   0

中文分词器 IKAnalyzer 开源项目

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合分词和文法分析

码头工人 2019-01-17   955   0

go中文分词:cwsharp-go 经验

Go中文分词库,支持中英文,混合组,自定义字典。 安装&运行 go get github.com/zhengchun/cwsharp-go go run test.go 说明 StandardTokenizer

fm3d 2015-08-10   13378   0

Jieba: 结巴中文分词 经验

“结巴”中文分词:做最好的Python中文分词组件 “Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the

jopen 2014-07-29   23919   0

"结巴"中文分词的iOS版本 经验

结巴中文分词的 iOS 版本。 底层使用的依然是 CppJieba 。 用法 启动后在框里面输入待分词的句子,然后按回车键即可。 致谢 感谢 [fxjsy] 的结巴中文分词 jieba

jopen 2014-12-24   18112   0

结巴分词 0.34 发布,Python 中文分词组件 资讯

结巴分词 0.34 发布,更新内容如下: 2014-10-20: version 0.34 1. 提升性能,典结构由Trie改为Prefix Set,内存占用减少2/3, 详见:https://github

jopen 2014-10-20   17739   0

Ansj中文分词 - 开源的高准确率Java中文分词 经验

这是基于大名鼎鼎中科院的Ictclas中文分词算法编写的Java实现版本,比常用的开源mmseg4j的分词准确率高。目前我们自己站内的搜索将逐渐从mmseg4j算法替换成Ansj中文分词算法。

jopen 2012-09-26   55920   0

云可视化——中文分词云制作 经验

近日在微博上大家都在问《个性化云》制作方法。 下面简单介绍实现步骤和思路: 随着微博研究的深入,社会网络分析和可视化技术的需要,面临中文处理问题,开始钻研文本挖掘的问题,过去的传统的数据挖掘

jopen 2015-03-11   48430   0

Java中文分词器Ansj的使用 经验

以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。 下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。 1

jopen 2014-11-26   55094   0

Python中文分词组件结巴:jieba 经验

jieba "结巴"中文分词:做最好的Python中文分词组件 Feature 支持两种分词模式: 1)默认模式,试图将句子最精确地切开,适合文本分析; 2)全模式,把句子中所有的可以成语都扫描出来,适合搜索引擎。

jopen 2012-10-03   67578   0

中文分词库 Chinese dialect convert 经验

该软件是基于IK analyzer中文分词系统,以及基于知网的语相似度计算一文,开发的能够将普通话转换为方言的分词翻译系统。软件采用基于库的中文方言分词,对普通话的句子进行最大分词,从而进行方言的

jopen 2012-07-11   39944   0

北大开源中文分词工具包pkuseg 资讯

日前,北京大学语言计算与机器学习研究组研制推出一套全新中文分词工具包 pkuseg,这一工具包有如下三个特点: 高分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg 可以取得更高的分词准确率。

jopen 2019-01-10   10177   0
pkuseg  

Spark + ansj 对大数据量中文进行分词 经验

目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本文使用

x286 2015-05-25   149807   0

jieba中文分词的.NET版本:jieba.NET 经验

的事情时免不了进行中文分词,于是就遇到了用Python实现的 结巴中文分词 。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的 在线演示站点 体验下(意第三行文字)。

jopen 2015-09-11   18293   0

"结巴"中文分词的C++版本:CppJieba 经验

简介 CppJieba是"结巴"中文分词的C++版本 特性 源代码都写进头文件 src/*.hpp 里, include 即可使用。 支持 utf-8, gbk 编码,但是推荐使用 utf-8 编码,

jopen 2014-12-13   80333   0

"结巴"中文分词的Node.js版本 经验

Introduction NodeJieba 只是 CppJieba 简单包装而成的 node 扩展,用来进行中文分词。 详见 NodeJiebaBlog Install npm install nodejieba

jopen 2014-12-13   61855   0

中文分词库:TextRank4ZH 经验

TextRank4ZH 用于自动从中文文本中提取关键和摘要,基于 TextRank 算法,使用 Python 编写。 TextRank 算法可以用来从文本中提取关键和摘要(重要的句子)。Tex

jopen 2014-12-02   56194   0

中科院NLPIR中文分词java版 经验

摘要:为解决中文搜索的问题,最开始使用 PHP 版开源的 SCWS ,但是处理人名和地名时,会出现截断人名地名出现错误。开始使用 NLPIR 分词,在分词准确性上效果要比 SCWS 好。本文介绍如何在

jopen 2015-06-13   294916   0

HanLP中文分词solr插件 经验

HanLP中文分词solr插件 基于HanLP,支持Solr5.x,兼容Lucene5.x。 快速上手 将 hanlp-portable.jar 和 hanlp-solr-plugin.jar 共

xcxc 2015-08-23   70352   0
1 2 3 4 5 6 7 8 9 10