Java 分布式中文分词组件，word v1.3 发布

jopen 11年前

word 分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为，能自定义用户词库、自动检测词库变化、支持大规模分布式环境，能灵活指定多种分词算法，能使用refine功能灵活控制分词结果，还能使用词性标注、同义标注、反义标注、拼音标注等功能。同时还无缝和Lucene、 Solr、ElasticSearch、Luke集成。

word 1.3 新增了大量功能，如：词频统计、refine、词性标注、同义标注、反义标注、拼音标注等，同时，新增了10种文本相似度算法，还新增了两种分词算法：最大Ngram分值算法和最少词数算法，分词速度也有了很大提升，还有很多其他的大大小小的优化，最后还支持当前最新的lucene5.2.1、 solr5.2.1和elasticsearch2.0.0-beta1。

word 分词的分词效果怎么样？请看：Java开源项目cws_evaluation：中文分词器分词效果评估

Java 分布式中文分词组件，word v1.3 发布

相关资讯