我要提问      

 mmseg4j

mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex加了四个规则过虑。官方说:词语的正确识别率达到了98.41%。mmseg4j已经实现了这两种分词算法。

该项目主页:http://code.google.com/p/mmseg4j/

本页【中文分词类库】其它开源项目

 



 


MSN:jforeverg@hotmail.com 闽ICP备10022058号 友情链接