"结巴"中文分词的C++版本:CppJieba

jopen 9年前

简介

CppJieba是"结巴"中文分词的C++版本

特性

  • 源代码都写进头文件src/*.hpp里,include即可使用。
  • 支持utf-8, gbk编码,但是推荐使用utf-8编码, 因为gbk编码缺少严格测试,慎用。
  • 内置分词服务server/server.cpp,在linux环境下可安装使用。
  • 项目自带较为完善的单元测试,核心功能中文分词(utf8)的稳定性接受过线上环境检验。
  • 支持载自定义用户词典。
  • 支持 linux , mac osx 操作系统。
  • 支持 Docker

应用

关于CppJieba的跨语言包装使用

收到邮件询问跨语言包装(ios应用开发)使用的问题,这方面我没有相关的经验,建议参考如下python使用cppjieba的项目:

jannson 开发的供 python模块调用的项目 cppjiebapy , 和相关讨论 cppjiebapy_discussion .

NodeJieba

如果有需要在node.js中使用分词,不妨试一下NodeJieba

simhash

如果有需要在处理中文文档的的相似度计算,不妨试一下simhash

exjieba

如果有需要在erlang中使用分词的话,不妨试一下exjieba

jiebaR

如果有需要在R中使用分词的话,不妨试一下jiebaR

libcppjieba

libcppjieba 是最简单易懂的CppJieba头文件库使用示例。

keyword_server

KeywordServer 50行搭建一个中文关键词抽取服务

ngx_http_cppjieba_module

如果有需要在Nginx中使用分词模块的话,不妨试一下ngx_http_cppjieba_module.

线上演示

http://cppjieba-webdemo.herokuapp.com/ (建议使用chrome打开)


项目主页:http://www.open-open.com/lib/view/home/1418465734761