开源项目,开源代码,开源文档,开源新闻,开源社区

1，下载对应jar包，并拷贝到sorl服务器的lib目录底下 2，添加配置文件（在 Solr的安装部署及简单使用已经有过介绍）

jopen 2016-01-07 11029 0

Solr 搜索引擎

交道的中文来说，并没有类似英文空格的边界标志。而理解句子所包含的词语，则是理解汉语语句的第一步。汉语自动分词的任务，通俗地说，就是要由机器在文本中的词与词之间自动加上空格。一提到自动分词，通常会

moonbigboy 2016-01-30 99407 0

中文分词

http-scws (基于scws的http协议中文分词)，软件基于scws 1.1.7版本二次开发，基于libevent进行http封装，请求更简单功能： 1.词库为文本文件方式，增加、删除更方便

jopen 2011-12-24 28129 0

中文分词

那么既然我们能够大力开发中文翻译为英文的软件，又为何不为保护国家文化遗产开发一款普通话转方言的分词翻译软件呢。Chinese dialect convert 是一款基于方言分词翻译的软件，软件实现的核

hiphopmatt 2012-08-09 25178 1

language IKanalyzer Java MySQL

jiebaR 是"结巴"中文分词的R语言版本，支持最大概率法（Maximum Probability），隐式马尔科夫模型（Hidden Markov Model），索引模型（QuerySegment）

jopen 2014-11-04 15769 0

jiebaR

Paoding's Knives中文分词具有极高效率和高扩展性。引入隐喻，采用完全的面向对象设计，构思先进。高效率：在PIII 1G内存个人机器上，1秒可准确分词100万汉字。采用基于不限制个数的词典

码头工人 2019-01-17 1035 0

搜索引擎

Mafan是一组Python工具集合，用于方便处理中文。可以做繁简检测，繁简转化，检查中文标点，检查是否中英文混合，甚至还提供分词。 encodings encodings contains functions

jopen 2014-12-12 22061 0

Mafan Python开发

P3

利用上述程序，运行结果。发现，只有英文部分被写入，中文部分无法被写入。百度得到结论：需要加入itextasian.jar包，itextasian.jar包有实现了对中文字体的支持。因此加载itextasian

koreamy24k 2013-12-04 635 0

iText PDF工具包

P11

登陆后的界面（System登陆后）。二、导入翻译。首先把中文包“zh_CN”解压到“C:\Adempiere\data”。如下图： 2.1 选择中文。以用户名：System，密码：System，登陆adempiere。

125048755 2013-04-27 6185 0

ERP/CRM

http 包 import "net/http" 预览目录例子子目录预览 ▾ Http 包提供实现 HTTP 客户端和服务端的方法与函数。 Get 、 Head 、

ptjs 2012-09-27 13312 0

车联网软件架构师

P3

首先，介绍一下IK的整个分词处理过程： 1. Lucene的分词基类是Analyzer，所以IK提供了Analyzer的一个实现类IKAnalyzer。首先，我们要实例化一个IKAnalyzer，它

chennaid 2011-12-19 471 0

搜索引擎

P7

Lucene3.0分词原理与分词系统分词原理建立索引和查询的过程中，都是以基本的语素项为单位的。基本的语素项就是通过分词得到。这个过程决定了索引单元金额最终的匹配过程。分词在文本索引的建立过程

lxfsbxh 2010-12-17 503 0

Lucene 搜索引擎 lucene分词系统源代码

我。。。不。。。”等关键词都需要识别出来，才能完整判断一个句子的意思。为了达到这个效果，就必须要用分词技术了。我们先人工对上面的句子来进行一下切词，使用斜线分割：“你/假如/上午/没/给/我/吃

jopen 2014-09-16 78040 0

数据挖掘

word 分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录

jopen 2015-08-28 14412 0

word

word 分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录

jopen 2015-10-05 12527 0

word

DotNetNuke 6 简体中文语言包，在从dnn5汉化包基础上开始汉化。 DotNetNuke （简称DNN）是一个免费的、开源的、可扩展的内容管理系统，是建立在 ASP.NET 平台上的Web应用框架。

jopen 2012-07-08 33573 0

建站系统CMS DotNetNuke

近日 GitHub 用户 wu.zheng 开源了一个使用双向 LSTM 构建的中文处理工具包，该工具不仅可以实现分词、词性标注和命名实体识别，同时还能使用用户自定义字典加强分词的效果。机器之心简要介绍了这种双向 LSTM，并给出

Trudy77W 2017-12-28 27534 0

中文分词算法

Genius 分词 3.1.2 版本发布本次的主要更新： 1、修复空白字符导致分词进程崩溃的情况。 2、重构基本分词的算法；优化CRF处理工序，增强语义识别能力。 Genius

jopen 2014-03-25 7171 0

Genius

Go语言写的分词模块，使用了最大概率路径+单层神经网络。 goseg: A Chinese Word Segmentation Library in GoLang goseg use max probability

jopen 2014-09-10 22944 0

goseg 中文分词

目前我常常使用的分词有结巴分词、NLPIR分词等等最近是在使用结巴分词，稍微做一下推荐，还是蛮好用的。一、结巴分词简介利用结巴分词进行中文分词，基本实现原理有三：基于Trie树

wcwx 2015-01-04 16288 0

Python开发 Python

solr5.3.1 添加中文分词之mmseg4j 经验

11款开放中文分词引擎大比拼经验

http协议中文分词 http-scws 更新资讯

Chinese Dialect Convert(开源中文方言分词转换器) 资讯

jiebaR 0.1 发布，R语言中文分词资讯

Lucene中文分词“庖丁解牛” Paoding Analysis 开源项目

在Python中处理中文的工具包：Mafan 经验

导出PDF iText中文包版本处理文档

Adempiere (汉化)中文包导入文档

Go语言的 net/http 包中文说明博客

深入IK分词器文档

Lucene3.0分词系统文档

数据挖掘-分词入门经验

Java 分布式中文分词组件，word v1.3 发布资讯

Java 分布式中文分词组件，word v1.3.1 发布资讯

DotNetNuke 6 简体中文语言包 - dnn6-chinese-language-pack 经验

新 GitHub 开放项目 FoolNLTK：一个便捷的中文处理工具包经验

Genius 分词 3.1.2 版本发布资讯

Go语言写的分词模块：goseg 经验

使用python进行汉语分词经验

中文分词包的相关搜索

关键词

solr5.3.1 添加中文分词之mmseg4j 经验

11款开放中文分词引擎大比拼 经验

http协议中文分词 http-scws 更新 资讯

Chinese Dialect Convert(开源中文方言分词转换器) 资讯

jiebaR 0.1 发布，R语言中文分词 资讯

Lucene中文分词“庖丁解牛” Paoding Analysis 开源项目

在Python中处理中文的工具包：Mafan 经验

导出PDF iText中文包版本处理 文档

Adempiere (汉化)中文包导入 文档

Go语言的 net/http 包中文说明 博客

深入IK分词器 文档

Lucene3.0分词系统 文档

数据挖掘-分词入门 经验

Java 分布式中文分词组件，word v1.3 发布 资讯

Java 分布式中文分词组件，word v1.3.1 发布 资讯