基于HMM模型的中文分词:finalseg 经验

Segment Library in Python based on HMM Model 基于HMM模型的中文分词 用法 将finalseg目录放置于当前目录或者site-packages目录 import finalseg

jopen 2012-09-22   38645   0

C语言开源高性能中文分词 经验

Friso是使用C语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支持对UTF-8/GBK编码的切分。

jopen 2014-01-03   39436   0

"结巴"中文分词的R语言版本:jiebaR 经验

"结巴"中文分词 的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(M

jopen 2014-11-04   111493   0

利用IKAnalyzer中文分词,计算句子相似度 经验

IKAnalyzer中文分词,计算句子相似度 一、简介 IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。以开源项目Luence为应用主体的,结合词典分词和文法分析算法

jopen 2015-01-22   174851   0

Lucene开发实例:Lucene中文分词 经验

下载lucene 3.6.1 : http://lucene.apache.org/ 下载中文分词IK Analyzer: http://code.google.com/p/ik-analyzer/downloads/list

PHP中文分词扩展 SCWS 经验

Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开,

jopen 2014-10-10   15526   0
SCWS   PHP开发  
P100

  OFBIZ中文技术文档 文档

技术文档 第一部分、ofbiz表现 一、理解MVC模式     当涉及大量商业逻辑项目的时候,我们需要考虑什么?如何分离用户界面和后台操作?如何避免将商业逻辑混淆于一般的流程控制中?作为企业信息系统,

lil88888 2011-07-17   10017   0

11大Java开源中文分词器的使用方法和分词效果对比 经验

本文的目标有两个: 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。

RozAlford 2016-09-05   11758   0

Java分布式中文分词组件word分词v1.2发布 资讯

Java分布式中文分词组件 - word分词 word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间

xg48 2015-04-10   27874   0

9大Java开源中文分词器的使用方法和分词效果对比 经验

本文的目标有两个: 1、学会使用9大Java开源中文分词器 2、对比分析 9大Java开源中文分词器的分词效果 9大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样, 我们先定义一个统一的接口:

yn6e 2015-05-10   75187   0

php高性能开源中文分词扩展 经验

Robbe是建立在Friso中文分词器上的一个高性能php中文分词扩展,除了提供了基本的分词函数以外,还提供一些编码转换函。 Robbe完整版本(PHP测试程序, 开发帮助文档, WinNT下php各版本的dll文件)下载:

jopen 2014-01-03   57878   0

C语言开源高性能中文分词器:friso 经验

一。friso中文分词器 friso是使用c语言开发的一个中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。 1。目前最高版本:friso

jopen 2012-12-29   64757   0

词云可视化——中文分词与词云制作 经验

随着微博研究的深入,社会网络分析和可视化技术的需要,面临中文处理问题,开始钻研文本挖掘的问题,过去的传统的数据挖掘一直研究的是结构化数据,文本挖掘和意见挖掘涉及内容更多,特别是中文处理是不可逾越的障碍! 注:俺的中文不好,甚至想过把中文google

jopen 2015-03-11   48430   0

用MeCab打造一套实用的中文分词系统 经验

MeCab 是一套日文分词(形态分析)和词性标注系统(Yet Another Part-of-Speech and Morphological Analyzer), rick 曾经在这里分享过 MeCab

jopen 2015-01-21   33833   0

Lucene 3.6 中文分词、分页查询、高亮显示等 经验

下载lucene 3.6.1 : http://lucene.apache.org/ 下载中文分词IK Analyzer: http://code.google.com/p/ik-analyzer/downloads/list

jopen 2012-09-12   103747   0

Elasticsearch 中文分词插件 jcseg 安装 (Ubuntu 14.04 下) 经验

作为国内知名的开源的中文分词器,对于中文分词有其独有的特点, 对于 elasticsearch 这一不错的文档检索引擎来说 Elasticsearch + Jcseg 这个组合,在处理中文检索上,可以说是

jopen 2015-10-25   34427   0

用Python写一个简单的中文分词 经验

training.utf8测试数据:icwb2-data/testing/pku_ test.utf8正确分词结果:icw... 解压后取出以下文件: 训练数据:icwb2-data/training/pku_

ybw8 2015-06-04   29001   0

基于IKAnalyzer实现一个Elasticsearch中文分词插件 经验

虽然Elasticsearch有原生的中文插件elasticsearch-analysis-smartcn(实际上是lucence的org.apache.lucene.analysis.cn.smart

码头工人 2015-06-05   33980   0
P7

  Lucene的IKAnalyzer3.0 中文分词器+全解 文档

Analyzer 3.0 中文分词器 - Lucene索引 1.IK Analyzer 3.0介绍 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1

alonecong 2013-05-17   546   0

solr5.3.1 添加中文分词之mmseg4j 经验

solr5.3.1 添加中文分词之mmseg4j:1,下载对应jar包,并拷贝到sorl服务器的lib目录底下 2,添加配置文件(在Solr的安装部署及简单使用已经...

jopen 2016-01-07   11029   0
1 2 3 4 5 6 7 8 9 10