中文分词 - 开源经验 - 第1页

0推荐

28K 浏览

近日 GitHub 用户 wu.zheng 开源了一个使用双向 LSTM 构建的中文处理工具包，该工具不仅可以实现分词、词性标注和命名实体识别，同时还能使用用户自定义字典加强分词的效果。机器之心...

Trudy77W 8年前

算法中文分词

0推荐

16K 浏览

词云又叫文字云，是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现，形成关键词的渲染形成类似云一样的彩色图片，从而一眼就可以领略文本数据的主要表达意思。

HelenWebber 9年前

Python 中文分词 Python开发

0推荐

12K 浏览

摘要：一般来说的全文搜索服务，大体是基于字和关键词的，基于语句的全文搜索服务是一个有意思的课题。以文字为最小节点，以语句为分枝，建立语义树，提供基于语义树的全文检索服务。通过对语句进行语义特征编...

jianxiake 10年前

数据库中文分词机器学习

0推荐

30K 浏览

wukong，是一款golang实现的高性能、支持中文分词的全文搜索引擎。我个人觉得它最大的特点恰恰是不像ElasticSearch那样庞大和功能完备，而是可以以一个Library的形式快速集成...

zzsyg0306 10年前

搜索引擎中文分词分布式系统

0推荐

33K 浏览

jieba分词是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理，以及实现细节对jieba进行了详细的阅读。

avqz2354 10年前

中文分词 Netty 网络工具包马尔科夫模型

0推荐

7K 浏览

在做uri匹配规则发现这个类，根据源码对该类进行分析，它主要用来做类URLs字符串匹配；

TanyaBellew 10年前

Spring 中文分词 JEE框架

0推荐

111K 浏览

作为深受二次元人士欢迎的互动方式，弹幕已经从原来的动漫网站 Acfun 和 bilibili 向各类视频和直播网站蔓延，但是弹幕存在大量低俗、色情、垃圾广告、谩骂的内容，数量极为庞大，变形变换极...

NorWheat 10年前

数据挖掘中文分词软件架构多媒体处理

0推荐

12K 浏览

学会使用11大Java开源中文分词器。

RozAlford 10年前

开源 Java 中文分词 Java开发

0推荐

27K 浏览

在Elasticsearch中，内置了很多分词器（analyzers），但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持，比较常用的是中科院 ICTCLAS的smartcn和IK...

xnrf3714 10年前

搜索引擎中文分词 ElasticSearch Elastic Search

0推荐

98K 浏览

TF-IDF(Term Frequency-Inverse Document Frequency)，中文叫做词频－逆文档频率。在文本挖掘(Text Mining)和信息检索(Informatio...

sunzhe336 10年前

中文分词

0推荐

33K 浏览

ecjkseg4es - ECJKSeg 基于mmseg，添加对最新版本的5.3.1 lucene 和 2.1.1 elastic search 分词插件的支持。

jopen 10年前

中文分词

0推荐

13K 浏览

说lucene是Java界的检索之王，当之无愧。近年来elasticsearch的火爆登场，包括之前的solr及solr cloud，其底层都是lucene。简单了解lucene，对使用elas...

SteffenM01 10年前

搜索引擎 Lucene 中文分词

0推荐

99K 浏览

在逐渐步入DT（Data Technology）时代的今天，自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说，并没有类似英文空格的边界标志。而理解句子所包含的词语，则是理解汉语语句的第...

moonbigboy 10年前

中文分词

0推荐

41K 浏览

美国小伙Tom在中国已经半年了，自认为中文已经不错，就想测试一下自己的水平到底有多高。于是，他收到了下面这样一份试题，请说出以下题目中两句话的区别在哪里：

AlysaB34 10年前

中文分词

0推荐

11K 浏览

最近特别喜欢用Pig，有能满足大部分需求的内置函数（Built In Functions），支持自定义函数（user defined functions, UDF ），能load 纯文本、avr...

jopen 10年前

Java Hadoop 中文分词

0推荐

46K 浏览

做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点，一个是在数据量比较大的时候，搜索引擎的查询速度快，第二点在于，搜索引擎能做到比数据库更理解用户。第一点好...

jopen 10年前

中文分词

0推荐

37K 浏览

作为一个处理自然语言数据的团队，我们在日常工作中要用到不同的工具来预处理中文文本，比如 Jieba 和 Stanford NLP software 。出于准确性和效率的考虑，我们选择了Stanf...

jopen 10年前

中文分词自然语言处理

0推荐

16K 浏览

Lucene已经给我们提供了很多Query查询器，如PhraseQuery,SpanQuery,那为什么还要提供QueryParser呢？或者说设计QueryParser的目的是什么？ Quer...

jopen 10年前

搜索引擎 Lucene 中文分词

0推荐

31K 浏览

phpSplit 是一个基于php开发的中文分词库。居于Unicode编码词典的php分词器只适用于php5，必要函数 iconv 本程序是使用RMM逆向匹配算法进行分词的，词库需要特别编译...

jopen 10年前

中文分词

0推荐

50K 浏览

nodejieba - ＂结巴＂中文分词的Node.js版本

jopen 10年前

中文分词 nodejieba

新 GitHub 开放项目 FoolNLTK：一个便捷的中文处理工具包

10 行 Python 代码的词云

全文搜索：分词不在需要，按句子索引即可

使用wukong全文搜索引擎

jieba 源码解析

Spring之AntPathMatcher

直播弹幕审核系统和文本分析技术

11大Java开源中文分词器的使用方法和分词效果对比

ElasticSearch 分词篇：中文分词

TF-IDF的原理与应用

基于mmseg的cjk中文分词器

lucene简单入门

11款开放中文分词引擎大比拼

漫话中文分词

Pig + Ansj 统计中文文本词频

IK分词器原理与源码分析

中文文本处理简要介绍

Lucene5学习之QueryParser-Query解析器

phpSplit - PHP 中文分词包

NodeJieba "结巴"分词的Node.js版本

热门问答

热门文档