• TF-IDF的原理与应用

     发表于 1 年 前

    TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做词频-逆文档频率。在文本挖掘(Text Mining)和信息检索(Inf...

  • 基于mmseg的cjk中文分词器

     发表于 1 年 前

    ecjkseg4es - ECJKSeg 基于mmseg,添加对最新版本的5.3.1 lucene 和 2.1.1 elastic search 分词插件的支持。...

  • 11款开放中文分词引擎大比拼

     发表于 1 年 前

    在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理...

  • 漫话中文分词

     发表于 1 年 前

    美国小伙Tom在中国已经半年了,自认为中文已经不错,就想测试一下自己的水平到底有多高。于是,他收到了下面这样一份试题,请说出以下题目中两句话的区别在哪里:...

  • IK分词器原理与源码分析

     发表于 1 年 前

    做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点,一个是在数据量比较大的时候,搜索引擎的查询速度快,第二点在于,搜索引擎能做到比数据库更理解...

  • 中文文本处理简要介绍

     发表于 1 年 前

    作为一个处理自然语言数据的团队,我们在日常工作中要用到不同的工具来预处理中文文本,比如 Jieba 和 Stanford NLP software 。出于准确性和效率的考虑,我们选...

  • phpSplit - PHP 中文分词包

     发表于 1 年 前

    phpSplit 是一个基于php开发的中文分词库。 居于Unicode编码词典的php分词器 只适用于php5,必要函数 iconv 本程序是使用RMM逆向匹配算法进行分词的,词...

  • NodeJieba "结巴"分词的Node.js版本

     发表于 1 年 前

    nodejieba - "结巴"中文分词的Node.js版本...

  • 中文分词的原理与实践

     发表于 1 年 前

    中文分词问题是绝大多数中文信息处理的基础问题,在搜索引擎、推荐系统(尤其是相关主题推荐)、大量文本自动分类等方面,一个好的分词系统是整个系统成功的关键。 ...

  • PHP 中文分词包:phpSplit

     发表于 1 年 前

    phpSplit 是一个基于php开发的中文分词库。 ...

  • Jieba分词Go语言版本:GoJieba

     发表于 2 年 前

    GoJieba 是 Jieba 分词的 Go 语言版本分词库。 ...

  • HanLP中文分词solr插件

     发表于 2 年 前

    HanLP中文分词solr插件 基于HanLP,支持Solr5.x,兼容Lucene5.x ...

  • CWSharp - .Net中英文分词组件

     发表于 2 年 前

    CWSharp 是 .Net 的中英文分词组件。 ...

  • 垂直搜索引擎中的分词系统

     发表于 2 年 前

    国内垂直领域的电商或者信息分享类应用都处于高速发展期,其对内容快速搜索的需求越来越强烈,对于能适应自己业务应用的搜索引擎解决方案也越来越 重视。同时,通用的可选开源搜索引擎框架...

  • 中科院NLPIR中文分词java版

     发表于 2 年 前

    摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误。开始使用NLPIR分词,在分词准确性上效果要比SCWS好。本文介绍如...

  • Spark + ansj 对大数据量中文进行分词

     发表于 2 年 前

    目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码...

  • 9大Java开源中文分词器的使用方法和分词效果对比

     发表于 2 年 前

    本文的目标有两个: 1、学会使用9大Java开源中文分词器 2、对比分析9大Java开源中文分词器的分词效果 ...

  • 自然语言处理:HanLP

     发表于 2 年 前

    HanLP是由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 ...

  • 词云可视化——中文分词与词云制作

     发表于 2 年 前

    近日在微博上大家都在问《个性化词云》制作方法。 下面简单介绍实现步骤和思路: 随着微博研究的深入,社会网络分析和可视化技术的需要,面临中文处理问题,开始钻研文本挖掘...

  • 利用IKAnalyzer中文分词,计算句子相似度

     发表于 2 年 前

    IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。独立于Luce...