微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

ElasticSearch-ik分词器

ElasticSearch-ik分词器

IK分词器安装使用

下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases

下载对应版本即可:

安装:

下载箭头中的压缩包就行了,下载之后解压到elasticsearch的plugins的一个文件夹ik(ik文件夹自己创建,可以随意命名,不可用中文名和特殊字符),然后重启elasticsearch生效。

重启ElasticSearch:

ik分词器解释

分词:

即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,认的中文分词是将每个字看成一个词。比如“我爱狂神”会被分为"我",“爱”,“狂”,“神” ,这显然是不符合要求的,所以我们需要安装中文分词器ik解决这个问题。

IK提供了两个分词算法: ik_smartik_max_word

  • ik_smart为最少切分
  • ik_max_word为最细粒度划分:穷尽词库的可能

查看不同的分词效果

思考:

为什么ik_max_word 分词器会分出国共这个词呢?后边我们会讲到字典。

ZGGCD一个完整的词,在字典中肯定存在:即最少切分

ZGGCD可以拆分成不同的词,且这些词在字典中肯定存在:即最细粒度划分

字典

查看conf中的IKAnalyzer.cfg.xml文件

我们写自己的字典,然后重启ElasticSearch:

加入自己的字典前后对比:狂神说成为一个关键词。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐