七、分词器
7.1、分词器介绍
了解分词器的概念
-
分词器(Analyzer)是将一段文本,按照一定逻辑,拆分成多个词语的一种工具,如下所示
- 华为手机 ---> 华为、手、手机
-
ElasticSearch 内置分词器有以下几种
7.2、IK分词器介绍及安装
学会如何集成ik分词器
7.2.1、IK分词器介绍
- IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,是一个基于Maven构建的项目,具有60万字/秒的高速处理能力,并且支持用户词典扩展定义。
- 下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases
- IKAnalyzer又称庖丁解牛分词器
- 分词器的核心
- 1)词库
- 2)分词算法
ik_smart
:最小分词法- 我是程序员 -> 我、是、程序员
ik_max_word
:最细分词法- 我是程序员 -> 我、是、程序员、程序、员
7.2.2、IK分词器安装
-
1)下载好ik分词器后,进入创建ES容器的时候挂载的plugins目录
-
2)将ik分词器添加到plugins里面即可
-
3)重启es容器
-
4)验证ik分词器是否安装成功
-
GET _analyze { "text": "我是程序员", "analyzer": "ik_max_word" }
-
-
-
一般情况下,
ik_smart
算法足够使用了,ik_max_word
以最细粒度分词,会分太多次,数据量过大
7.3、使用IK分词器
7.3.1、没有设置ik分词器之前
-
目前person索引库的name字段位text类型,我们使用term查询(不分词查询),发现并没有结果
-
GET person/_search { "query": { "term": { "name": { "value": "翠花" } } } }
-
-
因为默认情况下,text类型使用standard分词器进行分词
-
-
7.3.2、重建索引并设置ik分词器
-
1)这时需要删除person索引库,然后重新设置name的类型为text,且analyzer为ik_max_word
-
# 删除person索引库 DELETE person PUT person { "mappings": { "properties": { "name":{ "type": "text", "analyzer": "ik_max_word" }, "age":{ "type": "integer" } } } }
-
-
-
2)插入数据
-
POST person/_doc/1 { "name": "翠花", "age": 20, "sex": "女" }
-
-
-
3)再次查询
-
GET person/_search { "query": { "term": { "name": { "value": "翠花" } } } }
-
-
这时候不分词查询就有结果了
-
7.3.3、扩展词词典
- 随着互联网的发展,"造词运动"也越发的频繁。出现了很多新的词语,在原有的词汇列表中并不存在。比如:"奥力给",或者我们自定义的词等等
- 所以我们的词汇也需要不断的更新,IK分词器提供了扩展词汇的功能
- 使用步骤如下所示
1)打开IK分词器config目录
- 文件如下所示
- PS:如果之前没有做目录挂载的话,可以参考如下命令
docker cp elasticsearch:/usr/share/elasticsearch/plugins/analysis-ik/config/IKAnalyzer.cfg.xml /root
2)修改IKAnalyzer.cfg.xml配置文件
3)新建ext.dic文件
4)重启elasticsearch
docker restart elasticsearch(容器名称或id)
5)测试效果
-
GET /_analyze { "analyzer": "ik_max_word", "text": "奥里给,啊噢额" }
-
-
PS:如果发现没能正常分词,可以使用
cat ext.dic
查看输出在终端的文字是否乱码- 在更改文件的时候,编码必须是UTF-8格式
-
PS:ik分词器不能使用中英文混合!
7.3.4、停用词词典
- 在互联网项目中,网络传输的速度很快,所以很多语言是不允许在网络上传递的,如:关于宗教、政治等敏感词语,那么我们在搜索的时候,也应该忽略当前词汇
- IK分词器也提供了强大的停用词功能,让我们在索引的时候,就直接忽略当前停用词汇表中的内容
- 停用词词典使用步骤如下所示
1)修改IKAnalyzer.cfg.xml配置文件
-
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYstem "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment> <!--用户可以在这里配置自己的扩展字典--> <entry key="ext_dict">ext.dic</entry> <!--用户可以在这里配置自己的扩展停止词字典 *** 添加停用词词典--> <entry key="ext_stopwords">stop.dic</entry> </properties>
2)在stopword.dic添加停用词
结业
3)重启elasticsearch
docker restart elasticsearch(容器名称或id)
- 查看日志:
docker logs -f elasticsearch(容器名称或id)
- 仔细看的话,可以在日志中查看到以及成功加载stopword.dic配置文件
4)测试效果
-
GET /_analyze { "analyzer": "ik_max_word", "text": "2018届计算机1班的结业率高达10%,奥里给!" }
-
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。