七、分词器

7.1、分词器介绍

了解分词器的概念

分词器（Analyzer）是将一段文本，按照一定逻辑，拆分成多个词语的一种工具，如下所示
- 华为手机 ---> 华为、手、手机
ElasticSearch 内置分词器有以下几种
- Standard Analyzer
  - 默认分词器，按词/字切分，小写处理（英文）华为手机
- Simple Analyzer
  - 按照非字母切分(符号被过滤)，小写处理
- Stop Analyzer
  - 小写处理，停用词过滤(the,a,is)
- Whitespace Analyzer
  - 按照空格切分，不转小写
- Keyword Analyzer
  - 不分词，直接将输入当作输出
- Patter Analyzer
  - 正则表达式，默认\W+(非字符分割) （中文会被去掉）
- Language
  - 提供了30多种常见语言的分词器
ES提供了一个接口给我们来验证分词效果，如下所示
- ```
# 分词效果验证
GET _analyze
{
  "text": "我爱写代码",
  "analyzer": "standard"
}
```
- 分词效果如下所示
- Elasticsearch内置分词器对中文很不友好（偏好英文），处理方式为一个字一个词

7.2、IK分词器介绍及安装

学会如何集成ik分词器

7.2.1、IK分词器介绍

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包，是一个基于Maven构建的项目，具有60万字/秒的高速处理能力，并且支持用户词典扩展定义。
下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases
IKAnalyzer又称庖丁解牛分词器
分词器的核心
- 1）词库
- 2）分词算法
  - ik_smart：最小分词法
    - 我是程序员 -> 我、是、程序员
  - ik_max_word：最细分词法
    - 我是程序员 -> 我、是、程序员、程序、员

7.2.2、IK分词器安装

1）下载好ik分词器后，进入创建ES容器的时候挂载的plugins目录
2）将ik分词器添加到plugins里面即可
3）重启es容器
- docker restart elasticsearch
- PS：如果发现重启失败，es启动后又意外关闭，可以查看日志，一般是下载的ik分词器版本跟es不一致导致的；可以参考博客修改（或者进入到ik分词器文件夹中修改plugin-descriptor.properties文件中的es版本号）
  - https://blog.csdn.net/qq_36364955/article/details/117843259

4）验证ik分词器是否安装成功

GET _analyze
{
  "text": "我是程序员",
  "analyzer": "ik_max_word"
}

一般情况下，ik_smart算法足够使用了，ik_max_word以最细粒度分词，会分太多次，数据量过大

7.3、使用IK分词器

7.3.1、没有设置ik分词器之前

目前person索引库的name字段位text类型，我们使用term查询（不分词查询），发现并没有结果
- ```
GET person/_search
{
  "query": {
    "term": {
      "name": {
        "value": "翠花"
      }
    }
  }
}
```
- 因为默认情况下，text类型使用standard分词器进行分词

7.3.2、重建索引并设置ik分词器

1）这时需要删除person索引库，然后重新设置name的类型为text，且analyzer为ik_max_word

# 删除person索引库
DELETE person

PUT person
{
  "mappings": {
    "properties": {
      "name":{
        "type": "text",
        "analyzer": "ik_max_word"
      },
      "age":{
        "type": "integer"
      }
    }
  }
  
}

2）插入数据

POST person/_doc/1
{
  "name": "翠花",
  "age": 20,
  "sex": "女"
}

3）再次查询

GET person/_search
{
  "query": {
    "term": {
      "name": {
        "value": "翠花"
      }
    }
  }
}

这时候不分词查询就有结果了

7.3.3、扩展词词典

随着互联网的发展，"造词运动"也越发的频繁。出现了很多新的词语，在原有的词汇列表中并不存在。比如："奥力给"，或者我们自定义的词等等
所以我们的词汇也需要不断的更新，IK分词器提供了扩展词汇的功能
使用步骤如下所示

1）打开IK分词器config目录

文件如下所示
- PS：如果之前没有做目录挂载的话，可以参考如下命令
  - docker cp elasticsearch:/usr/share/elasticsearch/plugins/analysis-ik/config/IKAnalyzer.cfg.xml /root

2）修改IKAnalyzer.cfg.xml配置文件

在IKAnalyzer.cfg.xml配置文件中添加如下内容

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYstem "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典-->
        <entry key="ext_dict">ext.dic</entry>
</properties>

3）新建ext.dic文件

新建一个ext.dic文件，可以参考config目录下复制一个配置文件进行修改，添加如下内容
- ```
奥里给
啊噢额
```

4）重启elasticsearch

docker restart elasticsearch（容器名称或id）

5）测试效果

GET /_analyze
{
  	"analyzer": "ik_max_word",
  	"text": "奥里给，啊噢额"
}

PS：如果发现没能正常分词，可以使用cat ext.dic查看输出在终端的文字是否乱码
- 在更改文件的时候，编码必须是UTF-8格式
PS：ik分词器不能使用中英文混合！

7.3.4、停用词词典

在互联网项目中，网络传输的速度很快，所以很多语言是不允许在网络上传递的，如：关于宗教、政治等敏感词语，那么我们在搜索的时候，也应该忽略当前词汇
IK分词器也提供了强大的停用词功能，让我们在索引的时候，就直接忽略当前停用词汇表中的内容
停用词词典使用步骤如下所示

1）修改IKAnalyzer.cfg.xml配置文件

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYstem "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典-->
        <entry key="ext_dict">ext.dic</entry>
         <!--用户可以在这里配置自己的扩展停止词字典  *** 添加停用词词典-->
        <entry key="ext_stopwords">stop.dic</entry>
</properties>

2）在stopword.dic添加停用词

结业

3）重启elasticsearch

docker restart elasticsearch（容器名称或id）
查看日志：docker logs -f elasticsearch（容器名称或id）
- 仔细看的话，可以在日志中查看到以及成功加载stopword.dic配置文件

4）测试效果

GET /_analyze
{
  "analyzer": "ik_max_word",
  "text": "2018届计算机1班的结业率高达10%,奥里给！"
}

03-Elasticsearch之分词器

七、分词器

7.1、分词器介绍

7.2、IK分词器介绍及安装

7.2.1、IK分词器介绍

7.2.2、IK分词器安装

7.3、使用IK分词器

7.3.1、没有设置ik分词器之前

7.3.2、重建索引并设置ik分词器

7.3.3、扩展词词典

1）打开IK分词器config目录

2）修改IKAnalyzer.cfg.xml配置文件

3）新建ext.dic文件

4）重启elasticsearch

5）测试效果

7.3.4、停用词词典

1）修改IKAnalyzer.cfg.xml配置文件

2）在stopword.dic添加停用词

3）重启elasticsearch

4）测试效果

相关推荐