美文网首页
Elasticsearch入门笔记4一IK分词器

Elasticsearch入门笔记4一IK分词器

作者: 小名源治 | 来源:发表于2022-12-04 08:24 被阅读0次

IK分词器:中文分词器

分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个个匹配操作,默认的中文分词是将每个字看成一个词,比如“我爱狂神”会被分为”我”,”爱”,”狂”,”神” ,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。

IK提供了两个分词算法: ik_smart和ik_max_word ,其中ik_smart为最粗粒度的拆分, ik_max_word为最细粒度划分!

  • ik_max_word 会将文本做最细粒度的拆分
    比如会将「中华人民共和国国歌」拆分为:中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌,会穷尽各种可能的组合;

  • ik_smart 最粗粒度的拆分
    比如会将「中华人民共和国国歌」拆分为:中华人民共和国、国歌。

下载地址
日志文件中出现此日志就说明ik分词器安装成功了

image.png

在命令行进入bin目录下,输入命令elasticsearch-plugin list,就能看到我们加载的分词器。

image.png

结合kibana测试使用ik分词器

ik_smart 最粗粒度 和 ik_max_word 最细粒度


image.png

ik分词器的字典

我们通过查看ik分词器的配置文件,可以知道,用于分词的依据是在配置文件中的一个个.dic的字典文件。当然我们也可以添加自己的字典。


image.png

新建一个自己的dic文件,zlw.dic,里面添加一个词条“叫小明”,然后去IKAnalyzer.cfg的xml文件中,将zlw.dic添加进去,然后重启kibana和es测试。


image.png
image.png
image.png

相关文章

网友评论

      本文标题:Elasticsearch入门笔记4一IK分词器

      本文链接:https://www.haomeiwen.com/subject/ewswxdtx.html