正排索引
文档ID到文档内容、单词的关联关系。比如书的目录页对应正排索引(指明章节名称,指明页数)用于查看章节
倒排索引:
单词到文档ID的关联关系。比如索引页对应倒排索引(指明关键词、指明页数)用于关键词查找
倒排索引时搜索引擎的核心,主要包含两个部分:
- 单词词典
记录所有文档的单词,一般都比较大
记录单词到倒排列表的关联信息 - 倒排列表
记录了单词对应的文档集合,由倒排索引项组成。倒排索引项包含如下信息:- 文档ID,用于获取原始信息
- 单词频率,记录该单词在该文档中的出现次数,用于后续相关性算分
- 位置,记录单词在文档中的粉刺位置,用于做词语搜索
-
偏移,记录单词在文档的开始和结束位置,用于做高亮显示
分词
分词是指将文本转换成一系列单词的过程,也可以叫做文本分析,在es里面成为Analysis
Analyze_api
ES自带分词器
image.png
image.png










网友评论