十五、Elasticsearch相关排序及算法

作者: 书写只为分享 | 来源:发表于2019-11-21 23:55 被阅读0次

十五、Elasticsearch相关排序及算法
算法
冒泡排序及相关算法
排序算法（一）
排序算法
5.6-排序及DocValues&Fielddata
算分与排序
排序算法之插入排序和希尔排序（shell sort）
python实现计数排序(CountSort)
排序算法（五）归并排序

1、定制排序规则

GET /website/article/_search

{

"query": {

"constant_score": {

"filter": {

"term": {

"author_id": 11400

}

},

"sort": [

{

"post_date": {

"order": "desc"

}

]

}

可以使用constant_score的filter,最常用的还是sort

如果对一个string field进行排序，结果往往不准确，因为分词后是多个单词，再排序就不是我们想要的结果了

通常解决方案是，将一个string field建立两次索引，一个分词，用来进行搜索；一个不分词，用来进行排序

PUT /website

{

"mappings": {

"article": {

"properties": {

"title": {

"type": "text",

"fields": {

"raw": {

"type": "string",

"index": "not_analyzed"

}

},

"fielddata": true

},

"content": {

"type": "text"

},

"post_date": {

"type": "date"

},

"author_id": {

"type": "long"

}

GET /website/article/_search

{

"query": {

"match_all": {}

},

"sort": [

{"title.raw": {

"order": "desc"

}}]}

2、elasticsearch排序算法

得分（relevance score）算法，简单来说就是计算出，一个索引中的文本，与搜索文本，他们之间的关联匹配程度

Elasticsearch使用的是 term frequency/inverse document frequency算法，简称为TF/IDF算法

Term frequency：搜索文本中的各个词条在field文本中出现了多少次，出现次数越多，就越相关

Inverse document frequency：搜索文本中的各个词条在整个索引的所有文档中出现了多少次，出现的次数越多，就越不相关

Field-length norm：field长度，field越长，相关度越弱

3、_score是如何被计算出来的

GET /test_index/test_type/_search?explain

{

"query": {

"match": {

"test_field": "test hello"

}

4、分析一个document是如何被匹配上的

GET /website/article/1/_explain

{

"query": {

"match": {

"title": "article"

}

搜索的时候，要依靠倒排索引；排序的时候，需要依靠正排索引，看到每个document的每个field，然后进行排序，所谓的正排索引，其实就是doc values

在建立索引的时候，一方面会建立倒排索引，以供搜索用；一方面会建立正排索引，以供排序，聚合，过滤等操作使用

doc values是被保存在磁盘上的，此时如果内存足够，os会自动将其缓存在内存中，性能还是会很高；如果内存不足够，os会将其写入磁盘上

5、preference

决定了哪些shard会被用来执行搜索操作

_primary, _primary_first, _local, _only_node:xyz, _prefer_node:xyz, _shards:2,3

bouncing results问题，两个document排序，field值相同；不同的shard上，可能排序不同；每次请求轮询打到不同的replica shard上；每次页面上看到的搜索结果的排序都不一样。这就是bouncing result，也就是跳跃的结果。

搜索的时候，是轮询将搜索请求发送到每一个replica shard（primary shard），但是在不同的shard上，可能document的排序不同

解决方案就是将preference设置为一个字符串，比如说user_id，让每个user每次搜索的时候，都使用同一个replica shard去执行，就不会看到bouncing results了

6、search_type

default：query_then_fetch

dfs_query_then_fetch，可以提升relevance sort精准度

网友评论

本文标题：十五、Elasticsearch相关排序及算法

本文链接：https://www.haomeiwen.com/subject/hdoxwctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

十五、Elasticsearch相关排序及算法

相关文章