美文网首页
十五、Elasticsearch相关排序及算法

十五、Elasticsearch相关排序及算法

作者: 书写只为分享 | 来源:发表于2019-11-21 23:55 被阅读0次

1、定制排序规则

GET /website/article/_search

{

  "query": {

    "constant_score": {

      "filter": {

        "term": {

          "author_id": 11400

        }

      }

    }

  },

  "sort": [

    {

      "post_date": {

        "order": "desc"

      }

    }

  ]

}

可以使用constant_score的filter,最常用的还是sort

如果对一个string field进行排序,结果往往不准确,因为分词后是多个单词,再排序就不是我们想要的结果了

通常解决方案是,将一个string field建立两次索引,一个分词,用来进行搜索;一个不分词,用来进行排序

PUT /website

{

  "mappings": {

    "article": {

      "properties": {

        "title": {

          "type": "text",

          "fields": {

            "raw": {

              "type": "string",

              "index": "not_analyzed"

            }

          },

          "fielddata": true

        },

        "content": {

          "type": "text"

        },

        "post_date": {

          "type": "date"

        },

        "author_id": {

          "type": "long"

        }

      }

    }

  }

}

GET /website/article/_search

{

  "query": {

    "match_all": {}

  },

  "sort": [

    {"title.raw": {

        "order": "desc"

      }}]}

2、elasticsearch排序算法

得分(relevance score)算法,简单来说就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度

Elasticsearch使用的是 term frequency/inverse document frequency算法,简称为TF/IDF算法

Term frequency:搜索文本中的各个词条在field文本中出现了多少次,出现次数越多,就越相关

Inverse document frequency:搜索文本中的各个词条在整个索引的所有文档中出现了多少次,出现的次数越多,就越不相关

Field-length norm:field长度,field越长,相关度越弱

 

3、_score是如何被计算出来的

GET /test_index/test_type/_search?explain

{

  "query": {

    "match": {

      "test_field": "test hello"

    }

  }

}

4、分析一个document是如何被匹配上的

GET /website/article/1/_explain

{

   "query": {

    "match": {

      "title": "article"

    }

  }

}

搜索的时候,要依靠倒排索引;排序的时候,需要依靠正排索引,看到每个document的每个field,然后进行排序,所谓的正排索引,其实就是doc values

在建立索引的时候,一方面会建立倒排索引,以供搜索用;一方面会建立正排索引,以供排序,聚合,过滤等操作使用

doc values是被保存在磁盘上的,此时如果内存足够,os会自动将其缓存在内存中,性能还是会很高;如果内存不足够,os会将其写入磁盘上

5、preference

决定了哪些shard会被用来执行搜索操作

_primary, _primary_first, _local, _only_node:xyz, _prefer_node:xyz, _shards:2,3

bouncing results问题,两个document排序,field值相同;不同的shard上,可能排序不同;每次请求轮询打到不同的replica shard上;每次页面上看到的搜索结果的排序都不一样。这就是bouncing result,也就是跳跃的结果。

搜索的时候,是轮询将搜索请求发送到每一个replica shard(primary shard),但是在不同的shard上,可能document的排序不同

解决方案就是将preference设置为一个字符串,比如说user_id,让每个user每次搜索的时候,都使用同一个replica shard去执行,就不会看到bouncing results了

6、search_type

default:query_then_fetch

dfs_query_then_fetch,可以提升relevance sort精准度

相关文章

  • 十五、Elasticsearch相关排序及算法

    1、定制排序规则 GET /website/article/_search { "query": { "const...

  • 算法

    十大经典排序算法(动图演示) 【数据结构】链表的原理及与其相关的常见面试题总结 一、排序算法 交换排序冒泡排序快速...

  • 冒泡排序及相关算法

    算法快慢通常由两个纬度来进行比较,时间复杂度,空间复杂度 时间复杂度:时间复杂度表示算法的快慢,冒泡排序的时间复杂...

  • 排序算法(一)

    排序算法是算法的入门知识,在面试中经常被问到排序算法及相关的问题,因此在学习的同时做一次总结。欢迎访问作者的个人博...

  • 排序算法

    排序算法 排序是最基本的算法之一,常见的排序算法有插入排序、希尔排序、选择排序、冒泡排序、堆排序、归并排序及快速排...

  • 5.6-排序及DocValues&Fielddata

    排序 Elasticsearch 默认采⽤相关性算分对结果进⾏ 降序排序 可以通过设定 sorting 参数,⾃⾏...

  • 算分与排序

    ⽆法针对相关度,对排序实现更多的控制 Elasticsearch 默认会以⽂档的相关度算分进⾏排序 可以通过指定⼀...

  • 排序算法之插入排序和希尔排序(shell sort)

    插入排序(inserction sort)和希尔排序(shell sort) 相关文章 排序算法之快速排序

  • python实现计数排序(CountSort)

    python实现【计数排序】(CountSort) 算法原理及介绍 计数排序不是基于比较的排序算法,其核心在于将输...

  • 排序算法(五)归并排序

    排序算法(五 )归并排序 1.算法思路  归并排序(Merge-Sort)是一种基于二叉堆及分而治之思想的排序算法...

网友评论

      本文标题:十五、Elasticsearch相关排序及算法

      本文链接:https://www.haomeiwen.com/subject/hdoxwctx.html