美文网首页
TOPK 问题

TOPK 问题

作者: 希希里之海 | 来源:发表于2019-05-06 21:29 被阅读0次

TOPK 问题

描述

如从海量数字中寻找最大的 k 个,这类问题我们称为 TOPK 问题,通常使用堆来解决:

  • 求前 k 大,用最小堆
  • 求前 k 小,用最大堆

例子

现有列表 [1, 2, 0, 3, 5], 求前 2 个大的元素。

如传入列表和 k = 2,输出 [3, 5]

思路

  1. 先放入元素前 k 个建立一个最小堆

  2. 迭代剩余元素:

    如果当前元素小于堆顶元素,跳过该元素(肯定不是前 k 大)

    否则替换堆顶元素为当前元素,并重新调整堆

  3. 最后获取 最小堆 中的值,即为 topk

image.png

代码如下

import heapq

class Topk:
    """获取大量元素 topk 大个元素,固定内存
    思路:
    1. 先放入元素前 k 个建立一个最小堆
    2. 迭代剩余元素:
        如果当前元素小于堆顶元素,跳过该元素(肯定不是前 k 大)
        否则替换堆顶元素为当前元素,并重新调整堆
    """
    def __init__(self, iterable, k):
        self.minheap = []
        self.capacity = k
        self.iterable = iterable

    def push(self, val):
        if len(self.minheap) >= self.capacity:
            min_val = self.minheap[0]
            if val < min_val:       # 当然你可以直接 if val > min_val 操作,这里我只是显示指出跳过这个元素
                pass
            else:
                heapq.heapreplace(self.minheap, val)    # 返回并且 pop 堆顶最小值,推出新的 val 值并调整堆
        else:
            heapq.heappush(self.minheap, val)           # 前面 k 个元素直接放入 minheap

    def get_topk(self):
        for val in self.iterable:
            self.push(val)
        return self.minheap

def test():
    import random
    i = list(range(1000))   # 这里可以是一个可迭代元素,节省内存
    random.shuffle(i)
    _ = Topk(i, 10)
    print(_.get_topk())     # [990, 992, 991, 993, 996, 997, 998, 994, 995, 999]

test()

相关文章

  • 海量数据处理

    topk问题

  • TopK 问题

    TopK分为两种:离线处理和实时流处理 非频率的 TopK 问题直接采用 PriorityQueue 就可以解决 ...

  • TopK问题

    出现次数最多的K个 解题步骤: 把所有的数据存到map里 构造K个的大根堆 输出大根堆 第K大的数 解题步骤: 方...

  • TopK问题

    从文件中输出请求最频繁的10个 HTTP 接口,及其相应的请求数量数据格式如下 从大数据中找到TopK个数,比较经...

  • topK问题

    连接:https://leetcode-cn.com/problems/top-k-frequent-elemen...

  • topk 问题

    排序后取前 K 个 算法复杂度 O(nlogn) 遍历 K 遍 算法复杂度 O(kn) k 跟元素的小/大根堆 算...

  • topK问题

    (1)时间复杂度分析:每次调用'self.heapAdjust(self.arr, n, i)'的时间复杂度是O(...

  • TOPK 问题

    TOPK 问题 描述 如从海量数字中寻找最大的 k 个,这类问题我们称为 TOPK 问题,通常使用堆来解决: 求前...

  • TopK

    问题描述: 从arr[1, n]这n个数中,找出最大的k个数,这就是经典的TopK问题。 什么是TopK,就是找到...

  • topK算法问题

    问题描述:有 N (N>1000000)个数,求出其中的前K个最小的数(又被称作topK问题)。 这类问题似乎是备...

网友评论

      本文标题:TOPK 问题

      本文链接:https://www.haomeiwen.com/subject/lydjoqtx.html