美文网首页
A(18) Kafka数据重复

A(18) Kafka数据重复

作者: bigdata三十五画生 | 来源:发表于2020-07-10 02:06 被阅读0次

幂等性+ack-1+事务
Kafka数据重复,可以再下一级:SparkStreaming、redis或者hive中dwd层去重,去重的手段:分组、按照id开窗只取第一个值;

Kafka数据重复怎么处理?

在下一级消费者中去重。(redis、SparkStreaming)

二、重复消费问题:

  • 即上述 消费方第1种情况—consumer在从broker读取消息后等消费完再commit,如果consumer还没来得及消费或消费时crash,导致offset未提交,该consumer下一次读取的开始位置会跟上一次commit之后的开始位置相同,导致重复消费问题。
    关于重复消费的问题,*可以通过将每次消费的数据的唯一标识存入Redis中,每次消费前先判断该条消息是否在Redis中,如果有则不再消费,如果没有再消费,消费完再将该条记录的唯一标识存入Redis中,并设置失效时间,防止Redis数据过多、垃圾数据问题。

相关文章

  • A(18) Kafka数据重复

    幂等性+ack-1+事务Kafka数据重复,可以再下一级:SparkStreaming、redis或者hive中d...

  • Kafka实际案例问题

    kafka consumer防止数据丢失 Kafka学习之怎么保证不丢,不重复消费数据 1 消费者pull数据时,...

  • Kafka重复消费数据

    从消息发送和消息消费两个方面去说。 「ACK」 0:producer不等待broker的ack,这一操作提供了一个...

  • MQ随记(2)

    如何保证消息不会被重复消费(保证消息消费时的幂等性) kafka 按照数据进入kafka的顺序,kafka会给每条...

  • kafka之重复消费数据

    在进入主题之前,我们先思考一个问题。问题 kafka消费者使用自动提交的模式,提交间隔为2s,消费者在获取数据的时...

  • kafka如何防止数据重复

    问题描述 从kafka的架构中,严格的一次消费据我所知应该是比较困难的,特别是在各种异常情况下。我们在工作中,由于...

  • kafka数据丢失与重复

    1、Kafka重复消费原因 底层根本原因:已经消费了数据,但是offset没提交。 原因1:强行kill线程,导致...

  • Logstash重复消费Kafka的数据

    Logstash消费Kafka的数据,然后输出到Elasticsearch,某一天发现使用Kibana查询不到最近...

  • kafka数据如何被重复消费

    近段时间学习极客时间李玥老师的后端存储实战课时,看到一个很多意思的东西:用kafka存储点击流的数据,并重复处理。...

  • python3读写kafka

    消费kafka数据,方式一 消费kafka数据,方式二 将消息写入kafka

网友评论

      本文标题:A(18) Kafka数据重复

      本文链接:https://www.haomeiwen.com/subject/chpucktx.html