美文网首页Hive
从一个锁表问题了解hive锁机制

从一个锁表问题了解hive锁机制

作者: gregocean | 来源:发表于2019-03-14 23:43 被阅读0次

同事遇到一个问题,无论从平台哪里提交Hive SQL,都没有进度,没有日志。
鉴于之前已有类似反馈,检查SQL涉及到的表的锁,

show locks xxx_table; // hive sql

发现有若干shared锁,对表进行解锁操作

unlock table xxx_table; // hive sql

但是重新执行sql依然有锁表现象,sql主干如下(查出分区表B中某天用户,且不在历史表A中存在,执行前已add partition)

insert into table  A partition(dt='20190131')
SELECT DISTINCT user_id, date FROM B WHERE dt='20190131'
and a.user_id not in
(select user_id from A);

发现不仅是无法插入,其中select user_id from A语句也无法执行,因为是测试表,就重建了(事后估计是多个分区被锁了,而且有X锁,只解锁表并不能递归对各分区解锁)。重建后select disctinct...这整段语句会GC memory exceeded,便改写成如下框架(窗口函数去重替换distinct、外连接替换in):

insert overwrite table A partition(dt='20190131')
select tmpa.user_id from 
(
  select tmp.user_id as user_id, tmp.date as date from
  (
  select t.*,  row_number() over(partition by t.user_id order by t.date desc) as rn
   from  (select * from B WHERE dt='20190131' ) t
  ) tmp where tmp.rn=1
) tmpB
left outer join
(
  select user_id from  A
) tmpA
on tmpA.user_id=tmpB.user_id
where tmpA.user_id is null;  // 其实最好用left semi join

这样select语句可以跑了,但是整句sql依然锁表。

看了一下资料
Hive Lock 那些事儿
官方文档
https://www.cnblogs.com/barneywill/p/10185577.html

发现select .. T1 partition P1语句需要T1, T1.P1上的S锁,那么对整张分区表的select需要所有分区的S锁

回到语句,join操作依赖A表的S锁,但最终要写入A表的一个新分区,又要加X锁,造成了死锁。所以需要让A表待写入的分区不加S锁

insert overwrite table A partition(dt='20190131')
select tmpa.user_id from 
(
  select tmp.user_id as user_id, tmp.date as date from
  (
  select t.*,  row_number() over(partition by t.user_id order by t.date desc) as rn
   from  (select * from B WHERE dt='20190131' ) t
  ) tmp where tmp.rn=1
) tmpB
left outer join
(
  select user_id from  A  where dt!='20190131' // 添加分区排除条件
) tmpA
on tmpA.user_id=tmpB.user_id
where tmpA.user_id is null;

成功执行。

另外,在SQL执行前设置hive参数set hive.support.concurrency=false; 可强制忽略锁,但为了数据完整性,不建议常用此操作。

相关文章

  • 从一个锁表问题了解hive锁机制

    同事遇到一个问题,无论从平台哪里提交Hive SQL,都没有进度,没有日志。鉴于之前已有类似反馈,检查SQL涉及到...

  • 数据库相关问题与解答

    收集常见数据库问题 锁机制介绍:行锁、表锁、排他锁、共享锁,悲观锁、乐观锁。行级锁:开销大,加锁慢;会出现死锁;锁...

  • MySQL -- 锁机制

    表锁 行锁 页锁 表锁:表级别的锁定是MySQL各存储引擎中最大颗粒度的锁定机制。该锁定机制最大的特点:实现逻辑非...

  • Hive锁机制

    https://cwiki.apache.org/confluence/display/Hive/Lockingh...

  • MySQL锁机制和MVCC版本控制

    一、MySQL锁机制 1.1 锁分类 按锁的粒度 划分: 表锁:表锁是粒度最大的锁,开销小,加锁快,不会出现死锁,...

  • 数据库(一)

    First And MOST Important 锁机制介绍:行锁、表锁、排他锁、共享锁 共享锁指对于多个不同的事...

  • MySQL5.7 锁详解

    1.锁特定比较 2.MyISAM表锁机制 表共享读锁(Table Read Lock),MyISAM读锁不会阻塞同...

  • MySQL锁详解

    Mysql****锁机制 锁概述 锁分类 MySql锁 目的了解锁的用途了解锁的危害根据锁的一个概述进一步了解优化...

  • Mysql InnoDB行锁及表锁分享

    一. 背景知识 [事务(Transaction)、隔离级别、传播机制] 二. 步入正题:表锁和行锁 1.1. 表锁...

  • (5)锁机制与InnoDB锁算法

    一 锁分类(按照锁的粒度分类) Mysql为了解决并发、数据安全的问题,使用了锁机制。 可以按照锁的粒度把数据库锁...

网友评论

    本文标题:从一个锁表问题了解hive锁机制

    本文链接:https://www.haomeiwen.com/subject/xnicmqtx.html