美文网首页
【2019-01-05】hdfs du统计与hdfs df统计不

【2019-01-05】hdfs du统计与hdfs df统计不

作者: 学师大术 | 来源:发表于2019-01-15 20:38 被阅读0次

问题现象

某hadoop集群,通过du命令统计文件总大小为50T;但是hdfs df和hdfs 原生界面统计大小为190T。需解释原因。

分析过程

1.du和df统计的差异在哪?

du命令是按文件统计,从hdfs元数据中获取文件并累加文件大小统计;

df统计是整个磁盘上block所占用的大小,包含了所有的副本。

2.统计实际的副本数量

使用hdfs fsck / 统计集群的平均副本数量,副本数量为2。既然副本数量为2,整体空间应该为45T*2=90T;和预期相差很远。

3.排除有其他文件占用

统计单个dn,blk*开头的数据文件(包含blk和校验文件meta)。无论是数量还是大小都和原生界面一致。 不存在块未删除和块待上报的现象。

4.检查hdfs快照

发现客户确实做了hdfs快照,快照空间约为37T左右。37*2=74T,基本可以得出结论,这部分空间是快照使用了。

结论:

客户使用了hdfs快照,并且快照不在du范围内。导致du命令统计大小和原生界面存在差异。

相关文章

  • 【2019-01-05】hdfs du统计与hdfs df统计不

    问题现象 某hadoop集群,通过du命令统计文件总大小为50T;但是hdfs df和hdfs 原生界面统计大小为...

  • Linux与Hdfs上du命令的区别

    命令du:统计目录/文件夹总大小 参数:-s:返回目录总大小(全拼:summary,linux和hdfs都有效)-...

  • hdfs 文件统计

    hdfs、hive用一段时间之后,我们会想要知道文件系统里的文件哪些是经常被使用的,哪些是长时间没有被使用。 如果...

  • hdfs du -sk 导致机器load高

    hdfs 会定期(默认10分钟)使用 du -sk 命令统计BP的大小,在大硬盘机器上该操作耗时将会很长(可能超过...

  • Linux命令收集

    df -h 统计文件系统容量du -sm * | sort -n //统计当前目录大小,并按大小排序 文件复制命...

  • Hadoop, HBase, Hive, ZooKeeper默认

    组件 |Daemon |端口 |配置 |说明--|HDFS |DataNode |50010 |df...

  • 统计系统

    spark+flume+hadoop flume将日志收集到HDFS文件系统中,spark进行统计计算

  • centos 7通过df -h与du -sh /*统计根目录大小

    实际情况: 测试环境与生产环境centos7服务器同时出现了该情况,即通过df -h与du -sh /*统计出的结...

  • 常见大数据技术架构

    hadoop:大数据分布式架构,主要包括HDFS + MapReduce。 hive:面向统计计算的,供数据分析人...

  • ubuntu 下的 du df

    df -h 查看当前操作系统磁盘的所有盘的使用情况; du -sh * 按照文件夹统计每个文件夹下的大小 du -...

网友评论

      本文标题:【2019-01-05】hdfs du统计与hdfs df统计不

      本文链接:https://www.haomeiwen.com/subject/ddrudqtx.html