美文网首页
LIRS阅读概述

LIRS阅读概述

作者: CPinging | 来源:发表于2019-09-17 17:14 被阅读0次

LIRS: Enabling efficient machine learning on NVM-based storage via a lightweight implementation of random shufflin

Note

由于全局shuffle对于提高测试的准确度并减少训练时间,所以本文针对SVM与DNN中的数据shuffle进行了研究,并使用Optane SSD替代原始的HDD并引入了KV的思想对数据集进行处理

解决问题:

1 无法全局shuffle

2 随机读太慢

3 遇到稀疏格式的文件不好处理

4 一个dataset文件太小,导致浪费的问题

优点如下:

1 使用KV的思想将data进行kv操作,生成Key的table表存入memory中可以做到全局shuffle(原始是将数据直接存入memory,并不能全部存下所以需要分batch存储)
这样可以减少训练轮数,并提高效率。

2 使用了Inter Optane SSD来提升随机寻找数据的效率

3 设计Data Format Aware Location Generator与Page-aware Random Shufflin来解决稀疏数据格式的问题以及小训练量数据的问题

Motivation

随机shuffle工作在现在的系统中并不是直接进行,并且在HDD中非常的慢,所以准备使用新的方法与新的SSD介质进行。

  • SVM中现有的方法为Block Minimization Framework (BMF),该方法先将数据读入memory中然后再选择所需训练的batch
image.png

不足之处:
1 由于HDD随机写的时间太长,所以IO时间太长
2 每一个epoch中的数据顺序不改变,所以会使得收敛速率降低

  • DNN使用了管道技术
image.png

不足之处:
1 shuffle全部的数据集需要与操作

2 随机化程度受到memory的制约

使用SSD进行随机化操作

本文设计了LIRS:The core concept of LIRS is to randomly assign the training instances to each different batches on the host side to achieve the random shuffling effect.

在memory中维护了一个Key table,记录了数据集的信息。使用该table表查找对应的data位置并取数据

挑战

1 需要知道数据的位置,而数据可以存储为稀疏格式与非稀疏格式。非稀疏格式直接读取,而非稀疏格式需要特殊处理。

2 当数据非常小的时候,有可能OS的虚拟页可以装下多个数据,此时则会多读取许多内容,导致效率降低

为了解决这两个问题使用了两种方法:

  • Data Format Aware Location Generator
  • Page-aware Random Shuffling

最后对LIRS方法做了评估:

image.png image.png

最后的结论为:

  • SVM: LIRS converges faster than BMF at all of the four training datasets

对于额外的数据表来说:LIRS introduces less than 1% memory space overhead for webspam and epsilon in a 1GB main memory.

image.png
  • DNN
image.png

LIRS con- verges faster than TFIP when training all the three DNN mod- els, since the degree of random shuffling is limited by the size of the random shuffle queue when TFIP is applied

对于额外数据表:

LIRS needs 9.8MB (< 0.1%) additional memory space to store the random assignment table

LIRS can save a large amount of CPU memory space:LIRS可以节省很大一部分memory空间以供CPU高效运行

相关文章

  • LIRS阅读概述

    LIRS: Enabling efficient machine learning on NVM-based st...

  • 我的五点半

    lirs 字数 1647 · 阅读 11 2020-11-30 18:31 你悄悄的走进我的世界,不知不觉。就...

  • 缓存相关

    cache淘汰算法:LIRS 算法 缓存那些事 Redis缓存淘汰算法,LRU算法,LRU算法讲解

  • Cache 替换算法之:LIRS

    Second Change 传统的FIFO和LRU算法都没有使用访问次数这个信息,使得对于空间局限性较弱的场景效率...

  • GPUImage源码阅读(概述)

    概述 GPUImage是一个著名的图像处理开源库,它让你能够在图片、视频、相机上使用GPU加速的滤镜和其它特效。与...

  • GPUImage阅读笔记-概述

    GPUImage主要由AVFoundation和OpenGL ES两个框架组成 GPUImage框架是使用了链式结...

  • 音频编码格式介绍-AAC

    目录 概述 帧格式 算法简介 开源的软件 参考阅读 1. 概述 AAC(Advanced Audio Coding...

  • 【0104今日话题】

    你有印象特别深刻的关于同学聚会的故事吗? 如果今年有同学聚会,你还会参加吗? (话题来自剽悍老铁lirs) 我只参...

  • flv文件格式介绍

    目录 概述 flv文件主体结构 Tag介绍 开源的解析软件 参考阅读 1. 概述 flv(Flash Video)...

  • 对IntentService的理解

    阅读此文前请先阅读对HandlerThread的理解,有助于理解IntentService。 概述 IntentS...

网友评论

      本文标题:LIRS阅读概述

      本文链接:https://www.haomeiwen.com/subject/kvxquctx.html