FP32表达的权重的数据范围,FP16和INT8也能表达
用FP16或INT8来代替FP32的优化方式,称为量化(Quantization),它能减少权重占用内存并加速计算。不过,量化也会引入量化误差(Quantization Error)
不同的计算硬件支持的精度,如下图所示
不同的计算硬件支持的精度
当CPU遇到FP16精度的模型时,会自动转化为FP32,所以,在使用OpenVINO Model Optimizer时,通常可以指定数据精度为FP16,而使用INT8时,需要用calibration tool做精度校准。











网友评论