Tuning computer vision models with task rewards
Feb 2023
André Susano Pinto*, Alexander Kolesnikov*, Yuge Shi, Lucas Beyer, Xiaohua Zhai (*Shared first authorship and leadership)
[Google Research,Brain Team Zurich]
https://arxiv.org/abs/2302.08242
机器之心:https://mp.weixin.qq.com/s/SE7Lt_o33ofVYEXczkaaaw
强化学习(包括Policy Gradients(包括REINFORCE算法))的讲解:https://lilianweng.github.io/posts/2018-02-19-rl-overview/ ★★★★★
https://blog.csdn.net/wwlsm_zql/article/details/104277213 (上面那个博客的中译)
https://zhuanlan.zhihu.com/p/384340218
https://tomaxent.com/2019/04/14/%E7%AD%96%E7%95%A5%E6%A2%AF%E5%BA%A6%E6%96%B9%E6%B3%95/
https://blog.csdn.net/qq_38293297/article/details/108711288
摘要:模型预测和预期用途之间的不一致可能对计o算机视觉模型的部署不利。当任务涉及复杂的结构化输出时,问题就更加严重了,因为设计解决这种不一致的程序变得更加困难。在自然语言处理中,这通常是通过强化学习技术来解决的,强化学习技术使模型与任务奖励相一致。我们采用了这种方法,并在多个计算机视觉任务中显示了其惊人的有效性,如目标检测、全景分割、彩色化和图像字幕。我们认为,这种方法有可能广泛适用于更好地将模型与各种计算机视觉任务对齐。
1 引言
在处理计算机视觉中的复杂输出时,成功的主要标准不是模型优化训练目标的程度,而是预测与任务风险的一致程度(is not how well the model optimizes the training objective, but rather how well the predictions are aligned with the task risk),即模型在预期用途上的表现。为了改善这种对齐,作为一个社区,我们迭代模型架构、数据、优化、采样过程、后处理等。例如,在对象检测的背景下,研究人员使用非最大抑制后处理(Ren等人,2015;Lin等人,2017),基于集合的全局损失(Carion等人,2020)或甚至改变输入数据(Chen等人,2022),以获得在测试时具有改进行为的模型。尽管这些方法带来了显著的收益,但它们通常高度专门于手头的任务和方法,而只是间接地针对任务风险进行优化。
这个问题并不新鲜。自然语言处理(NLP)和强化学习(RL)领域对其进行了广泛的研究,众所周知,在这些领域,很难为目标不太明确的任务制定优化目标,例如翻译(Kreutzer等人,2018)或摘要(Stiennon等人,2020)。在处理这类问题时,一种流行的方法是学习模仿示例输出,然后进行强化学习,使模型与奖励函数对齐(learn to imitate example outputs, followed by reinforcement-learning to align the model with a reward function)。使用这种方法,NLP领域现在正在使用大型预训练语言模型和由人类反馈定义的奖励来处理原本难以指定的任务,产生了令人兴奋的结果(欧阳等人,2022)。此外,相同的方法被广泛用于图像字幕任务(Rennie等人,2017),其中CIDEr(Vedantam等人,2015)被用作奖励。尽管如此,据我们所知,以前还没有针对(非文本)计算机视觉任务探索过奖励优化。
在这项工作中,我们证明了使用REINFORCE(Williams,1992)的奖励函数调整预训练模型对于广泛的计算机视觉任务来说是开箱即用的。我们在图1中说明了我们的一些关键结果,强调了目标检测、全景分割和图像着色的奖励优化带来的定量和定性改进。我们在一组不同的计算机视觉任务上的方法的简单性和有效性证明了它的通用性和适应性。尽管在这项工作中,我们主要以评估指标的形式使用奖励(use rewards in the form of evaluation metric),但我们认为这些初步结果显示了优化更复杂和更难指定奖励的计算机视觉模型的有希望的途径,例如人类反馈或整体系统性能。
图1。通过使用与任务相关的奖励调整一个强大的预训练模型,我们可以显著提高模型与预期用途的一致性
2 相关工作
优化计算机视觉指标(metrics)。 有大量的计算机视觉文献设定了优化复杂的不可分解或不可微分的指标(optimizing complex non-decomposable or nondifferentiable metrics)。在本节中,我们将重点介绍一些突出的工作。Henderson和Ferrari(2017)提出了一种计算伪梯度(pseudo-gradient)的专门方法,以优化目标检测的平均精度(AP)指标。Song等人(2016)提出了计算指标近似梯度(computing approximate gradients of metrics)的通用框架。在语义图像分割领域,经常使用CRF损失(Lafferty等人,2001)来确保分割掩模的一致性。然而,基于CRF的损失梯度通常难以计算,因此文献中提出了许多近似值(Krahenb¨uhl¨&Koltun,2011)或受约束的CRF变体(Nowozin等人,2011;Kolesnikov等人,2014)。相反,我们提出了一种通用的方法来优化与任务风险一致或相符的任意奖励,用于能够采样预测的模型(In contrast, we propose a generic way to optimize arbitrary rewards that are aligned or coincide with the task risk, for models that are capable of sampling predictions)。
最密切相关的工作之一是Huang等人(2021),他们提出了一种在线算法,用神经网络近似任务奖励值。然后,该可微的奖励近似值被用于调整模型。相反,我们建议通过依赖众所周知的对数导数技巧和基础模型采样多个预测的能力来直接优化奖励函数。(In contrast, we suggest to directly optimize the reward function by relying on the well-known log-derivative trick and the ability of the underlying model to sample multiple predictions.)
优化文本生成。 Ranzato等人(2015)通过MLE和REAR(Williams,1992)的组合(mixture)来训练文本模型以优化不可微的奖励(BLEU和ROUGE),证明了字幕、翻译和摘要任务的改进结果。Shen等人(2015)还优化了用于评估指标的翻译,但通过用样本近似后验分布。Rennie等人(2017)表明,使用独立模型样本作为基线并优化CIDEr对于图像字幕来说简单但高效。Keneshloo等人(2019)对seq2seq模型中的文本任务和RL的使用进行了调查。最近,欧阳等人(2022)、Glaese等人(2022)使用了结合人类反馈的更先进的RL技术,将大型语言模型与人类意图对齐(编者注:即OpenAI的InstructGPT、DeepMind的Sparrow,https://arxiv.org/abs/2209.14375)。
采样输出的泛化(Generalization of sampled outputs) Ranzato等人(2015年)和Bengio等人(2015)等几项研究讨论了暴露偏差,是训练和生成之间先前tokens的分布差异,作为样本质量低的原因。他们探索的方法包括在训练期间从模型中取样。Schmidt(2019)认为,要解决的根本问题是概括,而不是暴露偏差(generalization, and not exposure bias)。Stahlberg&Byrne(2019)指出,即使在使用large beams和精确推理时,翻译模型也可能因更可能考虑空句子和小句子而失败。Nucleus采样(Holtzman等人,2020)旨在缓解采样退化。Leblond等人(2021)探索了由一致性得分辅助的翻译中的不同抽样程序(例如多语言BERT)。Ramesh等人(2021)训练一个模型从文本中生成图像,并使用预处理的对比模型过滤出与文本不一致的图像。Chen等人(2022)训练用于对象检测的生成模型,但模型的良好性能取决于示例增强和修改的采样程序。
强化视觉学习。 许多先前提出的视觉模型也利用了视觉任务的强化学习算法。他们通常专注于学习一个系统,该系统依次关注图像的各个部分,并对输出进行迭代细化。一个突出的例子是(Mathe et al.,2016),它学习了一序列的图像“glimpses”,从特定区域提取视觉特征,并进行迭代框预测。请参阅(Le等人,2021),以了解这些类型的目标检测和其他视觉任务方法的广泛概述。我们在很大程度上不同于这些方法,因为我们不改变基础模型架构,而是微调基础模型以以优化特定任务的奖励(we do not change the underlying model architecture and instead tune a base vision model to optimize the task-specific reward.)。
3 使用奖励调整模型
在不失一般性的情况下,我们将计算机视觉任务表述为学习一个函数,该函数将输入(在我们的情况下是图像)映射到表示为值序列
(例如文本标记序列、边界框序列、每像素输出)的输出。我们假设从分布
中可以采样得到一个
训练样本
数据集。
在描述算法时,我们使用粗体或
来描述小批量(a mini-batch of items)。我们的目标是学习由
参数化的条件分布
,其最大化奖励函数
,其与任务风险一致或紧密一致。形式上,我们希望解决以下优化问题
我们提出的解决上述问题的框架非常简单,包括两个步骤:(1)使用最大似然估计进行模型预训练(2)通过使用REINFORCE算法最大化相关奖励来调整任务风险的模型。我们首先用算法描述这些步骤,然后讨论所提出方法背后的直觉和动机。
最大似然预训练。 我们首先使用最大似然原理来估计参数并捕获训练数据的分布。这可以通过梯度下降算法通过最大化训练数据的对数似然
来实现。算法1和图2描述了MLE优化步骤,这是训练模型的最常见方法。我们将此步骤产生的模型称为MLE模型。
图2。Step 1:最大似然训练。在Step 1中,对模型进行训练,以最大化真值标注的似然。这是训练模型的最常见方法,对应于学习模仿收集的数据。Figure 2. Step 1: Maximum-likelihood training. In a first step, the model is trained to maximize the likelihood of the ground-truth annotations. This is the most common way to train a model and corresponds to learning to imitate the collected data.
通过REINFORCE实现奖励最大化。 为了进一步调整MLE模型以适应任务风险,我们最大化了相关的奖励函数。我们利用REINFORCE算法(也称为“对数导数技巧”,log-derivative trick)来估计给定输入x的期望奖励的梯度(to estimate the gradient of the expected reward for a given input):
注意,该等式右侧的无偏估计可以作为每样本梯度的平均值来计算,并且不要求奖励函数是可微的。为了减少该梯度估计的方差,通常从奖励函数中减去基线值(独立于所考虑的样本,independent of the considered example)。在实践中,我们为一个训练输入提取两个样本输出,使用一个来估计梯度,另一个来计算基线奖励
。我们在算法2中提供了伪代码,并在图3中说明了过程。
(Note that the unbiased estimate of the right-hand side of this equation can be computed as an average of per-example gradients and does not require the reward function to be differentiable. In order to reduce the variance of this gradient estimate, it is common to subtract a baseline value b (independent of the considered example) from the reward function. In practice, we draw two sample outputs for one training input, use one to estimate the gradient and the other to compute the baseline reward b. We provide pseudocode in Algorithm 2 and illustrate the procedure in Figure 3.)
图3。Step 2:奖励调整。在Step 2中,进一步训练模型以使奖励函数最大化。这是通过根据奖励调整模型输出的似然来实现的,使用REINFORCE算法。Figure 3. Step 2: Reward tuning. In a second step, the model is further trained to maximize a reward function. This is done using REINFORCE by adjusting the likelihood of model outputs according to their reward.
讨论 上述两个优化步骤具有互补的优点和缺点。在实践中,两者都不足以单独优化任务,但当它们串在一起时,效果非常好。
第一步,通过条件最大似然估计进行模型训练,是机器学习中最受研究和理解的方法之一。现在有非常强大和有效的概率模型,例如Transformer编码器-解码器模型(Vaswani等人,2017),可以使用MLE进行训练,并可以捕获非常复杂的数据分布。然而,这些类型的模型有一个关键的缺点。虽然他们能够很好地捕捉训练和测试数据的分布,但他们不知道实际的任务风险,可能在预期用途中表现得不够好。
因此,我们利用REINFORCE算法进一步调整MLE模型,以优化与任务风险相关的任意奖励函数。至关重要的是,只提供奖励的数值就足够了,而对奖励函数没有任何要求,例如可微或能在计算机上运行(例如,可以使用用户反馈作为奖励)。请注意,在我们探索的计算机视觉任务中从头开始使用REINFORCE很可能是不可行的,因为输出空间大且奖励稀疏。然而,通过使用预训练的MLE模型,我们具有良好的初始采样策略,并且只需要相对较少的优化步骤就可以在优化奖励函数方面取得快速进展。
4 实际应用
在本节中,我们将展示所述方法在优化视觉任务模型方面的几个应用。在大多数情况下,我们使用带ViT(Dosovitskiy等人,2021)编码器的编码器-解码器架构来处理图像,并使用自回归Transformer解码器来建模输出分布。我们首先使用最大似然估计对模型进行预处理,然后使用任务奖励对其进行调整。对于这两个步骤,我们使用Zhai等人(Scaling vision transformers,2022)引入的Adafactor变体(Shazeer&Stern,2018)作为优化器,并在推断时间贪婪地采样以报告结果(sample greedily at inference time to report results)。
同样重要的是要记住,尽管在本节中我们将现有的验证集指标(metrics,度量)视为任务风险,但在实际场景中,这些指标可能会有很大的不同。在这种情况下,可能需要对模型进行进一步验证或对奖励设计进行迭代,以保证在预期用途上提高性能。总的来说,我们的目标是证明奖励优化是提高计算机视觉模型性能的一种合适的通用方法。(编者注:这里是应该是指,现有评估指标在实际应用中可能是还不够好的)
4.1 全景分割
全景分割(Kirillov等人,2019)任务可以被视为实例和语义分割的聚合,需要一个模型,通过向像素分配标签和实例id来产生连贯的场景分割。相关文献中常用的度量是全景质量(PQ)。PQ旨在获取predictions and measures的完整性和细节。它被计算为匹配实例(TP)的平均IoU的类内均值,同时惩罚额外的预测实例(FP)和漏检的真值实例(FN):
MLE预训练。 我们使用UViM全景模型(Kolesnikov等人,2022)作为MLE预训练基线。UViM采用512×512分辨率的ViT-L/16编码器和24层自回归解码器。解码器输出是一个256个离散序列的4k个可能的tokens,然后可以由UViM阶段I模型解码为512×512全景输出。该模型在COCO全景数据集上使用MLE进行训练。
PQ调整。 PQ计算不能分解为每个样本奖励的总和。在一个示例中,我们选择使用匹配的IoU和负权重w=0.3的总和作为对不匹配的预测实例的奖励:
我们使用增强规则来调整MLE模型以获得该奖励,在4k步的预热后,批量大小为128,学习速度为10-6。我们观察到,外调谐程序显著改善了MLE模型(见表1)。我们的视觉检查表明,调整后的模型更善于避免不连贯的预测,特别是对于小尺度物体,请参见1作为示例。
请注意,这里的任务非常具有挑战性,因为我们正在优化一个模型,以对离散序列进行采样,而从复杂的奖励函数获得的反馈很少。模型输出(256长度的离散序列)的奖励(标量)通过使用神经网络将序列解码为512×512每像素全景输出来计算,然后将其与真值值进行比较,以近似每个示例的PQ值。
4.2.物体检测
在对象检测任务中,目标是预测输入图像中存在的对象(例如椅子或笔)的紧密边界框。由于输出的复杂性,这项任务非常艰巨。过去提出了许多不同的方法,有其独特的优点和缺点。一组技术(Ren等人,2015;Lin等人,2017)预测了大量冗余的盒子集合,然后在测试时应用专门的后处理(非最大抑制)。Carion等人(2020)提出的另一种方法依赖于训练期间基于集合的全局损失。最后,Pix2seq(Chen等人,2022)提出使用生成模型来直接建模编码为离散值序列(离散化盒坐标和语义类标签)的训练数据的可能性。
所有这些方法的一个共同缺点是,它们没有提供明确的方法来获得与任务风险一致的模型,而是依赖于隐式调整对象检测模型财产的设计选择。例如,更快的RCNN模型使用两阶段盒预测方法来更好地平衡正盒和负盒。类似地,RetinaNet使用焦点损失来实现相同的效果。另一方面,Pix2seq通过抖动真值框和添加“假”框来改变训练数据,以欺骗预测模型输出更多的对象边界框。
相反,在我们的实验中,我们使用特定于检测的奖励来优化普通检测数据可能性模型(类似于Pix2seq的基础模型)。重要的是,这避免了采用专门的启发式方法来优化标准度量的需要。我们通过将1000个桶中的坐标离散化,将一组边界框表示为离散序列,加上一个用于类标签的标记和一个用于每个框预测置信度的标记。我们使用标准ViT-B/16作为图像编码器和6层自回归Transformer解码器(具有与ViT-B模型相同的配置)。按照我们的方法,我们对MLE模型进行预处理,然后使用召回和mAP奖励对其进行调整。
MLE预训练。
按照标准实践,我们在Objects365数据集上预处理模型(Shao et al.,2019),并在COCO(Lin et al.,2014)数据集上进一步微调。该模型在Objects365数据集上预训练400 k步,使用256个批次大小,学习率为0.001和0.00005权重衰减。我们对初始20k步的学习速率进行线性预热,然后使用余弦表将其衰减为零。然后,我们在COCO上对模型进行微调,使用较小的学习率10-4,无重量衰减,10 k步。采用了具有1k预热步骤的余弦学习速率表。我们使用640×640分辨率进行Objects365预训练,使用1280×1280分辨率进行COCO微调。所得到的MLE模型平均达到54.1%recall@100COCO上为40.2mAP。
调整召回。
平均召回@N是评估对象检测模型的常用指标,预计与检索应用程序中的使用情况相关。该度量计算真值中与预测框之一匹配(在某个IoU阈值)的对象实例的百分比。每个图像最多允许N个预测。对每个IoU阈值和语义类进行召回,并独立计算,然后进行平均。我们的周边回忆奖励是以匹配的真值框的数量减去“重复框”(已匹配到已匹配的真值框的框)的数量,乘以0.3。
我们调整MLE模型,以优化100k步的回忆奖励,恒定学习率为10-6。表2表明,得到的模型成功地优化了平均度量,将其值从54.4%提高到68.4%。
调整平均精度
平均精度(mAP)是一种基于精度召回曲线下的面积的度量,该曲线是与给定IoU阈值匹配的每个类的预测实例的面积。除了生成一组预测框外,模型还必须用置信度分数对每个预测进行注释,以对曲线中的项目进行排序。这些差异编码了与回忆不同的任务风险。例如,根据此定义,模型将因一个对象周围的多个边界框而受到惩罚。
一个困难是,该度量不能分解为每个示例的奖励总和。我们注意到,假设预测模型能够很好地对结果框进行排序,则mAP度量与回忆密切相关,从而克服了这一问题。为了学习盒子置信度,我们使用监督损失来学习采样输出的预期IoU分数加上上一节中定义的召回奖励。此外,我们还通过计算不同IoU范围内的奖励值(并对其进行平均),并根据训练集中观察到的每个类别的频率对其进行加权,来提高奖励。
在表2中,我们确认,通过优化提议的奖励,我们将原始MLE模型的mAP得分从39.2%大幅提高到54.3%。在Pix2seq(Chen等人,2022)中,具有略大1333×1333分辨率和许多启发式的相同大小的ViT-B模型达到47.1%。当使用更大的ViT-L主干时,Pix2seq中报告的最佳对象检测结果为50.0%。我们强大的ViT-B结果清楚地证明了所提出的任务奖励调整的前景。
4.3.着色
着色任务描述为为灰度图像添加颜色。通过优化大型图像数据集的可能性,即使用MLE,学习标准图像着色模型。这样的模型会产生看似合理的图像着色,但通常会产生褪色的颜色。实际上,彩色化模型的用户可能希望生成生动的图像。使用我们的方法,我们证明可以调整MLE彩色化模型,以生成更具视觉吸引力的彩色图像。
MLE预训练。
与全景任务类似,我们使用UViM着色作为MLE模型。它是用于512×512分辨率图像的ViT-L/16编码器和24层自回归解码器。解码器输出是256个离散序列,然后可以通过UViM阶段I模型将其解码为512×512图像。该模型在ImageNet上使用MLE进行训练。
调整“色彩”。
我们设计了一个促进“多彩”的定制奖励。特别是,奖励是从转换为Lab颜色空间的输入图像中导出的两个项的乘积。在这个颜色空间中,L通道编码“亮度”,而a和b通道编码颜色。我们奖励的第一个学期不鼓励灰色。它被定义为具有足够“生动色彩”的图像像素的分数,其中生动色彩被定义为a 2+b 2>10。我们奖励的第二个学期促进了颜色的多样性。它被定义为色调值的图像级熵,色调由arctan(b a)计算。请注意,为了计算熵,我们将色调离散化为7个离散值,在定义色调值的范围内均匀分布箱。
我们使用3·10−7的恒定学习率,对MLE模型进行了1 k步的优化。由于这一调整步骤,第一个奖励项从0.46增长到0.97,这表明绝大多数预测的颜色变得更加生动。第二个奖励项,色调熵,从1.03增长到1.84,表明预测颜色的多样性更大。我们在图4中给出了定性结果,这清楚地表明,新模型始终会产生更丰富多彩的图像。
4.4.图像字幕
图像字幕是指为给定图像生成文本描述的任务。CIDEr(Vedantam等人,2015)是一种流行的自动度量,它基于与图像的一组手写参考字幕的共识来测量字幕质量。具体而言,它针对多个参考字幕测量n元相似性,并考虑整个数据集的统计信息,从而使在所有字幕中出现频率较高的单词权重较小,因为它们可以被视为信息量较小。如前所述,使用增强来优化CIDEr奖励是图像字幕中的一项既定技术(Rennie等人,2017)。为了完整,我们将其包含在本工作中。
MLE预训练。
我们在COCO字幕上预处理了一个编码器-解码器Transformer模型。我们根据Steiner等人(2021)提供的ImageNet21k模型初始化ViT编码器。对于解码器,我们随机初始化一个6层自回归解码器。此外,我们使用BERT(Devlin等人,2018)30k词汇表将文本表示为128个令牌的离散序列。我们使用1 k步线性预热,然后使用学习率为3·10−4且编码器参数为10倍的余弦计划,以批量大小256预处理5 k步。我们使用两种设置进行实验:ViT-B/16和ViT-L/16都使用相同的超参数。
CIDEr调谐。
与之前的工作一样,我们直接使用CIDEr作为奖励,使用训练集来计算n元权重的统计信息。在这种情况下,我们使用其他7个样本来估计奖励基线。我们优化了批量大小为256的10 k步,1 k线性预热,恒定学习率为10−5,编码器参数的学习率为小10倍。作为参考,我们包括Wang等人(2022)的两篇近期作品;Hu等人(2022)也利用CIDEr优化和最近的架构。
表3中的结果表明,应用所提出的方法可以改进MLE模型,与先前文献中的观察结果一致,证明了针对特定任务风险进行调整的有效性。
5.分析
5.1奖励分配
这里,我们分析了图像字幕示例中模型的奖励。我们比较了MLE模型(之前)和奖励调整模型(之后)的直接样本。
我们从每个模型中抽取了10000个预测,并使用图5a中每个示例分位数函数的平均值绘制了它们的回报。该图曲线下方的区域给出了预期回报,并显示了模型的明显改进:超过50%的调整模型样本的预期回报高于125,然而,对于MLE模型,只有不到5%的样本达到了相同的标准。此外,请注意,在前1%的区块中,MLE模型能够产生非常高的回报:这表明MLE模型可以产生高质量的预测,然而,由于我们无法在测试时选择最佳样本,因此我们无法从中受益。
为了证明这一点,我们还为数据集中的每个示例说明了(1)图5b中N个样本中回报最高的预测和(2)图5c中N种预测中的最高似然样本的回报。我们汇总这两个统计数据的交叉数据集平均值,并将它们与每个示例N的样本数量进行比较。
图5b显示,在100个以上的大样本池中,MLE模型池中存在更好的样本。然而,要从这一事实中获益,需要一种有效的策略来选择表现最好的样本。图5c显示了当我们使用最大似然(例如贪婪、top-k、核采样)来选择样本时发生的情况:随着样本数量N的增加,我们确实看到MLE模型的性能与贪婪/核期望一致,但最终性能甚至在N=10000时也比奖励调整模型差得多。
5.2.奖励风险进展
为了将任务风险转化为奖励函数,我们通常需要将为一组示例计算的度量分解为每个示例的奖励。这可能会导致每个示例奖励和度量的进展出现不期望的差异。为了观察这是否是经验上的情况,我们在图6中绘制了目标检测和全景分割的训练期间奖励和目标度量的进展。我们观察到我们的奖励和指标之间没有明显的差异。
此外,在图6(a)中,我们观察到物体检测的mAP分数在最初20k步快速上升,即从40.2%上升到52.3%。随着奖励调整时间的延长,该指标不断上升,在40k步达到52.7%,在60k步达到53.2%。
6.讨论和限制
奖励hacking。
我们的工作表明了调整模型的可行性,其回报超过了标准MLE。然而,需要注意的是,不能保证给定的奖励功能会改善预期用途。该模型可能会利用奖励定义中的弱点,在验证模型时考虑这一点至关重要。在这方面,我们认为我们演示的基于RL的方法打开了不同形式奖励的可能性,释放了在训练计算机视觉模型时使用真实风险或人类反馈的潜力,我们相信这将在当前领域带来巨大进步。
奖励设计。
在这项工作中,我们主要使用基于现有评估指标的简单奖励。然而,还有更多的选择,包括基于滤波器的组合、输入输出检查、模拟检查、使用预训练模型来检测不期望的输出或使模型更接近初始分布、熵来鼓励多样性以及探索或使用真实世界或人类反馈。另一件要记住的事情是,奖励不需要像任务风险那样精确。替代功能可能更容易获得、控制或优化,例如,如果奖励比稀疏风险值提供更多指导。我们将在计算机视觉任务中探索这一点留给未来的工作。
高级RL技术。
所提出的具有预热和恒定学习速率设置的方法在所探索的应用中足够了。因此,我们认为没有必要增加正规化以保持与原始政策的接近,鼓励探索或尝试减少奖励电话或模型更新的数量。我们认为,这种有效性部分归因于MLE预训练的初始化,从而使模型能够通过简单的技术避免潜在的问题。虽然这在更复杂的设置中可能不适用,但我们鼓励在其他类似的应用程序中尝试简单的方法。
用于模仿学习的数据。
仅进行MLE训练是否也能更好地与任务目标保持一致?这个问题是这项工作的动机之一。尽管我们希望有更多的数据帮助MLE模型模拟真实情况,但我们发现很难知道要收集什么样的数据,或者如何增强数据,以对任务风险产生特定的对齐效果。通过用奖励调整模型,我们通过优化模型以避免不期望的输出来获得这种效果。由于MLE模型分配高似然性的不期望输出空间很难预测,因此观察实际模型并关注模型错误分配高似然的示例至关重要。
训练成本。
需要考虑两个主要成本:模型采样成本和对奖励函数的查询数量。众所周知,采样自回归模型比计算给定序列的可能性更昂贵。这是由于难以有效地利用硬件,而不是由于FLOPs数量的增加。然而,请注意,该成本仍然与推理使用成比例。此外,所提出的方法只需要一个模型,其中样本的似然性可以用梯度来优化。它不依赖于模型是自回归的,尽管这可能是建模复杂分布的重要部分。对于更复杂的应用程序,对奖励函数的查询数量可能是一个更大的问题。在这种情况下,有必要探索非策略RL技术,并用价值网络近似目标回报。
7.结论
我们的工作表明,奖励优化是优化各种计算机视觉任务的可行选项。使用简单的预训练方法来模拟真值,然后进行奖励优化,我们能够:(a)在没有其他任务特定组件的情况下改进目标检测和全景分割模型,使其达到与通过巧妙处理数据、架构和损失获得的模型相当的水平;(b) 定性地影响彩色化模型的结果,以符合创建生动多彩图像的目标;(c) 表明该简单方法在字幕方面与最近的作品具有竞争力。我们相信,这些结果证明了对模型如何调整非平凡任务风险进行更精确控制的可能性。我们期待着更具挑战性的用例,例如调整机器人抓握的场景理解输出,在那里可以优化感知模型以获得成功抓握的概率。













网友评论