文章名称
【KDD-2020】【Adrem Data Lab/Criteo AI Lab】Joint Policy-Value Learning for Recommendation
核心要点
文章旨在提升现有基于off-policy或反事实学习的推荐模型的效率。作者分析首先分析现有方法在随机的、系数的奖励下效果不佳的原因,并提出一种IPS方法的对数变种,解决该问题。进一步,通过提升优化目标的凸性加速模型的优化求解。此外,基于一定假设,可以将CRM和MLE的目标结合,共同优化,提出了Dual Bandit。
上一节分析了推荐场景下,为什么更要关注随机性以及IPS方法在该场景下可能存在的问题,并介绍了作者提出的IPS的变种方法,Logarithmic IPS,以及其优势。本节继续介绍value-base和policy-based的结合。
方法细节
问题引入
众所周知,Policy-based方法会受到所谓的propensity score overfitting的的影响[48]。并且,IPS的方法一般只利用交互的正样本的信息进行优化(其实还是利用了负反馈的信息,只是没有显示的优化负反馈的概率要小)。尽管可以尝试利用用户未交互的负反馈数据来降低这些动作出现的概率,但是由于动作空间过大,就算把某些动作的概率降为0,也不意味着就能找到合适的(或者说最优)动作(物品)。
虽然SNIPS可以帮助缓解overfitting,减少方差。但是常数偏差消除方法效果一般。BanditNet[17]通过优化Lagrangian形式的目标,在确定性收益的场景中取得了不错的结果,由于Lagrangian形式的优化目标中,Lagrangian乘子可以是0,负反馈可能影响模型的损失,因此BanditNet一定程度上利用的负反馈的信息。PIL-IML[27]通过KL散度约束新策略
和线上策略
的差异(类似TRPO),使得
一定程度上模拟了
的策略,因此也利用了一定的负反馈的信息(因为
决定了负反馈)。同时,如果
是一个value-based方法,那么新的模型自然会隐式的获得value-based方法的好处(负反馈信息和优化简单稳定)。然而,也需要承担
估计不准确的弊端,并且只能在一定范围内寻找最优策略,而这个范围受到
的限制。
具体做法
作者了Dual Bandit方法,结合CRM和MLE方法(policy-based和value-based),一方面利用上述方法减少propensity的overfitting,一方面利用负反馈的信息。DB的目标函数如下图所示,其中和
分别表示policy-based的模型和value-based模型,
是超参数,用来平衡两者。可以把任意一种方法当做另一种方法的正则项。
dual bandit objective
值得注意的是,作者表示policy-based的方法可以做多种替换,包括IML[27]等,但是简单的结合已经足够由于现在的许多方法。
心得体会
负反馈
一般情况下,推荐系统的未点击并不真正意味着不相关,特别是收到位置偏差等的影响。更不用说,没有被曝光的那些元组是不能够直接当做负反馈的。作者提到的利用的负反馈是曝光后没有点击的,那么主要受到的是偏差的影响。这种由于作者利用了上界描述的log变换,所以能够合理的给一些次优推荐结果(虽然没被点击)分配足够的概率密度,使得他们也可以被选择,所以减缓了一些偏差(或者叫负反馈噪声)的影响。
文章引用
[17] T.Joachims,A.Swaminathan,andM.deRijke.2018.Deep Learning with Logged Bandit Feedback. In Proc. of the 6th International Conference on Learning Representations (ICLR ’18).
[27] Y. Ma, Y. Wang, and B. Narayanaswamy. 2019. Imitation-Regularized Offline Learning. In Proc. of the 22nd International Conference on Artificial Intelligence and Statistics (AISTATS) (AIStats ’19, Vol. 89). PMLR, 2956–2965.
[48] A. Swaminathan and T. Joachims. 2015. The Self-Normalized Estimator for
Counterfactual Learning. In Advances in Neural Information Processing Systems.
3231–3239.















网友评论