作者@ weanl
创建于 2018-12-22T14:30:00
参考链接:
- Lecture9: Exploration and Exploitation of UCL Course on RL @David Silver
1. 介绍
1.1 探索与利用间的困境
-
Online decision-making involves a fundamental choice:
ExploitationMake the best decision given current information
ExplorationGather more information - The best long-term strategy may involve short-term sacrifices
- Gather enough information to make the best overall decisions
1.2 生活中栗子
-
Restaurant Selection
ExploitationGo to your favorite restaurant
ExplorationTry a new restaurant -
Online Banner Advertisements
ExploitationShow the most successful advert
ExplorationShow a different advert -
Oil Drilling
ExploitationDrill at the best known location
ExplorationDrill at a new location -
Game Playing
ExploitationPlay the move you believe is best
ExplorationPlay an experiment move
1.3 伍种策略规则
-
Naive Exploration
Add noise to greedy policy (e.g.)
-
Optimistic Initialization
Assume the best until proven otherwise - Optimism in the Face of Uncertainty
2. 引入多臂老虎机 (The Multi-Armed Bandit)
拉斯维加斯的一排老虎机
维基百科解释如下:
这个名字来自于想象一个赌徒在一排老虎机(有时被称为“单臂匪徒”),他们必须决定要玩哪些机器,玩每台机器多少次以及按顺序播放它们,以及是否继续使用当前的机器或尝试不同的机器。在该问题中,每台机器从特定于该机器的概率分布中提供随机奖励。赌徒的目标是通过一系列杠杆拉动最大化获得的奖励总和。[3] [4]赌徒在每次试验中面临的关键权衡是在“利用”具有最高预期收益的机器和“探索”以获得关于其他机器的预期收益的更多信息之间。
2.1 最大化cumulative reward && 最小化 total regret
-
动作空间和奖赏分布
在时刻,
Agent做出动作,
Environment依据未知分布产生对应的奖赏值
。动作空间和奖赏分布 可以记为二元组
,产生的具体观测记为
。
-
最大化cumulative reward
且听下回分解














网友评论