训练强化学习模型,需要和环境持续的交互,通过和环境交互来优化我们的价值函数。每次和环境交互,我们认为是一次迭代。在这个迭代中我们优化我们的目标函数。在每次和环境交互的时候,我们需要根据我们的策略选择动作。这个策略选择动作时,我们会根据历史经验得到的最优动作,有可能不是真实环境里真正最优的,因此很多时候需要探索未知动作的表现,也就是防止一些较好的但我们没有执行过的动作被错过。
训练强化学习模型,需要和环境持续的交互,通过和环境交互来优化我们的价值函数。每次和环境交互,我们认为是一次迭代。在这个迭代中我们优化我们的目标函数。在每次和环境交互的时候,我们需要根据我们的策略选择动作。这个策略选择动作时,我们会根据历史经验得到的最优动作,有可能不是真实环境里真正最优的,因此很多时候需要探索未知动作的表现,也就是防止一些较好的但我们没有执行过的动作被错过。
本文标题:强化学习一
本文链接:https://www.haomeiwen.com/subject/oldvbqtx.html
网友评论