阅读笔记,来自莫烦PYTHON的强化学习教程,原文地址。
强化学习是机器学习的一大类,使用强化学习可以让计算机学习如何在环境中拿到高分,表现出优秀的成绩。
从无到有

强化学习是一类算法,是让计算机实现从一开始什么都不懂,通过不断地尝试,从错误中学习,最后找到规律,学会了得到高分的办法。这就是一个完整的强化学习的过程,实际中强化学习的例子有很多,比如Alpha go,机器头一次在围棋场上战胜人类高手。既然要让计算机自己学,那计算机通过什么来学习呢。
虚拟老师

原来计算机也需要一位虚拟老师,不会告诉你如何选择行为,他为你做的事只有给你的行为打分,那我们应该怎样从分数中学习到我们应该怎样选择行为呢?很简单,我们只需要记住那些高分低分对应的行为,选择高分行为,避免低分行为。
比如老师会根据我的开心成度来打分,我开心时,可以得到高分,我不开心时得到低分。有了这些被打分的经验,我就能判断为了拿到高分,我应该选择一样开心的脸,避免选择伤心的脸。这也是强化学习的核心思想。可以看出在强化学习中,一种行为的分数时非常重要的,所以强化学习具有分数的导向性。我们换个角度思考,这种分数导向性就好比我们在监督学习中的正确标签。
对比监督学习

我们知道监督学习,是已经有了数据和数据对应的正确标签。强化学习在一开始并没有数据和标签,他是在环境中尝试,获取这些数据和标签的,然后在学习通过哪些数据能够对应哪些标签,通过学习到这些规律,尽可能的选择带来高分的行为。这也说明了在强化学习中,分数标签就是他的老师,这一点和监督学习中的老师也差不多。
RL算法们

强化学习是一个大家族,包含了很多种算法,比如通过行为的价值来选区特定行为的方法,包括使用表格学习的Q-Learing,Sarsa,Deep q network,还有直接输出行为的policy gradients,又或者是了解所处环境,想象出一个虚拟环境并从虚拟环境中学习,等等。
网友评论