美文网首页
RL 的研究

RL 的研究

作者: Midorra | 来源:发表于2018-12-11 20:15 被阅读0次

强化学习已经是一种比较火的神经网络训练模型了,各个领域都有所应用并取得了不错的效果

其中阿里这个PDF电子书中已经将阿里巴巴在强化学习上的研究过程描述的比较清晰了

强化学习在阿里的技术演进与业务创新

但是本人对这方面确实了解尚浅,感觉强化学习和深度强化学习好像还是有区别的,我搜索 A3C 以后得到的结果

搜索 A3C 结果

其中这篇对于 A3C 的介绍包含原理和应用,是比较清楚的(https://www.cnblogs.com/wangxiaocvpr/p/8110120.html)

参考博客 1

还有一篇,包含了原论文推导分析及代码实现(https://blog.csdn.net/gsww404/article/details/80820994)

参考博客 2

Google 原始论文:https://arxiv.org/pdf/1602.01783.pdf

另外有一个概念是 Model-free 和 Model-based,这里有两个资料可以参考:

(1)【强化学习】区分Model-free和Model-based的方法(https://blog.csdn.net/ppp8300885/article/details/78524235)

(2)知乎上也有一个问答:解释model-based和model-free,on-policy和off-policy区别?(https://www.zhihu.com/question/64369408)

相关文章

  • RL 的研究

    强化学习已经是一种比较火的神经网络训练模型了,各个领域都有所应用并取得了不错的效果 其中阿里这个PDF电子书中已经...

  • mac 本机mysql无法启动

    sudo chown -RL root:mysql /usr/local/mysqlsudo chown -RL ...

  • 强化学习

    RL 种类 Model-Free RL不理解环境,通过试错来学习 Model-Based RL理解环境,通过想象学...

  • RL

    Q-learning Sarsa Sara-lambda

  • RL

    策略(搜索/优化)都是在学习控制律control law,即系统状态到控制输入的映射(本质上也是个回归问题)。强化...

  • RL

    RL 强化学习任务通常用马尔科夫决策过程(Markov Decision Process,简称 MDP)来描述: ...

  • rl

    recyclerview

  • 10.31 背

    单臂哑铃划船 20lbs 12*2组 RL 22.5lbs 10*4组 RL ...

  • Python Package:OpenAI Gym通俗理解和简单

    OpenAI Gym 为了做实验,发现有文章用OpenAI gym去做些小游戏的控制,主要是为了研究RL的算法,逐...

  • Arrow Of RL

    This is my favorite APP, my own independent development, ...

网友评论

      本文标题:RL 的研究

      本文链接:https://www.haomeiwen.com/subject/hmoshqtx.html