美文网首页大数据,机器学习,人工智能
深度学习与金融市场——增强学习是否是终极武器

深度学习与金融市场——增强学习是否是终极武器

作者: Q科技 | 来源:发表于2019-03-10 15:01 被阅读3次

RL

本文我们来讨论一下比较有趣的深度学习模型,增强学习。大家都知道,著名的AlphaGo Zero使用的就是增强学习模型,大家也看到了它的强大,不需要去复盘,只需要一遍又一遍的和自己对弈,最后它就不断的战胜自己,最后成为了现在的AlphaGo Zero。那么增强学习真的有这么强大吗?

我们先来了解一下增强学习模型,增强学习不同于监督学习和非监督学习,监督学习很明确的需要大量的标注数据来进行训练。而非监督学习很明确表示不需要任何的标注,只需要无标注数据。当然它们的使用场景也不一样。而增强学习是一个马尔可夫决策过程,它是一个Agent-Environment交互模型。Agent接收到输入之后会做出一个Action,Environment会根据这个Action去反馈给Agent一个Reward,这个Reward可能是正向的,也可能是负向的。其实很简单,你和你女朋友生活在一起,你根据你女朋友的表情行为来决定做什么事情,如果你女朋友觉得你做的对,你就会得到一个不可描述的奖励,如果你女朋友觉得你做的不对,那么你就会得到一个耳光。久而久之,你就得到的耳光越来越少,你就掌握了生存的诀窍。增强学习其实就是这么简单。

RL

看起来很简单对吧,但其实最困难的部分在于训练,如果你实现了Alpha Go Zero的模型,并用一块GTX1080TI显卡来训练到AlphaGo Zero到目前的水平,至少需要1000年。听起来有点耸人听闻,但只是说明reward非常难去设置。就像有很多人交了女朋友,女朋友无缘无故也能来一耳光,或者你给女朋友买了一项链,也能挨一耳光,而有时候,你骂你女朋友一句,反而她还高兴了。Environment的不确定性,会让reward非常难去设计。

言归正传,我们来讨论一下股市中如果来构建我们的增强学习模型。首先我们先用最简单的例子,当然这个例子并不能很好的模拟市场的情况。我们使用OHLCV数据来作为我们的Environment,Action我们有“买入”、“卖出”和“持有”。我们接收每天的OHLCV作为输入,然后我们做出一个Action。我们以第二天的结果来对Agent进行奖励,根据涨幅分级给予不同程度的奖励。然后我们用历史数据开始训练我们的模型,看起来很promising对吧!如果这么简单,那就不符合二八法则了,大家都要富起来了。实际在设计模型的时候是更为精巧的,整个环境的设计也不是仅仅使用OHLCV这么简单,宏观数据,基本面数据,技术指标,时事政策都应该包括在环境之中,而reward的设计也不仅仅是根据收益,而是结合夏普率等其他衡量标准。而周期更是不能放到一天,当然如果要用一天的周期,训练的输入就应该使用更高频的周期。

关于增强学习,我设计的模型目前看起来的表现还不错,对于增强学习模型来说,也是要不断去改进优化,当然,验证是一个很复杂而耗时的过程,所以不要给你的模型看所有的历史数据是必须的,否则你可能要花上两年来验证你的模型而造成损失太多的收益!

了解更多技巧,请移步我的星球:AI量化(https://t.zsxq.com/RvfY37y) 星球限时免费,如需加入,请私信我获得免费邀请码!

零基础学习Python与深度学习应用请关注星球:Python与深度学习 https://t.zsxq.com/bUFayZ3

微信公众号:QTechAI

相关文章

网友评论

    本文标题:深度学习与金融市场——增强学习是否是终极武器

    本文链接:https://www.haomeiwen.com/subject/ywwupqtx.html