RNN目标是解决序列数据的学习问题,方法是每一刻给所有历史一个总结:
Si = f(xi, Si_1);
这就是一种状态机。
对RNN唯一的约束就是长程相关性:当前Sn状态允许对古老的x0敏感:
dSn/dx0 != 0
于是就有门电路法的lstm等结构:维护一个cell state,每一步遗忘点状态,再增加点状态进cell state,输出也可以控制下。这样的话,Cs就能保证能一直传递下去,长程得以保存
每个门都是由上一刻状态S_和当前输入x调节的:g=g(S_, x)
NRU的改进就是,使得这些门g也是长程的。
现有的门都是sigmond或者tanh,所以t时刻的门,与太老的x就没关系了(dgt/dx0 ~ 0),这样的门就不够高级,有些长程开关他实现不了。
NRU用ReLU做门激活函数,解决这个问题。实验显示挺牛。












网友评论