深堆叠的lstm通常比较浅的模型提供更好的精度。然而,简单地叠加更多的LSTM层只适用于一定数量的层,再深的话会变得难以训练,很可能是由于爆炸和消失的梯度问题。
根据我们在大规模翻译任务中的经验,简单的堆叠的LSTM层可以在4层中很好地工作,几乎只有6层,超过8层的效果非常差。
本项目使用了残差结构解决了这一问题。

深堆叠的lstm通常比较浅的模型提供更好的精度。然而,简单地叠加更多的LSTM层只适用于一定数量的层,再深的话会变得难以训练,很可能是由于爆炸和消失的梯度问题。
根据我们在大规模翻译任务中的经验,简单的堆叠的LSTM层可以在4层中很好地工作,几乎只有6层,超过8层的效果非常差。
本项目使用了残差结构解决了这一问题。
本文标题:LSTM与Attention的结合使用(翻译任务)
本文链接:https://www.haomeiwen.com/subject/pzdrxdtx.html
网友评论