美文网首页
LSTM与Attention的结合使用(翻译任务)

LSTM与Attention的结合使用(翻译任务)

作者: Co酱_秋乏术 | 来源:发表于2022-11-14 01:57 被阅读0次

深堆叠的lstm通常比较浅的模型提供更好的精度。然而,简单地叠加更多的LSTM层只适用于一定数量的层,再深的话会变得难以训练,很可能是由于爆炸和消失的梯度问题。

根据我们在大规模翻译任务中的经验,简单的堆叠的LSTM层可以在4层中很好地工作,几乎只有6层,超过8层的效果非常差。

本项目使用了残差结构解决了这一问题。

左:常规的,右:引入残差结构

相关文章

网友评论

      本文标题:LSTM与Attention的结合使用(翻译任务)

      本文链接:https://www.haomeiwen.com/subject/pzdrxdtx.html