Facebook 无监督语言翻译模型

作者: 涛涛江水向坡流 | 来源:发表于2019-03-31 22:00 被阅读1次

声明:转载请声明作者,并添加原文链接。

简介

这篇博客主要解读无监督翻译算法。参考论文是  Lample, Guillaume, et al. "Phrase-Based & Neural Unsupervised Machine Translation." arXiv preprint arXiv:1804.07755 (2018). 

链接: https://arxiv.org/pdf/1804.07755.pdf

因为最近实在太忙, 也没时间翻译论文。 博客就用先用英文中文混写记录。 不清楚之处还请多多包涵。 或者留言来问。  

Initialization: word-by-word translations to preserve some original semantics. 

Language modeling: train language models on both source and target languages. 

Iterative Back-translation: leverage monolingual data in a semi-supervised setting

Couple the source-to-target translation

Backward model translation from the target to source language

    1. Word-by-word translation using a bilingual dictionary inferred in an unsupervised way is not a great translation 

    2. Equipped with a language model and the word-by-word initialization, we can now build an early version of a translation system.

    3. Next, we treat these system translations (original sentence in Urdu, translation in English) as ground truth data to train an MT system in the opposite direction, from English to Urdu. 

Admittedly, the input English sentences will be somewhat corrupt because of translation errors of the first system. 

Fig. 1 无监督语言翻译流程

Fig. 1 解释的就是En Ur 两种语言的互相学习过程。 因为没有翻译好的语言对, 就只能使用无监督语言翻译的方法。

 Fig.1 的上部分 就是首先将英语用查词典的方式一一对应的翻译成乌尔都语言(Ur).再通过language model, 调整语序, 变成 对应的乌尔都语言。  用这个乌尔都语当做输入, 原本的英语当做label 去训练Ur-En的翻译模型。

Fig.1 的下部分就是用上部分学到的Ur-En 翻译模型 去翻译乌尔都语得到 不太干净的翻译结果, 也就是英语。 这样一个有噪音的输入 再输入En-Ur MT的翻译模型。 Label 是原本的乌尔都语。 Label 是干净的。

上述优化过程交替反复进行。 最后就实现了无监督翻译模型。 

翻译效果, 传统phrased-based network 和Neural NMT 相结合

这里发现无监督翻译的话, 传统的词组(phrased-based network)和Neural machine learning 相结合的结果最好。 

对比结果

在parallel training sentence,即配对语言数据集比较小的时候, 无监督模型的performance 还比较好。 

对比结果

Table 2 show that our unsupervised NMT and PBSMT systems largely outperform previous unsupervised baselines

相关文章

  • Facebook 无监督语言翻译模型

    声明:转载请声明作者,并添加原文链接。 简介 这篇博客主要解读无监督翻译算法。参考论文是Lample, Guill...

  • NLP学习-07.基础-语言模型-评估-perplexity

    如何评估语言模型的好坏? 有监督情况: AB测试: 对两种模型就行ab测试,看哪个在测试集合准确率高 无监督情况:...

  • 分类

    机器学习方法:监督学习, 半监督学习,无监督学习,强化学习。 监督学习:判别模型,生成模型。 判别模型:条件随机场...

  • 客户分群-聚类算法

    机器学习算法分类 有监督学习 有训练样本 分类模型 预测模型 无监督学习 无训练样本 关联模型 聚类模型 聚类算法...

  • Facebook开源的机器翻译框架-号称比Google更准且快9

    五月份的时候,Facebook发布了Fairseq机器翻译模型,号称比基于RNN的模型训练速度提升了九倍,而且翻译...

  • 带监督的文本分类算法FastText

    该算法由facebook在2016年开源,典型应用场景是“带监督的文本分类问题”。 模型 模型的优化目标如下: 其...

  • 语言模型

    模型:可以量化,可以打分。 语言模型 概率语言模型(统计语言模型) 用处示例:输入法、机器翻译、语音识别等。 N-...

  • 基于sklearn的k均值类聚模型

    理论 无监督学习 无监督学习是相对于有监督学习的概念,无监督学习的样本只有数据没有标签(label),由模型自主发...

  • 2018-01-09[不怕presentation了]

    又一次挑战:花了一天时间,读懂了GAN(对抗神经网络)的一篇Facebook的工作,超顶会论文,做无监督的机器翻译...

  • 机器学习-模型的分类

    可以从两个角度进行划分: 是否是监督学习 是否是生成模型 定义 监督学习和无监督学习: 无监督学习(英语:unsu...

网友评论

    本文标题:Facebook 无监督语言翻译模型

    本文链接:https://www.haomeiwen.com/subject/ynqpbqtx.html