[翻译系统鲁棒性]构建一个noise的翻译数据集合

[翻译系统鲁棒性]构建一个noise的翻译数据集合

作者: VanJordan | 来源:发表于2019-04-15 16:55 被阅读0次

[翻译系统鲁棒性]构建一个noise的翻译数据集合
Unix 进行文本处理
Weblate翻译小结
使用 Unix 进行文本处理
Python 内置数据结构之七（set）
tensor2tensor 修改记
Flutter是如何转换成iOS应用程序包的？
Set及操作
Ribo-seq分析必看文献 | 知识（三）：RNA翻译的复杂性
Python 数据结构 set

MTNT: A Testbed for Machine Translation of Noisy Text

第一部分制造数据集

包含的错误类型，因为是直接从reddit上爬的数据，因此数据本身就具有很大的自然状态下的噪音。
对比语料，可以认为是纯净的数据。
对从reddit上面爬下来的数据进行过滤。
然后进行Normalization，这一步骤只是为了检测出有什么noise()即下面的对数据进行分析的步骤，在release的comments上没有进行Normalization
只保留至少有一个OOV（相比于纯净数据集）的句子
使用Language model选出置信度below 1%100的句子，认为这些数据是有噪音的数据。
然后移除重复的句子，为了让句子的噪声不要太大然后选出LM得分在5-70 percentile的句子，最后随机挑选15000个samples。

第二部分

接着把这些数据让专业人士翻译，人工清除测试集中的翻译错误。

上面那么多轮筛选，没被选中的句子构成了单语语料
对数据集进行分析
与现有测试集进行对比，发现noise的比例大增，这正是我们所需要的
使用的是最简单的翻译模型加上BPE
实验结果，在noise的训练集上进行finetune也不能在noise的测试集上表现的很好，因此这个数据集是非常有挑战的。
因为要刷榜，作者强烈要求使用sacreBLEU
finetune的超参数。

结论

说明自己的数据集是一个好的数据集

相关文章

[翻译系统鲁棒性]构建一个noise的翻译数据集合
MTNT: A Testbed for Machine Translation of Noisy Text 第一部...
Unix 进行文本处理
Unix 进行文本处理正则表达式翻译领域不乏让人摸不着头脑的词汇，比如“句柄”、“套接字”、“鲁棒性”。当然，...
Weblate翻译小结
翻译和构建：翻译工作是把“源字符串”框的内容翻译后填入“翻译”框。构建工作是把“翻译”框里的中文替换掉官方文档...
使用 Unix 进行文本处理
正则表达式翻译领域不乏让人摸不着头脑的词汇，比如“句柄”、“套接字”、“鲁棒性”。当然，“正则表达式”也属于这一...
Python 内置数据结构之七（set）
一、集 set 1.1 约定 set 翻译为集合 collection 翻译为集合类型，是一个大概念 1.2 se...
tensor2tensor 修改记
因为要用自己的翻译数据集合LDC，但是tensor2tensor中只有wmt18 enzh的数据集合处理方法，因此...
Flutter是如何转换成iOS应用程序包的？
本文翻译自：Flutter’s iOS Application Bundle 本文档描述了Flutter的构建系统...
Set及操作
Set及操作约定概念/叫法： set翻译为集合 collection翻译为集合类型，是一个大概念 set是可变的...
Ribo-seq分析必看文献 | 知识（三）：RNA翻译的复杂性
RNA翻译的复杂性：不翻译、部分翻译、从头翻译及过度翻译
Python 数据结构 set
约定 set翻译为集合 collection翻译为集合类型，是一个大概念 SET 可变的、无序的、不重复的元素的集...

网友评论

本文标题：[翻译系统鲁棒性]构建一个noise的翻译数据集合

本文链接：https://www.haomeiwen.com/subject/pwzuwqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|[翻译系统鲁棒性]构建一个noise的翻译数据集合|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！