MTNT: A Testbed for Machine Translation of Noisy Text
第一部分制造数据集
-
包含的错误类型,因为是直接从
reddit上爬的数据,因此数据本身就具有很大的自然状态下的噪音。
-
对比语料,可以认为是纯净的数据。
-
对从
reddit上面爬下来的数据进行过滤。
-
然后进行
Normalization,这一步骤只是为了检测出有什么noise()即下面的对数据进行分析的步骤,在release的comments上没有进行Normalization
-
只保留至少有一个
OOV(相比于纯净数据集)的句子
-
使用
Language model选出置信度below 1%100的句子,认为这些数据是有噪音的数据。
-
然后移除重复的句子,为了让句子的噪声不要太大然后选出
LM得分在5-70 percentile的句子,最后随机挑选15000个samples。
第二部分
接着把这些数据让专业人士翻译,人工清除测试集中的翻译错误。
-
上面那么多轮筛选,没被选中的句子构成了单语语料
-
对数据集进行分析
- 与现有测试集进行对比,发现
noise的比例大增,这正是我们所需要的
- 使用的是最简单的翻译模型加上
BPE
- 实验结果,在
noise的训练集上进行finetune也不能在noise的测试集上表现的很好,因此这个数据集是非常有挑战的。
-
因为要刷榜,作者强烈要求使用sacreBLEU
-
finetune的超参数。
结论
说明自己的数据集是一个好的数据集













网友评论