美文网首页
标贝语音数据集标注格式(中文)

标贝语音数据集标注格式(中文)

作者: Spooking | 来源:发表于2022-09-13 16:22 被阅读0次

标注格式(中文)

  1. 文本格式为 *.txt,一行文字,一行拼音。文字行句首为句子号,句子号由六位半角阿拉伯数字组成,以
    Tab健隔开,后接文本内容,句尾以回车换行符结束;拼音行句首为Tab键,后接文本拼音,拼音之间以空
    格分开,句尾以回车换行符结束。
  2. 声调:声调以 1-5 标记,1-4 对应阴平、阳平、上声、去声,5 表示轻声。
    韵律标注:
    中文韵律结构标注包含韵律词(#1)、韵律短语(#2)、语调短语(#3)、句末(#4)四个层级的标注。
    例:
    100001 该公司#1 当时#1 表示#3,将于#1 本周一#2 公布#1 正式#1 消息#4。
    gai1 gong1 si1 dang1 shi2 biao3 shi4 jiang1 yu2 ben3 zhou1 yi1 gong1 bu4 zheng4 shi4 xiao1 xi5
  3. 声韵母边界切分:
    中文切分到声韵母,标注格式为 interval 文件格式。

相关文章

网友评论

      本文标题:标贝语音数据集标注格式(中文)

      本文链接:https://www.haomeiwen.com/subject/zixgnrtx.html