创建数据集
目录结构
hfdataset/
└── train/
└── metadata.jsonl
└── sdsdyk.wav
└── ylfbnqsds.wav
└── test/
└── metadata.jsonl
└── sdsdyk.wav
└── ylfbnqsds.wav
metadata.jsonl内容格式
{"file_name": "sdsdyk.wav", "sentence": "圣灯山的游客"}
{"file_name": "ylfbnqsds.wav", "sentence": "巴南区圣灯山"}
上传数据集
以命令行的方式上传数据集
- 进入hfdataset目录,登录huggingface
PS D:\software\hfdataset> huggingface-cli login
- 执行上传命令
PS D:\software\hfdataset> hf upload my-cool-dataset . . --repo-type dataset
my-cool-dataset为自己的数据集名称,没有的话会自动创建,有的话会替换内容。
备注说明
值得注意的是,一些命令已被弃用,但文档中并非更新,执行时如报一警告错误,例如在huggingface中创建空数据集文档(my-cool-dataset)的命令:
huggingface-cli repo create my-cool-dataset --type dataset
首先,huggingface-cli已被弃用,需改为hf。其次,hf识别不到--type这个参数,去掉即可,修改后的命令如下:
hf repo create my-cool-dataset











网友评论