美文网首页
将自有数据集和模型接入训推平台

将自有数据集和模型接入训推平台

作者: 梅西爱骑车 | 来源:发表于2025-10-11 17:36 被阅读0次

一、将自有模型接入训推平台

由于我们的自有模型基于 Qwen 训练得到,因此需在 qwen.py 文件中注册该模型,以便将其纳入训推平台的模型列表。

具体操作如下,在 qwen.py 中调用 register_model 函数,添加模型元信息:

register_model(
    ModelMeta(
        LLMModelType.qwen,
        [
            # 煤矿安全专用模型
            ModelGroup([
                Model('QzTech/Qingzhi1-8B-Coal-Safety', 'QzTech/Qingzhi1-8B-Coal-Safety'),
            ],
                tags=['coal', 'safety']),
            # 官方 Qwen 系列模型
            ModelGroup([
                # Chat 版本
                Model('Qwen/Qwen-1_8B-Chat', 'Qwen/Qwen-1_8B-Chat'),
                Model('Qwen/Qwen-7B-Chat', 'Qwen/Qwen-7B-Chat'),
                Model('Qwen/Qwen-14B-Chat', 'Qwen/Qwen-14B-Chat'),
                Model('Qwen/Qwen-72B-Chat', 'Qwen/Qwen-72B-Chat'),
                # Base 版本
                Model('Qwen/Qwen-1_8B', 'Qwen/Qwen-1_8B'),
                Model('Qwen/Qwen-7B', 'Qwen/Qwen-7B'),
                # ...(其余模型省略)
            ])
        ]
    )
)

完成上述配置后,启动训推平台的 Web UI,即可在模型列表顶部看到我们新增的 Qingzhi1-8B-Coal-Safety 模型。选择该模型时,系统会自动将其关联至 qwen 模型类型:

模型列表展示

二、添加自定义数据集

若需在训练中使用自定义数据集,需在 llm/dataset/data/dataset_info.json 配置文件中注册数据集信息。例如,添加我们构建的煤矿安全领域数据集:

[
    {
        "ms_dataset_id": "QzTech/Coal_Safety",
        "tags": ["chat", "general"],
        "help": "基于《煤矿安全规程》构建,融合现场实操场景的全链条安全生产知识数据集"
    },
    {
        "ms_dataset_id": "AI-ModelScope/OpenO1-SFT",
        "hf_dataset_id": "O1-OPEN/OpenO1-SFT",
        "tags": ["chat", "general", "o1"]
    }
    // ...(其余数据集省略)
]

配置完成后,重启 Web UI,即可在数据集列表中看到新增的 Coal_Safety 数据集。在启动模型训练任务时,平台将自动以多线程方式下载该数据集,提升准备效率:

数据集列表展示

通过以上两步,即可将自有模型与配套数据集无缝集成到训推平台中,为后续的微调与推理任务提供完整支持。

8B的模型,在我5060显卡上跑起来很吃力,8G的显存不够用,借用的系统的RAM显存(共享GPU内存)8.6G,总计使用了16.2G的显存。

8B 参数 × 2 字节(FP16)  
≈
16 GB

相关文章

网友评论

      本文标题:将自有数据集和模型接入训推平台

      本文链接:https://www.haomeiwen.com/subject/xwlmtstx.html