强化学习框架TRL源码——DPO及其变种2024-10-23 15:54
浏览全文阅读(0)好评(0)
强化学习框架TRL源码—— 关于奖励模型(reward mode2024-10-15 15:47
浏览全文阅读(0)好评(0)
强化学习框架TRL源码——谈谈PPO和RLOO的异同2024-10-20 11:11
浏览全文阅读(0)好评(0)
强化学习框架TRL源码——SFTTrainer之不足及解决2024-10-14 20:30
浏览全文阅读(0)好评(1)
在古代,猎头猎一个人得多难2019-01-14 15:01
浏览全文阅读(0)好评(1)
Bert系列(五)——中文分词实践 F1 97.8%(附代码)2019-01-10 16:59
浏览全文阅读(0)好评(5)
Bert系列(四)——源码解读之Fine-tune2018-12-26 18:30
浏览全文阅读(0)好评(18)
Bert系列(三)——源码解读之Pre-train2018-12-25 17:58
浏览全文阅读(0)好评(29)
Bert系列(二)——源码解读之模型主体2018-12-19 16:00
浏览全文阅读(0)好评(33)
Bert系列(一)——demo运行2018-12-18 13:06
浏览全文阅读(0)好评(50)