DeepSeek 是怎么训练的？

作者: 小道萧兮 | 来源:发表于2025-03-11 16:12 被阅读0次

写作的第二步：进行写作分解训练（一）
图说各国军人射击：朝军姿势霸气，中国军人的训练方式独一无二
舞蹈的基础训练中，身体延伸训练
右脑开发：曼陀罗是怎么训练的？
每日培训精进一策
肌肉酸痛肌肉才练到位？
幽默的口才训练是怎么炼成的
正面管教之十四“花时间训练”
笔记摘要
复习之训练

1、Transformer

现今大部分的 AI 突破都跟谷歌在 2017 年发布的 Transformer 有关。

Transformer 是一种机器学习算法，它提出了一种叫做自注意力的机制，可以给句子中的每一个词打分，这就可以让 AI 很轻松的完成词语接龙，续写出句子。

自注意力的机制并不是谷歌发明的，早在 2014 年就有人提出在 RNN 网络中使用注意力机制了，但是早期的注意力机制在模型中是辅助作用，总体性能还是受制于 RNN 笨重的机制，谷歌的贡献就是不破不立，把乱七八糟的全去掉了，只留下注意力机制。

Transformer 是一个翻译模型，由两部分组成，编码器负责理解源语言，解码器负责生成另一种语言。这是 deepseek 的基础，可以看看万字详解 ChatGPT 基本原理深入了解。

2、训练模型

OpenAI 只用了负责生成的解码器，并且在训练中发现了大力出奇迹规律，即参数量、数据量越大，模型就越智能，所以 AI 要获得智能，不需要萝卜雕花的精验算法，直接在规模上梭哈就可以了，必其功于一役。当然，除了梭哈规模，OpenAI 也做了不少创新，最大的创新就是三步走的训练策略。

第一步，无监督学习，给 AI 喂海量的语料，让 AI 先学会说话。

AI 的学习过程就是看到前面的字，然后去猜下一个字，猜完了再把正确的字给 AI 看。如果错了，就看为什么错了，让 AI 自己反思去这个过程，因为没有人工的标注数据，所以被称为无监督学习。训练出来的模型称为基座模型。

第二步是监督学习。

基座模型虽然学会了说话，但是这家伙说起来没完，该说的不该说的都说。为了学会怎么正常跟人类聊天，我们需要给它打个样，于是给它提供一些人类手工标注好的资料，再次训练。这样才能聊得起来。这个过程叫做监督微调，SFT。

第三步就是强化学习了。

先让 AI 回答一些问题，每个问题提供好几种不同的答案，然后找一些人类给答案做一下排序，最好的放在最前面，最差的放在最后面。把这个排序结果反馈给 AI，让 AI 学习。这样 AI 就知道什么答案好，什么答案不好了。然后它就可以利用自己学到的东西给别的 AI 打分了。

这个 AI 就是奖励模型。

有了这个奖励模型，我们就可以让它给向前面进过微调的基座模型提问，然后对回答进行打分，就像前面说的，强化学习并不是提供标准答案，而是用奖励刺激 AI，它一定能找到好答案，于是经过这三步，一个会聊天的大模型就训练好了。

3、推理能力

虽然在很多日常的聊天和文字搬砖工作中表现的游刃有余，但在很多专业领域依然不尽如人意，所有的人都认为这是因为模型不具备推理能力。

当我们人类面对复杂的问题时，最常见的习惯就是分解问题，一步一步来。在和 AI 交流的过程中，如果让它把问题拆解一步一步来，它似乎也能找到更好的答案。所以，如果能让 AI 学会分解问题，一步一步推理，是不是也就能让 AI 具备更高级的智能呢？

在 2023 年的论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 思维链促进大型语言模型中的启发式推理，提到

一步一步推理的思维过程来得出答案

但是数据已经用光了，大力出奇迹的道路已经走到头了，接下来怎么走才能让 AI 学会推理呢？

OpenAI 说，我们找到办法了，在推理层面花更多的成本进行训练就可以了。然后他们推出了自己重金打造的模型，也就是 GPT-o1。但因为 OpenAI 其实是 close AI，所以没有人知道他们到底是怎么训练的，只能靠猜。

全球的 AI 开发者通过研究 OpenAI 之前的相关论文和技术报告，普遍认为 OpenAI 采用了非常复杂的训练方式才达到了这样的效果。这里只是有些人的猜测，总之每一个步骤都超级复杂。

现在看看 DeepSeek 具体是如何做的。

在 DeepSeek 的论文 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 中描述了训练 R1 Zero 的过程。

我们使用 DeepSeek-V3 作为基础模型，并采用 GRPO 作为强化学习框架来提高模型在推理方面的性能。在训练过程中，DeepSeek R1 Zero 自然的涌现出许多强大且有趣的推理行为。

这段话简单来说就是直接找了一个基础模型，不做监督微调，直接上强化学习，只需要打分几千步以后，模型就会自然的学会推理。

全球的小伙伴都惊呆了，这也行？震惊过后想进一步刨根问底的小伙伴一定注意到了一个缩写 GRPO。

GRPO 是全称是群体相对策略优化（Group Relative Policy Optimization），这是 DeepSeek 发明的一种强化学习模型。在2024年2月，DeepSeek 就已经在针对数学领域的大模型 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models。

在 R1 Zero 的训练中，显然 GRPO 起到了关键性的作用，要了解 GRPO 到底厉害在哪里，我们需要先知道在此之前大模型是如何进行强化学习训练的，前面说了大模型训练的第三个阶段就是强化学习，在这个阶段 OpenAI 采用了一种叫做 PPO 的强化学习模型。

它包括两个模型，一个是策略模型，一个是价值模型。除此之外前面提到的模型回答的每个问题，最终还需要有一个模型给他打分，所以还要有一个奖励模型。这还没完，为了整个训练过程不要被带歪了，还需要有一个参考模型。所以整体下来，整个训练过程会有四个模型同时在跑。

经过这四个模型的配合，就可以最终训练出性能很高的 AI 了。但是从另外一方面看，优点也会变成缺点，四个模型同时跑，规模太大，奖励模型和参考模型还好，因为他们只是陪跑，并不更新参数，但价值模型就不一样了，他也要学习，所以要跟着训练更新参数，这是相当烧显卡了。

怎么办呢？DeepSeek 直接把价值网络砍掉了，怎么做到的呢？

要训练策略网络，就需要让它知道改进方向，而价值网络的评价就是这个改进的方向。OpenAI 是通过一个叫优势函数的计算完成的。主要是通过【实际期望】减【预测期望】来实现的。也就是说实际的效果比预测的还好，这个策略就值得鼓励，反之来就打个低分。

现在把价值网络去掉了，优势函数怎么计算呢？

多采样几次，然后取个平均值，拿每个的期望值和平均值做比较就可以了。在论文中我们可以看到这个优势函数的结构，减掉平均数再除以标准差，很显然求的就是与平均值的差距。

很显然一个策略收益比平均值越高，说明这个策略好，优势大，神经网络就会加大它的概率，这就可以直接去掉价值网络了。

少这一块训练成本至少降低了一半，这就是 DeepSeek 最主要的创新了。

就这对就这我们知道看到这里你一定觉得有一些失望，你期待的可能是一种石破天惊的创新。但取平均值，然后找到最好的，小学三年级的孩子都可能想出来的方法，难道全球的 AI 开发者想不到？

因为路径依赖，我们往往看不见房间中的大象。在强化学习领域， PPO 作为主流已经被使用多年，所以作为强化学习训练的首选也是水到渠成的事情。

但谁也没有想到，强化学习多年发展下来，到大模型训练领域，条件和环境都已经发生了很大的变化。以前的强化学习很多时候是从零学起。单纯的策略网络随机性太大，很难训练，所以加入价值网络。

现在当强化学习遇到大语言模型，他面对的是一个已经经历预训练，通晓这世界上大部分语言和知识的大模型。所以面对提问时，这个模型一开始给出的回答就不会太差。

所以这也解释了 DeepSeek 论文中所说的一个现象，当他们把同样的方法应用在参数更少的小模型上时，就很难训练出更好的推理能力，对于小模型来说，与其强化学习，不如从大模型直接蒸馏。

因为较小的模型最开始的回答就比较差，没有一个是正确的，求平均值的方法就只能在差和更差之间选择，可能训练出一个更好的回答吗？

看到这里你肯定就会觉得就这这看起来也没啥创新啊，但是，做减法也是一种创新。就如同谷歌说 Attention is all you need 的，就如同 OpenAI 说提升规模就能获得智能，DeepSeek 说只需要强化学习AI就可以学会推理。再次，化繁为简，全世界 AI 开发者再次跟着转向。

写作的第二步：进行写作分解训练（一）
专业的训练是必然包含分解训练的，要提高任何一项能力，必然要进行相关的分解训练，那么怎么知道怎么进行我们要进行对应的...
图说各国军人射击：朝军姿势霸气，中国军人的训练方式独一无二
非洲民兵的训练是怎么柔韧怎么来，因为缺少专业的训练。印度军人是纯属阅兵式表演性质，不可用于实战。朝鲜的军人站式...
舞蹈的基础训练中，身体延伸训练
在舞蹈的基础训练中，身体延伸训练是很重要的一个训练项目，身体延伸训练是形成良好的体态的一个重要过程，那么，怎么样的...
右脑开发：曼陀罗是怎么训练的？
曼陀罗是一种宗教术语，或称满达、曼扎、曼达，梵文：mandala。意译为坛场，以轮圆具足或“聚集”为本意。指一切圣...
每日培训精进一策
要成为训练的高手，要经常思考训练高手怎么思考，模仿高手怎么做，超越高手的做法。
肌肉酸痛肌肉才练到位？
许多人以为训练后的几天，肌肉很酸痛就认为之前的训练到位了，但事实如此吗？一、训练后的酸痛感是怎么回事？训练后的...
幽默的口才训练是怎么炼成的
幽默的笑话都会让禁不住让你大笑，同时幽默的人也是非常受人欢迎，你想要成为一个幽默的人吗?想要成为一个可以带给他人欢...
正面管教之十四“花时间训练”
十四、花时间训练：训练是教孩子生活技能的一项重要部分。不要期望孩子没有经过一步步的训练就知道怎么做。“清洁”是...
笔记摘要
训练自己念起即动的能力，这个念呀说的是良知正念，而不是说杂念，怎么训练呢？起了正念立刻就去执行，零延迟刻意训练自...
复习之训练
复习的过程中，练习，训练是在知识巩固之后的极为重要的环节。训练如何进行？训练怎么取得更好的效果？少做题起到大作用的...

DeepSeek 是怎么训练的？

1、Transformer

2、训练模型

3、推理能力

相关文章

写作的第二步：进行写作分解训练（一）

图说各国军人射击：朝军姿势霸气，中国军人的训练方式独一无二

舞蹈的基础训练中，身体延伸训练

右脑开发：曼陀罗是怎么训练的？

每日培训精进一策

肌肉酸痛肌肉才练到位？

幽默的口才训练是怎么炼成的

正面管教之十四“花时间训练”

笔记摘要

复习之训练

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读