SFT(监督微调)
定义:通过人类标注的高质量数据对预训练语言模型进行精细调整,使模型学会特定领域的表达方式和任务规范
比喻:就像学生在通识教育后参加专项培训班,老师逐字逐句纠正作业,让学生掌握特定技能(如法律文书写作或诗歌创作)
RL(强化学习)
定义:通过奖励机制引导AI自主优化决策,模型在试错中学习最大化长期收益的策略
比喻:类似训练宠物狗,做对指令给零食,做错不惩罚但也不奖励,最终狗自发学会最佳行为模式
CoT(思维链)
定义:要求模型将复杂问题拆解为多步推理过程,通过中间步骤提升最终答案准确性
比喻:如同数学老师要求学生写出解题步骤而非直接报答案,通过检查过程纠错(例如:"先算乘法再算加法")
Distill(知识蒸馏)
定义:将大型模型的知识压缩到小型模型中,通过模仿输出概率分布而非简单复制结果
比喻:顶尖大厨(大模型)将招牌菜的秘方简化为家常菜谱(小模型),普通人也能做出相似味道
GRPO(组相对策略优化)
定义:DeepSeek团队提出的强化学习算法,通过组内对比替代价值网络评估,直接利用多组回答样本的相对优势优化策略。
比喻:就像篮球训练中,教练不设定固定得分标准,而是让队员分组对抗。每组比赛中,得分高于队内平均分的球员获得额外训练资源(强化优质回答),低于平均分的调整训练计划(弱化低效策略)。这样既无需聘请专业评分员(省去价值网络),又能动态优化团队整体水平。
PRM(过程奖励模型)
定义:对推理过程的每一步单独评分,而非只评估最终结果
比喻:作文老师不仅给文章总分,还逐段批注优缺点(如:"开头精彩,但中间论据不足")
MCTS(蒙特卡洛树搜索)
定义:通过模拟多种可能性路径并评估收益,选择最优决策路径的算法
比喻:棋手在落子前脑内推演:"如果走这里,对方可能怎么应对,最终胜率如何"
MOE(混合专家模型)
定义:将模型拆分为多个专家模块,根据输入内容动态激活部分专家
比喻:医院分诊系统——感冒患者由呼吸科接待,骨折患者由骨科处理,避免所有医生同时看诊
MLA(多头潜在注意力)是DeepSeek团队提出的**低秩键值压缩注意力机制,通过将传统注意力中的键值(Key/Value)矩阵投影到低维空间,减少93.3%的显存占用。其核心是用动态压缩技术保留关键语义信息,同时将128K上下文推理的显存需求从16.8GB降至1.1GB,计算量减少82%。
比喻: 就像学生用荧光笔划重点时,先把整页内容浓缩成几个关键词(低维压缩),再根据关键词之间的关系分析文章逻辑(潜在空间计算)。这样既不用反复翻书(减少显存占用),又能快速抓住核心思想(保留关键信息)。
FP8(8位浮点训练)
定义:使用8位浮点数替代传统16位格式,降低显存占用和计算需求
比喻:搬家时用真空压缩袋装羽绒服,体积缩小但衣服本质不变
MTP(多令牌预测)
定义:同时预测后续多个token而非逐字生成,提升文本连贯性和生成速度
比喻:音乐家不是一个个音符创作,而是先确定主旋律再填充和弦
技术关联示例:
DeepSeek R1 Zero直接用RL训练时[5],就像学生跳过刷题阶段(SFT),直接通过模拟考试(GPRO规则)和分步批改(PRM)提升成绩,同时用压缩笔记(Distill)和分工学习法(MOE)提高效率。