Deepseek 大幅削减 AI 训练成本：1.2 万美元 1/525 成本 MT-Bench 分数堪比 GPT-4o

发布者：admin发表于：101天前阅读数：143评论:0

4月8日，据消息，深度求索（DeepSeek）与清华大学携手合作，共同推出了全新的AI对齐技术——SPCT（自我原则点评调优）。这项技术打破了传统模式中对海量训练数据的依赖，转而通过在推理阶段进行动态优化，以此来提升输出质量。

据研究团队于4月4日发表的论文显示，SPCT技术采用了一种独特的递归架构，即“原则合成 - 响应生成 - 批判过滤 - 原则优化”。借助这一架构，模型能够在推理过程中自动对输出内容进行动态修正。

SPCT方法主要由两个阶段构成。首先是拒绝式微调阶段，此阶段作为冷启动，其主要作用是让GRM能够适应不同的输入类型，并以正确的格式生成原则与点评内容。其次是基于规则的在线强化学习阶段，在该阶段中，采用基于规则的结果奖励机制，以此激励GRM生成更为优质的原则与点评内容，进而提升推理阶段的可扩展性。

在相关测试中，拥有270亿参数的DeepSeek - GRM模型表现亮眼。在每查询32次采样的推理计算条件下，该模型达到了671B规模模型的性能水平。其硬件感知设计采用了混合专家系统（MoE），可支持128k token上下文窗口，单查询延迟仅为1.4秒。

模型	规模	MT-Bench	预估训练成本
DeepSeek-GRM	27B	8.35	$12,000
Nemotron-4	340B	8.41	$1.2 million
GPT-4o	1.8T	8.72	$6.3 million

报告明确指出，SPCT技术能够显著降低高性能模型的部署门槛。以DeepSeek - GRM模型为例，其训练成本约为1.2万美元（完美岛ai：按照现汇率约合87871元人民币），在MT - Bench测试中的得分为8.35。

与之形成对比的是，340B的Nemotron - 4想要获得8.41分的成绩，需要花费120万美元。OpenAI的1.8T参数GPT - 4o虽然得到了8.72分，但成本却高达630万美元（按现汇率约合4613.2万元人民币），而DeepSeek - GRM模型的成本仅为其525分之一。此外，该技术还减少了90%的人工标注需求，能耗较DPO降低了73%，为实时机器人控制等动态场景带来了新的可能性。

转载出处：/uploadFiles/site_2/article/202504/193701/d534b13f8c2c2843a53287d33b1e6bd6.png