Deepseek 大幅削减 AI 训练成本:1.2 万美元 1/525 成本 MT-Bench 分数堪比 GPT-4o
发布者:admin发表于:20天前阅读数:52评论:0
关键词:deepseek

4月8日,据消息,深度求索(DeepSeek)与清华大学携手合作,共同推出了全新的AI对齐技术——SPCT(自我原则点评调优)。这项技术打破了传统模式中对海量训练数据的依赖,转而通过在推理阶段进行动态优化,以此来提升输出质量。

据研究团队于4月4日发表的论文显示,SPCT技术采用了一种独特的递归架构,即“原则合成 - 响应生成 - 批判过滤 - 原则优化”。借助这一架构,模型能够在推理过程中自动对输出内容进行动态修正。

SPCT方法主要由两个阶段构成。首先是拒绝式微调阶段,此阶段作为冷启动,其主要作用是让GRM能够适应不同的输入类型,并以正确的格式生成原则与点评内容。其次是基于规则的在线强化学习阶段,在该阶段中,采用基于规则的结果奖励机制,以此激励GRM生成更为优质的原则与点评内容,进而提升推理阶段的可扩展性。

在相关测试中,拥有270亿参数的DeepSeek - GRM模型表现亮眼。在每查询32次采样的推理计算条件下,该模型达到了671B规模模型的性能水平。其硬件感知设计采用了混合专家系统(MoE),可支持128k token上下文窗口,单查询延迟仅为1.4秒。

模型规模MT-Bench预估训练成本
DeepSeek-GRM27B8.35$12,000
Nemotron-4340B8.41$1.2 million
GPT-4o1.8T8.72$6.3 million

报告明确指出,SPCT技术能够显著降低高性能模型的部署门槛。以DeepSeek - GRM模型为例,其训练成本约为1.2万美元(完美岛ai:按照现汇率约合87871元人民币),在MT - Bench测试中的得分为8.35。

与之形成对比的是,340B的Nemotron - 4想要获得8.41分的成绩,需要花费120万美元。OpenAI的1.8T参数GPT - 4o虽然得到了8.72分,但成本却高达630万美元(按现汇率约合4613.2万元人民币),而DeepSeek - GRM模型的成本仅为其525分之一。此外,该技术还减少了90%的人工标注需求,能耗较DPO降低了73%,为实时机器人控制等动态场景带来了新的可能性。

转载出处:/uploadFiles/site_2/article/202504/193701/d534b13f8c2c2843a53287d33b1e6bd6.png