| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 智能>

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

2025-04-25 17:03 作者:Kathy 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的方法。

快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的方法。通过使用与 DeepSeek 相同的基础模型 (Qwen2.5-32B) 和纯粹的强化学习训练,SRPO 成功在 AIME24 和 LiveCodeBench 基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了 DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

论文地址:https://arxiv.org/abs/2504.14286

模型开源地址:https://huggingface.co/Kwaipilot/SRPO-Qwen-32B

图:SRPO AIME24 和 LiveCodeBench 表现,每项为 pass@1 的32 次平均得分

技术报告中,快手Kwaipilot团队实现了一种两阶段训练范式,有效解决数学和代码之间内在的响应长度冲突问题。实验表明,两阶段训练在数学和编程领域均表现出优异的结果。该模型在解决数学问题时始终如一地生成详细的逐步推理模式,并在处理编程任务时生成结构化的推理模式。

image.png

图:不同训练数据策略对响应长度的影响

在训练的中后期阶段,快手 Kwaipilot 团队创新性地引入了历史重采样(History Resampling)实现动态采样,确保了在每个训练步骤中梯度更新始终有效,从而直接提高了信息梯度的比例。与DAPO中提出的Dynamic Sampling方法相比,History Resampling显著提高了计算效率,响应长度增长也更加稳定。

image.png

图:Training statistics of History Resampling

更令人惊喜的是,在训练过程中模型的自我反思、纠正和回溯频率逐渐增加,在训练后期,模型已经会借助程序性思维进行自我纠错和多次尝试,掌握了广泛思考和综合运用多种代码思维进行问题求解的能力。

image.png

目前,快手Kwaipilot团队已将SRPO-Qwen-32B模型开源,希望这一成果能够为社区在构建更强大的推理模型方面提供有力支持。未来,他们将持续探索数据与模型的扩展、更高效的强化学习算法以及SRPO在更广泛的推理场景中的应用。

【对“业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
头条
降价!免费!圈地!大模型价格战卷到飞起 降价!免费!圈地!大模型价格战卷到飞起
巨头接连下场!降价!免费!属于大模型赛道的价格战,已彻底陷入疯狂。 近日,百度和……
·美国教育部长出席峰会闹乌龙:多次将AI误称为
·OpenAI对马斯克提起反诉 称其试图拖慢OpenAI
·消息称谷歌付钱让部分 AI 员工赋闲一年,以防
·消息称微软销售线酝酿组织调整,多个AI相关解
·比尔·盖茨谈AI:十年内显著改变传统任务,三
图文
降价!免费!圈地!大模型价格战卷到飞起
降价!免费!圈地!大模型价格战卷到飞起
OpenAI再度拉响安全警报:又一高层离职揭示巨大风险
OpenAI再度拉响安全警报:又一高层离职揭示
ZAO隐私风险 你的脸已经不仅仅是你的脸了
ZAO隐私风险 你的脸已经不仅仅是你的脸了
九号机器人,这次想用AI运载机器人送快递送外卖
九号机器人,这次想用AI运载机器人送快递送
热点
·AI又出了偏门应用:用算法“脱掉”女性衣服
·ZAO隐私风险 你的脸已经不仅仅是你的脸了
·美的AIR空间站|你用过能管理空气的空调吗?
·新橙派果汁机器人引爆中国独角兽孵化合作大会
·民宿房东的辛酸史 用安伴门锁实现了合规运营
旧闻
·百年老图难倒谷歌AI 到底是鸭是兔都不能确定
·爱普生发布全新B2C战略及解决方案 造就精智生
·AI双擎驱动赋能工业软件智能化升级 瑞风协同
·新春送龙蛋,小度推出龙年首个大模型AI年宠
·方正智能模块化分体锁首发淘宝众筹,打造门锁
广告
硅谷精选
降价!免费!圈地!大模型价格战卷到飞起
降价!免费!圈地!大模型价格战卷到飞起
OpenAI再度拉响安全警报:又一高层离职揭示巨大风险
OpenAI再度拉响安全警报:又一高层离职揭示巨大风险
内容与技术“双引擎”驱动,芒果探索全链路AI创新
内容与技术“双引擎”驱动,芒果探索全链路AI创新
全球AI人才报告曝光:清华第三,北大第六
全球AI人才报告曝光:清华第三,北大第六
外媒称微软将向“欧洲版OpenAI”投资1500万欧元 但面临欧盟审查
外媒称微软将向“欧洲版OpenAI”投资1500万欧元 但面
新春送龙蛋,小度推出龙年首个大模型AI年宠
新春送龙蛋,小度推出龙年首个大模型AI年宠
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2020 硅谷网. 版权所有. All Rights Reserved. <京ICP备12003855号-2>