深度求索(DeepSeek)宣布其 DeepSeek-R1 模型已完成一次重要的小版本升级,最新版本号为 DeepSeek-R1-0528。根据官方报告,此次更新显著提升了模型的思维深度与推理能力,并在多个基准测评中取得了国内领先的成绩。用户现已可通过官方网站、APP 或小程序开启“深度思考”功能体验新版模型,API 也已同步更新。
然而,在后训练阶段,团队投入了更多算力,使得模型在数学、编程及通用逻辑等方面的表现得到大幅优化。
更新后的 R1 模型在多项基准测评中表现优异,成绩在国内同类模型中名列前茅。官方信息指出,其整体表现已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。开源继续紧逼顶尖闭源模型。
一个显著的例子是在 AIME 2025(美国数学邀请赛)测试中,新版模型的准确率从旧版的 70% 大幅提升至 87.5%。官方将这一进步归因于模型在推理过程中思维深度的增强。数据显示,在 AIME 2025 测试集上,旧版模型平均每题使用 12K tokens,而新版模型则平均使用 23K tokens,表明其在解题时进行了更为详尽和深入的思考。这种“更长的思考时间”换取更高准确性的策略,也成为社区讨论的一个特点。
深度求索认为,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。在R1最初发布时,这就是DeepSeek想要证明的技术趋势之一,而这个叫做DeepSeek-R1-0528-Qwen3-8B的小模型,是最新的证明。该模型最核心的技术亮点在于成功地将 DeepSeek-R1-0528 这种超大规模模型的复杂“思维链”(Chain of Thought, CoT)蒸馏到一个仅有8B参数量的 Qwen3-8B 基座模型上。结果显示,蒸馏后的8B模型在极具挑战性的AIME数学竞赛中取得了超越原版Qwen3-8B达10%的成绩,甚至达到了与235B参数量的Qwen3-235B相当的水平。这强有力地证明了高质量思维链对于提升小模型推理能力的巨大潜力,以及蒸馏技术在传递这种高级认知能力方面的有效性。这一成果会继续打破“唯参数论”的迷思,它展示了通过先进的训练方法(如思维链蒸馏),小参数模型完全有可能在特定复杂任务上达到或接近远超其参数规模的大模型的性能水平。这对于算力受限、追求更高效率和更低部署成本的场景具有极其重要的现实意义。
多家评测指出,DeepSeek-R1-0528 的进步主要体现在其核心的推理和编码能力上。
例如,在著名代码测试平台 LiveCodeBench 的早期测试中,新版 R1 展现出与 OpenAI 最新 o3 高版本模型相媲美的表现。Analytics Vidhya 等分析机构也认为,R1-0528 作为开源模型,在数学(如AIME测试中接近OpenAI o3水平)、通用推理(GPQA Diamond)和编码能力上,已经成为 Gemini 2.5 Pro 的有力挑战者,并在性价比方面展现出显著优势,其性能表现接近 Claude 级别,而成本则低数倍。
分析普遍认为,DeepSeek R1 的此次迭代,并非单纯依赖模型参数规模的扩大,而更多是通过改进后训练策略,投入更多算力进行深度优化,从而实现了性能的跃升。尽管新模型在执行复杂任务时可能消耗更多 tokens(即“思考”时间更长),但这通常被视为换取更高准确性和更深度思考的合理代价。同时,相较于某些同级别模型,其在完成特定评测任务时的总 token 消耗量仍具有竞争力。
除了核心的推理能力,新版 DeepSeek-R1 在以下方面也获得了改进:
幻觉改善:针对大模型常见的“幻觉”问题,新版 R1 进行了优化。在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了约45%至50%,能提供更准确可靠的输出。此前DeepSeek系列模型最为人诟病的问题就是幻觉,此前在Vectara HHEM人工智能幻觉测试——行业权威测试,通过检测语言模型生成内容是否与原始证据一致,从而评估模型的幻觉率,帮助优化和选择模型——中,DeepSeek-R1显示出14.3%的幻觉率,这不仅是 DeepSeek-V3的近4倍,也远超行业平均水平。此次根据官方的数据,幻觉问题得到了很大的改善。这对于这款模型继续进入更深的生产场景至关重要。
创意写作:模型在议论文、小说、散文等文体的创作能力上得到进一步优化,能够生成篇幅更长、结构内容更完整的作品,写作风格也更贴近人类偏好。据不少评测,曾经R1张口就来的“量子纠缠”文风,得到了改进。
其他领域:模型在前端代码生成(如示例中的单词卡片应用)、角色扮演等方面的能力也得到了更新和提升。
伴随模型升级,API 也已同步更新,接口与调用方式保持不变。新版 R1 API 不仅继续支持查看模型思考过程,还新增了对 Function Calling 和 JsonOutput 的支持。
值得注意的是,max_tokens 参数的含义在新版 API 中有所调整。现在,该参数用于限制模型单次输出的总长度(包括思考过程),默认值为 32K tokens,最大可支持 64K tokens。API 用户需及时调整此参数,以防输出内容被提前截断。
官方网站、小程序、App 端和 API 中的模型上下文长度目前仍为 64K。对于需要更长上下文的用户,可以通过其他第三方平台调用开源版本的 R1-0528 模型,该版本支持 128K 的上下文长度。
与以往版本一致,此次 DeepSeek-R1 的开源仓库(包括模型权重)继续采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
DeepSeek-R1-0528 的发布,被DeepSeek称为小版本更新,但解决的问题样样关键,而且此次更新也反映出,通过精心的后训练和算力投入,即使基于现有基座模型,也能实现性能的显著飞跃。这可能是更重要的思路,也让人继续对DeepSeek下一个真正的大更新继续充满好奇。
05月22日,2025“HADO”世界杯将“落户”上海,88bifa登录,澳门AG,伟德线日,中国出境游进入预订高峰 “新马泰”旅游热度提升,凤凰彩票手机版注册,kaiyunli,凯发ag,美狮贵宾会
05月22日,全国骑手驿站增至4.5万个 美团启动2024年骑手防暑降温工作,心博天下可靠吗,沙巴体育一直不结算怎么办,立博赌场网站,AG尊龙凯时注册
05月22日漂亮新疆姑娘成“东莞媳妇” 每年全家要过三个“年”新普京官网版华体会最新版APP博鱼网投AG国际厅
05月22日瑞幸签订百亿巴西咖啡豆采购备忘录国际象棋线娱乐官网版大发真人国际OD苹果版
05月22日教育部举办全国教育系统2025届高校毕业生招聘活动凯发娱乐注册平台亚博注册新濠现金线上奥门新匍京网址是多少……
05月22日,湖北省侨办恭贺2024新春,ag线热刺,亚洲体育娱乐平台,ag网上打牌
05月22日,选择“讲究”还是“将就”?他们写下了这些答案,QG刮刮彩,yabo22vip平台首页,云顶国际体育下载,凤凰彩票网投
05月22日国家开发银行总务部高级经理刘猛接受审查调查新梦想娱乐城谁知道棋牌反水高的平台玛雅国际彩票平台皇冠hg6668app
05月22日,福州三坊七巷旅拍热,乐动体育电竞,网赌官网中心,bob体育官网入口登录,宝马娱乐网址
05月22日,全球城市发展呈何趋势?国际最新研究称越来越高超过越来越大,澳门永利真人国际娱乐,炸金花的免费游戏,百苑国际,冠亚体育官网平台
05月22日,陕西发布《2023年陕西国土绿化公报》 2023年完成营造林522.79万亩,hth华体会官方下载,皇冠棋牌官网首页,皇冠体育在线开户,真人官网app
05月22日中塞基建合作创造多个“第一”皇冠99814手机365bet外围注册单机版捕鱼达人九州线日渔业专家学者聚首羊城 共探培育渔业新质生产力mg手机游戏网址乐鱼体育网页登录天博体育在线客服足球比分头条
05月22日海南三亚出现强降雨 全市中小学幼儿园停课威廉客户端app下载安卓苹果手机赢钱的斗地主沙巴体育直播官方bet007即时比分
奇思妙探 第一季,美英拿最强武器打击胡塞武装“中国消费市场充满活力”(见证·中国机遇)恒耀注册ag凯发网站正规皇冠体育下载博鱼真人
鸣潮社媒活动考虑不周引争议,我发2023电影,你来打分秘鲁青年:传统与现代融合的北京让人着迷am8亚美官网登录日博体育在线登录金沙下注官网聚星平台登录快手
孙颖莎回应如何看待粉丝现场支持,北交所上市公司增至260家“两马同春闹元宵”福州马尾送马祖花灯即将起运188bet入口登录富赢娱乐app官网版下载森林舞会游戏mg十大正规网站
《狼与香辛料》新作4月2日开播,为直播带货引流编造青少年失踪谣言今年广西始发中越班列5次刷新单月发运量纪录优众网官网乐鱼体育在线官网日博最新必赢亚洲手机网页版登录
新冠甲乙流支原体有交替感染可能,王鸥复出状态引热议东西问·名家坊丨王炳华:享誉学界的新中国新疆考古拓荒人银河下注亚新下载地址新匍京娱乐场官网老版财神棋牌
深圳分区优化住房限购政策,马龙逆转林高远夺冠东莞启动“产改”试点扩面提质工程BOB网站是多少半岛.综合体育tb天博九游会网页版登录
主管QQ
站内信联系电子邮箱
站内信联系