日前,DeepSeek方面宣布旗下DeepSeek-R1模型已完成小版本升级、当前版本为DeepSeek-R1-0528。据了解,目前用户通过DeepSeek官方网站、App或小程序进入对话界面后,开启“深度思考”功能即可体验DeepSeek-R1-0528,同时API也已同步更新,调用方式不变。
据DeepSeek方面介绍,DeepSeek-R1-0528仍然使用发布于2024年12月的DeepSeek V3 Base 模型作为基座,但得益于在后训练过程中投入更多算力,其思维深度与推理能力得到了“显著提升”。
DeepSeek方面公布的相关信息中显示,DeepSeek-R1-0528在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如o3与Gemini-2.5-Pro。
同时DeepSeek方面还蒸馏DeepSeek-R1-0528的思维链后训练Qwen3-8B Base,得到了DeepSeek-R1-0528-Qwen3-8B。据了解,该模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528,超越了Qwen3-8B ,与Qwen3-235B相当。对此DeepSeek方面表示,“我们相信,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义”。
据悉,DeepSeek-R1-0528的升级与更新还涉及幻觉、创意写作、工具调用等方面。其中在幻觉方面,与旧版相比,DeepSeek-R1-0528在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45-50% ,能够有效地提供更为准确、可靠的结果。
在创意写作方面,在旧版本的基础上,DeepSeek-R1-0528针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。二在工具调用方面,与旧版相比,DeepSeek-R1-0528已支持工具调用,并且其在Tau-Bench的测评成绩为airline 53.5%/retail 63.9%,与OpenAI o1-high相当。
值得一提的是,在DeepSeek-R1-0528发布后,独立AI分析网站Artificial Analysis方面表示,DeepSeek一举超越xAI、Meta和 Anthropic,与谷歌并列成为全球第二大人工智能实验室,并成为"开源权重领域无可争议的领导者"。
据了解,DeepSeek-R1-0528在Artificial Analysis智能指数中的得分从60分跃升至68分,这一提升幅度与OpenAI的o1模型到o3模型的差距相当。
【本文图片来自网络】