DeepSeek新模型或即将发布,编程能力超越GPT

日前有消息源透露,DeepSeek或将在2月中旬,也就是2026年春节前后发布新一代模型DeepSeek V4。但相关消息源表示,这一发布时间仍有可能发生变动。


据称,DeepSeek V4在处理超长编码提示方面实现了突破,内部测试表明,DeepSeek V4编程任务的表现超过了目前市场上的主流竞品,其中包括Anthropic的Claude和OpenAI的GPT系列。

DeepSeek新模型或春节前后发布,编程表现超GPT

据相关消息源透露,DeepSeek V4在训练机制上也取得了突破,并表示“该模型在整个训练过程中理解数据模式的能力也有所改进,且性能未出现衰减”。


但截至目前,DeepSeek方面尚未对此进行回应。


此前在2025年12月,DeepSeek方面正式发布DeepSeek V3.2系列,包括DeepSeek-V3.2和DeepSeek-V3.2-Speciale。其中,DeepSeek-V3.2的目标是平衡推理能力与输出长度,适用于问答、通用Agent任务等日常使用场景等。据DeepSeek公布的相关信息中显示,在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro。


而DeepSeek-V3.2-Speciale则是DeepSeek-V3.2的长思考增强版,具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro,并成功斩获IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。


此外值得一提的,2025年年底DeepSeek方面还发布了一篇新论文,提出一种名为mHC(流形约束超连接)的新架构,旨在解决传统超连接架构(Hyper-Connections)在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。相关论文中的数据显示,在3B、9B乃至18B参数规模的模型测试中,应用mHC架构的模型在BIG-BenchHard推理基准上提升2.1%。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看