日前,DeepSeek线上大模型升级至V3.1版本,上下文长度从原有的64k拓展至128k,相当于大约10万至13万汉字。目前用户可通过官方网页、App、小程序使用,同时该模型API接口调用方式保持不变。
至于新模型为何被命名为V3.1,而不是像之前一样命名为V3带四位日期数字的形式(如V3-0324),DeepSeek方面尚未给出明确说明。
据了解,DeepSeek V3.1现已上传至Hugging Face,但目前仅开源未经指令微调的Base版本。该模型采用混合专家(MoE)架构,与DeepSeek V3-0324相比参数量、张量类型没有明显变化。
据相关测试显示,DeepSeek V3.1在在编程、物理定律理解、创意写作、数学、回答语气等方面都出现了不同程度的提升和变化。
此外值得一提的是,日前DeepSeek网页、App的UI均迎来更新,将“深度思考(R1)”改为“深度思考”。对此有观点认为,“这或是融合推理模型与非推理模型的征兆”。
需要注意的是,虽然市场期盼DeepSeek R2已有一段时间,并且在ChatGPT-5发布之后预期更盛,但截至目前,DeepSeek方面尚未披露DeepSeek R2相关信息。
此前在今年4月就曾有传言称,DeepSeek方面可能将在今年5月推出DeepSeek R2,并称该模型将采用一种更先进的混合专家架构。但随后DeepSeek方面并未推出DeepSeek R2,而是发布了DeepSeek R1的新版本。
随后在8月初又有传言称,DeepSeek R2有望在8月15日至30日期间发布。但DeepSeek方面对此予以否认,并称DeepSeek R2在8月内并无发布计划。
【本文图片来自网络】