DeepSeek灰测“识图模式”,支持多模态识别能力

日前有消息显示,DeepSeek已开始灰测“识图模式”,并且其拥有一级入口,与现有的“快速模式”、“专家模式”并列。据称,DeepSeek“识图模式”并非简单的OCR文字提取,而是具备完整的复杂多模态识别与深度图像理解能力。目前有用户实测了上传食品包装、概念手机图等,DeepSeek能准确识别品牌、成分、设计特征,并给出实用建议。

DeepSeek灰测“识图模式”,支持多模态识别能力

在响应速度上,有用户实测后表示,图片上传后的解析、理解、响应全流程,几乎和纯文本对话无差别,“速度上感觉和‘快速模式’比较类似,很快”。


截至目前,DeepSeek方面尚未对此进行回应。但DeepSeek多模态团队研究员陈小康在社交平台发文称“Now, we see you”,并配以“鲸鱼(DeepSeek的logo)摘下眼罩”的图片。

DeepSeek灰测“识图模式”,支持多模态识别能力

不久前,DeepSeek方面发布全新的系列模型DeepSeek-V4预览版,包括DeepSeek-V4-Pro和DeepSeek-V4-Flash。其中,DeepSeek-V4-Pro参数达1.6T,激活参数达49B,在数学、STEM、竞赛型代码的测评中,超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的成绩。在世界知识测评中,DeepSeek-V4-Pro也大幅领先其他开源模型,仅稍逊于Gemini-Pro-3.1。而在Agent能力上,DeepSeek-V4-Pro在Agentic Coding评测中达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。


值得一提的是,在API价格上,日前DeepSeek方面宣布DeepSeek-V4-Pro的2.5折优惠活动将延长至今年5月31日23:59(此前优惠活动持续至5月6日)。目前,DeepSeek-V4-Pro的输入价格(缓存命中)为0.025元(每百万tokens),输入价格(缓存未命中)为3元,输出价格为6元。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看