Deepseek AI模型合并升级，已进行多方面优化

时间：2024年09月09日栏目：互联网来源：原创编辑：望春风

日前，AI初创企业Deepseek（深度求索）方面更新了其API开放平台的支持文档，宣布DeepSeek V2 Chat与DeepSeek Coder V2两个模型合并升级为DeepSeek V2.5（以下简称为V2.5）。

Deepseek AI模型合并升级，推出V2.5新版本

据Deepseek方面介绍，升级后推出的V2.5模型在通用能力、代码能力上都显著超过了此前的版本。其中在代码生成方面，V2.5在原DeepSeek Coder V2 0724的基础上进行了加强，对常见编程场景进行了优化，并在标准测试集上取得了不错的成绩，即在HumanEval上胜率达到89%、在LiveCodeBench（1-9月）的评分也达到了41%。

同时在中英文不同难度的测试集上，V2.5与GPT-4对战的胜率也显著提升，在ArenaHard测试中前者的胜率从68.3%升至76.3%、在AlpacaEval2.0LC测试中也从46.61%提升至50.52%。这就意味着V2.5在理解复杂问题和提供解决方案方面具备不错的能力，也反映出其在中英文不同环境下的适应性、准确性。

除了与GPT-4对战的胜率提升之外，V2.5在其他评分指标上也有所进步。其中在由80个高质量多轮对话问题组成的基准测试MT-Bench中，其成绩从8.84提高到了9.02。在用于评估中文大语言模型对齐性能的多维度基准AlignBench中，分数也由7.88升至8.04。

Deepseek方面透露，为了向前兼容，目前其API开放平台用户通过DeepSeek Coder与DeepSeek Chat均可访问V2.5模型。

据了解，Deepseek成立于2023年，专注于研究先进的通用AI模型和技术。自成立以来，该公司已开发、并开源多个数十亿参数的大模型，包括DeepSeek LLM通用语言模型和DeepSeek Coder模型。

除了推出新的V2.5模型外，近日Deepseek方面还将硬件和软件设计协同融合、开发了一个名为Fire-Flyer AI-HPC的综合框架，以实现性能优化、成本效益和节能。其中实施的Fire-Flyer 2系统具有10000个PCIe A100 GPU专为深度学习训练构建，据称该系统的性能水平与业界领先的NVIDIA DGX-A100相当，并且成本降低50%、能耗降低了40%。

【本文图片来自网络】