日前,AI初创企业Deepseek(深度求索)方面更新了其API开放平台的支持文档,宣布DeepSeek V2 Chat与DeepSeek Coder V2两个模型合并升级为DeepSeek V2.5(以下简称为V2.5)。
据Deepseek方面介绍,升级后推出的V2.5模型在通用能力、代码能力上都显著超过了此前的版本。其中在代码生成方面,V2.5在原DeepSeek Coder V2 0724的基础上进行了加强,对常见编程场景进行了优化,并在标准测试集上取得了不错的成绩,即在HumanEval上胜率达到89%、在LiveCodeBench(1-9月)的评分也达到了41%。
同时在中英文不同难度的测试集上,V2.5与GPT-4对战的胜率也显著提升,在ArenaHard测试中前者的胜率从68.3%升至76.3%、在AlpacaEval2.0LC测试中也从46.61%提升至50.52%。这就意味着V2.5在理解复杂问题和提供解决方案方面具备不错的能力,也反映出其在中英文不同环境下的适应性、准确性。
除了与GPT-4对战的胜率提升之外,V2.5在其他评分指标上也有所进步。其中在由80个高质量多轮对话问题组成的基准测试MT-Bench中,其成绩从8.84提高到了9.02。在用于评估中文大语言模型对齐性能的多维度基准AlignBench中,分数也由7.88升至8.04。
Deepseek方面透露,为了向前兼容,目前其API开放平台用户通过DeepSeek Coder与DeepSeek Chat均可访问V2.5模型。
据了解,Deepseek成立于2023年,专注于研究先进的通用AI模型和技术。自成立以来,该公司已开发、并开源多个数十亿参数的大模型,包括DeepSeek LLM通用语言模型和DeepSeek Coder模型。
除了推出新的V2.5模型外,近日Deepseek方面还将硬件和软件设计协同融合、开发了一个名为Fire-Flyer AI-HPC的综合框架,以实现性能优化、成本效益和节能。其中实施的Fire-Flyer 2系统具有10000个PCIe A100 GPU专为深度学习训练构建,据称该系统的性能水平与业界领先的NVIDIA DGX-A100相当,并且成本降低50%、能耗降低了40%。
【本文图片来自网络】