豆包大模型评测成绩公布,较上代“云雀”提升19%

继此前在2024春季火山引擎FORCE原动力大会上,字节跳动方面正式发布自主研发的豆包(原名云雀)大模型,并宣布该系列大模型将通过火山引擎正式对外提供服务,企业可根据自身业务场景需求灵活选择、快速落地后。在火山引擎方面日前披露的一份产品资料中,豆包模型团队公布了一期内部测试结果。


据悉此次评测在本月完成,主要包括豆包通用模型Pro、云雀Skylark2在内的九款国产大模型。除云雀Skylark2以外,其他模型均为各厂商最新发布的高级版本,并通过API调用进行测试。


此次评测结果显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,豆包Pro-4k的总分为76.8分,相比上一代模型云雀Skylark2的64.5分提升了19%,也优于同期测试的其他国产模型。相较之下,据OpenAI方面公布的测试成绩,GPT-4在这些评测集上的总分为80.1分,相比国产模型仍有一定领先优势。

豆包大模型披露评测成绩,较上一代“云雀”提升19%

具体而言,在评估代码能力的两个评测集HumanEval和MBPP上,豆包相比上一代模型提升了50%左右;在专业知识和指令遵循的评测集上,豆包分别获得33%和24%的性能提升,同时也是得分最高的国产模型。此外在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现、得分均排在前三。


据了解,此前在2023年,豆包大模型就已在字节跳动内部完成上线,同时其也是首批通过大模型服务安全备案的大模型之一。截至目前,字节跳动内部50多个业务已经大量使用豆包大模型进行AI创新,包括抖音、头条等数亿DAU产品,该大模型目前日均处理1200亿tokens文本、生成3000万张图片。除通用模型pro外,豆包大模型还有通用模型lite、角色扮演模型、语音合成模型、声音复刻模型、语音识别模型、文生图模型、Function call模型、向量化模型等多个版本。


值得一提的是,此前在2024春季火山引擎FORCE原动力大会上,字节跳动产品和战略副总裁朱骏还介绍了字节跳动基于豆包大模型打造AI原生应用的产品理念。当时他曾表示,技术在快速演化,但用户核心的需求没有改变,比如高效获取信息的需求、工作提效的需求、自我表达的需求、社交娱乐的需求等。字节跳动做了很多学习和探索,希望找到适合的大模型应用形态,以自然的交互形式服务用户,走入更多人的生活和工作。


据悉,基于豆包大模型打造的同名AI对话助手“豆包”,是字节跳动重点投入的大模型应用。据朱骏透露,豆包平台月度活跃用户已达到2600万,并已有超过800万个智能体被创建。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看