火山引擎发布大模型训练云平台，支持万卡训练

时间：2023年04月18日栏目：互联网来源：原创编辑：长生

在今天举行的2023春季FORCE原动力大会上，字节跳动旗下云服务平台火山引擎方面发布了自研DPU（Data Processing Unit，中央处理器分散处理单元）、云原生平台、多云安全、多云CDN、veStack混合云平台等一系列云产品。

其中，火山引擎新一代自研DPU已达到业界领先水平，网络性能高达5000万pps转发能力、延迟低至20u，可实现计算、存储、网络的全组件卸载，释放更多资源给业务负载。

nEO_IMG_微信图片_20230418123236.jpg

同时在此次活动中，火山引擎方面还推出了新版机器学习平台。据了解，该平台支持万卡级大模型训练、微秒级延迟网络，可让训练更稳更快，并且弹性计算可高节省70%的算力成本。而且基于火山引擎自研DPU，适用于大模型分布式并行训练场景的GPU实例比上一代集群性能最高提升三倍以上。

对此火山引擎总裁谭待表示，目前国内很多公司已投入到大模型建设中，他们有优秀的技术团队，也有丰富的行业知识和创新想法，但往往缺乏经过大规模场景实践的系统工程能力，而火山引擎要做的就是为大模型客户提供高稳定性和高性价比的AI基础设施。

此外他还指出，托管大模型训练大模型需要消耗巨大的算力与成本，上云是解决算力问题的最优解。据其透露，“国内大模型领域的数十家企业，超过七成已经在火山引擎云上”。

并且谭待还认为，未来大模型领域不会一家独大。在他看来，在大模型及下游应用发展推动下，无论传统企业还是初创企业，对AI算力都有迫切需求，企业使用多家云服务将成为常态，同时由于各行业都有自己高质量的私有语料，大模型不会一家独大，而是会在千行百业生长，形成多模型共生甚至协作的生态。

字节跳动副总裁杨震原则认为，业务创新需要试错，试错要大胆、敏捷，但试错也一定要控制成本，而通过潮汐、混部等方式，火山引擎可实现资源的高利用率和极低成本。以抖音推荐系统为例，工程师用15个月的样本训练某个模型，5小时就能完成训练，成本仅为5000元。

此外，火山引擎方面还宣布将与字节跳动国内业务并池。据了解，基于内外统一的云原生基础架构，抖音等业务的空闲计算资源将可调度给火山引擎客户使用，离线业务资源可实现分钟级调度10万核CPU，在线业务资源也可潮汐复用，弹性计算抢占式实例相比常规产品最高优惠80%以上。

【本文图片来自网络】

加入收藏 点赞(0) 踩(0)