火山引擎发布大模型训练云平台,支持万卡训练

在今天举行的2023春季FORCE原动力大会上,字节跳动旗下云服务平台火山引擎方面发布了自研DPU(Data Processing Unit,中央处理器分散处理单元)、云原生平台、多云安全、多云CDN、veStack混合云平台等一系列云产品。


其中,火山引擎新一代自研DPU已达到业界领先水平,网络性能高达5000万pps转发能力、延迟低至20u,可实现计算、存储、网络的全组件卸载,释放更多资源给业务负载。

nEO_IMG_微信图片_20230418123236.jpg

同时在此次活动中,火山引擎方面还推出了新版机器学习平台。据了解,该平台支持万卡级大模型训练、微秒级延迟网络,可让训练更稳更快,并且弹性计算可高节省70%的算力成本。而且基于火山引擎自研DPU,适用于大模型分布式并行训练场景的GPU实例比上一代集群性能最高提升三倍以上。


对此火山引擎总裁谭待表示,目前国内很多公司已投入到大模型建设中,他们有优秀的技术团队,也有丰富的行业知识和创新想法,但往往缺乏经过大规模场景实践的系统工程能力,而火山引擎要做的就是为大模型客户提供高稳定性和高性价比的AI基础设施。


此外他还指出,托管大模型训练大模型需要消耗巨大的算力与成本,上云是解决算力问题的最优解。据其透露,“国内大模型领域的数十家企业,超过七成已经在火山引擎云上”。

nEO_IMG_1681792683239.jpg

并且谭待还认为,未来大模型领域不会一家独大。在他看来,在大模型及下游应用发展推动下,无论传统企业还是初创企业,对AI算力都有迫切需求,企业使用多家云服务将成为常态,同时由于各行业都有自己高质量的私有语料,大模型不会一家独大,而是会在千行百业生长,形成多模型共生甚至协作的生态。


字节跳动副总裁杨震原则认为,业务创新需要试错,试错要大胆、敏捷,但试错也一定要控制成本,而通过潮汐、混部等方式,火山引擎可实现资源的高利用率和极低成本。以抖音推荐系统为例,工程师用15个月的样本训练某个模型,5小时就能完成训练,成本仅为5000元。


此外,火山引擎方面还宣布将与字节跳动国内业务并池。据了解,基于内外统一的云原生基础架构,抖音等业务的空闲计算资源将可调度给火山引擎客户使用,离线业务资源可实现分钟级调度10万核CPU,在线业务资源也可潮汐复用,弹性计算抢占式实例相比常规产品最高优惠80%以上。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看