火山引擎发布豆包视觉理解模型,输入价格仅3厘

在日前举行的2024火山引擎FORCE原动力大会·冬上,字节跳动旗下火山引擎方面正式发布豆包视频理解模型。据悉,该模型已接入豆包App和PC端产品,每千tokens的输入价格仅0.003元、较行业平均价格降低85%,相当于一元钱可处理284张720P图片,让视觉理解模型正式进入厘时代。

字节发布豆包视觉理解模型,拓展大模型场景边界

据官方介绍,豆包视频理解模型不仅可以识别出图像中的物体类别、形状等基本要素,还能理解物体之间的关系、空间布局,以及场景的整体含义。同时,其能够根据所识别的文字和图像信息进行复杂的逻辑计算,甚至还能基于图像信息、更细腻地描述图像呈现的内容,并进行包括诗歌、故事在内的多种文体创作。此外,该模型还支持同时输入文本和图像相关的问题,并能在进行综合理解后给出准确的回答。


得益于出色的视觉理解能力,豆包视频理解模型能够极大简化应用的开发流程、解锁更多的大模型价值场景,并在教育、旅游、电商等场景有着非常广泛的应用。例如在电商营销场景中,该模型可帮助商家充分描述商品细节,或是高效发布种草广告等。


对此火山引擎方面表示,视觉理解能力将极大拓展大模型的场景边界,为大模型的场景使用打开天花板,在金融、医疗、建筑、地理、体育、物流等诸多行业还有非常广阔的应用前景。

字节发布豆包视觉理解模型,拓展大模型场景边界

值得一提的是,在此次活动中,火山引擎方面还发布了豆包3D生成模型和豆包音乐模型4.0。其中,豆包3D生成模型可以与火山引擎数字孪生平台veOmniverse结合使用,两者能通过云上协同显著提升创作效率,从而高效完成智能训练、数据合成和数字资产制作,成为一套支持AIGC创作的物理世界仿真模拟器。


豆包音乐模型4.0则支持输入歌词生成音乐,从1分钟“高光片段”创作升级为包括前奏、主歌、副歌、间奏、过渡段的完整3分钟全曲创作,并对旋律、节奏、和声等元素的运用也更加合理,还支持用户对生成的歌词进行局部修改。


除了推出新模型之外,日前豆包通用模型Pro也完成了新版本的迭代,综合任务处理能力较5月份提升32%。同时官方透露,豆包视频生成模型将于2025年1月正式对外开放服务,用户可在火山引擎官网预约正式服务。


根据官方公布的相关数据显示,今年12月豆包大模型日均tokens使用量超过4万亿、较5月发布时增长超过33倍。近3个月以来,豆包大模型在信息处理场景的调用量增长了39倍、在客服与销售场景增长16倍、硬件助手场景增长13倍,AI工具场景则增长9倍,并且还在陆续覆盖更多的场景。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看