iQOO 13 一加13 vivo X200 Pro OPPO Find X8 Pro

火山引擎发布豆包视觉理解模型，输入价格仅3厘

时间：2024年12月19日栏目：互联网来源：原创编辑：望春风

在日前举行的2024火山引擎FORCE原动力大会·冬上，字节跳动旗下火山引擎方面正式发布豆包视频理解模型。据悉，该模型已接入豆包App和PC端产品，每千tokens的输入价格仅0.003元、较行业平均价格降低85%，相当于一元钱可处理284张720P图片，让视觉理解模型正式进入厘时代。

字节发布豆包视觉理解模型，拓展大模型场景边界

据官方介绍，豆包视频理解模型不仅可以识别出图像中的物体类别、形状等基本要素，还能理解物体之间的关系、空间布局，以及场景的整体含义。同时，其能够根据所识别的文字和图像信息进行复杂的逻辑计算，甚至还能基于图像信息、更细腻地描述图像呈现的内容，并进行包括诗歌、故事在内的多种文体创作。此外，该模型还支持同时输入文本和图像相关的问题，并能在进行综合理解后给出准确的回答。

得益于出色的视觉理解能力，豆包视频理解模型能够极大简化应用的开发流程、解锁更多的大模型价值场景，并在教育、旅游、电商等场景有着非常广泛的应用。例如在电商营销场景中，该模型可帮助商家充分描述商品细节，或是高效发布种草广告等。

对此火山引擎方面表示，视觉理解能力将极大拓展大模型的场景边界，为大模型的场景使用打开天花板，在金融、医疗、建筑、地理、体育、物流等诸多行业还有非常广阔的应用前景。

字节发布豆包视觉理解模型，拓展大模型场景边界

值得一提的是，在此次活动中，火山引擎方面还发布了豆包3D生成模型和豆包音乐模型4.0。其中，豆包3D生成模型可以与火山引擎数字孪生平台veOmniverse结合使用，两者能通过云上协同显著提升创作效率，从而高效完成智能训练、数据合成和数字资产制作，成为一套支持AIGC创作的物理世界仿真模拟器。

豆包音乐模型4.0则支持输入歌词生成音乐，从1分钟“高光片段”创作升级为包括前奏、主歌、副歌、间奏、过渡段的完整3分钟全曲创作，并对旋律、节奏、和声等元素的运用也更加合理，还支持用户对生成的歌词进行局部修改。

除了推出新模型之外，日前豆包通用模型Pro也完成了新版本的迭代，综合任务处理能力较5月份提升32%。同时官方透露，豆包视频生成模型将于2025年1月正式对外开放服务，用户可在火山引擎官网预约正式服务。

根据官方公布的相关数据显示，今年12月豆包大模型日均tokens使用量超过4万亿、较5月发布时增长超过33倍。近3个月以来，豆包大模型在信息处理场景的调用量增长了39倍、在客服与销售场景增长16倍、硬件助手场景增长13倍，AI工具场景则增长9倍，并且还在陆续覆盖更多的场景。

【本文图片来自网络】

加入收藏 点赞(0) 踩(0)

火山引擎发布豆包视觉理解模型，输入价格仅3厘

最新文章

相关文章

资讯APP上看三易生活

大家都在看