小米14 Pro vivo X100 一加12 iPhone 15 iQOO 12

谷歌召开I/O开发者大会，发布多项更新及新品

时间：2024年05月15日栏目：互联网来源：原创编辑：长生

日前，谷歌在美国加利福尼亚州山景城总部附近的海岸线圆形剧场召开2024年度I/O开发者大会，并发布了十余项更新及新品，其中多数与人工智能（AI）相关。例如升级大模型Gemini 1.5 Pro，发布轻量化小模型Gemini 1.5 Flash、全新视频生成模型Veo、新一代图像生成模型Imagen 3、新一代开源模型Gemma 2、AI智能体项目Project Astra，以及为谷歌搜索引入“AI概览”（AI Overviews）功能、多步骤推理能力等。据了解，在长达近两个小时的此次主题演讲中，谷歌CEO桑达尔·皮查伊提及AI的次数更是达到了121次。

具体而言，新的Gemini 1.5 Pro上下文长度已由此前的100万tokens增至200万tokens，并全面支持Workspace。同时Gemini 1.5 Pro还能够遵循更加复杂和细微的指示，包括指定产品级行为的指示，如角色、格式和风格等。目前Gemini 1.5 Pro已支持超过150个国家的35种语言，并面向全球开发者开放，开发者可通过Gemini Advanced订阅服务体验。

谷歌召开2024 I/O开发者大会，发布多项更新及新品

而Gemini 1.5 Flash则是Gemini 1.5 Pro更具成本效益的替代方案，旨在满足开发者对低延迟和低成本的需求。据了解，Gemini 1.5 Flash定位在Gemini 1.5 Pro和Gemini 1.5 Nano之间，收费标准为每100万token 35美分。据谷歌DeepMind首席执行官德米斯·哈萨比斯透露，Gemini 1.5 Flash在摘要生成、聊天应用、图像和视频字幕，以及从长文档和表格中提取数据等方面表现出色，为开发者提供了更强大的支持。目前，超过200个国家的开发者已能够在Google AI Studio和Vertex AI中使用Gemini 1.5 Flash。

而视频生成模型Veo则可以根据文本、图像输入创建超过60秒的高质量1080p视频，并支持用户对光照、镜头语言、视频色调风格等细节进行设定。值得一提的是，Veo还能够理解专业的电影和视觉技术相关的术语，例如延时拍摄、航拍风景等。对此谷歌方面强调，Veo生成的视频将展现出极高的连贯性和一致性，无论是人物、动物，还是物体的动作，都将呈现出令人惊叹的逼真效果。

新一代开源模型Gemma 2则采用了全新的架构，且在保持卓越性能的同时参数规模仅27B、不足Llama 3 70B的一半。据悉，为降低部署成本，Gemma 2采用了高效设计，所需的计算量少于同类模型的一半。此外，Gemma 2还为开发人员提供了强大的调优功能，支持跨越不同平台和工具生态系统的应用。据悉，Gemma 2将在未来几周内正式公开上线和发布。

与前代产品Imagen 2相比，Imagen 3的理解能力得到进一步提升，能够更准确地理解文本提示。同时Imagen 3生成的图像在视觉丰富度和质量方面也有了显著的提升，它能够准确地渲染小细节，如人手上的细微皱纹和复杂的纹理。值得一提的是，为了缓解公众对深度伪造技术的担忧，谷歌方面还宣布Imagen 3将采用DeepMind开发的SynthID方法，在生成的图像中添加隐形加密水印，以确保内容的可追溯性和安全性。

谷歌召开2024 I/O开发者大会，发布多项更新及新品

Project Astra则被描绘为一个实时、多模式的AI助手，其能够接收信息、记忆内容、处理信息并理解上下文细节，从而与周围环境进行交互。在谷歌方面发布的演示视频中，Project Astra展现了出色的语音交互能力，无需任何唤醒词即可即时回答用户的问题，并帮助完成各种任务。值得一提的是，Project Astra不仅能够识别静态图像，还能处理视频内容，甚至能够记住并准确识别一闪而过的物品。在此次发布会上，谷歌方面还透露了一些关于Project Astra的未来计划，例如DeepMind团队正在研究如何将多模态模型更好地整合在一起，并寻求在超大型通用模型与更小、更集中的模型之间找到平衡。

此外，谷歌搜索的“AI概览”功能将率先面向美国用户推出。据了解，得益于AI概览功能，谷歌搜索将能够为用户归纳总结搜索结果，同时谷歌搜索也将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题，并支持“拍视频”搜索解决方案的新搜索形式。

【本文图片来自网络】