谷歌召开I/O开发者大会,发布多项更新及新品

日前,谷歌在美国加利福尼亚州山景城总部附近的海岸线圆形剧场召开2024年度I/O开发者大会,并发布了十余项更新及新品,其中多数与人工智能(AI)相关。例如升级大模型Gemini 1.5 Pro,发布轻量化小模型Gemini 1.5 Flash、全新视频生成模型Veo、新一代图像生成模型Imagen 3、新一代开源模型Gemma 2、AI智能体项目Project Astra,以及为谷歌搜索引入“AI概览”(AI Overviews)功能、多步骤推理能力等。据了解,在长达近两个小时的此次主题演讲中,谷歌CEO桑达尔·皮查伊提及AI的次数更是达到了121次。


具体而言,新的Gemini 1.5 Pro上下文长度已由此前的100万tokens增至200万tokens,并全面支持Workspace。同时Gemini 1.5 Pro还能够遵循更加复杂和细微的指示,包括指定产品级行为的指示,如角色、格式和风格等。目前Gemini 1.5 Pro已支持超过150个国家的35种语言,并面向全球开发者开放,开发者可通过Gemini Advanced订阅服务体验。

谷歌召开2024 I/O开发者大会,发布多项更新及新品

而Gemini 1.5 Flash则是Gemini 1.5 Pro更具成本效益的替代方案,旨在满足开发者对低延迟和低成本的需求。据了解,Gemini 1.5 Flash定位在Gemini 1.5 Pro和Gemini 1.5 Nano之间,收费标准为每100万token 35美分。据谷歌DeepMind首席执行官德米斯·哈萨比斯透露,Gemini 1.5 Flash在摘要生成、聊天应用、图像和视频字幕,以及从长文档和表格中提取数据等方面表现出色,为开发者提供了更强大的支持。目前,超过200个国家的开发者已能够在Google AI Studio和Vertex AI中使用Gemini 1.5 Flash。


而视频生成模型Veo则可以根据文本、图像输入创建超过60秒的高质量1080p视频,并支持用户对光照、镜头语言、视频色调风格等细节进行设定。值得一提的是,Veo还能够理解专业的电影和视觉技术相关的术语,例如延时拍摄、航拍风景等。对此谷歌方面强调,Veo生成的视频将展现出极高的连贯性和一致性,无论是人物、动物,还是物体的动作,都将呈现出令人惊叹的逼真效果。


新一代开源模型Gemma 2则采用了全新的架构,且在保持卓越性能的同时参数规模仅27B、不足Llama 3 70B的一半。据悉,为降低部署成本,Gemma 2采用了高效设计,所需的计算量少于同类模型的一半。此外,Gemma 2还为开发人员提供了强大的调优功能,支持跨越不同平台和工具生态系统的应用。据悉,Gemma 2将在未来几周内正式公开上线和发布。


与前代产品Imagen 2相比,Imagen 3的理解能力得到进一步提升,能够更准确地理解文本提示。同时Imagen 3生成的图像在视觉丰富度和质量方面也有了显著的提升,它能够准确地渲染小细节,如人手上的细微皱纹和复杂的纹理。值得一提的是,为了缓解公众对深度伪造技术的担忧,谷歌方面还宣布Imagen 3将采用DeepMind开发的SynthID方法,在生成的图像中添加隐形加密水印,以确保内容的可追溯性和安全性。

谷歌召开2024 I/O开发者大会,发布多项更新及新品

Project Astra则被描绘为一个实时、多模式的AI助手,其能够接收信息、记忆内容、处理信息并理解上下文细节,从而与周围环境进行交互。在谷歌方面发布的演示视频中,Project Astra展现了出色的语音交互能力,无需任何唤醒词即可即时回答用户的问题,并帮助完成各种任务。值得一提的是,Project Astra不仅能够识别静态图像,还能处理视频内容,甚至能够记住并准确识别一闪而过的物品。在此次发布会上,谷歌方面还透露了一些关于Project Astra的未来计划,例如DeepMind团队正在研究如何将多模态模型更好地整合在一起,并寻求在超大型通用模型与更小、更集中的模型之间找到平衡。


此外,谷歌搜索的“AI概览”功能将率先面向美国用户推出。据了解,得益于AI概览功能,谷歌搜索将能够为用户归纳总结搜索结果,同时谷歌搜索也将具备多步骤推理能力,可以一次性处理带有多个限制条件的长问题,并支持“拍视频”搜索解决方案的新搜索形式。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看