在历经了发布时间跳票等种种传言后,谷歌方面近日正式公布了人工智能大模型Gemini 1.0。在其用于展示Gemini多模态功能的相关演示视频中,Gemini能够迅速判断出画面中的实物、并给出像人一样的语音反馈,但旋即有相关人士指出,在这一演示中最为吸引人的部分有伪造嫌疑。
随后谷歌方面在YouTube中的视频描述中,已“委婉”承认了演示视频进行了一定程度的“粉饰”,声称“为了演示的目的,已经减少延迟;为了简洁,Gemini的输出也缩短了”,这也意味着每个响应所花费的时间实际上比视频中展示的时间更长。为验证这一说法,有相关人士进行了验证,包括使用视频截图向Gemini提问,结果发现其并不能如演示那样准确地回答问题。
谷歌相关方面承认,这一视频演示并不是实时的,而是使用了原始镜头中的静止图像帧,然后编写了文本提示,让Gemini来进行有针对性的回答。以视频中猜测石头、剪刀、布游戏的部分为例,只有在同时展示三个手势,并提示“在做什么”和“是一个游戏”两个关键点后,Gemini才会给出正确答案。
随后,Google DeepMind副总裁Oriol Vinyals在海外社交媒体上发文,详细介绍了录制该视频时Gemini的工作原理。在文章中,Oriol Vinyals承认Demo视频中的内容是使用Gemini Ultra模型(Gemini大模型共有Ultra、Pro、Nano三个版本)完成的,所有的人类提示和AI输出都是真实的,但为了简洁而进行了缩短。对此,海外媒体称其说明与事实自相矛盾。
此外在谷歌CEO皮查伊(Sundar Pichai)极力推荐的“画鸭子”部分,有相关人士暗示这一演示经过了欺骗性编辑。甚至有谷歌员工称,这段演示描述了一副不切实际的画面,过分渲染了从Gemini输出惊艳的效果十分容易。谷歌DeepMind产品副总裁伊莱·柯林斯为此向海外媒体表示,演示视频中的画鸭子演示仍然是“研究级别”的功能,至少目前还没有出现在实际产品中。
对于视频造假问题,有部分谷歌员工透露,认为这一视频更看重“讲故事”的能力,并不关心是否会误导公众。同时部分谷歌员工也表示,已经习惯了公司对于产品营销时进行某种程度的夸大,认为大多数使用过大语言模型技术的人都知道,要对(演示中的)这一切持保留态度。
对此有业内人士表示,谷歌的这种行为或许反映出目前谷歌的的焦虑。早年间凭借AlphaGo在围棋领域的出色表现,谷歌曾引发了公众对于AI的关注,但近年OpenAI旗ChatGPT却明显抢走了这一“风头”,因此谷歌迫切的需要现象级产品来证实自己的实力。
当地时间本周四,谷歌母公司Alphabet的市值一度暴涨800亿美元,外界就认为与Gemini的发布有强关联,并且Gemini或帮助其缩小与微软、OpenAI在这一领域的差距。在此前,谷歌方面于2月推出Bard后,Alphabet的市值曾在一天内暴跌1000亿美元。
【本文图片来自网络】