继此前在2025 I/O开发者大会上发布新一代文生图模型Imagen 4系列后,日前谷歌方面宣布,该系列模型已上线Gemini API付费预览版,同时用户可通过Google AI Studio进行有限免费测试。
据了解,与Imagen 3相比,Imagen 4系列支持2K分辨率的图像生成,并在细节捕捉上实现显著提升。此外Imagen 4系列在文本渲染方面取得突破,能够在图像中生成清晰、准确的文字,这也意味着其适用于需要嵌入自定义排版的设计场景,例如广告、漫画或邀请函等。
目前,Imagen 4系列包括Imagen 4、Imagen 4 Ultra两个模型。其中Imagen 4定位为“适用于大多数任务”的通用模型,定价为每张图像0.04美元,而Imagen 4 Ultra则能够更精准地遵循文本提示词,定价为每张图像0.06美元。谷歌方面表示,与Dall-E和Midjourney等其他图像生成模型相比,Imagen 4 Ultra的输出结果更为“出色(strong)”。
但需要注意的是,为了维护信任和透明度,Imagen 4模型生成的所有图像将继续包含不可见的数字SynthID水印。
值得一提的是,日前谷歌方面还发布了首个可以直接部署在机器人上的视觉-语言-动作(VLA)模型Gemini Robotics On-Device。据了解,作为Gemini Robotics系列的新成员,Gemini Robotics On-Device可以帮助机器人更快、更高效地适应新任务和环境,同时无需持续的互联网连接。
面向开发者,谷歌方面还将发布Gemini Robotics SDK,用于评估 Gemini Robotics On-Device 在其任务和环境中的表现。同时,开发者还可使用该SDK在谷歌DeepMind的MuJoCo物理模拟器中测试该模型,并快速将其适应到新领域。
【本文图片来自网络】