日前,OpenAI发布新一代AI图像生成模型ChatGPT Images 2.0(以下简称为Images 2.0),并表示“这是一个最先进的模型,能够处理复杂的视觉任务,并生成精确、可直接使用的视觉内容”。

据OpenAI方面介绍,与前代相比,Images 2.0在指令理解与遵循、图像质量、多语言支持、多轮编辑能力等方面均有显著提升。
其中在指令理解与遵循方面,Images 2.0能够更好地解析那些包含复杂场景、多元素组合的提示词,减少语义上的偏差。对此OpenAI图像研究团队的成员陈博远表示,“Images 2.0非常擅长遵循非常详细的指令,所以如果你有非常具体的品牌语言、设计美学,所有那些对创意工作至关重要的东西,你都可以使用它来创建和完善你的想法,从而得到想要的结果”。
在图像质量方面,Images 2.0不仅支持生成最高2K分辨率图像,支持生成3:1、1:3等更多宽高比图像 ,优化了像素艺术、漫画及电影剧照等风格,还强化了图像细节还原能力,能更精准地捕捉纹理、光影等细微元素,让生成的图像更接近真实场景。
多语言支持方面,Images 2.0重点改进了中文、日语、韩语、印地语及孟加拉语的文本生成能力,支持渲染密集文本。而在多轮编辑能力上,用户可直接选择图像中需要修改的区域,并要求Images 2.0做出修改。
值得一提的是,Images 2.0还是首个引入思考模式的图像模型,可联网检索信息,依据上传文件创建视觉解析内容,并在生成前对图像结构进行推理规划。在思考模式下Images 2.0可一次性生成最多八张风格连贯、角色一致、内容递进的图像,适用于多页漫画、整屋设计方案、系列海报或多语言多尺寸社交素材创作场景。
对于Images 2.0,OpenAI CEO萨姆·奥特曼称之为“这种感觉就像是一下子从GPT-3直接跃升到了GPT-5”。
据了解,目前Images 2.0已向所有ChatGPT与Codex用户开放,其中思考模式则率先面向ChatGPT Plus、Pro与Business用户提供。
【本文图片来自网络】
