日前,阿里云通义千问方面宣布推出新一代多模态统一理解与生成模型Qwen VLo,并表示该模型不仅能够“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。目前,用户可在Qwen Chat(chat.qwen.ai)上直接体验该模型。
据通义千问方面介绍,Qwen VLo 在原始多模态理解与生成能力上进行了全面升级,显著增强了对图像内容的理解深度,并在此基础上实现了更加准确和一致的生成效果,具有可实现更精准的内容理解与再创造、支持开放指令编辑修改生成、支持多语言指令等核心亮点。
以更精准的内容理解与再创造为例,相比以往多模态模型在生成过程中容易出现语义不一致的问题,Qwen VLo通过更强大的细节捕捉能力,能够在生成过程中保持高度的语义一致性。例如当用户输入一张汽车的照片、并要求“更换颜色”时,Qwen VLo 不仅能准确识别车型,还能保留其原有的结构特征,同时完成色彩风格的自然转换,让生成结果既符合预期又不失真实感。
值得一提的是,Qwen VLo采用的是动态分辨率训练,支持动态分辨率生成,无论是输入端还是输出端都支持任意分辨率和长宽比的图像生成。这就意味着用户不再受限于固定的格式,可以根据实际需求生成适配不同场景的图像内容。
此外,Qwen VLo还创新性地引入了一种全新的生成机制,即以一种渐进式生成方式,从左到右、从上到下逐步清晰地构建整幅图片。在生成过程中,该模型会对预测的内容不断调整和优化,从而确保最终结果更加和谐一致。这一机制不仅提升了生成效率,还特别适用于需要精细控制的长段落文字生成任务。
【本文图片来自网络】