小米15 Ultra vivo X200 Ultra OPPO Find X8 Ultra 一加13T

通义千问发布全新多模态统一理解与生成模型

时间：2025年06月29日栏目：互联网来源：原创编辑：长生

日前，阿里云通义千问方面宣布推出新一代多模态统一理解与生成模型Qwen VLo，并表示该模型不仅能够“看懂”世界，更能基于理解进行高质量的再创造，真正实现了从感知到生成的跨越。目前，用户可在Qwen Chat（chat.qwen.ai）上直接体验该模型。

据通义千问方面介绍，Qwen VLo 在原始多模态理解与生成能力上进行了全面升级，显著增强了对图像内容的理解深度，并在此基础上实现了更加准确和一致的生成效果，具有可实现更精准的内容理解与再创造、支持开放指令编辑修改生成、支持多语言指令等核心亮点。

以更精准的内容理解与再创造为例，相比以往多模态模型在生成过程中容易出现语义不一致的问题，Qwen VLo通过更强大的细节捕捉能力，能够在生成过程中保持高度的语义一致性。例如当用户输入一张汽车的照片、并要求“更换颜色”时，Qwen VLo 不仅能准确识别车型，还能保留其原有的结构特征，同时完成色彩风格的自然转换，让生成结果既符合预期又不失真实感。

值得一提的是，Qwen VLo采用的是动态分辨率训练，支持动态分辨率生成，无论是输入端还是输出端都支持任意分辨率和长宽比的图像生成。这就意味着用户不再受限于固定的格式，可以根据实际需求生成适配不同场景的图像内容。

此外，Qwen VLo还创新性地引入了一种全新的生成机制，即以一种渐进式生成方式，从左到右、从上到下逐步清晰地构建整幅图片。在生成过程中，该模型会对预测的内容不断调整和优化，从而确保最终结果更加和谐一致。这一机制不仅提升了生成效率，还特别适用于需要精细控制的长段落文字生成任务。

【本文图片来自网络】