小米13 Ultra vivo X Flip OPPO Find X6 Pro 一加Ace2

阿里云开源多模态视觉模型Qwen-VL，可免费商用

时间：2023年08月27日栏目：互联网来源：原创编辑：长生

继此前开源通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat后，日前阿里云方面宣布再推出、并开源大规模视觉语言模型（Large Vision Language Model, LVLM）Qwen-VL。

据悉，Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发，可支持图文输入、具备多模态信息理解能力，并且在主流的多模态任务评测和多模态聊天能力评测中，取得了远超同等规模通用模型的表现。

nEO_IMG_640 (3).jpg

同时Qwen-VL还支持中英文等多种语言，相较于此前的视觉语言模型，不仅具备基本的图文识别、描述、问答及对话能力，还新增了视觉定位、图像中文字理解等能力。此外值得一提的是，Qwen-VL还在模型架构上引入了视觉编码器，使得其支持视觉信号输入，并通过设计训练过程，具备了对视觉信号的细粒度感知和理解能力。据悉，Qwen-VL支持的图像输入分辨率为448，而此前开源的LVLM模型通常仅支持224分辨率。

据了解，Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。以图像问答能力举例，如果一位不懂中文的外国游客需要到医院看病，但不知怎么去往对应科室，在拍下楼层导览图、并向Qwen-VL提问“骨科在哪层”、“耳鼻喉科去哪层”后，Qwen-VL即可根据图片信息给出文字回复。

nEO_IMG_640 (2).jpg

据悉，在Qwen-VL的基础上，通义千问团队还使用对齐机制，打造了基于LLM的视觉AI助手Qwen-VL-Chat，可使得开发者能够快速搭建具备多模态能力的对话应用。据该团队透露，为了测试模型的多模态对话能力，他们构建了一套基于GPT-4打分机制的测试集 “试金石”，对Qwen-VL-Chat及其他模型进行对比测试，结果显示Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。

目前，Qwen-VL及其视觉AI助手Qwen-VL-Chat均已上线ModelScope魔搭社区，且可免费商用。用户可从魔搭社区直接下载，也能通过阿里云灵积平台访问调用Qwen-VL和Qwen-VL-Chat，阿里云方面则将提供包括模型训练、推理、部署、精调等在内的全方位服务。

【本文图片来自网络】