阿里云开源多模态视觉模型Qwen-VL,可免费商用

继此前开源通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat后,日前阿里云方面宣布再推出、并开源大规模视觉语言模型(Large Vision Language Model, LVLM)Qwen-VL。


据悉,Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,可支持图文输入、具备多模态信息理解能力,并且在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。

nEO_IMG_640 (3).jpg

同时Qwen-VL还支持中英文等多种语言,相较于此前的视觉语言模型,不仅具备基本的图文识别、描述、问答及对话能力,还新增了视觉定位、图像中文字理解等能力。此外值得一提的是,Qwen-VL还在模型架构上引入了视觉编码器,使得其支持视觉信号输入,并通过设计训练过程,具备了对视觉信号的细粒度感知和理解能力。据悉,Qwen-VL支持的图像输入分辨率为448,而此前开源的LVLM模型通常仅支持224分辨率。


据了解,Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。以图像问答能力举例,如果一位不懂中文的外国游客需要到医院看病,但不知怎么去往对应科室,在拍下楼层导览图、并向Qwen-VL提问“骨科在哪层”、“耳鼻喉科去哪层”后,Qwen-VL即可根据图片信息给出文字回复。

nEO_IMG_640 (2).jpg

据悉,在Qwen-VL的基础上,通义千问团队还使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可使得开发者能够快速搭建具备多模态能力的对话应用。据该团队透露,为了测试模型的多模态对话能力,他们构建了一套基于GPT-4打分机制的测试集 “试金石”,对Qwen-VL-Chat及其他模型进行对比测试,结果显示Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。


目前,Qwen-VL及其视觉AI助手Qwen-VL-Chat均已上线ModelScope魔搭社区,且可免费商用。用户可从魔搭社区直接下载,也能通过阿里云灵积平台访问调用Qwen-VL和Qwen-VL-Chat,阿里云方面则将提供包括模型训练、推理、部署、精调等在内的全方位服务。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看