导读 阿里再一次推出大规模视觉语言模型Qwen-VL,上线之后可以直接开源。Qwen-VL是基于通义千问-7B打造的多模态大模型,支持多种不同的输入,包…
阿里再一次推出大规模视觉语言模型Qwen-VL,上线之后可以直接开源。Qwen-VL是基于通义千问-7B打造的多模态大模型,支持多种不同的输入,包括图像输入、文本输入以及检测框输入等等。除了文字输出之外,也支持检测框输出。
这款模型可以支持多语言对话,端到端支持图片里中英双语的长文识别。支持多图输入和比较,指定图片问答,多图文学创作等等。在视觉定位能力方面做得也比较完美,即使图片当中有非常复杂的人物,也能够根据使用者的需求,精准的找到对应目标。在模型架构上引入视觉编码器 ViT,通过位置感知的视觉语言适配器连接两者,能够让大模型支持视觉信号输入。引入高分辨率的多任务视觉语言数据,多项任务可以做联合预训练。
未经允许不得转载:87头条 » 阿里大模型开源读图识物基于通义千问7B打造可以商用