Qwen2.5-VL 是阿里云开发的多模态大语言模型系列,在 2025 年 1 月发布。它是 [[Qwen-VL]] 的最新版本,在视觉理解、文本识别、目标检测、图像分割等任务上都有显著提升。
安装
可以使用 [[ollama]] 安装:
ollama pull qwen2.5-vl
使用
坐标输出漂移
在 [[ollama]] 中运行 qwen2.5vl:32b 测试后发现,把输入图像分辨率预先调整到 1000 内是最合适的(不一定是正方形,只要最长的一边不要超过 1000)
Qwen2.5-VL 是阿里云开发的多模态大语言模型系列,在 2025 年 1 月发布。它是 [[Qwen-VL]] 的最新版本,在视觉理解、文本识别、目标检测、图像分割等任务上都有显著提升。
可以使用 [[ollama]] 安装:
ollama pull qwen2.5-vl
在 [[ollama]] 中运行 qwen2.5vl:32b 测试后发现,把输入图像分辨率预先调整到 1000 内是最合适的(不一定是正方形,只要最长的一边不要超过 1000)