Qwen2.5-VL

2025-08-14

Qwen2.5-VL 是阿里云开发的多模态大语言模型系列,在 2025 年 1 月发布。它是 [[Qwen-VL]] 的最新版本,在视觉理解、文本识别、目标检测、图像分割等任务上都有显著提升。

安装

可以使用 [[ollama]] 安装:

Terminal window
ollama pull qwen2.5-vl

使用

坐标输出漂移

[[ollama]] 中运行 qwen2.5vl:32b 测试后发现,把输入图像分辨率预先调整到 1000 内是最合适的(不一定是正方形,只要最长的一边不要超过 1000)

参考