一招教你解决deepseek不能识别图片的问题

说实话,DeepSeek V4 Pro降价之后我立马切过去用了,推理能力确实顶,但有个坑差点把我劝退——它根本不认识图片。我试着丢了一张截图进去想让它分析,结果直接报错,说模型不支持多模态。我心想这不行啊,日常工作中看图的需求太多了。

deepseek识图教程

我的土办法:给DeepSeek配个”眼睛”

琢磨了几天,我发现其实可以用MCP(一种让AI工具互相调用的协议,相当于给DeepSeek装了个插件接口)来接入其他视觉模型。思路很简单:让千问的视觉模型先看图,把图片内容翻译成文字描述,再传给DeepSeek处理。说白了就是让DeepSeek借别人的眼睛来看世界。

具体我是这样搭的。先打开阿里云百炼控制台,选一个有视觉能力的模型,比如qwen3-vl-plus。阿里云每个模型都有100万token的免费额度,读一次图消耗的token很少,够用很长一段时间了。

然后我在Claude Code里让DeepSeek帮我配植了一个MCP服务,baseurl填的是阿里云的dashscope地址,模型选qwen3-vl-plus,再加上自己的api key。配植完之后DeepSeek提示要重启Claude Code,重启完系统检测到MCP就会弹窗问你要不要用,我选的是”这个项目和未来都用”。

实测效果与局限

测试了一下图像识别,DeepSeek确实能”看懂”图了——其实是千问先看,再把内容描述给DeepSeek。整个过程MCP调用成功,返回的描述还挺准的。第一次使朋的时候出了点小问题,我让DeepSeek自己排查,它修好了。

不过说到底,这种方式有个硬伤:DeepSeek拿到的是二手信息,中间转了一道手,难免有信息失真。比如图片里一些细节,经过文字描述后可能会丢。但现阶段没有更好的办法,DeepSeek网页版已经有识图功能了,API版本应该也快了。

我用这套方案跑了两周,日常看图分析基本够使。如果你也苦于DeepSeek不能读图,可以试试这个野路子。你平时用DeepSeek的时候,最希望它解决什么视觉相关的问题?


52软件资源库 » 一招教你解决deepseek不能识别图片的问题

发表回复