DeepSeek终于能看图了!我第一时间用它算命_模式_视觉_能力
智东西
作者 | 陈骏达
编辑 | 云鹏
智东西4月29日报道,刚刚,DeepSeek的多模态能力已经开启灰度测试。现在,被选中的用户会发现,DeepSeek首页多了一个“识图模式”的入口。上传图片后,DeepSeek能像人一样理解画面,不管是物体还是场景,而不是像过去仅能识别文字。
多位DeepSeek研究员第一时间发文宣传了这一新功能。DeepSeek研究员陈德里称,这一功能来自DeepSeek的“天才多模态同事们”,小鲸鱼现在有了看见世界的能力。
▲DeepSeek多位研究员宣布识图模式的灰度上线(图源:X平台)
我们也有幸被灰度到了,并迅速进行了一波测试。
首先是基本的识物能力,我们上传了一张兔子的照片,识图模式下DeepSeek一眼就判断出兔子的品种,并且可以描述这只兔子的姿态。
我们给DeepSeek上了点难度,上传了一张来自它老家杭州知名景点灵隐寺的照片,图中仅有右下角的路灯上有草书写就的“灵隐寺”字样,不过对人类来说这些字样也有点难懂。我们要求DeepSeek判断这是哪里,并报出图城市的经纬度。
根据建筑风格和路灯上的字样,DeepSeek很快判断出这里是灵隐寺,给出的坐标准确无误。其生成速度也很快,未开启思考模式时,一眨眼的功夫就好了。
我们又上传了一张包含视觉陷阱的图片,这张图中几个物品的摆放很容易让人误以为图中有个人坐在椅子上。
这样的题目同样没能难倒DeepSeek,它判断图中有墙面修补痕迹、垃圾收集区、杂物等等,没有被视觉陷阱蒙骗。
DeepSeek的视觉模式支持深度思考,我们上传了一张随手拍的照片,图中没有任何文字参考,看看DeepSeek能否根据蛛丝马迹判断出位置。
开启推理后,DeepSeek的视觉能力明显增强了。它可以分步骤拆解画面信息,能看到前景、中景、背景的所有信息,然后将地标特征与地理区域匹配,直接判断出山脉是燕山山脉、建筑风格在北京昌平等郊区很常见。
最后它直接把范围收窄到北京昌平区或者海淀山后地区,其中某些猜测选项离我的实际距离已经不到10公里。未来如果接入联网搜索,DeepSeek很可能就顺着网线把我家地址给开盒了。
我们还尝试了热门的看手相玩法,上传后,DeepSeek第一眼先把左右手看错了,我们上传的图片是左手,它判断成了右手。
进入实际分析后,DeepSeek对手相形态的描述基本符合事实,分析得也是头头是道,不过具体该相信多少,这就见仁见智了。
结语:DeepSeek多模态拼图,终于补齐
在过去很长一段时间里,DeepSeek多模态能力的缺失一直是一个遗憾。DeepSeek一直维持着多模态的相关研究,并曾在早期发布开源多模态模型Janus等成果。不过,DeepSeek一直未在其产品中向公众提供多模态能力。
AI走向多模态已经成为不可逆转的大趋势。多模态内容所蕴藏的丰富信息可以扩展AI认知这一世界的触角,也更贴近人类本身理解世界的方式。目前,DeepSeek的识图模式还只是一个测试功能,不过它已经让我们看到了其在视觉解析与跨模态推理上的潜力。返回搜狐,查看更多
同类文章排行
- 你的内衣丢过吗?
- 毕设答辩,老师说node不可能写后台怎么办?
- 广州的你,择偶标准怎样的?
- 遭遇生理性涨奶该怎么办?
- 哪些让你用了觉得相见恨晚的键盘?
- 你见过哪些智障的反人类的设计?
- 为什么 Bun 选择了 Zig 以及 JSCore?
- 个子高是种怎样的体验?
- 为什么Go仅仅160MB的安装包就可以编译程序,而Rust却还需要几个GB的VC++才能编译?
- 为什么微软出的软件都那么巨大?
最新资讯文章
- 2025了广州的你,择偶条件是怎样?
- 脸与身材不符是种怎样的体验?
- 有个学舞蹈的女朋友是什么体验?
- 《风味人间》里的顺德鱼生是淡水生鱼片,不担心有***吗?
- 人工智能相关专业里有什么「坑」吗?
- 人工智能相关专业里有什么「坑」吗?
- 有一双超级大长腿是什么感觉?
- 如何成为氛围感美女?
- 如何评价《原神》角色丝柯克的强度?
- 苹果为什么要给每代MacOS起个名字,真以为人们记得住分得清吗?
- 为什么 macOS 并不差,可市场总敌不过 Windows?
- 最近突发奇想,想做以NAS为主的家用媒体中心。下面是我做的一个草图,各位大神看看可行吗?
- 男的真的会把所有衣服从上到下都扔洗衣机吗?
- 如何看待美团创始人王兴清空微博?
- 有哪些好看的重生古言?
- Docker 的应用场景在哪里?
- 软路由是否被过度神化?
- 如果看待林丹这句话 “网球的强度远远没有羽毛球大”?
- 毕设答辩,老师说node不可能写后台怎么办?
- 家里想搞一个服务器,怎么才不违规?





