6月18日,DeepSeek多模态研究员XiaokangChen宣布,DeepSeek的识图模式已在网页和App端正式上线。用户现在可以直接上传图片,让DeepSeek“看”世界,其能力边界远超简单的文字提取。目前,App端识图模式提示“图片理解功能内测中”,而网页端没有此项提示。
识图模式与快速模式和专家模式并列,开启后,用户可以更直观地与DeepSeek互动。今年4月,DeepSeek还公开了其背后的多模态模型技术细节,公布了一种名为“Thinking with Visual Primitives(以视觉原语思考)”的核心框架,这一技术细节的公开,进一步增强了DeepSeek在图像识别和理解方面的能力。


