今日,一项涉及AI聊天机器人在医疗咨询领域表现的最新研究引起了广泛关注。研究团队对五款主流AI平台进行了测试,包括ChatGPT、Gemini、MetaAI、Grok和DeepSeek,围绕五类健康主题提出10个问题。结果显示,在全部回复中约50%存在问题,其中近20%被评估为严重问题。
研究指出,这些AI模型在封闭式问题以及疫苗、癌症等领域表现相对较好,但在开放式提问以及干细胞、营养等话题上表现明显下滑。回答通常语气非常确定,但缺乏可靠依据,没有任何一个模型能够提供完整且准确的参考来源。同时,仅有两次拒绝回答的情况,且均来自MetaAI。
这一结果进一步引发外界对生成式AI使用方式的担忧。这类系统既没有医疗资质,也缺乏进行临床判断的能力,却正被越来越多用户用于健康咨询。研究作者警告,在缺乏公众教育和监管的情况下,大规模部署AI聊天机器人可能加剧错误信息传播。这些结果凸显出明显的行为局限,也表明有必要重新评估AI聊天机器人在公共医疗沟通中的使用方式,因为系统可能生成“听起来权威但实际上并不可靠”的回答。
