1月27日,《华盛顿邮报》科技专栏作家Geoffrey A. Fowler对OpenAI最新上线的ChatGPT Health功能进行了测试。Fowler导入了十年积累的Apple Watch数据,包括2900万步记录和600万次心跳测量,结果却被错误判定心脏健康为“不及格”(F)。这一结果让Fowler感到恐慌,并立即联系了医生。经过详细检查,医生断然否定了AI的诊断,指出Fowler的心脏病发作风险极低,无需进行额外的有氧适能测试来证伪AI的结论。
深入分析显示,ChatGPT Health的误判主要源于误读数据性质。AI将Apple Watch记录的VO2max(最大摄氧量)视为绝对精准的医疗数据,并据此给出了负面评价。然而,苹果官方明确说明该数据仅为“估算值”,主要用于追踪趋势而非临床诊断。此外,Fowler更换新款Apple Watch后,因传感器升级导致的静息心率基准变化,也被AI错误地解读为生理机能的实质性改变,完全忽略了硬件迭代这一关键变量。除了误读数据,ChatGPT Health反馈结果还存在不稳定情况,当Fowler重复询问同一健康问题时,AI的评分竟在“F”到“B”之间剧烈摇摆。更严重的是,该系统表现出明显的“健忘症”和逻辑断层,在对话中多次遗忘用户的性别、年龄等基础信息,甚至在拥有近期血液检测报告的情况下,分析时却选择性忽略这些关键的临床证据。


