今日,谷歌发布了专为医疗场景设计的AI模型“MedGemma1.54B”及语音识别模型“MedASR”。MedGemma1.54B是一款可本地运行的轻量化模型,其准确率相比前代产品有所提升。谷歌已免费开放MedGemma系列开源医疗模型,MedGemma1.54B能够读取并分析文本及图像格式的医疗记录并进行推理。此外,MedASR是一款专注于医疗术语的语音识别模型,可与MedGemma系列模型集成,具备更高的转录准确率。
MedGemma1.54B在基准测试中的得分高于通用模型Gemma34B及前代医疗模型MedGemma14B,部分测试中甚至优于参数规模更大的MedGemma127B。该模型进一步升级,可兼容计算机断层扫描(CT)、磁共振成像(MRI)等三维数据。MedGemma系列便于开发者进行微调优化,目前已衍生出超过500款衍生模型。同日发布的MedASR在“胸部X光片相关对话”的转录错误率仅为5.2%,显著优于OpenAI的Whisperlarge-v3(同类场景错误率12.5%),其转录结果可直接作为MedGemma系列模型的输入提示词。


