导语:2026年1月13日,谷歌研究院正式发布MedGemma 1.5 4B以及专业的医学语音识别模型MedASR。
2026年1月13日,谷歌研究院(Google Research)宣布对其开源医疗大模型家族进行重要更新,正式发布MedGemma 1.5 4B以及专业的医学语音识别模型MedASR。
此次更新的核心亮点在于打破了此前医疗大模型多局限于文本或二维图像(如X光片)的限制,MedGemma 1.5原生支持包括CT(计算机断层扫描)、MRI(磁共振成像)及病理切片在内的高维(High-dimensional)医疗影像数据。同时,配套发布的MedASR模型在医疗听写场景下的表现显著优于通用模型,意在打通“语音录入-影像分析-报告生成”的全链路诊疗流程。
对于医疗健康产业而言,医疗AI正在从“云端巨型大脑”向 “边缘侧专业助手”演进,轻量化、多模态的开源模型将大幅降低医疗机构和医疗器械厂商应用AI的技术门槛。
技术演进回顾:从二维读片到三维容积理解
在MedGemma 1.0时代,模型主要具备处理二维医学图像(如胸部X光片、眼底照片)的能力。然而,临床诊断中大量的关键信息存在于三维容积数据中。
MedGemma 1.5的发布填补了这一空白。根据谷歌披露的技术细节,新模型能够处理CT和MRI的三维容积切片(Volume Slices),以及全玻片病理图像(Whole-slide histopathology)。这种能力使得AI不再局限于“看图说话”,而是能够理解空间结构和连续的病理变化。
在谷歌内部基准测试中,MedGemma 1.5在疾病相关CT发现分类上的准确率相比上一代提升了3%,在MRI发现分类上提升了14%。在病理切片分析任务中,其ROUGE-L评分(衡量文本生成质量的指标)从上一代的0.02跃升至0.49,达到了与专用模型PolyPath相当的水平。除了影像诊断,新模型在解剖定位(Anatomical Localization)、纵向病例对比(Longitudinal review,即对比患者不同时期的影像变化)以及从非结构化实验报告中提取数据等方面均展现了显著的能力提升。
同步发布的MedASR则解决了医疗场景下的语音交互痛点。在复杂的医学术语听写任务中,MedASR在胸部X光听写测试中的词错误率(WER)仅为5.2%,远低于OpenAI的通用模型Whisper large-v3的12.5%。
4B参数的小模型逻辑:边缘计算与隐私合规的最优解
值得注意的是,谷歌此次特意强调发布的是4B(40亿参数)版本。在当前大模型动辄千亿参数的背景下,推出如此小规模的模型具有独特的产业考量。
医疗行业对数据隐私和安全性有着极高的要求(如美国的HIPAA法案)。许多医院和医疗机构受限于合规要求,无法将患者数据上传至公有云进行处理。4B参数的模型体积足够小,完全可以在医院内部的服务器,甚至是高性能的医生工作站、边缘计算设备上离线运行。这解决了医疗AI落地的最大阻碍――数据不出院。
另一方面,对于医疗软件开发商(ISV)而言,基于轻量级模型开发应用的推理成本远低于调用巨型云端模型。这使得AI功能大规模集成到现有的电子病历系统(EHR)或PACS(影像归档和通信系统)中在商业上变得可行。
局限性与行业展望
尽管MedGemma 1.5展示了强大的潜力,但在实际临床应用中仍需保持审慎。谷歌在技术文档中明确指出,当前的高维影像理解能力仍处于早期阶段,模型输出仍可能存在“幻觉”风险。
对于产业界而言,MedGemma 1.5的价值在于它提供了一个标准化的、可私有化部署的多模态基座。未来的竞争焦点将从“谁有更好的模型”转移到“谁拥有更高质量的标注数据来微调这个模型”以及“谁能更好地将其集成到医生的工作流中”。
总体而言,谷歌此举加速了医疗AI从“通用大模型”向“专用小模型”的分化趋势。随着更多像MedGemma这样支持边缘部署、理解专业模态的模型出现,医疗AI将真正走出实验室,成为基层医疗机构触手可及的生产力工具。