Google 推出 MedGemma-1.5:面向开发者的多模态医学 AI 开源模型

背景与目标
Google Research 持续布局健康 AI,日前在 Health AI Developer Foundations(HAI‑DEF)计划中推出新版模型 MedGemma‑1.5。该模型基于开源的 Gemma 系列,以 4 B 参数的紧凑体积提供 多模态 能力,面向希望快速搭建医学影像、文本和语音系统的开发者。Google 明确表示,MedGemma‑1.5 仅作为 基础模型,需要在本地法规下进行细调后才能投入临床使用。
MedGemma‑1.5 关键特性
- 多模态输入:支持文字、二维 X‑ray、三维 CT/MRI 切片以及全片病理图(Whole‑Slide Image)等高维数据。
- 紧凑体积:4 B 参数模型,显著降低微调与部署成本,适合中小型医院或云端服务。
- 开放获取:模型权重通过 Google Cloud Vertex AI 与 Hugging Face 双平台公开,开发者可自由下载或在线调用。
- 兼容 DICOM:直接读取医学影像标准文件,省去繁琐的预处理步骤。
评测亮点
| 任务 | 旧模型 | MedGemma‑1.5 | 提升幅度 |
|---|---|---|---|
| CT 病灶检测准确率 | 58% | 61% | +3% |
| MRI 病灶检测准确率 | 51% | 65% | +14% |
| 病理图 ROUGE‑L | 0.02 | 0.49 | +0.47 |
| Chest ImaGenome IoU | 3% | 38% | +35% |
| Lab 报告抽取 F1 | 60% | 78% | +18% |
| MedQA 正确率 | 64% | 69% | +5% |
| EHRQA 正确率 | 68% | 90% | +22% |
这些指标覆盖了 影像诊断、报告抽取、医学问答 三大核心业务场景,表明 MedGemma‑1.5 在真实临床数据上具备更强的泛化能力。
MedASR:医疗专属语音识别
与 MedGemma‑1.5 同期发布的还有 MedASR——基于 Conformer 架构的医学语音识别模型。它在胸部 X‑ray 报告等专业口述场景下的词错误率(WER)从 Whisper‑large‑v3 的 12.5% 降至 5.2%,相当于减少 58% 错误;在更宽泛的医学口述基准上更是从 28.2% 降至 5.2%,削减 82% 错误。MedASR 同样通过 Vertex AI 与 Hugging Face 免费提供,帮助开发者快速构建端到端的 语音‑图像‑文本 工作流。
行业意义与展望
MedGemma‑1.5 的发布标志着 大模型在医学领域的开放化 正在加速。开发者无需再次从零训练,可直接在开源模型上进行本地法规合规的微调,显著缩短产品研发周期。结合 MedASR,完整的多模态医疗 AI 生态链逐步成形,未来有望推动以下几方面的变革:
- 医院信息系统数字化:自动化报告抽取与结构化,降低人工录入成本;
- 远程诊疗与辅助决策:边缘设备上运行轻量模型,实现即时影像分析;
- 跨机构协作:统一的模型接口便于不同医院共享技术成果,促进标准化治理。
在监管层面,Google 通过公开模型权重、提供细调指南以及 DICOM 原生支持,展示了 负责任的 AI 开放姿态。随着社区和产业链的进一步参与,MedGemma‑1.5 有望成为医学多模态 AI 的“底座模型”,推动更多创新应用落地。
想获取模型权重、技术细节或加入社区讨论,请访问 Google Research 官方博客或关注其在 Hugging Face 的项目页面。