Google 推出 MedGemma-1.5：面向开发者的多模态医学 AI 开源模型

背景与目标

Google Research 持续布局健康 AI，日前在 Health AI Developer Foundations（HAI‑DEF）计划中推出新版模型 MedGemma‑1.5。该模型基于开源的 Gemma 系列，以 4 B 参数的紧凑体积提供 多模态 能力，面向希望快速搭建医学影像、文本和语音系统的开发者。Google 明确表示，MedGemma‑1.5 仅作为 基础模型，需要在本地法规下进行细调后才能投入临床使用。

MedGemma‑1.5 关键特性

多模态输入：支持文字、二维 X‑ray、三维 CT/MRI 切片以及全片病理图（Whole‑Slide Image）等高维数据。
紧凑体积：4 B 参数模型，显著降低微调与部署成本，适合中小型医院或云端服务。
开放获取：模型权重通过 Google Cloud Vertex AI 与 Hugging Face 双平台公开，开发者可自由下载或在线调用。
兼容 DICOM：直接读取医学影像标准文件，省去繁琐的预处理步骤。

评测亮点

任务	旧模型	MedGemma‑1.5	提升幅度
CT 病灶检测准确率	58%	61%	+3%
MRI 病灶检测准确率	51%	65%	+14%
病理图 ROUGE‑L	0.02	0.49	+0.47
Chest ImaGenome IoU	3%	38%	+35%
Lab 报告抽取 F1	60%	78%	+18%
MedQA 正确率	64%	69%	+5%
EHRQA 正确率	68%	90%	+22%

这些指标覆盖了 影像诊断、报告抽取、医学问答 三大核心业务场景，表明 MedGemma‑1.5 在真实临床数据上具备更强的泛化能力。

MedASR：医疗专属语音识别

与 MedGemma‑1.5 同期发布的还有 MedASR——基于 Conformer 架构的医学语音识别模型。它在胸部 X‑ray 报告等专业口述场景下的词错误率（WER）从 Whisper‑large‑v3 的 12.5% 降至 5.2%，相当于减少 58% 错误；在更宽泛的医学口述基准上更是从 28.2% 降至 5.2%，削减 82% 错误。MedASR 同样通过 Vertex AI 与 Hugging Face 免费提供，帮助开发者快速构建端到端的 语音‑图像‑文本 工作流。

行业意义与展望

MedGemma‑1.5 的发布标志着 大模型在医学领域的开放化 正在加速。开发者无需再次从零训练，可直接在开源模型上进行本地法规合规的微调，显著缩短产品研发周期。结合 MedASR，完整的多模态医疗 AI 生态链逐步成形，未来有望推动以下几方面的变革：

医院信息系统数字化：自动化报告抽取与结构化，降低人工录入成本；
远程诊疗与辅助决策：边缘设备上运行轻量模型，实现即时影像分析；
跨机构协作：统一的模型接口便于不同医院共享技术成果，促进标准化治理。

在监管层面，Google 通过公开模型权重、提供细调指南以及 DICOM 原生支持，展示了 负责任的 AI 开放姿态。随着社区和产业链的进一步参与，MedGemma‑1.5 有望成为医学多模态 AI 的“底座模型”，推动更多创新应用落地。

想获取模型权重、技术细节或加入社区讨论，请访问 Google Research 官方博客或关注其在 Hugging Face 的项目页面。