Google 推出 MedGemma-1.5:面向开发者的多模态医学 AI 开源模型

0 次浏览4分钟开源
Google 推出 MedGemma-1.5:面向开发者的多模态医学 AI 开源模型

背景与目标

Google Research 持续布局健康 AI,日前在 Health AI Developer Foundations(HAI‑DEF)计划中推出新版模型 MedGemma‑1.5。该模型基于开源的 Gemma 系列,以 4 B 参数的紧凑体积提供 多模态 能力,面向希望快速搭建医学影像、文本和语音系统的开发者。Google 明确表示,MedGemma‑1.5 仅作为 基础模型,需要在本地法规下进行细调后才能投入临床使用。

MedGemma‑1.5 关键特性

  • 多模态输入:支持文字、二维 X‑ray、三维 CT/MRI 切片以及全片病理图(Whole‑Slide Image)等高维数据。
  • 紧凑体积:4 B 参数模型,显著降低微调与部署成本,适合中小型医院或云端服务。
  • 开放获取:模型权重通过 Google Cloud Vertex AI 与 Hugging Face 双平台公开,开发者可自由下载或在线调用。
  • 兼容 DICOM:直接读取医学影像标准文件,省去繁琐的预处理步骤。

评测亮点

任务旧模型MedGemma‑1.5提升幅度
CT 病灶检测准确率58%61%+3%
MRI 病灶检测准确率51%65%+14%
病理图 ROUGE‑L0.020.49+0.47
Chest ImaGenome IoU3%38%+35%
Lab 报告抽取 F160%78%+18%
MedQA 正确率64%69%+5%
EHRQA 正确率68%90%+22%

这些指标覆盖了 影像诊断、报告抽取、医学问答 三大核心业务场景,表明 MedGemma‑1.5 在真实临床数据上具备更强的泛化能力。

MedASR:医疗专属语音识别

与 MedGemma‑1.5 同期发布的还有 MedASR——基于 Conformer 架构的医学语音识别模型。它在胸部 X‑ray 报告等专业口述场景下的词错误率(WER)从 Whisper‑large‑v3 的 12.5% 降至 5.2%,相当于减少 58% 错误;在更宽泛的医学口述基准上更是从 28.2% 降至 5.2%,削减 82% 错误。MedASR 同样通过 Vertex AI 与 Hugging Face 免费提供,帮助开发者快速构建端到端的 语音‑图像‑文本 工作流。

行业意义与展望

MedGemma‑1.5 的发布标志着 大模型在医学领域的开放化 正在加速。开发者无需再次从零训练,可直接在开源模型上进行本地法规合规的微调,显著缩短产品研发周期。结合 MedASR,完整的多模态医疗 AI 生态链逐步成形,未来有望推动以下几方面的变革:

  1. 医院信息系统数字化:自动化报告抽取与结构化,降低人工录入成本;
  2. 远程诊疗与辅助决策:边缘设备上运行轻量模型,实现即时影像分析;
  3. 跨机构协作:统一的模型接口便于不同医院共享技术成果,促进标准化治理。

在监管层面,Google 通过公开模型权重、提供细调指南以及 DICOM 原生支持,展示了 负责任的 AI 开放姿态。随着社区和产业链的进一步参与,MedGemma‑1.5 有望成为医学多模态 AI 的“底座模型”,推动更多创新应用落地。


想获取模型权重、技术细节或加入社区讨论,请访问 Google Research 官方博客或关注其在 Hugging Face 的项目页面。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。