OpenAI模型助力罕见遗传病诊断，重新分析376例病例获18例新诊断

背景

罕见遗传病患者即使接受了全基因组测序，仍有约一半在多轮专家复审后未能得到明确的基因诊断。随着基因‑疾病关联、文献和变异数据库的快速更新，旧数据往往蕴含新的线索，却缺乏高效的再解析手段。

数据来源：波士顿儿童医院 Manton 中心收集的376例已完成测序但未诊断的儿童病例，包含标准化的 Human Phenotype Ontology（HPO）表型、家系信息、以及过滤后的变异表。
AI模型：OpenAI o3 Deep Research 推理模型，作为解释型推理层，接受病例包并输出“证据链接的候选分子解释”。
审查流程：模型输出经两名临床遗传学专家使用 ACMG/AMP 标准复核，若符合致病或可能致病标准，送至 CLIA 认证实验室进行验证，最终确认诊断。
基准验证：在已知诊断的案例中，模型在 48/51（94%）和 45/57（79%）的神经肌肉子集上重复找回正确基因，长读长测序子集全部找回。

整体诊断提升：18例新诊断，占总样本的 4.8%。各子集收益不同：神经肌肉疾病 6.6%，突发非预期死亡 1.0%，早发精神病 13.3%，神经发育障碍 0%。
模型置信度：正确诊断的最小置信分数平均 85.6，错误或未知的为 42.1，显示分数可辅助定位高价值线索。
结构变异识别：模型在一次早发精神病案例中推断出 22q11.2 缺失（DiGeorge 综合征），随后通过全基因组测序确认。
复合基因解释：在部分病例中，模型同时提出两基因（如 LAMA2 与 FOXP1）共同解释复杂表型，提示多基因协同作用的可能性。

Kyra 是一名在 9 岁时因肌肉无力被误诊的患者，历经近二十年未获明确病因。AI 重新分析后将其疾病归因于 HSPB8 框移突变，确诊为肌纤维蛋白病。虽然诊断未改变已发生的病程，却为她及家属提供了病因闭环和后续管理方向。

“研究人员不可能把 8,000 种疾病全记在脑子里，AI 的力量就在这里。”——波士顿儿童医院 Manton 中心研究员 Catherine Brownstein

本次研究证明，通用大语言模型在基因组医学的解释型推理上具备可操作性，能够在已有数据上发现被人类审查遗漏的线索。随着模型能力和安全审计工具的提升，AI 有望成为临床基因组学中“低成本助理”，帮助专家在海量变异与文献中快速定位有价值的候选，缩短罕见病患者的诊断之路。