Google AI推出贝叶斯教学法显著提升大模型推理能力

研究背景

当前的大语言模型（LLM）在一次性交互任务上表现已趋于成熟，但在需要多轮信息累计的场景仍表现出“单轮完结”瓶颈。Google AI 的研究团队指出，现有模型缺乏对新证据的概率更新能力，导致在用户偏好不断演化的交互中快速失效。

团队提出的 Bayesian Teaching 并非传统的“正确答案”微调，而是让模型学习贝叶斯助理的推理过程：

模型	微调方式	任务准确率	与贝叶斯黄金标准匹配度
Gemma‑2‑9B	Oracle Teaching	62%	55%
Gemma‑2‑9B	Bayesian Teaching	84%	80%
Llama‑3‑8B	Oracle Teaching	60%	53%
Llama‑3‑8B	Bayesian Teaching	81%	78%

结果显示，贝叶斯教学显著提升了模型的信念更新能力，准确率提升约 20‑25%，且与贝叶斯黄金标准的匹配度接近 80%。

为了验证能力的通用性，团队将仅在航班数据上微调的模型迁移至：

在这些新任务中，贝叶斯教学模型仍保持 70% 以上的高匹配度，甚至在部分回合中超越了人类实验参与者，说明模型已学会抽象的“从不确定中学习”策略。

该研究展示了 深度学习 + 符号推理 的新桥梁：通过让 LLM 模仿经典贝叶斯更新过程，既保留了神经网络的语言理解优势，又获得了统计推理的严谨性。对未来的智能助理、推荐系统乃至自动化决策平台都有重要启示：

Google 表示，将继续探索该方法在更大规模模型（如 Gemini‑1.5 系列）上的应用，期待在生成式 AI 与传统概率推理之间搭建更坚实的桥梁。