Google AI推出贝叶斯教学法显著提升大模型推理能力
•6 阅读•3分钟•前沿
GoogleGeminiLLM贝叶斯教学Probabilistic Reasoning
•6 阅读•3分钟•前沿
研究背景
当前的大语言模型(LLM)在一次性交互任务上表现已趋于成熟,但在需要多轮信息累计的场景仍表现出“单轮完结”瓶颈。Google AI 的研究团队指出,现有模型缺乏对新证据的概率更新能力,导致在用户偏好不断演化的交互中快速失效。
贝叶斯教学方法
团队提出的 Bayesian Teaching 并非传统的“正确答案”微调,而是让模型学习贝叶斯助理的推理过程:
- 任务设定:以五轮航班推荐为例,模型需根据用户每轮的选择,推断用户对价格、时长、停留次数等特征的偏好向量。
- 贝叶斯助理:符号化的 Bayesian 助理使用先验分布 + 似然函数,依据用户选择更新后验分布。
- 监督微调(SFT):将 LLM 与贝叶斯助理的交互轨迹对齐,使模型学会在每一步产生 “有教育意义的猜测”,而非直接输出最终最优答案。
实验结果
| 模型 | 微调方式 | 任务准确率 | 与贝叶斯黄金标准匹配度 |
|---|---|---|---|
| Gemma‑2‑9B | Oracle Teaching | 62% | 55% |
| Gemma‑2‑9B | Bayesian Teaching | 84% | 80% |
| Llama‑3‑8B | Oracle Teaching | 60% | 53% |
| Llama‑3‑8B | Bayesian Teaching | 81% | 78% |
结果显示,贝叶斯教学显著提升了模型的信念更新能力,准确率提升约 20‑25%,且与贝叶斯黄金标准的匹配度接近 80%。
跨域迁移与意义
为了验证能力的通用性,团队将仅在航班数据上微调的模型迁移至:
- 酒店推荐:特征维度从 4 扩展至 8;
- 电商购物:使用真实商品标题与描述的模拟环境。
在这些新任务中,贝叶斯教学模型仍保持 70% 以上的高匹配度,甚至在部分回合中超越了人类实验参与者,说明模型已学会抽象的“从不确定中学习”策略。
业界影响
该研究展示了 深度学习 + 符号推理 的新桥梁:通过让 LLM 模仿经典贝叶斯更新过程,既保留了神经网络的语言理解优势,又获得了统计推理的严谨性。对未来的智能助理、推荐系统乃至自动化决策平台都有重要启示:
- 更稳健的人机交互:模型能够容忍用户行为噪声,持续优化推荐;
- 降低符号模型构建成本:不必为每个细分领域手工编写贝叶斯模型,只需一次通用的贝叶斯教学即可实现迁移。
Google 表示,将继续探索该方法在更大规模模型(如 Gemini‑1.5 系列)上的应用,期待在生成式 AI 与传统概率推理之间搭建更坚实的桥梁。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。