Google AI推出贝叶斯教学法显著提升大模型推理能力

6 阅读3分钟前沿

研究背景

当前的大语言模型(LLM)在一次性交互任务上表现已趋于成熟,但在需要多轮信息累计的场景仍表现出“单轮完结”瓶颈。Google AI 的研究团队指出,现有模型缺乏对新证据的概率更新能力,导致在用户偏好不断演化的交互中快速失效。

贝叶斯教学方法

团队提出的 Bayesian Teaching 并非传统的“正确答案”微调,而是让模型学习贝叶斯助理的推理过程:

  • 任务设定:以五轮航班推荐为例,模型需根据用户每轮的选择,推断用户对价格、时长、停留次数等特征的偏好向量。
  • 贝叶斯助理:符号化的 Bayesian 助理使用先验分布 + 似然函数,依据用户选择更新后验分布。
  • 监督微调(SFT):将 LLM 与贝叶斯助理的交互轨迹对齐,使模型学会在每一步产生 “有教育意义的猜测”,而非直接输出最终最优答案。

实验结果

模型微调方式任务准确率与贝叶斯黄金标准匹配度
Gemma‑2‑9BOracle Teaching62%55%
Gemma‑2‑9BBayesian Teaching84%80%
Llama‑3‑8BOracle Teaching60%53%
Llama‑3‑8BBayesian Teaching81%78%

结果显示,贝叶斯教学显著提升了模型的信念更新能力,准确率提升约 20‑25%,且与贝叶斯黄金标准的匹配度接近 80%。

跨域迁移与意义

为了验证能力的通用性,团队将仅在航班数据上微调的模型迁移至:

  • 酒店推荐:特征维度从 4 扩展至 8;
  • 电商购物:使用真实商品标题与描述的模拟环境。

在这些新任务中,贝叶斯教学模型仍保持 70% 以上的高匹配度,甚至在部分回合中超越了人类实验参与者,说明模型已学会抽象的“从不确定中学习”策略。

业界影响

该研究展示了 深度学习 + 符号推理 的新桥梁:通过让 LLM 模仿经典贝叶斯更新过程,既保留了神经网络的语言理解优势,又获得了统计推理的严谨性。对未来的智能助理、推荐系统乃至自动化决策平台都有重要启示:

  • 更稳健的人机交互:模型能够容忍用户行为噪声,持续优化推荐;
  • 降低符号模型构建成本:不必为每个细分领域手工编写贝叶斯模型,只需一次通用的贝叶斯教学即可实现迁移。

Google 表示,将继续探索该方法在更大规模模型(如 Gemini‑1.5 系列)上的应用,期待在生成式 AI 与传统概率推理之间搭建更坚实的桥梁。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。