Mistral AI发布Leanstral 1.5,首个开源Lean 4代码代理模型在PutnamBench上解答587题

2 阅读4分钟前沿

模型概览

Mistral AI在本周正式发布 Leanstral 1.5,这是面向Lean 4证明助理的代码代理模型。模型采用 119B 参数的 Mixture‑of‑Experts(MoE) 设计,拥有128个专家网络,每次推理仅激活6.5B 参数,显著降低计算成本。上下文窗口扩展至256k tokens,支持文本和图像双模输入,输出为纯文本。

关键技术

  • MoE 路由机制:每个 token 由4个专家共同处理,保持大容量的同时实现高效推理。
  • 三阶段训练:中期预训练 → 监督微调 → 基于CISPO的强化学习(多轮定理推导与代码编辑两大环境)。
  • 实时反馈回路:模型通过 Lean 语言服务器获取编译错误、目标信息,实现自动化的证明修正与代码修补。
  • 安全验证:使用 Mistral 自研的 SafeVerify 对生成的证明进行形式化校验,确保结果的数学严谨性。

基准表现

基准成绩
miniF2F(验证/测试)100%(已饱和)
PutnamBench587 / 672
FATE‑H87%(新纪录)
FATE‑X34%(新纪录)
FLTEval pass@128.9%(↑ 7%)
FLTEval pass@843.2%(↑ 11%)

PutnamBench 上,Leanstral 1.5 以约 4 美元/题 的成本超越了同类开源模型,且远低于商业模型 Opus 4.6 的 39.6% 成功率。模型的性能随 token 预算线性提升:在 50k、200k、1M、4M token 预算下分别解决 44、244、493、587 题。

实际案例

  1. 数学证明:Leanstral 为 AVL 树实现了 (O(\log n)) 时间复杂度的形式化证明,使用结构归纳和 TimeM 单子,耗时约 2.7 M token,压缩后每层高度仅需 48 步。
  2. 代码漏洞发现:通过 Aeneas 将 Rust 代码翻译成 Lean,Leanstral 自动推断函数不变式并尝试验证。对 57 个开源仓库检测出 47 条违背属性,其中 11 条为真实缺陷,5 条此前未被报告,典型案例为 datrs/varinteger 中的 zigzag 解码溢出问题。

部署与使用

  • 云端调用:在 Mistral Vibe 平台开启 Labs models,使用免费 API leanstral-1-5 即可。
  • 本地部署:推荐使用 vLLM 0.24.0+,配合 FLASH_ATTN_MLA 注意力后端,四卡并行即可支撑 200k token 推理。
  • OpenAI 兼容:通过 OpenAI‑style 客户端调用,reasoning_effort 参数可在 high(深度推理)和 none(快速响应)之间切换。
uv pip install -U vllm --torch-backend=auto
vllm serve mistralai/Leanstral-1.5-119B-A6B 
  --max-model-len 200000 
  --tensor-parallel-size 4 
  --attention-backend FLASH_ATTN_MLA

结论

Leanstral 1.5 以 免费、开源、性能领先 的姿态,为数学家、软件工程师提供了可直接交互的证明与代码验证工具。它的 MoE 架构在保持高容量的同时显著降低算力门槛,已在多个公开基准实现突破。未来,随着更大 token 预算和更丰富的工具调用,Leanstral 有望成为自动化定理证明和安全代码审计的核心引擎。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。