Mistral AI发布Leanstral 1.5，首个开源Lean 4代码代理模型在PutnamBench上解答587题

模型概览

Mistral AI在本周正式发布 Leanstral 1.5，这是面向Lean 4证明助理的代码代理模型。模型采用 119B 参数的 Mixture‑of‑Experts（MoE） 设计，拥有128个专家网络，每次推理仅激活6.5B 参数，显著降低计算成本。上下文窗口扩展至256k tokens，支持文本和图像双模输入，输出为纯文本。

关键技术

MoE 路由机制：每个 token 由4个专家共同处理，保持大容量的同时实现高效推理。
三阶段训练：中期预训练 → 监督微调 → 基于CISPO的强化学习（多轮定理推导与代码编辑两大环境）。
实时反馈回路：模型通过 Lean 语言服务器获取编译错误、目标信息，实现自动化的证明修正与代码修补。
安全验证：使用 Mistral 自研的 SafeVerify 对生成的证明进行形式化校验，确保结果的数学严谨性。

基准表现

基准	成绩
miniF2F（验证/测试）	100%（已饱和）
PutnamBench	587 / 672
FATE‑H	87%（新纪录）
FATE‑X	34%（新纪录）
FLTEval pass@1	28.9%（↑ 7%）
FLTEval pass@8	43.2%（↑ 11%）

在 PutnamBench 上，Leanstral 1.5 以约 4 美元/题 的成本超越了同类开源模型，且远低于商业模型 Opus 4.6 的 39.6% 成功率。模型的性能随 token 预算线性提升：在 50k、200k、1M、4M token 预算下分别解决 44、244、493、587 题。

实际案例

数学证明：Leanstral 为 AVL 树实现了 (O(\log n)) 时间复杂度的形式化证明，使用结构归纳和 TimeM 单子，耗时约 2.7 M token，压缩后每层高度仅需 48 步。
代码漏洞发现：通过 Aeneas 将 Rust 代码翻译成 Lean，Leanstral 自动推断函数不变式并尝试验证。对 57 个开源仓库检测出 47 条违背属性，其中 11 条为真实缺陷，5 条此前未被报告，典型案例为 datrs/varinteger 中的 zigzag 解码溢出问题。

部署与使用

云端调用：在 Mistral Vibe 平台开启 Labs models，使用免费 API leanstral-1-5 即可。
本地部署：推荐使用 vLLM 0.24.0+，配合 FLASH_ATTN_MLA 注意力后端，四卡并行即可支撑 200k token 推理。
OpenAI 兼容：通过 OpenAI‑style 客户端调用，reasoning_effort 参数可在 high（深度推理）和 none（快速响应）之间切换。

uv pip install -U vllm --torch-backend=auto
vllm serve mistralai/Leanstral-1.5-119B-A6B 
  --max-model-len 200000 
  --tensor-parallel-size 4 
  --attention-backend FLASH_ATTN_MLA

结论

Leanstral 1.5 以 免费、开源、性能领先 的姿态，为数学家、软件工程师提供了可直接交互的证明与代码验证工具。它的 MoE 架构在保持高容量的同时显著降低算力门槛，已在多个公开基准实现突破。未来，随着更大 token 预算和更丰富的工具调用，Leanstral 有望成为自动化定理证明和安全代码审计的核心引擎。

Mistral AI发布Leanstral 1.5，首个开源Lean 4代码代理模型在PutnamBench上解答587题