Mistral AI发布Leanstral 1.5,首个开源Lean 4代码代理模型在PutnamBench上解答587题
•2 阅读•4分钟•前沿
Mistral AIMixture-of-ExpertsLeanstralLean 4
•2 阅读•4分钟•前沿
模型概览
Mistral AI在本周正式发布 Leanstral 1.5,这是面向Lean 4证明助理的代码代理模型。模型采用 119B 参数的 Mixture‑of‑Experts(MoE) 设计,拥有128个专家网络,每次推理仅激活6.5B 参数,显著降低计算成本。上下文窗口扩展至256k tokens,支持文本和图像双模输入,输出为纯文本。
关键技术
- MoE 路由机制:每个 token 由4个专家共同处理,保持大容量的同时实现高效推理。
- 三阶段训练:中期预训练 → 监督微调 → 基于CISPO的强化学习(多轮定理推导与代码编辑两大环境)。
- 实时反馈回路:模型通过 Lean 语言服务器获取编译错误、目标信息,实现自动化的证明修正与代码修补。
- 安全验证:使用 Mistral 自研的 SafeVerify 对生成的证明进行形式化校验,确保结果的数学严谨性。
基准表现
| 基准 | 成绩 |
|---|---|
| miniF2F(验证/测试) | 100%(已饱和) |
| PutnamBench | 587 / 672 |
| FATE‑H | 87%(新纪录) |
| FATE‑X | 34%(新纪录) |
| FLTEval pass@1 | 28.9%(↑ 7%) |
| FLTEval pass@8 | 43.2%(↑ 11%) |
在 PutnamBench 上,Leanstral 1.5 以约 4 美元/题 的成本超越了同类开源模型,且远低于商业模型 Opus 4.6 的 39.6% 成功率。模型的性能随 token 预算线性提升:在 50k、200k、1M、4M token 预算下分别解决 44、244、493、587 题。
实际案例
- 数学证明:Leanstral 为 AVL 树实现了 (O(\log n)) 时间复杂度的形式化证明,使用结构归纳和
TimeM单子,耗时约 2.7 M token,压缩后每层高度仅需 48 步。 - 代码漏洞发现:通过 Aeneas 将 Rust 代码翻译成 Lean,Leanstral 自动推断函数不变式并尝试验证。对 57 个开源仓库检测出 47 条违背属性,其中 11 条为真实缺陷,5 条此前未被报告,典型案例为
datrs/varinteger中的 zigzag 解码溢出问题。
部署与使用
- 云端调用:在 Mistral Vibe 平台开启 Labs models,使用免费 API
leanstral-1-5即可。 - 本地部署:推荐使用 vLLM 0.24.0+,配合
FLASH_ATTN_MLA注意力后端,四卡并行即可支撑 200k token 推理。 - OpenAI 兼容:通过 OpenAI‑style 客户端调用,
reasoning_effort参数可在 high(深度推理)和 none(快速响应)之间切换。
uv pip install -U vllm --torch-backend=auto
vllm serve mistralai/Leanstral-1.5-119B-A6B
--max-model-len 200000
--tensor-parallel-size 4
--attention-backend FLASH_ATTN_MLA
结论
Leanstral 1.5 以 免费、开源、性能领先 的姿态,为数学家、软件工程师提供了可直接交互的证明与代码验证工具。它的 MoE 架构在保持高容量的同时显著降低算力门槛,已在多个公开基准实现突破。未来,随着更大 token 预算和更丰富的工具调用,Leanstral 有望成为自动化定理证明和安全代码审计的核心引擎。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。