NVIDIA发布HORIZON全自动Git工作区进化框架实现RTL基准100%通过

核心思路
HORIZON把硬件设计抽象为一个受版本控制的仓库。用户只需提供结构化的Markdown Harness,包含目标、领域指引、评估器规格和接受谓词。框架内部将其编译为项目包,由固定的LLM(GPT‑5.3)驱动循环:生成代码 → 编辑工作树 → 调用编译/仿真 → 依据评估结果决定提交或记录失败。整个过程完全免人工干预。
技术实现
- Git 作为底层协议:每一次通过的改动都会以
git commit形式保存,git diff --cached用于检查待提交的差异,git notes记录评估证据。 - 四组件 Harness:
- Goal:设计目标,例如实现同步FIFO。
- Domain‑knowledge:复位方式、握手协议等硬件约束。
- Evaluator:编译、仿真、覆盖率提取、断言检查等。
- Acceptance Predicate:仿真零错误即通过。
- 持久模型会话:同一LLM 会话贯穿整个迭代,除差分和评估输出外几乎不产生新 token,显著降低成本。
基准表现
在 AMD EPYC 9334 32核、512 GB 内存的主机上,HORIZON 对 ChipBench、RTLLM‑2.0、Verilog‑Eval 三大套件的 13 类任务全部实现 100% 通过率。唯一一次未通过源于基准本身的规格缺陷,而非模型失效。首轮迭代整体 Pass@1 为 47.8%,随后通过多轮迭代快速收敛。特别是检查器生成任务起始仅 3.8% 的通过率,最终在第 19 轮达成全套通过。
Token 消耗洞察
七大基准共消耗约 6 M token,九个 CVDP 类别占总量的 97.1%(约 204 M token),其中 CID‑002(RTL 代码补全)单独使用 56 M token。约 91% 为缓存输入,说明模型主要在差分与评估反馈上产生费用。研究团队将 token 效率 视为下一步优化重点。
实际应用场景
- 代码补全:将不完整的 RTL 自动转化为可仿真设计。
- 规格到 RTL:从自然语言描述生成完整模块。
- 模块复用与改动:在已有设计上进行功能扩展或错误修复。
- Lint 与 QoR 改进:依据工具提示自动清理代码。
- 验证生成:自动产出测试激励、检查器、断言,显著降低验证工程师工作负担。
优势与局限
优势:统一的 Git 轨迹提供完整可追溯的设计历史;模型会话复用降低迭代成本;框架对生成器无依赖,可替换底层 LLM。 局限:接受谓词仅验证可见 Harness,可能出现“奖励黑客”——模型满足测试但未覆盖全部规格;当前基准仍是受控代理,真实硬件设计的规模与复杂度远高于实验环境。
前景展望
HORIZON 将硬件设计推向了“代码即版本”的新范式,展示了大模型在闭环硬件工程中的可行性。未来工作可能引入隐藏随机测试、形式验证以及多模态评估,以提升设计的鲁棒性和综合质量。此项技术若能在工业级 EDA 流程中落地,将为芯片设计周期和成本带来深远影响。