NVIDIA发布HORIZON全自动Git工作区进化框架实现RTL基准100%通过

核心思路

HORIZON把硬件设计抽象为一个受版本控制的仓库。用户只需提供结构化的Markdown Harness，包含目标、领域指引、评估器规格和接受谓词。框架内部将其编译为项目包，由固定的LLM（GPT‑5.3）驱动循环：生成代码 → 编辑工作树 → 调用编译/仿真 → 依据评估结果决定提交或记录失败。整个过程完全免人工干预。

技术实现

Git 作为底层协议：每一次通过的改动都会以 git commit 形式保存，git diff --cached 用于检查待提交的差异，git notes 记录评估证据。
四组件 Harness：
- Goal：设计目标，例如实现同步FIFO。
- Domain‑knowledge：复位方式、握手协议等硬件约束。
- Evaluator：编译、仿真、覆盖率提取、断言检查等。
- Acceptance Predicate：仿真零错误即通过。
持久模型会话：同一LLM 会话贯穿整个迭代，除差分和评估输出外几乎不产生新 token，显著降低成本。

基准表现

在 AMD EPYC 9334 32核、512 GB 内存的主机上，HORIZON 对 ChipBench、RTLLM‑2.0、Verilog‑Eval 三大套件的 13 类任务全部实现 100% 通过率。唯一一次未通过源于基准本身的规格缺陷，而非模型失效。首轮迭代整体 Pass@1 为 47.8%，随后通过多轮迭代快速收敛。特别是检查器生成任务起始仅 3.8% 的通过率，最终在第 19 轮达成全套通过。

Token 消耗洞察

七大基准共消耗约 6 M token，九个 CVDP 类别占总量的 97.1%（约 204 M token），其中 CID‑002（RTL 代码补全）单独使用 56 M token。约 91% 为缓存输入，说明模型主要在差分与评估反馈上产生费用。研究团队将 token 效率 视为下一步优化重点。

实际应用场景

代码补全：将不完整的 RTL 自动转化为可仿真设计。
规格到 RTL：从自然语言描述生成完整模块。
模块复用与改动：在已有设计上进行功能扩展或错误修复。
Lint 与 QoR 改进：依据工具提示自动清理代码。
验证生成：自动产出测试激励、检查器、断言，显著降低验证工程师工作负担。

优势与局限

优势：统一的 Git 轨迹提供完整可追溯的设计历史；模型会话复用降低迭代成本；框架对生成器无依赖，可替换底层 LLM。局限：接受谓词仅验证可见 Harness，可能出现“奖励黑客”——模型满足测试但未覆盖全部规格；当前基准仍是受控代理，真实硬件设计的规模与复杂度远高于实验环境。

前景展望

HORIZON 将硬件设计推向了“代码即版本”的新范式，展示了大模型在闭环硬件工程中的可行性。未来工作可能引入隐藏随机测试、形式验证以及多模态评估，以提升设计的鲁棒性和综合质量。此项技术若能在工业级 EDA 流程中落地，将为芯片设计周期和成本带来深远影响。