Andrej Karpathy开源Autoresearch 让AI代理单卡自主进行机器学习实验

9 阅读4分钟开源

背景与亮点

Andrej Karpathy 近期在 GitHub 上开源了 Autoresearch,这是一款仅约630行代码的轻量级 Python 框架。它基于 nanochat 的 LLM 训练核心,专为单卡 NVIDIA GPU 环境设计,使得 AI 代理能够在完全无人干预的情况下完成机器学习实验的全流程——从读取人类指令到代码修改、训练运行,再到基于 bits‑per‑byte (BPB) 指标的自动校验并提交 Git。

核心工作流

  • 人类指令(Markdown):研究者在 .md 文件中编写高层实验目标与约束。
  • 代理行为(Python):AI 读取指令后生成或修改训练脚本(.py),可调网络结构、优化器、超参数等。
  • 执行与评估:代理在固定的 5 分钟训练窗口内运行实验,计算验证集的 BPB 分数;只有分数下降(即模型更好)时才会执行 git commit
  • 迭代循环:每一次训练结束后,代理再次读取最新的指令与代码,持续进行改进,形成闭环的 Autonomous Iteration Loop

关键技术细节

  • 单文件、单卡:全部代码浓缩在一个文件中,确保完整内容能够被当代 LLM 的上下文窗口一次性读取,显著降低生成代码的错误率。
  • BPB 评价指标:采用模型在验证集上的压缩效率作为唯一评价标准,数值越低代表模型越精准,简化了多指标比较的复杂度。
  • Git‑Driven 追踪:每一次有效改动都以特性分支的方式记录,方便研究者回溯实验历史,形成可审计的研发流水线。

实际落地案例

发布后,Shopify CEO Tobi Lutke 将 Autoresearch 引入内部项目。通过让代理在较小模型上进行结构与超参数搜索,团队实现了 19% 的验证分数提升,且该小模型最终跑赢了此前手工调参得到的更大模型。Karpathy 在推特中进一步说明,代理发现的部分代码优化已经回流到 nanochat 主框架,验证了该工具在大规模生产环境中的可迁移性。

对开发者的意义

  1. 从超参数调优到 Prompt 工程:研发人员的核心工作从手动调参转向如何编写高质量的指令 Prompt,引导代理高效探索搜索空间。
  2. 降低实验成本:单卡、单文件的设计让任何配备普通 GPU 的工作站都能运行完整的自动实验循环,极大降低了算力门槛。
  3. 可审计、可复现:Git‑based 的改动记录为科研提供了完整的实验轨迹,符合学术界对可复现性的基本要求。

展望

Autoresearch 将“AI 代理”从概念验证阶段推向实用工具层面,标志着 Agentic AI 工作流在模型研发中的首次大规模落地。随着 Prompt 技术的成熟与更强 LLM 的加入,未来我们有望看到更复杂的模型结构、跨模态任务乃至端到端的产品化研发全链路被 AI 代理全程管理。

“让 AI 本身成为研发助手,而不是仅仅提供预测能力。” — Andrej Karpathy

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。