用Markdown写一个AI研究循环:Karpathy的autoresearch实验

2026年5月27日

98

539

用Markdown写一个AI研究循环:Karpathy的autoresearch实验

在AI领域,我们习惯性地认为自动化研究需要一个复杂的主循环脚本——用Python或Bash编写调度逻辑,调用大语言模型执行各种操作。然而,Karpathy的最新项目autoresearch彻底颠覆了这一认知。他用一份简单的Markdown文档,构建了完整的AI自主研究循环,让研究自动化的门槛降低到了前所未有的程度。

Markdown即程序:反转的思维框架

autoresearch的核心设计极为简洁:整个项目只有三个文件——prepare.py负责数据准备和评估(只读),train.py包含模型和训练循环(约630行,agent修改的对象),以及program.md——给agent的自然语言指令。值得注意的是,这里没有任何传统意义上的run.py或主循环脚本。那么循环在哪里?答案出人意料:循环就写在program.md里,用自然语言描述。

五分钟一轮:可比较的实验节奏

摘取program.md中的核心逻辑可以看到,它用纯文本描述了完整的研究循环:无限循环→查看git状态→直接修改train.py代码→git commit→运行实验→读取结果→根据指标决定是否保留改动→如果改进则推进分支,否则回退。 这个设计的巧妙之处在于:Agent本身就是循环。没有Python调度器,Karpathy直接把Claude Code或Codex当成runtime,program.md就是给它喂的程序。一份Markdown文档,就是一个可执行的研究方案。

The program.md file is essentially a super lightweight skill. 一份Markdown文档,就是一个可执行的研究方案。

“Karpathy”
🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器,最终交付可直接使用的文档、表格与 PPT,而不只是一段回答。

下载桌面版

两条关键规则:NEVER STOP与Simplicity

autoresearch将每轮实验时间固定为5分钟,写在prepare.py的TIME_BUDGET常量里。这个设计是有意为之——它保证了不同实验之间的可比性,无论agent把模型改大改小、改架构改优化器,都跑相同时间。实验结果以val_bpb(验证集bits per byte,越低越好)为核心指标,写入results.tsv文件记录。如果val_bpb降低则git commit推进分支,否则git reset回退。Karpathy让系统跑了48小时,执行了约700个实验,其中23个真正带来改进,保留率约18%,val_bpb从0.9979降至0.9697。

门槛与扩展:从H100到MacBook

在program.md中有两条容易被忽略但至关重要的规则。第一条是「NEVER STOP」:agent一旦开始运行就不能停下来,不要询问「要继续吗」或「这是好的停止点吗」。这否决了我们对AI agent的一个隐性假设——AI应该礼貌地确认进度。Karpathy认为礼貌是为人服务的,不是为agent服务的。 第二条是「Simplicity criterion」:同样指标改进时,删代码的保留,加代码的丢弃。这本质上是对研究品味的编码——Karpathy用一段Markdown把「不要用hacky方式刷分」这种隐性知识写下来,喂给agent。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权,请联系删除。

Related Articles

联系我们 免费试用
小墨 AI