用Markdown写一个AI研究循环：Karpathy的autoresearch实验

2026年5月27日

539

用Markdown写一个AI研究循环：Karpathy的autoresearch实验

在AI领域，我们习惯性地认为自动化研究需要一个复杂的主循环脚本——用Python或Bash编写调度逻辑，调用大语言模型执行各种操作。然而，Karpathy的最新项目autoresearch彻底颠覆了这一认知。他用一份简单的Markdown文档，构建了完整的AI自主研究循环，让研究自动化的门槛降低到了前所未有的程度。

Markdown即程序：反转的思维框架

autoresearch的核心设计极为简洁：整个项目只有三个文件——prepare.py负责数据准备和评估（只读），train.py包含模型和训练循环（约630行，agent修改的对象），以及program.md——给agent的自然语言指令。值得注意的是，这里没有任何传统意义上的run.py或主循环脚本。那么循环在哪里？答案出人意料：循环就写在program.md里，用自然语言描述。

五分钟一轮：可比较的实验节奏

摘取program.md中的核心逻辑可以看到，它用纯文本描述了完整的研究循环：无限循环→查看git状态→直接修改train.py代码→git commit→运行实验→读取结果→根据指标决定是否保留改动→如果改进则推进分支，否则回退。这个设计的巧妙之处在于：Agent本身就是循环。没有Python调度器，Karpathy直接把Claude Code或Codex当成runtime，program.md就是给它喂的程序。一份Markdown文档，就是一个可执行的研究方案。

The program.md file is essentially a super lightweight skill. 一份Markdown文档，就是一个可执行的研究方案。

“Karpathy”

🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器，最终交付可直接使用的文档、表格与 PPT，而不只是一段回答。

下载桌面版

两条关键规则：NEVER STOP与Simplicity

autoresearch将每轮实验时间固定为5分钟，写在prepare.py的TIME_BUDGET常量里。这个设计是有意为之——它保证了不同实验之间的可比性，无论agent把模型改大改小、改架构改优化器，都跑相同时间。实验结果以val_bpb（验证集bits per byte，越低越好）为核心指标，写入results.tsv文件记录。如果val_bpb降低则git commit推进分支，否则git reset回退。Karpathy让系统跑了48小时，执行了约700个实验，其中23个真正带来改进，保留率约18%，val_bpb从0.9979降至0.9697。

门槛与扩展：从H100到MacBook

在program.md中有两条容易被忽略但至关重要的规则。第一条是「NEVER STOP」：agent一旦开始运行就不能停下来，不要询问「要继续吗」或「这是好的停止点吗」。这否决了我们对AI agent的一个隐性假设——AI应该礼貌地确认进度。Karpathy认为礼貌是为人服务的，不是为agent服务的。第二条是「Simplicity criterion」：同样指标改进时，删代码的保留，加代码的丢弃。这本质上是对研究品味的编码——Karpathy用一段Markdown把「不要用hacky方式刷分」这种隐性知识写下来，喂给agent。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权，请联系删除。

AI研究 LLM应用自动化开源项目积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

🦞

JimoClaw 桌面 AI Agent 工作台

让 AI 处理本地资料 · 操控浏览器 · 交付可用文档

下载桌面版

用Markdown写一个AI研究循环：Karpathy的autoresearch实验

Markdown即程序：反转的思维框架

五分钟一轮：可比较的实验节奏

JimoClaw — 桌面 AI Agent 工作台

两条关键规则：NEVER STOP与Simplicity

门槛与扩展：从H100到MacBook

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

用Markdown写一个AI研究循环：Karpathy的autoresearch实验

Markdown即程序：反转的思维框架

五分钟一轮：可比较的实验节奏

JimoClaw — 桌面 AI Agent 工作台

两条关键规则：NEVER STOP与Simplicity

门槛与扩展：从H100到MacBook

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展 超75%展位售罄，首批展商选位圆满完成 ！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向