用Markdown写一个AI研究循环:autoresearch的设计启示

2026年5月27日

48

989

用Markdown写一个AI研究循环:autoresearch的设计启示

当大多数开发者还在思考如何用Python脚本包装LLM能力时,有人已经走到了更远的地方。近日,一个名为autoresearch的开源项目引发了关注——它尝试将AI研究的整个循环,用一份Markdown文档来表达。这个设计的背后,是一个被很多人忽视的事实:真正限制AI研究自动化的,从来不是模型能力,而是我们如何定义"研究"这件事本身。

Markdown即程序:一种反直觉的设计

翻开autoresearch的代码仓库,你会发现它的结构出人意料地简单。整个项目只有三个核心文件:prepare.py负责数据准备和评估(只读权限,Agent不能修改);train.py包含模型和训练循环(630行代码,是Agent修改的对象);program.md则是给Agent的自然语言指令。这与传统自动化框架的范式截然不同——没有run.py,没有主循环脚本。那么研究循环在哪里?答案是:就在program.md里,用自然语言写成的。

5分钟一轮:一套严谨的实验机制

作者在README中明确写道:"The program.md file is essentially a super lightweight skill." 这句话揭示了autoresearch的核心设计哲学——Agent本身就是循环,而Markdown才是程序。具体来说,program.md中包含了这样的指令:LOOP FOREVER: 查看git状态、直接修改train.py代码实现实验想法、git commit、运行实验、读取结果、根据val_bpb指标决定是继续还是回退。这种设计打破了几十年来的惯性思维:人们的第一反应总是"写个主循环把LLM包起来",而autoresearch选择反过来——让LLM成为主循环,Markdown成为程序本身。

简单的东西往往最有力量。

“AI研究的新范式”
🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器,最终交付可直接使用的文档、表格与 PPT,而不只是一段回答。

下载桌面版

两条被写入代码的研究规矩

autoresearch的运行机制设计得非常克制。每轮实验被严格限制在5分钟内,这个时间由prepare.py中的TIME_BUDGET常量决定,Agent无法修改。选择5分钟的理由是:保证不同实验之间的可比性——无论Agent把模型改大改小、改架构还是改优化器,都统一跑5分钟。实验结果以val_bpb(验证集bits per byte)为主要指标,这个选择也经过深思熟虑:val_bpb对词表大小不敏感,使得Agent修改vocab时也能公平比较。实验记录会写入results.tsv文件,每条记录包含commit、val_bpb、memory_gb、status和description五个字段,其中status只有三种状态:keep(保留)、discard(丢弃)、crash(崩溃)。根据实际数据,作者跑了48小时共700个实验,最终有23个带来了真正改进,保留率约18%,val_bpb从0.9979降至0.9697。

在program.md中,有两条规矩值得特别关注。第一条是"NEVER STOP"——Agent一旦开始运行就不能停下来,不能问"我要继续吗"或"这是个好停止点吗"。这条规矩否决了我们对AI Agent的一个隐性假设:AI应该"礼貌地确认进度"。作者的观点很明确:礼貌是为人服务的,不是为Agent服务的。第二条是"Simplicity criterion":在指标差不多的情况下,简单优先。同样的改进,删代码的会保留,加代码的会被丢弃。这本质上是将人类研究员的品味编码进指令——一个好的研究员会认为"加了20行垃圾代码换0.1%指标"不值得,但Agent默认不会这么想。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权,请联系删除。

Related Articles

联系我们 免费试用
小墨 AI