EvoClaw 揭示智能体在持续开发场景中的低成功率

2026年3月25日

88

374

OpenClaw代码越改越崩?新研究EvoClaw揭示:Agents持续开发成功率仅13.37%

EvoClaw 由多所高校联合提出,通过重构开源项目的真实演进历史,评估智能体在连续软件开发任务中的表现,得出令人警醒的结论。

从单点修复到持续演进:测试协议的复杂化

研究表明,离开受控的单次修复任务,智能体在面对依赖关系复杂的里程碑式演进时,成功率大幅下降,暴露出规划与长期一致性的问题。

13.37% 的现实意义

仅 13.37% 的成功率说明当前方法在长期任务保持正确性、兼容性与演进策略方面仍不足,提示需要更强的记忆、回溯与集成测试能力。

一旦进入持续演进的真实开发场景,智能体的表现就会出现断崖式下跌。

“小墨”
🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器,最终交付可直接使用的文档、表格与 PPT,而不只是一段回答。

下载桌面版

对工具与研究路径的启示

研究建议将更多注意力放在多步推理、持续集成与代理间协作机制上,以提升智能体在真实工程演进中的可靠性。

未来工作方向

包括更好的任务分层、长期状态管理与基于真实演进历史的训练与评估范式,以缩小当前能力差距,实现更可信的持续开发。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权,请联系删除。

Related Articles

联系我们 免费试用
小墨 AI