多智能体协同在数学研究任务中的应用与成果展示

2026年5月11日

61

777

当AI开始泡在数学项目里:DeepMind的48%突破意味着什么?

DeepMind 推出的 co-mathematician 工作台在 FrontierMath Tier 4 基准测试中取得 48% 的正确率,远超基座模型独立表现,显示通过系统化的多智能体分工能显著提升数学问题求解能力。

系统设计与多智能体协作

该系统由项目协调员、文献检索员、计算探索员、证明推导员与审稿人等角色组成,形成并行工作流与任务分工,强调工程化流程而非单一模型能力提升。

从 19% 到 48% 的跃升原因

基座模型 Gemini 3.1 Pro 单独作战的表现约为 19%,系统整体将其能力编排与协同后实现 48% 的突破,说明架构与流程对于复杂推理任务的关键作用。

从 19% 到 48% 的跃升来自系统设计与多智能体协同,而非单纯模型升级。

“小墨”

实际研究应用与案例

牛津大学数学家使用该系统研究群论开放问题,系统能够自动分配研究路径并发现关键证明思路,为 AI 协助学术研究提供了新的范式。

意义与未来方向

这一成果表明,通过任务分工、审稿与并行探索,智能体系统在高阶数学任务上具备显著增效潜力,未来将推动更多跨学科合作与工具化研究平台的发展。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI