当AI开始泡在数学项目里：DeepMind的48%突破意味着什么？

DeepMind 推出的 co-mathematician 工作台在 FrontierMath Tier 4 基准测试中取得 48% 的正确率，远超基座模型独立表现，显示通过系统化的多智能体分工能显著提升数学问题求解能力。

系统设计与多智能体协作

该系统由项目协调员、文献检索员、计算探索员、证明推导员与审稿人等角色组成，形成并行工作流与任务分工，强调工程化流程而非单一模型能力提升。

基座模型 Gemini 3.1 Pro 单独作战的表现约为 19%，系统整体将其能力编排与协同后实现 48% 的突破，说明架构与流程对于复杂推理任务的关键作用。

从 19% 到 48% 的跃升来自系统设计与多智能体协同，而非单纯模型升级。

“小墨”

牛津大学数学家使用该系统研究群论开放问题，系统能够自动分配研究路径并发现关键证明思路，为 AI 协助学术研究提供了新的范式。

这一成果表明，通过任务分工、审稿与并行探索，智能体系统在高阶数学任务上具备显著增效潜力，未来将推动更多跨学科合作与工具化研究平台的发展。

如有侵权，请联系删除。

Share This Post