Dr.MAS 多智能体训练方法成果展示图

2026年2月12日

86

631

南洋理工大学Dr.MAS:破解多智能体大语言模型训练难题,AI协作迎突破

南洋理工大学研究团队提出的Dr.MAS方法,针对多智能体大语言模型训练中常见的不稳定与梯度爆炸问题,带来了有效的解决思路,为多智能体协作能力的提升奠定基础。

Dr.MAS的核心思想

该方法通过为每个智能体单独计算奖励的均值与标准差,实施个性化评价,使得训练过程中的梯度波动被抑制,从而稳定多智能体联合训练。

实验效果与性能提升

在数学推理任务上,平均成功率从57.5%提升到61.1%;在多轮搜索任务上成功率从28.0%提升到43.8%,显示了方法在复杂协作场景下的有效性。

为每个智能体实施个性化奖励标准化,可以显著缓解多智能体训练的不稳定性。

“小墨”

对多智能体研究的意义

文章强调该方法不仅提升了单项任务表现,更为设计可扩展、多角色合作的智能体系统提供了可行路径,推动了智能体在更多真实场景中的应用可能。

后续挑战与应用前景

研究仍面临可扩展性、样本效率及通用性等问题,未来需要结合算力优化与更丰富的评价机制,将方法推广到更大规模、多模态的任务中。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI