PettingLLMs 框架与 GRPO 算法详解

2025年11月8日

57

742

LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

近期,UCSD 与英特尔团队提出 PettingLLMs,一种通用化的多智能体强化学习训练框架,旨在让多个大型语言模型(LLM)以任意组合方式进行联合训练,提升协作与工具调用能力。

框架与算法

PettingLLMs 采用 Group Relative Policy Optimization(GRPO)等方法,通过分组相对策略优化实现模型间协同学习,支持异构模型共同训练与信息共享,从而增强模型在工具调用与任务分工上的表现。

性能提升

在多项基准和任务上,作者报告该方法能显著提升模型对外部工具的调用效率与准确性,部分场景下工具调用能力提升幅度可达 5.8 倍,体现出在复杂协作任务中的优势。

PettingLLMs 通过 Group Relative Policy Optimization(GRPO)实现多模型协同训练,显著增强工具调用能力。

“小墨”
🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器,最终交付可直接使用的文档、表格与 PPT,而不只是一段回答。

下载桌面版

应用与意义

该方法为训练具备复杂推理、分工协作和工具调用能力的 AI 智能体提供新路径,适用于需要多模态、多工具联合的现实场景,有望推动多智能体系统在工业与科研中的落地。

未来方向

后续工作可关注方法在更大规模异构模型组合下的稳定性、样本效率、以及对安全与可解释性的保障,同时探索与现实系统集成的工程化挑战与优化策略。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权,请联系删除。

Related Articles

联系我们 免费试用
小墨 AI