Ollama v0.21.0 重磅更新:Hermes Agent 联动、Copilot CLI 集成与多项性能优化全解析

2026年4月18日

27

829

Ollama v0.21.0 重磅更新:Hermes Agent 联动、Copilot CLI 集成与多项性能优化全解析

2026年4月17日,开源大模型运行平台Ollama正式发布了v0.21.0版本。此次更新并非简单的版本修补,而是一次兼顾新能力接入与稳定性提升的重要迭代。版本更新集中围绕launch体系、Agent集成、模型渲染与底层性能优化等多个方向进行了集中增强。

Hermes Agent 联动支持

本版本的核心更新涵盖三大方向:首先是Hermes Agent与Copilot CLI两大重要集成能力的加入,使Ollama的工作流协作能力得到显著扩展;其次是launch配置体系的持续优化,包括多个跳过未变化配置重写的机制以及交互体验的细节改进;最后是Gemma4模型与MLX计算路径的多维度优化,涉及模板渲染精度、缓存逻辑修正以及融合运算性能提升等多个层面。

Copilot CLI 集成与 launch 配置优化

v0.21.0最值得关注的新增功能是Hermes Agent与Ollama的联动支持。用户可通过「ollama launch hermes」命令直接启动这一自我改进型AI Agent。Hermes的核心特性在于能够与用户协同工作时自动创建技能,从而更好地适应和优化工作流程,尤其适用于研究与工程任务场景。这一能力的引入标志着Ollama从单纯的模型调用平台向AI工作流协作平台的战略延伸。

开源模型平台的价值不仅在于提供模型运行能力,更在于构建完整的AI工作流生态,让每个人都能成为AI时代的创造者。

“AI观察”

Gemma4 与 MLX 性能优化

在launch体系方面,本次更新加入了Copilot CLI集成能力,使命令行AI助手工作流得以进一步完善。同时,launch配置逻辑进行了多项实用优化:跳过未变化的integration rewrite配置以减少不必要的重写操作;OpenCode支持inline config配置处理;OpenClaw的--yes参数行为得到修复,使其在自动确认场景下正确跳过channels配置。此外,云推荐内容在launch流程中始终优先展示,Windows环境下则改为显示WSL指引而非直接hand off,这些改进都显著提升了用户体验。

创建流程与稳定性修复

Gemma4模型在本版本中接受了密集优化,包括根据模型大小采用差异化渲染策略、保持router projection的原始精度处理、让empty block变为条件化处理以优化模板结构,以及缓存逻辑的多轮修复。MLX计算路径方面则新增了compiled closure支持,使用mlx_compile融合MLP激活函数以提升执行效率,并通过fused operations进一步优化Gemma4的性能表现。最值得关注的是修复了RotatingKVCache.concat()在中间旋转时丢失上下文的问题,这对于保证缓存系统的上下文连续性具有重要意义。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI