Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

2026年4月23日

95

260

Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

随着智能体(Agent)能力不断成熟,Token消耗快速增长已成为大模型落地应用中的核心挑战。与传统聊天场景相比,Agent任务的输入长度往往提升两个数量级;频繁的工具调用、多轮规划与长程执行又持续拉长输出链路。这意味着模型不仅面临更高的推理算力压力,也带来更高的使用成本。与此同时,行业主流模型正普遍走向“长思考“路径,以更长推理过程换取更高任务上限。但对于日常高频的Agent场景而言,如此大量的推理Token是否始终必要?

混合线性架构释放推理效率

基于这一现实需求,我们正式推出Ling-2.6-flash——一款总参数量104B、激活参数7.4B的Instruct模型。该模型选择了一条不同的技术路径:不是单纯依赖更长输出换取更高分数,而是围绕推理效率、Token效率与Agent场景表现进行系统性优化,在保持竞争力智能水平的同时,尽可能实现更快、更省、更适合真实业务场景。

Token效率优化提升智效比

Ling-2.6-flash延用了Ling 2.5的模型架构设计:在Ling 2.0架构基础上引入混合线性注意力机制,通过增量训练方式将GQA注意力机制升级为1:7的MLA + Lightning Linear高效混合架构。 得益于混合注意力机制与高度稀疏化的MoE架构,模型在推理效率上展现出显著优势。在4卡H20条件下,推理速度最快可达340 tokens/s,Prefill吞吐达到 Nemotron-3-Super的2.2倍。 随着上下文长度和生成长度持续增加,吞吐优势进一步放大。无论是长上下文理解还是长文本连续生成,Ling-2.6-flash都能在保持模型能力的同时带来更快的响应与更高的吞吐。

Ling-2.6-flash追求的并不是单纯更强,而是在足够强的基础上,进一步做到更快、更省、更可落地。

“53AI创始人”

面向Agent场景定向增强

在Artificial Analysis(AA)的Intelligence vs. Output Tokens对比中,Ling-2.6-flash以15M output tokens实现了26分的Intelligence Index,在保持较强智能水平的同时将输出消耗控制在更低位置。相比部分依赖更长输出换取更高分数的模型,Ling-2.6-flash在“智能表现“与“输出成本“之间取得了更优平衡。 换言之,该模型仅用约1/10的token消耗完成同类评测任务,体现出更精简的输出方式与更高的智效比。

实战演示与局限性

为增强模型Agent能力,我们显著扩展了训练数据的难度与广度,依托自研的大规模高保真交互环境进行了针对性的General Agent与Coding Agent强化学习训练。模型在指令遵循、工具调用、多步规划及长程执行方面表现优异,在BFCL-V4、TAU2-bench、SWE-bench Verified、PinchBench等代表性榜单上取得SOTA级别表现。 在Claude Code、Kilo Code、Qwen Code、Hermes Agent、OpenClaw等框架中均展现良好使用体验。Ling-2.6-flash在通用知识、数学推理、指令遵循及长文本解析等维度保持优秀水准,各项指标对齐同尺寸SOTA模型。

如有侵权,请联系删除。

Related Articles

联系我们 获取方案
小墨 AI