Ling-2.6-flash 发布：更快响应、更强执行、更高 Token Efficiency

2026年4月23日

260

Ling-2.6-flash 发布：更快响应、更强执行、更高 Token Efficiency

随着智能体（Agent）能力不断成熟，Token消耗快速增长已成为大模型落地应用中的核心挑战。与传统聊天场景相比，Agent任务的输入长度往往提升两个数量级；频繁的工具调用、多轮规划与长程执行又持续拉长输出链路。这意味着模型不仅面临更高的推理算力压力，也带来更高的使用成本。与此同时，行业主流模型正普遍走向“长思考“路径，以更长推理过程换取更高任务上限。但对于日常高频的Agent场景而言，如此大量的推理Token是否始终必要？

混合线性架构释放推理效率

基于这一现实需求，我们正式推出Ling-2.6-flash——一款总参数量104B、激活参数7.4B的Instruct模型。该模型选择了一条不同的技术路径：不是单纯依赖更长输出换取更高分数，而是围绕推理效率、Token效率与Agent场景表现进行系统性优化，在保持竞争力智能水平的同时，尽可能实现更快、更省、更适合真实业务场景。

Token效率优化提升智效比

Ling-2.6-flash延用了Ling 2.5的模型架构设计：在Ling 2.0架构基础上引入混合线性注意力机制，通过增量训练方式将GQA注意力机制升级为1:7的MLA + Lightning Linear高效混合架构。得益于混合注意力机制与高度稀疏化的MoE架构，模型在推理效率上展现出显著优势。在4卡H20条件下，推理速度最快可达340 tokens/s，Prefill吞吐达到 Nemotron-3-Super的2.2倍。随着上下文长度和生成长度持续增加，吞吐优势进一步放大。无论是长上下文理解还是长文本连续生成，Ling-2.6-flash都能在保持模型能力的同时带来更快的响应与更高的吞吐。

Ling-2.6-flash追求的并不是单纯更强，而是在足够强的基础上，进一步做到更快、更省、更可落地。

“53AI创始人”

面向Agent场景定向增强

在Artificial Analysis（AA）的Intelligence vs. Output Tokens对比中，Ling-2.6-flash以15M output tokens实现了26分的Intelligence Index，在保持较强智能水平的同时将输出消耗控制在更低位置。相比部分依赖更长输出换取更高分数的模型，Ling-2.6-flash在“智能表现“与“输出成本“之间取得了更优平衡。换言之，该模型仅用约1/10的token消耗完成同类评测任务，体现出更精简的输出方式与更高的智效比。

实战演示与局限性

为增强模型Agent能力，我们显著扩展了训练数据的难度与广度，依托自研的大规模高保真交互环境进行了针对性的General Agent与Coding Agent强化学习训练。模型在指令遵循、工具调用、多步规划及长程执行方面表现优异，在BFCL-V4、TAU2-bench、SWE-bench Verified、PinchBench等代表性榜单上取得SOTA级别表现。在Claude Code、Kilo Code、Qwen Code、Hermes Agent、OpenClaw等框架中均展现良好使用体验。Ling-2.6-flash在通用知识、数学推理、指令遵循及长文本解析等维度保持优秀水准，各项指标对齐同尺寸SOTA模型。

如有侵权，请联系删除。

AI 大模型 LLM Agent Token Efficiency 积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

Ling-2.6-flash 发布：更快响应、更强执行、更高 Token Efficiency

混合线性架构释放推理效率

Token效率优化提升智效比

面向Agent场景定向增强

实战演示与局限性

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

Anthropic发布10个金融AI智能体，华尔街震动——对万得、同花顺们来说意味着什么？

投资家网蒋东文受邀央视频《赢在 AI+》评委，以专业视角赋能 AI 产业创新

听完红杉 AI Ascent 2026，我把要做的 3 件事写成了一句话

Mistral AI推出Workflows：为企业AI部署打造可靠编排层

OpenAI首款AI Agent手机量产提前，联发科立讯精密在列

英伟达发布首个量子AI开源模型；腾讯云开源Agent底座Cube Sandbox

GPU 配角到算力中枢：AMD 如何吃下 AI 基础设施第二曲线

比 OpenClaw 更火的「Agent 员工」赛道，杀出一个新王者

今日AI快讯（5月6日）

美图首度披露AI生产力应用ARR：同比增长56.2%至5.8亿元

发布会四大看点，博云BoAgent企业级AI智能体平台发布在即

一天吃透一个行业104：AI应用，附核心股票名单（收藏版）

智能体协同写入实施方案！多地明确医疗AI落地时间表（附文件）

欧冶半导体完成数亿元C轮融资，以"Everything+AI"夯实物理世界智能化底座

AI存储与数据平台产业日报（2026年5月5日）

Agent落地元年遇上消费级爆发，从聊天到做事，普通人何时用上智能体？

Agent元年，中美AI战火烧到“智能体”：谁在抢走OpenAI的饭碗？

大摩最新调查：原来这家公司正领跑中国AI赛道！

Ling-2.6-flash 发布：更快响应、更强执行、更高 Token Efficiency

混合线性架构释放推理效率

Token效率优化提升智效比

面向Agent场景定向增强

实战演示与局限性

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

Anthropic发布10个金融AI智能体，华尔街震动——对万得、同花顺们来说意味着什么？

投资家网蒋东文受邀央视频《赢在 AI+》评委，以专业视角赋能 AI 产业创新

听完红杉 AI Ascent 2026，我把要做的 3 件事写成了一句话

Mistral AI推出Workflows：为企业AI部署打造可靠编排层

OpenAI首款AI Agent手机量产提前，联发科立讯精密在列

英伟达发布首个量子AI开源模型；腾讯云开源Agent底座Cube Sandbox

GPU 配角到算力中枢：AMD 如何吃下 AI 基础设施第二曲线

比 OpenClaw 更火的 「Agent 员工」赛道，杀出一个新王者

今日AI快讯（5月6日）

美图首度披露AI生产力应用ARR：同比增长56.2%至5.8亿元

发布会四大看点，博云BoAgent企业级AI智能体平台发布在即

一天吃透一个行业104：AI应用，附核心股票名单（收藏版）

智能体协同写入实施方案！多地明确医疗AI落地时间表（附文件）

欧冶半导体完成数亿元C轮融资，以"Everything+AI"夯实物理世界智能化底座

AI存储与数据平台产业日报（2026年5月5日）

Agent落地元年遇上消费级爆发，从聊天到做事，普通人何时用上智能体？

Agent元年，中美AI战火烧到“智能体”：谁在抢走OpenAI的饭碗？

大摩最新调查：原来这家公司正领跑中国AI赛道！

比 OpenClaw 更火的「Agent 员工」赛道，杀出一个新王者