2026年6月18日

249

告别主观评价：用可量化考试体系驱动Harness工作流持续进化

当团队花费数周精心调教的Harness工作流上线后，你如何判断它是否真的在进步？大多数团队的答案是：「感觉这版稳了不少」「昨天那版好像更聪明」「我这边挺好用，你那边咋不行」。这种主观评价驱动的模式，恰恰是Harness工作流面临的最大隐患——改了一版Rule或Skill，到底是进步还是退步？答案无从得知。

概述

Harness工作流本质上是一种「规则驱动的概率程序」，与传统软件的确定性输出截然不同。同样的输入今天跑出A结果，明天可能跑出B结果。更棘手的是，你甚至无法简单判定A比B好还是B比A好，因为「好」本身就缺乏统一定义。这种系统如果没有评测体系兜底，面对的不是「缓慢退化」，而是薛定谔式的退化——你永远不知道它什么时候变差了。

从「测试」到「考试」的思维跃迁

传统软件工程的单元测试、集成测试逻辑移植到Harness上是远远不够的。传统测试验证的是「对不对」——二值判定；而Harness工作流需要的是「好不好」——多维度打分与证据支撑。一个工作流完成任务的方式可以有无数种，有些优雅有些笨拙，有些主动有些被动，有些严谨有些草率。你不能简单地assert output == expected，你需要的是一场考试——出考卷、组织考试、培养阅卷官。

任何不可量化的东西都不可优化。

“评测工程实践”

🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器，最终交付可直接使用的文档、表格与 PPT，而不只是一段回答。

下载桌面版

闭环评测系统的核心设计

整套系统围绕三个不可妥协的原则展开：可重复优于精确——一道题跑多次，结果的分布比单次分数更有价值，追求的是统计显著的趋势而非单次满分；可归因优于高分——失败时系统必须能告诉你为什么失败，是工作流规则漏洞、题目歧义还是模型能力不足；闭环优于单向——评测终点不是出一份成绩单，而是驱动下一次改进。

系统设计包含三大核心环节：出题环节采用四文件结构（meta.yaml定义题目身份、task.md提供题面、rubric.md设定阅卷标准、env.yaml配置环境前提），让非技术人员5分钟即可新增一道题；答题环节引入Examiner角色模拟真实用户进行多轮交互，而非简单地把任务丢给Agent——因为Agent的真实能力不仅体现在最终结果，更体现在过程中的每一步决策；判卷环节由独立的Judge进程基于完整对话记录进行多维度评分，每个判定都必须附上证据引用，并强制输出分类改进建议。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权，请联系删除。

AI Harness 评测系统工作流优化大模型技术积墨AI AI智能体 AI智能体平台私有化AI智能体平台企业级AI智能体

Share This Post

🦞

JimoClaw 桌面 AI Agent 工作台

让 AI 处理本地资料 · 操控浏览器 · 交付可用文档

下载桌面版

告别主观评价：用可量化考试体系驱动Harness工作流持续进化

概述

从「测试」到「考试」的思维跃迁

JimoClaw — 桌面 AI Agent 工作台

闭环评测系统的核心设计

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

告别主观评价：用可量化考试体系驱动Harness工作流持续进化

概述

从「测试」到「考试」的思维跃迁

JimoClaw — 桌面 AI Agent 工作台

闭环评测系统的核心设计

积墨 AI 安全隐患巡检系统

Popular Articles

企业级AI智能体如何突破效率孤岛，实现价值共振？

阿里通义Qwen模组：一周三次开源造势

积墨AI 7月更新日志

Related Articles

库克坦言涨价无可避免，行业真相：苹果已错失 AI 先发优势

2026-AI科学家-Nature：两天完成十年研究，加速科学发现新时代

阿里腾讯等大厂Agent同台交锋！年度AI智能体大会7月开幕

全国首家政医企共建AI医院成立；25项目招标超1.7亿；证监会支持AI大模型企业上市；多个医疗智能体发布

AI跨境电商交流会，探索'一人出海'新模式

PPT 从跑分到护栏：AI Agent 可观测和质量保障体系

Hermes Agent v0.17.0重磅发布：AI智能体的触达时代来了

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

当AI贯穿消费到产业，618彻底变了

Fluss+Flink+AI Agent：淘宝交易实时风控智能体探索！

Cursor 600亿美元卖给SpaceX，DeepSeek估值突破500亿：AI商业化两条截然不同的赢家路径

公开课来了！第19讲：学习搭建生产排产与LCEL架构 AI 智能体

AI PCB生态专业展 超75%展位售罄，首批展商选位圆满完成 ！10月引领全球产业风向

AI来了，中国动画电影反而更需要人了

AI时代的智能体先锋论坛

'梁文锋'们，上市有门了

AI Agent倒逼舱驾一体芯片成为刚需？

AI资本开支2.0

AI PCB生态专业展超75%展位售罄，首批展商选位圆满完成！10月引领全球产业风向