NaviRAG:让RAG系统学会“主动导航”的长文档问答优化方案

2026年5月21日

64

816

NaviRAG:让RAG系统学会“主动导航”的长文档问答优化方案

在处理长文档问答任务时,传统的RAG系统往往面临一个核心困境:如何高效地从海量文本中精准定位所需信息?过去几年,主流RAG方案采用“切块-建索引-相似度检索”的流水线式方法,这在简单问答场景表现尚可,但一旦遇到跨章节、多跳推理的复杂问题时便显得力不从心。清华大学联合南京大学、东北大学的研究团队近日提出了NaviRAG,为这一难题提供了新的解决思路。

导航检索的实现流程

传统RAG系统在长文档场景下面临三个主要瓶颈。首先是粒度两难问题:文本切得太细会导致片段缺乏上下文语境,模型难以理解完整含义;切得太粗则会引入过多噪声,关键证据被淹没。其次是被动一次性检索的局限——查询来时检索一次,拿到什么就是什么,信息不足也无法补充。第三个问题是扁平化处理忽视了文档天然的层次结构,目录、章节、子节之间的语义关系被完全忽略。GraphRAG、RAPTOR、HippoRAG等后续方案虽然做了诸多改进,但检索本身仍是一次性的被动过程,未能真正模拟人类查阅资料的认知模式。

性能表现与效率优势

NaviRAG的设计灵感来源于认知心理学中的信息觅食理论,该理论指出人类获取信息并非一次性抓取,而是沿着“信息气味”进行序列化探索——发现一条线索后顺藤摸瓜,信息不足就回头换路径。基于这一洞察,研究团队提出了“先定位、再觅食”的两阶段检索范式。第一阶段利用传统向量检索快速圈定相关语义子空间,避免在整 个语料库中盲目搜索;第二阶段则由LLM Agent沿着预先组织好的层次知识树自顶向下导航,每一步自主决定是“吸收当前节点”还是“继续向下展开”。这种设计的核心优势在于检索粒度不再是预先固定的,而是随查询需求动态调整——需要宽泛背景时停在高层摘要,需要具体证据时则下钻到叶子节点。

检索不是一次性的抓取,而是一个可导航的序列探索过程。

“研究团队”
🦞

JimoClaw — 桌面 AI Agent 工作台

让 AI 处理本地资料、操控浏览器,最终交付可直接使用的文档、表格与 PPT,而不只是一段回答。

下载桌面版

实验结果分析

NaviRAG的知识树构建分为三个步骤。第一步“搭骨架”:让LLM基于文档生成高层语义大纲,形成知识树的初始结构。第二步“往里塞”:将文档切分为512 token的片段,由LLM决定每块内容应归属哪个节点,可能合并进已有节点也可能新建子节点。过程中有两个关键控制参数:τ_text控制叶节点内容长度,超过阈值则自动分裂;τ_level控制同层节点数,过多时触发软聚类以保持树的结构平衡。第三步“回炉精炼”:完成所有片段插入后,自底向上整理内容并生成各节点摘要,使整棵树的语义表述更加清晰一致。整个构建过程由LLM驱动,实验中使用了Qwen2.5-72B模型。

知识树的构建机制

知识树构建完成后,在线检索流程模拟Agent“读书”的过程。步骤一为向量检索定位候选集,对查询在所有节点上做向量检索,拿到top-k候选后映射到对应的语义子树,将检索范围从整本书收敛到一两个相关章节。步骤二逐层节点选择,从子树顶层开始,每层让LLM挑选与查询最相关的节点集合。步骤三进行节点决策,对每个选中节点判断是吸收进最终上下文还是继续展开子节点,这个决策是迭代进行的,Agent可以根据已收集信息判断还缺什么。步骤四混合上下文生成答案,最终输出由向量检索片段、中间层摘要、按需展开的原始文本混合而成的上下文,交给生成模型作答。此外还提供了记忆增强版本,维护动态记忆状态让Agent对“已知道什么、还缺什么”有更全局的感知。

🛡️

积墨 AI 安全隐患巡检系统

任务一键下达 · 隐患 AI 识别 · 整改全程留痕 · 报告一键生成。让安全巡检真正看得见、管得住、能闭环。

了解方案

如有侵权,请联系删除。

Related Articles

联系我们 免费试用
小墨 AI