这项由南京大学、M-A-P、九天研究、新加坡国立大学及南京理工大学联合开展的研究,于2026年4月以预印本形式发布(arXiv编号:2604.14683),提出了一套名为DR3-Eval的评测基准,专门针对当前飞速发展的深度研究智能体(Deep Research Agent,简称DRA)展开系统性评估。对于这项工作的代码和数据,团队已通过GitHub开放共享,感兴趣的读者可检索NJU-LINK/DR3-Eval获取完整资料。

当你把一堆PDF报告、图片甚至视频丢给一个AI助手,让它帮你做综合分析并写出一份有理有据的研究报告时,你怎么知道它说的是不是真话?它有没有偷懒?有没有编造数据?有没有被无关信息带偏?这恰恰是DR3-Eval这套评测体系要解决的核心问题。在AI研究助手技术突飞猛进的今天,如何公正、可复现地检验它们的真实能力,成了一个远比"做出好用的AI"更棘手的挑战。

一、深度研究助手:一种全新的AI选手

不同于以往那种"你问我答"的普通AI问答系统,深度研究助手(DRA)的定位更像是一位真正的研究员助理。它不只是回答"XXX是什么",而是能主动拆解任务、设计搜索路径、从海量噪音信息中找到关键证据、综合来自不同来源的材料,最后写出一份带有参考文献和深度分析的正式报告。

这类系统近年来发展极为迅猛。从商业巨头推出的闭源产品(如OpenAI的Deep Research、Google的Gemini Deep Research),到各大学术团队开发的开源框架(如ByteDance的DeerFlow、通义实验室的Qwen-DeepResearch),它们的能力边界正在快速扩张。然而,能力越强,评估就越难。

评估一个只会做选择题的AI,用标准答案对比即可。但评估一个能写出上万字综合报告的AI,问题就复杂得多。报告的内容对不对?来源引用得准不准?有没有凭空捏造数据?有没有漏掉关键信息?这些问题都需要一套精心设计的评测体系才能回答,而现有的工具恰恰在这方面存在严重不足。

二、现有评测工具的三大硬伤

在DR3-Eval之前,学界已有一些尝试。DeepResearch Bench让AI直接上网搜索然后写报告,虽然贴近真实使用场景,但它的致命弱点是无法复现:今天搜到的信息和明天搜到的可能完全不同,两次测试结果之间缺乏可比性,就像让两个厨师做同一道菜却用不同食材,怎么评分都说不清楚。DRBench走的是企业场景路线,会提供一些文本文档作为输入素材,但它依然需要联网搜索,且文件格式单一,完全没有图片、视频这类多媒体内容。DeepResearchGym采用了固定本地数据库的方式,复现性大幅改善,但数据库是统一的、固定的,所有任务共享同一个知识池,缺乏针对每个具体任务量身定制的信息环境,且同样没有多媒体文件的支持。

归纳起来,现有工具的缺陷集中在三个方面:其一,真实多媒体材料的缺失——现实中的用户往往会提供图片、视频、音频或表格文件,而非只有文字,评测工具却普遍忽视这一点;其二,可复现性与真实性难以兼得——要么贴近真实但无法复现,要么可复现却脱离真实;其三,对"噪音"和"干扰信息"的处理缺失——真实的网络上充满了过时的、片面的、甚至刻意误导的信息,而大多数评测环境中的信息都是干净的,无法检验AI在"信息战场"中的实际表现。

三、DR3-Eval的解题思路:搭一个仿真演练场

DR3-Eval的核心设计哲学可以用一句话概括:用真实材料出题,在受控沙箱里考试,用多维度指标打分。

研究团队首先招募了一批付费志愿者,主要是来自不同学科的本科生和研究生,请他们提供自己在日常学习或工作中真实接触过的文件材料,例如行业报告、研究图表、讲解视频或数据表格。这些材料涵盖技术、经济、人文三大领域,细分为13个子领域,包括计算机科学、医疗健康、金融、教育、农业、政策等。最终收集到100套材料,英文和中文各50套。所有材料在纳入评测集之前,都经过了严格的两阶段脱敏处理:先由自动化脚本识别并删除个人隐私信息,再由独立标注人员进行人工复核,确保没有任何个人、商业或专有信息残留。

在材料构成上,文档类文件占45.98%,图片类占27.68%,视频类占13.84%,此外还有音频、数据表格和HTML网页等格式。其中68%的任务涉及多种模态混合输入,PDF文件平均长度达11.21页,Excel表格平均包含215行数据,视频平均时长3分27秒。每个任务平均包含2.24个用户文件,最多的任务涉及6个文件,充分模拟了真实研究场景中材料纷繁的状态。

四、从真实材料到考题:逆向出题法

出题方式是DR3-Eval的一个关键创新点,研究团队称之为"逆向构建法"。通常的做法是先想好问题,再去找答案;而DR3-Eval反过来,先确定哪些证据文档能支撑一个完整的答案,再反推出这个问题应该是什么样的,从而保证每道题都有明确的、可验证的正确路径,不会出现"问题太开放导致无法判断答案是否正确"的困境。

具体来说,出题过程分为五个环节。第一步是梳理真实需求,也就是前面提到的从志愿者那里收集真实材料。第二步是提炼搜索路径,利用Gemini 2.5 Pro对每套材料进行分析,通过"发散-收敛"两阶段生成搜索关键词:先进行头脑风暴,产出10个覆盖不同角度的候选关键词,再将这些词分为"信号词"(指向正确答案路径的关键词)和"噪音词"(主题相关但会引向错误信息的干扰词)。这个设计灵感来自设计学中的"双钻石模型",目的是将评测难度从"能不能找到信息"提升到"能不能制定正确的搜索策略"。第三步是构建沙箱语料库,用前一步产出的关键词分别检索网络,每个关键词最多抓取100个网页,去重后统一进行清洗,剔除错误页面和广告导航等模板内容。这些网页被分为三类:支持文档(来自信号词搜索结果、内容经过人工核实确认能为任务提供充分证据)、干扰文档(同样来自信号词,但内容过时、片面或不准确)以及噪音文档(来自噪音词,主题相关但对回答问题毫无帮助)。每个任务都拥有一个独立的、专属的沙箱,不与其他任务共享,彻底避免信息干扰。第四步是生成问题,在已知证据材料的前提下,反向合成出一个自然的用户提问,这个提问必须同时需要用户文件和特定网络证据才能回答,不能单靠公开搜索或只靠文件自身解决。第五步是质量控制,每道候选题目必须通过四个维度的验证:问题不能直接泄露搜索关键词;答案必须严格依赖用户文件与网络证据的结合,不能单独靠其中一个;答案的核心事实不能直接在公开搜索引擎中一步找到;问题的解读必须唯一,不能存在歧义。从最初征集到的280道候选题目中,105道因答案路径不唯一或无法在沙箱内找到完整解答而被淘汰,另有75道因难度不足被筛除,最终保留100道,通过率仅35.7%,体现了极高的质量门槛。

五、信息沙箱的难度旋钮:从32k到512k

为了模拟不同难度的信息检索环境,研究团队为同一组任务设计了五种规模的沙箱语料库,以文本Token数量衡量,分别为32k、64k、128k、256k和512k。无论哪种规模,支持文档的数量始终保持完整,确保正确答案可以被找到;随着规模扩大,干扰文档和噪音文档的数量按比例增加,模拟信息密度越来越高的真实网络环境。在512k规模的配置下,每个任务的沙箱平均包含465.5个网页,相当于一个微型"专项百科全书",但绝大多数内容都是与任务无直接关联的杂音。这个设计就像在一个越来越大的图书馆里找一本特定的书——书一直在那里,但随着书架越来越多,找到它的难度也越来越高。

六、五维打分卡:从找信息到写报告的全程追踪

DR3-Eval的评测框架由五个互补的维度构成,分为两大类别。

第一类是信息搜集能力,包含两个指标。信息召回率(IR)衡量生成报告对关键信息的覆盖程度,分为两个子指标:对用户文件中关键信息的覆盖(IRUF)和对沙箱网络证据中关键信息的覆盖(IRSC)。评测方式是先用Gemini 2.5 Flash从用户文件和沙箱文档中提取出"黄金洞见"清单,再由评判模型逐条检查报告是否涵盖了这些洞见,每条洞见的覆盖情况被评为完全覆盖(得1分)、部分覆盖(得0.5分)或未覆盖(得0分),最终IR取完全覆盖条目的比例。引用覆盖率(CC)检验报告是否实际引用了完成任务所必须依赖的文件,包括用户提供的文件和沙箱中的支持文档。这个指标的逻辑是:如果AI没有引用某份关键文件,很可能它根本没有"读到"这份材料,而是凭借自身知识瞎猜的。

第二类是报告生成质量,包含三个指标。事实准确率(FA)检验报告中所有具体主张的正确性,评测方式是从报告中提取所有"主张-来源"配对,逐一核查主张是否真的能从对应来源中得到支撑,对于涉及视频或音频内容的主张,使用Gemini 2.5 Pro进行验证。指令遵循度(IF)检验报告是否满足了用户问题中的所有要求,评判模型会根据用户问题生成一份详细的检查清单,再逐条核查报告是否达标。深度质量(DQ)则由评判模型扮演专家评审的角色,综合判断报告的分析深度和逻辑严谨性,满分为10分。上述四个需要语义理解的指标均使用GPT-5.1作为评判模型,评判模型温度设为0以确保稳定性。

七、DR3-Agent:与评测配套的多智能体研究系统

为了演示这套评测体系的使用方式,研究团队同步开发了一个配套的多智能体研究系统,命名为DR3-Agent。这套系统基于MiroFlow框架构建,专门适配DR3-Eval的封闭沙箱环境和多媒体文件处理需求。

DR3-Agent的架构分为主智能体和子智能体两层。主智能体负责全局推理,采用"计划-行动-观察"循环持续推进任务,并直接集成了图像、视频和音频的感知能力,使得处理多媒体文件成为系统内置功能而非外挂插件,这样AI就能将视频内容真正纳入全局思考,而不仅仅是提取出几段文字再扔给主模型。子智能体分为两类:一是RAG搜索子智能体,负责与沙箱语料库交互,采用基于text-embedding-3-small的密集向量检索,并以ReAct范式进行多轮迭代查询——与传统的单次Top-K检索不同,这个子智能体会根据每轮检索结果不断调整查询策略,整个过程类似于人类研究员在搜索时不断根据已有线索调整关键词的行为;二是文件阅读子智能体,专门处理长文档的逐页精读任务,支持关键词定位和页码检索。两类子智能体都不共享主智能体的全局上下文,只向主智能体返回高度压缩的摘要,以避免信息爆炸导致主智能体迷失在细节中。

八、谁表现最好?实验结果的深层解读

研究团队用DR3-Agent框架驱动了八款主流大模型,分别是GPT-4.1、Claude Sonnet 4、Gemini 2.5 Pro、Qwen3-235B-A22B、Qwen3-30B-A3B、Qwen3-32B、GLM-4.6和GLM-4.7,在64k、128k、512k三种沙箱规模下进行了全面测评。

Claude Sonnet 4在综合表现上拿到了最高分,在512k沙箱下的总分仍维持在65.6分(满分100分)。GLM-4.7紧随其后,在64k设置下达到69.8分。这些数字看起来并不算高,事实上这正是研究团队希望传达的信号:DR3-Eval的确非常难,即便是当今最强的大模型也远未能稳定地完成这类综合研究任务。

规模扩大带来的性能下滑是最普遍的规律。从64k到512k,几乎所有模型的总分都出现了明显下降。以Claude Sonnet 4为例,总分从70.7降至65.6,IRSC(沙箱信息召回率)从55.3降至41.8,引用覆盖率从64.7降至48.5。这说明当噪音信息越来越多时,模型不仅更难找到关键证据,也更难辨别哪些文档是真正需要引用的。

一个特别值得关注的发现是:指令遵循能力强的模型,不一定事实准确率高。Qwen3-235B-A22B和GPT-4.1在IF(指令遵循)上表现不错,但FA(事实准确率)却相当低。用更直白的话说,这些模型很擅长写出"看起来完整、结构漂亮"的报告,但报告里填的内容却可能是编出来的。这种"表面功夫做得好、内里漏洞大"的现象,正是当前大模型在长文本研究任务中最值得警惕的失效模式。

在领域表现上,农业(Agriculture)子领域普遍分数较高,多个模型在这个领域拿到了80分以上,而工业(Industry)、金融(Finance)等领域的分数则偏低。不同模型在不同领域各有强项,例如GLM-4.7在工业类任务上表现最好,而Claude Sonnet 4在物理类任务上领先,说明不同模型的知识侧重点和推理能力存在结构性差异。

九、沙箱是否能代替真实网络?交叉验证给出答案

为了验证沙箱语料库能否真实反映在线搜索的信息获取难度,研究团队专门用Qwen3-235B-A22B和Gemini 2.5 Pro在英文子集上进行了"真实联网搜索"对比实验。结果显示,两种条件下的综合得分非常接近:Qwen3-235B-A22B在沙箱下得48.3分,真实联网下得48.0分;Gemini 2.5 Pro在沙箱下得57.1分,联网下得57.8分。引用覆盖率(CC)在两种条件下的一致性尤为突出,表明模型在真实联网搜索中最终依赖的核心证据,与沙箱中预设的支持文档高度重合。这组数据有力地证明了沙箱能够作为真实网络搜索的可靠替代品,而不是一个被人为简化的"假场景"。

十、打分机器靠不靠谱?与人类评审的对齐验证

由于DR3-Eval的多个核心指标需要由大模型担任评判角色,其可靠性自然会受到质疑。为此,研究团队随机抽取了50份报告,邀请四位领域专家进行独立人工评分,然后与自动化评分进行比对。结果显示,自动评分与人工评分的皮尔逊相关系数(r)为0.78,斯皮尔曼相关系数(ρ)为0.73,逐对一致率达到0.89,而四位人类专家之间的互相一致率分别是r=0.83、ρ=0.76、一致率0.91——机器的表现与人类专家之间的分歧程度相当,说明自动评分并非不靠谱的替代品,而是一个与人类判断高度一致的工具。

此外,研究团队还验证了自动提取事实声明的准确性,发现与人工标注相比,精确率达到0.924,召回率达到0.960,进一步佐证了评测流程的可靠性。在评判模型的选择上,研究团队将Claude Sonnet 4、Gemini 2.5 Pro和Qwen-Max作为GPT-5.1的替代者重新对六个模型进行排名,发现排名结果几乎一致,平均斯皮尔曼相关系数达到0.924,说明评测结论的稳定性不依赖于特定评判模型的选择。

十一、干扰文档真的有用吗?沙箱成分实验

为了确认三类沙箱文档(支持文档、干扰文档、噪音文档)各自的设计有其必要性,研究团队在20个任务子集上进行了消融实验。

移除干扰文档后,所有模型的得分都显著提升。这证明干扰文档确实有效地增加了任务难度,而不是摆设。更有趣的是,当沙箱中只保留噪音文档而去掉支持文档时,模型的表现与完全没有沙箱的情况几乎一样差。这个发现证明了沙箱的设计干净纯粹——除了被精心标注的支持文档,沙箱中没有其他任何"意外有用"的信息可以被模型侥幸利用,评测结果完全取决于模型能否找到那些正确的支持文档。当只保留支持文档、去掉一切干扰时,模型表现大幅提升,这也为各模型在"理想信息环境"下能达到的上限提供了参考基准。

十二、多迭代检索:次数越多越好,但过犹不及

研究团队对DR3-Agent中RAG子智能体的最大迭代轮数进行了系统性测试,分别在1轮、3轮、5轮和7轮四种设置下观察性能变化。结果显示,随着允许的迭代轮数增加,信息召回率和引用覆盖率总体呈上升趋势,但并不是越多越好——在某个临界点之后,继续增加轮数反而会导致轻微的性能下降。这与人类做研究时的经验颇为相似:适当地反复搜索和精化查询能找到更好的答案,但如果陷入无休止的搜索循环,反而容易迷失方向。

十三、谁是最佳"记忆搜索引擎"?检索器对比实验

研究团队对三种检索方式进行了对比:OpenAI的text-embedding-3-small、阿里的Qwen-text-embedding-v2,以及传统的关键词匹配方法BM25。在128k规模的沙箱上测试引用覆盖率(CC),text-embedding-3-small表现最佳(GLM-4.7搭配时CC=56.58),Qwen-text-embedding-v2略低(GLM-4.7搭配时CC=53.61),而传统BM25方法则差距明显(GLM-4.7搭配时CC=50.71)。这个结果表明,在复杂的多文档检索场景中,基于语义理解的向量检索方法显著优于仅依赖字面关键词匹配的传统方式。

十四、失败在哪里?错误归因分析

研究团队对五款模型各100份报告进行了逐一错误归因分析,将错误来源划分为三类:检索失败(关键信息根本没找到)、推理失败(信息找到了但在整合和逻辑推断时出错)以及幻觉(内容不来自任何提供的材料,而是模型"凭空想象"出来的)。

幻觉是所有模型最普遍的失败原因,占比从48%到77%不等,说明即便是当前最强大的模型,在长篇研究报告任务中仍然难以稳定地"只说材料里有的内容"。检索失败和推理失败的比例因模型而异,有些模型倾向于在信息搜集阶段就掉链子,另一些则能找到信息却在整合时犯错。这一分析揭示了当前模型的核心瓶颈:并非不会找证据,而是在写报告时难以始终"忠于证据"。

说到底,DR3-Eval做的事情,就是给今天这些越来越能干的AI研究助手设置了一个真正严格的考场。这个考场的题目来自真实用户的真实材料,检索环境模拟真实网络的混乱与噪音,打分标准覆盖从找证据到写报告的全流程,每一环都力求公平、可复现、可量化。

实验结果揭示了一个不容乐观但颇具价值的现实:当前最强的大模型在这套评测下的综合得分普遍在50到70分之间,远未达到可以放心托付真实研究任务的水准。幻觉问题依然顽固,在噪音信息面前的检索稳健性仍有较大改进空间,而"报告写得漂亮"与"内容是否准确可靠"之间的落差,更是提醒了所有使用AI研究助手的人:千万不能只看表面光鲜。

这项工作的意义不仅在于指出问题,更在于提供了一套可以被整个领域复用的评测工具。随着代码和数据的公开,任何研究团队都可以在相同的标准下检验自己的系统,比较结果不再是"各说各话",而是有了一把共同的尺子。对于普通用户而言,这套研究也提供了一个实用的警示:当AI给你生成一份看起来条理清晰、有理有据的研究报告时,它很可能已经在某些地方偷偷"补充"了一些它自己编的内容,而你完全无从察觉——至少在今天还是如此。

Q&A

Q1:DR3-Eval评测基准和以往的深度研究评测工具有什么区别?

A:DR3-Eval最核心的不同点在于三个方面:它采用真实用户提供的多媒体材料(图片、视频、音频、文档)作为输入,而非纯文字;它为每个任务单独构建一个静态沙箱语料库,既保证可复现性又模拟真实网络的复杂噪音;它采用逆向出题法,从已知证据反推问题,确保每道题都有明确可验证的答案路径。这三点组合在一起,是此前评测工具都没有同时做到的。

Q2:DR3-Eval发现当前AI研究助手最主要的缺陷是什么?

A:实验发现,幻觉(即AI凭空捏造不来自任何提供材料的内容)是当前几乎所有模型的最主要失败原因,占所有错误的比例从48%到77%不等。此外,当沙箱语料库规模增大、噪音文档增多时,模型的信息检索准确性和引用覆盖率都会显著下降,说明在复杂信息环境中保持检索稳健性是另一大薄弱环节。

Q3:DR3-Eval的沙箱环境中的文档分成哪几类,为什么要这样划分?

A:沙箱中的文档分为三类:支持文档(内容经人工核实可以为任务提供充分且必要证据)、干扰文档(来自正确搜索关键词但内容过时、片面或不准确)和噪音文档(主题相关但对回答问题无实质帮助)。这种划分是为了区分两种不同来源的检索难度——真正的挑战不只是滤掉完全无关的噪音,更在于辨别表面相关却实际有误的干扰信息,这也是现实中研究工作面临的主要困难。