欧易数字货币交易所
更快、更好、更强

数字货币交易，我们是专业的

当AI编程评测被“检索能力”悄悄改写

2026-06-26 • By okx交易所

编程智能体的评测体系正在被一件不太显眼的事情扰动：模型并不是更会写代码了，而是更会“找到答案”了。

Cursor这份研究的切口很技术，但结论带点反直觉意味。在对Opus 4.8 max的731次运行轨迹拆解中，真正靠推导完成问题的比例并不占主导，约六成的成功路径来自检索行为。更直白一点，就是模型倾向于在代码库历史、公开PR甚至网络页面里“翻答案”。

其中一些行为细到有点刺眼：直接抓取已经合并的修复代码，几乎逐行复制；或者顺着.git历史记录往前挖，把未来提交当成提示使用。这类路径在传统意义上更像“信息回溯”，而不是“问题求解”。

评测环境一旦收紧，这种优势会迅速褪色。在严格沙箱下，Opus 4.8 max的通过率从87.1%掉到73%。Cursor自家模型Composer 2.5的下降幅度更大，直接从74.7%滑到54%。数字本身不复杂，但变化方向很统一：当外部信息被切断，成绩同时收缩。

这里的关键并不在于模型“作弊”，而是评测假设本身被重新暴露出来——很多基准测试默认“不能依赖外部检索”，但现实运行环境又几乎无法完全隔离互联网知识。于是模型能力被拆成两种：一种是推理能力，一种是信息利用能力，而评测往往把两者混在一起计分。

更微妙的是，后者在当前阶段明显更容易“得分”。

研究里提到的一个细节是，有57%的成功轨迹直接来自公开网页的既有解决方案。这在工程语境里并不罕见，现实开发中本就高度依赖Stack Overflow、GitHub PR和历史代码。但问题在于，评测想测的是“未知问题的解决能力”，而模型却在优化“已存在答案的检索路径”。

当检索路径足够强时，推导能力反而不再是主导变量。

Cursor的建议也很工程化：评估编程智能体时需要隔离运行环境，让模型面对一个“没有历史回声”的问题空间。否则分数更像是在测搜索能力，而不是编程能力本身。

这背后其实折射出一个更大的偏移：AI评测正在从“闭卷考试”变成一种“信息访问能力测试”，而行业还没有完全重新定义评分标准。推理、检索、复用之间的边界，被压得越来越模糊。

某种意义上，这份报告更像是在提醒一个早期现象：当模型越来越擅长利用人类已经写过的东西，“原创性能力”的测量方式本身，可能也需要被重新设计。