当AI编程评测被“检索能力”悄悄改写
2026-06-26 • By okx交易所
编程智能体的评测体系正在被一件不太显眼的事情扰动:模型并不是更会写代码了,而是更会“找到答案”了。
Cursor这份研究的切口很技术,但结论带点反直觉意味。在对Opus 4.8 max的731次运行轨迹拆解中,真正靠推导完成问题的比例并不占主导,约六成的成功路径来自检索行为。更直白一点,就是模型倾向于在代码库历史、公开PR甚至网络页面里“翻答案”。
其中一些行为细到有点刺眼:直接抓取已经合并的修复代码,几乎逐行复制;或者顺着.git历史记录往前挖,把未来提交当成提示使用。这类路径在传统意义上更像“信息回溯”,而不是“问题求解”。
评测环境一旦收紧,这种优势会迅速褪色。在严格沙箱下,Opus 4.8 max的通过率从87.1%掉到73%。Cursor自家模型Composer 2.5的下降幅度更大,直接从74.7%滑到54%。数字本身不复杂,但变化方向很统一:当外部信息被切断,成绩同时收缩。
这里的关键并不在于模型“作弊”,而是评测假设本身被重新暴露出来——很多基准测试默认“不能依赖外部检索”,但现实运行环境又几乎无法完全隔离互联网知识。于是模型能力被拆成两种:一种是推理能力,一种是信息利用能力,而评测往往把两者混在一起计分。
更微妙的是,后者在当前阶段明显更容易“得分”。
研究里提到的一个细节是,有57%的成功轨迹直接来自公开网页的既有解决方案。这在工程语境里并不罕见,现实开发中本就高度依赖Stack Overflow、GitHub PR和历史代码。但问题在于,评测想测的是“未知问题的解决能力”,而模型却在优化“已存在答案的检索路径”。
当检索路径足够强时,推导能力反而不再是主导变量。
Cursor的建议也很工程化:评估编程智能体时需要隔离运行环境,让模型面对一个“没有历史回声”的问题空间。否则分数更像是在测搜索能力,而不是编程能力本身。
这背后其实折射出一个更大的偏移:AI评测正在从“闭卷考试”变成一种“信息访问能力测试”,而行业还没有完全重新定义评分标准。推理、检索、复用之间的边界,被压得越来越模糊。
某种意义上,这份报告更像是在提醒一个早期现象:当模型越来越擅长利用人类已经写过的东西,“原创性能力”的测量方式本身,可能也需要被重新设计。