DeepSeek V4 基准测试造假风波:83.7% SWE-bench 成绩被证伪

2026 年 2 月 15 日,一张声称 DeepSeek V4 在 SWE-bench Verified 上取得 83.7% 成绩的截图在 AI 社区疯传,该数据声称超越了 Claude Opus 4.5 的 80.9% 和 GPT-5.2 的 80.0%。然而经过多方核查,该数据已被证实为伪造,Epoch AI 总监公开确认 FrontierMath 相关分数从未存在,Reddit 社区高赞评论直指"这是假的"。

本次事件暴露了 AI 行业基准测试信任危机,AIME 2026 的 99.4% 得分在数学上不可能实现,SWE-bench 官方排行榜无任何 DeepSeek V4 记录,DeepSeek 官网也从未发布 V4 相关公告。建议公众等待官方发布和独立第三方验证,切勿轻信社交媒体流传的未证实数据。

SWE-bench 官方排行榜 Epoch AI 总监打假推文 Reddit 社区讨论 Engram 论文 arXiv:2601.07372 Verdent AI 事实核查

DeepSeek V4 辟谣信息图

基准测试数据存在致命漏洞

泄露截图中 AIME 2026 得分 99.4% 在评分系统上不可能实现,AIME 共 15 题每题 8 分总分 120 分,可能得分为 0、8、16 至 112、120,99.4% 相当于 119.28 分该分数不存在。FrontierMath Tier 4 的 23.5% 成绩被 Epoch AI 总监确认为伪造,该机构运营此基准测试并声明从未对 DeepSeek V4 进行过评估。SWE-bench 官方排行榜截至 2026 年 1 月无任何 DeepSeek V4 记录,当前领先者为 Claude 4.5 Opus 的 74.40%。

AIME 评分规则官方文档 Epoch AI FrontierMath 说明 SWE-bench 官方排行榜

官方渠道无任何发布记录

DeepSeek 官网当前最新版本为 DeepSeek-V3.2,无任何 V4 相关公告或技术报告。多家权威媒体仅报道 V4"可能在 2 月中旬发布",均为预测而非事实确认。Reddit 原爆料帖子已被发布者删除,高赞评论明确指出"这是假的"。泄露数据声称的 GPT-5.2 High 80.0% 与 SWE-bench 官方排行榜显示的 71.80% 存在显著差异,数据一致性存疑。

DeepSeek 官网 Reuters 报道 Reddit 原帖已删除

信息来源质量等级极低

根据专业工程师的信息源质量分级,该泄露数据属于 Tier 4 应忽略级别,来源为无引用的营销网站和"内幕消息"账号。可信的 Tier 1 信息源仅有 Engram 和 mHC 两篇同行评审论文,但论文描述的是组件而非完整 V4 系统。社区测试缺乏受控基线,"它对我有效"不等于可推广的性能表现。建议采用验证优先原则,等待官方技术报告和独立第三方复现测试。

Verdent AI 信息源质量分级 Engram 论文 GitHub LMSys 独立测试平台