报告由独立第三方 AGI 测评机构 SuperCLUE 团队于 2025 年 10 月 16 日发布,聚焦 2025 年 9 月中文大模型阶段性进展,通过六大任务对 33 个国内外大模型开展通用能力测评,旨在客观呈现大模型性能差异与发展趋势。
⠀
- 测评体系:聚焦通用能力,含数学推理(竞赛级数据集,0/1 评分)、科学推理(研究生级跨学科数据集)、代码生成(独立函数与 Web 应用生成,单元 / 功能测试评分)、智能体 Agent(10 余个中文场景工具调用)、精确指令遵循(4 类中文约束场景)、幻觉控制(文本摘要等任务)六大任务,共 1260 道原创新题,人类一致性 95%-99%。
- 模型范围:涵盖 33 个国内外模型,包括 OpenAI 的 GPT-5 (high)、Anthropic 的 Claude 系列、Google 的 Gemini 系列,及国内深度求索、字节跳动、阿里巴巴等机构的模型。
- 总体排名:海外模型占据前 6,GPT-5 (high) 以 69.37 分领跑,o4-mini (high)(65.91 分)、Claude-Sonnet-4.5-Reasoning(65.62 分)等紧随其后;国内头部为 DeepSeek-V3.2-Exp-Thinking(62.62 分)与 Doubao-Seed-1.6-thinking-250715(60.96 分),海外 TOP5 平均分(66.09 分)比国内 TOP5(61.01 分)高近 5 分。
- 开源模型表现:国内开源模型优势显著,DeepSeek-V3.2-Exp-Thinking、openPangu-Ultra-MoE-718B、Qwen3-235B-A22B-Thinking-2507 包揽开源前三,大幅领先海外最优的 gpt-oss-120b(53.05 分);国内模型在代码生成等四大任务领先,海外在数学、科学推理略优。
- 关键任务分析
- 智能体 Agent:国内外头部表现接近(国内 TOP5 平均 79.05 分,海外 78.33 分),在票证、购物等场景得分超 75 分,但车辆控制、股票交易等需多步推理的场景表现欠佳,且得分随交互步数 / 轮数增加下降。
- 代码生成:国内头部(如 Qwen3-Max)优于部分海外模型,但与 Claude-Sonnet-4.5-Reasoning 等顶尖海外模型有差距;Web Coding 子任务(平均 42.63 分)是差距核心,国内外分差超 8.5 分,且远低于独立函数生成(83.88 分)。
- 精确指令遵循:海外模型占前四,国内 ERNIE-X1.1(64.91 分)列全球第五;模型间差异最大(标准差 16.67),得分随指令数量增加下降,海外模型处理复杂任务鲁棒性更强。
- 幻觉控制:海外模型占前十中 6 席,Claude-Opus-4.1-Reasoning(85.24 分)居首;国内形成梯队,openPangu-Ultra-MoE-718B(81.29 分)等第一梯队可与国际顶尖抗衡;任务越开放(如对话补全),幻觉越易出现。
- 性价比:国内模型更具优势,平均 API 价格 3.88 元 / 百万 Tokens(多为 0-10 元),海外平均 20.46 元(2-200 元不等),且国内多分布于中高性价比区,海外无高性价比模型。
- 推理效能:海外模型更高效,国内平均推理耗时 101.07 秒 / 题,海外仅 41.60 秒;海外推理时间集中在 10-90 秒,国内分散(10-240 秒),无国内模型进入高效能区。
- 可靠性验证:SuperCLUE 得分与 LMArena(英文权威榜单)相关性高(Spearman 0.9108,Pearson 0.8724),与人类评估高度一致。
- 附录信息:SuperCLUE 为 CLUE 基准延续,题库每 2 月 100% 原创替换,维度实时更新;测评框架覆盖通用、文本、多模态等多领域;附录含 33 个测评模型的机构、简介及调用方式。