2025 年 9 月中文大模型基准测评报告总结

报告由独立第三方 AGI 测评机构 SuperCLUE 团队于 2025 年 10 月 16 日发布，聚焦 2025 年 9 月中文大模型阶段性进展，通过六大任务对 33 个国内外大模型开展通用能力测评，旨在客观呈现大模型性能差异与发展趋势。

⠀

一、测评基础信息

测评体系：聚焦通用能力，含数学推理（竞赛级数据集，0/1 评分）、科学推理（研究生级跨学科数据集）、代码生成（独立函数与 Web 应用生成，单元 / 功能测试评分）、智能体 Agent（10 余个中文场景工具调用）、精确指令遵循（4 类中文约束场景）、幻觉控制（文本摘要等任务）六大任务，共 1260 道原创新题，人类一致性 95%-99%。
模型范围：涵盖 33 个国内外模型，包括 OpenAI 的 GPT-5 (high)、Anthropic 的 Claude 系列、Google 的 Gemini 系列，及国内深度求索、字节跳动、阿里巴巴等机构的模型。

二、核心测评结果

总体排名：海外模型占据前 6，GPT-5 (high) 以 69.37 分领跑，o4-mini (high)（65.91 分）、Claude-Sonnet-4.5-Reasoning（65.62 分）等紧随其后；国内头部为 DeepSeek-V3.2-Exp-Thinking（62.62 分）与 Doubao-Seed-1.6-thinking-250715（60.96 分），海外 TOP5 平均分（66.09 分）比国内 TOP5（61.01 分）高近 5 分。
开源模型表现：国内开源模型优势显著，DeepSeek-V3.2-Exp-Thinking、openPangu-Ultra-MoE-718B、Qwen3-235B-A22B-Thinking-2507 包揽开源前三，大幅领先海外最优的 gpt-oss-120b（53.05 分）；国内模型在代码生成等四大任务领先，海外在数学、科学推理略优。
关键任务分析
- 智能体 Agent：国内外头部表现接近（国内 TOP5 平均 79.05 分，海外 78.33 分），在票证、购物等场景得分超 75 分，但车辆控制、股票交易等需多步推理的场景表现欠佳，且得分随交互步数 / 轮数增加下降。
- 代码生成：国内头部（如 Qwen3-Max）优于部分海外模型，但与 Claude-Sonnet-4.5-Reasoning 等顶尖海外模型有差距；Web Coding 子任务（平均 42.63 分）是差距核心，国内外分差超 8.5 分，且远低于独立函数生成（83.88 分）。
- 精确指令遵循：海外模型占前四，国内 ERNIE-X1.1（64.91 分）列全球第五；模型间差异最大（标准差 16.67），得分随指令数量增加下降，海外模型处理复杂任务鲁棒性更强。
- 幻觉控制：海外模型占前十中 6 席，Claude-Opus-4.1-Reasoning（85.24 分）居首；国内形成梯队，openPangu-Ultra-MoE-718B（81.29 分）等第一梯队可与国际顶尖抗衡；任务越开放（如对话补全），幻觉越易出现。

三、性价比与推理效能

性价比：国内模型更具优势，平均 API 价格 3.88 元 / 百万 Tokens（多为 0-10 元），海外平均 20.46 元（2-200 元不等），且国内多分布于中高性价比区，海外无高性价比模型。
推理效能：海外模型更高效，国内平均推理耗时 101.07 秒 / 题，海外仅 41.60 秒；海外推理时间集中在 10-90 秒，国内分散（10-240 秒），无国内模型进入高效能区。

四、测评可靠性与附录

可靠性验证：SuperCLUE 得分与 LMArena（英文权威榜单）相关性高（Spearman 0.9108，Pearson 0.8724），与人类评估高度一致。
附录信息：SuperCLUE 为 CLUE 基准延续，题库每 2 月 100% 原创替换，维度实时更新；测评框架覆盖通用、文本、多模态等多领域；附录含 33 个测评模型的机构、简介及调用方式。

暂无评论

暂无评论...

《中文大模型基准测评2025年9月报告》PDF免费下载

2025 年 9 月中文大模型基准测评报告总结

一、测评基础信息

二、核心测评结果

三、性价比与推理效能

四、测评可靠性与附录

相关图书

暂无评论