报告下载

《中文大模型基准测评2025年9月报告》PDF免费下载

涵盖 33 个国内外模型,包括 OpenAI 的 GPT-5 (high)、Anthropic 的 Claude 系列、Google 的 Gemini 系列,及国内深度求索、字节跳动、阿里巴巴等机构的模型

2025 年 9 月中文大模型基准测评报告总结

报告由独立第三方 AGI 测评机构 SuperCLUE 团队于 2025 年 10 月 16 日发布,聚焦 2025 年 9 月中文大模型阶段性进展,通过六大任务对 33 个国内外大模型开展通用能力测评,旨在客观呈现大模型性能差异与发展趋势。

一、测评基础信息

  1. 测评体系:聚焦通用能力,含数学推理(竞赛级数据集,0/1 评分)、科学推理(研究生级跨学科数据集)、代码生成(独立函数与 Web 应用生成,单元 / 功能测试评分)、智能体 Agent(10 余个中文场景工具调用)、精确指令遵循(4 类中文约束场景)、幻觉控制(文本摘要等任务)六大任务,共 1260 道原创新题,人类一致性 95%-99%。
  2. 模型范围:涵盖 33 个国内外模型,包括 OpenAI 的 GPT-5 (high)、Anthropic 的 Claude 系列、Google 的 Gemini 系列,及国内深度求索、字节跳动、阿里巴巴等机构的模型。

二、核心测评结果

  1. 总体排名:海外模型占据前 6,GPT-5 (high) 以 69.37 分领跑,o4-mini (high)(65.91 分)、Claude-Sonnet-4.5-Reasoning(65.62 分)等紧随其后;国内头部为 DeepSeek-V3.2-Exp-Thinking(62.62 分)与 Doubao-Seed-1.6-thinking-250715(60.96 分),海外 TOP5 平均分(66.09 分)比国内 TOP5(61.01 分)高近 5 分。
  2. 开源模型表现:国内开源模型优势显著,DeepSeek-V3.2-Exp-Thinking、openPangu-Ultra-MoE-718B、Qwen3-235B-A22B-Thinking-2507 包揽开源前三,大幅领先海外最优的 gpt-oss-120b(53.05 分);国内模型在代码生成等四大任务领先,海外在数学、科学推理略优。
  3. 关键任务分析
    • 智能体 Agent:国内外头部表现接近(国内 TOP5 平均 79.05 分,海外 78.33 分),在票证、购物等场景得分超 75 分,但车辆控制、股票交易等需多步推理的场景表现欠佳,且得分随交互步数 / 轮数增加下降。
    • 代码生成:国内头部(如 Qwen3-Max)优于部分海外模型,但与 Claude-Sonnet-4.5-Reasoning 等顶尖海外模型有差距;Web Coding 子任务(平均 42.63 分)是差距核心,国内外分差超 8.5 分,且远低于独立函数生成(83.88 分)。
    • 精确指令遵循:海外模型占前四,国内 ERNIE-X1.1(64.91 分)列全球第五;模型间差异最大(标准差 16.67),得分随指令数量增加下降,海外模型处理复杂任务鲁棒性更强。
    • 幻觉控制:海外模型占前十中 6 席,Claude-Opus-4.1-Reasoning(85.24 分)居首;国内形成梯队,openPangu-Ultra-MoE-718B(81.29 分)等第一梯队可与国际顶尖抗衡;任务越开放(如对话补全),幻觉越易出现。

三、性价比与推理效能

  1. 性价比:国内模型更具优势,平均 API 价格 3.88 元 / 百万 Tokens(多为 0-10 元),海外平均 20.46 元(2-200 元不等),且国内多分布于中高性价比区,海外无高性价比模型。
  2. 推理效能:海外模型更高效,国内平均推理耗时 101.07 秒 / 题,海外仅 41.60 秒;海外推理时间集中在 10-90 秒,国内分散(10-240 秒),无国内模型进入高效能区。

四、测评可靠性与附录

  1. 可靠性验证:SuperCLUE 得分与 LMArena(英文权威榜单)相关性高(Spearman 0.9108,Pearson 0.8724),与人类评估高度一致。
  2. 附录信息:SuperCLUE 为 CLUE 基准延续,题库每 2 月 100% 原创替换,维度实时更新;测评框架覆盖通用、文本、多模态等多领域;附录含 33 个测评模型的机构、简介及调用方式。

相关图书

《2025企业级AI商业化进程报告》PDF免费下载
55.9% 的企业处于产品验证期,31.4% 进入规模化扩张期,仅 2.7% 达成熟稳定期
《2025大模型厂商全景报告》PDF免费下载
大模型市场已从 “通用技术探索” 进入 “行业落地深耕” 阶段
《2025海内外云厂商算力建设现状、自研芯片布局与进展分析报告》PDF免费下载
海外云厂商从 2023Q3 启动资本开支加速,微软、谷歌、亚马逊等 2025 年投入均同比增长 50% 以上
《2025年中国大模型行业发展研究报告:CBDG四维生态成为新范式,体系化竞争成为关键》PDF免费下载
2024 年市场规模约 294.16 亿元,预计 2026 年破 700 亿元;技术上多模态融合、智能体演进成焦点
《2025人工智能计算中心发展白皮书2.0》PDF免费下载
美国、欧洲、日本、中国等加速布局,以抢占科技与产业制高点。
《人工智能行业-“人工智能+”行动深度解读与产业发展机遇》PDF免费下载
“人工智能 +” 行动将推动 AI 从单点应用走向全链条重构

暂无评论

暂无评论...