《2025 中国 Data&AI 数据基础设施白皮书》由ai发布,聚焦 AI 时代数据基础设施变革,结合行业趋势、技术路径与实践案例,系统梳理 Data&AI 数据基础设施的发展逻辑与应用价值。
⠀
- 数智融合成时代特征:数据应用与 AI 从独立走向一体化。从早期关系型数据库、数据仓库,到大数据平台与深度学习结合,再到如今 “数据即 AI、AI 即平台”,支撑设施历经多阶段演进,当前进入 Data&AI 深度融合的基础设施阶段。
- 双向互动推动范式升级:AI 历经感知智能(依赖分类非结构化数据)、生成式 AI(依赖结构化 / 单多模态数据)、Agentic AI(依赖融合多模态数据)三阶段;数据应用同步从数据库、数据平台,升级至 “湖仓一体 + AI 原生” 的基础设施阶段,二者协同推动架构从分离、融合走向一体化。
- 应用深化提融合要求:数字化迈向智能化,数据基础设施从 “支撑决策” 升级为 “协同驱动智能”,成为核心生产工具。产业级 AI 应用面临数据 “拿不出、调不动”“用不好”“复用差” 等痛点,需一体化基础设施破解。
- 数智一体化成行业共识:国内外厂商(如 Databricks、阿里云、科杰科技)通过收购或自研补强 AI 能力,构建 “数据接入 – 处理 – AI 开发 – 应用” 全链路能力,Data&AI 融合成行业趋势。
- 赛道定义:为支撑 AI 规模化落地的一体化基础软件平台,核心是打通数据存储、治理、计算与 AI 模型开发全链路,实现 “Data for AI” 与 “AI for Data” 双向赋能,是传统大数据平台的升级形态。
- 核心特征:以 AI 原生一体化架构为核心,具备动态异构资源调度(适配 CPU/GPU、多模态数据)、多模态数据融合处理、低代码 / 自然语言交互、全生命周期安全运营等能力。
- 边界差异:与传统大数据平台相比,第三代 Data&AI 基础设施非结构化数据占比超 80%,采用湖仓一体架构,支持批流一体与实时推理,适配万亿参数模型,而传统平台多聚焦结构化数据与分布式批处理。
- 价值体系:呈 “点 – 线 – 面 – 体” 递进,从提升单个业务环节效率(点)、支撑用户智能化创新(线)、推动行业协同(面),到带动产业繁荣与保障国家战略(体)。
- 五大关键能力:融合开发(多模态数据处理、模型训推)、平台架构(湖仓一体、存算分离)、资源调度(CPU/GPU 高效调度)、智能原生(数据与 AI 闭环互动)、安全运营(合规与高可用)。
- 4+1 架构体系:资源接入层(数据摄取)、数据管理层(存储与治理)、Data&AI 工程化层(模型训推)、智能应用层(低代码 / 智能体),叠加安全运营层保障全链路安全。
- 四类厂商类型:综合平台厂商(阿里、华为,资源调度强但架构易割裂)、专业平台厂商(Databricks、科杰科技,AI 原生与融合开发能力突出)、数据平台厂商(Snowflake、星环,聚焦大数据处理)、智能应用厂商(Dify,侧重 AI 场景落地),其中专业平台厂商更契合行业趋势。
- 大型国央企:如中国石化,借 Data&AI 基础设施打破数据孤岛,构建统一数据资源池,提升报表效率,支撑勘探业务数字化。
- 大型金融企业:如中信银行,构建实时数据底座,实现信贷审批分钟级响应、反欺诈实时联动,平衡效率与风控。
- 跨国外企:如某跨国零售集团,通过统一基础设施实现智能定价(KVI 商品销量升 9%)、会员运营(复购率升 8.45%),缩短决策周期。
- 城市政府:如某市数据集团,搭建数据流通平台,实现数据安全合规流转,推动数据从 “资源” 向 “生产要素” 跃迁,支撑数字经济发展。