字节编辑
前言
全文1.5字深度解读,阅读完预计需要30分钟!建议先收藏!
云计算经历了资源云化(2006年)、云原生化(2013年)、算力泛在化(2020年)等阶段,随着人工智能与算力网络深度融合,已迈入智能化的新阶段,向全栈智能、开放融合的云智算升级、中国移动通过打造云智算技术体系,升级AI IaaS、AI PaaS、MaaS、AI Saas 四层架构,推动算网大脑向算网智脑跃迁,构建全链路可控用智安全,筑牢“供给者、汇聚者、运营者”定位。
作为“供给者”,融合中国移动算力、数据、算法优势,提供全方位能力支持:
作为“汇聚者”,打造AI 生态平台,广泛汇聚多类型模型、多领域能力、多场景智能体;作为“运营者”,以算网大脑为核心提供高效运营服务,深化 AI赋能。
在此基础上,全面激活智能算力与应用普惠新势能。
本白皮书详细阐述了云智算的发展背景、内涵,深入介绍云智算的关键技术方向,为云智算的发展奠定基础云智算的发展成熟需要产学研用各方凝心聚力,实现从基础设施到运营服务的全面升级,中国移动希望同业界合作伙伴一道,共同推动云智算技术、产业、应用和生态成熟,助力千行百业注智赋能。
1. 从云计算到云智算
1.1 云计算发展现状及面临挑战
云计算经过二十年的发展已成为数字经济的主要服务形态,凭借虚拟化、云原生等技术实现了资源池化和弹性扩展能力,有效支撑了各行各业数字化转型。
随着千亿参数大模型等 AI 技术的迅猛发展,传统云服务体系面临严峻挑战,云计算进入深水区:
在算力方面,十万卡级超大规模 GPU 集群的异构算力需求已远超现有资源池化的调度能力。
在网络层面,AI训练中TB级参数同步对时延极为敏感,传统网络架构难以满足低时延、高吞吐的传输要求.
在服务形态上,单一的 IaaS/PaaS 服务无法全面覆盖数据处理、模型训练、推理部署等 AI开发全链路的需求,迫切需要构建适应智能时代的云计算新范式。
1.2 云智算的内涵
云智算是通过算网基础设施与人工智能核心技术深度融合,提供一体化算网资源、全栈式开发环境、一站式模型服务、多样化场景应用的新型云服务模式。
云智算作为云计算的新升级,是以AI为核心驱动力的下一代云计算范式,是未来算网智一体化算力网络的核心载体。
1.3 云智算体系架构
云计算向云和 AI深度融合的云智算升级,体系架构从IaaS、PaaS、SaaS三层拓展为 AI IaaS、AI PaaS、MaaS、AI SaaS 四层。
一是AI IaaS,即算网一体化供给的基础设施服务,通过泛在网络推动东中西、云边端、通智超量、训练推理等多类型算力“联算成网”,依托算网统一编排的算网大脑,实现算力的灵活调度、即取即用。
二是 AI PaaS,即面向名类 AI开发者的工具平台服务,提供覆盖 AI 研发、运营、测试等全环节的工具链和开发环境,显著提升全社会 AI创新效率。
三是 MaaS,即加速 AI 一站式落地的模型服务,汇聚模型、能力、智能体等资源,推动 AI 在各行业的普及渗透。
四是 AI SaaS,即覆盖多样化场景的 AI 应用服务,赋能生产方式、生活方式、社会治理方式的数智化转型,充分释放 AI 价值潜能。

为此,中国移动针对云智算体系架构形成了计算、存储、网络、算网一体、AI开发平台、模型服务、算网大脑等十大关键技术方向。
2. 云智算关键技术方向
2.1 计算技术
随着模型参数量与复杂度指数级增长,当前智算集群在算力密度、通信效率、能效比方面面临严峻挑战。
中国移动充分发挥央企科技创新示范引领作用,聚焦“卡脖子”方向,攻关国产高算力芯片、智算超节点、算力原生等关键技术,突破万亿模型训练与推理性能瓶颈,打造低成本、高能效、自主可控的算力底座,引领云智算基础设施从规模扩张走向效能跃升的新阶段。
2.1.1 算力芯片
大模型训练和推理对算力芯片提出了更高的要求,如超高带宽互联、极低时延等。GPU是智算核心,中国移动以测促研推动国产化GPU 成熟,同时布局 DPU芯片,提升智算网络性能、落地自主算法、融合 COCA DPU OS 实现智算互联效篪跃升。
中国移动推出大云磐石 DPU,以云智算场景需求为牵引,与国产芯片厂商深度合作,提带宽、降延迟、优传输,构建端网协同的高性能互联方案。
带宽方面研发智算 RDMA 技术,大幅提升网络带宽,满足训练场景大带宽要求。
延迟方面搭载轻量化 RTT based 拥塞流控算法,有效降低网络时延,满足推理场景下低时廷要求。
传输方面,通过端侧多路径、数据高速采集技术,优化 RDMA传输机制从源头上解决多路径 hash 冲突问题,提升智算集群带宽利用率与可靠性。
面向近期,升级 DPU 芯片智算网络带宽,优化RDMA传输机制、搭载流控算法,大幅降低尾时延。
联合国产网侧厂商,形成端网协同的端到端解决方案,加快集群训练收敛速度、降低推理场景响应时延。
面向中远期,持续优化 DPU 芯片智算网络核心能力,提升智算集群利用率。
联合国内芯片厂商,基于SIMT架构与RISC-V指令集,打造AI智算开放新生态。
2.1.2 智算超节点
2024年英伟达发布的NVL72超节点支持单机内72个GPU高速互联,重构全球智能算力竞争格局,进一步拉大中美算力技术代差。
为此,中国移动基于原创COCA 异构计算架构“H,联合 GPU 芯片、交换芯片、服务器整机等国产全产业链伙伴,打造开放式架构大云磐石超节点,为大模型训练和推理提供更高吞吐、更低时延的海量数据处理能力,推动解决国产智算核心“卡脖子”问题。
中国移动以统一开放互联的自主协议为基础,构建64卡互联规模、800GB/s点对点带宽、微秒级时延的大云磐石超节点。
一是以开放式硬件架构为核心构建跨 GPU 厂商互通兼容的技术体系,并积极推进相关行业标准落地,打破产业壁垒。
二是融合 COCA智算软件栈实现算力应用一体加速,提升推理吞吐性,依托大云磐石 DPU[[提升集群通信效率。
三是设计 16/32/64卡等多种产品规格实现算力灵活配置,配备单机、标准机柜、高密机柜等多种部署方案,可同时满足大规模并行训练、私有化训推一体等不同场景的算力规格灵活选择和交付需求。
面向近期,聚焦超节点生态构建和应用示范牵头打造,并推进行业形成跨GPU 厂商兼容的互联标准,促进生态成熟。
面向中远期,以更高规模、更大带宽、更低时延的互联为构建目标,驱动国产CPU、交换芯片等核心器件的协同创新,加速产业体系升级。
当前国内智算芯片生态碎片化,上层模型和应用向国产体系迁移难、意愿低,不利于国产智算生态的良性发展。
为此,中国移动携手产学研用合作伙伴,筑标准、推应用、建生态,积极推动算力原生技术成熟。
发布业内首部《面向智算的算力原生白皮书》”,推动统一算力抽象、编程模型及虚拟指令集等系列标准[W及开源工作组建设叫,推出 COCA算力原生平台,发布“芯合”计划,已实现7 家智算芯片的一体接入。
重点攻关异构设备统一接入API和异构集合通信库等关键模块,实现智算应用跨架构一次开发、跨芯一键部署、随需敏捷迁移,服务“分钟级”上线。
面向近期,深化研究 AI 芯片统一算力抽象机制及转换方法,强健高性能全栈异构通用基础软件系统能力,接入更多AI芯片,支撑更多编程语言范式,全面融入高性能推理业务场景,支撑跨厂商低成本迁移、敏捷开发及高效部署面向中远期,以“异构 CPU+智算 AI 芯片”一体融通、支撑训推一体的泛 AI业务为目标,探索虚拟指令集等深度算力抽象技术,形成即插即用的统-XPU算力底座与工具链,释放多样算力整体协同效能,推动智算应用生态繁荣发展。
2.2 存储技术
随着智算业务的爆发与模型参数量的增长,智算应用在训练、推理等阶段对存储服务提出了更为严苛的需求,如何对海量复杂的数据进行存储、调度、高效供给以提升算力利用率及模型训推效率成为传统存储系统面临的巨大挑战。
中国移动通过深度适配智算业务场景、融合高速发展的软硬件技术,为云智算构建高效、智能、可靠的先进存力底座,进而提升智算应用全生命周期数据供给效率,不断优化算力利用率、提升智算业务效能。
2.2.1 智算文件存储
基于通算理念构建的存储系统在长期演进中形成的标准化协议和产品形态无法满足智算应用发展对数据访存性能、数据流转效率等新需求,已成为制约智算产业发展的生产力瓶颈。
同时,新型存储介质、高速网络硬件的快速发展也为存储系统的重塑提供了强大的动力支撑。
目前,大模型对底层存储的性能要求和高速发展的软硬件技术,正在推动存储系统的革命性升级。基于高性能网络技术栈(如RDMA、Infiniband)和高性能硬件设备(如 DPU、NVMe SSD)进行构建的软硬融合极简化存储系统,将在I0带宽吞吐和性能稳定性等方面获得极大化的性能收益,以文件存储为中心实现与对象存储、缓存系统的全面打通,构建数据在智算场景的全生命周期管理能力,满足数据的高效率、低开销流转,实现数据访问延迟和持久化存储成本的大幅下降。
同时,突破通算存储系统的通用语义東缚(以DeepSeek FFRecord 为例),实现存储系统与智算应用的端到端协同适配,促进新型存储访存方式的变革,使应用以更高效的方式使用存储系统,是提升智算业务效能的重要举措。
面向近期,以文件存储为核心的存储系统应聚焦智算场景的关键需求,基于全新的软硬件融合技术以极简化思维进行系统重构,消除其在数据访存性能、流转效率等方面对智算应用的制约。
面向中远期,文件存储应推动新型访存协议的标准化,并结合多级推理缓存等组件形成层次化技术方案,打造云智算场景下智算文件存储系统设计新范式,
2.2.2 训推多级缓存
随着 AI 大模型应用及训推场景的爆发式增长,GPU显存和宿主机内存容量有限、本地及网络持久化存储性能不足等问题凸显,已成为制约 AI大模型高速发展的症结所在。
尤其以KVCache、RAG等为代表的推理技术对存力的要求越来越高,亟需一种新型存储架构,解决性能与成本问题,提高推理效率和推理质量,中国移动提出面向 AI的高弹性多级缓存方案,解决训推过程对于存储系统的性能与成本问题。
支持 GPU 数据卸载,构建包括 GPU 显存、主存、宿主机与网络持久化存储的多级缓存架构”,利用以CXL 为代表的高性能互联技术,支持多机互联和资源共享,提高资源利用率。
根据资源池网络拓扑及实时负载信息,实现数据的智能路由,提高数据传输性能。
打造训推过程中不同数据类型及不同阶段的专有协议,提供专有 SDK 和专有插件,满足训推过程对于高性能、低成本的诉求。
依托 DPU 轻计算客户端卸载技术,构建计算与存储间的高带宽通道,提供以弹性临时盘为代表的场景特化临时存储能力。
面向近期,针对AI训推场景对于多级缓存的核心需求,联合产业力量升级存算互联硬件,打造高速互联接口提升带宽,研发存算协同芯片模块,提升整体性能。
面向中远期,构建多级训推缓存端到端智能缓存管理框架,支持异构缓存间的数据透明迁移;支持多级缓存分布式部署,深度融合云端、边缘与终端设备的存储资源,实现深度缓存协同。
2.3 网络技术
为应对 AI 大模型训练与推理对算力基础设施的极致性能需求,中国移动构建“卡间-机间”全栈智能互联技术体系,通过自主研发全向智感互联(0ISA)协议与全调度以太网(GSE)架构,突破传统互联技术在高带宽、低时延、大规模组网等场景的瓶颈。
二者协同构建“芯片-设备-集群”三层互联能力,形成从卡内计算到跨机协作的端到端智算网络中国方案,为万亿参数大模型训练、多模态 AI 应用及下一代智算中心建设提供高确定性、高可靠性的互联基座。
2.3.1卡间互联
由于大模型复杂度、参数量和训练数据呈指数级增长,传统GPU 互联技术在数据传输效率、可靠性和互联规模上面临瓶颈,亟需在协议设计、内存协同和物理连接方面实现突破,为此,中国移动提出全向智感互联架构( omni-directional[ntelligent Sensing Express Architecture,OIS),构建高性能、高可靠的GPU 互联体系,以支撑训练、推理及高性能计算等数据密集型应用。
全向智感互联 0ISA 协议通过全向连接拓扑架构,构建支持大规模 GPU 卡级互联的通信体系,包含统一报文格式设计、多语义融合、多层次流控与重传机制,集合通信加速算法优化等多项创新技术,协议在数据层采用智能流量感知标签技术支持链路状态实时监测能力,在物理层支持轻量级纠错能力,通过IP嵌入方式贯通 GPU 与交换芯片,形成端到端的高速通信通道,为大规模集群提供百纳秒级时延与无损传输能力。
2024年以来,中国移动通过广泛合作,推动 0ISA技术进入产业化快车道,在多样性算力峰会成立“0ISA协同创新平台”,在中国算力大会发布“0ISA Gen1.1”协议,成立“超节点算力集群创新联合体”等都加速了技术规模化应用进程。
2025 年中关村论坛展示的64卡“国芯国连”超节点AI算力集群,标志着我国在智算基础设施领域开启自主可控的技术革新,面向近期,以协议标准化与 IP 芯片化为核心,加速推进 0ISA 协议 2.0版本的标准化进程,完成协议验证及 IP 核流片落地。
面向中远期,重点突破基于 0ISA 协议的 Chiplet 异构集成技术,建立涵盖2D/2.5D/3D封装形态的标准化互连协议栈,系统性解决多芯粒互操作性瓶颈;同步开展光电协同技术预研,通过0I0(0ptical1/0)光电融合架构创新,采用光电共封装技术突破传统电互连的带宽密度与传输距离限制,推动材料接口与封装规范的标准化进程,为 TB/s 级带宽、百 ns 级时延的点对点超大规模智算集群互联奠定基础。
2.3.2 机间互联
AI 大模型以 GPU 集群分布式训练为基础,网络成为影响算力的关键因素现有 InfiniBand 和RoCE 技术存在各自问题,均不满足未来机间互联技术演进为此中国移动提出全调度以太网(GSE)技术架构,全面革新以太网底层转发机制和上层协议栈,从根本上解决传统无损以太性能和可靠性问题,为全球机间互联技术发展贡献中国方案。
率先成立业界首个新一代 AI 网络技术组织 GSE,《全调度以太网技术架构白皮书》旧,随后发布全套GSE 技术标准、全量支持GSE能力的千卡级商用交换机及业界首颗 GSE 网卡芯片-“智算琢光”。
面向近期,布局 GSE-N2N 和 GSE-E2E 两大场景,分别满足 GPU 集成网卡服务器和配备独立网卡 GPU 服务器两大不同类型服务器组网需求,围绕两大场景对应的两类关键芯片,攻关GSE交换芯片及网卡芯片引入基于PKTC的多路径喷酒、基于DGSQ的拥塞避免以及基于66B原子码块的故障检测与通告等三大原创技术实现从技术标准到商用产品转化,满足超十万卡GPU 集群组网需求。
面向中远期,引入GSE 通信库优化,利用网络拓扑的天然聚合特性实现梯度聚合的高效卸载,减少网络通信流量,并通过合理规划梯度分配及聚合功能的放置加速聚合过程,降低通信延迟,引入光电路交换机(0CS),结合GSE技术体系,优化光电混合组网协同、纳管机制,持续探索光路交换潜力,突破传统电路交换容量瓶颈,提升智算网络集群规模及算力水平。
2.4 算网一体技术
随着大模型、智能体等新一代人工智能技术的快速发展,社会对算力基础设施的需求呈现指数级增长,传统计算与网络架构已难以满足高性能、可扩展和低成本的综合设计需求,中国移动将“算网一体”作为未来网络演进的新范式,通过实现网络和算力的深度融合与动态协同供给,正成为支撑AI规模化应用的关键基础设施。
2.4.1 算力路由
面向智算推理的“性能反转”问题以及智算训练对算网资源利用率、服务可用性等方面的高SLA要求,中国移动原创提出算力路由技术。
算力路由支持归一化算网度量、自适应算力通告、多因子联合路由等3大创新技术,将算力信息封装至路由协议,在传统网络路由的距离矢量上叠加算力向量,改变选路方法,实现算网联合路由,中国移动已经在IETF 推动成立算力路由 CATS 工作组”,是IETF 路由域近20 年由中国企业/高校推动成立的唯二工作组之一,当前已经完成需求、场景、架构、算力度量立项,同时,中国移动在 2024年MWC发布全球首台算力路由器,并已构建5省20地市规模中试网络。
面向近期,重点开展归一化算力度量、自适应算力通告、多因子联合路由技术研究,面向智算推理场景,开展集中式、分布式部署方案验证,验证算力路由在模型感知、推理实例选择的灵活性和高效率。
面向中远期,攻关面向大模型训练场景的多维算力信息融合路由机制,综合感知网络拓扑、网络故障、节点算力状态、检查点等多维信息,构建稳定高效的智算训练网络,充分发挥算力路由的性能潜力。
2.4.2 在网计算
云智算应用对带宽等通信资源更为敏感,智算训练、推理中存在大量的跨节点数据迁移、如集合通信和K-Vcache 缓存等,为网络带来较大的传输压力,成为系统性能的卡点。
面向云智算训练,在网计算可以将 Allreduce、Broadcast等集合通信算子卸载至网络节点。
面向云智算推理,在网计算可以在中间网络节点缓存K-V cache,同时实现 token复制分发,在网络内完成数据处理的动作,压缩网络流量,缩短传输路径,提升系统性能。
中国移动已发布《在网计算 NACA技术白皮书》,提出在网计算 NACA技术架构,原生支持面向云智算的在网计算通信库,有力提升云智算系统的性能和灵活性。
面向近期,重点开展面向智算训练的集合通信库适配机制研究。
深入分析在网计算可以支持的集合通信算子卸载类型,设计支持集合通信感知的网络架构和协议,兼顾 RDMA 等标准协议,设计支持在网计算的集合通信库编程接口。
面向中远期,开展面向智算训练、智算推理等多样化场景的通用在网计算架构和实现机制研究。重新定义原生支持在网计算功能的网络架构和网络元素。
重点是攻关和解决高性能网络流量转发和高性能业务处理之间的匹配协同问题,研制新设备和新系统。
2.5 AI开发平台技术
为应对 AI开发周期长、AI开发门高等难题,中国移动通过云原生 AI底座技术,提升数据、训练、推理和智能体全链路效能,压缩模型或应用的构建周期;基于代码大模型内核等 AI工具链技术,通过拖拉拽或者对话式开发模式降低 AI 开发门槛,使业务人员也能参与模型构建。
2.5.1 数据处理
数据处理为大模型提供基础燃料,存在跨模态数据整合难、部分行业数据缺失、标注工作耗时耗力等痛点,聚焦 AI场景,创新大模型预训练数据清洗、AIGC多模态数据整合、数据合成、智能标注等技术,为模型选代提供合规、多样化的数据燃料,推动自动驾驶、医疗影像等垂直领域 AI 应用落地。
面向近期,为 AI提供高质量数据燃料。数据合成技术突破真实数据瓶颈,通过模拟生成多样化场景数据支撑模型训练。
多态数据整合,利用全态大模型融合文本、图像、音频等,增强跨领域泛化能力;AI驱动自动化标注,提升数据清洗效率并优化标注质量;通过动态血缘追踪、数据版本管理,确保数据集可追溯、无偏见及合规性。
面向中远期,将围绕智能化、实时化与生态协同深化发展。基于AI实现全链路血缘追踪与异常根因定位,推动数据治理从被动转向动态自愈。
通过元数据驱动跨系统数据动态整合,支持多模态数据与实时流批处理的统一管理,破除数据孤岛。
结合多模态大模型实现自动化数据标注、清洗与洞察生成,赋能业务敏捷迭代;通过联邦学习、边缘节点算力优化实现数据“可用不可见”,保障敏感场景合规性。
2.5.2 训练框架
模型训练存在混合并行效率低、低精度训练不稳定等多重挑战,中国移动通过训练并行优化降低混合并行复杂性,完善FP8混合精度训练框架,基于故障容错提升训练稳定性,通过构建可支撑万亿级参数模型训练的高效框架,加速产业智能化向超大规模、超复杂场景持续突破。
2.5.2.1 训练并行优化
模型规模突破万亿参数,引发动态负载失衡、多节点显存分配不均衡等问题。通过建立自动搜索系统实现不同节点规模的最优参数组合,通过动态分析计算图中的算子特征与硬件资源约束,智能分配计算与通信任务,提升万卡级训练算力利用率(MFU)。
面向近期,实现并行策略自动搜索系统。通过解析大模型网络结构并建立算子级统计指标库,结合专家经验与多目标优化算法,量化评估集群的显存占用与通信效率,输出兼顾资源利用率与训练速度的并行配置方案,最终在超万卡集群中实现模型训练MFU超50%.
面向中远期,研发算子级自动并行框架,动态分析计算图中的算子特征与硬件资源约束,智能分配计算与通信任务,从而在超万卡规模的集群中实现模型训练的 MFU 突破60%.
2.5.2.2 低精度训练
低精度训练可以显著加速大模型训练性能,但梯度溢出问题严重制约模型收敛稳定性。针对上述问题,通过算子级优化(重构计算流,结合动态量化技术,即 FP8/INT8 精度自适应切换)与梯度缩放机制,在确保训练精度的前提下,压缩计算量,实现算力效率与训练精度的双重突破。
面向近期,完善 FP8 混合精度训练框架,构建梯度异常检测与自动修复机制。
推进算子融合技术与混合并行策略的联合优化,构建端到端的分布式训练效能评估系统;同步研发梯度统计分析与动态缩放工具链,形成低精度训练的标准化解决方案。
面向中远期,探索 FP4/INT4 超低精度计算架构,建立从算法设计到硬件指令集的全链路精度保障体系,推动大模型训练迈入“算法-算力-能效”协同进化的新阶段。
2.5.2.3 故障容错
超大规模集群训练面临硬件、网络和软件故障频发,局部故障易引发级联效应等问题,需构建分层故障隔离机制(如硬件冗余热备、网络多路径容灾、任务弹性分片)与增量式检查点技术(秒级快照+差异恢复),将故障恢复时间从小时级缩短至分钟级,同时结合智能预测提前预警亚健康节点并进行离,实现快速恢复与主动防御的双重保障。
面向近期,通过硬件热备保障单点故障算力损失<5%,网络多路径容灾压降通信中断率,并借力动态 DAG 任务调度引擎实现故障分片、秒级剔除重组。同步研发秒级轻量化检查点达成千亿级参数5分钟内全量恢复。
面向中远期,基于多模态监控数据(硬件状态、梯度分布、通信延迟)构建AI驱动的故障预测模型,通过时序预测、因果推理实现训练中断的提前预警,结合强化学习动态优化容错策略,使系统具备“未障先防”的能力。
2.5.2.4 异构混训
异构混训技术是指实现单一模型训练任务在跨厂商、跨代际、跨架构多类型智算芯片上分布式训练的一套技术体系,核心原理是根据底层异构芯片差异化计算能力对大模型计算任务进行非均匀拆分,并通过拉通异构芯片间的集合通信机制,实现大模型在异构集群上的高效分布式训练。
目前,中国移动已自主研发“芯合”异构混训系统"四旧,百亿参数大模型混训加速比达 95%以上。
面向近期,在分布式训练框架中通过评估模型拆解后的子神经网络计算量,实现分布式训练任务到异构智算芯片的负载均衡,并基于负载均衡原则设计异构流水线并行、异构数据并行等非均匀并行技术。
拉通异构芯片间的集合通信机制,实现双芯异厂家 GPU 通过CPU 绕转和 GPU 间直接通信等两种模式的跨机通信。
面向中远期,实现异构集群的最优并行策略推荐,对异构集群存在的多种复杂混合并行策略进行建模,得出最优非均匀切分并行策略,辅助降低异构集群的并行策略人工调优成本。
进行异构集合通信库设计,具备异构通信组的统一管理、异构拓扑感知及异构集合通信原语定义的能力,实现多芯的异厂家跨机通信。
升级“芯合”异构混训系统,构建异构统一集合通信标准,并与业界合作伙伴共同完善系统能力、构建异构训练融通生态,助力大模型训练的发展演进。
2.5.3 推理框架
现有模型在复杂推理
中普遍存在长链推理成本高昂、规模化推理效能差等挑战。需采用模型切分、显存分区管理等技术,提升推理并行效能:基于动态路由等技术,降低推理延迟;通过多维度指标动态感知,支撑推理服务的实时调优加速模型应用落地进程。
2.5.3.1 推理并行效能优化
模型推理技术在规模化落地过程中,面临推理延迟高、显存利用率不足、异构硬件适配复杂等问题,通过合理的模型切分、显存分区管理,提升 AI规模化部暑效能。
面向近期,研发预填充与解码阶段解耦的运行时架构,通过动态批尺寸调整(Dynamic Batch Size)与显存分区管理技术优化KVCache 利用率,构建基于硬件拓扑感知的并行编排器,实现计算密集型与通信密集型任务的分层调度,将高并发场景下延迟压降 30%以上。
面向中远期,研发基于强化学习算法的自适应并行引擎,动态调节跨硬件算力分布与显存分配比例,支持千卡级集群的负载均衡与弹性扩展,提升超大规模推理任务的经济性。
2.5.3.2 推理网关优化
推理网关面临高并发场景下长连接管理效率低、异构模型协议适配复杂、流式响应带宽压力激增等问题。需构建智能流量治理体系,通过协议统一多模态接口,结合动态批处理与内存池优化技术,实现请求分片路由与流式数据分块传输压降端到端延迟。
面向近期,研发支持动态路由的推理网关,基于KVCache 状态、系统负载、硬件拓扑等多维度指标融合分析,构建自适应路由策略。通过实时监测模型实例的显存占用率与计算密度,动态分配高优先级请求至低负载节点,实现端到端推
理延迟降低 20%-30%,同时结合算力-内存协同优化技术,将异构集群资源利用率提升至 85%以上。
面向中远期,构建云边端协同推理架构,实现动态负载迁移与联邦学习驱动的隐私保护机制。建立可解释性安全防御体系,集成对抗样本检测与推理路径可视化审计能力,满足金融、医疗等高危行业合规要求,
2.5.3.3 融合算子监控
在推理场景下,融合算子的动态性能波动与资源争用问题显著影响服务稳定性,需构建细粒度端到端追踪体系,通过算子级计算流拆解与硬件资源消耗的关联分析,实现算力利用率、显存分配、通信开销等多维度指标的动态感知与异常归因,支撑推理服务的实时调优与资源弹性分配。
面向近期,研发轻量化融合算子监控组件,集成至推理引擎运行时系统,支持算子执行耗时、显存占用峰值、计算单元利用率等核心指标的毫秒级采集与可视化分析,结合动态负载特征构建异常检测模型,实现关键路径性能劣化的实时告警与资源抢占策略的动态下发,压降异常场景下的服务延迟波动率至 5%以内。
面向中远期,打造AI驱动的智能监控框架,通过计算图拓扑与硬件资源状态的联合建模,自动识别算子融合策略与硬件调度策略的潜在冲突,构建多元算力池的弹性容灾体系。
2.5.4 智能体生成
智能体生成面临模型幻觉频发、自主规划能力有限及多智能体协同不足等问题,未来智能体技术将通过检索增强、智能体自适应决策与多智能体协作三大方向演进,形成任务执行可解释、多智能体协作高可信的智能体系统,加速行业智能化升级。
2.5.4.1 检索增强生成
增强检索生成(RAG)技术面临多源知识库管理复杂、动态场景下知识更新延迟等核心瓶颈。未来技术演进将围绕增量式检索、自动化知识库管理和更新三个方面,提升模型生成内容准确性和逻辑可溯性。
面向近期,优化检索过程,调整检索参数,更好地平衡语义搜索和关键词搜索的权重,优化重排序过程,提高对检索结果的筛选和排序能力,如改进的倒数排名融合算法(RRF)。
面向中远期,加强知识库的管理和更新机制,自动从各种数据源中获取新知识,并及时更新到向量数据库中;引入自主 Agent 实现动态决策和工作流程优化,能够根据不同的任务需求,自动调整检索策略和生成逻辑。
2.5.4.2 自主规划
自主规划面临跨场景任务泛化能力受限与行为边界失控风险等问题,未来技术演进将围绕协议标准化架构、混合价值决策模型、认知闭环构建三大路径突破,最终形成跨协议自组织、多目标自适应、全周期自进化的智能体。
面向近期,引入低代码的编排模式,使任务流程设计更加直观和高效。推进MCP 协议标准化整合,实现动态接口发现、权限声明标准化和服务质量量化。建立反思机制,构建错误模式知识库并实现策略优化。
面向中远期,通过蒙特卡洛树搜索(MCTS)实现智能体的自适应决策优化构建混合价值评估模型,融合领域知识图谱,实现更加深思熟虑和适应性强的自主规划机制。
2.5.5 AI开发工具
AI 工具链存在 AI 技术门高、工具链协作效率低、模型落地难等问题,依托云原生 AI 底座技术,结合代码大模型和向量、多模数据库等能力,整合多模态、多结构数据,实现 AI 开发流程智能化、协作效率高效化、应用落地简便化,助力规模化 AI 应用落地。
2.5.5.1 向量数据库
人工智能所需数据的复杂性和多样性正以前所未有的速度增长,而传统数据库技术不适用于海量的非结构化数据处理。向量数据库针对非结构化数据的处理进行优化,尤其擅长高效的相似性搜索,通过将数据转化为高维向量,实现对文本、图像、音频等复杂数据的高效处理,正在成为AI时代不可或缺的关键数据处理技术。
当前中国移动已经推出了向量检索云数据库服务,能够有效处理数千维的高维数据,与大模型无缝集成,广泛应用于人工智能、机器学习、推荐系统、图像识别等领域。
面向近期,针对不同类型的向量数据和应用场景,增强对全文检索、多路检索召回和融合排序等关键技术的支持,获取更全面的非结构化数据信息,提高检索结果的相关性和准确性。
面向中远期,向量数据库进一步与大语言模型(LLM)等人工智能技术深度融合,更好地支持RAG(检索增强生成)等应用场景。持续提升自适应能力,能够根据数据的动态变化和用户的查询模式,自动调整索引结构和检索策略,
2.5.5.2 多模数据库
AI的快速发展催生了多模态数据的融合管理需求,使得AI系统能够从每种模态中获取独特且互补的信息。多模数据库能够存储和管理各种类型的数据,优化数据的访问和检索方式,从而满足不同 AI 任务需求,并提高 AI 模型训练和推理的效率。
当前,多模数据库主要关注的技术方向包括统一建模与存储、分布式扩展、跨模查询优化以及数据一致性,面向近期,改进多模查询处理能力和优化算法,优化跨模数据转换,提高对多种数据模型联合查询的效率,提升跨模数据处理能力,满足 AI 场景中对海量多模态数据的查询、检索和分析需求。
面向中远期,提供强一致性保障机制,在不同数据模型之间进行数据更新和交互时,确保数据的完整性和一致性,进而提高系统的可扩展性和容错能力;利用机器学习和 AI 技术,使多模数据库能够自动学习和分析用户的查询行为和数据访问模式,为企业提供更全面、深入的数据分析和决策支持,
2.5.5.3 低代码模型开发
整合研发大模型能力,提升“数据处理-知识构建-模型开发-模型预训练-模型后训练-模型推理-智能体开发”全流程工具链效能旧四,推动模型开发从“低代码”向“无代码”演进。
面向近期,依托代码大模型完成代码开发和检查,甚至完成简单应用(如聊天机器人)的快速搭建。构建自动化调参工具,自动完成模型调优。
面向中远期,实现智能体驱动的复杂任务处理,通过LLM与智能体协作,自主完成从需求分析到代码生成、测试验证全流程自主完成,推动 AI从工具向协作伙伴的角色转变。
2.6 模型服务
Maas 平台通过汇聚九天系列大模型和主流模型、整合多样化大模型和智能体以算网大脑为载体,实现智能体编排调度、多智能体协同,赋能各行各业多样化场景。打造端到端模型交付能力,为用户提供算力、型、数据、应用、安全、运维、咨询、集成、交付、调优的一体化服务,最终实现模型即服务。
2.6.1 模型汇聚
随着 AI 技术发展和产业需求爆发,单一模型和智能体无法满足复杂业务流,依托云原生 AI 底座和 AI 工具链技术,汇聚覆盖“L0、L1、L2”的多层次模型体系,构建最开放、最全面的模型和智能体生态,助力 AI+企业即用即取。
中国移动已构建 DICT 库、Maas 云市场等多种成熟商业模式,形成了算力补贴、技术大赛等体系化扶持政策,引入了百余家厂商模型及智能体服务。
未来将汇聚的型和智能体充分融合,向AGI通用模型和社会级智能体网络演进,面向近期,提供统一的框架、接口和标准化协议(MCP),将模型和智能体汇聚至云端,通过多模型和智能体编排技术,满足复杂场景需求,面向中远期,结合行业知识库与领域模型,推动跨行业协同创新。支持跨组织、跨行业的协同,逐步构建全球化的智能体网络。
2.6.2 模型智能体融合
以算网大脑为载体,提升智能运营能力。通过分层融合和动态路由等技术,自动将简单任务调度至小参数量模型,复杂任务调度至大参数量模型,专业知识调度至行业模型,并叠加知识库、运行时环境等工具,在业务精度不下降的同时,实现客户效益最大化。
面向近期,构建动态路由与任务解耦框架。
研究多模型能力量化评估技术(如领域覆盖度、推理置信度、资源消耗比),设计轻量级路由决策模块,基于输入特征(如任务复杂度、数据模态、实时性需求)动态分配子任务至最优模型。
面向中远期,设计分布式信用分配体系,通过 Shapley 值量化各模型贡献度,优化资源调度策略,实现模型和智能体深度融合。
2.7 算网大脑
算网大脑在多要素融合的一体化资源编排调度和运营支撑能力的基础上,对内打造云智算资源、任务、智能体的三级编排调度体系。对外,结合三级编排调度的不断赋能,演进为具备意图解析与任务规划、能力编排与资源调度、可视交付与持续优化能力的超级智能体。
2.7.1 资源编排调度
资源编排调度技术通过全局资源感知、动态策略优化与智能决策机制,实现跨域异构算力与网络资源的高效协同,基于算网大脑分布式架构与智能算法驱动支持多层级资源抽象与统一建模,兼容云计算、边缘计算、智算中心等异构算力资源及入算、算间网络等多制式网络环境,实时采集多维度数据(包括算力资源状态、网络拓扑、业务需求及服务质量指标),构建多目标优化模型进行资源编排调度,生成满足 SLA 约東的最优部署策略。同时基于深度学习模型预测资源负载趋势,实现秒级重调度迭代和预案推演。
最终形成面向算网资源的端到端编排调度技术方案,具体包含如下方面:
跨域资源统一建模与调度引擎: 构建多集群资源统一抽象层,通过算力度量量化异构算力(CPU/GPU/NPU)、存储容量及网络状态(时延、带宽),形成全局资源动态画像和多目标(时延、成本、能耗)动态调度策略。
动态资源预测与弹性供给: 通过算网数据感知实时采集业务负载趋势,结合AI 算法预测资源需求峰值,动态调整跨域资源分配。例如,在电商大促场景中,提前将算力弹性扩容至西部低成本集群,结合确定性网络保障数据传输稳定性。
意图驱动的跨域编排接口: 基于算网原生编排开发意图化API,将用户需求自动解析为算力、网络、存储资源的组合策略,利用数字李生模拟资源调度效果,生成跨集群任务部署方案。
面向近期,构建多集群资源统一抽象层,实现算网资源统一建、算网指标多维感知和算网能力标准封装。打造调度流水线、可扩展调度策略,实现基于成本优化、性能优化、时延优先等调度策略的算网资源智能推荐。
面向中远期,结合业务负载趋势、弹性网络,通过 AIOps 算法预测资源需求实现跨域数据迁移,动态调度全局算网资源,支持资源弹性伸缩。
深度融合AI,基于业务意图智能生成算网编排方案,结合数字李生技术进行调度仿真,实现算网智能化编排调度。
2.7.2 任务式编排调度
任务式编排调度技术面向离线负载与离线作业等任务式场景提供全生命周期自动化管理能力,重点支撑数据处理、分布式推理与集中式训练三类核心业务范式。
数据处理场景下,通过弹性层级队列和负载感知调度以及重调度,有效保障多租户数据处理任务的稳定性。分布式推理场景下,基于全局流量负载均衡和推理集群自适应弹性伸缩,有效提升推理服务全局 Token 吞吐。
集中式训练场景下,基于AI 任务断点续训的特点,通过分时调度机制实现训练和推理混合负载白天推理、晚上训练,有效降低总体成本。
面向近期,面向数据处理场景,适配Spark、Flink等多计算引擎,通过弹性层级队列、负载感知调度以及重调度等机制,提升数据处理任务整体资源利用率,有效保障多租户数据处理任务的稳定性,
面向中远期,结合训推一体场景,通过全局流量负载均衡和推理集群自适应弹性伸缩,结合训练任务分时调度,实现训练和推理任务的削峰填谷,有效降低总体成本。
2.7.3 智能体编排调度
智能体编排调度技术基于分布式 AI Agent 协同架构,深度整合 ANP 与 MCP,结合智能体路由实现多智能体动态协作与资源高效管控。
通过 ANP 协议建立智能体自主协商与契约达成,依托 MCP协议实现智能体与外部系统的统一标准化对接创新智能体路由调度算法,达到意图的精准识别和任务的高效规划,实现型、工具的最优化调度。
面向近期,基于 kubeRay 技术打造分布式AI Agent 架构,支持 Agent 消息传递、记忆管理、模型调用,并结合 MCP 协议实现智能体与外部工具的统一标准化对接。
面向中远期,研究智能体路由,打造多智能体动态协作与资源高效管控,达到意图精准识别和任务高效规划,实现模型、工具的最优调度;推进 ANP 协议标准化,实现多智能体自主协商与契约达成。
2.8 安全可信
云智算相对于云计算,面临的安全风险和安全需求更加复杂:
一是更多的智算设施、更多的参与方中可能潜藏更多的攻击点和风险点,需要由安全可信的计算环境来进行保证不被内外部攻击。
二是智算服务中需要使用多源异构数据,既要保证数据自身安全,又要防止利用数据对模型的训练和生成进行攻击。
三是模型服务的新模式中,一旦生成内容有偏差的模型,对后续的服务形成持续性影响,在“一体化全程可信”的算网安全理念指导下,云智算的安全将向三个方面演进和增强,即计算环境可信、数据安全可用、智算服务可靠。
2.8.1 计算环境可信
智算资源的引入也带来了新的风险,已公布的 GPU 相关的 CVE 漏洞高达 700多个,涉及 GPU 内存攻击、指令控制等方面。
目前,针对智算资源的安全保障技术尚未形成体系,需要从两个方面进行应对:
智能检测监测技术: 对已知的漏洞和攻击手段,通过特征检测和行为监测的方式进行分析防范;并借助时序分析、行为特征分析等技术监测GPU/CPU利用率、内存占用、网络流量等指标的异常波动,及时识别并阻断可能的攻击实现攻击防范。
可信计算技术: 应用硬件级安全芯片(如TPM/TCM)构建底层信任根,在其上构建贯穿计算执行全流程的可信计算环境,确保基础设施的全可信性,实现计算环境的安全可信自证。
面向近期,考虑在封闭环境中使用受信厂商的智算资源,并接入实时监控系统,监测针对智算资源的攻击、及时修复漏洞。
面向中远期,使用可信计算技术,确保算力环境在执行训练和推理任务过程中全程可信。
2.8.2 数据安全可用
智算场景面临的数据安全风险主要包括针对数据的攻击和通过数据发起攻击。
针对数据的攻击是指在数据全生命周期过程中对数据进行篡改、伪造、窃取等,通过数据发起攻击是指向训练数据中注入恶意数据样本,破坏数据的可用性,导致模型性能下降、产生偏差,实现数据投毒。
针对数据安全风险,可以从三个方面来进行应对:
基于数据全生命周期安全防护技术: 覆盖数据采集、传输、存储、处理、共享及销毁全流程,结合智算场景下数据来源多、数据操作复杂等特性,通过数据分类分级、数据加密脱敏、操作行为审计等技术构建安全数场。
基于特征分析的检测技术: 通过对比可疑数据集和干净数据集训练的模型输出差异以及在验证数据集上的性能波动,同时配合均值、聚类等统计方法,识别与正常数据分布显著偏离的样本,识别投毒数据。
基于数据水印的追踪技术: 在训练数据中嵌入带有数据提供方身份标识的水印信息,在检测到数据投毒风险后可以第一时间定为风险源,从而断其相关联的可疑数据。
面向近期,考虑在智算环境中使用安全数场和安全检测技术,保障数据自身安全,防范通过数据发起的攻击。
面向中远期,引入数据追踪技术,实现对智算全程的数据溯源,出现安全风险能够第一时间进行定位解决。
2.8.3 智算服务可靠
模型篡改和结果伪造发生在模型训练和结果推理的计算阶段,产生的模型和结果的偏差会对 AI 模型使用者造成安全威胁。
针对模型自身安全合规、模型被篡改和结果伪造风险,应从以下三个方面来保障计算安全:
AI+模型安全检测技术: 针对Maas 输出的模型,增加基于AI的模型公正性内容合规性、结果可信性等方面的检测,用 AI对抗 AI,实现“用魔法打败魔法”
模型偏离监测技术: 在训练和推理程序中部暑监控模块,监测模型推理的轮入输出分布,在发现模型参数和推理结果偏离历史统计等异常时触发告警,进行重点关注与复测。
模型与结果签名链技术: 在训练和推理过程中嵌入数字签名模块,自动对中间状态模型参数、推理结果进行签名,并借助区块链和智能合约技术实现上链存证,实现模型和推理结果防篡改伪造,面向近期,考虑用基于 AI的检测和监测技术,保障模型公正、内容合规、结果可信。
面向中远期,采用“数字签名+区块链”的融合信任体系,实现智算服务可靠。
2.9 绿色节能
随着云智算系统的规模应用,将产生惊人的能耗和碳排放。
云智算技术的发展应将能耗、碳排放与计算效率、模型的准确性一起作为技术发展和提升目标,实现绿色人工智能(GREENAI)。
2.9.1 能效管理和提升
AI 大模型快速发展推动云智算系统算力需求激增,带来高能耗与碳排放问题日益凸显,据此,中国移动提出云智算系统能效管理和提升技术体系,实现能效评价和优化。
具体包括:
能效管理技术: 提出能效、碳效、算效评价模型,形成“评价-优化-管控”绿色节能解决方案,基于业务负载与资源利用率的非线性关系,建立“业务运行-算力输出”模型,实现云智算系统能效的精准管理。
能效提升技术: 针对设计态,提出绿色设计优化算法,提升机架空间、运行负载利用率,最大化资源利用效率;针对运行态,提出绿色运行优化算法,通过“业-算-能”协同优化提高系统整体运行能效。
面向近期,构建信息流、资源、能源特征的多维仿真模型,推动云智算系统精准能效仿真,推动行业标准制定,打造标杆应用。
面向中远期,针对大规模云智算系统,将更高能效、碳效与更高算效、模型准确性的提升作为优化目标,联合产业推动大规模多维仿真建模技术成熟,加速云智算绿色低碳技术发展。
2.9.2 数据中心热管理
随着 AI 大模型快速发展,高密芯片 TDP持续攀升,算力基础设施制冷模式亟需重构。液冷技术的规模应用与智慧化运维体系的深度融合,正成为突破散热瓶颈、保障数据中心高效运行的核心路径,
解耦液冷技术: 突破高密换热、高精度插接、系统防液、兼容性插接等核心技术卡点,推进液冷基础设施侧与服务器侧解耦,打破整机柜交付生态壁垒,提高业务部署灵活性,实现降本增效。(
空调智慧化运维技术: 通过AI驱动的能耗优化与预测性维护技术,推动制冷系统从“经验运维”向“AI智控”升级。
面向近期,重点开展可兼容型流体连接器、防喷溅装置、多场景换热单元等解耦液冷核心部件研究及通用冷却工质适配技术攻关,攻克制冷系统动态化智能管理技术,通过标准建设和技术牵引,完善解耦液冷产业生态。
面向中远期,推动解耦液冷技术与智慧化运维体系深度融合,拓展全链路热管理和算力-冷却协同能力,实现IT与基础设施侧的全局调优和跨域联动。
2.9.3 算电协同和余热回收
云智算系统的高能耗与高碳排放已成为绿色低碳发展的核心挑战。为破解“高能耗-高排放-低回收”的恶性循环,亟需推动算力、电力、热力的协同优化。
算电协同技术: 通过构建“信息流-能量流”双向合机制,实现算力需求与能源供给的动态匹配,提升绿电利用率,降低用能成本与环境影响。
余热回收技术: 将数据中心产生的低品位废热回收并提升品位,满足建筑工业、农业等领域的用热需求。
面向近期,重点开展算电协同与余热回收的基础研究与试点应用,推动实时算力调度与储能管理技术成熟;攻克高温高性能热泵技术,推动余热回收在本地化场景的高效利用。
面向中远期,推动算电协同与余热回收的网络化与规模化应用,从单一数据中心的绿电消纳扩展至区域算力与能源的网络协同,余热回收深度融入区域供热网络,实现多中心、多能源的动态优化。