总论:AI 大模型对通信行业拉动几何?
ChatGPT 引爆新一轮机器学习革命,AI 大模型持续演进,彰显巨大潜力。年初以来 AI 板块的大事件不断:2023 年 1 月,微软宣布再向 OpenAI 投资 100 亿美元。3 月 14 日 OpenAI 发布了多模态预训练大模型 GPT-4。3 月 16 日,微软推出 Copilot,GPT-4 模 型全面接入 Office 全家桶,同期谷歌宣布 AI 工具整合进 Workspace;百度正式发布了 知识增强大语言模型「文心一言」。3 月 21 日,英伟达在 GTC 大会发布超算云平台 DGX Cloud。3 月 24 日,OpenAI 发布 ChatGPT Plugins,提供第三方插件的开发支持。
OpenAI 迎来 Apple Store 时刻,AI 大模型有望落地为互联网入口级应用。OpenAI 发 布 ChatGPT Plugins,可调用 ChatGPT 开发应用插件。在线出行平台等流量入口型服 务成为首批 OpenAI 插件。ChatGPT 可从爆款 NLP 模型向生产力工具转变,减少新奇 感消失、功能单一带来的负面影响。未来有望打造类似于 Apple Store 的应用生态,塑 造商业落地形式,构建良性循环,ChatGPT 有望迎来“Apple Store”时刻。大模型或将 作为底层工具革新现有的 APP,重新定义消费习惯,有望衍生出新一代的互联网入口。
潜在商业价值巨大,大模型军备竞赛开启。流量入口为互联网厂商的生命线,大模型有 望重塑现有流量入口格局,潜在商业价值巨大。自 ChatGPT 爆火以来,北美云商率先 加大投入,国内厂商迅速跟进。微软宣布扩大与 OpenAI 的合作,追加投资 100 亿美元。 Meta 计划在数据中心上额外投入 40 亿至 50 亿美元用于 AI。阿里巴巴宣布将全力构建 AI 大模型。大模型军备竞赛愈演愈烈,美好的商业应用潜力有望持续拉动大模型的投资。
(相关资料图)
算力爆发带来数据中心 GPU 高速增长:AI 大模型的普及将带动 AI 服务器及数据中心 GPU 的高速增长。据 IDC 数据,2021 全年,全球 AI 服务器市场规模达 156 亿美元, 同比增长达 39.1%,2025 年全球 AI 服务器市场规模将达 317.9 亿美元,五年 CAGR 为 23.2%。截至英伟达 23 年第一个财季,其数据中心业务的占比已经超过游戏业务,成 为第一大业务。
数通链各环节受益逻辑:AI 大模型的爆发最直接的影响是带来数通 GPU 销量的大幅增 长,进而影响:1)服务器网卡的配置;2)单台服务器的量价;3)单台服务器的功率 等等,在数据中心算力侧带来服务器、IDC 和 UPS 电源及温控方案的量价齐升。但我 们判断 AI 大模型训练本质是一种带宽敏感的计算业务,因此更大的增长弹性或来自于 网络侧,两个核心变量是:1)服务器网卡数量的剧增;2)网络架构的变革,带来光模 块:服务器网卡比例的变化。综合对比之下光模块或成为本轮 AI 浪潮的核心受益环节。
光模块&交换机:新一轮流量应用革命开启
第一大变量:服务器网卡数量剧增
AI 模型训练对网络性能要求很高,网络性能和训练效率正相关:我们判断 AI 大模型训 练是继云计算之后新的大流量应用,其本质是一种带宽敏感的计算业务。面对千亿、万 亿参数规模的大模型训练,仅仅是单次计算迭代内梯度同步需要的通信量就达到了百 GB 量级。此外还有各种并行模式、加速框架引入的通信需求,使得传统低速网络的带 宽远远无法支撑 GPU 集群的高效计算。因此要充分发挥 GPU 计算资源的强大算力, 必须构建一个全新的高性能网络底座,用高速网络的大带宽来助推整个集群计算的高效 率。根据腾讯对 T5-MoE 模型的实测性能数据,在 64 GPU 模型下,1.6Tbps 带宽下的单次迭代训练耗时较 100Gbps 带宽降低 64%。从集群算力的角度,相当于用同样的 计算资源,超带宽网络能将系统算力提升 2.8 倍。
AI 服务器网卡配置数量和 GPU 数量成正比:从英伟达官网上的白皮书中可以看到,用 于 AI 模型训练的服务器 DGX A100,其配置的 GPU 和网卡数呈现 1:1 的对应关系, 即最优配置下,一台 DGX A100 配备 8 张 GPU 和 8 张网卡。而此前非 AI 服务器通常 只搭配一张网卡。因此 GPU 的高增长将直接带动服务器网卡数量的剧增。
第二大变量:数据中心网络架构变革
首先我们要清楚,数据中心内部每一层交换机层合计带宽=交换机数量×交换机交换容 量,而交换机交换容量=光模块数量×光模块速率。在服务器网卡带宽不变的情况,影 响交换机层整体带宽大小的两个因素:1)网络层级数;2)网络收敛比。 网络收敛比是衡量一个高性能网络的关键指标:网络收敛比通常指一个系统所有南向 (下行)接口的总带宽比上所有北向(上行)接口总带宽的数值。假设你有 10 台服务 器,每台服务器通过 10GE 的接口连接到一个接入交换机,那我们一共就有 100G(10 ×10G=100G)的南向带宽。假设这台交换机还有 1 个 40GE 的接口可以用于接入到更 高一层的汇聚交换机,那我们一共就有 40G(1×40G=40G)的北向带宽。此时,我们 得到的收敛比则是 2.5:1(100G÷40G=2.5)。收敛比反映了一个网络线速转发流量的 能力,因此通常我们会把收敛比作为衡量一个高性能网络的因素来考虑,最理想的收敛比是 1:1。但这意味着选用更高上行端口带宽的设备,即更多的交换机和光模块 capex 投入。网络收敛通常有两种:1)非线速导致的收敛;2)网络设计导致的收敛。
云计算:数据中心网络架构的第一次技术革命。早期的数据中心和园区级网络由于流量 压力不大,一般都会存在较大的流量收敛,收敛比甚至会达到 10:1,常见的网络架构 为传统三层树型架构。进入到云数据中心时代之后,依据云计算的基础原理,原本物理 的服务器被虚拟化为算力资源,应用在服务器之间做动态迁移,带来算力和网卡带宽的 使用效率提升,东西向数据流量大幅增长,交换机层上下行网络收敛比降低。网络架构 也从传统三层的树型架构变成大二层架构的脊叶架构。
AI 模型训练:数据中心网络架构的第二次技术革命:上文我们提到,把计算任务交给服 务器算,带来海量服务器到服务器的通信,网络收敛比进一步缩小,从云计算数据中心 的 2:1 或 3:1 变成 1:1 收敛。相比之下,做 AI 模型推理对算力和网络的要求更低, 包括 GPU 的规格更低,对应的网卡端口带宽更低,网络架构设计上也有一定的收敛。
1、网络收敛比变化对服务器网卡:光模块比例关系的影响,如下
我们假设:服务器网卡和交换机端口速率一致,那么在二层网络收敛比 3:1 情况下, 服务器网卡:光模块是 3:2 的数量对应关系;而在二层网络收敛比 1:1 情况下,服务 器网卡:光模块是 1:2 的数量对应关系。因此二层网络架构下,当网络收敛比从 3:1 变成 1:1,若要互联同样规模的服务器网卡,对应的光模块数量是原来的 3 倍。那么 在云计算技术普及之后,由于云数据中心架构为有收敛的大二层架构居多,因此服务器 网卡:光模块的比例通常会落在 1:1 到 1:2 的区间范围内。
2、网络层级变化对服务器网卡:光模块比例关系的影响,如下
网络层级数量是影响服务器网卡:光模块的另一大因素。我们假设:1)单台交换机端 口数为 N;2)每一层交换机的上行和下行带宽收敛比都是 1:1;3)服务器网卡和交换 机的端口速率一致。在典型的二层超算中心网络架构下,服务器网卡:AOC/DAC:光 模块:交换机=1N:1N:2N:3;而在典型的三层超算中心网络架构,服务器网卡: AOC/DAC:光模块:交换机=1N:1N:4N:5。若服务器网卡和交换机的端口速率不 一致,则需要做相应的换算,例如 H100 芯片对应的网卡速率是 400G,则一个网卡对 应 4 只 400G 光模块,若采用 800G 光模块则对应数量为 2 只。 需要注意的是,二层无收敛的胖树网络架构互联的网卡数量有限,假设单台交换机端口 数为 40 个,最多互联服务器网卡 40*40/2=800 张,不足以支撑大模型训练的需求,我 们判断未来 AI 模型训练的数据中心将以三层无收敛的胖树网络架构居多。
综上,我们可以得到一个大致结论,在服务器网卡和交换机端口速率一致的情况下,从 云计算的有收敛的大二层叶脊架构,切换至 AI 模型训练的无收敛的三层胖树架构,服 务器网卡:光模块的比例大约从 1:1 到 1:2 对应关系,演进到了 1:4 的对应关系。
光模块展望:23 年呈现前低后高,24 年或全面爆发
我们对光模块 23H2 及 24 年增长展望保持乐观,受北美大厂去库存,23 年呈现前低后 高,基于我们的深度行业测算模型,我们预计 23 年/24 年 100G 及以上数通光模块行业 规模同比增速在 10%/37%。我们认为 800G 不同于 200G/400G 代际的区别在于 800G 是一个大的技术节点,目前头部厂商都在验证,不像 200G/400G 代际有明显的分化。
具体拆分客户需求来看,1)谷歌:23 年 800G 有望首次规模采购,量比较可观,主要 受云网升级拉动;2)英伟达:受 AI 大模型等应用需求拉动,公司 A100 和 H100 芯片 持续放量,公司加大 200G 和 800G 光模块采购,搭配交换机设备销售给云商客户,后 续发展 DGX Cloud 或带来更多直采需求,晋升为新的数通大客户;3)亚马逊:近期亚 马逊 CEO 在 2022 年致股东公开信中提及,要大力投资大型语言模型和生成式 AI,作 为全球 Capex 体量最大的云商,预计投入力度将非常可观;4)Meta:尽管 Meta 23 年 Capex 指引较为保守,伴随其 800G 产品测试完成,Meta 后续有望释放 800G 需求。
数通新平台导入在即,产业升级逻辑清晰
新一代数通 CPU 有望规模出货,搭载 PCIe 5.0 及 DDR5 等新技术规格:此前 Intel 官 网公布,用于数据中心的第四代至强处理器芯片(Sapphire Rapids)于 23 年 1 月发布, 公司已在为量产做准备。Sapphire Rapids 基于 Intel 7nm 制程工艺技术,配置包括 PCIe 5.0、CXL1.1、DDR5 等新技术,有望驱动产业升级及扩容。2022 年 11 月 10 日,AMD 正式发布 Genoa 第四代 EPYC(霄龙)服务器 CPU,也将支持 PCIe 5.0 和 DDR5。
PCIe 迭代本质是服务器内部带宽速率提升:PCIe 是一种高速串行计算机扩展总线标 准,即在计算机系统的不同组件之间以高带宽迁移数据。比如,CPU、GPU 和各种加 速处理器之间数据的迁移,都靠 PCIe 这条“主干道”。AI 和云计算是驱动 PCIe 迭代的 重要应用方向。PCIe 的迭代周期大约是 3-5 年(从 2003 年的 PCIe 1.0 到 2019 年的 PCIe 5.0),而 I/O 带宽则大约 3 年一翻倍。
在数据中心内部,PCIe 规格升级和以太网端口速率升级有较强的正相关性:通常在超 大规模数据中心内部,通过 PCIe 和以太网用于连接分散计算资源网络,其中 PCIe/CXL 用于芯片到芯片或机架内连接,而以太网用于机架外连接。PCIe 网络接口卡 (NIC) 将 PCIe 转换为以太网接口,并允许通过多层网络交换机实现以太网结构。例如 PCIe 3.0*16Lane 满速是 126Gb/s,是服务器内部 CPU 到 GPU 的速率,通过光纤通道端口 输出,之后通过 DAC/AOC 将数据传输至位于服务器机架上方的 TOR 交换机,因此 PCIe 规格的升级会直接影响以太网端口速率。在 HPC 数据中心内,服务器算力层上到 PCIe 4.0 之后,脊叶层交换机端口速率就开始向 200G/400G 演进,因而 PCIe 5.0 或将 是脊叶层端口速率向 800G/1.6T 演进的基础。
我们通过复盘发现,从 2000 年以来脊叶层交换机端口速率迭代同样经历几个阶段,从 初始的 10G 速率发展至当今的 800G 速率。对比可以发现,PCIe 规范制定时点(1.0→ 5.0)和光模块(10G→800G)标准制定时点是比较接近的。
“光摩尔定律”:对成本和功耗效率的追求是驱动模块迭代核心因素。一直以来成本和 功耗是数据中心内部光互联的核心痛点,光模块平均每 4 年左右演进一代,每 bit 成本 下降一半,每 bit 功耗下降一半,这个规律也被称为光电领域的“光摩尔定律”,进入 400G 时代每 bit 成本将逐步降至 1 美金/G,每 bit 功耗大约降至 0.03W/G。我们判断随 着“光摩尔定律”的持续演进,光模块将继续保持较短的升级迭代周期。
交换机:数通需求驱动增长,新一代交换芯片蓄势待发
AI 大模型持续推动超算中心的“东西向”数通需求爆发。交换机是一种进行电信号转发 的网络核心设备,可以为子网络提供更多的连接端口,以便连接更多的服务器、计算机、 移动终端及物联网终端。在超大规模数据中心,交换机被广泛用于构建以太网等多种类 型的网络,从而进行服务器间的数据通信。大模型训练对超算中心的“东西向”数通能 力提出了更高的要求,推动交换机性能提升。同时,大模型训练提升了服务器组网规模, 推动高性能交换机的出货量增长。
交换芯片技术演进为数通网络带宽升级主要推手。商用交换机芯片领域,博通一直以来 占据主导地位,市场份额 70%+。从 2010 年开始,博通的商用交换芯片容量大约 2 年 一番,从 2010 年的 Trident1 到 2022 年推出的 Tomahawk5,交换机 ASIC 交换容量从 640G 提升至 51.2T,而对应的光模块速率也从 10G 逐步提升至 800G。更大容量的交 换机带来交换机端口速率的升级,进而驱动光模块速率升级。 2022 年 8 月 16 日,博通发布了业内首款 51.2T 容量的交换芯片 Tomahawk5,采用 5nm 工艺,可驱动 64 个以 800Gb/秒运行的端口,或 128 个以 400Gb/秒运行的端口。
全球交换机市场体量加速增长,200/400 GbE 交换机占比有望提升。全球交换机市场延 续了 2021 年以来的增长趋势,2022 年同比增长 18.7%。2022 年四个季度的同比增速 分别为 12.7%、14.6%、23.9%和 22.0%。前三季度呈现加速增长态势。据 IDC 数据, 受益于超大规模数据中心和云计算数据中心的建设,2022 年 200/400 GbE 交换机的市 场收入增长超过 300%,高端交换机的占比有望提升。
AI 服务器:量价齐升,国产崛起
大模型参数量快速提升,算力需求大幅增加:大模型最核心的除了算法外主要是参数的 设置,其中参数量(Params)形容模型的大小程度,类似于算法中的空间复杂度,往往参数 量越大(复杂程度越高)的神经网络模型对算力的需求程度更高,复杂的神经网络模型的 算法参数量约千亿级别甚至万亿级别,与已知应用级别的呈现指数级别的差异。这些模 型不仅在参数量上达到了千亿级别,而且数据集规模也高达 TB 级别,想要完成这些大 模型的训练,就至少需要投入超过 1000PetaFlop/s-day 的计算资源。
AI 大模型发展及完善对计算力提出较高要求,当前服务器市场主流的 CPU 服务器算力 在面对万亿级的数据时明显乏力。因此随着 GPT 大模型不断发展,其对算力更强的 AI 服务器需求将会显著提升。AI 服务器与普通服务器的区别主要体现在三方面:硬件架构、 卡的数量、结构设计。 硬件架构:普通服务器主要依靠 CPU 进行计算,其通用性较强,每个核心可执行不同 的机器指令。AI 服务器则普遍采用 CPU+加速卡的异形架构,如 CPU+GPU,CPU+TPU, CPU+其他加速卡等,其中以 CPU+GPU 为主。相较于 CPU,GPU 拥有大量计算核心,但每个核心只能执行相同的机器指令,在面对需要进行大量重复计算的场景时算力性能 显著优于 CPU。 加速卡数量:普通的服务器通常为单卡或双卡的 CPU,而 AI 服务器为了满足更大算力 的需求,在配备 CPU 的同时,通常配备至少 4 块 GPU 加速卡。以英伟达 DGX A100 为例,其配备了 8 个英伟达 A100 的 GPU,可提供 5 Petaflop(每秒进行 5 千万亿次 的数学运算)的 AI 性能。
结构设计:因 AI 服务器种 GPU 的计算单元更加密集,需要针对系统结构、散热、拓扑 等做设计,以满足其稳定性的要求。
大模型算力需求大,AI 服务器量价齐升效应显著
算力资源是发展及应用大模型的基础。2023年4月5日,OpenAI官网宣布暂停ChatGPT Plus 新用户注册,主要系其算力资源无法满足更多用户需求,进一步凸显出大模型训练 及推理对算力的海量需求。据 IDC 的数据显示,2021 年中国服务器市场销售额,同比 增长 12.7%至 1,632 亿元,出货量同比增长 8.4%至 391.1 万台,领涨全球。随着大模 型的发展与应用,其对 AI 服务器的需求量有望快速提升。 AI 服务器价格远高于普通服务器。当前 AI 训练主要采用的 GPU 包括英伟达 V100、 A100、H100、A800 等产品,其中 V100 是上述四种型号中较为早期的产品,性能和价 格均明显低于 A800、A100、H100 等。根据国内渠道商报价,英伟达 V100 单价近 6 万 元,8 颗合计近 50 万元,若采用性能更好的 A800、A100、H100 芯片,则成本更高。
海外制裁有望加速国产 AI 服务器快速崛起
英伟达和 AMD 等海外主流厂商的超算和云端训练产品如英伟达 A100/ H100、AMD MI250/MI250X 等均在禁售范围之内,为国产 AI 芯片厂商带来窗口机遇。此外,超算芯 片制造的代工产能亦在管控范围之内,中国符合超算应用参数的 AI 芯片在海外代工亦 受到较大影响。考虑到国内 14nm 以下光刻产能有限,不同厂商对先进制程产能的抢占 能力存在差异,我们认为本轮 AI 服务器芯片国产化重点或在华为产业链方向。
华为在计算产业主要围绕两大系列产品布局:鲲鹏-通用计算,昇腾-AI 计算。从商业策 略角度,华为不直接对外销售处理器,以云服务面向客户,以部件为主面向合作伙伴, 优先支持合作伙伴发展整机。在面向合作伙伴的部件中,加速卡是核心。华为 AI 加速 卡主要分为训练卡 Atlas 300T(型号:9000)和推理卡 Atlas 300(型号: I 3000、3010), 训练卡的 AI 芯片使用昇腾 910,推理卡 AI 芯片使用昇腾 310,其中昇腾 910 在性能上 与英伟达 A100 较为接近。鲲鹏系列主要面向通用服务器市场,主板主要搭载鲲鹏 916 和鲲鹏 920 两类 CPU,不配备加速卡。
华为在计算领域合作伙伴众多,包括长江计算、宝德、同方、神州数码、华鲲振宇、黄 河等厂商。以长江计算为例,通用服务器 R240K V2、R220K V2、R221K V2、R420K V2 均采用华为鲲鹏 920 作为 CPU 核心,而智能服务器 G420X V5、G220X V5、G440K V2、G220K V2 在加速卡和 ASIC 芯片方面则选择了 Atlas(华为旗下加速卡,采用昇 腾芯片)和昇腾系列。
IDC 及配套设备:算力底座,新方案加速渗透
AI 大模型或将直接推动传统数据中心向智算中心加速转型。从国内数据中心的各个发 展阶段,可以看到早期从移动互联网的爆发到 5G 时代物联网、车联网、工业互联网等 新型应用的发展及云计算驱动,再到以字节、快手、美团、拼多多为主的内容服务提供 商的强势崛起,而今 ChatGPT 为代表的 AI 大模型应用持续升温,极大提升数字内容的 生产力和效率,生成算法、预训练模型、多模态技术作为驱动 AI 大模型发展的关键,在 拉动各家互联网厂商加大算力投入的同时,对所需要的算力网络支持以及基础设施支持 提出更高的要求,其产生的巨大算力市场将推动传统数据中心向智算中心加速转型。
第三方 IDC 有望转型为算力平台综合服务提供商。早期数据中心通过为客户提供存放 服务器的空间场所,以获取空间租赁费和增值服务费。从目前公开披露的各家规划来看, 光环新网和科华数据分别披露其与 GPU 芯片公司的战略合作,通过打造更加完善的算 力基础设施,包含更高算力 GPU 芯片以及 GPU 生态完整的软件栈、更加智能、节能的 数据中心解决方案以及更完善的网络等多元基础设施。IDC 厂商的商业模式或发生转变, 从单一的收取租金的服务器托管运营商转型为更高价值的算力平台服务提供商。
云计算数据中心向智算中心转型带动平均功率提升,数据中心配套有望迎来量价齐升。 随着 AI、ChatGPT 等大模型场景的发展,未来我国超算/智算中心的占比有望进一步提 升。智算中心服务于人工智能,提升了单位时间单位能耗下的运算能力及质量,因此相 较于传统的云计算数据中心,智算中心平均功率等级将提升 1 倍左右。在数据中心网络 架构升级及功率等级变大的背景下,为提高效率数据中心配套产品将有望迎来量价齐升。
温控:液冷加速渗透,温控厂商有望获更多价值量
AI 服务器功耗大幅提升,带动 IDC 单机柜功率密度提升。单台通用服务器通常仅配置 1-2 颗 CPU,而根据英伟达提供的数据,DGX A100 AI 服务器配置了 8 颗 A100 GPU 和 2 颗 AMD Rome CPU。主要受新增多颗高功耗 GPU 配置影响,DGX A100 服务器 的系统功耗最大可达 6.5kw,较通用服务器大幅提升。根据 CDCC 数据,2022 年我国 存量 IDC 机柜平均功率仍集中在 8kw 以下。若仍采用当前主流的 8kw 以下机柜,则单 机柜仅能放置一台 A100 服务器,机房使用效率将大幅降低。因此,伴随高功耗 AI 服务 器的上架,20kw 以上的高功率机柜或也将同步增长。
高功率密度 IDC 机柜的投入将加速液冷渗透。当前,由于存量 IDC 机柜多为低功率机 柜,风冷为主流的散热方案。但伴随高功率 IDC 机柜的增加,为满足 PUE 的要求,需 要更为高效的散热模式。因此,拥有更优散热性能的液冷方案渗透有望加速,当单机柜 功率密度达 30kw 以上时,液冷或将成为唯一可选的的散热方式。由于液冷方案与风冷 方案大相径庭,液冷渗透也需要产业链的配合,目前对机房和服务器架构改动最小、产 业链最为成熟的冷板式液冷方案应用较浸没式更为广泛。
液冷方案中,温控厂商可参与环节增加,液冷全链条布局的温控厂商或显著受益。在风 冷方案中,以应用较为普遍的冷冻水系统为例,主要包含精密空调、冷水机组、冷却塔 等环节,而温控厂商一般仅提供数据中心内部的末端精密空调部分。而冷板式液冷方案 包括冷却液、液冷板(服务器内部)、液冷主机 CDU、管路、冷却塔(室外)等多个环 节,温控厂商可参与环节较风冷方案显著更多。从价值量的角度看,从服务器内部热源 到室外冷源全链条布局的温控厂商,有望获得更多价值量,受益弹性显著提升。
UPS 是数据中心建设的重要环节,高功率 UPS将成为升级趋势。 UPS 的主要构成是蓄电池、整流器、逆变器,主要工作原理是当市电(工频交流电)供 电正常时,用市电提供电力供给,同时给电池充电。当市电故障时,电池作为电源,通过逆变器将直流电变为交流电,保障电力供给。根据数据港招股说明书显示,UPS 在数 据中心的建设成本中占比在 18%左右。在数据中心功率提升的背景下,UPS 的超大功 率化趋势依旧延续。
运营商:算力网络主导者,对内提效对外赋能
Chatgpt 的爆发为运营商带来了全新发展机遇,运营商在 AI 领域扮演着多重角色。对 外:(1)运营商基于构建的算力网络,能够帮助大模型进行跨地域训练,完成算力资源 适配,同时能为生成式 AI 创业者提供算力,构成全新服务机会;(2)运营商手握大量 数据,具备数据方面的优势,可提供数据服务;(3)运营商不断锻造自身 AI 能力,赋 能千行百业,实现能力变现。对内:运营商能够运用 AI 能力提升服务能力与产业效率。
算力网络主导者,构筑“卖算力”新业态
算力是大模型训练的重要支撑,算力网络是我国实现高效算力资源调度的核心,是大模 型“东数西训”的关键。与美国提高算力的方式不同,我国从国情和体制角度出发,主 要通过对算力进行集中化管理,来提高先进算力的利用效率,即建成一张算力网络,将 所有网络资源、计算资源、存储资源都汇集到一个庞大算力池中,通过算力网络进行统 一调度,使算力成为与水、电一样“一点接入、即取即用”的社会级服务。对我国而言, 算力网络的重大意义在于,算力网络能够绕开高端芯片的限制,以网络的方式来组织算 力,按需调用,满足社会对于算力日益增长的需求。
从算力网络属性及参与者的能力来看,运营商或将成为算力网络的主导者。全社会的算 力除了公有云的服务之外,有 88%的算力是分散的,因此网络成为算力调动的核心,而 电信运营商正是网络连接的关键角色。当未来企业实现系统化上云后,算力将成为像水 电一样的的基础资源,算力网络将成为社会性基础设施。基于这一性质考虑,参考我国 水电资源控制主体,未来算网运营大概率会由国家可控的主体负责。从国家可控主体进 行筛选,这一主体需要具备基础设施运营能力、丰富的底层资源池、充足的资金投入等, 故目前整体来看,运营商是综合实力最强的国家可控主体。 运营商资本开支向算网倾斜,不断加大相关基础设施的建设投入。从运营商 Capex 结 构来看,近年来在基础通信网络的支出占比呈下降趋势,而与产业数字化相关的投入则 持续加大,其中算力网络正是重点投入方向。2023 年,中国移动指引资本开支 1832 亿 元,其中算力方面投入 452 亿元,占比近 25%;中国电信指引资本开支 990 亿元,其 中 IDC 投资 95 亿元,算力(云资源)投资 195 亿元,合计占比达 29%;中国联通预计 投入资本开支 769 亿元,其中算网投资预计达 149 亿元,占比约为 19%。
在投资的不断倾斜下,运营商算力规模快速提升。从 IDC 机架数看,三大运营商机架规 模显著高于第三方 IDC 服务商,包揽行业前三。根据 2023 年规划,中国电信、中国移 动、中国联通拟新增 4.7 万架、4 万架、2.7 万架 IDC 机架,合计新增 11.4 万架,算网 根基不断强大。从算力规模看,2022 年中国移动、中国电信算力规模达 8 EFLOPS、 3.8 EFLOPS,同比提升 54%、81%,算力规模快速提升。
数据优势突出,可提供数据服务变现
数据是 AI 训练与迭代的核心资源,运营商数据优势显著。运营商基于日常业务开展手 握大量数据,包含 B 域的用户数据(不包含个人隐私信息)和业务数据、O 域的网络数 据和 M 域的位置信息,能够为模型训练提供数据服务。目前,中国电信有 1.8 万个节 点,每天可采集超 1 PB 数据用于算法训练;中国移动搭建数据中台,通过脱敏、清洗 每天可以沉淀 5 PB 数据。2022 年,中国移动大数据业务实现营收 32 亿元,同比增长 96%;中国联通大数据业务实现营收 40 亿元,同比增长 58%,均实现高速增长。在 AI 时代浪潮下,叠加数据要素市场建设不断完善,运营商凭借数据优势或将大有可为。
锻造自身 AI 能力,实现能力变现
运营商不断锻造 AI 能力,赋能千行百业,实现 AI 能力变现。目前,中国电信推出了大 模型平台计算引擎“星河平台”,已部署遍布全国、支持统一调度的上万张 GPU 卡资源, 同时发布了业界首个十亿级参数城市治理大模型;中国移动明确表示已具备 NLP、深度 学习、机器视觉等各方面能力,2022 年已完成 30 多亿元的变现;中国联通在 AI 方面 拥有 90+专利,自研 60+核心算法,其中 10 项算法性能达到行业前三,并启动了参数 量达 15 亿的图文双模态自研大模型训练。
对内使能,提升服务能力与产业效率
运营商已在运维、客服等方面广泛应用 AI,实现对内使能。目前,运营商已在日常业务 场景中实现了 AI 应用,有效提升了业务效率。如面对 5G 网络复杂的运维管理需求,主 流运营商都已使用 AI 技术来实现网络的智能分析、实时预测和自动化运维;在智能客 服与智能外呼平台中,NLP 与多轮对话技术已成为提升运营商服务触达效率的关键。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
关键词: