一、大语言模型通常计算量和模型数量同步增长,大幅提升全球算力需求
1、AI 模型分为训练和推理两个过程,GPT 模型进步的一个显著特征是参数量大幅提升
AI 模型主要分为训练和推理过程,训练奠定模型的性能根基,推理是将已有模型应用到具体场景对相应需求做出反 馈的过程。根据英伟达官网给出的示意图,AI 大模型需要利用构建好的算法,在大量的数据库上进行训练,借助大量 的算力生成一个对于特定性能指标具有优异表现的模型结果。模型训练好之后在应用端通常称为推理过程,终端用户 通过多种方式(包括文字、语音、图片、视频等多模态形式)针对模型提出需求,模型根据自己的理解给出反馈,在 推理过程中实现的结果,还可以反过来针对模型进行进一步辅助训练。
AI 大模型发展过程中,通常伴随着模型参数量增大、训练数据增多的趋势,对于芯片的算力需求持续增长。根据《AI 算力集群方案设计与优化》总结的过去 4 年全球主要 NLP(自然语言处理)模型,模型的参数量从 ELMo 的 9400 万 增长至 Megatron-Turing NLG 的 5300 亿,增长了近 5600 倍。以 GPT-1 到 GPT-3 的发展过程为例,2018 年 6 月 GPT-1 发布,GPT-1 预训练过程是无监督的,采用了 BooksCorpus 数据集,微调过程是有监督的,主要针对语言模 型,整个模型参数量达到 1.17 亿,其中预训练数据量达到 5GB。GPT-2 于 2019 年 2 月发布,预训练过程同样是无 监督的,采用多任务学习的方式,参数量提升至 15 亿,预训练数据量提升至 40GB。GPT-3 于 2020 年 5 月发布, 通过更为海量的参数来进行训练和学习,参数量进一步提升至 1750 亿,预训练数据量提升数个数量级至 45TB。AI 模型的发展在目前阶段来看,更好的性能获取通常意味着更多的参数量和更大的数据集,AI 模型的迅猛发展与芯片层 面的算力进步密不可分,以 GPU 为代表的加速芯片快速迭代发展为大模型更替奠定了良好的硬件基础。
(相关资料图)
2、全球互联网等大厂和各个国家及地区均有望推出自研大模型巩固核心竞争力
未来全球各大互联网厂商出于核心竞争力考虑,或各个国家和地区出于数据安全等因素考虑,预计全球的大语言模型 数量未来将会持续增长。根据我们对各大公司官网和互联网信息的搜集,目前全球主要的互联网厂商和科研机构均对 AI 大语言模型展开了深度研究。OpenAI 在 GPT-3 之后,目前预计将会在适当节点推出 GPT-4,预计 GPT-4 的参数 量将会比已有的 GPT-3 更大。阿里达摩院的通义 M6 模型参数量预计将达到 10000B 级别,谷歌的 GLaM 模型参数 量有望超过 1000B。国内百度在 2023 年 3 月推出了自研的 AI 大语言模型“文心一言”,给国内互联网用户带来了 体验 ChatGPT 技术的机会。全球的主要互联网和科研机构以及各行业领军公司均有望逐步展开 AI 大语言模型研究, 考虑到大语言模型属于公司未来可能潜在的核心竞争力,预计未来各大公司均有意愿去构建自己专属的大语言模型。 近期意大利等国际陆续有消息指出可能会适当监管 ChatGPT 在本国的应用,我们认为全球各个国家出于自身数据安 全等角度考虑,未来亦有望推出各个国家或地区专属的大语言模型,未来大语言模型的数量有望持续增长。
3、模型参数量和数量两方面增长带来更多算力需求,远期推理算力需求望超训练需求
通过以上对于 AI 大模型发展过程和全球各个公司对于大模型的布局,可以认为未来 AI 算力需求增长主要来自两个方 面:1)模型发展过程中本身参数量变大,计算量增多;2)各个国家和地区以及各个公司开发的模型数量不断增多。 以下利用英伟达 A100 芯片和 A30 芯片为例进行大模型对于算力芯片数量的需求测算,考虑到未来大模型的发展以及 终端应用的潜在爆发可能性,此处的测算更多是为读者提供未来算力芯片需求测算的原理分析,对于未来大模型对于 算力芯片的具体需求我们认为可能实际发展会远超本处的保守计算。 对于训练和推理阶段的算力需求和 GPU 用量,模型数量、参数量、训练集大小、应用场景、使用人数等因素增多均 会带来 GPU 用量的增长,单颗 GPU 算力提升和模型优化程度提升均能够一定程度上减少总体 GPU 用量。
对于大模型的训练阶段,影响因素主要是模型参数量、训练数据量和芯片算力,预计 GPT-3 模型训练一次需要几万 颗量级的算力芯片。根据 GPT-3 对应的论文《Language Models are Few-Shot Learners》,文中讲到对于 GPT-3 175B 模型,参数量为 1746 亿,以训练 3000 亿 tokens(指自然语言处理中的字符序列)为基准进行计算,总训练计算量 有望达到 3.14*10^23 Flops(floating point operations,浮点运算数)。以目前主流的训练芯片英伟达 A100 为例进 行测算,考虑到通常进行训练采用 FP16 精度即可,对应 312 TFLOPS 算力,以算力利用率为 100%进行计算,预计 单日 GPU 的消耗量为 11667 张。若考虑到通常的算力利用率可能仅为 30%左右,预计实际单个 GPT-3 模型要在单 日内完成训练所需的 GPU 张数有望达到 3 万张以上。
对于大模型的推理阶段,预计实际应用需求量变化弹性较大,推理端预计远期算力芯片消耗数量数倍于训练阶段,主 要系应用需求弹性较大、推理端单芯片算力通常较训练端较小等因素影响所致。根据英伟达官网信息,英伟达 A30 Tensor Core GPU 适用于主流企业服务器的多用途计算加速技术,FP16 Tensor Core 算力达到 165 TFLOPS,预计 未来某一大语言模型单日访问人数达 1 亿人,单人访问或者提问的次数为 10 次,因此每日访问量可达 10 亿人次, 根据 token 的定义和通常测算,预计 1000 token 通常对应 750 个左右的单词,单 token Flops 量为 2,以 GPT-3 模 型的 1746 亿参数量进行计算,预计总计算量为 3.49*10^23,结合英伟达 A30 芯片的算力(考虑到通常 A100 等最先 进的 GPU 主要用于训练,A100 虽然可以用于推理但不具备经济适用性,英伟达等厂商均推出专门用于推理场景的 芯片。),预计单日 GPU 芯片需求量为 24495 片,同时考虑到算力利用率以及实际情境下网站访问次数可能远超我 们预测值,实际上的推理芯片有望大幅增长。
综合考虑训练和推理阶段算力需求,我们认为未来 5 年 AI 服务器需求量有望呈现数倍增长,预计 2027 年 AI 服务器 GPU 市场规模超 1000 亿元,对应的 AI 服务器市场规模超 2000 亿元。根据我们的测算,我们认为训练阶段影响 GPU 和服务器需求量的核心参数是模型数量、单模型参数量、训练数据集大小和训练加速卡的算力,此处我们认为模型数 量、参数量、训练数据集大小都会逐步增长,为了计算简便,此处对于 GPU 算力采用 A100 算力的恒定值,预计 2027 年的单日训练服务器需求量将达到超过 14 万台,10 倍于 2023 年的水平,考虑到未来 GPU 算力实际情况下亦将逐 步提升,实际 GPU 和服务器需求会略低于我们此处的测算。对于推理阶段,此处以浏览器网页的浏览作为实例,核 心参数包括使用 ChatGPT 等大模型的人数、单人访问次数、大模型参数量、推理加速卡的算力,我们认为未来 AI 大模型或将不仅仅局限在网站浏览器里,以微软 Office 办公软件为例可知未来有更多应用望直接接入大模型,预计 2027 年推理端服务器需求量超过 14 万台,相较于 2023 年有数十倍的增长,我们认为推理端算力需求弹性较大,实 际需求有望高于我们此处的测算。综合训练和推理阶段的算力需求后,我们认为可以乐观估计未来 5 年全球 GPU 和 服务器需求将数倍成长。
AI 发展的早期阶段以训练能力为核心,在进入应用期后将逐步以推理为核心,未来对推理芯片的需求或将远超对训 练芯片的需求。根据 IDC 预测,2022 年中国人工智能服务器工作负载中,用于推理和训练的占比分别为 58.5%和 42.4%,未来企业将更多地使用人工智能服务器处理推理工作负载。伴随企业人工智能应用成熟度逐步递增,企业将 把精力更多从人工智能训练转移到人工智能推理工作负载上。人工智能发展的早期阶段是对人工智能价值的自我发现 的过程,核心是寻找人工智能的典型应用场景并通过训练使得人工智能系统获得达到甚至超过人类的能力,在这一阶 段更多的计算负载集中在离线的数据中心中的训练场景;经过三到五年的发展,人工智能将进入大规模应用阶段,应 用阶段是将经过训练的应用场景与客户的实际应用相结合,将人工智能的能力赋能产品或行业解决方案,使得人工智 能成为普惠的应用技术,在这一阶段计算负载将更多以推理的方式存在,呈现“云+端”部署、分散化、终端化、场 景化的特点,对算力的需求也将迅速增长,更加多元化。
二、数据中心建设是智能时代核心竞争力的基础保障,AI 服务器作为其核心 设施未来占比望逐步增长
1、数据中心等产生更多服务器需求,AI 服务器出货量占比 1%增速超服务器行业整体
未来全球数据中心的建设将是数字经济时代的硬件基地,数据中心的购置花费中服务器占比最大,达到 70%,预计 未来服务器市场长期成长空间十分可观。根据英伟达官网给出的数据,通常一个数据中心的购置预算花费由服务器、 存储、软件和服务构成,其占比分别为 70%、20%、10%,服务器在购置预算中的占比最大,凸显数据中心中服务 器的核心地位。
随着计算能力需求的逐步提升和应用场景的不断增多,当下服务器可以按照外形和应用场景进行分类。此处我们参考 浪潮信息对于其服务器产品的分类,进行详细讲述: 按外形:可以分为机架和塔式、刀片和多节点、整机柜服务器等类型。伴随着数据中心的大型化和专业化变革,以数 据为核心的创新应用的不断涌现,在服务器设计过程中,需要考虑应用场景和部署环境的具象要求,对服务器产品的 形态、密度、能效、性能等以更为细致的维度进行仔细考量。以浪潮 M5 新一代服务器为例,可以分为机架和塔式服 务器、刀片和多节点服务器、整机柜服务器,可以根据不同场景和空间、算力等多方面需求进行合理部署。 按应用场景:可分为数据中心、存储、AI 加速计算等类型。智慧时代下的业务场景与传统信息化应用相比,对计算 能力的需求有显著不同。传统的信息化应用主要以基于数据库事务的业务为主,像 OA、ERP、邮件等,计算量随着 业务量的增长呈线性增长,但是以云计算、大数据和深度学习为支撑的智慧计算则突破了认知、学习和预测的边界, 对计算能力的要求呈指数级增长。浪潮信息将服务器分为大规模云数据中心、海量数据存储、AI 计算加速、企业关键 应用和开放计算,可以分别满足数据中心等多种应用场景和不同企业客户的需求。
全球服务器年度出货量约超 1300 万台,其中 AI 服务器 2022 年占比 1%,未来 AI 服务器出货增速高于服务器整体。 根据 MIC,预计 2022 年全球服务器出货量达 1362 万台。根据 TrendForce 信息,截至 2022 年,预估搭载 GPGPU (General Purpose GPU)的 AI 服务器年出货量占整体服务器比重近 1%,而 2023 年预估在 ChatGPT 相关应用加 持下,可望再度刺激 AI 相关领域的应用,预估 2023 年出货量年同比+8%,2022~2026 年复合成长率将达 10.8%, 结合我们上一章对于未来 AI 服务器需求的测算,我们预计行业实际增速有望高于 TrendForce 的预测值。
全球服务器市场中白牌厂商和主要品牌商份额占比较高,AI 服务器领域国内的浪潮信息占比较大。根据 IDC 数据, 22Q4 全球服务器市场份额构成中,ODM 厂商占比超过 28.2%,品牌厂商中占比超过 5%的有戴尔、惠普、联想、浪 潮和 SuperMicro,国内服务器品牌商在全球市场和国际厂商占比差距相对较小。在 AI 服务器市场,21H1 全球 AI 服 务器市场中,浪潮信息以 20%的占比拔得头筹,戴尔和惠普分别以 14%和 10%的占比紧随其后,当前国内 AI 服务器 的能力在全球市场处于前列位置。
单计算节点来看使用 GPU 的成本高于纯 CPU 方案,但是对于数据中心整体来看,使用 GPU 方案实际有望将购置成 本降低 40%,因此未来数据中心有望采用更多搭载 GPU 的服务器。根据英伟达的官方测算,对于纯 CPU 节点和使 用 GPU 加速卡的节点,以英伟达 V100 为例,对于单服务器节点,假设 NIC、存储、网络连接都费用一样,纯 CPU 服务器只需要采用 2 颗单价 2000 美金的 CPU 即可,相比之下,搭载 4 颗单价 8500 美金的 GPU 方案单节点成本会 高出不少,相对于纯 CPU 方案的 9000 美金提升至 44000 美金。但是如果从数据中心整体购置成本来看,假设纯 CPU 方案有 1000 个节点,服务器成本会达到 900 万美金,如果采用 GPU 加速的方案,那么只需要 300 个 CPU 和 35 个 Tesla V100 GPU 即可,同时服务器成本能够降至 420 万美金。从总体购置成本上来看,纯 CPU 方案需要 1350 万 美金而采用 GPU 混合的方案只需要 810 万美金,相比于纯 CPU 方案成本降低将近 40%。
2、服务器演进从以 CPU 为主逐步到以 GPU 为核心,大芯片+存储将占据主要价值量
以机架和刀片服务器为例,从总体架构来看,通常前后端用于接口和硬盘插拔,内部通常可以分为 4 个区域。以浪潮 信息 K1 Power E950 服务器为例,在浪潮商用机器上称之为价值百万的机器,E950 最大支持 4 颗 scale-up POWER9 处理器。服务器的前面板通常包括风扇、硬盘和操作面板等,风扇主要是为服务器整体提供散热,硬盘可以通过前面 板进行热插拔,前面板还包括显示屏、指示灯、开机键等基础使用支持。后面板以 IO 模组、FSP 卡和 PSU 等为主, IO 模组每个插槽采用模块化设计,支持 PCIe Gen4 规格和在线热插拔,FSP 卡进行系统管理和监控管理,PSU 电 源支持模块为整系统供电。通常服务器内部可以分为 4 个区域:磁盘存储区、系统散热区、处理器+内存区、GPU+IO 扩展区。磁盘存储区主要是用于存放硬盘,系统散热区是风扇所在区域,通常 CPU 和内存条所在距离相对较近,对 于部分搭载加速卡的机型,还会包括 GPU 的区域。
通用服务器通常以 CPU 作为核心,通过 CPU 搭配多个内存条和存储硬盘的形式来完成大规模数据计算或存储,核 心价值量最大的部分在于 CPU 和存储用量。根据华为官网信息,华为 Taishan 200 Pro 服务器是高性能型的 2U4 路 机架服务器(通用服务器的路数指的是可搭载的 CPU 个数),该服务器面向互联网、分布式存储、云计算、大数据、 企业服务等领域,Taishan 200 Pro 的核心为四路华为鲲鹏 920 处理器,每个处理器支持 8 个 DDR4 DIMM(可支持 最多提供 4TB 内存容量),4 个 CPU 间通过 Hydra 接口实现 Fullmesh 链接。
AI 服务器相较于通用服务器最大的差异在于加入了高算力加速卡(GPU 等),可满足 AI 训练和推理等多种高算力 领域需求。以浪潮 NF5468A5 GPU 服务器为例,NF5468A5 是浪潮推出的一款面向 AI 训练和 AI 推理、视频编解码 等多种应用场景的全能型 GPU 服务器,在 4U 空间内搭载 2 颗 AMD EPYC 处理器,支持多达 8 张双宽加速卡。浪 潮官网显示,这款产品已经支持 NVIDIA、AMD、Intel、寒武纪、燧原等多家业界主流 AI 加速卡。NF5468A5 的内部 结构从前面板到后面板依次是磁盘存储区、系统散热区、CPU+内存区、GPU 区。相较于通用服务器内部结构,AI 服务器中的 GPU 显卡占据了主要角色,整机的运算主要依靠 GPU 加速卡来完成,CPU 主要进行逻辑控制等功能。
AI 服务器价值量的构成核心在于昂贵的 GPU 加速卡、CPU 和存储配置,同时对于 PCB、电源管理、信号传输等多 方面均有更高需求,亦带来大幅的价值量提升。根据浪潮服务器和浪潮信息官网信息,对于 NF5468A5 GPU 服务器, 可以搭载至多 2 颗 CPU 和 8 颗 GPU 加速卡,以京东报价来看,AMD 7543 CPU 单价约 2.5 万元,英伟达 A100 40GB GPU 单价约 6 万元,根据 ZOL 中关村在线报价,32GB DDR4 RDIMM 售价约为 2000 元以上,同时结合三星官网信 息,1.92TB NVMe 硬盘售价预计超过 3000 元,考虑到通常会配备 2 颗 CPU 以及数颗 GPU,因此在 CPU 和 GPU 层面就会占据极大价值量。根据爱采购官网信息,1 台配置 2 颗英伟达 40GB A100 GPU 和 2 颗 AMD 7502 CPU(单 价约 2 万元)的服务器售价约为 30 万元,其中 GPU 和 CPU 的合计价值量约占据 53%(2*6 万元+2*2 万元=16 万元), 若考虑内存和硬盘价值量占比较大,以及实际情况下可能单机会尽量满配 GPU 数量,预计高性能 AI 服务器 GPU+CPU+存储三大件占比有望超过 80%。
当前 AI 加速计算卡除了 GPU 之外还有部分 FPGA 产品,FPGA 具备低延迟、易烧录等优点,FPGA 通常用于推理 阶段,关注未来 FPGA 在大模型领域潜在的渗透率提升空间。目前,我们在 AI 计算平台使用最广泛的两种加速部件 是 GPU 和 FPGA。GPU 可适用于具备计算密集、高并行、SIMD(Single Instruction Multiple Data,单指令多数据 流)应用等特点的深度学习训练模型领域,并且 GPU 创建了包含 CNN、DNN、RNN、LSTM 以及强化学习网络等 算法在内的应用加速平台和生态系统。GPU 在深度学习算法模型训练上非常高效,但在推理时对于小批量数据,并 行计算的优势不能发挥出来。而 FPGA 同时拥有流水线并行和数据并行,因此处理任务时候延迟更低,同时 FPGA 是可编程芯片,算法烧录更加灵活,根据浪潮 AIHPC 公众号预测,未来至少 95%的机器学习计算都是用于推断,只 有不到 5%是用于模型训练,而 FPGA 正是强在推断,大幅提升推断效率的同时,还能最小限度损失精确性,这正是 FPGA 的强项。
三、AI 研究与发展和软硬件生态息息相关,英伟达多层次全面布局为国内公司提供宝贵经验
1、英伟达利用 GPU 壮大发展,逐步布局 CPU、服务器和各种云服务等软硬件支持
(1)GPU:实现高性能计算等多应用领域布局,全球当之无愧的 GPU 龙头企业
公司针对服务器与高效运算、个人与游戏玩家、专业工作站推出 Tesla、GeForce、RTX(Quadro)三大产品线。 定位于服务器与高效运算的 Tesla 产品线定价高,在显存大小与性能、双精度浮点计算能力与 GPU 间通信能力方面 显著优于其他产品系列。例如,根据英伟达官网与 Techpowerup 网站, 定位于个人与游戏玩家的最新一代产品 GeForce RTX 4090 显卡售价 13000-16000 元,使用 24GB GDDR6X 显存,带宽 1008GB/s,在 FP64 上提供 1290GFLOPS 的算力;定位于服务器与高效运算的产品 H100 PCIe 显卡售价约 33000 美元,使用 80GB 显存,带 宽 2TB/s,在在 FP64 上提供 26TFLOPS 的算力,并且可使用 NVLink 实现 600GB/s 的 GPU 间互连。截至 2023 年 3 月,三大产品线最新一代产品架构均为 Ada Lovelace,采用 TSMC 4nm 制程。
公司分别于 2016 年/2018 年/2021 年/2022 年推出针对 AI 与高性能计算的大芯片 P100/V100/A100/H100。根据英伟 官网,从 P100 到 H100 芯片显存大小由 16GB 逐步提升至 80GB,显存带宽由 732GB/s 提升至 2TB/s,FP64、FP32 与 FP16 计算能力均获得显著提升。2022 年 11 月公司针对中国市场推出 A800 芯片,主要性能参数均与 A100 芯片 保持一致,但 A800 芯片 GPU 之间的传输速度减少至 400GB/s(A100 芯片使用 NVLink 时 GPU 之间传输速度为 600GB/s)。最新一代大模型芯片 H100 利用 Transformer 引擎改进第四代 Tensor Core,在大型语言模型 AI 训练方 面比上一代芯片 A100 快 9 倍;使用 InfiniBand 互连后,H100 比 A100 在 AI 推理方面快 30 倍。
(2)CPU:推出 Grace CPU 用于构建 Grace CPU Superchip 和 Grace Hopper Superchip
两颗 Grace CPU 使用 NVLink-C2C 互联构成一颗 Grace CPU 超级芯片。根据英伟达官网,单颗 Grace CPU 具有 72 个 Arm Neoverse V2 核,Neoverse V2 核采取 Arm v9.0-A 架构,支持 LPDDR5X ECC 内存,LPDDR5X 提供的 带宽比传统 DDR5 增加 50%,每 GB 的功耗仅为八分之一。互连后的 Grace CPU 超级芯片具有 144 个 Arm Neoverse V2 核,配备 960GB 服务器级别的 LPDDR5X 内存,可在 500W 功率范围内实现 1TB/s 的存储带宽。在计算流体动力学、建立气候模型、进行天气预测、DNA 测序的案例中 Grace CPU 可以实现比 AMD 2P Milan 7763 CPU 更快、 更节能的表现。
一颗 H100 GPU 与一颗 Grace CPU 使用 NVLink 互联构成一颗 Grace Hopper 超级芯片。根据英伟达官网,Grace Hopper 是第一个个真正的异构加速平台,利用 GPU 与 CPU 的优势加速应用程序,面向高性能计算与 AI 工作负载。 Grace Hopper 利用超高速 NVLink-C2C 技术提供 900 GB/s 的总带宽,比 PCIe Gen5 快 7 倍,使得 GPU 可以高效 访问大量内存。在 Grace-Hopper 超级芯片上可以运行所有英伟达软件栈与平台,包括 NVIDIA HPC SDK,NVIDIA AI 和 NVIDIA Omniverse。
(3)DGX AI 超级计算机:基于 GPU、DPU 与 NVLink 互连技术构建强大 AI 平台
公司提供 BlueField DPU,通过对高级网络、存储和安全服务等进行卸载、加速和隔离释放 CPU 资源。根据浪潮服 务器,DPU 是一种新型计算加速单元,能够将多核 Arm CPU、存储和安全加速器等集合在一起。启用 BlueField DPU 的硬件加速服务器可以将数据中心服务从 CPU 卸载到 DPU,释放 CPU 资源以运行应用程序,提供安全、可靠、强 大的网络加速体验。根据英伟达官网,BlueField-3 是首款为 AI 和加速计算而设计的 DPU,提供数据中心级的软件定 义和硬件加速的网络、存储、安全和管理等服务,一个 BlueField-3 DPU 可以提供多达 300 个 CPU 核才能实现的数 据中心服务,可以释放宝贵的 CPU 资源来运行关键业务应用。
NVLInk 与 NVSwitch 可以实现芯片快速互连,为构建多 GPU 系统提供基础。根据英伟达官网,NVLink 是一种 GPU 之间的直接互连技术,可以扩展服务器内多 GPU 的输入与输出,单个 H100 GPU 支持 18 个 NVLInk 连接,总带宽 为 900GB/s,是 PCIe 5.0 带宽的 7 倍。DXG H100 服务器可以利用 NVLInk 来提高可扩展性。NVSwitch 是一种交换 机芯片,可以连接多个 NVLink,在单节点内和节点之间实现高速多对多 GPU 通信。第三代 NVSwitch 使用 TSMC 4nm 工艺制造,每个 NVSwitch 都有 64 个 NVLink 端口,并配备 NVIDIA SHARP 引擎,可以为计算密集型工作负载提供 更高带宽和更低延迟。
公司推出搭载 8 块 H100 GPU 与 2 块 BlueField-3 DPU 的 DGX H100 系统,可用于构建 DGX 超级 AI 计算机。根 据英伟达官网,DGX H100 系统配备 8 块 H100 GPU,总 GPU 显存高达 640GB;使用第四代 NVLink 与 NVSwitches 实现芯片互连,能够在每个 DGX H100 系统中的各个 GPU 之间实现 900GB/s 的连接速度;采用双路 x86 CPU 系统, 适用于密集型 AI 作业;包含 2 块 BlueField-3 DPU,用于卸载、加速和隔离高级网络、存储及安全服务;配备 8 个 ConnectX-7 InfiniBand 网卡,具有 400GB/s 的吞吐量。多个 DGX H100 系统堆叠使用可以构成 DGX 超级 AI 计算机, 以满足AI训练与推理的大算力需求。通过在服务器外部添加第二层NVSwitch,NVLink网络可以连接多达256个GPU, 提供 57.6TB/s 的多对多带宽,从而快速完成大型 AI 作业。
(4)软件层面:公司提供多种加速库与 DGX Cloud、AI Foundations 云服务
围绕大算力应用场景,公司推出多种加速库与 DGX Cloud、AI Foundations。根据英伟达 2023GTC,加速库是加 速计算的核心,可以为应用实现百万倍性能提升。①公司针对量子计算、运筹规划、视频处理、医学研究、芯片制造 等应用场景分别推出了 cuQuantum 量子加速库、cuOpt 运筹规划加速库、CV-CUDA 视频处理加速库、Parabricks 医疗加速库、cuLitho光刻计算加速库。②DGX Cloud为全球主要云服务商提供AI技术,可以通过一个浏览器将NVIDIA 超级计算机即时接入公司,DGX Cloud 支持 NVIDIA Enterprise 加速库套件,可以用于 AI 端到端开发与部署。③AI Foundations 是一项云服务,面向需要构建、优化和运营,定制 LLM(大型语言模型)和生成式 AI,使用其专有数据 进行训练,用于处理特定领域的任务。NVIDIA AI Foundations 包括语言,视觉和生物学模型制作服务。
2、CUDA 架构深度适配各类 AI 框架,配合硬件基础打造用户高度依赖的研发环境
英伟达围绕数据中心业务提供 GPU/CPU/DPU/DGX 系统硬件支持,并提供多种加速库与云服务。根据英伟达官网, 硬件方面,公司开发适用于高性能计算与AI的Tesla系列GPU,截至2023年3月,最新一代大模型芯片为H100 GPU; 提供擅长单线程执行和内存处理的 Grace CPU 与释放 CPU 资源的 BlueField DPU 新型加速计算单元。基于 H100 GPU、BlueField-3 DPU 与 NVLink 连接技术,公司推出 DGX 系统,可用于构建 DGX AI 超级计算机,提供强大、完 整的 AI 平台。软件方面,公司推出多种加速库与 DGX Cloud、AI Foundations,可以帮助企业应用与科学研究实现 加速计算,为全球主要云服务商提供 AI 技术及面向需要定制 LLM(大型语言模型)和生成式 AI。
英伟达的核心竞争力之一在于其 CUDA 架构,成为当前全球加速计算领域依赖度极高的架构之一,助力英伟达打造客户粘性极高的生态环境。英伟达除了为客户提供基础的 GPU、CPU、DPU、超算平台等,更为主要的是英伟达成 功抓住了人工智能浪潮,推广了其 CUDA 架构,目前 CUDA 架构支持 TensorFlow 和 PyTorch 等多种深度学习框架, 当前全球大部分前沿研发工作均是基于 CUDA 架构展开,同时英伟达在其 GPU 中配置有专门的 CUDA 核加速计算, 用户要是想迁移到其它平台会有极大的转换成本,并且会少很多研究支持和辅助,CUDA 已经帮助英伟达打造了一个 较为稳固的生态,客户在非必要的情况下通常不会考虑迁移到另外一个框架进行从头开始的研究和发展。
数据中心有望成为短期拉动英伟达增长的强大动力,游戏和专业可视化业务预计随着下游需求复苏亦将有所好转,汽 车业务领域英伟达料将保持长期稳健成长。对于英伟达自身来讲,业务主要分为数据中心、游戏、专业可视化、汽车 四大部分。在 AIGC 浪潮下算力需求剧增,英伟达作为全球 GPU 龙头公司有望率先受益于全球算力需求激增浪潮, 未来有望进一步加大投片量满足各领域客户的大算力芯片需求,公司展望数据中心增长主要系公司多款产品即将上市 且 H100 顺利爬坡、生成式 AI 将刺激 CSP 和初创企业的需求以及企业上云的进程将会恢复。游戏和专业可视化业务 2022 年由于下游需求疲软受到的影响较大,预计 2023 年后期随着下游需求有望逐步转暖之后,这两部分的业务或将 重回增长轨道。全球智能汽车发展脚步仍未停歇,英伟达和全球主要的汽车制造商以及 OEM 厂商均开展深度合作, 公司在汽车核心大算力芯片亦保持相对领先地位,未来该部分业务成长预期将会相对稳健。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
关键词: