世界视讯!2023年半导体行业专题报告 HBM促使DRAM从传统的2D加速走向3D

2023-04-25 13:50:20

来源:方正证券

核心观点:

HBM概览: JEDEC定义了三类DRAM标准,以满足各种应用的设计要求,HBM与GDDR属于图形DDR,面向需要极高吞吐量的数据密 集型应用程序,例如图形相关应用程序、数据中心加速和AI。 HBM演进必要性:解决存储墙瓶颈刺激内存高带宽需求。HBM(High Bandwidth Memory,高带宽内存):一款新型的 CPU/GPU内存芯片,将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。通过增加带 宽,扩展内存容量,让更大的模型,更多的参数留在离核心计算更近的地方,从而减少内存和存储解决方案带来的延迟。

HBM提高有效带宽途径:Pseudo Channel Mode伪通道。HBM2的主要增强功能之一是其伪通道模式,该模式将通道分为 两个单独的子通道,每个子通道分别具有64位I/O,从而为每个存储器的读写访问提供128位预取。 HBM结构:通过TSV将数个DRAM die垂直堆叠。HBM主要是通过硅通孔(Through Silicon Via, 简称“TSV”)技术进行 芯片堆叠,以增加吞吐量并克服单一封装内带宽的限制,将数个DRAM裸片像楼层一样垂直堆叠。较传统封装方式,TSV技术 能够缩减30%体积,并降低50%能耗。


(资料图)

从技术角度看,HBM促使DRAM从传统2D加速走向立体3D,充分利用空间、缩小面积,契合半导体行业小型化、集成化的 发展趋势。HBM突破了内存容量与带宽瓶颈,被视为新一代DRAM解决方案。 HBM技术演进:目前SK海力士为唯一量产新世代HBM3供应商。2022年1月,JEDEC组织正式发布了新一代高带宽内存 HBM3的标准规范,继续在存储密度、带宽、通道、可靠性、能效等各个层面进行扩充升级。 HBM的不足:系统搭配缺乏灵活性(出厂后无法容量扩展),内存容量受限,访问延迟较高。HBM与其他DDR的替代关系比较分析:HBM+DDR协同发展, HBM负责高带宽小容量,DDR负责稍低带宽大容量。

1、HBM概览

JEDEC定义三类DRAM标准:HBM属于细分图形DDR

DDR SDRAM(简称 DRAM)通过 在双列直插式存储模块 (DIMM) 或分 立式 DRAM 解决方案中提供密集、 高性能和低功耗的存储器解决方案, 以满足此类存储器要求,双数据速率 (DDR) 同步动态随机存取存储器 (SDRAM) 已成为主系统存储器最主 流的存储器技术。

HBM演进必要性:解决存储墙瓶颈刺激内存高带宽需求

HBM(High Bandwidth Memory,高带宽内存):一款新型的CPU/GPU内存芯片,其实就是将很多 个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。 通过增加带宽,扩展内存容量,让更大的模型,更多的参数留在离核心计算更近的地方,从而减少内存 和存储解决方案带来的延迟。

HBM提高有效带宽途径:Pseudo Channel Mode伪通道

HBM2的主要增强功能之一是其伪通道模式 (Pseudo Channel Mode),该模式将通 道分为两个单独的子通道,每个子通道分别 具有64位I/O,从而为每个存储器的读写访 问提供128位预取。伪通道以相同的时钟 速率运行,共享行和 列命令总线以及CK和 CKE输入。但是,它 们具有独立的存储体 ,分别解码和执行命 令。 海力士表示,伪通道 模式可优化内存访问 并降低延迟,从而提 高有效带宽。

HBM结构:通过TSV将数个DRAM die垂直堆叠

HBM主要是通过硅通孔(Through Silicon Via, 简称“TSV”)技术进行芯片堆叠,以增加吞吐量并克 服单一封装内带宽的限制,将数个DRAM裸片像楼层一样垂直堆叠。SK海力士表示,TSV是在DRAM芯片上搭上数千个细微孔并通过垂直贯通的电极连接上下芯片的技术。 该技术在缓冲芯片上将数个DRAM芯片堆叠起来,并通过贯通所有芯片层的柱状通道传输信号、指令、 电流。相较传统封装方式,TSV技术能够缩减30%体积,并降低50%能耗。

凭借TSV方式,HBM大幅提高了容量和数 据传输速率。与传统内存技术相比,HBM 具有更高带宽、更多I/O数量、更低功耗、 更小尺寸。 HBM的高带宽离不开各种基础技术和先进 设计工艺的支持。由于HBM是在3D结构中 将一个逻辑die与4-16个DRAM die堆叠在 一起,因此开发过程极为复杂。 美光HBM2E DRAM的内部组织为8个独立 通道A到H,适用于4高和8高的 DRAM配置。每个通道都配备有自己的时钟 、命令/地址和数据接口,并且可以完全独 立于其他通道运行。

HBM促使DRAM从传统的2D加速走向3D

从技术角度看,HBM促使DRAM从传统2D加速走向立体3D,充分利用空间、缩小面积,契合半导体行 业小型化、集成化的发展趋势。HBM突破了内存容量与带宽瓶颈,被视为新一代DRAM解决方案,业界 认为这是DRAM通过存储器层次结构的多样化开辟一条新的道路,革命性提升DRAM的性能。

HBM技术演进:目前SK海力士为唯一量产新世代HBM3供应商

2022年1月,JEDEC组织正式发布了新一代 高带宽内存HBM3的标准规范,继续在存 储密度、带宽、通道、可靠性、能效等各 个层面进行扩充升级。 JEDEC表示,HBM3是更高带宽、更低功耗 和单位面积容量的解决方案,对于高数据 处理速率要求的应用场景来说至关重要, 比如图形处理和高性能计算的服务器。

HBM VS GDDR:封装形式&应用

数据中心正在不断发展,以解决 快速有效地存储、移动和分析数 据的挑战。在很大程度上,这种 演变是由四种高性 能应用程序趋势驱动的。 传统游戏和专业可视化主要是在 PC领域,并满足于快速GDDR内 存的创新。但随着人工智能(AI)训 练和推理以及高性能计算的发展 ,我们看到数据中心对最快内存 、高带宽内存(HBM)的使用越 来越多。应用程序架构师必须在 这些段中找到可能的最大带宽。

HBM+DDR:HBM负责高带宽小容量,DDR负责稍低带宽大容量

HBM重新调整了内存的功耗效率,能大幅提高数据处理速度,是当下速度最快的DRAM产品,其每瓦带 宽比GDDR5高出3倍还多,且HBM比GDDR5节省了94%的表面积。高带宽、高延迟特性,决定了HBM 非常适用于高端GPU显存,这类负载的特点是需要高带宽,而对延迟并没有那么敏感。但对于电脑来说 ,要求各种随机存储访问,对延迟天生有着更高的敏感度,而且对低延迟的要求往往还高于对高带宽的要 求,再加上HBM成本很高,至少就短期来看,HBM很难在PC上替代DDR。 在服务器上,有HBM+DDR搭配使用的方案,HBM负责高带宽小容量,DDR负责稍低带宽大容量。

相关内存模组市场规模

每一代新的DDR在容量、数据速率和功耗方面都有改进。然而,与此同时,模块设计人员面临着新的信 号完整性挑战,这使得在更高的速度下实现更高的模块容量变得更加困难。为了解决这些问题,需要特定 的内存条芯片。根据Yole,随着最新一代DDR,每个模块的 DIMM芯片数量有所增加。模块上芯片组包括 RCD, DB, PMIC, SPD集线器和温度传感器芯 片,用于最先进的模块。 DDR5的渗透将导致DIMM芯片组市场在 2028年达到约40亿美元,CAGR21-28为约 28%。

2、重点企业分析

澜起科技

内存拓展需求催涨CXL及PCIe芯片需求:计算高速链路(CXL)利用 PCIe(外围组件互连高速)接 口,是一种新的标准化接口, 有助于提高 CPU、GPU、加速 器和内存的效率。CXL内存的主要优 势在于可扩展性: CXL允许灵活扩展 现有服务器系统无 法提供的内存,其 中内存容量和性能 在采用特定服务器 平台时是固定的。 CXL的增长潜力是 无限的,因为它是 运行AI和大数据应 用程序的高性能计 算系统的有前途的 新接口。

CXL在新兴HPC应用内存可组合性和分解方面的优势:计算结果表明,CXL 2.0引入的内存池理论上可至少支持1.28拍字节 (PB) 的CXL附加内存 ,如果在CXL 3.0中引入多级切换和其他功能,甚至可支持更高的内存容量。这为解决大规模计算问题提供 了新思路,使多个主机可以一边处理大量问题,一边同时访问整个数据集。例如,假设系统可以一次性处 理整个问题,而不是将问题分解成更小的部分,那么通过访问1拍字节的内存,就可以创建全新的模型并对 其编码,以此来处理复杂的问题(例如,模拟气候变化)。

CXL 3.0中引入的高级结构功能是基于前几代及其传统树基架构的一次转变。新架构支持多达4,096个节点 ,每个节点都能够通过基于端口的路由 (PBR) 机制与另一个节点相互通信。节点可以包括CPU主机、CXL 加速器(无论是否包含内存)、PCIe设备或全局结构连接内存 (GFAM) 设备。 GFAM设备是一种3型设备,可有效地充当共享内存池,其I/O空间属于一个主机或结构管理器。配置后, CXL结构中的其他主机和设备可以直接访问GFAM设备的池式内存。GFAM设备带来了很多新的可能性,可 以根据特定的负载需求构建由计算和内存元件组成的系统。例如,通过访问1太字节或1拍字节的内存,可 以创建全新的模型来应对像绘制人类基因组图谱一样复杂的挑战。

CXL通过单一接口实现介质独立,例如DDR3/4/5,优化内存/存储:一直以来,只有几种方法可以为加速器或其他SoC增加内存。最常见的方法是添加额外DDR内存通道来支 持更多标准DDR内存模块。 另一种可行的方法是,将内存与SoC集成在同一个封装内,借助CXL,可以将内存放在非常类似于PCIe总 线的东西上(CXL使用PCIe PHY和电气元件)。这让系统能够使用带有标准CXL接口的卡来支持更多的内 存模块,而无需额外DDR通道。如何大幅增加SoC可访问的内存:从内存量(GB)和内存类型(RAM或持久内存)两方面 来说明。通过使用这种方法,内存开始变得类似于资源池,可由多个主机通过切换功能进行访问;切换功 能在CXL 2.0中首次引入,并在CXL 3.0中得到显著扩展。

CXL兼具内存分解与可组合性优势:CXL最终将允许连接到大量的内存模块,包括SSD、DDR DRAM和新兴的持久内存。CXL具有低延迟、一 致性、内存池和共享等功能,这使其成为一种可行的技术,让系统架构师可以创建大型的易失性和持久内 存池,这些内存将会扩展到多个基础架构池,成为真正的共享资源。2022年闪存峰会传达的一个明确信号 是,CXL是用于汇集和共享联网内存设 备的新兴领先架构,主要用于DRAM和 NAND闪存设备。CXL现已收购了Z世 代和 OpenCAPI,进一步扩大和增加了 CXL可以处理的应用的范围和类型。

澜起科技催化1:互连类芯片,全球领跑者乘DDR5渗透之风

内存接口芯片:澜起科技发明的DDR4全缓冲“1+9”架构被JEDEC 国际标准采纳,该架构在DDR5世代 演化为“1+10”框架,继续作为LRDIMM的国际标准。DDR5 LRDIMM“1+10”基础架构包括一颗 RCD芯片和十颗DB芯片。 内存模组配套芯片:根据JEDEC组织的定义,在DDR5世代,服务器内存模组需要配置三种配套芯片,包 括一颗SPD芯片、一颗PMIC芯片和两颗TS芯片;普通台式机、笔记本电脑的内存模组UDIMM、 SODIMM上,需要配置两种配套芯片,包括一颗SPD芯片和一颗PMIC芯片。

以每台计算机搭载1-2条内存,每台服务器搭载10-12条内存计算,2021年计算机和服务器领域对DDR内 存的需求量超过4.84亿条,下游DDR内存模组行业增规模的提升将带动应用于DDR内存模组的内存接口 芯片及配套芯片产品需求量持续加。 目前DDR5内存接口芯片的竞争格局与DDR4世代类似,全球只有三家供应商可提供DDR5第一子代的量 产产品,分别是澜起科技、瑞萨电子和Rambus,澜起科技在内存接口芯片的市场份额保持稳定。在配套 芯片上,SPD和TS目前主要的两家供应商是澜起科技和瑞萨电子,澜起科技是目前全球可以提供DDR5内 存接口及模组配套芯片全套解决方案的两家供应商之一。

澜起科技催化2:CXL与PCIe等弥补高速发展的HBM内存局限弱势

澜起科技的CXL内存扩展控制器(MXC)芯片是一款Compute Express Link™ (CXL™) DRAM内存控制 器,属于CXL协议所定义的第三种设备类型。该芯片支持JEDEC DDR4和DDR5标准,同时也符合CXL 2.0规范,支持PCIe® 5.0的速率。针对HBM内存相比DDR有局限的情况,澜起科技的CXL芯片可为CPU 及基于CXL协议的设备提供高带宽、低延迟的高速互连解决方案,从而实现CPU与各CXL设备之间的内存 共享,在大幅提升系统性能的同时,显著降低软件堆栈复杂性和数据中心总体拥有成本(TCO)。 该MXC芯片专为内存AIC扩展卡、背板及EDSFF内存模组而设计,可大幅扩展内存容量和带宽,满足高性 能计算、人工智能等数据密集型应用日益增长的需求。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

关键词: