存储器技术详解:DRAM、NAND Flash、HBM一篇文章看懂

存储器技术详解:DRAM、NAND Flash、HBM一篇文章看懂

一、引言:数据的仓库,芯片的另一半

存储器(Memory)和逻辑芯片共同构成半导体产业的两大支柱。如果说CPU/GPU是计算的大脑,那存储器就是记忆的仓库。没有存储器,再强的算力也无处施展——因为所有的数据都必须先"记住",才能被"计算"。

笔者在存储芯片fab工作期间,参与过DRAM和NAND Flash的制造工艺优化,深知存储器技术的复杂性。存储器看似只是"存数据",但背后涉及量子力学(浮栅存储原理)、热力学(CVD沉积)、流体力学(电镀填充)、统计学(良率工程)等多个学科的深度交叉。

本文将系统梳理三大主流存储技术(DRAM、NAND Flash、HBM)的原理、架构和市场格局,帮你建立完整的存储器知识体系。

>> 图1 存储器技术分类体系与核心参数对比

如上图所示,存储器可分为易失性(Volatile)和非易失性(Non-Volatile)两大类。易失性存储器(如DRAM)在断电后数据丢失,但读写速度极快;非易失性存储器(如NAND Flash)断电后数据保留,但读写速度相对较慢。不同应用场景对速度、功耗、成本的权衡,催生了多样化的存储技术路线。

二、DRAM:计算机系统的内存支柱

DRAM(Dynamic Random Access Memory,动态随机存取存储器)是目前计算机系统中最主要的内存芯片。从智能手机到服务器,DRAM承担着所有运行时数据的存储任务。与SRAM相比,DRAM的存储密度更高、成本更低,是大容量内存的首选技术。

2.1 DRAM的工作原理:1T1C结构

DRAM的核心存储单元是1T1C结构——一个晶体管(Transistor)+一个电容(Capacitor)。电容负责存储电荷:有电荷代表"1",无电荷代表"0"。晶体管作为开关,控制对电容的读写操作。

写入(Write):Word Line拉高 -> 晶体管导通 -> Bit Line设定电压 -> 电容充电/放电 -> Word Line拉低,数据被"记住"。

读取(Read):Word Line拉高 -> 晶体管导通 -> 电容与Bit Line共享电荷 -> Bit Line电压微小变化(~200mV)被Sense Amplifier放大检测 -> 数据被读出。关键点:读取操作是"破坏性"的——每次读出后必须立即重新写入(Restore),这就是DRAM需要不断"刷新"的原因。

2.2 刷新(Refresh)与动态特性

DRAM之所以叫"动态"RAM,是因为电容存在漏电现象——即使不加任何操作,存储的电荷也会通过晶体管漏极慢慢消散。因此,DRAM必须周期性刷新(Refresh),通常每64ms需要刷新一次整个阵列。

刷新带来的问题:

  • 刷新期间DRAM无法处理正常读写请求,影响带宽
  • 刷新频率随着工艺微缩(电容面积减小)而增加,制程越先进,漏电越严重,刷新越频繁
  • DDR5时代引入了温度补偿自动刷新(TCAR)机制,在低温区域减少刷新频率以节省功耗

2.3 DDR技术演进:从SDRAM到DDR5

DDR1(2000):起步

DDR在时钟的上升沿和下降沿都传输数据,实现了两倍的数据速率。DDR1采用2.5V供电,184引脚,Prefetch=2n,速率上限约400MT/s,是DRAM技术的里程碑式突破。

DDR2(2003):降功耗

DDR2电压降至1.8V,预取深度增至4n,速率上限约800MT/s,相比DDR1降低约40%功耗。引入了片上终结电阻(ODT)改善信号完整性。

DDR3(2007):高性能

DDR3电压降至1.5V,预取8n,速率上限约2133MT/s。引入了自动刷新替代(ASR)和更先进的功耗管理功能,广泛应用于2007-2018年的主流计算平台。

DDR4(2012):现代主流

DDR4电压降至1.2V,预取8n,速率上限约3200MT/s。Bank Group架构(2/4个Bank Group并行操作)大幅提升有效带宽。最大单条容量从4Gb提升到16Gb以上,支撑了云计算时代的大内存需求。

DDR5(2020):新一代标准

DDR5电压降至1.1V,预取16n,速率上限达8400MT/s。革命性的双通道DIMM架构(内部划分为两个独立40bit通道),片上PMIC(电源管理IC)集成到内存条上,ECC纠错功能增强。DDR5的带宽是DDR4的约2倍,目前正在快速取代DDR4成为市场主流。

2.4 LPDDR:移动端的低功耗之王

LPDDR(Low Power DDR)是面向移动设备(智能手机、平板、可穿戴设备)的低功耗专用DRAM。相比桌面/服务器DDR,LPDDR做了大量功耗优化:

  • 更低的VDDQ:LPDDR5的VDDQ降至0.5V,而DDR5为0.95V
  • 时钟门控:空闲时关闭时钟节省功耗
  • 深度睡眠模式:自刷新时功耗降至微瓦级别
  • 可变带宽:根据实际负载动态调整带宽

LPDDR发展路线:LPDDR1(2001)-> LPDDR2 -> LPDDR3 -> LPDDR4(2014)-> LPDDR4X -> LPDDR5(2020)-> LPDDR5X(2022)-> LPDDR5T(2024)。LPDDR5X的峰值速率已达8533MT/s,与桌面DDR5旗舰相当。

2.5 市场格局:韩美双雄争霸

全球DRAM市场呈现高度集中的格局:

  • 三星电子:全球DRAM份额约40%,技术最先进(率先量产1alpha/1beta nm),产能最大
  • SK海力士:份额约30%,HBM领域绝对霸主(供应英伟达H100/H200),DDR5技术领先
  • 美光科技:份额约25%,美国唯一DRAM厂商,1beta nm制程量产
  • 南亚科技(台湾):份额约3%,专注于利基市场和成熟制程
  • 长鑫存储(CXMT):份额小于2%,国内DRAM希望之星,19nm DDR4已量产,17nm在研

三、NAND Flash:固态存储的基石

NAND Flash是目前最主流的非易失性存储技术,广泛应用于SSD、UFS、eMMC、SD卡、U盘等各类存储设备。与DRAM相比,NAND Flash具有非易失性、密度高、成本低、功耗低等优势,是海量数据存储的核心载体。

3.1 NAND Flash的存储原理:电荷囚禁

NAND Flash的核心存储单元是浮栅(Floating Gate)或电荷陷阱(Charge Trap)结构。浮栅是一种被绝缘氧化物(ONO:Oxide-Nitride-Oxide)完全包裹的多晶硅层,可以囚禁电子。向浮栅注入电子(通过FN隧穿效应),即可改变晶体管的阈值电压(Vt),代表编程状态;移除浮栅电子则代表擦除状态。

NAND Flash基本操作:

读取(Read):在目标Word Line施加中间电平电压,测量Bit Line电流。若存储节点有电子(Vt高),晶体管截止,Bit Line维持高电平= "0";若存储节点无电子(Vt低),晶体管导通,Bit Line被拉低= "1"。

编程(Program):目标Cell的Word Line施加高电压(~20V),电子通过FN隧穿效应注入浮栅。

擦除(Erase):目标Block的所有Word Line接地,P-well施加高电压,电子从浮栅隧穿回衬底。

NAND Flash以Block为最小擦除单位(通常4-16MB),以Page为最小读写单位(通常16-24KB)。这一特性决定了NAND不能像DRAM那样随机读写,必须配合Flash Translation Layer(FTL)做地址映射和垃圾回收。

3.2 从SLC到QLC:比特密度倍增之路

NAND Flash根据每个存储单元存储的bit数,可分为SLC、MLC、TLC、QLC、PLC等多个层级:

>> 图2 NAND Flash技术演进路线图(2000-2024):从平面微缩到3D堆叠

SLC(Single-Level Cell,1bit/cell)

SLC每个存储单元只存储1bit信息,只有"0"和"1"两种阈值电压分布状态。SLC的优点是速度快(读约25微秒,写约300微秒)、寿命长(约10万次擦写)、可靠性高;缺点是密度低、成本高。SLC目前主要用于企业级SSD、高可靠工控设备等对寿命要求极高的场景。

MLC(Multi-Level Cell,2bit/cell)

MLC将单个存储单元的阈值电压细分为4个电平,存储2bit信息。相比SLC,MLC的存储密度翻倍,成本降低约30-40%,但读写速度和寿命(约1万次)均有所下降。MLC在2015年前后逐渐被TLC取代。

TLC(Triple-Level Cell,3bit/cell)

TLC将阈值电压细分为8个电平,存储3bit信息。TLC于2012-2016年间大规模量产,成为消费级SSD的主流选择。TLC的读写速度较MLC进一步降低,写入寿命约3000次,但成本大幅下降,存储密度是SLC的3倍。目前主流消费级SSD几乎全部采用TLC 3D V-NAND。

QLC(Quad-Level Cell,4bit/cell)

QLC将阈值电压细分为16个电平,存储4bit信息。QLC的存储密度是SLC的4倍,但写入速度最慢(写寿命约1000次),误码率更高。QLC在2019年后大规模量产,主要面向大容量SSD(大于2TB)和数据仓库等"写少读多"的应用场景。随着AI训练数据量的爆发,QLC SSD在大数据分析场景中的应用快速增长。

3.3 从2D到3D:范式转换的关键一跳

2010年后,NAND Flash面临严峻的物理瓶颈:在2D平面时代,随着制程微缩到15nm以下,存储单元之间的干扰(Cell-to-Cell Interference)、浮栅耦合(Floating Gate Coupling)、数据保持(Data Retention)等问题急剧恶化,2D NAND的微缩之路在15-16nm触顶。

2014年,三星率先推出3D V-NAND(Vertical NAND),将存储单元垂直堆叠在硅衬底之上,从根本上改变了NAND的技术路线。相比2D NAND,3D V-NAND的优势:

  • 突破平面微缩限制:通过增加层数(从32层到300+层),在不使用先进光刻的情况下大幅提升存储密度
  • 更好的电学性能:存储单元间距更大,Cell-to-Cell干扰更小,可使用更厚实的隧道氧化层,寿命和可靠性更好
  • 成本优势:3D NAND可以在较成熟(大于20nm)的制程节点上制造,但实现等同于甚至超过先进2D节点的存储密度

3D NAND的制造工艺极为复杂,需要在垂直方向上沉积数十层材料(poly-Si存储层、ONO绝缘层、WL金属层),然后通过高深宽比(大于60:1)的硅通孔(TSV)刻蚀打通所有层。这对刻蚀设备(需要高深宽比ICP刻蚀机)、沉积设备(均匀性要求极高的ALD/CVD)和材料都提出了极高的要求。

3.4 市场格局:六强争霸,国内崛起

全球NAND Flash市场主要玩家:

  • 三星:全球份额约35%,3D NAND技术的开创者,V8(236层)、V9(290层)领先量产
  • SK海力士(含Solidigm):份额约25%,收购Intel NAND业务后,Solidigm在QLC和企业级SSD领域有独特优势
  • 铠侠/西部数据(Kioxia/WD):份额约20%,BiCS Flash架构独特,Fab产能分布在日本四日市和北上市
  • 美光:份额约12%,176层3D NAND量产,232层正在放量
  • 长江存储(YMTC):份额约5%,国内NAND Flash的希望,采用Xtacking架构(晶栈键合),232层3D NAND已量产,受美国出口管制影响,扩产受阻
  • 旺宏(Macronix,台湾):专注Nor Flash和SLC NAND,利基市场玩家

四、HBM:高带宽内存,AI时代的显存革命

HBM(High Bandwidth Memory,高带宽内存)是专为高性能计算和AI工作负载设计的DRAM堆叠技术。HBM通过3D堆叠和2.5D硅中介层(Si Interposer)互连,实现了远超传统GDDR和DDR的带宽和能效比,是当前AI GPU和超级计算机的核心内存解决方案。

4.1 HBM的工作原理:垂直堆叠的带宽革命

HBM的核心创新在于3D DRAM堆叠架构。一个完整的HBM堆叠包括:

  • DRAM晶粒(DRAM Die):每颗HBM包含4-12颗堆叠的DRAM晶粒,每颗晶粒与标准DRAM类似但经过3D封装优化,厚度大幅减薄(50-100微米)以容纳在标准封装高度内
  • TSV(Through-Silicon Via,硅通孔):贯穿整个DRAM晶粒的垂直互连通道,用于将每层晶粒的信号连接到基板上,实现晶粒间的垂直通信
  • 2.5D硅中介层(Silicon Interposer):一块含有密集走线的无源硅芯片,水平连接GPU和HBM堆叠,提供超宽总线接口(HBM1=256bit,HBM2=1024bit,HBM3=2048bit)
  • HBM堆叠封装:HBM3E的单颗堆叠高度约720微米,内部包含12-16层DRAM晶粒和1层逻辑控制晶粒(Base Die)

以HBM2为例,单颗HBM2提供256bit的数据总线宽度,典型速率2.4Gbps/pin,但HBM2的总带宽可达307 GB/s,远超GDDR6的约192 GB/s。HBM3更是将总线宽度扩展到2048bit,HBM3E单颗带宽突破1.2 TB/s。

4.2 HBM的技术代际演进

HBM1(2013):首次在AMD Fiji GPU上商用,4通道x128bit=512bit,8层DRAM堆叠,峰值带宽128 GB/s,容量4GB。

HBM2(2016):NVIDIA V100 GPU采用,1024bit总线,8层堆叠,带宽900 GB/s,容量8GB。

HBM2E(2020):速率从2.4Gbps提升到3.2Gbps,带宽约1.64 TB/s,容量16-32GB。

HBM3(2022):SK海力士率先量产,2048bit总线,12层堆叠,6.4Gbps/pin,带宽大于1 TB/s,容量24-36GB。

HBM3E(2024):SK海力士和三星均已量产HBM3E,12-16层堆叠,9.6Gbps/pin,单颗容量36-64GB,NVIDIA H200/H100 SXM5采用。

HBM4(2026+规划):SK海力士透露正在研发下一代HBM4,预计进一步扩大总线宽度,可能采用混合键合(Hybrid Bonding)替代微凸点(micro-bump)以进一步降低功耗和增加堆叠层数。

4.3 HBM的市场格局:SK海力士独领风骚

目前HBM市场呈现SK海力士"一家独大"的格局:

  • SK海力士:占据HBM市场约60-70%的份额,是英伟达H100/H200/H100 SXM5的独家HBM供应商,在HBM3E技术上处于领先地位,2024年HBM营收占比已超过30%
  • 三星:HBM3E在2024年通过英伟达验证,成为HBM3E第二供应商,但在良率和产能上仍落后于SK海力士
  • 美光:HBM3E也已通过验证,但受产能限制,目前主要供应给AMD和部分数据中心客户
  • 国产HBM:仍处于0-1阶段,长鑫存储和福建晋华在研发HBM相关技术,距离量产仍有5-10年差距

五、存储单元结构深度对比

5.1 三种主流存储单元结构

DRAM 1T1C:电容存储,电荷泄露

DRAM单元使用MOS电容存储电荷。优点:读写速度极快(纳秒级别)、结构简单、密度高。缺点:电容面积随工艺微缩而减小,漏电加剧,需要频繁刷新。1T1C的缩放瓶颈在于电容的等效氧化层厚度(EOT)和深宽比。

NAND Flash浮栅(Floating Gate)结构

浮栅是一种被绝缘层完全包裹的多晶硅岛,电子被"囚禁"在浮栅中,断电后不会泄露。优点:非易失性,数据保持10年以上。缺点:浮栅之间存在耦合干扰,工艺复杂度高。浮栅结构已逐步被电荷陷阱(Charge Trap)结构取代。

NAND Flash电荷陷阱(Charge Trap)结构

电荷陷阱使用SiN(氮化硅)层代替多晶硅浮栅,电子被"陷阱"捕获在氮化硅的晶格缺陷中。优点:单元面积更小,Cell-to-Cell干扰更小(因为氮化硅是连续的绝缘层)。三星的V-NAND全部采用电荷陷阱结构。

5.2 新型存储技术:后DRAM/NAND时代的新星

新型存储(Emerging Memories)是近年来业界积极布局的方向:

  • PCM(相变存储器):利用硫族化合物的晶态/非晶态相变存储数据,Intel Optane DIMM即是PCM商用化产品(已停产)
  • ReRAM(阻变存储器):通过金属氧化物薄膜的电阻切换存储数据,适用于存储级内存(SCM)
  • MRAM(磁阻存储器):利用磁性隧道结(MTJ)的磁化方向存储数据,读写速度纳秒级,非易失,适合航空航天和物联网
  • FeRAM(铁电存储器):利用铁电材料的极化方向存储数据,读写速度快,擦写次数高,主要用于智能卡和医疗设备

六、市场格局与周期波动

全球存储器市场在2021-2023年经历了一轮剧烈的周期波动。2021年受益于疫情带动的PC和服务器需求,存储器厂商赚得盆满钵满;2022-2023年则急转直下,DRAM和NAND Flash价格腰斩,三星、SK海力士、美光均出现巨额亏损。

2024年,随着AI服务器需求爆发,HBM和高端服务器DRAM出现严重短缺,存储器市场再次进入上升周期。据TrendForce预测,2024年全球DRAM市场规模约750亿美元,NAND Flash市场规模约550亿美元,合计超过1300亿美元。

国内存储器产业的发展:

  • 长江存储(YMTC):2016年成立,2019年量产32层3D NAND,2020年量产64层,2022年量产232层Xtacking 3D NAND。受美国出口管制影响(2022年10月实体清单),先进设备进口受阻,扩产计划受到严重限制。但232层量产本身已是中国半导体产业的历史性突破
  • 长鑫存储(CXMT):2016年成立,2019年量产19nm DDR4,2022年量产17nm DDR5,产能约7万片/月。主要面向国内服务器和PC市场,正在积极扩产中
  • 福建晋华(JHICC):主要从事DRAM研发和制造,但受美国出口管制影响,设备和材料供应受限,进展较慢

七、趋势与展望

7.1 AI驱动存储技术加速迭代

ChatGPT引发的AI浪潮对存储技术提出了前所未有的挑战:

  • HBM需求井喷:英伟达H100/H200/H100 SXM5等AI GPU需要大量HBM作为显存,SK海力士HBM订单已排到2025年以后
  • CXL互联:CXL(Compute Express Link)是一种高速CPU-GPU-内存互连协议,可以实现内存池化(Memory Pooling),解决AI训练中的内存带宽和容量瓶颈
  • NAND需求分化:AI训练数据的高吞吐量读写需求,推动企业级QLC SSD快速普及,同时推动3D NAND层数持续增加(300层+)
  • Compute Storage:在存储节点做近数据计算(Near-Data Computing),减少数据搬运,是存储架构演进的新方向

7.2 国产存储器的机遇与挑战

存储器是半导体产业中,中国与全球先进水平差距最小(之一)的赛道。长江存储的232层量产和长鑫存储的DDR5布局,证明了中国存储器产业的快速追赶能力。但同时也要清醒认识到:

  • HBM差距巨大:HBM涉及3D DRAM堆叠和先进封装,国产化需要10年以上的持续投入
  • 设备受制于人:美国将长江存储列入实体清单后,关键设备商无法提供技术支持,先进产能扩张受阻
  • 专利壁垒:存储器领域专利密集,Samsung、SK Hynix、Micron拥有大量基础专利,国产厂商面临专利诉讼风险

八、总结

存储器是半导体产业中和每个人都密切相关的细分领域。本文系统梳理了DRAM、NAND Flash和HBM三大主流存储技术的原理、演进和市场格局。

核心要点回顾:

  • DRAM:以1T1C结构存储数据,需要周期性刷新。DDR技术从DDR1演进到DDR5,带宽提升50倍以上。LPDDR面向移动端低功耗场景。SK海力士和三星主导市场,国产长鑫正在追赶
  • NAND Flash:以浮栅/电荷陷阱存储数据,非易失。平面时代从SLC到QLC不断提升密度,2014年后进入3D V-NAND时代,通过垂直堆叠突破摩尔定律极限。长江存储232层Xtacking是国产里程碑
  • HBM:以3D DRAM堆叠+2.5D Interposer实现超高带宽,是AI GPU的核心显存。SK海力士一家独大供应英伟达。国产HBM仍处于早期阶段
  • 行业格局:韩美主导(三星/SK海力士/美光),国内长江存储和长鑫存储在NAND和DRAM领域取得突破,但HBM等先进领域差距仍大

存储器行业是一个典型的"强者恒强"市场,技术壁垒和资本壁垒极高。对于工程师而言,深入理解存储单元物理、封装工艺和系统架构,将在AI时代获得独特的竞争优势。