1. 项目概述当机器学习势函数遇上量子热浴在计算材料科学领域我们一直面临着一个核心矛盾精度与效率的权衡。研究像钛酸钡BaTiO₃这样的经典铁电材料相变我们需要在原子尺度上追踪成千上万个原子在温度和压力下的动态演化。第一性原理分子动力学AIMD虽然能提供高精度的势能面描述但其计算成本是天文数字通常只能处理几百个原子、几个皮秒的模拟这对于研究相变这种涉及长程关联和缓慢动力学的过程无异于杯水车薪。而传统经验势函数虽然快但其精度和可迁移性常常令人担忧尤其是在描述复杂的多体相互作用和相变临界区域时。这个矛盾正是机器学习势函数MLP大显身手的地方。它本质上是一个“超级插值器”通过神经网络等模型从相对少量的高精度第一性原理计算数据中学习到原子构型与系统能量、原子受力之间的复杂映射关系。一旦训练完成MLP在预测时的计算代价仅相当于一个经验势函数但其精度却可以无限逼近第一性原理计算。这就像培养了一位“计算专家”它熟读了所有高深的理论典籍第一性原理数据并能以极快的速度解答新的问题预测新构型的能量和受力。然而当我们把目光投向低温或涉及轻元素的体系时另一个物理效应——核量子效应NQE——就变得不可忽视了。在经典分子动力学MD中原子核被当作遵循牛顿力学的经典粒子处理。但在量子力学中原子核具有波粒二象性存在零点能和量子隧穿等效应。对于钛酸钡其中的氧原子质量较轻在低温下其量子涨落会显著影响晶格振动、铁电极化乃至相变温度。忽略NQE可能会导致对相变边界、有序-无序转变温度的预测出现系统性偏差。量子热浴QTB方法正是为了在经典MD框架内“植入”量子效应而生的巧妙工具。它通过在朗之万方程的热浴项中引入一个与频率相关的有色噪声使得体系能量的涨落满足量子涨落-耗散定理从而让经典振子的能量分布逼近量子谐振子的结果。简单说QTB让经典MD模拟“听”起来像量子体系。将高精度的MLP与能描述NQE的QTB结合即QTB-MLPMD我们便获得了一把利器既能高效处理大体系又能相对准确地捕捉量子效应从而定量评估像压力-温度相图中核量子效应的具体影响。这对于深入理解铁电材料的微观机理、预测其在外场下的响应行为具有关键意义。2. 核心思路与技术选型解析2.1 为什么选择机器学习势函数作为基石在钛酸钡相变研究中选择MLP而非其他势函数是基于几个深层次的考量。首先钛酸钡的相变涉及复杂的序参量耦合包括铁电位移Ti原子相对于氧八面体中心的偏移、氧八面体的旋转以及晶格应变。这些序参量相互耦合其对应的势能面存在多个浅的极小值对应不同相能垒高度对温度和压力极其敏感。传统的刚性离子模型或壳层模型势函数其函数形式是预先设定的难以灵活捕捉这种复杂、多尺度的耦合关系。而MLP特别是基于原子局部环境描述符如SOAP、ACE或Behler-Parrinello对称函数的神经网络势具有强大的泛化能力和高维拟合能力可以从数据中自动学习到这些复杂的相互作用。其次研究的核心目标之一是构建精确的压力-温度P-T相图。这要求势函数在从立方相到四方相、正交相乃至三方相的整个构型空间内都保持高精度尤其是在相边界附近能量的微小差异就会导致相变预测的巨变。MLP的训练策略可以针对性地在相变路径附近进行主动学习或增强采样密集采集第一性原理数据确保在这些关键区域有出色的预测能力。从补充材料图S1-S3可以看出研究者对比了MLP预测与第一性原理计算FP在能量、原子力特别是Ti离子受力和应力上的一致性。这些图显示数据点紧密分布在yx对角线两侧相关系数R²极高这直接验证了所构建的MLP在整个模拟采样空间包括不同压力下的4×4×4和5×5×5超胞都具有接近第一性原理的精度为后续的大规模模拟奠定了可信的基础。注意评估MLP精度时不能只看总能量的误差原子力和应力的预测精度往往更为关键。因为MD模拟的动力学轨迹由受力直接驱动力的误差会直接导致错误的原子运动轨迹和相变动力学。应力误差则直接影响压力计算和晶格常数的弛豫。因此像文中那样系统性地验证能量、力、应力三项指标是评估MLP是否适用于相变研究的黄金标准。2.2 量子热浴方法在经典框架内引入量子灵魂理解了MLP作为“准确引擎”的价值后我们需要一个能模拟量子效应的“变速箱”这就是量子热浴。经典MD使用经典谐振子模型其平均能量在温度T下为k_B T在低温下趋于零。但量子谐振子有零点能即使在绝对零度能量也不为零。QTB方法的核心思想是修改经典朗之万方程中的随机力项。经典的朗之万方程是m_i dv_i/dt F_i - γ m_i v_i R_i(t)。其中R_i(t)是高斯白噪声满足 R_i(0)R_j(t) 2γ m_i k_B T δ_ij δ(t)。为了引入量子效应QTB将白噪声替换为有色噪声其自相关函数与频率相关噪声谱密度相连R_i(0)R_j(t) (m_i γ / π) ∫_0^∞ dω J(ω) cos(ωt) δ_ij。这里的关键是谱密度J(ω)。为了重现量子谐振子的能量期望需要令J(ω)满足量子涨落-耗散定理J(ω) (ħω/2) coth(ħω/(2k_B T))。实际操作中我们通过傅里叶变换在频率空间生成满足该谱密度的随机力再变换回时域加到原子上。这样每个振动模式所感受到的热涨落就具有了量子特征体系的总动能和势能分布会更接近量子结果。QTB是一种近似方法它对于描述非简谐性不强的体系中的核量子效应如零点能、量子涨落对热容的影响非常有效且计算开销仅比经典MD略高远比路径积分分子动力学PIMD等全量子方法高效。2.3 模拟规模与收敛性验证尺寸效应至关重要从补充材料的图S4-S6和S7-S9可以看出研究者系统地进行了不同超胞尺寸12×12×12, 16×16×16, 20×20×20的模拟。这绝非随意为之而是研究铁电相变时必须考虑的有限尺寸效应。铁电相变与长程的偶极-偶极相互作用密切相关模拟盒子太小会人为地增强周期性边界条件带来的镜像相互作用可能抑制或扭曲铁电畴的形成和演化导致相变温度、晶格参数乃至相变序的预测出现偏差。通过比较不同尺寸超胞下晶格参数和Ti-O离子位移随时间演化的曲线图S4-S9可以评估模拟结果是否收敛于体材料性质。通常当超胞尺寸增大到一定程度后这些宏观观测量的统计平均值和涨落不再发生显著变化就认为基本消除了尺寸效应。文中采用高达20×20×20的超胞对应数万个原子正是为了确保模拟能够捕捉到真实的体相行为使得基于QTB-MLPMD计算得到的相变压力图S10-S11中的黄色竖线和晶格参数更加可靠。这种对模拟收敛性的严谨验证是确保研究结论物理可信度的基石。3. 实操流程与关键步骤拆解3.1 机器学习势函数的构建与训练流程构建一个适用于钛酸钡相变研究MLP是一个系统性的工程绝非简单调用一个现成工具包就能完成。其核心流程可以拆解为以下几步第一步第一性原理数据集的生成与准备。这是整个工作的“燃料”。数据集的质量和覆盖面直接决定了MLP的上限。针对钛酸钡我们需要采集覆盖其所有相关相立方C、四方T、正交O、三方R以及相变路径中间态的原子构型。采样方法包括常温常压下的分子动力学采样在不同初始相下运行短时间的AIMD采集动态轨迹中的构型。势能面扫描沿着特定的反应坐标如某个铁电软模的振幅、晶格常数手动构造一系列静态畸变构型。主动学习/迭代训练这是更高效的策略。先用一个初步训练的MLP跑MD当MLP遇到预测不确定性高如神经网络委员会预测方差大的构型时将这些构型提交给第一性原理计算并将新数据加入训练集重新训练MLP。如此循环直至MLP在感兴趣的温度和压力范围内都保持高置信度。第二步原子结构描述符的选择与计算。这是将原子坐标转化为机器学习模型可读输入的“翻译官”。对于钛酸钡这种钙钛矿结构常用的有平滑重叠原子位置SOAP描述符或原子中心对称函数ACSF。它们能将每个原子周围的局部化学环境邻居原子的种类、距离、角度转化为一个固定长度的、旋转和平移不变的向量。这个步骤需要仔细调节描述符的超参数如截断半径应大于相互作用的范围、高斯函数的宽度等以确保能充分捕捉到关键的原子间相互作用。第三步机器学习模型的训练与验证。将数据集描述符作为输入第一性原理计算的总能量、原子力、应力可选作为输出按比例如8:1:1划分为训练集、验证集和测试集。常用的模型有神经网络如Behler-Parrinello型、高斯过程回归或近年来流行的图神经网络如MACE、Allegro。训练时损失函数通常是能量、力和应力的加权均方误差之和。这里有一个关键技巧力的权重通常要设得比能量大很多例如100-1000倍因为力的数据点数量远多于能量每个构型有3N个力分量但只有一个能量且如前所述力的精度对MD模拟至关重要。训练过程中要密切关注验证集误差防止过拟合。第四步势函数的部署与MD引擎集成。训练好的模型需要封装成LAMMPS、ASE或i-PI等主流MD程序可以调用的势函数格式。这通常需要编写一个包装器实现计算给定原子位置下的能量、力和应力的接口。集成后必须进行严格的基准测试如图S1-S3所示在独立的测试集上全面评估其精度。3.2 量子热浴耦合分子动力学的实现细节将QTB与基于MLP的MD模拟结合在技术实现上需要注意以下几个要点1. 积分器的选择与参数设置QTB引入的频率相关噪声要求积分器能够稳定地处理有色随机力。通常采用速度Verlet等时间可逆的积分算法。关键参数是朗之万方程中的摩擦系数γ。γ太小系统与热浴耦合弱达到平衡慢γ太大动力学会被过度阻尼可能影响相变动力学。需要针对具体体系进行测试选择一个能使系统在合理时间内达到平衡且不显著改变系统本征动力学的γ值。2. 噪声谱的生成与截断理论上量子涨落-耗散定理定义的谱密度J(ω)频率范围是0到无穷大。实际计算中需要设定一个合理的截止频率ω_c。这个频率应高于体系中所有重要的振动模式的频率可以通过先运行一段经典MD并计算振动谱来估计。对于钛酸钡其最高光学支频率通常在几百个波数cm⁻¹量级据此可以设定ω_c。生成有色噪声时通常在频率空间生成符合指定谱密度的随机数再通过逆傅里叶变换得到时域噪声。需要确保噪声的随机种子设置正确以便结果可重复。3. 模拟流程的编排一个典型的QTB-MLPMD模拟流程如下初始化构建特定相如立方相的超胞根据目标温度初始化原子速度麦克斯韦-玻尔兹曼分布。平衡阶段在NPT或NVT系综下运行足够长的QTB-MD使体系能量、温度、压力、晶格参数等物理量达到稳定。图S4-S6中时间序列的起始部分就是平衡过程。生产阶段继续运行QTB-MD采集用于统计分析的数据。此阶段需要足够长以获取良好的统计平均并观察可能的相变涨落。观测量的计算从轨迹中提取晶格常数a, b, c、晶胞体积、Ti原子相对于其最近邻氧八面体中心的平均位移作为铁电极化序参量的代理、以及它们的统计平均值和标准偏差如图S10-S12中的μ和σ。4. 压力与温度的控制研究P-T相图需要精确控制压力。通常使用 Parrinello-Rahman 等压控温方法将目标压力作为输入。通过改变目标压力值在一系列压力点下进行模拟从而勾勒出相边界。温度则由QTB热浴本身控制其设定的温度参数T决定了噪声谱的强度。3.3 相变识别与数据分析方法从模拟的海量轨迹数据中准确识别相变点和相结构是另一个技术关键。文中主要采用了两种互补的分析方法1. 晶格参数与序参量监测这是最直观的方法。如图S10所示在不同恒定温度下逐步改变压力进行模拟记录平衡后的晶格参数a, b, c。当体系发生相变时晶格对称性改变会反映在晶格参数的关系上。例如立方相 (C)a b c。四方相 (T)a b ≠ c通常c轴略长。正交相 (O)a ≠ b ≠ c但特定关系取决于原胞选取。三方相 (R)a b c但夹角α β γ ≠ 90°在伪立方晶胞描述下表现为a, b, c有微小差异且伴随原子位移。 通过观察晶格参数随压力的突变或交叉点可以初步判断相变压力。同时如图S11所示监测Ti离子相对于O离子的位移δTi-O在顺电立方相中这个位移的平均值应为零在铁电相中它会沿某个或某几个方向出现非零的平均值直接指示了极化方向。2. 统计分析与误差估计文中提到晶格参数和位移的数值是作为“μ1, μ2, μ3, with an error bar as σ1, σ2, σ3 in Eq. (4)”给出的。这里的μ likely是生产阶段轨迹的时间平均值而σ是其标准误差标准差除以平方根观测次数用于衡量统计的不确定性。在相变点附近这些序参量的涨落σ通常会显著增大这是相变临界现象的一个特征。因此误差棒的大小本身也提供了相变区域的信息。3. 相变压力的确定图S10和S11中的黄色竖线标识了估计的相变压力。这通常是通过寻找序参量如c/a比值或某个方向的δTi-O随压力变化曲线的拐点或者观察不同相的自由能可通过热力学积分或直接比较相共存模拟获得交叉点来确定的。在MLP-MD模拟中有时也会直接观察在某个压力下体系是否会从一种相的自发涨落演变为另一种相。4. 结果解读与核量子效应量化分析4.1 压力-温度相图的重构与对比图S10和S11是整个研究的成果核心它们直观地展示了结合QTB考虑NQE和经典热浴CTB忽略NQE两种情况下钛酸钡的相图如何随压力变化。观察图S10晶格参数和图S11Ti-O位移一个清晰的模式是在所有研究的温度下100K-300K使用QTB左列子图与使用CTB右列子图所得到的相变压力黄色竖线位置存在系统性差异。具体来说考虑核量子效应QTB后相变压力线整体向高压方向移动。例如在150K图S10c,d从正交相(O)到四方相(T)的转变QTB模拟给出的相变压力高于CTB模拟。这背后的物理图像是核量子效应特别是轻原子氧的零点振动对晶格有“软化”或“膨胀”效应。零点能使得原子即使在绝对零度也在平衡位置附近振动这种额外的动能贡献等效于一种“量子压力”抵抗外部的机械压缩。因此当考虑NQE时需要施加更大的外部压力才能迫使晶体从一种相通常原子位置更不对称转变为另一种相通常更对称。换句话说NQE稳定了低温下的铁电相使其在更高的压力下才转变为顺电相。4.2 体积-压力关系与实验验证图S12提供了另一个关键验证晶胞体积随压力的变化。图中将QTB和CTB在不同温度下模拟得到的体积-压力曲线与实验测得的常温常压体积范围黄色区域64.2-64.4 ų进行了对比。这里可以解读出两点重要信息绝对体积的准确性在常压附近P≈0无论是QTB还是CTB模拟预测的晶胞体积与实验值吻合得相当好。这首先验证了MLP本身在描述钛酸钡基态和近平衡结构方面的准确性。压缩行为的差异随着压力增加体积减小。对比QTB和CTB的曲线可以发现考虑NQEQTB的体系在相同压力下体积略大于经典CTB体系。这再次印证了量子零点振动对晶格的“支撑”作用使得量子体系更难被压缩。这种差异在低温下如100K应该更为明显因为此时量子效应占比更大。实操心得将模拟结果如晶格常数、体积与已知的高质量实验数据在某个点通常是常温常压进行对标是验证整个计算方案包括MLP和模拟方法可靠性的黄金标准。如果在这个基准点上都有较大偏差那么对相变压力等更精细物理量的预测就需要格外谨慎。图S12的这种对比极大地增强了整个研究结论的可信度。4.3 超胞尺寸对模拟结果的影响评估图S4-S9展示了在150K下不同超胞尺寸12^3, 16^3, 20^3的模拟中晶格参数和Ti-O位移随时间演化的轨迹。仔细分析这些图我们可以获得关于模拟收敛性的信息晶格参数图S4-S6对于较小的12^3超胞晶格参数a, b, c随时间有可见的波动且三条曲线分离不够清晰在铁电相中它们应该分开。随着超胞增大到16^3和20^3波动减小晶格参数趋于稳定并且不同轴向的参数差异各向异性更加明确和稳定地呈现出来。这表明20^3的超胞已经能够较好地代表体材料有限尺寸效应得到了有效抑制。离子位移图S7-S9Ti-O位移的演化图传达了类似的信息。在小超胞中位移的涨落较大且可能由于周期性边界条件强加的虚假关联使得极化方向不够稳定。在大超胞中位移序参量表现出更稳定的非零平台对应铁电相或零平台对应顺电相涨落减小。结论是对于钛酸钡这种长程相互作用重要的铁电体使用足够大的超胞文中20×20×20对于获得收敛的、可靠的相变性质和序参量至关重要。基于小超胞的模拟可能会低估相变能垒或者得到被尺寸效应扭曲的相变动力学。5. 常见问题、挑战与应对策略在实际操作QTB-MLPMD模拟研究相变的过程中会遇到一系列典型问题。以下是一些“踩坑”经验总结问题1MLP在相变点附近预测不准导致模拟“卡住”或得到错误相。表现模拟中体系能量异常升高原子受力突然变大甚至出现原子“飞散”的非物理情况。原因训练数据集缺乏相变路径附近即势能面鞍点区域的构型样本。MLP在数据稀疏的外推区域预测不确定性高给出错误能量/力。解决方案实施主动学习Active Learning。具体步骤a) 用初始MLP运行一段高温MD或施加应变故意让体系探索构型空间b) 实时监控MLP的预测不确定性如委员会模型的方差c) 当不确定性超过阈值时保存当前构型中断模拟d) 用第一性原理计算这些“不确定构型”的能量和力e) 将新数据加入训练集重新训练并更新MLPf) 用新MLP继续模拟。如此迭代直至MLP在目标相变区域表现稳健。问题2QTB模拟中体系温度或能量持续漂移无法达到稳定。表现系统总动能或温度偏离设定值并随时间单调上升或下降。原因可能是积分时间步长Δt设置过大导致数值不稳定或者摩擦系数γ与噪声谱的离散化参数不匹配也可能是QTB实现中存在数值误差累积。解决方案首先检查并减小时间步长如从1 fs减至0.5 fs。其次验证有色噪声生成算法的正确性确保生成的随机力满足预期的自相关函数和谱密度。可以单独测试噪声生成模块计算其功率谱是否与理论的J(ω)一致。最后确保QTB与所选系综NVT/NPT控温控压方法的兼容性。问题3如何确定一个相变是真实的而不是由模拟参数或有限尺寸效应引起的假象表现在某个压力/温度点序参量发生突变但重复模拟结果不一致或者超胞尺寸改变后突变点移动很大。解决方案进行系统的有限尺寸缩放分析。就像文中做的那样至少在3个不同尺寸的超胞下重复关键点的模拟。如果相变点如晶格参数突变对应的压力随着超胞增大而收敛到一个稳定值那么可以认为是体相变。此外可以计算序参量如极化矢量的分布函数在真的一级相变点附近通常会观察到双峰分布两相共存而连续相变则表现为单峰分布的展宽。问题4计算资源消耗巨大如何优化挑战QTB-MLPMD模拟特别是大超胞、长时间模拟对计算资源要求很高。优化策略MLP推理优化选择计算效率高的MLP架构如使用线性模型或经过高度优化的神经网络如使用LAMMPS的pair_style pace或pair_style nnp。利用GPU加速MLP的能量和力计算。并行计算将MD模拟在数百甚至数千个CPU核心上进行空间分解并行。MLP评估部分也应支持并行。采样策略并非所有压力点都需要从头跑长时模拟。可以采用热力学积分或复本交换平行回火方法更高效地扫描相图。数据存储只保存必要的观测量的时间序列或统计量而非每一帧的全体原子坐标以节省I/O和存储空间。问题5如何区分核量子效应与其他效应如非谐性的影响深度分析QTB方法本身已经包含了简谐近似下的量子效应。要更精确地评估非谐性对NQE的贡献可以将QTB-MD的结果与更精确但昂贵得多的路径积分分子动力学PIMD结果进行对比。如果两者在关注的性质如相变温度偏移上吻合良好说明QTB的近似在此体系中是足够的。如果差异显著则可能需要考虑更高的方法如基于PIMD的机器学习势函数模拟但这会带来巨大的计算负担。在大多数情况下对于像钛酸钡这样的氧化物QTB已被证明是捕捉NQE对相变影响的一种有效且高效的近似。