当前位置：首页 > news >正文

纵向数据缺失处理：FIML、TSRE与机器学习方法对比与选择指南

news 2026/5/24 7:02:54

1. 项目概述与核心挑战在纵向研究的实际操作中数据缺失几乎是每个研究者都会遇到的“家常便饭”。想象一下你正在追踪一群学生从入学到毕业的学业表现计划每学期收集一次数据。但总会有学生因为转学、生病或单纯忘记填写问卷导致某个时间点的数据“消失”了。这些缺失的数据点就像拼图里丢失的几块如果处理不当最终描绘出的成长轨迹图可能完全失真导致研究结论南辕北辙。这就是缺失数据处理的核心价值所在——它不仅仅是填补空白更是为了确保我们从有限且不完整的信息中能挖掘出最接近真相的规律。传统上我们依赖像全信息最大似然估计FIML这样的统计方法。它的思路很巧妙既然数据缺失了我就不去硬“猜”缺失值是什么而是直接基于每个个体已有的数据即“全信息”通过最大化一个似然函数来估计模型参数。这好比侦探破案不纠结于丢失的线索本身而是利用所有现场留下的痕迹去最合理地还原犯罪过程。FIML在数据符合多元正态分布且缺失机制为随机缺失MAR时表现堪称完美。但现实数据往往“不听话”存在偏态或异常值即非正态此时FIML的估计就可能产生偏差。于是两阶段稳健估计TSRE应运而生。它像一位经验丰富的质检员分两步走第一阶段先用一种稳健的方法计算数据的均值和协方差矩阵这个过程会自动给那些远离数据主体的“异常点”赋予较低的权重从而得到一套“清洗”过的、更能代表主体数据的统计量第二阶段再将结构方程模型套用在这套稳健的统计量上进行估计。这种方法对非正态数据展现了良好的韧性。与此同时机器学习领域为我们提供了另一套工具箱。比如K近邻KNN插补它的逻辑非常直观要估计一个缺失值就在数据集中找到和它最相似的k个“邻居”然后用这些邻居的值的平均数连续变量或众数分类变量来填补。另一种强大的方法是随机森林RF特别是其单次插补实现missForest它通过构建大量决策树来预测缺失值能捕捉变量间复杂的非线性关系。更有甚者为了考虑填补的不确定性多重插补方法如micecart和miceForest被开发出来它们不是只生成一个填补后的数据集而是生成多个最后将多个数据集的分析结果合并得到更稳健的推断。那么面对纵向数据中的缺失尤其是在棘手的非随机缺失MNAR和非正态分布并存的情况下我们究竟该信任传统统计方法的深厚理论根基还是拥抱机器学习方法的灵活与强大这正是本次模拟研究试图回答的核心问题。我们将通过蒙特卡洛模拟在可控的条件下让FIML、TSRE、KNN、missForest、micecart和miceForest这六位“选手”同台竞技看看在不同样本量、缺失率、缺失机制和数据分布的场景下谁的表现更胜一筹。2. 核心方法原理深度拆解要理解不同方法的优劣必须先深入其原理。这不仅关乎“怎么用”更关乎“为什么这么用”以及“什么时候用最合适”。2.1 传统统计方法基于模型的优雅与局限全信息最大似然估计FIML的精髓在于“因材施教”。对于纵向数据中的每个个体无论他/她缺失了哪几个时间点的数据FIML都会基于该个体实际观测到的数据为其单独计算一个似然函数。这个似然函数衡量的是在当前的模型参数下观测到的数据出现的可能性有多大。最后将所有个体的似然函数相加或更准确地说考虑到独立性是相乘取对数得到总似然函数并通过迭代算法找到使这个总似然函数最大化的那组参数。这就是“最大似然”的含义。注意FIML并不直接“猜测”或填补缺失值。它是在模型估计过程中将缺失机制如果是MAR整合进似然函数从而在参数估计阶段就自动校正了缺失带来的影响。这避免了插补方法可能引入的额外误差。然而FIML的“阿喀琉斯之踵”在于其正态性假设。它的数学推导建立在误差项服从多元正态分布的基础上。当数据严重偏态或存在厚尾时基于正态假设推导出的标准误和检验统计量如卡方就会不准导致假设检验的I类错误率失控。在实际操作中缺失的存在会让分布检验变得更困难有时观测数据看起来正常但总体其实是非正态的这进一步增加了误用FIML的风险。两阶段稳健估计TSRE的设计哲学是“去芜存菁”。它的第一阶段采用稳健M估计量。你可以把它理解为一个智能过滤器在计算均值和协方差时它会根据数据点与主体数据的“距离”动态分配权重。距离中心越远的点可能是异常值权重越低距离越近的点权重越高。这样计算出的均值和协方差矩阵对少数异常值不敏感更能反映数据主体的特征。第二阶段将标准的SEM拟合函数如最大似然拟合函数应用于这套稳健的均值和协方差矩阵求解模型参数。实操心得TSRE的强大之处在于其第一阶段对非正态和异常值的稳健性。但在使用类似rsem这样的R包时需要留意其默认的稳健估计方法如Huber权重函数以及调节参数。对于极端异常值可能需要调整权重函数或考虑其他稳健方法。2.2 机器学习方法数据驱动的灵活与挑战K近邻KNN插补的核心是“物以类聚”。它的成功极度依赖于两个因素距离度量和k值选择。距离度量对于混合类型数据连续变量和分类变量并存常用高尔距离。它能同时处理不同类型的数据计算一个综合的距离。如果所有变量都是连续的欧氏距离就更简单直接。k值选择这是KNN的“艺术”部分。k太小如k1模型会对噪声极度敏感相当于直接用最近邻的值填充波动大k太大可能会把不相似的“远邻”也包含进来平滑过度掩盖了真实的局部结构。通常需要通过交叉验证来选择一个适中的k值。随机森林RF与missForestRF通过Bootstrap聚合Bagging和随机特征选择来构建大量差异化的决策树然后通过投票分类或平均回归做出最终预测。missForest将RF用于插补的流程非常系统初始化用均值、中位数等简单方法给所有缺失值一个初始猜测。循环插补按缺失比例从低到高排序变量。对每个有缺失的变量将其作为“因变量”其他所有变量包括已用当前估计值填充的作为“自变量”训练一个随机森林模型来预测其缺失值。迭代更新用新预测的值更新数据集然后重复步骤2。收敛判断比较本次迭代与上次迭代整个数据矩阵的差异如均方误差。当差异小于某个阈值或达到最大迭代次数时停止。注意事项missForest虽然通过迭代和大量树来提升精度但其最终输出是单次插补数据集。这意味着它没有考虑插补本身的不确定性可能导致后续分析的标准误被低估。这是所有单次插补方法的通病。多重插补MI与mice框架为了克服单次插补的缺陷Rubin提出了多重插补理论。其核心思想是既然缺失值不确定我们就基于某种模型如回归、决策树随机抽取多个可能的值来填补从而生成M个通常M20完整的“副本”数据集。然后对每个数据集分别进行相同的模型分析最后用Rubin法则将M个结果合并得到总体参数估计、标准误和置信区间。mice包实现了这一思想而micecart和miceForest则是用CART树或随机森林作为mice框架中每个变量的插补模型。关键区别missForest是单次插补输出一个数据集miceForest是多重插补输出M个数据集并通过Rubin法则合并结果。后者在理论上能提供更准确的区间估计。3. 模拟研究设计与实操要点为了公平、系统地比较这些方法我们设计了一个基于增长曲线模型GCM的蒙特卡洛模拟。GCM是分析纵向数据的利器它能同时刻画个体的发展轨迹斜率和起点差异截距。3.1 数据生成机制我们模拟一个最简单的无条件线性增长模型有4个时间点T4。总体模型参数我们设定潜变量截距的均值为6斜率的均值为2。这意味着平均起始水平是6平均每单位时间增长2。截距和斜率的方差都设为1两者相关系数为0独立。测量误差的方差也设为1。数据分布关键操纵我们通过操纵测量误差ei的分布来生成不同形态的数据正态分布ei ~ N(0,1)作为基准。对数正态分布ei ~ Log-Normal(0,1)产生严重的右偏态数据。t分布5个自由度ei ~ t(5)产生厚尾分布极端值出现概率更高。正态分布含5%异常值95%的数据来自N(0,1)5%的数据来自N(5,1)模拟数据被少量高离群值污染的情况。缺失机制生成MAR让时间点t的观测值是否缺失依赖于前一个时间点t-1的观测值。例如如果yi1第一次测量的值超过某个阈值c1则yi2, yi3, yi4缺失。阈值c1根据设定的缺失率如15%反推确定。MNAR生成一个与潜变量斜率bis高度相关r0.8的辅助变量Auxi。如果Auxi超过某个百分位数阈值pt则对应时间点的yit缺失。由于Auxi不进入增长模型分析且与未观测的斜率相关因此缺失机制是非随机的。3.2 实验因子与软件实现我们操纵了四个可能影响方法表现的因素构成一个全面的实验设计样本量N100 200 500 1000 5000。覆盖了小样本到大数据场景。缺失机制MAR MNAR。缺失率mr0%基线 5% 15% 30%。数据分布上述四种。对于每个由N 机制 mr 分布唯一确定的实验条件我们使用R语言生成500个模拟数据集。然后分别用六种方法处理每个数据集FIML使用lavaan包在模型设定中直接使用missing fiml选项。TSRE使用rsem包进行稳健估计。KNN使用VIM包中的kNN()函数。关键参数k邻居数需要通过预实验优化。missForest使用missForest包中的同名函数。micecart使用mice包设置method cart。miceForest使用mice包设置method rf。对于多重插补方法micecart miceForest我们将插补次数m设为20这是文献中公认的能达到良好效率与精度平衡的常用值。3.3 超参数调优实战机器学习方法的性能对超参数敏感。我们在正式模拟前针对KNN、CART和RF进行了小规模的预实验来调优。对于KNN我们尝试了k 3, 5, 7, 10, sqrt(N)等不同取值。在纵向数据中由于时间序列的自相关性k值不宜过大否则会模糊时间趋势。预实验发现对于我们的模拟设置k5在大多数情况下能在偏差和方差间取得较好平衡。对于CARTmicecart和RFmissForest/miceForest主要超参数是树的数量ntree和树的最大深度/节点复杂度。我们测试了ntree 100, 200, 500。结果发现超过200棵树后性能提升微乎其微但计算成本显著增加。因此在正式模拟中我们设定ntree 200。对于树复杂度我们使用包的默认设置这通常包含了防止过拟合的剪枝策略。调优经验超参数调优没有“一招鲜”。对于实际研究数据建议在分析前划出一小部分完整数据人为制造已知的缺失然后用不同的超参数设置进行插补以均方误差MSE或平均绝对误差MAE作为指标选择在你自己数据上表现最好的那组参数。这是一个虽繁琐但至关重要的步骤。4. 性能评估指标与结果解读我们如何判断一个方法“好”还是“不好”在模拟研究中我们关注两个核心维度准确性和效率。4.1 评估指标详解相对偏差Relative Bias, RB衡量参数估计值的平均值与真实参数值之间的系统性偏离程度。RB (平均估计值 - 真实参数) / 真实参数RB的绝对值越小越好。通常|RB| 0.05被认为是可以接受的轻微偏差|RB| 0.10则表明存在值得关注的偏差。均方误差Mean Squared Error, MSE衡量估计值的总体误差它同时包含了偏差和方差。MSE 平均[ (估计值 - 真实参数)^2 ] 方差(估计值) (偏差)^2MSE越小说明方法的估计越精确、越稳定。经验覆盖率Empirical Coverage Rate对于95%的置信区间我们计算在500次重复模拟中有多少次置信区间包含了真实的参数值。理想覆盖率是95%。覆盖率显著低于95%说明区间过窄过于自信高于95%说明区间过宽过于保守。4.2 主要研究发现与场景化建议基于模拟结果我们可以得出一些具有高度实践指导意义的结论场景一数据为MNAR机制最棘手的情况发现FIML在大多数MNAR条件下表现出了最小的相对偏差和最理想的覆盖率即使是在非正态数据下如t分布其偏差也控制在可接受范围内。原理分析这似乎有悖于FIML的正态假设弱点。但关键在于在MNAR下缺失机制与未观测值相关。FIML作为一种基于模型的方法其似然函数在特定模型设定下虽然我们模拟的是无条件模型某种程度上内在地对缺失机制进行了建模尽管是默认的。而大多数插补方法无论是KNN还是随机森林在MNAR下仅基于观测数据来预测缺失值无法校正由缺失机制本身引起的偏差。实操建议当你有强烈理由怀疑数据是MNAR时例如在追踪研究中因病情恶化而失访应优先考虑FIML。即使数据非正态其带来的偏差可能也小于MNAR机制未被校正带来的偏差。TSRE在MNAR下的表现不稳定有时偏差较大。场景二数据为MAR机制且呈非正态分布发现TSRE是此场景下的“冠军”。它在处理含异常值或厚尾分布的数据时偏差和MSE均显著低于FIML。原理分析MAR机制下缺失只与观测变量有关问题相对“单纯”。此时FIML受非正态性的影响被放大而TSRE第一阶段稳健估计的优势得以充分发挥有效抵抗了异常值和偏态的影响。实操建议对于社会行为科学中常见的偏态数据如反应时、问卷得分若缺失机制可近似为MARTSRE是比FIML更可靠的选择。在R中rsem包提供了便捷的TSRE实现。场景三大样本N ≥ 1000、低缺失率、极端偏态分布发现missForest在这种特定组合下展现了优势其估计精度有时能与TSRE媲美甚至略优。原理分析随机森林需要足够的数据来学习复杂的模式。大样本提供了丰富的“学习材料”低缺失率意味着模型构建时有更多可用的观测信息而极端偏态分布下树模型捕捉非线性关系的能力可能优于基于线性假设的稳健方法。但一旦样本变小或缺失率升高missForest的性能会迅速下降。实操建议仅在拥有海量数据且缺失很少同时数据分布极其复杂、非线性关系强烈时可以考虑尝试missForest。对于大多数中小样本的纵向研究它并非首选。场景四多重插补 vs. 单次插补发现在本次模拟的纵向增长模型背景下micecart和miceForest的表现并未显著优于其对应的单次插补思想或传统方法。有时由于插补模型与后续分析模型GCM不匹配甚至会产生更大的误差。原理分析多重插补的理论优势在于考虑不确定性但这建立在“插补模型正确或至少是兼容的”前提下。在纵向数据中时间序列的自相关结构和增长轨迹是复杂的关系。用默认的、变量间相互预测的mice框架可能无法很好地保持这种时间动态结构导致插补值扭曲了真实的个体变化轨迹。实操建议对于纵向数据不要盲目使用通用的多重插补包。如果要用必须使用专门为纵向数据设计的插补方法如jomo,pan包或者确保你的插补模型明确包含了时间结构和随机效应。否则简单的FIML或TSRE可能更安全。4.3 各方法优缺点速查与选择指南方法核心原理优势劣势推荐使用场景FIML基于每个个体观测数据构建似然函数最大化总似然。理论严谨直接处理缺失不引入插补误差对MNAR相对稳健。依赖多元正态假设非正态下标准误和检验可能不准。MNAR数据的首选MAR且数据近似正态时效果佳。TSRE两阶段1. 稳健估计均值和协方差2. 用稳健矩阵拟合模型。对非正态数据异常值、偏态非常稳健MAR下表现优异。计算量稍大对某些类型的MNAR处理不佳。MAR且数据非正态偏态、厚尾、含异常值时的首选。KNN用k个最相似邻居的值填补缺失。直观简单无需分布假设可处理混合类型数据。k值选择敏感计算量大需计算所有成对距离忽略变量间交互不适用于MNAR。低维数据、缺失模式简单、且确信为MCAR/MAR时的快速基线方法。missForest迭代式随机森林插补。能捕捉复杂非线性关系对异常值不敏感无需分布假设。计算成本极高黑箱模型结果为单次插补不适用于MNAR小样本表现差。大样本N1000、低缺失率、变量关系复杂、且为MAR时的备选。micecart/miceForest基于MICE框架用CART或RF进行多重插补。理论上考虑了插补不确定性能产生更准确的区间估计。计算成本极高插补模型若与分析模型不匹配会导致偏差在纵向数据中应用需格外小心。适用于横断面数据或有专门纵向插补模型的情况。作为探索性分析生成多个完整数据集供不同模型使用。5. 实战案例与避坑指南让我们用一个简化例子演示如何在R中实际应用FIML和TSRE分析一个含有缺失的纵向数据集。假设我们有一个名为long_data的数据框包含ID time score列格式为长格式。# 加载必要的包 library(lavaan) # 用于FIML library(rsem) # 用于TSRE library(ggplot2) # 用于绘图 # 假设数据已加载为 long_data # 1. 将数据转换为宽格式以便SEM软件使用 wide_data - reshape(long_data, timevar time, idvar ID, direction wide) # 2. 使用FIML拟合线性增长曲线模型 model_fiml - # 定义潜变量 i ~ 1*score.1 1*score.2 1*score.3 1*score.4 # 截距因子 s ~ 0*score.1 1*score.2 2*score.3 3*score.4 # 斜率因子线性增长 # 估计截距和斜率的均值与方差 i ~~ i s ~~ s i ~~ s # 测量误差方差可设定为相等 score.1 ~~ res*score.1 score.2 ~~ res*score.2 score.3 ~~ res*score.3 score.4 ~~ res*score.4 fit_fiml - growth(model_fiml, data wide_data, missing fiml) summary(fit_fiml, fit.measures TRUE) # 3. 使用TSRE拟合相同模型 # rsem通常需要直接指定变量名和模型 # 注意rsem的语法可能与lavaan略有不同请参考其文档 # 这里仅为示意流程 # fit_tsre - rsem(model_fiml, data wide_data) # summary(fit_tsre) # 4. 模型比较与诊断 # 检查FIML的正态性假设在缺失数据下需谨慎 lavInspect(fit_fiml, sampstat) # 获取样本矩 # 可以尝试对观测数据部分进行正态性检验如MVN包但解释力有限。 # 绘制个体增长轨迹仅使用观测数据 ggplot(long_data, aes(x time, y score, group ID)) geom_line(alpha 0.3) stat_smooth(aes(group 1), method lm, se TRUE, color red, size 1.2) labs(title 个体增长轨迹与总体趋势含缺失, x 测量时间点, y 得分)常见问题与排查技巧实录问题使用FIML时模型无法收敛或出现“非正定矩阵”错误。可能原因样本量过小、缺失率过高导致信息不足模型设定错误如过于复杂数据存在极端共线性。排查检查样本量尝试用更简单的模型。检查变量间的相关性矩阵看是否有|r| 0.9的变量。尝试用listwise删除法先分析完整案例看模型是否设定有误。对于增长模型确保时间编码正确因子载荷矩阵设定无误。问题TSRE估计结果与FIML差异巨大。可能原因数据中存在大量或极强的异常值TSRE的稳健估计将其权重降得很低。排查绘制数据的箱线图或散点图直观检查异常值。分别用FIML和TSRE拟合后比较个案的影响统计量如Cook‘s D看哪些个案被TSRE严重降权。考虑异常值的实质意义是数据录入错误还是真实的极端个体根据研究目的决定是保留用TSRE还是剔除需谨慎并报告。问题使用机器学习插补如missForest后后续的GCM分析结果变得不合理如斜率方差为负。可能原因插补过程破坏了变量间的协方差结构特别是时间序列的自相关。单次插补忽略了不确定性导致“确定性”过强。排查比较插补前后数据的相关矩阵和描述统计量。强烈建议对于纵向分析优先使用直接处理缺失的方法FIML TSRE或专门为纵向设计的多重插补。如果必须使用通用插补考虑在插补模型中纳入时间变量作为预测因子并尝试使用能保持时间结构的算法。问题如何判断数据是MAR还是MNAR这是一个根本性难题无法仅从数据本身得到确证。实践策略理论驱动基于研究设计和领域知识进行判断。例如在药物临床试验中因副作用退出更可能是MNAR在邮寄调查中忘记填写更可能是MCAR/MAR。敏感性分析这是处理MNAR怀疑的黄金标准。使用不同的方法如FIML 选择模型模式混合模型分析数据看结论是否一致。如果结论稳健则对缺失机制的假设依赖较小。收集辅助信息尽可能收集与缺失可能相关的变量即使它不是你研究的核心变量并将其纳入模型尝试将MNAR转化为MAR。在我多年的数据分析经历中最深的一点体会是没有一种处理缺失数据的方法是“银弹”。FIML和TSRE等模型方法与你的分析模型紧密结合理论性质明确是我在严肃的纵向研究中的首选。机器学习插补方法更像一把灵活的“瑞士军刀”在数据探索、预处理或预测任务中非常有用但在用于复杂的纵向模型推断时需要格外警惕其与后续分析模型的兼容性。最终的选择必须基于对数据缺失机制的理解、数据分布的认识、样本量的大小以及最重要的——通过敏感性分析来检验你的结论是否经得起不同处理方式的考验。当FIML和TSRE给出相似结论时我对结果就更有信心了当它们分歧很大时这正是需要深入挖掘、并在论文中坦诚报告的时候。缺失数据处理终究是一场与不确定性的共舞我们的目标是让舞步尽可能稳健而非追求绝对完美。

查看全文

http://www.zskr.cn/news/1364397.html