关注公众号的朋友都知道郑老师我之前连续4年开设了“30天学会医学统计学”从理论到实操一步一步教会大家统计学、SPSS课程。2026年我们对这门课程进行全新升级课程时间大幅度缩短内容大幅度提升我称为9天实用医学统计学公益训练营。课程介绍“9天实用医学统计学”公益训练营即将启动更高效、更高级的统计课本课程是浙江中医药大学医学统计学教研室的公益、免费公开视频课不是骗人入坑收费的广告。本课程公益视频课定期开课欢迎您参与学习。欢迎报名本公众号“医学论文与统计分析”后台回复“报名”加入微信学习群吧。Day 4-3 倾向性得分加权今天我们继续学习倾向性得分加权分析方法。这个方法非常重要在本小节中我删去了一些非常前沿的概念因为对初学者来讲这理解起来有点难度。但是剩下的内容非常重要希望大家能认真学习。“反事实”框架与反事实结果我们讲倾向性得分加权先讲第一个概念反事实。√什么是“反事实”框架什么是“反事实”结果100多年前科学哲学家大卫·刘易斯提出了“反事实”框架作为因果推论的标准。举个例子假如有一个人在某种服药状态暴露A下可以观察到某种结果B这是事实结果。那么反事实就是这个人此时如果不服药会得到另外一个结果B这个结果叫反事实结果。反事实结果是观察不到的——因为违反事实它是灰色的。再比如研究一种新降压药A想知道它能不能降血压。每个人面对这个药物时都有两个潜在结果一个是服用药物A的结果一个是不服用药物A的结果。对于每个服药的人来说我们只能观察到一个结果他要么服药要么不服药。如果他服药你就观察不到他不服药的结果。每个人在现实世界中只有一种状态——事实状态没有反事实状态。√为什么反事实很重要假如同一个个体我们既能观察到他的事实结果服药又能观察到他的反事实结果不服药然后算个差值这个差值不就是药物带来的净效果吗服药和不服药针对同一个人完全可比这个差值就是我们想要的处理效应。但实际上这是不存在的。打个比方说有一个平行世界两个你——这个地球上你服药另一个地方你不服药算个差值。这就是我们想要的但不存在。√如何近似实现反事实可以说随机对照研究RCT是最接近反事实框架的研究。它通过随机分组一组干预组、一组对照组两组人群非常相似。相似的两组人群不就接近事实与反事实吗同时开始处理一组服药、一组不服药他们之间的差异就是事实与反事实状态下的差异。因此随机对照研究是最接近科学要求的因果推断是产生正确结果的金标准方法。观察性研究中倾向性得分方法也可以塑造出反事实人群因此它也属于反事实框架的研究。上一节我们讲的匹配就是产生两组相似的个体那不就是事实与反事实吗但匹配有缺点——它扔掉了一大批研究对象。因此我们现在提出倾向性得分加权的方法包括逆概率加权和标准化死亡比加权。因果推断的三个重要效应指标在学习这两种加权方法之前我们先引入几个新的概念。还是用之前的例子治疗非小细胞肺癌药物的前瞻性队列研究暴露组是放疗加纳武利尤单抗对照组是传统放疗两组是不可比的。假设1000例患者是我们随机抽样得到的代表性样本代表着真实世界的所有肺癌患者。其中600例代表愿意接受联合治疗的患者400例代表倾向于传统放疗的患者。基于反事实框架思考以下两个问题1.所有1000个人都接受了联合治疗效果怎么样2.本来就倾向于接受联合治疗的患者最后接受了联合治疗效果怎么样你肯定能理解这两个结果是不一样的因为研究对象有区别1000个人和600个人是有差异的。这里就涉及到评价效果的几个重要概念简单来说。ATE是1000例都接受联合治疗 vs 1000例都不接受联合治疗所有人都吃药 vs 所有人都不吃药ATT是那些本来就想接受联合治疗的人最后接受了联合治疗的效果代表暴露组对象ATC是那些本来接受传统放疗的群体最后接受了联合治疗的效果。这三个群体是不同的效应也是不一样的。倾向得分加权时不同的加权方法算出的效应是不一样的。这三个概念是因果推断非常基础的评价效应概念尤其是ATE是因果推断的重要专用名词。如果不开展倾向得分加权、不构造反事实人群ATE、ATT、ATC都很难直接获得算ATE时如果直接比较暴露组与对照组两组不均衡、不可比没法评价算ATT时事实人群只有暴露组没有反事实人群对照组没法评价算ATC时只有对照组没有接受暴露的反事实人群没法评价。因此我们必须构造反事实的群体来计算ATE、ATT、ATC。逆概率加权与标准化死亡比加权倾向得分加权通过加权的方法获得事实人群和反事实人群。加权时首先要设置一个参考群体这个参考群体叫标准化群体。我们通过权重对齐使得暴露组和对照组的人群特征与参考群体一致这样两组就可比了。逆概率加权是最常见的它是以所有观察对象作为标准人口进行对齐。标准化死亡比加权用得不多它以暴露组对象的特征作为标准人口进行对齐对照组要乘一个系数使得加权后对照组与暴露组的特征相似。标准化方法举例甲疗法 vs 乙疗法某医院用甲疗法和乙疗法分别治疗400例胃溃疡患者有普通型和危重型两种。可以看到甲疗法75%是普通型乙疗法75%是危重型。无论普通型还是危重型都是乙疗法治愈率更高但汇总后却显示甲疗法治愈率更高——这就是混杂偏倚病情的分布结构不一样导致的。√标准化的思想我们希望用标准化方法对齐甲疗法和乙疗法的人群特征然后再比较两种疗法。标准化方法就是在共同的标准上计算标准化率比较两组或多组。共同标准可以是大样本群体如全省、全国、世界人口构成用于比较不同国家或省份也可以将比较的一组作为标准标准化死亡比加权也可以将比较的组别合并作为标准逆概率加权。标准化使用的标准不同标准化率也不同因此算出来的效应也不一样。但无论哪种标准结果的方向不会改变——甲疗法差永远是甲疗法差。√具体计算将比较的组别合并作为共同标准甲疗法乙疗法共800人普通型和危重型各400人。按照甲疗法的治愈率、乙疗法的治愈率计算甲疗法的预期治愈数380乙疗法的预期治愈数427甲疗法标准化率47.5%乙疗法标准化率53.4%乙疗法比甲疗法更高纠正了原先的错误结论。从实际人数到标化人口甲疗法危重型乘以1.33的系数乙疗法普通型乘以4、危重型乘以1.33。这一顿操作后甲疗法和乙疗法的分析对象都变成了800例就可比了。√倾向得分加权的算法逻辑倾向得分加权通过加权的方法获得事实人群和反事实人群。这种加权的方式首先要设置一个参考群体这个参考群体叫标准化群体。我们实际的引用对象通过权重对齐——通过加权使得暴露组和对照组的人群特征都与参考群体一致那就可比了。逆概率加权缩写是IPTW这是最常见的--它是以所有观察对象作为标准人口进行对齐。这个标准人口就是所有观察对象——刚才讲的1000例就是我们的所有观察对象。标准化死亡比加权法简写是SMRW这种方法用得不多--它以暴露组对象600例的特征作为标准人口进行对齐对照组要乘一个系数。加权完了之后对照组与暴露组的对象特征相似——也就是以暴露组作为标准人口进行对齐。也有文献把第一种称为逆概率加权ATE第二种称为逆概率加权ATT两种方法的核心区别在于逆概率加权IPTW以总人口作为标准人口算出的效应是ATE标准化死亡比加权SMRW以暴露组作为标准人口算出的效应是ATT。我们来看下面这个示意图。总人口的特征和我们刚才讲的暴露组、对照组特征都相似了这个叫IPTW逆概率加权算出来是ATE。再看这个图有一个暴露组的群体黄色的。我们按照暴露组群体进行加权最后对照组跟暴露组的特征都相似了这个叫标准化死亡比加权它算出来是ATT。√逆概率加权的具体算法我们再稍微拓展讲一下逆概率加权的算法。IPTW是利用倾向性评分倒数来处理数据间混杂的方法。它有两种加权方法Robins法和海曼法。Robins法普通型是早期的一种策略。它的权重算法是暴露组权重 1/PS对照组权重 1/(1-PS)它的缺点是加权后样本量与原样本量不一致可能远远大于原样本量。样本量不一致抽样误差就改变了数据分析可能就有问题。样本量增加了容易导致假阳性结果出现——看起来挺好但是不靠谱。海曼法稳健型又称稳健法。为什么叫稳健法因为加权后的总样本量和原样本量基本一致。在算法上它有一个PT这个PT就是暴露组所占的比例。权重算法是暴露组权重 PT/PS对照组权重 (1-PT)/(1-PS)算法上非常简单我们手工就可以快速算出来。推荐使用海曼法稳健型IPTW。因为用稳健型的IPTW可以降低假阳性率的发生。现在我们都推荐稳健型的IPTW我们在看英文文献的时候可以看到这个方法的描述。郑老师有些时候看文章会看它的样本量从样本量就可以看出它是稳健型的还是普通型的。加权后的数据分析加权后一般基于加权的分析工具进行分析。R语言比较流行有一个survey包可以进行加权分析例如加权t检验、加权卡方检验、加权回归。如果这个时候还存在自变量分组不均衡那么我们可以纳入这些自变量和暴露因素开展多因素的加权回归例如多因素的加权Logistic回归多因素的加权Cox模型进一步控制混杂偏倚。小结以上就是倾向性得分加权的理论内容。后面我们再讲实践。如果你对整个倾向性得分章节有问题可以在公众号“医学论文统计分析”后台回复4001我们会不断把大家的问题纳入答疑帖方便大家理解。最后提醒要学习本推文的完全对应的课程视频请发送关键词“报名”至公众号加入高校公益免费课程群来学习吧。关于郑老师团队及公众号全国较大的医学统计服务平台专注于医学生、医护工作者学术研究统计支持郑老师团队可以提供诸多统计支持各式统计课程、临床试验设计构建预测模型与真实世界研究“双库”保发表训练营、医学数据库挖掘详情联系助教小董咨询微信号aq566665