当前位置：首页 > news >正文

因果推断统一框架：从Riesz表示器到ATE估计方法融合

news 2026/5/25 10:46:57

1. 项目概述：一个统一的因果推断理论框架

在观察性研究中，我们常常面临一个核心挑战：如何从非随机分配的数据中，准确地估计一项干预（比如新药、政策、营销活动）的真实效果？这就是因果推断中平均处理效应（ATE）估计要解决的问题。过去十几年，机器学习与因果推断的交叉催生了众多方法，比如基于倾向得分的逆概率加权（IPW）、基于回归调整的方法、以及更复杂的去偏机器学习（DML）、目标最大似然估计（TMLE）等。这些方法看似各异，有的从“平衡”协变量分布入手，有的从“拟合”结果回归函数出发，让实践者在选择时难免困惑：它们之间到底有何联系？哪种方法在什么情况下更优？

最近，一项名为“直接去偏机器学习”（DDML）的研究，通过引入Bregman-Riesz回归这一数学工具，为这些纷繁复杂的方法提供了一个优雅的统一视角。这个框架的核心洞见在于，许多主流ATE估计方法，本质上都在做同一件事：以不同的方式逼近一个被称为“Riesz表示器”的关键量。这个量，你可能更熟悉它的其他名字：偏置校正项、聪明协变量，或者平衡权重。理解了这个统一框架，你就能像拥有了一张“方法地图”，不仅能看清不同技术路径之间的内在联系，还能在实际操作中，根据数据特性和研究目标，做出更明智、更稳健的方法选择。

2. 核心概念拆解：从ATE到Riesz表示器

在深入统一框架之前，我们必须先夯实几个基石性的概念。这些概念是理解后续所有方法统一性的前提。

2.1 平均处理效应（ATE）与潜在结果框架

我们面对的数据通常长这样：对于第i个个体，我们观测到其协变量Xi（如年龄、性别、收入）、处理指示变量Di（1表示接受处理，0表示对照），以及结果变量Yi（如健康状况、销售额）。潜在结果框架告诉我们，每个个体其实有两个潜在结果：Yi(1)（如果接受处理）和Yi(0)（如果未接受处理）。我们永远只能观测到其中一个，另一个是“反事实”的。平均处理效应τ0的定义就是这两个潜在结果期望值的差：τ0 = E[Yi(1) - Yi(0)]。

这里的关键假设是“无混淆性”：在给定协变量X的条件下，处理分配D与潜在结果(Y(1), Y(0))独立。简单说，就是所有影响处理和结果的混杂因素都已经被观测并包含在X中了。此外，还需要“重叠性”假设：每个个体都有一定的概率被分配到任一组，即倾向得分e(X) = P(D=1|X)既不接近0也不接近1。

2.2 Riesz表示器：那个无处不在的关键量

在诸多高效的ATE估计方法中，一个形如α0(D, X) = D/e(X) - (1-D)/(1-e(X))的项反复出现。它就是本框架的核心——Riesz表示器。

注意：这个式子看似简单，却内涵丰富。当D=1（处理组）时，它等于1/e(X)，即逆倾向得分权重；当D=0（对照组）时，它等于-1/(1-e(X))。它的作用是给每个观测值赋予一个权重，这个权重能“平衡”掉由倾向得分带来的选择偏差。

为什么它如此重要？我们可以从两个经典估计器看其作用：

逆概率加权估计器（IPW）：如果我们知道真实的α0，那么τ_IPW = (1/n) Σ [α0(Di, Xi) * Yi]就是τ0的一个无偏估计。它直接通过加权来构建一个“伪随机化”实验。
一步估计器（One-Step Estimator）：当我们用模型μ(d, x)拟合了结果回归函数后，一个简单的插件估计器τ_PI = (1/n) Σ [μ(1, Xi) - μ(0, Xi)]可能会因为模型误设而有偏。一步估计器通过加入α0进行偏置校正：τ_OS = (1/n) Σ { α0(Di, Xi)*(Yi - μ(Di, Xi)) + [μ(1, Xi) - μ(0, Xi)] }。这个校正项能确保即使μ的估计有误，只要α0估计得准，最终τ_OS仍能保持√n收敛速率（即达到参数估计的最优速率）。

由此可见，无论是纯粹的加权方法（IPW），还是回归调整基础上的增强方法（One-Step），α0都扮演着“校正者”的角色。因此，如何准确估计这个未知的α0，与如何估计结果回归函数μ0一样，成为了因果推断的双核心任务。

2.3 Neyman正交得分：稳健估计的基石

为了理解不同方法如何统一地估计α0，我们需要引入另一个关键概念：Neyman正交得分函数。对于参数τ（即ATE）以及两个扰动物μ和α，该得分函数定义为：ψ(X, D, Y; μ, α, τ) = α(D, X) * (Y - μ(D, X)) + μ(1, X) - μ(0, X) - τ

这个函数有一个非常好的性质，称为“Neyman正交性”或“双重稳健性”：当(μ, α)等于其真实值(μ0, α0)时，关于τ的导数信息达到最大，且关于μ和α的路径导数（即一阶偏导）为零。这意味着，即使我们对μ或α的估计存在一些小误差（以快于n^{-1/4}的速率收敛），最终基于此得分方程求解得到的τ的估计量，其渐近分布不会受到影响，依然保持√n收敛和正态性。这为使用灵活的机器学习模型（如随机森林、神经网络）来估计μ和α提供了理论保障，即“去偏机器学习”（DML）的核心思想。

3. 统一框架：Bregman-Riesz回归下的方法大融合

现在，让我们进入核心部分。DDML框架指出，Riesz回归、协变量平衡、密度比估计（DRE）和匹配估计器，都可以被视为从不同角度、使用不同损失函数来估计同一个Riesz表示器α0的方法。而TMLE则可以看作是在估计μ0时，以一种特定的方式确保Neyman正交得分误差最小化。

3.1 目标Neyman估计与误差分解

我们的目标是找到估计量(μ_hat, α_hat, τ_hat)，使得样本上的Neyman正交得分误差尽可能小：L(μ, α, τ) = (1/n) Σ ψ(Xi, Di, Yi; μ, α, τ) ≈ 0

通过对L(μ, α, τ)进行期望分解，可以发现其核心误差来源于两项：

误差项 (1)：(1/n) Σ [ (α0(Di, Xi) - α(Di, Xi)) * (Yi - μ0(Di, Xi)) ]
误差项 (2)：(1/n) Σ [ τ - (μ(1, Xi) - μ(0, Xi)) ]

这个分解给了我们清晰的指引：

估计α0的方法（如Riesz回归、DRE、协变量平衡、匹配）：它们的主要目标是最小化误差项 (1)。当μ的估计μ_hat接近真实μ0时，(Yi - μ0(Di, Xi))近似于不可预测的噪声，最小化该项就要求α_hat在协变量空间的特征上与α0对齐。这解释了为什么这些方法都涉及“平衡”或“密度比”的概念——它们都在试图让加权后的处理组和对照组在协变量分布上看起来相似。
TMLE：它是一种专门针对回归函数μ的估计方法，通过一步“ targeting ”更新，使得误差项 (2)在样本上精确为零（或尽可能小）。它利用估计好的α_hat来修正初始的回归模型μ_hat，产生一个目标更新后的μ_tilde，然后用这个μ_tilde来构造ATE估计量。

3.2 Bregman散度：统一的损失函数透镜

为了统一地看待那些估计α0的方法，DDML框架引入了Bregman散度。给定一个严格凸的可微函数g，两点a和b之间的Bregman散度定义为：BR_g(a | b) = g(a) - g(b) - g'(b)*(a - b)

直观理解，Bregman散度衡量的是用b来近似a时，由于函数g的凸性造成的误差。许多常见的距离和散度都是Bregman散度的特例，比如平方损失(a-b)^2（对应g(t)=t^2），以及KL散度（对应g(t)=t log t）。

我们的理想目标是最小化α与真实α0之间��平均Bregman散度E[BR_g(α0(D,X) | α(D,X))]。虽然真实α0未知，但通过巧妙的代数变换，我们可以得到一个仅依赖于样本数据和待估参数α的替代目标函数B_g(α)。最小化这个经验目标函数B_g(α)，就等价于在Bregman散度意义下逼近α0。

3.2.1 特例一：平方损失与Riesz回归/稳定平衡权重

当我们选择g(t) = (t-1)^2时，对应的Bregman散度就是平方误差。此时，最小化经验目标函数B_g(α)等价于求解如下问题（忽略正则化项）：α_hat = argmin_α (1/n) Σ [ -2(α(1,Xi)+α(0,Xi)) + 1[Di=1]α(1,Xi)^2 + 1[Di=0]α(0,Xi)^2 ]

这就是Riesz回归在DML文献中的形式，也等价于密度比估计中的最小二乘重要性拟合（LSIF）方法。

实操心得：如果我们进一步限制α(D,X)是(D,X)的某个特征映射Φ(D,X)的线性函数，即α(D,X) = β^T Φ(D,X)，那么上述优化问题就变成了一个带约束的岭回归问题。其对偶问题恰好就是稳定平衡权重（Stable Balancing Weights）的优化形式：寻找一组权重w_i，使得加权后的处理组和对照组在特征Φ上的均值相等，同时最小化权重的平方和Σ w_i^2。这揭示了Riesz回归（一种回归方法）与协变量平衡（一种加权方法）之间的深刻对偶关系。

更有趣的是，Kato (2025c) 指出，如果我们选择特定的局部基函数（例如指示某个邻域的核函数），那么Riesz回归的解就退化为最近邻匹配（Nearest Neighbor Matching）。换句话说，为每个处理组个体寻找一个最相似的对照组个体并赋予权重1，这等价于在特定特征空间下用最小二乘拟合密度比。

3.2.2 特例二：KL散度与熵平衡

当我们选择基于KL散度的凸函数g(t)（例如g(t) = |t| log |t| - |t|或其变体）时，我们进入了另一个重要的方法家族。

此时，如果我们对α0的模型采用一种特定的参数化形式，将其与逻辑回归模型联系起来：令α(1,X) = 1/e(X),α(0,X) = -1/(1-e(X))，其中e(X) = 1 / (1 + exp(-β^T Φ(X)))是逻辑回归模型。那么，最小化对应的经验Bregman目标函数，就等价于求解Zhao (2019) 提出的定制损失函数（Tailored Loss）最小化问题。

而这个优化问题的对偶形式，正是熵平衡（Entropy Balancing）方法：寻找一组权重w_i，使得加权后的处理组和对照组在协变量Φ(X)的矩（如均值、方差）上完全平衡，同时最小化权重与基准权重（通常是1）之间的KL散度Σ w_i log(w_i)。

注意事项：平方损失（Riesz回归）和KL散度损失（熵平衡）虽然都统一在Bregman散度下，但它们导出的权重特性不同。平方损失最小化权重的平方和，倾向于产生众多小权重，可能更稳定；KL散度最小化熵，倾向于产生更均匀、极值更少的权重。在实践中，如果担心极端权重（即倾向得分接近0或1的个体权重极大）影响估计的稳定性，熵平衡或与之相关的裁剪（trimming）方法可能是更好的选择。

3.3 TMLE：在统一框架中的位置

TMLE可以看作是这个统一框架中，专门针对误差项(2)进行优化的模块。它不直接估计α0，而是利用一个初步估计的α_hat（可以来自上述任何方法）来“目标化”一个初始的回归估计μ_hat。

具体步骤是：

用任何机器学习方法初步拟合μ_hat(d, x)。
用任何方法（如上述的Riesz回归或熵平衡）估计α_hat。
构建一个“波动”模型：logit(μ_ε(d, x)) = logit(μ_hat(d, x)) + ε * α_hat(d, x)。这里ε是一个标量参数。
通过最大似然（或最小二乘，针对连续结果）估计ε，得到ε_hat。
更新回归函数：μ_tilde(d, x) = μ_hat(d, x) + ε_hat * α_hat(d, x)（对于线性波动模型）。
最终的TMLE估计量为：τ_TMLE = (1/n) Σ [ μ_tilde(1, Xi) - μ_tilde(0, Xi) ]。

这个过程确保了更新后的μ_tilde使得样本Neyman正交得分方程（或误差项(2)）成立或近似成立，从而提供了额外的稳健性。

4. 实践指南：如何选择与实施

面对这么多统一起来的方法，在实际研究中该如何选择和应用呢？以下是一个基于DDML框架的实践建议流程，以及不同场景下的选型思考。

4.1 推荐实施流程

一个稳健且易于实现的流程结合了熵平衡和TMLE的优势：

第一步：初步估计结果回归函数μ0。
- 操作：使用任意的监督学习模型（如Lasso、梯度提升树、神经网络）分别拟合处理组(D=1)和对照组(D=0)的结果Y对协变量X的回归函数，得到μ_hat(1, x)和μ_hat(0, x)。
- 要点：这里可以使用交叉验证来防止过拟合。模型复杂度可以高一些，因为后续的TMLE步骤会提供偏置校正。
第二步：使用熵平衡估计Riesz表示器α0。
- 操作： a. 选择一组平衡协变量Φ(X)，通常包括X的一阶矩（均值）和二阶矩（方差、交互项）。 b. 求解熵平衡优化问题：min_{w} Σ [ w_i log(w_i) ]s.t. Σ_{D=1} w_i * Φ(Xi) = Σ_{D=0} w_i * Φ(Xi)（均值平衡）以及Σ w_i = n（归一化约束）。
- 要点：熵平衡直接给出权重w_i。对于处理组个体，α_hat(1, Xi) = w_i；对于对照组个体，α_hat(0, Xi) = -w_i。许多统计软件包（如R的ebal或WeightIt）可以方便地实现熵平衡。
第三步：应用TMLE进行最终估计。
- 操作：使用第一步得到的μ_hat和第二步得到的α_hat，执行前述的TMLE更新步骤，得到μ_tilde，并计算τ_TMLE。
- 要点：TMLE步骤可以利用α_hat进一步修正μ_hat的估计偏差，即使初始回归模型有误，只要权重α_hat估计得好，最终估计量仍是稳健的。
第四步：计算标准误与置信区间。
- 操作：使用基于影响函数（Influence Function）的估计方法。对于TMLE，其估计量的影响函数即为Neyman正交得分函数ψ在估计参数处的取值。因此，τ_TMLE的渐近方差可以估计为σ^2 = (1/n^2) Σ [ ψ(Xi, Di, Yi; μ_tilde, α_hat, τ_TMLE)^2 ]。标准误为σ/√n，95%置信区间为τ_TMLE ± 1.96 * σ/√n。
- 要点：此方差估计是稳健的，并且考虑了μ和α的估计不确定性。

4.2 方法选型考量

虽然流程给出了一个推荐，但理解不同方法的适用场景能让你更灵活：

何时选择Riesz回归/稳定平衡权重？
- 场景：当协变量维度较高，且你希望使用线性模型或核方法快速估计权重时。稳定平衡权重通过最小化权重平方和，能有效避免极端权重，估计通常很稳定。
- 优势：计算效率高，与岭回归类似，有成熟的求解算法。当特征Φ(D,X)包含处理状态D与协变量X的交互时，它允许权重函数更灵活。
- 劣势：对线性或核函数形式的假设可能在某些复杂数据中不成立。
何时选择熵平衡？
- 场景：当你对协变量的平衡性有非常具体的要求（例如，必须精确平衡某些协变量的均值、方差甚至高阶矩），并且希望权重相对均匀、可解释时。
- 优势：精确平衡指定的矩条件，权重熵最小化使其分布更平滑，不易产生极端值。概念直观，容易向非技术背景的合作者解释。
- 劣势：需要预先指定要平衡的矩条件。如果指定的矩条件不足以��除混淆，估计仍可能有偏。
何时选择匹配估计器（作为Riesz回归的特例）？
- 场景：当样本量不大，且希望估计过程具有高度的非参数性和直观性时。最近邻匹配等价于一种局部常数核回归的Riesz回归。
- 优势：原理简单，结果易于理解。对于局部治疗效应异质性的探索有帮助。
- 劣势：统计效率通常低于基于模型的回归调整方法，且匹配质量受“维数诅咒”影响，在高维协变量下难以找到好的匹配。
是否总需要TMLE？
- 推荐使用：在大多数观察性研究中，TMLE提供的额外稳健性是值得的。特别是当你不确定结果回归模型μ的设定是否正确时，TMLE能利用α的估计进行补救。
- 可能简化：如果理论确信结果回归模型设定非常准确，且样本量足够大，那么简单的回归调整或一步估计器可能就足够了。但考虑到实践中的模型不确定性，包含TMLE步骤通常是更谨慎的选择。

5. 常见问题与实战排坑

在实际应用这个统一框架时，你可能会遇到一些典型问题。以下是我在实践中总结的一些经验和解决方案。

5.1 协变量`Φ(X)`或`Φ(D,X)`应该如何选择？

这是影响权重估计质量最关键的一步。

基础选择：至少应包含所有观测到的混淆变量的一阶项（即变量本身）。这是消除均值偏差所必需的。
高阶项与交互项：为了平衡更复杂的分布特征，应考虑加入重要的二阶项（如平方项、主要交互项）。例如，如果年龄和收入都是混淆因素，那么加入年龄^2、收入^2以及年龄*收入可能有助于平衡方差和协方差。
领域知识驱动：基于你对处理分配机制的理解，选择那些最可能影响D和Y的变量及其变换。
数据驱动探索：可以先用一个灵活的模型（如梯度提升树）拟合倾向得分e(X)，然后提取模型中使用的重要特征和交互项作为Φ(X)的候选。但要注意避免过拟合。
针对熵平衡：你可以设定平衡至一阶矩（均值）、二阶矩（方差）甚至三阶矩（偏度）。通常，平衡均值和方差已能处理大部分线性混淆。

5.2 如何处理极端倾向得分导致的极端权重？

极端倾向得分（接近0或1）会导致IPW或平衡权重中产生极大的权重，极大增加估计方差，甚至导致估计不稳定。

熵平衡的天然优势：熵平衡通过最小化KL散度，天然地倾向于产生更均匀的权重，能在一定程度上缓解极端权重问题。
权重裁剪（Trimming）：设定一个阈值（如0.01和0.99），将估计的倾向得分限制在此区间内，然后再计算权重。但裁剪会引入新的偏差，需谨慎。
使用更稳健的损失函数：除了平方损失和KL损失，还可以探索其他Bregman散度，例如对应于Hellinger距离的散度，可能对异常值更不敏感。
结合子总体分析：如果极端倾向得分的个体代表了与主体不同的群体，考虑报告在“共同支持域”（即倾向得分重叠较好的区域）内的ATE。

5.3 如何诊断权重估计和平衡效果的好坏？

估计完权重后，必须进行诊断。

平衡性检查：计算加权前后，处理组和对照组在各协变量Φ(X)上的标准化均值差（SMD）。加权后的SMD应尽可能接近0（通常认为绝对值小于0.1是可接受的）。绘制加权前后的Love图是直观展示平衡效果的好方法。
权重分布可视化：绘制处理组和对照组权重的直方图或箱线图。检查是否有极端大的权重（如大于10）。极端的权重分布可能暗示倾向得分模型误设或重叠性假设不成立。
有效样本量（ESS）：计算加权后的有效样本量ESS = (Σ w_i)^2 / Σ w_i^2。ESS远小于原始样本量意味着权重差异很大，估计的方差会增大，需要警惕。

5.4 机器学习模型在估计`μ`和`α`时如何避免过拟合？

DML框架允许使用灵活的机器学习模型，但过拟合会破坏Neyman正交性所需的收敛速率条件。

交叉验证：务必使用交叉验证来选择模型超参数。对于μ的估计，使用结果Y的预测误差；对于基于Riesz回归的α估计，使用其对应的经验损失函数进行交叉验证。
样本分割：严格采用交叉拟合（Cross-fitting）。将数据随机分成K折（如5折）。用其中K-1折数据训练μ和α的模型，然后在剩下的1折上进行预测和得分计算。循环K次后汇总。这能有效避免因为同一份数据既用于训练又用于推断而带来的过拟合偏误。
模型复杂度：从相对简单的模型（如带正则化的线性模型）开始，逐步增加复杂度。并非越复杂的模型越好，尤其是在样本量有限时。

5.5 统一框架对计算资源要求高吗？

这取决于具体方法的选择。

熵平衡：求解一个凸优化问题，对于中等规模数据（数万样本，数十个平衡矩条件）非常高效。
Riesz回归（线性模型）：本质上是一个岭回归，计算速度很快。
TMLE更新：通常只是一步广义线性模型拟合，计算量可忽略。
复杂的机器学习模型：如果使用深度神经网络来估计μ或α，并且进行交叉拟合，计算成本会显著增加。需要权衡预测精度提升带来的潜在偏差减少与计算开销。

我个人在应用中的体会是，对于大多数社会科学或商业分析场景，采用“梯度提升树（用于μ） + 熵平衡（用于α） + TMLE”的 pipeline，在保证足够稳健性和灵活性的同时，计算成本是完全可以接受的。这个流程的代码化程度已经很高，在R的tmle3、WeightIt等包或Python的causalml、EconML等库中都有很好的支持模块，关键在于理解每个步骤背后的统计原理，从而能正确解读结果并进行有效的诊断。

查看全文

http://www.zskr.cn/news/1377590.html