当前位置：首页 > news >正文

条件期望与奇异值分解：概率论与矩阵分析中的最优逼近原理

news 2026/5/24 6:43:40

1. 项目概述连接概率与矩阵的数学桥梁在数据科学和机器学习的日常工作中我们常常在两个看似独立的数学世界里穿梭一个是处理不确定性和随机性的概率论另一个是处理高维数据和线性结构的矩阵分析。很多从业者可能熟悉主成分分析PCA的代码实现也了解线性回归的最小二乘原理但未必能清晰地回答为什么最小二乘估计就是“最优”的为什么PCA通过截断奇异值分解SVD就能实现最佳的低秩逼近这背后其实有一条贯穿始终的数学主线。这条主线正是由测度论框架下的条件期望和矩阵分析中的奇异值分解与迹定理所共同构建的。条件期望在概率论中给出了在给定信息下对随机变量的“最佳猜测”而奇异值分解和冯·诺依曼迹定理则在矩阵世界中精确地刻画了“最佳逼近”的含义与实现方式。它们共同指向同一个核心思想在某种度量L²范数、Frobenius范数下寻找一个受约束的、更简单的对象X的函数、低秩矩阵来最接近一个复杂的对象随机变量Y、高维数据矩阵X。本文将深入拆解这两个领域的核心概念并揭示它们之间深刻的内在联系。我们会从测度论概率的基本设定出发理解条件期望作为最小均方误差MMSE估计子的本质。然后转向矩阵分析详细推导冯·诺依曼迹定理及其在低秩逼近问题中的应用。最后我们将看到这些理论如何自然地融合为PCA、协同过滤等算法提供坚实的“为什么”而不仅仅是“怎么做”。无论你是希望夯实理论基础的算法工程师还是渴望理解模型背后数学的数据科学家这篇文章都将为你提供一次透彻的梳理。2. 测度论概率为“不确定性”建立严格语言在应用工作中我们常常直接使用概率密度函数p.d.f.或概率质量函数p.m.f.进行计算。但为了严谨地讨论“条件期望”和“最优性”我们需要一个更稳固的基础——测度论概率。这就像编程时理解高级API固然重要但掌握内存管理和指针操作能让你真正驾驭系统。2.1 概率空间与随机变量数学的“舞台”与“演员”首先我们需要一个标准的“舞台”来描述随机实验。这就是概率空间(Ω, A, P)。样本空间 Ω所有可能结果的集合。比如掷两次硬币Ω { (正,正), (正,反), (反,正), (反,反) }。σ-代数 AΩ的一些子集构成的集合这些子集被称为可测集或事件。它需要满足一些条件对可数并、交和补集封闭这确保了我们可以一致地谈论任何复杂事件的概率。A 中的元素就是我们能问“这个事件发生的概率是多少”的那些事情。概率测度 P一个给事件分配概率的函数P: A → [0, 1]并且满足 P(Ω)1 和可数可加性。这正式定义了概率。一个随机变量X本质上是一个可测函数X: Ω → R_X它将每个样本点 ω 映射到一个具体的值比如实数。所谓“可测”是指对于值域空间 R_X 中的任何“合理”子集 C其原像 {ω: X(ω) ∈ C} 都是 A 中的事件从而我们可以计算其概率 P(X ∈ C)。这个概率分布记作 P_X是定义在值域空间上的一个新测度。注意这里容易产生一个误解认为随机变量就是“变量”。更准确的理解是它是一个函数。当我们写 P(X 5) 时实际是 P({ω: X(ω) 5}) 的简写即“使得函数值大于5的那些样本点所构成的事件”的概率。2.2 从密度到期望Radon-Nikodym定理的威力如果随机变量 X 取值于 R^d我们常说它有概率密度函数 f(x)。在测度论中这对应着分布 P_X 关于 d-维勒贝格测度 L^d绝对连续记作 P_X ≪ L^d。Radon-Nikodym定理保证了此时存在一个几乎处处唯一的非负可测函数 f使得对任何“好”的集合 B有 P_X(B) ∫_B f(x) dx。这个 f 就是我们熟悉的概率密度函数p.d.f.。对于离散型随机变量其分布关于计数测度绝对连续此时的密度就是概率质量函数p.m.f.。期望E(X) 则是这个随机变量函数关于概率测度 P 的积分E(X) ∫_Ω X(ω) dP(ω)。根据变换定理这也等于在值域空间上关于分布 P_X 的积分E(X) ∫_{R^d} x dP_X(x)。如果存在密度 f则进一步化为我们熟悉的 E(X) ∫_{R^d} x f(x) dx。2.3 条件期望定义与存在唯一性条件期望是概率论中最核心也最微妙的概念之一。给定另一个随机变量 X我们想用 X 的观测值来预测 Y。最理想的目标是找到一个函数 h(X)它能作为 Y 的“最佳”预测。在测度论中给定X的条件下Y的条件期望记作 E(Y | X)被定义为一个满足以下两条性质的随机变量 Z可测性Z 必须是 X 的函数。即存在一个可测函数 h使得 Z h(X) 几乎必然成立。正交性投影性质对于任何非负可测函数 g(X)有 E(Y g(X)) E(Z g(X))。特别地如果我们取 g(X) 为集合 B 的示性函数 1_{X∈B}条件2就变成了对于任何可测集 B有 E(Y * 1_{X∈B}) E(Z * 1_{X∈B})。这可以直观理解为在 X 落入 B 的所有情况下Y 的平均值应该等于 Z 的平均值。一个关键的理论保证是只要 E(|Y|) ∞这样的 Z 就存在并且在“几乎必然”的意义下是唯一的。这意味着所有满足定义的 Z 都只在一个概率为零的集合上有差异在应用中可以视为同一个东西。这个函数 h(x) 就记作 E(Y | X x)。2.4 条件期望的核心性质线性、单调性与Jensen不等式条件期望继承了普通期望的许多良好性质这使得它易于计算和推理线性E(aY bY‘ | X) a E(Y | X) b E(Y’ | X)。单调性如果 Y ≤ Y‘则 E(Y | X) ≤ E(Y’ | X)。取条件E( E(Y | X) ) E(Y)。这被称为全期望公式是迭代期望律的体现。可提取已知量如果 g 是 X 的函数则 E( Y g(X) | X ) g(X) E(Y | X)。因为已知 X 时g(X) 就是个常数。Jensen不等式对于条件期望也成立如果 φ 是凸函数且 φ(Y) 可积那么 φ( E(Y | X) ) ≤ E( φ(Y) | X )。两个最重要的特例是绝对值|E(Y | X)| ≤ E(|Y| | X)。两边再取期望得到 E|E(Y | X)| ≤ E|Y|。平方若 E(Y²) ∞则 [E(Y | X)]² ≤ E(Y² | X)从而 E[ (E(Y | X))² ] ≤ E(Y²)。这说明条件期望的波动不会超过原变量。2.5 条件期望作为最优预测最小均方误差估计条件期望最深刻、应用最广的性质在于它的最优性。假设我们观测到 X想用一个函数 f(X) 来预测 Y并以均方误差 E[ (Y - f(X))² ] 作为衡量预测好坏的准则。那么在所有平方可积的函数 f(X) 中条件期望 f(X) E(Y | X) 是唯一的最小均方误差MMSE估计量*。这个结论的证明简洁而优美体现了“偏差-方差”分解的思想对于任意 Z f(X)考虑在给定 X 的条件下的均方误差 E[ (Y - Z)² | X ] E(Y² | X) - 2E(Y|X) Z Z² 为了配方我们加减 [E(Y|X)]² [E(Y² | X) - (E(Y|X))²] [ (E(Y|X))² - 2E(Y|X)Z Z² ] Var(Y | X) [ E(Y|X) - Z ]²由于 Var(Y | X) 是与 Z 无关的项它衡量了 Y 在给定 X 后固有的不确定性因此要使条件均方误差最小只需让第二项 [ E(Y|X) - Z ]² 最小化。显然当且仅当 Z E(Y | X) 时该项为零达到最小。再对两边取期望就得到无条件均方误差 E[ (Y - Z)² ] 也在 Z E(Y | X) 时达到最小。实操心得这个证明过程本身就是一种强大的分析工具。当你面对一个复杂的优化问题如机器学习中的损失函数最小化时尝试模仿这个“条件分解”的思路先固定一部分变量如输入X在条件分布下求解往往能简化问题并揭示出最优解的结构——其核心就是条件期望。3. 矩阵分析基石奇异值分解与迹定理现在让我们将视线转向确定性的矩阵世界。高维数据通常被组织成矩阵而矩阵分析的核心任务之一就是找到复杂矩阵的简单近似。奇异值分解SVD和冯·诺依曼迹定理为此提供了完美的工具。3.1 奇异值分解矩阵的“光谱分析”对于任意一个 m×n 的实矩阵 A其奇异值分解SVD断言存在正交矩阵 U (m×m) 和 V (n×n)以及一个“对角”矩阵 Σ (m×n)使得 A U Σ V^T 其中 Σ 的对角线元素 σ₁ ≥ σ₂ ≥ … ≥ σ_r 0 (r rank(A)) 称为奇异值非对角线元素均为0。U 的列向量称为左奇异向量V 的列向量称为右奇异向量。SVD有几种等价的表述方式理解它们有助于灵活应用矩阵变换视角A v_i σ_i u_i。这意味着矩阵 A 将第 i 个右奇异向量 v_i 映射为第 i 个左奇异向量 u_i 的 σ_i 倍。奇异向量构成了输入空间R^n和输出空间R^m的两组标准正交基。外积和形式A Σ_{i1}^r σ_i u_i v_i^T。这表示矩阵 A 可以分解为 r 个秩为1的矩阵u_i v_i^T的加权和。权重就是奇异值。这是理解低秩逼近的关键。谱关系A^T A V (Σ^T Σ) V^T A A^T U (Σ Σ^T) U^T。这说明右奇异向量 v_i 是 A^T A 的特征向量特征值为 σ_i²左奇异向量 u_i 是 A A^T 的特征向量。注意事项SVD的数值计算是稳定的但需要注意当矩阵非常大时计算完整的SVD得到所有奇异向量开销巨大。在实际的机器学习或数据科学项目中我们通常只计算前 k 个最大的奇异值及其对应的奇异向量这被称为截断SVD或部分SVD有高效的迭代算法如Lanczos方法、随机化SVD实现。3.2 冯·诺依曼迹定理矩阵内积的上界迹定理探讨的是两个矩阵内积trace(A^T B)与其奇异值之间的关系。它是许多矩阵优化问题的理论基础。定理冯·诺依曼迹定理设 A, B ∈ M_{m×n}其奇异值按降序排列分别为 σ₁(A) ≥ … ≥ σ_r(A) 和 σ₁(B) ≥ … ≥ σ_r(B) (r min(m, n))。则有 |trace(A^T B)| ≤ Σ_{i1}^r σ_i(A) σ_i(B) 等号成立的条件是存在相同的正交变换同时将 A 和 B “对角化”即存在正交矩阵 U, V使得 U^T A V 和 U^T B V 同时为广义对角矩阵。证明思路解读这个定理的证明是代数技巧的典范。核心步骤如下将 A 和 B 分别进行SVDA U_A Σ_A V_A^T, B U_B Σ_B V_B^T。令 U U_A^T U_B, V V_A^T V_B则 trace(A^T B) trace(Σ_A^T U Σ_B V^T)。通过巧妙的放缩将问题转化为证明 Σ_{i,j} σ_i(A) σ_j(B) u_{ij} v_{ij} ≤ Σ_i σ_i(A) σ_i(B)。这里用到了奇异值的单调性和正交矩阵行/列范数为1的性质。等号成立的条件要求 U 和 V 的左上角子块必须是置换矩阵在奇异值重数对应的块内可以是任意正交矩阵这最终迫使我们可以通过调整 SVD 中的 U_A, V_A 和 U_B, V_B使它们彼此相等。实操心得迹定理的等号成立条件非常关键。它告诉我们当两个矩阵的“主方向”完全对齐时它们的内积达到最大。这直接引出了主成分分析PCA的思想我们要找的数据投影方向就是与数据协方差矩阵“最对齐”的方向。3.3 迹定理的推论与应用从瑞利商到低秩逼近迹定理有一系列重要的推论它们将矩阵的极值问题与特征值/奇异值联系起来。推论1瑞利商定理的推广设 A 是一个 n×n 实对称矩阵特征值为 λ₁ ≥ … ≥ λ_n。则对于任意标准正交向量组 {u₁, …, u_k} (k ≤ n)有 Σ_{i1}^k μ_i (u_i^T A u_i) ≤ Σ_{i1}^k λ_i μ_i 其中 μ₁ ≥ … ≥ μ_k ≥ 0 是任意非增的非负序列。等号在 u_i 恰好是 A 的前 k 个特征向量时达到。这个推论的证明正是将迹定理应用于矩阵 A 和由 u_i 张成的投影矩阵。当取 k1, μ₁1 时就得到经典的瑞利商定理max_{‖u‖1} u^T A u λ₁。推论2Ky Fan 极大值原理λ_k max_{dim(V)k} min_{u∈V, ‖u‖1} u^T A u。这个定理从子空间的角度刻画了特征值第 k 大特征值是所有 k 维子空间中能保证的最小瑞利商的最大值。这些定理不仅仅是理论结果它们是算法设计的蓝图。例如PCA的目标是找到一组正交方向使得数据在这些方向上的投影方差最大。这正好对应着寻找协方差矩阵的前 k 个最大特征值对应的特征向量——这正是上述推论所保证的最优解。4. 低秩逼近理论、算法与实操高维数据矩阵往往包含大量冗余信息或噪声。低秩逼近的目标是用一个秩至多为 kk 远小于矩阵原维度的矩阵 Z来近似原始矩阵 X使得近似误差最小。这不仅是数据压缩、降维的核心也是推荐系统、背景建模等应用的基础。4.1 问题形式化与最优解设 X ∈ R^{m×n}我们希望求解 min_{Z: rank(Z) ≤ k} ‖ X - Z ‖_F² 其中 ‖·‖_F 是 Frobenius 范数所有元素平方和的平方根它对应于向量化后矩阵的 L² 范数。首先我们需要一个秩不超过 k 的矩阵的通用表示。一个关键结论是任何秩为 k 的矩阵 Z 都可以写成 Z A B^T其中 A ∈ R^{m×k}, B ∈ R^{n×k}且 B 的列是标准正交的B^T B I_k。这个表示不是唯一的例如可以对 A, B 同时做一个正交变换但它给出了一个有效的参数化。将 Z A B^T 代入目标函数并固定 B关于 A 的最小化是一个简单的最小二乘问题其解为 A X B。因此原问题等价于 max_{B: B^T B I_k} trace(B^T X^T X B) 或者等价地max_{B: B^T B I_k} trace(X B B^T X^T)。现在令 C B B^T。这是一个 n×n 的投影矩阵秩为 k且特征值只有 1k 重和 0n-k 重。同时X^T X 是一个半正定矩阵。我们的问题变成了 max_{C: C^2C, C^TC, rank(C)k, C⪰0} trace(X^T X C)这正是冯·诺依曼迹定理可以直接应用的场景矩阵 X^T X 的奇异值就是其特征值 λ_i因为对称半正定记 σ_i² λ_i。矩阵 C 的奇异值就是其特征值前 k 个为1其余为0。根据迹定理trace(X^T X C) 的最大值是 X^T X 的前 k 个最大特征值之和Σ_{i1}^k λ_i Σ_{i1}^k σ_i²。等号何时成立根据迹定理需要 C 与 X^T X 在相同的基下“对角化”。而 X^T X 的特征向量正是 X 的右奇异向量 V。因此最优的 C 应该投影到 X^T X 的前 k 个特征向量张成的子空间上即 C* V_{(:,1:k)} V_{(:,1:k)}^T。对应的最优 B 就是 V_{(:,1:k)}其列是前 k 个右奇异向量。最终我们得到最优低秩逼近Eckart–Young–Mirsky定理 Z* X V_{(:,1:k)} V_{(:,1:k)}^T U_{(:,1:k)} Σ_{(1:k,1:k)} V_{(:,1:k)}^T 其中 U, Σ, V 来自 X 的 SVD。这个 Z* 就是截断到前 k 项的 SVD。4.2 实操步骤与代码示例Python理论清晰后实现起来就非常直接。以下是使用 Python 和 NumPy/SciPy 进行低秩逼近的步骤。import numpy as np from scipy.linalg import svd import matplotlib.pyplot as plt # 1. 生成示例数据一个本身具有低秩结构并添加了噪声的矩阵 m, n, true_rank 100, 80, 5 U_true np.random.randn(m, true_rank) V_true np.random.randn(n, true_rank) S_true np.diag(np.sort(np.random.rand(true_rank))[::-1] * 10) # 生成较大的奇异值 X_true U_true S_true V_true.T # 真实的低秩矩阵 noise np.random.randn(m, n) * 0.5 # 高斯噪声 X X_true noise # 观测到的带噪矩阵 print(f原始矩阵 X 的形状: {X.shape}) print(f真实秩: {true_rank}, 带噪矩阵的数值秩通常很高。) # 2. 计算截断SVD (k5) k 5 U, s, Vt svd(X, full_matricesFalse) # 计算紧凑SVD不计算全尺寸的U和V # s 是奇异值向量按降序排列 U_k U[:, :k] s_k s[:k] Vt_k Vt[:k, :] # 3. 构建最优秩-k逼近矩阵 # 方法1: 使用外积和公式 X_approx np.zeros((m, n)) for i in range(k): X_approx s_k[i] * np.outer(U_k[:, i], Vt_k[i, :]) # 方法2: 更高效的矩阵乘法 (等价于 U_k np.diag(s_k) Vt_k) X_approx_alt (U_k * s_k) Vt_k print(f两种方法结果是否接近: {np.allclose(X_approx, X_approx_alt, atol1e-10)}) # 4. 计算逼近误差 fro_norm_X np.linalg.norm(X, fro) fro_norm_error np.linalg.norm(X - X_approx_alt, fro) relative_error fro_norm_error / fro_norm_X print(f原始矩阵F范数: {fro_norm_X:.4f}) print(f逼近误差F范数: {fro_norm_error:.4f}) print(f相对误差: {relative_error:.4%}) # 5. 验证最优性计算前k个奇异值的平方和占总和的比例 total_variance np.sum(s**2) explained_variance_ratio np.sum(s_k**2) / total_variance print(f前{k}个奇异值解释的方差比例: {explained_variance_ratio:.4%}) # 6. 可视化奇异值衰减和逼近效果 fig, axes plt.subplots(1, 3, figsize(15, 4)) # 奇异值谱 axes[0].plot(range(1, len(s)1), s, bo-, linewidth2, markersize4) axes[0].axvline(xk, colorr, linestyle--, labelfk{k}) axes[0].set_xlabel(奇异值索引) axes[0].set_ylabel(奇异值大小) axes[0].set_title(奇异值谱Scree Plot) axes[0].legend() axes[0].grid(True, alpha0.3) # 原始矩阵的热图部分 im1 axes[1].imshow(X[:20, :20], cmapviridis, aspectauto) axes[1].set_title(原始矩阵 (前20x20)) plt.colorbar(im1, axaxes[1]) # 低秩逼近矩阵的热图部分 im2 axes[2].imshow(X_approx_alt[:20, :20], cmapviridis, aspectauto) axes[2].set_title(f秩-{k}逼近矩阵 (前20x20)) plt.colorbar(im2, axaxes[2]) plt.tight_layout() plt.show()这段代码演示了完整的流程生成数据、计算SVD、截断、重建、评估误差。关键点在于svd函数返回的s是奇异值向量U和Vt已经是左、右奇异向量矩阵。full_matricesFalse参数返回的是紧凑形式对于大型矩阵更节省内存。4.3 常见问题与排查技巧实录在实际应用中进行低秩逼近时会遇到一些典型问题以下是一些排查思路问题1如何选择秩 k这是低秩逼近中最实际的问题。没有绝对正确的答案但有以下常用准则方差解释率计算前 k 个奇异值的平方和占总平方和的比例。例如在PCA中我们可能选择 k 使得该比例超过 95%。代码中已计算explained_variance_ratio。Scree Plot碎石图绘制奇异值大小随索引变化的曲线。寻找曲线的“拐点”elbow拐点之后的奇异值下降变得平缓拐点对应的索引可作为 k 的参考。上图已绘制。基于应用目标在图像压缩中k 由目标压缩比决定在去噪中可以通过交叉验证或观察重建误差与噪声水平的匹配来选取。问题2计算完整SVD太慢对于超大矩阵怎么办对于千万甚至上亿级别元素的矩阵计算完整SVD是不现实的。使用随机化SVD这是目前大规模矩阵低秩逼近的主流方法。通过随机投影快速捕获矩阵的近似范围空间然后在小矩阵上进行SVD。sklearn.utils.extmath.randomized_svd提供了实现。迭代方法如Lanczos方法适用于只需要计算前几个奇异向量的情况。scipy.sparse.linalg.svds可以处理稀疏矩阵或通过计算部分奇异值分解。在线/增量方法如果数据是流式到来的可以考虑增量PCA或在线SVD算法。问题3低秩逼近的结果不稳定对噪声敏感。如果数据噪声很大或者奇异值衰减很慢直接截断SVD可能效果不佳。正则化考虑在目标函数中加入正则项如核范数所有奇异值的和即矩阵的迹范数正则化。这等价于进行软阈值奇异值收缩将小的奇异值置零大的奇异值缩小。这就是鲁棒PCA或矩阵补全中常用的技术。加权低秩逼近如果矩阵中不同位置的噪声水平或重要性不同可以使用加权Frobenius范数进行逼近。问题4矩阵不是数值低秩但有某种结构如图像、时间序列。直接SVD可能不是最佳选择。考虑变换域先对矩阵的行/列进行某种变换如傅里叶变换、小波变换在变换域中矩阵可能表现出低秩或稀疏性进行阈值处理后再反变换。使用更复杂的模型如张量分解CP分解、Tucker分解来处理多维数据或使用自编码器等非线性降维方法。避坑技巧在计算SVD前务必对数据进行中心化即减去列均值。对于PCA这是必须的步骤因为PCA关注的是协方差结构而协方差矩阵正是基于中心化数据计算的。X_centered X - np.mean(X, axis0)。但在更一般的低秩逼近中是否中心化取决于你的目标。如果你想逼近原始数据本身如图像恢复则不应中心化。5. 从理论到实践条件期望与低秩逼近的统一视角现在让我们回到起点连接概率论与矩阵分析。条件期望 E(Y|X) 是给定 X 时对 Y 在 L² 意义下的最优预测。如果我们有一堆样本 (x_i, y_i)想用一个线性函数 f(x) β^T x 来预测 y那么最小二乘估计给出的 β正是试图在样本上近似这个条件期望函数当条件期望恰好是线性函数时它就是无偏估计。考虑一个数据矩阵 X ∈ R^{n×d}每行是一个样本每列是一个特征。假设我们还有一个响应向量 y ∈ R^n。线性回归模型 y ≈ Xβ 的最小二乘解是 β* (X^T X)^{-1} X^T y假设 X^T X 可逆。这个解有一个优美的几何解释Xβ* 是 y 在由 X 的列向量张成的子空间上的正交投影。这个投影矩阵是 P_X X (X^T X)^{-1} X^T。而 y 在这个子空间上的投影正是 P_X y。现在如果我们对 X 进行奇异值分解 X U Σ V^T那么投影矩阵可以写成 P_X U U^T假设 X 列满秩。这意味着预测值 ŷ P_X y U (U^T y)。注意到 U 的列是 X X^T 的特征向量也就是数据协方差矩阵的主成分方向。因此线性回归的预测可以看作是先将 y 投影到数据的主成分方向U^T y然后再用这些主成分重建预测值。另一方面低秩逼近 X ≈ U_k Σ_k V_k^T本质上是将数据 X 投影到其前 k 个主成分张成的子空间上。如果我们用这个低秩近似矩阵 X_k 来代替 X 做回归会发生什么这相当于我们只使用前 k 个主成分作为特征进行回归这就是主成分回归PCR。它通过降维来缓解过拟合和多重共线性。更深层次的联系在于优化框架条件期望min_{f(X) ∈ L²} E[ (Y - f(X))² ]最优解是 f*(X) E(Y|X)。线性回归min_{β ∈ R^d} Σ_i (y_i - x_i^T β)²最优解是 β*它给出了在线性函数类中对条件期望的最佳线性近似。低秩逼近min_{Z: rank(Z)≤k} ‖X - Z‖_F²最优解是截断SVD它给出了在秩不超过k的矩阵集合中对 X 的最佳近似。三者都是在某个希尔伯特空间L²空间或矩阵的Frobenius范数空间中在一个闭凸集所有可测函数、所有线性函数、所有低秩矩阵上寻找对一个给定点的最佳逼近。条件期望是在整个空间上的投影线性回归是在线性子空间上的投影低秩逼近是在低秩矩阵流形或锥上的投影。投影定理保证了这些解的存在性、唯一性和正交性残差与逼近空间垂直。因此从测度论的条件期望到矩阵分析的低秩逼近贯穿始终的数学精神是在一定的约束条件下寻找某个度量意义下的“最佳”近似。理解了这个统一视角你就能更深刻地把握从概率建模到数据降维乃至许多机器学习算法背后的共同逻辑。这不仅有助于你理解现有算法更能为你在新问题上设计合理的优化目标和约束提供思路。

查看全文

http://www.zskr.cn/news/1364262.html