当前位置：首页 > news >正文

信息论在机器学习中的应用：从熵、互信息到模型选择与特征工程

news 2026/5/24 15:16:53

1. 信息论：从通信基石到机器学习的内核

如果你在机器学习领域摸爬滚打了一段时间，可能会发现一个有趣的现象：很多看似复杂的模型选择、特征工程乃至泛化能力分析，背后都藏着一套统一的数学语言。这套语言不是概率论，也不是线性代数，而是信息论。我第一次系统性地把信息论的工具箱打开，是在试图理解为什么某些模型在数据量不足时容易过拟合，而另一些则表现得相对稳健。那时我才意识到，信息论提供的不仅仅是几个公式，而是一套关于“不确定性”、“信息”和“压缩”的底层世界观。

简单来说，信息论最初由香农为解决通信中的编码问题而创立，它回答了一个核心问题：如何最有效地表示和传输信息？在机器学习中，我们面临的是另一个层面的“通信”问题：模型如何从充满噪声的数据（信源）中，最有效地“解码”出潜在的规律（信息）？熵（Entropy）量化了数据本身的不确定性，互信息（Mutual Information）衡量了特征与目标之间的关联强度，而条件熵（Conditional Entropy）则描述了已知某些信息后剩余的不确定性。理解这些概念，就像拿到了一张机器学习世界的“元素周期表”，你能看清不同算法、不同设计选择背后，到底在操作什么样的“信息原料”。

本文将从一个资深从业者的视角，带你重新审视信息论的核心概念。我不会只停留在公式推导，而是会紧扣编码理论这一源头，讲清楚熵为什么是压缩的极限，并深入探讨这些概念如何直接应用于机器学习的核心场景，例如贝叶斯推断中的误差分析和模型复杂度的信息准则。你会发现，这些看似抽象的数学量，实际上是你调参、选特征、诊断模型时最可靠的“直觉”量化工具。

2. 熵：不确定性的度量与无损压缩的极限

2.1 从编码的视角理解熵的定义

我们从一个最实际的问题开始：如何用最少的比特（0和1）来编码一条消息？假设你每天需要向同事报告天气，天气情况是一个随机变量X，可能取值为{晴，雨，阴，雪}，对应的概率分别为P(晴)=0.5， P(雨)=0.25， P(阴)=0.125， P(雪)=0.125。

一个最笨的编码方法是给每个天气分配相同长度的二进制串。因为有4种可能，我们需要至少2个比特（2²=4）来唯一标识。可以编码为：晴->00，雨->01，阴->10，雪->11。这种编码是前缀码：没有任何一个码字是另一个码字的前缀。这意味着接收方可以一边接收比特流，一边实时解码，无需等待整个消息结束。例如，收到“0”后，它知道这不是一个完整的码字（因为“00”和“01”都以0开头），需要等待下一个比特。当收到“00”时，它就能唯一确定是“晴”。

但这个编码方案好吗？计算一下它的平均编码长度：晴（概率0.5）用2比特，雨（0.25）用2比特，阴（0.125）用2比特，雪（0.125）用2比特。平均长度 = 0.52 + 0.252 + 0.1252 + 0.1252 = 2 比特。

显然，这不是最优的。因为“晴”出现的概率最高，我们应该给它分配一个更短的码字，把长码字留给不常出现的“雪”和“阴”。这就是最优前缀码（如霍夫曼编码）的思想。一个更优的编码方案可以是：晴->0，雨->10，阴->110，雪->111。让我们验证它是否是前缀码：码字0不是10、110、111的前缀；码字10不是0、110、111的前缀；以此类推，满足条件。现在计算平均长度：0.51 + 0.252 + 0.1253 + 0.1253 = 1.75 比特。比之前的2比特要短。

那么，压缩的极限在哪里？香农在他的信源编码定理中给出了答案：对于离散随机变量X，其最优前缀码的平均长度L*满足：H(X) ≤ L< H(X) + 1*，其中H(X)就是熵，定义为：

H(X) = Σ P(x) * log₂(1/P(x))（这里使用以2为底的对数，单位是比特）

计算我们天气例子中的熵：H(X) = -[0.5log₂(0.5) + 0.25log₂(0.25) + 0.125log₂(0.125) + 0.125log₂(0.125)] = 1.75 比特。

看，我们构造的霍夫曼编码的平均长度（1.75比特）正好等于熵！这不是巧合。熵H(X)在编码理论中的物理意义就是：对随机变量X进行无损编码时，平均每个符号所需的最少比特数。它衡量了X所携带的“信息量”或“不确定性”。不确定性越大（比如均匀分布），熵就越大，压缩就越困难，需要的平均码长就越长。

注意：在公式中，我们常看到自然对数ln，此时熵的单位是“纳特”（nat）。1 nat ≈ 1.443 bit。在信息论中，底数的选择只改变单位，不影响本质。机器学习文献中常用自然对数，以便与概率密度函数中的指数形式（如高斯分布）结合时求导更方便。

2.2 熵的性质与直观理解

理解了熵的编码本源，它的许多性质就变得非常直观：

非负性：H(X) ≥ 0。因为概率P(x)在0到1之间，log₂(1/P(x)) ≥ 0。当且仅当X是确定性变量（某个结果概率为1）时，熵为0。这很好理解：如果一个事件总是发生，你根本不需要发送任何信息来告知别人这个结果。
上界：对于有K个可能取值的随机变量，H(X) ≤ log₂(K)。当且仅当X是均匀分布时取等号。均匀分布时不确定性最大，所以需要最长的平均码字来编码。
可加性：对于独立的随机变量X和Y，有H(X, Y) = H(X) + H(Y)。联合随机变量的不确定性等于各自不确定性的和，因此编码它们所需的总比特数也是相加的。

在机器学习中，熵的应用无处不在。例如，在决策树算法（如ID3, C4.5）中，我们使用信息增益来选择分裂特征。信息增益就是父节点的熵减去子节点加权平均后的熵。选择能最大程度降低系统不确定性（即熵减少最多）的特征进行分裂，这正是编码思想的应用——我们希望经过特征分裂后，对目标变量的编码能更短、更高效。

3. 条件熵与互信息：刻画变量间的信息流动

3.1 条件熵：已知一部分信息后的剩余不确定性

熵告诉我们编码X需要多少比特。那么，如果我们已经知道了另一个随机变量Y的值，编码X还需要多少比特呢？这就是条件熵H(X|Y)。它的定义是：

H(X|Y) = Σ Σ P(x, y) * log₂(1/P(x|y))

直观上，H(X|Y)是在已知Y的条件下，X的剩余平均不确定性。根据定义和概率的链式法则，很容易推导出熵的链式法则：H(X, Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)。

这个公式有深刻的编码解释：要编码联合随机变量(X, Y)的一个样本，一种高效的方法是先编码Y（平均需要H(Y)比特），然后在已知Y的具体值的情况下，编码X（平均需要H(X|Y)比特）。总长度就是H(Y) + H(X|Y)。

一个重要性质是：条件作用永不增加熵，即 H(X) ≥ H(X|Y)。换句话说，知道Y的信息，最差情况是不会让X变得更难编码（当X和Y独立时，H(X|Y)=H(X)），而通常会让X更容易编码（当Y提供了关于X的信息时，H(X|Y) < H(X)）。如果Y完全决定了X，那么H(X|Y)=0。

3.2 互信息：共享信息的量化

既然知道了Y可能会减少描述X所需的信息量，那么减少了多少呢？这个减少的量，就是X和Y之间共享的信息，称为互信息I(X; Y)。

I(X; Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X, Y)

从定义看，互信息是对称的（I(X;Y)=I(Y;X)）且非负。它衡量了知道Y的值后，关于X的不确定性平均减少了多少，反之亦然。

互信息还有另一个极其重要的表达式，通过KL散度（Kullback-Leibler Divergence）给出：

I(X; Y) = D_KL( P(X,Y) || P(X)⊗P(Y) )

KL散度 D_KL(P||Q) 衡量的是用一个近似分布Q来模拟真实分布P时，所产生的信息损失（以额外的平均比特数计）。因此，互信息 I(X; Y) 衡量的是联合分布 P(X,Y) 与假设X和Y独立时的乘积分布 P(X)P(Y) 之间的“距离”。如果X和Y独立，则联合分布就等于乘积分布，KL散度为0，互信息为0。X和Y越依赖，它们的联合分布与独立假设的差距就越大，互信息也就越大。

实操心得：在特征选择中，互信息是一个比相关系数更强大的工具。相关系数只能捕捉线性关系，而互信息能捕捉任何形式的统计依赖，包括非线性和非单调关系。例如，特征Y = X²，X是均值为0的随机变量，它们的相关系数为0，但互信息却很大。计算连续变量的互信息通常需要估计概率密度，常用方法有直方图法、核密度估计以及基于k近邻的估计器（如Kraskov的KSG方法），后者在高维情况下更稳健。

3.3 数据处理不等式：信息流动的单向性

信息论中一个强大而直观的工具是数据处理不等式。它指出：对数据进行任何确定性的或随机的处理，都不会增加信息量。

形式化地说，如果随机变量X, Y, Z形成一个马尔可夫链 X → Y → Z（即给定Y，X和Z条件独立），那么有：I(X; Z) ≤ I(X; Y)且I(X; Z) ≤ I(Y; Z)

这意味着，无论你对中间变量Y做什么处理得到Z，Z中所包含的关于原始X的信息量，不会超过Y中所包含的。这个不等式在机器学习中至关重要：

模型简化：当你对特征进行预处理（如降维、归一化）或对神经网络中间层进行采样时，你不可能创造出关于目标变量的新信息，最多只能保留原有信息，通常会损失一部分。
隐私保护：通过对数据进行脱敏处理（一种数据处理），可以确保输出Z包含的关于敏感信息X的信息量低于某个阈值。
表示学习：我们希望学到的表示Y能够最大化其与任务目标的信息I(Y; Target)，同时通过瓶颈约束I(X; Y)来控制复杂度，这正是信息瓶颈理论的核心。

4. 从贝叶斯学习到率失真理论：误差即信息

4.1 贝叶斯最优预测与信息获取

现在，让我们进入机器学习的核心场景。考虑一个序列预测问题：在时刻t，我们拥有历史数据 H_t = (X_0, Y_1, ..., X_{t-1}, Y_t)。我们的模型有一个未知参数θ（在贝叶斯框架下，θ本身也是一个随机变量）。在观察到H_t后，我们需要对下一个输出Y_{t+1}做出概率预测 ˆP_t(Y_{t+1})。

一个自然的损失函数是对数损失（Log-Loss）：L_t = E[-ln ˆP_t(Y_{t+1})]。如果我们的预测分布 ˆP_t 恰好等于真实的条件分布 P(Y_{t+1} | θ, H_t)，那么对数损失就达到了理论下限，即条件熵：H(Y_{t+1} | θ, H_t)。这部分损失是由于数据内在的噪声（或称为偶然不确定性）引起的，是任何模型都无法避免的。

然而，我们不知道真实的θ，只能基于历史H_t来预测。贝叶斯最优预测器会使用后验预测分布：ˆP_t^Bayes(·) = E[ P(Y_{t+1} ∈· | θ, H_t) | H_t ]，即对真实条件分布关于θ的后验期望。

那么，贝叶斯最优预测器的累积损失，超出不可减少的固有损失的部分，就是由于不知道θ而导致的估计误差。一个深刻而优美的结论是（如原文定理13所述）：在T步预测中，贝叶斯最优算法产生的总估计误差，等于从数据H_T中获得的关于参数θ的总互信息，即：

L_T = I(H_T; θ) / T

这个等式的含义非常深刻：你犯的每一个错误（预测损失），都是在为获取关于θ的信息而支付的“学费”。一个最优的学习算法，其错误率的下降低于它获取信息的速度。如果θ是一个离散变量且熵H(θ)有限，那么总信息I(H_T; θ) ≤ H(θ)，因此误差上界为 H(θ)/T，即以O(1/T)的速率衰减至零。这解释了为什么在参数空间有限的情况下，我们可以期待学习误差快速下降。

4.2 连续参数与率失真理论

当θ是连续随机变量（例如，神经网络的权重）时，情况变得复杂。我们不能简单地用微分熵h(θ)来替代H(θ)，因为微分熵可以是负数，且依赖于坐标系的选取（例如，测量单位从米改成厘米，微分熵会变化），因此它本身不是一个良好的信息度量。

这时，需要引入率失真理论。率失真理论是香农信息论中研究有损压缩的分支。它回答的问题是：如果允许一定的失真（Distortion）ϵ，为了表示信源θ，最少需要多少比特（率，Rate）？

形式化地，我们寻找一个压缩表示 ˜θ，使得在失真函数ρ(θ, ˜θ)的期望不超过ϵ的条件下，最小化I(θ; ˜θ)。这个最小值R(ϵ)就是率失真函数。

在机器学习的学习误差分析中，我们可以将失真函数巧妙地定义为预测性能的损失。具体来说，定义失真为：在给定历史H_t的条件下，使用真实θ和使用其压缩版本˜θ进行预测所产生的KL散度期望。即，失真度量了用˜θ替代θ做预测所带来的性能损失。

基于此，原文定理15给出了贝叶斯估计误差L_T的上下界，它们都由率失真函数R(ϵ)所控制：sup_ϵ min{ R(ϵ)/T, ϵ } ≤ L_T ≤ inf_ϵ { R(ϵ)/T + ϵ }

这个结论搭建起了学习问题的复杂度（由率失真函数R(ϵ)刻画）与可达的学习速率之间的桥梁。R(ϵ)描述了参数空间Θ在特定失真要求下的“信息几何”复杂度。复杂度越高，学习到相同精度（ϵ）所需的信息（R(ϵ)）就越多，因此需要更多的样本（T）来提供这些信息，导致误差L_T下降更慢。

4.3 与经典统计学习理论的联系：极小极大误差

贝叶斯框架考虑的是在参数先验分布下的平均性能。而经典的统计学习理论（频率学派）通常关心最坏情况性能，即极小极大误差：L_T = inf_{预测器} sup_{θ∈Θ} E[损失|θ]

有趣的是，存在一个与贝叶斯结论平行的经典结果——冗余容量定理。该定理指出，在一定的正则条件下，极小极大误差等于一个“信道容量”除以T。这里的信道容量，定义为在所有可能的参数先验分布上，互信息I(H_T; θ)的最大值：C = sup_{P(θ)} I(H_T; θ)。

这个结果直观上也很合理：最坏情况下的误差，对应于那个让数据最难提供信息的、最“讨厌”的参数先验分布。而这个最大的互信息，就是信道容量。

进一步地，Yang和Barron在1999年的著名工作中，用度量熵（Metric Entropy）来刻画假设空间的复杂度，并给出了极小极大误差的上下界。度量熵与率失真函数在精神上是一致的，可以看作是后者的离散化版本（通过覆盖数或打包数来定义）。这些理论共同表明，无论从贝叶斯平均还是频率学派最坏情况的角度，学习误差的衰减速率根本上受限于假设空间的信息几何复杂度。

5. 机器学习中的核心应用场景解析

5.1 特征选择与互信息准则

在实际项目中，面对成百上千个特征，如何筛选出最有用的子集？互信息提供了一个强大的理论框架和实用工具。

核心思想：理想的特征应该与目标变量Y有高的互信息 I(X; Y)，同时特征之间应尽可能独立（或互信息低），以避免冗余。这引出了两种主流策略：

最大相关性最小冗余：寻找特征子集S，最大化Σ_{x∈S} I(x; Y) - Σ_{x_i, x_j ∈ S} I(x_i; x_j)。这直接优化了特征集对目标的预测能力和内部冗余的平衡。
前向搜索：从空集开始，每次添加一个能最大程度增加与目标Y的互信息的特征，即最大化I(S ∪ {x}; Y)。由于直接计算高维互信息困难，常用近似如argmax_x [ I(x; Y) - β * Σ_{s∈S} I(x; s) ]，其中β是权衡参数。

实操心得与避坑指南：
连续变量估计：计算连续变量间的互信息需要密度估计。对于小样本数据，直方图分箱法对区间数量非常敏感。推荐使用基于k近邻的KSG估计器，它对参数相对不敏感，且能较好地处理高维数据。
过拟合风险：互信息估计本身是有偏的，样本量不足时，估计值可能系统性偏高，导致选择出一些与目标只是偶然相关的噪声特征。务必使用交叉验证或置换检验来评估所选特征子集的稳定性。
与模型结合：基于互信息的特征选择是过滤式方法，独立于后续的学习模型。它的优点是计算快、通用性强。但最终效果还需通过包裹式（使用目标模型的性能作为评价准则）或嵌入式方法（如L1正则化）来验证和微调。

5.2 模型选择与信息准则

如何在模型复杂度和对数据的拟合度之间取得平衡？信息论提供了优雅的解决方案。

AIC与BIC：最著名的信息准则——赤池信息量准则和贝叶斯信息准则，其推导都源于信息论。

AIC：AIC = 2k - 2ln(L)，其中k是参数数量，L是模型似然函数最大值。其目标是选择一个模型，使其与“真实模型”的KL散度最小。2k项惩罚了模型复杂度。
BIC：BIC = k*ln(n) - 2ln(L)，其中n是样本量。BIC源于贝叶斯因子的大样本近似，其惩罚项比AIC更重，因此在样本量大时倾向于选择更简单的模型。

最小描述长度：MDL原则是信息论模型选择的直接体现。其核心思想是：最好的模型是那个能使描述“模型本身”和“给定模型后数据的编码长度”之和最短的模型。描述数据需要-ln(P(数据|模型))比特（对数似然负值），描述模型本身需要复杂度(模型)比特。这与“率失真”的思想一脉相承：模型是数据的压缩表示，我们允许一定的“失真”（拟合误差），以换取更短的“码长”（模型复杂度）。

在深度学习中，虽然AIC/BIC不直接适用（参数k巨大且非凸），但MDL的思想体现在各种正则化技术和模型压缩方法中。例如，权重衰减（L2正则）等价于假设参数服从高斯先验，这从贝叶斯角度看是在惩罚模型的“描述长度”。剪枝和量化则是直接减少存储模型所需的比特数。

5.3 表示学习与信息瓶颈

信息瓶颈理论为深度神经网络的学习过程提供了一个深刻的信息论解释。给定输入X和目标Y，我们希望通过网络学习一个中间表示T。信息瓶颈原则要求T同时满足两个目标：

最大化压缩：最小化 I(X; T)，让表示T尽可能“忘记”输入X中的细节。
最大化相关：最大化 I(T; Y)，让表示T尽可能“记住”与目标Y相关的信息。

这形成了一个拉格朗日优化问题：min_{T} [ I(X; T) - β * I(T; Y) ]，其中β是权衡参数。

学习过程解读：在训练初期，β效应较弱，网络主要致力于捕捉输入中的信息，I(X; T)和I(T; Y)都快速增长。随着训练进行，优化过程开始压缩T中与Y无关的信息，I(X; T)开始下降或增速减缓，而I(T; Y)继续增加或趋于平稳。最终，我们得到一个关于Y的“精炼”表示。

经验技巧：信息瓶颈理论不仅解释了深度学习的有效性，还启发了新的正则化方法。例如，在训练中显式地添加对隐藏层激活值与输入/输出之间互信息的约束（或估计），可以鼓励网络学习到更鲁棒、泛化能力更强的表示。虽然直接高维互信息估计计算困难，但可以通过变分下界等技术进行近似优化。

5.4 贝叶斯实验设计与主动学习

在数据获取成本高昂的场景（如药物实验、用户调研、机器人探索），我们希望在收集数据时“事半功倍”。主动学习的核心是选择那些能最大程度减少模型不确定性的数据点进行标注。

从信息论视角，这等价于选择能最大化期望信息增益的数据点。信息增益就是互信息：I(θ; Y | x) = H(θ) - H(θ | Y, x)，其中θ是模型参数，Y是选择样本x后可能得到的标签。我们希望选择那个x，使得在观察到其标签Y后，参数θ的后验熵减少得最多。

计算方法：通常，我们需要计算对于每个候选样本x，其期望信息增益E_{Y~P(Y|θ, x)}[ I(θ; Y | x) ]。这需要对可能的标签Y进行积分或求和，并对当前参数后验P(θ|D)进行采样。常用近似方法有：

基于后验样本的蒙特卡洛积分。
使用变分后验简化计算。
对于分类问题，有时可以用预测熵 H(Y|x) 作为信息增益的近似（虽然不完全等价，但计算简便且通常有效）。

在实际的主动学习系统中，除了信息增益，还需要考虑样本的代表性（避免选择异常点）和多样性（探索整个数据空间）。因此，一个实用的策略往往是信息增益与其他启发式准则的混合。

6. 常见问题、误区与实战排查指南

6.1 熵、微分熵与KL散度的计算陷阱

微分熵可以为负：这是新手最容易困惑的一点。记住，微分熵h(X)不是“信息量”的绝对度量，因为它依赖于坐标尺度。只有熵的差值（如互信息）才有意义。例如，计算高斯分布N(μ, σ²)的微分熵：h(X) = 1/2 * ln(2πeσ²)。当方差σ² < 1/(2πe)时，h(X) < 0。这并不违反物理意义，因为微分熵失去了解释为“最小码长”的直接含义。
KL散度的非对称性：D_KL(P||Q) ≠ D_KL(Q||P)。这在实际应用中至关重要。
- 在近似推断中（如变分推断），我们最小化D_KL(Q||P)，其中Q是近似分布，P是真实后验。这称为“反向KL”，会导致Q趋向于覆盖P的一个模式（趋向于零避免惩罚），可能产生模式坍塌。
- 在模型比较中，如果P是真实数据分布，Q是模型分布，最小化D_KL(P||Q)会鼓励模型覆盖所有数据点（即使产生一些不合理的样本），这通常更安全。但在实践中，我们往往只能从P中采样，直接计算D_KL(P||Q)困难，而D_KL(Q||P)有时有解析解。
互信息估计的偏差：从有限样本中估计互信息是一个统计难题。基于直方图分箱的估计器偏差很大，且对分箱方案敏感。基于k近邻的估计器（如sklearn.feature_selection.mutual_info_regression）在实践中更可靠，但仍需注意：
- 样本量要足够。一个粗略的经验法则是，每个变量至少需要10倍于其有效维度（或分箱数）的样本。
- 对于类别型变量和连续型变量的混合，需要先将连续变量离散化或使用专门设计的混合型估计器。

6.2 信息论概念在模型诊断中的运用

检查特征信息量：训练模型前，计算每个特征与目标的互信息。如果某个被认为重要的特征互信息接近0，需要警惕：可能是关系高度非线性导致简单估计失效，也可能是该特征需要与其他特征组合才有效。
诊断过拟合与欠拟合：
- 计算模型在训练集和验证集上的平均对数损失。两者的差值，可以近似看作模型从训练数据中“记住”的、但未泛化到总体的“信息量”。这个差值过大，是过拟合的标志。
- 从信息瓶颈角度看，如果最终表示T与输入X的互信息I(X; T)仍然很高，而与目标Y的互信息I(T; Y)在验证集上远低于训练集，则表明网络记住了太多输入细节（噪声），没有充分压缩与任务无关的信息，导致过拟合。
分析学习动力学：在训练过程中，监控隐藏层激活与输入/输出之间的互信息（可通过滑动窗口估计或使用最近提出的神经网络信息平面分析工具）。理想情况下，应观察到I(X; T)先增后减（压缩阶段），I(T; Y)单调递增。如果I(X; T)不降或I(T; Y)不升，可能表明网络结构或优化器存在问题。

6.3 率失真理论对实际模型设计的启示

虽然率失真理论的数学形式复杂，但其思想对模型设计有直接指导意义：

模型容量与数据量的匹配：率失真函数R(ϵ)描述了达到失真ϵ所需的最小信息率。在机器学习中，“信息率”对应着从数据中提取的信息量，与数据量T和模型从数据中提取信息的能力有关。如果你的模型非常复杂（对应低失真下的高率R(ϵ)），但数据量T很小（提供的信息少），那么根据L_T ≈ R(ϵ)/T + ϵ，你无法达到低的ϵ，强行追求低训练误差会导致严重的过拟合（ϵ小但R(ϵ)/T大）。解决方案：要么增加数据T，要么通过正则化、dropout、权重共享等方式，降低模型在低失真ϵ下的“有效信息率”R(ϵ)，即降低模型的有效复杂度。
理解不同任务的难度：对于图像分类和图像生成两个任务，即使使用相同的数据集（如ImageNet），其率失真函数R(ϵ)的形状也截然不同。分类任务可能只需要一个相对“粗糙”（高ϵ）但信息高效的表示（低R(ϵ)），就能达到高精度；而生成任务需要极低的失真（ϵ接近0），对应的R(ϵ)会非常高。这解释了为什么生成模型通常比判别模型需要更多的数据和更大的容量。

信息论不是机器学习中的装饰品，而是理解其内在机理、指导算法设计、诊断模型问题的强大透镜。从熵作为压缩极限这一最坚实的起点出发，到互信息衡量变量关联，再到率失真理论刻画学习极限，这套框架将机器学习中许多分散的概念统一了起来。下次当你调整模型、选择特征或分析误差时，试着从“信息”流动和“压缩”效率的角度思考，或许会有意想不到的收获。

查看全文

http://www.zskr.cn/news/1369265.html