当前位置：首页 > news >正文

从‘城市’到‘购买力’：用Target Encoding和Count Encoding提升你的特征工程水平

news 2026/6/2 10:35:52

从城市到购买力：用Target Encoding和Count Encoding重构特征工程

在电商推荐系统中，我们经常遇到这样的困境：用户所在城市"北京"和"上海"作为分类变量，如果简单使用标签编码转换为1和2，算法会误认为这两个城市之间存在数值关系；而若采用独热编码，当城市类别多达几百个时，又会引发维度灾难。这就是为什么我们需要Target Encoding和Count Encoding——它们能将"北京"转化为"该城市用户平均购买力指数"，将"上海"转化为"该城市用户历史点击频次"，让原始分类数据真正释放业务价值。

1. 特征工程的业务视角重构

传统特征工程教程往往停留在技术实现层面，却忽略了最关键的商业逻辑。在金融风控场景中，"用户职业类型"若用独热编码处理，生成的"是否教师"、"是否医生"等二元特征，远不如"该职业历史违约率"更能直接反映风险。这正是统计编码的核心优势——将分类变量转化为承载业务语义的数值特征。

1.1 频数编码的商业逻辑

Count Encoding的本质是用群体行为定义个体特征。例如：

import pandas as pd from category_encoders import CountEncoder # 模拟电商用户城市分布 users = pd.DataFrame({ 'city': ['北京','北京','上海','广州','北京','深圳','上海'], 'spend': [1200,800,1500,600,900,1300,1100] }) # 频数编码转换 encoder = CountEncoder() users['city_count'] = encoder.fit_transform(users['city']) print(users[['city','city_count']].drop_duplicates())

输出结果将显示：

city	city_count
北京	3
上海	2
广州	1
深圳	1

此时"北京"不再是一个抽象标签，而是携带了"该用户来自高频出现城市"的业务信息。这种编码特别适合：

用户地理分布分析（城市/省份）
产品品类热度评估
渠道来源质量分析

注意：当测试集出现训练集未见过的新类别时，建议设置handle_unknown='value'参数统一编码为1，避免出现NaN值

1.2 目标编码的预测能力

Target Encoding走得更远——它直接建立分类变量与预测目标的统计关联。在金融场景中，用"职业类型的历史违约率"代替原始职业标签，模型能立即捕捉到不同职业的风险差异：

from category_encoders import TargetEncoder import numpy as np # 模拟贷款数据 np.random.seed(42) jobs = ['教师','医生','程序员','自由职业']*25 default = np.random.binomial(1, [0.05,0.1,0.15,0.3], size=100) loan_data = pd.DataFrame({'job':jobs, 'default':default}) # 目标编码 encoder = TargetEncoder() loan_data['job_encoded'] = encoder.fit_transform(loan_data['job'], loan_data['default']) print(loan_data.groupby('job')['job_encoded'].first())

输出结果类似：

job 教师 0.052632 医生 0.105263 程序员 0.157895 自由职业 0.315789

这个数字直接反映了不同职业的违约概率，比原始文本标签蕴含更强的预测信号。

2. 避免信息泄漏的工程实践

统计编码最大的风险是信息泄漏。如果在全量数据上计算目标均值再拆分训练/测试集，测试集信息就会污染训练过程。正确的做法应当遵循"仅用训练数据统计"原则：

2.1 交叉验证编码方案

from sklearn.model_selection import KFold # 创建5折交叉验证编码 kf = KFold(n_splits=5) loan_data['job_encoded_cv'] = np.nan for train_idx, val_idx in kf.split(loan_data): # 仅用训练折计算目标均值 encoder = TargetEncoder() train_data = loan_data.iloc[train_idx] loan_data.iloc[val_idx, loan_data.columns.get_loc('job_encoded_cv')] = ( encoder.fit_transform( loan_data.iloc[val_idx]['job'], train_data.groupby('job')['default'].mean() ) )

2.2 平滑处理技术

对于样本量少的类别，单一目标均值可能不稳定。引入平滑系数可以平衡类别内统计量与全局均值：

encoded_value = (n * category_mean + α * global_mean) / (n + α)

其中n是该类别的样本数，α是平滑系数。在category_encoders中可通过smoothing参数控制：

encoder = TargetEncoder(smoothing=2.0) # 较大的smoothing值增强全局均值影响

3. 高阶应用场景解析

3.1 时间序列场景的特殊处理

在预测用户下一次购买金额时，传统的目标编码会使用未来数据导致泄漏。正确做法是仅用历史数据滚动计算：

# 按时间排序 purchase_data = purchase_data.sort_values('date') # 累计历史统计 purchase_data['city_avg_spend'] = ( purchase_data.groupby('city')['amount'] .expanding().mean() .reset_index(level=0, drop=True) )

3.2 多目标编码策略

当存在多个相关目标变量时（如点击率和转化率），可以构建复合编码：

# 定义加权目标 df['composite_target'] = 0.7*df['click_rate'] + 0.3*df['conversion_rate'] # 基于复合目标编码 encoder = TargetEncoder() df['category_encoded'] = encoder.fit_transform(df['category'], df['composite_target'])

4. 全流程特征工厂设计

一个健壮的编码系统需要自动化处理以下问题：

新类别处理：预留未知类别编码策略
稀疏类别：设置最小样本量阈值
动态更新：定期重新计算统计量
监控机制：检测编码分布漂移

class RobustTargetEncoder: def __init__(self, min_samples=10, smoothing=2.0): self.min_samples = min_samples self.smoothing = smoothing self.global_mean = None self.category_stats = {} def fit(self, X, y): self.global_mean = y.mean() grouped = pd.DataFrame({'X': X, 'y': y}).groupby('X') for name, group in grouped: n = len(group) if n >= self.min_samples: self.category_stats[name] = { 'mean': group['y'].mean(), 'count': n } def transform(self, X): def encode_value(x): if x not in self.category_stats: return self.global_mean stat = self.category_stats[x] return ( (stat['count'] * stat['mean'] + self.smoothing * self.global_mean) / (stat['count'] + self.smoothing) ) return X.apply(encode_value)

这个自定义编码器实现了：