当前位置：首页 > news >正文

AI学习-朴素贝叶斯垃圾邮件识别：从理论到实现

news 2026/5/23 16:25:35

朴素贝叶斯垃圾邮件识别从理论到实现摘要本文从理论推导角度完整解释朴素贝叶斯模型做垃圾邮件识别的可行性包括为什么文字需要向量化、贝叶斯公式如何推导出分类规则、朴素假设为什么不严格但仍然好用、训练集拆分的细节以及这套流程是否适用于其他分类任务。一、问题定义给定一封邮件判断它是垃圾邮件spam还是正常邮件ham。预期行为输入一段文字模型输出一个判断以及对应的置信度。输入: Win FREE money now, click here! 输出: 垃圾邮件置信度 97%二、为什么需要向量化模型的本质是数学运算无法直接处理文字。向量化的作用是把文字转换成数字。最常用的方式是词频向量CountVectorizer统计训练集里出现过的所有词构建一个词汇表然后用每封邮件里各词出现的次数表示这封邮件。词汇表: [click, free, hello, money, win, ...] ↓ Win FREE money → [1, 1, 0, 1, 1, ...] Hello, how are you → [0, 0, 1, 0, 0, ...]每封邮件变成一个数字数组模型才能进行计算。关键细节vectorizer.fit_transform(X_train)和vectorizer.transform(X_test)是两个不同的步骤。fit_transform在训练集上学习词汇表同时完成转换transform用已经学好的词汇表转换新数据不重新学习测试集和预测时只能用transform否则词汇表不一致模型就失效了。三、标签映射结果同样需要数字化df[label_num]df[label].map({spam:1,ham:0})训练集里每封邮件都有正确答案0 或 1模型在训练时以此为目标反复调整参数。理论上在训练集上准确率应该接近 100%因为模型见过这些数据相当于对着答案学习。真正衡量模型好坏的是测试集上的准确率——在没见过的数据上表现如何才能说明模型真正学到了规律。四、贝叶斯公式推导4.1 我们想要什么给定邮件内容计算它是垃圾邮件的概率P(spam | win free money) ← 这封邮件是垃圾邮件的概率 P(ham | win free money) ← 这封邮件是正常邮件的概率比大小谁大判谁4.2 贝叶斯公式直接计算P(spam | 邮件)很难但可以用贝叶斯公式翻转条件P(spam | 邮件) P(邮件 | spam) × P(spam) ───────────────────────── P(邮件)三个部分分别是符号名称含义怎么得到P(spam)先验概率训练集里垃圾邮件占比直接统计P(邮件|spam)似然假设是垃圾邮件这些词同时出现的概率统计各词频率P(邮件)证据这组词在所有邮件里出现的概率对两类都一样可以消掉4.3 消掉分母比较 spam 和 ham 时分母P(邮件)对两边完全一样比大小时可以直接消掉比较: P(spam) × P(邮件|spam) vs P(ham) × P(邮件|ham) 谁大判谁结论和除以相同分母后完全一致五、朴素假设5.1 假设内容P(邮件|spam)是多个词同时出现的联合概率严格计算应该是P(win 且 free 且 money | spam) P(win|spam) × P(free|spam, win已出现) × P(money|spam, win和free已出现)朴素贝叶斯直接假设每个词独立无视词与词之间的关联P(win free money | spam) ≈ P(win|spam) × P(free|spam) × P(money|spam)5.2 假设成不成立严格来说不成立。free和money同时出现的概率显然高于各自独立出现概率的乘积它们之间有关联。5.3 为什么还能用我们不需要概率值精确只需要比大小只要: P(spam) × ∏P(词|spam) P(ham) × ∏P(词|ham) 分类结果就是正确的中间的计算误差不影响最终判断实验结果也证明了这点垃圾邮件分类准确率能稳定达到 98% 以上朴素假设够用。5.4 对数处理防止下溢实际代码里不直接连乘而是取对数原始连乘会下溢变成 0: 0.134 × 0.0234 × 0.0456 × 0.0289 × ... 0.000000000000001 取对数加法不会下溢: log(0.134) log(0.0234) log(0.0456) log(0.0289) ... -2.01 (-3.75) (-3.09) (-3.54) ... -12.39对数是单调递增函数两边同时取对数不改变大小关系结论完全一致。六、置信度是怎么来的model.predict_proba()输出的不是原始贝叶斯后验概率而是经过归一化的结果原始值: P(spam|邮件) 0.0000041 P(ham|邮件) 0.000000000008 归一化强制两者加起来等于 1: 置信度(spam) 0.0000041 / (0.0000041 0.000000000008) ≈ 0.9999 置信度(ham) 1 - 0.9999 ≈ 0.0001置信度的含义在 spam 和 ham 两种可能里模型更倾向哪一边以及倾向程度有多强。注意置信度高不代表模型一定对只代表模型很确定。模型可能非常自信地判断错了这种情况在训练数据不平衡或者样本很罕见时会出现。七、训练集拆分7.1 为什么要拆分如果用同一批数据训练和评估模型相当于对着答案学习再对着答案考试准确率虚高无法反映真实能力。拆分后训练集80%模型学习规律测试集20%模拟真实场景评估模型在没见过的数据上的表现7.2random_state42是什么X_train,X_test,y_train,y_testtrain_test_split(X,y,test_size0.2,random_state42# ← 这个参数)拆分时需要随机打乱数据再切割random_state是随机数种子——固定种子每次运行得到完全相同的拆分结果。random_state4242 本身没有特殊含义只是约定俗成的写法来自《银河系漫游指南》里宇宙终极答案是 42的梗不设置此参数每次运行拆分结果不同准确率数字会变动难以复现和对比团队协作时统一random_state值保证大家在相同数据上做实验7.3 拆分的实际过程原始数据 5572 条 ↓ 随机打乱顺序按 random_state42 的规则 ↓ 前 80% → 训练集4457 条 ↓ 后 20% → 测试集1115 条测试集在整个训练过程中模型完全看不到只在最后评估时用一次。八、这套流程是否通用是的这是监督学习分类任务的标准流程换数据就能做不同的事。原始数据文字/图片/数字 ↓ 特征工程向量化/归一化/编码 ↓ 训练集/测试集拆分 ↓ 选择模型朴素贝叶斯/逻辑回归/随机森林/神经网络 ↓ 训练model.fit ↓ 预测model.predict ↓ 评估准确率/精确率/召回率同一套框架换数据集能做的事换成什么数据能做什么电商评论好评/差评情感分析新闻文章政治/科技/体育文本分类用户行为日志流失/留存用户流失预测医疗指标患病/健康疾病风险预测金融交易记录欺诈/正常欺诈检测不同任务之间的差别主要在特征工程文本用 CountVectorizer图片用像素值表格数据可能需要处理缺失值和类别编码模型选择文本分类朴素贝叶斯/SVM 效果好图像分类用 CNN表格数据用随机森林/XGBoost核心流程完全一致。九、完整推导回顾目标: 判断 Win FREE money 是 spam 还是 ham Step 1 向量化 Win FREE money → [1, 1, 0, 1, 1, 0, ...] Step 2 计算先验概率从训练集统计 P(spam) 747 / 5572 0.134 P(ham) 4825 / 5572 0.866 Step 3 计算似然朴素假设各词独立 P(win|spam) 0.0234, P(win|ham) 0.0003 P(free|spam) 0.0456, P(free|ham) 0.0001 P(money|spam) 0.0289, P(money|ham) 0.0003 Step 4 取对数计算得分 score(spam) log(0.134) log(0.0234) log(0.0456) log(0.0289) -12.8 score(ham) log(0.866) log(0.0003) log(0.0001) log(0.0003) -29.6 Step 5 比大小 -12.8 -29.6 → spam 得分更高 → 判定为垃圾邮件 Step 6 归一化输出置信度置信度(spam) ≈ 97%十、问题fit_transform 和 transform 的区别fit 做的事情就是建词汇表扫描所有训练集文本把出现过的词收集起来给每个词分配一个固定的索引位置。训练集: Win FREE money Hello how are you Click here FREE prize fit 之后建立的词汇表: { are: 0, click: 1, free: 2, hello: 3, here: 4, how: 5, money: 6, prize: 7, win: 8, you: 9 } transform 做的是按已有词汇表把文本转成向量不修改词汇表。所以 fit_transform先建词汇表再转换只能在训练集上用 transform直接用已有词汇表转换测试集和新数据用这个直接忽略不报错不影响其他词。遇到没见过的词怎么办比如训练时没有 “lottery” 这个词predict_spam(“Win FREE lottery money”)向量化结果lottery 对应的列根本不存在直接跳过只保留词汇表里有的: win, free, money这是合理的处理方式——模型对没见过的词一无所知与其猜测不如忽略。代价是信息有损失但不会崩溃。词汇表里的词是唯一的邮件怎么向量化词汇表里每个词只出现一次每个词对应向量里的一个位置。向量的长度词汇表的大小每个位置存的是这个词在这封邮件里出现的次数。具体示例“free free” 的情况词汇表简化版只用5个词: {click: 0, free: 1, hello: 2, money: 3, win: 4} 索引位置: 0 1 2 3 4 三封邮件的向量化结果 click free hello money win free free → [ 0, 2, 0, 0, 0 ] ← free出现2次索引1位置填2 win free money → [ 0, 1, 0, 1, 1 ] hello → [ 0, 0, 1, 0, 0 ] 所以你的理解是对的free free 对应的那个位置会是 2。用代码验证一下 python from sklearn.feature_extraction.text import CountVectorizer corpus [ Win FREE money, Hello how are you, Click here FREE prize ] vectorizer CountVectorizer() X vectorizer.fit_transform(corpus) # 查看词汇表 print(vectorizer.vocabulary_) # {win: 8, free: 2, money: 6, hello: 3, ...} # 查看矩阵 print(X.toarray()) # 每一行是一封邮件每一列是一个词的出现次数 # 测试 free free test vectorizer.transform([free free]) print(test.toarray()) # [[0, 2, 0, 0, 0, 0, 0, 0, 0, 0]] # ↑ 索引2(free)位置是2在 Jupyter 里跑一下这段把词汇表和矩阵都打印出来看比文字描述直观很多。参考资料scikit-learn MultinomialNB 文档scikit-learn CountVectorizer 文档SMS Spam Collection 数据集

查看全文

http://www.zskr.cn/news/1357552.html