当前位置：首页 > news >正文

《Python数据挖掘入门与实践》全套学习材料：PDF教材+彩图解析+12章可运行代码+真实数据集

news 2026/6/11 15:57:49

本文还有配套的精品资源，点击获取

简介：配套《Python数据挖掘入门与实践》的完整学习资源包，直接支持从零上手到项目实操。主教材PDF和高清彩图版PDF并存，图表细节清晰，算法原理一目了然；12个章节（Chapter 1至Chapter 12）各自独立存放源码，每章代码均可直接运行，覆盖数据预处理、分类建模、聚类分析、关联规则挖掘、文本处理等核心任务；附带多个真实业务场景数据集，格式统一为CSV/Excel，开箱即用；Code_REWRITE目录提供关键代码的工程化优化版本，展示性能提升与结构改进思路；根目录含requirements.txt和一键运行脚本run_ch1.py，环境配置与快速验证更省心；适合自学巩固、课堂演示或小型项目快速搭建。

1. 这套资料到底解决了什么问题？——一个老手眼中的“自学数据挖掘”真实困境

你是不是也经历过：买了一本号称“零基础入门”的数据挖掘书，翻开第一页就堆满公式和术语，配图还是黑白灰的简笔画，看三遍都不明白K-means聚类中心是怎么一步步迭代出来的；好不容易啃完理论，翻到代码章节，发现示例用的是sklearn自带的iris数据集，连个缺失值都没处理，更别说真实业务里常见的字段错位、时间戳格式混乱、文本中混着emoji和乱码；等你鼓起勇气跑通第一章代码，第二章环境就报错——pandas版本冲突、matplotlib中文显示方块、jieba分词加载词典失败……最后不是放弃，就是靠百度+Stack Overflow拼凑出一个勉强能跑的结果，但完全不知道哪一步在起作用、哪一步是冗余的。

这套《Python数据挖掘入门与实践》全套学习材料，就是冲着这些“教科书式学习”里的典型断点来的。它不假装从“什么是变量”开始讲起，而是默认你已掌握Python基础语法（比如会写for循环、能导入模块），直接切入数据挖掘工作流的真实切口：如何把一团乱麻的原始数据，变成模型能吃的干净样本；如何让算法输出不只是一个accuracy数字，而是可解释、可追踪、可复现的业务洞察。关键词里反复出现的“彩图PDF”不是噱头——我对比过原书黑白印刷版和这份彩图PDF，决策树分裂过程用红蓝渐变色标出信息增益变化，PCA降维前后的散点图用不同颜色区分类别并叠加箭头示意主成分方向，LDA主题建模的词云图按概率强度用字体大小+饱和度双重编码。这种视觉编码，比读十遍文字描述都管用。

它面向的不是想成为算法研究员的人，而是需要快速上手、两周内完成客户销售数据分类建模、一个月内搭出用户分群系统、三个月内独立交付文本舆情分析报告的实战者。无论是刚转行的数据分析师、带学生的高校教师，还是需要补足技术能力的产品经理，只要你的目标是“用Python解决真实业务中的数据问题”，而不是“推导SVM的拉格朗日对偶问题”，这套资料就是为你量身打磨的脚手架。它不教你造轮子，但教会你怎么选轮子、怎么装轮子、怎么判断轮子是不是跑偏了——这才是工业级数据挖掘的第一课。

2. 资源结构深度拆解：为什么这样组织，比“扔给你一堆文件”高明在哪？

2.1 主教材PDF与彩图PDF：不是简单多一份，而是构建“双通道理解闭环”

很多人以为彩图PDF只是把黑白图换成彩色，其实远不止。原书PDF（Python数据挖掘入门与实践.pdf）承担的是逻辑骨架功能：定义清晰、推导严谨、章节衔接紧密，适合系统性精读。而彩图PDF（Python数据挖掘入门与实践_彩图.pdf）则是视觉神经：所有算法流程图采用统一配色规范——蓝色代表输入数据流，橙色代表计算核心模块，绿色代表输出结果，灰色虚线框标出可替换组件（比如聚类算法中，k-means模块可被DBSCAN替换）。我在带新人时发现，当学员卡在“随机森林为什么比单棵决策树稳定”时，让他们对照彩图PDF里那张动态演示图：左边是单棵树对同一数据集多次训练产生的剧烈波动预测曲线，右边是20棵树预测结果的平滑均值线，波动幅度肉眼可见地收窄——这个视觉对比，比讲十分钟方差-偏差分解更直击要害。

更关键的是，两份PDF页码严格对齐。当你在原书第73页读到“特征缩放对KNN距离计算的影响”，直接翻到彩图PDF同一页，就能看到三组对比图：未缩放时身高（单位：cm）和年收入（单位：万元）的数值范围差异导致距离计算被收入主导；标准化后两者量纲一致；归一化后所有特征压缩到[0,1]区间。这种“文字定义→公式表达→视觉验证”的三重锚定，彻底堵死了“自以为懂了”的认知漏洞。

2.2 章节代码目录（Chapter 1至Chapter 12）：拒绝“玩具代码”，每章都是微型项目现场

很多教程的代码目录像这样：ch1_hello_world.py,ch2_basic_syntax.py。而这套资料的Chapter 1目录下，你看到的是：

├── data/ │ ├── raw/ # 原始采集数据（含传感器时间戳错位、字段名中英文混杂） │ └── processed/ # 清洗后标准格式（统一UTF-8编码、时间列转datetime、空值标记为NaN） ├── notebooks/ │ └── ch1_exploratory_analysis.ipynb # Jupyter交互式探索（含缺失值热力图、数值分布直方图、类别占比饼图） ├── scripts/ │ ├── 01_load_and_validate.py # 数据加载+基础校验（行数/列数/空值率/重复ID检测） │ ├── 02_clean_and_transform.py # 核心清洗逻辑（正则提取手机号、日期标准化、异常值截断） │ └── 03_generate_features.py # 特征工程（滑动窗口统计、周期性编码、文本TF-IDF向量化） └── run_ch1.py # 一键执行全流程（调用上述三个脚本，输出清洗报告PDF）

看到没？Chapter 1就不是教你print(“Hello World”)，而是带你处理一份真实的电商用户行为日志（data/raw/user_behavior_log.csv），里面包含user_id,event_time,page_url,device_type,session_id等字段，event_time格式混乱（有的”2023/05/21 14:30:22”，有的”21-May-2023 14:30”），page_url里混着UTM参数和特殊符号。02_clean_and_transform.py里那段正则清洗逻辑，是我实测从某电商平台爬虫日志里提炼出来的：

# 处理混乱的event_time字段（兼容多种格式） def parse_event_time(time_str): formats = [ "%Y/%m/%d %H:%M:%S", "%d-%b-%Y %H:%M", "%Y-%m-%d %H:%M:%S", "%Y-%m-%d %H:%M" ] for fmt in formats: try: return pd.to_datetime(time_str, format=fmt) except ValueError: continue raise ValueError(f"无法解析时间格式: {time_str}") # 提取page_url中的核心路径（去除UTM参数和hash） def extract_page_path(url): if pd.isna(url): return "unknown" # 移除?后的查询参数和#后的锚点 clean_url = re.split(r'[?#]', url)[0] # 提取路径部分（如 /product/detail?id=123 → /product/detail） path = urlparse(clean_url).path return path if path else "homepage"

这种代码，你抄过去就能用在自己的日志分析项目里，而不是学完还得自己重写一遍。

2.3 Code_REWRITE目录：暴露“教科书代码”到“生产代码”的真实进化路径

这是整套资料里最体现作者功力的部分。比如Chapter 5讲关联规则挖掘，原章代码用mlxtend库的apriori函数一行搞定：

# 原始代码（Chapter 5） frequent_itemsets = apriori(df_encoded, min_support=0.1, use_colnames=True) rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)

看似简洁，但实际跑百万级交易记录时，内存直接爆掉。Code_REWRITE/Chapter_5_optimized/里给出的优化方案，是分三步走的工程化重构：

数据层优化：用scipy.sparse.csr_matrix替代稠密DataFrame存储二值化购物篮，内存占用从8GB降到1.2GB；
算法层优化：改用FP-Growth算法（fpgrowth库），通过构建FP-Tree避免生成候选项集，速度提升4.7倍；
结果层优化：增加规则过滤器——自动剔除“啤酒→尿布”这类低业务价值的强关联（支持度>0.5但lift<1.2），保留“高端手机→碎屏险”这类高转化潜力规则（lift>3.0且置信度>0.65）。

更绝的是，Code_REWRITE目录下的每个.py文件都带详细注释，标注了每一处修改对应的性能收益和适用场景。比如fp_growth_optimized.py开头就写着：

""" 【优化说明】 - 原apriori耗时：处理10万条交易记录需286秒，内存峰值8.2GB - 当前FP-Growth耗时：同数据集仅61秒，内存峰值1.3GB - 适用场景：交易记录>5万条，商品SKU>1000种 - 注意事项：FP-Tree构建阶段不支持动态调整min_support，需预估后固定 """

这种把“为什么这么改”、“改了有什么用”、“什么情况下不该用”全摊开来讲的坦诚，才是真正的授人以渔。

2.4 真实数据集：不是“iris”“titanic”，而是你明天就要处理的业务数据

资料包里的数据集命名就很说明问题：sales_forecast_2023Q4.csv（某快消品牌2023年Q4区域销售数据）、user_app_logs_anonymized.xlsx（脱敏后的APP用户行为日志）、news_articles_tech_2024.csv（2024年科技类新闻标题与正文）。它们共同特点是：

字段设计贴近业务：sales_forecast_2023Q4.csv包含region_code,product_category,promotion_flag,holiday_effect,competitor_price_ratio等列，而不是简单的feature1,feature2；
数据缺陷真实存在：user_app_logs_anonymized.xlsx里有约3.7%的session_id为空（模拟埋点丢失），event_time列存在跨天未闭合的会话（需用sessionize逻辑处理）；
格式统一开箱即用：所有CSV均为UTF-8无BOM编码，Excel文件用openpyxl引擎读取无乱码，数值列无千分位逗号，日期列统一为ISO格式（2024-03-15）。

我拿sales_forecast_2023Q4.csv做过压力测试：用原书Chapter 9的LSTM模型预测下月销量，原始代码直接报MemoryError。但切换到Code_REWRITE/Chapter_9_LSTM_optimized/里的分批训练方案（batch_size=32,sequence_length=14），配合tf.data.Dataset流水线预处理，显存占用稳定在3.2GB，训练速度反而提升18%——因为避免了每次读取全量数据到内存再切片的IO瓶颈。

3. 实操指南：从环境配置到逐章通关，我的踩坑实录与提速技巧

3.1 环境配置：requirements.txt不是摆设，而是精准控制版本的手术刀

别急着pip install -r requirements.txt。先打开这个文件看看内容：

# 核心科学计算 numpy==1.23.5 pandas==1.5.3 scikit-learn==1.2.2 # 可视化 matplotlib==3.7.1 seaborn==0.12.2 plotly==5.14.1 # 文本处理 jieba==0.42.1 nltk==3.8.1 # 深度学习（Chapter 9-12） tensorflow==2.12.0 # 注意：PyTorch版本未锁定，因Chapter 11的BERT微调需根据GPU显存选择 # 若显存<8GB，建议pip install torch==2.0.1+cpu -f https://download.pytorch.org/whl/torch_stable.html

看到没？所有关键库都锁定了小版本号（==而非>=）。这是因为数据挖掘库的API变动很隐蔽：比如pandas 2.0把DataFrame.as_matrix()方法彻底移除了，而Chapter 6的特征组合代码里还用着它；scikit-learn 1.3更新了RandomForestClassifier的oob_score_属性计算逻辑，会导致Chapter 7的模型评估结果和书中示例对不上。我建议的操作顺序是：

创建独立虚拟环境（强烈推荐conda，因tensorflow和pytorch的CUDA依赖管理更稳）：
bash conda create -n pydm_env python=3.9 conda activate pydm_env pip install -r requirements.txt
验证核心依赖是否正常：
```bash
# 测试中文显示（避免matplotlib方块）
python -c “import matplotlib.pyplot as plt; plt.rcParams[‘font.sans-serif’]=[‘SimHei’,’Arial Unicode MS’]; plt.text(0.5,0.5,’测试中文’); plt.show()”

# 测试jieba分词（避免词典加载失败）
python -c “import jieba; print(list(jieba.cut(‘自然语言处理很有趣’)))”
```

提示：如果遇到matplotlib中文乱码，不要去网上搜“万能字体替换方案”。直接在requirements.txt下方加一行--find-links https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ --trusted-host mirrors.tuna.tsinghua.edu.cn，然后重装matplotlib，清华源里打包的版本已内置中文字体。

3.2 一键运行与调试：run_ch1.py不是玩具，而是诊断入口

根目录的run_ch1.py设计得很巧妙。它不直接执行分析，而是启动一个交互式诊断流程：

if __name__ == "__main__": print("=== Chapter 1 环境诊断工具 ===") print("1. 检查数据路径是否存在...") print("2. 验证pandas读取CSV是否正常...") print("3. 测试缺失值可视化是否报错...") print("4. 运行完整清洗流水线（约45秒）...") choice = input("请选择执行项 (1-4) 或输入 'all' 运行全部: ").strip() # 根据选择调用对应函数，每步都有try-except捕获具体错误

我第一次运行时卡在第2步，报错UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0。这说明data/raw/user_behavior_log.csv是GBK编码（常见于Windows系统导出的CSV）。解决方案不是改代码，而是用iconv命令批量转码：

# Linux/Mac iconv -f GBK -t UTF-8 data/raw/user_behavior_log.csv > data/raw/user_behavior_log_utf8.csv # Windows（PowerShell） Get-Content data\raw\user_behavior_log.csv -Encoding Default | Set-Content data\raw\user_behavior_log_utf8.csv -Encoding UTF8

然后修改scripts/01_load_and_validate.py里的路径指向新文件。这种“错误即教学”的设计，比直接给你一个完美运行的脚本更有价值——它强迫你理解数据编码的本质。

3.3 逐章通关路线图：我的12天实操计划表（附避坑清单）

天数	章节重点	关键动作	我的避坑记录
第1天	数据探索与清洗	运行`run_ch1.py`→ 修改`02_clean_and_transform.py`适配自己数据	`extract_page_path()`函数对含中文URL失效，需在正则前加`re.UNICODE`标志
第2天	特征工程	在`03_generate_features.py`中添加“用户最近7天访问品类数”特征	`pd.rolling()`对稀疏时间序列无效，改用`pd.Grouper(key='event_time', freq='7D')`分组统计
第3天	分类建模（逻辑回归）	对比`Chapter 3`原始代码与`Code_REWRITE/Chapter_3_balanced/`的SMOTE过采样版	原始代码在不平衡数据上AUC仅0.62，SMOTE版提升至0.89，但需警惕过拟合（验证集AUC下降0.03）
第4天	决策树与集成	用`graphviz`可视化Chapter 4的树结构，观察最大深度对过拟合的影响	`max_depth=5`时测试集准确率最高（86.3%），`max_depth=10`时训练集98.1%但测试集跌至79.5%
第5天	关联规则	尝试`Code_REWRITE/Chapter_5_optimized/`的FP-Growth，调整`min_support`从0.01到0.05	`min_support=0.01`生成2387条规则，人工筛选困难；`min_support=0.03`后剩42条，其中31条lift>2.0，业务价值密度显著提升
第6天	聚类分析	对`sales_forecast_2023Q4.csv`做K-means，用肘部法则确定K值	肘部图拐点在K=4，但业务上需5类（高端/中端/低端/促销敏感/价格不敏感），最终采用轮廓系数辅助决策
第7天	异常检测	运行Chapter 7的Isolation Forest，重点看`contamination`参数影响	`contamination=0.1`检出127个异常点，但人工核查发现32个是促销活动导致的合理高销量，应结合业务规则二次过滤
第8天	时间序列预测	用Chapter 8的ARIMA模型预测销量，注意`seasonal_order`参数设置	原始代码设`seasonal_order=(1,1,1,7)`，但Q4数据周季节性弱，改为`(1,1,1,30)`（月周期）后RMSE降低22%
第9天	LSTM建模	在`Code_REWRITE/Chapter_9_LSTM_optimized/`基础上，增加早停机制	加入`EarlyStopping(patience=5)`后，训练轮次从100轮降至63轮，避免过拟合且验证损失更低
第10天	文本挖掘	用Chapter 10的TF-IDF+朴素贝叶斯分类新闻标题，重点调优`max_features`	`max_features=5000`时准确率82.4%，`max_features=10000`时升至84.1%，但训练时间翻倍，取舍点在8500
第11天	BERT微调	运行`Chapter 11`的Hugging Face代码，注意`gradient_accumulation_steps`设置	显存不足时，设`gradient_accumulation_steps=4`（等效batch_size=16），比直接减小batch_size更稳定
第12天	模型部署	将Chapter 12的Flask API封装成Docker镜像，测试POST请求	原始代码未处理`Content-Type: application/json`，需在Flask路由中加`request.get_json()`校验

注意：每天实操后，务必在notebooks/目录下新建dayX_summary.ipynb，用Markdown记录3个关键收获和1个待解决问题。这是我坚持12天不放弃的核心方法——把模糊的“学会了”变成具体的“今天搞定了XX参数的调优”。

4. 常见问题与排查技巧实录：那些没写在书里，但每天都在发生的故障

4.1 “明明代码没改，为什么昨天能跑今天报错？”——环境漂移的隐形杀手

现象：Chapter 6的K-means代码昨天运行正常，今天突然报ValueError: Input contains NaN, infinity or a value too large for dtype('float64')。

排查路径：
1. 先检查数据：df.describe()看是否有inf或-inf（常由log(0)或除零产生）；
2. 再查缺失值：df.isna().sum()确认是否新增了空值（可能上游数据源变更）；
3. 最后看dtype：df.dtypes发现某列为object，用df[col].apply(type).unique()发现混入了字符串'NULL'。

根本原因：sales_forecast_2023Q4.csv的上游ETL任务升级，将原本的NULL值改写为字符串'NULL'，而原始清洗脚本只处理np.nan。解决方案是在02_clean_and_transform.py的开头增加：

# 处理字符串'NULL'和'null'（兼容不同ETL习惯） for col in df.select_dtypes(include=['object']).columns: df[col] = df[col].replace(['NULL', 'null', 'None', ''], np.nan)

4.2 “图表显示全是方块，配色丑得没法看”——可视化失效的终极解法

现象：彩图PDF里精美的热力图，在Jupyter里跑出来是黑白方块，且坐标轴中文显示为□。

三步定位法：
- 第一步：matplotlib.__version__确认版本（必须≥3.7.1，旧版本不支持font_manager新API）；
- 第二步：matplotlib.font_manager.findSystemFonts(fontpaths=None, fontext='ttf')查看系统字体列表，确认是否有simhei.ttf或NotoSansCJK-Regular.ttc；
- 第三步：在notebooks/ch1_exploratory_analysis.ipynb开头强制指定字体：
python import matplotlib matplotlib.rcParams['font.sans-serif'] = ['SimHei', 'Noto Sans CJK SC', 'Arial Unicode MS'] matplotlib.rcParams['axes.unicode_minus'] = False # 解决负号显示为方块

实操心得：不要试图“全局安装中文字体”。直接在项目根目录建fonts/文件夹，放入simhei.ttf，然后在代码里动态注册：
python from matplotlib.font_manager import fontManager fontManager.addfont('fonts/simhei.ttf') plt.rcParams['font.sans-serif'] = ['SimHei']
这样保证你的图表在任何机器上都能正确渲染，无需依赖系统字体。

4.3 “模型预测结果和书中示例差太多”——随机性陷阱与可复现性保障

现象：Chapter 3的逻辑回归模型，书中说测试集准确率85.2%，你跑出来只有72.4%。

真相核查清单：
- ✅ 检查随机种子：所有涉及随机性的操作（train_test_split,LogisticRegression(random_state=42)）是否统一设为相同值；
- ✅ 检查数据切分比例：书中用test_size=0.2，你是否误写成0.3；
- ✅ 检查特征缩放：是否对训练集和测试集分别调用StandardScaler.fit_transform()（错误！应只对训练集fit_transform，测试集用transform）；
- ✅ 检查标签编码：LabelEncoder是否在训练集上fit后，又在测试集上重新fit（导致标签错位）。

我曾因第3条栽过跟头：测试集单独做标准化，导致模型把“年收入100万”当成离群值直接截断，准确率暴跌。修复后代码：

# 正确做法：训练集fit_transform，测试集transform scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) # 注意：这里用transform，不是fit_transform！ # 错误示范（会导致结果不可复现） X_test_scaled = scaler.fit_transform(X_test) # 千万别这么写！

4.4 “Code_REWRITE里的优化版跑不起来”——版本兼容性雷区

现象：Code_REWRITE/Chapter_9_LSTM_optimized/train_lstm.py报错AttributeError: module 'tensorflow.keras' has no attribute 'InputSpec'。

原因溯源：InputSpec在TensorFlow 2.11+中已移至keras.layers.InputSpec，而原代码基于TF 2.8编写。解决方案不是降级TensorFlow（可能影响其他章节），而是做兼容性适配：

# 在train_lstm.py开头添加兼容层 import tensorflow as tf if tf.__version__ >= "2.11.0": from keras.layers import InputSpec else: from tensorflow.keras.layers import InputSpec

提示：Code_REWRITE目录下的所有优化代码，都应在文件头部注明兼容的TensorFlow/PyTorch版本范围。我在Chapter_11_BERT_optimized/README.md里明确写了：“本优化版需PyTorch ≥ 2.0.0且< 2.2.0，因2.2.0引入了新的flash_attention默认启用，与当前梯度检查点逻辑冲突”。

5. 进阶应用：如何把这套资料变成你的个人知识引擎

5.1 构建专属“数据挖掘模式库”：从照搬到定制

别把Chapter X当成孤立章节。我的做法是建立一个patterns/目录，把各章精华抽象成可复用的模式：

patterns/data_pipeline/：封装01_load_and_validate.py + 02_clean_and_transform.py为DataPipeline类，支持链式调用：
python pipeline = DataPipeline(raw_path="data/raw/") pipeline.add_step("clean_phone", lambda df: df.assign(phone=df.phone.str.replace(r'\D', ''))) pipeline.add_step("encode_category", lambda df: pd.get_dummies(df, columns=['category'])) clean_df = pipeline.run()
patterns/model_zoo/：将Chapter 3-7的模型封装为统一接口：
```python
class BaseModel:
def fit(self, X, y): raise NotImplementedError
def predict(self, X): raise NotImplementedError
def explain(self, X): # 自动生成SHAP解释图
pass

class LogisticRegressionModel(BaseModel):
definit(self, C=1.0):
self.model = LogisticRegression(C=C)
```

这样，当你接到新需求（比如“用历史订单预测用户是否会流失”），直接调用patterns/model_zoo/里的LogisticRegressionModel，传入清洗好的数据，5分钟内就能出第一版结果，而不是从头写from sklearn.linear_model import LogisticRegression。

5.2 彩图PDF的深度挖掘：把静态图变成动态学习卡片

彩图PDF里的算法图不是用来“看”的，而是用来“拆解”的。我用Obsidian创建了一个algorithm_cards/数据库，每张卡片对应一个算法图：

卡片标题：KMeans_彩图P45_聚类过程
核心字段：
输入：原始数据点坐标、初始质心位置
步骤：1. 计算每个点到各质心距离；2. 将点分配给最近质心；3. 重新计算质心位置；4. 重复直到收敛
关键参数：n_clusters,init(k-means++ vs random),max_iter
失效场景：数据呈环形分布（K-means会强行切成扇形）、簇大小差异极大（小簇质心易被大簇淹没）
书中对比图：插入彩图PDF第45页截图，并用箭头标注“此处展示第3次迭代后质心移动方向”

每周抽30分钟，随机打开一张卡片，合上PDF，凭记忆画出算法流程图。坚持一个月，你会发现面对新算法（比如Chapter 11的BERT），你能本能地问出：“它的输入是什么？中间经过哪些变换？输出如何解读？”——这才是数据挖掘思维的真正内化。

5.3 从学习资料到生产力工具：自动化你的日常分析

把run_ch1.py的诊断逻辑扩展成auto_analyze.py，让它成为你的数据分析助手：

# auto_analyze.py def analyze_data(filepath): """自动分析任意CSV文件，输出诊断报告""" df = pd.read_csv(filepath) report = { "shape": df.shape, "missing_rate": (df.isna().sum().sum() / df.size), "dtypes_summary": df.dtypes.value_counts().to_dict(), "numeric_stats": df.describe().to_dict(), "categorical_top5": {col: df[col].value_counts().head(5).to_dict() for col in df.select_dtypes(include=['object']).columns} } # 生成HTML报告（含缺失值热力图、数值分布直方图） generate_html_report(report, filepath.replace(".csv", "_report.html")) return report if __name__ == "__main__": analyze_data("my_new_dataset.csv") # 一行命令，生成完整分析报告

现在，每当业务方甩来一个新数据表，我不再手动敲df.head()、df.info()、df.describe()，而是直接运行python auto_analyze.py my_new_dataset.csv，3秒后得到一份带可视化图表的HTML报告。这个小工具，是从Chapter 1的清洗脚本里长出来的，但它已经超越了学习资料本身，成了我每天开工的第一件事。

这套资料的价值，从来不在它“提供了什么”，而在于它教会你“如何构建自己的东西”。当你能把Chapter 1的清洗逻辑封装成DataPipeline，把Chapter 5的关联规则结果自动推送企业微信，把Chapter 9的LSTM预测嵌入BI看板——你就不再是资料的使用者，而是数据挖掘工作流的建筑师。而这条路的起点，就是此刻你电脑里那个名为Python数据挖掘入门与实践的文件夹。

本文还有配套的精品资源，点击获取

查看全文

http://www.zskr.cn/news/1504824.html