当前位置: 首页 > news >正文

材料科学每日总结--Day13--数据挖掘

树模型

M5P
  • 作用:构建“模型树”,即在树的每个叶节点用线性回归方程来预测数值。适合回归任务。

  • 优点:
    • 能处理复杂的非线性关系,同时在每个叶节点用线性模型细化预测,精度高。

    • 解释性较好,可能看到分裂规则和线性方程。

  • 缺点:

  • 对噪声敏感,树结构可能较麻烦。

  • 训练速度比方便树慢。

  • 侧重点:既能分群,又能在群内拟合线性关系,适合数据有明显分段线性特征时。

REPTree
  • 作用:快速构建决策树,拥护回归和分类。采用信息增益/方差减少分裂,剪枝防止过拟合。

  • 优点:
    • 速度快,适合大数据集。

    • 剪枝机制减少过拟合。

  • 缺点:
    • 解释性一般,树结构可能不如M5P细致。

    • 对异常值敏感。

  • 侧重点:快速建模,适合初步探索数据结构。

DecisionStump
  • 作用:只分裂一次的“单层树”,即只用一个属性做一次分裂。常用于集成学习的基学习器。

  • 优点:
    • 极其简单,速度快。

    • 在集成手段中(如Bagging、Boosting)表现好。

  • 缺点:
    • 单独应用时预测能力极弱。

    • 不能捕捉复杂关系。

  • 侧重点:作为集成学习的“弱学习器”,单独分析时仅能做最粗略的分群。

RandomTree
  • RandomForest的基础。就是作用:构建随机决策树,每次分裂只考虑部分属性。

  • 优点:
    • 能处理高维数据,抗过拟合。

    • 速度快,适合大内容。

  • 缺点:
    • 单棵树不稳定,结果波动大。

    • 解释性较差。

  • 侧重点:用于集成(如RandomForest),单独用时适合探索数据多样性。

DecisionTable
  • 作用:基于属性组合的查找表,适合分类和回归。通过属性子集选择和查找表预测。

  • 优点:
    • 解释性好,能清楚看到哪些属性组合影响结果。

    • 对缺失值有一定容忍度。

  • 缺点:
    • 对高维数据不友好,表太大时效率低。

    • 不能捕捉复杂非线性关系。

  • 侧重点:适合属性较少、组合关系明显的数据。

元学习模型

meta.AdditiveRegression
  • 作用:集成方法,类似Boosting。通过多轮训练,每轮拟合前一轮的残差,最终将多个弱学习器加权组合。

  • 优点:
    • 能显著提升弱学习器的性能。

    • 对复杂关系拟合能力强。

  • 缺点:
    • 对噪声敏感,容易过拟合。

    • 训练时间长。

  • 侧重点:提升回归模型精度,适合模型基础能力一般时。

meta.Bagging
  • 作用:集成办法,通过对材料多次有放回采样,训练多个模型,最终结果取平均(回归)或投票(分类)。

  • 优点:
    • 降低方差,提升稳定性。

    • 抗过拟合能力强。

  • 缺点:
    • 解释性差,难以理解整体模型逻辑。

    • 训练资源消耗大。

  • 侧重点:提升模型稳定性,适合基础模型波动大时。

meta.RandomCommittee
  • 作用:集成方法,训练多个基础模型(通常是随机树),结果取平均。

  • 优点:
    • 提升预测精度,抗过拟合。

    • 适合高维数据。

  • 缺点:
    • 解释性差。

    • 训练时间长。

  • 侧重点:提升模型泛化能力,适合艰难数据。

meta.RandomizableFilteredClassifier
  • 作用:集成和预处理结合,先对数据做过滤(如特征选择、变换),再用可随机化的分类器训练。

  • 优点:
    • 能自动处理数据预处理和建模。

    • 灵活性高。

  • 缺点:
    • 配置困难,解释性一般。

    • 依赖过滤器和基础模型性能。

  • 侧重点:适合需要自动化预处理和建模的场景。

meta.RandomSubSpace
  • 作用:集成方式,每个基础模型只用部分特征子集训练,结果集成。

  • 优点:
    • 提升模型多样性,抗过拟合。

    • 适合高维数据。

  • 缺点:
    • 解释性差。

    • 训练时间长。

  • 侧重点:适合特征很多、模型容易过拟合的内容。

meta.RegressionByDiscretization
  • 作用:将回归问题转化为分类问题(依据离散化目标变量),再用分类器预测,最后将分类结果映射回数值。

  • 优点:
    • 能用强大的分类器解决回归问题。

    • 适合目标变量分布不均时。

  • 缺点:
    • 精度受离散化影响,解释性一般。

    • 可能损失连续性信息。

  • 侧重点:适合目标变量分布特殊、分类器强于回归器时。

懒惰学习

lazy.IBK
  • 作用:K近邻算法(KNN),预测时查找最近的K个样本,取平均(回归)或投票(分类)。

  • 优点:
    • 无需训练,模型简单。

    • 能捕捉局部模式。

  • 缺点:
    • 对数据规模和噪声敏感,预测慢。

    • 不能解释全局规律。

  • 侧重点:适合数据量不大、局部规律明显时。

lazy.LWL
  • 作用:局部加权学习,每次预测时在邻域内训练一个模型(如线性回归),用加权方式预测。

  • 优点:
    • 能捕捉复杂的局部非线性关系。

    • 灵活性高。

  • 缺点:
    • 预测慢,计算量大。

    • 解释性差。

  • 侧重点:适合数据分布繁琐、局部模式强烈时。

http://www.zskr.cn/news/75795.html

相关文章:

  • 原理图文档处理工具
  • 2025年3D扫描仪十大品牌权威排名:国产化替代首选TOP10
  • P8270 [USACO22OPEN] Subset Equality S
  • 街头徒手健身6倒立训练与肩部健康
  • 基于MATLAB的位同步提取方法
  • 102302141_易敏亮第四次数据采集作业
  • CF700B Connecting Universities
  • P6875 [COCI2013-2014#6] KRUŽNICE
  • 北京上门回收名家字画 专访北京丰宝斋负责人徐亚南
  • MultiButton移植记录
  • Excel 公式
  • P6173 [USACO16FEB] Circular Barn P
  • 为数字文明奠基:论通译院-价值星图-叙事舞台架构作为价值实践的元操作系统
  • grep 常用功能
  • 2025 最新工业自动化服务商 / 厂家 TOP5 评测!科技赋能 + 全周期服务权威榜单发布,引领智慧工厂建设新生态
  • 2025 最新智慧工厂建设服务商/厂家 TOP5 评测!科技赋能+全周期服务权威推荐榜单发布,引领智能制造新生态
  • why windows is worst
  • 4pcs Launch LTR-05 TPMS Sensor Tool 315MHz 433MHz - Metal/Rubber for European/American Cars
  • Get Lifetime Free Launch X431 ADAS Calibration for PAD VII/Pro5/Pro3S+/Pro3/APEX
  • 儿童补钙不盲选!从钙源到配方,儿童钙剂选购全指南
  • 2025年ChatGPT优化排名公司推荐:AI驱动下的SEO新选择
  • 2025年深圳GEO优化公司推荐:AI驱动时代的流量突围伙伴
  • 2025年11月儿童营养品牌测评指南——选对不踩坑
  • 【AI大模型技术】2.神经网络 - 教程
  • P3120 [USACO15FEB] Cow Hopscotch G
  • ABC435
  • 散修带你入门鸿蒙应用开发基础:启程篇(上) - 鸿蒙
  • 分库分表是同一个实例内的多个不同库/不同表吗
  • Launch X431 PRO Elite: Full System CAN FD Active Tester OBD2 Scanner for Euro/American Cars
  • 20232405 2025-2026-1 《网络与系统攻防技术》实验八实验报告