当前位置: 首页 > news >正文

AI学习日记 - 实践

AI学习日记 - 实践

目录

一、决策树

1.定义

2.算法步骤

(1)特征选择

(2)节点分裂

(3)递归停止条件

(4)剪枝处理

3.特殊特征

(1)独热编码

(2)连续值特征

二、熵

1.定义

2.公式

3.信息增益

总结


一、决策树

1.定义

决策树是一种基于树状结构的监督学习算法,用于分类和回归任务。通过递归划分数据集,决策树模拟人类决策过程,每个内部节点代表一个特征判断分支代表判断结果叶节点代表最终预测类别或数值

适用场景:结构化数据(不适用于处理图片,音频,文本等非结构化信息)

2.算法步骤

(1)特征选择

根据算法(如信息增益、基尼指数)选择能获得纯度最高的子集作为最佳划分特征。

例1,就是:以下四个特征中,选择catdna是作为特征得到的结果纯度最高。有dna的全是猫,没有dna的全不纯度拉满

(2)节点分裂

将材料集按特征值划分为子集,生成分支。

(3)递归停止条件

(4)剪枝处理

凭借预剪枝(限制树深度)或后剪枝(代价复杂度剪枝)防止过拟合。

3.特殊特征

(1)独热编码

决策树无法直接处理在二分类以上的特征(比如耳朵形状有三种),需凭借独热编码(热=1)转换为数值形式。将具有k个类别的特征展开为k个二进制列,每列对应一个类别值,样本属于该类别则标记为1,否则为0。

(2)连续值特征

决策树的特征不再是非0即1,而是从一个特定的区间取值(比如体重15kg),尝试选定不同的阈值(体重<=8),计算信息增益公式来获取信息增益最大的阈值。

二、熵

1.定义

熵(Entropy)是信息论中的核心概念,用于衡量系统的不确定性或混乱程度

在决策树中用于评估材料集的纯度(特征选择)。熵值越高,数据的不确定性越大;熵值越低,数据的纯度越高。

熵=不纯度

2.公式

  • H(p1) 表示数据集p1 的熵
  • 猫概率,p1为非猫概率)就是p0=1-p1(p0为

log以2为底是为了刚好峰值是1

例2:当数据集中一半猫一半狗混乱程度最大,H(p1)=1;反之材料集要是只有猫或只有狗,H(p2)=0,混乱程度最小

3.信息增益

信息增益是决策树算法中用于选择最优划分特征在选择分裂某个特征时,素材集就是的算法,基于熵(Entropy)概念。它衡量的混乱性(熵)减少的程度。信息增益越大,意味着使用该属性进行划分能带来更多的信息量,从而更有效地分类资料。

父节点的熵 -左右子节点的熵加权和= 混乱性(熵)减少的程度

例3:父节点共有十个样本,五猫五狗,H(5/10)=1。左右子节点按照有无胡须划分,左边三猫一狗,右边2猫4狗,所以分别是H(3/4)和H(2/6)。按照加权求和即使按照子节点分得的样本数加权,左边四只有胡须的,右边六只有胡须的,所以是4/10H(3/4)+6/10H(2/6)。最终我要计算他的熵减少的程度:H(5/10)-( 4/10H(3/4)+6/10H(2/6)


总结

本文介绍了决策树算法的首要过程,详细聚焦于特征选择于递归停止条件,并且引入了熵的概念从而引出信息增益的公式,此外还简单提及了一些特殊特征取值的处理方式

http://www.zskr.cn/news/8473.html

相关文章:

  • es中的索引
  • VIVADO的IP核 DDS快速采用——生成正弦波,线性调频波
  • 深入解析:C语言---判断语句
  • YOLO进阶提升 4训练准备与数据处理
  • YOLO进阶提升 5标注与配置
  • 【学术会议前沿信息|科研必备】IEEE/EI/Scopus三检护航!人工智能+自动化控制+人文社科+遥感+地理信息+视觉领域国际会议征稿启动,硕博生速来! - 教程
  • YOLO进阶提升 3YOLOv4 改进
  • 深入解析:数据库入门实战版
  • C# Avalonia 15- Animation- AnimationPlayerTest
  • JSONArray集合根据某个字段查询对象
  • 完整教程:Qt开发经验 --- qmake执行系统命令(15)
  • 13. LangChain4j + 加入检索增加生成 RAG(知识库) - Rainbow
  • CentOS 7 源码版 PhpMyAdmin 安装指南(适配 Nginx+PHP-FPM 环境) - 教程
  • AI智能体服务优秀的平台架构设计
  • 深入解析:YARN架构解析:深入理解Hadoop资源管理核心
  • JBoltAI:破解Java企业级AI应用落地难题的利器
  • Day04 C:\Users\Lenovo\Desktop\note\code\JavaSE\Basic\src\com\David\operator Demo01-08+Doc
  • springboot创建请求处理 - 指南
  • Mapper.xml与数据库进行映射的sql语言注意事项
  • 深入解析:人工智能学习:什么是LSTM模型
  • RabbitMQ 幂等性, 顺序性 和 消息积压 - 详解
  • resultMap和自定义映射结果形式(ResultMapManage)以及ResultMap Vs ResultType
  • 嵌入式设备不能正常上网问题
  • 2、论文固定模板(背景过度结尾)
  • gin: 静态文件
  • 详细介绍:【论文精读】基于YOLOv3算法的高速公路火灾检测
  • 产品设计
  • 实用指南:人工智能学习:Transformer结构中的编码器层(Encoder Layer)
  • Java03课前问题列表
  • PION 游击