当前位置: 首页 > news >正文

深入解析:人工智能学习:什么是LSTM模型

一、LSTM介绍

LSTM(Long Short-Term Memory)也称为长短期记忆网络,是一种改进的循环神经网络(RNN),专门设计用于解决传统RNN的梯度消失问题长程依赖困难。LSTM通过引入门机制细胞状态,能够更好地捕捉长序列数据中的长期依赖关系。

它的核心思想是凭借引入门机制(输入门、遗忘门、输出门)和细胞状态(Cell State)来控制信息的流动,从而决定哪些信息得保留、哪些信息需要丢弃。

1、内部结构

1749048674326

遗忘门:决定了哪些信息应该被丢弃(即遗忘)。它读取当前输入和前一时刻的隐藏状态,之后输出一个0到1之间的数值,表示当前时刻的信息应当保留或丢弃的比例。

输入门:决定了哪些信息得被存储到当前的单元状态中。通过这个门来更新单元状态的记忆。

细胞状态:可以将其视为一条贯穿整个网络的”传送带”,携带长期记忆;信息通过细胞状态传递,并由各个门控机制选择性地修改。

输出门:控制从单元状态到隐藏状态的信息流出,决定当前的隐藏状态输出多少细胞状态的内容。

① 细胞状态(Cell State)

  • 作用:细胞状态Ct是LSTM核心,用于存储长期信息
  • 特点
    • 细胞状态在整个时间步中传递,只有少量的线性交互
    • 通过门机制更新细胞状态

② 遗忘门(Forget Gate)

  • 作用:决定哪些信息从细胞状态中丢弃

  • 公式

    ft=σ(Wf⋅[ht−1,xt]+bf)​

    • ft:遗忘门的输出(0表示完全丢弃,1表示完全保留)
    • Wf,bf:权重矩阵和偏置项
    • σ​:Sigmoid​激活函数

③ 输入门(Input Gate)

  • 作用:决定哪些新信息存储到细胞状态中

  • 公式

    it=σ(Wi⋅[ht−1,xt]+bi)

    • it:输入门的输出(0 到 1 之间的值)
    • Wi,bi:权重矩阵和偏置项
    • σ:Sigmoid激活函数

④ 候选细胞状态(Candidate Cell State)

  • 作用:生成新的候选值,用于更新细胞状态

  • 公式

    C~t=tanh⁡(WC⋅[ht−1,xt]+bC)

    • C~t:候选细胞状态
    • WC,bC:权重矩阵和偏置项
    • tanh⁡:双曲正切激活函数

⑤ 更新细胞状态

  • 作用:细胞状态 Ct 是LSTM的记忆,结合遗忘门和输入门,更新细胞状态

  • 公式

    Ct=ft⋅Ct−1+it⋅C~t

    • Ct:更新后的细胞状态
    • 遗忘门ft: 决定了上一时刻的细胞状态 Ct−1 中保留多少信息
    • 输入门it: 决定了当前时刻输入 xt 中有多少新信息被添加到细胞状态中

⑥ 输出门(Output Gate)

  • 作用:决定细胞状态的哪些部分输出到隐藏状态

  • 公式

    ot=σ(Wo⋅[ht−1,xt]+bo)

    • ot:输出门的输出(0 到 1 之间的值)
    • Wo,bo:权重矩阵和偏置项
    • σ:Sigmoid激活函数

⑦ 隐藏状态(Hidden State)

  • 作用:作为LSTM的输出,传递到下一个时间步

  • 公式

    ht=ot⋅tanh⁡(Ct)

    • ht:当前时间步的隐藏状态
    • Ct:是当前时刻的细胞状态

二、LSTM的内部结构图

  • 结构解释图:

    1737642357744

    1737642365890

1、遗忘门

  • 遗忘门部分结构图与计算公式:

  • 遗忘门结构分析:

    与传统RNN的内部结构计算极其相似,第一将当前时间步输入xt与上一个时间步隐藏状态ht−1拼接,得到[xt,ht−1],然后通过一个全连接层做变换,最后通过sigmoid函数进行激活得到ft。我们可以将ft看作是门值,好比一扇门开合的大小程度,门值都将作用在借助

http://www.zskr.cn/news/8407.html

相关文章:

  • RabbitMQ 幂等性, 顺序性 和 消息积压 - 详解
  • resultMap和自定义映射结果形式(ResultMapManage)以及ResultMap Vs ResultType
  • 嵌入式设备不能正常上网问题
  • 2、论文固定模板(背景过度结尾)
  • gin: 静态文件
  • 详细介绍:【论文精读】基于YOLOv3算法的高速公路火灾检测
  • 产品设计
  • 实用指南:人工智能学习:Transformer结构中的编码器层(Encoder Layer)
  • Java03课前问题列表
  • PION 游击
  • 神经网络构成框架-理论学习 - 指南
  • Web3 开发者修炼全图谱:从 Web2 走向 Web3 的实用的系统性学习指南
  • Java 注解 - 实践
  • 安规对变压器的绝缘系统要求
  • 实用指南:GitHub 热榜项目 - 日榜(2025-09-09)
  • 1967
  • 地平线明年发布并争取量产舱驾一体芯片;比亚迪补强智舱团队,斑马智行原 CTO 加入
  • 在AI技术快速实现功能的时代,挖掘新需求成为关键突破点——某知名游戏资源分析工具需求洞察
  • 【光照】[漫反射]UnityURP兰伯特有光照衰减吗?
  • 手把手带你从零开始实现一个编译器
  • Python-Pathlib库
  • global 设置内核源码在线浏览
  • 牛客周赛 Round 108 CDEF题解
  • [LeetCode] 3484. Design Spreadsheet
  • Redis的使用问题
  • 设计模式(C++)详解—单例模式(2) - 指南
  • lc1032-字符流
  • C++小白修仙记_LeetCode刷题_哈希表
  • 【F#学习】字符串String
  • 实用指南:多技术融合提升环境生态水文、土地土壤、农业大气等领域的数据分析与项目科研水平