深入解析:大模型-Transformer原理与实战篇

深入解析:大模型-Transformer原理与实战篇

目录

  • 前言
  • 一、Transformer是什么?
    • 1.1 Transformer的结构
    • 1.2 自注意力机制
    • 1.3 使用位置编码表示序列的顺序
    • 1.4 Add&Normalize
    • 1.5 全连接层Feed Forward
    • 1.7 输出
    • 1.8 transformer的优缺点:
  • 二、Self-Attention的实现
    • 2.0 过程
    • 2.1 准备输入(词嵌入向量)
    • 2.2 初始化参数(Q、K、V矩阵)
    • 2.3 获取key,query和value
    • 2.4 计算注意力分数
    • 2.5 计算softmax
    • 2.6 给value乘上score
    • 2.7 给value加权求和获取output(得到input1的结果向量)

前言

Transformer是一种用于自然语言处理(NLP)和其他席列到序列(sequence-to-sequence)任务的深度学习模型架构,它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制(self-attention mechanism)这是一个关键的创新,使其在处理序列材料时表现出色。

什么?就是一、Transformer

Transformer是一种用于自然语言处理(NLP)和其他序列到序列(sequence-to-sequence)任务的深度学习模型架构,它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制(self-attention mechanism),这是一个关键的创新,使其在处理序列资料时表现出色。

以下是Transformer的一些重要组成部分和特点: