深入解析：大模型-Transformer原理与实战篇

📅 发布时间：2026/6/19 0:29:49 👁 浏览次数：

深入解析：大模型-Transformer原理与实战篇

目录

前言
一、Transformer是什么？
- 1.1 Transformer的结构
- 1.2 自注意力机制
- 1.3 使用位置编码表示序列的顺序
- 1.4 Add&Normalize
- 1.5 全连接层Feed Forward
- 1.7 输出
- 1.8 transformer的优缺点:
二、Self-Attention的实现
- 2.0 过程
- 2.1 准备输入(词嵌入向量)
- 2.2 初始化参数(Q、K、V矩阵)
- 2.3 获取key，query和value
- 2.4 计算注意力分数
- 2.5 计算softmax
- 2.6 给value乘上score
- 2.7 给value加权求和获取output(得到input1的结果向量)

前言

Transformer是一种用于自然语言处理(NLP)和其他席列到序列(sequence-to-sequence)任务的深度学习模型架构，它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制(self-attention mechanism)这是一个关键的创新，使其在处理序列材料时表现出色。

什么？就是一、Transformer

Transformer是一种用于自然语言处理（NLP）和其他序列到序列（sequence-to-sequence）任务的深度学习模型架构，它在2017年由Vaswani等人首次提出。Transformer架构引入了自注意力机制（self-attention mechanism），这是一个关键的创新，使其在处理序列资料时表现出色。

以下是Transformer的一些重要组成部分和特点：

自注意力机制（Self-Attention）：这是Transformer的核心概念之一，它使模型能够同时考虑输入序列中的所有位置，而不是像循环神经网络（RNN）或卷积神经网络（CNN）一样逐步处理。自注意力机制允许模型根据输入序列中的不同部分来赋予不同的注意权重，从而更好地捕捉语义关系。
多头注意力（Multi-Head Attention）：Transformer中的自注意力机制被扩展为多个注意力头，每个头行学习不同的注意权重，以更好地捕捉不同类型的关系。多头注意力允许模型并行处理不同的信息子空间。