大模型架构
作者: 韩彤彤
创建时间: 2026-06-09
最后更新: 2026-06-09
神经网络基础
嵌入(Embedding)
将离散的符号(如单词、字符)映射到连续向量空间的过程。Embedding 让模型能够捕捉语义关系,语义相近的词在向量空间中距离更近。
详见 向量数据库.md 中的 Embedding 概念
Transformer 架构
Transformer
当前大模型核心架构,通过自注意力机制建立 Token 之间关联关系。
自注意力机制(Self-Attention)
Transformer 的核心创新,允许模型在处理序列时同时关注所有位置的信息,计算每个 Token 与其他 Token 的相关性权重,从而捕捉长距离依赖关系。
Token 与文本处理
Token
模型处理文本最小单位,可为子词、单词、字符或符号。
最后更新: 2026-06-09 23:19
