为什么文本越长LLM幻觉越严重:注意力机制揭秘
注意力的计算原理
这次彻底从底层讲清楚——注意力到底在算什么、为什么这么算、问题出在哪。
第一部分:注意力到底在算什么?
1.1 注意力的核心目标
一句话:给定一个 token(叫它"query"),从其他所有 token(叫它们"key/value")中,找出谁跟它最相关,然后把这些相关 token 的信息加权融合到自己身上。
1.2 用图书馆找资料类比
你(query)要写一篇论文,桌上摆着 100 本书(keys)。每本书里有内容(values)。你要做的事情:
- 查询:拿你的论文主题(query),跟每本书的标题(key)对比,看谁更相关
- 打分:给 100 本书每本打一个相关性分数
- 归一化:把分数转成"分配比例"(加起来=100%)
- 融合:按比例提取每本书的内容(values),加权组合成你需要的资料
这 4 步就是注意力。
