《Agent开发工程师成长指南》- 第2章第3节：Attention机制详解——让AI学会“抓重点”的秘密-尧图网络科技

第一卷：大模型基础篇

第2章大模型基础原理

第3节：Attention机制详解——让AI学会“抓重点”的秘密

《Agent开发工程师成长指南》系列教程

引言

上一节，我们学习了Transformer。

我们知道：

Transformer之所以能够改变整个AI行业，真正的核心并不是Transformer这个名字，而是其中最重要的一个机制——Attention（注意力机制）。

可以毫不夸张地说：

没有Attention，就没有今天的大模型。

这一节，我们将彻底弄懂：

什么是Attention？
为什么Attention如此重要？
Attention到底是如何工作的？
为什么它能让AI拥有如此强大的理解能力？

这一章，也是后面学习：

Prompt
RAG
Context Window
Agent推理

最重要的理论基础。

一、Attention到底是什么？

Attention，翻译成中文：

注意力机制。

如果直接看论文定义，大多数人都会觉得晦涩难懂。

其实，它可以用一句话概括：

Attention就是让模型学会“把注意力放在真正重要的信息上”。

例如，我们来看一句话：

小明把电脑放到了会议室， 下午他回来继续工作。

请问：

"他"是谁？

人类几乎一眼就知道：

他 = 小明

为什么？

因为你的大脑会自动：

关注“小明”
忽略“会议室”
忽略“电脑”

这就是：

人类天然拥有Attention能力。

二、没有Attention会发生什么？

假设AI没有Attention。

它看到一句话：

今天上午销售部门召开季度经营分析会议， 市场负责人汇报了华东区域销售增长情况， 随后财务负责人介绍了预算执行情况， 最后总经理要求制定新的销售计划。

如果没有Attention。

模型会：

所有词一样重要

于是：

无法判断：

谁是主语？
谁是动作？
哪些信息最关键？

最终理解能力非常差。

而Attention出现以后。

模型会自动发现：

销售部门 ★★★★★ 市场负责人 ★★★★☆ 销售增长 ★★★★★ 预算执行 ★★★☆☆ 今天上午 ★☆☆☆☆

于是：

模型自然就知道：

真正需要重点关注的是：

销售增长

而不是：

今天上午

三、Attention的核心思想

一句话总结：

每一个Token都会问一句："整句话里面，谁对我最重要？"

例如：

Agent 自动 调用 CRM 查询 客户 数据

假设当前处理：

查询

模型不会只看：

查询

而会同时关注：

Agent 调用 CRM 客户 数据

然后计算：

哪个关联最大？

例如：

Agent 0.05 自动 0.02 调用 0.28 CRM 0.30 客户 0.15 数据 0.20

于是：

模型知道：

"查询"最相关的是：

CRM
调用
数据

四、Attention为什么叫"注意力"？

牛奶

你的大脑会自动：

忽略：

玩具区 服装区 厨房用品

重点关注：

食品区

进入食品区后：

继续筛选：

饮料 零食 牛奶

最终找到目标。

整个过程其实就是：

Attention。

不是所有东西都重要。

而是：

不断缩小关注范围。

五、Attention的计算流程

Transformer内部。

每个Token都会经历下面几个步骤。

第一步

输入Token

例如：

Agent 帮助 用户 分析 销售 数据

第二步

生成Embedding

把文字变成向量。

例如：

Agent ↓ [0.23,0.56,...]

第三步

生成Q、K、V

上一节已经介绍。

分别代表：

Q 我要找谁？ K 我是谁？ V 我能提供什么信息？

第四步

计算相关性

例如：

分析

和：

销售

高度相关。

于是：

分析 ★★★★★ 销售 ★★★★★

而：

分析

和：

帮助

第五步

Softmax归一化

把所有权重：

转换成：

总和 = 1

例如：

销售 0.42 数据 0.30 Agent 0.12 用户 0.10 帮助 0.06

最后：

模型根据这些权重。

重新生成新的表示。

六、为什么Attention能够理解长文章？

这是Transformer最大的突破。

以前RNN：

理解一句：

100字

还可以。

但是：

5000字

张三毕业于清华大学。

最后一句：

后来他成为AI公司CEO。

当模型处理：

他

时。

可以直接：

连接：

张三

七、Attention HeatMap（注意力热力图）

很多论文都会出现：

这种图。

张三 去了 北京 后来 他 张三 ███ 去了 ██ 北京 ██ 后来 █ 他 ███████

他

时。

模型会重点关注：

张三

八、为什么Attention让Prompt变得如此重要？

请总结这篇文章。

模型：

注意力比较分散。

Prompt B：

请重点分析文章中的技术架构， 忽略背景介绍， 最终输出Mermaid流程图。

模型：

Attention会集中到：

技术架构 流程 组件 关系

而不是：

背景故事

因此：

Prompt其实就是：

引导Attention。

九、Attention与Agent有什么关系？

帮我统计最近三个月销售额， 然后生成PPT， 最后发给老板。

模型首先需要理解：

三个任务：

统计销售额 ↓ 生成PPT ↓ 发送邮件

十、Agent工程师需要掌握到什么程度？

✅ 为什么Attention能够理解上下文？

✅ 为什么Prompt会影响Attention？

✅ 为什么Context越长，Attention计算越复杂？

✅ 为什么Transformer离不开Attention？

当你理解这些以后。

后面的：

Prompt设计
长上下文
RAG优化
Agent规划

都会豁然开朗。

面试题

本章小结

本节我们学习了：

✅ Attention机制的本质

✅ Attention的计算流程

✅ 为什么Attention能够理解长文本

✅ Attention HeatMap

✅ Prompt与Attention的关系

✅ Attention在Agent中的作用

至此，你已经理解了Transformer真正的"灵魂"。

下一节，我们将继续深入一个Agent开发中每天都会接触的概念：

《第2章第4节：Token详解——为什么一句话竟然要花几十个Token？》

这一节会从Token的切分原理、Token计费、上下文窗口、不同语言Token差异、如何优化Token成本等多个角度展开，它也是后续学习 Prompt 优化、RAG 成本控制、Agent 工程化的重要基础。

资讯详情

第一卷：大模型 基础篇

相关新闻

第一卷：大模型基础篇