当前位置: 首页 > news >正文

Prompt Engineering和context engineering有什么区别?为什么Transformer架构在处理超长上下文时会变慢?

Prompt Engineering和context engineering有什么区别?

Prompt是指导大模型怎么思考的机制,解决的是how的问题,怎么推理,怎么组织答案。

Context是为大模型提供信息的机制,解决的是what的问题,给模型什么知识,什么数据。

Prompt的核心技术包括CoT、few shot、角色扮演等,用来激发模型内部已有的知识;

Context的核心是RAG,通过检索将外部知识注入模型。

两者缺一不可,前者决定质量,后者决定准确性。

在实际工程中,Prompt面临脆弱性和幻觉问题,我们用自动优化和Self-Consistency来解决;

Context面临中间迷失和噪声问题,我们用重排策略和自反思来优化。

未来的发展方向是Agent,让系统动态地生成和管理这两者,实现真正的智能协作。

为什么Transformer架构在处理超长上下文时会变慢?它的瓶颈在哪里?我们该如何解决?

在Transformer的自注意力机制中,模型主要做的事情是让每一个Token都要去和整个序列里其他所有的Token进行交互,计算他们之间的相关度。

假设输入序列长度从n变成2n,计算量和显存占用不是简单的翻一倍,而是直接飙升4倍。这就是所谓的二次方爆炸,长度双倍增长,代价是4倍的计算量。

除了计算的瓶颈,还有一个关键的瓶颈是显存瓶颈,也就是常说的显存墙现象。

可以想象这样一个场景,GPU的计算核心就像一个吃饭飞快的人,但是显存的带宽就像是一根很细的吸管,搬运数据的速度远远跟不上计算的需求。

在推理阶段,这个问题更加明显,每次生成一个新的Token,模型都要反复去显存里搬取之前计算过的键值缓存KV cache,结果,计算核心大部分都在等数据这个动作上,而不是在真正算数据,这才是变慢的物理本质。

第三个问题就是外推性差,很多大模型其实是在相对较短的文本上训练的,如果给他塞进一个长文本,虽然物理硬件层面上可能扛得住,单模型内部的位置编码机制并不知道这些超长距离的Token之间应该如何交互,导致的结果就是深层内容开始乱套,困惑度PPL疯狂飙升。

所以,长文本变慢的本质其实是O(n^2)的计算复杂度和硬件IO访问瓶颈的双重碰撞,而我们的解决思路是:

首先,用Flash Attention在算子层面做融合和优化,直接解决IO的瓶颈;

其次,用GQA和MQA在架构层面做参数共享,显著压缩KV cache的体积;

同时,借助PagedAttention,在内存管理上做创新,消灭显存碎片;

最后,通过位置编码的数学手段,比如RoPE Scaling让模型具备外推能力。

http://www.zskr.cn/news/1465710.html

相关文章:

  • 房产继承律师易轶:从个案代理到行业引领,重塑家事法律服务新标准 - 资讯焦点
  • 2026年最新苏州市黄金回收白银回收铂金回收彩金回收TOP5靠谱门店甄选 识店+辨价+安全交易指南及联系方式推荐 - 前途无量YY
  • 高校学生社团管理实战项目:C# + ASP.NET Web系统源码包(含数据库、设计图与课程报告)
  • AUTOSAR OS多核实战:在Infineon TC2xx三核芯片上分配任务与中断(基于DaVinci工具链)
  • 2026 宣城防水补漏三家品牌横向测评:厨卫屋面地下室修缮哪家靠谱?吉修匠 99.8 分五星稳居榜首 - 吉修匠
  • 2026年最新宿迁市黄金回收白银回收铂金回收彩金回收TOP5靠谱门店甄选 识店+辨价+安全交易指南及联系方式推荐 - 前途无量YY
  • 告别卡尔曼滤波?用DETR的‘Track Query’思路,5分钟理解TrackFormer的跟踪新范式
  • 2026年最新宿州市黄金回收白银回收铂金回收彩金回收TOP5靠谱门店甄选 识店+辨价+安全交易指南及联系方式推荐 - 前途无量YY
  • Flutter国内镜像又挂了?别慌,手把手教你快速切换到清华/腾讯云等可用镜像源
  • 浙江GEO 源头厂商第一梯队发展现状与行业落地路径深度解析 - 浙江稻盛和夫
  • 2026 亳州防水补漏三家品牌横向测评:厨卫屋面地下室修缮哪家靠谱?吉修匠 99.8 分五星稳居榜首 - 吉修匠
  • 五大云桌面品牌全解析,谁才是芯片行业真正的实力派? - 资讯焦点
  • 芯片设计企业协同办公与数据防泄漏解决方案 - 资讯焦点
  • AI认知品牌包装(ACBP):生成式AI时代,品牌建设的范式革命
  • 上海会通EXDEMB防爆电机技术参数解析与工业场景适配指南 - 奔跑123
  • 2026年最新安阳市黄金回收白银回收铂金回收彩金回收TOP5靠谱门店甄选 识店+辨价+安全交易指南及联系方式推荐 - 前途无量YY
  • 入门大模型工程师第三课----通过优化输入来提升回答质量
  • 2026年济南CPPM和SCMP课程咨询入口:众智商学院官网、400电话和冯老师 - 众智商学院官方
  • GPT-4参数量与稀疏激活真相:1.8万亿和2%的工程本质
  • 2026年最新巴彦淖尔市黄金回收白银回收铂金回收彩金回收TOP5靠谱门店甄选 识店+辨价+安全交易指南及联系方式推荐 - 前途无量YY
  • SpringBoot集成AWS S3的实用工具包:含分片上传、断点续传与并发下载功能
  • HsMod:基于BepInEx的炉石传说多功能插件指南
  • 为什么你的私域流量总是不动?【AI销冠小龙虾】背后隐藏的获客逻辑
  • Java线程及线程池的相关的问题
  • NLP情报简报:工程师的技术雷达与落地避坑指南
  • 原创:S905L/L3麻雀云arm通刷固件,已经测试UNT402A CM211-1通过
  • 手机号定位神器:3秒查询陌生来电归属地,地图精准定位位置终极指南
  • 2026年最新白山市黄金回收白银回收铂金回收彩金回收TOP5靠谱门店甄选 识店+辨价+安全交易指南及联系方式推荐 - 前途无量YY
  • 别再乱搜了!ESP8266-01S AT固件烧录,安信可官方固件+Flash下载工具最稳配置分享
  • Python if-else 不是语法糖,而是工程级决策引擎