当前位置: 首页 > news >正文

AI的下一场战争:从算力到存力

子玥酱(掘金 / 知乎 / CSDN / 简书 同名)

大家好,我是子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向:前端 / 跨端 / 小程序 / 移动端工程化
内容平台:
掘金、知乎、CSDN、简书
创作特点:
实战导向、源码拆解、少空谈多落地
文章状态:
长期稳定更新,大量原创输出

我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端,或准备长期走前端这条路
📚 关注我,第一时间获取前端行业趋势与实践总结
🎁 可领取11 类前端进阶学习资源(工程化 / 框架 / 跨端 / 面试 / 架构)
💡 一起把技术学“明白”,也用“到位”

持续写作,持续进阶。
愿我们都能在代码和生活里,走得更稳一点 🌱

文章目录

    • 引言
    • 一、为什么“算力崇拜”正在失效
    • 二、AI为什么越来越依赖“存力”
    • 三、Attention为什么会把存力问题彻底放大
    • 四、长上下文为什么会引爆存力危机
    • 五、Agent时代正在把存力推向核心位置
    • 六、多Agent系统会导致状态爆炸
    • 七、GPU为什么越来越像数据设备
    • 八、AI Runtime正在成为新的操作系统
    • 九、端侧AI会最先进入存力瓶颈
    • 十、AI产业正在进入State Scaling时代
    • 总结

引言

过去几年,AI 行业最核心的竞争关键词,一直都是:

算力(Compute)

从 GPT-3 到 GPT-4、从 Claude 到 Gemini、从 DeepSeek 到各种开源大模型。

整个行业几乎都围绕同一个目标展开竞争:

更多GPU 更大集群 更多FLOPS

甚至很多人默认认为:

AI 的未来,本质上就是一场无限扩张的算力竞赛。

于是过去几年里,我们看到:

参数规模越来越大 训练集群越来越大 GPU数量越来越多

行业最关心的问题始终是:

如何获得更多计算资源

因为在 Transformer 发展的早期阶段,最大的瓶颈确实来自:

Compute

但当大模型真正开始进入生产环境以后,一个新的问题开始出现。

越来越多团队发现:

GPU并没有算满

反而大量时间消耗在:

等待数据 等待内存 等待网络 等待状态同步

于是行业开始意识到:

现代 AI 最大的问题,已经不再只是“算不动”。

而是:

存不下 搬不动 同步不了

也就是说:

AI 正在从“算力时代”,进入“存力时代”。

这里的存力(Memory Power),并不仅仅意味着:

内存容量

而是:

Memory Bandwidth Cache State Runtime

未来 AI 的竞争,很可能不再是谁拥有最多 GPU。而是谁能够管理最庞大的状态系统。

一、为什么“算力崇拜”正在失效

过去几年有一个非常流行的观点:

算力就是 AI 的生产力。

这句话在过去是成立的,因为:

模型能力 ≈ 计算能力

模型越大,算力越强、效果越好。例如:

GPT-2 ↓ GPT-3 ↓ GPT-4

背后本质上都是:

Compute Scaling

但问题是:GPU 并不是无限快;更重要的是:GPU 不是孤立存在的。

它需要:

CPU供给数据 内存供给状态 网络供给同步

例如:

forbatchindataloader:output=model(batch)

很多人以为时间花在:

model(batch)

实际上在大型系统里:

DataLoader

往往才是真正的性能瓶颈,因为:

读取数据 传输数据 同步数据

开始占据越来越高的比例,于是现代 AI 系统越来越像:

GPU等待CPU CPU等待IO IO等待网络

形成一条长长的数据流水线。真正限制系统性能的,已经不再只是:

Compute Throughput

而是:

Data Throughput

二、AI为什么越来越依赖“存力”

传统软件和 AI 软件有一个本质区别。传统系统大多数属于:

请求 ↓ 处理 ↓ 结束

例如:

@app.route("/login")deflogin():return"success"

请求结束、状态释放、系统回到初始状态。但 AI 系统完全不同,现代 AI 需要长期维护:

上下文 记忆 推理历史 任务状态 工具调用记录

例如一个简单 Agent:

classAgent:def__init__(self):self.memory=[]defchat(self,msg):self.memory.append(msg)returnself.memory

随着时间推移:

Memory

会持续增长,现实系统里还会包含:

Vector Memory Task State Tool History Runtime Cache

于是系统真正复杂的问题变成:

状态怎么存? 状态怎么查? 状态怎么恢复?

此时:

计算

反而变成相对简单的问题,越来越多团队开始意识到:

AI 不再只是计算系统,而是状态系统。

三、Attention为什么会把存力问题彻底放大

Transformer 的成功来自:

Attention

Attention 的本质是:

不断读取历史状态

为了避免重复计算,现代模型会维护:

KV Cache

例如:

seq_len=32000hidden_size=4096layers=80bytes_per_value=2kv_cache_size=(seq_len*hidden_size*2*layers*bytes_per_value)print(kv_cache_size/1024/1024/1024)

结果接近:

40GB+

也就是说:

一个用户

就可能占据几十 GB 的状态空间,于是:

GPU越来越快

但:

KV Cache越来越大

最终系统进入状态:

Memory Bound

所以:

FlashAttention PagedAttention SparseAttention

本质上都在解决同一个问题:

如何降低状态管理成本。

四、长上下文为什么会引爆存力危机

未来 AI 想真正实现:

长期记忆 复杂推理 自治任务

就必须拥有:

超长上下文

问题在于,每增加一个 Token。系统都会新增:

KV Cache Attention State Runtime State

例如:

context=1000000state_size=8*1024memory=(context*state_size)print(memory/1024/1024/1024)

结果达到数 GB,于是很多长上下文模型真正卡住的原因不是:

算不动

而是:

存不下

因此:

Memory Compression Sparse Attention State Pruning

开始成为热门方向。

五、Agent时代正在把存力推向核心位置

LLM 解决的是:

生成

Agent 解决的是:

执行

但执行意味着:

状态持续存在

例如:

classAgentState:def__init__(self):self.tasks=[]self.memory=[]self.logs=[]

随着运行时间增长:

任务增加 记忆增加 日志增加

系统压力会越来越大,于是 Agent Runtime 最大的问题变成:

如何管理状态

而不是:

如何调用模型

六、多Agent系统会导致状态爆炸

未来最热门的方向之一:

Multi-Agent

但多个 Agent 意味着:

更多上下文 更多记忆 更多状态

例如:

agent_count=1000memory_per_agent=100print(agent_count*memory_per_agent)

结果:

100000 MB

即:

100GB+

而且还没计算:

同步 通信 共享记忆

因此:

Multi-Agent 的核心挑战其实是状态管理。

七、GPU为什么越来越像数据设备

过去 GPU 竞争的是:

TFLOPS

未来竞争的是:

HBM Bandwidth NVLink

因为:

数据搬运

正在成为系统最大成本,未来 GPU 架构会越来越偏向:

Memory-Centric

而非:

Compute-Centric

八、AI Runtime正在成为新的操作系统

未来 Runtime 需要管理:

任务 状态 缓存 Agent 资源

例如:

classRuntime:defschedule(self):passdefrecover(self):passdefallocate(self):pass

越来越像:

Operating System

区别只是,传统 OS 管理:

CPU Memory Process

AI Runtime 管理:

Model Context Agent State

九、端侧AI会最先进入存力瓶颈

云端还能扩 GPU,但资源有限,如:

手机 机器人 AR眼镜 车机

未来最大的限制往往不是:

CPU不够

而是:

Memory不够

因此:

INT4 KV Compression Incremental Inference

会越来越重要。

十、AI产业正在进入State Scaling时代

AI 的发展路径正在变化:

第一阶段:

Compute Scaling

第二阶段:

Model Scaling

第三阶段:

State Scaling

未来决定系统上限的,越来越不是:

参数规模

而是:

状态规模

总结

过去十年,AI 行业追逐的是:

FLOPS

大家认为:

算力决定未来

但随着:

长上下文 Agent 持续推理 多智能体

不断出现,行业正在经历一次新的范式转移,未来真正决定 AI 上限的资源可能不再是:

Compute

而是:

Memory Bandwidth Runtime State

因为现代 AI 已经越来越不像:

一次性的计算程序

而越来越像:

持续运行的智能系统

当 AI 开始拥有:

长期记忆 复杂协作 自治执行

真正昂贵的事情就不再是:

计算一次答案

而是:

维持智能持续存在

所以 AI 的下一场战争,很可能不是:

谁拥有更多GPU

而是:

谁能够更高效地存储状态、管理状态、调度状态,并支撑一个长期运行的智能世界。

从这个角度看,AI 正在从:

Compute Scaling

走向:

State Scaling

而这,或许才是未来十年 AI 基础设施最重要的一场革命。

http://www.zskr.cn/news/1476938.html

相关文章:

  • 2026年选粉机好用吗,三分离选粉机的优势有哪些? - 工业品牌热点
  • librosa:Python 音频分析的标配工具
  • 五无工程检测鉴定技术解析:自建房安全排查/钢结构安全检测/五无工程检测鉴定/屋顶光伏安全检测鉴定/工程质量检测鉴定/选择指南 - 优质品牌商家
  • 股票代码命名规则大揭秘:从000001平安银行到900957凌云B股,一文看懂A/B股、创业板、科创板代码规律
  • 2026房屋抗震检测技术解析:房屋结构鉴定、承载力专项检测鉴定、抗震性专项检测鉴定、校舍安全鉴定、灾后房屋质量检测选择指南 - 优质品牌商家
  • 2026年国内消光比测试仪主流品牌实力排行:声光调制器/多模光衰减器/多通道光功率计/插回损测试仪/波长可调谐激光器/选择指南 - 优质品牌商家
  • 2026年希沃一体机触控租赁好用吗,性价比排名分析 - 工业品牌热点
  • 避开ANSYS SOLID65钢筋定义的坑:从实常数R/RMORE到材料TB,完整配置流程详解
  • 琉璃瓦费用多少?古瓦园林定价实在 - 工业品牌热点
  • 保姆级教程:用MQTT.fx模拟硬件,5分钟搞定OneNET平台数据上报与命令下发
  • 【零基础学Python-收尾】10-Python第三方库的安装介绍
  • CSDN官方SEO白皮书未披露的关键事实:AI自动优化存在72小时响应延迟,手动配置才是破局刚需
  • MCP:重塑AI工具调用的统一标准,告别重复造轮子的时代
  • 量子搜索与Grover算法:原理、应用与物理约束
  • # wechatapi iPad协议:微信私域开发终极方案
  • 别再用np.outer()了!用NumPy数组切片实现外积,性能提升看得见
  • Git实战:遇到‘本地领先远程N个提交’时,你的完整决策树与操作指南
  • 2026年 实木卡板厂家推荐:进出口托盘、防潮木卡板、重型仓储木卡板源头实力品牌精选 - 品牌企业推荐师(官方)
  • ANSYS APDL实战:用SOLID65单元给混凝土圆管配筋,手把手教你定义环向钢筋
  • 告别混乱!为GD32F4系列构建统一RT-Thread BSP框架的完整心路历程
  • 别再手动维护了!用SAP COPA特性派生+ABAP增强,自动搞定销售订单到获利段映射
  • Camelot:从 PDF 提取表格的 Python 工具
  • 2026年Q2液态硅胶表带供应商实测评测报告:固态硅胶手表带开模、固态硅胶表带开模、氟橡胶手表带开模、氟橡胶表带开模选择指南 - 优质品牌商家
  • 别再为Linux下区分两个相同摄像头发愁了,用libuvc轻松搞定设备信息获取
  • 静态路由拓展配置。
  • GEO定位偏差0.8km就损失27%本地流量?——CSDN百万级AI营销项目验证的GEO优化7步校准法,SEO团队必须同步介入!
  • 探索ai编程未来:在快马平台对比体验多模型代码生成能力
  • 后图灵时代AI的意义自动化与PRMO框架解析
  • 国内场景告诉识别 无人机数据集 无人机视角下机动车辆 非机动车辆的航拍巡检数据集
  • 2026年5月国内TPU手表带专业厂家排行盘点:液态硅胶开模、液态硅胶手表带开模、液态硅胶表带开模、TPU手表带选择指南 - 优质品牌商家