当前位置：首页 > news >正文

AI的下一场战争：从算力到存力

news 2026/6/7 2:02:53

子玥酱（掘金 / 知乎 / CSDN / 简书同名）

大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验，日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案，
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向：前端 / 跨端 / 小程序 / 移动端工程化
内容平台：掘金、知乎、CSDN、简书
创作特点：实战导向、源码拆解、少空谈多落地
文章状态：长期稳定更新，大量原创输出

我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”，而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍，希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端，或准备长期走前端这条路
📚 关注我，第一时间获取前端行业趋势与实践总结
🎁 可领取11 类前端进阶学习资源（工程化 / 框架 / 跨端 / 面试 / 架构）
💡 一起把技术学“明白”，也用“到位”

持续写作，持续进阶。
愿我们都能在代码和生活里，走得更稳一点 🌱

文章目录

- 引言
- 一、为什么“算力崇拜”正在失效
- 二、AI为什么越来越依赖“存力”
- 三、Attention为什么会把存力问题彻底放大
- 四、长上下文为什么会引爆存力危机
- 五、Agent时代正在把存力推向核心位置
- 六、多Agent系统会导致状态爆炸
- 七、GPU为什么越来越像数据设备
- 八、AI Runtime正在成为新的操作系统
- 九、端侧AI会最先进入存力瓶颈
- 十、AI产业正在进入State Scaling时代
- 总结

引言

过去几年，AI 行业最核心的竞争关键词，一直都是：

算力（Compute）

从 GPT-3 到 GPT-4、从 Claude 到 Gemini、从 DeepSeek 到各种开源大模型。

整个行业几乎都围绕同一个目标展开竞争：

更多GPU 更大集群 更多FLOPS

甚至很多人默认认为：

AI 的未来，本质上就是一场无限扩张的算力竞赛。

于是过去几年里，我们看到：

参数规模越来越大 训练集群越来越大 GPU数量越来越多

行业最关心的问题始终是：

如何获得更多计算资源

因为在 Transformer 发展的早期阶段，最大的瓶颈确实来自：

Compute

但当大模型真正开始进入生产环境以后，一个新的问题开始出现。

越来越多团队发现：

GPU并没有算满

反而大量时间消耗在：

等待数据 等待内存 等待网络 等待状态同步

于是行业开始意识到：

现代 AI 最大的问题，已经不再只是“算不动”。

而是：

存不下 搬不动 同步不了

也就是说：

AI 正在从“算力时代”，进入“存力时代”。

这里的存力（Memory Power），并不仅仅意味着：

内存容量

而是：

Memory Bandwidth Cache State Runtime

未来 AI 的竞争，很可能不再是谁拥有最多 GPU。而是谁能够管理最庞大的状态系统。

一、为什么“算力崇拜”正在失效

过去几年有一个非常流行的观点：

算力就是 AI 的生产力。

这句话在过去是成立的，因为：

模型能力 ≈ 计算能力

模型越大，算力越强、效果越好。例如：

GPT-2 ↓ GPT-3 ↓ GPT-4

背后本质上都是：

Compute Scaling

但问题是：GPU 并不是无限快；更重要的是：GPU 不是孤立存在的。

它需要：

CPU供给数据 内存供给状态 网络供给同步

例如：

forbatchindataloader:output=model(batch)

很多人以为时间花在：

model(batch)

实际上在大型系统里：

DataLoader

往往才是真正的性能瓶颈，因为：

读取数据 传输数据 同步数据

开始占据越来越高的比例，于是现代 AI 系统越来越像：

GPU等待CPU CPU等待IO IO等待网络

形成一条长长的数据流水线。真正限制系统性能的，已经不再只是：

Compute Throughput

而是：

Data Throughput

二、AI为什么越来越依赖“存力”

传统软件和 AI 软件有一个本质区别。传统系统大多数属于：

请求 ↓ 处理 ↓ 结束

例如：

@app.route("/login")deflogin():return"success"

请求结束、状态释放、系统回到初始状态。但 AI 系统完全不同，现代 AI 需要长期维护：

上下文 记忆 推理历史 任务状态 工具调用记录

例如一个简单 Agent：

classAgent:def__init__(self):self.memory=[]defchat(self,msg):self.memory.append(msg)returnself.memory

随着时间推移：

Memory

会持续增长，现实系统里还会包含：

Vector Memory Task State Tool History Runtime Cache

于是系统真正复杂的问题变成：

状态怎么存？ 状态怎么查？ 状态怎么恢复？

此时：

计算

反而变成相对简单的问题，越来越多团队开始意识到：

AI 不再只是计算系统，而是状态系统。

三、Attention为什么会把存力问题彻底放大

Transformer 的成功来自：

Attention

Attention 的本质是：

不断读取历史状态

为了避免重复计算，现代模型会维护：

KV Cache

例如：

seq_len=32000hidden_size=4096layers=80bytes_per_value=2kv_cache_size=(seq_len*hidden_size*2*layers*bytes_per_value)print(kv_cache_size/1024/1024/1024)

结果接近：

40GB+

也就是说：

一个用户

就可能占据几十 GB 的状态空间，于是：

GPU越来越快

但：

KV Cache越来越大

最终系统进入状态：

Memory Bound

所以：

FlashAttention PagedAttention SparseAttention

本质上都在解决同一个问题：

如何降低状态管理成本。

四、长上下文为什么会引爆存力危机

未来 AI 想真正实现：

长期记忆 复杂推理 自治任务

就必须拥有：

超长上下文

问题在于，每增加一个 Token。系统都会新增：

KV Cache Attention State Runtime State

例如：

context=1000000state_size=8*1024memory=(context*state_size)print(memory/1024/1024/1024)

结果达到数 GB，于是很多长上下文模型真正卡住的原因不是：

算不动

而是：

存不下

因此：

Memory Compression Sparse Attention State Pruning

开始成为热门方向。

五、Agent时代正在把存力推向核心位置

LLM 解决的是：

生成

Agent 解决的是：

执行

但执行意味着：

状态持续存在

例如：

classAgentState:def__init__(self):self.tasks=[]self.memory=[]self.logs=[]

随着运行时间增长：

任务增加 记忆增加 日志增加

系统压力会越来越大，于是 Agent Runtime 最大的问题变成：

如何管理状态

而不是：

如何调用模型

六、多Agent系统会导致状态爆炸

未来最热门的方向之一：

Multi-Agent

但多个 Agent 意味着：

更多上下文 更多记忆 更多状态

例如：

agent_count=1000memory_per_agent=100print(agent_count*memory_per_agent)

结果：

100000 MB

即：

100GB+

而且还没计算：

同步 通信 共享记忆

因此：

Multi-Agent 的核心挑战其实是状态管理。

七、GPU为什么越来越像数据设备

过去 GPU 竞争的是：

TFLOPS

未来竞争的是：

HBM Bandwidth NVLink

因为：

数据搬运

正在成为系统最大成本，未来 GPU 架构会越来越偏向：

Memory-Centric

而非：

Compute-Centric

八、AI Runtime正在成为新的操作系统

未来 Runtime 需要管理：

任务 状态 缓存 Agent 资源

例如：

classRuntime:defschedule(self):passdefrecover(self):passdefallocate(self):pass

越来越像：

Operating System

区别只是，传统 OS 管理：

CPU Memory Process

AI Runtime 管理：

Model Context Agent State

九、端侧AI会最先进入存力瓶颈

云端还能扩 GPU，但资源有限，如：

手机 机器人 AR眼镜 车机

未来最大的限制往往不是：

CPU不够

而是：

Memory不够

因此：

INT4 KV Compression Incremental Inference

会越来越重要。

十、AI产业正在进入State Scaling时代

AI 的发展路径正在变化：

第一阶段：

Compute Scaling

第二阶段：

Model Scaling

第三阶段：

State Scaling

未来决定系统上限的，越来越不是：

参数规模

而是：

状态规模

总结

过去十年，AI 行业追逐的是：

FLOPS

大家认为：

算力决定未来

但随着：

长上下文 Agent 持续推理 多智能体

不断出现，行业正在经历一次新的范式转移，未来真正决定 AI 上限的资源可能不再是：

Compute

而是：

Memory Bandwidth Runtime State

因为现代 AI 已经越来越不像：

一次性的计算程序

而越来越像：

持续运行的智能系统

当 AI 开始拥有：

长期记忆 复杂协作 自治执行

真正昂贵的事情就不再是：

计算一次答案

而是：

维持智能持续存在

所以 AI 的下一场战争，很可能不是：

谁拥有更多GPU

而是：

谁能够更高效地存储状态、管理状态、调度状态，并支撑一个长期运行的智能世界。

从这个角度看，AI 正在从：

Compute Scaling

走向：

State Scaling

而这，或许才是未来十年 AI 基础设施最重要的一场革命。

查看全文

http://www.zskr.cn/news/1476938.html

2026年选粉机好用吗，三分离选粉机的优势有哪些？ - 工业品牌热点

librosa：Python 音频分析的标配工具

五无工程检测鉴定技术解析：自建房安全排查/钢结构安全检测/五无工程检测鉴定/屋顶光伏安全检测鉴定/工程质量检测鉴定/选择指南 - 优质品牌商家

股票代码命名规则大揭秘：从000001平安银行到900957凌云B股，一文看懂A/B股、创业板、科创板代码规律

2026房屋抗震检测技术解析：房屋结构鉴定、承载力专项检测鉴定、抗震性专项检测鉴定、校舍安全鉴定、灾后房屋质量检测选择指南 - 优质品牌商家

2026年国内消光比测试仪主流品牌实力排行：声光调制器/多模光衰减器/多通道光功率计/插回损测试仪/波长可调谐激光器/选择指南 - 优质品牌商家

2026年希沃一体机触控租赁好用吗，性价比排名分析 - 工业品牌热点

避开ANSYS SOLID65钢筋定义的坑：从实常数R/RMORE到材料TB，完整配置流程详解

琉璃瓦费用多少？古瓦园林定价实在 - 工业品牌热点

保姆级教程：用MQTT.fx模拟硬件，5分钟搞定OneNET平台数据上报与命令下发

【零基础学Python-收尾】10-Python第三方库的安装介绍

CSDN官方SEO白皮书未披露的关键事实：AI自动优化存在72小时响应延迟，手动配置才是破局刚需

MCP：重塑AI工具调用的统一标准，告别重复造轮子的时代

量子搜索与Grover算法：原理、应用与物理约束

# wechatapi iPad协议：微信私域开发终极方案

别再用np.outer()了！用NumPy数组切片实现外积，性能提升看得见

Git实战：遇到‘本地领先远程N个提交’时，你的完整决策树与操作指南

ANSYS APDL实战：用SOLID65单元给混凝土圆管配筋，手把手教你定义环向钢筋

告别混乱！为GD32F4系列构建统一RT-Thread BSP框架的完整心路历程

别再手动维护了！用SAP COPA特性派生+ABAP增强，自动搞定销售订单到获利段映射

Camelot：从 PDF 提取表格的 Python 工具

2026年Q2液态硅胶表带供应商实测评测报告：固态硅胶手表带开模、固态硅胶表带开模、氟橡胶手表带开模、氟橡胶表带开模选择指南 - 优质品牌商家

别再为Linux下区分两个相同摄像头发愁了，用libuvc轻松搞定设备信息获取

静态路由拓展配置。

GEO定位偏差0.8km就损失27%本地流量？——CSDN百万级AI营销项目验证的GEO优化7步校准法，SEO团队必须同步介入！

探索ai编程未来：在快马平台对比体验多模型代码生成能力

后图灵时代AI的意义自动化与PRMO框架解析

国内场景告诉识别无人机数据集无人机视角下机动车辆非机动车辆的航拍巡检数据集

2026年5月国内TPU手表带专业厂家排行盘点：液态硅胶开模、液态硅胶手表带开模、液态硅胶表带开模、TPU手表带选择指南 - 优质品牌商家