固态硬盘都起飞？AI为什么突然买爆整个存储？ #AI新星计划 #大模型 #KV缓存 #AI存储 #agent

✅ 已完成

任务ID: 1234

30秒速读

核心摘要

预计 90 秒读完

AI推理时代KV缓存需求爆发，拉动全存储产业链行情大幅上涨。

AI从大模型训练阶段进入推理落地阶段，KV缓存作为大模型的可复用记忆，会挤占显存容量、拉高带宽要求，撞上存储墙

近年Agent普及带动全网token量暴涨，KV缓存增速远超显存年均50%的扩容速度，供需缺口持续拉大

业界通过KV缓存压缩、显存利用率优化、多层级存储架构等方案突破存储墙，带动全存储品类需求暴涨

可执行建议

可重点关注AI推理赛道下存储全链条相关产业的后续发展机会
如有其他AI硬件相关的内容需求，可在视频评论区留言告知创作者

高价值评论洞察

现有有效评论仅1条指向视频播放故障，其余多为无意义占位内容或对博主的正向夸赞，暂未出现针对AI存储、大模型KV缓存相关内容的疑问、争议、行业探讨或投资相关诉求
核心反馈集中在内容载体本身的体验层面，用户对硬核科技类博主的认可度较高

用户关注点

视频播放的流畅度，对内容观看过程中的异常故障敏感度较高
优质硬核科技科普内容的产出，期待创作者持续输出高质量相关内容

可复用选题/回应建议

第一时间排查修复视频55秒处的黑屏故障，优化用户观看体验，可在评论区回复告知已处理
后续可围绕AI硬件赛道下存储产业链的细分环节做深度拆解科普，匹配粉丝对硬核科技内容的需求

代表性评论

用户“热苏打水”留言反馈视频55秒左右有黑屏，价值是直接指出了视频存在的播放瑕疵，帮助创作者快速定位内容问题完成优化

基本信息

作者

发布时间

2026/6/17 08:00:00

视频URL

关键词

大模型 KV缓存 AI存储 AI Agent 固态硬盘 AI推理存储产业链

标签与备注

标签

大模型KV缓存AI存储AI Agent固态硬盘AI推理存储产业链

备注

暂无备注

转录文本

说存储涨上天，是因为AI。你这么想嘛，毕竟ChatGPT已经出来三年多了，怎么现在又开始涨了？而且AI不是要显卡吗？显存涨就算了，闪迪，它是做闪存、做固态硬盘的，它凭什么股价翻了30倍？如果你有这样的疑问，说明你对AI的认知已经过时了。什么大力出奇迹啊，几万张卡、几十PB、几个T的庞然大模型，那些都是训练时代的老故事。这一轮上涨的新动力，是我们已经冲击了一个新的推理时代。推理呢，就是模型训练之后，部署上线的这个阶段。在这个时代，我们撞上了一堵存储墙。为了突破这堵墙，存储被扩展到了多层，除了原有的显存，内存和固态硬盘也加入了战场，所以存储全链条都涨上天了。这么解释你满意了吗？我还是根本不满意啊。怎么就推理时代了？怎么就存储墙了？怎么就突然冒出来这么多东西，还有分层存储的？抛开温点的话，这张图里有一个重要线索：KV。KV是大模型行业的超级热点，也是AI众多需要存储的东西里，最有代表性的新压力。但是网上很少有人讲，不过你只有弄懂了KV，才有可能真正弄懂这一轮的AI存储。KV可以很粗略地理解成大模型的某种记忆，把KV缓存，也就是保存下来，会占用显存空间，但大模型就可以复用这些记忆，来缩短几倍甚至几十倍的思考时间。那KV缓存，究竟是怎么一边给AI做了加速，却同时把我们推到了存储墙上面的？我们知道，大模型的回复过程是文字接龙。假如你给它发了100个token，为了回复你，大模型首先要从显存里读取权重参数，相当于它的大脑，然后结合这100个token，计算出101个token。到这还没完，同时它会把这100个token的一部分计算结果，也就是KV，保存起来，这就是KV缓存。为什么说它的记忆能够复用呢？你看，接下来生成第102个token的时候，按说得重复刚才的过程，把现有的token全算一遍，也就是完整思考。但是，前100个token的KV已经缓存下来了，就可以直接读取，这样就不用再算一遍了，只算第101个token这一个就够了，然后继续把它的KV也缓存下来。接下来的流程就都是一样的：读取前面token的KV缓存，只计算最新的token，就能得到下一个token。所以你看，通过KV缓存，每次生成就不需要把历史token全算一遍，只算极少的新token，是不是大幅减少了计算量？这么来看，KV缓存的优点太突出了。但实际上，它的代价也是非常恐怖的。首先你注意到，KV缓存的数量是不是和上下文长度相关？token越多，这KV缓存是不是就越多。如果上下文长度达到1兆，那么即便是一个8B参数的小的大模型，它本体的全重大小是16GB，但是KV缓存最高最高能干到192GB。是本体的12倍。两块也是100的，装不下，那就只能清理掉。所以显存里的KV，保存的时间是很短的，比如几分钟。清理掉之后，推理性能自然会随之降低。这就是KV挤占显存容量的后果。也可以说，KV缓存让我们撞上了容量墙。 KV缓存过大，还导致着另一个问题。你看每次生成一个新token，除了读全重，还有两部分耗时：一个是读取所有历史KV，KV大了，这个过程就非常慢；另一个是计算最新一个token，这个非常快。所以在连续生成的过程中，相当于显存上菜上得特别慢，但是GPU一口就吃完了，然后就干等着下一道菜。 GPU可太贵了，经不起这么浪费。所以显存读取的时间，肯定是越短越好，这是由显存的硬件参数带宽决定的。所以KV缓存越大，对带宽的要求也越苛刻，这让我们撞上了带宽墙。还好这些问题，都要到这种级别的超长上下文下，才会变得尤为棘手。单论token，那可是两本《三国演义》的篇幅，我们不可能跟AI聊这么多。不幸的是，太可能了。过去这几个月，你的token量涨了多少呢？根据新华社的报道，今年3月，我国的日均token用量，相比于2024年初涨了1000倍，相比于2024年底，依旧涨了40%。怎么就涨了这么多？答案很简单，我相信你也感同身受，就是昔日的大模型AI全都摇身一变，成了Agent，进入我们的电脑，帮我们办公。而不是像以前一样，需要复制粘贴到AI的聊天框了。像我们程序员，完全不用Cloud Code Codex这种编程Agent的，基本可以做大型项目的那一拨了。其实Agent也并不是一蹴而就的，有一个容易被大家忽略的节点，那就是2024年12月的OpenAI O1正式版，它开创了推理模型的先河。就是回答之前，要思考一大堆，这可不是形式主义，是真的让模型的智能程度上了一个台阶。现在的所有旗舰模型，都是推理模型，而且越贵的模型，思考的token越多，思考时间越久。高通的CEO刚说过，推理任务的token消耗量，是普通聊天的10倍。这也只是开头，在接下来的2025年，我们给这种更聪明的推理模型，提供了规则、记忆、工具、容错等一整套系统，就是Anthropic所谓的Harness，于是Agent就诞生了。现在呼风唤雨的Claude Code，感觉已经过了很久了对吧？其实正式发布时间，是在2025年的5月，才一年多一点。这一套Harness系统，会消耗巨量的token，还是按照高通CEO的说法，是普通聊天的50到200倍。而且关键的是，上下文变得超级长，因为实际的工作任务，都超级复杂，Agent需要超级长的长程执行。像我们公司提供的Opus，就有一兆上下文窗口，但是随便一个项目开发轻轻松松就能打爆好几轮，这在以前是不可想象的。这不光是我们的经历，全世界都是这样。 OpenAI的报告说，2025年企业的推理Token量，涨了320倍。AI模型聚合平台OpenRouter的报告显示，平均提示词长度，增长到了4倍，也印证了Token量和上下文长度的猛增。这种情况下，你再想想KV缓存，能不把我们拍在存储墙上吗？那怎么办呢？既然KV是缓存到显存里，突破存储墙最直觉的想法，就是升级显存呗。这方面不能说它不努力，这几年显存容量，大概平均每年涨50%，今年的下一代架构，还会从HBM3E升级到HBM4，带宽上也会有一个巨大的提升。但这么提升的速度，远远跟不上KV缓存的增速，差太多了。所以现在一方面，业界正在给这些显存厂家，猛猛砸钱买爆，让他们升级、扩产，这些厂家的身价，自然是拔地而起。但另一方面，大家也在从别的角度，八仙过海各显神通，全方位地去突破存储墙。首先从源头上，给KV缓存减肥。你看，现在是一个Token，对应一份KV缓存，能不能瘦瘦身呢？在压缩这一块，这些年最权威的，就是DeepSeek了。DeepSeek V4的核心创新之一，就是让多个Token，对应一份KV缓存，而且产出的缓存，还有一部分继续压缩。综合下来，同样的上下文下，DeepSeek V4 Pro的KV缓存只有DeepSeek V3.2的十分之一。这里额外说一句，正是因为DeepSeek可能把KV压缩得这么小，对读取速度的压力就没那么大了，所以它才能率先把KV缓存到速度慢、但是便宜大碗的固态硬盘里。别的厂商，可能五分钟就给你清缓存了，但是DeepSeek甚至能给你保存好几天，大家实际用下来，缓存命中率轻松达到95%以上。回过头来，存储KV这跟我们收拾行李箱很像，如果你胡乱地塞，空间利用率肯定是很低的，显存也是这样。所以业界借鉴了操作系统内存管理的经典思想，用算法把KV缓存在显存里摆放得整整齐齐，就能提高显存的利用率，装得更多，而且拿起来也更顺手。但不管怎么样，因为推理阶段要服务很多用户，他们的KV缓存加到一起，轻松就能突破TB，远远超过现有的显存容量。那能不能把KV缓存卸载到别的地方呢？于是就有了开头的分层存储。最着急用的那一小部分KV，还得存在最金贵的HBM里，但没那么着急用的，就慢慢下沉到内存，再往下到本机的固态硬盘里，最下面是一个多机共享的空间。每往下一层，速度会慢个几十倍，但好处自然是便宜得多，容量大得多，整体就呈现了这种金字塔型。这个过程，需要对鸡零狗碎的KV缓存做精细的管理，在多层之间来回搬运。所以今年的英伟达，要搞出一个3.5层，就是用了很多技术。来实现这一点。总的来说，我们进入了一个透亮指数增长的推理时代，以KV缓存为代表的新型存储压力爆发了，把我们拍到了存储墙上。业界正在以一整套系统，全方位地突破存储墙，包括软件算法的优化，也包括硬件的升级和分层。这个过程中，不管是最核心的HBM厂商，还是互补的内存、闪存厂商都被买爆了。当然，存储远不止KV缓存，要跨越的障碍也远不止存储。最近的热点非常多，什么CPU、GPU，如果您想看到关于它们的深度解读，可以弹幕或者评论告诉我。点赞收藏关注，我们下个视频见。

任务状态

当前状态✅ 已完成

重试次数0

创建时间2026/6/17 09:02:57

更新时间2026/6/17 09:09:43

完成时间2026/6/17 09:09:43

技术信息

任务IDtask_1781658177683932101_bDljZJhP

字幕文件已生成

想分析自己的视频？

注册即送 100 积分，可用于视频总结、字幕提取和内容洞察。

免费注册

抖音视频总结方案小红书视频分析方案 B站视频总结方案

返回任务列表