固态硬盘都起飞?AI为什么突然买爆整个存储? #AI新星计划 #大模型 #KV缓存 #AI存储 #agent
✅ 已完成任务ID: 1234
30秒速读
核心摘要
AI推理时代KV缓存需求爆发,拉动全存储产业链行情大幅上涨。
可执行建议
- 可重点关注AI推理赛道下存储全链条相关产业的后续发展机会
- 如有其他AI硬件相关的内容需求,可在视频评论区留言告知创作者
高价值评论洞察
- 现有有效评论仅1条指向视频播放故障,其余多为无意义占位内容或对博主的正向夸赞,暂未出现针对AI存储、大模型KV缓存相关内容的疑问、争议、行业探讨或投资相关诉求
- 核心反馈集中在内容载体本身的体验层面,用户对硬核科技类博主的认可度较高
用户关注点
- 视频播放的流畅度,对内容观看过程中的异常故障敏感度较高
- 优质硬核科技科普内容的产出,期待创作者持续输出高质量相关内容
可复用选题/回应建议
- 第一时间排查修复视频55秒处的黑屏故障,优化用户观看体验,可在评论区回复告知已处理
- 后续可围绕AI硬件赛道下存储产业链的细分环节做深度拆解科普,匹配粉丝对硬核科技内容的需求
代表性评论
- 用户“热苏打水”留言反馈视频55秒左右有黑屏,价值是直接指出了视频存在的播放瑕疵,帮助创作者快速定位内容问题完成优化
标签与备注
标签
备注
暂无备注
转录文本
说存储涨上天,是因为AI。 你这么想嘛,毕竟ChatGPT已经出来三年多了,怎么现在又开始涨了? 而且AI不是要显卡吗?显存涨就算了,闪迪,它是做闪存、做固态硬盘的,它凭什么股价翻了30倍? 如果你有这样的疑问,说明你对AI的认知已经过时了。 什么大力出奇迹啊,几万张卡、几十PB、几个T的庞然大模型,那些都是训练时代的老故事。 这一轮上涨的新动力,是我们已经冲击了一个新的推理时代。 推理呢,就是模型训练之后,部署上线的这个阶段。在这个时代,我们撞上了一堵存储墙。为了突破这堵墙,存储被扩展到了多层,除了原有的显存,内存和固态硬盘也加入了战场,所以存储全链条都涨上天了。 这么解释你满意了吗?我还是根本不满意啊。怎么就推理时代了?怎么就存储墙了?怎么就突然冒出来这么多东西,还有分层存储的? 抛开温点的话,这张图里有一个重要线索:KV。KV是大模型行业的超级热点,也是AI众多需要存储的东西里,最有代表性的新压力。 但是网上很少有人讲,不过你只有弄懂了KV,才有可能真正弄懂这一轮的AI存储。KV可以很粗略地理解成大模型的某种记忆,把KV缓存,也就是保存下来,会占用显存空间,但大模型就可以复用这些记忆,来缩短几倍甚至几十倍的思考时间。 那KV缓存,究竟是怎么一边给AI做了加速,却同时把我们推到了存储墙上面的? 我们知道,大模型的回复过程是文字接龙。假如你给它发了100个token,为了回复你,大模型首先要从显存里读取权重参数,相当于它的大脑,然后结合这100个token,计算出101个token。到这还没完,同时它会把这100个token的一部分计算结果,也就是KV,保存起来,这就是KV缓存。 为什么说它的记忆能够复用呢?你看,接下来生成第102个token的时候,按说得重复刚才的过程,把现有的token全算一遍,也就是完整思考。但是,前100个token的KV已经缓存下来了,就可以直接读取,这样就不用再算一遍了,只算第101个token这一个就够了,然后继续把它的KV也缓存下来。接下来的流程就都是一样的:读取前面token的KV缓存,只计算最新的token,就能得到下一个token。 所以你看,通过KV缓存,每次生成就不需要把历史token全算一遍,只算极少的新token,是不是大幅减少了计算量?这么来看,KV缓存的优点太突出了。但实际上,它的代价也是非常恐怖的。首先你注意到,KV缓存的数量是不是和上下文长度相关?token越多,这KV缓存是不是就越多。如果上下文长度达到1兆,那么即便是一个8B参数的小的大模型,它本体的全重大小是16GB,但是KV缓存最高最高能干到192GB。 是本体的12倍。 两块也是100的,装不下,那就只能清理掉。 所以显存里的KV,保存的时间是很短的,比如几分钟。 清理掉之后,推理性能自然会随之降低。 这就是KV挤占显存容量的后果。 也可以说,KV缓存让我们撞上了容量墙。 KV缓存过大,还导致着另一个问题。你看每次生成一个新token,除了读全重,还有两部分耗时:一个是读取所有历史KV,KV大了,这个过程就非常慢;另一个是计算最新一个token,这个非常快。 所以在连续生成的过程中,相当于显存上菜上得特别慢,但是GPU一口就吃完了,然后就干等着下一道菜。 GPU可太贵了,经不起这么浪费。 所以显存读取的时间,肯定是越短越好,这是由显存的硬件参数带宽决定的。 所以KV缓存越大,对带宽的要求也越苛刻,这让我们撞上了带宽墙。 还好这些问题,都要到这种级别的超长上下文下,才会变得尤为棘手。 单论token,那可是两本《三国演义》的篇幅,我们不可能跟AI聊这么多。 不幸的是,太可能了。 过去这几个月,你的token量涨了多少呢? 根据新华社的报道,今年3月,我国的日均token用量,相比于2024年初涨了1000倍,相比于2024年底,依旧涨了40%。 怎么就涨了这么多? 答案很简单,我相信你也感同身受,就是昔日的大模型AI全都摇身一变,成了Agent,进入我们的电脑,帮我们办公。 而不是像以前一样,需要复制粘贴到AI的聊天框了。 像我们程序员,完全不用Cloud Code Codex这种编程Agent的,基本可以做大型项目的那一拨了。 其实Agent也并不是一蹴而就的,有一个容易被大家忽略的节点,那就是2024年12月的OpenAI O1正式版,它开创了推理模型的先河。就是回答之前,要思考一大堆,这可不是形式主义,是真的让模型的智能程度上了一个台阶。 现在的所有旗舰模型,都是推理模型,而且越贵的模型,思考的token越多,思考时间越久。高通的CEO刚说过,推理任务的token消耗量,是普通聊天的10倍。 这也只是开头,在接下来的2025年,我们给这种更聪明的推理模型,提供了规则、记忆、工具、容错等一整套系统,就是Anthropic所谓的Harness,于是Agent就诞生了。 现在呼风唤雨的Claude Code,感觉已经过了很久了对吧?其实正式发布时间,是在2025年的5月,才一年多一点。这一套Harness系统,会消耗巨量的token,还是按照高通CEO的说法,是普通聊天的50到200倍。 而且关键的是,上下文变得超级长,因为实际的工作任务,都超级复杂,Agent需要超级长的长程执行。像我们公司提供的Opus,就有一兆上下文窗口,但是随便一个项目开发 轻轻松松就能打爆好几轮,这在以前是不可想象的。这不光是我们的经历,全世界都是这样。 OpenAI的报告说,2025年企业的推理Token量,涨了320倍。AI模型聚合平台OpenRouter的报告显示,平均提示词长度,增长到了4倍,也印证了Token量和上下文长度的猛增。 这种情况下,你再想想KV缓存,能不把我们拍在存储墙上吗?那怎么办呢?既然KV是缓存到显存里,突破存储墙最直觉的想法,就是升级显存呗。 这方面不能说它不努力,这几年显存容量,大概平均每年涨50%,今年的下一代架构,还会从HBM3E升级到HBM4,带宽上也会有一个巨大的提升。但这么提升的速度,远远跟不上KV缓存的增速,差太多了。 所以现在一方面,业界正在给这些显存厂家,猛猛砸钱买爆,让他们升级、扩产,这些厂家的身价,自然是拔地而起。但另一方面,大家也在从别的角度,八仙过海各显神通,全方位地去突破存储墙。 首先从源头上,给KV缓存减肥。你看,现在是一个Token,对应一份KV缓存,能不能瘦瘦身呢?在压缩这一块,这些年最权威的,就是DeepSeek了。DeepSeek V4的核心创新之一,就是让多个Token,对应一份KV缓存,而且产出的缓存,还有一部分继续压缩。综合下来,同样的上下文下,DeepSeek V4 Pro的KV缓存 只有DeepSeek V3.2的十分之一。 这里额外说一句,正是因为DeepSeek可能把KV压缩得这么小,对读取速度的压力就没那么大了,所以它才能率先把KV缓存到速度慢、但是便宜大碗的固态硬盘里。 别的厂商,可能五分钟就给你清缓存了,但是DeepSeek甚至能给你保存好几天,大家实际用下来,缓存命中率轻松达到95%以上。 回过头来,存储KV这跟我们收拾行李箱很像,如果你胡乱地塞,空间利用率肯定是很低的,显存也是这样。 所以业界借鉴了操作系统内存管理的经典思想,用算法把KV缓存在显存里摆放得整整齐齐,就能提高显存的利用率,装得更多,而且拿起来也更顺手。 但不管怎么样,因为推理阶段要服务很多用户,他们的KV缓存加到一起,轻松就能突破TB,远远超过现有的显存容量。那能不能把KV缓存卸载到别的地方呢?于是就有了开头的分层存储。 最着急用的那一小部分KV,还得存在最金贵的HBM里,但没那么着急用的,就慢慢下沉到内存,再往下到本机的固态硬盘里,最下面是一个多机共享的空间。每往下一层,速度会慢个几十倍,但好处自然是便宜得多,容量大得多,整体就呈现了这种金字塔型。 这个过程,需要对鸡零狗碎的KV缓存做精细的管理,在多层之间来回搬运。所以今年的英伟达,要搞出一个3.5层,就是用了很多技术。 来实现这一点。 总的来说,我们进入了一个透亮指数增长的推理时代,以KV缓存为代表的新型存储压力爆发了,把我们拍到了存储墙上。 业界正在以一整套系统,全方位地突破存储墙,包括软件算法的优化,也包括硬件的升级和分层。这个过程中,不管是最核心的HBM厂商,还是互补的内存、闪存厂商都被买爆了。 当然,存储远不止KV缓存,要跨越的障碍也远不止存储。最近的热点非常多,什么CPU、GPU,如果您想看到关于它们的深度解读,可以弹幕或者评论告诉我。点赞收藏关注,我们下个视频见。