Hermes MoA2.0超越GPT5.5和Opus4.8 #AI #Hermes #ChatGPT #Opus

✅ 已完成

任务ID: 1515

30秒速读

核心摘要

预计 90 秒读完

解读Hermes MoA2.0的特性优势，及多模型聚合的AI行业发展趋势

该产品由Notes Research推出，为多模型组合方案，官方基准跑分0.8202，性能较GPT-5.5高11%、Opus4.8高8%

采用拆分用户问题分发多模型分析、再聚合输出的逻辑，优化KV缓存机制，性能大幅提升但调用成本仅高1美分左右

官方推荐用强模型做聚合、多个足够强的模型做参考，可结合场景、成本需求灵活调整模型搭配

可执行建议

普通用户可尝试官方推荐的模型组合方案，以接近单模型的成本获得更强AI输出效果
AI从业者可跟进多模型聚合技术路线，探索任务拆分聚合的模型内生能力落地

高价值评论洞察

多名技术向用户指出该多模型聚合方案token消耗达普通方案的2-3倍，和视频提及的仅高1美分调用成本存在认知分歧，性价比争议凸显
用户对该技术的本质认知多元，分别将其类比为多模型辩论、主Agent团伙作战，同时不少用户联想到国产大模型组合落地的可能性

用户关注点

多模型聚合方案的实际使用隐形成本、性价比情况
国产现有大模型组合能否复刻Hermes MoA2.0的效果
该技术和市面上已有的同类聚合方案的差异

可复用选题/回应建议

实测不同国产大模型搭配的多模型聚合效果，输出普通用户可直接复用的低成本组合方案
拆解该方案的真实token消耗、全链路成本构成，和GPT、Opus做横向性价比对比

代表性评论

"用2倍的token获得8%到11%的产出"，点出普通用户极易忽略的token消耗隐形成本，精准戳中该方案的核心性价比争议点
"glm加上DeepSeek 加上豆包。可能也会有点猛啊"，反映普通用户对国产大模型落地该技术路线的强探索意愿

基本信息

作者

发布时间

2026/7/4 20:49:21

视频URL

关键词

Hermes MoA2.0 多模型聚合技术 AI大模型对比 KV缓存优化大模型性价比 AI行业发展趋势

标签与备注

标签

Hermes MoA2.0多模型聚合技术AI大模型对比KV缓存优化大模型性价比AI行业发展趋势

备注

暂无备注

转录文本

最近，Hermist母公司Notes Research发布了一个名叫MOA 2.0（Mixture of Agents）的产品，属于一个模型的组合。从他们自己的基准测试（benchmark）来看，是比OpenAI和Anthropic的上一代旗舰模型GPT-5.5和4.8各强了11%和8%。因为GPT-5.6和Gemini Five现在是被禁用状态，所以没有做对比。目前看，是有机会赶上他们新一代的旗舰模型。 Hermist其实用了一个非常有意思的玩法，不是去打造一个新的模型，而是用一个模型组合，把用户问题分拆给不同的模型做分析和研究，再通过聚合模型为所有意见生成最终回复，这就是Hermist Agents的运营方式。Hermic Eo Technique表示，你可以把任何供应商的任何模型组合作为属于自己的混合体，像调用普通模型一样直接调用。这个逻辑，其实跟前段时间OpenRouter上的Fusion模型逻辑是类似的，也和Scua U Good的多媒体模型的逻辑一脉相承。在官方的Hermise Bench上，MOA的跑分具体是多少？聚合加上不同的GPT模型是目前最强的，就是GPT-5.5做拆分生成，再由模型聚合在一起，这个分数达到了0.8202。而单独的Claude 4.8是0.7607，单独的GPT-5.5是0.7412。聚合的逻辑并不是在所有题目上都有聚合优势，在复杂任务上的增益是最强的。 Claude 4.8这8%到11%的提升，意味着MOA的产出可能超过了被严格限制的顶尖模型，说的就是Gemini Five跟GPT-5.6。有用户最近在一台新的Hermist实例上，用GPT-5.5、DeepSeek V4 Pro、Silence 4.6作为参考，Claude 4.8做聚合，对比单次使用Claude 4.8的调用，整个的成本只差了一美分，大概是十五分之一的区别。所以聚合的模型虽然能力变强了，但是价格并没有涨多少。这里面的原因是系统提示词和工具的schema占了大头，而参考模型跑的是脱离上下文的，没有这种提示，没有工具schema，没有对话文本，所以增加的上下文的部分不多，只有7%左右。换句话说，你花了稍微多于一个模型的钱，请来了一个专家委员会，带来更高的准确率。这里面比较有意思的是两点。第一点就是Hermist对于KV缓存的保护。因为KV Cache对于上下文、对于模型效率、对于成本来说是很重要的。它的做法是，聚合模型的上下文，是在上一条用户的消息的末尾，追加了参考模型的输出，也就是前面的缓存的前缀的尾部。这意味着，之前已经计算过的KV Cache并没有受到影响，历史对话、系统提示词、工具schema缓存依然保持完整。参考模型新增的部分追加上来，只做了后面部分的KV Cache的重新计算。所以MOA的真实成本，其实依然和单模型的差距并不大，即使是在KV Cache启用的情况下。第二点，关于模型是如何搭配，是用强模型做参考，还是做聚合，官方给出了一个方向：参考模型用GPT-5.5，加上DeepSeek V4 Pro，聚合模型用4.8。网友Offv Chai在这样的官方推荐基础上，又在参考层加了一个Sense 4.6，三个参考模型给出一层参考的视角，成本变化不大。所以大的逻辑就是用最强的模型做聚合，用足够强的多个模型做参考，可以出不同角度的意见。当然这里面没有标准答案，根据用户的需求、场景的不同以及成本的需求，是可以找到最合适的搭配的。我这里稍微分享一下，这波社区对于解密和赶上Hermist和Gemini Five的动力，基本上都指向同一个方向，就是用多个模型聚合在一起，实现单模型实现不了的能力。从OpenRouter的Fusion到Sakada，再到GPT-5.6的So Ultra，再到我们今天看到的MOA 2.0，每一个单一模型，它的能力都没有顶尖模型那么强，但是聚合在一起能达到一样效果。而单一模型无论是从模型架构再到参数的体量，成本对比顶尖模型可能都是更加可控的。所以我们相信未来的一段时间，这可能会成为一个主流的发展方向，通过多模型来实现单模型的能力。而在实现过程中，路径上一定是由原来的多个Agent用系统提示词作为脚手架，逐步变成模型内生的能力，去做任务的拆分和聚合。所以相对来说，GPT-5.6的So Ultra的完成度，是超过以提示词搭建的形式实现的同样能力的OpenRouter Fusion和MOA 2.0的。

任务状态

当前状态✅ 已完成

重试次数0

创建时间2026/7/5 04:16:21

更新时间2026/7/5 04:19:08

完成时间2026/7/5 04:19:08

技术信息

任务IDtask_1783196181582393343_nXbxRFVD

字幕文件已生成

想分析自己的视频？

注册即送 100 积分，可用于视频总结、字幕提取和内容洞察。

免费注册

抖音视频总结方案小红书视频分析方案 B站视频总结方案

返回任务列表