Hermes MoA2.0超越GPT5.5和Opus4.8 #AI #Hermes #ChatGPT #Opus

已完成

任务ID: 1515

30秒速读

核心摘要

预计 90 秒读完

解读Hermes MoA2.0的特性优势,及多模型聚合的AI行业发展趋势

该产品由Notes Research推出,为多模型组合方案,官方基准跑分0.8202,性能较GPT-5.5高11%、Opus4.8高8%
采用拆分用户问题分发多模型分析、再聚合输出的逻辑,优化KV缓存机制,性能大幅提升但调用成本仅高1美分左右
官方推荐用强模型做聚合、多个足够强的模型做参考,可结合场景、成本需求灵活调整模型搭配

可执行建议

  • 普通用户可尝试官方推荐的模型组合方案,以接近单模型的成本获得更强AI输出效果
  • AI从业者可跟进多模型聚合技术路线,探索任务拆分聚合的模型内生能力落地

高价值评论洞察

  • 多名技术向用户指出该多模型聚合方案token消耗达普通方案的2-3倍,和视频提及的仅高1美分调用成本存在认知分歧,性价比争议凸显
  • 用户对该技术的本质认知多元,分别将其类比为多模型辩论、主Agent团伙作战,同时不少用户联想到国产大模型组合落地的可能性

用户关注点

  • 多模型聚合方案的实际使用隐形成本、性价比情况
  • 国产现有大模型组合能否复刻Hermes MoA2.0的效果
  • 该技术和市面上已有的同类聚合方案的差异

可复用选题/回应建议

  • 实测不同国产大模型搭配的多模型聚合效果,输出普通用户可直接复用的低成本组合方案
  • 拆解该方案的真实token消耗、全链路成本构成,和GPT、Opus做横向性价比对比

代表性评论

  1. "用2倍的token获得8%到11%的产出",点出普通用户极易忽略的token消耗隐形成本,精准戳中该方案的核心性价比争议点
  2. "glm加上DeepSeek 加上豆包。可能也会有点猛啊",反映普通用户对国产大模型落地该技术路线的强探索意愿

基本信息

2026/7/4 20:49:21

标签与备注

标签

Hermes MoA2.0多模型聚合技术AI大模型对比KV缓存优化大模型性价比AI行业发展趋势

备注

暂无备注

转录文本

最近,Hermist母公司Notes Research发布了一个名叫MOA 2.0(Mixture of Agents)的产品,属于一个模型的组合。从他们自己的基准测试(benchmark)来看,是比OpenAI和Anthropic的上一代旗舰模型GPT-5.5和4.8各强了11%和8%。因为GPT-5.6和Gemini Five现在是被禁用状态,所以没有做对比。目前看,是有机会赶上他们新一代的旗舰模型。 Hermist其实用了一个非常有意思的玩法,不是去打造一个新的模型,而是用一个模型组合,把用户问题分拆给不同的模型做分析和研究,再通过聚合模型为所有意见生成最终回复,这就是Hermist Agents的运营方式。Hermic Eo Technique表示,你可以把任何供应商的任何模型组合作为属于自己的混合体,像调用普通模型一样直接调用。这个逻辑,其实跟前段时间OpenRouter上的Fusion模型逻辑是类似的,也和Scua U Good的多媒体模型的逻辑一脉相承。 在官方的Hermise Bench上,MOA的跑分具体是多少?聚合加上不同的GPT模型是目前最强的,就是GPT-5.5做拆分生成,再由模型聚合在一起,这个分数达到了0.8202。而单独的Claude 4.8是0.7607,单独的GPT-5.5是0.7412。聚合的逻辑并不是在所有题目上都有聚合优势,在复杂任务上的增益是最强的。 Claude 4.8这8%到11%的提升,意味着MOA的产出可能超过了被严格限制的顶尖模型,说的就是Gemini Five跟GPT-5.6。有用户最近在一台新的Hermist实例上,用GPT-5.5、DeepSeek V4 Pro、Silence 4.6作为参考,Claude 4.8做聚合,对比单次使用Claude 4.8的调用,整个的成本只差了一美分,大概是十五分之一的区别。所以聚合的模型虽然能力变强了,但是价格并没有涨多少。这里面的原因是系统提示词和工具的schema占了大头,而参考模型跑的是脱离上下文的,没有这种提示,没有工具schema,没有对话文本,所以增加的上下文的部分不多,只有7%左右。换句话说,你花了稍微多于一个模型的钱,请来了一个专家委员会,带来更高的准确率。 这里面比较有意思的是两点。第一点就是Hermist对于KV缓存的保护。因为KV Cache对于上下文、对于模型效率、对于成本来说是很重要的。它的做法是,聚合模型的上下文,是在上一条用户的消息的末尾,追加了参考模型的输出,也就是前面的缓存的前缀的尾部。这意味着,之前已经计算过的KV Cache并没有受到影响,历史对话、系统提示词、工具schema缓存依然保持完整。参考模型新增的部分追加上来,只做了后面部分的KV Cache的重新计算。所以MOA的真实成本,其实依然和单模型的差距并不大,即使是在KV Cache启用的情况下。 第二点,关于模型是如何搭配,是用强模型做参考,还是做聚合,官方给出了一个方向:参考模型用GPT-5.5,加上DeepSeek V4 Pro,聚合模型用4.8。网友Offv Chai在这样的官方推荐基础上,又在参考层加了一个Sense 4.6,三个参考模型给出一层参考的视角,成本变化不大。所以大的逻辑就是用最强的模型做聚合,用足够强的多个模型做参考,可以出不同角度的意见。当然这里面没有标准答案,根据用户的需求、场景的不同以及成本的需求,是可以找到最合适的搭配的。 我这里稍微分享一下,这波社区对于解密和赶上Hermist和Gemini Five的动力,基本上都指向同一个方向,就是用多个模型聚合在一起,实现单模型实现不了的能力。从OpenRouter的Fusion到Sakada,再到GPT-5.6的So Ultra,再到我们今天看到的MOA 2.0,每一个单一模型,它的能力都没有顶尖模型那么强,但是聚合在一起能达到一样效果。而单一模型无论是从模型架构再到参数的体量,成本对比顶尖模型可能都是更加可控的。所以我们相信未来的一段时间,这可能会成为一个主流的发展方向,通过多模型来实现单模型的能力。而在实现过程中,路径上一定是由原来的多个Agent用系统提示词作为脚手架,逐步变成模型内生的能力,去做任务的拆分和聚合。所以相对来说,GPT-5.6的So Ultra的完成度,是超过以提示词搭建的形式实现的同样能力的OpenRouter Fusion和MOA 2.0的。

任务状态

当前状态 已完成
重试次数0
创建时间2026/7/5 04:16:21
更新时间2026/7/5 04:19:08
完成时间2026/7/5 04:19:08

技术信息

任务IDtask_1783196181582393343_nXbxRFVD
字幕文件已生成

想分析自己的视频?

注册即送 100 积分,可用于视频总结、字幕提取和内容洞察。

免费注册
返回任务列表
Hermes MoA2.0超越GPT5.5和Opus4.8 #AI #Hermes - AI视频分析案例