工程化skills评估 #模型能力 #Skills #经验沉淀 #数据资产 #Skills评估 #工程化落地 #评估体系 #德鲁克 #没有评估就没有改进 #Claude #Codex #测评集 #领导讲话稿 #LMS架构 #SkillsCreator #最佳实践 #Python测评 #HTML报告 #Benchmark对比 #稳定优先 #团队协作 #AI工程化 #AI落地 #雷哥 #AI实用技巧

已完成

任务ID: 1185

30秒速读

核心摘要

预计 90 秒读完

分享AI工程化Skills评估落地方法,讲解经验沉淀为数据资产的实用路径。

德鲁克提出没有评估就没有改进,Skills工程化落地必须搭建标准化评估体系与对应测评集
可借助Claude、Codex、SkillsCreator等工具,通过LMS judge方式完成测评,自动生成HTML可视化报告,直观对比有无Skills的Benchmark得分差异
仅需为团队共享、生产对外使用、对稳定性要求高的Skills搭建评估集,个人自用迭代的Skills无需做重评估

可执行建议

  • 尽早沉淀适配自身业务的Skills,形成专属经验类数据资产,放大大模型的落地价值
  • 搭建Skills评估体系时优先对齐生产场景需求,控制非必要环节成本,优先保障输出稳定性

高价值评论洞察

  • 受众对AI工程化Skills评估的落地成本敏感度高,明确指向低成本可落地的工具需求
  • 当前输出内容未覆盖开源工具相关板块,存在明确的内容缺口,可针对性补全满足用户需求

用户关注点

  • 工程化Skills评估环节的工具选型,尤其是低门槛、低成本的可用工具
  • 中小团队落地AI技能评估体系的实操路径,避免过高的搭建成本

可复用选题/回应建议

  • 新增一期AI Skills评估开源工具盘点内容,整理不同开源方案的适配场景、简易部署教程
  • 后续内容补充商用付费工具与开源方案的效果、成本对比,为不同规模团队提供分层选型参考

代表性评论

  1. 用户D先生提问“现在有开源的评估工具吗”,价值是直接点出了中小团队落地AI工程化技能评估的核心痛点,反映出受众对低成本落地方案的强需求

基本信息

2026/6/12 17:00:00

标签与备注

标签

AI工程化Skills评估评估体系搭建AI落地实践Benchmark对比经验沉淀数据资产

备注

暂无备注

转录文本

模型越强,越应该去写skills。那为什么呢?因为模型其实提供的是能力,Skills提供的是我们在这个能力之上的所有经验。模型有能力,基于我们这些经验,可以帮我们把事情处理好,这就是skills的价值。所以即使模型能力变得越来越强,我们的skills越早沉淀、越早形成经验型的数据资产,它就越有价值。 今天其实想跟大家聊的,不是说skills怎么去写,而是说我们觉得skills非常重要的一个环节,就是skills的评估。我们没有skills和有skills,一定是有一个客观评估的标准的。德鲁克说过,没有评估就没有改进。所以任何东西,如果你要把它做成工程化,认真去做,就一定要有评估体系,一定要建立评估集。 那怎么去建这个评估集呢?这边我使用的工具是Corder,当然大家使用Cloud或者Codex都是可以的。在Corder里边,我们可以去建一个skills,我们在其他的环境里边建skills也可以。这个skills建的是一个个引导大家去写skills的辅助skills,比如说里边写了相关的一些约束,怎么去根据领导的讲话内容生成对应内容的skills。这个skills写完之后,我们觉得理论上来讲应该是不错的,但是我们怎么来测评它呢?这就是我们要做的事情。 做这个skills的测评是这样的,我们先建一个测评仪,测评仪就在这个evOS里边,我们去建一个测评集,然后这有一个evals.json,这个其实是网站里边提供的一个规范文件。整个评估的逻辑,其实是在这个网站里边,下边会告诉我们这些评估题怎么来建立。这里边的评估题是怎么样的呢?首先要有一个prompt,我们要求它给我们写出一个什么样的领导讲话稿,它的期望输出是什么样的,除了这些标准输出之外,这里边细节的一些验证项都有哪些。从这里边我们也能看到,一会儿我们评估的时候,就是通过LMS judge的方式,去做一个评估。有了这些相关的内容之后,我们的评估集其实就有了。 有了这个评估集之后,还记得我们平时创建skills的话,其实是用skills creator,但是大家用creator的时候,其实只是直接创建它了,忽略了它里边有一个关键的内容,就是它里边有一个evalue view,它这里边的evalue,其实是跟我们刚才整个评估skills的最佳实践是联系起来的。也就是说我们直接使用刚才creator的评估skills,其实就可以把整个skills进行一个评估了。我们看这个skills里边,它其实写的是这是一个创建skills的skills。这边写到说,如果你要去评估结果的好坏,一个是刚才我们建的这些测试集相关的内容,它就可以基于这里边的文件,帮我们测评完之后,形成一个报告,生成一个HTML。这样的话我们就有一个更直观的方式去看到评估的效果了。 也就是在我们的右侧的输入框,我们可以这么输入:定完这个skills,然后评估一下我的skills。我们把指令给它之后,让它给我们出一个HTML的报告,它就会在下边给我们出一个HTML报告。这里边的报告,我是跑了两轮,第一轮是一个报告,第二轮是一个报告。有这个报告之后,我们就可以打开报告去看一下,我给大家看一眼,它这个output就写着,我们现在这个prompt是这样的,然后它就可以帮我们生成一个speech,是一个什么样的speech。下边还有刚才我们不同的断言相关的一些得分,其实也都在这个里边了。我们在右侧就可以看到它的整个的benchmark,这个benchmark里边,会对我们有没有skills给出一个对比的得分情况。比如说刚才我们其实是有八项指标,如果有skills,它八项都是达标的,如果没有skills,它只达标了三项。我们就直接可以看出里边相关的一些区别了。下边还有一个详情给我们列下来,就是有skills的情况下哪些是达标的,没有skills的情况下哪些是达标的,这样我们就完成了对skills的评估。 这里边其实我也想跟大家讲,不要去为每一个skills都做一个skills评估集。如果你的skills是团队型的、是规范型的、是生产型的,你要给大家去用,要对外扩展,那这样的skills,你的第一要求其实是稳定。基于稳定的这些skills,我们觉得做一个测评集是非常合适的。如果你是自己在用,然后自己不断去迭代,那就不适合去搞一个很重的skills评估了。关注雷哥,关注AI工程化落地抖音。

任务状态

当前状态 已完成
重试次数0
创建时间2026/6/13 18:53:40
更新时间2026/6/13 18:59:01
完成时间2026/6/13 18:59:01

技术信息

任务IDtask_1781348020168171437_r3bfXjtr
字幕文件已生成

想分析自己的视频?

注册即送 100 积分,可用于视频总结、字幕提取和内容洞察。

免费注册
返回任务列表
工程化skills评估 #模型能力 #Skills #经验沉淀 #数据资产 #Ski - AI视频分析案例