工程化skills评估 #模型能力 #Skills #经验沉淀 #数据资产 #Skills评估 #工程化落地 #评估体系 #德鲁克 #没有评估就没有改进 #Claude #Codex #测评集 #领导讲话稿 #LMS架构 #SkillsCreator #最佳实践 #Python测评 #HTML报告 #Benchmark对比 #稳定优先 #团队协作 #AI工程化 #AI落地 #雷哥 #AI实用技巧

✅ 已完成

任务ID: 1185

30秒速读

核心摘要

预计 90 秒读完

分享AI工程化Skills评估落地方法，讲解经验沉淀为数据资产的实用路径。

德鲁克提出没有评估就没有改进，Skills工程化落地必须搭建标准化评估体系与对应测评集

可借助Claude、Codex、SkillsCreator等工具，通过LMS judge方式完成测评，自动生成HTML可视化报告，直观对比有无Skills的Benchmark得分差异

仅需为团队共享、生产对外使用、对稳定性要求高的Skills搭建评估集，个人自用迭代的Skills无需做重评估

可执行建议

尽早沉淀适配自身业务的Skills，形成专属经验类数据资产，放大大模型的落地价值
搭建Skills评估体系时优先对齐生产场景需求，控制非必要环节成本，优先保障输出稳定性

高价值评论洞察

受众对AI工程化Skills评估的落地成本敏感度高，明确指向低成本可落地的工具需求
当前输出内容未覆盖开源工具相关板块，存在明确的内容缺口，可针对性补全满足用户需求

用户关注点

工程化Skills评估环节的工具选型，尤其是低门槛、低成本的可用工具
中小团队落地AI技能评估体系的实操路径，避免过高的搭建成本

可复用选题/回应建议

新增一期AI Skills评估开源工具盘点内容，整理不同开源方案的适配场景、简易部署教程
后续内容补充商用付费工具与开源方案的效果、成本对比，为不同规模团队提供分层选型参考

代表性评论

用户D先生提问“现在有开源的评估工具吗”，价值是直接点出了中小团队落地AI工程化技能评估的核心痛点，反映出受众对低成本落地方案的强需求

基本信息

作者

发布时间

2026/6/12 17:00:00

视频URL

关键词

AI工程化 Skills评估评估体系搭建 AI落地实践 Benchmark对比经验沉淀数据资产

标签与备注

标签

AI工程化Skills评估评估体系搭建AI落地实践Benchmark对比经验沉淀数据资产

备注

暂无备注

转录文本

模型越强，越应该去写skills。那为什么呢？因为模型其实提供的是能力，Skills提供的是我们在这个能力之上的所有经验。模型有能力，基于我们这些经验，可以帮我们把事情处理好，这就是skills的价值。所以即使模型能力变得越来越强，我们的skills越早沉淀、越早形成经验型的数据资产，它就越有价值。今天其实想跟大家聊的，不是说skills怎么去写，而是说我们觉得skills非常重要的一个环节，就是skills的评估。我们没有skills和有skills，一定是有一个客观评估的标准的。德鲁克说过，没有评估就没有改进。所以任何东西，如果你要把它做成工程化，认真去做，就一定要有评估体系，一定要建立评估集。那怎么去建这个评估集呢？这边我使用的工具是Corder，当然大家使用Cloud或者Codex都是可以的。在Corder里边，我们可以去建一个skills，我们在其他的环境里边建skills也可以。这个skills建的是一个个引导大家去写skills的辅助skills，比如说里边写了相关的一些约束，怎么去根据领导的讲话内容生成对应内容的skills。这个skills写完之后，我们觉得理论上来讲应该是不错的，但是我们怎么来测评它呢？这就是我们要做的事情。做这个skills的测评是这样的，我们先建一个测评仪，测评仪就在这个evOS里边，我们去建一个测评集，然后这有一个evals.json，这个其实是网站里边提供的一个规范文件。整个评估的逻辑，其实是在这个网站里边，下边会告诉我们这些评估题怎么来建立。这里边的评估题是怎么样的呢？首先要有一个prompt，我们要求它给我们写出一个什么样的领导讲话稿，它的期望输出是什么样的，除了这些标准输出之外，这里边细节的一些验证项都有哪些。从这里边我们也能看到，一会儿我们评估的时候，就是通过LMS judge的方式，去做一个评估。有了这些相关的内容之后，我们的评估集其实就有了。有了这个评估集之后，还记得我们平时创建skills的话，其实是用skills creator，但是大家用creator的时候，其实只是直接创建它了，忽略了它里边有一个关键的内容，就是它里边有一个evalue view，它这里边的evalue，其实是跟我们刚才整个评估skills的最佳实践是联系起来的。也就是说我们直接使用刚才creator的评估skills，其实就可以把整个skills进行一个评估了。我们看这个skills里边，它其实写的是这是一个创建skills的skills。这边写到说，如果你要去评估结果的好坏，一个是刚才我们建的这些测试集相关的内容，它就可以基于这里边的文件，帮我们测评完之后，形成一个报告，生成一个HTML。这样的话我们就有一个更直观的方式去看到评估的效果了。也就是在我们的右侧的输入框，我们可以这么输入：定完这个skills，然后评估一下我的skills。我们把指令给它之后，让它给我们出一个HTML的报告，它就会在下边给我们出一个HTML报告。这里边的报告，我是跑了两轮，第一轮是一个报告，第二轮是一个报告。有这个报告之后，我们就可以打开报告去看一下，我给大家看一眼，它这个output就写着，我们现在这个prompt是这样的，然后它就可以帮我们生成一个speech，是一个什么样的speech。下边还有刚才我们不同的断言相关的一些得分，其实也都在这个里边了。我们在右侧就可以看到它的整个的benchmark，这个benchmark里边，会对我们有没有skills给出一个对比的得分情况。比如说刚才我们其实是有八项指标，如果有skills，它八项都是达标的，如果没有skills，它只达标了三项。我们就直接可以看出里边相关的一些区别了。下边还有一个详情给我们列下来，就是有skills的情况下哪些是达标的，没有skills的情况下哪些是达标的，这样我们就完成了对skills的评估。这里边其实我也想跟大家讲，不要去为每一个skills都做一个skills评估集。如果你的skills是团队型的、是规范型的、是生产型的，你要给大家去用，要对外扩展，那这样的skills，你的第一要求其实是稳定。基于稳定的这些skills，我们觉得做一个测评集是非常合适的。如果你是自己在用，然后自己不断去迭代，那就不适合去搞一个很重的skills评估了。关注雷哥，关注AI工程化落地抖音。

任务状态

当前状态✅ 已完成

重试次数0

创建时间2026/6/13 18:53:40

更新时间2026/6/13 18:59:01

完成时间2026/6/13 18:59:01

技术信息

任务IDtask_1781348020168171437_r3bfXjtr

字幕文件已生成

想分析自己的视频？

注册即送 100 积分，可用于视频总结、字幕提取和内容洞察。

免费注册

抖音视频总结方案小红书视频分析方案 B站视频总结方案

返回任务列表