拜耳生产级Agent拆解 拆解 Bayer × Thoughtworks 的《Building Reliable Agentic AI Systems》:面对大量医学老文件,他们为什么选择 Agentic RAG,而不是简单的 PDF 转 Markdown 加 grep?从混合检索、结构化数据查询,到 Reflection Agent、引用溯源和故障恢复,这可能是目前最接近北美 FDE Take-home 标准答案的公开案例。#ha7ch[话题]# #fde[话题]#

已完成

任务ID: 1392

30秒速读

核心摘要

预计 59 秒读完

本次内容拆解拜耳联合Thoughtworks的生产级Agentic AI公开落地案例。

拜耳该系统承载数十年临床数据,存量大量老旧医学PDF、扫描件,历史系统迁移后数据库标签错漏,权威信息均存储在PDF内。
方案未采用简单PDF转Markdown加字面检索的路线,选用Agentic RAG混合检索架构,规避结构化转换出错引发医疗级错误的风险。
方案覆盖结构化数据查询、反射Agent、引用溯源、故障恢复等模块,是接近北美FDE面试Take-home题的标准答案类案例。

可执行建议

  • 相关从业者尤其是备考北美FDE面试的人群,可查看博主后续发在评论区的原文链接深入学习。
  • 搭建高准确性要求的行业AI检索系统时,优先选用混合检索方案,做好可解释性和故障兜底设计。

基本信息

2026/6/22 04:10:04

标签与备注

标签

拜耳生产级AgentAgentic RAG方案医学AI检索系统FDE面试备考临床数据处理AI系统落地案例

备注

暂无备注

转录文本

周六的时候,我出了一场直播。 直播的时候,给大家讲了一个FD的homework。 这个homework,其实就是把北美的一家公司的take home题目换了一个场景。 非常巧的是,今天我就看到这篇文章,叫《Building Reliable Agency AI System》,它是Softwork给拜尔这家公司做的一个方案。 我觉得这篇文章已经非常好地讲述了,如何使用Rex系统,以及如何去build一个Agent AI System。 感兴趣的朋友可以直接上来查看这篇文章,我到时候会把这个网址发到评论区。 我相信也不需要我自己去带读了,我的粉丝的能力都是非常强的。 我想分享的是,这个系统它叫做Prince,里面有拜耳积累了几十年的临床数据。 所以它有很多的PDF,还有很多扫描件、老文件,以及一些复杂的表格。 因为历史上这个系统做了很多次的迁移,所以说数据库里面的很多的标签是不完整或者是错误的。 这些真正的权威性的内容,其实是在这个PDF里面。 所以说我当时在直播间讲的是 我说能不能把所有的PDF都变成Markdown,然后让Agent像Color Code一样去grab、去搜索呢? 其实在读完这篇文章以后,我就思考了一下,可以这么做一部分,但是你不能全部都做。 第一个事情是,他们已经做了。他们把一些PDF经过了抽取,然后转成了保留结构的JSON,然后按照章节去分块儿,附上了研究编号、化合物、动物种类、给药方式、页码等等的一些东西,然后再把它放到这个Open Search里面。 所以说这个其实和我之前说的PDF转Markdown是非常接近的。 但是呢,还有一个问题就是,医学文件对于准确性的要求是非常高的。然后你的grab其实是字面搜索,那有的时候AI都没有办法很好地完成搜索,很多医学词汇可能在搜索的时候就会出现错误。 那这个时候,RAG的这种vector database,就可以做更好的向量化的搜索。 然后还有一个点是,它有非常非常多的PDF,所以说这里的RAG就不仅仅是切块、Embedding,然后再加上问答那么简单,它有一个Hybrid的结合,大家可以去看一下这篇的原文吧。 然后最让我觉得有意思的一点呢。 也是在我和克拉克一起去读这篇文章的时候,我问他为什么不能这么去做,他说,因为如果你把PDF转成Markdown,但是在PDF结构化的这一步出了错误,那么后面的系统就会生成一个非常准确的错误答案,这个在医学里面是绝对不允许的。比如说一个跨页的表格,原本的表头是高剂量,结果你把它转成了低剂量,那么这样的话就很容易出现各种各样错误的结论,这个是产品的一个巨大的Bug。By the way,我想给大家说的是,它这个地方还着重地去讲了transparency和explainability,也就是它的可解释性,我觉得在FDE面试的时候也是非常重要的。包括还有持续的检测,他们是怎么做的,还有一些出了错,他们是怎么进行fall back的。所以其实回头来看,我始终是坚信,FDE它并不是一定要真的懂这个行业,就是懂这个医疗是怎么做的,因为我们的FDE也不是去代替医疗的人,我们只是帮这些做医疗的人、做医学的人更快地能够检索到信息,那这个是我们FDE所擅长的。所以说你要懂的是Agent的设计,然后行业知识是其中一部分,你要知道有哪些数据源,有哪些PDF。 然后哪个source比哪个source的权重高啊,这些东西是你需要去到驻场去了解的一些现场的知识。 OK,然后反正我推荐所有的人都去读一下这篇文章,尤其是我们的这个西半球head群里面的所有正在准备面北美FDE的人,都可以去了解下SoftWork这家公司。 我跟它其实非常有缘分,因为我校招的第一个offer就是来自SoftWork。它二面的时候让我去写一个PPT去介绍一下我自己,我做完了,到终面的时候,是要全英文的去介绍一个你不懂的行业中你认为非常有意思的问题。 当时我做的是“Is solar energy really green”这个论题,因为在生产太阳能电池板的时候,其实有非常多的环境污染,它用到的一些化学元素是很难被降解的,所以说导致它的污染有可能比直接烧煤要更大,我当时就探讨的是这个话题,也顺利拿到了offer。 所以SoftWork这家公司我觉得还是很棒的,他们能够持续去做这种跨行业的工作。现在FD的浪潮也来了,我相信SoftWork完全可以在这个地方有一个自己的地位所在。好的。

任务状态

当前状态 已完成
重试次数0
创建时间2026/6/27 06:40:22
更新时间2026/6/27 06:44:10
完成时间2026/6/27 06:44:10

技术信息

任务IDtask_1782513622691286653_D7NHbPxn
字幕文件已生成

想分析自己的视频?

注册即送 100 积分,可用于视频总结、字幕提取和内容洞察。

免费注册
返回任务列表
拜耳生产级Agent拆解 拆解 Bayer × Thoughtworks 的《Bui - AI视频分析案例