在我们全新系列《初创企业如何利用Claude构建产品》中,我们聚焦那些通过AI改变行业的高速成长企业。本文分享了Carta Healthcare开发其临床数据抽取平台Lighthouse背后的工程经验,以及为什么在构建大规模AI系统时,语境工程与模型能力同等重要。

临床登记库收集具有相同诊断、手术或病症患者的标准化数据。医院向登记库提交数据以进行结果对比、发现护理缺口并推动质量改进,但登记库的价值取决于数据质量,而生成这些数据远比想象中复杂。

将病历转化为符合登记库要求的数据称为临床数据抽取。受过训练的摘要员需仔细阅读病历,解读医生笔记,调和矛盾的记录,并在记录不明确时运用临床判断。普通病例可能耗时60分钟,复杂病例甚至需五六小时。对于大型医疗系统来说,单一登记项目每年需投入超过11,000小时的专业劳动。

传统自动化工具难以弥补这一差距。基于规则的系统和自然语言处理(NLP)能处理可预测的文档,但临床语言往往不具备一致性。相同的临床发现,在一家医院可能是结构化字段,在另一家则埋藏于自由文本中。边缘案例繁多,语境至关重要,错误的结果不仅是错误建议,更是破坏整个登记库的数据质量。

这正是Carta Healthcare致力于解决的问题。他们开发的软件平台Lighthouse,利用Claude实现了类似训练有素的摘要员对临床文档的推理能力。

他们在此过程中获得的发现,重塑了他们的技术路径,也为任何希望将AI从试点推向生产的团队提供了宝贵经验。

从基于规则的抽取到临床推理

登记摘要员需要回答的问题远非简单的数据库查询。

例如,回答“手术前最近一次血糖值是多少?”需要准确知道手术开始时间,然后找到该时间之前的实验室数值。又如,“出院时是否开具了阿司匹林?”需要区分是患者带回家的处方药,还是住院期间使用的药物。

最直观的做法是用规则自动化这些判断:映射临床医生记录特定发现的方式,围绕这些模式构建抽取逻辑,然后进行规模化。但临床文档缺乏一致性,同一临床发现可能在一家医院是结构化字段,在另一家则是自由文本。

Carta Healthcare早期系统采用NLP自动抽取登记数据,但事实证明,模式识别无法复制临床判断。

“这正是我们多年前从NLP转向大型语言模型(LLM)的原因,”Carta Healthcare应用AI应用经理Hannah Glaser说。

推理的准确性至关重要,因为即使是三位摘要员审阅同一心脏病例,也可能得出不同但合理的结论。医生笔记和影像检查可能指向不同方向,正确答案需要权衡两者,这不是简单规则能解决的问题。

“AI系统需要理解的是训练有素的临床摘要员所理解的内容:如何在语境中阅读临床语言,权衡不同文档中的矛盾证据,应用相对于具体手术日期的时间逻辑,并处理模糊信息,”Glaser说。“如果体重是在手术后测量的,熟练的摘要员知道这不算术前体重,系统也必须知道这一点。”

Carta Healthcare评估了多款模型,最终选择了Claude。

“没有其他模型能像Claude那样理解和解释临床文档,”Glaser表示。