大型语言模型依托庞大数据集训练,能够加速基因组学研究、简化临床文档、提升实时诊断、支持临床决策、加快药物研发,甚至生成合成数据以推动实验进展。

然而,这些模型在生物医学研究中的应用常受限于数据瓶颈:除结构化医疗数据外,它们在罕见疾病和特殊病症等边缘案例中表现不佳,因为缺乏可靠且具代表性的数据。

总部位于纽约的Mantis Biotech声称正在开发解决方案,弥补这一数据缺口。该公司平台整合多源数据,生成合成数据集,用于构建所谓的人体“数字孪生”——基于物理的预测模型,涵盖人体解剖、生理和行为。

Mantis Biotech将这些数字孪生应用于数据汇聚与分析,助力研究和测试新医疗程序、训练手术机器人、模拟和预测医疗问题甚至行为模式。例如,体育团队可基于运动员近期表现、训练负荷、饮食及活动时长,预测NFL球员发生跟腱损伤的概率,Mantis创始人兼CEO Georgia Witchel在接受TechCrunch采访时解释道。

构建数字孪生时,Mantis平台首先采集教科书、动作捕捉摄像头、生物传感器、训练日志和医学影像等多种数据源。随后,利用基于大型语言模型的系统对数据流进行路由、验证和合成,并通过物理引擎处理,生成高保真数据渲染,进而训练预测模型。

“我们能够将这些分散的数据源转化为预测模型,预测人体表现。因此,任何需要预测人体表现的场景,都是我们技术的理想应用。”Witchel表示。

她强调,物理引擎层至关重要,因为它通过模拟解剖物理特性,增强合成数据的真实性和科学性。

“如果让我估计一个缺失手指者的手部姿势,那将非常困难,因为没有公开的标注数据集。但我们可以轻松生成这类数据,只需用物理模型去除指定手指,重新生成模型即可。”

由于Mantis平台能填补数据空白,Witchel认为其在生物医学领域有广泛应用潜力,尤其是那些程序或患者信息难以获取、数据非结构化或分散存储的场景。她特别指出,罕见病和边缘案例的数据获取受伦理和监管限制,难以纳入公共数据集或用于训练AI模型。

“你看三岁小孩玩芭比娃娃时,会用一条腿抓着娃娃猛砸桌子。我希望人们对我们的数字孪生也能有这种探索心态。”她说,“这将让人们接受用虚拟人体进行测试的理念。目前人们的观念正好相反,这很合理,因为隐私应被尊重。实际上,我认为人的数据根本不应被滥用,尤其是在拥有数字孪生的情况下。”

目前,Mantis已在职业体育领域取得成功,主要因该领域对高性能运动员建模需求强烈。Witchel透露,该公司主要客户之一是NBA球队。

“我们为运动员创建数字化表现模型,展示他们过去一年每天的跳跃情况,以及跳跃随时间的变化,如何与睡眠时间或举臂次数相关。”

该初创公司最近完成740万美元种子轮融资,由Decibel VC领投,Y Combinator、部分天使投资人及Liquid 2参与。资金将用于招聘、广告、市场营销及市场推广。

Witchel表示,下一步将继续完善技术,最终向公众开放平台,重点面向预防性医疗。公司还计划服务于制药实验室和FDA试验研究人员,提供患者治疗反应的洞察。