日本电气株式会社(NEC)于25日宣布,利用生成式AI结合医疗信息专业知识,成功制作了涵盖15万人规模的“医疗合成数据”,并开展了相关实证验证,旨在推动医疗数据的二次利用。

所谓“医疗合成数据”,是指反映日本人统计特征的虚拟患者数据集合。NEC将这些数据转换为国际通用的医疗数据分析标准格式——OMOP,并与合作机构及合作企业共同评估,验证了未来医疗数据二次利用的数据处理流程,同时确认了医疗合成数据在研究过程中的实用价值。

医疗数据的利用分为两类:用于个人治疗和健康管理的“一次利用”,以及用于医学研究和药物开发的“二次利用”。欧洲已制定《欧洲医疗健康数据空间规章(EHDS)》,并推进统一数据流通和利用基础设施建设。日本政府和研究机构也在加快针对国际趋势的医疗数据二次利用研究。

然而,日本国内面临诸多挑战。尽管已有多项二次利用研究,但各医疗机构数据格式和编码体系不统一,导致数据预处理工作量巨大。此外,医疗机构和研究单位数据孤岛现象严重,阻碍了国际合作和数据共享。实际数据使用还需严格的隐私保护和审批流程,影响研究开发效率。

针对这些问题,NEC此次实证项目围绕未来二次利用数据平台建设,开展了大规模医疗合成数据生成、数据转换为OMOP标准以及模拟真实研究流程的验证。

通过AI学习和生成式AI的合理性检查,NEC在短时间内合成了符合日本人口统计特征(年龄结构、性别比例、疾病史等)的15万人规模虚拟医疗数据。

合成数据涵盖了模拟的诊疗报销单(レセプト)、诊断群分类(DPC)数据(日本厚生劳动省要求医院提交的住院医疗数据)、基于国际标准HL7 FHIR的处方电子数据等多种格式。随后,这些数据被统一转换为OMOP格式,实现了跨数据源的综合分析能力。

实证中,NEC将15万人规模的合成数据转换为OMOP格式,并针对三个研究问题进行了应用测试。项目得到了日本爱媛大学、一般社团法人医疗数据联动分析基础协会专家及合作企业的支持和评估。

结果显示,转换数据的OMOP适配率达到98%,成功构建了有效的分析环境。项目提前验证了未来实际医疗数据向通用标准转换的流程,并展示了利用医疗合成数据进行数据联结分析及满足研究者需求的有效性。

NEC计划将此次实证中形成的方案推广应用于多种医疗数据二次利用平台,促进安全且高效的医疗数据利用,推动医学研究进步和国民健康提升。