33、基于语义方法在多数据库中统一识别药物不良反应及药物

原创于 2025-10-24 15:26:23 发布 · 88 阅读

0 GEO检测

医疗信息学前沿探析专栏收录该内容

41 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于语义方法在多数据库中统一识别药物不良反应及药物

1. 项目背景与目标

在临床医疗过程中，收集的医疗信息具有广泛的用途，如医疗经济分析、流行病学研究以及警报生成等。这些信息常以自由文本形式呈现，并使用特定的医学术语进行编码。编码虽耗时，但能明确信息含义，便于自动化处理和实现信息系统间的语义互操作性。

以法国药物不良反应申报为例，目前申报过程依赖临床医生自愿，仅能收集到约 4%的不良反应，效果不佳。而通过搜索医疗数据库来提高不良反应收集率是一种可行的解决方案。在此背景下，欧盟 eu - ADR 项目应运而生，其目标是设计、开发和验证一个计算机系统，利用电子健康记录和生物医学数据库的数据，早期检测 23 种药物不良反应。然而，项目涉及的 8 个来自不同国家的数据库存在结构和语义上的异质性，无法进行统一查询。本研究旨在为数据库管理员提供构建查询的通用基础。

2. 材料与方法

2.1 数据库情况

eu - ADR 项目使用的 8 个数据库包含了超过 3000 万欧洲公民的医疗记录。这些数据库在多个层面存在差异，具体情况如下表所示：
|数据库|事件术语|药物术语|是否自由文本|数据类型|患者类型|
| ---- | ---- | ---- | ---- | ---- | ---- |
|Pedianet - Italia (ITA)|ICD9 - CM|ATC|是|DPI|E|
|Health Search (ITA)|ICD9 - CM|ATC|是|DPI|A/E|
|LombardyRegional DB (ITA)|ICD9 - CM|ATC|否|RSS,D|A/E|
|Tuscany Regional - ARS (ITA)|ICD9 - CM|ATC|否|RSS,D,L,M|A/E|
|IPCI - Netherlands (NL)|ICPC|ATC|是|EHR|A/E|
|PHARMO(NL)|ICD9 - CM|ATC|否|RSS,P,L,M|A/E|
|QRESEARCHUnited Kingdom(UK)|RCD|BNF/ATC|否|DPI|A/E|
|Aarhus UniversityHospitalDB (DK)|ICD10|ATC|否|RSS,D,L,M|A/E|

注：DPI 为电子患者档案，RSS 为标准出院总结，D 为配药，L 为实验室，M 为死亡率，P 为处方；E 为儿童，A 为成人。

2.2 项目中使用的术语

事件术语 ：在 eu - ADR 项目中，使用了四种术语来编码事件。
- ICD9 - CM ：最初的 ICD9 不太适合编码，后经美国医学统计中心完善为 ICD9 - CM，包含 19 章和超过 21000 个分层概念。
- ICD10 ：是国际疾病分类的最新修订版，有 21 章，包含超过 12000 个分层概念，与 ICD9 - CM 的编码不同。
- ICPC ：由世界家庭医生组织于 1987 年发布，用于对全科医学和初级卫生保健领域的患者数据和临床活动进行分类，包含约 7400 个概念，具有双轴结构。
- RCD ：是全科医学数据分类的标准，包含超过 82000 个概念，不仅描述疾病，还包括临床历史、症状等多方面信息，仅在英国使用。
药物术语 ：7 个数据库使用解剖学治疗学化学分类（ATC）对药物进行编码，这是国际药物编码标准。最后一个数据库 QRESEARCH 使用英国国家处方集（BNF）编码，但团队已建立了 ATC 和 BNF 代码的对应关系，因此查询时可使用 ATC 分类。

2.3 医学术语统一系统：UMLS

UMLS 是一个整合了超过 150 种生物医学术语的系统，eu - ADR 项目使用的四种术语均包含在内。其主要组件 Metathesaurus 是一个中央词汇和数据库，包含约 150 万个概念和超过 375 万种层次关系。一个 UMLS 概念由唯一标识符（CUI）标识，可用不同语言的同义词（术语）表达。例如，UMLS 概念 Haematemesis（CUI: C0018926）在不同术语中有不同编码，在 ICD9 - CM 中为“578.0”，在 ICD10 中为“K92.0”等。

以下是 UMLS 中概念层次关系的示例，以“Kidney Failure, Acute”及其子概念“Kidney Tubular Necrosis, Acute”为例：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(Kidney Failure, Acute - C0022660):::process --> B(Kidney Tubular Necrosis, Acute - C0022672):::process
    A -->|ICD10| C(N17 - Acute renal failure):::process
    A -->|ICD9 - CM| D(584 - Acute renal failure<br>584.9 - Acute renal failure, unspecified):::process
    A -->|ICPC| E(U99005 - Failure - renal - - acute):::process
    A -->|RCD| F(K04.. - Acute renal failure<br>K04z. - Acute renal failure, NOS):::process
    B -->|ICD10| G(N17.0 - Acute renal failure with tubular necrosis):::process
    B -->|ICD9 - CM| H(584.5 - Lower nephron nephrosis):::process
    B -->|RCD| I(K040. - ATN - Acute tubular necrosis):::process

2.4 概念投影方法

创建事件列表 ：创建了包含 23 个主要与药物不良反应相关事件的列表，其中 5 个事件（皮肤水疱性皮疹、过敏性休克、急性心肌梗死、横纹肌溶解和急性肾衰竭）被优先研究。为测试和改进方法，还研究了“上消化道出血（UGIB）”这一医学定义复杂、在数据库中搜索困难的事件。
创建通用语义基础 ：由于 4 种不同术语的存在，无法进行统一查询。因此，我们为 8 个数据库创建了一个通用的语义基础，其元素是 UMLS 概念（将不同术语中具有相同医学含义的术语组合在一起），而非术语本身。对于每个事件，需考虑其在不同来源的表达，并由专家验证定义，找出定义中不同术语所隐含的所有 UMLS 概念。
概念投影过程 ：成立了一个由医学信息专家、药理学和药物警戒专家以及数据库管理员组成的工作组，确定了 6 个不同阶段来完成概念投影任务：
1. 制定定义感兴趣事件的表格，基于事件的临床和生物学诊断标准构建。
2. 通过搜索 UMLS 概念，从表格中创建概念在术语中的首次投影。
3. 向 eu - ADR 项目的所有合作伙伴展示 UMLS 概念（以及相关术语中的代码）以供审查。
4. 工作组内部就不同术语中概念的对应关系进行意见协调。
5. 创建概念在术语中的第二次投影版本，提交给所有合作伙伴进行验证。
6. 将概念在术语中的最终投影版本分发给所有数据库管理员。

3. 结果

3.1 专家制定事件定义表格

为提高信息搜索的敏感性，对于 UGIB 事件，我们采用了“宽泛”的定义。该定义基于临床参考手册制定，并经胃肠病学专家验证，最初包含纳入标准和排除标准。但在数据库管理员提出意见后，简化了定义表格结构，删除了排除标准，最终定义仅基于纳入标准，包括上消化道出血、食管出血、胃肠道出血、消化性溃疡出血、呕血/吐血和黑便。

3.2 首次概念投影

对于事件定义中包含标准对应的每个文字表达，我们使用知识源服务器（UMLSKS）和本地 UMLS 安装（2008AA 版本）进行自动搜索，以识别 UMLS 概念和相关术语中的代码。当自动搜索无法识别某个术语时，进行手动搜索并补充相关术语。这一术语列表使不同数据库管理员能够执行语法不同但含义相同的查询，根据首次查询（针对 UGIB）的观察结果，优化概念列表并在不同数据库中重复查询。

以下是 UGIB 事件的 UMLS 概念识别过程：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(事件定义表格):::process --> B(Upper GIH - UGIB):::process
    A --> C(Hematemesis / blood vomiting):::process
    A --> D(Oesophageal H - Esophageal B):::process
    A --> E(Melaena):::process
    A --> F(GIH):::process
    B -->|UMLS 概念| G(Upper GIH):::process
    C -->|UMLS 概念| H(Hematemesis):::process
    D -->|UMLS 概念| I(Esophageal B):::process
    E -->|UMLS 概念| J(Melaena):::process
    F -->|UMLS 概念| K(GIH):::process

3.3 审查与改进过程

项目设置的互联网论坛（仅限项目成员访问）是讨论上一阶段提出概念相关性的有用工具。每个事件在论坛上都有独立的板块，便于展示所有讨论，增强了成员间的互动。在不到 6 周的时间里，论坛上发布了超过 300 条消息。例如，提出并讨论了一些新的 UMLS 概念，如急性胃溃疡伴出血、急性十二指肠溃疡伴出血等。工作组根据论坛讨论结果审查这些潜在概念的相关性，并通过电话会议和全体会议进行协调。对于 UGIB 事件，所有建议的新概念都被保留。

综上所述，通过本研究提出的方法，我们为在不同数据库中提取与药物不良反应和相关药物有关的信息提供了有效的解决方案，克服了数据库异质性带来的查询难题，提高了药物不良反应检测的效率和准确性。未来可以进一步优化方法，扩大应用范围，为药物安全监测提供更有力的支持。

基于语义方法在多数据库中统一识别药物不良反应及药物（续）

4. 方法优势与意义

本研究提出的基于语义方法在多数据库中统一识别药物不良反应及药物的方案具有显著的优势和重要意义。
- 解决数据库异质性问题 ：项目涉及的 8 个数据库来自不同国家，在结构和语义上存在异质性，无法进行统一查询。通过构建基于 UMLS 概念的通用语义基础，为数据库管理员提供了构建查询的通用基础，使得不同数据库之间能够实现语义互操作性，有效解决了异质性带来的查询难题。
- 提高药物不良反应检测效率和准确性 ：采用“宽泛”的事件定义和多阶段的概念投影方法，能够更全面地涵盖与药物不良反应相关的信息。同时，通过互联网论坛进行讨论和审查，不断优化概念列表，提高了信息提取的敏感性和准确性，有助于早期检测药物不良反应。
- 促进数据共享与再利用 ：医疗信息的编码和语义互操作性使得不同信息系统之间能够实现数据的共享和再利用。本研究的方法为医疗数据在不同数据库之间的流通和整合提供了可行的途径，有助于推动医疗领域的数据驱动研究和决策。

5. 实际应用案例分析

为了更直观地展示本方法的实际应用效果，我们以 UGIB 事件为例进行详细分析。
- 数据查询与分析 ：数据库管理员根据 UGIB 事件的最终概念投影版本，在各自的数据库中执行查询。不同数据库虽然使用的术语和数据结构不同，但通过统一的 UMLS 概念，能够实现语义一致的查询。例如，在查询过程中，不同数据库可能使用不同的编码来表示“呕血”这一概念，但通过 UMLS 概念的映射，都能准确地检索到相关信息。
- 结果整合与分析 ：将不同数据库的查询结果进行整合，能够获得更全面的 UGIB 事件信息。通过对这些信息的分析，可以发现不同地区、不同人群中 UGIB 事件的发生规律和相关因素。例如，分析结果可能显示某些药物在特定年龄段或特定疾病患者中更容易引发 UGIB 事件，为药物安全监测和临床决策提供重要依据。

以下是 UGIB 事件在不同数据库中的查询结果整合示例表格：
|数据库名称|查询到的 UGIB 事件数量|相关药物信息|患者特征信息|
| ---- | ---- | ---- | ---- |
|Pedianet - Italia (ITA)|[X1]| [药物列表 1] | [患者特征 1] |
|Health Search (ITA)|[X2]| [药物列表 2] | [患者特征 2] |
|LombardyRegional DB (ITA)|[X3]| [药物列表 3] | [患者特征 3] |
|Tuscany Regional - ARS (ITA)|[X4]| [药物列表 4] | [患者特征 4] |
|IPCI - Netherlands (NL)|[X5]| [药物列表 5] | [患者特征 5] |
|PHARMO(NL)|[X6]| [药物列表 6] | [患者特征 6] |
|QRESEARCHUnited Kingdom(UK)|[X7]| [药物列表 7] | [患者特征 7] |
|Aarhus UniversityHospitalDB (DK)|[X8]| [药物列表 8] | [患者特征 8] |

6. 未来发展方向

尽管本研究取得了一定的成果，但仍有一些方面值得进一步探索和改进。
- 拓展术语覆盖范围 ：目前 UMLS 虽然整合了超过 150 种生物医学术语，但随着医学的不断发展，新的术语和概念不断涌现。未来可以进一步拓展 UMLS 的术语覆盖范围，纳入更多的专业术语和新兴概念，以提高语义互操作性的准确性和全面性。
- 优化概念投影方法 ：概念投影过程中，虽然通过多阶段的审查和协调确保了概念的准确性，但仍存在一定的主观性和不确定性。可以引入机器学习和自然语言处理技术，对概念投影过程进行优化，提高投影的自动化程度和准确性。
- 加强国际合作与数据共享 ：药物不良反应监测是一个全球性的问题，需要各国之间加强合作和数据共享。未来可以建立更广泛的国际合作机制，促进不同国家和地区的医疗数据库之间的互联互通，共同提高药物安全监测水平。

7. 总结

本研究提出的基于语义方法在多数据库中统一识别药物不良反应及药物的方案，通过构建基于 UMLS 概念的通用语义基础，有效解决了数据库异质性带来的查询难题，提高了药物不良反应检测的效率和准确性。通过实际应用案例分析，展示了该方法在实际医疗数据查询和分析中的有效性。未来，我们可以进一步拓展术语覆盖范围、优化概念投影方法和加强国际合作与数据共享，为药物安全监测和医疗决策提供更有力的支持。

整个研究过程可以用以下 mermaid 流程图进行总结：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(项目背景与目标):::process --> B(材料与方法):::process
    B --> B1(数据库情况):::process
    B --> B2(项目中使用的术语):::process
    B --> B3(医学术语统一系统：UMLS):::process
    B --> B4(概念投影方法):::process
    B4 --> B41(创建事件列表):::process
    B4 --> B42(创建通用语义基础):::process
    B4 --> B43(概念投影过程):::process
    B --> C(结果):::process
    C --> C1(专家制定事件定义表格):::process
    C --> C2(首次概念投影):::process
    C --> C3(审查与改进过程):::process
    C --> D(方法优势与意义):::process
    D --> E(实际应用案例分析):::process
    E --> F(未来发展方向):::process
    F --> G(总结):::process

通过以上的研究和实践，我们相信基于语义方法的多数据库统一识别方案将在医疗领域发挥越来越重要的作用，为保障公众的用药安全和促进医疗事业的发展做出贡献。

标签