33、基于语义方法在多数据库中统一识别药物不良反应及药物

基于语义方法在多数据库中统一识别药物不良反应及药物

1. 项目背景与目标

在临床医疗过程中,收集的医疗信息具有广泛的用途,如医疗经济分析、流行病学研究以及警报生成等。这些信息常以自由文本形式呈现,并使用特定的医学术语进行编码。编码虽耗时,但能明确信息含义,便于自动化处理和实现信息系统间的语义互操作性。

以法国药物不良反应申报为例,目前申报过程依赖临床医生自愿,仅能收集到约 4%的不良反应,效果不佳。而通过搜索医疗数据库来提高不良反应收集率是一种可行的解决方案。在此背景下,欧盟 eu - ADR 项目应运而生,其目标是设计、开发和验证一个计算机系统,利用电子健康记录和生物医学数据库的数据,早期检测 23 种药物不良反应。然而,项目涉及的 8 个来自不同国家的数据库存在结构和语义上的异质性,无法进行统一查询。本研究旨在为数据库管理员提供构建查询的通用基础。

2. 材料与方法
2.1 数据库情况

eu - ADR 项目使用的 8 个数据库包含了超过 3000 万欧洲公民的医疗记录。这些数据库在多个层面存在差异,具体情况如下表所示:
|数据库|事件术语|药物术语|是否自由文本|数据类型|患者类型|
| ---- | ---- | ---- | ---- | ---- | ---- |
|Pedianet - Italia (ITA)|ICD9 - CM|ATC|是|DPI|E|
|Health Search (ITA)|ICD9 - CM|ATC|是|DPI|A/E|
|LombardyRegional DB (ITA)|ICD9 - CM|ATC|否|RSS,D|A/E|
|Tuscany Regional - ARS (ITA)|ICD9 - CM|ATC|否|RSS,D,L,M|A/E|
|IPCI - Netherlands (NL)|ICPC|ATC|是|EHR|A/E|
|PHARMO(NL)|ICD9 - CM|ATC|否|RSS,P,L,M|A/E|
|QRESEARCHUnited Kingdom(UK)|RCD|BNF/ATC|否|DPI|A/E|
|Aarhus UniversityHospitalDB (DK)|ICD10|ATC|否|RSS,D,L,M|A/E|

注:DPI 为电子患者档案,RSS 为标准出院总结,D 为配药,L 为实验室,M 为死亡率,P 为处方;E 为儿童,A 为成人。

2.2 项目中使用的术语
  • 事件术语 :在 eu - ADR 项目中,使用了四种术语来编码事件。
    • ICD9 - CM :最初的 ICD9 不太适合编码,后经美国医学统计中心完善为 ICD9 - CM,包含 19 章和超过 21000 个分层概念。
    • ICD10 :是国际疾病分类的最新修订版,有 21 章,包含超过 12000 个分层概念,与 ICD9 - CM 的编码不同。
    • ICPC :由世界家庭医生组织于 1987 年发布,用于对全科医学和初级卫生保健领域的患者数据和临床活动进行分类,包含约 7400 个概念,具有双轴结构。
    • RCD :是全科医学数据分类的标准,包含超过 82000 个概念,不仅描述疾病,还包括临床历史、症状等多方面信息,仅在英国使用。
  • 药物术语 :7 个数据库使用解剖学治疗学化学分类(ATC)对药物进行编码,这是国际药物编码标准。最后一个数据库 QRESEARCH 使用英国国家处方集(BNF)编码,但团队已建立了 ATC 和 BNF 代码的对应关系,因此查询时可使用 ATC 分类。
2.3 医学术语统一系统:UMLS

UMLS 是一个整合了超过 150 种生物医学术语的系统,eu - ADR 项目使用的四种术语均包含在内。其主要组件 Metathesaurus 是一个中央词汇和数据库,包含约 150 万个概念和超过 375 万种层次关系。一个 UMLS 概念由唯一标识符(CUI)标识,可用不同语言的同义词(术语)表达。例如,UMLS 概念 Haematemesis(CUI: C0018926)在不同术语中有不同编码,在 ICD9 - CM 中为“578.0”,在 ICD10 中为“K92.0”等。

以下是 UMLS 中概念层次关系的示例,以“Kidney Failure, Acute”及其子概念“Kidney Tubular Necrosis, Acute”为例:

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(Kidney Failure, Acute - C0022660):::process --> B(Kidney Tubular Necrosis, Acute - C0022672):::process
    A -->|ICD10| C(N17 - Acute renal failure):::process
    A -->|ICD9 - CM| D(584 - Acute renal failure<br>584.9 - Acute renal failure, unspecified):::process
    A -->|ICPC| E(U99005 - Failure - renal - - acute):::process
    A -->|RCD| F(K04.. - Acute renal failure<br>K04z. - Acute renal failure, NOS):::process
    B -->|ICD10| G(N17.0 - Acute renal failure with tubular necrosis):::process
    B -->|ICD9 - CM| H(584.5 - Lower nephron nephrosis):::process
    B -->|RCD| I(K040. - ATN - Acute tubular necrosis):::process
2.4 概念投影方法
  • 创建事件列表 :创建了包含 23 个主要与药物不良反应相关事件的列表,其中 5 个事件(皮肤水疱性皮疹、过敏性休克、急性心肌梗死、横纹肌溶解和急性肾衰竭)被优先研究。为测试和改进方法,还研究了“上消化道出血(UGIB)”这一医学定义复杂、在数据库中搜索困难的事件。
  • 创建通用语义基础 :由于 4 种不同术语的存在,无法进行统一查询。因此,我们为 8 个数据库创建了一个通用的语义基础,其元素是 UMLS 概念(将不同术语中具有相同医学含义的术语组合在一起),而非术语本身。对于每个事件,需考虑其在不同来源的表达,并由专家验证定义,找出定义中不同术语所隐含的所有 UMLS 概念。
  • 概念投影过程 :成立了一个由医学信息专家、药理学和药物警戒专家以及数据库管理员组成的工作组,确定了 6 个不同阶段来完成概念投影任务:
    1. 制定定义感兴趣事件的表格,基于事件的临床和生物学诊断标准构建。
    2. 通过搜索 UMLS 概念,从表格中创建概念在术语中的首次投影。
    3. 向 eu - ADR 项目的所有合作伙伴展示 UMLS 概念(以及相关术语中的代码)以供审查。
    4. 工作组内部就不同术语中概念的对应关系进行意见协调。
    5. 创建概念在术语中的第二次投影版本,提交给所有合作伙伴进行验证。
    6. 将概念在术语中的最终投影版本分发给所有数据库管理员。
3. 结果
3.1 专家制定事件定义表格

为提高信息搜索的敏感性,对于 UGIB 事件,我们采用了“宽泛”的定义。该定义基于临床参考手册制定,并经胃肠病学专家验证,最初包含纳入标准和排除标准。但在数据库管理员提出意见后,简化了定义表格结构,删除了排除标准,最终定义仅基于纳入标准,包括上消化道出血、食管出血、胃肠道出血、消化性溃疡出血、呕血/吐血和黑便。

3.2 首次概念投影

对于事件定义中包含标准对应的每个文字表达,我们使用知识源服务器(UMLSKS)和本地 UMLS 安装(2008AA 版本)进行自动搜索,以识别 UMLS 概念和相关术语中的代码。当自动搜索无法识别某个术语时,进行手动搜索并补充相关术语。这一术语列表使不同数据库管理员能够执行语法不同但含义相同的查询,根据首次查询(针对 UGIB)的观察结果,优化概念列表并在不同数据库中重复查询。

以下是 UGIB 事件的 UMLS 概念识别过程:

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(事件定义表格):::process --> B(Upper GIH - UGIB):::process
    A --> C(Hematemesis / blood vomiting):::process
    A --> D(Oesophageal H - Esophageal B):::process
    A --> E(Melaena):::process
    A --> F(GIH):::process
    B -->|UMLS 概念| G(Upper GIH):::process
    C -->|UMLS 概念| H(Hematemesis):::process
    D -->|UMLS 概念| I(Esophageal B):::process
    E -->|UMLS 概念| J(Melaena):::process
    F -->|UMLS 概念| K(GIH):::process
3.3 审查与改进过程

项目设置的互联网论坛(仅限项目成员访问)是讨论上一阶段提出概念相关性的有用工具。每个事件在论坛上都有独立的板块,便于展示所有讨论,增强了成员间的互动。在不到 6 周的时间里,论坛上发布了超过 300 条消息。例如,提出并讨论了一些新的 UMLS 概念,如急性胃溃疡伴出血、急性十二指肠溃疡伴出血等。工作组根据论坛讨论结果审查这些潜在概念的相关性,并通过电话会议和全体会议进行协调。对于 UGIB 事件,所有建议的新概念都被保留。

综上所述,通过本研究提出的方法,我们为在不同数据库中提取与药物不良反应和相关药物有关的信息提供了有效的解决方案,克服了数据库异质性带来的查询难题,提高了药物不良反应检测的效率和准确性。未来可以进一步优化方法,扩大应用范围,为药物安全监测提供更有力的支持。

基于语义方法在多数据库中统一识别药物不良反应及药物(续)

4. 方法优势与意义

本研究提出的基于语义方法在多数据库中统一识别药物不良反应及药物的方案具有显著的优势和重要意义。
- 解决数据库异质性问题 :项目涉及的 8 个数据库来自不同国家,在结构和语义上存在异质性,无法进行统一查询。通过构建基于 UMLS 概念的通用语义基础,为数据库管理员提供了构建查询的通用基础,使得不同数据库之间能够实现语义互操作性,有效解决了异质性带来的查询难题。
- 提高药物不良反应检测效率和准确性 :采用“宽泛”的事件定义和多阶段的概念投影方法,能够更全面地涵盖与药物不良反应相关的信息。同时,通过互联网论坛进行讨论和审查,不断优化概念列表,提高了信息提取的敏感性和准确性,有助于早期检测药物不良反应。
- 促进数据共享与再利用 :医疗信息的编码和语义互操作性使得不同信息系统之间能够实现数据的共享和再利用。本研究的方法为医疗数据在不同数据库之间的流通和整合提供了可行的途径,有助于推动医疗领域的数据驱动研究和决策。

5. 实际应用案例分析

为了更直观地展示本方法的实际应用效果,我们以 UGIB 事件为例进行详细分析。
- 数据查询与分析 :数据库管理员根据 UGIB 事件的最终概念投影版本,在各自的数据库中执行查询。不同数据库虽然使用的术语和数据结构不同,但通过统一的 UMLS 概念,能够实现语义一致的查询。例如,在查询过程中,不同数据库可能使用不同的编码来表示“呕血”这一概念,但通过 UMLS 概念的映射,都能准确地检索到相关信息。
- 结果整合与分析 :将不同数据库的查询结果进行整合,能够获得更全面的 UGIB 事件信息。通过对这些信息的分析,可以发现不同地区、不同人群中 UGIB 事件的发生规律和相关因素。例如,分析结果可能显示某些药物在特定年龄段或特定疾病患者中更容易引发 UGIB 事件,为药物安全监测和临床决策提供重要依据。

以下是 UGIB 事件在不同数据库中的查询结果整合示例表格:
|数据库名称|查询到的 UGIB 事件数量|相关药物信息|患者特征信息|
| ---- | ---- | ---- | ---- |
|Pedianet - Italia (ITA)|[X1]| [药物列表 1] | [患者特征 1] |
|Health Search (ITA)|[X2]| [药物列表 2] | [患者特征 2] |
|LombardyRegional DB (ITA)|[X3]| [药物列表 3] | [患者特征 3] |
|Tuscany Regional - ARS (ITA)|[X4]| [药物列表 4] | [患者特征 4] |
|IPCI - Netherlands (NL)|[X5]| [药物列表 5] | [患者特征 5] |
|PHARMO(NL)|[X6]| [药物列表 6] | [患者特征 6] |
|QRESEARCHUnited Kingdom(UK)|[X7]| [药物列表 7] | [患者特征 7] |
|Aarhus UniversityHospitalDB (DK)|[X8]| [药物列表 8] | [患者特征 8] |

6. 未来发展方向

尽管本研究取得了一定的成果,但仍有一些方面值得进一步探索和改进。
- 拓展术语覆盖范围 :目前 UMLS 虽然整合了超过 150 种生物医学术语,但随着医学的不断发展,新的术语和概念不断涌现。未来可以进一步拓展 UMLS 的术语覆盖范围,纳入更多的专业术语和新兴概念,以提高语义互操作性的准确性和全面性。
- 优化概念投影方法 :概念投影过程中,虽然通过多阶段的审查和协调确保了概念的准确性,但仍存在一定的主观性和不确定性。可以引入机器学习和自然语言处理技术,对概念投影过程进行优化,提高投影的自动化程度和准确性。
- 加强国际合作与数据共享 :药物不良反应监测是一个全球性的问题,需要各国之间加强合作和数据共享。未来可以建立更广泛的国际合作机制,促进不同国家和地区的医疗数据库之间的互联互通,共同提高药物安全监测水平。

7. 总结

本研究提出的基于语义方法在多数据库中统一识别药物不良反应及药物的方案,通过构建基于 UMLS 概念的通用语义基础,有效解决了数据库异质性带来的查询难题,提高了药物不良反应检测的效率和准确性。通过实际应用案例分析,展示了该方法在实际医疗数据查询和分析中的有效性。未来,我们可以进一步拓展术语覆盖范围、优化概念投影方法和加强国际合作与数据共享,为药物安全监测和医疗决策提供更有力的支持。

整个研究过程可以用以下 mermaid 流程图进行总结:

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(项目背景与目标):::process --> B(材料与方法):::process
    B --> B1(数据库情况):::process
    B --> B2(项目中使用的术语):::process
    B --> B3(医学术语统一系统:UMLS):::process
    B --> B4(概念投影方法):::process
    B4 --> B41(创建事件列表):::process
    B4 --> B42(创建通用语义基础):::process
    B4 --> B43(概念投影过程):::process
    B --> C(结果):::process
    C --> C1(专家制定事件定义表格):::process
    C --> C2(首次概念投影):::process
    C --> C3(审查与改进过程):::process
    C --> D(方法优势与意义):::process
    D --> E(实际应用案例分析):::process
    E --> F(未来发展方向):::process
    F --> G(总结):::process

通过以上的研究和实践,我们相信基于语义方法的多数据库统一识别方案将在医疗领域发挥越来越重要的作用,为保障公众的用药安全和促进医疗事业的发展做出贡献。

内容概要:本文围绕列车-轨道-桥梁交互仿真研究,基于Matlab平台构建数值模型,系统分析列车运行过程中轨道与桥梁结构间的动态相互作用机制。研究涵盖多体动力学建模、耦合系统运动方程求解、边界条件设定及仿真结果可视化等关键环节,重点揭示高速行车条件下基础设施的振动传递规律与力学响应特征。该仿真方法可有效评估结构安全性、舒适性指标及疲劳寿命,为轨道交通工程的设计优化与运维管理提供理论支撑和技术路径。文中配套提供了完整的Matlab代码实现方案及操作说明,便于用户复现、验证和拓展相关研究。; 适合人群:具备Matlab编程基础和结构动力学、车辆动力学等相关专业知识的研究生、科研人员及从事铁路工程、桥梁工程与交通系统安全评估的工程技术人才,尤其适合开展轨道交通耦合振动课题的研究者。; 使用场景及目标:①用于高校与科研机构进行列车-轨道-桥梁耦合系统动力学特性的教学演示与科学研究;②支撑高速铁路桥梁的设计优化、运营安全性评估与减振降噪方案验证;③为复杂交通基础设施的多物理场耦合仿真提供建模思路与代码参考。; 阅读建议:建议读者结合所提供的Matlab代码逐模块深入研读,重点关注系统建模假设、质量-刚度-阻尼矩阵构建方法及数值积分算法的实现细节,同时可通过调整参数进行敏感性分析,进步掌握仿真模型的适用范围与优化方向。
内容概要:本文系统研究了非线性薛定谔方程的物理信息神经网络(PINN)求解方法,提出种将物理规律嵌入深度学习模型的科学计算新范式。通过构建全连接神经网络架构,将非线性薛定谔方程及其初始/边界条件作为损失函数的核心组成部分,实现了在无须大量标注数据的前提下对复值偏微分方程的高精度数值求解。该方法充分利用自动微分技术精确计算方程残差,有效融合了数据驱动与模型驱动的优势,在光学孤子传播、量子系统演化等典型场景中展现出优异的逼近能力与泛化性能。文中配套提供了完整的Python实现代码,涵盖网络搭建、损失定义、训练优化与结果可视化全流程。; 适合人群:具备Python编程能力与深度学习基础知识,熟悉偏微分方程理论及科学计算的理工科研究生、科研人员,以及从事光学、量子物理、流体力学等领域建模与仿真的工程技术人员。; 使用场景及目标:① 掌握PINN方法的基本原理与实现技巧;② 学习如何将复杂物理方程转化为可训练的神经网络损失项;③ 应用于非线性光学、玻色-爱因斯坦凝聚、水波动力学等问题的仿真与预测;④ 为相关科研课题提供可复现的算法原型与代码参考。; 阅读建议:建议读者结合所提供的Python代码进行动手实践,重点理解神经网络对微分算子的近似机制、损失函数的多任务加权策略以及训练过程中的超参数调优方法,进而可迁移至其他非线性偏微分方程的求解任务,拓展其在交叉学科中的应用边界。
源码下载地址: https://pan.quark.cn/s/a4b39357ea24 微软推出的【AZ-900微软认证】是项针对初学者的基础级云服务资格认证,其目的在于帮助学习者掌握云概念、微软Azure服务的运作机制以及云解决方案的核心知识。获得这认证后,考生将能够清晰地理解云计算领域的基础术语、服务模式(包括IaaS、PaaS、SaaS等)以及这些服务在Azure平台上的实际应用方式。 在【必过考题】部分,我们可以观察到两个重点议题,它们分别聚焦于PaaS(平台即服务)的概念阐释和云成本的计算方式。 在第个议题中,考生被要求辨别关于PaaS的正确性描述。PaaS平台提供了个开发环境,但并不允许用户直接访问操作系统(Box 1: No)。比如,Azure Web Apps服务可以用来部署web应用,但用户无法直接管理虚拟机或IIS系统。另方面,PaaS确实具备自动扩展的功能(Box 2: Yes),这表示可以根据实际需求自动增加负载均衡的虚拟机以支持web应用的运行。PaaS框架还为开发人员提供了构建和调整云端应用的工具,预置的应用组件能够有效缩短新应用的编程周期(Box 3: Yes)。 第二个议题同样关注云计算理念的理解,尤其强调IT支出从资本性支出(CapEx)向运营性支出(OpEx)的转型思想。传统的IT投资通常被视为CapEx,而云计算的按需付费机制使企业能够将这部分开支转化为OpEx,从而在财务规划上获得更大的自由度。 在为AZ-900考试做准备时,考生需要特别关注以下几个核心知识点: 1. **云服务模式**:深入理解IaaS(基础设施即服务)、PaaS和SaaS(软件即服务)之间的差异及其各自的应用情境。 2. **Azure服务*...
源码下载地址: https://pan.quark.cn/s/239a0d536a1e 依据所提供的文件资料,可以归纳出以下核心内容:由清华大学计算机系邓俊辉教授精心编纂的算法训练营题目合集,对于CSP(中国软件专业人才设计与创业大赛)及PAT(程序设计能力测试)这类编程竞赛具有极高的参考价值,堪称份极具价值的参考资料。此类竞赛普遍对参赛者的算法功底和编程技巧提出严苛要求。该合集中的题目与算法领域紧密相连,其中包含了“最大红矩形”这典型题目。所谓最大红矩形题目,其核心任务是针对个由红色与绿色方格构成的棋盘,寻觅出最大的纯红矩形区域。要攻克这问题,必须运用数据结构与算法的相关知识,特别是栈这数据结构的应用。 “最大红矩形”问题能够被抽象转化为“直方图最大面积”问题。具体转化方法是将棋盘的每列视为个独立的直方图单元,其中红色方格的贡献体现为当前位置与前个绿色方格所在行数的差值,从而保证每个直方图的基宽恒定为1。随后,借助扫描直方图的技术手段来探寻最大矩形面积。这过程需要对每个直方图进行系统性遍历,并利用栈来记录各直方图的下标信息。旦检测到当前直方图的高度小于栈顶元素所记录的高度,则意味着遭遇了个“高点”,此时需计算以该“高点”为右边界条件的最大矩形面积。 在编程实践环节,必须高度关注栈的操作细节,以及如何精确地初始化和操纵栈来应对直方图问题。代码实现中,通常配置两个栈,个用于储存直方图的高度值,另个用于标记直方图的下标位置。当面对新高度时,需审慎判断当前高度与栈顶高度的相对关系,并据此抉择是执行入栈操作还是计算面积。针对“低点”(即当前高度小于栈顶),应直接将当前高度纳入栈中;而对于“高点”,则需执行弹出栈顶元素的操作,并基于该栈顶元素的高...
源码链接: https://pan.quark.cn/s/3af847fbbec7 在计算机科学与编程领域中,十六进制(Hexadecimal)以及二进制(Binary)是两种关键性的数值表示方法。十六进制属于种基于16的计数系统,它运用0至9的数字以及字母A至F(分别象征10至15的数值)来呈现数值,与此同时,二进制则是种基于2的计数系统,仅采用0和1两个符号。掌握这两种进制之间的相互转换对于深入理解计算机内部运作机制具有决定性意义,因为计算机在底层数据的存储与处理环节通常都是以二进制的形式来进行的。将十六进制转换成二进制的过程可以通过以下几个环节得以完成: 1. **单个十六进制符号的转换**:每个十六进制符号对应着4位二进制序列。具体而言: - 十六进制中的`0`在二进制表达为`0000` - 十六进制中的`1`在二进制表达为`0001` - 十六进制中的`2`在二进制表达为`0010` - 依此类推 - 十六进制中的`9`在二进制表达为`1001` - 十六进制中的`A`或`a`在二进制表达为`1010` - 十六进制中的`B`或`b`在二进制表达为`1011` - 十六进制中的`C`或`c`在二进制表达为`1100` - 十六进制中的`D`或`d`在二进制表达为`1101` - 十六进制中的`E`或`e`在二进制表达为`1110` - 十六进制中的`F`或`f`在二进制表达为`1111` 2. **多位十六进制符号的转换**:针对个由多个十六进制符号组成的数值,我们可以逐个符号进行转换,并将得到的二进制序列依次拼接。例如,十六进制数`3F`转换成二进制形式为`00111111`。 3. **编程实现方法**:在编程实践过程中,众多编程语言提...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值