1. 项目概述与核心挑战
金属有机框架(MOFs)是一类由金属节点和有机连接体构成的多孔晶体材料,因其高度可调的孔道结构和表面化学性质,在气体吸附、分离、催化和传感等领域展现出巨大应用潜力。MOFs的许多关键性能并非源于其完美的晶体结构,而是源于结构中精心设计的“缺陷”——例如缺失的连接体、金属原子替换或更大的节点空位。这些空间无序性能够精确调控材料的化学功能,但同时也带来了巨大的模拟挑战:要理解缺陷如何影响材料性质,我们需要在介观尺度(成千上万个原子)上对含有缺陷的体系进行高精度计算,这远远超出了传统量子力学方法(如密度泛函理论,DFT)的计算能力上限。
机器学习势函数(MLPs)的出现为这一困境带来了曙光。MLPs通过神经网络学习从量子力学计算数据中得到的原子间相互作用,能够以接近DFT的精度、但仅需其百万分之一甚至更低的计算成本,来预测体系的能量和原子受力。这使其成为模拟大体系的有力工具。然而,MLP的开发存在一个根本性矛盾:模型的准确性和可迁移性极度依赖于其训练数据是否“全面”地覆盖了目标体系中所有可能出现的“化学环境”。对于一个含有复杂缺陷的大尺度MOF体系,要直接通过DFT计算生成覆盖所有可能原子构型的训练数据,其计算量是天文数字,完全不现实。这就是传统MLP方法在模拟无序材料时面临的“数据生成瓶颈”。
针对这一核心挑战,我们团队发展并验证了一套名为“团簇学习”的创新方法论。其核心思想非常直观:既然大块材料中的原子相互作用本质上是局域的(由“电子近视”原理保证),那么一个原子所“感受”到的化学环境,理论上可以由一个包含该原子及其有限近邻原子的分子片段(即“团簇”)来精确复现。因此,我们无需对整个包含数万原子的超胞进行昂贵的DFT计算,而只需智能地识别出那些模型尚未掌握的、关键的局部化学环境,将它们从大体系中“切割”出来,作为独立的团簇进行DFT计算,并以此扩充训练数据集。这种方法将数据生成的计算成本与目标体系的大小解耦,使得为介观尺度无序体系开发高精度MLP成为可能。
2. 团簇学习方法论详解
2.1 核心理念:化学环境与力匹配
要理解团簇学习,首先要定义什么是“化学环境”。我们将原子i的化学环境 ε_i 定义为一个以该原子为中心、有限半径的球体内的所有信息,包括周围原子的种类、位置以及任何外场。这个环境完全决定了该原子所受的净力。根据“电子近视”原理,原子间的电子相互作用随距离衰减,因此这个环境是局域的,其空间范围是有限的。
基于此,我们提出了“环境匹配”条件:如果从一个庞大周期体系中切割出的一个团簇,能够使其核心区域内的每个原子所处的化学环境(包括DFT水平和MLP表征下的环境)与它们在大块材料中时完全一致,那么用这个团簇的DFT数据来训练MLP,就能让MLP学会大块材料中相应的原子相互作用。
如何验证一个切割出的团簇是否满足“环境匹配”呢?我们依赖“力匹配”这一黄金标准。具体操作如下:
- 获取参考力 :对于一个包含目标缺陷的大块周期结构,我们计算其中每个原子在DFT水平下的受力
(F_i)bulk。这一步可能因为体系太大而无法直接进行,但我们可以通过后续的“团簇外推法”来估算。 - 设计并测试团簇 :围绕我们关心的核心区域(如一个缺陷位点),设计不同大小的候选团簇。对每个候选团簇进行DFT计算,得到核心原子在团簇中的受力
(F_i)cluster。 - 匹配与选择 :比较
(F_i)bulk和(F_i)cluster。如果两者在误差允许范围内一致,就证明该团簇成功复现了大块材料中的局部环境。我们选择那个既能保证力匹配、又尺寸最小的团簇作为最优设计。
注意 :在实际操作中,对于超大的体系,我们无法直接计算
(F_i)bulk。此时,我们可以采用“外推”策略:设计一系列由小到大的团簇,观察核心原子受力随团簇尺寸增大的收敛情况。当受力不再随团簇尺寸显著变化时,就认为该团簇已经足够大,能够代表大块环境。
2.2 技术实现:主动学习工作流
团簇学习不是一个一次性操作,而是嵌入在一个自动化的“主动学习”循环中。这个工作流的目的是用最少的DFT计算成本,迭代地构建出最能代表目标体系化学空间的训练数据集。整个流程如图2.A所示,包含以下几个核心步骤:

9万+

被折叠的 条评论
为什么被折叠?



