团簇学习：破解MOF缺陷模拟数据瓶颈的机器学习势函数新方法

最新推荐文章于 2026-06-25 15:27:50 发布

原创

最新推荐文章于 2026-06-25 15:27:50 发布 · 1.6k 阅读

标签

#机器学习势函数 #团簇学习 #金属有机框架

1. 项目概述与核心挑战

金属有机框架（MOFs）是一类由金属节点和有机连接体构成的多孔晶体材料，因其高度可调的孔道结构和表面化学性质，在气体吸附、分离、催化和传感等领域展现出巨大应用潜力。MOFs的许多关键性能并非源于其完美的晶体结构，而是源于结构中精心设计的“缺陷”——例如缺失的连接体、金属原子替换或更大的节点空位。这些空间无序性能够精确调控材料的化学功能，但同时也带来了巨大的模拟挑战：要理解缺陷如何影响材料性质，我们需要在介观尺度（成千上万个原子）上对含有缺陷的体系进行高精度计算，这远远超出了传统量子力学方法（如密度泛函理论，DFT）的计算能力上限。

机器学习势函数（MLPs）的出现为这一困境带来了曙光。MLPs通过神经网络学习从量子力学计算数据中得到的原子间相互作用，能够以接近DFT的精度、但仅需其百万分之一甚至更低的计算成本，来预测体系的能量和原子受力。这使其成为模拟大体系的有力工具。然而，MLP的开发存在一个根本性矛盾：模型的准确性和可迁移性极度依赖于其训练数据是否“全面”地覆盖了目标体系中所有可能出现的“化学环境”。对于一个含有复杂缺陷的大尺度MOF体系，要直接通过DFT计算生成覆盖所有可能原子构型的训练数据，其计算量是天文数字，完全不现实。这就是传统MLP方法在模拟无序材料时面临的“数据生成瓶颈”。

针对这一核心挑战，我们团队发展并验证了一套名为“团簇学习”的创新方法论。其核心思想非常直观：既然大块材料中的原子相互作用本质上是局域的（由“电子近视”原理保证），那么一个原子所“感受”到的化学环境，理论上可以由一个包含该原子及其有限近邻原子的分子片段（即“团簇”）来精确复现。因此，我们无需对整个包含数万原子的超胞进行昂贵的DFT计算，而只需智能地识别出那些模型尚未掌握的、关键的局部化学环境，将它们从大体系中“切割”出来，作为独立的团簇进行DFT计算，并以此扩充训练数据集。这种方法将数据生成的计算成本与目标体系的大小解耦，使得为介观尺度无序体系开发高精度MLP成为可能。

2. 团簇学习方法论详解

2.1 核心理念：化学环境与力匹配

要理解团簇学习，首先要定义什么是“化学环境”。我们将原子i的化学环境 ε_i 定义为一个以该原子为中心、有限半径的球体内的所有信息，包括周围原子的种类、位置以及任何外场。这个环境完全决定了该原子所受的净力。根据“电子近视”原理，原子间的电子相互作用随距离衰减，因此这个环境是局域的，其空间范围是有限的。

基于此，我们提出了“环境匹配”条件：如果从一个庞大周期体系中切割出的一个团簇，能够使其核心区域内的每个原子所处的化学环境（包括DFT水平和MLP表征下的环境）与它们在大块材料中时完全一致，那么用这个团簇的DFT数据来训练MLP，就能让MLP学会大块材料中相应的原子相互作用。

如何验证一个切割出的团簇是否满足“环境匹配”呢？我们依赖“力匹配”这一黄金标准。具体操作如下：

获取参考力 ：对于一个包含目标缺陷的大块周期结构，我们计算其中每个原子在DFT水平下的受力 (F_i)bulk 。这一步可能因为体系太大而无法直接进行，但我们可以通过后续的“团簇外推法”来估算。
设计并测试团簇 ：围绕我们关心的核心区域（如一个缺陷位点），设计不同大小的候选团簇。对每个候选团簇进行DFT计算，得到核心原子在团簇中的受力 (F_i)cluster 。
匹配与选择 ：比较 (F_i)bulk 和 (F_i)cluster 。如果两者在误差允许范围内一致，就证明该团簇成功复现了大块材料中的局部环境。我们选择那个既能保证力匹配、又尺寸最小的团簇作为最优设计。