机器学习探究电子气体在沸石分子筛上的吸附

陈佳丽 赵国祥 颜亚玉 夏万厅 李巧红 张健

引用本文: 陈佳丽, 赵国祥, 颜亚玉, 夏万厅, 李巧红, 张健. 机器学习探究电子气体在沸石分子筛上的吸附[J]. 无机化学学报, 2025, 41(1): 155-164. doi: 10.11862/CJIC.20240408 shu
Citation:  Jiali CHEN, Guoxiang ZHAO, Yayu YAN, Wanting XIA, Qiaohong LI, Jian ZHANG. Machine learning exploring the adsorption of electronic gases on zeolite molecular sieves[J]. Chinese Journal of Inorganic Chemistry, 2025, 41(1): 155-164. doi: 10.11862/CJIC.20240408 shu

机器学习探究电子气体在沸石分子筛上的吸附

    通讯作者: 李巧红, E-mail: lqh2382@fjirsm.ac.cn; 张健, E-mail: zhj@fjirsm.ac.cn
  • 基金项目:

    国家重点研发计划 2021YFA1501500

摘要: 使用机器学习进行高通量筛选是一种新的材料筛选方法,我们结合巨正则蒙特卡罗(GCMC)模拟和机器学习方法研究了沸石分子筛对气体的吸附。使用GCMC模拟方法,计算了12种电子气体在240种纯硅沸石分子筛上的绝对吸附量,并通过Zeo++程序分析了沸石分子筛的17种结构特征。在此基础上,建立了2种机器学习模型:多元线性回归模型和随机森林回归模型,旨在预测沸石分子筛对各类电子气体的吸附能力。同时,通过相关性分析和模型性能评估,揭示了不同结构特征对气体吸附容量的影响程度,并对模型的稳定性和预测精度进行了讨论。

English

  • 电子特种气体(ESG)是指一组专门用于电子制造工艺的高度纯化气体,这些气体需满足严格的纯度和质量要求,以确保电子设备和组件能够发挥最佳效能并保持高度稳定性。随着科技的不断发展,特别是在半导体工业领域,人们对高纯度ESG的需求日益增长。这些气体在集成电路制造和太阳能电池生产等过程中起着至关重要的作用[1-3]。在电子工业中,为确保达到所需的纯度水平,在ESG的生产过程中不仅需要严格的制造过程,分离和提纯等净化环节更是至关重要。然而,ESG的分离面临着诸多挑战。由于具有相似的物理和化学性质,传统的分离方法,如蒸馏和萃取等,往往难以达到理想的分离效果。因此,研发新型高效的分离技术对于提升电子工业的生产效率和产品质量具有重要意义。

    沸石分子筛作为一类独特的多孔材料,凭借其高度的结构有序性、可调节的孔径以及丰富的表面化学性质,在化工、环保和能源等诸多领域中扮演着不可或缺的角色[4-6]。特别是在气体分离领域,沸石分子筛因对特定气体分子具有选择性的吸附能力[7],成为实现高效气体提纯的关键材料之一[8-9]。然而,尽管沸石分子筛的应用前景广阔,但设计具有特定结构的分子筛以精确匹配不同应用场景下的气体提纯需求[10],仍是一项极具挑战性的任务。目前大部分的研究都是通过实验试错或者理论模拟的方法来发现其特征和属性的关系。而机器学习作为一种快速发展的技术手段,能够从大量的数据中学习到数据间的规则,因此可以用来进行构效关系建模,并且克服了原有高通量计算和高通量实验的弊端,极大地加快了筛选的速度[11-14]。目前,研究人员已经开始使用机器学习方法来指导特定性质沸石的合成:Daeyaert等[15]在一组具有4 781种有机结构导向剂的数据上训练了一个神经网络模型,他们以分子特征为输入,预测了BEA沸石多晶型A的稳定能。该模型可以对更大的材料空间进行搜索,同时确定了几种结构指导剂分子,这些分子在BEA沸石多晶型A的合成中具有潜在的应用价值。Ma等[16]使用一种基于机器学习的原子模拟方法,指导设计了新兴的硅铝磷酸盐沸石,旨在用于气体的吸附和分离。类似的机器学习建模技术正越来越多地应用于沸石的设计和筛选过程中[17-18]

    针对如何能迅速有效地筛选对ESG具有高效吸附能力的沸石分子筛结构这一科学问题,我们采用了机器学习结合高通量计算的方法。具体而言,使用巨正则蒙特卡罗(grand canonical Monte Carlo,GCMC)模拟的方法,得到了12种ESG在240种不同沸石框架上的吸附数据,进而构建了用于机器学习的沸石-ESG数据集。在此基础上,统计了对12种ESG吸附效果最优的10种沸石结构。随后使用不同的机器学习模型对数据进行训练,旨在实现对沸石分子筛吸附ESG能力的精准预测。

    GCMC吸附模拟是一种基于蒙特卡罗方法的计算模拟技术,其通过模拟气体分子在多孔材料中的吸附平衡过程来计算吸附量[17, 19-20]。该方法模拟了气体分子在多孔材料的吸附行为,并根据吸附位点的能量和吸附分子的统计力学分布来确定吸附平衡态。我们计算了包括AsH3、B2H6、BCl3、C2F6、ClF3、GeH4、HBr、NF3、PF3、PH3、SF6和SiH4在内的12种气体在240种纯硅沸石分子筛上的绝对吸附量,具体模拟参数见表S1~S12(Supporting information)。通过RASPA2软件[21-24]进行GCMC模拟的具体参数如下:

    (1) 为了平衡计算时间和计算精度,GCMC模拟的初始蒙特卡罗步数和平衡步数均设置为8 000;

    (2) 截断半径设置为1.4 nm,超胞的数目根据截断半径和晶胞长度确定,超胞最短的晶胞边长大于2倍的截断半径;

    (3) 模拟的温度为298.0 K,模拟的压强为101 000 Pa;

    (4) 使用Ewald求和的方法来计算静电相互作用。

    Zeo++[25-29]是一款常用的用于计算多孔晶体的孔隙率、比表面积等几何特征的软件。而气体的吸附主要来自沸石内部的孔道结构,因此我们使用Zeo++程序对240种沸石结构的特征描述符进行了计算,从孔径、比表面积、可及孔体积和探针分子可占据分子孔体积4个方面刻画了沸石结构的空隙和孔道信息,共计算了17个结构特征。在孔径计算中,得到9个孔径相关结构特征,包括全局最大孔腔直径(global cavity diameter,GCD)、孔径极限直径(pore limiting diameter,PLD)及3个晶轴方向PLD值(PLD_a、PLD_b和PLD_c)、最大孔径直径(largest cavity diameter,LCD)及3个晶轴方向LCD值(LCD_a、LCD_b和LCD_c)。在比表面积计算中得到2个结构特征,即密度(density)和可及表面积(accessible surface area,ASA)。在可及孔体积计算中得到2个结构特征,即可及孔体积(accessible pore volume, AV)和可及孔隙率(AV volume fraction,AV_VF)。在探针分子可占据分子孔体积计算中,得到4个结构特征,包括探针分子可及可占据孔体积(accessible and probe-occupiable pore volume,POAV)、探针分子不可及的可占据孔体积(non-accessible and pore-occupiable pore volume,PONAV)、探针分子可及可占据孔隙率(POAV volume fraction,POAV_VF)和探针分子不可及的可占据孔隙率(PONAV volume fraction,PONAV_VF)。

    现有的数据集包括样本数据、结构特征数据和标签数据。样本数据为240种沸石分子筛结构;结构特征数据为Zeo++计算得到的240种沸石的17个结构特征;标签数据为12种气体分子在240种沸石分子筛上的吸附数据,其衡量的都是气体分子的绝对吸附量,单位为mol·kg-1

    在现有数据集基础上,建立了多元线性回归[30]和随机森林回归[31]2种机器学习模型。多元线性回归和随机森林回归模型的实施均由scikit-learn Python库提供。模型训练之前从scikit-learn Python库使用StandardScaler对特征进行归一化处理,以消除不同特征量纲对模型训练的影响。随后再将所有的数据按4∶1划分训练集和测试集,使用训练集对随机森林回归模型进行训练,并利用测试集进行预测,以计算平均绝对误差(mean absolute error,MAE)和决定系数(R2)。

    通过RASPA2软件完成GCMC模拟ESG在沸石分子筛上的平衡吸附过程,得到了常温常压下12种ESG在240种沸石分子筛上的吸附量,见表S13~S24。表 1展示了12种气体分子在沸石上吸附的均值和标准差,图 1展示了其在沸石分子筛数据上的绝对吸附量的分布。标准差的大小可以衡量分布的无序程度。标准差越大,说明数据点之间的离散程度越高,数据分布越杂乱无章,即分布的无序程度越高。相反,标准差越小,数据点之间的离散程度越低,数据分布越集中,分布的无序程度也就越低。分析可知,ClF3和NF3的分布更为集中,而GeH4和SiH4具有更广的分布范围。通过观察图 1中直方图的高度变化,可以看到大部分的分子展现出了正态分布的特点,不同气体在沸石材料上的吸附分布存在显著的差异。

    表 1

    表 1  数据集中气体吸附量的均值和标准差
    Table 1.  Average values and standard deviations of gas adsorption capacity in data set
    下载: 导出CSV
    ESG Average adsorption capacity / (mol·kg-1) Standard deviation / (mol·kg-1)
    AsH3 3.900 361 1.792 447
    B2H6 3.313 041 1.744 352
    BCl3 2.194 965 1.293 963
    C2F6 1.937 629 1.255 888
    ClF3 2.052 989 0.780 751
    GeH4 3.790 184 1.963 314
    HBr 3.565 568 1.273 889
    NF3 2.449 167 0.813 051
    PF3 3.255 373 1.526 036
    PH3 4.334 381 1.965 358
    SF6 2.056 987 1.282 198
    SiH4 4.016 160 2.084 047

    图 1

    图 1.  12种ESG在240种纯硅沸石分子筛上的绝对吸附量的分布
    Figure 1.  Distributions of absolute adsorption capacity of 12 ESG on 240 pure silicalite zeolite molecular sieves

    但也有部分分子在许多沸石分子筛上的吸附量为0,比如C2F6和SF6等,原因是这些分子相较于其他分子较大,对于孔径较小的沸石,气体分子难以进入。

    图 2统计了对12种ESG吸附效果最优的10种沸石结构的数据。从图中可以看出,RWY沸石结构对多数ESG展现出了最大的吸附能力,并对这部分气体的吸附效果显著优于其他沸石结构。而ClF3和NF3在沸石结构上的最大吸附量远低于其他气体,因而相比其他气体拥有更小的分布范围,吸附分布也相对集中。

    图 2

    图 2.  对12种ESG吸附量最大的10种沸石结构
    Figure 2.  10 zeolite structures with the highest adsorption capacity of 12 ESG

    通过Zeo++程序计算得到了沸石分子筛的17种结构特征,见表S25~S41。表 2汇总了数据集中沸石特征的平均值和标准差,可以看出不同种类的沸石分子筛的ASA值存在较大差异。

    表 2

    表 2  数据集中沸石特征的平均值和标准差
    Table 2.  Average values and standard deviations of zeolite features in data set
    下载: 导出CSV
    Feature Average value Standard deviation
    GCD / nm 0.639 693 0.217 495
    PLD / nm 0.429 689 0.177 180
    LCD / nm 0.630 587 0.215 155
    PLD_a / nm 0.299 151 0.159 146
    PLD_b / nm 0.296 030 0.162 908
    PLD_c / nm 0.360 107 0.203 179
    LCD_a / nm 0.626 217 0.213 043
    LCD_b / nm 0.625 765 0.213 076
    LCD_c / nm 0.627 407 0.214 815
    Density / (g·cm-3) 1.676 343 0.190 600
    ASA / (m2·g-1) 311.555 900 399.246 700
    AV / (cm3·g-1) 0.277 069 0.086 807
    AV_VF 0.448 812 0.063 751
    POAV / (cm3·g-1) 0.111 354 0.137 535
    POAV_VF 0.168 448 0.182 407
    PONAV / (cm3·g-1) 0.069 359 0.086 059
    PONAV_VF 0.115 513 0.138 305

    在统计学中,Pearson相关系数(r)是衡量2组数据之间线性相关性的一种指标[32],是2个变量的协方差与标准差的乘积之间的比值,其本质上是对协方差的一种归一化处理,以确保所得结果始终介于-1~1之间。结合Pearson相关系数来分析特征之间的相关性,得到了沸石特征的相关热力图(图 3)。从图中可以看出所有的特征大致可以分成2类:一类特征主要反映了材料内部剩余空间的大小,和孔隙率呈正相关;另一类特征则体现了材料中骨架原子占据的空间大小,和孔隙率呈负相关。

    图 3

    图 3.  沸石特征相关热力图
    Figure 3.  Feature correlation heat maps of zeolites

    r > 0: positive correlation, r=0: no correlation, r < 0: negative correlation.

    主成分分析(principal component analysis,PCA)和t-SNE(t-distributed stochastic neighbor embedding)是2种应用于数据降维可视化的不同方法[33]。使用PCA和t-SNE对240种沸石结构的17种特征进行降维处理,结果如图 4所示。PCA通过计算数据的主成分,将特征数据从17维降到2维,从而揭示了数据的线性结构。在这一降维过程中,数据集被降维至2个主成分:PCA 1和PCA 2。同时计算了PCA主成分的解释方差比例,PCA 1解释了数据集中99.987%的方差,PCA 2仅解释了数据集中0.009%的方差。这表明数据集中的大部分信息可以通过PCA 1来捕捉,而PCA 2则提供了很少的额外信息。这是因为数据集中的变量之间存在高度的相关性,导致PCA 1能够主导数据的分布。

    图 4

    图 4.  PCA和t-SNE降维算法分析数据集中的沸石种类
    Figure 4.  Zeolite species in the data set analyzed by PCA and t-SNE dimensionality reduction algorithms

    The numeric value of the horizontal ordinate represents the position of the data points in the space after the dimensionality reduction; The dots in the diagram represent different zeolite samples, and the colors are encoded based on the results of the clustering algorithm.

    t-SNE则提供了数据的非线性可视化,能够进一步揭示数据的局部和全局结构。数据点在t-SNE降维后的空间中形成了明显的聚类,表明t-SNE能够保持数据点之间的局部相似性,并在低维空间中形成有意义的聚类。根据可视化PCA和t-SNE降维后的结果,我们观察到不同聚类在降维空间中的分布情况。通过对这些聚类进行分析,可以大致确定所选择的表示沸石结构的特征是对沸石结构有足够区分度的,证明这些特征含有足够多的信息,能够区分不同类型沸石的特点。后续的研究也证明了这一点。

    为提高模型的性能和稳定性,我们对沸石特征进行归一化处理,使用归一化后的特征和气体吸附数据训练多元线性回归模型,并提取每个特征的回归系数,结果如图 5所示。从图中可以看出不同沸石特征的回归系数在-4.0~6.0的范围内变化,表明不同特征对目标变量的影响程度各不相同。正系数表示该特征与目标变量呈正相关,负系数则表示该特征与目标变量呈负相关,且系数的绝对值越大,表示该特征对目标变量的影响越强烈。通过分析各个特征的回归系数,可以直观地了解每个特征对气体吸附量的贡献程度。

    图 5

    图 5.  沸石特征-气体吸附量线性模型系数柱状图
    Figure 5.  Bar chart of coefficients for zeolite feature⁃gas adsorption capacity linear model

    虽然线性回归模型在某些情况下能够很好地拟合数据,但它也有一些局限性,例如它假设沸石特征与气体吸附量之间存在线性关系。为了评估模型的泛化能力,我们将数据分为训练集和测试集,并据此进行了模型性能的评估,结果如表 3所示。采用R2来衡量模型对数据拟合的好坏,R2越接近1,表示模型拟合效果越好。而MAE计算的是模型预测值与实际值之间的绝对差异的平均值,MAE值越小,表示模型预测值与实际值之间的差异越小,即模型预测越准确。

    表 3

    表 3  线性模型在数据集上的表现结果
    Table 3.  Performance results of linear models on data sets
    下载: 导出CSV
    ESG Train R2 Test R2 Train MAE Test MAE
    AsH3 0.813 8 0.820 9 0.585 4 0.565 7
    B2H6 0.900 9 0.872 8 0.440 6 0.407 1
    BCl3 0.920 6 0.850 0 0.280 2 0.280 0
    C2F6 0.855 7 0.784 1 0.327 0 0.416 3
    ClF3 0.731 9 0.628 7 0.302 9 0.319 2
    GeH4 0.861 7 0.842 6 0.549 2 0.543 7
    HBr 0.589 2 0.648 6 0.613 5 0.592 3
    NF3 0.649 4 0.608 7 0.362 8 0.411 3
    PF3 0.850 9 0.820 2 0.458 7 0.454 0
    PH3 0.847 9 0.845 6 0.583 0 0.568 8
    SF6 0.804 5 0.753 0 0.383 8 0.460 4
    SiH4 0.871 1 0.863 8 0.549 4 0.544 2

    R2来看,多元线性回归模型在训练集和测试集上的表现相对一致,但测试集上的R2普遍略低于训练集,表明模型存在一定的过拟合风险,但整体拟合效果尚可。MAE作为预测误差的衡量指标,在训练集和测试集上也表现出一定的差异,但测试集上的MAE普遍高于训练集,进一步证实了过拟合的存在。从各气体的模型性能评估结果来看,线性模型的稳定性有待提高。不同气体之间模型性能存在较大的波动,需要进一步提高模型的稳定性和预测准确性。

    对沸石特征进行归一化处理后,将数据集划分为训练集和测试集。使用训练集训练随机森林回归模型,得到随机森林模型对各特征的重要性指数(图 6)。使用测试集对模型进行预测,并计算MAE和R2以评估模型的预测性能(表 4)。通过对比不同气体的特征重要性柱状图(图 6),可以发现AV和AV_VF在所有气体的数据集中都表现出较高的重要性指数,表明它们对于模型的预测吸附值具有重要影响。同时也有一些特征只在特定气体的数据集中表现出较高的重要性指数,如对于C2F6、ClF3、HBr、NF3和SF6而言,孔径所占据的比例要高于其他气体。线性模型只能考虑线性因素,因此具有一定的局限性,而随机森林模型更能考虑非线性的影响,因此可以识别出孔径对吸附量影响的重要性。

    图 6

    图 6.  随机森林模型对各特征的重要性指数
    Figure 6.  Importance indexes of random forest model to each feature

    表 4

    表 4  随机森林模型在数据集上的表现结果
    Table 4.  Performance results of random forest models on data sets
    下载: 导出CSV
    ESG Train R2 Test R2 Train MAE Test MAE
    AsH3 0.963 5 0.838 3 0.235 4 0.513 8
    B2H6 0.977 4 0.928 1 0.169 6 0.307 1
    BCl3 0.982 0 0.752 9 0.113 1 0.354 5
    C2F6 0.972 0 0.759 9 0.133 9 0.430 3
    ClF3 0.965 1 0.493 5 0.109 2 0.364 1
    GeH4 0.948 2 0.839 4 0.224 0 0.546 9
    HBr 0.945 1 0.748 8 0.213 5 0.507 7
    NF3 0.948 1 0.616 7 0.132 6 0.389 8
    PF3 0.969 9 0.825 6 0.177 1 0.460 6
    PH3 0.970 7 0.875 6 0.231 7 0.510 5
    SF6 0.965 1 0.714 4 0.155 2 0.450 9
    SiH4 0.968 1 0.869 5 0.231 6 0.525 1

    表 3和4所示,随机森林模型在训练集上的R2普遍较高,且大部分的训练集和测试集的R2都高于多元线性回归模型,表明随机森林模型具有更强的拟合能力和泛化能力。随机森林模型的测试集MAE普遍低于多元线性回归模型,表明随机森林模型的预测误差更小,预测精度更高。同时,随机森林模型的训练集MAE也普遍较低,这进一步证实了随机森林模型在训练数据上的优秀表现。综合来看,尽管随机森林模型的R2和MAE在不同气体数据集上有所波动,但该模型整体上在多数气体的预测中表现得较为稳定,且具有一定的预测准确性。

    通过GCMC模拟、结构特征计算和机器学习模型建立等方法,我们深入探究了ESG在沸石分子筛上的吸附行为。不同ESG在沸石分子筛上的吸附量存在显著的分布差异,这表明在相当一部分沸石结构上不同气体的吸附量不同,说明该部分沸石对不同气体的吸附具有选择性。通过对12种ESG吸附效果最优的10种沸石结构进行分析发现,RWY沸石结构对大部分ESG都有最优吸附。降维结果表明根据所提供的特征,所有的沸石特征可以大致分为2类,其中一类是衡量材料内部剩余空间的特征,另一类是衡量材料中骨架原子占据的空间大小。通过多元线性回归模型和随机森林回归模型,证实了沸石分子筛的结构特征对气体吸附量具有重要影响,并且这些结构特征对不同气体的吸附影响也各不相同。随机森林回归模型在预测气体吸附量方面表现出优于多元线性回归模型的性能。未来研究将进一步优化机器学习模型,提高预测准确性和稳定性,并探索更多沸石分子筛和ESG的组合,以拓展应用范围。


    Supporting information is available at http://www.wjhxxb.cn
    1. [1]

      ZHANG M, LIU L, LI Q, GONG H, CHEN Y. Theoretical design of MOFs and PSA process for efficient separation of CF4/NF3[J]. Ind. Eng. Chem. Res., 2023, 62(18): 7103-7113 doi: 10.1021/acs.iecr.2c04592

    2. [2]

      ZHANG W X, LI Y H, WU Y, FU Y, CHEN S H, ZHANG Z H, HE S J, YAN T, MA H P. Fluorinated porous organic polymers for efficient recovery perfluorinated electronic specialty gas from exhaust gas of plasma etching[J]. Sep. Purif. Technol., 2022, 287: 120561 doi: 10.1016/j.seppur.2022.120561

    3. [3]

      FUNKE H H, GRISSOM B L, MCGREW C E, RAYNOR M W. Techniques for the measurement of trace moisture in high-purity electronic specialty gases[J]. Rev. Sci. Instrum., 2003, 74(9): 3909-3933 doi: 10.1063/1.1597939

    4. [4]

      WU Q, LUAN H, XIAO F S. Targeted synthesis of zeolites from calculated interaction between zeolite structure and organic template[J]. Natl. Sci. Rev., 2022, 9(9): nwac023 doi: 10.1093/nsr/nwac023

    5. [5]

      仝晓强, 卢慧英, 黄湃, 闫文付, 于吉红, 徐如人. 新型三维开放骨架磷酸铝[C4H14N2][Al4P5O19OH]的合成、表征及结构导向研究[J]. 无机化学学报, 2013, 29(8): 1639-1644. doi: 10.3969/j.issn.1001-4861.2013.08.009TONG X Q, LU H Y, HUANG P, YAN W F, YU J H, XU R R. Synthesis and characterization of a new three-dimensional open-framework aluminophosphate [C4H14N2][Al4P5O19OH] and investigation of the structure-directing effect[J]. Chinese. J. Inorg. Chem., 2013, 29(8): 1639-1644 doi: 10.3969/j.issn.1001-4861.2013.08.009

    6. [6]

      LIN Q F, GAO Z R, LIN C, ZHANG S, CHEN J, LI Z, LIU X, FAN W, LI J, CHEN X, CAMBLOR M A, CHEN F J. A stable aluminosilicate zeolite with intersecting three-dimensional extra-large pores[J]. Science, 2021, 374(6575): 1605-1608 doi: 10.1126/science.abk3258

    7. [7]

      MERCURY M, DENOYEL R, SIMON-MASSERON A, CARETTE M, ZEREGA Y, PATARIN J, SOULARD M, REYNARD C, JANULYTE A. Selective adsorption of 2, 3-DCDD and 1, 2, 3, 4-TCDD on *BEA, EMT, FAU and MFI-type zeolites as alternative adsorbents for on-line dioxin monitoring[J]. Adsorption, 2011, 17(4): 747-758 doi: 10.1007/s10450-011-9349-z

    8. [8]

      AZIZI B, VESSALLY E, AHMADI S, EBADI A G, AZAMAT J. Separation of CH4/N2 gas mixture using MFI zeolite nanosheet: Insights from molecular dynamics simulation[J]. Colloid Surf. A‒Physicochem. Eng. Asp., 2022, 641: 128527 doi: 10.1016/j.colsurfa.2022.128527

    9. [9]

      PECHAR T W, KIM S, VAUGHAN B, MARAND E, TSAPATSIS M, JEONG H K, CORNELIUS C J. Fabrication and characterization of polyimide-zeolite L mixed matrix membranes for gas separations[J]. J. Membr. Sci., 2006, 277(1): 195-202

    10. [10]

      SCHWALBE-KODA D, KWON S, PARIS C, BELLO-JURADO E, JENSEN Z, OLIVETTI E, WILLHAMMAR T, CORMA A, ROMAN-LESHKOV Y, MOLINER M, GOMEZ-BOMBARELLI R. A priori control of zeolite phase competition and intergrowth with high-throughput simulations[J]. Science, 2021, 374(6565): 308-315 doi: 10.1126/science.abh3350

    11. [11]

      HU H Y, BAI Y K, YUAN Z H. Improved graph-based multitask learning model with sparse sharing for quantitative structure-property relationship prediction of drug molecules[J]. AICHE J., 2023, 69(2): e17968 doi: 10.1002/aic.17968

    12. [12]

      CHEN C H, TANAKA K, KOTERA M, FUNATSU K. Comparison and improvement of the predictability and interpretability with ensemble learning models in QSPR applications[J]. J. Cheminformatics, 2020, 12(1): 19 doi: 10.1186/s13321-020-0417-9

    13. [13]

      FERNANDEZ M, BOYD P G, DAFF T D, AGHAJI M Z, WOO T K. Rapid and accurate machine learning recognition of high performing metal organic frameworks for CO2 capture[J]. J. Phys. Chem. Lett, 2014, 5(17): 3056-3060 doi: 10.1021/jz501331m

    14. [14]

      YUAN S, JIAO Z R, QUDDUS N A, KWON J S I, MASHUGA C V. Developing quantitative structure-property relationship models to predict the upper flammability limit using machine learning[J]. Ind. Eng. Chem. Res., 2019, 58(8): 3531-3537 doi: 10.1021/acs.iecr.8b05938

    15. [15]

      DAEYAERT F, YE F D, DEEM M W. Machine-learning approach to the design of OSDAs for zeolite beta[J]. Proc. Natl. Acad. Sci. U. S. A., 2019, 116(9): 3413-3418 doi: 10.1073/pnas.1818763116

    16. [16]

      MA S C, SHANG C, WANG C M, LIU Z P. Thermodynamic rules for zeolite formation from machine learning based global optimization[J]. Chem. Sci., 2020, 11(37): 10113-10118 doi: 10.1039/D0SC03918G

    17. [17]

      LIN S R, WANG Y K, ZHAO Y H, PERICCHI L R, HERNANDEZ-MALDONADO A J, CHEN Z F. Machine-learning-assisted screening of pure-silica zeolites for effective removal of linear siloxanes and derivatives[J]. J. Mater. Chem. A, 2020, 8(6): 3228-3237 doi: 10.1039/C9TA11909D

    18. [18]

      ZHANG L F, LI J M, ZHANG P P, GAO Z, ZHAO Y Y, QIAO X H, CHEN C. PI4KIIα regulates insulin secretion and glucose homeostasis via a PKD-dependent pathway[J]. Biophysics Reports, 2018, 4(1): 25-38 doi: 10.1007/s41048-018-0049-z

    19. [19]

      KIM S Y, KIM S I, BAE Y S. Machine-learning-based prediction of methane adsorption isotherms at varied temperatures for experimental adsorbents[J]. J. Phys. Chem. C, 2020, 124(36): 19538-19547 doi: 10.1021/acs.jpcc.0c01757

    20. [20]

      LIANG H, JIANG K, YAN T A, CHEN G H. XGBoost: An optimal machine learning model with just structural features to discover MOF adsorbents of Xe/Kr[J]. ACS Omega, 20216(13): 9066-9076 doi: 10.1021/acsomega.1c00100

    21. [21]

      DUBBELDAM D, CALERO S, ELLIS D E, SNURR R Q. RASPA: Molecular simulation software for adsorption and diffusion in flexible nanoporous materials[J]. Mol. Simul., 2016, 42: 101-81

    22. [22]

      DUBBELDAM D, TORRES-KNOOP A, WALTON K S. On the inner workings of Monte Carlo codes[J]. Mol. Simul., 2013, 39: 1253-1292 doi: 10.1080/08927022.2013.819102

    23. [23]

      DUBBELDAM D, SNURR R Q. Recent developments in the molecular modeling of diffusion in nanoporous materials[J]. Mol. Simul., 2007, 33(4/5): 305-325

    24. [24]

      DUBBELDAM D, WALTON K S, VLUGT T J H, CALERO S. Design, parameterization, and implementation of atomic force fields for adsorption in nanoporous materials[J]. Adv. Theory Simul., 2019, 2(11): 1900135 doi: 10.1002/adts.201900135

    25. [25]

      WILLEMS T F, RYCROFT C H, KAZI M, MEZA J C, HARANCZYK M. Algorithms and tools for high-throughput geometry-based analysis of crystalline porous materials[J]. Microporous Mesoporous Mat., 2012, 149(1): 134-141 doi: 10.1016/j.micromeso.2011.08.020

    26. [26]

      MARTIN R L, SMIT B, HARANCZYK M. Addressing challenges of identifying geometrically diverse sets of crystalline porous materials[J]. J. Chem Inf. Model., 2012, 52(2): 308-318 doi: 10.1021/ci200386x

    27. [27]

      PINHEIRO M, MARTIN R L, RYCROFT C H, JONES A, IGLESIA E, HARANCZYK M. Characterization and comparison of pore landscapes in crystalline porous materials[J]. J. Mol. Graph., 2013, 44: 208-219 doi: 10.1016/j.jmgm.2013.05.007

    28. [28]

      PINHEIRO M, MARTIN R L, RYCROFT C H, HARANCZYK M. High accuracy geometric analysis of crystalline porous materials[J]. CrystEngComm, 2013, 15(37): 7531-7538 doi: 10.1039/c3ce41057a

    29. [29]

      MARTIN R L, HARANCZYK M. Construction and characterization of structure models of crystalline porous polymers[J]. Cryst. Growth Des., 2014, 14: 2431-2440 doi: 10.1021/cg500158c

    30. [30]

      NETER J, WASSERMANC W, KUTNER M H. Applied linear regression models[M]. Illinois: Richard D. Irwin, Inc., 1983.

    31. [31]

      BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32 doi: 10.1023/A:1010933404324

    32. [32]

      杨文远, 梁红, 乔智威. 高通量筛选金属-有机框架: 分离天然气中的硫化氢和二氧化碳[J]. 化学学报, 2018, 76(10): 785-792.YANG W Y, LIANG H, QIAO Z W. High-throughput screening of metal-organic frameworks for the separation of hydrogen sulfide and carbon dioxide from natural gas[J]. Acta Chim. Sinica, 2018, 76(10): 785-792

    33. [33]

      YANG W Y, LIANG H, PENG F, LIU Z L, LIU J, QIAO Z W. Computational screening of metal-organic framework membranes for the separation of 15 gas mixtures[J]. Nanomaterials, 2019, 9(3): 467 doi: 10.3390/nano9030467

  • 图 1  12种ESG在240种纯硅沸石分子筛上的绝对吸附量的分布

    Figure 1  Distributions of absolute adsorption capacity of 12 ESG on 240 pure silicalite zeolite molecular sieves

    图 2  对12种ESG吸附量最大的10种沸石结构

    Figure 2  10 zeolite structures with the highest adsorption capacity of 12 ESG

    图 3  沸石特征相关热力图

    Figure 3  Feature correlation heat maps of zeolites

    r > 0: positive correlation, r=0: no correlation, r < 0: negative correlation.

    图 4  PCA和t-SNE降维算法分析数据集中的沸石种类

    Figure 4  Zeolite species in the data set analyzed by PCA and t-SNE dimensionality reduction algorithms

    The numeric value of the horizontal ordinate represents the position of the data points in the space after the dimensionality reduction; The dots in the diagram represent different zeolite samples, and the colors are encoded based on the results of the clustering algorithm.

    图 5  沸石特征-气体吸附量线性模型系数柱状图

    Figure 5  Bar chart of coefficients for zeolite feature⁃gas adsorption capacity linear model

    图 6  随机森林模型对各特征的重要性指数

    Figure 6  Importance indexes of random forest model to each feature

    表 1  数据集中气体吸附量的均值和标准差

    Table 1.  Average values and standard deviations of gas adsorption capacity in data set

    ESG Average adsorption capacity / (mol·kg-1) Standard deviation / (mol·kg-1)
    AsH3 3.900 361 1.792 447
    B2H6 3.313 041 1.744 352
    BCl3 2.194 965 1.293 963
    C2F6 1.937 629 1.255 888
    ClF3 2.052 989 0.780 751
    GeH4 3.790 184 1.963 314
    HBr 3.565 568 1.273 889
    NF3 2.449 167 0.813 051
    PF3 3.255 373 1.526 036
    PH3 4.334 381 1.965 358
    SF6 2.056 987 1.282 198
    SiH4 4.016 160 2.084 047
    下载: 导出CSV

    表 2  数据集中沸石特征的平均值和标准差

    Table 2.  Average values and standard deviations of zeolite features in data set

    Feature Average value Standard deviation
    GCD / nm 0.639 693 0.217 495
    PLD / nm 0.429 689 0.177 180
    LCD / nm 0.630 587 0.215 155
    PLD_a / nm 0.299 151 0.159 146
    PLD_b / nm 0.296 030 0.162 908
    PLD_c / nm 0.360 107 0.203 179
    LCD_a / nm 0.626 217 0.213 043
    LCD_b / nm 0.625 765 0.213 076
    LCD_c / nm 0.627 407 0.214 815
    Density / (g·cm-3) 1.676 343 0.190 600
    ASA / (m2·g-1) 311.555 900 399.246 700
    AV / (cm3·g-1) 0.277 069 0.086 807
    AV_VF 0.448 812 0.063 751
    POAV / (cm3·g-1) 0.111 354 0.137 535
    POAV_VF 0.168 448 0.182 407
    PONAV / (cm3·g-1) 0.069 359 0.086 059
    PONAV_VF 0.115 513 0.138 305
    下载: 导出CSV

    表 3  线性模型在数据集上的表现结果

    Table 3.  Performance results of linear models on data sets

    ESG Train R2 Test R2 Train MAE Test MAE
    AsH3 0.813 8 0.820 9 0.585 4 0.565 7
    B2H6 0.900 9 0.872 8 0.440 6 0.407 1
    BCl3 0.920 6 0.850 0 0.280 2 0.280 0
    C2F6 0.855 7 0.784 1 0.327 0 0.416 3
    ClF3 0.731 9 0.628 7 0.302 9 0.319 2
    GeH4 0.861 7 0.842 6 0.549 2 0.543 7
    HBr 0.589 2 0.648 6 0.613 5 0.592 3
    NF3 0.649 4 0.608 7 0.362 8 0.411 3
    PF3 0.850 9 0.820 2 0.458 7 0.454 0
    PH3 0.847 9 0.845 6 0.583 0 0.568 8
    SF6 0.804 5 0.753 0 0.383 8 0.460 4
    SiH4 0.871 1 0.863 8 0.549 4 0.544 2
    下载: 导出CSV

    表 4  随机森林模型在数据集上的表现结果

    Table 4.  Performance results of random forest models on data sets

    ESG Train R2 Test R2 Train MAE Test MAE
    AsH3 0.963 5 0.838 3 0.235 4 0.513 8
    B2H6 0.977 4 0.928 1 0.169 6 0.307 1
    BCl3 0.982 0 0.752 9 0.113 1 0.354 5
    C2F6 0.972 0 0.759 9 0.133 9 0.430 3
    ClF3 0.965 1 0.493 5 0.109 2 0.364 1
    GeH4 0.948 2 0.839 4 0.224 0 0.546 9
    HBr 0.945 1 0.748 8 0.213 5 0.507 7
    NF3 0.948 1 0.616 7 0.132 6 0.389 8
    PF3 0.969 9 0.825 6 0.177 1 0.460 6
    PH3 0.970 7 0.875 6 0.231 7 0.510 5
    SF6 0.965 1 0.714 4 0.155 2 0.450 9
    SiH4 0.968 1 0.869 5 0.231 6 0.525 1
    下载: 导出CSV
  • 加载中
计量
  • PDF下载量:  0
  • 文章访问数:  27
  • HTML全文浏览量:  8
文章相关
  • 发布日期:  2025-01-10
  • 收稿日期:  2024-11-14
  • 修回日期:  2024-12-23
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章