基于小数据集的机器学习预测酰胺键合成转化率

李兴海 吴志森 张利静 陶胜洋

引用本文: 李兴海, 吴志森, 张利静, 陶胜洋. 基于小数据集的机器学习预测酰胺键合成转化率[J]. 物理化学学报, 2025, 41(2): 100010. doi: 10.3866/PKU.WHXB202309041 shu
Citation:  Xinghai Li,  Zhisen Wu,  Lijing Zhang,  Shengyang Tao. Machine Learning Enables the Prediction of Amide Bond Synthesis Based on Small Datasets[J]. Acta Physico-Chimica Sinica, 2025, 41(2): 100010. doi: 10.3866/PKU.WHXB202309041 shu

基于小数据集的机器学习预测酰胺键合成转化率

    通讯作者: 张利静, E-mail: zhanglj@dlut.edu.cn; 陶胜洋, E-mail: taosy@dlut.edu.cn
  • 基金项目:

    国家自然科学基金(22072011,22372025,22211530456),中央高校基本科研业务费(DUT22LAB607,DUT22QN226)和中国航空研究院1912项目资助

摘要: 机器学习(ML)在分子合成领域显示了重要的应用前景。然而,准确的机器学习预测依赖于大量实验数据,而通过传统实验方法获得成千上万的实验数据仍然是一个巨大的挑战。因此,基于小数据集得到可接受的预测模型是目前该领域亟待解决的重要问题。本研究通过构建1152个反应数据,利用大量有化学意义的特征描述符,通过多维数据分析获得了有效的预测结果,证明了基于小数据集的机器学习算法可以可靠地预测酰胺键合成反应的转化率。研究比较了6种机器学习算法的预测精度,其中随机森林表现出卓越的预测性能(R2 > 0.95)。同时,在预测未知芳胺分子的转化率时,研究发现在训练集中加入少量未知分子的相关反应数据,即使数据集较小,也能显著提升对未知分子转化率的预测准确性,揭示了一种利用小数据集得到较好预测结果的方法。本研究为小数据集下的机器学习辅助化学合成研究提供了参考价值。不久的将来,机器学习将有力地推动有机合成化学的智能化发展。

English

    1. [1]

      (1) Jordan, M. I.; Mitchell, T. M. Science 2015, 349, 255. doi: 10.1126/science.aaa8415(1) Jordan, M. I.; Mitchell, T. M. Science 2015, 349, 255. doi: 10.1126/science.aaa8415

    2. [2]

      (2) Young, T.; Hazarika, D.; Poria, S.; Cambria, E. IEEE Comput. Intell. Mag. 2018, 13, 55. doi: 10.1109/mci.2018.2840738(2) Young, T.; Hazarika, D.; Poria, S.; Cambria, E. IEEE Comput. Intell. Mag. 2018, 13, 55. doi: 10.1109/mci.2018.2840738

    3. [3]

      (3) Myszczynska, M. A.; Ojamies, P. N.; Lacoste, A. M. B.; Neil, D.; Saffari, A.; Mead, R.; Hautbergue, G. M.; Holbrook, J. D.; Ferraiuolo, L. Nat. Rev. Neurol. 2020, 16, 440. doi: 10.1038/s41582-020-0377-8(3) Myszczynska, M. A.; Ojamies, P. N.; Lacoste, A. M. B.; Neil, D.; Saffari, A.; Mead, R.; Hautbergue, G. M.; Holbrook, J. D.; Ferraiuolo, L. Nat. Rev. Neurol. 2020, 16, 440. doi: 10.1038/s41582-020-0377-8

    4. [4]

      (4) Ranjan, R.; Sankaranarayanan, S.; Bansal, A.; Bodla, N.; Chen, J. C.; Patel, V. M.; Castillo, C. D.; Chellappa, R. IEEE Signal Process. Mag. 2018, 35, 66. doi: 10.1109/msp.2017.2764116(4) Ranjan, R.; Sankaranarayanan, S.; Bansal, A.; Bodla, N.; Chen, J. C.; Patel, V. M.; Castillo, C. D.; Chellappa, R. IEEE Signal Process. Mag. 2018, 35, 66. doi: 10.1109/msp.2017.2764116

    5. [5]

      (5) Segler, M. H. S.; Waller, M. P. Chem.-Eur. J. 2017, 23, 5966. doi: 10.1002/chem.201605499(5) Segler, M. H. S.; Waller, M. P. Chem.-Eur. J. 2017, 23, 5966. doi: 10.1002/chem.201605499

    6. [6]

      (6) Shen, Y.; Borowski, J. E.; Hardy, M. A.; Sarpong, R.; Doyle, A. G.; Cernak, T. Nat. Rev. Method. Prim. 2021, 1, 1. doi: 10.1038/s43586-021-00022-5(6) Shen, Y.; Borowski, J. E.; Hardy, M. A.; Sarpong, R.; Doyle, A. G.; Cernak, T. Nat. Rev. Method. Prim. 2021, 1, 1. doi: 10.1038/s43586-021-00022-5

    7. [7]

      (7) Brockherde, F.; Vogt, L.; Li, L.; Tuckerman, M. E.; Burke, K.; Müller, K. R. Nat. Commun. 2017, 8, 1. doi: 10.1038/s41467-017-00839-3(7) Brockherde, F.; Vogt, L.; Li, L.; Tuckerman, M. E.; Burke, K.; Müller, K. R. Nat. Commun. 2017, 8, 1. doi: 10.1038/s41467-017-00839-3

    8. [8]

      (8) Dara, S.; Dhamercherla, S.; Jadav, S. S.; Babu, C. M.; Ahsan, M. J. Artif. Intell. Rev. 2022, 55, 1947. doi: 10.1007/s10462-021-10058-4(8) Dara, S.; Dhamercherla, S.; Jadav, S. S.; Babu, C. M.; Ahsan, M. J. Artif. Intell. Rev. 2022, 55, 1947. doi: 10.1007/s10462-021-10058-4

    9. [9]

      (9) Ahneman, D. T.; Estrada, J. G.; Lin, S. S.; Dreher, S. D.; Doyle, A. G. Science 2018, 360, 186. doi: 10.1126/science.aar5169(9) Ahneman, D. T.; Estrada, J. G.; Lin, S. S.; Dreher, S. D.; Doyle, A. G. Science 2018, 360, 186. doi: 10.1126/science.aar5169

    10. [10]

      (10) Raccuglia, P.; Elbert, K. C.; Adler, P. D.; Falk, C.; Wenny, M. B.; Mollo, A.; Zeller, M.; Friedler, S. A.; Schrier, J.; Norquist, A. J. Nature 2016, 533, 73. doi: 10.1038/nature17439(10) Raccuglia, P.; Elbert, K. C.; Adler, P. D.; Falk, C.; Wenny, M. B.; Mollo, A.; Zeller, M.; Friedler, S. A.; Schrier, J.; Norquist, A. J. Nature 2016, 533, 73. doi: 10.1038/nature17439

    11. [11]

      (11) Roszak, R.; Beker, W.; Molga, K.; Grzybowski, B. A. J. Am. Chem. Soc. 2019, 141, 17142. doi: 10.1021/jacs.9b05895(11) Roszak, R.; Beker, W.; Molga, K.; Grzybowski, B. A. J. Am. Chem. Soc. 2019, 141, 17142. doi: 10.1021/jacs.9b05895

    12. [12]

      (12) Gao, H.; Struble, T. J.; Coley, C. W.; Wang, Y.; Green, W. H.; Jensen, K. F. ACS Central Sci. 2018, 4, 1465. doi: 10.1021/acscentsci.8b00357(12) Gao, H.; Struble, T. J.; Coley, C. W.; Wang, Y.; Green, W. H.; Jensen, K. F. ACS Central Sci. 2018, 4, 1465. doi: 10.1021/acscentsci.8b00357

    13. [13]

      (13) Zahrt, A. F.; Henle, J. J.; Rose, B. T.; Wang, Y.; Darrow, W. T.; Denmark, S. E. Science 2019, 363, 1. doi: 10.1126/science.aau5631(13) Zahrt, A. F.; Henle, J. J.; Rose, B. T.; Wang, Y.; Darrow, W. T.; Denmark, S. E. Science 2019, 363, 1. doi: 10.1126/science.aau5631

    14. [14]

      (14) Reid, J. P.; Sigman, M. S. Nature 2019, 571, 343. doi: 10.1038/s41586-019-1384-z(14) Reid, J. P.; Sigman, M. S. Nature 2019, 571, 343. doi: 10.1038/s41586-019-1384-z

    15. [15]

      (15) Segler, M. H. S.; Preuss, M.; Waller, M. P. Nature 2018, 555, 604. doi: 10.1038/nature25978(15) Segler, M. H. S.; Preuss, M.; Waller, M. P. Nature 2018, 555, 604. doi: 10.1038/nature25978

    16. [16]

      (16) Coley, C. W.; Thomas, D. A.; Lummiss, J. A. M.; Jaworski, J. N.; Breen, C. P.; Schultz, V.; Hart, T.; Fishman, J. S.; Rogers, L,; Gao, H.; et al. Science 2019, 365, 1. doi: 10.1126/science.aax1566(16) Coley, C. W.; Thomas, D. A.; Lummiss, J. A. M.; Jaworski, J. N.; Breen, C. P.; Schultz, V.; Hart, T.; Fishman, J. S.; Rogers, L,; Gao, H.; et al. Science 2019, 365, 1. doi: 10.1126/science.aax1566

    17. [17]

      (17) Santanilla, A. B.; Regalado, E. L.; Pereira, T.; Shevlin, M.; Bateman, K.; Campeau, L. C.; Schneeweis, J.; Berritt, S.; Shi, Z. C.; Nantermet, P.; et al. Science 2015, 347, 49. doi: 10.1126/science.1259203(17) Santanilla, A. B.; Regalado, E. L.; Pereira, T.; Shevlin, M.; Bateman, K.; Campeau, L. C.; Schneeweis, J.; Berritt, S.; Shi, Z. C.; Nantermet, P.; et al. Science 2015, 347, 49. doi: 10.1126/science.1259203

    18. [18]

      (18) Krska, S. W.; DiRocco, D. A.; Dreher, S. D.; Shevlin, M. Accounts Chem. Res. 2017, 50, 2976. doi: 10.1021/acs.accounts.7b00428(18) Krska, S. W.; DiRocco, D. A.; Dreher, S. D.; Shevlin, M. Accounts Chem. Res. 2017, 50, 2976. doi: 10.1021/acs.accounts.7b00428

    19. [19]

      (19) Mennen, S. M.; Alhambra, C.; Allen, C. L.; Barberis, M.; Berritt, S.; Brandt, T. A.; Campbell, A. D.; Castañón, J.; Cherney, A. H.; Christensen, M.; et al. Org. Process Res. Dev. 2019, 23, 1213. doi: 10.1021/acs.oprd.9b00140(19) Mennen, S. M.; Alhambra, C.; Allen, C. L.; Barberis, M.; Berritt, S.; Brandt, T. A.; Campbell, A. D.; Castañón, J.; Cherney, A. H.; Christensen, M.; et al. Org. Process Res. Dev. 2019, 23, 1213. doi: 10.1021/acs.oprd.9b00140

    20. [20]

      (20) Seefried, F.; Schmidt, T.; Reinecke, M.; Heinzlmeir, S.; Kuster, B.; Wilhelm, M. J. Proteome Res. 2019, 18, 1486. doi: 10.1021/acs.jproteome.8b00724(20) Seefried, F.; Schmidt, T.; Reinecke, M.; Heinzlmeir, S.; Kuster, B.; Wilhelm, M. J. Proteome Res. 2019, 18, 1486. doi: 10.1021/acs.jproteome.8b00724

    21. [21]

      (21) Figueiredo, R. M.; Suppo, J. S.; Campagne, J. M. Chem. Rev. 2016, 116, 12029. doi: 10.1021/acs.chemrev.6b00237(21) Figueiredo, R. M.; Suppo, J. S.; Campagne, J. M. Chem. Rev. 2016, 116, 12029. doi: 10.1021/acs.chemrev.6b00237

    22. [22]

      (22) Roughley, S. D.; Jordan, A. M. J. Med. Chem. 2011, 54, 3451. doi: 10.1021/jm200187y(22) Roughley, S. D.; Jordan, A. M. J. Med. Chem. 2011, 54, 3451. doi: 10.1021/jm200187y

    23. [23]

      (23) Sabatini, M. T.; Boulton, L. T.; Sneddon, H. F.; Sheppard, T. D. Nat. Catal. 2019, 2, 10. doi: 10.1038/s41929-018-0211-5(23) Sabatini, M. T.; Boulton, L. T.; Sneddon, H. F.; Sheppard, T. D. Nat. Catal. 2019, 2, 10. doi: 10.1038/s41929-018-0211-5

    24. [24]

      (24) Brown, D. G.; Bostrom, J. J. Med. Chem. 2016, 59, 4443. doi: 10.1021/acs.jmedchem.5b01409(24) Brown, D. G.; Bostrom, J. J. Med. Chem. 2016, 59, 4443. doi: 10.1021/acs.jmedchem.5b01409

    25. [25]

      (25) Halford, B. ACS Central Sci. 2022, 8, 405. doi: 10.1021/acscentsci.2c00369(25) Halford, B. ACS Central Sci. 2022, 8, 405. doi: 10.1021/acscentsci.2c00369

    26. [26]

      (26) Syed, Y. Y. Drugs 2022, 82, 455. doi: 10.1007/s40265-022-01684-5(26) Syed, Y. Y. Drugs 2022, 82, 455. doi: 10.1007/s40265-022-01684-5

    27. [27]

      (27) Ghosh, S. C.; Ngiam, J. S.; Seayad, A. M.; Tuan, D. T.; Chai, C. L. L.; Chen, A. J. Org. Chem. 2012, 77, 8007. doi: 10.1021/jo301252c(27) Ghosh, S. C.; Ngiam, J. S.; Seayad, A. M.; Tuan, D. T.; Chai, C. L. L.; Chen, A. J. Org. Chem. 2012, 77, 8007. doi: 10.1021/jo301252c

    28. [28]

      (28) Pattabiraman, V. R.; Bode, J. W. Nature 2011, 480, 471. doi: 10.1038/nature10702(28) Pattabiraman, V. R.; Bode, J. W. Nature 2011, 480, 471. doi: 10.1038/nature10702

    29. [29]

      (29) Beker, W.; Gajewska, E. P.; Badowski, T.; Grzybowski, B. A. Angew. Chem.-Int. Edit. 2019, 58, 4515. doi: 10.1002/anie.201806920(29) Beker, W.; Gajewska, E. P.; Badowski, T.; Grzybowski, B. A. Angew. Chem.-Int. Edit. 2019, 58, 4515. doi: 10.1002/anie.201806920

    30. [30]

      (30) Aydogdu, S.; Hatipoglu, A. J. Indian Chem. Soc. 2022, 99, 100752. doi: 10.1016/j.jics.2022.100752(30) Aydogdu, S.; Hatipoglu, A. J. Indian Chem. Soc. 2022, 99, 100752. doi: 10.1016/j.jics.2022.100752

    31. [31]

      (31) Ma, Y.; Zhang, X.; Zhu, L.; Feng, X.; Kowah, J. A. H.; Jiang, J.; Wang, L.; Jiang, L.; Liu, X. Molecules 2023, 28, 5995. doi: 10.3390/molecules28165995(31) Ma, Y.; Zhang, X.; Zhu, L.; Feng, X.; Kowah, J. A. H.; Jiang, J.; Wang, L.; Jiang, L.; Liu, X. Molecules 2023, 28, 5995. doi: 10.3390/molecules28165995

    32. [32]

      (32) Ramakrishnan, R.; Dral, P. O.; Rupp, M.; Lilienfeld, O. A. V. Sci. Data 2014, 1, 140022. doi: 10.1038/sdata.2014.22(32) Ramakrishnan, R.; Dral, P. O.; Rupp, M.; Lilienfeld, O. A. V. Sci. Data 2014, 1, 140022. doi: 10.1038/sdata.2014.22

    33. [33]

      (33) Tsubaki, M.; Mizoguchi, T. J. Phys. Chem. Lett. 2018, 9, 5733. doi: 10.1021/acs.jpclett.8b01837(33) Tsubaki, M.; Mizoguchi, T. J. Phys. Chem. Lett. 2018, 9, 5733. doi: 10.1021/acs.jpclett.8b01837

    34. [34]

      (34) https://github.com/doylelab/rxnpredict (accessed Dec. 28, 2023)(34) https://github.com/doylelab/rxnpredict (accessed Dec. 28, 2023)

    35. [35]

      (35) Yousef, W. A. Pattern Recognit. Lett. 2021, 146, 115. doi: 10.1016/j.patrec.2021.02.022(35) Yousef, W. A. Pattern Recognit. Lett. 2021, 146, 115. doi: 10.1016/j.patrec.2021.02.022

    36. [36]

      (36) Dodge, Y. The Concise Encyclopedia of Statistics; Springer New York: New York, NY, USA, 2008; pp. 88–91.(36) Dodge, Y. The Concise Encyclopedia of Statistics; Springer New York: New York, NY, USA, 2008; pp. 88–91.

    37. [37]

      (37) Zollanvari, A.; Dougherty, E. R. Pattern Recognit. 2014, 47, 2178. doi: 10.1016/j.patcog.2013.11.022(37) Zollanvari, A.; Dougherty, E. R. Pattern Recognit. 2014, 47, 2178. doi: 10.1016/j.patcog.2013.11.022

    38. [38]

      (38) Song, W.; Dong, K.; Li, M. Org. Lett. 2020, 22, 371. doi: 10.1021/acs.orglett.9b03905(38) Song, W.; Dong, K.; Li, M. Org. Lett. 2020, 22, 371. doi: 10.1021/acs.orglett.9b03905

    39. [39]

      (39) Mali, S. M.; Bhaisare, R. D.; Gopi, H. N. J. Org. Chem. 2013, 78, 5550. doi: 10.1021/jo400701v(39) Mali, S. M.; Bhaisare, R. D.; Gopi, H. N. J. Org. Chem. 2013, 78, 5550. doi: 10.1021/jo400701v

    40. [40]

      (40) Chen, Z.; Fu, R.; Chai, W.; Zheng, H.; Sun, L.; Lu, Q.; Yuan, R. Tetrahedron 2014, 70, 2237. doi: 10.1016/j.tet.2014.02.042(40) Chen, Z.; Fu, R.; Chai, W.; Zheng, H.; Sun, L.; Lu, Q.; Yuan, R. Tetrahedron 2014, 70, 2237. doi: 10.1016/j.tet.2014.02.042

    41. [41]

      (41) Li, X.; Li, Z.; Deng, H.; Deng, H.; Zhou, X. Tetrahedron Lett. 2013, 54, 2212. doi: 10.1016/j.tetlet.2013.02.058(41) Li, X.; Li, Z.; Deng, H.; Deng, H.; Zhou, X. Tetrahedron Lett. 2013, 54, 2212. doi: 10.1016/j.tetlet.2013.02.058

  • 加载中
计量
  • PDF下载量:  3
  • 文章访问数:  89
  • HTML全文浏览量:  14
文章相关
  • 收稿日期:  2023-09-27
  • 接受日期:  2023-11-30
  • 修回日期:  2023-11-29
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章