搜索:  
长春应化所孙昭艳研究员团队 Macromolecules:基于化学知识数据增强的图神经网络开发高耐热高分子材料
2024-04-25  来源:高分子科技

  机器学习辅助聚合物设计已有一系列成功的案例。然而,其在高分子材料领域的应用仍处于初级阶段,其原因在于高分子材料具有结构多尺度、性能影响因素多样、数据集小等特点,这使得高分子材料的机器学习建模存在系列难题亟待突破。特别是聚合物的配方、合成、加工以及性能表征结果受多因素影响,高质量的数据极为稀缺,使得机器学习模型的训练性能和推理可靠性存在一定风险,需要发展新方法解决高分子材料中的小数据问题。


图一 基于化学知识数据增强的图神经网络框架


  近期,中国科学院长春应用化学研究所孙昭艳研究员团队提出并验证了一种基于化学知识的数据增强方案用于提升机器学习模型精度。具体来说,通过利用现成的来自其他聚合物的数据,对聚酰亚胺的化学空间进行补充,弥补了聚酰亚胺数据集中分子结构和链结构较为局限的困境(聚酰亚胺结构主要包括苯环、杂环等刚性结构)。这种巧妙的思路被证明可有效提升模型精度(图二),定性地研究了化学空间分布对模型性能的影响(图三),并给我们一个数据层面的启示:相比于无休止地进行数据挖掘,精制一个具备结构代表性和全面性的化学空间更加重要(数据过多导致的数据冗余反而不利于模型训练)。


  作为案例验证,该模型被用于开发高耐热聚酰亚胺(PI)材料,开发目标为筛选容易合成且耐热温度(以Tg为指标)不低于350℃PI(图四),以用作柔性显示的潜在衬底材料。通过子结构分析和对机器学习预测结果的分析,发现机器学习模型认为含有氢键的PI具有更高的耐热性能(这与化学直觉一致)。结合可合成性分数SAscore,从超过820万种候选结构中筛选出8种容易合成且具备优异耐热性能的PI(图五)。实验合成与表征验证这些结构具备极佳的耐热性能(图六)。这项工作为高耐热PI材料开发设计了一系列潜在结构,并为解决高分子机器学习中的小数据问题提供了一种方案。该工作以“Heat-Resistant Polymer Discovery by Utilizing Interpretable Graph Neural Network with Small Data”为题发表在《Macromolecules》上(Macromolecules 2024https://doi.org/10.1021/acs.macromol.4c00508)。长春应用化学研究所博士生仇浩科为论文第一作者,代学民副研究员和孙昭艳研究员为论文共同通讯作者。 


图二 模型性能随补充数据的变化


图三 模型化学空间分布变化


图四 筛选过程 


图五 筛选出的PI结构


图六 筛选出的8PIDMA结果


  该工作是团队近期关于高分子机器学习研究的最新进展之一。在过去的两年中,团队系统性地探索了环氧树脂粘度(Polymer 2022, 256, 125216)、聚酰亚胺玻璃化温度(J. Mater. Chem. C, 2023, 11, 2930)、聚氨酯应力应变曲线(Chinese J. Polym. Sci. 2023, 41, 422)、高分子大语言模型(Chem. Sci., 2024, 15, 534)等研究。


  原文链接:https://pubs.acs.org/doi/10.1021/acs.macromol.4c00508

版权与免责声明:中国聚合物网原创文章。刊物或媒体如需转载,请联系邮箱:info@polymer.cn,并请注明出处。
(责任编辑:xu)
】【打印】【关闭

诚邀关注高分子科技

更多>>最新资讯
更多>>科教新闻