从古老的结绳计数、甲骨文到现代的音频、视频,各式各样的“语言“推动了人类文明的前进。最近的大语言模型(LLMs),以其用户友好的输入格式、强大的生成能力,正在重塑计算机视觉和自然语言处理领域,也让我们开始期待LLMs在帮助科学研究中的前景。
LLMs可在诸如性质预测、材料设计、分子描述等科学任务中发挥作用,并已经在生命科学、无机材料领域有了成功的案例,如bioGPT(Brief. Bioinformatics, 2022, 23, 6, bbac409)和MatChat(Chinese Phys. B, 2023, 32, 118104)。然而,在聚合物领域,目前只有两个基于LLMs开发的聚合物模型,即TransPolymer(npj Comput. Mater., 2023, 9, 64)和polyBERT(Nat. Commun., 2023, 14, 4099)。但它们仍然采用以往的特征提取范式,从预训练语言模型中提取聚合物结构(如SMILES)的机器描述符,作为下游机器学习模型的输入向量,未能充分发挥语言模型的优势。
长春应用化学研究所孙昭艳研究员课题组最近正在进行聚合物的机器学习研究,并建立了一系列聚合物构效关系模型(Polymer, 2022, 256, 125216; J. Mater. Chem. C, 2023, 11(8), 2930-2940等)。为了开发聚合物LLMs原型,孙昭艳研究员课题组推出了PolyNC(图1),一个完全基于自然语言和化学语言输入的聚合物性质预测模型。PolyNC消除了以往聚合物机器学习过程中手工制作描述符或指纹的需要。相反,它直接以人类自然语言提示和聚合物结构(例如常用的SMILES表示法)作为输入,并生成所需的输出。
图1. PolyNC模型架构
图2. PolyNC在聚合物回归、分类任务上取得优异性能
图3. 模型训练动力学和表现
图4. 泛化能力测试
图5. 注意力分析
图6. 人工智能辅助科学研究
论文链接:https://doi.org/10.1039/D3SC05079C
- 南科大郭旭岗教授/海南大学陈志才副教授 Angew:氰基化丁二烯基缺电子结构单元的构筑及其在n型聚合物开发中的应用 2023-08-04
- 海绵状聚合物开发中 将可以补骨骼空洞 2014-08-18
- 美利用银纳米线嵌入高分子聚合物开发出弹性导体 2012-08-02