近年来,计算和表征材料性质的方法发展迅速。在材料性质计算方面,分子动力学(MD)模拟等方法在自由能计算和药物发现方面取得了良好的结果。除了材料性能计算外,材料性能表征也是材料研究的重要组成部分。在各种表征方法中,电子显微镜,包括扫描电子显微镜(SEM)、透射电子显微镜(TEM)等,是表征材料宏观和内在性能的重要手段。在现阶段,这种检测技术在很大程度上依赖于人工观察和判断,耗时、耗力且难以量化。基于材料微观图像分析进行材料性质判断的自动化、定量化和智能化,无疑是值得探索的研究方向。
本工作中,作者以高分子相容性作为具体研究对象开展了研究。高分子相容性是高分子共混中影响共混材料性能的一个关键物理量。高分子相容性一般指高分子在分子尺度上的可混溶性,相容性差将严重限制高分子共混物的使用。对于高分子相容性的识别,研究者们通常使用SEM、DSC(差示扫描量热仪)等手段进行分析,并通过经验对结果进行人工判别,而计算机视觉的相关技术有望将这一过程自动化。
作者通过从大量已发表的相关文献与部分高分子数据库中收集相关数据,获取了一批高分子微观结构的SEM图片与对应的相容性标签,构建为供机器学习模型训练与测试的数据集。在机器学习模型上,作者使用了卷积神经网络(CNN)中目前性能最佳的图像分类神经网络包括VGG、ResNet、DenseNet,并与传统边缘检测算法进行了比较(图2)。为了解决训练数据不足的问题,作者使用迁移学习方法,将模型在大规模数据集ImageNet上进行预训练,接着使用共混物的SEM 图片对模型参数进行微调。除此之外,作者还通过对图片进行平移、旋转、翻折、裁剪等操作实现了数据增广。最终,模型实现了测试集上94%的准确率,高于传统算法的识别准确率,并与该领域研究工作者进行的人工识别对照组准确率接近。通过消融实验,作者验证了预训练对于模型效果提升的重要作用,为解决目前化学领域普遍存在的少样本问题提供了思路。此外,作者还通过处理模型的输出结果,尝试建立了关于相容性的定量描述。
图2 用于预测聚合物共混物混溶性的CNN模型图。(A)VGG16;(B)ResNet18;(C)DenseNet121。
研究还得出了一些有趣的结果。不同的深度学习模型在预训练过程中表现不同,并且在预训练过程中的表现与模型在测试集上的准确率趋于一致(图3)。在定量化描述方面,现有的结果显示出两极分化。混溶样品的定量结果非常接近“1”,而不混溶样品则接近“0”,这与训练过程中所给的标签有关,未来在更精细的标注下将得到改善。尽管取得了较高的识别准确率,这种方法的性能还受到SEM图像质量和清晰度的限制。此外,在许多实际应用中还存在更复杂的情况(例如三元或四元共混物)。未来,随着数据集的增加,我们希望所建立的模型能够在非理想情况下表现得更好。
图3 训练过程中模型在训练集和测试集上的准确率变化(横轴为训练轮数)。(A)、(B)为训练集上结果;(C)、(D)为测试集上结果。
这项工作属于让化学实验的表征与分析更加自动化和智能化的探索,这对于未来高通量自动化化学实验具有重要意义。此外,这项技术可以迁移到其他的材料性能预测中,并且不局限于SEM图像,如红外光谱等其他的化学测试结果也可以通过机器学习方法进行分析,这将激发更多将人工智能用于物质科学研究的创造性方法,促进跨学科的发展。
原文链接:https://doi.org/10.1021/acs.jcim.3c00489
下载:Automatically Predict Material Properties with Microscopic Image: Example Polymer Miscibility