基于蜉蝣算法的近红外光谱变量选择方法研究

来源：卞希慧教授个人网站发布日期：2024-10-30

作者：汪若馨，闫广河，刘鹏，张妍*，卞希慧*
关键字：近红外光谱，变量选择，蜉蝣算法，偏最小二乘，群体智能优化
论文来源：期刊
具体来源：分析化学，2024，12
发表时间：2024年
近红外光谱具有简单、快速和无损等特点，已成为复杂体系定性和定量分析广泛采用的分析技术。然而近红外光谱往往包含大量与目标组分不相关的冗余波长，导致预测模型的预测性能变差，因此在建模前需对光谱变量进行选择。本研究首次将蜉蝣算法（Mayfly algorithm, MA）离散化并用于近红外光谱定量分析。MA模拟蜉蝣的求偶与交配行为，首先设置相同数量的雌性和雄性蜉蝣个体，对蜉蝣进行位置更新并离散。雄性蜉蝣翩然起舞吸引雌性蜉蝣，它们通过“门当户对”的交配以及突变的方式产生子代，子代数量固定为20。将得到的子代加入原始种群中，根据总种群数保留相应数量的最优个体，使种群数在每次迭代后保持不变。形成的新一代种群进行下一次迭代。重复上述过程，直至达到最大迭代次数。采用玉米和掺伪植物油的近红外光谱数据验证了MA算法的性能。对MA算法中重力系数、迭代次数和种群数量三个参数进行优化。将MA选择后的变量与待分析组分的含量建立偏最小二乘（Partial least squares, PLS）模型，并与全光谱PLS模型进行对比。结果显示，MA-PLS模型对玉米数据集中油、水分、蛋白质和淀粉含量预测的预测均方根误差（Root mean square error of prediction, RMSEP）比PLS模型分别下降了30.59%、40.24%、36.96%和27.93%，对掺伪植物油数据集中紫苏籽油、大豆油、玉米油和棉籽油含量预测的RMSEP分别下降了83.85%、90.90%、81.60%和92.18%。此外，MA-PLS所使用的变量数也显著少于PLS模型。因此，MA算法能够有效地降低PLS模型的复杂度，提高PLS模型预测的准确性。

了解更多信息请进入卞希慧教授个人网站