基于蜉蝣算法的近红外光谱变量选择方法研究
writer:汪若馨,闫广河,刘鹏,张妍*,卞希慧*
keywords:近红外光谱,变量选择,蜉蝣算法,偏最小二乘,群体智能优化
source:期刊
specific source:分析化学,2024,12
Issue time:2024年
近红外光谱具有简单、快速和无损等特点,已成为复杂体系定性和定量分析广泛采用的分析技术。然而近红外光谱往往包含大量与目标组分不相关的冗余波长,导致预测模型的预测性能变差,因此在建模前需对光谱变量进行选择。本研究首次将蜉蝣算法(Mayfly algorithm, MA)离散化并用于近红外光谱定量分析。MA模拟蜉蝣的求偶与交配行为,首先设置相同数量的雌性和雄性蜉蝣个体,对蜉蝣进行位置更新并离散。雄性蜉蝣翩然起舞吸引雌性蜉蝣,它们通过“门当户对”的交配以及突变的方式产生子代,子代数量固定为20。将得到的子代加入原始种群中,根据总种群数保留相应数量的最优个体,使种群数在每次迭代后保持不变。形成的新一代种群进行下一次迭代。重复上述过程,直至达到最大迭代次数。采用玉米和掺伪植物油的近红外光谱数据验证了MA算法的性能。对MA算法中重力系数、迭代次数和种群数量三个参数进行优化。将MA选择后的变量与待分析组分的含量建立偏最小二乘(Partial least squares, PLS)模型,并与全光谱PLS模型进行对比。结果显示,MA-PLS模型对玉米数据集中油、水分、蛋白质和淀粉含量预测的预测均方根误差(Root mean square error of prediction, RMSEP)比PLS模型分别下降了30.59%、40.24%、36.96%和27.93%,对掺伪植物油数据集中紫苏籽油、大豆油、玉米油和棉籽油含量预测的RMSEP分别下降了83.85%、90.90%、81.60%和92.18%。此外,MA-PLS所使用的变量数也显著少于PLS模型。因此,MA算法能够有效地降低PLS模型的复杂度,提高PLS模型预测的准确性。