基于蜉蝣算法的近紅外光譜變量選擇方法研究
writer:汪若馨,閆廣河,劉鵬,張妍*,卞希慧*
keywords:近紅外光譜,變量選擇,蜉蝣算法,偏最小二乘,群體智能優化
source:期刊
specific source:分析化學,2024, 52(11): 1717-1725
Issue time:2024年
近紅外光譜具有簡單、快速和無損等特點,已成為復雜體系定性和定量分析廣泛采用的分析技術。然而近紅外光譜往往包含大量與目標組分不相關的冗余波長,導致預測模型的預測性能變差,因此在建模前需對光譜變量進行選擇。本研究首次將蜉蝣算法(Mayfly algorithm, MA)離散化并用于近紅外光譜定量分析。MA模擬蜉蝣的求偶與交配行為,首先設置相同數量的雌性和雄性蜉蝣個體,對蜉蝣進行位置更新并離散。雄性蜉蝣翩然起舞吸引雌性蜉蝣,它們通過“門當戶對”的交配以及突變的方式產生子代,子代數量固定為20。將得到的子代加入原始種群中,根據總種群數保留相應數量的最優個體,使種群數在每次迭代后保持不變。形成的新一代種群進行下一次迭代。重復上述過程,直至達到最大迭代次數。采用玉米和摻偽植物油的近紅外光譜數據驗證了MA算法的性能。對MA算法中重力系數、迭代次數和種群數量三個參數進行優化。將MA選擇后的變量與待分析組分的含量建立偏最小二乘(Partial least squares, PLS)模型,并與全光譜PLS模型進行對比。結果顯示,MA-PLS模型對玉米數據集中油、水分、蛋白質和淀粉含量預測的預測均方根誤差(Root mean square error of prediction, RMSEP)比PLS模型分別下降了30.59%、40.24%、36.96%和27.93%,對摻偽植物油數據集中紫蘇籽油、大豆油、玉米油和棉籽油含量預測的RMSEP分別下降了83.85%、90.90%、81.60%和92.18%。此外,MA-PLS所使用的變量數也顯著少于PLS模型。因此,MA算法能夠有效地降低PLS模型的復雜度,提高PLS模型預測的準確性。