基于蜉蝣算法的近紅外光譜變量選擇方法研究
作者:汪若馨,閆廣河,劉鵬,張妍*,卞希慧*
關(guān)鍵字:近紅外光譜,變量選擇,蜉蝣算法,偏最小二乘,群體智能優(yōu)化
論文來(lái)源:期刊
具體來(lái)源:分析化學(xué),2024, 52(11): 1717-1725
發(fā)表時(shí)間:2024年
近紅外光譜具有簡(jiǎn)單、快速和無(wú)損等特點(diǎn),已成為復(fù)雜體系定性和定量分析廣泛采用的分析技術(shù)。然而近紅外光譜往往包含大量與目標(biāo)組分不相關(guān)的冗余波長(zhǎng),導(dǎo)致預(yù)測(cè)模型的預(yù)測(cè)性能變差,因此在建模前需對(duì)光譜變量進(jìn)行選擇。本研究首次將蜉蝣算法(Mayfly algorithm, MA)離散化并用于近紅外光譜定量分析。MA模擬蜉蝣的求偶與交配行為,首先設(shè)置相同數(shù)量的雌性和雄性蜉蝣個(gè)體,對(duì)蜉蝣進(jìn)行位置更新并離散。雄性蜉蝣翩然起舞吸引雌性蜉蝣,它們通過(guò)“門(mén)當(dāng)戶對(duì)”的交配以及突變的方式產(chǎn)生子代,子代數(shù)量固定為20。將得到的子代加入原始種群中,根據(jù)總種群數(shù)保留相應(yīng)數(shù)量的最優(yōu)個(gè)體,使種群數(shù)在每次迭代后保持不變。形成的新一代種群進(jìn)行下一次迭代。重復(fù)上述過(guò)程,直至達(dá)到最大迭代次數(shù)。采用玉米和摻偽植物油的近紅外光譜數(shù)據(jù)驗(yàn)證了MA算法的性能。對(duì)MA算法中重力系數(shù)、迭代次數(shù)和種群數(shù)量三個(gè)參數(shù)進(jìn)行優(yōu)化。將MA選擇后的變量與待分析組分的含量建立偏最小二乘(Partial least squares, PLS)模型,并與全光譜PLS模型進(jìn)行對(duì)比。結(jié)果顯示,MA-PLS模型對(duì)玉米數(shù)據(jù)集中油、水分、蛋白質(zhì)和淀粉含量預(yù)測(cè)的預(yù)測(cè)均方根誤差(Root mean square error of prediction, RMSEP)比PLS模型分別下降了30.59%、40.24%、36.96%和27.93%,對(duì)摻偽植物油數(shù)據(jù)集中紫蘇籽油、大豆油、玉米油和棉籽油含量預(yù)測(cè)的RMSEP分別下降了83.85%、90.90%、81.60%和92.18%。此外,MA-PLS所使用的變量數(shù)也顯著少于PLS模型。因此,MA算法能夠有效地降低PLS模型的復(fù)雜度,提高PLS模型預(yù)測(cè)的準(zhǔn)確性。