引用本文:陈瀑,戴嘉伟,李敬岩,等. 近红外光谱分析中的化学计量学方法进展[J]. 化学试剂, 2023, 45(6): 105-112.
DOI: 10.13822/j.cnki.hxsj.2023.0048褚小立 《化学试剂》编委
(资料图片仅供参考)
中石化石油化工科学研究院教授级高工,博士。一直从事分子光谱结合化学计量学方法在油品分析中的研究和应用工作,先后主持和参与了国家科技部、国家自然科学基金和中石化等20余项基础研究和产品研发等科研项目。在近红外光谱理论、化学计量学算法、仪器研制、工程应用等多学科交叉的研究领域取得了多项科研成果。申请发明专利80余项,在国内外期刊发表论文100余篇,出版《化学计量学与分子光谱分析技术》《近红外光谱分析技术实用手册》《新青胜蓝惟所盼—陆婉珍传》等专著。曾获军队科技进步一等奖1项,中石化科技进步奖多项,中国石油和化学工业联合会、中国分析测试协会、中国仪器仪表学会等科学技术奖多项。
背景介绍
近红外光谱分析技术已得到了较为广泛的实际应用,尤其是在现场快速和工业在线等方面发挥着越来越重要的作用。化学计量学方法是这项技术的一个关键特征,它能从光谱中获得尽可能多的有用信息,从而提高分析结果的稳健性和准确性。随着人工智能(机器学习和深度学习)、大数据和云计算等新兴科技的飞速发展,为化学计量学注入了新思路、新途径和新方法。
文章亮点
1
综述了近十年用于近红外光谱分析的各种化学计量学方法新进展,包括光谱预处理方法、波长选择方法、多元定量和定性校正方法、多数据融合方法、以及模型维护和模型传递方法等,并对这些方法的未来发展方向进行展望;
2
从发展趋势可以看出,“实际应用驱动”仍是其发展的强大推动力,深度学习、多数据融合和免建模方法是未来一段时间内光谱分析中化学计量学研究的重要方向。
内容介绍
1
光谱预处理方法光谱预处理的目的是从光谱信号中去除不必要的变化或影响,常用的光谱预处理方法有去噪、傅立叶变换、小波变换、求导、标准正态变量变换(SNV)、乘性散射校正(MSC)、正交信号校正(OSC)和净分析信号等,以及上述这些方法的改进算法[5]。
2
变量选择方法
在近红外光谱分析中,波长特征变量的选择对建立预测能力强、稳健性好的分析模型尤为重要。
3
数据降维方法光谱数据降维可以在减小数据冗余的基础上,降低算法的复杂度和运行时间,其实现方式主要包括上节介绍的变量或特征选择(Feature Selection)和特征提取或特征变换(Feature Extraction)两类方法。4
多元定量和定性校正方法
光谱多元定量校正方法包括线性和非线性两类,其中最常用的线性校正算法是偏最小二乘方法 [32] 。近些年,最小绝对收缩和选择算法( Lasso )、最小角回归( LARS )和弹性网络等方法也越来越多地用于线性校正模型的建立以及特征变量的选择。 集成(或共识)的建模策略可提高模型的预测稳定性和准确性,成员模型样本的选择对集成建模非常重要,Bagging与Boosting是常用的两种方法。除了基于校正集样本选取的集成建模策略外,还有基于波长范围选取、数据预处理(图1)、校正算法以及与浓度分类相结合的集成建模方式 [37] 。 图1 基于数据预处理方法的集成建模策略对于单类(即正常样本和非正常样本)的判别分析(One-class Classification),例如中药材的原产地、食品掺假、药物真伪鉴别等,常采用数据驱动SIMCA方法(DD-SIMCA)单类偏最小二乘(OCPLS)、单类支持向量机(OCSVM)以及单类随机森林(OCRF)等[39]。如图2所示,该方法通过概率统计分析可给出正常样本的卡方接受区域,也能给出极端样本和非正常样本的分布区域[40]。
图2DD-SIMCA方法得到的卡方接受区域示意图5
多光谱融合方法多光谱数据融合技术将不同类型的光谱数据进行优化、整合,通过综合多种来源的信息发挥光谱之间的互补性和协同性,实现提高模型预测准确性和稳定性的目的。根据多光谱数据融合结构的不同,可将融合策略分为3大类,低层融合、中层融合和高层融合 [52] 。 图3 高层决策级融合的框架示意图6
模型维护和模型传递方法模型维护与模型传递密不可分,尤其是随着消费端便携式和袖珍式光谱仪器的不断普及,如何将实验室主机上的模型传递到消费端的仪器上,以及如何利用消费端仪器上大量无标准参考数据(或无标签)的光谱数据对模型进行维护,新型模型维护和模型传递方法将变得越来越重要,尤其是无标样的模型传递方法将发挥极其重要的作用。7
结论近红外光谱分析技术已得到了较为广泛的实际应用,尤其是在现场快速和工业在线等方面发挥着越来越重要的作用。随着化学计量学学科逐渐走入大学生的课堂,这项分析技术必将会越来越普及,成为化学分析和过程分析工作者的一种常用手段。深度学习算法在很大程度上可以解决复杂的建模任务,但其在光谱分析中的应用研究刚刚起步,网络规模、超参数优化、模型可解释性、过拟合等问题仍需要深入研究。本刊推荐
(点击图片可跳转到专辑文章)
关键词: