最常见的近红外光谱的预处理技术的综述
- 格式:doc
- 大小:2.25 MB
- 文档页数:25
近红外光谱数据预处理
近红外光谱数据预处理是将原始光谱数据进行清洗、校正和转换,以提高数据质量并使其适合后续数据分析和建模。
下面是一些常见的近红外光谱数据预处理步骤:
1. 背景处理:处理光谱中的背景噪声。
可以通过采集背景光谱并从样本光谱中减去背景光谱来实现。
2. 光谱对齐:将不同样本的光谱对齐,以确保它们从同样的起点和终点开始。
这可以通过插值或者使用标准光谱进行校准来实现。
3. 波长选择:选择感兴趣的波长范围。
有时,只有特定的波长信息是有用的,可以通过删除不必要的波长来减小数据集的维度。
4. 数据平滑:使用平滑算法(如Savitzky-Golay算法)来降低数据中的噪声,并提高光谱的光滑性。
5. 数据标准化:对光谱数据进行标准化,使得不同样本的数值范围一致。
常用的标准化方法包括最大最小值标准化、均值方差标准化等。
6. 数据去噪:对光谱数据进行去噪处理,例如使用小波变换或者降噪算法(如小波阈值降噪)。
7. 数据降维:对光谱数据进行降维处理,以减少数据的维度和特征数量。
常见的降维方法包括主成分分析(PCA)和偏最小二乘回归(PLS)等。
8. 数据插补:对存在缺失值或异常值的数据进行插补或处理,以填补数据空缺或修复异常值。
以上是一般常见的近红外光谱数据预处理步骤,具体的预处理方法可以根据数据的特点和需求进行选择和调整。
近红外光谱分析的原理技术与应用引言近红外光谱分析是一种非破坏性、快速、准确的分析技术,广泛应用于食品、医药、化妆品、环境监测等领域。
本文将介绍近红外光谱分析的原理、技术和应用。
近红外光谱分析的原理近红外光谱分析利用物质吸收或反射近红外光时产生的特征光谱来分析物质的成分和性质。
近红外光谱分析主要基于以下两个原理:1.分子振动吸收原理:物质中的化学键振动会引起近红外光的吸收,吸收峰的位置与化学键的特异性有关。
2.红外光与物质的相互作用原理:物质吸收了红外光后,其分子内部发生改变,从而产生特征的近红外光谱。
近红外光谱分析的技术近红外光谱分析的技术主要包括光源、光谱仪和数据处理三个方面。
光源常用的光源有白炽灯、光电二极管和激光等。
其中白炽灯发射连续谱,适用于宽波长范围的分析;光电二极管具有快速响应和高稳定性,常用于近红外光谱分析仪器;激光具有较高的亮度和窄的波长范围,适用于特定波长范围的分析。
光谱仪常用的光谱仪有分光镜、光栅和红外线摄像机等。
分光镜通过将近红外光谱聚焦到光栅上,并通过旋转光栅来选择不同波长光线;光栅则将不同波长的光线分散成不同的角度形成光谱;红外线摄像机可通过感应近红外光谱并将其转换成数字信号。
数据处理近红外光谱分析的数据处理通常包括预处理、特征提取和模型建立等步骤。
预处理常用的方法有光谱校正、光谱平滑和光谱标准化等;特征提取可使用主成分分析、偏最小二乘回归等方法;模型建立则可以采用多元回归分析、支持向量机等模型进行建立。
近红外光谱分析的应用近红外光谱分析在多个领域具有广泛应用,以下为几个常见的应用示例:•食品质量检测:近红外光谱分析可用于检测食品中的营养成分、添加剂和污染物等,以保证食品的安全和质量。
•药物分析:近红外光谱分析可用于药品的成分分析、质量控制以及伪药的鉴定等。
•化妆品分析:近红外光谱分析可用于分析化妆品中的成分、性质和质量,以确保产品的合规性和安全性。
•环境监测:近红外光谱分析可用于监测土壤、水质和大气中的污染物,以帮助保护环境和预防环境污染。
近红外分析中光谱预处理方法的研究与应用进展作者:王欣来源:《科技资讯》2013年第15期摘要:光谱预处理方法在近红外光谱分析技术中占居重要地位。
本文综述了均值中心化、标准化、归一化、平滑、导数、正交信号校正等常用的光谱预处理方法,着重介绍了傅里叶变换(FT)、小波变换(WT)两种基于变量压缩和信息提取的光谱预处理方法。
关键词:近红外光谱预处理小波变换中图分类号:O657.33 文献标识码:A 文章编号:1672-3791(2013)05(c)-0002-01近红外光谱(700~2500 nm)主要是含氢基团的倍频和组合频的吸收光谱,吸收强度弱,灵敏度相对较低,吸收带宽也相对较宽且重叠严重。
利用近红外光谱仪对样品进行采集,得到的光谱除了样品自身的信息外,还携带了其他无关的信息。
为了得到准确可靠的分析结果,对光谱数据进行预处理是十分必要的。
1 光谱预处理方法与应用(1)均值中心化(mean centering)。
均值中心化是从每个光谱数据中减去各个样品的平均光谱,以此来消除光谱的绝对吸收值。
在对样品进行定性和定量分析时,光谱均值中心化是最为常用的。
(2)标准化(autoscaling)。
标准化又称为均值方差化,是把均值中心化处理后的光谱再除以校正集光谱阵的标准偏差光谱。
(3)归一化(normalization)。
归一化算法有:最小/最大归一化、矢量归一化、回零校正。
在近红外光谱分析中,常用的是矢量归一化,它是先计算出光谱的吸光度平均值,然后用光谱减去该平均值,再除所有光谱的平方和。
光谱归一化的目的是消除光程变化对光谱产生的影响。
(4)平滑(smoothing)。
信号的平滑是消除噪声最常用的方法,对滤除高频噪声尤为有效。
常用的平滑方法有移动平均平滑法和Savitzky-Golay卷积平滑法。
移动平均平滑法的基本思想是选择一个宽度为的平滑窗口,计算窗口内的中心波长点g以及g点前后点处光谱测量值得平均值,用来代替波长点g处的测量值,依次改变g值来移动窗口,完成对所有波长点的平滑。
近红外光谱数据预处理
近红外光谱数据预处理是指对采集到的近红外光谱数据进行一系列处理步骤,以提高数据质量和可用性的过程。
常见的近红外光谱数据预处理方法包括:
1. 线性基线校正:校正光谱中的基线漂移,消除光谱测量仪器的非线性响应或实验环境的干扰。
2. 报告点切割:将光谱数据切割为固定的报告点,加快后续处理的速度。
一般会选择在谱段中平均分配报告点,或者根据特定的光谱信息选择报告点。
3. 扣除散射信号:由于样品中的散射现象会引起近红外光谱的背景干扰,可以通过采用光谱散射校正方法,如标准正交校正(SOC)、多元散射校正 (MSC)、小波变换等,来减少散射信号对近红外光谱的影响。
4. 多元校正方法:包括正交偏最小二乘法 (OPLS)、主成分分析 (PCA)、典型相关分析 (CCA)等,在光谱数据中提取主要变化信息和样品之间的相关性。
5. 去噪处理:对光谱数据进行平滑或降噪处理,以减少随机噪声对数据的影响,常见方法包括移动平均、中值滤波、小波去噪等。
6. 数据标准化:通过线性或非线性变换,将光谱数据转化为均值为0、标准差为1的标准正态分布数据,有助于消除不同样
品之间测量尺度的差异。
7. 去除异常值:通过统计分析方法,检测并移除光谱数据中的异常值,能够减少异常值对后续分析的干扰。
这些预处理方法可以根据具体的实验目的和数据特点进行选择和组合使用,以提取出光谱数据中的有用信息,减少噪声和干扰,进而进行进一步的数据分析和建模。
近红外光谱分析技术的数据处理方法数据处理方法主要包括光谱预处理、特征提取和模型建立三个步骤。
光谱预处理是指在进行特征提取和模型建立之前对光谱数据进行预处理,主要目的是去除噪声、修正谱线偏移、提高曲线分辨率等。
常见的光谱预处理方法有:1. Baseline Correction(基线校正):光谱图中常常存在基线漂移现象,可以通过多种方法进行校正,如直线基线校正、多项式基线校正、小波基线校正等。
2. Smoothing(平滑):常用的平滑方法有移动平均、中值平滑、高斯平滑等,可以去除谱图中的高频噪声。
3. Normalization(归一化):归一化可以将不同光谱样本之间的强度差异消除,常用的归一化方法有最小-最大归一化、标准差归一化等。
特征提取是指通过对预处理后的光谱数据进行降维或选择重要信息,提取出有效的特征用于模型建立。
常见的特征提取方法有:2. Partial Least Squares (PLS, 偏最小二乘法):通过将多个预测变量与原始的输出变量进行线性组合,找到最佳的方向,实现数据降维并提取有效特征。
3. Variable Selection(变量选择):通过对预处理后的光谱数据进行相关性分析、F检验、t检验等方法,筛选出与目标变量相关性较高的变量。
模型建立是指根据预处理后的光谱数据和与之对应的标准参照值,通过建立适当的数学模型,实现定量或定性的分析与检测。
常见的模型建立方法有:1. Partial Least Squares Regression(PLSR, 偏最小二乘回归):通过与已知样本值的相关数据分析,建立起预测模型。
2. Support Vector Machine (SVM, 支持向量机):通过寻找最佳的分割超平面,将样本划分到不同的类别中。
3. Artificial Neural Networks (ANN, 人工神经网络):通过多层神经网络对光谱数据进行训练和拟合,实现预测与分析。
现代近红外光谱技术及应用进展一、本文概述近红外光谱(Near-Infrared Spectroscopy,NIRS)是一种基于物质对近红外光的吸收和散射特性的分析技术。
近年来,随着光谱仪器设备的不断改进和计算机技术的飞速发展,现代近红外光谱技术在分析化学、生物医学、农业食品等领域的应用日益广泛。
本文旨在综述现代近红外光谱技术的最新进展,特别是在仪器设备、数据处理方法、化学计量学以及应用领域的最新发展。
文章首先介绍了近红外光谱的基本原理和技术特点,然后重点论述了现代近红外光谱技术在不同领域的应用实例和取得的成果,最后展望了未来发展方向和潜在应用前景。
通过本文的阐述,旨在为读者提供一个全面、深入的现代近红外光谱技术及应用进展的概述。
二、现代近红外光谱技术的理论基础现代近红外光谱技术,作为一种高效、无损的分析手段,其理论基础源自电磁辐射与物质相互作用的原理。
近红外光谱区域通常是指波长在780 nm至2500 nm范围内的电磁波,其能量恰好对应于分子振动和转动能级间的跃迁。
因此,当近红外光通过物质时,分子中的化学键和官能团会吸收特定波长的光,产生振动和转动跃迁,从而形成独特的光谱。
现代近红外光谱技术的理论基础主要包括量子力学、分子振动理论和光谱学原理。
量子力学为近红外光谱提供了分子内部电子状态和行为的基本描述,而分子振动理论则详细阐述了分子在不同能级间的跃迁过程。
光谱学原理则将这些理论应用于实际的光谱测量和分析中,通过测量物质对近红外光的吸收、反射或透射特性,来获取物质的结构和组成信息。
现代近红外光谱技术还涉及到光谱预处理、化学计量学方法以及光谱解析等多个方面。
光谱预处理包括平滑、去噪、归一化等步骤,旨在提高光谱的质量和稳定性。
化学计量学方法则通过多元统计分析、机器学习等手段,实现对光谱数据的深入挖掘和信息提取。
光谱解析则依赖于专业的光谱数据库和算法,对光谱进行定性和定量分析,从而确定物质中的成分和含量。
近红外光谱技术在中药材鉴定中的应用研究
近红外光谱技术(NIR)是一种快速、非破坏性分析方法,已被广泛应用于中药材鉴定领域。
本文旨在介绍NIR在中药材鉴定中的应用研究进展,包括光谱预处理、化学计量学方法以及NIR与其他技术的结合应用等方面。
1.光谱预处理
在NIR分析中,光谱预处理是十分重要的一步,能够消除光谱噪声、增强光谱信号以及降低光谱干扰等。
目前在中药材鉴定中,常用的光谱预处理方法包括:1)二次多项式基线校正法;2)标准正交化校正法;3)对数变换法;4)标准正交化变量选择法等。
在光谱预处理方面,研究人员还对传统的预处理方法进行了改进及优化,如基线校正方法和统计分析模型等。
2.化学计量学方法
化学计量学方法根据已知的化学计量学模型建立预测模型,从而实现物质定性定量分析。
在中药材鉴定中,常用的化学计量学方法包括主成分分析(PCA)、偏最小二乘回归(PLS)以及支持向量机(SVM)等。
其中,PLS是最常用的一种化学计量学方法,在实际应用中已被广泛采用。
3.NIR与其他技术的结合应用
在中药材鉴定中,为了得到更加准确的分析结果,研究人员还结合了其他技术,如近红外光谱和色谱联用、近红外光谱和质谱联用、近红外光谱和形态学特征联用等。
其中,近红外光谱和液相色谱联用已被广泛应用于中药材的定性和定量分析中,取得了优秀的分析结果。
总之,NIR技术在中药材鉴定中的应用研究已取得重要进展,对保证中药材的质量、安全和有效性具有重大意义。
未来,研究人员将进一步深入探索NIR在中药材鉴定中的应用,为中药材的质量控制和生产提供更加有效的技术支持。
现代近红外光谱技术及应用进展近红外光谱技术是一种快速、高效、无损的分析技术,广泛应用于化学、食品、药物等领域。
尤其是随着科学技术的发展,现代近红外光谱技术在样品制备、光谱采集、数据处理等方面都有了显著的提升,极大地扩展了近红外光谱技术的应用范围。
近红外光谱是指介于可见光和中红外光之间的电磁波,波长范围为700-2500nm。
现代近红外光谱技术利用近红外光子的能量和量子力学中的跃迁原理,通过对样品进行照射,使样品中的分子吸收近红外光子的能量后从基态跃迁到激发态,再返回基态时发出特征光谱。
通过对特征光谱进行定性和定量分析,可以获取样品的组成、结构和性质等信息。
化学分析:现代近红外光谱技术在化学分析领域的应用主要体现在有机物和无机物的定性和定量分析上。
例如,利用近红外光谱技术对石油样品进行定性和定量分析,可以有效地识别石油中的不同组分,同时也可以对石油中的含硫量、含氮量等进行快速准确的测定。
食品质量检测:在食品质量检测方面,现代近红外光谱技术可以用于食品成分分析、食品质量评估和食品掺假检测等。
例如,利用近红外光谱技术对奶粉进行检测,可以快速准确地检测出奶粉中的蛋白质、脂肪、糖等主要成分的含量。
药物研究:现代近红外光谱技术在药物研究方面的应用主要体现在药物成分分析、药物代谢研究和药物疗效评估等方面。
例如,利用近红外光谱技术对中药材进行检测,可以快速准确地测定中药材中的有效成分含量,为中药材的质量控制提供了一种有效的手段。
近年来,现代近红外光谱技术在国内外都取得了显著的研究进展。
在国内,中国科学院上海药物研究所利用近红外光谱技术对中药材进行有效成分的快速检测,取得了重要的成果。
国内的一些高校和研究机构也在近红外光谱技术的研究和应用方面开展了大量的工作,推动了近红外光谱技术的发展。
在国外,近红外光谱技术已经成为药物研发和食品质量检测的重要手段。
例如,荷兰的菲利普公司成功开发出了一款基于近红外光谱技术的药物代谢研究仪器,可以为新药的开发和疗效评估提供快速准确的数据支持。
近红外光谱数据处理
近红外光谱数据通常包含大量的信息,因此需要进行适当的数
据处理和分析才能从中提取有用的信息。
常见的数据处理方法包括
预处理、特征提取、模型建立和验证等步骤。
预处理包括光谱校正、去噪和标准化等操作,以确保数据质量和可靠性。
特征提取则是从
原始光谱数据中提取出对所研究物质特征具有代表性的信息。
模型
建立和验证是利用统计学和机器学习方法建立预测模型,并对模型
进行验证和优化。
近红外光谱数据处理的关键挑战之一是如何处理数据中的噪声
和干扰,以获得准确的分析结果。
另一个挑战是如何建立可靠的预
测模型,以实现对样品成分和性质的准确预测。
针对这些挑战,研
究人员们不断提出新的数据处理方法和建模技术,以不断提高近红
外光谱数据处理的准确性和可靠性。
近年来,随着人工智能和大数据技术的发展,近红外光谱数据
处理领域也迎来了新的机遇和挑战。
利用深度学习和神经网络等技术,研究人员们正在尝试开发更加高效和准确的数据处理和建模方法,以满足不断增长的应用需求。
总的来说,近红外光谱数据处理是一个非常重要的研究领域,它为各种行业提供了一种快速、无损、高效的化学分析方法。
随着技术的不断进步和创新,相信近红外光谱数据处理将会在更多领域发挥重要作用,为产品质量控制和过程监控等方面提供更加可靠的解决方案。
近红外光谱数据处理
近红外光谱(NIR)是一种非常有用的分析技术,可以用于快速、准确地检测和分析各种化学物质。
近红外光谱数据处理是指对从近
红外光谱仪获得的数据进行处理和分析的过程。
这项工作通常包括
数据预处理、特征提取和建模等步骤。
首先,数据预处理是近红外光谱数据处理的重要步骤之一。
由
于近红外光谱数据通常受到噪声和干扰的影响,因此需要对数据进
行平滑、去噪和基线校正等处理,以提高数据的质量和可靠性。
其次,特征提取是近红外光谱数据处理的另一个关键步骤。
通
过对预处理后的数据进行特征提取,可以识别出与所研究化合物相
关的特征波长和光谱特征,为后续的建模和分析提供重要依据。
最后,建模是近红外光谱数据处理的最终目标之一。
通过建立
合适的模型,可以实现对样品中化合物含量或其他相关属性的快速、准确预测,为化学品的质量控制和过程监测提供了有力的工具。
总的来说,近红外光谱数据处理是一项复杂而关键的工作,它
为化学分析和质量控制提供了强大的技术支持。
随着技术的不断进
步和应用领域的拓展,近红外光谱数据处理将在化学、食品、制药等领域发挥越来越重要的作用。
2、近红外光谱分析数据的前处理近红外光谱分析必须借助于各种相应的数学模型,分析的关键是建立预测效果优秀的数学模型。
数学模型预测样品的效果决定于建模所用数据,以及(用算法)对建模数据中信息的充分提取。
NIR分析大致有一半的误差来自于建模数据。
因此优化建模数据在NIR分析中具有特殊的意义。
近红外光谱分析需要从样品复杂的光谱中提取有关的信息,这些信息包括两部分:样品光谱中关于待测量的定性或定量信息,以及与待测量信息重叠在一起的、确定的、因此是可以通过模型加以校正的背景信息;由于分析过程必须把背景的信息加以校正后才能提取待测量的信息,因此待测量信息和能确定的背景信息这两部分信息合在一起都是近红外光谱分析需要的有效信息。
另外,每个光谱数据除了包含有效信息以外还包含测量误差等不确定的、难以校正的、干扰测定的无效信息或称干扰信息,分析过程根据这两部分有效信息通过数学处理消除干扰信息,才能完成分析。
建模过程应用的光谱数据越多,得到的有效信息就可能越多,预测误差减少、预测准确度也得以提高。
这就使模型在不同时间与空间的稳定性得以提高;另一方面,建模过程中每引入一个光谱数据的同时会带来影响提取有效信息的干扰信息,使模型的预测误差增加、测定准确度下降。
组成建模数据的两个部分:建模样品光谱的数目与每个光谱包含的数据点(谱区的前处理都应符合“少而精”,且有一个最佳值,即有效信息率最高点。
优化建模数据的目标就是确定或接近该最佳点,使数学模型的预测效果达到或接近最佳值。
优秀的软件应能辅助确定数学模型的最佳参数。
建模数据也就是建立数学模型所用校正样品集。
校正样品集包括直接用于建立模型的建模样品集与检验模型的检验样品集。
现代NIR分析包括一系列优化校正样品集光谱的技术,包括建模集与检验集的分割,优化校正样品集总体的样品组成以及优化各样品的光谱两个方面,如对建模样品集光谱的各种前处理方法,优化选择用于建立数学模型的谱区以及优化选择各种NIR定量分析算法的最佳参数等等多种多样的处理技术,由上节可知这些前处理技术的本质都是压缩和恢复,目标都是提高建模数据的有效信息率。
一、数据预处理(1)中心化变换(2)归一化处理(3)正规化处理(4)标准正态变量校正(标准化处理)(Standard Normal Variate,SNV) (5)数字平滑与滤波(Smooth)(6)导数处理(Derivative)(7)多元散射校正(Multiplicative Scatter Correction,MSC)(8)正交信号校正(OSC)二、特征的提取与压缩(1)主成分分析(PCA)(2)马氏距离三、模式识别(定性分类)(1)基于fisher意义下的线性判别分析(LDA)(2)K-最邻近法(KNN)(3)模型分类方法(SIMCA)(4)支持向量机(SVM)(5)自适应boosting方法(Adaboost)四、回归分析(定量分析)(1)主成分回归(PCR)(2)偏最小二乘法回归(PLS)(3)支持向量机回归(SVR)一、数据预处理 (1) 中心化变换中心化变换的目的就是在于改变数据相对于坐标轴的位置。
一般都就是希望数据集的均值与坐标轴的原点重合。
若x ik 表示第i 个样本的第k 个测量数据,很明显这个数据处在数据矩阵中的第i 行第k 列。
中心化变换就就是从数据矩阵中的每一个元素中减去该元素所在元素所在列的均值的运算:u ik k x x x =- ,其中k x 就是n 个样本的均值。
(2) 归一化处理归一化处理的目的就是就是数据集中各数据向量具有相同的长度,一般为单位长度。
其公式为:'ik x =归一化处理能有效去除由于测量值大小不同所导致的数据集的方差,但就是也可能会丢失重要的方差。
(3)正规化处理正规化处理就是数据点布满数据空间,常用的正规化处理为区间正规化处理。
其处理方法就是以原始数据集中的各元素减去所在列的最小值,再除以该列的极差。
min()'max()min()ik ik k k x xk x x x -=-该方法可以将量纲不同,范围不同的各种变量表达为值均在0~1范围内的数据。
近红外光谱数据预处理结果近红外光谱数据预处理结果,是指在进行近红外光谱数据分析前,对原始光谱数据进行一系列预处理操作,以提高数据质量和信息提取能力。
下面将一步一步回答相关问题,深入探讨近红外光谱数据预处理结果的重要性、常用方法以及其对实际应用的影响。
第一步:何为近红外光谱数据预处理结果?近红外光谱数据预处理结果是指对采集的近红外光谱数据进行预处理后得到的结果。
预处理的目的是消除光谱中的杂乱噪声、消除样本之间的非光谱差异以及增加光谱信号与目标属性之间的相关性。
光谱数据预处理涉及到数学、统计学、化学和光谱学等多个领域的知识,是近红外光谱数据分析的重要组成部分。
第二步:为什么需要对近红外光谱数据进行预处理?近红外光谱数据受到多种因素的影响,如光源稳定性、检测器响应、采样误差等,导致数据中存在各种噪声。
同时,不同样本之间存在着非光谱差异,如浓度变化、基质变化等。
这些因素可能掩盖光谱中所含的有用信息,降低数据的准确性和可解释性。
因此,对近红外光谱数据进行预处理可以消除这些噪声和差异,提高数据的准确性和可解释性,使得后续的数据分析更加可靠和有效。
第三步:常用的近红外光谱数据预处理方法有哪些?常用的近红外光谱数据预处理方法包括:光谱平滑、光谱修正、基线校正、标准正化、多变量校正等。
1. 光谱平滑是指通过一系列信号处理算法,如移动平均法、Savitzky-Golay法等,对光谱数据进行滤波平滑,去除高频噪声和突变点。
2. 光谱修正主要包括多种修正方法,如散射校正、温漂校正和拉曼校正等。
散射校正可以消除由样本内部的散射引起的光谱偏移,提取目标光谱信息。
温漂校正可以消除由温度变化引起的光谱漂移,保证数据的稳定性。
拉曼校正可以消除由拉曼散射引起的光谱峰值偏移,提高光谱数据的准确性。
3. 基线校正是指通过一系列算法,如线性基线校正、多项式基线校正等,对光谱数据进行基线拟合,去除光谱中的基线漂移,使得光谱数据更加平滑和可解释。
最常见的近红外光谱的预处理技术的综述smund Rinnan,Frans van den Berg,Søren Balling Engelsen 摘要:预处理在近红外(NIR)光谱数据处理化学计量学建模中已经成为不可分割的一部分。
预处理的目的是消除光谱中物理现象在为了提高后续多元回归、分类模型或探索性分析。
最广泛使用的预处理技术可以分为两类:散射校正方法和光谱间隔方法。
综述和比较了算法的基础理论和当前的预处理方法以及定性和定量的后果的应用程序。
其目的是提供更好的NIR 最终模型的建立,在此我们通过对光谱的预处理基本知识进行梳理。
关键词:乘法散射校正;近红外光谱法;标准化;诺里斯威廉姆斯推导;预处理;Savitzky-Golay 平滑;散射校正;光谱导数;标准正态变量;综述1.引言目前为止,没有能够优化数据来进行代替,但是经过适当的数据收集和处理将会起到优化效果,对光谱数据进行预处理是最重要的一步(例如最优化之前叠层建模),常用的方法有主成分分析(PCA)和偏最小二乘法(PLS)。
在大量的文献中,多变量光谱应用食品、饲料和医药分析,比较不同的预处理的结果研究模型的预测结果是不可分割的组成部分。
近红外反射/透射率(NIR / NIT)光谱的光谱技术,到目前为止最多被使用的和最大的多样性在预处理技术,主要是由于入非线性光散射的光谱可以引起显著影响。
由于类似规模的波长的电磁辐射和粒子大小的近红外光谱在生物样品,近红外光谱技术是一种不被广泛使用是由于存在散射效应(包括基线转变和非线性),这将会影响样品光谱的结果的记录。
然而,通过应用合适的预处理,可以很大程度上消除这些影响。
在应用研究中,比较了几乎完全不同的定标模型(定量描述符和相应关系)。
几乎没有出现评估的差异和相似性的报道。
替代技术即修正的含义(例如,谱描述符数据)在研究中很少被讨论。
本文旨在讨论建立了预处理方法对近红外光谱和模型之间的关系,更具体地说,这些技术都是对应独立的响应变量,所以我们只讨论方法,不需要一个响应值。
引言近红外是指波长在780nm~2526nm范围内的光线,是人们认识最早的非可见光区域。
习惯上又将近红外光划分为近红外短波(780nm~1100nm)和长波(1100 nm~2526 nm)两个区域.近红外光谱(Near Infrared Reflectance Spectroscopy,简称NIRS)分析技术是一项新的无损检测技术,能够高效、快速、准确地对固体、液体、粉末状等有机物样品的物理、力学和化学性质等进行无损检测。
它综合运用了现代计算机技术、光谱分析技术、数理统计以及化学计量学等多个学科的最新研究果,并使之融为一体,以其独有的特点在很多领域如农业、石油、食品、生物化工、制药及临床医学等得到了广泛应用,在产品质量分析、在线检测、工艺控制等方面也获得了较大成功。
近红外光谱分析技术的数据处理主要涉及两个方面的内容:一是光谱预处理方法的研究,目的是针对特定的样品体系,通过对光谱的适当处理,减弱和消除各种非目标因素对光谱的影响,净化谱图信息,为校正模型的建立和未知样品组成或性质的预测奠定基础;二是近红外光谱定性和定量方法的研究,目的在于建立稳定、可靠的定性或定量分析模型,并最终确定未知样品和对其定量。
1工作原理近红外光谱区主要为含氢基团X-H(X=O,N,S,单健C,双健C,三健C等)的倍频和合频吸收区,物质的近红外光谱是其各基团振动的倍频和合频的综合吸收表现,包含了大多数类型有机化合物的组成和分子结构的信息。
因为不同的有机物含有不同的基团,而不同的基团在不同化学环境中对近红外光的吸收波长不同,因此近红外光谱可以作为获取信息的一种有效载体。
近红外光谱分析技术是利用被测物质在其近红外光谱区内的光学特性快速估测一项或多项化学成分含量。
被测样品的光谱特征是多种组分的反射光谱的综合表现,各组分含量的测定基于各组分最佳波长的选择,按照式(1)回归方程自动测定结果:组分含量=C0+C1(Dp)1+C2(Dp)2+…+Ck(Dp)k(1)式中:C0~k为多元线性回归系数;(Dp)1~k为各组分最佳波长的反射光密度值(D=-lgp,p为反射比)。
最常见的近红外光谱的预处理技术的综述smund Rinnan,Frans van den Berg,Søren Balling Engelsen 摘要:预处理在近红外(NIR)光谱数据处理化学计量学建模中已经成为不可分割的一部分。
预处理的目的是消除光谱中物理现象在为了提高后续多元回归、分类模型或探索性分析。
最广泛使用的预处理技术可以分为两类:散射校正方法和光谱间隔方法。
综述和比较了算法的基础理论和当前的预处理方法以及定性和定量的后果的应用程序。
其目的是提供更好的NIR 最终模型的建立,在此我们通过对光谱的预处理基本知识进行梳理。
关键词:乘法散射校正;近红外光谱法;标准化;诺里斯威廉姆斯推导;预处理;Savitzky-Golay 平滑;散射校正;光谱导数;标准正态变量;综述1.引言目前为止,没有能够优化数据来进行代替,但是经过适当的数据收集和处理将会起到优化效果,对光谱数据进行预处理是最重要的一步(例如最优化之前叠层建模),常用的方法有主成分分析(PCA)和偏最小二乘法(PLS)。
在大量的文献中,多变量光谱应用食品、饲料和医药分析,比较不同的预处理的结果研究模型的预测结果是不可分割的组成部分。
近红外反射/透射率(NIR / NIT)光谱的光谱技术,到目前为止最多被使用的和最大的多样性在预处理技术,主要是由于入非线性光散射的光谱可以引起显著影响。
由于类似规模的波长的电磁辐射和粒子大小的近红外光谱在生物样品,近红外光谱技术是一种不被广泛使用是由于存在散射效应(包括基线转变和非线性),这将会影响样品光谱的结果的记录。
然而,通过应用合适的预处理,可以很大程度上消除这些影响。
在应用研究中,比较了几乎完全不同的定标模型(定量描述符和相应关系)。
几乎没有出现评估的差异和相似性的报道。
替代技术即修正的含义(例如,谱描述符数据)在研究中很少被讨论。
本文旨在讨论建立了预处理方法对近红外光谱和模型之间的关系,更具体地说,这些技术都是对应独立的响应变量,所以我们只讨论方法,不需要一个响应值。
我们同时关注预处理工艺理论方面的和实际效果,这种方法适用于近红外光谱/ NIT光谱。
对固体样品,干扰系统的差异主要是因为光散射的不同和有效路径长度的不同。
这些不受欢迎的变化常常构成了样本集的总变异的主要部分,可以观察到得转变基线(乘法效应)和其他现象称为非线性。
一般来说,近红外光谱反射率测量的一个示例将测量普及性的反映和镜面反射辐射(镜面反射)。
镜面反射通常由仪表设计和几何的采样最小化,因为它们不含任何化学信息。
这个diffusively反射的光,这反映在广泛的方向,是信息的主要来源在近红外光谱。
然而,diffusively反射光将包含信息的化学成分不仅示例(吸收)而且结构(散射)。
主要的形式的光散射(不包括能量转移与样品)瑞利和洛伦兹米氏。
两者都是过程中电磁辐射是分散的(例如,通过小粒子,泡沫,表面粗糙度,水滴,晶体缺陷,microorganelles、细胞、纤维和密度波动)。
当粒子尺寸大于波长,因为通常情况下,NIR光谱,是主要的洛仑兹米氏散射。
相比之下,瑞利散射,是各向异性,洛伦兹米氏散射依赖的形状散射粒子和不强烈波长依赖性。
对生物样品,散射特性是过于复杂,所以软或自适应补偿,光谱预处理技术,正如我们近红外光谱在本文中进行讨论,要求删除散射从纯粹的、理想的吸收光谱。
显然,预处理不能纠正镜面反射率(直接散射),自谱不包含任何精细结构。
光谱主要由镜面反射率应该总是被移除之前为离群值多元数据分析,因为他们仍将是局外人,甚至在预处理。
图1显示了一组13好蔗糖和样品不同粒径加一坏蔗糖的例子展示如何(极端)镜面反射率表现比正常的光谱。
图1还演示了总体布局的大多数数据在本文中。
上部的图,一个条形图显示了主成分得分值第一主成分(PC)后的样本集数据意味着定心[1]。
下面部分显示预处理效果的数据集(或者,在这种情况下,任何预处理)。
相关系数r的平方值之间的酒吧和一个选定的参考变量包含(在本例中,已知的平均粒径的13蔗糖样本)。
蔗糖的数据集,这种关系应该是低,例如,当假设散射是一种阻碍粒子始发;尽可能小的信息的粒度应该保持在正确的预处理。
图1近红外光谱的13蔗糖和样品不同粒径(最小的粒子在底部,最大的顶部;粒子尺寸范围在20 - 540 lm。
黑色的光谱显示了一个镜面反射率蔗糖样本。
酒吧是分数值第一主成分的13个蔗糖样品主成分分析模型在完整的光谱。
一个示例数据的预处理蔗糖中可以看到图2,其中也包含一个其实的一个示例数据预处理的蔗糖中可以看到图2,其中也包含一个其实从现在起,在这篇文章中,我们将演示效果不同的预处理技术在小果胶数据集只包含7个样品有不同程度的酯化(%德;范围在0 - 93%)[2]。
这些样品测定近红外光谱反射率模式在光谱范围1100 - 2500海里(收集每2海里区间;图3)。
我们提供相应的第一因素PCA样本得分后作为一个条形图意味着定心,连同集中吸光度值在波长2244纳米。
我们选择这个峰值,因为它在理论上应该描述% DE完美。
对于本文,我们假设信息在光谱相联系的果胶粒子大小和形状应该被预处理技术,条形图应该显示一个线性行为与%德。
为了说明预处理的影响在量化,我们使用数据取自克里斯腾森et al。
[3]。
他们研究了一组32杏仁蛋白软糖混合物,基于不同的食谱,九个不同的数据都在互联网上可用的(www。
模型的生活ku dk)。
所有的杏仁蛋白软糖样品测定了六种不同的近红外光谱仪器和化学参考分析了水分和糖含量。
在构建一个定量的回归模型,重要的是要打扫预测数据从非系统性散射变化,因为他们可以产生重大影响的预测模型的性能和模型的复杂性或吝啬。
在本文中,我们使用请预测这种定量响应信息[4]。
2.预处理方法图 2上图:数据被一个二阶蔗糖乘法散射校正;底:相应的标准差每个波长,虚线是原始/未加工的数据(见图1),固体是预处理的数据。
最广泛使用的预处理技术在近红外光谱法(在两个反射和透射模式)可以分为两类:scattercorrection 方法和光谱衍生品。
第一群散射校正预处理方法包括乘法散射校正(MSC),逆MSC ,扩展MSC(EMSC),扩展逆MSC ,de 趋势,标准正态变量(SNV)和标准化。
图 3生/未加工的光谱,7果胶样本。
蓝线是一个示例有0%程度的果胶酯化(DE),红色的线是一个样本93%德。
打开条指示主成分分析(PCA)评分值在第一个PC 为完整的光谱,意味着定心,关闭了酒吧后的光谱值在波长2244纳米。
光谱推导集团是为代表的两种技术在本文中:诺里斯威廉姆斯(NW)衍生品和Savitzky-Golay(SG)多项式导数过滤器。
这两种方法都使用一个平滑的光谱导数计算之前,以减少有害的影响,传统的信噪比有限差分衍生品会。
预处理步骤的目标可以三种:1) 提高后续探索性分析2) 提高后续叠层校正模型(力数据服从兰伯特啤酒法律);或者,3) 提高后续的分类模型。
朗伯比尔定律(方程(1))是经验对近红外光谱/ NIT 和显示成线性关系,吸收光谱和浓度(s)的成分(s):10log ()A T l c λλ=-=ε⋅⋅ (1)其中A λ作为吸光度,λε依赖波长的摩尔吸光系数,l 代表光通过容器有效的路径长度,是c成分的浓度。
朗伯比尔定律严格有效的只有纯透射系统没有散射。
在反射率测量,方程(1)是重新定义在类比透射率的测量为:10log ()A R l c λλ=-≅ε⋅⋅其中,R 是反射率。
选择合适的预处理应该总是被认为是相对于连续建模阶段。
例如,如果数据集的兴趣不遵守法律,额外因素兰伯特啤酒或组件在请回归通常可以弥补这一理想的行为的光谱预测[5]。
的缺点包括额外的因素是提高模型的复杂性,反过来,最有可能减少对未来预测的模型的鲁棒性。
所有的预处理技术的目标减少变化降低数据以增强特性寻求在光谱,常常一个线性(简单的)关系现象(比如,一个成分)的兴趣。
通过使用一个合适的预处理技术,这可以实现,但总是有危险的应用了错误的类型或应用太严重的预处理,将移除有价值的信息。
正确的选择的预处理是很难评估模型验证之前,但是,一般来说,执行几个预处理步骤是不可取的,作为最低要求,预处理应保持或降低复杂性的有效模型。
图4 样品光谱(蓝色的点)密谋反抗一个选定的参考光谱。
标量修正条款发现随着拦截和边坡的黑色线条,就是发现从最小二乘回归适合通过所有的点。
3. 散射校正根据散射校正方法,我们考虑三个预处理的概念:硕士,SNV 和标准化。
这些技术是为了减少(物理)可变性样本之间由于散射。
所有三个也调整基线样本之间的变化。
3.1MSC乘法散射(或者,在一般情况下,信号)校正(MSC)可能是最广泛使用的预处理技术对近红外光谱(紧随其后SNV 和派生)。
MSC 其基本形式是由Martens 首次引入等人1983年[6],并进一步阐述了通过Geladi 等人1985年[7]。
MSC 背后的概念是,工件或缺陷(如,不良的散射效应)将被删除的数据矩阵之前,数据建模。
MSC 包含两个步骤:1) 估计的校正系数(加法和乘法的贡献。
0,1org ref ref X b b X e =+⋅+ (2)2) 校正记录的光谱,1,1org corr ref ref ref X b e X X b b -==+(3)其中:org X 代表近红外光谱仪器对一个原样品进行光谱测量,ref X 代表参考光谱用于预处理的整个数据集,e 是降低的一部分的 org X ,corr X 代表了修正后的光谱,其中 0b 和,1ref b 都是标量参数,这在每个样品中具有不同的代表含义,这个在图4中进行说明,对每个标量参数进行了解释。
在大多数应用中,平均频谱的校准设置用作参考光谱。
然而,一个通用参考光谱也可以应用。
在最初的论文Martens et al 。
[6],这是建议只使用那些部分光谱轴,不包括相关信息(基线)。
而这使得好的光谱意义上说,很难确定这些地区在实践中,特别是在近红外光谱测量,信号从不同的化学成分是强烈重叠和相关,很少或根本没有真正的基线是发现。
这是为什么,在大多数情况下,整个频谱用于查找标量校正参数在MSC 。
图5演示了应用程序的标准MSC 对果胶的数据。
光谱特征的果胶粉是守恒的,而背景偏移和斜坡基本上是删除(与图3)。
的线性关系光谱和%德是不错,但它并不完美。
图5数据预处理的乘法散射校正用一阶校正对平均频谱。
基本形式的MSC 已经扩展成更复杂的扩展(8 - 12)通常被称为EMSC 。
这个扩展包括二阶多项式拟合参考光谱,拟合的一个基线的波长轴,和利用先验知识从光谱的兴趣或光谱干扰物。
在本文中,所有这些替代品被称为MSC 为简单起见,因为他们可以总结为一个单一的方程:22,1,21,,,,, ref ref known known X X X X X b e ⎡⎤=λ,λ+⎣⎦(4)其中,λ代表依赖波长轴的修正向量,,1known X 包含先验知识包括了想要/不必要的光谱信息(比如一个已知的光谱干扰的物种)。