主成分分析在生产过程数据预处理中的应用
- 格式:doc
- 大小:861.00 KB
- 文档页数:5
主成分分析简介及其应用场景主成分分析(Principal Component Analysis,PCA)是一种常用的数据降维技术,通过线性变换将原始数据转换为一组各维度之间线性无关的新变量,这些新变量被称为主成分。
主成分分析可以帮助我们发现数据中的模式、结构和关系,从而更好地理解数据并进行有效的数据分析和可视化。
本文将介绍主成分分析的基本原理、算法流程以及在实际应用中的场景和优势。
### 主成分分析的基本原理主成分分析的基本思想是将高维数据转换为低维数据,同时尽可能保留原始数据的信息。
在主成分分析中,我们希望找到一组新的坐标系,使得数据在新坐标系下的方差最大化。
换句话说,我们希望找到一组主成分,它们能够最好地解释数据的变异性。
具体来说,假设我们有一个包含n个样本和m个特征的数据集X,其中每个样本有m个特征值。
我们的目标是找到一个d维的子空间(d < m),使得数据在这个子空间中的方差最大。
这个子空间的基向量构成了主成分。
### 主成分分析的算法流程主成分分析的算法流程可以简单概括为以下几步:1. 数据标准化:对原始数据进行标准化处理,使得每个特征的均值为0,方差为1。
2. 计算协方差矩阵:计算标准化后的数据的协方差矩阵。
3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。
4. 选择主成分:选择最大的d个特征值对应的特征向量作为主成分。
5. 数据转换:将原始数据投影到选定的主成分上,得到降维后的数据。
通过以上步骤,我们可以得到一个低维的表示,其中包含了原始数据中最重要的信息。
### 主成分分析的应用场景主成分分析在各个领域都有广泛的应用,以下是一些主成分分析常见的应用场景:1. 数据可视化:主成分分析可以帮助我们将高维数据可视化在二维或三维空间中,更直观地展示数据的结构和关系。
2. 特征提取:在机器学习和模式识别中,主成分分析常用于特征提取,帮助减少特征维度,提高模型的泛化能力。
主成分分析法及其应用一、本文概述主成分分析法(Principal Component Analysis,简称PCA)是一种广泛应用于数据降维和特征提取的统计方法。
它通过正交变换将原始数据集中的多个变量转换为少数几个互不相关的主成分,这些主成分能够最大程度地保留原始数据集中的信息。
本文旨在全面介绍主成分分析法的基本原理、实现步骤以及在各个领域中的应用案例。
我们将详细阐述主成分分析法的数学基础和算法流程,包括协方差矩阵、特征值、特征向量等关键概念的计算方法。
然后,我们将通过实例演示如何使用主成分分析法进行数据降维和特征提取,以及如何通过可视化工具展示降维后的数据效果。
我们将探讨主成分分析法在机器学习、图像处理、生物信息学、社会科学等多个领域中的实际应用,展示其在数据分析和处理中的重要价值和潜力。
二、主成分分析法的基本原理主成分分析法(Principal Component Analysis,简称PCA)是一种在多个变量中找出主要影响因素,并通过降维技术把多个变量转化为少数几个互不相关的综合变量的统计方法。
这种方法在保持数据信息损失最小的原则下,通过正交变换将原始数据转化为一个新的坐标系统,使得在这个新的坐标系统中,任何数据的最大方差都投影在第一主成分上,第二大的方差都投影在第二主成分上,以此类推。
变量降维:在多数情况下,原始数据集中可能存在多个变量,这些变量之间可能存在相关性。
主成分分析通过构造新的变量(即主成分),这些新变量是原始变量的线性组合,并且新变量之间互不相关,从而将原始的高维数据空间降维到低维空间,实现数据的简化。
方差最大化:主成分分析的另一个重要原理是方差最大化。
这意味着,第一个主成分将捕获数据中的最大方差,第二个主成分捕获第二大方差,以此类推。
通过这种方式,主成分分析能够识别出数据中的主要变化方向和模式。
数据解释性:主成分分析生成的主成分是对原始数据的线性变换,因此,每个主成分都可以被解释为原始变量的某种组合。
在畜牧统计t检验中的应用实例摘要:本文旨在探讨畜牧统计t检验在生产实践中的应用实例,通过具体案例的分析,阐述其作用、操作方法、优势及不足之处。
关键词:畜牧统计,t检验,生产实践,应用实例。
在畜牧业生产实践中,数据分析变得越来越重要。
畜牧统计t检验作为一种有效的数据分析方法,可以帮助我们判断两个或多个样本的平均值是否存在显著差异,从而提高生产效率和养殖效益。
本文将通过实际案例的分析,介绍畜牧统计t检验在生产实践中的应用。
畜牧统计t检验是一种常用的参数检验方法,适用于比较两个或多个样本的平均值。
在畜牧业生产实践中,t检验可以应用于以下方面:虽然t检验能够提供较为准确的结果,但在实际应用中也存在一定的问题。
t检验要求数据符合正态分布,对于不符合正态分布的数据需要进行转换或采用非参数检验。
t检验对于样本量的要求较高,当样本量较小或方差较大时,可能会出现误判。
为了更好地理解畜牧统计t检验的应用实例,我们通过以下案例进行分析。
某养殖场欲比较两种不同饲料对蛋鸡产蛋性能的影响。
选取200只蛋鸡,随机分为两组,分别饲喂两种不同饲料。
经过45天的试验期后,对两组蛋鸡的产蛋量进行统计分析。
我们对数据进行正态性检验。
通过计算各组蛋鸡产蛋量的均值、标准差和方差,发现两组数据均符合正态分布。
接着,我们使用t检验对两组蛋鸡的产蛋量进行比较。
在SPSS软件中输入数据并选择独立样本t检验,得到如下结果:产蛋量均值比较由上可知,A组饲料和B组饲料对蛋鸡产蛋性能的影响存在显著差异(p<05)。
经过t检验,我们发现饲喂B组饲料的蛋鸡产蛋量显著高于饲喂A组饲料的蛋鸡。
在实际生产中,我们可以根据这一结果选择合适的饲料品牌以提高蛋鸡的产蛋性能。
在应用畜牧统计t检验时,需要注意以下几点:样本应具有代表性。
在选择样本时,应充分考虑其代表性,避免出现偏差。
数据应符合正态分布。
t检验的前提是数据符合正态分布,对于不符合正态分布的数据需进行转换或采用非参数检验。
主成分分析法原理及应用主成分分析的基本思想是将高维数据转化为一个新的低维坐标系,新的坐标系由特征向量构成。
特征向量是通过对数据矩阵进行特征值分解得到的,每一个特征向量都代表数据的一个主成分,同时也代表了原始数据在该主成分上的投影。
通过选择前N个主成分,可以将原始数据的维度从D维降低到N维。
1.对原始数据进行标准化处理,即将每个维度上的数据减去其均值并除以标准差;2.构建数据的协方差矩阵;3.对协方差矩阵进行特征值分解,得到特征向量和特征值;4.将特征值按降序排列,选择前N个特征向量作为主成分。
1.数据降维:主成分分析可以将高维数据降低到低维空间中,从而减少数据的维度。
这对于处理高维数据而言非常重要,可以减少计算复杂度,并且有助于解决维度灾难问题。
2.特征提取:主成分分析可以通过选择前N个主成分来提取最具代表性的特征。
这对于处理大规模数据集、挖掘数据的基本模式和结构非常有用。
3.数据可视化:主成分分析可以将多维数据映射到二维或三维的空间中。
这样做可以简化数据的可视化和分析过程,帮助人们更好地理解数据的结构和关系。
4.噪声过滤:主成分分析可以通过去除数据的主成分中的低方差部分来剔除数据中的噪声。
这对于提高数据质量和预测性能非常有帮助。
5.数据预处理:主成分分析可以用于数据的预处理,比如去除冗余特征、去除缺失值等。
通过去除无关和缺失的特征,可以提高后续分析的准确性和效率。
总之,主成分分析是一种非常实用的数据分析技术。
它可以帮助人们更好地理解数据的结构和关系,并从中提取有用的信息。
在实际应用中,人们可以根据具体的需求和问题选择适当的主成分数目,以获得最佳的结果。
主成分分析的步骤与实施方法主成分分析(Principal Component Analysis,简称PCA)是一种常用的降维数据分析方法,常用于数据预处理和特征提取。
本文将介绍主成分分析的基本步骤以及实施方法,帮助读者了解并应用于实际问题。
1. 数据预处理在进行主成分分析之前,首先需要进行数据预处理。
数据预处理包括数据清洗、归一化等操作,以确保数据的准确性和可靠性。
常见的数据预处理方法有:(1)数据清洗:排除异常值和缺失值,保证数据的完整性和一致性;(2)数据归一化:将数据转化为同一尺度,消除因为数据量纲不同而导致的误差;(3)数据标准化:将数据按照均值为0,方差为1进行线性变换,使得数据服从标准正态分布。
2. 计算协方差矩阵主成分分析的核心是通过计算协方差矩阵来确定数据之间的相关性。
协方差矩阵可以帮助我们找到数据的主要变化方向,进而找到主要成分。
协方差矩阵的计算步骤如下:(1)假设我们有m个n维数据,将其组成m×n的矩阵X;(2)计算X的协方差矩阵C,公式为:C = (X - μ)(X - μ)T / m,其中μ为X的均值向量;(3)计算协方差矩阵C的特征值和特征向量。
3. 计算主成分通过计算协方差矩阵的特征值和特征向量,我们可以得到数据的主成分。
主成分是协方差矩阵的特征向量按对应的特征值从大到小排列后所得到的矩阵。
计算主成分的步骤如下:(1)选择特征值较大的前k个特征向量,其中k为需要降维的维数;(2)将选择出的k个特征向量组成一个投影矩阵P;(3)对原始数据进行降维处理,将原始数据矩阵X与投影矩阵P相乘,得到降维后的数据矩阵Y。
4. 数据重构主成分分析完成后,我们可以通过数据重构来验证主成分的有效性。
重构后的数据尽量保持与原始数据的一致性,以确保降维后的数据仍能保持原有信息的完整性。
数据重构的步骤如下:(1)根据降维后的数据矩阵Y和投影矩阵P,计算重构矩阵X',公式为:X' = YP' + μ,其中P'为投影矩阵的转置;(2)将重构矩阵X'与原始数据矩阵X进行对比,评估主成分提取的效果。
主成分分析相关数据目录主成分分析相关数据 (1)介绍主成分分析(PCA) (1)PCA的定义和背景 (1)PCA的应用领域 (2)PCA的基本原理 (3)主成分分析的数据准备 (4)数据收集和整理 (4)数据预处理 (5)数据标准化 (6)主成分分析的计算步骤 (7)协方差矩阵的计算 (7)特征值和特征向量的计算 (8)主成分的选择和解释 (9)主成分分析的结果解释和应用 (10)主成分的解释和贡献率 (10)主成分的可视化 (11)主成分的应用案例 (11)主成分分析的优缺点和注意事项 (12)主成分分析的优点 (12)主成分分析的局限性 (13)主成分分析的注意事项 (14)总结和展望 (15)主成分分析的总结 (15)主成分分析的未来发展趋势 (16)介绍主成分分析(PCA)PCA的定义和背景PCA(Principal Component Analysis,主成分分析)是一种常用的数据降维技术,它可以将高维数据转化为低维数据,同时保留了原始数据的主要特征。
PCA的背景可以追溯到20世纪初,由卡尔·皮尔逊(Karl Pearson)提出的主成分分析理论。
本文将介绍PCA的定义、背景以及其在数据分析中的应用。
PCA的定义是一种线性变换技术,它通过寻找数据中的主要方向,将原始数据投影到这些方向上,从而实现数据降维。
具体而言,PCA通过计算数据的协方差矩阵,找到协方差矩阵的特征向量,将数据投影到这些特征向量上,得到新的低维表示。
这些特征向量称为主成分,它们按照对应的特征值的大小排序,表示了数据中的主要方向。
PCA的背景可以追溯到20世纪初,当时卡尔·皮尔逊提出了相关性和协方差的概念,并将其应用于数据分析中。
他发现,通过计算数据的协方差矩阵,可以找到数据中的主要方向,从而实现数据降维。
然而,由于当时计算能力的限制,PCA的应用受到了一定的限制。
随着计算机技术的发展,PCA得到了广泛的应用。
主成分分析案例数据目录主成分分析案例数据 (1)介绍主成分分析 (1)主成分分析的定义和背景 (1)主成分分析的应用领域 (2)主成分分析的基本原理 (3)主成分分析案例数据的收集和准备 (4)数据收集的方法和来源 (4)数据的预处理和清洗 (5)数据的特征选择和变换 (6)主成分分析的步骤和方法 (7)数据的标准化和中心化 (7)协方差矩阵的计算 (8)特征值和特征向量的求解 (9)主成分的选择和解释 (10)主成分分析案例数据的分析和解释 (11)主成分的解释和贡献率 (11)主成分的权重和特征 (11)主成分得分的计算和应用 (12)主成分分析的结果和结论 (13)主成分分析的结果解读 (13)主成分分析的应用建议 (14)主成分分析的局限性和改进方法 (15)总结和展望 (16)主成分分析的优势和局限性总结 (16)主成分分析的未来发展方向 (16)主成分分析在实际问题中的应用前景 (16)介绍主成分分析主成分分析的定义和背景主成分分析(Principal Component Analysis,简称PCA)是一种常用的多变量数据分析方法,旨在通过降维将高维数据转化为低维数据,同时保留原始数据中的主要信息。
它是由卡尔·皮尔逊(Karl Pearson)于1901年提出的,被广泛应用于数据挖掘、模式识别、图像处理等领域。
主成分分析的背景可以追溯到19世纪末,当时统计学家们开始关注如何处理多变量数据。
在那个时代,数据集的维度往往非常高,而且很难直观地理解和分析。
因此,研究人员开始寻找一种方法,能够将高维数据转化为低维数据,以便更好地理解和解释数据。
主成分分析的基本思想是通过线性变换将原始数据映射到一个新的坐标系中,使得新坐标系下的数据具有最大的方差。
这样做的目的是希望通过保留原始数据中的主要信息,同时减少数据的维度,从而更好地理解数据的结构和特征。
具体而言,主成分分析通过计算数据的协方差矩阵,找到一组正交的基向量,称为主成分。
文章编号:100423365(2003)0320200203主成分分析在PC M测试数据处理中的应用严利人,郭 进,曹秉军(清华大学 微电子学研究所,北京 100084)摘 要: 应用主成分技术进行PC M(P rocess Con tro lM odu le o r M on ito r)测试数据的分析,能够从大量数据中提取其结构。
作为征兆,某种特定的数据结构与一类工艺缺陷有对应关系,因此,主成分分析技术成为集成电路工艺分析和诊断的有力工具。
文章介绍了主成分技术在工艺诊断中的应用,深入讨论了该技术在实际应用中应当注意的问题。
关键词: 工艺监控模块;主成分分析;工艺诊断中图分类号: TN407文献标识码: APr i nc ipa l Com ponen t Ana lysis of PC M Param etersYAN L i2ren,GU O J in,CAO B ing2jun(Institu te of M icroelectronics,T sing hua U niversity,B eij ing100084,P1R1Ch ina) Abstract: P rinci pal Componen t A nalysis(PCA)m ethod is adop ted to analyze param eters of the P rocess Con tro l M odu leo r M on ito r(PC M),and data structu res can be draw n ou t from the large amoun t of m easu red data1A s an om en,a data structu re indicates a specific p rocess failu re;therefo re,th is m ethod is an efficien t too l fo r I C p rocess diagno sis1Basic concep ts of PCA are in troduced1Conditi on s and p rob lem s in the p ractical app licati on are discu ssed1Key words: P rinci pal Componen t A nalysis(PCA);P rocess Con tro lM odu le(PC M);P rocess diagno sisEEACC: 0170L1 引 言在I C制造工艺的研究中,需要设计一定数目的工艺监控模块(PC M,P rocess Con tro lM odu le)。
主成分分析简介及其应用场景主成分分析(PrincipalComponentAnalysis,PCA)是一种常用的数据分析和降维技术,它可以将高维数据转换为低维空间,并保留原始数据的最重要信息。
本文将介绍主成分分析的原理及其在各个领域的应用场景。
1.主成分分析的原理主成分分析的目标是找到一个新的坐标系,将原始数据映射到这个新的坐标系中。
在这个新的坐标系中,数据的方差最大化,这样可以保留原始数据的最重要信息。
具体而言,主成分分析通过求解协方差矩阵的特征值和特征向量,确定新的坐标系。
2.主成分分析的应用场景2.1数据降维主成分分析最常见的应用之一是数据降维。
在现实生活中,我们经常面临高维数据的问题,如图片、文本、音频等。
高维数据不仅难以可视化和分析,还会增加计算复杂度。
通过主成分分析,我们可以将高维数据转换为低维空间,减少特征数量,同时保留数据的重要信息。
这对于机器学习和数据挖掘任务非常有用,可以提高算法的性能和效率。
2.2数据可视化主成分分析还可以用于数据可视化。
通过将数据映射到二维或三维空间中,我们可以更直观地观察数据的分布和结构。
例如,对于一个包含多个特征的数据集,我们可以通过主成分分析将其转换为二维平面,然后使用散点图或者等高线图显示数据的分布情况。
这样可以帮助我们更好地理解数据,发现其中的规律和趋势。
2.3特征提取主成分分析还可以用于特征提取。
在某些任务中,我们可能只关注数据中的一部分特征,而不需要所有的特征。
通过主成分分析,我们可以选择保留最重要的特征,从而简化数据分析过程,提高任务的效果。
例如,在人脸识别任务中,我们可以通过主成分分析选择最能代表人脸特征的主成分,从而实现更高效的人脸识别算法。
2.4数据预处理主成分分析还可以用于数据预处理。
在数据分析和机器学习任务中,数据的预处理非常重要。
主成分分析可以帮助我们去除数据中的噪声和冗余信息,同时保留数据的重要特征。
这样可以提高算法的鲁棒性和性能。
主成分分析主成分分析(Principal Component Analysis,PCA)是一种常用的数据降维方法,它可以将高维度数据转换成低维度数据,并尽量保留数据的信息。
主成分分析的思想是通过对原始数据的线性变换,将其转换为一组新的变量,这些新变量是原始变量的线性组合。
这些新变量被称为主成分,它们可以解释原始数据的大部分方差,从而将原始数据的维度降低。
主成分分析的作用主成分分析可以用于数据预处理、数据压缩、数据可视化和模型建立等方面。
在数据预处理阶段,主成分分析可以用于去除数据中的冗余信息,减少数据噪声,提高数据的质量。
在数据压缩阶段,主成分分析可以将高维度数据压缩成低维度数据,从而节省存储空间和计算时间。
在数据可视化阶段,主成分分析可以将高维度数据转换成低维度数据,进行可视化展示,帮助用户更直观地理解数据和发现数据中隐藏的规律。
在模型建立阶段,主成分分析可以用于特征提取,减少维度的同时又不失去数据的重要特征,帮助用户更准确地建立模型,提高模型的预测准确率。
主成分分析的应用主成分分析广泛应用于各个领域,例如金融、医学、环境、工业等。
在金融领域,主成分分析可以用于建立风险评估模型,帮助投资者了解投资组合的风险。
在医学领域,主成分分析可以用于进行疾病预测,帮助医生快速准确地诊断疾病。
在环境领域,主成分分析可以用于分析空气质量和水质,帮助政府和公众了解环境状况。
在工业领域,主成分分析可以用于质量控制和生产优化,帮助企业降低成本和提高效率。
主成分分析的注意事项要注意主成分分析的前提条件,即原始数据必须为线性数据,在进行主成分分析前需要先对数据进行标准化处理。
此外,在进行主成分分析时,应根据实际问题选择合适的主成分数量,不能盲目追求降维程度,以免丢失重要信息。
同时,主成分分析的结果需要进行解释和验证,以确保分析结果的可靠性和有效性。
结语主成分分析是一种十分常用且十分有效的数据降维方法,它能够将高维度数据转换成低维度数据,并尽量保留数据的信息。
主成分分析在生产过程数据预处理中的应用作者:刘鑫
来源:《电子技术与软件工程》2016年第08期
摘要:数据挖掘技术日趋成熟,聚类分析是数据挖掘的重要方法。
本文以国内某产品制造企业产品生产线自动化采集数据为例,研究在聚类分析前,针对生产企业生产过程数据开展基于主成分分析方法的数据预处理的过程。
【关键词】数据挖掘主成分分析预处理生产行为
当今世界,计算机性能不断提高,生产企业内部的信息化程度越来越高,数据库管理系统应用越来越广泛,存储数据的规模也在不断地扩大。
同时,企业的生产普遍向着工艺复杂化精细化发展,产品生产工序增加,操作技术要求提升,这对企业的生产过程管理、产品质量控制带来了严峻的考验。
实际中,企业管理者面对的数据也越来越繁杂,如何从大量复杂的生产过程数据中提取出有价值的知识,通过把生产行为数据和实际业务管理有效结合、归纳、挖掘其中的隐藏信息,发现这些信息之间存在的潜在联系,成为了有针对性的产品质量控制,支持企业生产高效率运营的关键。
数据预处理是数据挖掘聚类分析前必须要做的工作,其中包括对原始数据进行必要的清洗、集成、转换、离散和归约等一系列工作,使之达到挖掘算法进行知识获取研究所要求的最低规范和标准。
处理过程涉及多种统计学方法,如序列分析、回归分析、贝叶斯分析、判别分析、相关分析、主成分分析等,本文主要介绍应用主成分分析方法处理生产过程数据,降低维度变量的问题。
1 主成分分析的介绍
主成分分析方法是利用数据集变量降低维度的思想,把反映一个事物特征的多个变量,用较少的具有代表性的变量描述。
它的中心思想是缩减一个包括很多相互联系着的变量的数据集,在数据集中,保留尽可能多的有用的变量。
主成分分析方法用所有的初始变量来得到新变量的更小的集合,而这个集合能较好表示初始变量。
初始变量的关联性越大,结果集所需要的变量个数就越少。
应当考虑原始数据之间的关联性,即变量之间是否具有可提取的综合变量的必然联系,提取的变量在多大程度上能代表原始事物的信息。
主成分列中,第一个主要成分y1是x1,x2…xp的一切线性组合之中最大的;第二个主要成分y2是x1,x2…xp的一切线性组合之中第二大的;第n个主要成分yn是x1,x2…xp的一切线性组合之中第n大的,而且提取出来的各个主成分中yi与yj相互无关。
可以通过公式‖S - λI = O‖计算出方差矩阵S的特征值λ。
λ1 ≥λ2≥…≥λp。
λ1对应y1的方差,λ2对应y2的方差,…,λp对应yp的方差,因此有
由大到小累计的方差贡献率达到了阈值,则表示相应主成分覆盖了原数据集的大部分信息,其余的都是噪声。
2 基于产品制造过程数据的主成分分析应用
首先数据挖掘对象是产品生产过程中设备采集数据,以生产单作为主关联,生产形式是离散线性多次的生产,也就是每个生产单之间在生产过程中没有直接的联系,产品可以在一台设备上操作多次,设备运转系统采集记录了设备前部、中部、后部三个部件的温度以及压力的数值,在一个生产阶段完成后继续进行下一个生产阶段的生产,不会有并行生产的情况。
从过去几年的系统记录数据计算获得这些变量,并整合在产品质量上,描述生产行为,形成数据聚类分析使用的主表。
此次研究样本涉及变量可以分为两类:聚类变量与描述变量。
聚类变量是根据既定的业务目标选择的并参与聚类的变量。
描述变量主要是在利用聚类变量对产品生产特征分类后,为了达到更彻底地了解产品生产特征的目的而需要使用的其他变量,以及其他没有参与聚类的变量都算作描述变量。
其中“生产单号”、“设备名称”、“操作员”等作为描述型变量,“平均前压力值”、“平均后压力值”、“平均中压力值”、“平均前温度值”、“平均后温度值”、“平均中温度值”、“平均电流值”、“最小前压力值”、“最小后压力值”、“最小中压力值”、“最小前温度值”、“最小后温度值”、“最小中温度值”、“最小电流值”、“最大前压力值”、“最大后压力值”、“最大中压力值”、“最大前温度值”、“最大后温度值”、“最大中温度值”、“最大电流值”、“研磨时间”,“混合时间”、“高速混合时间”、“上下混合时间”、“重量”、“色差”、“粘度”、“细度”、“干性”等,其中压力、温度等值,会有多次记录,如“第一次平均前压力值”,“第二次平均前压力值”、“第三次平均前压力值”。
经过统计最多有90个属性变量参与聚类过程。
对于数据集中设备生产时的数据采集变量,有些变量之间存在一定的相关性,如果存在较强相关性,那么说明信息存在冗余,可以进行维度缩减。
减少参与聚类的变量的个数,将提高聚类的效果。
由于生产工序在设备使用上相对独立,生产工序之间又具有相似的特征,所以首先针对第一阶段生产过程中的温度、压力生产特征变量进行分析。
主成分分析依赖测量单位的度量,所以在进行主成分分析之前,必须进行变量标准化后再进行简单相关分析,得到变量特征矩阵,表1显示了温度相关变量的相关性矩阵,可以看出变量之间存在正相关性。
进行主成分分析计算关联矩阵特征值,并根据特征值占有率的累计值选取主成分的个数。
特征值表2如下。
由表2可以看出特征值大于1的主成分共有7个,其保留了原始变量74.63%的信息。
从左边部分可以看出特征值大小与主成分个数的关系,从右边部分可以看出主成分个数与累积信息含量的关系。
主成分分析的关键是要给主成分赋予新的意义,给出合理的解释,这个解释应根据主成分的计算结果结合定性。
通过特征方程(1-1)分析,
Prin1=0.382922*fronttempavg+0.403264*backtempavg+0.378092*middletempavg+0.316121*fr onttempmin+0.302468*backtempmin+0.28823*middletempmin+0.282235*fronttempmax+0.276663* backtempmax+0.279643*middletempmax
Prin2=0.310109*leftpressavg+0.231412*rightpressavg+0.220604*middlepressavg+0.27013*left pressmin+0.26198*rightpressmin+0.20965*middlepressmin+0.453727*leftpressmax+0.410205*right pressmax+0.233996*middlepressmax
Prin3=0.21342*currentvalueavg+0.61568*currentvaluemin+0.634203* currentvaluemax
Prin4= 0.573596*currentvalueavg+ 0.556702* cl (1)
设备的压力、温度、电流等参数的平均值与其运行中的最大值、最小值存在高度关联性,产量与电流平均值之间也存在高度关联性,但是前、中、后部件的温度或压力的关联性相对独立,研磨时间也相对独立。
之后分别对第二、三阶段的研磨数据进行分析,也同样出现了相同的结果。
由此,为了降低数据集维度数量,提高聚类的效果,针对实例企业生产设备采集数据可以进行适当的变量缩减,保留变量:“平均前压力值”、“平均后压力值”、“平均中压力值”、“平均前温度值”、“平均后温度值”、“平均中温度值”、“研磨时间”,“混合时间”、“高速混合时间”、“上下混合时间”、“重量”、“色差”、“粘度”、“细度”、“干性”,数据集总变量数也由90个缩减为33个。
3 结论
研究可以发现企业生产数据集中存在着大量冗余的变量,如果放任不管,可能会增加聚类分析的复杂度,影响聚类的准确性。
所以,通过SAS主成分分析方法对数据进行预处理,可以有效地发现生产过程中的关键变量信息,以及它们之间的关联关系。
参考文献
[1]阮静.SAS统计分析从入门到精通[M].北京:人民邮电出版社,2009.
[2]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,1998(01).
[3]唐懿芳,钟达夫.主成分分析方法对数据进行预处理[J].广西师范大学学报,1001-6597.2002.s1.050.
作者单位
中钞油墨有限公司上海市 201315。