LLE(局部线性嵌入)
- 格式:pptx
- 大小:414.31 KB
- 文档页数:16
数据降维方法研究一、内容简述本文主要探讨了数据降维方法的研究现状与发展趋势。
随着科技的进步和数据集的日益庞大,高维数据给数据处理和模型训练带来了诸多挑战。
为了降低计算复杂度、提高算法效率,并尽量保留数据的内在信息,数据降维技术应运而生。
数据降维方法可以分为有监督降维、无监督降维和半监督降维。
有监督降维利用已知标签数据进行训练,如主成分分析(PCA)和线性判别分析(LDA)。
无监督降维则不依赖于标签数据,常用的方法有主成分分析(PCA)、t分布邻域嵌入算法(tSNE)等。
而半监督降维则试图在有少量标签数据的情况下,挖掘潜在的结构,提高模型的泛化能力。
本文将对这些方法进行详细介绍和评述,并探讨它们在不同领域的应用及未来发展方向。
1. 数据降维的重要性随着大数据时代的到来,数据量的激增为各行各业带来了极大的数据处理挑战。
在此背景下,数据降维技术日益受到关注。
数据降维是在保留原始数据集的完整性和维度信息的基础上,通过特定的算法对高维数据进行降维处理,从而降低计算复杂度、提高数据分析效率。
本文将重点探讨数据降维的重要性,并分析其在实际应用中的重要性。
数据降维有助于提高数据挖掘的效率与精度。
面对海量数据,如果逐一进行分析,则需要耗费大量的时间和计算资源。
而通过降维,可以去除冗余和无关的信息,仅保留关键特征,从而简化数据分析过程,提升运算速度及准确性。
数据降维有助于降低计算复杂度。
高维数据在采集、存储和处理过程中往往面临较高的存储与计算负担。
采用合适的降维方法,可以大幅度减少数据的维度,使得数据更容易处理,降低计算难度与成本。
数据降维可以增强数据分析的灵活性。
在进行数据分析时,不同数据维度的选择对结果具有一定的影响。
通过对数据进行降维处理,可以在一定程度上解决变量选择困难的问题,提高分析方法的适用性和泛化能力。
数据降维在处理高维数据、提高数据利用效率、降低成本以及增强数据分析灵活性等方面具有重要意义。
在实际应用中,对数据降维技术的研究与应用显得尤为重要。
manifold-based method
manifold-based方法是一类机器学习方法,其核心思想是:
高维数据实际上处于一个低维的manifold(流形)结构上,这个低维流形折叠、弯曲在高维空间内。
manifold-based方法试图学习和保留这个低维流形的结构。
比如著名的Isomap算法,它通过维持高维数据两点之间的流形距离来降维。
相比传统的线性降维方法如PCA,manifold-based方法的优点是可以保留非线性流形结构,更好地反映真实数据的内在低维分布。
典型的manifold-based方法还包括LLE(局部线性嵌入)、LE(拉普拉斯特征映射)等,它们虽然技术细节不同,但都遵循这个核心思路。
综上,manifold-based方法是一类非线性降维技术,通过假设数据分布在低维流形上,试图学习和保留数据的流形结构,比传统线性降维方法更好地反映数据的内在特征。
人工智能原理_北京大学中国大学mooc课后章节答案期末考试题库2023年1.Turing Test is designed to provide what kind of satisfactory operationaldefinition?图灵测试旨在给予哪一种令人满意的操作定义?答案:machine intelligence 机器智能2.Thinking the differences between agent functions and agent programs, selectcorrect statements from following ones.考虑智能体函数与智能体程序的差异,从下列陈述中选择正确的答案。
答案:An agent program implements an agent function.一个智能体程序实现一个智能体函数。
3.There are two main kinds of formulation for 8-queens problem. Which of thefollowing one is the formulation that starts with all 8 queens on the boardand moves them around?有两种8皇后问题的形式化方式。
“初始时8个皇后都放在棋盘上,然后再进行移动”属于哪一种形式化方式?答案:Complete-state formulation 全态形式化4.What kind of knowledge will be used to describe how a problem is solved?哪种知识可用于描述如何求解问题?答案:Procedural knowledge 过程性知识5.Which of the following is used to discover general facts from trainingexamples?下列中哪个用于训练样本中发现一般的事实?答案:Inductive learning 归纳学习6.Which statement best describes the task of “classification” in machinelearning?哪一个是机器学习中“分类”任务的正确描述?答案:To assign a category to each item. 为每个项目分配一个类别。
高维数据降维方法研究综述摘要:随着数据科学与人工智能的迅速发展,高维数据的处理成为一个重要挑战。
高维数据降维是一个旨在减少数据维度,并保留数据重要结构和特征的技术。
本文综述了高维数据降维的方法,包括传统的线性方法和非线性方法,以及最近兴起的深度学习方法,分析了各个方法的优缺点,并讨论了它们在实际应用中的适用性和性能。
引言:随着数据收集和存储技术的快速发展,我们能够轻松获得大量的高维数据。
然而,由于高维数据带来的“维度灾难”问题,传统的数据分析和建模方法在处理高维数据时面临挑战。
高维数据降维是一种有效的解决方案,它可以减小数据集的维度,同时保留数据的重要结构和特征。
在本综述中,我们将探讨不同的高维数据降维方法,并比较它们的优缺点。
一、线性降维方法1. 主成分分析(PCA)主成分分析是一种经典的线性降维方法,通过寻找数据中的主要方差来找到一组新的特征空间。
然而,PCA忽略了数据中的非线性关系,对于非线性数据表现较差。
2. 线性判别分析(LDA)线性判别分析是一种监督学习的降维方法,它试图找到一个新的特征空间,使得不同类别的样本在该空间中最大程度上分离。
LDA在分类问题中有良好的表现,但在无监督任务中效果不佳。
二、非线性降维方法1. 非负矩阵分解(NMF)非负矩阵分解将数据矩阵分解为两个非负矩阵的乘积,通过隐含结构的发现来降维。
NMF广泛应用于图像处理、文本挖掘和生物信息学等领域,可以发现数据中的隐含模式。
2. 局部线性嵌入(LLE)局部线性嵌入是一种基于流形学习的非线性降维方法,通过保持数据局部邻域的线性关系来重建数据结构。
LLE能够保留数据的局部特征,并在非线性问题上表现出色。
三、深度学习方法1. 自动编码器(AE)自动编码器是一种无监督学习的神经网络模型,它试图通过重构输入数据来学习数据的低维表示。
自动编码器在无监督降维、特征学习和生成模型等任务中具有强大的表达能力。
2. 变分自编码器(VAE)变分自编码器是一种生成模型,它不仅能够学习数据的低维表示,还可以学习数据分布的潜在结构。
流形学习算法综述流形学习(manifold learning)是一种无监督学习方法,用于在数据集中发现潜在的低维流形结构。
与传统的线性降维方法相比,流形学习算法可以更好地捕捉非线性结构,并在保持数据结构的同时降低数据的维度。
在本文中,我们将综述流形学习算法的主要方法和应用领域。
首先,我们将介绍几种常用的流形学习算法。
其中一种是主成分分析(PCA)。
PCA是一种线性降维算法,通过计算数据的协方差矩阵的特征向量,将数据投影到低维空间中。
然而,PCA只能发现线性结构,对于复杂的非线性数据,效果较差。
另一种常用的算法是多维缩放(MDS),它通过最小化高维数据点之间的欧氏距离和降维空间点之间的欧氏距离之间的差异,来获取降维的坐标。
然而,MDS在处理大规模数据集时计算复杂度较高。
还有一种被广泛研究的算法是局部线性嵌入(LLE),它通过保持每个样本与其邻居样本之间的线性关系来进行降维。
LLE能够很好地处理非线性结构,但对于高维稀疏数据表现不佳。
除了以上提到的算法,还有一些流行的流形学习方法。
其中之一是等距映射(Isomap),它通过计算数据点之间的最短路径距离来构建邻接图,然后使用MDS将数据映射到低维空间。
Isomap能够很好地处理数据中的非线性流形结构,但对于高维数据计算开销较大。
另一个流行的算法是局部保持投影(LPP),它通过最小化数据点之间的马氏距离来进行降维。
LPP能够保持数据的局部关系,并且对于高维数据有较好的效果。
除了上述算法,还有一些最新的流形学习算法。
其中之一是随机投影流形学习(SPL),它使用随机投影技术来近似流形嵌入问题,从而提高了运行效率。
另一个新算法是自编码器(Autoencoder),它通过训练一个神经网络来学习数据的非线性特征表示。
自编码器在流形学习中被广泛应用,并取得了很好的效果。
流形学习算法在许多领域中有广泛的应用。
其中一个应用是图像处理领域,例如图像分类和人脸识别。
流形学习可以帮助将图像特征降维到低维空间,并保留图像之间的相似性。
特征升维方法全文共四篇示例,供读者参考第一篇示例:特征升维是机器学习中常用的一种数据处理方法,通过增加原始特征的组合,从而提高数据的表征能力。
特征升维方法可以帮助模型更好地理解数据的复杂关系,提高数据的分类或回归性能。
本文将结合理论和实践,对特征升维方法进行细致的介绍和分析。
一、特征升维的原理特征升维的原理是通过增加原始特征的维度,从而使数据在更高维度空间中更容易区分。
以线性模型为例,如果原始数据在低维空间中无法被线性分隔,可以通过特征升维的方式将数据映射到高维空间中,使数据线性可分。
特征升维主要有两种方法:一种是通过添加原始特征的多项式组合、交叉等方式来产生新特征,另一种是通过降维方法,在较低维度空间中降低数据的复杂度,然后再将数据映射到高维空间。
1. 多项式特征升维多项式特征升维是一种简单且有效的特征升维方法。
通过对原始特征进行多项式组合,生成新的特征。
对于二维特征(x1, x2),通过多项式特征升维可以产生新的特征(x1^2, x2^2, x1*x2)。
这种方法在处理非线性数据时非常有效,可以提高模型的拟合能力。
2. 核方法核方法是一种常用的特征升维方法,通过将原始特征映射到高维空间中,实现原始数据线性不可分的问题。
核方法常用的核函数有线性核、多项式核、高斯核等。
核方法的优势在于可以将非线性问题转化为线性问题,简化模型的建模过程。
3. 自编码器自编码器是一种无监督学习的特征升维方法,通过神经网络结构将原始数据映射到高维空间中,并且在映射后的高维空间中再将数据重构回原始空间。
自编码器通过学习数据的压缩表示,提取数据中的重要特征,进而实现特征的升维。
4. 特征选择与特征组合特征选择是一种简单有效的特征升维方法,通过筛选关键特征,减少数据的维度。
特征组合是通过组合原始特征,产生新的特征,提高数据的表达能力。
特征选择与特征组合可以结合使用,提高模型的性能。
1. 图像识别在图像识别领域,特征升维方法被广泛应用。
高维数据降维算法综述高维数据是指数据集中包含大量的特征,每个特征之间相对独立,且维度数较高. 对于这种数据,传统的分析方法往往难以具有良好的性能表现。
因此,降维算法被广泛应用于高维数据的数据分析和处理中。
降维是指通过某种方法将高维数据映射到低维空间,使得数据保持原有的重要特征,同时减少冗余信息。
随着机器学习技术的不断发展,各种各样的高维数据降维算法应运而生。
一、PCA最常用的降维算法是PCA(Principal Component Analysis)。
PCA将高维数据投影到低维子空间上,尽量保留原始数据最具有代表性的方差,以此简化数据,减少数据的维度。
PCA 的优点在于简单易于实现,缺点是对于非线性数据分布会有问题。
二、LLE另一个流行的高维数据降维算法是局部线性嵌入(Locally Linear Embedding,LLE)算法。
LLE 算法在处理高维数据时非常有用,因为它不需要提前假设数据空间的结构或可能的数据分布模型。
三、t-SNEt - SNE 是 t-Distributed Stochastic Neighbor Embedding 的缩写,也是一种非常流行的降维算法,特别适合可视化高维数据。
该算法基于随机梯度下降,并使用类似于 PCA 的累积变化比率来确定数据集的哪些维度影响最大。
四、UMAPUMAP ,Uniform Manifold Approximation and Projection,是一种新兴的高维数据降维算法,在F矩阵上构建比较等距与局部结构,并通过优化数值方法实现。
UMAP 在计算效率和表示效果方面都比 t-SNE 表现更加优秀。
五、AE除了上述算法外,还有自编码器(Autoencoder)等神经网络方法可以用于高维数据降维。
自编码器通过编码器将高维数据投影到低维向量,然后在解码器中重建原始的数据。
这种方法同时可以学习特征表示,适用于超高维度的数据降维。
Conclusion本文简要介绍了几种经典的高维数据降维算法,每种算法都有其优缺点和适用范围。
该问题,学者们提出了基于更换欧氏距离和多种算法组合技术㊂由于在高维流形上欧氏距离的局限性,更换欧氏距离的方法,能实现对高维流形结构的精准度量㊂Pan 等[5]利用伽玛函数和新的加权距离公式改善LLE,在数据的分布与高斯分布差距较大时表现良好㊂Varini 等[6]将等距特征映射算法ISOMAP (Isometric Feature Mapping)中的测地线距离引入LLE 中用于构建K 最近邻法KNN(K⁃Nearest Neighbor)图,得到ISOLLE(Isometric Locally Linear Embedding)算法㊂将数据映射到不同的空间同样能达到挖掘高维数据结构的作用㊂Zhang 等[7]则利用LLE 和线性判别分析LDA(Linear Discriminant Analysis)相结合得到ULLELDA 算法(Unified Locally Linear Embedding and Linear Discriminant Algorithm)㊂Jiang 等[8]将LLE 与主成分分析(PCA:Principal Component Analysis)相结合得到LLE⁃PCA 算法㊂近年来,利用邻域拓扑关系增强对邻域结构的挖掘㊂例如,Kong 等[9]提出的迭代LLE,该算法是一种利用包含对角矩阵的强化线性嵌入的LLE 优化方法㊂Luo [10]等提出用混合图学习方法能有效地揭示高维数据之间的内在关系,Luo [11]还提出了一种多结构统一判别嵌入方法,该方法考虑高光谱图像集中每个样本的邻域㊁切向和统计特性,以实现不同特征的互补㊂但上述方法仅挖掘原始空间的拓扑关系,并未考虑邻域和邻域之间的拓扑关系,因此在很多数据中不利于维持原始数据在低维空间的结构关系㊂为充分挖掘电机轴承信号的高维空间结构,笔者提出了一种新的融合邻域分布属性的局部线性嵌入算法,即利用高斯分布将每个最近邻样本与中心样本之间的相似度转换为最近邻样本的条件概率㊂通过计算每个邻域样本与其邻域中心点临近点分布的KL (Kullback⁃Leibler)散度,度量中心点与近邻点各自邻域分布的相似度㊂最后,权重修正函数调整权重系数,实现了对高维数据邻域间结构的挖掘㊂1 局部线性嵌入算法LLE 算法是经典局部流形学习算法,其核心思想是找到每个高维流形上样本点的近邻域样本,并用其线性重构该样本点,以此挖掘高维数据局部的拓扑结构信息㊂高维样本数据集为X =[x 1,x 2, ,x N ]∈R D ×N ,其中x i (i =1,2, ,N )为第i 个样本,D 为高维样本的特征维数,N 为样本总数㊂设低维映射结果为Y =[y 1,y 2, ,y N ]∈R d ×N ,d 为低维空间的维数㊂LLE 算法具体计算步骤[12]如下㊂步骤1) 设定邻域大小超参数为K 且假设较小局部中的数据是线性的,针对每个样本点,选择与其相似度最高的前K 个样本点作为近邻点㊂步骤2) 利用样本x i 与周围K 个近邻点,通过最小化均方差计算每个样本点的重构权重w ,计算函数如下:arg min Wx i -∑j ∈n (i )w ij x j 22,s.t. ∑j ∈n (i )w ij =1,(1)其中n (i )为第i 个样本邻域㊂通过高维重构权重计算样本点的低维输出,低维空间的线性重构公式如下:J (Y )=∑N i =1y i -∑j ∈n (i )w ij y j 22,s.t. ∑N i =1y i =0, 1N ∑N i =1y i y T i =I ㊂(2)2 融合邻域分布属性的局部线性嵌入算法针对LLE 算法未能充分保持高维数据邻域之间结构的问题,笔者提出了一种融合邻域分布的属性的局部线性嵌入算法DLLE(Local Linear Embedding algorithm incorporating the properties of the neighborhood Distribution),通过加强分布属性相似邻域的权重,提高降维效果㊂首先,对每个样本点,选择相似度187第5期张彦生,等:融合邻域分布LLE 算法轴承故障信号检测最高的前K 个样本点作为最近邻点㊂计算每个样本x j 在x i邻域中对应的高斯分布概率[13]:p j i =exp(-‖x i -x j ‖2/2σ2)∑K k =1exp(-‖x i -x k ‖2/2σ2)㊂(3)则对以x j 为中心的邻域样本x jj 的高斯分布概率为p jj j =exp(-‖x j -x jj ‖2/2σ2)∑K k =1exp(-‖x j -x k ‖2/2σ2)㊂(4) 其次,将样本x i 的邻域分布设为L i ,其邻域样本x j 的邻域分布设为L j ㊂由散度计算其之间的分布差异㊂相应的散度公式为D KL (L i ‖L j )=∑K i =1p i j log p i j p jj j ㊂(5) 归一化散度函数为D G KL (L i ‖L j )=D KL (L i ‖L j )-min(D KL (L i ‖L j ))max(D KL (L i ‖L j ))-min(D KL (L i ‖L j ))㊂(6) 鉴于LLE 算法没有考虑到样本邻域分布之间的差异,通过在原始的降维过程中添加对权重w 的修图1 KL 散度度量邻域分布Fig.1 KL divergence measures neighborhood distribution 正函数,使邻域L i 与L j 分布的相似性关系信息传送到低维空间㊂修正函数如下:w rij =(1-α)w ij +αD G KL (L i ‖L j ),(7)其中α为修正系数(0<α<1),通过调整其大小可以控制高维数据邻域分布相似性关系对低维数据的影响㊂图1为KL 散度度量邻域分布的示意图㊂为满足低维数据的生成条件,每个样本的权值之和为1,因此有:w ′rij =w rij /∑k j =1w ()rij ㊂(8)3 实验仿真及结果分析为评估DLLE 算法应用在电机轴承信号检测上的效果,利用DLLE 算法对两个轴承故障数据集的实验结果数据进行评估㊂由可视化㊁定量聚类和识别精度评估3个实验验证该方法在可视化㊁数据分类与识别精度,从而验证DLLE 算法具有较强的电机轴承信号数据高维空间结构的挖掘能力㊂3.1 数据集为充分证明算法的广泛有效性,使用分别来自凯斯西储大学CWRU(Case Western Reserve University)和江苏千鹏公司生产的QPZZ⁃Ⅱ型轴承故障诊断设备实验平台采集的两组滚动轴承数据集㊂CWRU 数据集采样平台如图2所示,包括一个2马力1.5kW 的电机,一个转矩传感器,一个功率测试计与电子控制设备(图2中未显示)㊂待检测的轴承支撑着电动机的转轴,驱动端转轴为SKF6250,风扇端轴承为SKF6203㊂安装在基座上的加速度传感器在负载为0,频率为12kHz,转子转速为1720r /min 的情况下进行采集,包含正常㊁滚珠故障㊁轴承内圈故障和外圈故障4类数据,且每种数据采集100个样本,每个样本包含1024个特征㊂千鹏数据集采样平台如图3所示,平台由电机㊁轴承和齿轮箱组成,传感器在无负载,电机采样频率为10kHz,转速为1400r /min 的情况下,共采集正常㊁滚珠故障㊁轴承内圈故障和外圈故障数据,每种数据有100个样本,每个样本有1024个特征㊂287吉林大学学报(信息科学版)第41卷 图2 CWRU 数据集采样平台 图3 千鹏数据集采样平台 Fig.2 CWRU dataset sampling platform Fig.3 QianPeng dataset sampling platform3.2 效果可视化评估利用LLE㊁局部切空间排列LTSA(Local Tangent Space Alignment)㊁拉普拉斯特征映射LE(Laplacian Eigenmaps)和DLLE 4种降维算法在两种数据集上的三维效果进行对比,其中正方形代表正常数据,菱形代表内圈故障数据,五角星代表滚珠故障数据,三角形代表外圈故障数据㊂4种电机数据由于特征不同,在高维空间中处于不同的区域㊂在降维过程中,由于没有保留高维数据中邻域之间的结构,导致在低维空间不能有效反应不同种类数据之间的空间关系,即不同种类数据发生相互堆叠㊂因此,通过不同算法能否有效分离同一数据集,可以有效判断算法的保留高维数据中邻域之间的结构能力㊂不同降维算法处理CWRU 数据结果如图4所示,在多种降维算法处理CWRU 数据的三维效果中,图4a 为LLE 算法处理得到的低维结果,外圈故障数据集中,其余3种数据分散,数据堆叠情况严重,没有明显的汇集点㊂LTSA 处理效果如图4b 所示,低维结果均比较聚集,呈现柱状分布,4种数据间具有明显的汇集点㊂图4c 是LE 算法的处理的可视化效果图,能明确反映外圈故障数据,正常数据被分为两个部分,另外两种数据堆叠严重,不能有效区分㊂DLLE 算法效果如图4d 所示,同类数据均聚集为一点,且不同种类之间分散,基本没有发生数据堆叠㊂图4 不同降维算法处理CWRU 数据结果Fig.4 Different dimensionality reduction algorithms process CWRU data results 不同降维算法处理千鹏数据结果如图5所示㊂在其三维效果中,LLE 算法处理得到的低维结果如图5a 所示,4种故障汇集成柱状,有明显的交叉部分㊂LTSA 处理效果中,不同种类数据仍然集中,如图5b 所示㊂图5c 表明LE 算法难以区分正常和外圈故障数据㊂DLLE 算法效果如图5d 所示,正常和外圈故障数据呈现柱状分布,滚珠故障和内圈故障数据聚集呈点状分布,低维数据仍然无明显堆叠现象㊂综上,387第5期张彦生,等:融合邻域分布LLE 算法轴承故障信号检测LLE㊁LTSA 和LE 通过处理CWRU 数据与千鹏数据得到的4种数据发生堆叠现象,DLLE 的低维结果正确反映高维数据空间分布,表明其提高了LLE 保留高维数据中邻域之间的结构的能力㊂图5 不同降维算法处理千鹏数据结果Fig.5 Different dimensionality reduction algorithms process QianPeng data results 3.3 效果Fisher 度量评估Fisher 度量是一种常用的数据聚类效果评估的方法,该方法通过利用类间距离S b 和类内距离S w 的商反应同一类数据的分散程度和不同类之间的分离程度,进一步评估不同降维算法的分类效果㊂Fisher 度量及相关参数S b ㊁S w 的具体求解公式如下:F =tr(S b )tr(S w ),S b =∑C i =1n i (⎺x i -⎺x )(⎺x i -⎺x )T ,(9)S w =∑C i =1∑x i ∈C i (x i -⎺x i )(x i -⎺x i )T ㊂ 在LLE㊁LTSA㊁局部保留投影算法LPP(Locality Preserving Projections)㊁LE 和DLLE 算法处理的两组数据的结果上使用Fisher 度量计算公式,得到具体的相关参数S b ㊁S w 和F 如表1㊁表2所示㊂表1 不同算法对CWRU 数据的Fisher 度量的比较表2 不同算法对千鹏数据的Fisher 度量的比较487吉林大学学报(信息科学版)第41卷通过数据对比,可以观察到DLLE 在5种降维算法中的表现,表1是不同算法对CWRU 数据的Fisher 度量的比较㊂其中类间距离中DLLE 类间距离1.4807,在5种降维算法中为最大值,表现出良好的分类效果能力,类内距离为0.7749,相较LLE 聚类效果提升明显,Fisher 度量值1.9107,除LPP 算法Fisher 度量值外最高㊂不同算法对千鹏数据的Fisher 度量如表2所示㊂其中DLLE 类间距离1.8771在多种算法中仍为最大值,类内距离较小,Fisher 度量值4.9065为最大值㊂因此,DLLE 的分类效果在5种算法中表现良好,有效提高了LLE 的分类效果㊂3.4 效果识别精度评估分别在CWRU 数据集和千鹏数据集上对多种不同算法的效果识别精度做评估,对每类样本80%进行训练,20%测试,结果如图5,图6所示㊂从图5,图6中可看出,在两组数据集上,DLLE 算法在CWRU 数据集上对4类样本的识别精度均较高,平均精度维持在91%左右,该算法在特征识别上具有较高精确度㊂ 图6 CWRU 数据集类别识别精度评估 图7 千鹏数据集类别识别精度评估 Fig.6 Category recognition accuracy Fig.7 Category recognition accuracy evaluation of CWRU dataset evaluation of QianPeng dataset4 结 语为解决LLE 算法难以充分挖掘高维电机轴承数据结构的问题,笔者提出了一种融合邻域分布属性的局部线性嵌入算法㊂该算法通过计算样本邻域分布之间的散度,对权重系数进行修正,实现了在低维空间中的数据保持高维空间中的邻域相似性关系㊂该算法在CWRU 数据集和千鹏数据集上利用可视化㊁效果Fisher 度量和效应识别精度对该算法进行评估㊂其中,在Fisher 测量中,算法分别为1.9107和4.9065㊂在效果识别精度评价中,该算法保持了识别精度的91%左右,验证了该算法对轴承信号处理结果在可视化㊁分类和识别精度的优势㊂证明该算法对增强LLE 算法挖掘电机轴承检测数据高维非线性结构具有一定意义㊂参考文献:[1]SIKDER N,MOHAMMAD ARIF A S,ISLAM M M,et al.Induction Motor Bearing Fault Classification Using ExtremeLearning Machine Based on Power Features [J].Arabian Journal for Science and Engineering,2021,46(9):8475⁃8491.[2]YANG D M.The Detection of Motor Bearing Fault with Maximal Overlap Discrete Wavelet Packet Transform and Teager EnergyAdaptive Spectral Kurtosis [J].Sensors,2021,21(20):6895.[3]AYAS S,AYAS M S.A Novel Bearing Fault Diagnosis Method Using Deep Residual Learning Network [J].Multimedia Toolsand Applications,2022,81(16):22407⁃22423.[4]张朝林,范玉刚.LLTSA 特征降维与ELM 模型在单向阀故障诊断中的应用[J].机械科学与技术,2019(7):1024⁃1028.ZHANG C L,FAN Y G.Application of LLTSA Characteristic Dimensionality Reduction and ELM Model in Fault Diagnosis of Check Valve [J].Mechanical Science and Technology,2019(7):1024⁃1028.[5]PAN Y,GE S S,AL MAMUN A.Weighted Locally Linear Embedding for Dimension Reduction [J].Pattern Recognition,2009,42(5):798⁃811.587第5期张彦生,等:融合邻域分布LLE 算法轴承故障信号检测687吉林大学学报(信息科学版)第41卷[6]VARINI C,DEGENHARD A,NATTKEMPER T.ISOLLE:Locally Linear Embedding with Geodesic Distance[C]∥European Conference on Principles of Data Mining and Knowledge Discovery.Berlin,Heidelberg:Springer,2005:331⁃342.[7]ZHANG J P,SHEN H X,ZHOU Z H.Uni⁃Fified Locally Linear Embedding and Linear Discriminant Analysis Algorithm (ULLELDA)for Face Recognition[C]∥Chinese Conference on Biometric Recognition.[S.l.]:Springer,2004:296⁃304.[8]JIANG B,DING CHRIS,LUO B.Robust Data Representation Using Locally Linear Embedding Guided PCA[J]. Neurocomputing,2018,275:523⁃532.[9]KONG D G,DING CHRIS H Q,HUANG H,et al.An Iterative Locally Linear Embedding Algorithm[J/OL].[2023⁃4⁃27]. https:∥/abs/1206.6463.[10]LUO F,ZHANG L,DU B,et al.Dimensionality Reduction with Enhanced Hybrid⁃Graph Discriminant Learning for Hyperspectral Image Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2020,58(8):5336⁃5353.[11]LUO F,ZOU Z,LIU J,et al.Dimensionality Reduction and Classification of Hyperspectral Image via Multistructure Unified Discriminative Embedding[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1⁃16.[12]ANOWAR F,SADAOUI S,SELIM B.Conceptual and Empirical Comparison of Dimensionality Reduction Algorithms(PCA, KPCA,LDA,MDS,SVD,LLE,ISOMAP,LE,ICA,T⁃SNE)[J].Computer Science Review,2021,40:100378. [13]WANG Y,HUANG H,RUDIN C,et al.Understanding How Dimension Reduction Tools Work:An Empirical Approach to Deciphering t⁃SNE,UMAP,TriMap,and PaCMAP for Data Visualization[J].Journal of Machine Learning Research,2021, 22(1):9129⁃9201.(责任编辑:张洁)第41卷 第5期吉林大学学报(信息科学版)Vol.41 No.52023年9月Journal of Jilin University (Information Science Edition)Sept.2023文章编号:1671⁃5896(2023)05⁃0787⁃06基于改进占空比调制的PMSM 模型预测控制收稿日期:2022⁃10⁃10基金项目:国家自然科学基金资助项目(61873058)作者简介:王金玉(1973 ),男,济南人,东北石油大学教授,硕士生导师,主要从事电力电子与电力传动研究,(Tel)86⁃135****2418(E⁃mail)wangjydxl@;通讯作者:路鑫宇(1996 ),男,黑龙江大庆人,东北石油大学硕士研究生,主要从事电力电子与电力传动研究,(Tel)86⁃150****5917(E⁃mail)1059187461@㊂王金玉,路鑫宇,张忠伟(东北石油大学电气信息工程学院,黑龙江大庆163318)摘要:为改善永磁同步电机(PMSM:Permanent Magnet Synchronous Motor)模型预测控制系统中较高的转矩脉动与磁链脉动,通过学习永磁同步电机的基本构造和控制方法,设计了一种对占空比与电压矢量进行同步调节的模型预测控制系统方案㊂通过选择某一取样时间的最优预期电压矢量和作用时间,加上当前取样时间的最优预期电压矢量和作用时间,对采样时间的占空比系数实现调整㊂通过对仿真模型进行对比分析,验证了该方法对提升永磁同步电机控制性能的可行性和有效性㊂关键词:永磁同步电机;模型预测控制;占空比;转矩脉动;磁链脉动中图分类号:TP271文献标志码:APredictive Control of PMSM Based on Improved Duty Cycle ModulationWANG Jinyu,LU Xinyu,ZHANG Zhongwei(School of Electrical and Information Engineering,Northeast Petroleum University,Daqing 163318,China)Abstract :In order to improve the torque ripple and flux ripple in the model predictive control system of PMSM (Permanent Magnet Synchronous Motor),a control system scheme is designed by learning the basic structure and control methods of PMSM.The scheme adjusts the duty cycle and voltage vector synchronously.The optimal expected voltage vector and action time at a certain sampling time are selected,and the optimal expected voltage vector and action time at the current sampling time are added to adjust the duty cycle coefficient of the sampling time.The feasibility and effectiveness of this method in improving the control performance of PMSM are verified by comparative analysis of the simulation model.Key words :permanent magnet synchronous motor (PMSM);model predictive control;duty cycle;torque pulsation;magnetic chain pulsates 0 引 言近年来,永磁同步电机(PMSM:Permanent Magnet Synchronous Motor)以其具备高速度㊁大扭矩㊁高效率㊁可靠性高㊁成本低㊁动态响应快㊁结构简单等优点和出色的控制性能而在多方面优越于其他类型的传统电机,从而在工业生产中得到广泛应用[1⁃3]㊂对解决现代控制策略更高级的控制要求,以及对永磁同步电机的高性能控制策略的探讨也都具有极为重要的价值[4⁃5]㊂其中模型预测控制系统(Model Predictive Control)主要使用离散的系统模型,其可利用系统建模的方法预测系统中每个控制变量未来的变化情况,然后通过选择一定合理的顺序施加电压矢量,将转矩和磁链误差控制在一定范围内[6⁃8]㊂对永磁同步电机模型预测控制在转矩脉动和磁链脉动较高的问题,人们提出了许多改进方法㊂Gong 等[9]通过使用多电平变流器或增加虚拟矢量直接有效地降低永磁同步电机预测控制转矩脉动,但该方法对硬件有较高要求,并且会在一定。
传统特征抽取算法及优缺点分析随着机器学习和深度学习的快速发展,特征抽取作为机器学习的重要环节,也变得越来越重要。
在传统机器学习中,特征抽取是将原始数据转化为可供机器学习算法使用的特征向量的过程。
本文将对传统特征抽取算法进行分析,并探讨其优缺点。
一、主成分分析(PCA)主成分分析是一种常用的无监督降维算法,通过线性变换将原始数据映射到一个新的特征空间。
PCA通过计算协方差矩阵的特征值和特征向量,选择最大的特征值对应的特征向量作为主成分,从而实现数据降维。
优点是简单易实现,能够保留数据的主要信息;缺点是无法处理非线性关系,对异常值敏感。
二、线性判别分析(LDA)线性判别分析是一种有监督的降维算法,它通过最大化类间距离和最小化类内距离来实现数据的降维。
LDA通过计算类内散度矩阵和类间散度矩阵的特征值和特征向量,选择最大的特征值对应的特征向量作为投影方向。
优点是能够保留类别间的差异,适用于分类问题;缺点是对异常值敏感,无法处理非线性关系。
三、局部线性嵌入(LLE)局部线性嵌入是一种非线性降维算法,它通过在原始数据的局部邻域内进行线性重构,将原始数据映射到低维空间。
LLE首先计算每个样本与其邻居之间的权重,然后通过最小化重构误差来确定低维表示。
优点是能够保留数据的局部结构,适用于非线性关系;缺点是计算复杂度高,对参数敏感。
四、奇异值分解(SVD)奇异值分解是一种常用的矩阵分解方法,它将一个矩阵分解为三个矩阵的乘积:原始矩阵=左奇异矩阵×奇异值矩阵×右奇异矩阵。
SVD可以用于特征抽取,通过选择最大的奇异值对应的奇异向量作为特征向量,实现数据降维。
优点是能够保留数据的主要信息,适用于大规模数据;缺点是计算复杂度高,对稀疏矩阵不适用。
五、小波变换(Wavelet Transform)小波变换是一种多尺度分析方法,它通过将信号分解为不同尺度的小波函数来实现特征抽取。
小波变换可以提取信号的局部特征,并且能够适应信号的非平稳性。