基于增量核主成分分析的数据流在线分类框架

格式：pdf
大小：1.63 MB
文档页数：9

下载文档原格式

/ 9

主成分分析方法

主成分分析方法主成分分析（Principal Component Analysis, PCA）是一种常用的数据降维技术，它可以通过线性变换将原始数据转换为一组各维度之间线性无关的表示，从而实现数据的降维和特征提取。

在实际应用中，主成分分析方法被广泛应用于数据预处理、特征提取、模式识别和数据可视化等领域。

主成分分析的基本思想是通过寻找数据中的主要信息，并将其转化为一组新的互相无关的变量，即主成分，以达到降维的目的。

在进行主成分分析时，我们首先需要计算数据的协方差矩阵，然后对协方差矩阵进行特征值分解，得到特征值和特征向量。

特征向量构成的矩阵即为数据的主成分矩阵，而特征值则代表了数据在各个主成分方向上的方差大小。

通过主成分分析，我们可以将原始数据映射到主成分空间中，从而实现数据的降维。

在降维后的主成分空间中，我们可以选择保留的主成分数量，以达到对数据特征的提取和压缩。

同时，主成分分析还可以帮助我们发现数据中的内在结构和模式，从而更好地理解数据的特性和规律。

在实际应用中，主成分分析方法有着广泛的应用。

例如，在图像处理领域，主成分分析可以用于图像压缩和特征提取；在金融领域，主成分分析可以用于资产组合的风险分析和优化；在生物信息学领域，主成分分析可以用于基因表达数据的分析和分类等。

需要注意的是，在应用主成分分析方法时，我们需要考虑数据的标准化和中心化处理，以避免不同量纲和尺度对主成分分析结果的影响。

此外，我们还需要注意选择合适的主成分数量，以保留足够的数据信息同时实现降维的效果。

总之，主成分分析方法是一种强大的数据分析工具，它可以帮助我们实现数据的降维和特征提取，发现数据中的内在结构和模式，从而更好地理解和利用数据。

在实际应用中，我们可以根据具体问题和需求，灵活运用主成分分析方法，从而实现更加有效的数据分析和应用。

基于敏捷开发的管理信息系统需求分析模型构建

基于敏捷开发的管理信息系统需求分析模型构建[摘要] 国内开发管理信息系统（MIS）的成功率并不高，经过调查分析，大多是由于需求的变化性和不确定性所致。

需求分析在系统的开发过程中有着举足轻重的作用，因此有必要对需求分析进行深入的研究。

为了应对快速变化的系统需求，本文采用敏捷项目管理的思想，利用增量式的迭代方法逐步明确系统需求，并用数值量化每一个需求的不确定性、不一致性和优先级，在三维模型中表示每项需求，方便需求分解、细化和明确，从而使需求更加全面、清晰，有利于开发人员更好地对信息系统需求变更趋势、需求变更主要原因进行掌控，有效地提高系统开发的成功率。

[关键词] 需求分析；Scrum；业务流程；三维模型；需求变更1 前言1.1 传统管理信息系统开发方法及缺陷管理信息系统（MIS）因其在创造有竞争力的公司、管理全球化、增加企业价值和为客户提供有价值的产品与服务等方面有着重要的作用[1]，受到越来越多组织的青睐。

信息技术发展的日新月异使得软件的功能越来越强大，同时也带来一系列的开发管理上的难题。

传统的瀑布模型、螺旋模型、原型模型等方法也越来越不能适应快速变化的需求和市场环境。

主要表现在：软件开发效率低，大量的人力、物力、财力浪费在重复开发上；软件质量得不到保证，后期服务费用大；技术积累困难，常常随着技术人员的流失而消失；企业内部、企业与外部缺乏有效、可靠、安全的信息交流方式等。

1.2 需求分析的重要性及不确定性开发有效的信息系统的关键在于做好信息系统的需求分析工作，因为好的需求分析可以为信息系统的编写提供任务范围的框架，对信息系统的开发进行有效的控制，为信息系统的完成提供基线，为信息系统最终交付提供依据[2]。

从项目管理知识体系来讲，也就是要根据管理科学的理论，对需求进行科学分析和有效的规划、管理及控制，使开发项目能够按照预定的成本和进度顺利完成，并保证信息系统的质量和最终的顺利实施。

TTE、TRM和IBM三家公司的统计结果表明：发现错误的时间越晚，修改所需要花费的费用越大，如图1所示。

如何解决支持向量机中的维度灾难问题

如何解决支持向量机中的维度灾难问题支持向量机（Support Vector Machine, SVM）是一种常用的机器学习算法，广泛应用于分类和回归问题中。

然而，当数据集的维度增加时，SVM面临着维度灾难问题，即在高维空间中计算变得困难，导致模型的性能下降。

本文将探讨如何解决SVM中的维度灾难问题。

一、特征选择维度灾难问题的一个主要原因是维度过高，而且很多特征可能是冗余的或者不相关的。

因此，通过特征选择可以减少数据集的维度，提高SVM的性能。

特征选择的方法有很多，常见的有过滤法、包装法和嵌入法。

过滤法通过统计学或信息论等方法评估特征的重要性，然后选择重要性较高的特征。

包装法则通过训练模型来评估特征的贡献度，然后选择贡献度较高的特征。

嵌入法则是在模型训练过程中自动选择特征。

二、降维技术另一种解决维度灾难问题的方法是降维技术。

降维可以将高维数据映射到低维空间，从而减少计算复杂度。

常见的降维技术有主成分分析（Principal Component Analysis, PCA）、线性判别分析（Linear Discriminant Analysis, LDA）和t-SNE等。

PCA通过线性变换将原始特征映射到新的特征空间，使得新特征之间的相关性最小。

LDA则是通过最大化类间距离和最小化类内距离来找到最佳的投影方向。

t-SNE则是一种非线性降维方法，它可以保持原始数据中的局部结构。

三、核技巧SVM在处理非线性问题时，通常使用核技巧（Kernel Trick）。

核技巧通过将原始特征映射到高维空间，从而使得原始非线性问题转化为线性可分问题。

常见的核函数有线性核、多项式核和径向基核（Radial Basis Function, RBF）等。

选择合适的核函数可以提高SVM的性能。

此外，还可以使用多核学习（Multiple Kernel Learning, MKL）来结合多个核函数，进一步提高模型的性能。

四、增量学习维度灾难问题还可以通过增量学习（Incremental Learning）来解决。

大数据分析中的主成分分析技术使用教程

大数据分析中的主成分分析技术使用教程主成分分析（Principal Component Analysis, PCA）是一种常用的统计分析方法，用于降低数据维度、提取数据的主要特征和结构，从而帮助我们更好地理解和解释数据。

在大数据时代，主成分分析技术被广泛应用于各个领域，为数据分析师提供了重要的工具和方法。

一、主成分分析的基本原理1.1. 什么是主成分分析？主成分分析是一种多变量统计分析方法，通过对原始数据进行线性变换，将原始数据转化为新的一组综合指标（理论上是无关的），这些综合指标被称为主成分。

主成分是原始变量的线性组合，其具有不相关性和方差最大化的特点。

1.2. 如何进行主成分分析？主成分分析的步骤可以概括为以下几步：1）标准化原始数据：将原始数据标准化，使其均值为0，方差为1。

2）计算协方差矩阵：计算标准化后的数据的协方差矩阵。

3）求解特征值和特征向量：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。

4）选择主成分：按照特征值从大到小的顺序选择主成分，通常保留累计贡献率较高的主成分。

5）计算主成分得分：通过将原始数据乘以特征向量得到主成分得分。

二、主成分分析的应用场景2.1. 特征提取与数据降维主成分分析广泛应用于特征提取和数据降维领域。

在大数据时代，我们往往面临高维数据集，而高维数据分析复杂且困难。

主成分分析可将原始数据映射到低维度空间，保留大部分原始数据的信息，从而减少数据的复杂性，简化数据分析过程。

2.2. 数据可视化主成分分析还可用于数据可视化。

通过将高维数据降维至二维或三维，我们可以将数据在二维或三维空间中进行可视化展示，更好地理解数据的结构和内在关系。

数据可视化有助于发现异常值、聚类分析、分类和回归分析等任务。

2.3. 特征选择和变量相关分析主成分分析还可用于特征选择和变量相关分析。

通过计算各个主成分的贡献率和相关系数，我们可以判断原始变量对每个主成分的贡献程度，从而选择对结果影响较大的主成分。

ODC——在线检测和分类全网络流量异常的方法

ｖｅｗａｕｒｒ．ｉｔｏｏｓｒｃｅａｆｃｍａｒｘｗｉｔｃｏａｆｅｔｒｎｏｙｉｃｅｎａｌ，ｅｉｗｓｐｔｗａｄＴｈｓｍｅｄｃｎｔｔｄｔｆｔｉｔａｍｅｒｆｔｆｃｆａｕｅｅｔｐｒｍｅｔｌｄ — ｏｆｈｕｒｉｈｉｒｉｒｎｙｔｃｅａｆｃａｏｌｓｏｌｅｕｉｇｉｃｅｎａｒｎｉａｏｏｅｔａａｙｉ，ａｄｔｅｌｓｉｅｒｆｃａｏｌｓｅｔｄｔｆｉｒｎｍａｉｎｉｓｎｎｒｍｅｔｌｐｉｃｐｃｍｐｎｎｌｓｓｎｎｃａｓｆｄｔａｆｅｎｌｎｈｉｉｎｍａｉｅ
钱叶魁一，，陈鸣１郝强２刘凤荣，商文忠
（．放军理工大学指挥自动化学院，江苏南京２００；２解放军防空兵指挥学院导弹系，河南郑州４０５）１解１０７．５０２
摘
要：提出一种从全网络的视角实时在线检测和分类流量异常的方法（简称ＯＤｅ，该方法以增量方式构建以流）
２Ｍｉｉｅａｔｎ，ｉＤｆｃｏｃｓｏ．ｓｌＤｐｒｓｅｍｅｔＡｒｅｅｅｒｅｍｍａｄＡａｅｆＬ，ｈｎｚｏ５０２ＣｉａｎＦＣｎｃｄｍｙＡＺｅｇｈｕ４０５，ｈｎ）ｏＰ
第３２卷第１期２１年１月０１
通
信
学
报
、１２，．Ｎｏ１ｂ３．

主成分分析数据

主成分分析数据主成分分析（Principal Component Analysis，简称PCA）是一种常用的数据降维和特征提取方法，广泛应用于数据分析和机器学习领域。

本文将介绍PCA的原理、应用和优缺点。

一、原理PCA的核心思想是将高维数据转化为低维空间，同时尽可能保留数据的关键信息。

具体而言，PCA通过寻找一组正交基，使得数据在这组基上的投影方差最大化。

这组基即为主成分，可以通过特征值分解、奇异值分解等方法得到。

二、应用1. 数据降维：PCA可以将高维数据降维到低维空间，减少数据的复杂性和噪声干扰，提高数据分析和处理效率。

2. 特征提取：PCA可以提取数据的主要特征，去除冗余信息，辅助建模和预测。

3. 数据可视化：PCA可以将高维数据映射到二维或三维空间，在保持数据特征的同时，将数据可视化展示，便于理解和分析。

三、优缺点1. 优点：（1）降低数据维度，减少存储空间和计算复杂度。

（2）保留数据中的主要特征，提高模型的准确性和解释性。

（3）对数据分布没有要求，适用于各种类型的数据。

2. 缺点：（1）PCA是线性投影方法，对于非线性关系的数据表现不佳。

（2）降维后的特征不易解释，不如原始特征直观。

（3）PCA对异常值较为敏感，可能对数据的异常部分有较大的影响。

综上所述，PCA作为一种常用的数据降维和特征提取方法，在各种数据分析和机器学习任务中得到广泛应用。

它可以帮助我们处理高维数据，提高模型的准确性和解释性。

然而，PCA也有一些局限性，需要根据具体场景和问题选择合适的方法。

因此，在使用PCA时需要综合考虑数据类型、特征分布和模型需求等因素，合理应用该方法，以实现更好的效果。

希望通过本文的介绍，读者们对PCA有一定的了解，并能够在实际应用中正确使用和理解该方法。

金融大数据分析中的主成分分析方法

金融大数据分析中的主成分分析方法在金融领域，大数据分析已经成为一种必备的工具。

其中，主成分分析（Principal Component Analysis）作为一种常用的降维技术，被广泛应用于金融大数据的处理与分析过程中。

本文将介绍主成分分析的基本原理、步骤及其在金融领域中的应用。

一、主成分分析的基本原理主成分分析是一种通过线性变换将原始数据转化为一组新的线性无关变量的方法。

其基本思想是通过找到能够保留原始数据信息最多的几个主成分，实现数据降维，以便更好地进行数据分析与应用。

主成分分析通过寻找数据的内在结构，能够识别出数据中最重要的特征。

主成分分析的基本原理如下：1. 原始数据的协方差矩阵表示了数据之间的相关性。

主成分分析通过找到协方差矩阵的特征值与特征向量，来确定数据的主成分。

2. 特征值表示了数据在特征向量方向上的方差，而特征向量则表示了数据的主成分。

根据特征值的大小，可以确定哪些特征向量是数据中最为重要的主成分。

3. 对于包含n个维度的数据，主成分分析能够找到n个主成分，其中第一个主成分是方差最大的方向，第二个主成分是与第一个主成分正交的方向，并且具有次大的方差，依此类推。

二、主成分分析的步骤主成分分析的步骤如下：1. 数据预处理：对原始数据进行中心化处理，即减去均值，以消除数据的绝对数值差异对主成分分析的影响。

2. 计算协方差矩阵：根据预处理后的数据计算协方差矩阵，以反映数据之间的相关性。

3. 计算特征值与特征向量：通过对协方差矩阵进行特征值分解，得到特征值与对应的特征向量。

4. 选择主成分：按照特征值的大小，选择前k个特征向量作为主成分，其中k是根据预先设定的方差解释率确定的。

5. 数据转换：将原始数据与选定的主成分矩阵相乘，得到转换后的数据，即降维后的数据。

三、主成分分析在金融领域中的应用主成分分析在金融领域中有着广泛的应用，主要体现在以下几个方面：1. 资产组合优化：主成分分析可以用于资产组合的构建与优化。

主成分分析方法及其应用策略优化

主成分分析方法及其应用策略优化主成分分析（Principal Component Analysis，简称PCA）是一种常用的多元统计分析方法，用于降低数据复杂度和提取主要特征。

本文将介绍PCA的基本原理和应用策略，并提出一些优化方法。

一、PCA的基本原理主成分分析是一种无监督学习方法，旨在通过将原始数据集投影到一个新的坐标系上，找到数据中的主要分量。

具体步骤如下：1. 数据标准化：首先对原始数据进行标准化处理，使各个特征具有相同的尺度。

2. 计算协方差矩阵：根据标准化后的数据计算协方差矩阵，用于衡量不同特征之间的相关性。

3. 求解特征值和特征向量：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。

4. 选择主成分：按照特征值的大小降序排列，选择前k个特征向量作为主成分，其中k为希望保留的维度。

5. 数据转换：将原始数据投影到选定的主成分上，得到降维后的数据集。

二、PCA的应用策略PCA广泛应用于数据降维、特征提取和数据可视化等领域。

下面介绍一些常见的PCA应用策略：1. 数据降维：通过PCA可以降低数据的维度，减少存储空间和计算负载，同时保持数据的主要特征。

2. 特征提取：通过PCA提取数据中的主要特征，去除冗余信息，提高后续任务的效果，如图像识别、人脸识别等。

3. 数据压缩：利用PCA可以将高维数据集压缩成低维表示，减少存储和传输的开销，同时保留数据的主要结构和特征。

4. 数据可视化：通过PCA将高维数据映射到二维或三维空间中，方便进行数据可视化，发现隐藏在数据中的结构和规律。

三、PCA方法的优化尽管PCA在许多领域被广泛应用，但仍存在一些问题，例如对于大规模数据集，计算协方差矩阵的时间和空间复杂度较高。

以下是一些常用的PCA方法优化策略：1. 近似方法：使用近似方法来计算特征值和特征向量，如随机采样法、迭代法等，可以减少计算复杂度，加快计算速度。

2. 分布式计算：对于大规模数据集，在集群或分布式系统上进行PCA计算，实现并行化处理，提高计算效率。

数据挖掘中的核主成分分析方法原理解析

数据挖掘中的核主成分分析方法原理解析数据挖掘是一项重要的技术，它可以从大量的数据中发现隐藏的模式和关联，为决策提供支持。

而核主成分分析（Kernel Principal Component Analysis，简称KPCA）作为数据挖掘中的一种方法，可以有效地处理非线性问题，提高数据的降维效果和分类性能。

KPCA的原理基于主成分分析（Principal Component Analysis，简称PCA），PCA是一种常用的线性降维方法。

它通过线性变换将原始数据映射到一个新的坐标系中，使得映射后的数据具有最大的方差。

这样做的好处是可以保留数据中最重要的信息，同时降低数据的维度，方便后续的分析和处理。

然而，PCA只适用于线性问题，对于非线性问题的处理效果并不理想。

这时就需要使用KPCA来解决这个问题。

KPCA通过引入核函数的方式，将原始数据映射到一个高维的特征空间中，使得数据在该空间中变得线性可分。

然后再进行PCA的降维操作，得到最终的结果。

核函数是KPCA的核心概念，它可以将原始数据从低维空间映射到高维空间，从而使得数据在高维空间中线性可分。

常用的核函数有线性核函数、多项式核函数、高斯核函数等。

其中，高斯核函数是最常用的核函数之一，它可以将数据映射到无穷维的特征空间中。

高斯核函数的形式为：K(x, y) = exp(-||x-y||^2 / (2σ^2))其中，x和y是原始数据的样本点，||x-y||表示两个样本点之间的欧氏距离，σ是高斯核函数的带宽参数。

在KPCA中，首先需要计算核矩阵K，核矩阵的元素K(i, j)表示样本点xi和xj之间的相似度。

然后，对核矩阵进行中心化操作，得到中心核矩阵K'。

接下来，对中心核矩阵进行特征值分解，得到特征值和对应的特征向量。

最后，根据特征值和特征向量，选择前k个特征向量，将原始数据映射到新的低维空间中。

KPCA的优点在于可以处理非线性问题，并且保留了数据中的重要信息。

基于增量学习的知识图谱构建与更新研究

基于增量学习的知识图谱构建与更新研究随着互联网发展，获取信息变得越来越容易。

但是，信息的数量和复杂度也在迅速增长。

如何更好地处理这些信息，构建出有意义的知识图谱，是许多学者和公司都在研究的领域。

在这个领域里，基于增量学习的知识图谱构建与更新研究成为了一个热门话题。

一、什么是知识图谱？知识图谱是一种以图谱的形式表示实体和实体之间关系的知识表示方式。

在知识图谱中，每个实体都是一个节点，节点之间的关系则以边的形式表示。

这种表示方法可以帮助人们更好地理解和使用知识。

知识图谱的核心是实体的识别和实体之间关系的抽取。

二、为什么需要基于增量学习的知识图谱构建与更新？知识图谱本质上是一种动态的实体和关系的集合，随着时间的推移，新的实体和关系会不断出现，已有的实体和关系也会发生变化。

因此，知识图谱的构建和更新是一个持续的过程。

传统的知识图谱构建和更新方法需要将所有数据一次性加载到系统中，然后进行处理。

这种方法虽然效果不错，但存在着数量大、处理时间长、可扩展性差等问题。

而基于增量学习的知识图谱构建和更新方法可以避免这些问题。

基于增量学习的知识图谱构建和更新方法可以将新增的实体和关系逐步地加入系统中，并根据现有的知识图谱进行更新和优化。

这种方法既可以保证知识图谱的精度和实时性，又可以避免传统方法中的种种问题。

三、基于增量学习的知识图谱构建和更新的研究进展当前，基于增量学习的知识图谱构建和更新的研究还处于探索阶段。

以下是一些代表性的研究成果。

1. YAGO2s: 一个面向增量知识更新的知识图谱YAGO2s是德国马普学会计算机科学研究所推出的一款面向增量知识更新的知识图谱。

它使用了一种名为“SPARQL Update”的语言来更新知识图谱，并用基于规则的方法进行实体和关系的抽取。

2. AMIE: 一款用于自动知识图谱构建的工具AMIE是德国马普学会计算机科学研究所提出的一款用于自动知识图谱构建的工具。

它可以从大规模结构化和半结构化数据中提取出新的实体和实体之间的关系，并用这些关系更新已有的知识图谱。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

DOI
降维技术, 数据流分类, 增量核主成分分析, 独立成分分析
10.3724/SP.J.1004.2010.00534
Online Classiﬁcation Framework for Data Stream Based on Incremental Kernel Principal Component Analysis
Φ(n)a 1 (n) =
1 Φ(n)(a 1 (n − 1)T , 0)T + n (n − 1)Φ(n)Φ(n)T Φ(n)(a 1 (n − 1)T , 0)T n2 Φ(n − 1)a 1 (n − 1) (4)
1 v (n) = v (n − 1) + n
(n − 1)
i=1 n2
φ (i)φ (i)Tv (n − 1) v (n − 1)
因为
(1) 式 (1) 仅估计矩阵 A 的第一阶主特征向量. 由于特征向量相互正交, 于是可以在已估算出的低阶主特征空间的补空间中, 产生估计高阶主特征向量所需的输入向量. 例如: 第 n 步迭代时, 假定 ϕ 1 (n) 为计算 v 1 (n) (第一主特征向量的估计值) 所需的输 n 入向量, 其中 ϕ 1 (n)ϕ 1 (n)T = ( k=1 φ (k )φ (k )T )/n; 为计算 v 2 (n) (第二主特征向量的估计值), 可以利用式 (2) 使得 ϕ 1 (n) 与 v 1 (n) 正交化, 从而产生计算 v 2 (n) 所需的输入向量 ϕ 2 (n), 具体正交化过程[3] 如下: ϕ2 (n) = ϕ1 (n) − ϕ1 (n)T v 1 (n) v 1 (n) v 1 (n) v 1 (n) 变换, 给出核矩阵 x 可以由 φ (j ) K 的核特征向量的迭代估计式. 令 λx x = Φa , 其中 a 为向量; 将其代入线性表示为 λx x = Ax x 中, 得到 ΦΦT Φa /λ = Ax x = λx x = Φa , λx a = λa a, 显然, a / a 就是 K 的核特征向量; 即 Ka 令 v i (n) = Φ(n)a i (n), Φ(n) = (φ (1), · · · , φ (n)), a i (n) = (a i1 , · · · , a in )T , 那么, a i (n)/ a i (n) 即为核特征向量的估计向量. 具体地, 分两种情形进行推导: 1) 当 i = 1 时, 将 v 1 (n) = Φ(n)a 1 (n) 代入式 (3) 中, 得
为保障网络和信息系统安全, 需要对网络监控数据流进行实时、高效地在线分类分析. 然而, 监控数据流具有无限、高速、连续等特点, 由此产生了高效处理需求与有限的计算、存储、网络带宽等资源之间的矛盾. 为此, 各种基于成分分析 (Component analysis, CA) 的降维技术被广泛应用于数据流分析中, 并在降低处理量方面发挥着重要作用[1] . 相关工作介绍如下: 主成分分析 (Principal component analysis, PCA)[2] 是一种有效的非监督降维技术. 它利用输入样本点空间的主成分元素, 归纳和提取其中的结构信息, 从而最终实现降维. 然而, 它在计算主成分时需要完整的样本点空间. 增量主成分分析 (In收稿日期 2008-12-26 录用日期 2009-10-22 Manuscript received December 26, 2008; accepted October 22, 2009 国家高技术研究发展计划 (863 计划) (2006AA01Z451, 2007AA01Z 474) 资助 Supported by National High Technology Research and Development Program of China (863 Program) (2006AA01Z451, 2007AA01Z474) 1. 国防科学技术大学计算机学院长沙 410073 1. School of Computers, National University of Defense Technology, Changsha 410073
综上, 估计协方差矩阵 A 的第 i (i ≥ 1) 阶主特征向量的迭代式为:
v i (n) =
1 (n − 1)ϕ i (n)ϕ i (n)Tv i (n − 1) v i (n − 1) + n n v i (n − 1) (3)
其中,
ϕ i+1 (n) = ϕ i (n) − ϕ T i (n)
更多技术文章，论文请登录
第 36 卷第 4 期
2010 年 4 月
自动化学报
ACTA AUTOMATICA SINICA
Vol. 36, No. 4 April, 2010
基于增量核主成分分析的数据流在线分类框架
吴枫1 仲妍1 吴泉源 1
摘要核主成分分析 (Kernel principal component analysis, KPCA) 是一种非线性降维工具, 在降低数据流分类处理量方面发挥着积极作用. 然而, 由于复杂性太高, 导致 KPCA 的降维能力有限. 为此, 本文给出了一种增量核主成分分析算法 (Incremental KPCA for dimensionality-reduction, IKDR), 该算法在每步迭代估计中只需线性内存开销, 大大降低了复杂性. 在 IKDR 的基础上, 结合 BP (Back propagation) 神经网络提出了数据流在线分类框架: IKOCFrame (Online classiﬁcation frame based on IKDR). 通过一系列真实和人工数据集上的实验, 检验了 IKDR 算法的收敛性, 并且验证了 IKOCFrame 相对于同类基于成分分析的分类算法的优越性. 关键词
内容版权归作者所有
更多技术文章，论文请登录
4期
吴枫等: 基于增量核主成分分析的数据流在线分类框架
535
入向量空间 (原始空间) 映射到高维特征空间, 然后增量提取当前特征空间的核成分, 最后对核向量进行降维. 在 IKDR 基础上, 结合 BP (Back propagation) 神经网络提出了数据流在线分类框架 IKOCFrame. 通过实验, 检验了 IKDR 算法的收敛性, 并且验证了 IKOCFrame (Online classiﬁcation frame based on IRDR) 能够有效克服各种成分分析算法在数据流分类应用中存在的弊端. 本文组织结构如下: 在本文作者已有工作[8] 的基础上, 第 1 节给出 IKDR 算法的推导, 并对该算法进行了直观性解释和复杂性分析; 第 2 节以 IKDR 算法为基础, 提出 IKOCFrame; 第 3 节给出统计实验结果和分析.
WU Feng1 ZHONG Yan1 WU Quan-Yuan1 Abstract Kernel principal component analysis (KPCA) has been suggested for various data stream classiﬁcation tasks requiring a nonlinear transformation scheme to reduce dimensions. However, the dimensionality reduction ability is restricted because of its high complexity. Therefore this paper proposes an incremental kernel principal component analysis algorithm: IKDR, which iteratively estimates the kernel principal components with only linear order storage complexity per iteration. On the basis of IKDR, this paper proposes an online classiﬁcation framework for data stream: IKOCFrame. Extensive experiments on real and artiﬁcial datasets validate the convergence of IKDR and conﬁrm the superiority of IKOCFrame over other recent classiﬁcation schemes based on component analysis. Key words Dimensionality reduction, data stream classiﬁcation, incremental kernel PCA (IKPCA), independent component analysis (ICA)
i
v i (n) v i (n)
v i (n) = v i (n)
I−
j =1
v j (n)v T j (n) ϕ 1 (n) v j (n) 2
1 增量核主成分分析算法 IKDR
1.1 IKDR 算法推导
令输入向量序列依时序到达: φ (1), φ (2), · · · , 其中, φ (t), t = 1, 2, · · · 为 L 维核化升维向量 (L 足够大); 不失一般性, 假设 E{φ (t)} = 0, A = E{φ (t)φ (t)T } 为未知 L × L 协方差矩阵; 令 Φ = (φ (1), φ (2), · · · , φ (n), · · · ), K = ΦT Φ 为核矩阵. 首先, 给出协方差矩阵 A 的主特征向量的迭代估计式. 令 x 是矩阵 A 的特征向量, λ 为对 x = Ax x; 替换 A 为样本协应的特征值, 则有 λx 方差矩阵, 并用第 n 步估计向量 x (n), v (n) = 1 x , 可以得到 v (n) = v (n) λ(n)x (n) 分别替换 x , λx n n T φ φ v (n − 1) (i) (i) (n) i=1 , 将其改写为迭代形式, + n2 v (n) 得到式 (1):