数据流中概念漂移检测的集成分类器设计
- 格式:docx
- 大小:37.29 KB
- 文档页数:2
一种能够适应概念漂移变化的数据流分类方法
富春岩;葛茂松
【期刊名称】《智能系统学报》
【年(卷),期】2007(2)4
【摘要】目前多数的数据流分类方法都是基于数据稳定分布这一假设,忽略了真实数据在一段时间内会发生潜在概念性的变化,这可能会降低分类模型的预测精度.针对数据流的特性,提出一种能够识别并适应概念漂移发生的在线分类算法,实验表明它能根据目前概念漂移的状况,自动地调整训练窗口和模型重建期间新样本的个数.【总页数】6页(P86-91)
【作者】富春岩;葛茂松
【作者单位】佳木斯大学,公共计算机教研部,黑龙江,佳木斯,154007;佳木斯大学,公共计算机教研部,黑龙江,佳木斯,154007
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.一种自适应局部概念漂移的数据流分类算法 [J], 尹志武;黄上腾
2.一种抗噪的概念漂移数据流分类方法 [J], 张玉红;胡学钢;李培培
3.基于自适应微簇的任意形状概念漂移数据流聚类 [J], 韦洁华
4.一种面向不完全标记的文本数据流自适应分类方法 [J], 张玉红;陈伟;胡学钢
5.基于自适应集成分类器的数据流概念漂移算法 [J], 姜爱克;赵峰;张杰
因版权原因,仅展示原文概要,查看原文内容请购买。
一种挖掘概念漂移数据流的选择性集成算法
关菁华;刘大有
【期刊名称】《计算机科学》
【年(卷),期】2010(037)001
【摘要】提出一种挖掘概念漂移数据流的选择性集成学习算法.该算法根据各基分类器在验证集上的输出结果向量方向与参考向量方向之间的偏离程度,选择参与集成的基分类器.分别在具有突发性和渐进性概念漂移的人造数据集SEA和Hyperplane上进行实验分析.实验结果表明,这种基分类器选择方法大幅度提高了集成算法在处理概念漂移数据流时的分类准确性.使用error-ambiguity分解对算法构建的naive Bayes集成在解决分类问题时的性能进行了分析.实验结果表明,算法成功的主要原因是它能显著降低平均泛化误差.
【总页数】4页(P204-207)
【作者】关菁华;刘大有
【作者单位】吉林大学符号计算与知识工程教育部重点实验室,长春,130012;吉林大学计算机科学与技术学院,长春,130012
【正文语种】中文
【中图分类】TP181
【相关文献】
1.大数据背景下引入多重选择机制分类挖掘带概念漂移的高速数据流优化算法 [J], 郭锋锋
2.数据流概念漂移分类和挖掘研究综述 [J], 赵峰
3.数据流挖掘抑制概念漂移不良影响研究 [J], 卞舒逸
4.大数据背景下引入多重选择机制分类挖掘带概念漂移的高速数据流优化算法 [J], 郭锋锋
5.概念漂移数据流挖掘算法综述 [J], 丁剑;韩萌;李娟
因版权原因,仅展示原文概要,查看原文内容请购买。
数据流上概念漂移的检测和分类
在机器学习和数据挖掘中,数据流上概念漂移是指在经过一段时间后,数据流中的分布和属性发生变化,这可能是由于外部环境、过程变化或用户行为的改变引起的。
漂移通常会导致预测模型失效或准确率下降,因此检测和分类漂移变得尤为重要。
漂移检测通过比较实时收集的新数据和历史数据来判断是否存在漂移,其基本思想是维护一个用于观察数据分布的数据源,并将新样本与该源样本进行比较。
常用的检测方法包括位置检测、距离检测和密度检测等。
位置检测是一种简单直接的方法,通过比较新数据与历史数据的平均值来检测漂移。
距离检测则比较两个数据点之间的相似度,如欧氏距离、曼哈顿距离等。
密度检测则可以找出新数据点是否来自于新类别。
另一个重要的问题是如何分类漂移,即在检测到漂移后,如何维护模型准确率不受影响。
一种常见的方法是在线学习,其中预测模型基于数据流,按时间顺序处理一个样本。
此外,集成方法也被广泛应用,其中多个预测算法被组合在一起以提高准确性和鲁棒性。
最后,需要指出的是,漂移检测和分类并不总是能够完美地解决所有问题。
在实际应用中,因为漂移的本质是不确定的,而且数据流本身就是不断变化的,因此检测和分类漂移需要不断完善和改进。
数据流中概念漂移检测的集成分类器设计
孙岳;毛国君;刘旭
【期刊名称】《计算机应用研究》
【年(卷),期】2008(025)001
【摘要】提出了一种称为ICEA(incremental classification ensemble algorithm)的数据流挖掘算法.它利用集成分类器综合技术,实现了数据流中概念漂移的增量式检测和挖掘.实验结果表明,ICEA在处理数据流的快速概念漂移上表现出很高的精确度和较好的时间效率.
【总页数】4页(P164-167)
【作者】孙岳;毛国君;刘旭
【作者单位】北京工业大学,计算机学院,北京市多媒体与智能软件重点实验室,北京,100022;北京工业大学,计算机学院,北京市多媒体与智能软件重点实验室,北京,100022;北京工业大学,计算机学院,北京市多媒体与智能软件重点实验室,北京,100022
【正文语种】中文
【中图分类】TP311
【相关文献】
1.隐含概念漂移的不确定数据流集成分类算法 [J], 张盼盼;尹绍宏
2.一种基于混合集成方法的数据流概念漂移检测方法 [J], 桂林;张玉红;胡学钢
3.基于概念漂移检测的数据流集成分类 [J], 张宝菊;陈一迪;薛磊
4.概念漂移数据流集成分类算法综述 [J], 杜诗语; 韩萌; 申明尧; 张春砚; 孙蕊
5.基于自适应集成分类器的数据流概念漂移算法 [J], 姜爱克;赵峰;张杰
因版权原因,仅展示原文概要,查看原文内容请购买。
基于概念漂移检测的自适应流量分类方法JIANG Zhendong;WANG Jianming;PAN Wubin【摘要】针对网络流特征会随网络环境变化而发生改变,从而导致基于流特征的机器学习分类方法精度明显降低的问题.提出一种基于概念漂移检测的自适应流量分类方法,该方法借助Kolmogorov-Smirnov检验对出现的流量进行概念漂移检测,然后通过多视图协同学习策略引入新流量样本修正概念漂移导致的模型变化,使分类器得到有效更新.实验结果表明该方法可以有效检测概念漂移并更新分类器,表现出较好的分类性能和泛化能力.【期刊名称】《计算机工程与应用》【年(卷),期】2019(055)003【总页数】8页(P68-75)【关键词】概念漂移;Kolmogorov-Smirnov检验;协同学习;流量分类【作者】JIANG Zhendong;WANG Jianming;PAN Wubin【作者单位】【正文语种】中文【中图分类】TP3931 引言近几年互联网高速发展,网络直播、网约车、网络订餐和社交网络等新应用不断出现,用户隐私保护和网络安全意识的不断提高,同时加密协议良好的兼容性和可扩展性,使得加密流量爆炸式增长,加密流量识别已成为当前网络管理的巨大挑战。
鉴于DPI(深度包检测)分类方法无能为力,只能借助DFI分类方法[1-3]。
但基于流特征的机器学习分类方法会因为不同客户端(例如PC、手机和平板电脑)的流特征差异,以及不同地域应用分布不同会引起网络流概念漂移[4-5],根据之前抓取的流量建立机器学习模型,由于样本的局限性以及泛化能力差,使得机器学习模型识别同一网络空间的流量准确率高,不同网络空间的样本识别精度急剧下降[6]。
如果能够及时发现因时间或网络环境变化导致的概念漂移现象,就可以准确地更新分类器,而不是根据经验或定期更新分类器。
当前流量分类研究主要有以下缺点:(1)训练样本只根据新流量会丢失之前的知识,且建立大规模有标记样本耗费大量人力物力。
㊀第53卷第1期郑州大学学报(理学版)Vol.53No.1㊀2021年3月J.Zhengzhou Univ.(Nat.Sci.Ed.)Mar.2021收稿日期:2020-07-08基金项目:国家自然科学基金项目(61763031)㊂作者简介:徐健锋(1973 ),男,教授,主要从事粒计算㊁粗糙集及机器学习研究,E-mail:jiangfeng _x @;通信作者:薛国泽(1994 ),男,硕士研究生,主要从事机器学习研究,E-mail:xueguoze@㊂面向概念漂移集成分类的三支决策优化方法徐健锋1,2,3,㊀辛㊀朋1,㊀薛国泽2,㊀杨迎方2(1.南昌大学信息工程学院㊀江西南昌330031;2.南昌大学软件学院㊀江西南昌330047;3.同济大学电子与信息工程学院㊀上海201804)摘要:提出一种面向概念漂移集成分类的基分类器三支过滤方法㊂首先基于信息熵理论计算出基分类器的不确定性值,并融合其准确性作为基分类器的质量度量,然后通过预设阈值α㊁β对基分类器进行三支过滤㊂其过滤策略为:删除质量权值小于等于阈值β的基分类器;保留质量权值大于等于阈值α的基分类器;对于质量权值大于β小于α的基分类器,将延迟后进一步决策㊂添加对应数量的基分类器,重新计算基分类器的质量权值,再次实施三支过滤直至没有基分类器被删除或达到指定迭代次数㊂在真实数据集和人工数据集上与几种经典算法进行对比实验,结果表明,所提出的算法能够有效地提升分类效果㊂关键词:三支决策;集成分类;概念漂移;不确定性评估;信息熵中图分类号:TP311㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2021)01-0022-07DOI :10.13705/j.issn.1671-6841.20202160㊀引言随着互联网的快速发展,许多行业领域每时每刻都会产生海量的数据,它们通常以数据流[1]的形式产生和到达㊂随着数据流的高速产生,其数据分布会发生改变,将这种数据分布随着时间推移而发生变化的现象称为 概念漂移 [2]㊂如何在快速变化的数据流中有效地处理概念漂移问题,已经成为许多国内外学者研究的重要课题[3-4]㊂目前有关抵抗概念漂移技术的研究主要集中在三个方向:自适应基学习器[5]㊁单分类器设计模式[6]和多分类器集成技术[7-10]㊂自适应基学习器通过对传统机器学习算法加以改进,使其在复杂多变的数据流环境中具有较好的适应性㊂单分类器设计模式通常采用的方法有滑动窗口技术和样本加权,以此对数据集进行重新构造以获得良好的实时表现㊂多分类器集成技术被认为是处理概念漂移问题更为有效的方法,其主要思想是在不同时期的数据块上构造多个基分类器,并利用相应结合策略产生最终的分类结果㊂在多分类器集成过程中,基分类器应是准确且多样的[11-12],多样性通常体现在成员间的差异性方面㊂基分类器差异性是指不同的基分类器对相同的实例进行分类而得到不同的类别,差异性可以通过不确定性进行度量㊂提升多样性的目的在于当少数分类器分类错误时,其他分类器也会在集成整合过程中纠正这个问题,从而使集成模型在复杂的数据环境中可以保持稳定的分类性能㊂尤其在不断发生概念变化的数据流环境中,考虑基分类器间的多样性可避免陷入局部最优解,提升集成模型的准确性和泛化性㊂而当前分类集成方法研究[13-14]主要把准确性作为基分类器唯一的质量衡量依据,对基分类器多样性问题却鲜有研究㊂如果能够设计出一种在准确性前提下考虑基分类器多样性指标的质量评价方法,并根据该评价方法对基分类器的选择制定合理的优化策略,将会提升集成模型的分类效果㊂为此,本文提出一种基于信息熵的基分类器不确定性度量方法,作为基分类器的多样性度量指标;将其与经典的准确性度量方法进行融合,作为基分类器的质量评价策略;结合三支决策思想[15],提出了一种改进的基于质量度量的基分类器三支过滤算法㊂㊀第1期徐健锋,等:面向概念漂移集成分类的三支决策优化方法1㊀相关技术研究1.1㊀基于数据块的集成分类模型集成技术被认为是处理概念漂移问题较为有效的方法,其中最常用的是把数据流分块[16]㊂为便于对算法进行描述,对问题进行符号化定义㊂数据流D ={d 1,d 2, ,d t , },其中d t =(x t ,y t )表示t 时刻到达的一个实例㊂按照实例的到达顺序,将实例划分为大小相同的数据块S ={S 1,S 2, ,S i , ,S n },其中S n 为最新数据块㊂C i 表示基于数据块S i 训练的基分类器,采用不同的评价方式给C i 赋相应的权重值并对基分类器进行筛选,然后采用加权投票等方式组合成集成分类器Π,最后对未知实例d t 进行预测㊂1.2㊀三支决策基本理论三支决策是在粗糙集基础上提出的一种求解不确定问题的理论,它在二支决策基础上增加了延迟决策,当信息不足以支撑接受,也不足以支撑拒绝,采用延迟决策避免二支决策所引起的不必要代价㊂其初始目的是为粗糙集理论中的三个分类区域,即正域㊁负域和边界域,提供合理的决策语义解释㊂三支决策通过引入一对阈值(α,β),0ɤβ<αɤ1,在评价函数λ(x )下将集合Π中的元素x 划分入三个不相交的区域:接受域POS (α,β)(Π)㊁延迟域BND (α,β)(Π)和拒绝域NEG (α,β)(Π)㊂当λ(x )ȡα时,元素x 被划分入接受域,记作x 属于POS (α,β)(Π);当β<λ(x )<α时,元素x 被划分入延迟域,记作x 属于BND (α,β)(Π);当λ(x )ɤβ时,元素x 被划分入拒绝域,记作x 属于NEG (α,β)(Π)㊂2㊀基分类器质量权重设定2.1㊀基分类器准确性度量方法当系统获取到最新数据块S n ,计算集合Π中的基分类器在S n 上的准确性㊂基分类器C i 在数据块S n 上的均方误差为MSE i =ð(x ,y )ɪS n(1-f i y (x ))2/S n ,(1)式中:f i y (x )表示基分类器C i 将实例x 分类到标签y 的概率㊂利用MSE r 表示在数据块S n 上进行随机预测的均方误差,用来作为当前数据类分布的参考,其计算公式为MSE r =ðyp (y )(1-p (y ))2,(2)式中:p (y )表示在数据块S n 中各个标签所占比例㊂对于集合Π中的基分类器,其准确性度量权重Acc _ωi 的计算过程有如下定义㊂定义1㊀对于任意基分类器C i ɪΠ,其准确性度量权重计算公式为Acc _ωi =1/(MSE i +MSE r +ε),(3)式中:ε是一个无穷小的正常数㊂在最新数据块S n 上建立的基分类器C n ,其准确性度量权重计算公式为Acc _ωn =1/(MSE r +ε)㊂(4)㊀㊀由于C n 是基于最新数据块建立的基分类器,它能够代表当前以及未来一段时间数据类分布信息,因此被赋予了最高的准确性度量权重㊂2.2㊀基分类器不确定性度量方法在信息论中,信息熵的提出是用来度量随机变量的不确定程度㊂在得到基分类器的不确定性度量之前,基于信息熵理论计算出基分类器之间的不确定性值㊂对于集合Π中任意两个基分类器C i 和C j ,它们在最新数据块S n 上的分类事件有四种组合结果:①N 11表示基分类器C i 和C j 对其正确分类的样例数目;②N 00表示基分类器C i 和C j 对其错误分类的样例数目;③N 10表示C i 对其正确分类且C j 对其错误分类的样例数目;④N 01表示C i 对其错误分类且C j 对其正确分类的样例数目㊂通过概率的基本运算可以得到上述四种组合结果出现的概率p 11(C i ,C j )㊁p 00(C i ,C j )㊁p 10(C i ,C j )及p 01(C i ,C j )㊂根据上述信息,可计算两个基分类器C i 和C j 之间的不确定性值,有如下定义㊂32郑州大学学报(理学版)第53卷定义2㊀对于任意两个基分类器C i ,C j ɪΠ,它们的不确定性度量H (C i ,C j )的计算公式为H (C i ,C j )=-ðk ɪ{11,10,01,00}p k (C i ,C j )log 2p k (C i ,C j ),(5)式中:p k(C i ,C j )表示C i 和C j 对最新数据块S n 分类情况的概率㊂但是,得到C i 和C j 之间的不确定性度量值仍不足以衡量某一个基分类器的不确定性度量,C i 的不确定性度量是相对于集合Π而言的㊂因此,在定义2的基础上,计算基分类器C i 与集合Π中其他基分类器的不确定性值后再取平均值,作为其不确定性度量值,有如下定义㊂定义3㊀对于任意基分类器C i ɪΠ,其相对于集合Π的平均值H (C i )为基分类器C i 的不确定性度量指标,计算公式为H (C i )=ðj ɪ(0,i )ɣ(i ,L ]H (C i ,C j )/(L -1),(6)式中:L 表示集合Π中包含的基分类器数量㊂通过上述过程得到所有基分类器相对于集合Π的不确定性度量H (C i ),也是每个基分类器的不确定性度量㊂同时也要为最新数据块S n 上建立的基分类器C n 分配相应的不确定性度量值,计算公式为H (C n )=H (max),(7)式中:H (max)为定义3中计算得到的平均值中的最大值㊂由于在最新数据块上建立的基分类器C n 在集成过程中有较好的推广性,因此将不确定性度量的最大值赋给C n ㊂为了能直观展示上述计算过程,下面给出一个实例㊂假设在一个数据流实例S 中,S ={S 1,S 2,S 3,S 4},S 4为实例中的最新数据块㊂C 1㊁C 2和C 3分别是在数据块S 1㊁S 2和S 3上建立的基分类器,它们在最新数据块S 4上的分类情况如表1所示㊂其中第2列表示的是t i 时刻到达的一个实例的属性,第3列表示的是每个实例属性所对应的标签值㊂根据基分类器对分类组合情况,整理表1中基分类器的分类结果,统计所有基分类器对分类组合结果的实例数目,可以得到表2㊂根据表2中实例数目的统计结果,通过计算得到各个基分类器对组合结果的概率分布情况为(C 1,C 2):p 11(C 1,C 2)=4/8;p 10(C 1,C 2)=1/8;p 01(C 1,C 2)=2/8;p 00(C 1,C 2)=1/8;(C 1,C 3):p 11(C 1,C 3)=2/8;p 10(C 1,C 3)=3/8;p 01(C 1,C 3)=1/8;p 00(C 1,C 3)=2/8;(C 2,C 3):p 11(C 2,C 3)=1/8;p 10(C 2,C 3)=5/8;p 01(C 2,C 3)=2/8;p 00(C 2,C 3)=0㊂表1㊀各基分类器的分类情况Table 1㊀Classification of each base classifiert 时刻S 4属性S 4标签值C 1预测值C 2预测值C 3预测值t 1A 1110t 2B 1101t 3C 1010t 4D 0110t 5C 1010t 6A 1110t 7E 1110t 8F表2㊀各基分类器对的分类情况Table 2㊀Classification of a pair of base classifiersN (C 1,C 2)(C 1,C 3)(C 2,C 3)N 11421N 10135N 01212N 0012㊀㊀由以上过程得到了所有基分类器对的概率分布信息,根据定义2中的不确定性度量公式计算弱分类对(C i ,C j )的不确定性值H (C i ,C j ),H (C 1,C 2)=-(48log 248+18log 218+28log 228+18log 218)=-(-0.5-0.375-0.5-0.375)=1.750;H (C 1,C 3)=-(28log 228+38log 238+18log 218+28log 228)=-(-0.5-0.531-0.375-0.5)=1.906;42㊀第1期徐健锋,等:面向概念漂移集成分类的三支决策优化方法H (C 2,C 3)=-(18log 218+58log 258+28log 228+0)=-(-0.375-0.424-0.5)=1.299㊂㊀㊀之后根据定义3的公式计算每个基分类器相对于所有基分类器的不确定性度量值,可得H (C 1)=(1.750+1.906)/2=1.828,H (C 2)=(1.750+1.299)/2=1.524,H (C 3)=(1.906+1.299)/2=1.602㊂由式(7),设置H (C 4)=H (max)=1.828㊂至此,通过计算得到了各个基分类器相对于集合的不确定性度量指标㊂此值越大,代表不确定性越大㊂2.3㊀基分类器质量评估为便于两项度量指标进行后续的权重融合过程,需要消除指标之间的量纲影响,即对定义1中的Acc _ωi和定义3中的H (C i )进行数据标准化处理㊂对于准确性度量值Acc _ωi ,其标准化过程为Acc _ω∗i=(Acc _ωi -Acc _ω(min))/(Acc _ω(max)-Acc _ω(min)),(8)式中:Acc _ω(max)和Acc _ω(min)分别为定义1准确性度量指标计算中得到的最大值和最小值㊂同理,基分类器C i 相对于集合Π的不确定性度量值H (C i )的标准化过程为H ∗(C i )=(H (C i )-H (min))/(H (max)-H (min)),(9)式中:H (max)和H (min)分别为定义3计算得到的平均值中的最大值和最小值㊂经过上述计算已经得到集合Π中任意基分类器C i 的准确性度量值Acc _ω∗i 和不确定性度量值H ∗(C i ),将两项度量指标进行权重融合得到用于度量基分类器质量的指标ωi ,有如下定义㊂定义4㊀对于任意基分类器C i ɪΠ,其质量度量指标ωi 的计算公式为ωi =γAcc _ω∗i+(1-γ)H ∗(C i ),(10)式中:γ为权重因子,取值为[0,1]㊂3㊀基分类器三支过滤3.1㊀池机制更新过程在进行基分类器过滤前,设置了一种缓冲池与选择池机制,选择池与缓冲池用来存放一定数量的基分类器㊂在集成过程中,优先从选择池中选取加入集成阶段的基分类器,当满足集成条件的基分类器数量不足时,再从缓冲池中调取所需数量的基分类器加入选择池,继续进行过滤过程㊂设置池机制的优势在于缓冲池中保留了从选择池中移除的基分类器,即保存了暂时表现不好的基分类器,它可能在之后重新变得有用,将来也可能加入集成过程㊂选择池的存在维持了优先选择高权重基分类器的过程,并且给予了新加入基分类器一定的容错性㊂池机制更新算法如算法1所示㊂算法1㊀池机制更新算法输入:数据块S ={S 1,S 2, ,S t , },最新数据块S n ,选择池容量K ,缓冲池容量M ㊂输出:选择池集合E ,缓冲池集合B ㊂Step 1每次新到数据块S n ,给S n 建立新的基分类器C n ;Step 2对基分类器C i 和C n 分别根据式(3)和式(4)进行准确性加权;Step 3对基分类器C i 和C n 分别根据式(5)~(7)进行不确定性加权;Step 4根据Step 2㊁Step 3和式(8)~(10)求得所有基分类器的质量权值;Step 5如果选择池容量没满,即E<K ,则把C n 添加到选择池中;Step 6否则将选择池中最低质量权值的基分类器C min 移至缓冲池;Step 7若缓冲池容量已满,则先移除缓冲池中权值最低的基分类器C ∗min ,并将C min 移至缓冲池;Step 8得到选择池集合E 和缓冲池集合B ㊂3.2㊀三支决策过滤方法三支决策在信息不足或者获取足够信息的代价较高时能够兼顾决策代价与正确性㊂基于基分类器质量5262郑州大学学报(理学版)第53卷度量方法及设置的池机制,提出一种三支决策基分类器过滤(3WQE)算法,如算法2所示㊂算法2㊀基于三支决策的分类器质量优化算法输入:由算法1得到的选择池集合E,缓冲池集合B,迭代次数Q,阈值α,β(0ɤβ<αɤ1)㊂输出:集成分类器Π∗㊂Step1将选择池E中的基分类器加入集合Π;Step2对于E中基分类器C i,根据式(3)~(10)求得所有基分类器的质量权值ωi;Step3如果C i质量权值ωiȡα,将基分类器C i划分到POS(α,β)(Π)域;Step4如果C i质量权值β<ωi<α,将基分类器C i划分到BND(α,β)(Π)域;Step5如果C i质量权值ωiɤβ,将基分类器C i划分到NEG(α,β)(Π)域;Step6删除NEG(α,β)(Π)中所有基分类器,更新集合Π=Π-NEG(α,β)(Π);Step7在缓冲池B中选取NEG(α,β)(Π)个基分类器加入集合Π;Step8返回Step1;Step9直到NEG(α,β)(Π)=0或到达指定迭代次数跳出循环;Step10得到最优的基分类器集合Π∗㊂4㊀实验与分析4.1㊀实验数据集数据集通常分为人工数据集与真实数据集㊂本文采用2个人工数据集与2个真实数据集进行实验,各数据集的参数设置如表3所示㊂人工数据集由数据流分析框架MOA[17]平台下的数据流生成器所生成,分别为SEA和LED数据集㊂真实数据集为CoverType和Electricity数据集㊂SEA数据集包含3个属性值和2个标签值,属性取值为0~10,标签值与其中两个属性相关,还有一个属性是随机取值的噪声属性㊂在SEA 生成器上创建了SEA GD数据集,其中包含了4个渐变漂移㊂LED数据集由24个二进制属性组成,用于预测7段二极管上显示的数字㊂在LED生成器上创建了LED M数据集,其中既包含渐变漂移也包含突变漂移㊂CoverType数据集的任务是预测某个区域的森林覆盖类型,包含581012个实例㊁53个属性和7个类标签㊂Electricity数据集来自澳大利亚新南威尔士州的电力提供商获得的电力数据,电价受供求关系的影响而变化,包括45312个样本,每个样本由7个属性组成,用于预测电价是上涨还是下跌㊂表3㊀各数据集的参数设置Table3㊀Parameter setting of each dataset数据集实例数属性数类值数漂移数类型SEA GD1ˑ106324Gradual LED M1ˑ1062423Mixture CoverType581012537Electricity45312724.2㊀实验设置与结果4.2.1㊀数据块大小对算法性能影响评估㊀对于不断到来的数据,将其划分为多个大小相同的数据块,用于基分类器的训练和集成分类器的评估,数据块的大小直接影响算法性能㊂如果数据块过大,集成分类器将不能有效地检测到短暂的概念漂移;如果数据块过小,则会降低集成分类器在数据平稳期的分类精度㊂为验证数据块大小对算法性能的影响,采用3WQE算法进行了多次实验,不同数据块大小的准确率对比结果如图1所示㊂由图1可以看出,随着数据块的增大,算法的准确率在整体上得到了提升,这是由于数据块内提供了较多的样本使得基分类器得到了充分训练㊂但是随着数据块的继续增大,算法准确率呈现出逐渐下降的趋势,这是由于数据块内所提供的样本过多,使得集成分类器对概念漂移的识别能力降低,从而导致模型泛化能力的降低,影响了算法准确率㊂各数据集在数据块大小为500~1000时,准确率达到了峰值㊂4.2.2㊀算法准确率评估㊀所提出的3WQE算法利用阈值(α,β)将基分类器划分为三支区域,设置合理的阈值将会有效提升算法效率㊂经过多次实验发现,当阈值设置为αɪ[0.6,0.8],βɪ[0.2,0.4],算法分类㊀第1期徐健锋,等:面向概念漂移集成分类的三支决策优化方法图1㊀不同数据块大小的准确率对比Figure 1㊀Accuracy comparison ofdifferent chunk sizes准确性有相对较好的表现㊂面对不同的数据集时,需要通过多次调整确定最佳阈值以达到算法的最佳性能㊂为验证3WQE 算法的有效性,选取经典算法AWE(accuracy weightedensemble)㊁AUE2(accuracy updated ensemble2)㊁ARF (adap-tive random forest)㊁DWM(dynamic weighted majority)[18]作为对比算法,对3WQE 算法的相关性能进行评估㊂设置选择池容量K 为14,数据块大小为500,α取值为0.7,β取值为0.3,权重因子γ取值为0.4,表4给出了这些算法在不同数据集上的平均分类准确率㊂可以看出,所提出的3WQE 算法在这4种数据集的分类准确率上平均排名最高㊂在SEA GD 数据集中,AUE2和ARF 算法的分类效果大体相当,3WQE 算法效果略优于二者㊂3WQE 算法在LED M 和CoverType 数据集中也维持了高效的最佳分类效果㊂而在Electricity 数据集中,ARF 算法的分类效果最佳,3WQE 算法次之㊂多组对比实验结果表明,3WQE 算法表现出高效的分类性能,能很好地处理渐变漂移和突变漂移问题㊂说明基于三支决策的思想,依据质量评价策略对基分类器进行三支过滤,3WQE 算法可以在保持较高分类准确率的同时提升集成模型的泛化性㊂表4㊀不同算法的平均分类准确率Table 4㊀Average classification accuracy of different algorithms单位:%数据集AWE AUE2ARFDWM 3WQE SEA GD 86.8287.9287.9386.7488.14LED M 72.9772.7872.9472.8373.12CoverType 82.9289.8393.0485.2193.34Electricity71.8878.5488.7578.3182.275㊀结论本文提出一种面向概念漂移集成分类的基分类器三支过滤方法㊂该方法基于信息熵理论构造了一种基分类器的不确定性度量策略,在此基础上融合经典的准确性度量方法作为基分类器的质量度量指标㊂结合三支决策方法对基分类器进行三支过滤,从而得到一组在当前概念漂移数据环境中有较好性能的基分类器㊂通过一系列实验验证和对比,证明该算法可有效提升概念漂移集成分类的准确性和泛化能力㊂参考文献:[1]㊀GAMA J.Knowledge discovery from data streams[M].New York:Chapman and Hall /CRC Press,2010.[2]㊀GAMA J.A survey on learning from data streams:current and future trends [J].Progress in artificial intelligence,2012,1(1):45-55.[3]㊀KHAMASSI I,SAYED-MOUCHAWEH M,HAMMAMI M,et al.Discussion and review on evolving data streams and conceptdrift adapting[J].Evolving systems,2018,9(1):1-23.[4]㊀DITZLER G,ROVERI M,ALIPPI C,et al.Learning in nonstationary environments:a survey[J].IEEE computational intelli-gence magazine,2015,10(4):12-25.[5]㊀GAMA J,ŽLIOBAITE ㊃I,BIFET A,et al.A survey on concept drift adaptation[J].ACM computing surveys,2014,46(4):1-37.[6]㊀ALIPPI C,BORACCHI G,ROVERI M.Just in time classifiers:managing the slow drift case[C]ʊInternational Joint Confer-ence on Neural Networks.Atlanta,2009:114-120.[7]㊀KRAWCZYK B,MINKU L L,GAMA J,et al.Ensemble learning for data stream analysis:a survey[J].Information fusion,2017,37:132-156.[8]㊀GOMES H M,BARDDAL J P,ENEMBRECK F,et al.A survey on ensemble learning for data stream classification[J].ACM7282郑州大学学报(理学版)第53卷computing surveys,2017,50(2):1-36.[9]㊀SUN Y G,WANG Z,LI H,et al.A novel ensemble classification for data streams with class imbalance and concept drift[J].International journal of performability engineering,2017,13(6):945-955.[10]REN S Q,LIAO B,ZHU W,et al.Knowledge-maximized ensemble algorithm for different types of concept drift[J].Informa-tion sciences,2018,430:261-281.[11]LI Y,XU L,WANG Y G,et al.A new diversity measure for classifier fusion[J].Communications in computer and informa-tionence,2012,346:396-403.[12]MINKU L L,YAO X.DDD:a new ensemble approach for dealing with concept drift[J].IEEE transactions on knowledge anddata engineering,2012,24(4):619-633.[13]BRZEZINSKI D,STEFANOWSKI J.Reacting to different types of concept drift:the accuracy updated ensemble algorithm[J].IEEE transactions on neural networks and learning systems,2014,25(1):81-94.[14]DHALIWAL P,KUMAR A,CHAUDHARY P.An approach for concept drifting streams:early dynamic weighted majority[J].Procedia computer science,2020,167:2653-2661.[15]YAO Y Y.Three-way decisions and cognitive computing[J].Cognitive computation,2016,8(4):543-554.[16]BRZEZINSKI D,STEFANOWSKI bining block-based and online methods in learning ensembles from concept driftingdata streams[J].Information sciences,2014,265(5):50-67.[17]BIFET A,HOLMES G,KIRKBY R,et al.MOA:massive online analysis[J].Journal of machine learning research,2010,11(2):1601-1604.[18]LU J,LIU A J,DONG F,et al.Learning under concept drift:a review[J].IEEE transactions on knowledge and data engi-neering,2019,31(12):2346-2363.Three-way Decision Optimization Method for Concept DriftEnsemble ClassificationXU Jianfeng1,2,3,XIN Peng1,XUE Guoze2,YANG Yingfang2(1.School of Information Engineering,Nanchang University,Nanchang330031,China;2.School of Software,Nanchang University,Nanchang330047,China;3.School of Electronics and Information Engineering,Tongji University,Shanghai201804,China) Abstract:The three-way filtering method of the basic classifier for concept drift ensemble classification was proposed.The uncertainty of the base classifier was firstly calculated based on the information entro-py theory.And its accuracy was fused as a quality measure of the base classifier.Then the base classifier was three-way filtered by presetting the thresholdsα,β.The three-way filtering strategy was:base classi-fiers with quality weight less than or equal to thresholdβwere removed;base classifiers with quality weight greater than or equal to thresholdαwere retained;and base classifiers with quality weight greater thanβless thanαwould be delayed for further decisions.A corresponding number of base classifiers were added,the quality weight of the base classifiers was recalculated,and the three-way filtering was applied again until no base classifiers were removed or the specified number of iterations was reached. Compared with several classical algorithms on real datasets and synthetic datasets,the results showed that the proposed algorithm could effectively improve the classification performance.Key words:three-way decision;ensemble classification;concept drift;uncertainty evaluation;informa-tion entropy(责任编辑:孔㊀薇㊀王浩毅)。
数据流中利用异种分类器集成进行入侵检测的算法设计摘要:本文提出一种数据流中利用异种分类器集成进行入侵检测的算法设计。
该算法中,我们利用距离当前较近的四个不同时间段数据学习生成四中不同的分类器。
根据各个分类器在新到达数据上的的F-度量以及分类准确率计算它们的权重,进而加权平均检测数据流当中的入侵行为,同时调整滑动窗口中的基本窗口,不断更新模型。
关键词:入侵检测;滑动窗口;数据流引言随着计算机和网络的普及,保障计算机系统的安全是大家关注的中心问题。
入侵检测技术能够保护系统免受攻击,是当前的一个研究热点,究其本质是一个分类问题。
集成分类器利用多个不同种类分类器的加权投票来提高算法的准确率。
在数据流中,因为连续产生出海量的数据,并且数据的分布会随着时间的更迭而发生变化 (即概念漂移[1])。
如何在海量的数据流中选择出充分的数据并训练出分类模型以进行有效地预测,正是数据流入侵检测所要解决的难点。
本文提出本文提出一种数据流中利用异种分类器集成进行入侵检测的算法设计。
该算法中,我们利用距离当前较近的四个不同时间段数据学习生成四中不同的分类器。
根据各个分类器在新到达数据上的的F-度量以及分类准确率计算它们的权重,进而加权平均检测数据流当中的入侵行为。
1 入侵检测的性能评价在入侵检测问题中,评估标准可使用召回率(recall)、精度(precision)。
定义如下:2 相关知识2.1 决策树算法决策树采用自顶向下的分治方法构造,随着树的构造,数据集集合空间被分割成两个或多个块。
在构造树的过程中会用到熵、信息增益、分裂信息、增益比率等概念。
由根结点到一个叶节点的路径则构成一类分类规则。
本文构造基分类器用的是比C4.5算法。
2.2 逻辑回归算法逻辑回归算法分析数据时,如果是连续的,该算法就使用多重线性回归分析;如果是二项分布,就是Logistic回归;同理如果是Poission分布,就是Poisson回归。
该算法的特点就是简单,易于理解。
一种基于概念重复性的数据流集成分类算法尹绍宏;张盼盼【摘要】目前关于概念漂移数据流的分类研究已经取得了许多成果,但大部分没有充分考虑到数据流中概念重复出现的情况,这将耗费大量的计算和内存资源,增加了分类错误的可能性。
为此,基于概念的重复性提出了一种数据流集成分类算法,该算法运用集成分类思想处理数据流中的概念漂移,但在学习过程中不会将暂时失效的概念及对应基分类器删除,而是把它们的基本信息存储起来,方便以后调用,并可根据概念间的转换关系预测即将到来的概念,在提高分类精度的同时又提高了时间效率。
实验结果验证了算法的有效性。
%Nowadays, the data stream classification research about concept drift has gained a lot of achievements. However, because of neglecting of the situation that concepts recur in the data steam, most of research methods will not only lead to high computation complexity and large memory overhead, but affect the classification accuracy. To solve this problem, based on the repeatability of concept, this paper proposes an ensemble classification algorithm for data stream, which applies ensemble classification theory to process the concept drift in data stream. On the one hand, the algorithm stores the essential information of temporary failure concepts and their corresponding base classifiers for later calls instead of deleting them during the learning process. On the other hand, it predicts the oncoming concept according to transitions between concepts. Therefore, the proposed algorithm can improve the classification accuracy and efficiency.Finally, the experimental results demonstrate the effectiveness of the new algorithm.【期刊名称】《计算机工程与应用》【年(卷),期】2016(052)012【总页数】5页(P80-84)【关键词】数据挖掘;数据流;集成分类;概念漂移;重复性【作者】尹绍宏;张盼盼【作者单位】天津工业大学,天津 300387;天津工业大学,天津 300387【正文语种】中文【中图分类】TP311.13YIN Shaohong,ZHANG Panpan.Computer Engineering andApplications,2016,52(12):80-84.由于通信技术和硬件设备的不断发展,数据采集趋向于快捷和自动化,诸如实时监控、卫星遥感、入侵检测和股票分析等新兴应用领域无时无刻不在产生着大量的数据流。
基于聚类分区的多维数据流概念漂移检测方法陈圆圆;王志海【期刊名称】《计算机科学》【年(卷),期】2022(49)7【摘要】对数据流中的潜在信息进行分析和利用是数据流挖掘工作的重要内容。
然而,数据的分布会随着时间的推移发生变化,从而使学习假设发生更改,这就是概念漂移现象,它给数据流挖掘带来了巨大的挑战。
检测数据分布的变化是一种直接且有效的概念漂移检测方法,目前,已有研究方法基于树型结构或网格结构建立直方图,实现对数据分布的描述,但是,此类方法在进行分布检测时容易产生检验盲点,其可解释性较差,并且在多维数据上的内存消耗较大。
文中提出了一种基于等密度分区的概念漂移检测方法PUDC(Partition Based on Uniform Density Clusters),该方法基于改进的k-Means算法,对数据进行等密度分区,利用卡方检验对每个分区进行统计和计算,从而检测数据分布变化,以达到概念漂移检测的目的。
为了验证方法的有效性,选取了4个人工数据集和3个真实数据集进行实验,对比分析了不同维度的数据下的I类错误率和II类错误率,实验结果表明,PUDC算法在多维数据流的概念漂移检测中相比几种较新的算法具有一定的优势。
【总页数】6页(P25-30)【作者】陈圆圆;王志海【作者单位】北京交通大学计算机与信息技术学院;北京交通大学交通数据分析与挖掘北京重点实验室【正文语种】中文【中图分类】TP391【相关文献】1.基于概念漂移检测的数据流木马检测模型2.基于模糊聚类的数据流概念漂移检测算法3.一种基于混合集成方法的数据流概念漂移检测方法4.基于自适应微簇的任意形状概念漂移数据流聚类5.基于主动检测概念漂移的数据流多分类器方法因版权原因,仅展示原文概要,查看原文内容请购买。
数据流中概念漂移检测的集成分类器设计数据流中的概念漂移是指随着时间推移,数据流中的模式或概念发生
变化的现象。
集成分类器是一种利用多个基分类器进行决策的机器学习方法。
在数据流中进行概念漂移检测时,集成分类器可以提高分类准确性和
稳定性。
本文将介绍数据流中概念漂移检测的集成分类器的设计方法。
一、数据流中概念漂移的概述
数据流中的概念漂移是指数据分布的变化,导致在不同时间段或位置
上的数据样本有不同的属性分布。
概念漂移对于数据流中的类别预测任务
具有挑战性,因为单个分类器可能无法适应数据的变化。
因此,需要使用
集成分类器来进行概念漂移的检测和管理。
集成分类器通过组合多个基分类器的决策来进行分类。
在数据流中进
行概念漂移检测时,可以通过以下步骤设计集成分类器:
1.基分类器选择:选择不同的基分类器作为集成分类器的组成部分,
可以增加分类器的多样性,提高分类准确性和鲁棒性。
常见的基分类器包
括决策树、支持向量机、人工神经网络等。
2.集成方法选择:根据具体问题选择合适的集成方法。
常见的集成方
法包括投票法、加权法、堆叠法等。
投票法是指通过多数表决的方式进行
分类决策;加权法是给不同基分类器分配不同权重来进行分类决策;堆叠
法是通过训练一个次级分类器来结合多个基分类器的结果。
3.集成策略选择:根据数据流中的概念漂移特征选择合适的集成策略。
常见的集成策略包括动态集成、增量集成和滑动窗口集成。
动态集成是在
数据流中的概念漂移发生时,动态调整集成模型的组成部分;增量集成是
通过逐步增加基分类器,动态更新集成模型;滑动窗口集成是将数据流分
成固定大小的窗口,每个窗口训练一个集成分类器,并通过滑动窗口的方
式进行分类。
4.漂移检测方法选择:在设计集成分类器时,还需要选择适合的漂移
检测方法。
常见的漂移检测方法包括基于错误率的方法、基于统计的方法
和基于一致性的方法。
基于错误率的方法是通过监测分类器的错误率变化
来检测漂移;基于统计的方法是通过统计数据分布的变化来检测漂移;基
于一致性的方法是通过比较不同分类器的预测结果的一致性来检测漂移。
三、集成分类器的应用
集成分类器在数据流中概念漂移的检测和管理任务中具有广泛的应用。
例如,在在线广告推荐系统中,可以使用集成分类器来识别用户的行为模
式的变化,并及时调整推荐策略。
在金融欺诈检测中,可以使用集成分类
器来检测账户的异常交易行为,并预测潜在的欺诈风险。
总结:
本文介绍了数据流中概念漂移检测的集成分类器的设计方法。
通过选
择合适的基分类器、集成方法、集成策略和漂移检测方法,可以设计出在
数据流中高效准确的概念漂移检测器。
集成分类器的应用不仅可以提高分
类准确性和稳定性,还可以适应随着时间推移数据分布变化的情况,从而
实现更加灵活和智能的预测和决策。