【CN110046665A】基于孤立森林二分类异常点检测方法、信息数据处理终端【专利】
- 格式:pdf
- 大小:696.34 KB
- 文档页数:15
基于孤立森林算法的电力调度流数据异常检测方法发布时间:2022-01-05T05:36:06.267Z 来源:《中国科技人才》2021年第23期作者:潘昭旭[导读] 调度是电力系统安全运行的保障。
针对具有"概念漂移"特点的调度监测流数据,基于离线数据分析或简单阈值判定的异常检测方法,存在与生产系统实时运行状态结合不紧密、依赖专家经验等问题。
国网山西电力公司吕梁供电公司山西吕梁 033000摘要:调度是电力系统安全运行的保障。
针对具有"概念漂移"特点的调度监测流数据,基于离线数据分析或简单阈值判定的异常检测方法,存在与生产系统实时运行状态结合不紧密、依赖专家经验等问题。
提出了一种基于孤立森林算法的电力调度流数据异常检测方法,利用历史数据集训练构建多个子森林异常检测器,组成基森林异常检测器;据此,在线根据滑动窗口中数据的异常情况及缓冲区数据量大小,触发检测器更新。
提出一种根据异常偏差率大小筛选子森林异常检测器的更新策略,解决因模型随机更新导致异常检测器整体性能下降的问题。
以服务器和某省级电网调度中心业务流数据集作为训练与测试样本,验证了所提方法在异常检测查全率及查准率等综合性能上的先进性及其在实际系统应用中的可行性。
关键词: 孤立森林算法; 用电数据; 异常; 检测; 数据挖掘引言随着电网规模日益扩大,对电网安全稳定运行的要求也越来越高电网调度数据的异常检测也愈显重要。
面向电力行业相关业务的异常检测方法中,国内外专家提出了不同解决方法,但大多针对静态数据集,可大致分为2大类:基于状态估计和基于数据挖掘。
基于状态估计的异常检测方法针对电力系统的遥测和遥信2种量测数据进行状态预估,而基于数据挖掘的异常检测方法更注重从数据库获取大量随机的数据并探寻潜在的特殊信息关系,不会出现状态估计时重复评估、数据残差污染以及淹没的问题,因此在辨识系统异常数据的效果上具有明显的优势。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201810793660.8(22)申请日 2018.07.16(71)申请人 国网上海市电力公司地址 200122 上海市浦东新区源深路1122号(72)发明人 陈明 曹袖 毛迪林 毛苇 严童 周清华 唐啸 宣庐峰 熊博越 徐伟 侯昀 黄增瑞 (74)专利代理机构 上海兆丰知识产权代理事务所(有限合伙) 31241代理人 卢艳民(51)Int.Cl.G06Q 10/06(2012.01)G06Q 50/06(2012.01)H02J 3/00(2006.01)(54)发明名称一种基于孤立森林算法的用电数据异常检测模型(57)摘要本发明公开了一种基于孤立森林算法的用电数据异常检测模型,包括特征提取模块、特征降维模块、孤立森林计算模块、构建专家样本模块和二次训练模块,特征提取模块从原始数据集中提取用户的用电数据的时间序列作为初始特征集,然后对初始特征集进行无量纲化和特征选择处理;特征降维模块采用主成分分析法和自编码网络法对初始特征集进行降维得到有效特征集;孤立森林计算模块采用孤立森林算法计算出每个用户的异常分数以判定用户数据有无异常。
本发明的基于孤立森林算法的用电数据异常检测模型,是一种无监督的用电数据异常检测模型,不仅能够快速地处理大量的数据,而且能够适应缺乏训练样本的情况,能够更好地满足于电力部门的实践需求。
权利要求书2页 说明书5页 附图3页CN 108985632 A 2018.12.11C N 108985632A1.一种基于孤立森林算法的用电数据异常检测模型,其特征在于,包括特征提取模块、特征降维模块、孤立森林计算模块、构建专家样本模块和二次训练模块,其中:所述特征提取模块从原始数据集中提取用户的用电数据的时间序列作为初始特征集,然后对初始特征集进行无量纲化和特征选择处理;所述特征降维模块采用主成分分析法和自编码网络法对初始特征集进行降维得到有效特征集;所述孤立森林计算模块采用孤立森林算法计算出每个用户的异常分数以判定用户数据有无异常;所述构建专家样本模块通过电力专家的经验筛选标准异常样本;所述二次训练模块将所述标准异常样本加入到所述原始数据集中,然后进行二次训练,得到最终的用户异常分数排序。
一种基于孤立森林算法的金融交易系统异常识别方法与流程【实用版4篇】《一种基于孤立森林算法的金融交易系统异常识别方法与流程》篇1孤立森林算法是一种基于决策树的异常检测算法,具有线性时间复杂度,因此适用于含有海量数据的数据集。
在金融交易系统中,异常识别是非常重要的,可以通过检测异常交易行为来防范金融欺诈、洗钱等不良行为。
因此,可以采用基于孤立森林算法的金融交易系统异常识别方法与流程,具体步骤如下:1. 数据预处理:对金融交易数据进行预处理,包括数据清洗、归一化、特征选择等步骤,以便于后续的异常检测。
2. 构建孤立森林:根据预处理后的数据,构建孤立森林,即一组决策树。
孤立森林算法可以通过随机选取一个维度来切分数据空间,构建出一棵决策树,然后将数据点放入决策树中进行分类。
重复上述过程,直到构建出多棵决策树,形成孤立森林。
3. 异常检测:将待检测的数据点放入孤立森林中进行分类,如果数据点被分类为异常,则说明该数据点存在异常交易行为。
可以通过统计孤立森林中异常数据点的比例来评估交易系统的异常程度。
4. 模型评估与优化:通过交叉验证等方法对孤立森林模型进行评估与优化,以提高模型的准确性和鲁棒性。
综上所述,基于孤立森林算法的金融交易系统异常识别方法与流程可以有效地识别异常交易行为,防范金融欺诈、洗钱等不良行为。
《一种基于孤立森林算法的金融交易系统异常识别方法与流程》篇2孤立森林算法是一种基于决策树的异常检测算法,具有线性时间复杂度,因此可以用于含有海量数据的数据集。
在金融交易系统中,异常识别是非常重要的,可以通过检测异常交易行为来识别潜在的金融欺诈、洗钱等行为。
一种基于孤立森林算法的金融交易系统异常识别方法可以分为以下几个步骤:1. 数据预处理:对原始数据进行清洗和处理,包括去除噪声、缺失值处理、异常值处理等。
2. 构建孤立森林:根据预处理后的数据,生成一系列决策树,每个决策树都是互相独立的。
决策树的构建可以通过随机选取一个维度来切分数据空间,然后根据切分后的数据构建出一棵决策树。
专利名称:基于孤立森林的异常用户群组检测方法、装置、设备
专利类型:发明专利
发明人:敖琦,唐炳武
申请号:CN202010611692.9
申请日:20200629
公开号:CN111784392A
公开日:
20201016
专利内容由知识产权出版社提供
摘要:本申请属于异常数据分析领域,公开了一种基于孤立森林的异常用户群组检测方法、装置、计算机设备及可读存储介质。
所述方法包括对获取到的用户行为特征数据编码处理;对编码处理后的用户行为特征数据降维得到待处理特征数据,并从中随机选择一用户行为特征,根据其对应的分割值构建孤立森林;并计算从孤立树根节点到叶子节点的路径长度及其平均路径长度;最后计算每个待处理特征数据的异常得分,将异常得分大于第一预设值的待处理特征数据所对应的用户输出作为异常用户;计算各异常用户间的相似度再分群处理得到异常用户群组。
本申请还涉及区块链技术,所述用户行为特征分布式部署于区块链中。
采用本方法解决了数据处理分析不准确的技术问题。
申请人:中国平安财产保险股份有限公司
地址:518000 广东省深圳市福田区益田路5033号平安金融中心12、13、38、39、40层
国籍:CN
代理机构:深圳市世联合知识产权代理有限公司
代理人:汪琳琳
更多信息请下载全文后查看。
异常检测中基于聚类的孤立森林算法研究异常检测是数据分析中的一个重要任务,旨在发现与正常模式不符的数据项。
它在各种领域中都有广泛的应用,如网络入侵检测、金融欺诈检测和工业设备故障检测等。
随着大数据的快速增长,异常检测面临着越来越多的挑战。
为了解决这个问题,研究者们引入了各种新的技术和算法,其中基于聚类的孤立森林算法成为了一种受关注的方法。
聚类是一种将相似数据点分组的技术,可以帮助我们发现数据中的一些内在模式。
而孤立森林算法是一种近年来提出的高效的异常检测方法,它利用了数据中正常模式和异常模式之间的差异。
这种方法在许多实际场景中展现出了良好的性能和可扩展性。
基于聚类的孤立森林算法的核心思想是将数据集划分为两个子集:正常数据和异常数据。
首先,通过聚类算法将数据集划分为多个聚类簇。
然后,对每个聚类簇构建一棵孤立树。
孤立树是一种用于表示数据子集的二叉树结构,它的每个叶节点代表一个数据点。
构建孤立树的过程中,通过随机地选择一个特征和一个切分点,将数据集划分为两个子集。
通过递归地划分子集,最终形成一棵完整的孤立树。
这个过程对于每个聚类簇都会进行多次迭代,最终形成多棵孤立树。
在预测阶段,通过计算一个数据点在每棵孤立树中的路径长度,来判断它是否为异常值。
路径长度是指从根节点到叶节点经过的边的数量。
正常数据点在大多数孤立树中的路径长度较短,而异常数据点的路径长度较长。
因此,较长的路径长度可以被视为异常值的指标。
基于聚类的孤立森林算法相较于传统的孤立森林算法在一些方面有所改进。
首先,相较于全局的孤立森林,通过使用聚类算法,可以更好地适应大规模数据集的处理。
其次,基于聚类的孤立森林可以处理多模态数据集,这是因为聚类可以将具有相似特征的数据点分组。
最后,该算法还可以处理带有噪声的数据集,通过将噪声数据点划分到不同的聚类簇中,从而减少对异常检测模型的影响。
然而,基于聚类的孤立森林算法也存在一些挑战和限制。
首先,算法的准确性受到聚类算法的质量和参数设置的影响。
孤立森林异常值检测算法步骤
孤立森林是一种用于异常值检测的机器学习算法。
它通过构建一系列的孤立树,对数据进行拟合,并根据数据在每个孤立树中的分裂情况,判断该数据是否为异常值。
以下是孤立森林异常值检测算法的步骤:
1.数据预处理:首先,对数据进行预处理,包括缺失值填充、特征缩放等操
作,以使数据适应算法的要求。
2.构建孤立树:随机从训练数据中选择一部分作为样本子集,构造一棵孤立
树。
这个过程重复进行多次(如上千次),以构建出一系列的孤立树。
3.确定异常值:对于测试数据中的每一个样本点,遍历每一棵孤立树,计算
该样本点在树中的平均高度。
然后根据这个平均高度来判断该样本点是否为异常值。
如果一个样本点在多棵树中的平均高度都较低,那么它就被认为是异常值。
需要注意的是,这个过程可能会受到训练样本中异常样本比例的影响,如果异常样本比例较高,可能会导致最终结果不理想。
此外,异常检测的结果也与具体的应用场景紧密相关,因此算法检测出的“异常”不一定是实际场景中的真正异常。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201711181398.3(22)申请日 2017.11.23(71)申请人 哈尔滨工业大学地址 150090 黑龙江省哈尔滨市南岗区西大直街92号申请人 江南机电设计研究所(72)发明人 宋凯 徐鹏 李阳 苏日新 赵丹 (74)专利代理机构 贵阳睿腾知识产权代理有限公司 52114代理人 谷庆红(51)Int.Cl.G06K 9/62(2006.01)(54)发明名称一种基于随机森林的异常数据处理方法(57)摘要一种基于随机森林的异常数据处理方法,通过将被动恢复数据后获取输出数据变为主动删减包含失效信息的失效决策树,该方法通过有效的改善了信息缺失或信息失效引起无法准确获取输出信息而导致的可靠性与准确性下降的情况,减少了由于应用恢复数据引起的检测准确度下降及不确定增加等问题。
通过本发明的实施,可以在系统某个参数或某些参数存在异常情况下,仍能准确输出数据,提高系统在输入异常情况下的输出信息可靠性与准确性。
权利要求书1页 说明书4页 附图2页CN 108304854 A 2018.07.20C N 108304854A1.一种基于随机森林的异常数据处理方法,其特征在于包括以下步骤:步骤一:获取样本集,应用自助法对样本集进行有放回的采样,进行自助法样本扩充,对每一个样本构建一个与其规模相同的自助法样本;步骤二:对每一个自助法样本分别建立一个决策树模型,在每个决策树的全部特征值中再进行无放回的随机选取,构建一个属性子集,并在每一步应用属性子集中最优属性进行决策树分枝;步骤三:对每一棵树的决策结果通过数据融合获取其权重,当获取失效信息后,对每棵树的信息进行判断,若第i个决策树的属性子集中包含该失效属性,则判断该树的决策结果为失效,则令属性权重ω”i =0,其余正常属性权重不变,即ω”i =ωi 。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910368828.5(22)申请日 2019.05.05(71)申请人 贵州师范大学地址 550001 贵州省贵阳市云岩区宝山北路116号(72)发明人 游子毅 (74)专利代理机构 贵阳东圣专利商标事务有限公司 52002代理人 袁庆云(51)Int.Cl.G06F 16/28(2019.01)G06K 9/62(2006.01)(54)发明名称基于改进的局部异常因子检测的数据分类方法(57)摘要本发明公开了基于改进的局部异常因子检测的数据分类方法,包括:离群因子检测;相似性度量;初始聚类中心点的选取,通过自适应调整k距离参数的局部离群因子检测LOF算法筛选出离群因子较小的数据作为初始聚类中心的候选集;聚类中心的迭代优化。
在优化聚类中心迭代阶段,利用离差标准化对数据间的离群因子进行标准化,使得新离群因子new_r i 的取值范围为大于等于1。
本发明提高对聚类中心定位以及簇划分的精确度。
权利要求书2页 说明书6页 附图1页CN 110083665 A 2019.08.02C N 110083665A权 利 要 求 书1/2页CN 110083665 A1.基于改进的局部异常因子检测的数据分类方法,包括以下步骤:(1)离群因子检测根据原始K-means算法在选取聚类中心点时的缺陷,提出了依据数据集中每个数据点的离群因子来排除离群点的方法,得出离群因子的计算公式(I)如下:(I)表示为点p的领域点N k(p)的局部可达密度与点p的局部可达密度之比的平均值;如果LOF值趋向1,说明p与其领域点的密度相近,p与该领域属于同一簇的可能性大;LOF越小于1,说明p的密度高于其领域点密度,即p为密集点;相反,LOF越大于1,则p越可能是异常点;(2)相似性度量对数据集的每一个属性如公式(II)进行初步的预处理:(II)其中,max(x ij)表示数据第j列的最大值;分别根据公式(III)和(IV)计算出数据中每个属性的熵值与权值:(III )(IV)根据公式(V)计算出来的权值计算数据点之间加权欧式距离:(V)(3)初始聚类中心点的选取挑选出距离聚类中心点较近的部分数据作为初始聚类中心的候选集,具体步骤如下:Step1:由公式(I)计算出数据中每个数据点的离群因子,并按离群因子值从小到大进行排列形成数据集记为D L;Step2:在D L上选取前a*N(0<a≤1,N为数据集的大小)个数据对象作为初始聚类中心的候选集F(a的大小可自适应调整);Step3:计算数据集F中所有数据的中心点c0,利用相似性度量,找到距离c0最远的数据点c1,把c1记作第一个初始聚类中心点,再次找到距离c1最远的点c2,将c2记作第二个初始聚类中心点,建立集合C={c1,c2};Step4:计算剩余数据对象x j分别到集合C={c1,c2}的加权距离,记作disc1,disc2,…,disc i,找到点c i+1=max{min(disc j1,disc j2,…,disc ji),i+1≤k,x j∈F},将c i+1记为第i+1个初始聚类中心点,即C={c1,c2,…,c i+1};Step5:重复Step 4,直到找到k个初始聚类中心点;(4)聚类中心的迭代优化采用离群因子对数据间距离进行加权,具体实现过程如下:Step1:将当前轮k个聚类中心点加入到候选集F中形成新集合F’,计算出F’中每一个对2。
基于Isolation Forest改进的数据异常检测方法徐东;王岩俊;孟宇龙;张子迎【期刊名称】《计算机科学》【年(卷),期】2018(045)010【摘要】针对现有的基于隔离森林(Isolation Forest)的数据异常检测算法检测精度低、执行效率差和泛化能力弱等问题,提出一种改进的数据异常检测方法SA-iForest.该方法基于模拟退火算法选择精度高和有差异性的隔离树来优化森林,同时去除冗余的隔离树,改进了隔离森林的森林构建.采用标准仿真数据集对所提方法进行验证,结果表明该方法与传统Isolation Forest和LOF方法相比,在准确率、执行效率和稳定性方面均有显著提高.【总页数】5页(P155-159)【作者】徐东;王岩俊;孟宇龙;张子迎【作者单位】哈尔滨工程大学计算机科学与技术学院哈尔滨150001;哈尔滨工程大学计算机科学与技术学院哈尔滨150001;哈尔滨工程大学计算机科学与技术学院哈尔滨150001;哈尔滨工程大学计算机科学与技术学院哈尔滨150001【正文语种】中文【中图分类】TP306【相关文献】1.基于Isolation Forest的并行化异常探测设计 [J], 侯泳旭;段磊;秦江龙;秦攀;唐常杰2.基于Isolation Forest和Random Forest相结合的智能电网时间序列数据异常检测算法 [J], 杨永娇; 肖建毅; 赵创业; 周开东3.一种基于迁移学习的遥测数据异常检测方法 [J], 陈俊夫;皮德常;张强4.一种基于SVD的改进LTS气动数据异常检测方法 [J], 杨海强;黄俊;黎茂锋;刘志勤5.基于改进PSO-PFCM聚类算法的电力大数据异常检测方法 [J], 李清因版权原因,仅展示原文概要,查看原文内容请购买。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910309830.5
(22)申请日 2019.04.17
(71)申请人 成都信息工程大学
地址 610225 四川省成都市西南航空港经
济开发区学府路一段24号
(72)发明人 李孝杰 李俊良 史沧红 吕建成
吴锡 周激流 刘书樵 张宪
(74)专利代理机构 北京元本知识产权代理事务
所 11308
代理人 王红霞
(51)Int.Cl.
G06K 9/62(2006.01)
(54)发明名称基于孤立森林二分类异常点检测方法、信息数据处理终端(57)摘要本发明属于通信控制及通信处理技术领域,公开了一种基于孤立森林二分类异常点检测方法、信息数据处理终端;将原始数据集进行初始的静态平均分块,计算块内密度和均值密度;计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简;利用节点的递归方法构建孤立森林;对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离;将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加与相对应的阈值进行比较。
本发明有效提高异常点检测算法的准确率,能大幅度减少异常检测过程中的实际数据量,节省计算资源,并且提高了异常检测效率;增强了异常检测算法的鲁棒
性。
权利要求书2页 说明书8页 附图4页CN 110046665 A 2019.07.23
C N 110046665
A
1.一种基于孤立森林二分类异常点检测方法,其特征在于,所述基于孤立森林二分类异常点检测方法包括以下步骤:
第一步,将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度;
第二步,计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简;
第三步,利用节点的递归方法构建孤立森林;
(1)从训练数据中随机选择Ψ个点样本点作为subsample,放入树的根节点;
(2)随机指定一个维度,在当前节点数据中随机产生一个切割点p——切割点产生于当前节点数据中指定维度的最大值和最小值之间;
(3)以此切割点生成了一个超平面,将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;
(4)在孩子节点中递归,不断构造新的孩子节点,直到孩子节点中只有一个数据或孩子节点已到达限定高度;
第四步,对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离;
第五步,将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加,与相对应的阈值进行比较。
2.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第一步将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度具体包括:步骤一,将原始数据集进行初始的静态分块;
(1)根据原始数据集Φ={x1,x2,……,x n},将数据集Φ以一定规模划分成k个子数据
集,将子数据集的下标按顺序标记
为构成子数据集集
合称为基础子数据集,;
(2)将这k个基础子数据集按照分别计算其块内密度,其中密度计算函
数为d c为自定义的距离称为截断距离;再计算出原始数据集Φ的均值密度
将计算出来的块内密度和均值密度结果进行比较
(3)如果则设置对应的子数据集的标签为1,反之亦反。
3.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第二步的计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简具体包括;
(1)对计算出来的所有块内密度数据进行排序,从小到大进行整理;
权 利 要 求 书1/2页
2
CN 110046665 A。