数据挖掘在网络入侵检测系统中的应用
- 格式:pdf
- 大小:431.36 KB
- 文档页数:3
数据挖掘技术在计算机网络入侵检测中的应用摘要:数据挖掘充分利用了这些学科的结果,但是研究目标和重点又不同于这些单一研究领域。
数据挖掘方法能从巨大的真实数据库中提取感兴趣的和以前不知道的知识,从而成为一个在理论和应用中重要而实用的研究领域。
网络安全技术从应用方面来看,主要分为面向终端系统的网络安全技术和面向网络基础架构的安全技术。
本文主要探讨数据挖掘技术在计算机网络入侵检测中的应用。
关键词:数据挖掘;计算机网络;入侵检测中图分类号:tp393.08 文献标识码:a 文章编号:1007-9599 (2013) 02-0000-021 引言计算机网络物理介质的不安全因素主要有电磁泄漏及干扰,网络介质在接口、某些特定线缆都有可能出现因屏蔽不严而导致的信号泄漏。
目前大多数计算机网络系统的屏蔽措施都不是很健全,这对网络安全构成了一定威胁。
操作系统和应用程序在功能上变得越来越丰富,在用户使用网络更加方便的同时,也存在很多容易受到攻击的地方。
人员安全问题主要是由于工作人员的保密观念不强导致。
其中操作失误导致的信息泄漏或损毁也是导致安全问题的一个重要因素。
工作人员利用自己对系统的熟悉了解,为达非法目的对系统数据进行篡改、破坏也会对网络系统造成严重后果。
环境安全问题主要是由于地震、火灾、雷电等自然灾害或掉电、温度湿度、空气洁净度等环境因素所导致的安全问题。
2 计算机网络入侵的原理良好的网络规划与设计,以及适合具体网络结构的网络管理,能大大降低网络运行成本和网络管理员的劳动强度。
好的网络管理系统能提供给网络管理员一个非常清晰的网络拓扑结构,把大量网络运行的状态数据转化为非常简单的图形提示,及时反馈网络中出现的问题。
这种高度的协同性不仅表现为企业内部各种信息系统的相互协同,而且表现为企业内部信息系统与外部信息系统的有效协同。
计算机病毒、黑客、信息垃圾、存储设备故障等方面的问题给分布式网络管理结构带来许多的安全隐患,对分布式网络管理结构的安全防范机制的建设提出了更高的标准,要求企业在信息资源集成过程中采取必要的安全保障措施来保证信息资源的安全。
981 引言在信息时代高速前进的今天,网络安全问题也伴随着信息高速发展变得层出不穷。
有许多人学习各种攻击的手法通过丰富的网络资源去攻击别人,通过一个简单的操作去试试自己的破坏行为,所以目前最紧要的就是能够找到有效的检测方法去阻止这些攻击行为,这也是目前计算机行业的一个发展趋势。
对于网络安全的保护手段随着攻击的不断变化而变化,这些手段我们大都耳熟能详,像VPN 、防火墙等。
但是这仅限于静态方法,并不能真正意义上的有效保护。
而入侵检测(Intrusion Detection)技术才是时下最有用的对(网络)系统的运行状态进行监视的系统,它的主要作用就是发现层出不穷的攻击企图、攻击行为与攻击结果,通过技术手段去保证系统资源的机密性、完整性与可用性不外泄,最终形成一种动态的有效地防护保护策略,它的优秀就在于能够对网络安全实施全程监控、攻击与反攻击等动态保护,可以说是填补了静态防护策略的空白。
滥用检测和异常检测是传统的入侵检测技术。
滥用检测的主要作用在于分析不同的网络攻击,通过寻找网络攻击的相同点,及时有效的防范已知攻击,减少防范误差,但是这种方法的弊端在与智能检测到现有的攻击,不能时时起到检测作用;但是对于异常检测通来说,它的工作原理是通过检测,发现当下活动是否与历史正常活动有区别来检测是否有入侵攻击,它的优点在于能够检测到未知攻击,但是它的缺点也能够显而易见发现就是会产生误报以及漏报危险。
所以在进行网络入侵检测系统监察时,就必须把查漏工作做得位,需要运用数据挖掘技术直接进行网络入侵的检测,对于这个系统来说,基础的模型是以Snort 入侵检测系统为主的,使网络入侵检测系统凌驾于数据挖掘之上。
2 网络入侵检测系统中针对数据挖掘的应用在网络入侵检测系统(IDS)中,通过数据挖掘技术的应用,起到时时方法的作用。
它的工作原理在于把挖掘审计数据作为防范的依据,在数据中找到入侵行为,简单而有效的这么一种检测规则。
需要审计的数据主要是通过预先处理和有时间的审计记录进行监控。
第25卷第5期V ol 125 N o 15长春师范学院学报(自然科学版)Journal of Changchun N ormal Un iv ersity (N atural Science )2006年10月Oct 2006数据挖掘技术在入侵检测系统中的应用高 峰1,姚艳秋2(11安阳师范学院计算机科学系,河南安阳 455002;21长春师范学院信息技术学院,吉林长春 130032)[摘 要]将入侵检测系统中的攻击程度进行分类,并利用数据挖掘技术在入侵检测系统中加以应用。
尽管入侵检测系统能够对攻击行为进行检测,但其结果还是具有不确定性的,利用这种划分能够对攻击行为的不确定性进行描述,也可以让用户对入侵行为进行灵活的调整。
[关键词]数据挖掘;入侵检测系统;不确定性[中图分类号]T P391;TP393 [文献标识码]A [文章编号]1008-178X (2006)05-0041204[收稿日期]66[作者简介]高 峰(),男,陕西西安人,安阳师范学院计算机科学系助教,硕士,从事数据库技术及其应用研究。
1 引言目前,计算机入侵频繁出现,并逐渐超过了我们对其检测、分析和控制的能力,根据统计数据表明,大量的攻击曾试图侵入过一些重要的电子商务网站,更为震惊的是,实际上其中仅仅有低于4%的攻击被检测和报告过。
在网络中流动的报文构成了大量的数据,而数据挖掘技术的显著特点就是从海量数据中提取出新颖的、对使用者有价值的知识,来预测将要发生的行为。
数据挖掘技术已经在商业领域、金融领域取得了非常巨大的成功。
而网络中的报文,以及在服务器和工作站中保留的审计信息,其数量之大,自然地成为数据挖掘技术进行分析的对象。
可以想象,有效地利用数据挖掘技术对这些数据进行处理,得到的结果对于入侵检测有着重要的意义。
2 入侵检测系统入侵检测是一个对在计算机系统中发生的事件进行监视和分析的过程,其目的是检测出威胁计算机安全的情况。
入侵检测的策略可以分为两种:误用检测策略和异常检测策略。
数据挖掘方法在入侵检测系统中的应用3赵艳杰(潍坊学院,山东 潍坊 261061)摘 要:任何一种检测方法都不能检测出所有入侵行为,一个完善的入侵检测系统应该是多种检测手段的综合运用。
本论文的研究目标是借用数据挖掘技术探寻一种检测方法,使之有效识别已知入侵,并具备对未知类型数据的检测能力。
实验证明,该方法对扫描与拒绝服务两种攻击类型具有理想的检测效果。
关键词:入侵检测系统;数据挖掘;网络安全中图分类号:TP309 文献标识码:A 文章编号:1671-4288(2008)02-0019-04 目前,将数据挖掘应用于入侵检测系统已经成为一个研究热点。
在这个研究领域,影响比较大的主要是Colu m bia U niversity 的W enke Lee 研究组。
后继的研究者大多沿袭了W enke Lee 和Portnoy 的研究路线,并在此基础上作了相应改进或者采用数据挖掘与其它智能技术(如遗传算法、模糊技术)相结合的方法[1-3]。
本文从关于安全的先验知识出发,提取出可以有效反映系统特性的特殊属性,应用合适的算法进行挖掘,将误用检测与异常检测两种方式相结合,研究了一种基于数据挖掘的网络入侵检测方法。
1 方法描述任何一种检测方法都不能检测出所有入侵行为,一个完善的入侵检测系统应该是多种检测手段的综合运用。
本文的研究目标是借用数据挖掘技术探寻一种检测方法,使之有效识别已知入侵,并具备对未知类型数据的检测能力,从而达到对在传统入侵检测系统中检测率较低的扫描与拒绝服务两种攻击类型较为理想的检测效果。
基于上述思想,本文设计了一个基于数据挖掘技术的网络入侵检测模型。
该模型实现的是以网络历史数据为数据源建立分类器,并以该分类器识别新网络审计数据中是否存在入侵的过程。
不同系统之间行为模式是存在较大差异的。
作为服务器的主机典型特征是访问量极大,且长期保持一定数据流量,单位时间内流量较大,连接频率较高,一般不主动发出连接请求,大多作为TCP 连接双方的目的主机出现;而普通工作站,大多作为TCP 连接的发起者,作为被连接对象的情况较少,主要体现为索取数据。
数据挖掘技术在网络入侵检测中的应用案例分析随着互联网的发展和普及,网络入侵事件也愈发频繁。
网络入侵对个人用户和企业来说都是一种巨大的威胁,可能导致数据泄露、系统崩溃和财产损失等严重后果。
为了有效应对网络入侵威胁,许多组织和企业开始探索利用数据挖掘技术来进行网络入侵检测和防御。
本文将介绍两个应用数据挖掘技术进行网络入侵检测的案例,展示数据挖掘在网络安全领域的潜力与优势。
案例一:基于异常检测的入侵检测系统某企业的安全团队面临巨大的网络入侵威胁,传统的规则和签名检测方法无法满足日益复杂的网络攻击。
为了提高入侵检测的准确性和效率,他们决定采用基于异常检测的数据挖掘技术。
首先,安全团队收集了大量的网络数据,包括网络流量数据、系统日志和用户行为数据等。
然后,他们利用数据挖掘技术进行预处理和特征工程,提取出网络流量的关键特征,例如协议类型、源和目的IP地址、端口号等。
接下来,他们使用聚类算法将网络流量数据分为不同的群组,将每个群组视为一种正常行为的模式。
对于新的网络数据,系统会将其与已有的群组进行比较,如果其与任何一个群组差异较大,则被视为异常行为。
这样,就能实时发现并阻止潜在的网络入侵活动。
结果显示,该企业通过引入异常检测的数据挖掘技术,成功识别了多个以往无法被传统方法捕捉到的入侵行为。
这大大提高了网络入侵检测的准确性和效率,为企业的信息安全保驾护航。
案例二:基于机器学习的网络入侵检测系统另一个案例是某大型云服务提供商,在其数据中心中经常发现网络入侵事件。
为了实时发现和阻止入侵活动,他们决定利用数据挖掘中的机器学习算法来构建一个智能入侵检测系统。
首先,该云服务提供商收集了大量的网络流量数据、应用日志和系统日志等。
然后,他们通过特征工程从原始数据中提取出有用的特征,例如包的大小、传输协议、源和目的IP地址等。
接着,他们使用监督学习算法训练一个分类器模型,用于区分网络流量是否是恶意的入侵行为。
训练数据集包括已标记的正常流量和已知的入侵流量,用于模型的训练和评估。
第19卷第3期重庆电子工程职业学院学报Vol.19No.32010年5月Journal of Chongqing College of Electronic EngineeringMay 2010随着计算机网络技术不断发展,对网络上包含重要资料的数据库服务器的各种入侵问题也随之大量产生。
常规防火墙只能通过限制数据库服务器部分网络功能的方法来保证安全,而对于在开放服务内的入侵却无能为力。
传统的入侵检测技术有两种,即滥用检测和异常检测。
其中,滥用检测是分析各种类型的攻击手段,找出可能的“攻击特征”集合,可有效检测到已知攻击,产生误报较少,缺点是只能检测到已知的入侵类型,而对未知的入侵类型无能为力,需要不断更新攻击特征库;异常检测的假设条件是通过观察当前活动与系统历史正常活动情况之间的差异来检测攻击行为,其优点是可检测到未知攻击,缺点是误报和漏报较多。
针对现有网络入侵检测系统的一些不足,将数据挖掘技术应用于网络入侵检测,可实现入侵检测自动化,提高检测效率和检测准确度。
1入侵检测系统引入数据挖掘的好处最早将数据挖掘技术应用于入侵检测领域的是Wenke Lee 研究小组,他们在1998年首次将数据挖掘技术应用于入侵检测系统。
从他们提供的大量实验和测试结果表明,将通用的数据挖掘技术应用于入侵检测系统,在理论上和技术上是完全可行的。
基于数据挖掘的入侵检测分析技术与其他分析技术不同之处在于,该方法是以数据为中心,将入侵检测看成一种海量安全审计记录数据的分析与处理过程,即使根本不知道各种攻击手段的作用机制,也可以从安全审计数据本身所隐藏的规律中发现异常行为,从而使入侵检测系统具有更好的自学习、自适应和自我扩展的能力。
与传统入侵检测力法相比,基于数据挖掘的入侵检测分析技术有以下几个特点:(1)智能性好,自动化程度高。
基于数据挖掘的检测方法采用了统计学、决策学以及神经网络等多种方法,自动地从数据中提取手工难以发现的行为模式,从而减少人的参与,减轻入侵检测分析员的负担,同时也提高了检测的准确性。
(2)检测效率高。
数据挖掘可以通过对数据进行预处理,抽取数据中的有用部分,有效的减少数据量,因而检测效率较高,对于现在数据库和网络庞大数据量的入侵检测系统来说,这一点在实际应用中也是至关重要的。
(3)自适应能力强。
应用数据挖掘方法的检测系统不是基于预定义的检测模型,所以自适应能力强,可以有效地检测新型的攻击以及已知攻击类型的变种。
2基于数据挖掘的入侵检测系统模型构思针对现有入侵检测系统挖掘速度慢和挖掘准确度不高的缺点,利用Snort 入侵检测系统模型和Apriori 算法为基础,提出一种基于数据挖掘的入侵检测系统模型,该模型的结构如下图1所示。
图1基于数据挖掘的入侵检测系统模型2.1模块功能简述收稿日期:2010-03-10作者简介:蔡勇(1979—),男,重庆永川人,重庆大学软件工程学院软件工程专业2008级硕士研究生;鄢志辉(1982—),男,四川邻水人,重庆大学软件工程学院软件工程专业2008级硕士研究生。
数据挖掘在网络入侵检测系统中的应用蔡勇,鄢志辉(重庆大学软件工程学院,重庆400019)摘要:探讨了网络入侵检测中应用数据挖掘技术的可行性和必要性,提出一种基于数据挖掘的入侵检测系统模型,并对该模型中数据挖掘算法进行研究,提出该系统应用Apriori 算法的改进思路,实现入侵检测自动化,提高检测效率和检测准确度。
关键词:入侵检测;数据挖掘;数据库安全;Apriori 算法中图分类号:TP39文献标识码:A文章编号:1674-5787(2010)03-0164-03重庆电子工程职业学院学报第19卷(1)嗅探器主要进行数据收集,它是检测系统中抓取信息的接口。
(2)解码器解码分析捕获的数据包。
并把分析结果存到一个指定的数据结构中。
(3)数据预处理负责将网络数据、连接数据转换为挖掘方法所需的数据格式,包括:进一步的过滤、噪声的消除、第三方检测工具检测到的已知攻击。
利用误用检测方法对已知的入侵行为与规则库的入侵规则进行匹配,从而找到入侵行为,进行报警。
(4)异常分析器通过使用关联分析和序列分析找到新的攻击,利用异常检测方法将这些异常行为送往规则库。
(5)日志记录保存2种记录:未知网络正常行为产生的数据包信息和未知入侵行为产生的数据包信息。
(6)规则库保存入侵检测规则,为误用检测提供依据。
(7)当偏离分析器报告有异常行为时,报警器通过人机界面向管理员发出通知,其形式可以是E-mail。
控制台报警、日志条目、可视化的工具。
(8)特征提取器对日志中的数据记录进行关联分析,得出关联规则,添加到规则库中。
2.2异常分析器简述异常分析器使用聚类分析模型产生的网络或主机正常模型检测数据包。
它采用K-Means算法作为聚类分析算法,其异常分析流程如图2所示。
图2异常分析流程异常分析器的检测过程为:(1)网络或主机数据包标准化;(2)计算网络数据包与主类链表中聚类中心的相似度:(3)若该网络数据包与某一主类的相似度小于聚类半径R,则表明其是正常的网络数据包,将其丢弃;(4)若该网络数据包与所有主类的相似度大于聚类半径R,则表明其是异常的网络数据包,发现异常。
2.3特征提取器简述特征提取器用于分析未知的异常数据包,挖掘网络异常数据包中潜在的入侵行为模式,产生相应的关联规则集,添加到规则库中。
该模块采用Apriori算法进行关联规则的挖掘,其工作流程下图3所示。
图3特征提取器工作流程特征提取器的工作过程可分为数据预处理和产生关联规则。
(1)数据预处理特征提取器的输入为日志记录,包含很多字段,但并非所有字段都适用于关联分析。
在此仅选择和Snort规则相关的字段,如SrcIP,SrcPort,DstIP,Dst-Port,Protocol,Dsize,Flags和CID等。
(2)产生关联规则首先根据设定的支持度找出所有频繁项集,一般支持度设置得越低,产生的频繁项集就会越多;而设置得越高,产生的频繁项集就越少。
接着由频繁项集产生关联规则,一般置信度设置得越低,产生的关联规则数目越多但准确度不高;反之置信度设置得越高,产生的关联规则数目越少但是准确度较高。
2.4系统模型特点该系统在实际应用时,既可以事先存入已知入侵规则,以降低在开始操作时期的漏报率,也可以不预先存入已知规则。
虽然该系统有较强的自适应性,但在操作初期会有较高的误报率。
因此该系统模型有如下特点:(1)利用数据挖掘技术进行入侵检测;(2)利用先进的挖掘算法,使操作接近实时;(3)具有自适应性,能根据当前的环境更新规则库;(4)不但可检测到已知的攻击,而且可检测到未知的攻击。
3Apriori算法的基础思想及改进思路关联规则技术是最早应用于入侵检测中的数据挖掘技术,关联规则技术用来获得系统审计数据中各属性之间的关系,确定构造入侵检测系统所需要的合适属性,提出某种操作和入侵行为之间,或者是各种入侵行为之间的相互关系。
作为分析数据间隐含的相互关联关系的有力工具,关联规则技术在入侵检测领域中已显现出极大的优越性。
在该入侵检测模型中,就采用比较成熟的Apriori算法进行运算,运用到实际中,可以将该算法进行一些改进。
3.1算法思想165Apriori 算法是一种最有影响的挖掘布尔型关联规则的算法,其基本思想是将关联规则的挖掘分为如下两步:第一步,从事务数据库D 中找出所有支持度不小于用户指定的最小支持度阀值的频繁项目集;第二步,使用频繁项目集产生所期望的关联规则,产生关联规则的基本原则是其置信度不小于用户指定的最小置信度阀值。
第一步挖掘出所有的频繁项目集合是该算法的核心,占据整个计算量的大部分。
在挖掘频繁项目集的过程中主要利用了两个性质:频繁项目集的所有非空子集也是频繁项目集;非频繁项目集的任何超集都是非频繁项目集。
Apriori 算法使用了一种逐层搜索的迭代方法,首先找出所有频繁1-项目集L1,L1用来找频繁2-项目集L2,L2用来找频繁3-项目集L3,如此下去,直到不能找到频繁项目集为止。
具体来讲,Apriori 算法的第一步是简单统计所有含一个元素的项目集出现的频率,来决定频繁1-项目集;在第k 步,分两个阶段,首先调用函数Apriori-Gen ,通过第(k-1)步中生成的频繁(k -1)-项目集Lk-1来生成候选频繁k-项日集Ck ,其次扫描事务数据库D 计算候选频繁k-项日集Ck 中各元素在D 中的支持数或支持度。
3.2算法改进可以利用数据划分技术来挖掘频繁项目集,从而只需扫描整个数据库两次。
包含两个主要处理阶段第一阶段,算法将交易数据库D 分为n 个互不相交的部分,若数据库D 中的最小支持阀值为min_sup ,对于每个划分(部分),挖掘其中所有的频繁项集,它们被称为是局部频繁项集。
可以利用一个特别的数据结构记录包含这些频繁项集的交易记录的TID 以便使得在一次数据库扫描中就能够发现所有的局部频繁k-项集,k=1,2,…。
就整个数据库D 而言,一个局部频繁项集不一定就是个局频繁项集,但是任何全局频繁项集一定会出现在从所有划分所获得的这些局部频繁项集中,这一点可通过反证获得。
因此可以将从n 个划分中所挖掘出的局部频繁项集作为整个数据库D 中频繁项集的候选项集。
在第二阶段中,再次扫描整个数据库以获得所有候选项集的支持频度,以便最终确定各频繁项目集各划分大小和数目可以以每个划分大小能够整个放入内存为准,因此每个阶段只需读入一次数据库内容,而整个挖掘就需要两次扫描整个数据库。
4结语借助数据挖掘技术在处理大量数据特征提取方面的优势,基于数据挖掘的入侵检测系统模型可使入侵检测更加自动化,提高检测效率和检测准确度。
目前,基于数据挖掘的入侵检测已得到快速发展,但仍未得到广泛应用,虽然已经提出了基于Apriori 算法的各种实施办法,但尚未具备完善的理论体系。
因此,解决数据挖掘的入侵检测实时性、正确检测率、误警率等方面问题还有待大规模应用后的实践测评,通过测评数据来丰富和发展现有理论,完善入侵检测系统使其全面投入实际应用。
参考文献:[1]徐兴元,傅和平,熊中朝.基于数据挖掘的入侵检测技术研究[J].微计算机信息,2007(9).[2]朱海霞.数据挖掘在入侵检测中的应用[J].科技资讯,2009(25).[3]刘荫铭,李金海,刘国丽.计算机安全技术[M].北京:清华大学出版社,2000.责任编辑王荣辉Comment on the Application Technique of Date Mining in IDSCAI Yong ,YAN Zhihui(School of Software Engineering,Chongqing University,Chongqing 400019,China )Abstract:The essay discussed the feasibility and necessity of applying Date Mining in intrusion detection,and advanced a IDS model basing on Date Mining,researching the basic algorithm of the model in Date Mining,putting forward the improvement approach of the system applying Apriori algorithm,which was in order to accomplish the automate of intrusion detection and improve the detective efficiency and detective accuracy.Key words :intrusion detection;Date Mining;access security;Apriori algorithm蔡勇,等:数据挖掘在网络入侵检测系统中的应用第3期166。