流量的精确识别
- 格式:docx
- 大小:53.28 KB
- 文档页数:5
中国移动通信企业标准QB-╳╳-╳╳╳-╳╳╳╳中国移动数据流量D P I识别能力规范版本号:2.6.0╳╳╳╳-╳╳-╳╳发布╳╳╳╳-╳╳-╳╳实施中国移动通信集团公司发布目录前言21.DPI设备业务识别能力要求 (1)1.1业务大类分类要求 (1)1.2子业务识别能力要求 (1)1.3业务行为精细化识别能力要求 (1)2.DPI设备协议识别能力要求 (1)3.DPI设备识别规则要求 (1)4.DPI设备识别准确性要求 (1)附录A数据流量业务大类分类 (2)附录B DPI设备子业务识别能力要求 (3)附录C DPI设备业务行为精细化识别能力要求 (3)附录D DPI设备协议识别能力要求 (21)前言本规范对DPI设备业务和协议识别能力及分类方法提出要求,是中国移动核心网Gn接口DPI设备需要遵从的技术文件。
1.DPI设备业务识别能力要求1.1业务大类分类要求DPI设备识别数据流量业务大类分类应遵循附件A所示分类框架。
1.2子业务识别能力要求DPI设备应遵循附录B所示的子业务分类和识别能力要求。
DPI设备对子业务的识别和归类应遵循精确性原则,保证匹配到的子业务最贴合流量特征,并保证同一数据流仅识别为一个子业务。
对于客户端或网站产生的外链流量,如无法区分其来源,则这部分流量不算在该业务产生的流量之中。
1.3业务行为精细化识别能力要求对于重点热点业务,DPI设备应能在基础流量识别的基础上,实现对业务内部细分功能和行为产生流量的精细化识别。
现阶段DPI设备精细化识别能力要求参见附录C。
2.DPI设备协议识别能力要求DPI设备应遵循附录D所示的协议识别能力要求。
DPI设备应能根据端口号和报文格式识别协议,具体可参考相应的国际标准。
3.DPI设备识别规则要求DPI设备根据自有识别规则库进行业务识别,同时也应支持指定的统一识别规则库。
自由识别规则库应确保提供不逊于指定的统一识别规则库的识别准确性和识别范围。
利⽤神经⽹络进⾏⽹络流量识别——特征提取的⽅法是(1)直接原始报⽂提取前24字节,24个报。
国外的⽂献汇总:《Network Traffic Classification via Neural Networks》使⽤的是全连接⽹络,传统机器学习特征⼯程的技术。
top10特征如下:List of AttributesPort number server Minimum segment size client→server First quartile of number of control bytes in each packet client→server Maximum number of bytes in IP packets server→client Maximum number of bytes in Ethernet package server→client Maximum segment sizeserver→client Mean segment size server→client Median number of control bytes in each packet bidirectional Number of bytes sent in initial window client→server Minimum segment size server→clientTable 7: Top 10 attributes as determined by connection weights《Deep Learning for Encrypted Traffic Classification: An Overview》2018年⽂章,⾥⾯提到流量分类技术的发展历程:案例:流量识别流量识别任务(Skype, WeChat, BT等类别)1. 最简单的⽅法是使⽤端⼝号。
但是,它的准确性⼀直在下降,因为较新的应⽤程序要么使⽤众所周知的端⼝号来掩盖其流量,要么不使⽤标准的注册端⼝号。
0引言加密流量主要是指在通信过程中所传送的被加密过的实际明文内容。
在安全和隐私保护需求的驱动下,网络通信加密化已经成为不可阻挡的趋势。
加密网络流量呈现爆炸增长,安全超文本传输协议(Hyper Text Transfer Protocol over Secure,HTTPS)几乎已经基本普及。
但是,加密流量也给互联网安全带来了巨大威胁,尤其是加密技术被用于网络违法犯罪,如网络攻击、传播违法违规信息等。
因此,对加密流量进行识别与检测是网络恶意行为检测中的关键技术,对维护网络空间安全具有重要意义。
随着流量加密与混淆的手段不断升级,加密流量分类与识别的技术逐步演进,主要分为基于端口、基于有效载荷和基于流的方法。
基于端口的分类方法通过假设大多数应用程序使用默认的传输控制协议(Transmission Control Protocol,TCP)或用户数据报协议(User Datagram Protocol,UDP)端口号来推断服务或应用程序的类型。
然而,端口伪装、端口随机和隧道技术等方法使该方法很快失效。
基于有效载荷的方法,即深度包解析(Deep Packet Inspection,DPI)技术,需要匹配数据包内容,无法处理加密流量。
基于流的方法通常依赖于统计特征或时间序列特征,并采用机器学习算法,如支持向量机、决策树、随机森林等算法进行建模与识别。
此外,高斯混合模型等统计模型也被用于识别和分类加密流量。
虽然机器学习方法可以解决许多基于端口和有效载荷的方法无法解决的问题,但仍然存在一些局限:(1)无法自动提取和选择特征,需要依赖领域专家的经验,导致将机器学习应用于加密流量分类时存在很大的不确定性;(2)特征容易失效,需要不断更新。
与大多数传统机器学习算法不同,在没有人工干预的情况下,深度学习可以提取更本质、更有效的检测特征。
因此,国内外最近的研究工作开始探索深度学习在加密流量检测领域中的应用。
基于已有研究工作,本文提出了基于深度学习的加密流量分类的通用框架,主要包括数据预处理、特征构造、模型与算法选择。
基于深度学习的网络流量分析系统随着互联网的快速发展,网络流量管理和安全问题变得越来越重要。
为了监控和分析网络中的数据流动以及检测潜在的风险和威胁,基于深度学习的网络流量分析系统应运而生。
本文将介绍深度学习在网络流量分析中的应用,并探讨该系统的优势和挑战。
一、深度学习在网络流量分析中的应用深度学习作为一种人工智能技术,通过模仿人脑神经网络的结构和功能,能够从大量的数据中提取有用的特征,并进行准确的分类和预测。
在网络流量分析中,深度学习可以用于以下方面:1. 流量识别与分类:深度学习可以对网络流量进行自动识别和分类,识别出不同类型的流量,如HTTP、FTP、DNS等,并对其进行分类,从而实现对网络流量的精确控制和管理。
2. 威胁检测与入侵防御:深度学习可以通过对网络流量进行实时的监测和分析,检测出潜在的威胁和入侵行为,提供基于规则的异常检测和防御,保护网络的安全。
3. 流量预测与优化:通过对历史网络流量的学习和分析,深度学习可以预测未来的流量趋势,并对网络进行优化调整,提高网络的性能和效率。
二、基于深度学习的网络流量分析系统的优势1. 准确性高:深度学习可以从海量的网络流量数据中学习到复杂的模式和特征,有效提高流量分析的准确性,减少误报和漏报。
2. 自适应性强:深度学习能够根据网络流量的变化自动调整模型参数和权重,适应不同网络环境和流量特征的变化。
3. 实时性好:深度学习模型可以实时处理和分析网络流量,及时发现和应对潜在的威胁和异常情况,提供快速的响应和防御。
4. 扩展性强:基于深度学习的网络流量分析系统可以通过增加网络层次和节点来扩展系统的处理能力和处理速度,适应不断增长的网络流量需求。
三、基于深度学习的网络流量分析系统的挑战1. 数据量大:网络流量数据量庞大,对系统的存储和计算能力提出了较高要求,需要使用高效的数据处理和存储技术。
2. 数据质量差:网络流量数据的质量通常较差,存在丢包、噪声等问题,这对深度学习模型的训练和应用产生了一定的影响。
网络流量分析技术与网络策略的协同方法引言:随着互联网的迅猛发展,网络流量的规模呈现出爆炸式增长的趋势。
同时,网络空间也面临着越来越复杂的威胁和攻击。
为了保护网络安全和提高网络运营效率,网络流量分析技术与网络策略的协同方法成为了当今网络管理领域的重要课题。
一、网络流量分析技术1. 流量模式识别:通过对网络中的数据流进行深度分析,识别出不同类型的数据流量。
这有助于运营商或网络管理员了解网络的使用情况,识别出异常流量和恶意行为,从而采取相应的网络安全策略。
2. 流量异常检测:通过对网络流量的实时监测和分析,可以快速发现异常流量的出现。
利用机器学习或数据挖掘等算法,网络管理员可以发现目标流量的基本特征,之后使用流量异常检测技术来识别出与正常流量有明显差异的异常行为。
3. 流量预测与优化:通过对历史流量数据的分析和建模,可以预测未来的网络流量趋势。
这有助于网络管理员合理规划网络资源,提高系统的运行效率。
同时,对网络流量进行优化,如优化路由器的转发策略、减少网络拥塞等,可以提高用户体验和网络质量。
二、网络策略管理方法1. 网络安全策略:通过制定具体的网络安全策略,网络管理员可以规范网络的使用行为,保护网络免受恶意攻击和滥用。
这些策略可以包括限制访问某些网站或网络服务、阻止特定的IP地址或端口、应用防火墙等。
2. 质量服务(QoS)策略:为了提高网络服务的质量和用户体验,网络管理员可以制定一系列的QoS策略。
通过对不同网络流量的分类、优先级标记和调度等手段,可以保证重要数据或应用的优先传输,以满足特定的服务质量要求。
3. 流量控制策略:在网络中,流量控制是一项基本的任务。
通过制定流量控制策略,网络管理员可以限制特定应用或用户的带宽使用,避免网络拥塞和性能下降,确保网络的正常运行。
4. 成本优化策略:在网络管理中,成本也是一个重要的考虑因素。
通过合理的成本优化策略,网络管理员可以在满足网络性能要求的前提下,尽量降低网络管理的成本。
流量识别和QoS控制在IP/MPLS业务路由器的实现摘要 qos的发展为ip/mpls多种业务承载目标的实现起到了很好的保障作用,在ip/mpls设计中的重要性也越来越突出。
本文在介绍qos技术的基础上,分析了用户流量的识别以及实现qos控制的原理。
关键词流量识别;qos控制;业务路由器中图分类号tp393 文献标识码a 文章编号 1674-6708(2011)37-0226-02所谓qos,指的是网络对其所传输的流量加以识别,划分为不同的业务需求,并根据各自对服务的具体要求提供服务。
从广义上讲,qos主要包括与网络的可用、可靠以及安全等性能相关的各种指标。
当前对于网络服务质量控制的研究旨在提升网络在保证性能方面的能力,带宽、延迟以及分组丢失率等都是与网络性能相关的qos 参数。
随着信息和网络技术的迅猛发展,当前对于ip/mpls网络服务质量控制来说,业务路由器越来越重要。
并且随着业务需求的急剧发展,qos更能保障网络实现对多种业务的分发和高效传输,所以在现代网络设计中的重要性越来越突出。
1 qos技术各厂家的qos管理在标准qos模型上实现了统一,当前主要存在interserv以及diffserv两个qos模型。
最初只有“尽力而为”一种qos模型,也被称为先进先出模型。
1994年,由ietf工作组提出了interserv模型,4年后,由其差分业务组研发出来diffserv 模型。
在qos控制提供前,需要对不同的业务流量加以识别并进行分类。
在输入业务流量的地方,不但要识别tos,还需要根据协议中相应字段的内容完成对流量的分类工作。
完成入口处分类工作后,一般包头会做出tos标记。
为了更好的适应多业务路由器,ip包头的tos字段有6bit的dscp,其余2bit用来显示堵塞通知;作为城域网及局域网使用范围最广的以太网,包头中采用的是标准的tos 字段,3bit ieee802.1p可以表示八种qos标记,并有关于提供qos 的建议;ieee802.1q标签,也就是通常所说的vlan标签,可以在保证各个局域网安全性的前提下,实现多个局域网公用一个物理网络,其qos需求主要由一个tos字段表示。
网络流量分析中的行为模式识别与分类算法近年来,随着互联网的快速发展,人们对网络安全的需求越来越高。
网络流量分析作为网络安全领域的研究重点之一,通过对网络数据包的监测和分析,可以帮助识别和防止各类网络攻击。
行为模式识别与分类算法作为网络流量分析中的一项重要技术,具有重要的实际应用价值。
行为模式识别与分类算法是通过对网络流量中的行为模式进行分析和分类,来判断这些行为模式是否属于正常的网络流量,还是潜在的网络攻击行为。
它可以帮助网络管理员及时发现网络攻击行为,并采取相应的应对措施。
在网络流量分析中,行为模式识别与分类算法主要涉及以下几个方面:1. 特征提取行为模式识别与分类算法首先需要从网络流量中提取出有价值的特征,以便后续的分类和识别工作。
常用的特征包括数据包的源IP地址、目的IP地址、传输协议、数据包大小、传输速率等。
通过对这些特征的提取和统计分析,可以得到反映网络流量行为特征的数值。
2. 数据预处理在进行行为模式识别与分类算法之前,还需要对原始数据进行预处理。
这包括数据清洗、去噪和数据归一化等步骤。
数据清洗可以帮助去除无效或错误的数据,确保数据的准确性。
数据去噪则是为了消除网络流量中的噪声干扰,提高分类算法的准确性。
数据归一化可以将不同特征的取值范围统一,避免特征值之间的差异对分类算法的结果产生影响。
3. 行为模式识别行为模式识别是行为模式分类算法的核心部分。
通过训练机器学习模型,利用提取出的特征对网络流量进行分类和识别。
常用的行为模式识别方法包括聚类分析、关联规则发现和决策树等。
聚类分析可以将相似的流量行为归为一类,帮助发现隐藏的网络攻击行为。
关联规则发现可以挖掘网络流量中的关联性,进一步发现网络攻击行为。
决策树将特征按照一定的规则划分,帮助快速识别网络流量行为。
4. 分类算法评估分类算法的准确性和可靠性是衡量算法优劣的重要指标。
在行为模式识别与分类算法中,常用的评估指标包括精确率、召回率、F1值等。
流量的精确识别 一:国内外研究的现状 随着互联网应用种类不断的增多,网络流量不断增大。这就要求流量识别和控制技术需要进一步发展以适应当前严峻的形势。正则表达式算法、模式匹配算法、硬件加速等各种技术不断融入到传到的网络识别和控制技术当中。这些技术的发展和衍生提高了流量识别和控制的实时性、准确性和可靠性。近些年的国际学术会议上,不断涌现了关于流量识别和流量控制的研究成果。国内外各大网络设备厂商如华为、思科、爱立信等也推出了各自的流量识别与控制产品。流量控制技术巳经有较为成熟的理论支持,所以网络流量识别技术成为研究的重点。
1:基于IANA端口(Port)的识别法 传统的流量识别技术釆用基于端口的识别方法。即只是检测网络报文层的内容,就是仅对报文的五元组”信息进行检测,包括源地址、目的地址、源端口、目的端口以及协议类型。其中,主要对端口的检测来区分不同的应用类型。
但是一些知名网络应用特别是一些软件、软件为了逃避运营商的网络监管,很多都会使用动态端口技术,采用一些非常规的端口,如表所示。基于端口的识别技术在相当长的一段时间里该技术占有重要的地位。但是,等分析了当时最为流行的六种软件的应用层特征和使用的网络端口,明确提出了基于端口的识别技术已经失效的观点,并指出现在的软件已经采用了新的网络通信技术。
根据KIM和KANG的研究指出目前端口识别技术已经不能识别互联网上的流量。由于出现了端口复用、协议复用、协议模糊等技术演变,端口识别方法只是作为辅助的识别手段。现在许多软件都使用随机端口技术或者盗用一些常见协议端口进行伪装,仅仅通过端口识别显然是不够的
2: 基于DPI的识别方法 所谓的DPI,即Deep Packet Inspection深度报文检测。所谓的“深度”报文检测是相对于基于端口的识别方法而言。对整个L2-L7上的信息进行检测,对报文的分析扩张到了应用层。基于的识别方法大多釆用特征匹配算法。 在特征匹配算法的研究上,目前的研究主要集中在基于软件的匹配算法上。BM算法、CW算法八:AC算法、KMP算法都是通过对单模式匹配算法的改进来提高匹配速率, 等提出了基于偏移约束的应用层自动提取算法,通过类算法来自动获取流量特征。基于硬件的特征匹配算法成为了研究的热点。
3:基于DFI的识别方法 DFI即Deep Flow Inspection深度流检测。釆用的是一种基于流量行为的识别方法。识别方法主要是针对DPI方法的不足提出的,它不对网络流量的应用层进行深度解析,只关注与网络流量特征的通用性。通过对网络流浪的平均流速、流持续时间、流状态、网络层和传输层信息、字节长度分布等参数的统计分析,来获取网络流量的类型。例如,互联网上的一些应用的流量就具有比较明显的流状态特征,主要表现为包长相对固定,通常在130byte到220byte之间,同时,连接速率比较低,一般维持在20kbit/s到82kbit/s之间,并且会持续相当长一段时间。一些应用的流量的平均包长也比较固定,一般维持在450byte以上,并且连接速率高,使用TCP协议作为传输层协议
基于的识别方法也有些比较明显的优点,比如处理速度快、维护成本低等。但是也有比较明显的缺点就是识别率低、精确度不能保证,不过可以把作为辅助的流量识别手段。
4: 基于数据挖掘的识别方法 数据挖掘(Date Mining)是通过分析每个数据,从大量数据中寻找其规律。当前,数据挖掘已经被应用到了各个领域当中,并将成为未来10年的重要的技术,从2005年开始流量的识别的研究就开始设计数据挖掘中的分类算法
数据挖掘中的分类算法一般包括三类,即监督式的学习算法、无监督式的学习算法和半监督式的学习算法。在有监督式的学习算法研究方面,Roughan等将连续时间和流量报文中的平均字节数作为流量分类的特征,并提出利用该特征可以作为网络应用分类标准的思路.Moore等采用贝叶斯分类方法对于网络流量进行分类识别,该方法运用人工分类的网络数据作为有监督式朴素贝叶斯估计的输入。研究结果表明,采用有监督式朴素贝叶斯估计能实现单条流的识别率达到,两条流合并识别率更可以提高到95% 二:解决方案 基于数据挖掘的应用识别方法,从应用会话内容中自动提取应用特征,然后根据特征匹配识别应用。在这个方案中重要的是提取应用特征,应用特征在会话中表现出的特性是特征提取算法设计的依据;
应用特征提取就是从应用层数据中提取能够代表某种应用的全部特征的集合.在通信过程中,应用特征一般具高频率(在一种会话集中反复出现)和关联性(在一个会话中同现),同时在一个会话中的偏移量(MO和BO)是相对固定的,据此提出一种特征自动提取(signaturesetselection,SS-se-lec)算法,该算法是对经典的关联规则发现算法— Apriori算法进行了改进,使其适合于提取应用会话中的频繁会话片段集,再经过适当过滤规则筛选得到代表某种应用的特征集
2.1网络应用提取特征的方法: 1:可以通过查阅应用层协议的相关的文档找到应用特征,但是这中只能对于部分的有效果,比如HTTP协议的标准文档RFC2616;
2:通过wireshark、tcpdump等补包工具对网络上采集的应用层数据进行分析和统计,得到应用特征,但是这种方法效率不高,而且可信对也不高
3:设计特征提取算法来提取应用层的特征,要设计出这种算法,首先应该搞清楚应用特征在会话层种表现出来的特性;从补获的单一应用流量种划分会话,及对会话进行重组是特征提取算法的基础数据重组方法:首先,收集单一应用的流量(Trace)作为该应用流量的训练样本集,然后,依据分组报头(header)的二元组(sourceIP、destinationIP)信息及TCP数据流传输层会话建立和结束的标志(SYN,ACK,RST/FIN)将其划分成不同会话,并同时将每一个会话按照时间顺序依次保存其报文数据到一个数据文件中,完成其重组过程;对于UDP流量,其会话的开始、结束标志是空闲时间(idletime)大于一个给定阈值(常取64s).在会话报文重组基础上,实现基于会话的应用特征自动提取.
2.2识别算法的结构 应用识别模型由训练过程和识别过程组成 训练过程:主要包括数据预处理和特征的提取, 数据预处理主要完成数据的重组,SS-selec算法实现基于应用会话集的特征自动提取
识别过程:在线识别过程包含应用层数据重组和应用识别(SM-APid算法).当报文到达后,按照时间顺序将同一个会话中的报文(message)内容存放到同一个缓存中,并将缓存的内容作为一段普通的文本,利用SM-APid算法实现基于特征匹配的应用识别,其输出结果为分组所属会话的应用类型.
应用特征提取算法实现的步骤: 1: 频繁会话片段挖掘 将待测应用的会话集视为交易数据库(transactiondatabase),其中的会话(格式为binary)视为关联事务(associativetransaction),在给定的支持度阈值下,挖掘出待测应用会话中的频繁会话片段(frequentsessionfragment,FSF).
假设待测应用的会话集中有n个会话,最小支持度为min sup,利用FI-mining算法提取FSFs的原理步骤如下:
1.挖掘1-itemset:计算每个1-item的sup(1-item),当sup(1-item)≥ min sup时,将其列入itemset;
2.利用1-itemset获取2-itemset:即连续的两个字节,计算每个2-item的sup(2-item),当sup(2-item)≥ min sup时
将其列入2-itemset; 3.由k-itemset获取(k+ 1)-itemset(k≥ 2):对于k-itemset中的任意两项l1和l2,如果满足连接条件,则将其合成一个(k+ 1)-item,然后计算(k+ 1)-item的sup((k+ 1)-i-tem),当sup((k+ 1)-item))≥ min sup时,将其列入(k+ 1)-itemset;如此进行,直到没有更长频繁字串为止,设最长频繁字串为l;
4.生成FSFs:将1-itemset、2-itemset、3-itemset、...、l-itemset合成为FSFs,即FSFs=(1-itemset)∪ (2-itemset)∪ (3-itemset)∪ … ∪(l-itemset). 要挖掘出最完备的可能特征,在初次挖掘FSF时,min sup阈值要尽可能小,可以取最小值,即min sup= 1/n.但在实际应用中,为了提高算法的效率,在大多数情况下,min sup的初始值可以设为0.5(通过实验获得的经验值),然后,根据结果进行上下调整.
2: 冗余项过滤 应用识别算法主要的步骤: 1:计算特征匹配度 2:会话到应用的映射 三:算法效率评估 应用识别算法除了高准确性外,还必须具有高效率以满足高速网络实时处理要求.基于流量的特征自动提取算法—SS-selec算法与基于标准文档的手工或半手工的特征串提取方法相比,极大地提高了特征提取的效率.基于特征匹配度的SM-APid算法对测试的7种应用的混合流量(近100M)的识别时间平均在1s左右,可见识别效率也较高,并且仅依据应用流前期报文的若干字节就可以精确识别应用类型,可以满足高速链路的实时性处理要求,有利于流量的控制与跟踪.实验发现,不同应用流量其特征的频繁程度差异很大,例如,对于HTTP协议,当min sup= 0.72时可以获得完备的特征集,而对于MSN应用,当min sup= 0.51时才可以获得完备的特征集,因此采用相同支持度阈值显然不合理,对不同应用采用不同支持度阈值,这样防止了相同支持度情况下某些应用特征集中可能包含大量冗余项,而另一些应用的特征集却不够完备,同时过滤算法简单、开销较小,可操作性强,因此算法的性能及实用性增强.
四:创新点 特征提取算法极大的提高了特征提取的效率,识别的效率也很高; 网络流量所承载的应用的分类设计,这种设计区别于市场上同类产品,应用分类的设计更详细,这使得流量控制更精准。对该流量控制系统最重要的流量识别模块和流量控制模块进行了详细设计并实现