流量的精确识别

格式：docx
大小：53.28 KB
文档页数：5

下载文档原格式

中国移动数据流量DPI识别能力规范.

中国移动通信企业标准QB-╳╳-╳╳╳-╳╳╳╳中国移动数据流量D P I识别能力规范版本号：2.6.0╳╳╳╳-╳╳-╳╳发布╳╳╳╳-╳╳-╳╳实施中国移动通信集团公司发布目录前言21.DPI设备业务识别能力要求 (1)1.1业务大类分类要求 (1)1.2子业务识别能力要求 (1)1.3业务行为精细化识别能力要求 (1)2.DPI设备协议识别能力要求 (1)3.DPI设备识别规则要求 (1)4.DPI设备识别准确性要求 (1)附录A数据流量业务大类分类 (2)附录B DPI设备子业务识别能力要求 (3)附录C DPI设备业务行为精细化识别能力要求 (3)附录D DPI设备协议识别能力要求 (21)前言本规范对DPI设备业务和协议识别能力及分类方法提出要求，是中国移动核心网Gn接口DPI设备需要遵从的技术文件。

1.DPI设备业务识别能力要求1.1业务大类分类要求DPI设备识别数据流量业务大类分类应遵循附件A所示分类框架。

1.2子业务识别能力要求DPI设备应遵循附录B所示的子业务分类和识别能力要求。

DPI设备对子业务的识别和归类应遵循精确性原则，保证匹配到的子业务最贴合流量特征，并保证同一数据流仅识别为一个子业务。

对于客户端或网站产生的外链流量，如无法区分其来源，则这部分流量不算在该业务产生的流量之中。

1.3业务行为精细化识别能力要求对于重点热点业务，DPI设备应能在基础流量识别的基础上，实现对业务内部细分功能和行为产生流量的精细化识别。

现阶段DPI设备精细化识别能力要求参见附录C。

2.DPI设备协议识别能力要求DPI设备应遵循附录Ｄ所示的协议识别能力要求。

DPI设备应能根据端口号和报文格式识别协议，具体可参考相应的国际标准。

3.DPI设备识别规则要求DPI设备根据自有识别规则库进行业务识别，同时也应支持指定的统一识别规则库。

自由识别规则库应确保提供不逊于指定的统一识别规则库的识别准确性和识别范围。

利用神经网络进行网络流量识别——特征提取的方法是（1）直接原始报文提取前24字节，24个报。。。

利⽤神经⽹络进⾏⽹络流量识别——特征提取的⽅法是（1）直接原始报⽂提取前24字节，24个报。

国外的⽂献汇总：《Network Traffic Classification via Neural Networks》使⽤的是全连接⽹络，传统机器学习特征⼯程的技术。

top10特征如下：List of AttributesPort number server Minimum segment size client→server First quartile of number of control bytes in each packet client→server Maximum number of bytes in IP packets server→client Maximum number of bytes in Ethernet package server→client Maximum segment sizeserver→client Mean segment size server→client Median number of control bytes in each packet bidirectional Number of bytes sent in initial window client→server Minimum segment size server→clientTable 7: Top 10 attributes as determined by connection weights《Deep Learning for Encrypted Traffic Classification: An Overview》2018年⽂章，⾥⾯提到流量分类技术的发展历程：案例：流量识别流量识别任务（Skype, WeChat, BT等类别）1. 最简单的⽅法是使⽤端⼝号。

但是，它的准确性⼀直在下降，因为较新的应⽤程序要么使⽤众所周知的端⼝号来掩盖其流量，要么不使⽤标准的注册端⼝号。

网络汇聚点传输层拓扑的流量识别

（．１闽江学院计算机科学系，福州３００；２北京邮电大学信息与通信工程学院，５０８．北京１０７；０８６
３福州大学公共管理学院，州３００）．福５０８
（通信作者电子邮箱ｚａｇ８０ｉａｃｉ）ｈｎｊ６＠ｓ．ｏ９ｎｎ
Ｃ０ＤＹＩＤＵＥＮＪＩ
ｈｔ：／ｗ．ｏａｅｔ／ｗｗｊｃ．ｎｐ
ｄｉ１．７４Ｓ．．０７２１．１０ｏ：０３２／ＰＪ１８．扑的流量识别
张剑１曹萍寿国础，，２，
３ｃｏｌｆＰｂｉＭａａｅｅｔｕｈｕＵｉｒｔ，Ｆｚｏｕｉｎ３００，Ｃｉ）．Ｓｈｏｕｌｎｇｍｎ，ＦｚｏｎｖｓｙｕｈｕＦｊ５０８ｈｎｏｃｅｉａａ
Ａｂｔａｔｏｓｄｒｎｔｅｃｍｐｅｉｎｏｒｒａ — ｍｅｑａｉｆｃａｓｃｔｎａｇｒｈａｅｎｔｅｓａｉｔａｓｒｃ：Ｃｎｉｅｉｇｈｏｌｘｔａｄｐｏｅｌｔｕｌｙｏｌｓｉａｉｌｏｔｍｓｂｓｄｏｈｔｔｉｌｙｉｔｉｆｏｉｓｃｃａａｔｒｓｉｓｏｅｗｏｋｔａｆ，ａｎｗｔｆｃｉｅｔｃｔｎｍｅｈｄｗａｒｐｓｄｂｓｄｏｒｎｐｒ—ａｅｐｌｇ．Ａｃｏｄｎｈｒｃｅｉｔｆｎｔｒｆｃｅｒｆｄｎｉａｉｔｏｓｐｏｏｅａｅｎｔａｓｏｔｌｙｒｔｏｏｙｃｒｉａｉｉｆｏｏｃｒｉｇ

P2P网络流量识别技术的研究

１引言
Ｉｔｍｅ的迅速发展带动了网络带宽的快速增长，大的ｎｅｔ广
网络使用者喜欢使用各类ＰＰ和点对服务器技术２（ｅｒｔＰｅｏ
对于以上情况，制ＰＳ控２Ｐ这类应用流量，决ＰＳ解２Ｐ带来的网络拥塞。最简单的方法就是禁止ＰＰ和ＰＳ２２Ｐ的应用．但目前ＰＰ和ＰＳ２２Ｐ的应用已经被非常多的用户所喜爱。一旦禁
ｔｅｆｗ．ｉｓａｅｅｃｂｓａｐｉａｏｄｔｅｒｌｔｄｔｃｎｌｇｅｎＰｅｅｖｒｅｒＰＰ，ａｓｆｓｖｒｐｃｒｆｃｈｏＴｈｐｒｄｓｒｅｐｌｔｎａｈｅａｅｅｈｏｏｉｓｅｒｔＳｒｅ＆Ｐｅ（２）ａｌｉｏｅａｔｉａｔａｌｐｉｃｉｎｏｏｎｙｓｅｌｙｌｉ
【关键词】流量识别ＰＰ深度包检测２连接模式
中图分类号：Ｐ９文献标识码：文章编号：０８１３（０００ — ０３Ｔ３３Ａ１０ — ７９２１）６６ —
ＴｈｅＳｖｙｏＰａｃＩｎｔｆｃｔｏｅｈａｉｍｕｒｅｆＰ２ＴｒｆｄｅｉａｉｅｅｏｍｅｔｏｎｅｔａｄｂｏｄａｄｎｔｒｓＰｅｏＰｅ（２）ａｄＰＳｐＬａｏｓａｅｉ－ｓｒｃ：ｔｔｅｒｐｄｄｖｌｐｎｆＩｔｍｅｎｒａｂｎｅｗｏｋ，ｅｒｔｅｒＰＰｎ２Ｐａｐｃｔｎｒｈｉｎ

基于Apriori算法的流量识别特征自动提取方法

第２９卷第ｌ２期２０年１０８２月通信学 Nhomakorabea报
、１９０２ｒ．Ｎ０１．２
ＪｕａｎＣｏｏｍｌｍｍｕｉａｉｎｏｎｃｔｏｓ
ＤｅｅｅＯ８ｃｍｂｒ０２
基于Ａｒｒ算法的流量识别特征自动提取方法ｐｉｉｏ
ｓｃｉｇｐｅｔｎ
１引言
网络应用层流量识别对网络规划、网络管理、
前许多新的应用层协议为了逃避防火墙的过滤、避
开主机的限制以及出于本身安全因素等原因，逐Ｊ渐开始采用动态端口号，甚至加密方式进行通信。Ｓｂａｒｔｅ分析发现Ｋａａ２协议进行通ｕｈｂａＳｎ等ａｚａＰＰ信的流量中，仅３％的Ｋａａ流量是通过传输层的０ｚａ缺省端口号传输的，这表明仅使用固定端口号进行
Ａｂｔａｔｓｒｃ：Ａｕｏｔｎｃｕａｅｅｔａｔｎｐｃｅｉｎｔｒｓａｅｔｅｆｕｄｔｎｏｅｐｅｉｅｔａｆｃｉｅｔｃｔｎａｔｍａｃａｄａｃｒｔｘｒｃｉａｋｔｓａｕｅｒｈｏｎａｏｆｔｒｃｓｒｆｎｆａｏｔｉｏｇｉｈｉｄｉｉｉａｐｉａｏｅｅ．ＡｔｏｉｈＣｕｏｔａｌｘｒｃｈａｋｔｓｇａｕｅｆｃａａｔｒｓｃｓｒｎｎａｋｔｐｌｔｎｌｖ１ｃｉｍｅｈｄｗｈｃａａｔｍａｉｌｅｔａｔｔｅｐｃｅｉｎｔｒｓｏｈｒｃｅｉｔｔｇａｄｐｃｅｎｃｙｉｉｌｎｔｏａｉｄｎｆａｉｎａｐｌａｏｙｒｗａｒｐｓｄＴｅｉｅｔｃｔｎｒｔ，ｃｕａｙｒｔ，ｏｉｖｄｎｆ— ｅｇｈｆｒｔｆｃｉｅｔｃｔｔｐｉｔｎｌｅｓｐｏｏｅ．ｈｎｆａｏａｅａｃｒｃａｅｐｓｔｅｉｅｔｒｉｉｏａｃｉａｄｉｉｉｉｉｉ

基于聚类分析的P2P流量识别

中图分类号：Ｐ９．８Ｔ３３０文献标识码：Ａ
Ｐ２ｒｆｉｄｎｔｆｃｔｏａｅｎｃｕｔｒａａｙｉＰｔａｆｃｉｅｉｉａｉｎｂｓｄｏｌｓｅｎｌｓｓ
ＺＨＡＯｉＫａ，ＳＨＩＣｈｎｇｑｏｇ，ＺＨＡＮＧ — ｒｃ：ＣｕｒｅｌｔａｔｒｎｔｙＰ２Ｐｔａｆｃｉｎｔｆｃｔｏｏｌｍｓｂｅｎａｆｕｓａｔｉｅｅｕｉｒｆｉｄｅｉｉａｉｎｐｒｂｅｈａｅｏｃｎｄｉｓａｐｒｒｑ — ｓｔｏｆｅｔｖａｇｅｅｔｏＰｔａｆｃｉｒｒｔｎｇｈｅｗｏｋｂｅｔｒＴｒｄｉｉｅｆｒｅｆｃｉｅｍｎａｍｎｆＰ２ｒｆｉｎｏｄｅｏｍａａｅｔｅｎｔｒｔｅ．ａ — ｔｏｎｌｉｅｔｆｃｔｏｔｏｒｏｇｅｆｅｔｖｎｈｉａｅｅｌｔｒａａｙｉｐ— ｉａｄｎｉｉａｉｎｍｅｈｄｓａｅｎｏｌｎｒｅｆｃｉｅａｄｔｓｐｐｒｕｓｓｃｕｓｅｎｌｓｓａｐｏｃｏｉｅｉｙＰ２ｔａｆｃｒａｈｔｄｎｔｆＰｒｆｉ．ＧｉｅｈｅｃｒｃｅｉｔｃｆＰ２ｔａｆｃ，ｔｌｔｒｎｇｆａｕｒｖｎｔｈａａｔｒｓｉｓｏＰｒｆｉｈｅｃｕｓｅｉｅｔｅｔｅｓｄｆｎｄ，ｂｙｃｌｕｌｔｎｇｔｅｄｔｒｅｉｅｉｅａｃａｉｈａａｗｈｉｈｉｃｎｎｄｆｏｍｈｅｎｅｗｏｋ，ｗｅｏａｎｔｃｓｓａｅｒｔｔｒｂｔｉｈｅ

基于深度学习的加密流量识别研究综述及展望

0引言加密流量主要是指在通信过程中所传送的被加密过的实际明文内容。

在安全和隐私保护需求的驱动下，网络通信加密化已经成为不可阻挡的趋势。

加密网络流量呈现爆炸增长，安全超文本传输协议（Hyper Text Transfer Protocol over Secure，HTTPS）几乎已经基本普及。

但是，加密流量也给互联网安全带来了巨大威胁，尤其是加密技术被用于网络违法犯罪，如网络攻击、传播违法违规信息等。

因此，对加密流量进行识别与检测是网络恶意行为检测中的关键技术，对维护网络空间安全具有重要意义。

随着流量加密与混淆的手段不断升级，加密流量分类与识别的技术逐步演进，主要分为基于端口、基于有效载荷和基于流的方法。

基于端口的分类方法通过假设大多数应用程序使用默认的传输控制协议（Transmission Control Protocol，TCP）或用户数据报协议（User Datagram Protocol，UDP）端口号来推断服务或应用程序的类型。

然而，端口伪装、端口随机和隧道技术等方法使该方法很快失效。

基于有效载荷的方法，即深度包解析（Deep Packet Inspection，DPI）技术，需要匹配数据包内容，无法处理加密流量。

基于流的方法通常依赖于统计特征或时间序列特征，并采用机器学习算法，如支持向量机、决策树、随机森林等算法进行建模与识别。

此外，高斯混合模型等统计模型也被用于识别和分类加密流量。

虽然机器学习方法可以解决许多基于端口和有效载荷的方法无法解决的问题，但仍然存在一些局限：（1）无法自动提取和选择特征，需要依赖领域专家的经验，导致将机器学习应用于加密流量分类时存在很大的不确定性；（2）特征容易失效，需要不断更新。

与大多数传统机器学习算法不同，在没有人工干预的情况下，深度学习可以提取更本质、更有效的检测特征。

因此，国内外最近的研究工作开始探索深度学习在加密流量检测领域中的应用。

基于已有研究工作，本文提出了基于深度学习的加密流量分类的通用框架，主要包括数据预处理、特征构造、模型与算法选择。

基于深度学习的网络流量分析系统

基于深度学习的网络流量分析系统随着互联网的快速发展，网络流量管理和安全问题变得越来越重要。

为了监控和分析网络中的数据流动以及检测潜在的风险和威胁，基于深度学习的网络流量分析系统应运而生。

本文将介绍深度学习在网络流量分析中的应用，并探讨该系统的优势和挑战。

一、深度学习在网络流量分析中的应用深度学习作为一种人工智能技术，通过模仿人脑神经网络的结构和功能，能够从大量的数据中提取有用的特征，并进行准确的分类和预测。

在网络流量分析中，深度学习可以用于以下方面：1. 流量识别与分类：深度学习可以对网络流量进行自动识别和分类，识别出不同类型的流量，如HTTP、FTP、DNS等，并对其进行分类，从而实现对网络流量的精确控制和管理。

2. 威胁检测与入侵防御：深度学习可以通过对网络流量进行实时的监测和分析，检测出潜在的威胁和入侵行为，提供基于规则的异常检测和防御，保护网络的安全。

3. 流量预测与优化：通过对历史网络流量的学习和分析，深度学习可以预测未来的流量趋势，并对网络进行优化调整，提高网络的性能和效率。

二、基于深度学习的网络流量分析系统的优势1. 准确性高：深度学习可以从海量的网络流量数据中学习到复杂的模式和特征，有效提高流量分析的准确性，减少误报和漏报。

2. 自适应性强：深度学习能够根据网络流量的变化自动调整模型参数和权重，适应不同网络环境和流量特征的变化。

3. 实时性好：深度学习模型可以实时处理和分析网络流量，及时发现和应对潜在的威胁和异常情况，提供快速的响应和防御。

4. 扩展性强：基于深度学习的网络流量分析系统可以通过增加网络层次和节点来扩展系统的处理能力和处理速度，适应不断增长的网络流量需求。

三、基于深度学习的网络流量分析系统的挑战1. 数据量大：网络流量数据量庞大，对系统的存储和计算能力提出了较高要求，需要使用高效的数据处理和存储技术。

2. 数据质量差：网络流量数据的质量通常较差，存在丢包、噪声等问题，这对深度学习模型的训练和应用产生了一定的影响。

互联网流量识别技术的研究及实现

网络流量数据进行简单估算，假设网络带宽１０Ｍｂｔ，０ｉｓ网／
络带宽利用率为２％，０如果数据包大小为６Ｂ那么每秒中４，收到的２５２４４６个数据包，求每个数据包处理．１＝０９０即要时间小于００４，．２４ｍｓ如果在一条满负载的链路中，每个数据
ｂｔ３ＳＳｓｓｃｐｂｔ４ＳＳＳｓｄｓｐｂｔｓｄｅｉｙｅ＋ｒｉ．ｙｅ＋ｅｉ．ｙｅ１＋ｓｐ．ｂｔ２Ｓｓｄｓｐｂｔ３ＳＳｓｄｓｐｂｔ４ＳＳＳｓｓｃｏｙｅ＋ｅｉ．ｙｅ＋ｅｉ．ｙｅ＋ｒｐｒｍ＋ｅｐｒｔｔ＊ｄｓｏｔ
连接的快速定位。
型），然后计算哈希值，最后根据Ｔ数据包的标志位进ＣＰ行相应的处理。数据包在用户空间分为４种状态：ＮＥＷ，
ＥＳ１＿ＡＢＬＳＨＥＤ．ＲＥＬＩＡＴＥＤ，Ｉ／ＩＮ＼ＡＬＤ。
哈希函数定义是根据源Ｉ（ｒｉ）目的Ｉ（ｅｉ）Ｐｓｃ，ｐＰｄｓ，源端ｐ１（ｃｐｒ，目的端１（ｅｐｒ定义的。定义形式如下：：ｓｐｏｔ３ｒ）：ｄｓｏｔ３）
维普资讯
一验＝流一经＝交＝
６２
维普资讯
互联网流量识别技术的研究及实现
位确认号、以及标志位（ＡＣＫ、ＰＵＳＨ、ＲＳＴ、ＳＹＮ、
在之后的一段时间内很有可能再次活跃，这样做既节省了
对ＴＣＰ连接对象的引用，Ｔ连接对象也保存了对ＨｓＣＰａｈ

P2P流量的识别技术

维ＣＯＮＬ＆ＩＥ［ＩＦＯＲＭ— Ｏ５０ＡＴＯＮＣＨＮＱＩＯＧＹＮＰ６Ｉ — ０Ｎ
－
ＰＰ流量的识别技术２
Ｃｌ．京邮电大学－．Ｉｃ徐斌孙学康网络教育学院北京１０８）０８０摘要：结合现阶段ＰＰ网络应用巾出现的问题，ＰＰ的技术原理、应用现状、存在的问题作了介绍和研究。并提出了解决ＰＰ２对２２流量问题的一个方案。最后展望了ＰＰ技术的进一步的发展前景。２
一
小在ｌＯＯＭ以上。笔者通过对国内著名Ｐ２Ｐ下载网站求，网络应用由使用者自由驱动。Ｂｈｉａ２１２息在网络设备间商接流动，高速及时，降低中转服（Ｔ＠Ｃｎ）的不完全采样统计，平均每个ＰＰ种子的文件．信大小在６０左右，可见文件共享以大文件为主。０Ｍ务成本。
关键词：ＰＰ业务识别缓存２中图分类号：ＴＩ９３３文献标识码：Ａ
当ｗｗ产生那一＿开始，集中式的服务器就一育是包传递的功能。ｗ火Ｉｔｒｅ的核心，它集中了网络中所有可以检索到的资源。但ｒｅｎｔｔ是随着网络的继续膨胀，用户终端的处理能力、存储能力进一
１ｐｏ．ｌｐａ
图１
２２应用现状．ＰＰ由于ＰＰ相比于传统网络模型在信息共享方面的优势，近２年来，发展十分迅速，这些技术中以文件共享应用最为广泛，它是一种新的通信模式，每个参与者具有同等的能力，可以发ｉｒｅｔＢｔｒｅｔＴＴ２的文件起一个通信会话，络模型如图ｌ所示。ＰＰ通信模式有以下其中最为典型的就是Ｂｔｏｒｎ。ｉｏｒｎ是一个ＰＰ２披术特性。１１既是服务器（）．ｓ又是客户端（，表现取决于用户的要Ｃ）共享软件，它能提供各个Ｐｅ之间直接共享文件资源的功能，ｅｒ般应用最为广泛的是共享影视资源、软件资源，一般文件大

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

流量的精确识别一：国内外研究的现状随着互联网应用种类不断的增多，网络流量不断增大。这就要求流量识别和控制技术需要进一步发展以适应当前严峻的形势。正则表达式算法、模式匹配算法、硬件加速等各种技术不断融入到传到的网络识别和控制技术当中。这些技术的发展和衍生提高了流量识别和控制的实时性、准确性和可靠性。近些年的国际学术会议上，不断涌现了关于流量识别和流量控制的研究成果。国内外各大网络设备厂商如华为、思科、爱立信等也推出了各自的流量识别与控制产品。流量控制技术巳经有较为成熟的理论支持，所以网络流量识别技术成为研究的重点。

1：基于IANA端口（Port）的识别法传统的流量识别技术釆用基于端口的识别方法。即只是检测网络报文层的内容，就是仅对报文的五元组”信息进行检测，包括源地址、目的地址、源端口、目的端口以及协议类型。其中，主要对端口的检测来区分不同的应用类型。

但是一些知名网络应用特别是一些软件、软件为了逃避运营商的网络监管，很多都会使用动态端口技术，采用一些非常规的端口，如表所示。基于端口的识别技术在相当长的一段时间里该技术占有重要的地位。但是，等分析了当时最为流行的六种软件的应用层特征和使用的网络端口，明确提出了基于端口的识别技术已经失效的观点，并指出现在的软件已经采用了新的网络通信技术。

根据KIM和KANG的研究指出目前端口识别技术已经不能识别互联网上的流量。由于出现了端口复用、协议复用、协议模糊等技术演变，端口识别方法只是作为辅助的识别手段。现在许多软件都使用随机端口技术或者盗用一些常见协议端口进行伪装，仅仅通过端口识别显然是不够的

2: 基于DPI的识别方法所谓的DPI，即Deep Packet Inspection深度报文检测。所谓的“深度”报文检测是相对于基于端口的识别方法而言。对整个L2-L7上的信息进行检测，对报文的分析扩张到了应用层。基于的识别方法大多釆用特征匹配算法。在特征匹配算法的研究上，目前的研究主要集中在基于软件的匹配算法上。BM算法、CW算法八：AC算法、KMP算法都是通过对单模式匹配算法的改进来提高匹配速率, 等提出了基于偏移约束的应用层自动提取算法，通过类算法来自动获取流量特征。基于硬件的特征匹配算法成为了研究的热点。

3：基于DFI的识别方法 DFI即Deep Flow Inspection深度流检测。釆用的是一种基于流量行为的识别方法。识别方法主要是针对DPI方法的不足提出的，它不对网络流量的应用层进行深度解析，只关注与网络流量特征的通用性。通过对网络流浪的平均流速、流持续时间、流状态、网络层和传输层信息、字节长度分布等参数的统计分析，来获取网络流量的类型。例如，互联网上的一些应用的流量就具有比较明显的流状态特征，主要表现为包长相对固定，通常在130byte到220byte之间，同时，连接速率比较低，一般维持在20kbit/s到82kbit/s之间，并且会持续相当长一段时间。一些应用的流量的平均包长也比较固定，一般维持在450byte以上，并且连接速率高，使用TCP协议作为传输层协议

基于的识别方法也有些比较明显的优点，比如处理速度快、维护成本低等。但是也有比较明显的缺点就是识别率低、精确度不能保证，不过可以把作为辅助的流量识别手段。

4: 基于数据挖掘的识别方法数据挖掘(Date Mining)是通过分析每个数据，从大量数据中寻找其规律。当前，数据挖掘已经被应用到了各个领域当中,并将成为未来10年的重要的技术，从2005年开始流量的识别的研究就开始设计数据挖掘中的分类算法

数据挖掘中的分类算法一般包括三类，即监督式的学习算法、无监督式的学习算法和半监督式的学习算法。在有监督式的学习算法研究方面，Roughan等将连续时间和流量报文中的平均字节数作为流量分类的特征，并提出利用该特征可以作为网络应用分类标准的思路.Moore等采用贝叶斯分类方法对于网络流量进行分类识别，该方法运用人工分类的网络数据作为有监督式朴素贝叶斯估计的输入。研究结果表明，采用有监督式朴素贝叶斯估计能实现单条流的识别率达到，两条流合并识别率更可以提高到95% 二：解决方案基于数据挖掘的应用识别方法，从应用会话内容中自动提取应用特征,然后根据特征匹配识别应用。在这个方案中重要的是提取应用特征，应用特征在会话中表现出的特性是特征提取算法设计的依据;

应用特征提取就是从应用层数据中提取能够代表某种应用的全部特征的集合.在通信过程中,应用特征一般具高频率(在一种会话集中反复出现)和关联性(在一个会话中同现),同时在一个会话中的偏移量(MO和BO)是相对固定的,据此提出一种特征自动提取(signaturesetselection,SS-se-lec)算法,该算法是对经典的关联规则发现算法— Apriori算法进行了改进,使其适合于提取应用会话中的频繁会话片段集,再经过适当过滤规则筛选得到代表某种应用的特征集

2.1网络应用提取特征的方法： 1：可以通过查阅应用层协议的相关的文档找到应用特征，但是这中只能对于部分的有效果，比如HTTP协议的标准文档RFC2616;

2:通过wireshark、tcpdump等补包工具对网络上采集的应用层数据进行分析和统计，得到应用特征，但是这种方法效率不高，而且可信对也不高

3：设计特征提取算法来提取应用层的特征，要设计出这种算法，首先应该搞清楚应用特征在会话层种表现出来的特性；从补获的单一应用流量种划分会话，及对会话进行重组是特征提取算法的基础数据重组方法:首先,收集单一应用的流量(Trace)作为该应用流量的训练样本集,然后,依据分组报头(header)的二元组(sourceIP、destinationIP)信息及TCP数据流传输层会话建立和结束的标志(SYN,ACK,RST/FIN)将其划分成不同会话,并同时将每一个会话按照时间顺序依次保存其报文数据到一个数据文件中,完成其重组过程;对于UDP流量,其会话的开始、结束标志是空闲时间(idletime)大于一个给定阈值(常取64s).在会话报文重组基础上,实现基于会话的应用特征自动提取.

2.2识别算法的结构应用识别模型由训练过程和识别过程组成训练过程:主要包括数据预处理和特征的提取, 数据预处理主要完成数据的重组,SS-selec算法实现基于应用会话集的特征自动提取

识别过程:在线识别过程包含应用层数据重组和应用识别(SM-APid算法).当报文到达后,按照时间顺序将同一个会话中的报文(message)内容存放到同一个缓存中,并将缓存的内容作为一段普通的文本,利用SM-APid算法实现基于特征匹配的应用识别,其输出结果为分组所属会话的应用类型.

应用特征提取算法实现的步骤: 1: 频繁会话片段挖掘将待测应用的会话集视为交易数据库(transactiondatabase),其中的会话(格式为binary)视为关联事务(associativetransaction),在给定的支持度阈值下,挖掘出待测应用会话中的频繁会话片段(frequentsessionfragment,FSF).

假设待测应用的会话集中有n个会话,最小支持度为min sup,利用FI-mining算法提取FSFs的原理步骤如下:

1.挖掘1-itemset:计算每个1-item的sup(1-item),当sup(1-item)≥ min sup时,将其列入itemset;

2.利用1-itemset获取2-itemset:即连续的两个字节,计算每个2-item的sup(2-item),当sup(2-item)≥ min sup时

将其列入2-itemset; 3.由k-itemset获取(k+ 1)-itemset(k≥ 2):对于k-itemset中的任意两项l1和l2,如果满足连接条件,则将其合成一个(k+ 1)-item,然后计算(k+ 1)-item的sup((k+ 1)-i-tem),当sup((k+ 1)-item))≥ min sup时,将其列入(k+ 1)-itemset;如此进行,直到没有更长频繁字串为止,设最长频繁字串为l;

4.生成FSFs:将1-itemset、2-itemset、3-itemset、...、l-itemset合成为FSFs,即FSFs=(1-itemset)∪ (2-itemset)∪ (3-itemset)∪ … ∪(l-itemset). 要挖掘出最完备的可能特征,在初次挖掘FSF时,min sup阈值要尽可能小,可以取最小值,即min sup= 1/n.但在实际应用中,为了提高算法的效率,在大多数情况下,min sup的初始值可以设为0.5(通过实验获得的经验值),然后,根据结果进行上下调整.

2: 冗余项过滤应用识别算法主要的步骤: 1:计算特征匹配度 2:会话到应用的映射三:算法效率评估应用识别算法除了高准确性外,还必须具有高效率以满足高速网络实时处理要求.基于流量的特征自动提取算法—SS-selec算法与基于标准文档的手工或半手工的特征串提取方法相比,极大地提高了特征提取的效率.基于特征匹配度的SM-APid算法对测试的7种应用的混合流量(近100M)的识别时间平均在1s左右,可见识别效率也较高,并且仅依据应用流前期报文的若干字节就可以精确识别应用类型,可以满足高速链路的实时性处理要求,有利于流量的控制与跟踪.实验发现,不同应用流量其特征的频繁程度差异很大,例如,对于HTTP协议,当min sup= 0.72时可以获得完备的特征集,而对于MSN应用,当min sup= 0.51时才可以获得完备的特征集,因此采用相同支持度阈值显然不合理,对不同应用采用不同支持度阈值,这样防止了相同支持度情况下某些应用特征集中可能包含大量冗余项,而另一些应用的特征集却不够完备,同时过滤算法简单、开销较小,可操作性强,因此算法的性能及实用性增强.

四:创新点特征提取算法极大的提高了特征提取的效率,识别的效率也很高; 网络流量所承载的应用的分类设计，这种设计区别于市场上同类产品，应用分类的设计更详细，这使得流量控制更精准。对该流量控制系统最重要的流量识别模块和流量控制模块进行了详细设计并实现