当前位置：文档之家› 网络优化中的空间大数据挖掘毕业论文设计说明书

网络优化中的空间大数据挖掘毕业论文设计说明书

(此文档为word格式，下载后您可任意编辑修改！)

河北工业大学

毕业设计说明书

作者：李芸学号：112479

学院：计算机科学与软件学院

系：网络工程

题目：网络优化中的空间大数据挖掘

技术研究及其应用

指导者：侯向丹副教授

评阅者：

2014年 6 月 8日

毕业设计（论文）中文摘要

网络优化中的空间大数据挖掘技术研究及其应用

摘要：

大数据环境下的数据挖掘技术就是一种典型面向现代信息智能应用的技术，首先他可以处理海量的信息，并且还能处理和分析这些数据而且从中找到这些数据中的必然联系，从中发现其联系并且发现对我们研究有用的规律，提取出一些对我们有用的信息，来帮助我们分析数据。

本项目通过讨论数据挖掘技术在移动网络优化中的应用的案例，尝试与数据挖掘算中典型算法相结合，最终达到网络优化的目的。项目主要通过对昆明和惠州经纬度及话务数据分析，提出具体的应用方案，首先根据经纬度利用复杂的社区挖掘算法对基站小区进行分簇，然后使用聚类算法对分好簇的小区进行优化，通过结合两种算法最后将所得的最优分簇以项目实验室的工具BTSVGraph系统结合MapXtreme地理信息系统的形式显示出来，最后通过把不同的簇用不同的颜色进行标注来表示分簇的结果。

利用科学的预测和科学的计算来对移动网络进行优化，不仅可以大幅度地提升网络的整体质量，而且还可以支持网络运行的生产维护管理部门和市场营销部门所制定的决策，为运营商带来良好的经济效益。

关键词：数据挖掘网络优化聚类算法复杂社区挖掘

毕业设计（论文）外文摘要

Title Spatial Data Mining Technology and

Its Application in Network Optimization

Abstract

Data mining technology in the data environment is a typical oriented modern information intelligent application of technology, first of all, deal with massive information, and but also the processing and analysis of these data and find the data in the inevitable contact, from found the contact and found that for us to study the useful rules and extract the information that is useful to us, to of data mining technology in the mobile network optimization case, try to data mining algorithm is a classic algorithm

in combination, and ultimately to achieve the ultimate goal of network optimization. Mainly adopts the combination of Kunming and Huizhou latitude and longitude, and traffic data, two concrete application scheme are proposed, one is according to the latitude and longitude of the complex community mining algorithm of base station cell cluster, another is using clustering algorithm for binary group cell is optimized, combined with two kinds of algorithm finally obtained the optimal grouping displayed

in map form, finally, through the different clusters with different color mark to represent the result of clustering.

The scientific prediction and calculation is used to optimize the mobile network, not only can greatly enhance the overall quality of the network, but also can support network to run production maintenance management department and marketing department made the decision, for operators to

bring good economic benefits.

Data mining technology in large data environment is a typical technology for modern information intelligence application.

Keywords：Data mining Network optimization Clustering algorithm for complex Community mining

1 引言 (1)

1.1 研究背景与意义 (1)

1．2 研究现状及趋势 (3)

1．3 课题研究的基本内容 (4)

2 移动网络优化与数据挖掘 (6)

2．1 移动通信网络优化 (6)

2.1.1网络优化技术 (6)

2.1.2 网络优化主要内容与步骤 (7)

2. 2 数据挖掘技术 (8)

2.2.1 数据挖掘技术概述 (8)

2.2.2 数据挖掘常用聚类算法介绍 (8)

2.3 数据挖掘在移动网络优化中的应用 (9)

3 网络优化应用案例与分析 (10)

3.1数据挖掘在网络优化中的案例研究 (10)

3.2 网络优化应用案例分析与研究 (13)

4 总结与展望 (24)

结论 (26)

参考文献 (27)

致谢 (28)

1 引言

移动网络的结构、用户数据、话务数据在移动网络中都具有带有很强的地理分布的属性,并且在国内的三大运营商之前的竞争也十分激烈，通过这些分布在移动网络中的数据来分析其空间分布的特征和地理分布属性，并且能够为我们的移动网络优化工作来提供强大的数据方面的服务。我们可以根据这些大量的数据得到其分布的规律，从而为我们的用户来提供好得服务[1]。然而目前的网络优化工作仅仅依赖熟练的技术工程师的个人经验来完成时显然不能满足实施工程中巨大的工作量的。因此面对如此庞大的数据分析，我们必需采用数据挖掘技术来减少技术工程师的工作量，我们可以通过空间聚类和关联分析等方法，来分析在广大的移动网络中的各个网络结构的地理分布特点，完成相关性质的聚类，实现其网络质量的优化，为此需要通过实现相应的分区和社区聚类算法来模拟真实网络环境的分布特点[2]。

1.1 研究背景与意义

众所周知，中国在移动网络上的发展已经远远超过世界一些其他的国家，，并且其发展速度也是非常惊人，作为人口大国，我们拥有着世界上最大的包含GSM和CDMA网的移动通信网，经过长时间的发展，网络运营商的工作模式已经不单单指向网络建设，在网络的长期高速地变化更新的过程中，网络建设越来越成熟，我们越来越依赖网络的维护服务，而不是网络建设[4]。运营商也在把工作重点转向网络管理，越来越多的人对移动网络的要求不断提高，这就使得网络维护网络管理成为运营商的一项工作重点了[3]。

在移动网络中，它的一个非常显著的特点就是具有非常多的未知的不确定因素，这些会对移动通信网络在一定程度上有非常巨大的影响。在网络建设日益成熟的现在，我们单单只依靠建设，把建设放在重点的位置显然不能满足高速发展的网络优化流程，网络工程师的数量毕竟不是无限的，我们倘若仅仅依赖工程师无法实现我们网络优化的科技化，现代化，产业化[4]。而且，近些年来，移动网络用户的数量在显著增长，随着移动网络的容量在日益在增加，我们就会有越来越多的数据需要处理，从而导致移动网络的复杂度也在不断提升，并且现在移动网络专业设备的飞速更新，造成仅仅依靠现有的移动网络通信质量已经不能满足用户的需求，需要提

高我们的网络质量和整体的业务水平就要求我们采取必要的优化措施，当然，由于其数据量的庞大，这给我们对移动移动网络的优化的工作带来了很大的难题，工作难度也是显著地增加，移动网络优化的方法和手段都亟待我们的创新，赋予它们新的生命力。不断的用新技术新方法进行网络优化已经是当代的大趋势，尤其在大数据的热潮不断高涨下，其必要性也逐渐显现出来，其地位和作用对网络的运行维护、网络维护、网络规划等将会有重要的积极意义[5]。

移动网络优化的目的就是在于为了提高网络用户的对移动网络质量的满意度。当网络质量急剧下降或是话务关键指标无法满足要求时，我们要尽快对网络进行优化。众多不确定因素都会对无线网络造成重大影响，并且运营商也可能推出新业务或变更服务种类，这些因素都会造成业务流量的变化[6]。因此，尽管网络建设时期的规划工程师会尽量考虑影响网络性能的方方面面，但是毕竟规划不能解决全部问题。网络优化是一个需要长期钻研研究的过程，不能仅仅依赖现有的技术，亟待创新更多的新技术新方法来适应我们高速发展的网络优化全过程。也就是说网络质量改进与发展贯穿在网络运营的全过程[7]。

众所周知，我们已经步入到了大数据的时代，假如可以把云计算技术比作是一个超大的容器，那么大数据正是其中存放在这个容器中的水，大数据是要依靠云计算技术来进行存储和计算的。那么到底何谓是“大数据”呢？所谓“大数据”就是得需要利用一些新的处理方式来处理才会具有的更加强大的决策的能力、洞察发现的能力和对整个过程的优化能力的含量、较高的增长比率和比较多样化的信息资产的分析能力[8]。大数据技术具有的作用是不容小觑的，它不但可以掌控庞大的信息数据，而且还能够对这些庞大的信息数据进行专业化的处理，来得到所需要的结论分析。换一种说法，倘若我们把大数据行业比作是一种产业，那么可以令这种产业盈利的重点，便是在提高对待处理信息数据得“加工的能力”，我们通过一步步的“加工”来实现对信息数据的“增值”[9]。大数据只是数据挖掘技术的出现的一个必然的条件。数据挖掘技术则是需要一定的人工智能知识、数据库知识、机器学习语言和统计分析的知识等很多跨学科的范围很广的知识统一相结合的技术。而且数据挖掘技术的出现也需要对海量的数据、计算机技术对大数据量处理的能力、计算机存储与运算的能力、交叉学科发展这四方面的条件缺一不可。显示生活中我们的周围充斥着大量的、无序的的数据中，而且这些数据中还会存在着这样那样的信息干扰，使得我们无法直接通过数据得到自己所需要的关键信息，数据挖掘技术就可

以帮助我们提取隐含在其中的并且对人们的生产生活具有重大意义的数据，这个定义使得我们明白了我们所要挖掘的数据必须是来源于真实世界的，并不是我们随意编写的，它必须要包含巨大的信息量，并且还要包含影响我们直接利用数据的噪声信息；对于我们经过挖掘后发现的数据必须是我们可以理解的且能够在自身的实际和生活中实际运用的，通常我们是针对于某个特定的问题才会对大量的数据进行挖掘，因此我们发现的结论并不是适合与一切场景的，必须是针对与特定的问题[10]。

移动网络优化中所涉及到的技术领域是非常非常的多的，比如话务统计分析、切换、交换技术、信令、频率配置和无线技术等等，移动网络优化是一项波及范围广、难度很大、对工作人员的素质有很高的要求的工作[11]。不仅如此，于此同时，移动网络中的新功能不断地被应用，网络用户的数量也在连续不断地增加，许多设备的多样化，都对要求网络优化的工作人员的专业技能得到快速地提高。

随着科技的进一步发展，网络的覆盖率进一步的提高，我国的移动通信网络也进入了迅速发展的时代，而且随着智能手机的普及，使得我国的移动网络进入全民化时代，网络结构在日益地复杂，并且移动网络用户的数量也在不断的增加，大量的移动数据的业务已经占据了移动网络行业中的主要业务，还仅仅依靠人力来进行数据的分析和网络的优化显然是一种很大地浪费，并且网络优化的自动化程度低还存在一定程度上的局限性。就现如今的网络情况分析，其具有数据业务速率变化迅速、网络吞吐量巨大以及覆盖范围的动态实时变化等特点，这就决定了我们的移动网络的规划和优化模型，针对这些特性，在网络优化领域引入对大数据的挖掘技术非常有必要。

对于大数据的认识和研究技术现在只是初期阶段，各种技术相对不太成熟，目前国内由三大运营商根据自身业务积极推动者大数据的应用工作。可以看出在网络优化问题上应用大数据的数据挖掘技术显然已经成为了发展的主流趋势。这就要求我们要对存在于移动网络中的大量信息数据进行挖掘和将优化判别算法有机的结合在一起，通过对数据的提取和分析，给出网络优化的合理的解决方案。

1．2 研究现状及趋势

目前，移动通信中的网络优化是移动通信行业发展的重头戏。通信是移动通信的最终目标，它是在商业市场中一种极为有效的方式，具有非常巨大的潜力。移动网络通信技术并是一项崭新的新技术，但在最近这些年却得到了非常迅速发展。随

着网络通信用户数量的增加，移动电话业务日益变得复杂和灵活，使得网络通信网络的规模、结构逐渐地朝协议的多功能、多层次的方向迅猛发展[12]。

随着市场竞争的加剧，网络用户对通信质量要求正在逐渐地增加，现在的许多企业都将提高网络的性能和网络服务的质量作为自己企业增强核心竞争力的首要条件，许多公司为了能够提高设备的利用率以及降低运营的成本，都会加大在网络优化方面的投入力度，这样就可以利用现有的网络设备资源来得到最好的企业效益。由于外界因素的变化，也时刻影响着移动网络中的无线环境，这使CDMA网络出现动态不平衡的状况，从而进一步深化和完善，网络优化是不可忽略的，也是不可避免的。目前在中国两个最大的移动运营商，已形成了一套相对比较标准化的网络优化的流程，并且优质的网络也是保证系统能够稳定运行的基础，保证了移动通信网络优化的日常工作[13]。

国外在此方面的研究大部分都是将其和各个学科联系起来，使好多问题得到了解决，另外在实用方面上有不少软件的产品，可见此项技术被应用到社会的各个相关领域中的，并且也都取得了相对不错的成果。

相对国外计算机发展的时间，我国进入二十一世纪才开始进入信息化时代，所以我国对于数据挖掘的研究起步较晚，还没能像国外技术那样，有一个整体力量。况且现在我国的移动网络技术也在飞速发展阶段，无法系鞥称一个相对稳定的环境来提供给网络优化、管理和规划，只是追求于网络发展的速度，从而使得我国的网络运营整体的质量、工作的效率以及服务的水平都与国外有着很大差距。面对人口如此众多中国，我们的网络结果非常需要一个稳定的时间来实现优化和调整，但是对于如此庞大的网络系统来优化，仅仅依靠人工来统计和利用经验进行优化，由于起效率过低和存在差异性问题，都不符合用来进行网络优化。可见将大数据的数据挖掘技术与网络优化结合的事非常有必要，这样就可以利用数据挖掘技术的技术对庞大的网络系统进行高速自动化的网络优化，真正提高网络优化的效率。

1．3 课题研究的基本内容

对于当前的234G移动通信网络，我们可以看出其网络结构、话务数据和用户数据都具有一定的地理分布特点，因此我们可以利用这些空间分布的特征来更好的实现网络维护和优化[14]。

本课题是研究网络空间中的大数据挖掘技术与应用，顾名思义就是对数据量较

大的网络进行数据处理，因此我们的研究主要也是分为两部分，一部分是对数据挖掘中的各种主要算法进行研究，并且对用到的聚类算法进行进一步的研究，另一部分就是把我们移动网络中的具体数据利用社区复杂算法中的一种(Newman算法)来对基站小区进行分簇，这个算法是在众多复杂网络社区发现方法中,相对典型的并且也是具有代表性的一个。能够处理大规模的网络信息,分组效果也比较理想。最后通过数据优化结果簇，把分好组的结果以图形的形式显示出来，呈现出分布的不同小区。

以下是网络优化中主要用到的知识以及研究的基本内容：

1.基站的聚类

每个基站都有自己经纬度，并且在其跟周围的基站之间的距离中挑出离它最近的k个，k可以是3、4等等。从k个距离取第k个近的或者把k个基站之间的距离做个平均，这就是k-dist距离。我的工作要做的便是对k-dist距离进行聚类。就是把距离上比较接近，属性比较相近的对象聚在一起，属性就是k-dist的值，其核心是聚类。这里以移动通信网络中的基站为对象，根据基站地理位置数据（经纬度），计算基站站间距（如k-dist距离）；采用基于密度的空间聚类算法（如ADBSC），根据基站站间距，将地理位置相近、k-dist类似的基站归并到同组，实现基站空间聚类，保证同组内基站间站间距接近，实现按照基站空间分布疏密程度划分网络覆盖区域。以移动通信网络中小区为对象，以小区间邻区、切换关系、干扰关系作为小区间相关性衡量指标；根据小区间相关性，采用完全子图发现、复杂网络社区结构发现等空间分析算法，将网络中全部小区分簇，使得同一簇内的小区地理位置相近、相互间相关性较强。

2.完全子图发现和社区结构发现的空间分析算法。

基站属于一个一个的小区，小区指的是一个基站在它所覆盖的范围，并且每个小区都有自己独立的小区编号，一般一个基站属于三个小区，小区之间是有相互关系的，包含小区间邻区、切换关系、干扰关系等等。一个小区可以有多个相邻小区。邻区的关系不光表现在地理上，还有一些学科的指标。有一些运营商在网络维护上定义一些关系，只要这两个小区有了邻区关系之后，从一个小区走到另一个小区不会掉话。在实际网络中，少的小区有四五十个，多的一百多个。把它放在图的模型中，点则是对应小区，小区之间有邻区关系就有一条边。其一，可以找完全子图。完全子图即在图中结点之间相互之间都有边就是完全子图，完全子图把小区分成簇，这是一种找的方法，还有一种就是其二，在图中，图上有很多个顶点，顶点之间有

边，把相互之间连接比较紧密，边比较多的顶点聚在一起。把小区当做顶点，边则体现在邻区等关系上，这是一种动态关系，把联系紧密的小区放在一起，技术上参考复杂网络挖掘，通过搜集一些社区挖掘算法，实现这一功能，并且要求算法的复杂度要小于等于。

3.算法呈现

把基站的聚类这一算法呈现出来可以有多种方法，包括可以使用MapXtreme地理信息系统，百度地图或者excel表之类的形式将数据呈现成图形的形式。可以通过搜集百度一些资料可以找到百度地图使用的接口，将程序导出的数据放在excel 表中，再把其呈现在百度地图中。也可以直接将计算好的数据导入excel中并把其方位角等属性通过不同颜色呈现出来。如果呈现出来的图像不平滑要将其修改变得平滑。

2 移动网络优化与数据挖掘

2．1 移动通信网络优化

显然，网络优化工作就是一个贯穿于网络的发展的始终而且相对比较复杂的过程，在我们日常的优化工作过程中，在很多情况下，我们都还是仅仅只是依靠话务统计的数据、路测的数据和用户的反映来发现网络优化中遇到的问题。我们也不能够否定移动通信网的日常的维护和网络优化得工作的的确确也是要靠一批优秀的有经验的优化工程师来完成，但是网络优化工程师的数量在实际中毕竟是有限的而且部分的流程已经规范化的优化工作有时候也并不一定必须需要优化工程师的参与，我们可以借助一些集成化和智能化的工具来完成，从而减少工程师的参与，实现智能化[15]。

2.1.1网络优化技术

在我国主要采取的是技术措施来实现移动通信网络的优化，通过推动中国移动、中国联通、中国电信三大运营商的技术来提高通信服务的质量。我们将此工作划分为三个大的基础模块，它们分别是：无线网优化模块、核心网优化模块和传输网优化模块，由于传输网和核心网在实际中的网元并不多，并且它的运行环境也是相对比较稳定的，所以移动通信网络优化的工作重心就是无线网优化，所以可以将移动

通信网络的优化近似地看为无线网络的优化。

2.1.2 网络优化主要内容与步骤

对于网络的优化主要是对现有的GSM网络进行数据采集和分析，并可以通过技术和工程的手段调剂其参数、天线、网络配置和网络路由，通过调整使网络优化得到提高，发挥其最大的作痛，给企业带来更多的效益，为用户提供更加优质的服务。一般将网络优化最为一个实际的项目来运作，通常分为三个阶段加以实施。

1．收集数据和熟悉网络阶段

尽可能的熟悉网络是第一个阶段的工作重点，在这一阶段中，需要找到问题的所在，给问题整体定位。从而也可以更好的开展第二个阶段的工作。在这一阶段的主要工作就是找到需求的所在，与客户进行沟通，了解客户的需求从而为整个优化过程找到入手点。还有就是把需要的数据导入到所应用的工具中，包括基站的信息表，其中必须要有的是经纬度，倾角等等主要信息。把这些信息收集好之后，导入到分析软件中，来准备进行下一步分析处理。

还有一个方面就是需要锁定 TOP-10 最差小区。对于小区的参数分析，需要提前对目前的参数设置的情况进行下了解，然后再要标出异常的参数设置，与运营商进行沟通。还要从用户的角度熟练掌握网络的质量，为下一阶段提高用户的满意程度作好准备。总而言之，第一个阶段的主要目标是收集完成基础数据，完成摸底的路测，完成参数的审核，为第二阶段工作埋下伏笔。

2．调整网络与执行优化阶段

在调整移动网络与执行优化阶段的问题主要是解决如下几个方面：解决掉话、信号等问题；解决用户投诉的主要问题，有一些不能通过网络优化来解决的问题，做出详细的设计计划及原因分析；提高网络中统计的KPI 指标。

第二阶段，需要启用设备新功能必须把上述的问题解决好，而且根据网络的实际情况，在第二阶段的优化过程中，对专门的问题有专题进行优化。形成一个专题优化报告，为以后解决这个问题的工程留下材料，有据可查。

3．保持性能和总结优化阶段

在以上两个阶段中，网络性能会有显著的提高，这种提高也是有限的，到底可以到达什么程度，需要看网络的基础。调整网络与执行优化阶段的工作已经让网络性能达到它应该有的最好的状态。保持性能和总结优化则就是要一直保持着这种状

态，于此同时也要进入整个项目执行的总结阶段，第三个阶段就是对前两个阶段的概括和总结，使网络优化性能保持良好。

2. 2 数据挖掘技术

2.2.1 数据挖掘技术概述

所谓的数据挖掘技术就是根据个人和企业的需要，从大型的数据库经过提取和分析，从而得到有价值的可以被利用的信息的数据分析技术，我们可以根据得出的数据信息，来指导一些商业的行为或者是可以为一些科学研究提供参考价值。它的产生是由于近些年来信息化的进程进一步加快，信息处于大爆炸时代，大量的信息需要我们去了解，但是由于这些杂乱的信息导致我们无法准确提取有用信息，它事数据库研究中的一个新领域，可以个各个学科进行结合，所以也适用于各个领域。作为计算机领头军的IBM公司就率先开发了一个名叫“智能挖掘机”的应用工具[16]。

2.2.2 数据挖掘常用聚类算法介绍

1 聚类算法

聚类分析就是将一些实际的或者是抽象的对象集合在一起，根据每个对象的某些性质是否类似来判断能否将其归为一类的分析过程，这是一种重要的人类分析行为。此系统所用到的就是最短距离聚类法，根据个体的数据点在几何空间上的距离来判断是否能够归为一类。例如系统中的最短距离聚类法，开始先将所有的小区按照社区分区算法进行分区，会得到许多分区的小区集合，但是总会有难以判断的小区被孤立出来，还有好多处于边缘的点无法进行分区，这就需要对其通过聚类算法得到应该划分的小区，由于小区都是具体的经纬度，这就需要计算两个点之间的球面距离，来计算出当前距离当前小区最近的几个小区号，从而实现了聚类算法。

每个基站都有自己经纬度，并且在其跟周围的基站之间的距离中挑出离它最近的k个，k可以是3、4等等。从k个距离取第k个近的或者把k个基站之间的距离做个平均，这就是k-dist距离。本项目一部分就是要做的就是对k-dist距离进行聚类。就是把距离上比较接近，属性比较相近的对象聚在一起，属性就是k-dist的值，其核心是聚类。通过对每个基站聚类可以计算出该基站距离每个基站的最近的K个基站的距离，可根据次距离对基站进行聚类分区，从而将一些具有相同特点的对象归为一个类，而不同类之间的特征差异就会比较大，这样可以通过类别来管理

大量的基站信息。

2 复杂网络社区的挖掘

复杂网络社区的挖掘是最近的10年来众多学科交叉的前沿研究热点之一了,不只是在理论上有重要意义,而且在应用上有非常广泛的应用前景。

社区结构这一个概念是由Newman于2002年初次提出来的。所谓“社区”，就是通常我们所说的“分簇”，在一个社区我们可以大致地被描述为一个由部分顶点所构成的子图,在描述的这个子图的内部中，各个顶点之间的连接是很紧密的,但是与这个子图以外的各个顶点的连接却很松散。由于许多网络结构都呈现出了这样的社区构造,所以对这一社区结构进行检测和描述有重要的现实和发展意义。

3 改进的CNM算法

为了能够很确切地对所反映得网络结构以及部分重要的性质的加权网络进行社团结构的划分，连续地应用社团构造分级的数据聚类方法，即改进Newman贪心算法（简称CNM算法）。在这个CNM算法中引入了点权和边权的概念，并且又重新定义了新的Q函数计算的社区模块度，通过寻找Q函的数峰值来确定社团划分的最终的结果。使用改进的算法之后，我们不难发现这个算法在划分准确性及算法复杂度等方面都有特别明显的优势。

针对现有的对复杂网络挖掘的认识的基础上，提出来的这一改进的CNM算法，与其他同类别的算法相比在分簇的效果上，还有算法的时间复杂度上都有非常大的一个优势。改进的CNM对在最大的堆中出现的最大的值，自动选择最靠前的位置来进行一系列处理，这个处理方式对分簇效果的本身是不是有影响为最佳的处理的方式将会是来进一步讨论的一个问题。

在对昆明的数据进行处理的过程中应用了这一改进的CNM算法，提升了算法的分簇的效率，分簇效果也是比较理想，具体的将在后文中讲解到这一问题。

2.3 数据挖掘在移动网络优化中的应用

数据挖掘技术在网络的优化系统中的主要作用体现在统计分析和预测分析的方面。预测分析包括话务均衡分析，统计分析中主要包括的是干扰分析、切换分析、覆盖分析、接入分析、掉话分析等等。按照 GSM 网络的拓扑结构来分的话，GSM的网络优化方面的工作可以分成系统优化与无线优化这两个方面进行优化，无线优化主要针对基站和基站的扇区等各参数设置等，而系统优化则针对 MSC 及以上的部

分。

3 网络优化应用案例与分析

3.1数据挖掘在网络优化中的案例研究

我们首先以惠州地区的数据为例，首先根根据给定的数据库PCIOptimize_。如果当前的小区坐标在Max和Min之间，指定小区就是那个参数穿进来的那个经纬度，循环到的小区不是指定的小区，如果不在Max和Min之间就遍历所有的小区直到在Max和Min之间。当前遍历小区循环到的小区不是指定的小区就计算当前小区到指定小区的球面距离，将距离存入NearList中，依照上述依次遍历完所有小区，否则继续返回看当前小区坐标是否在Max和Min之间。遍历完所有小区后，若NearList 长度大于等于K，则将NearList中的元素升序排列，并且返回第K个小区到指定小区的距离。若NearList长度小于K，则判断i+1是否不大于dislim，dislim的值为5。如果i+1小于等于dislim，则清空NearList，否则继续判断小区编号i是否小于dislim，若小于则返回重新令i=1重复上述过程，否则返回查看NearList的长度是否还是大于等于k，再往复上述过程。最后将NearList中的元素升序排列，并且返回第K个小区到指定小区的距离。

上述过程完成了计算K-dist 的距离。其结果如图3-3 k-dist距离求得的结果截图。其中前面的字段表示小区号，后面的是求得的k-dist距离的，我们的计算k-dist距离的k是4。

图3-3 k-dist距离求得的结果截图

算法中的CmptKNearDis函数就是用来计算离指定小区最近的第k个小区的距离，该函数的实现流程是，首先针对每一个小区定义一个距离向量用来存储其余个到当前小区的距离，然后通过遍历小区集合来将缝合条件的距离写入距离向量。然后将得到的距离向量进行升序排列，最后根据所需返回距离。由于计算的是具体的经纬度的点，所以引入新的类型JWD实现对小区的经纬度的初始化，CJJWDHelper 具体实现了经纬度之间的计算，用来计算两个经纬度之间的球面距离。

3.2 网络优化应用案例分析与研究

我们的试验是以昆明的数据为例,我们的原始数据包含在文件km.txt中,里面是所用的实际数据，昆明地区的基站关系，如下图3-4部分原始数据截图所示，这个km.txt中包含了基站的编号以及其相邻的基站，比如数据33542-22和32769-21

表示基站编号为33542-22的基站与基站编号为32768-21的基站相邻，依次类推。

图3-4 部分原始数据截图所示

我们给定昆明的原始数据包含在数据库triangle的表db.tbcell中，这个数据库中的表经过程序处理已经将txt中的数据写入了数据库中，所用我们的数据中是已经包含了原始数据的。如下图3-5数据库列表图与和图3-6原始数据部分图。其

中用红色圆圈标注出来的是我们需要用到的表。

图3-5数据库列表图

图3-6原始数据部分图

与惠州数据一样，我们的有用数据就是基站的编号字段Sector和经纬度的字段OriginLongitude和OriginLatitude，如图3-6，基站编号为565671-23的基站经