空间网络的数据挖掘和应用 (1)
- 格式:pdf
- 大小:3.56 MB
- 文档页数:10
空间数据挖掘技术的发展与应用1. 引言空间数据挖掘技术是指利用数据挖掘算法和技术手段对空间数据中的有价值信息进行提取和分析的过程。
随着科技的不断进步和数据的大规模产生,对空间数据挖掘技术的需求也在逐渐增加。
在本文中,将探讨空间数据挖掘技术的发展与应用。
2. 空间数据挖掘技术的发展2.1 空间数据挖掘的概念与原理空间数据挖掘技术是将数据挖掘技术应用到空间数据中,通过对空间数据的挖掘和分析,挖掘出数据中的潜在规律和有价值的信息。
空间数据挖掘技术的核心任务包括:分类、聚类、关联规则挖掘和异常检测等。
2.2 空间数据挖掘技术的发展历程空间数据挖掘技术的发展可以追溯到上世纪80年代。
在当时,由于计算机技术的限制和数据量的有限,空间数据挖掘技术受到了很多限制。
但随着计算机技术和数据采集技术的不断进步,空间数据挖掘技术发展迅速。
现在,各种针对空间数据挖掘的算法和模型被提出,并且得到了广泛的应用。
3. 空间数据挖掘技术的应用3.1 地理信息系统地理信息系统(Geographic Information System,简称GIS)是空间数据挖掘技术最常见的应用之一。
利用空间数据挖掘技术,可以对地理数据进行分析和挖掘,从而提取出地理数据中的有价值信息。
这些信息可以用于城市规划、环境保护、交通管理等领域。
3.2 物流与交通管理空间数据挖掘技术也被广泛应用于物流与交通管理领域。
通过对交通数据和物流数据的挖掘,可以分析交通流量、相关道路的瓶颈问题,进而优化交通路线和物流方案,提高效率和降低成本。
3.3 智能导航系统智能导航系统是一个利用空间数据挖掘技术的应用。
通过对用户位置数据的挖掘,可以为用户提供个性化的导航服务。
智能导航系统可以根据用户的出行习惯和实时交通状况,提供最佳的导航方案,并且能够根据用户的反馈进行实时调整。
3.4 自然灾害预测与应对空间数据挖掘技术在自然灾害预测与应对方面也发挥着重要的作用。
通过对历史灾害数据的挖掘,可以分析出自然灾害的规律和趋势,提前预测自然灾害的发生概率和影响范围。
空间数据挖掘技术及其应用一、介绍空间数据挖掘技术是一种将空间数据与数据挖掘技术相结合的分析方法,旨在从大量的空间数据中发现隐藏的模式、关联以及规律,以提供更深入的空间信息洞察力。
在现代社会中,随着地理信息系统(GIS)和遥感技术的发展,空间数据的数量与规模不断增加,因此,利用空间数据挖掘技术进行数据分析已成为一种重要的研究领域。
二、空间数据挖掘技术的分类空间数据挖掘技术主要可分为三大类:空间聚类分析、地理关联规则挖掘和空间预测分析。
1. 空间聚类分析空间聚类分析旨在将相似的空间对象分组或聚集在一起,从而形成具有内部紧密性和外部分离性的空间簇。
其中最常用的聚类方法包括静态聚类和动态聚类。
静态聚类方法使用一次性的计算,将空间对象划分为不同的集群。
动态聚类方法则允许随着时间变化对空间数据不断地进行聚类,从而更好地反映实际情况。
2. 地理关联规则挖掘地理关联规则挖掘是指在空间数据集中发现空间对象之间的关联性规则。
通过关联规则挖掘,可以发现不同空间对象之间的关联性,例如购物中心的开设与周边商户的关系,或是犯罪地点与周边环境因素的关系。
地理关联规则挖掘为规划和决策提供了重要依据。
3. 空间预测分析空间预测分析通过利用历史数据和当前空间数据进行模型训练,进而预测未来的空间趋势和变化。
空间预测分析可应用于多个领域,如气象预测、交通预测和人口迁移模拟等。
预测分析的准确性对于决策制定和规划调整具有重要影响。
三、空间数据挖掘技术的应用1. 城市规划与建设空间数据挖掘技术可以帮助城市规划师更好地理解城市的发展趋势和特征,支持科学决策和规划设计。
例如,通过挖掘城市空间数据,可以确定新建街道或公共交通设施的最佳位置,优化城市交通流量。
2. 环境保护与资源管理利用空间数据挖掘技术,可以对环境资源进行有效管理和保护。
例如,在森林砍伐行为监测中,可以通过挖掘遥感影像数据和地面监测数据,识别出非法砍伐行为以及砍伐的热点地区。
这有助于提高监管效能,保护生态环境。
空间数据挖掘技术研究一、引言现如今,物联网、人工智能、云计算等技术快速发展,产生了海量的空间数据,如何高效地挖掘这些数据对于我们的社会、经济、科学发展都具有重要的意义。
空间数据挖掘技术是一种有效的手段,在城市规划、交通管理、自然资源管理等领域发挥着越来越重要的作用。
本文将围绕着空间数据挖掘技术展开探讨。
二、空间数据挖掘技术简介空间数据挖掘技术是一种在空间数据中寻找隐含的、未知的、有用的模式和知识的过程。
这种技术是在数据挖掘的基础上,集成了地理信息系统(GIS)、遥感技术、全球定位系统(GPS)、计算机科学等多个领域的技术手段,对空间数据进行挖掘和分析,以期从中挖掘出有用的信息和知识。
空间数据挖掘技术主要包括以下几种方法:1.空间关联分析:根据空间关系分析空间数据之间的相互关系,例如查找一系列位置相关联的客户;2.空间聚类分析:对地理位置信息进行分组或聚类,从而在现实世界中寻找相关联的模式;3.空间预测模型:基于已有的数据集,预测未来发展趋势和潜在情况;4.地图数据生成技术:应用各种地图制作软件和技术,生成各种类型的地图。
三、空间数据挖掘技术在实际应用中的应用1.城市规划城市规划是应用空间数据挖掘技术的重要领域之一。
城市规划需要分析不同地区的发展趋势,空间数据挖掘技术可以帮助城市规划师更好地理解城市的经济、社会和民生情况,为城市的规划提供指导性的参考。
例如,可以通过城市交通运输网络的分析,优化道路网络,缓解市区交通拥堵,提高城市的通行效率。
2.交通管理交通管理是另一个重要的应用领域。
利用空间数据挖掘技术可以发现城市的瓶颈问题,进行合理的路网规划、交通信号灯的设置等。
其中,可以通过定位技术和移动设备数据收集信息,进行车辆流量监控,并实现实时的流量分析和交通控制。
3.自然资源管理空间数据挖掘技术在自然资源管理领域同样发挥着重要作用。
通过采集遥感数据可以进行植被覆盖率、耕地率、地表覆盖类型等多方面数据的分析,为森林、水源保护和防沙治沙等多种生态管理提供依据。
空间数据挖掘算法及预测模型一、引言空间数据挖掘算法及预测模型是地理信息系统(GIS)领域的重要研究方向。
随着遥感技术的发展和传感器网络的普及,获取了大量的空间数据,如地理位置信息、气象数据、人口统计数据等。
这些数据在城市规划、环境监测、交通管理等方面起着重要的作用。
本文将介绍空间数据挖掘算法及预测模型的基本概念、常见方法和应用案例。
二、空间数据挖掘算法1. 空间数据挖掘概述空间数据挖掘是从空间数据库中发现特定模式和关系的过程。
它可以帮助我们理解地理空间中的变化和关联性。
空间数据挖掘算法可以分为聚类、分类、关联规则挖掘等多个方面。
2. 空间数据聚类算法空间数据聚类是将相似的空间对象归类到同一组或簇中的过程。
常见的聚类算法有基于密度的聚类算法(如DBSCAN)、基于网格的聚类算法(如STING)、基于层次的聚类算法等。
这些算法可以帮助快速识别出地理空间中的热点区域、异常值等。
3. 空间数据分类算法空间数据分类是根据不同的属性和特征将地理空间对象进行分类的过程。
常用的分类算法有决策树、支持向量机(SVM)、人工神经网络等。
通过使用这些算法,可以对地理空间对象进行自动分类和识别,如土地利用类型、植被覆盖类型等。
4. 空间数据关联规则挖掘算法空间数据关联规则挖掘是在地理空间中发现不同空间对象之间的相关性和关联关系。
常见的关联规则挖掘算法有Apriori、FP-growth等。
这些算法可以帮助我们发现地理空间中的相关性模式,如犯罪与社会经济因素之间的关系。
三、空间数据预测模型1. 空间数据模型概述空间数据模型是对地理空间对象进行描述和建模的一种方法。
常见的空间数据模型有基于图的数据模型、基于栅格的数据模型、基于矢量的数据模型等。
这些模型可以帮助我们对地理空间中的实体和属性进行建模和分析。
2. 空间数据预测模型空间数据预测模型是基于历史数据和现有数据对未来空间情况进行预测的一种方法。
常见的空间数据预测模型有回归分析、时间序列分析、人工神经网络等。
空间数据挖掘方法及应用研究近年来,随着卫星技术的不断发展和地理信息系统的普及,空间数据已成为人们研究地球及其变化的重要源泉。
空间数据挖掘是从空间数据中自动或半自动地发现潜在的知识和信息的过程,可以广泛应用于地球科学、城市规划、环境监测、资源管理等领域。
本文旨在概括介绍空间数据挖掘的方法及应用研究进展。
一、空间数据挖掘的方法1. 空间关联分析方法空间关联分析是空间数据挖掘的基础方法之一,其通过计算物体间的空间关系来探索潜在的统计关联。
其中,空间关系主要包括邻近关系、重叠关系、包容关系和相交关系。
常见的空间关联分析方法有基于点或面的空间自相关分析、空间聚类、空间关联规则挖掘等。
2. 空间聚类方法空间聚类方法是一种将数据分组或划分为几个类别的技术,它将相似的物体放在一起,同时保证不同组之间的差异性尽可能大。
空间聚类方法可以应用于地震预测、城市规划、军事情报等领域。
常见的空间聚类方法有k-means聚类算法、层次聚类和基于密度的聚类等。
3. 空间分类方法空间分类是空间数据挖掘的另一种重要方法,主要通过分类器对数据进行划分。
分类器是一种基于训练数据建立模式,将未知数据映射到属性空间中的方法。
常见的空间分类方法有决策树、支持向量机、随机森林、神经网络等。
二、空间数据挖掘的应用研究进展1. 基于遥感影像的土地利用变化检测遥感影像是空间数据挖掘中的重要数据源,可以用于土地利用变化检测。
利用空间分类方法和变化检测算法,可以实现对城市扩张、农业发展等土地利用变化的自动检测和量化。
2. 基于移动轨迹数据的交通流量预测移动轨迹数据是包含时空信息的数据,可以用于交通流量预测。
利用空间关联规则挖掘和聚类方法,可以对车辆移动模式进行建模,预测交通拥堵区域和路段,为城市交通规划提供科学依据。
3. 基于地球物理数据的矿产资源发现利用地球物理数据进行空间建模和特征提取,可以实现对矿区地质构造和矿产资源的识别和预测,帮助开采和利用矿产资源。
空间数据挖掘技术的基本原理与应用在当今数据爆炸的时代,传统的数据处理方法已经无法满足日益增长的数据需求。
这时,空间数据挖掘技术应运而生。
空间数据挖掘技术是指通过对包含地理空间信息的数据进行挖掘和分析,从中发现隐藏在数据中的规律和关联,以支持决策和预测。
本文将介绍空间数据挖掘技术的基本原理和应用。
一、空间数据挖掘技术的基本原理1. 空间数据的特点空间数据包含了地理位置信息,与传统数据相比,其具有较高的维度和复杂性。
空间数据挖掘技术要求对地理位置信息进行有效的处理和分析,使其成为可应用于挖掘的数据形式。
2. 空间数据挖掘的主要任务空间数据挖掘的主要任务包括空间关联规则挖掘、空间聚类分析、空间预测和时空挖掘等。
其中,空间关联规则挖掘主要通过发现地理空间对象之间的关联关系,来揭示隐藏在数据中的规律。
而空间聚类分析则是将空间数据划分为不同的聚类群体,用于提取空间模式。
空间预测则是根据已有的空间数据,预测未来的空间变化趋势。
时空挖掘则是对时空数据进行综合分析,发现其中存在的模式和关联。
3. 空间数据挖掘的基本原理空间数据挖掘的基本原理包括数据预处理、特征提取、模式发现和结果解释等步骤。
在数据预处理中,首先需要对原始数据进行清洗、去重、缺失值处理等操作,以保证数据的质量。
然后,在特征提取阶段,需要从原始数据中提取出有效的特征,以支持后续的模式发现工作。
在模式发现中,可以运用分类、聚类、关联规则等方法,来发现隐藏在数据中的规律和关联。
最后,在结果解释阶段,需要对挖掘结果进行解释和评价,以便对决策和预测提供支持。
二、空间数据挖掘技术的应用1. 地理信息系统(GIS)中的空间数据挖掘GIS是一种整合了空间数据和非空间数据的信息系统,空间数据挖掘技术在其中有着广泛的应用。
比如,空间关联规则挖掘可以应用于定位设备的轨迹数据,发现不同地点之间的关联性;空间聚类分析可以将城市划分为不同的行政区域,为城市规划提供决策支持;空间预测可以对气象数据进行分析,预测未来的气候变化趋势等等。
空间数据挖掘与应用随着科技的发展,空间数据的获取越来越容易,而对空间数据的挖掘和应用也日益重要。
空间数据挖掘是指利用计算机技术和算法,在海量空间数据中发现规律、模式和异常,并通过对这些信息的分析来提高决策效力、改善服务质量等。
一、空间数据挖掘的意义空间数据挖掘是指通过计算机技术和算法,在海量的空间数据中挖掘出有用的信息。
空间数据主要包括地理信息、空气质量、气象、生态环境、地理遥感、卫星遥感等领域的数据。
这些数据包含着很多有用的信息,可用于优化生态环境、改善城市发展、决策管理等。
1. 提升城市规划水平城市规划是指针对城市的功能、形象、品质、风格等全方位系统性的规划。
而空间数据挖掘可以帮助城市规划部门更好的理解城市,了解城市的实际情况,更科学地进行城市规划。
2. 优化生态环境空间数据挖掘可针对生态旅游、涵养区、生态保护和生态修复等进行系统分析和评价,为生态环境的保护和修复工作提供依据。
3. 完善公共服务基于空间数据挖掘的分析结果,可以更好的评估公共设施的配备、选址和优化配置,使公共服务更加便利。
二、空间数据挖掘的应用1. 地图信息空间数据挖掘技术可以帮助我们更好的理解地图信息,将有限的资源合理的分配,更为公民创造更有用的世界,同时也方便了人们的出行和宜居。
2. 环保空间数据挖掘可实时地监测和评估环保指标。
3. 烟草控烟通过烟草控烟应用,可以对城市内公共场所和办公场所等进行可视化管理。
4. 基础建设结合空间数据挖掘技术,建筑企业可更好的定位建筑地点,增强项目的稳定性和成功率。
三、空间数据挖掘的技术突破1. 针对不同领域,不同类型的数据,除了简单的常用分类模型以外,也出现了很多基于深度学习的模型。
2. 将多种方法进行结合,实现相互补充,对数据运用更加全面。
3. 基于历史数据和实时数据,结合机器学习算法,由传统统计学习改进为深度学习,可更好的解决多维数据处理和抽象特征提取难题,使数据具有更高质量的分析。
四、空间数据挖掘面临的挑战与展望随着社会工业化和城市化的不断发展,相关领域所产生的数据也日渐庞大。
勘测师如何进行地理空间数据挖掘与分析地理空间数据挖掘与分析在勘测师的工作中扮演着重要角色。
通过深入挖掘和分析地理空间数据,勘测师能够更好地了解地球表面的特征、变化和相互关系。
本文将介绍勘测师如何利用地理空间数据进行挖掘与分析的技术和方法。
一、地理空间数据的概念和类型地理空间数据是指具有地理位置信息的数据。
常见的地理空间数据类型包括地理坐标、地形高程、地物分布和地理属性等。
这些数据可以通过卫星遥感、GPS定位、地理信息系统等技术手段获取。
二、地理空间数据挖掘的步骤地理空间数据挖掘是指从大量地理空间数据中提取有用信息的过程。
它包括以下步骤:1. 数据准备:收集和整理地理空间数据,包括清洗、标准化和转换等预处理工作。
2. 特征选择:选择最具代表性和区分度的地理属性作为特征,如地物类型、土地利用等。
3. 数据挖掘算法选择:根据具体任务需求选择合适的数据挖掘算法,如聚类分析、分类算法、关联规则挖掘等。
4. 模型训练与评估:利用训练数据对选定的算法进行模型训练,并利用测试数据进行模型评估和优化。
5. 结果解释与应用:对挖掘结果进行解释和分析,并将其应用于实际问题中,如城市规划、环境保护等领域。
三、常用的地理空间数据挖掘与分析方法1. 空间聚类分析:通过寻找地理空间数据中的簇结构,将空间相近的地点归为一类。
常用的聚类算法包括k-means算法、DBSCAN算法等。
2. 地物分类与识别:通过利用地理空间数据的特征,将地物分为不同的类别。
常见的分类算法包括支持向量机(SVM)、随机森林等。
3. 空间模式分析:分析地理空间数据的模式和分布规律,如热点区域、异常点等。
常用的模式分析方法包括核密度估计、空间自相关等。
4. 地理关联挖掘:挖掘地理空间数据中的相关性和依赖关系,如挖掘犯罪与人口密度的关联、挖掘交通拥堵与道路网络的关系等。
四、地理空间数据挖掘与分析的应用地理空间数据挖掘与分析在勘测师的工作中有着广泛的应用。
以下是几个典型的应用场景:1. 土地利用规划:通过分析地理空间数据,勘测师可以了解土地的利用情况,评估土地资源开发潜力,并制定土地利用规划方案。
引言概述:空间数据分析是指在地理信息系统(GIS)中利用空间数据进行数据处理、分析和呈现的过程。
在前文的空间数据分析(一)中,我们已经了解了空间数据分析的基础知识和一些常见的分析方法。
本篇继续深入探讨空间数据分析的相关内容,包括地表温度分析、地理插值方法、空间数据挖掘、地理网络分析和遥感图像分类分析等。
正文内容:1. 地表温度分析1.1. 地表温度概述地表温度是指地球表面的温度,是一个重要的环境指标。
地表温度分析在气候变化研究、城市规划和环境管理等领域具有重要意义。
1.2. 地表温度分析的方法常见的地表温度分析方法包括如下几种:多源遥感数据获取、地表温度变化检测、地表温度插值和空间关联分析等。
2. 地理插值方法2.1. 地理插值概述地理插值是一种通过已知的点数据,推算出未知位置处数值的方法。
它常用于地理数据的填充和估计,如高程数据的插值。
2.2. 地理插值方法的分类地理插值方法可以分为确定性插值方法和随机插值方法。
确定性插值方法包括反距离加权插值和克里金插值,而随机插值方法包括普通克里金和泛克里金。
3. 空间数据挖掘3.1. 空间数据挖掘概述空间数据挖掘是指在空间数据中挖掘出有用的信息和知识的过程。
它结合了地理信息系统和数据挖掘技术,用于发现地理模式和规律。
3.2. 空间数据挖掘方法常见的空间数据挖掘方法包括空间聚类分析、空间关联规则挖掘和空间预测建模等。
这些方法可以帮助研究人员找到地理空间数据中的隐藏规律和关联关系。
4. 地理网络分析4.1. 地理网络分析概述地理网络是指由连接地理空间中的点的线组成的网络。
地理网络分析包括路径分析、网络连接分析和服务区分析等,有助于优化交通和资源分配。
4.2. 地理网络分析方法常见的地理网络分析方法包括最短路径分析、最佳路径分析和服务区分析等。
这些方法可以帮助规划者和决策者优化交通网络和资源配置,提高效率和便捷性。
5. 遥感图像分类分析5.1. 遥感图像分类分析概述遥感图像分类分析是指利用遥感图像数据进行地物分类和分布分析的过程。
文章编号:0494 0911(2002)02 11 03中图分类号:P23 文献标识码:B空间数据挖掘技术及其应用周海燕,王家耀,吴 升(信息工程大学测绘学院,河南郑州450052)Spatial Data Mining and Its ApplicationsZHOU Hai yan,WANG Jia yao,WU Sheng摘要:介绍了空间数据挖掘的概念、体系结构、常用的方法、可获取的知识类型及其应用。
关键词:数据挖掘和知识发现;空间数据挖掘收稿日期:2001 08 21;修回日期:2001 09 19作者简介:周海燕(1974 ),女,湖南邵东人,硕士,主要从事空间数据仓库和空间数据挖掘的研究。
一、引 言随着数据库技术的不断发展和数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在这些大量数据的背后隐藏了很多具有决策意义的信息。
但是,现今数据库的大多数应用仍然停留在查询、检索阶段,数据库中隐藏的丰富的知识远远没有得到充分的发掘和利用,数据库的急剧增长和人们对数据库处理和理解的困难形成了强烈的反差,导致 人们被数据淹没,但却饥饿于知识 的现象。
数据挖掘和知识发现(Data Mining and Kno wledge Dis covery,简称DMKD)技术,就是在这种背景下应运而生的。
数据挖掘与知识发现是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的、未知的、潜在的、有用的信息的过程。
空间数据库(数据仓库)中的空间数据除了其显式信息外,还具有丰富的隐含信息,如数字高程模型(DE M 或TIN)除了载荷高程信息外,还隐含了地质岩性与构造方面的信息;植物的种类是显式信息,但其中还隐含了气候的水平地带性和垂直地带性的信息,等等。
这些隐含的信息只有通过数据挖掘才能显示出来。
空间数据挖掘(Spatial Data Mining,简称SDM),或称从空间数据库中发现知识,作为数据挖掘的一个新的研究分支,是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式和普遍特征的过程[1]。
数据挖掘技术一.数据挖掘的含义和作用数据仓库的出现,带来了"数据丰富,但信息贫乏"的状况。
因此迫切需要一种新技术实现从企业海量的数据中发现有用的信息或知识,从而出现了数据挖掘(Data Mining)技术。
数据挖掘(Data Mining)就是应用一系列技术从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
提取的知识表示为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。
这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。
发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。
发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。
数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。
还有一个定义:数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。
这些信息是可能有潜在价值的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。
二、数据挖掘的目的它的目标是将大容量数据转化为有用的知识和信息。
数据挖掘并不专用于特定领域,它需要凝结各种技术和创造力去探索可能隐藏在数据中的知识。
在很多情况下,应用数据挖掘技术是为了实现以下三种目的:。
发现知识:知识发现的目标是从数据库存储的数据中发现隐藏的关系、模式和关联例如,在商业应用中数据挖掘可用于发现分割、分类、关联、喜好四种知识。
发现分割知识可以将客户记录分组,策划为客户度身定做的推销活动。
发现分类知识可以将输入的数据分配到预定义的类别中,发现和理解趋势以及对文本文档的进行分类等。
发现交叉销售的机会是一种关联知识,以及发现大部分客户的喜好的知识[4]。
络中所包含的内在科学规律,学者们结合空间数据挖掘等方法展开了相应的研究。
空间网络的特征空间网络是节点位于具有度量的空间上的网络,一般来说是二维空间,通常的度量方式是欧式距离[2]。
在这些网络中,节点包含了位置信息,连接边包含了距离或者是空间关系信息。
例如在社交网络中,节点包含了该个体的位置信息,连接边长包含了朋友间的地理距离信息;又如在城市路网中,如果将路段看作节点,若路段与路段之间有交叉口,则两点相连,这时连接边就包含了空间相邻关系。
空间网络的连接不一定是嵌入空间的,例如社交网络、航空网络,因此它不等同于平面网络,但是很多空间网络却具有平面性,例如公路网、铁路网、电力网等。
学者们从图论的角度对空间网络进行研究,发现许多空间网络具有复杂网络的特征。
例如对印度铁路和航空网络的分析均发现了网络的小世界属性[3,4];对城市路网和城市交通流的研究发现了城市交通的幂律分布,交通最繁忙的20%街道承载了80%的交通流[5,6]。
由于这些空间现象中存在着复杂网络的特征,人们开始用复杂网络的方法解决空间网络的问题。
克鲁奇蒂(Cru-citti)等人研究了不同城市路网的四种中心性指标,发现用这四种中心性指标能够反映城市的结构,而且可以通过中心性指标的分级聚类判断城市的规划和组织模式——自组织的城市具有复杂网络的无标度特征,而有规划的城市没有这样的特征[7]。
对中国航空网络中心性以及客流量的研究发现,航空网络中城市的中心性和吸引力与城市的人口、社会经济指标高度相关[8,9]。
与一般的复杂网络相比,空间网络还具有独特的空间上的特征。
在这些网络中节点之间的距离与它们的连接强度有关,因而对网络的拓扑属性有重要的影响。
2011年手机照片社交网络软件Color提出了“弹性社交网络”这一新概念(参见Mobile 2.0网引言在我们生存的空间,事物之间密不可分的联系好似千丝万缕将其连接起来,形成各种巨大的网络。
长久以来,大量探索自然的研究都是将整个世界不断地拆分,去分析理解各个部件,却不知道如何再把它们组装起来[1]。
我们似乎往往是知道了方方面面的知识,却依然对整个系统一无所知。
究其原因是我们忽视了对事物间连接关系的研究。
专门研究连接关系的理论——复杂网络,恰好为从表面看来杂乱无章的复杂系统提供了有力有效的分析方法。
很多复杂网络都是构建在地理空间之中的。
最典型的是交通网络,如城市路网、航线网络、铁路网络,还有社交网络、手机通讯网络等。
基于托普勒地理学第一定律(Tobler’s First Law of Geography):越接近的事物越相关。
涉及到地理现象和人类活动时,复杂网络表现出空间上的相关性或随距离变化的特征。
为了能够清晰地诠释这类空间复杂网许 珺 陈 娱 徐敏政中国科学院地理科学与资源研究所空间网络的数据挖掘和应用关键词:空间网络 数据挖掘 异构信息网站,2011)。
所谓“弹性”是指每当Color 监测到你与其他用户地理位置接近时,就会调整你们原本的关系强度,将关注同一事件并在附近的人通过群组的方式划分,进而构建社区。
弹性社交网络从侧面反映出人们关系的强度与人们地理位置的接近程度是有关系的,人与人之间的关系随着地理位置的远近是“可松可紧”的,而越接近的人成为一个群组的可能性越大。
借助互联网,在虚拟社交网络中人们的“距离”被拉近了。
这种距离突破了地理的限制,相隔千里仍然可以即时交流或者一起参加线上活动。
表面上看,托普勒地理学第一定律在社交网络中失效了。
然而,在社交网络中,用户的地理位置潜移默化地影响着社交网络的构成、动态演变与信息传播。
从多个虚拟社交网站的数据中发现人们会更倾向于与周围的人相识,这与现实世界的现象一致。
多个研究表明在社交网络中,地理距离d 与两人互为朋友的概率P (d )相关,符合距离衰减函数:P (d )~d -α。
即两人越近越有可能是好友,而随着距离的增加,两人互为好友的概率降低(图1)。
只是在不同的数据中衰减系数α值不同。
在Liben-Nowell(立本-诺埃尔)等人对超过100万节点的社交网络数据(美国LiveJour-nal 网站数据)的研究中,得到的α值约为1[10];朗姆比奥特(Lambiotte)等人对比利时地区的手机通讯数据展开了研究,其α值约为2[11];而在翁尼拉(Onnela)等人对比利时手机通讯数据的研究中,α值约为1.5[12]。
由于连接概率随距离的衰减,网络中三角形的数量也会呈现随距离衰减的趋势。
塞拉托(Scellato)等人采用改进的加权聚类系数对几个著名的社交网站数据进行了分析对比,发现考虑地理距离之后,网络的聚类系数变小[13]。
空间网络数据挖掘复杂网络都具有社区结构的性质,即整个网络是由若干个“群”或者“团”构成的,社区内部节点连接相对紧密而社区之间的连接相对比较稀疏(如图2所示)。
对网络的社区发现有助于发现具有共性的群体,是网络数据挖掘的重要方法。
对于具有复杂网络特征的空间网络,节点之间的紧密度除了需要衡量连接关系上的紧密性,还需要考虑到它们地理距离上的远近。
复杂网络的社区发现复杂网络的社区发现,也叫图的聚类(graph cluster)或者图的分割,是根据网络结构和节点属性的相似性,将网络中的节点进行分组的方法。
将任意特征空间的点集表示为一个加权的无方向图形G =(V , E ),其中特征空间的点为图形的节点,而图形的边的权重就代表任意两点之间的相似性,用w (i , j ) 来表示。
对图形的分组就是要将V 划分为点集V 1, V 2, ⋯ , V m ,使得V i 中节点的相似性最大,而V i , V j (i ≠j )之间节点的相似性最小。
根据算法的基本思想,主要可分为图形分割算法(例如拉普拉斯谱平分算法、柯林汉-林(Kernighan-Lin)算法等)和分级聚类算法(例如GN算法、纽曼快速算法等)两图1 某社交网站数据中用户距离和连接概率的关系图2 社区结构示意图(不同的颜色代表不同社区)大类(如图3所示)。
图形分割算法 最早的柯林汉-林算法首先将网络划分为两个社区,然后不断调整社区内节点,判断它属于哪个社区更优,判断条件为增益函数(两个社区内部边数减去连接两个社区之间的边数)的大小[14]。
由于该算法需要提前知道社区的大小,因此现在使用不多。
由于复杂网络理论是基于数学图论的,因此图论中的经典分割理论,如最小割定理(minimum cut)、拉普拉斯图谱理论(Lapla-cian graph spectrum)等,是很多社区挖掘算法的理论基础。
珀森(Pothen)等人基于拉普拉斯图谱理论提出了谱平分算法[15]。
该算法复杂度较低,但是最大的缺陷是每次只能将网络平分,需要不断地重复该算法才能得到多个社区结构。
吴(Wu,音译)和赖希(Leahy)利用经典的最小割定理,提出了一种基于网络流理论的图形分割方法[16],主要是通过不断移除网络中权重最小的边使得分组后被消去的所有边的权重和最小。
这种算法的缺陷是倾向于从网络中划分出一些孤立的小点集。
为了避免这一问题,施(Shi,音译)和马利克(Malik)提出了归一化割(normalized cut)算法,将归一化割作为被消去的边的权重和与图形中所有边的权重和的比值,从而得到了优于最小割算法的聚类结果[17]。
分级聚类算法 纽曼(New-man)等人在复杂网络社区挖掘算法领域有着系统的、成熟的研究理论,其研究起着举足轻重的作用。
早在2001年,格文(Girvan)和纽曼就提出了GN算法[18],它的基本思想是不断地从网络中移除介数(Betweenness)最大的边,直到将整个网络分解为各个节点。
但是GN算法存在两个缺陷,第一是复杂度很高,处理大数量级网络时就会力不从心;第二是在不知道社区数目的情况下,GN算法不知道要分解到哪一步才能获得最优的社区结构。
针对这些问题,他们引入了模块度(modularity)的概念[19]。
假设将相同网络的边随机重新分布,模块度值就是组群中的边的数量减去随机分布后落入组群中边的数量,其物理意义就是网络中社区内部边所占的比例与同样连接数量下社区内部边所占比例的期望值之差。
如果社区内部边的比例不大于期望值,模块度值为零;模块度值为正意味着可能存在组群结构;模块度越接近1,就说明社区结构越明显。
因此寻找模块度值大的网络结构就可以发现节点的群组。
在分组过程中,每一次分解都计算一次网络的模块度值,模块度的最大值就对应着最佳的社区结构。
基于模块度的概念,纽曼等人实现了基于模块度增量的快速算法[20],随后又提出了复杂度较低的基于模块度增量矩阵及堆结构的贪婪算法(CNM算法)[21]。
其他方法 无论是图形分割思想还是分集聚类思想,都基于网络的拓扑结构。
后来出现了一些考虑节点属性的社区挖掘算法,例如SCAN算法[22]。
偏重于网络拓扑结构一致性的算法会造成分类群组中节点的属性差别大,而偏重于图形中的节点属性的相似性的算法会造成群组内部网络结构的松散。
理想的图形聚类方法应该产生群组内部结构紧凑并且节点属性相似的结果。
据此,周(Zhou,音译)等人提出了既考虑网络的结构,又考虑节点属性的SA-Cluster算法[23]。
考虑空间的网络社区发现模块度是至今仍在广为应用的一种方法,特别是对空间网络的社区检测,基本都是基于模块度算法的改进[2]。
关于空间网络的社区挖掘的研究,目前主要有三大方向:第一,在大多数研究中,研究者们对地理距离因素未加考虑,用现有的经典算法对网络的拓扑结构进行社区挖掘。
由于很多网络中距离与连接之间存在图3 常见的复杂网络社区挖掘方法分类着关系:相距越近的节点之间连接的概率越大,而相距较远的节点间连接概率较小,因此其拓扑关系中隐藏着距离要素,所呈现出的社区结构在空间上有一定的地域性特征[24,25]。
例如吉梅拉(Guimerà)等人对全球范围的航线网络进行了社区挖掘,发现从全球尺度来看,社区的分布呈现地域性特点(如图4所示)。
第二,社区划分中考虑区域的约束作用。
郭(Guo ,音译)在对美国县级人口流动网络的社区划分时,考虑到区域邻接关系。
他用节点表示区域,节点间的连接边表示从某一区域到另一区域的总人口迁移数,提出了一个基于空间连续性的图形分割方法ALK 方法,并结合模块度指标,构建了流动人口数据的空间连续树,实现了在多级区域上人口流动的合并,从而将繁多的大数据集可视化(如图5所示)。
其中,区域化方法并不是根据行政边界,而是考虑空间邻近将人口流合并,实际上就是一种考虑空间相邻关系的社区挖掘方法[26,27]。
第三,社区划分中考虑空间距离的影响,这方面有两种不同的做法。
一种是排除空间距离的影响。
由于很多网络中用已有的社区挖掘算法得到的社区结构在其空间上具有地域性,因此有的学者希望剔除掉潜藏的距离对连接概率的影响,挖掘出与距离无关却又紧密相连的节点群。