外文翻译样板(至少3000字)

  • 格式:doc
  • 大小:62.00 KB
  • 文档页数:8

下载文档原格式

  / 14
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国地质大学长城学院本科毕业论文外文资料翻译

系别:信息工程系

专业:地理信息系统

*名:**

学号:********

2011 年3 月25 日

外文资料翻译译文

密度连通集及其检测在空间数据库的应用发展趋势

摘要

本文提出了地球观测空间数据库的几个聚类算法,而且已经经过了鉴定。著名并有效的算法例如DBSCAN算法,在一定程度上仍有些限制,因为它们在一个空间数据库中,没有能够充分发挥所载不同类型资料的丰富性。在本文中,我们介绍了密度连通集和广义版本的DBSCAN的概念。这些算法的主要性能如下:(1)任何对称相元可以用来定义一个对象,允许附近自然定义的对象的空间扩展成为多边形(2)邻近的一个集合的函数对象可能会考虑用非空间属性作为一个应用程序的具体手段来分配对象权重。密度连接集可以被用来作为发现一个空间数据库趋势的依据。我们定义在空间发展趋势数据库和展示如何运用中的广义的DBSCAN算法可以的发现这些任务。为了证明了这个算法的实际影响,我们进行以地理信息系统为基础的实验,研究巴伐利亚州是一个广阔的空间数据库类。

关键词:聚类算法;空间与非空间数据;趋势检测;应用地理信息系统

1简介

我们从卫星获得的数据量越来越大,X射线晶体学或其他自动设备存储在数据库中。因此,自动化知识出现在越来越重要的数据库中。数据库知识拓展(KDD)可以被定义为查明有效的,新颖的,潜在的不平凡的过程以及有用的数据并最终加以理解的模式。数据挖掘是数据库知识拓展中的一个组成步骤——数据应用分析和算法发现,要求控制在可接受的计算效率内,以一个特定的模式完成数据统计。

空间数据库系统(SDBS)(Gueting 1994年)是对数据库系统的空间数据管理。有关空间数据,例如作为地球一部分的二维表面数据。虽然很多研究在过去几年里已在关系数据库中进行知识发现和数据挖掘,但是也只是在文献中提出知识的几种方法在空间数据库中的发现而已。

最近,一些对空间数据库应用的聚类方法已被开发,所有这些方法的设计均为点对象,即无扩展对象。在一个空间数据库,对象通常是空间扩展为一个或多个非空间属性。对象在地理信息系统(GIS)中,可用多边形的代表,例如,社区或湖泊的非空间属性可以是姓名,居民平均收入以及在该地区的房子数量等,我们可以使用所有的聚类方法在上文提到的集群中建立一个一般空间对象改变他们的一些特征点的空间。

然而,这之后它们之间的空间关系将会丢失。如果在原始数据上进行空间聚类转化,如果他们的非空间属性应被视为空间物体,它是很难找到一般距离的自然定义的。

任何检测算法的集群可以作为输入KDD中的其他任务。克诺尔和吴(1996)在研究接近点之间的关系和多边形集群物体在空间数据库中的作用。对于一个特定的点群,我们给定一个算法,可以有效地找到它的“Top - k”多边形作为“最亲密”的群集。对于n给予集群点,同样给定一个算法,它可以找到共同的多边形或最接近大多数的多边形,如果

不是所有,那就是集群。

在本文中,我们使用集群作为一项基本的运作KDD中的空间数据库。例如,一个人可能对邻近相元的非空间属性感兴趣。我们提出的算法GDBSCAN是一个广义版本的DBSCAN (1996年),他能根据空间对象一般聚集得到空间和非空间属性两个数据。为了演示作为数据挖掘的基本操作的适用性,我们使用GDBSCN找到有趣的地区趋势检测一个地理数据库。

该论文的其余部分组织如下:我们提出密度连接集的概念和算法来检测他们。在第2、3节讨论了任务——趋势检测一个地理数据库,并显示了如何使用GDBSCAN作为一项基本操作。第4节的最后总结和未来研究的方向。对所有在邻近地区涉及到的一些空间非空间属性的趋势对象进行分析。

2位于空间数据库的联通集

下面,我们介绍相关的概念:“密度连接集”。这是对“集群”提出的一个重大的概括(1996年)。我们假设一个空间数据库D是一个明确的拥有空间和非空间属性的数据集合。空间属性可以代表,例如,一些物体的延长点或空间,如d维空间的多边形在D的一个对象的非空间属性可能代表额外的属性空间对象,例如,失业率的多边形中的一个代表社区地理信息系统。

一个基于密度的集群的核心思想是:每个点群集的ε邻域对于给定的ε> 0要包含至少一个点的最低数目,即“密度”的ε邻域点已经超过一些门槛。这种“密度”的构想可以概括为两个重要方面。首先,我们可以使用任何一个邻近相元定义一个对象,如果所有的临界相元的定义都基于二元谓词,则是对称自反。其次,它不是简单地计算一个相元附近的相元,我们可以使用其他措施并确定该街道“基数”。

因为我们已经证明,用他们在密度联通集的最普通形式作为密度数据基础,有相同的属性集群的程序,直到找到他们,我们可以使用相同的计算模式来检测。两者兼而有之。

3在地理信息系统的检测中找到重要的变化趋势

一个地理信息系统是一种用信息系统数据处理方面的内容来表示地球表面有关设施如道路、房屋的。在本节中,我们介绍了地理数据库(拜仁数据库)提供空间和非空间信息在巴伐利亚州的行政单位,如用它作为社区,其自然设施如山脉和它的基础设施,如公路都是很有效果的。数据库包含了ATKIS数据(ATKIS 500年)和巴伐利亚的部分统计数据的德国人口普查。我们用沙(空间和非空间数据库)的建筑:空间扩展的所有物体(例如多边形和线)存储和操作使用-tree、非空间属性这个社区(54不同属性的速度等失业和收入平均)是由一个关系型数据库管理系统。

巴伐利亚的数据库可以被使用,例如,通过经济地理学家发现不同类型的知识。在接下来,我们讨论的空间划分和任务空间潮流的检测。

空间分类应该发现规则预测一些对象类成员的基于空间和非空间属性的对象和它的邻居。这个对象也可能是一种密度联通的物体,例如一个城市的集聚,那么一系列的空间分

类规则可能会得以发现的:如果存在一些城市的集聚,那么这个相元的邻近相元可以连接成线性的(可靠性75%)。

一个趋势已被定义为一个时序模式的一些时间序列数据,例如网络告警或复发的现象Berndt疾病(1996),和克利夫。“利率的上调利率”。我们定义一个空间潮流为模式的系统改变的一个或几个经属性在二维或三维空间。

发现空间的趋势,经济实力、一种经济地理学家可以进行如下。一些非空间属性,如失业率的作为一个指示器的经济实力。在一开始的第一步,区域一个局部最小的失业率的决心所谓的中心,举例说明。这个城市的慕尼黑。这个理论,对中部地区(Christaller 1968)声称,该属性这样的中心的属性的影响,他们的邻居到一个程度随距离增加。例如,通常很容易从一些社区一个靠近中心从而意味着低失业率在这个社区。在第二阶段,这个理论失业率的下降的趋势,在附近这个中心,例如计算。当离开拜仁,失业率的增长(86%)的可靠性,在第三步,偏离了理论的趋势。如发现的。当离开拜仁在西南地区方向,然后失业率是稳定的(可靠性97%)。

第四步的目的是为了解释这些现象。例如如果某些社区相对远离中心。但是很连接到它坐火车,失业率在这个社区不是高达理论上预期。我们推测,这个过程的检测相关趋势不仅为经济地理学的而且对更大的地理信息系统的应用。

4结论

在本文中,我们提出的算法GDBSCAN是一种广义的版本。聚类对象,考虑空间和平台属性。GDBSCAN可以使用任何的观念,一个街区对象的定义的社区基于二进制相元是对称的。相反,理论上的行集数附近的一个对象可以使用“基数”基于该地区的nonspatial综合考虑属性。

再者,我们用GDBSCN找到有趣的地区在不同地区的趋势中检测在巴伐利亚。一个被定义为一种空间潮流的变化模式的系统中一个或几个非空间属性的二维或三维空间。我们讨论了赤水地区须家河族都是用经济地理学的相关知识。

在未来的日子里,我们将探讨密度连接集的使用并设置为其他KDD的任务,例如第3节中提及的分类。用很有意思的探索方法来探索密度连接集组并发现其在同一个数据库中使用不同的非空间属性的相关性。