当前位置：文档之家› 数据挖掘中的距离度量和相似度度量及Python实现

数据挖掘中的距离度量和相似度度量及Python实现

基于数据挖掘的符号序列聚类相似度量模型

—178 — 基于数据挖掘的符号序列聚类相似度量模型郑宏珍，初佃辉，战德臣，徐晓飞 (哈尔滨工业大学智能计算中心，264209) 摘要：为了从消费者偏好序列中发现市场细分结构，采用数据挖掘领域中的符号序列聚类方法，提出一种符号序列聚类的研究方法和框架，给出RSM 相似性度量模型。调整RSM 模型参数，使得RSM 可以变为与编辑距离、海明距离等价的相似性度量。通过RSM 与其他序列相似性度量的比较，表明RSM 具有更强的表达相似性概念的能力。由于RSM 能够表达不同的相似性概念，从而使之能适用于不同的应用环境，并在其基础上提出自组织特征映射退火符号聚类模型，使得从消费者偏好进行市场细分结构研究的研究途径在实际应用中得以实现。关键词：符号序列聚类；数据挖掘；相似性模型 Symbolic Sequence Clustering Regular Similarity Model Based on Data Mining ZHENG Hong-zhen, CHU Dian-hui, ZHAN De-chen, XU Xiao-fei (Intelligent Computing Center, Harbin Institute of Technology, Harbin 264209) 【Abstract 】From a consumer point of the sequence of preference, data mining is used in the field of symbolic sequence clustering methods to detect market segmentation structure. This paper proposes a symbolic sequence clustering methodology and framework, gives the similarity metric RSM model. By adjusting RSM model, parameters can be changed into RSM and edit distance, Hamming distance equivalent to the similarity metric. RSM is compared with other sequence similarity metric, and is more similar to the expression of the concept of capacity. As to express different similarity, the concept of RSM can be applied to different applications environment. Based on the SOM annealing symbol clustering model, the consumer preference for market segmentation can be studied in the structure, which means it is realized in practical application. 【Key words 】symbolic sequence clustering; data mining; similarity model 计算机工程Computer Engineering 第35卷第1期 V ol.35 No.1 2009年1月 January 2009 ·人工智能及识别技术·文章编号：1000—3428(2009)01—0178—02文献标识码：A 中图分类号：TP391 1 概述在经济全球化的环境下，面对瞬息万变的市场和技术发展，企业要想在国内外市场竞争中立于不败之地，必须对客户和市场需求做出快速响应。目前，通过市场调研公司或企业自身的信息系统，收集来自市场和消费者的数据相对容易，而如何理解数据反映的市场细分结构和需求规律却是相当困难的。为解决这一问题，许多研究者选择消费者的职业、收入、年龄、性别等特征数据作为细分变量，利用统计学传统聚类方法得到市场细分结构[1-2]。在实际应用中，不同的细分变量会导致不同的市场细分结果[3]。为此，本文从用户偏好序列数据对市场进行细分。通过对符号序列数据相似性的研究，给出一个可形式化的RSM 相似性度量模型和算法概要。该度量模型考虑了2对象之间相似与相异2个方面的因素，通过参数的调整，可以根据问题的具体性质表达不同的相似性概念。并在此基础上，将在数值型数据领域表现良好的SOM 神经网络引入到符号序列数据的聚类问题上，给特征符号序列的机器自动识别提供了可能性。 2 符号序列聚类问题序列聚类问题作为发现知识的一种重要的探索性技术，受到数据挖掘与知识发现研究领域的极大重视。企业决策者在进行市场和产品相关战略时，迫切需要某些技术手段来理解序列数据，这也正是本文研究的序列聚类问题的工程背景。下面给出符号序列的相关定义。定义1 设12{,,,}n A a a a ="为有限符号表，A 中的l 个符号12,,,l a a a "构成的有序集称为符号序列，记为s = 12{,,,}l a a a "，并称l 是s 的长度，记为s 。A 上所有有限长度符号序列集合记为A *。例如：符号表{a , b , c , d , e , f , g }，则, 是符号序列。定义2 设12{,,,,,}t n P S S S S =""，S t 是A *上的某个符号序列。符号序列聚类是指寻找P 上的划分P 1, P 2,…, P k ，使属于同一划分的符号序列间的相似性尽量大，而属于不同划分的符号序列间相似性尽量小。 3 符号序列的正则相似度量模型相似性度量往往与问题的应用背景具有紧密联系，并影响符号序列聚类结果。为此建立符号序列形式化的相似性度量模型，并在此基础上研究符号序列的聚类问题。 3.1 正则相似度量模型下面给出形式化的相似度量模型——正则相似度量模型基金项目：国家“863”计划基金资助项目“CIMS 模型驱动的智能化软构件与软件生成技术”(2006AA01Z167) 作者简介：郑宏珍(1967－)，女，副教授，主研方向：数据挖掘，智能计算；初佃辉，副教授、硕士；战德臣、徐晓飞，教授、博士收稿日期：2008-06-24 E-mail ：hithongzhen@https://www.doczj.com/doc/2712482024.html,

怎么用经纬度计算两地之间的距离

怎么用经纬度计算两地之间的距离？ 1、地球赤道上环绕地球一周走一圈共40075.04公里,而@一圈分成360°,而每1°(度)有60,每一度一秒在赤道上的长度计算如下： 40075.04km/360°=111.31955km 111.31955km/60=1.8553258km=1855.3m 而每一分又有60秒,每一秒就代表1855.3m/60=30.92m 任意两点距离计算公式为 d＝111.12cos{1/[sinΦAsinΦB十cosΦAcosΦBcos(λB—λA)]} 其中A点经度，纬度分别为λA和ΦA，B点的经度、纬度分别为λB和ΦB，d为距离。 2、分为3步计算：第1步分别将两点经纬度转换为三维直角坐标：假设地球球心为三维直角坐标系的原点，球心与赤道上0经度点的连线为X轴，球心与赤道上东经90度点的连线为Y轴，球心与北极点的连线为Z轴，则地面上点的直角坐标与其经纬度的关系为： x=R×cosα×cosβ y=R×cosα×sinβ z=R×sinα R为地球半径，约等于6400km； α为纬度，北纬取+，南纬取-； β为经度，东经取+，西经取-。第2步根据直角坐标求两点间的直线距离（即弦长）：

如果两点的直角坐标分别为(x1,y1,z1)和(x2,y2,z2)，则它们之间的直线距离为：L=[(x1-x2)^2+(y1-y2)^2+(z1-z2)^2]^0.5 上式为三维勾股定理，L为直线距离。第3步根据弦长求两点间的距离（即弧长）：由平面几何知识可知弧长与弦长的关系为： S=R×π×2[arc sin(0.5L/R)]/180 上式中角的单位为度，1度＝π/180弧度，S为弧长。 3、1度的实际长度是111公里。但纬线的距离会越考两端越小，他的距离就会变成111乘COS纬度数，经度不变。 4、南北方向算出两点纬度差,一度等于60海里,1分等于1海里,海里与公里换算关系1海里等于1.852公里。东西方向量出距离到两点间纬度附近量出纬度差，得出海里数，再乘以1.852换算成公里。可按直角三角形原理求出两点间距离。 5、度的实际长度是111公里。但纬线的距离会越考两端越小，他的距离就会变成111乘COS纬度数，经度不变(如果在同一经度)

相似性和相异性的度量

相似性和相异性的度量相似性和相异性是重要的概念，因为它们被许多数据挖掘技术所使用，如聚类、最近邻分类和异常检测等。在许多情况下，一旦计算出相似性或相异性，就不再需要原始数据了。这种方法可以看作将数据变换到相似性（相异性）空间，然后进行分析。首先，我们讨论基本要素--相似性和相异性的高层定义，并讨论它们之间的联系。为方便起见，我们使用术语邻近度（proximity）表示相似性或相异性。由于两个对象之间的邻近度是两个对象对应属性之间的邻近度的函数，因此我们首先介绍如何度量仅包含一个简单属性的对象之间的邻近度，然后考虑具有多个属性的对象的邻近度度量。这包括相关和欧几里得距离度量，以及Jaccard和余弦相似性度量。前二者适用于时间序列这样的稠密数据或二维点，后二者适用于像文档这样的稀疏数据。接下来，我们考虑与邻近度度量相关的若干重要问题。本节最后简略讨论如何选择正确的邻近度度量。 1)基础 1. 定义两个对象之间的相似度（similarity）的非正式定义是这两个对象相似程度的数值度量。因而，两个对象越相似，它们的相似度就越高。通常，相似度是非负的，并常常在0（不相似）和1（完全相似）之间取值。两个对象之间的相异度（dissimilarity）是这两个对象差异程度的数值度量。对象越类似，它们的相异度就越低。通常，术语距离（distance）用作相异度的同义词，正如我们将介绍的，距离常常用来表示特定类型的相异度。有时，相异度在区间[0, 1]中取值，但是相异度在0和之间取值也很常见。 2. 变换通常使用变换把相似度转换成相异度或相反，或者把邻近度变换到一个特定区间，如[0, 1]。例如，我们可能有相似度，其值域从1到10，但是我们打算使用的特定算法或软件包只能处理相异度，或只能处理[0, 1]区间的相似度。之所以在这里讨论这些问题，是因为在稍后讨论邻近度时，我们将使用这种变换。此外，这些问题相对独立于特定的邻近度度量。通常，邻近度度量（特别是相似度）被定义为或变换到区间[0, 1]中的值。这样做的动机是使用一种适当的尺度，由邻近度的值表明两个对象之间的相似（或相异）程度。这种变换通常是比较直截了当的。例如，如果对象之间的相似度在1（一点也不相似）和10（完全相似）之间变化，则我们可以使用如下变换将它变换到[0, 1]区间：s' = (s-1)/9，其中s和s'分别是相似度的原值和新值。一般来说，相似度到[0, 1]区间的变换由如下表达式给出：s'=(s-min_s) / (max_s - min_s)，其中max_s和min_s分别是相似度的最大

经纬度计算距离

根据两点经纬度计算距离这些经纬线是怎样定出来的呢？地球是在不停地绕地轴旋转（地轴是一根通过地球南北两极和地球中心的假想线），在地球中腰画一个与地轴垂直的大圆圈，使圈上的每一点都和南北两极的距离相等，这个圆圈就叫作“赤道”。在赤道的南北两边，画出许多和赤道平行的圆圈，就是“纬圈”；构成这些圆圈的线段，叫做纬线。我们把赤道定为纬度零度，向南向北各为90度，在赤道以南的叫南纬，在赤道以北的叫北纬。北极就是北纬90度，南极就是南纬90度。纬度的高低也标志着气候的冷热，如赤道和低纬度地地区无冬，两极和高纬度地区无夏，中纬度地区四季分明。其次，从北极点到南极点，可以画出许多南北方向的与地球赤道垂直的大圆圈，这叫作“经圈”；构成这些圆圈的线段，就叫经线。公元1884平面坐标图年，国际上规定以通过英国伦敦近郊的格林尼治天文台的经线作为计算经度的起点，即经度零度零分零秒，也称“本初子午线”。在它东面的为东经，共180度；在它西面的为西经，共180度。因为地球是圆的，所以东经180度和西经180度的经线是同一条经线。各国公定180度经线为“国际日期变更线”。为了避免同一地区使用两个不同的日期，国际日期变线在遇陆地时略有偏离。每一经度和纬度还可以再细分为60分，每一分再分为60秒以及秒的小数。利用经纬线，我们就可以确定地球上每一个地方的具体位置，并且把它在地图或地球仪上表示出来。例如问北京的经纬度是多少？我们很容易从地图上查出来是东经116度24分，北纬39度54分。在大海中航行的船只，只要把所在地的经度测出来，就可以确定船在海洋中的位置和前进方向。纬度共有90度。赤道为0度，向两极排列，圈子越小，度数越大。横线是纬度，竖线是经度。当然可以计算，四元二次方程。经度和纬度都是一种角度。经度是个两面角，是两个经线平面的夹角。因所有经线都是一样长，为了度量经度选取一个起点面，经1884年国际会议协商，决定以通过英国伦敦近郊、泰晤士河南岸的格林尼治皇家天文台（旧址）的一台主要子午仪十字丝的那条经线为起始经线，称为本初子午线。本初子午线平面是起点面，终点面是本地经线平面。某一点的经度，就是该点所在的经线平面与本初子午线平面间的夹角。在赤道上度量，自本初子午线平面作为起点面，分别往东往西度量，往东量值称为东经度，往西量值称为西

相似度计算方法

基于距离的计算方法 1. 欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。 (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离： (2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离： (3)两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离：也可以用表示成向量运算的形式： (4)Matlab计算欧氏距离 Matlab计算距离主要使用pdist函数。若X是一个M×N的矩阵，则pdist(X)将X矩阵M行的每一行作为一个N维向量，然后计算这M个向量两两间的距离。例子：计算向量(0,0)、(1,0)、(0,2)两两间的欧式距离 X = [0 0 ; 1 0 ; 0 2] D = pdist(X,'euclidean') 结果： D = 1.0000 2.0000 2.2361 2. 曼哈顿距离(Manhattan Distance) 从名字就可以猜出这种距离的计算方法了。想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除

非你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”。而这也是曼哈顿距离名称的来源，曼哈顿距离也称为城市街区距离(City Block distance)。 (1)二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离 (2)两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的曼哈顿距离 (3) Matlab计算曼哈顿距离例子：计算向量(0,0)、(1,0)、(0,2)两两间的曼哈顿距离 X = [0 0 ; 1 0 ; 0 2] D = pdist(X, 'cityblock') 结果： D = 1 2 3 5. 标准化欧氏距离 (Standardized Euclidean distance ) (1)标准欧氏距离的定义标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路：既然数据各维分量的分布不一样，好吧！那我先将各个分量都“标准化”到均值、方差相等吧。均值和方差标准化到多少呢？这里先复习点统计学知识吧，假设样本集X的均值(mean)为m，标准差(standard deviation)为s，那么X的“标准化变量”表示为：而且标准化变量的数学期望为0，方差为1。因此样本集的标准化过程(standardization)用公式描述就是：标准化后的值= ( 标准化前的值－分量的均值) /分量的标准差经过简单的推导就可以得到两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的标准化欧氏距离的公式：如果将方差的倒数看成是一个权重，这个公式可以看成是一种加权欧氏距离(Weighted Euclidean distance)。

地球上两点的经纬度计算他们距离的公式

假设地球是一个标准球体，半径为R,并且假设东经为正，西经为负，北纬为正，南纬为负，则A(x,y)的坐标可表示为（R*cosy*cosx, R*cosy*sinx,R*siny） B(a,b)可表示为(R*cosb*cosa ,R*cosb*sina,R*sinb) 于是，AB对于球心所张的角的余弦大小为 cosb*cosy*(cosa*cosx+sina*sinx)+sinb*siny=cosb*cosy*cos(a-x)+s inb*siny 因此AB两点的球面距离为 R*{arccos[cosb*cosy*cos(a-x)+sinb*siny]} 注：1.x,y,a,b都是角度，最后结果中给出的arccos因为弧度形式。 2.所谓的“东经为正，西经为负，北纬为正，南纬为负”是为了计算的方便。比如某点为西京145°，南纬36°，那么计算时可用(-145°,-36°) 3.AB对球心所张角的球法实际上是求和两向量的夹角K。用公式*=|OA|*|OB|*cosK 可以得到其中地球平均半径为6371.004 km

假设地球是个标准的球体：半径可以查出来，假设是R: 如图：要算出A到B的球面距离，先要求出A跟B的夹角，即角AOB，求角AOB可以先求AOB的最大边AB的长度。在根据余弦定律可以求夹角。 AB在三角形AQB中，AQ的长度可以根据AB的纬度之差计算。 BQ在三角形BPQ中，BP和PQ可求，角BPQ可以根据两者的经度求出，这样BQ的长度也可以求出来，所以AB的长度是可以求出来的。因为三角形ABQ是直角三角形，已经得到两个边知道了角AOB后，AB的弧长是可以求的。这样推出其公式就不难了关于用经纬度计算距离：地球赤道上环绕地球一周走一圈共40075.04公里,而@一圈分成360°,而每1°(度)有60,每一度一秒在赤道上的长度计算如下： 40075.04km/360°=111.31955km 111.31955km/60=1.8553258km=1855.3m 而每一分又有60秒,每一秒就代表1855.3m/60=30.92m 任意两点距离计算公式为 d＝111.12cos{1/[sinΦAsinΦB十cosΦAcosΦBcos(λB—λA)]} 其中A点经度，纬度分别为λA和ΦA，B点的经度、纬度分别为λB和ΦB，d为距离。至于比例尺计算就不废话了

距离度量及相关性分析

1、计算styucvdsk 和ustupcsfsk 之间的编辑距离 st y uc vd sk u stu p c sf sk 插入了一个u ，st 不变，删除一个y ，u 不变，插入一个p ，c 不变，v 修改为s,d 修改为f ，sk 不变 styucvdsk 和ustupcsfsk 之间的编辑距离为5 2、对于下面的向量x 和y ，计算指定的相似性或距离度量。 a) X=(1,1,1,1),y=(2,2,2,2),余弦、相关、欧几里德余弦: ∥X ∥= 12+12+12+12= 4=2 ∥Y ∥= 22+22+22+22= 16=4 X ?Y= 1×2 + 1×2 + 1×2 + 1×2 =8 cos(x.y)=8=1 相关系数： X 0= 1+1+1+1=1 Y 0=2+2+2+2=2 cov(x,y)= 1?1 ? 2?2 + 1?1 ? 2?2 + 1?1 ? 2?2 + 1?1 ? 2?2 3=0 σx = 1?1 2+ 1?1 2+ 1?1 2+ 1?1 2=0 σy = ( 2?2 2+ 2?2 2+ 2?2 2+ 2?2 2)4?1 =0 ρxy =0 欧几里德: 2?1 2+ 2?1 2+ 2?1 2+ 2?1 2=2

余弦相似度、相关系数、欧几里得分别是1，0，2； b) X=(0,1,0,1),y=(1,0,1,0), 余弦、相关、欧几里德、jaccard 余弦: ∥X ∥= 02+12+02+12= 2 ∥Y ∥= 12+02+12+02= 2 X ?Y= 0×1 + 1×0 + 0×1 + 1×0 =0 cos(x.y)= 0 2× 2=0 相关系数： X 0= 0+1+0+1=0.5 Y 0=1+0+1+0=0.5 cov x,y = 0?0.5 ? 1?0.5 + 1?0.5 ? 0?0.5 + 0?0.5 ? 1?0.5 + 1?0.5 ? 0?0.5 4?1=?1 σx = 0?0.5 2+ 1?0.5 2+ 0?0.5 2+ 1?0.5 2= 1 σy = 1?0.5 2+ 0?0.5 2+ 1?0.5 2+ 0?0.5 24?1= 13 ρxy =? 13 3× 3 欧几里德: 2222=2 Jaccard: x 2=02+12+02+12=2 y 2=12+02+12+02=2 X?Y=(0×1)+(1×0)+(0×1)+(1×0)=0

距离和相似度度量

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1, x2, x3, … x n），Y=（y1, y2, y3, … y n）。下面来看看主要可以用哪些方法来衡量两者的差异，主要分为距离度量和相似度度量。距离度量距离度量（Distance）用于衡量个体在空间上存在的距离，距离越远说明个体间的差异越大。欧几里得距离(Euclidean Distance) 欧氏距离是最常见的距离度量，衡量的是多维空间中各个点之间的绝对距离。公式如下：因为计算是基于各维度特征的绝对数值，所以欧氏度量需要保证各维度指标在相同的刻度级别，比如对身高（cm）和体重（kg）两个单位不同的指标使用欧式距离可能使结果失效。明可夫斯基距离(Minkowski Distance) 明氏距离是欧氏距离的推广，是对多个距离度量公式的概括性的表述。公式如下：这里的p值是一个变量，当p=2的时候就得到了上面的欧氏距离。曼哈顿距离(Manhattan Distance) 曼哈顿距离来源于城市区块距离，是将多个维度上的距离进行求和后的结果，即当上面的明氏距离中p=1时得到的距离度量公式，如下：

切比雪夫距离(Chebyshev Distance) 切比雪夫距离起源于国际象棋中国王的走法，我们知道国际象棋国王每次只能往周围的8格中走一步，那么如果要从棋盘中A格(x1, y1)走到B格(x2, y2)最少需要走几步？扩展到多维空间，其实切比雪夫距离就是当p趋向于无穷大时的明氏距离：其实上面的曼哈顿距离、欧氏距离和切比雪夫距离都是明可夫斯基距离在特殊条件下的应用。马哈拉诺比斯距离(Mahalanobis Distance) 既然欧几里得距离无法忽略指标度量的差异，所以在使用欧氏距离之前需要对底层指标进行数据的标准化，而基于各指标维度进行标准化后再使用欧氏距离就衍生出来另外一个距离度量——马哈拉诺比斯距离（Mahalanobis Distance），简称马氏距离。相似度度量相似度度量（Similarity），即计算个体间的相似程度，与距离度量相反，相似度度量的值越小，说明个体间相似度越小，差异越大。向量空间余弦相似度(Cosine Similarity) 余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。公式如下：皮尔森相关系数(Pearson Correlation Coefficient) 即相关分析中的相关系数r，分别对X和Y基于自身总体标准化后计算空间向量的余弦夹角。公式如下：

相似度测度总结汇总

1 相似度文献总结相似度有两种基本类别：（1）客观相似度，即对象之间的相似度是对象的多维特征之间的某种函数关系，比如对象之间的欧氏距离；（2）主观相似度，即相似度是人对研究对象的认知关系，换句话说，相似度是主观认知的结果，它取决于人及其所处的环境，主观相似度符合人眼视觉需求，带有一定的模糊性[13]。 1.1 客观相似度客观相似度可分为距离测度、相似测度、匹配测度。它们都是衡量两对象客观上的相近程度。客观相似度满足下面的公理，假设对象 A 与B 的相似度判别为 (,)A B δ，有: (1) 自相似度是一个常量：所有对象的自相似度是一个常数，通常为 1，即 (,)(,)1A A B B δδ== (2) 极大性：所有对象的自相似度均大于它与其他对象间的相似度，即 (,)(,)(,)(,)A B A A A B B B δδδδ≤≤和。 (3) 对称性：两个对象间的相似度是对称的，即(,)(,)A B B A δδ=。 (4) 唯一性：(,)1A B δ=，当且仅当 A B =。 1.1.1 距离测度这类测度以两个矢量矢端的距离为基础，因此距离测度值是两矢量各相应分量之差的函数。设{}{}'' 1212,,,,,,,n n x x x x y y y y ==K K 表示两个矢量，计算二者之间距离测度的具体方式有多种，最常用的有： 1.1.1.1 欧氏距离：Euclidean Distance-based Similarity 最初用于计算欧几里德空间中两个点的距离，假设 x ，y 是 n 维空间的两个点，它们之间的欧几里德距离是： 1/221(,)()n i i i d x y x y x y =??=-=-????∑ （）

数据挖掘期末

（一）概述为什么要数据挖掘（Data Mining）？存在可以广泛使用的大量数据，并且迫切需要将数据转转换成有用的信息和知识什么是数据挖掘？数据挖掘（Data Mining）是指从大量数据中提取或“挖掘”知识。对何种数据进行数据挖掘？关系数据库、数据仓库、事务数据库空间数据超文本和多媒体数据时间序列数据流数据（二）数据预处理为什么要预处理数据？为数据挖掘过程提供干净、准确、简洁的数据，提高数据挖掘的效率和准确性，是数据挖掘中非常重要的环节；数据库和数据仓库中的原始数据可能存在以下问题：定性数据需要数字化表示不完整含噪声度量单位不同维度高数据的描述度量数据的中心趋势：均值、加权均值、中位数、众数度量数据的离散程度：全距、四分位数、方差、标准差基本描述数据汇总的图形显示：直方图、散点图度量数据的中心趋势集中趋势：一组数据向其中心值靠拢的倾向和程度。集中趋势测度：寻找数据水平的代表值或中心值。常用的集中趋势的测度指标：均值：缺点：易受极端值的影响中位数：对于不对称的数据，数据中心的一个较好度量是中位数特点：对一组数据是唯一的。不受极端值的影响。众数：一组数据中出现次数最多的变量值。特点：不受极端值的影响。有的数据无众数或有多个众数。

度量数据的离散程度反映各变量值远离其中心值的程度（离散程度），从另一个侧面说明了集中趋势测度值的代表程度。常用指标：全距（极差）：全距也称极差，是一组数据的最大值与最小值之差。 R=最大值-最小值组距分组数据可根据最高组上限-最低组下限计算。受极端值的影响。四分位距 (Inter-Quartilenge, IQR)：等于上四分位数与下四分位数之差（q3-q1）反映了中间50%数据的离散程度，数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。四分位数：把顺序排列的一组数据分割为四（若干相等）部分的分割点的数值。分位数可以反映数据分布的相对位置（而不单单是中心位置）。在实际应用中四分位数的计算方法并不统一（数据量大时这些方法差别不大）。对原始数据： SPSS中四分位数的位置为(n+1)/4， 2(n+1)/4， 3 (n+1)/4。 Excel中四分位数的位置分别为(n+3)/4， 2(n+1)/4，（3 n+1)/4。如果四分位数的位置不是整数，则四分位数等于前后两个数的加权平均。方差和标准差：方差是一组数据中各数值与其均值离差平方的平均数，标准差是方差正的平方根。是反映定量数据离散程度的最常用的指标。基本描述数据汇总的图形显示直方图(Histogram)：使人们能够看出这个数据的大体分布或“形状” 散点图如何进行预处理定性数据的数字化表示：二值描述数据的数字化表示例如：性别的取值为“男”和“女”，男→1，女→0 多值描述数据的数字化表示例如：信誉度为“优”、“良”、“中”、“差” 第一种表示方法：优→1，良→2，中→3，差→4 第二种表示方法：

相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离就是很讲究,甚至关系到分类的正确与否。对常用的相似性度量作一个总结。1、欧氏距离2、曼哈顿距离3、切比雪夫距离4、闵可夫斯基距离5、标准化欧氏距离6、马氏距离7、夹角余弦8、汉明距离9、杰卡德距离& 杰卡德相似系数10、相关系数& 相关距离11、信息熵12、兰氏距离13、斜交空间距离14、最大-最小相似度15、指数相似度16、KL距离 1、欧氏距离(EuclideanDistance) 欧氏距离就是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。 (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: 三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: (2)两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离: 也可以用表示成向量运算的形式: (4)Matlab计算欧氏距离 Matlab计算距离主要使用pdist函数。若X就是一个M×N的矩阵,则pdist(X)将X矩阵M行的每一行作为一个N维向量,然后计算这M个向量两两间的距离。例子:计算向量(0,0)、(1,0)、(0,2)两两间的欧式距离 X= [0 0 ; 1 0 ; 0 2] D= pdist(X,'euclidean') 结果: D= 1、0000 2、0000 2、2361 2、曼哈顿距离(ManhattanDistance)又称绝对值距离从名字就可以猜出这种距离的计算方法了。想象您在曼哈顿要从一个十字路口开车到另外一个十字路口,驾驶距离就是两点间的直线距离不？显然不就是,除非您能穿越大楼。实际驾驶距离就就是这个“曼哈顿距离”。而这也就是曼哈顿距离名称的来源, 曼哈顿距离也称为城市街区距离(CityBlock distance)。 (1)二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离 (2)两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的曼哈顿距离 (3)Matlab计算曼哈顿距离

数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。它用表组织数据，采用ER数据模型。相似：它们都为数据挖掘提供了源数据，都是数据的组合。 1.3 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。答：特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12% （支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。解答：先判定中位数区间：N=200+450+300+1500+700+44=3194；N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500； ∴ 20~50 对应中位数区间。

经纬度距离公式

地球表面两点间距离公式陕西省榆林市第二实验中学艾东宁摘要：本文用几何的方法得出地球表面两点间距离公式。这是地理中的一个基本公式，在许多方面都有应用。关键词：球面距离经纬度圆心角已知地球表面两点A ),(11j w 、B ),(22j w ，求两点间球面距离。（w 为纬度，j 为经度。）解：如图。 a 、 b 为A 、B 两点所在的经线平面，l 为地轴，MO 、 NO 为赤道平面与此二面角的交线，O 为地心，地球半径为R 。过A 作AC ⊥l ，过C 作DC ⊥l ，BD ∥l 。在△ACD 中， AC=1cos w R ? DC=2cos w R ? ∠ACB=21j j - 据余弦定理可得： 22212 )cos ()cos (w R w R AD ?+?=)cos(cos cos 221212 j j w w R -?- 又21sin sin w R w R BE DE DB ?+?=+= 因△ABD 为Rt △，故222DB AD AB += =2AB 22R )cos(cos cos 221212 j j w w R -?-212 sin sin 2w w R + 在△AOB 中，知道AB ，且AO=BO=R 。设∠AOB=α 由余弦定理可得：=αcos 212121sin sin )cos(cos cos w w j j w w -- 若经度东为正、西为负、纬度北为正、南为负，则公式为： =αcos 212121sin sin )cos(cos cos w w j j w w +- arccos =α〔212121sin sin )cos(cos cos w w j j w w +-〕 α为A 、B 两点所成的球心角。

根据地球上任意两点的经纬度计算两点间的距离

根据地球上任意两点的经纬度计算两点间的距离地球是一个近乎标准的椭球体，它的赤道半径为6378.140千米，极半径为6356.755千米，平均半径6371.004千米。如果我们假设地球是一个完美的球体，那么它的半径就是地球的平均半径，记为R。如果以0度经线为基准，那么根据地球表面任意两点的经纬度就可以计算出这两点间的地表距离（这里忽略地球表面地形对计算带来的误差，仅仅是理论上的估算值）。设第一点A的经纬度为(LonA, LatA)，第二点B的经纬度为(LonB, LatB)，按照0度经线的基准，东经取经度的正值(Longitude)，西经取经度负值(-Longitude)，北纬取90-纬度值(90- Latitude)，南纬取90+纬度值(90+Latitude)，则经过上述处理过后的两点被计为(MLonA, MLatA)和(MLonB, MLatB)。那么根据三角推导，可以得到计算两点距离的如下公式： C = sin(MLatA)*sin(MLatB)*cos(MLonA-MLonB) + cos(MLatA)*cos(MLatB) Distance = R*Arccos(C)*Pi/180 这里，R和Distance单位是相同，如果是采用6371.004千米作为半径，那么Distance 就是千米为单位，如果要使用其他单位，比如mile，还需要做单位换算，1千米 =0.621371192mile 如果仅对经度作正负的处理，而不对纬度作90-Latitude(假设都是北半球，南半球只有澳洲具有应用意义)的处理，那么公式将是： C = sin(LatA)*sin(LatB) + cos(LatA)*cos(LatB)*cos(MLonA-MLonB) Distance = R*Arccos(C)*Pi/180 以上通过简单的三角变换就可以推出。如果三角函数的输入和输出都采用弧度值，那么公式还可以写作： C = sin(LatA*Pi/180)*sin(LatB*Pi/180) + cos(LatA*Pi/180)*cos(LatB*Pi/180)*cos((MLonA-MLonB)*Pi/180) Distance = R*Arccos(C)*Pi/180 也就是： C = sin(LatA/57.2958)*sin(LatB/57.2958) + cos(LatA/57.2958)*cos(LatB/57.2958)*cos((MLonA-MLonB)/57.2958) Distance = R*Arccos(C) = 6371.004*Arccos(C) kilometer = 0.621371192*6371.004*Arccos(C) mile = 3958.758349716768*Arccos(C) mile 在实际应用当中，一般是通过一个个体的邮政编码来查找该邮政编码对应的地区中心的经纬度，然后再根据这些经纬度来计算彼此的距离，从而估算出某些群体之间的大致距离范围(比如酒店旅客的分布范围-各个旅客的邮政编码对应的经纬度和酒店的经纬度所计算的距离范围-等等)，所以，通过邮政编码查询经纬度这样一个数据库是一个很有用的资源

数据挖掘考试习题汇总

第一章 1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2、元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个信息目录，根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3、数据处理通常分成两大类：联机事务处理和联机分析处理。 4、多维分析是指以“维”形式组织起来的数据（多维数据集）采取切片、切块、钻取和旋转等各种分析动作，以求剖析数据，使拥护能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。 5、ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。 6、数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储与管理和数据表现等。 7、数据仓库系统的体系结构根据应用需求的不同，可以分为以下4种类型：两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。 8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。 9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。 10、从应用的角度看，数据仓库的发展演变可以归纳为5个阶段：以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。第二章 1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。 2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此，我们要求ETL 过程产生的数据（即调和数据层）是详细的、历史的、规范的、可理解的、即时的和质量可控制的。 3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库，增量抽取用于进行数据仓库的维护。 4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小，细节程度越高，综合程度越低，回答查询的种类越多。 5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理，主要数据都在庞大的事实表中。 6、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式：一种是采用自然键，另一种是采用代理键。 7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。 8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别：早期细节级、当前细节级、轻度综合级和高度综合级。第三章 1、SQL Server SSAS提供了所有业务数据的同意整合试图，可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。 2、数据仓库的概念模型通常采用信息包图法来进行设计，要求将其5个组成部分（包括名称、维度、类别、层次和度量）全面地描述出来。 3、数据仓库的逻辑模型通常采用星型图法来进行设计，要求将星型的各类逻辑实体完整地描述出来。 4、按照事实表中度量的可加性情况，可以把事实表对应的事实分为4种类型：事务事实、快照事实、线性项目事实和事件事实。 5、确定了数据仓库的粒度模型以后，为提高数据仓库的使用性能，还需要根据拥护需求设计聚合模型。 6、在项目实施时，根据事实表的特点和拥护的查询需求，可以选用时间、业务类型、区域和下属组织等多种数据分割类型。