当前位置：文档之家› [2006]几种经典相似性度量的比较研究

[2006]几种经典相似性度量的比较研究

基于数据挖掘的符号序列聚类相似度量模型

—178 — 基于数据挖掘的符号序列聚类相似度量模型郑宏珍，初佃辉，战德臣，徐晓飞 (哈尔滨工业大学智能计算中心，264209) 摘要：为了从消费者偏好序列中发现市场细分结构，采用数据挖掘领域中的符号序列聚类方法，提出一种符号序列聚类的研究方法和框架，给出RSM 相似性度量模型。调整RSM 模型参数，使得RSM 可以变为与编辑距离、海明距离等价的相似性度量。通过RSM 与其他序列相似性度量的比较，表明RSM 具有更强的表达相似性概念的能力。由于RSM 能够表达不同的相似性概念，从而使之能适用于不同的应用环境，并在其基础上提出自组织特征映射退火符号聚类模型，使得从消费者偏好进行市场细分结构研究的研究途径在实际应用中得以实现。关键词：符号序列聚类；数据挖掘；相似性模型 Symbolic Sequence Clustering Regular Similarity Model Based on Data Mining ZHENG Hong-zhen, CHU Dian-hui, ZHAN De-chen, XU Xiao-fei (Intelligent Computing Center, Harbin Institute of Technology, Harbin 264209) 【Abstract 】From a consumer point of the sequence of preference, data mining is used in the field of symbolic sequence clustering methods to detect market segmentation structure. This paper proposes a symbolic sequence clustering methodology and framework, gives the similarity metric RSM model. By adjusting RSM model, parameters can be changed into RSM and edit distance, Hamming distance equivalent to the similarity metric. RSM is compared with other sequence similarity metric, and is more similar to the expression of the concept of capacity. As to express different similarity, the concept of RSM can be applied to different applications environment. Based on the SOM annealing symbol clustering model, the consumer preference for market segmentation can be studied in the structure, which means it is realized in practical application. 【Key words 】symbolic sequence clustering; data mining; similarity model 计算机工程Computer Engineering 第35卷第1期 V ol.35 No.1 2009年1月 January 2009 ·人工智能及识别技术·文章编号：1000—3428(2009)01—0178—02文献标识码：A 中图分类号：TP391 1 概述在经济全球化的环境下，面对瞬息万变的市场和技术发展，企业要想在国内外市场竞争中立于不败之地，必须对客户和市场需求做出快速响应。目前，通过市场调研公司或企业自身的信息系统，收集来自市场和消费者的数据相对容易，而如何理解数据反映的市场细分结构和需求规律却是相当困难的。为解决这一问题，许多研究者选择消费者的职业、收入、年龄、性别等特征数据作为细分变量，利用统计学传统聚类方法得到市场细分结构[1-2]。在实际应用中，不同的细分变量会导致不同的市场细分结果[3]。为此，本文从用户偏好序列数据对市场进行细分。通过对符号序列数据相似性的研究，给出一个可形式化的RSM 相似性度量模型和算法概要。该度量模型考虑了2对象之间相似与相异2个方面的因素，通过参数的调整，可以根据问题的具体性质表达不同的相似性概念。并在此基础上，将在数值型数据领域表现良好的SOM 神经网络引入到符号序列数据的聚类问题上，给特征符号序列的机器自动识别提供了可能性。 2 符号序列聚类问题序列聚类问题作为发现知识的一种重要的探索性技术，受到数据挖掘与知识发现研究领域的极大重视。企业决策者在进行市场和产品相关战略时，迫切需要某些技术手段来理解序列数据，这也正是本文研究的序列聚类问题的工程背景。下面给出符号序列的相关定义。定义1 设12{,,,}n A a a a ="为有限符号表，A 中的l 个符号12,,,l a a a "构成的有序集称为符号序列，记为s = 12{,,,}l a a a "，并称l 是s 的长度，记为s 。A 上所有有限长度符号序列集合记为A *。例如：符号表{a , b , c , d , e , f , g }，则, 是符号序列。定义2 设12{,,,,,}t n P S S S S =""，S t 是A *上的某个符号序列。符号序列聚类是指寻找P 上的划分P 1, P 2,…, P k ，使属于同一划分的符号序列间的相似性尽量大，而属于不同划分的符号序列间相似性尽量小。 3 符号序列的正则相似度量模型相似性度量往往与问题的应用背景具有紧密联系，并影响符号序列聚类结果。为此建立符号序列形式化的相似性度量模型，并在此基础上研究符号序列的聚类问题。 3.1 正则相似度量模型下面给出形式化的相似度量模型——正则相似度量模型基金项目：国家“863”计划基金资助项目“CIMS 模型驱动的智能化软构件与软件生成技术”(2006AA01Z167) 作者简介：郑宏珍(1967－)，女，副教授，主研方向：数据挖掘，智能计算；初佃辉，副教授、硕士；战德臣、徐晓飞，教授、博士收稿日期：2008-06-24 E-mail ：hithongzhen@https://www.doczj.com/doc/c512475075.html,

相似性和相异性的度量

相似性和相异性的度量相似性和相异性是重要的概念，因为它们被许多数据挖掘技术所使用，如聚类、最近邻分类和异常检测等。在许多情况下，一旦计算出相似性或相异性，就不再需要原始数据了。这种方法可以看作将数据变换到相似性（相异性）空间，然后进行分析。首先，我们讨论基本要素--相似性和相异性的高层定义，并讨论它们之间的联系。为方便起见，我们使用术语邻近度（proximity）表示相似性或相异性。由于两个对象之间的邻近度是两个对象对应属性之间的邻近度的函数，因此我们首先介绍如何度量仅包含一个简单属性的对象之间的邻近度，然后考虑具有多个属性的对象的邻近度度量。这包括相关和欧几里得距离度量，以及Jaccard和余弦相似性度量。前二者适用于时间序列这样的稠密数据或二维点，后二者适用于像文档这样的稀疏数据。接下来，我们考虑与邻近度度量相关的若干重要问题。本节最后简略讨论如何选择正确的邻近度度量。 1)基础 1. 定义两个对象之间的相似度（similarity）的非正式定义是这两个对象相似程度的数值度量。因而，两个对象越相似，它们的相似度就越高。通常，相似度是非负的，并常常在0（不相似）和1（完全相似）之间取值。两个对象之间的相异度（dissimilarity）是这两个对象差异程度的数值度量。对象越类似，它们的相异度就越低。通常，术语距离（distance）用作相异度的同义词，正如我们将介绍的，距离常常用来表示特定类型的相异度。有时，相异度在区间[0, 1]中取值，但是相异度在0和之间取值也很常见。 2. 变换通常使用变换把相似度转换成相异度或相反，或者把邻近度变换到一个特定区间，如[0, 1]。例如，我们可能有相似度，其值域从1到10，但是我们打算使用的特定算法或软件包只能处理相异度，或只能处理[0, 1]区间的相似度。之所以在这里讨论这些问题，是因为在稍后讨论邻近度时，我们将使用这种变换。此外，这些问题相对独立于特定的邻近度度量。通常，邻近度度量（特别是相似度）被定义为或变换到区间[0, 1]中的值。这样做的动机是使用一种适当的尺度，由邻近度的值表明两个对象之间的相似（或相异）程度。这种变换通常是比较直截了当的。例如，如果对象之间的相似度在1（一点也不相似）和10（完全相似）之间变化，则我们可以使用如下变换将它变换到[0, 1]区间：s' = (s-1)/9，其中s和s'分别是相似度的原值和新值。一般来说，相似度到[0, 1]区间的变换由如下表达式给出：s'=(s-min_s) / (max_s - min_s)，其中max_s和min_s分别是相似度的最大

相似度测度总结汇总

1 相似度文献总结相似度有两种基本类别：（1）客观相似度，即对象之间的相似度是对象的多维特征之间的某种函数关系，比如对象之间的欧氏距离；（2）主观相似度，即相似度是人对研究对象的认知关系，换句话说，相似度是主观认知的结果，它取决于人及其所处的环境，主观相似度符合人眼视觉需求，带有一定的模糊性[13]。 1.1 客观相似度客观相似度可分为距离测度、相似测度、匹配测度。它们都是衡量两对象客观上的相近程度。客观相似度满足下面的公理，假设对象 A 与B 的相似度判别为(,)A B δ，有: (1) 自相似度是一个常量：所有对象的自相似度是一个常数，通常为 1，即 (,)(,)1A A B B δδ== (2) 极大性：所有对象的自相似度均大于它与其他对象间的相似度，即 (,)(,)(,)(,)A B A A A B B B δδδδ≤≤和。 (3) 对称性：两个对象间的相似度是对称的，即(,)(,)A B B A δδ=。 (4) 唯一性：(,)1A B δ=，当且仅当A B =。 1.1.1 距离测度这类测度以两个矢量矢端的距离为基础，因此距离测度值是两矢量各相应分量之差的函数。设{}{}'' 1212,,,,,,,n n x x x x y y y y == 表示两个矢量，计算二者之间距离测度的具体方式有多种，最常用的有： 1.1.1.1 欧氏距离：Euclidean Distance-based Similarity 最初用于计算欧几里德空间中两个点的距离，假设 x ，y 是 n 维空间的两个点，它们之间的欧几里德距离是： 1/221(,)()n i i i d x y x y x y =??=-=-????∑（1.1）

模式识别试题及总结

一、填空与选择填空（本题答案写在此试卷上，30分） 1、模式识别系统的基本构成单元包括：模式采集、特征提取与选择和模式分类。 2、统计模式识别中描述模式的方法一般使用特真矢量；句法模式识别中模式描述方法一般有串、树、网。 3、聚类分析算法属于（1）；判别域代数界面方程法属于（3）。（1）无监督分类 (2)有监督分类（3）统计模式识别方法（4）句法模式识别方法 4、若描述模式的特征量为0-1二值特征量，则一般采用（4）进行相似性度量。（1）距离测度（2）模糊测度（3）相似测度（4）匹配测度 5、下列函数可以作为聚类分析中的准则函数的有（1）（3）（4）。（1）（2） (3) (4) 6、Fisher线性判别函数的求解过程是将N维特征矢量投影在（2）中进行。（1）二维空间（2）一维空间（3）N-1维空间 7、下列判别域界面方程法中只适用于线性可分情况的算法有（1）；线性可分、不可分都适用的有（3）。（1）感知器算法（2）H-K算法（3）积累位势函数法 8、下列四元组中满足文法定义的有（1）（2）（4）。（1）({A, B}, {0, 1}, {A→01, A→ 0A1 , A→ 1A0 , B→BA , B→ 0}, A) （2）({A}, {0, 1}, {A→0, A→ 0A}, A) （3）({S}, {a, b}, {S → 00S, S → 11S, S → 00, S → 11}, S) （4）({A}, {0, 1}, {A→01, A→ 0A1, A→ 1A0}, A) 9、影响层次聚类算法结果的主要因素有（计算模式距离的测度、（聚类准则、类间距离门限、预定的类别数目））。 10、欧式距离具有（ 1、2 ）；马式距离具有（1、2、3、4 ）。（1）平移不变性（2）旋转不变性（3）尺度缩放不变性（4）不受量纲影响的特性 11、线性判别函数的正负和数值大小的几何意义是（正（负）表示样本点位于判别界面法向量指向的正（负）半空间中；绝对值正比于样本点到判别界面的距离。）。 12、感知器算法1。（1）只适用于线性可分的情况；（2）线性可分、不可分都适用。

颜色特征常用的特征提取与匹配方法

颜色直方图：全局颜色直方图：反映的是图像中颜色的组成分布，即出现了哪些颜色以及各种颜色出现的概率，Swain 和 Ballard最先提出了使用颜色直方图作为图像颜色特征的表示方法。他们还指出:颜色直方图相对于图像的以观察轴为轴心的旋转以及幅度不大的平移和缩放等几何变换是不敏感的，颜色直方图对于图像质量的变化(如模糊)也不甚敏感。颜色直方图的这种特性使得它比较适合于检索图像的全局颜色相似性的场合，即通过比较颜色直方图的差异来衡量两幅图像在颜色全局分布上的差异。颜色直方图的主要性质有:直方图中的数值都是统计而来，描述了该图像中关于颜色的数量特征，可以反映图像颜色的统计分布和基本色调;直方图只包含了该图像中某一颜色值出现的频数，而丢失了某象素所在的空间位置信息;任一幅图像都能唯一的给出一幅与它对应的直方图，但不同的图像可能有相同的颜色分布，从而就具有相同的直方图，因此直方图与图像是一对多的关系;如将图像划分为若干个子区域，所有子区域的直方图之和等于全图直方图;一般情况下，由于图像上的背景和前景物体颜色分布明显不同，从而在直方图上会出现双峰特性，但背景和前景颜色较为接近的图像不具有这个特性。累加直方图：当图像中的特征并不能取遍所有可取值时，统计直方图中会出现一些零值。这些零值的出现会对相似性度量的计算带来影响，从而使得相似性度量并不能正确反映图像之间的颜色差别。为解决这个问题，在全局直方图的基础上，Stricker和Orengo进一步提出了使用“累加颜色直方图”的概念。在累加直方图中，相邻颜色在频数上是相关的。相比一般直方图，虽然累加直方图的存储量和计算量有很小的增加，但是累加直方图消除了一般直方图中常见的零值，也克服了一般直方图量化过细过粗检索效果都会下降的缺陷。一般的颜色直方图由于颜色空间是三维的，具有相同的三通道独立分布，但其联合分布并不为一。这种不考虑联合分布的方法，会导致在结果集中不相似的图像数目增加。

距离和相似度度量

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1, x2, x3, … x n），Y=（y1, y2, y3, … y n）。下面来看看主要可以用哪些方法来衡量两者的差异，主要分为距离度量和相似度度量。距离度量距离度量（Distance）用于衡量个体在空间上存在的距离，距离越远说明个体间的差异越大。欧几里得距离(Euclidean Distance) 欧氏距离是最常见的距离度量，衡量的是多维空间中各个点之间的绝对距离。公式如下：因为计算是基于各维度特征的绝对数值，所以欧氏度量需要保证各维度指标在相同的刻度级别，比如对身高（cm）和体重（kg）两个单位不同的指标使用欧式距离可能使结果失效。明可夫斯基距离(Minkowski Distance) 明氏距离是欧氏距离的推广，是对多个距离度量公式的概括性的表述。公式如下：这里的p值是一个变量，当p=2的时候就得到了上面的欧氏距离。曼哈顿距离(Manhattan Distance) 曼哈顿距离来源于城市区块距离，是将多个维度上的距离进行求和后的结果，即当上面的明氏距离中p=1时得到的距离度量公式，如下：

切比雪夫距离(Chebyshev Distance) 切比雪夫距离起源于国际象棋中国王的走法，我们知道国际象棋国王每次只能往周围的8格中走一步，那么如果要从棋盘中A格(x1, y1)走到B格(x2, y2)最少需要走几步？扩展到多维空间，其实切比雪夫距离就是当p趋向于无穷大时的明氏距离：其实上面的曼哈顿距离、欧氏距离和切比雪夫距离都是明可夫斯基距离在特殊条件下的应用。马哈拉诺比斯距离(Mahalanobis Distance) 既然欧几里得距离无法忽略指标度量的差异，所以在使用欧氏距离之前需要对底层指标进行数据的标准化，而基于各指标维度进行标准化后再使用欧氏距离就衍生出来另外一个距离度量——马哈拉诺比斯距离（Mahalanobis Distance），简称马氏距离。相似度度量相似度度量（Similarity），即计算个体间的相似程度，与距离度量相反，相似度度量的值越小，说明个体间相似度越小，差异越大。向量空间余弦相似度(Cosine Similarity) 余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。公式如下：皮尔森相关系数(Pearson Correlation Coefficient) 即相关分析中的相关系数r，分别对X和Y基于自身总体标准化后计算空间向量的余弦夹角。公式如下：

数据挖掘期末

（一）概述为什么要数据挖掘（Data Mining）？存在可以广泛使用的大量数据，并且迫切需要将数据转转换成有用的信息和知识什么是数据挖掘？数据挖掘（Data Mining）是指从大量数据中提取或“挖掘”知识。对何种数据进行数据挖掘？关系数据库、数据仓库、事务数据库空间数据超文本和多媒体数据时间序列数据流数据（二）数据预处理为什么要预处理数据？为数据挖掘过程提供干净、准确、简洁的数据，提高数据挖掘的效率和准确性，是数据挖掘中非常重要的环节；数据库和数据仓库中的原始数据可能存在以下问题：定性数据需要数字化表示不完整含噪声度量单位不同维度高数据的描述度量数据的中心趋势：均值、加权均值、中位数、众数度量数据的离散程度：全距、四分位数、方差、标准差基本描述数据汇总的图形显示：直方图、散点图度量数据的中心趋势集中趋势：一组数据向其中心值靠拢的倾向和程度。集中趋势测度：寻找数据水平的代表值或中心值。常用的集中趋势的测度指标：均值：缺点：易受极端值的影响中位数：对于不对称的数据，数据中心的一个较好度量是中位数特点：对一组数据是唯一的。不受极端值的影响。众数：一组数据中出现次数最多的变量值。特点：不受极端值的影响。有的数据无众数或有多个众数。

度量数据的离散程度反映各变量值远离其中心值的程度（离散程度），从另一个侧面说明了集中趋势测度值的代表程度。常用指标：全距（极差）：全距也称极差，是一组数据的最大值与最小值之差。 R=最大值-最小值组距分组数据可根据最高组上限-最低组下限计算。受极端值的影响。四分位距 (Inter-Quartilenge, IQR)：等于上四分位数与下四分位数之差（q3-q1）反映了中间50%数据的离散程度，数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。四分位数：把顺序排列的一组数据分割为四（若干相等）部分的分割点的数值。分位数可以反映数据分布的相对位置（而不单单是中心位置）。在实际应用中四分位数的计算方法并不统一（数据量大时这些方法差别不大）。对原始数据： SPSS中四分位数的位置为(n+1)/4， 2(n+1)/4， 3 (n+1)/4。 Excel中四分位数的位置分别为(n+3)/4， 2(n+1)/4，（3 n+1)/4。如果四分位数的位置不是整数，则四分位数等于前后两个数的加权平均。方差和标准差：方差是一组数据中各数值与其均值离差平方的平均数，标准差是方差正的平方根。是反映定量数据离散程度的最常用的指标。基本描述数据汇总的图形显示直方图(Histogram)：使人们能够看出这个数据的大体分布或“形状” 散点图如何进行预处理定性数据的数字化表示：二值描述数据的数字化表示例如：性别的取值为“男”和“女”，男→1，女→0 多值描述数据的数字化表示例如：信誉度为“优”、“良”、“中”、“差” 第一种表示方法：优→1，良→2，中→3，差→4 第二种表示方法：

相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。对常用的相似性度量作一个总结。1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6.马氏距离7.夹角余弦8.汉明距离9.杰卡德距离& 杰卡德相似系数10.相关系数& 相关距离11.信息熵12.兰氏距离13.斜交空间距离14.最大-最小相似度15.指数相似度16.KL距离 1. 欧氏距离(EuclideanDistance) 欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。 (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离：三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离： (2)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离：也可以用表示成向量运算的形式： (4)Matlab计算欧氏距离 Matlab计算距离主要使用pdist函数。若X是一个M×N的矩阵，则pdist(X)将X矩阵M行的每一行作为一个N维向量，然后计算这M个向量两两间的距离。例子：计算向量(0,0)、(1,0)、(0,2)两两间的欧式距离 X= [0 0 ; 1 0 ; 0 2] D= pdist(X,'euclidean') 结果： D= 1.0000 2.0000 2.2361 2. 曼哈顿距离(ManhattanDistance)又称绝对值距离从名字就可以猜出这种距离的计算方法了。想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”。而这也是曼哈顿距离名称的来源，曼哈顿距离也称为城市街区距离(CityBlock distance)。 (1)二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离

数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。它用表组织数据，采用ER数据模型。相似：它们都为数据挖掘提供了源数据，都是数据的组合。 1.3 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。答：特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12% （支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。解答：先判定中位数区间：N=200+450+300+1500+700+44=3194；N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500； ∴ 20~50 对应中位数区间。

相似度的计算

一．相似度的计算简介关于相似度的计算，现有的几种基本方法都是基于向量（Vector）的，其实也就是计算两个向量的距离，距离越近相似度越大。在推荐的场景中，在用户 - 物品偏好的二维矩阵中，我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。下面我们详细介绍几种常用的相似度计算方法： ●皮尔逊相关系数（Pearson Correlation Coefficient）皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度，它的取值在 [-1，+1] 之间。 s x , s y 是 x 和 y 的样品标准偏差。类名：PearsonCorrelationSimilarity 原理：用来反映两个变量线性相关程度的统计量范围：[-1,1]，绝对值越大，说明相关性越强，负相关对于推荐的意义小。说明：1、不考虑重叠的数量；2、如果只有一项重叠，无法计算相似性（计算过程被除数有n-1）；3、如果重叠的值都相等，也无法计算相似性（标准差为0，做除数）。该相似度并不是最好的选择，也不是最坏的选择，只是因为其容易理解，在早期研究中经常被提起。使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的，并且数据至少在逻辑范畴内必须是等间距的数据。Mahout中，为皮尔森相关计算提供了一个扩展，通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。 ●欧几里德距离（Euclidean Distance）最初用于计算欧几里德空间中两个点的距离，假设 x，y 是 n 维空间的两个点，它们之间的欧几里德距离是：可以看出，当 n=2 时，欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度，一般采用以下公式进行转换：距离越小，相似度越大。

基于面匹配的模型相似性度量方法

优先出版计算机应用研究第32卷 -------------------------------- 基金项目：黑龙江省教育厅科学技术研究资助项目(12541125) 作者简介：高雪瑶(1979-)，女，黑龙江省哈尔滨市人，副教授硕导，博士，主要研究方向为计算机图形学与CAD(gaoxueyao@https://www.doczj.com/doc/c512475075.html,)；姜宏山(1989-)，男，硕士研究生，主要研究方向为计算机图形学与CAD ；张春祥(1974-)，男，教授硕导，博士，主要研究方向为计算机图形学与自然语言处理；卢志茂(1972-)，男，教授硕导，博士，主要研究方向为自然语言处理．基于面匹配的模型相似性度量方法 * 高雪瑶1a ，姜宏山1a ，张春祥1b ，卢志茂2 (1．哈尔滨理工大学 a ．计算机科学与技术学院；b ．软件学院，哈尔滨 150080；2．大连理工大学计算机科学与技术学院，辽宁大连 116024) 摘要：模型相似性度量是CAD 模型检索中的一个重要问题。为了准确地衡量两个模型的相似程度，本文提出了一种基于面匹配的模型相似性计算方法。使用面邻接图表示模型的拓扑结构，根据面的组成边数来构造两个模型之间的面匹配矩阵，同时，使用贪心算法来计算模型之间的相似性。在实验中，使用本文所提出的方法来度量目标CAD 模型和源CAD 模型之间的相似程度。实验结果表明：该方法能够有效地衡量模型之间的差异。关键词：模型相似性；面邻接图；面匹配矩阵；贪心算法中图分类号：TP391.7 文献标志码：A Method of model similarity measurement based on face matching GAO Xue-yao 1a , JIANG Hong-shan 1a , ZHANG Chun-xiang 1b , LU Zhi-mao 2 (1. a. School of Computer Science & Technology, b. School of Software, Harbin University of Science & Technology, Harbin 150080, China; 2. School of Computer Science & Technology, Dalian University of Technology, Dalian 116024, China) Abstract: Model similarity measurement is an important problem in retrieval of CAD models. In order to measure the similarity degree between two models precisely, this paper proposes a method to compute the similarity of models based on face matching. It uses a face relational graph to express the topological structure in the model and constructs the face matching matrix between two models. At the same time, it applies the greedy algorithm to compute the similarity between these two models. In experiments, it uses the proposed method of this paper to measure the similarity degree between target CAD model and source CAD model. Experimental results show that the method can measure the difference of models efficiently. Key Words: model similarity; face relational graph; face matching matrix; greedy algorithm 0 引言 CAD 模型相似性计算是三维模型检索中的重要组成部分，对检索系统的效率和可靠性都有着很大程度的影响。针对现有模型检索算法对局部细节特征描述不充分的现状，白晓亮提出了一种基于最大公共子图的三维CAD 模型检索算法。提取CAD 模型的B-Rep 信息，使用属性邻接图来表示模型。利用最大公共子图来检测CAD 模型中所包含的相似特征，根据相似特征来实现CAD 模型的相似性评价[1]。张欣提出了一种利用属性图来比较CAD 模型形状相似性的算法。根据图的邻接矩阵和顶点属性来构造图顶点序列，通过动态编程求出最大公共子图，得到CAD 模型之间的形状相似度。根据求出的未知模型与已知模型之间的形状相似度，利用概率方法来实现未知模型的自动语义标注[2]。王小凤提取三维模型深度图像边界方向的直方图和Zernike 矩特征，利用特征距离来度量两个模型之间的相似性[3]。王洪申利用模型的B-rep 表示过滤出与欲检索结构组成面相似的面。通过删除不相关的面，将可能相似的局部结构从待检索模型中分离出来。利用二分图最优匹配算法计算分离出来的结构和欲检索结构之间的相似系数，以度量模型之间的相似程度 [4]。Tao 使用面属性关系图来表示CAD 模型，将实体模型的表面边界分解为局部凸面、凹面和平面。在分解过程中，保持其突出几何特征数量的最小化。利用区域代码来描述表面区域以及它们在CAD 模型中的连接关系。通过比较区域属性代码来评估两个模型之间的相似性[5]。Wang 在三维模型表面任取若干个点，记录每个点的法向量，连接任意两点形成线段。计算线段的欧几里得距离，求出两端点的法向量与该线段的夹角。根据两个夹角将所得线段分为三个集合。针对每个集合，使用欧几里得距离来构造形状分布曲线。通过比较模型的三条形状分布曲线来求出两个模型的相似度[6]。Supasasi 使用Reeb 图来表示三维模型的结构属性，将其分解为若干个子部件。利用姿态无关的形状符号来描述每一个子部件的表面。使用最大公共子图来表示其拓扑结构，以度量三维模型之间的相似程度[7]。Wei

距离和相似性度量

距离和相似性度量相似性度量或者距离函数对于像聚类，邻域搜索这样的算法是非常重要的。前面也提到，网页去重复也是相似性应用的一个例子。然而，如何定义个合适的相似或者距离函数，完全依赖于手头的任务是什么。一般而言，定义一个距离函数d(x,y),需要满足以下几个准则：1. d(x,x) = 0 ;//到自己的距离为0 2. d(x,y)>=0 // 距离要非负 3. 对称性，d(x,y) = d(y,x) //如果A到B距离是a，那么B 到A的距离也应该是a 4. 三角形法则(两个之和大于第三边）d(x,k)+ d(k,y) >= d(x,y) 满足这4个条件的距离函数很多，一般有几类是比较常见的，通常来自比较直观的形象，如平面的一个两点的直线距离。下面讨论应用比较广泛的几类距离或相似性度量函数，欧拉距离，余弦函数cosine，Pearson函数，Jaccard index，edit distance。如果一个对象d(如：一篇文档）表示成一个n维的向量（d1,d2,….,dn),每一个维度都为对象的一个特征，那么这些度量函数极容易得到应用。1.范数和欧拉距离欧拉距离，来自于欧式几何（就是我们小学就开始接触的几何学），在数学上也可以成为范数。如果一个对象对应于空

间的一个点，每一个维度就是空间的一个维度。特殊情况，如果n=1，那么，小学我们就学过，直线上两个点的距离是|x1-x2|。推广到高纬情况，一个很自然的想法是，把每一个维度的距离加起来不就可以呢。这就形成了传说中的一范数：看，是不是很简单。有一范数就有二范数，三范数。。。无穷范数。其实，二范数来的更加直观，我们都知道二维空间，三维空间的两点的距离公式。他就是二范数，在二维三维上的形式了。好了，一鼓作气,p范数(p-norm) 无穷范数：空间两点的距离公式（2-范数），是最常用的距离公式，他就是传说中的欧拉距离。多简单。2. cosine similarity cosine similarity是备受恩宠啊，在学向量几何的时候，应该接触过这个神奇的公式分子是两个向量的点积，||A||是向量的长度，这个公式神奇的地方是，随着角度的变化的，函数是从-1，1变化的。向量夹角的余弦就是两个向量的相似度。cosine similarity 说，如果两个向量的夹角定了，那么无论一个向量伸长多少倍，他们的相似性都是不变的。所以，应用cosine 相似性之前，要把对象的每一个维度归一化。在搜索引擎技术中，cosine 相似性在计算查询和文档的相似性的时得到了很好的应用。对查询

相似度的计算

相似度计算 1相似度的计算简介关于相似度的计算，现有的几种基本方法都是基于向量（Vector）的，其实也就是计算两个向量的距离，距离越近相似度越大。在推荐的场景中，在用户-物品偏好的二维矩阵中，我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。下面我们详细介绍几种常用的相似度计算方法： 1.1皮尔逊相关系数（Pearson Correlation Coefficient）皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度，它的取值在 [-1，+1] 之间。 s x , s y 是 x 和 y 的样品标准偏差。类名：PearsonCorrelationSimilarity 原理：用来反映两个变量线性相关程度的统计量范围：[-1,1]，绝对值越大，说明相关性越强，负相关对于推荐的意义小。说明：1、不考虑重叠的数量；2、如果只有一项重叠，无法计算相似性（计算过程被除数有n-1）；3、如果重叠的值都相等，也无法计算相似性（标准差为0，做除数）。该相似度并不是最好的选择，也不是最坏的选择，只是因为其容易理解，在早期研究中经常被提起。使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的，并且数据至少在逻辑范畴内必须是等间距的数据。Mahout中，为皮尔森相关计算提供了一个扩展，通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。

1.2欧几里德距离（Euclidean Distance）最初用于计算欧几里德空间中两个点的距离，假设 x，y 是 n 维空间的两个点，它们之间的欧几里德距离是：可以看出，当 n=2 时，欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度，一般采用以下公式进行转换：距离越小，相似度越大。类名：EuclideanDistanceSimilarity 原理：利用欧式距离d定义的相似度s，s=1 / (1+d)。范围：[0,1]，值越大，说明d越小，也就是距离越近，则相似度越大。说明：同皮尔森相似度一样，该相似度也没有考虑重叠数对结果的影响，同样地，Mahout通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。 1.3Cosine 相似度（Cosine Similarity） Cosine 相似度被广泛应用于计算文档数据的相似度：类名： UncenteredCosineSimilarity 原理：多维空间两点与所设定的点形成夹角的余弦值。范围：[-1,1]，值越大，说明夹角越大，两点相距就越远，相似度就越小。说明：在数学表达中，如果对两个项的属性进行了数据中心化，计算出来的余弦相似度和皮尔森相似度是一样的，在mahout中，实现了数据中心化的过程，所以皮尔森相似度值也是数据中心化后的余弦相似度。另外在新版本中，Mahout提供了UncenteredCosineSimilarity类作为计算非中心化数据的余弦相似度。

数据挖掘之相似性度量

数据挖掘之相似性度量机器学习或数据挖掘，就是在数据中寻求答案的算法。而寻求的答案就是训练完成的数据模型。大部分的数据建模方法都属于这两种： 1）数据汇总，对数据进行简洁的近似描述如pagerank、聚类 2）特征抽取如频繁项集（同时频繁出现的元素子集）、相似项（共同元素比例较高的集合对）在机器学习或数据挖掘之前，还需要概率，或信息论的一些相关知识，现实世界的对象需要转换为计算机的度量方式。 1. TF.IDF 2. 熵的相关概念 3. 相似度的度量及计算 4. 对文本相似度的分析 5. 局部敏感Hash的分析LSH 6. 查找相似项的处理流程 7. 几种距离度量方式相关知识： 1. TF.IDF 文本分类时，一个重要指标：TF.IDF，分为两个阶段：同一文档中的统计；以文档为粒度，所有文档的统计。 TF： term frequency 词项频率，同一篇文档中，所有词项出现频率的归一化 IDF：inverse document frequency 逆文档频率，所有文档数目，与某一词出现的

文档的数目的比率关系其中的关系：不仅仅是一个公式，里面包含了信息论中熵的概念。IDF就是一个特定条件下关键词的概率分布的交叉熵。应用了对数运算。 2. 熵的相关概念熵，表示信息量的大小，与概率相关。随机变量的不确定性越大，即概率小，其熵也就越大，将其搞清楚，所需的信息量也就越大。 -Pi * log(2, Pi) 求和。一个系统越混乱，则每个变量的概率越小，其熵也就越大。信息论在通信编码的表示也是一样的，一个变量，在系统中的概率越小，其编码也就越长，因为短的编码要留给概率大的变量。即熵越大，其编码也就越长，这样压缩的效率就比较高。发送一段信息，其需要的编码长度（二进制），也就是 -Pi * log(2, Pi) 求和。或者，可以说，熵越大，信息量越大，一个概率较低的词，可能就是系统信息比较关键的词。互信息：两个随机变量的相关/依赖程度，可以用来解释一个变量已知时，另外一个变量的不确定的变化。即不确定信息的减少量。自信息：一个随机变量（信源）发出的信息，这个信息所带来的信息量的度量。一次事件发生的提供的信息量-log(2, Pi)，有时与熵的含义相同（当事件只发生一次时）。而熵是平均信息量，所有自信息的期望。当信息确定时，确定场（无随机性）的熵最小。等概场的熵最大。熵率：又称字符熵、词熵。信息量的大小随着消息长度的增加而增加。-（1/n）（求和Pi*log(2, Pi)）联合熵：同联合分布函数的形式类似，联合随机变量所表示的平均信息量（期望）。H(x, y) = -求和P(x,y) log(2, P(x, y)) 条件熵：H(y|x) = -求和P(x,y) log(2, P(y|x)) 联合熵 = 条件熵 + 单变量熵, H(x, y) = H(y|x) + H(x) 互信息的熵 I (x; y) = H(x) - H(y | x) = H(y) - H(y|x), 描述了X中包含有多少Y的信息量，或者是Y中包含了多少X的信息量。当X, Y相互独立，则其互信息为0. 当I(x; y) >> 0，则两个事件X,Y高度相关；当I（x; y）<<0，则两个事件X，Y 互补分布。