机器学习中距离与相似度度量

格式：ppt
大小：812.00 KB
文档页数：21

下载文档原格式

/ 21

knn 余弦相似度和欧式距离

KNN算法在机器学习领域中被广泛应用，它是一种监督学习算法，用于分类和回归。

KNN算法的核心思想是基于已知类别的数据集，通过测量新数据点与已知类别数据点之间的距离来进行分类。

在KNN算法中，常用的距离度量有欧氏距离和余弦相似度。

在本文中，我们将深入探讨这两种距离度量的特点和应用，以便更好地理解它们在KNN算法中的作用。

1. 欧氏距离欧氏距离是最常见的距离度量方式之一，它衡量的是两个点之间的直线距离。

在二维空间中，欧氏距离的计算公式为：\[d(x,y) = \sqrt{(x1-y1)^2 + (x2-y2)^2}\]其中，\(x\)和\(y\)分别是两个点的坐标，\(x1\)和\(y1\)是\(x\)和\(y\)的第一个维度的坐标，\(x2\)和\(y2\)是\(x\)和\(y\)的第二个维度的坐标。

2. 余弦相似度余弦相似度是衡量两个向量方向的夹角的相似程度，它不考虑向量的大小。

在KNN算法中，常用余弦相似度来衡量特征向量之间的相似程度。

余弦相似度的计算公式为：\[similarity = \frac{A \cdot B}{||A|| \times ||B||}\]其中，\(A\)和\(B\)分别是两个特征向量，\(A \cdot B\)是\(A\)和\(B\)的点积，\(||A||\)和\(||B||\)分别是\(A\)和\(B\)的范数。

3. 欧氏距离和余弦相似度的比较欧氏距离和余弦相似度在KNN算法中的作用略有不同。

欧氏距离更适用于数值型特征，它能够更好地反映不同特征之间的绝对距离。

而余弦相似度更适用于文本分类、推荐系统等领域，它能够更好地反映特征向量之间的相对方向。

4. 个人观点和理解在实际应用中，选择欧氏距离还是余弦相似度取决于数据的特征和具体情况。

在处理数值型特征时，欧氏距禿更能反映特征之间的绝对距离，更适合于KNN算法的分类。

而在处理文本分类、推荐系统等领域时，余弦相似度能更好地反映特征向量之间的相对方向，更适合于KNN算法的应用。

milvus相似度距离参数

milvus相似度距离参数Milvus是一个开源的向量相似度搜索引擎，特别适用于大规模向量检索任务。

它为用户提供了高效的相似度计算和快速的向量搜索功能，可以在海量数据中迅速找到与查询向量最相似的向量。

在Milvus中，相似度计算是通过距离度量来实现的，其中常用的距离度量方法包括欧氏距离、内积和汉明距离等。

Milvus的相似度计算主要有两种方法：基于内积的相似度计算和基于汉明距离的相似度计算。

基于内积的相似度计算是通过计算向量之间的内积来衡量相似度，其计算方法简单高效。

而基于汉明距离的相似度计算则是通过计算向量之间的汉明距离来衡量相似度，适用于二进制向量的相似度计算。

在Milvus中，用户可以选择不同的参数来优化相似度搜索的效果。

以下是一些常见的参数及其相关参考内容：1. 距离度量方法参数：Milvus支持多种距离度量方法，包括欧氏距离（L2）、内积和汉明距离等。

用户可以根据具体的需求选择合适的距离度量方法。

更多有关这些不同距离度量方法的详细介绍，可以参考相关的机器学习和数据挖掘教材，如《机器学习》（周志华著）。

2. 距离度量参数设置：对于欧氏距离（L2）和内积等距离度量方法，用户可以设置距离阈值参数，用于筛选出与查询向量距离小于阈值的相似向量。

具体的参数设置可以根据实际应用场景进行调整。

相关的参数调优技巧可以参考文献《近似最近邻查询技术综述》。

3. 高效索引结构参数：Milvus提供了多种高效索引结构，包括倒排索引（IVF）、多索引结构（HNSW、PQ）等。

用户可以根据数据特点选择合适的索引结构，以提高搜索效率和准确度。

关于不同索引结构的介绍和性能对比，可以参考《快速近似最近邻搜索算法综述》（李春著）。

4. 量化参数：对于二进制向量的相似度计算，Milvus提供了量化方法，将高维向量转换为低维二进制码，从而加速相似度计算和搜索过程。

用户可以根据数据特点和搜索需求设置不同的量化参数。

更多关于量化方法的详细介绍，可以参考相关论文《Scalable Distance Informed Locality Sensitive Hashing for Large Scale Similarity Search》。

反权重距离法-概述说明以及解释

反权重距离法-概述说明以及解释1.引言1.1 概述在数据分析和机器学习领域，距禮度量一直是一个关键的问题。

传统的距离度量方法往往无法充分考虑特征的权重对距离计算的影响，导致结果的偏差和不准确性。

为了解决这一问题，近年来提出了一种新的距离度量方法——反权重距离法。

反权重距离法是一种考虑特征权重的距离度量方法，它通过给不同特征赋予不同的权重，从而更准确地度量对象之间的相似性或差异性。

该方法在数据挖掘、模式识别和聚类分析等领域具有广泛的应用价值。

本文将详细介绍反权重距离法的概念、应用和优势，希望能为读者提供一种新的思路和方法，提高数据分析和机器学习的准确性和效率。

1.2 文章结构本文主要分为三个部分，分别是引言、正文和结论。

在引言部分，首先对反权重距离法进行了概述，介绍了该方法的基本概念和应用领域。

接着对本文的结构进行了说明，为读者提供了一个整体的阅读框架。

最后，阐明了本文的研究目的，为读者提供了对本文的整体把握。

在正文部分，将详细介绍反权重距离法的概念、应用和优势。

首先，将对反权重距离法的基本原理和算法进行深入解析，帮助读者理解其实质。

然后，将展示反权重距离法在实际应用中的具体案例，说明其在实践中的价值和效果。

最后，探讨反权重距离法相较于其他方法的优势所在，为读者提供了一个全面的认识。

在结论部分，将对全文的内容进行总结，概括了反权重距离法的概念、应用和优势，强调了该方法的重要性和价值。

此外，还对未来可能的研究方向进行展望，为本领域的研究提供了一定的参考。

最后，得出了本文的结论，总结了文章的主要内容和观点，为读者提供了一个清晰的全局概述。

1.3 目的：本文旨在介绍和探讨反权重距离法在数据分析和模式识别领域的应用和优势。

通过深入理解反权重距离法的概念和原理，读者将能够更好地利用该方法进行数据分析和模式识别工作。

同时，本文还旨在指导读者如何在实际应用中灵活运用反权重距离法，为其解决实际问题提供有效的方法和工具。

机器学习中距离和相似性度量方法

机器学习中距离和相似性度量方法距离和相似性度量是机器学习中一种重要的数学工具，用于衡量数据集中样本之间的相似性或差异。

在许多机器学习算法中，距离和相似性度量方法被广泛应用于分类、聚类、降维等任务中，帮助机器学习模型更好地理解和处理数据。

下面将介绍一些常见的距离和相似性度量方法。

1. 欧几里得距离(Euclidean distance)：欧几里得距离是最常用的距离度量方法之一，用于计算两个向量之间的直线距离。

对于两个n维向量x和y，欧几里得距离可以表示为：d(x, y) = sqrt((x1-y1)^2 + (x2-y2)^2 + ... + (xn-yn)^2)2. 曼哈顿距离(Manhattan distance)：曼哈顿距离是另一种常见的距离度量方法，用于计算两个向量之间的路径距离。

对于两个n维向量x和y，曼哈顿距离可以表示为：d(x, y) = ，x1-y1， + ，x2-y2， + ... + ，xn-yn3. 闵可夫斯基距离(Minkowski distance)：闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广，可以根据参数p的不同取值决定使用欧几里得距离还是曼哈顿距离。

对于两个n维向量x和y，闵可夫斯基距离可以表示为：d(x, y) = ((，x1-y1，^p) + (，x2-y2，^p) + ... + (，xn-yn，^p))^1/p4. 切比雪夫距离(Chebyshev distance)：切比雪夫距离是曼哈顿距离的推广，用于计算两个向量之间的最大绝对差距。

对于两个n维向量x和y，切比雪夫距离可以表示为：d(x, y) = max(，x1-y1，, ，x2-y2，, ..., ，xn-yn，)5. 余弦相似度(Cosine similarity)：余弦相似度是一种广泛用于文本和稀疏数据的相似性度量方法。

对于两个n维向量x和y，余弦相似度可以表示为：sim(x, y) = (x·y) / (，x，*，y，)其中，x·y表示向量x和y的点积，x，和，y，表示向量x和y的范数。

标准化欧氏距离

标准化欧氏距离
标准化欧氏距离是一种常用的距离度量方法，它可以用于衡量两个向量之间的相似度。

在机器学习和数据挖掘领域，标准化欧氏距离被广泛应用于聚类、分类、回归等任务中。

标准化欧氏距离是欧氏距离的一种变形，它将每个特征值除以其标准差，使得所有特征值的方差都为1。

这样做的目的是消除不同特征值之间的量纲差异，使得它们在计算距离时具有相同的权重。

标准化欧氏距离的计算公式如下：
d(x,y) = sqrt(sum((xi-yi)^2/si^2))
其中，xi和yi分别表示向量x和y的第i个特征值，si表示向量x 和y在第i个特征上的标准差。

标准化欧氏距离的优点在于它可以避免特征值之间的量纲差异对距离计算的影响。

例如，如果一个特征值的取值范围很大，那么它在计算距离时会对结果产生更大的影响，而标准化欧氏距离可以消除这种影响，使得所有特征值都具有相同的权重。

标准化欧氏距离还可以用于处理稀疏数据。

在稀疏数据中，很多特征值都是0，这样计算欧氏距离时会导致距离偏大。

而标准化欧氏距离可以将所有特征值都缩放到相同的范围内，从而避免这种问题。

在实际应用中，标准化欧氏距离常常与其他距离度量方法一起使用。

例如，在聚类算法中，可以先使用标准化欧氏距离计算相似度矩阵，然后再使用层次聚类或K均值算法进行聚类。

在分类算法中，可以使用标准化欧氏距离作为特征选择的评价指标，选择具有较高相似度的特征进行分类。

标准化欧氏距离是一种简单而有效的距离度量方法，它可以消除特征值之间的量纲差异，避免稀疏数据的问题，适用于各种机器学习和数据挖掘任务。

距离测度与相似度测度的比较论文素材

距离测度与相似度测度的比较论文素材距离测度与相似度测度的比较在数据分析、机器学习和模式识别领域中，距离测度和相似度测度是两个常用的计算方法。

它们在寻找样本之间的关系、分类和聚类等任务中起着重要的作用。

本文将探讨距离测度和相似度测度的特点，并对它们进行比较。

一、距离测度距离测度是用来衡量两个样本之间的差异或相似性的方法。

常见的距离测度包括欧氏距离、曼哈顿距离和闵可夫斯基距离等。

欧氏距离是最常用的距离测度之一。

它通过计算两个样本间相应维度的差值的平方和的平方根来衡量其距离。

欧氏距离计算公式如下：d(x, y) = √[∑(xi - yi)²]其中，xi和yi分别代表样本x和样本y的某个特征的取值。

欧氏距离越小，说明两个样本的特征越相似。

曼哈顿距离是另一种常见的距离测度。

它通过计算两个样本间相应维度的差值的绝对值和来衡量其距离。

曼哈顿距离计算公式如下：d(x, y) = ∑|xi - yi|与欧氏距离相比，曼哈顿距离更适合于特征具有明显分割的情况。

闵可夫斯基距离是欧氏距离和曼哈顿距离的推广。

它可以根据具体需求调节参数来控制距离的形式。

闵可夫斯基距离计算公式如下：d(x, y) = (∑(|xi - yi|)ᵖ)^(1/p)其中，p是一个可调的参数。

当p=1时，等价于曼哈顿距离；当p=2时，等价于欧氏距离。

二、相似度测度相似度测度是用来衡量两个样本之间的相似程度的方法。

相似度测度的结果通常在0到1之间，越接近1表示两个样本越相似，越接近0表示两个样本越不相似。

常用的相似度测度包括余弦相似度、相关系数和Jaccard相似系数等。

余弦相似度是用来衡量两个样本在向量空间中的夹角的方法。

余弦相似度计算公式如下：sim(x, y) = (x·y) / (||x|| · ||y||)其中，x和y分别代表样本x和样本y在向量空间上的向量表示。

相关系数是用来衡量两个样本变量之间关联程度的方法。

欧氏距离模型

欧氏距离模型欧氏距离模型是一种基于欧氏距离度量的模型，用于度量对象在多维空间中的相似度。

在数据挖掘、机器学习、模式识别等领域中，欧氏距离模型被广泛应用，是许多算法的基石。

一、什么是欧氏距离模型欧氏距离模型是基于欧氏距离的相似性度量模型，可以用于许多应用领域。

在二维空间中，欧氏距离表示两个点之间的直线距离，以勾股定理为基础，假设一个点的坐标为(x1,y1)，另一个点的坐标为(x2,y2)，则它们之间的欧氏距离为：d=sqrt((x2-x1)^2+(y2-y1)^2)。

在多维空间中，欧氏距离的计算方式类似，假设有两个n维向量x和y，则它们之间的欧氏距离为d=sqrt((x1-y1)^2+(x2-y2)^2+...+(xn-yn)^2)。

二、欧氏距离模型的应用欧氏距离模型在机器学习、数据挖掘、模式识别等领域中得到广泛应用。

以下是几个示例：1. K-means算法K-means算法是聚类分析中的一种算法，它以欧氏距离为基础实现数据点的聚类。

该算法以欧氏距离为相似性度量，将数据点聚类到最近的聚类中心点，不断重复迭代直到聚类结果收敛。

2. K近邻算法K近邻算法是一种基于实例的学习方法，它以欧氏距离为度量计算待分类样本和已知样本之间的距离，选取距离最近的K个样本作为待分类样本的分类标签。

3. 特征选择特征选择是数据预处理的一个重要步骤，它通过对特征进行选择和抽取来提高分类器的性能。

特征之间的相关性通常使用欧氏距离来计算，选择与分类相关性强的特征进行训练和分类。

三、总结欧氏距离模型是一种基于欧氏距离度量的相似性度量模型。

它在很多领域中被广泛应用，如聚类分析、K近邻算法、特征选择等。

在应用欧氏距离模型时，需要遵循选择合适的参数和优化算法等原则来提高模型的性能和实际应用效果。

相似度检测算法

相似度检测算法相似度检测算法是一种用于比较两个文本或数据集之间相似程度的方法。

它在自然语言处理、信息检索、机器学习等领域具有广泛的应用。

本文将介绍相似度检测算法的原理、常用方法以及应用场景。

一、相似度检测算法的原理相似度检测算法的核心思想是将文本或数据集转化为数学表示，在数学空间中计算它们之间的距离或相似度。

常见的数学表示方法包括向量空间模型、词袋模型、TF-IDF模型等。

这些模型将文本转化为向量表示，通过计算向量之间的距离或相似度来判断文本之间的相似程度。

二、常用的相似度检测方法1. 余弦相似度：余弦相似度是一种常用的相似度度量方法，它通过计算两个向量的夹角余弦值来衡量它们的相似程度。

余弦相似度的取值范围为[-1, 1]，值越接近1表示两个向量越相似。

2. Jaccard相似度：Jaccard相似度是一种用于计算集合相似度的方法，它通过计算两个集合的交集与并集的比值来判断它们的相似程度。

Jaccard相似度的取值范围为[0, 1]，值越接近1表示两个集合越相似。

3. 编辑距离：编辑距离是一种用于计算字符串相似度的方法，它通过计算将一个字符串转换为另一个字符串所需的最少编辑操作次数来衡量它们的相似程度。

编辑操作包括插入、删除和替换字符。

1. 文本去重：相似度检测算法可以应用于文本去重，通过比较不同文本之间的相似度来判断它们是否重复。

这在信息检索、新闻聚合等领域有着广泛的应用。

2. 抄袭检测：相似度检测算法可以应用于抄袭检测，通过比较学术论文、新闻报道等文本与已有文献之间的相似度来判断是否存在抄袭行为。

3. 推荐系统：相似度检测算法可以应用于推荐系统，通过比较用户的兴趣与其他用户或物品之间的相似度来给用户推荐感兴趣的内容或商品。

四、相似度检测算法的优化相似度检测算法在处理大规模数据时可能面临效率和准确性的问题。

为了提高算法的效率和准确性，可以采取以下优化方法：1. 倒排索引：倒排索引是一种常用的优化方法，它通过将文本或数据集的特征信息以索引的方式存储，加快相似度计算的速度。

基于相似度度量的无监督学习算法研究

基于相似度度量的无监督学习算法研究相似度度量是无监督学习算法中的关键问题之一。

无监督学习是一种机器学习方法，其目标是从未标记的数据中发现隐藏的模式和结构。

相似度度量方法在无监督学习中扮演着重要的角色，它能够帮助我们衡量数据之间的相似性，从而为聚类、降维和异常检测等任务提供基础。

在无监督学习中，我们通常面临着大规模、高维度和复杂结构等挑战。

相似度度量算法通过计算数据之间的距离或相似性来解决这些问题。

常用的相似度度量方法包括欧氏距离、曼哈顿距离、余弦相似性等。

欧氏距离是最常用的相似度度量方法之一。

它通过计算两个数据点在每个维度上差值平方的和再开方来衡量它们之间的距离。

欧氏距离适用于连续型变量，并且对异常值比较敏感。

曼哈顿距离是另一种常见的相似度度量方法，它衡量两个数据点在每个维度上差值的绝对值之和。

与欧氏距离相比，曼哈顿距离更适用于处理离散型变量和具有较大的异常值。

余弦相似性是一种用于衡量两个向量之间夹角的相似度度量方法。

它计算两个向量的内积除以它们的模长乘积，从而得到它们之间的相似性。

余弦相似性适用于处理文本、图像和推荐系统等领域。

除了上述常见的相似度度量方法外，还有一些其他方法被广泛应用于无监督学习中。

例如，皮尔逊相关系数可以衡量两个变量之间的线性相关性；Jaccard系数可以衡量集合之间的相似性；哈尔滨斯距离可以衡量两个集合之间元素不匹配程度。

在无监督学习中，我们通常需要在数据集中找到具有高度相似性或相关性的数据点，并将它们划分到同一个簇中。

聚类是一种常见且重要的无监督学习任务，它可以帮助我们发现数据集中隐藏的模式和群组结构。

基于相似度度量方法进行聚类分析时，我们需要选择合适的相似度度量算法。

例如，K-means算法是一种常用的基于欧氏距离的聚类算法，它通过迭代优化簇内数据点的平方误差和来实现聚类。

DBSCAN算法则是一种基于密度的聚类算法，它通过计算数据点之间的密度来划分簇。

除了聚类分析外，相似度度量方法还可以应用于降维和异常检测等无监督学习任务中。

相似模型总结归纳

相似模型总结归纳在数据分析和机器学习领域，相似模型是一种常用的方法，用于捕捉数据之间的相似性。

基于相似模型的算法可以帮助我们进行聚类、分类、降维和推荐等任务。

本文将对几种常见的相似模型进行总结归纳，包括K近邻算法、余弦相似度、欧式距离和曼哈顿距离。

1. K近邻算法K近邻算法（K-Nearest Neighbors，KNN）是一种简单而常用的相似模型算法。

该算法基于一个假设：相似的事物在数据空间中聚集在一起。

KNN算法通过计算待分类样本与已知样本之间的距离，选取距离最近的K个点，并根据这K个点的标签进行分类。

KNN算法在分类、回归和异常检测等任务中均有广泛应用。

2. 余弦相似度余弦相似度是一种衡量向量之间相似性的方法，适用于处理文本和高维数据。

该方法计算向量之间的夹角余弦值，取值范围在[-1, 1]之间。

余弦相似度越接近1，表示两个向量越相似；越接近-1，表示两个向量越不相似；接近0表示两个向量在方向上没有关联。

余弦相似度在信息检索、文本挖掘和推荐系统等领域具有重要应用。

3. 欧式距离欧式距离是一种常用的距离度量方式，用于计算两个向量之间的距离。

该距离指的是在坐标空间中两个点的直线距离。

欧式距离广泛应用于聚类、分类和图像处理等问题。

在数据分析中，我们可以利用欧式距离来衡量不同样本之间的相似性或差异性。

4. 曼哈顿距离曼哈顿距离是一种计算向量之间距离的方法，也被称为曼哈顿度量。

该距离指的是在坐标空间中两个点的城市街区距离，即沿着网格线移动的最短距离。

曼哈顿距离与欧式距离相似，但不同之处在于曼哈顿距离只能沿坐标轴方向移动，无法斜向移动。

曼哈顿距离常用于聚类、路径规划和图像处理等任务中。

总结：相似模型是数据分析和机器学习中的重要概念，通过比较不同数据之间的相似性，可以帮助我们理解数据特征、进行分类和推荐等任务。

本文对几种常见的相似模型进行了总结归纳，包括K近邻算法、余弦相似度、欧式距离和曼哈顿距离。

这些相似模型在不同领域都有广泛的应用，可以根据具体问题选择合适的模型来解决。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习中距离和相似度计算方法
欧氏距离
闵可夫斯基距离
距离
曼哈顿距离
切比雪夫距离
改进闵可夫斯基距离标准化欧氏距离（加权）马氏距离余弦相似度
相似度度量
距离与度量相关
改进：调整余弦相似度
皮尔森相关系数 Jaccard相似系数
欧式距离和余弦相似度的比较
在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。根据数据特性的不同，可以采用不同的度量方法。一般而言，定义一个距离函数 d(x,y), 需要满足下面几个基本准则： 1) d(x,x) = 0 // 到自己的距离为0 2) d(x,y) >= 0 // 距离非负 3) d(x,y) = d(y,x) // 对称性: 如果 A 到 B 距离是a，那么 B 到 A 的距离也应该是 a 4) d(x,k)+ d(k,y) >= d(x,y) // 三角形法则: (两边之和大于第三边)
闵可夫斯基距离
闵可夫斯基距离（Minkowski distance）不是一种距离，而是一组距离的定义。
n p x1k x2 k k 1
ቤተ መጻሕፍቲ ባይዱ
1 p
该距离最常用的 p 是 2 和 1, 无穷大 •P=2是欧几里得距离（Euclidean distance）， •P=1是曼哈顿距离（Manhattan distance）。 •当 p 趋近于无穷大时，闵可夫斯基距离转化成切比雪夫距离（Chebyshev distance）
2.如果只有一个重叠项则无法计算相关性从数学上讲，若只有一个重叠的记录，那么至少有一组记录的标准差为0，导致分母为0 从这一点也可以看出，pearson系数不适用与小的或者非常稀疏的数据集。当然，这一特性也有它的好处，无法计算pearson系数可以认为这两组数据没有任何相关性。 3.Pearson系数对绝对数值不敏感考虑这三组数据，a:(1,2,3,4) b:(40,50,70,80) c:(50,60,70,80), 我们可以直观的认为b和c更为相似，它们的重叠评分数目一致，趋势也相同，记录a虽然也满足上述的条件，但是它整体数值很低。在现实中，有人习惯于给出更高的评分，而有人则恰恰相反。利用pearson计算它们之间的相似度为： a&b: 0.9899494936611665 b&c: 0.9899494936611665 a&c: 0.9999999999999999 可以看出pearson系数对绝对数值并不敏感，它确实只是描述了两组数据变化的趋势。
Jaccard相似系数(Jaccard Coefficient)
Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度，因为个体的特征属性都是由符号度量或者布尔值标识，因此无法衡量差异具体值的大小，只能获得“是否相同” 这个结果，所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。如果比较X与Y的Jaccard相似系数，只比较 xn和yn中相同的个数，公式如下：
补充：欧式距离和余弦相似度
（1）欧氏距离从向量间的绝对距离区分差异，计算得到的相似度值对向量各个维度内的数值特征非常敏感，而余弦夹角从向量间的方向夹角区分差异，对向量各个维度内的数值特征不敏感，所以同时修正了用户间可能存在的度量标准不统一的问题。（2）余弦夹角的值域区间为[-1,1]，相对于欧式距离的值域范围 [0,正无穷大],能够很好的对向量间的相似度值进行了量化。因此，在推荐系统场景下，推荐算法大都采用余弦夹角进行用户（或物品）的相似度计算。当然，欧氏距离能够体现个体数值特征的绝对差异，一般用于需要从维度的数值大小中体现差异的相关度分析。
缺点：
1. 未考虑重叠记录项的数量对相似度的影响上表中，行表示用户（1～5）对项目（101～103）的一些评分值。直观来看，User1和User5用3个共同的评分项，并且给出的评分趋势相同，User1与User4只有2个相同评分项，虽然他们的趋势也相似，但是由于102的未知，可能是User2对102 未发生行为，或者对102很讨厌，所以我们更希望User1和 User5更相似，但结果是User1与User4有着更高的结果。可以看出pearson系数只会对重叠的记录进行计算。
马式距离
若协方差矩阵是单位矩阵（各个样本向量之间独立同分布）, 则公式就成了：则Xi与Xj之间的马氏距离等于他们的欧氏距离。即：若协方差矩阵是对角矩阵，公式变成了标准化欧氏距离。标准化欧氏距离是在假设数据各个维度不相关的情况下，利用数据分布的特性计算出不同的距离。如果维度相互之间数据相关（例如：身高较高的信息很有可能会带来体重较重的信息，因为两者是有关联的），就要用到马氏距离
欧式距离
即：所有点的对应维度之差的平方的求和再开方。欧式距离相似度算法需要保证各个维度指标在相同的刻度级别，比如对身高、体重两个单位不同的指标使用欧氏距离可能使结果失效。
曼哈顿距离
曼哈顿距离来源于城市区块距离，是将多个维度上的距离进行求和后的结果
切比雪夫距离
切比雪夫距离（Chebyshev distance）是向量空间中的一种度量，二个点之间的距离定义为其各坐标数值差的最大值。从一个位置走到其他位置需要的步数恰为二个位置的切比雪夫距离，因此切比雪夫距离也称为棋盘距离。
简单说来，闵氏距离的缺点主要有两个： 1. 将各个分量的量纲(scale)，也就是“单位”当作相同的看待了。 2. 没有考虑各个分量的分布（期望，方差等)可能是不同的。
标准化欧氏距离
引入标准化欧式距离的原因是一个数据xi的各个维度之间的尺度不一样。比如v1=(100,10,30),v2 = (500,40,10)。对所有维度分别进行处理，使得各个维度分别满足标准正态分布。即
第三步，计算词频。句子A：这只1，皮靴1，号码2，大了1。那只1，合适1，不0，小0，更0 句子B：这只1，皮靴1，号码1，大了0。那只1，合适1，不1，小1，更1 第四步，写出词频向量。句子A：(1，1，2，1，1，1，0，0，0) 句子B：(1，1，1，0，1，1，1，1，1) 第五步，使用公式计算相似度计算结果：夹角的余弦值为0.81，非常接近于1，所以，上面的句子A和句子B是基本相似的
标准化：对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。同时不改变原始数据的分布。特点：1、保持各个特征维度对目标函数的影响权重 2、对目标函数的影响体现在几何分布上 3、在已有样本足够多的情况下比较稳定。归一化（区间缩放）：基于边界值（最大值，最小值），将值的区间缩放到某个特点的范围，如[0,1] 特点：1、对不同特征维度进行伸缩变换 2、改变原始数据的分布。使各个特征维度对目标函数的影响权重是一致的） 3、对目标函数的影响体现在数值上 4、把有量纲表达式变为无量纲表达式。
相似度度量
相似度度量（Similarity），即计算个体间的相似程度，与距离度量相反，相似度度量的值越小，说明个体间相似度越小，差异越大。
余弦相似度
两个向量越相似，向量夹角越小，余弦值的绝对值越大；值为负，两向量负相关。应用：文本的相似度和推荐系统等。
举个简单栗子：句子A：这只皮靴号码大了。那只号码合适句子B：这只皮靴号码不小，那只更合适怎样计算上面两句话的相似程度？基本思路：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。第一步，分词。句子A：这只/皮靴/号码/大了。那只/号码/合适。句子B：这只/皮靴/号码/不/小，那只/更/合适。第二步，列出所有的词。这只，皮靴，号码，大了。那只，合适，不，小，很
pearson是一个介于-1和1之间的值，用来描述两组线性的数据一同变化移动的趋势。相关系数>0，表明它们之间是正相关的。即当一个变量增大，另一个变量也增大；相关系数<0，表明它们之间是负相关的，如果一个变量增大，另一个变量却减小，；如果相关系数=0，表明它们之间不存在线性相关关系。
调整余弦相似度 (Adjusted Cosine Similarity)
虽然余弦相似度对个体间存在的偏见可以进行一定的修正，但是因为只能分辨个体在维之间的差异，没法衡量每个维数值的差异，会导致这样一个情况：比如用户对内容评分，5分制。（此处是两个内容） X评分为(1,2)，Y评分为(4,5)，使用余弦相似度得出的结果是 0.98。两者极为相似，但从评分上看X似乎不喜欢这2个内容，而Y比较喜欢，余弦相似度对数值的不敏感导致了结果的误差。
需要修正这种不合理性，就出现了调整余弦相似度，即所有维度上的数值都减去一个均值，比如X和Y的评分均值都是3，那么调整后为(-2,-1)和(1,2)，再用余弦相似度计算，得到-0.8，相似度为负值并且差异不小，但显然更加符合现实。
皮尔森相关系数
上面是总体相关系数，估算样本的协方差和标准差，可得到样本相关系数(样本皮尔逊系数)，常用英文小写字母 r 代表：
缺点：
举个栗子二维样本(身高,体重)，其中身高范围是150~190，体重范围是50~60，有三个样本：a(180,50)，b(190,50)， c(180,60)。那么a与b之间的闵氏距离（无论是曼哈顿距离、欧氏距离或切比雪夫距离）等于a与c之间的闵氏距离，但是身高的10cm等价于体重的10kg吗？因此用闵氏距离来衡量这些样本间的相似度有问题。
x1k x2 k d s k 1 k
n

2

k 1
n
x1k x2k 2
sk
2
如果将方差的倒数看成是一个权重，这个公式可以看成是一种加权欧氏距离(Weighted Euclidean distance)。
使不同规格的数据转换到同一规格标准化无量纲化归一化行列

机器学习中距离与相似度度量

合集下载

knn 余弦相似度和欧式距离

milvus相似度距离参数

反权重距离法-概述说明以及解释

机器学习中距离和相似性度量方法

标准化欧氏距离

距离测度与相似度测度的比较论文素材

欧氏距离模型

相似度检测算法

基于相似度度量的无监督学习算法研究

相似模型总结归纳

文档推荐

最新文档

机器学习中距离与相似度度量

合集下载

knn 余弦相似度和欧式距离

milvus相似度距离 参数

反权重距离法-概述说明以及解释

机器学习中距离和相似性度量方法

标准化欧氏距离

距离测度与相似度测度的比较论文素材

欧氏距离模型

相似度检测算法

基于相似度度量的无监督学习算法研究

相似模型总结归纳

文档推荐

最新文档

milvus相似度距离参数