协同过滤算法中一种改进相似度度量的方法

格式：pdf
大小：1.21 MB
文档页数：10

下载文档原格式

基于改进相似度的协同过滤算法研究

（ＳｃｈｏｏｌｏｆＭａｔｈｅｍａｔｉｃａｌＳｃｉｅｎｃｅｓ，ＵｎｉｖｅｒｓｉｔｙｏｆＥｌｅｃｔｒｏｎｉｃＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙｏｆＣｈｉｎａ，Ｃｈｅｎｇｄｕ６１１７３１，Ｃｈｉｎａ）
ＡｂｓｔｒａｃｔＣｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇｒｅｃｏｍｍｅｎｄｓａｎｄｐｒｅｄｉｃｔｓｔｈｅｔａｒｇｅｔｕｓｅｒ ’ ｓｐｒｅｆｅｒｅｎｃｅｓｂｙｕｓｉｎｇｈｉｓｎｅｉｇｈｂｏｒｕｓｅｒ ’ ｓ
ｔｅｄｉｔｅｍｎｕｍｂｅｒｒａｔｅｄｂｙｃｏｍｍｏｎｕｓｅｒｓ，ａｎｄｔｈｅｉｒａｖｅｒａｇｅｓｉｍｉｌａｒｉｔｙｒａｔｉｎｇ．Ｔｈａｔｃａｕｓｅｓｐｏｏｒｓｉｍｉｌａｒｉｔｙｄｅｓｃｒｉｐｔｉｏｎａｍｏｎｇｕｓｅｒｓｉｎｃａｓｅｏｆｄａｔａｓｐａｒｓｅ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅｄｔｗｏｆａｃｔｏｒｓｔｏｉｍｐｒｏｖｅｔｈｅｔｒａｄｉｔｉｏｎａｌｓｉｍｉｌａｒｉｔｙｃａｌｃｕｌａ — ｔｉｏｎ．Ｍｅａｎｗｈｉｌｅ，ｔｈｅｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｗａｓｉｍｐｒｏｖｅｄｗｉｔｈｔｈｅｉｍｐｒｏｖｅｄｓｉｍｉｌａｒｉｔｙａｎｄｉｔｉｓａｐｐｌｉｅｄｔｏｆｉｌｍｒｅｃｏｍｍｅｎｄａｔｉｏｎ．Ｓｉｍｕｌａｔｉｏｎｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｉｍｐｒｏｖｅｄｃｏｌｌａｂｏｒａｔｉｖｅｆｉｌｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｔｈｅｉｍｐｒｏｖｅｄｓｉｍｉ－

针对稀疏评分矩阵的改进协同过滤推荐算法

针对稀疏评分矩阵的改进协同过滤推荐算法周子亮，吴为民5 10 15 20 25 30 35 40（北京交通大学计算机与信息技术学院，北京100044）摘要：协同过滤推荐策略是推荐系统中应用最成功的个性化推荐策略，然而，数据匮乏一直是推荐系统发展所面临的重大挑战。

本文针对这一问题，从三个方面来应对用户评分矩阵的稀疏性问题：首先，调整相似度度量方法，其次，结合基于用户的协同过滤和基于项目的协同过滤，生成了新的预测模型，最后，提出了一种迭代预测算法。

论文最后使用MovieLens 数据集对算法进行评价，并对比其他传统算法。

实验结果表明改进算法能够更好的处理用户评分矩阵的稀疏性问题。

关键词：协同过滤；相似度；预测模型；迭代预测算法中图分类号：TP391.1An Improvement Collaborative Filtering Algorithm forSparsity Ratings MatrixZhou Ziliang, Wu Weimin(Computer and Information Technology School, Beijing Jiaotong University, Beijing 100044) Abstract: As the most successful personalized recommendation algorithm, collaborative filteringis widely used in recommendation system. However, the lack of data has been a huge challenge.To deal with the sparsity problem, we provide an algorithm with three improved methods. On theone hands we adjusted the similarity metrics. On the other hand, we combine User-based collaborative filtering with Item-based collaborative filtering. Finally, we provide an iterative algorithm to predict the rate given by the active user. In the experiment section, we evaluated our new algorithm using the MoiveLens dataset. The results suggest that the new algorithm can better handle the user rating matrix sparsity problem.Keywords: collaboration filtering; similarity; prediction model; iterative algorithm0引言随着信息技术和互联网的发展，人们逐渐从信息匮乏的时代走进了信息过载的时代，这个时代的特点是海量数据，用户很难在这些数据中找到自己需要的信息，因此推荐系统应运而生。

协同过滤算法的研究

协同过滤算法的研究作者：吴经纬来源：《电脑知识与技术》2019年第03期摘要：互联网的快速发展，每天都产生了大量的信息，信息过载[1-2]十分严重，解决该问题的常用方法有两个，通过搜索引擎查询自己所需要的信息，这种方式有一个很大的缺点是，很多可能会使得引发人们兴趣的信息被埋沒了，而推荐系统是能很好解决该问题的有效方法，推荐系统常用的方法是协同过滤算法，本文对协同过滤算法常见问题做了一些研究。

关键词：推荐系统;协同过滤 ;个性化中图分类号：TP311; ; ; ; 文献标识码：A; ; ; ; 文章编号：1009-3044（2019）03-0020-021前言我们所处时代的显著特征是信息大爆炸，每天所产生新的信息量非常惊人，毋庸置疑，身处其中人们跟以前相比更能够找到自己需要的信息，比如想购买的商品，想观看的电影等，然而跟不上信息增长的速度。

有些用户喜欢看一些评分高的，还有就是热门的电影，遗憾的是这些电影是非常有限的，而有很多类似的精彩电影未能呈现在用户的眼前，既是资源的一种严重浪费，又没能给用户更好的享受。

推荐系统是解决信息过载的很有用的方法，它最大的特点莫过于个性化，根据用户产生的历史数据，进而分析这些数据，挖掘出有用的东西，从而给用户带来更好的体验。

时常当我们在亚马逊购物的时候，可能我们买了一本专业书，过一段时间你会发现，跟这本书相似的书籍，该作者的其他作品也可能会出现，还有就是买过这本书的人还买过什么，这方方面面无疑更有可能出现用户想买的商品，极大地提高了用户体验。

当我们观看YouTube视频的时候也会发生类似的情况，推荐系统具备发现用户隐藏兴趣的能力，既能给相关公司带来巨大的收入，更能丰富人们的生活。

本文主要对协同过滤算法的关键技术做了介绍以及其中的一些问题做了相应的分析。

2 基于用户与物品的协同过滤算法基于用户的协同过滤算法利用用户的相关信息，给用户推荐相关内容或物品，比如当你在YouTube上观看一些视频的时候，它会给你推荐与你有相同兴趣爱好的用户他们喜欢的而你未曾看过的内容。

协同过滤算法中的相似度优化方法

ｓｍｉａｉａｕｅｏｔｉａｏｃｅｏａｈｆｌｎｔｏｄｉｌｒｔｍｅｓｒｐｉｚｔｎｓｈｍｅｆｒｅｃｌｇｍｅｈ．ｙｍｉｉｉ
［ｙｗｏｄ］ｃｌｂｒｔｅｆｔｒｎａｅｔｅｈｏ；ｉｌｉｅｒｅｃｏｄｍｏｅＫｅｒｓｏｌｏａｉｌ；ｅｒｓｎｉｂｒｓａｔｄｇｅ；ｌｕｄｌａｖｉｅｇｍｉｒｙ
第３６卷第６期
Ｖ．６ｏ１３
・
计
算
机
工
程
２１００年３月
Ｍａｃ１ｒｈ２００
Ｎｏ６．
ＣｏｐｕｅｇｎｅｒｎｇｍｔｒＥｎｉｅｉ
软件技术与数据库・
文章编号：１３２（１０＿ｏ２＿文ｏ．４８ｏｏ＿５ｏ０２）０ —３献标识码：Ａ
ｍａｋｎｍａｘ．ＤｉｅｅｔｉｌｇｒｉｇｒｆｒｎｆｉｍｅｏｈｓｉｅｅｔｆｅｔｎｉｌｒｔｃｌｕａｉｎｅｕｔＴｒｓｌｅｈｓｒｂｅ，ｔｉｐｐｅｌｎｈｔｄａｄｆｒｎｅｃｏｓｍｉｉｙａｃｌｔｏｒｓｌａ．ｏｅｏｖｔｉｐｏｌｍｈｓａｒｍａｅｋｓｒｃｍｍｅｄｔｎｂｓｎｅｒｓｅｇｂｒａｇｒｔｍｎｍａｋｎｅｓｏｓｒｃｅｙｔｅｉｄｆｉｉｇｍｅｈｄｓｓｐｒｔｌ，ｎａｙｅｅｍｅｅｏｎａｉｙｕｉｇｎａｅｔｎｉｈｏｌｏｉｈｏｒｉｇｓｔｎｔｕｔｄｂｈｒｅｋｎｓｏｌｎｔｏｅａａｅｙａｌｚｓｔ￣ｕｅｏｃｆｌｈｒ

改进相似性度量方法的协同过滤推荐算法

ｅｃｍｍｅｃｅｏ．ｏｒｅｒｃｍｍｅｄｔｎｓｓｅ，ｈｃｌｆｅｃｍｍｅｃｘａｄ．ｈｇｉｄｓｏｓｒｎｏｎａｉｙｔｍｓＡｓｔｅｓａｅｏ — ｏｏｒｅｅｐｎｓｔｅｍａｎｔｅｆｕｅｓａｄｃｍｍｏｉｅｒｗｒｐｄｙｗｈｃｕｄｔｓｇｏａｉｌ．ｉｈｉ
ａｔｍａｉａｌｅｅａｅｗｅｇｔｇｆｃｏｓｄｎｍｉａｌｏｉｅａｔｂｔｉｌｒｙａｄｓｏｅｓｍｉｒｙｃｅｔｅｓｎｂｅｉｍｉｌｒｙｔｕｏｔｌｇｎｒｔｉｈｉａｔｒ，ｙａｃｌｃｍｂｎｔｕｅｓｍｉｉｎｃｒｉｌｉ，ｒａｅａｒａｏａｌｔｃｙｎｙｉｒａｔａｔｅｓｍｉｉｏａｔｉｕｈｅｒｓｅｇｂｕｉｇｉｆｄｏｔｔｅｎａｅｔｎｉｈｏｒｎｔｍ，ｎｎｌｅｌｅｕｅａｉｇｒｃｍｍｅｄｔｎＥｐｒｎａｅｕｔｐｏｅｔｅａｇｒｈｉｒｖｓｎｅａｄｆａｌｒａｉｓｒｒｔｅｏｉｙｓｎｎａｉ．ｘｅｍｅｔｌｒｓｌｓｒｖｈｌｏｉｍｍｐｏｅｏｉｔｒｃｍｍｅｄｔｎｓｅｄｎｓｎｒｃｓｏｏａｃｒａｎｅｔｎｎｏｖｓｔｅｃｌｔｒｐｏｌｍ．ｅｏｎａｉｔａｉｅｓａｄｐｅｉｉｎｔｅｔｉｘｅｔａｄｓｌｅｈｏｄｓａｔｒｂｅｏ

如何优化协同过滤算法中的相似度计算(Ⅰ)

在当今信息爆炸的时代，人们在互联网上获取信息的需求越来越强烈。

在这种情况下，协同过滤算法逐渐成为了推荐系统的主要算法之一。

协同过滤算法是一种通过分析用户的历史行为来给用户推荐可能感兴趣的物品的技术。

它的一个核心问题是相似度计算，相似度计算的好坏直接影响了算法的推荐效果。

因此，如何优化协同过滤算法中的相似度计算成为了一个重要的课题。

一、基于用户的协同过滤算法中的相似度计算在基于用户的协同过滤算法中，相似度计算通常采用皮尔逊相关系数或者余弦相似度。

这两种相似度计算方法都存在一些问题。

比如，皮尔逊相关系数对于稀疏数据和大规模数据的计算效率较低，而余弦相似度对用户评分的绝对值比较敏感，容易受到异常值的影响。

为了优化基于用户的协同过滤算法中的相似度计算，可以考虑引入一些附加信息，比如用户的属性信息、社交关系等。

这些附加信息可以帮助改善相似度计算的准确性，从而提高算法的推荐效果。

同时，还可以考虑采用基于矩阵分解的方法来降低相似度计算的复杂度，提高算法的推荐效率。

二、基于物品的协同过滤算法中的相似度计算在基于物品的协同过滤算法中，相似度计算通常采用余弦相似度或者改进的余弦相似度。

与基于用户的协同过滤算法类似，这两种相似度计算方法也存在一些问题。

比如，余弦相似度对物品流行度的变化比较敏感，容易受到热门物品的影响。

为了优化基于物品的协同过滤算法中的相似度计算，可以考虑引入一些附加信息，比如物品的内容信息、标签信息等。

这些附加信息可以帮助改善相似度计算的准确性，从而提高算法的推荐效果。

同时，还可以考虑采用基于图的方法来捕捉物品之间的关联关系，从而提高相似度计算的准确性。

三、深度学习在协同过滤算法中的应用近年来，深度学习技术在推荐系统领域取得了一些突破性进展。

深度学习模型可以自动学习特征表示，从而能够更好地捕捉用户和物品之间的关联关系。

因此，可以考虑将深度学习技术应用到协同过滤算法中，来优化相似度计算。

在基于用户的协同过滤算法中，可以考虑使用基于神经网络的方法来学习用户的表示，从而改善相似度计算的准确性。

填补法和改进相似度相结合的协同过滤算法

2017-12-21；修回日期：2018-02-02 作者简介：邢长征（1967-），男，辽宁省阜新人，教授，主要研究方向为数据挖掘和数据库（xcz6701@）；金媛（1993-），女，硕士研究生，
主要研究方向为数据挖掘．
优先出版
邢长征，等：填补法和改进相似度相结合的协同过滤算法
1 相关工作
Goldberg 等人于 1992 年开发了第一个推荐系统 Tapestry， 1.1 协同过滤算法研究现状
并首次提出“协同过滤”思想[3]，这一思想的提出极大的推动了
协同过滤算法的基本假设是如果两个用户在一些项目上具
推荐系统的研究和发展。协同过滤算法根据用户的行为记录分有相似的历史标注或者行为习惯，那么他们在一些项目上也有
摘要：针对稀疏的用户评分数据，国内外学者对协同过滤算法做了很多改进，归纳为填充法、改进相似度方法、结合内容的推荐等，这些单一方法都不能真正解决数据稀疏的问题。针对这个问题，提出一种填充法和改进相似度相结合的协同过滤算法。该算法首先利用填充法随机填充部分数据，改进的填充法预测评分时融入了项目属性信息，然后利用填充后的数据和新相似度方法做推荐，产生推荐结果，迭代 m 次，按照迭代 m 次被推荐项目平均评分的高低进行最后的推荐。实验表明，在数据稀疏的情况下，该算法与单一的方法比有更好的推荐效果。关键词：协同过滤算法；填补法；新相似度方法；结果融合中图分类号：TP301.6 doi: 10.3969/j.issn.1001-3695.2017.12.0813
第 36 卷第 6 期优先出版
计算机应用研究 Application Research of Computers
Vol. 36 No. 6 Online Publication

一种改进相似性度量的协同过滤推荐算法

一种改进相似性度量的协同过滤推荐算法
文俊浩;舒珊
【期刊名称】《计算机科学》
【年(卷),期】2014(041)005
【摘要】协同过滤算法是目前电子商务推荐系统中最重要的技术之一,其中相似性度量方法的效果直接决定了推荐系统的准确率.传统的相似性度量方法主要关注用户共同评分项之间的相似度,却忽视了用户共同评分项和用户所有评分项之间的关系.用户共同评分项和用户所有评分项之间的关系可以通过Tanimoto系数来计算,然而Tanimoto系数是基于二值模式下的运算,因此直接运用于推荐系统中的效果并不理想.基于上述问题提出了修正的Tanimoto系数,并将用户共同评分项和用户所有评分项之间的关系融入到传统的相似性度量方法中.实验表明该算法在一定程度上提高了推荐的效率和准确度.
【总页数】4页(P68-71)
【作者】文俊浩;舒珊
【作者单位】重庆大学计算机学院重庆400044;重庆大学软件学院重庆400044;重庆大学计算机学院重庆400044
【正文语种】中文
【中图分类】TP31
【相关文献】
1.基于改进相似性度量的项目协同过滤推荐算法 [J], 于金明;孟军;吴秋峰
2.改进相似性度量方法的协同过滤推荐算法 [J], 吴月萍; 郑建国
3.改进相似性度量方法的协同过滤推荐算法 [J], 吴月萍; 郑建国
4.一种改进的协同过滤推荐算法 [J], 李瑶
5.一种改进的协同过滤图书推荐算法 [J], 李丹浓
因版权原因，仅展示原文概要，查看原文内容请购买。

一种改进用户相似度的协同过滤推荐算法

算法分析
数技术与应用
一种改进用户相似度的协同过滤推荐算法
李德新钟俊 (四川大学电气信息学院,四川成都 610065)
摘要:在协同过滤推荐系统的相关研究中,计算用户的相似性时通常使用传统的余弦法、Jaccard相似法,而基于这些算法所得到的评分
预测往往不够精确,且进行Top-N推荐时难以达到预期的效果。本文将用户相似度细分为分值差距度、评分倾向相似度、共同评分物品数
在获得目标用户的最近邻居集合之后,利用最近邻居对项目的评分数据,预测未评分项目的分数。预测评分公式如下式所示:
(1)
式(1)中: rˆui 为用户u对物品i预测的评分, ru 、rv 分别为用户 u、用户v评分的平均值。wuv 为用户的相似度。S (u, K ) 为和用户u兴
趣最相似的K个用户, N (i) 是所有物品的集合。 2.1.4 产生推荐结果根据生成的评分集合,向用户推荐N个物品。 2.2 传统用户相似度计算方法传统的相似度计算方法主要有:余弦相似法(COS)、Jaccard相
似法等。其对应计算公式如下: 2.2.1 余弦相似法余弦相似法把一个用户对全部项目的评分作为一个多维的向
量,度量用户之间的相似性是利用两个向量间的余弦夹角来衡量:
(2)
式中: rui 尾用户对物品i的评分, rvi 为用户对物品i的评分,I是
所有物品集合。 2.2.2 Jaccard相似法 Jaccard相似法利用计算两个集合的交集和并集比值,进而实现
收稿日期:2017-02-06 作者简介:李德新(1990 —),男,广西桂林人,硕士研究生,研究方向为信号与信息处理、机器学习;钟俊(1972 —),男,重庆人,副教授,硕士
生导师,研究方向为信号与信息处理。

如何优化协同过滤算法中的相似度计算(四)

协同过滤算法是推荐系统中常用的一种技术，其核心是基于用户行为数据（如评分、购买、浏览等）来挖掘用户间的相似性，从而实现个性化推荐。

而相似度计算则是协同过滤算法中至关重要的一环，它直接影响到推荐结果的准确性和效果。

因此，优化协同过滤算法中的相似度计算具有重要意义。

### 相似度计算的基本原理在协同过滤算法中，相似度计算是通过用户-项目矩阵来进行的。

这个矩阵的行代表用户，列代表项目，矩阵中的元素是用户对项目的评分。

基于这个矩阵，可以通过不同的相似度计算方法来衡量用户或项目之间的相似性，常用的方法包括欧氏距离、余弦相似度等。

### 优化相似度计算的目标在实际应用中，协同过滤算法的用户-项目矩阵往往非常稀疏，即用户对项目的评分数据很少。

由于稀疏性，相似度计算容易受到数据噪声的影响，导致推荐结果不准确。

因此，优化相似度计算的主要目标是提高算法的稳定性和准确性。

### 基于邻域的相似度计算一种常见的优化方法是基于邻域的相似度计算，即通过选取一定范围内的用户或项目来计算相似度。

这种方法可以有效减少稀疏性带来的影响，提高相似度计算的准确性。

常见的基于邻域的方法包括基于用户的协同过滤（User-Based CF）和基于项目的协同过滤（Item-Based CF）。

### 考虑用户和项目的特征除了基于评分数据进行相似度计算之外，还可以考虑用户和项目的其他特征信息。

例如，用户的个人信息、历史行为、偏好等，以及项目的类别、标签、内容等。

通过将这些特征信息引入相似度计算，可以更全面地衡量用户或项目之间的相似性，从而提高推荐的准确性。

### 采用深度学习方法近年来，随着深度学习技术的不断发展，基于神经网络的推荐系统也逐渐兴起。

深度学习方法可以通过学习用户和项目之间的潜在表示来进行相似度计算，不仅可以处理稀疏数据，还可以挖掘数据中的隐藏信息，从而提高推荐的效果。

深度学习方法在协同过滤算法中的相似度计算上具有较大的潜力，是未来发展的一个重要方向。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

维特征空间中的 Pi 和 Qi 两个向量，分别用和的笛卡尔坐标表示为 ( P1, P2 ,, Pi , Pi+1,, Pn ) 和 (Q1, Q2 ,, Qi , Qi+1,, Qn ) 。常见相似度指标的定义如下：
2.1. 基于欧氏距离的相似度
在欧式空间里，欧式距离在两个向量之间广泛使用的是笛卡尔距离，欧式距离定义如(1)式：
Keywords
Recommendation System, Collaborative Filtering, Machine Learning, K Nearest Neighbor, Similarity
协同过滤算法中一种改进相似度度量的方法
连自建
上海大学理学院数学系，上海
收稿日期：2020年4月12日；录用日期：2020年5月2日；发布日期：2020年5月11日
An Improved Similarity Measurement Method in Collaborative Filtering Algorithm
Zijian Lian
Department of Mathematics, College of Science, Shanghai University, Shanghai
DOI: 10.12677/pm.2020.105050
405
理论数学
连自建
的推荐[15]。协同过滤算法中的一个重要组成部分就是相似度，在不同的实现中有各种各样的相似度度量来计算两
对项目之间的相似度。推荐系统中常用的相似度度量有：基于欧氏距离的相似度、余弦度量相似度、调整余弦度量相似度、皮尔逊相关相似度、Tanimoto系数相似度、Log-Likelihood等[16]。对于推荐系统来说，不同的相似度度量的选择会导致不同的结果和质量。在GroupLens和MovieLens等项目中进行了值得注意的研究。本文我们在协同过滤推荐算法中，提出了一种改进的相似度度量方法，可以在不进行复杂计算的情况下，通过提高数据的使用率来很好地提高推荐的准确性。
3. 模型与算法
在这一节中，我们介绍了基于物品协同过滤算法的工作原理和算法步骤，通过对第 2 部分介绍的传统相似性度量进行分析，指出了该模型的不足之处，并详细介绍了我们所提出的改进相似度度量方法是如何提高模型的计算精度的。主要符号汇总：
U = {u1,,ua ,,um} 表示用户集
i =1
( ) ( ) ∑ ∑ n Pi − S 2 n Qi − S 2
(4)
=i 1=i 1
DOI: 10.12677/pm.2020.105050
406
理论数学
连自建
其中， S 是 Pi 向量和 Qi 向量相同元素的均值。 2.3. 基于皮尔逊相关系数的相似度
皮尔逊相关系数公式是统计中最常用的公式之一，计算公式如(5)：
Pure Mathematics 理论数学, 2020, 10(5), 404-413 Published Online May 2020 in Hans. /journal/pm https:///10.12677/pm.2020.105050
n
∑
(
Pi
−
P
)×
(Qi
−
Q)
= SPPQe P= earson ( Pi , Qi )
i =1
( ) ( ) ∑ ∑ n Pi − P 2 n Qi − Q 2
(5)
=i 1=i 1
其中， P 和 Q 分别是向量 Pi 和 Qi 的均值。
2.4. 基于 Tanimoto 系数的相似度
Tanimoto 系数，又称 Jaccard 系数，是余弦相似度的扩展，多用于计算文档数据相似度。基于它的相
本文的结构如下：第 1 部分为引言。第 2 部分介绍了传统相似性度量计算方法。第 3 部分中，我们将介绍模型的实现原理与改进思想。在第 4 部分，相比于传统的相似度度量，我们评估所提出的改进度量方法。第 5 部分为结束语。
2. 常用相似度度量介绍
在本节中，我们主要描述了一些常见相似度度量。如前文所述，两个项目或两个用户之间的相似度度量是影响推荐算法效果的关键因素之一。相似度度量可以大致分为两类:基于角度的和基于距离的。我们可以用向量空间法来测量相似度度量，所有的度量都可以给出两个向量之间的相似度量的概念。考虑在n
文章引用: 连自建. 协同过滤算法中一种改进相似度度量的方法[J]. 理论数学, 2020, 10(5): 404-413. DOI: 10.12677/pm.2020.105050
连自建
摘要
信息时代，互联网上的信息量巨大，数据信息给我们的生活带来许多便利的同时，也带来了信息超载问题。协同过滤算法应运而生，作为成功的个性化推荐技术，得到了广泛的应用。它分析用户的行为，通过收集与用户兴趣一致的其他用户的评价信息来产生推荐。然而，传统的推荐算法存在数据稀疏时相似度计算不准确，以及冷启动、可扩展性问题，影响了推荐系统的应用和推广。本文研究了协同过滤推荐技术的基本原理及实现步骤，提出了一种改进的相似度度量方法，可以在不进行复杂计算的情况下，通过提高数据的使用率来很好地提高推荐的准确性。
虽然协同过滤推荐系统是一种流行的推荐系统，但它也存在一些局限性。其中一个限制是数据稀疏问题[14]，为了计算两个项目之间的相似度，它需要至少两个用户同时对相同的两个项目打分，准确的预测总是需要密集的数据，因此稀疏数据集不如密集数据集好。然而，密集数据集通常带来另一个问题，称为可扩展性问题。此外，还存在一个被称为冷启动问题的限制，它不可能为新用户或新项目找到相似的用户。当一个新项目被添加到这个系统中，没有关于它的评级信息，那么没有人可以得到关于这个项目
Open Access
1. 引言
在大数据时代，人们经常遇到信息超载的问题，搜索引擎和推荐系统是解决这一问题非常有效的工具，本文主要研究协同过滤推荐系统。如何为用户提供高质量的推荐，是推荐系统研究的重要目标。在过去十几年里，催生了非常多的推荐技术，涌现了许多的推荐系统，例如：Amazon 的个性化物品推荐、Netflix 的视频推荐、Facebook 的好友推荐，今日头条的时事新闻推荐，最近几年，抖音、快手也是国内非常火热的视频推荐系统。推荐系统是一种软件工具和技术，根据用户的兴趣特点和购买行为，为用户提供有用的项目建议，提供的建议旨在支持用户进行各种决策，广泛被大家接受的推荐系统的定义是 1997 年 Resnick 和 Varian 提出的：“它是利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程”，要向指定的用户推荐项目，系统需要收集用户偏好信息[1]。
关键词
推荐系统，协同过滤，机器学习，K近邻，相似度
Copyright © 2020 by author(s) and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). /licenses/by/4.0/
似度和上面的相似度都不相同。简单来说，Tanimoto 系数使用相交集与并集的比值作为相似性度量，具
体计算公式如式(6)：
SPTQa
=
Pi
Pi ∩ Qi + Qi − Pi ∩ Qi
(6)
除了上面提到的这些相似度度量外，还有其他一些度量，例如基于对数似然函数值相似度、基于曼哈顿距离相似度等。相似度度量在推荐系统中起着至关重要的作用，推荐算法的性能和效率往往取决于系统使用的相似度度量。
似性度量
S
Co PQ
，计算公式如(3)式：
n
∑ Pi × Qi
= SPCQo C= osine ( Pi , Qi )
i =1 n
n
(3)
∑ ∑ Pi2
Qi2
=i 1=i 1
此外，还有一种类似的修正余弦相似度
S
AC PQ
定义为(4)式的形式：
n
∑
(
Pi−Leabharlann S)×(Qi
−
S
)
= SPAQC A= djustedCosine ( Pi , Qi )
d (= Pi ,Qi )
n
∑
(
Pi
−
Qi
)2
(1)
i =1
在本文中，我们可以定义
Pi
向量和
Qi
向量之间的相似性度量
S
Eu PQ
，如下(2)式所示：
SPEQu
=
1+
d
1
( Pi ,Qi )
(2)
2.2. 基于余弦度量的相似度
在内积空间里，用 Pi 向量和 Qi 向量之间的夹角余弦值来作为两个向量的相似性度量。由于它是两个向量之间的标准化点积，可以通过简单的数学运算来计算，因此它是一种常用的相似性度量。相应的相
Received: Apr. 12th, 2020; accepted: May 2nd, 2020; published: May 11th, 2020
Abstract
In the information age, there is a huge amount of information on the Internet. While data information brings a lot of convenience to our life, it also brings the problem of information overload. Collaborative filtering (CF) algorithm emerges as a successful personalized recommendation technique and is widely used. It analyzes the behavior of users and generates recommendations by collecting the evaluation information of other users who are in line with their interests. However, the traditional recommendation algorithm has some problems such as inaccurate similarity calculation when data is sparse, cold start and scalability, which affects the application and promotion of the recommendation system. In this paper, the basic principle and implementation steps of collaborative filtering recommendation technology are studied, and an improved similarity measurement method is proposed, which can improve the accuracy of prediction by improving the utilization rate of data without complex calculation.