(给机器学习算法与Python学习加星标,提升AI技能)
选自 Medium
作者:Gonzalo Ferreiro Volpi
本文由机器之心(nearhuman2014)整理
原文:https://medium.com/dataseries/similarity-and-distance-metrics-for-data-science-and-machine-learning-e5121b3956f8
相似度度量和距离度量在整个机器学习领域都是非常基础的概念,数据科学家 Gonzalo Ferreiro Volpi 近日通过浅显易懂的推荐系统示例介绍了这些概念以及它们的计算方式。
在推荐系统中,我们经常谈到「相似度度量」这一概念。为什么?因为在推荐系统中,基于内容的过滤算法和协同过滤算法都使用了某种特定的相似度度量来确定两个用户或商品的向量之间的相等程度。所以总的来说,相似度度量不仅仅是向量之间的距离。
注:我的所有工作都可在我的 GitHub 页面查看:https://github.com/gonzaferreiro,其中当然也包括本文内容的代码库以及有关推荐系统的更多内容。
在任意类型的算法中,最常见的相似度度量是向量之间夹角的余弦,即余弦相似度。设 A 为用户的电影评分 A 列表,B 为用户的电影评分 B 列表,那么它们之间的相似度可以这样计算:
从数学上看,余弦相似度衡量的是投射到一个多维空间中的两个向量之间的夹角的余弦。当在多维空间中绘制余弦相似度时,余弦相似度体现的是每个向量的方向关系(角度),而非幅度。如果你想要幅度,则应计算欧几里德距离。
余弦相似度很有优势,因为即使两个相似的文件由于大小而在欧几里德距离上相距甚远(比如文档中出现很多次的某个词或多次观看过同一部电影的某用户),它们之间也可能具有更小的夹角。夹角越小,则相似度越高。
如下例所示,来自 www.machinelearningplus.com
上图统计了 sachin、dhoni、cricket 这三个词在所示的三个文档中的出现次数。据此,我们可以绘出这三个向量的图,从而轻松地看出衡量这些文档的余弦和欧几里德距离的差异:
按照定义,常规余弦相似度反映了方向的差异,而不是位置的差异。因此,使用余弦相似度指标无法考虑到用户评分这样的差异。调整后余弦相似度可以缓解这一问题,具体做法是从每对共同评分的配对减去各自用户的平均评分,其定义如下:
我们看看下面这个来自 Stack Overflow 的例子,这能更好地解释余弦相似度和调整过的余弦相似度之间的差异:
假设一位用户为两部电影分别给出了 0~5 的评分。
直观而言,我们可以看到用户 b 和 c 的品味相近,而 a 则颇为不同。但常规的余弦相似度却给出了不一样的结果。在这样的案例中,计算调整后余弦相似度能让我们更好地理解用户之间的相近程度。
顺便一提,在上一篇有关推荐系统的文章中,我们给出了以下用于计算调整后余弦相似度的函数:
from scipy import spatial
def adjusted_cos_distance_matrix(size, matrix, row_column):
distances = np.zeros((size,size))
if row_column == 0:
M_u = matrix.mean(axis=1)
m_sub = matrix - M_u[:,None]
if row_column == 1:
M_u = matrix.T.mean(axis=1)
m_sub = matrix.T - M_u[:,None]
for first in range(0,size):
for sec in range(0,size):
distance = spatial.distance.cosine(m_sub[first],m_sub[sec])
distances[first,sec] = distance
return distances
使用这个函数的方式非常简单,只需输入:
matrix:这就是用户之间的评分或观点等你衡量的东西或你的业务商品的原始矩阵。
row_columns:如果你衡量的是列之间的距离,则设为 1;如果你衡量的是行之间的距离,则设为 0;
size:所得矩阵的所需大小。也就是说,当寻找用户或商品相似度时,这就是用户或商品的数量。所以如果有 500 个不同用户,则距离矩阵的大小就为 500×500。
下面给出了一个参考示例:
user_similarity = adjusted_cos_distance_matrix(n_users,data_matrix,0)
item_similarity = adjusted_cos_distance_matrix(n_items,data_matrix,1)
最后,我们简要回顾一些可用在推荐系统中计算相似度的其它方法,但也可用于机器学习中其它任何基于距离的算法:
1. 欧几里德距离:如果绘制在 n 维空间中,相似的项取决于彼此之间的相近程度。
2. 皮尔森相关性或相关相似度:告诉了我们两个项之间的相关程度。相关性越高,则相似度越高。
3. 均方差:在于计算用户评分之间的平均平方差。MSE 更侧重于惩罚更大的错误。
然后:
其中 |????????????| 是用户 ???? 和 ???? 都评价过的商品的数量。
用户-用户以及商品-商品相似度示例
我们借助之前介绍推荐系统的文章来简要回顾一下协同过滤的工作方式:假设我喜欢《盲刺客》和《莫斯科绅士》这两本书;我的朋友 Matias 也喜欢《盲刺客》和《莫斯科绅士》,但也还喜欢《Where the crawdads sing》。看起来我与 Matias 有一样的兴趣。所以你可能会想我也会喜欢《Where the crawdads sing》,即使我还没读过它。协同过滤也正是基于这一逻辑,只是你不仅可以比较用户,也可以比较商品。
我们可视化地比较看看推荐系统的用户-用户相似度与商品-商品相似度之间的差异:
用户-用户相似度
商品-商品相似度
现在,理解了这一点,我们用下面的示例解释说明一些度量,我认为这清楚辨明了用户-用户以及商品-商品相似度:
用户-用户相似度详解
这里给出了一个用户电影评分矩阵。为了以更加实用的方式理解这一点,我们先根据上表计算一下用户 (A, C) 和 (B, C) 的相似度。用户 A 和 C 共同评分的电影是 x2 和 x4,B 和 C 共同评分的电影是 x2、x4、x5。知道了这些信息后,我们计算皮尔森相关性或相关相似度:
A 和 C 之间的相关性比 B 和 C 之间的相关性大。因此,A 和 C 更相似,A 喜欢的电影会被推荐给 C,C 喜欢的也会被推荐给 A。
商品-商品相似度详解
这里的平均商品评分(mean item rating)是给定商品的所有评分的平均(比较看看我们在用户-用户过滤中看到的表格)。这里要计算的不是用户-用户相似度,而是商品-商品相似度。要做到这一点,我们首先需要找到给这些商品评分过的用户,然后再基于这些评分来计算这些商品之间的相似度。我们计算一下电影 (x1, x4) 和 (x1, x5) 之间的相似度。给电影 x1 和 x4 评过分的用户是 A 和 B,而给电影 x1 和 x5 评过分的用户也是 A 和 B。
x1 和 x4 的相似度大于 x1 和 x5 的相似度。基于这些相似度值,如果有任何用户搜索电影 x1,他们将被推荐 x4;反之亦然。
关于推荐系统的内容就到此为止了。但是,请记住相似度度量和距离度量在整个机器学习领域都是非常基础的概念,理解它们对进一步的学习至关重要。
本文为机器之心编译,转载请联系本公众号获得授权。
推荐阅读
兵贵神速!掌握这10个python技巧,让你代码工作如鱼得水!
清华姚班/智班2020级新生来了!中国奥数新晋“一姐”在列,湖南、湖北人数最多
提升工作效率,这些Jupyter Notebook插件你值得拥有!
PyTorch常用代码段整理合集,建议收藏!
详尽实用的 PyCharm 教程,这篇文章值得一看
文章浏览阅读145次。10.21终面已参加,希望能顺利通过终面拿到offer~一共三轮,电话面试+笔试+视频面试,视频面试3V110月19日投的新媒体运营的简历,HR说因为是周末,等工作日再联系我,在周一下午三点我接到了电话成功通过简历筛选和电话面试,整个电话面试的过程长,大概10分钟左右,因为前期稍微做了一些准备,所以还算对答如流,整个过程顺利,HR现场告诉我通过面试,并随即给我发了笔试题,让我准备一下,最晚三天之..._网易 python游戏服务器
文章浏览阅读6.5k次,点赞12次,收藏38次。MVC层次划分简述写在前面的一段话:首先要知道MVC和三层架构之间有什么关系:MVC:【 Model(数据模型) - View(视图) - Controller(控制器) 】三层架构:【 Presentation tier(展现层) - Application tier(应用层)+Date tier(数据访问层) 】很多人都有一个误解,认为Spring MVC的M、V、C对..._mvc分层
文章浏览阅读2.9k次。实践flink数据集sink到cassandra3_flink cassandra
文章浏览阅读7.1k次,点赞4次,收藏12次。文章目录一、前言二、codimd是什么?2.1 源于hackmd的超好用markdown编辑器2.2 codimd的作用三、安装和使用3.1 安装前需要知道的3.2 安装步骤3.2.1 创建数据库3.2.2 安装git3.2.3 安装docker3.2.4 安装docker compose3.2.5 安装codimd3.2.6 检查是否安装成功3.2.7 放行端口3.2.8 测试使用3.3 开始写..._群晖 docker 搭建 codimd
文章浏览阅读335次。Json json 可以定义多种类型 var jsonObj = { "key1":123, "key2":"name", "key3":[12,"age",true], //数组 "key4":false, "key5":{ //存一个json对象 "key6":456, "key7":"number" }} json其实就是一个Object对象, 他的key值 可以看成对象的一个属性, 获取他的value值...
文章浏览阅读87次。选题背景:超市账单管理系统是一种针对超市行业的管理工具,旨在提供高效、准确、便捷的账单管理服务。随着城市化进程的加快和人们生活水平的提高,超市作为日常生活必需品的主要供应渠道之一,扮演着重要的角色。然而,传统的超市账单管理方式存在一些问题,如手工记录容易出错、数据整理繁琐、信息不透明等。因此,开发一个科技化的超市账单管理系统成为了必要之举。选题意义:首先,超市账单管理系统的开发可以提高账单管理的效率。传统的超市账单管理方式通常需要员工手动记录商品销售信息,并进行数据整理和汇总。这种方式容易出现人为错
文章浏览阅读1.7k次。书签栏通讯 s7-1200与s7-200smart通讯-工业支持中心-西门子中国IO_deviceS7-1200PROFINET通信ET 200SP 安装视频 - ID: 95886218 - Industry Support Siemens云平台接入在线文档 - 低代码开发嵌入式设备 | 物一世 WareExpress在linux下使用c语言实现MQTT通信(一.MQTT原理介绍及流程图)_qq_44041062的博客-程序员宅基地C mqtt_百度搜索开发快M_拾度智能科技 att7022eu
文章浏览阅读1.6k次。职称英语全称为全国专业技术人员职称英语等级考试,是由国家人事部组织实施的一项国家级外语考试。1.概述全国专业技术人员职称英语等级考试是由人力资源和社会保障部组织实施的一项外语考试,它根据英语在不同专业领域活动中的应用特点,结合专业技术人员掌握和应用英语的实际情况,对申报不同级别职称的专业技术人员的英语水平提出了不同的要求。该考试根据专业技术人员使用英语的实际情况,把考试的重点放在了阅读理解上面。全..._全国专业技术人员职称英语等级考试 北京 取消
文章浏览阅读42次。恋爱指导篇 知心的小爱“真爱”是一个永不过时的话题,古代的人找对象,靠的是媒妁之言,父母定婚姻。现代的人靠的是相亲,自由恋爱,按理找一个喜欢的人结婚会很幸福,近几年反而离率更高了。古代人认识的人少,交流工具少,最多信鸽传书,信物传情。现代要认识一个人很容易了,最初是电话信息联系。前几年是qq,微信摇一摇,近两年是抖音,快手随便找一找。虽然找对象,寻伴侣更方便了,为何大部分人还是感觉更迷茫,不快乐...
文章浏览阅读109次。【代码】刷题记录第八十天-修剪二叉搜索树。
文章浏览阅读248次。关于 dcm4che WADO WADO:Web Access to DICOM Objects dcm4che 是一个为医疗保健企业的开源应用程序和工具集合。这些应用程序已经开发了Java编程语言的性能和便携性,在JDK 1.6及更高版本支持部署。在dcm4che项目的核心是一个强大的执行DICOM标准的。该dcm4che-1.x和dcm4che-2.X DICOM Tool..._dcm4che实现wado服务
文章浏览阅读2.2k次。zookeeper服务器会产生三类日志:事务日志、快照日志和log4j日志。在zookeeper默认配置文件zoo.cfg(可以修改文件名)中有一个配置项dataDir,该配置项用于配置zookeeper快照日志和事务日志的存储地址。在官方提供的默认参考配置文件zoo_sample.cfg中,只有dataDir配置项。其实在实际应用中,还可以为事务日志专门配置存储地址,配置项名称为dataLogD..._linux查看zookeeper日志