常见相似度衡量方法

参考邹博的PPT对5种常见的相似度的衡量方法进行一下汇总。

1、Minkowskidistance:

2、Jaccarddistance:

3、cosinesimilarity:

4、pearsoncorrelationcoefficient:

关于欧式距离、余弦相似度和pearson系数的关系可以查看知乎上的讨论。总结的说:

a、在数据标准化后,Pearson相关性系数、余弦相似度、欧式距离的平方可认为是等价的。

b、pearson相关系数是余弦相似度在维度值缺失情况下的一种改进。

5、Kullback-Leiblerdivergence(相对熵、KL散度)

a、KL散度是不对称的,即P到Q的距离不等于Q到P的距离;

b、KL散度不满足三角距离公式,两边之和大于第三边,两边之差小于第三边。

参考文献:

1、https://en.wikipedia.org/wiki/Minkowski_distance

2、https://en.wikipedia.org/wiki/Simple_matching_coefficient

3、https://en.wikipedia.org/wiki/Jaccard_index

4、https://en.wikipedia.org/wiki/Cosine_similarity

5、https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

6、https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence

7、https://blog.csdn.net/u012885320/article/details/81059915

8、https://blog.csdn.net/zb1165048017/article/details/48937135

9、https://www.zhihu.com/question/19734616

10、https://www.zhihu.com/question/41252833

免责声明:本站发布的游戏攻略(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场。
如果本文侵犯了您的权益,请联系站长邮箱进行举报反馈,一经查实,我们将在第一时间处理,感谢您对本站的关注!