12.4 夹角余弦相似度

夹角余弦(Cosine)相似度,亦称相合系数(Congruence coefficient)。所计算的是两个向量X和Y在内积空间中的夹角的余弦值(图12-5)。夹角余弦是相似度计算中最常用的方法。

{s_{xy}} = \cos (\theta ) = \frac{{XY}}{{\left\| X \right\|\left\| Y \right\|}} = \frac{{\sum\limits_{i = 1}^n {{x_i}{y_i}} }}{{\sqrt {\sum\limits_{i = 1}^n {x_i^2} {\text{\cdot}}\sum\limits_{i = 1}^n {y_i^2} } }}
 图12-5 向量内积空间的夹角余弦示意

夹角余弦的可能取值如下:

与许多相似度算法一样,夹角余弦相似度只测量变量间的相对差异,即比例上的差异(矢量的夹角),而与尺度无关(不考虑矢量的长度)。因此: