学生教材网 >程序设计 > 程序资讯 > 软件研发 > 浏览文章

LBS推荐系统的设计方法[页4]

来源:网络编辑:佚名时间:2016-01-04人气:

如何除螨虫,肖美玲,天影滨湖国际影城

经过简单的推导就可以得到两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的标准化欧氏距离的公式: 


(2)曼哈顿距离。曼哈顿距离的正式意义为L1-距离或城市区块距离(City Block distance),也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对坐标轴产生的投影的距离总和。例如在平面上,坐标(x1,y1)的点P1与坐标(x2,y2)的点P2的曼哈顿距离为: ,要注意的是,曼哈顿距离依赖坐标系统的转度,而非系统在坐标轴上的平移或映射。

  • 二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离:


  • 两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼哈顿距离:

(3)切比雪夫距离。若二个向量或二个点p、q,其座标分别为 及 ,则两者之间的切比雪夫距离定义如下:


这也等于以下Lp度量的极值: 因此切比雪夫距离也称为L∞度量。

以数学的观点来看,切比雪夫距离是由一致范数(uniform norm)(或称为上确界范数)所衍生的度量,也是超凸度量(injective metric space)的一种。

在平面几何中,若二点p及q的直角坐标系坐标为 ,则切比雪夫距离为:

在国际象棋中,国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要的步数总是max(|x2-x1|,|y2-y1|)步。有一种类似的一种距离度量方法叫切比雪夫距离。

  • 二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离:


  • 两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的切比雪夫距离:


这个公式的另一种等价形式是


在闵可夫斯基距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。

值得注意的是,在采用闵可夫斯基距离时,一定要采用相同量纲的变量。如果变量的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离。在采用闵可夫斯基距离时,还应尽可能地避免变量的多重相关性(multi-collinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。

由于闵可夫斯基距离的这些缺点,一种改进的距离就是马氏距离。

 相关系数

由于习惯的原因,我们把两组样本近似线性的数据的距离称之为:相关系数。相关系数是衡量相似度的主要指标之一。

相关系数属于最重要的数据挖掘的概念之一。有两种重要的相关系数:夹角余弦(又称为:皮尔逊积矩相关系数);杰卡德相似系数。其中夹角余弦是在LBS中应用最普遍的相关系数。

1.夹角余弦

在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:

如果是对于两组样本数据来说,两组n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦

相类似,对于两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n),可以使用类似于夹角余弦的概念来衡量它们间的相似程度,即

夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。

如果将夹角余弦的概念再引申一下,引申到两组数据的回归直线的夹角的余弦,则得到了皮尔逊积矩相关系数(又称作PPMCC或PCC,一般简称为相关系数),用于度量两个变量X和Y之间的相关(线性相关)。在LBS中,该系数广泛用于度量两个变量之间的相关程度。如图1所示。


超越Web:2015年的JavaScript

感谢对《》一文的翻译。

热门推荐