LBS推荐系统的设计方法[页7]

来源：网络编辑：佚名时间：2016-01-04人气：

蜜桃成熟2全集高清,茶店子客运站时刻表,全能影锋

图1回归直线

回归直线： y=f(x)和 x=f(y)。其中：ax、bx与ay、by属于线性回归方程的系数。

相关系数是两组数据的中心化后的夹角的余弦值，即：等于两条回归线y=f(x) 和 x=f(y) 夹角的余弦值。

具体地说，相关系数等于两个变量之间的协方差和标准差的商：

相关距离的定义是：

以上方程定义了总体相关系数, 一般表示成希腊字母ρ(rho)。基于样本对协方差和方差进行估计时, 一般表示成r：

一种等价表达式的是表示成标准分的均值。基于(Xi, Yi)的样本点，样本皮尔逊系数是

其中、及分别是标准分、样本平均值和样本标准差。

（1）相关系数的适用范围。

当两个变量的标准差都不为零时，相关系数才有定义，皮尔逊相关系数适用于：

1.两个变量之间是线性关系，都是连续数据。

2.两个变量的总体是正态分布，或接近正态的单峰分布。

3.两个变量的观测值是成对的，每对观测值之间相互独立。

（2）相关系数的应用。

比如：有5个国家的储蓄分别为 1, 2, 3, 5 和 8 亿元。假设这5个国家的贫困百分比分别为 11%, 12%, 13%, 15%, 和18% 。

令 x 和 y 分别为包含上述5个数据的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。

利用通常的方法计算两个向量之间的夹角, 未中心化的相关系数是:

将数据中心化，即：通过E(x) = 3.8移动 x 和通过 E(y) = 0.138 移动 y ，得到：

x = (−2.8, −1.8, −0.8, 1.2, 4.2) ；

y = (−0.028, −0.018, −0.008, 0.012, 0.042)。

从而：

推荐系统的设计

推荐引擎分以下两类。

第一类称为协同过滤，即基于相似用户的协同过滤推荐（尽最大可能发现用户间的相似度），以及基于相似物品的协同过滤推荐（尽最大可能发现物品间的相似度）。

第二类是基于内容分析的推荐（调查问卷、电子邮件，或者其他基于内容特征的分析）。

协同过滤 基于协同过滤的推荐在本质上仍是计算相关系数。在小规模实现时，考虑计算其相关系数；在大规模的实现时，考虑使用逻辑回归算法（这也是淘宝/亚马逊/facebook所采用的算法，本质上属于单层采用Sigmoid型激发函数的神经网络，训练数据时，输出可以是推荐的商品，输入最好是比商品更多的特征维度，比如十亿以上的维度）。

（1）协同过滤的种类

协同过滤可分为以下三个子类。

基于用户（user）的推荐：这种推荐是通过共同口味与偏好找相似邻居用户，常使用K-近邻算法。要达到的效果是：因为你的朋友喜欢，所以推测你可能也喜欢；
基于物品（item）的推荐：这种推荐是要发现物品之间的相似度，从而推荐类似的物品。要达到的效果是：因为你喜欢物品A，又因为C与A相似，所以推测你可能也喜欢C；
基于模型的推荐：这种推荐是要基于样本的用户喜好信息构造一个推荐模型，然后根据实时的用户喜好信息预测推荐。

（2）做协同过滤推荐应考虑的因素

上述几种推荐在使用时，要考虑以下因素。精确度（Accuracy）：选择基于数量较少的因子来建立推荐算法；

超越Web：2015年的JavaScript

感谢对《》一文的翻译。

Tags标签距离推荐用户系统数据

首页上一页 4 5 6 78 9 10 下一页尾页

LBS推荐系统的设计方法[页7]

超越Web：2015年的JavaScript

热门推荐