学生教材网 >程序设计 > 程序资讯 > 软件研发 > 浏览文章

LBS推荐系统的设计方法[页7]

来源:网络编辑:佚名时间:2016-01-04人气:

蜜桃成熟2全集高清,茶店子客运站时刻表,全能影锋

图1回归直线

回归直线: y=f(x)和 x=f(y)。其中:ax、bx与ay、by属于线性回归方程的系数。

相关系数是两组数据的中心化后的夹角的余弦值,即:等于两条回归线y=f(x) 和 x=f(y) 夹角的余弦值。

具体地说,相关系数等于两个变量之间的协方差和标准差的商:


相关距离的定义是:

以上方程定义了总体相关系数, 一般表示成希腊字母ρ(rho)。基于样本对协方差和方差进行估计时, 一般表示成r:

一种等价表达式的是表示成标准分的均值。基于(Xi, Yi)的样本点,样本皮尔逊系数是

其中 分别是标准分、样本平均值和样本标准差。

(1)相关系数的适用范围。

当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:

1.两个变量之间是线性关系,都是连续数据。

2.两个变量的总体是正态分布,或接近正态的单峰分布。

3.两个变量的观测值是成对的,每对观测值之间相互独立。

(2)相关系数的应用。

比如:有5个国家的储蓄分别为 1, 2, 3, 5 和 8 亿元。 假设这5个国家的贫困百分比分别为 11%, 12%, 13%, 15%, 和18% 。

令 x 和 y 分别为包含上述5个数据的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。

利用通常的方法计算两个向量之间的夹角, 未中心化的相关系数是:

将数据中心化 ,即:通过E(x) = 3.8移动 x 和通过 E(y) = 0.138 移动 y ,得到:

x = (−2.8, −1.8, −0.8, 1.2, 4.2) ;

y = (−0.028, −0.018, −0.008, 0.012, 0.042)。

从而:

推荐系统的设计

推荐引擎分以下两类。

第一类称为协同过滤,即基于相似用户的协同过滤推荐(尽最大可能发现用户间的相似度),以及基于相似物品的协同过滤推荐(尽最大可能发现物品间的相似度)。

第二类是基于内容分析的推荐(调查问卷、电子邮件,或者其他基于内容特征的分析)。

协同过滤 基于协同过滤的推荐在本质上仍是计算相关系数。在小规模实现时,考虑计算其相关系数;在大规模的实现时,考虑使用逻辑回归算法(这也是淘宝/亚马逊/facebook所采用的算法,本质上属于单层采用Sigmoid型激发函数的神经网络,训练数据时,输出可以是推荐的商品,输入最好是比商品更多的特征维度,比如十亿以上的维度)。

(1)协同过滤的种类

协同过滤可分为以下三个子类。

  • 基于用户(user)的推荐:这种推荐是通过共同口味与偏好找相似邻居用户,常使用K-近邻算法。要达到的效果是:因为你的朋友喜欢,所以推测你可能也喜欢;
  • 基于物品(item)的推荐:这种推荐是要发现物品之间的相似度,从而推荐类似的物品。要达到的效果是:因为你喜欢物品A,又因为C与A相似,所以推测你可能也喜欢C;
  • 基于模型的推荐:这种推荐是要基于样本的用户喜好信息构造一个推荐模型,然后根据实时的用户喜好信息预测推荐。

(2)做协同过滤推荐应考虑的因素

上述几种推荐在使用时,要考虑以下因素。精确度(Accuracy):选择基于数量较少的因子来建立推荐算法;

超越Web:2015年的JavaScript

感谢对《》一文的翻译。

热门推荐