蜜桃成熟2全集高清,茶店子客运站时刻表,全能影锋
图1回归直线
回归直线: y=f(x)和 x=f(y)。其中:ax、bx与ay、by属于线性回归方程的系数。
相关系数是两组数据的中心化后的夹角的余弦值,即:等于两条回归线y=f(x) 和 x=f(y) 夹角的余弦值。
具体地说,相关系数等于两个变量之间的协方差和标准差的商:
相关距离的定义是:
以上方程定义了总体相关系数, 一般表示成希腊字母ρ(rho)。基于样本对协方差和方差进行估计时, 一般表示成r:
一种等价表达式的是表示成标准分的均值。基于(Xi, Yi)的样本点,样本皮尔逊系数是
其中 、 及 分别是标准分、样本平均值和样本标准差。
(1)相关系数的适用范围。
当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
1.两个变量之间是线性关系,都是连续数据。
2.两个变量的总体是正态分布,或接近正态的单峰分布。
3.两个变量的观测值是成对的,每对观测值之间相互独立。
(2)相关系数的应用。
比如:有5个国家的储蓄分别为 1, 2, 3, 5 和 8 亿元。 假设这5个国家的贫困百分比分别为 11%, 12%, 13%, 15%, 和18% 。
令 x 和 y 分别为包含上述5个数据的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法计算两个向量之间的夹角, 未中心化的相关系数是:
将数据中心化 ,即:通过E(x) = 3.8移动 x 和通过 E(y) = 0.138 移动 y ,得到:
x = (−2.8, −1.8, −0.8, 1.2, 4.2) ;
y = (−0.028, −0.018, −0.008, 0.012, 0.042)。
从而:
推荐系统的设计
推荐引擎分以下两类。
第一类称为协同过滤,即基于相似用户的协同过滤推荐(尽最大可能发现用户间的相似度),以及基于相似物品的协同过滤推荐(尽最大可能发现物品间的相似度)。
第二类是基于内容分析的推荐(调查问卷、电子邮件,或者其他基于内容特征的分析)。
协同过滤 基于协同过滤的推荐在本质上仍是计算相关系数。在小规模实现时,考虑计算其相关系数;在大规模的实现时,考虑使用逻辑回归算法(这也是淘宝/亚马逊/facebook所采用的算法,本质上属于单层采用Sigmoid型激发函数的神经网络,训练数据时,输出可以是推荐的商品,输入最好是比商品更多的特征维度,比如十亿以上的维度)。
(1)协同过滤的种类
协同过滤可分为以下三个子类。
- 基于用户(user)的推荐:这种推荐是通过共同口味与偏好找相似邻居用户,常使用K-近邻算法。要达到的效果是:因为你的朋友喜欢,所以推测你可能也喜欢;
- 基于物品(item)的推荐:这种推荐是要发现物品之间的相似度,从而推荐类似的物品。要达到的效果是:因为你喜欢物品A,又因为C与A相似,所以推测你可能也喜欢C;
- 基于模型的推荐:这种推荐是要基于样本的用户喜好信息构造一个推荐模型,然后根据实时的用户喜好信息预测推荐。
(2)做协同过滤推荐应考虑的因素
上述几种推荐在使用时,要考虑以下因素。精确度(Accuracy):选择基于数量较少的因子来建立推荐算法;
超越Web:2015年的JavaScript
感谢对《》一文的翻译。