Recommender System by SVD 基于SVD的推荐系统

引入

在之前的SVD Decomposition一文中，我们介绍过，一个mxn的矩阵A可以分解为:

$\underset{m\times n}{A}=\underset{m\times m}{U}\underset{m\times n}{\sum}\underset{n\times n}{V^{T}}$

其中 $U$ 为 $AA^{T}$ 的特征矩阵， $V$ 为 $A^{T}A$ 的特征矩阵。同时我们通过选取部分奇异值及其对应的特征向量的方式实现对 $U, \sum,V$ 的降维：

这一降维方式可以运用在图像压缩中。

此文中，我们将继续探索SVD降维方法在推荐系统中的应用。

推荐系统实践

问题的提出

我们考虑这样一个评分样本，6个user对5个item分别进行了评分，没有评分的计作0分：

接下来，我们的目标是向user_5推荐item。应该向Ta推荐item_1，还是item_5呢? ——

这里采用的策略是：找到与user_5喜好最接近的用户，然后把该用户对item_1, item_5中评分最高的那一个推荐给user_5。于是问题转化为：哪个用户与user_5的喜好最接近？

在实际应用中，user-item数据表的维度远远大于6x5。在巨大维度下，计算成本太高，使用SVD进行降维后再计算，是推荐系统里常用的方法。

SVD求解

首先将样本数据看做一个矩阵6x5的矩阵并进行SVD分解：

$\underset{\underset{m \times n}{A}}{\begin{bmatrix} 1 & 5& 0& 5& 4\\ 5 & 4& 4 &3 &2 \\ 0& 4& 0& 0& 5\\ 4& 4& 1& 4& 0\\ 0& 4& 3& 5& 0\\ 2& 4& 3& 5& 3 \end{bmatrix}} = \underset{\underset{m \times m}{U}}{\begin{bmatrix} -0.46 & 0.40 & 0.30 & -0.43 & 0.32 & -0.50\\ -0.46 & -0.30 & -0.65 & 0.28 & 0.02 & -0.44 \\ -0.25 & 0.75 & -0.28 & 0.16 & -0.46 & 0.22\\ -0.38 & -0.35 & -0.13 & -0.68 & -0.32 & 0.38 \\ -0.38 & -0.24 & 0.62 & 0.38 & -0.50 & -0.13\\ -0.48 & -0.01 & 0.10 & 0.31 & 0.57 & 0.59 \end{bmatrix} } \underset{\underset{m \times n}{\sum}}{\begin{bmatrix} 16.47 & 0 & 0 & 0 & 0\\ 0 & 6.21 & 0 & 0 & 0\\ 0& 0 & 4.40 & 0 & 0 \\ 0& 0 & 0 & 2.90 & 0 \\ 0& 0 & 0 & 0 & 1.58 \\ 0& 0 & 0 & 0 & 0 \end{bmatrix} } \underset{\underset{n \times n}{V^{T}}}{ \begin{bmatrix} -0.32 & -0.61 & -0.29 & -0.58 & -0.33\\ -0.41 & 0.22 & -0.38 & -0.26 & 0.76\\ -0.74 & 0.03 & -0.13 & 0.60 & -0.27 \\ -0.39 & -0.12 & 0.87 & -0.20 & 0.19\\ 0.17 & -0.75 & -0.03 & 0.45 & 0.45 \end{bmatrix} }$

对于评分矩阵，该分解意味着什么呢？我们来计算一下user_3对item_2的评分

$4 = (-0.25)\times 16.47\times (-0.61)+0.75\times 6.21\times 0.22+(-0.28)\times 4.4\times 0.03+0.16\times 2.9\times (-0.12)+(-0.46)\times 1.58\times (-0.75)$

也就是说A中各个位置的元素来自于 $U$ 的对应位置行向量和 $V^{T}$ 的对应位置列向量按照奇异值进行加权点积。

将 $U$ 的行向量看作user向量在新特征下的表示， $V^{T}$ 的列向量看作item向量在新特征下的表示，同时只截取权重最大的前两个特征，对数据进行降维：

至此，实现了降维。

我们在此维度下，寻找与user_5最接近的user。每个用户向量抽离出来是2维向量：

$user\_1^{T} = (-0.46,0.40)$

$user\_2^{T} = (-0.46，-0.30)$

$user\_3^{T} = (-0.25,0.75)$

$user\_4^{T} = (-0.38,-0.35)$

$user\_5^{T} = (-0.38，-0.24)$

$user\_6^{T} = (-0.48,-0.01)$

然后我们要找出与 $user\_5^{T}$ 向量相似度最高的向量。

向量的相似度是怎么评估的？—— 评估标准有很多种，常见的有：夹角余弦法，欧氏距离法等。这里我们使用欧式距离，即两个向量 $(x_{11},x_{12},...,x_{1n})$ 和 $(x_{21},x_{22},...,x_{2n})$ 之间的欧式距离为：

$d=\sqrt{\sum_{i=1}^{n}(x_{1i}-x_{2i})^2}$

欧式距离越小，向量相似度越高。

通过计算得知， $user\_2^{T}$ 与 $user\_5^{T}$ 相似度最高，所以user_2和user_5的喜好最接近。

回到原始矩阵看user_2对item_1和item_5的评分：item_1评分，更高。因此将item_1推荐给user_5。

向新用户推荐item

上面求解的是向已知用户推荐item。如果现在有一个新的用户 $user\_new^{T}=(2,0,5,2,0)$ ，它的数据并不在上面的样本矩阵里，怎么办？
容易想到的是，直接加入原样本数据进行扩展再求解，但是这样做在大数据情况下时间消耗太大。我们需要基于已经有的模型对新加入的用户进行item推荐。

首先，将新用户投影到降维后的user向量空间中去（为什么是这个算法？~~我也在找寻答案~~ 请见附录）：

$X_{k}^{T} = X^{T}\underset{n\times k}{V}\underset{k\times k}{\sum}^{-1}$

$X_{2}^{T} =(2,0,5,2,0)\begin{bmatrix} -0.32 & -0.41\\ -0.61& 0.22 \\ -0.29 & -0.38 \\ -0.58 & -0.26 \\ -0.33 & 0.76 \end{bmatrix} \begin{bmatrix} 16.47 & 0\\ 0 & 6.21 \end{bmatrix}^{-1}=(-0.20,-0.52)$

接下来通过欧式距离或者其它方式,找出 $user\_1^{T}$ ~ $user\_6^{T}$ 中与 $X_{2}^{T}}$ 相似度最该的且对item_2和item_5评过分的user, 然后把该user对item_2和item_5中评分更高的item推荐给 $X$ 用户

以上。

附录

将SVD分解的原始矩阵A和分解矩阵U都写成行向量形式：

$A=U\sum V^{T}$

$\begin{pmatrix} A_{1}\\ A_{2}\\ ...\\ A_{m}\\ \end{pmatrix}= \begin{pmatrix} u_{1}\\ u_{2}\\ ...\\ u_{m}\\ \end{pmatrix} \sum V^{T} = \begin{pmatrix} u_{1}\sum V^{T}\\ u_{2}\sum V^{T}\\ ...\\ u_{m}\sum V^{T}\\ \end{pmatrix}$