SVD-推荐

《A Guide to Singular Value Decomp osition for Collab orative Filtering》

用户对电影的打分可以用feature建立联系：用户喜欢动作片还是科幻片，该电影是喜剧还是传记。建立两个矩阵：每个用户对各个feature的喜欢程度，电影的各个feature程度。则两矩阵相乘的结果与原来的评分越近越好，即期望越销越好。

E=\frac 12 \sum_{i=1}^n \sum_{j=1}^m I_{ij}(V_{ij}-p(U_i,M_j))^2 + \frac {k_u}{2}\sum_{i=1}^n ||U_i||^2 + \frac {k_m}{2} \sum_{j=1}^m ||M_j||^2

其中n表示用户数目，m表示物品数目， $I_ij$ 是用来表示用户i有没有对物品j评过分，因为我们只需要评过分的那些越接近越好，没评过的就不需要考虑， $V_ij$ 表示训练数据中给出的评分，也就是实际评分， $p(U_i,M_j)$ 表示我们对用户i对物品j的评分的预测，结果根据两向量点乘得到，后面的两项主要是为了防止过拟合，之所以都加了系数1/2是为了等会求导方便。

用梯度下降法求解,算法流程：

其中梯度：

\frac{\partial E}{\partial U_i} = \sum_{j=1}^m I_{ij}((V_{ij}-p(U_i,M_j))M_j)-K_uU_i , i=1,\ldots,n \\ \frac{\partial E}{\partial M_j} = \sum_{i=1}^n I_{ij}((V_{ij}-p(U_i,M_j))U_j)-K_mM_j , j=1,\ldots,m

上述算法被称为批处理式学习算法，因为它计算的是整个矩阵。不完全增量式学习

E_i = \frac 12 \sum_{i=1}^n \sum_{j=1}^m I_{ij}(V_{ij}-p(U_i,M_j))^2 + \frac {k_u}{2}\sum_{i=1}^n ||U_i||^2 + \frac {k_m}{2} \sum_{j=1}^m I_{ij}(||M_j||)^2

梯度:

\frac{\partial E_i}{\partial U_i} = \sum_{j=1}^m I_{ij}((V_{ij}-p(U_i,M_j))M_j)-K_uU_i , i=1,\ldots,n \\ \frac{\partial E_i}{\partial M_j} = I_{ij}((V_{ij}-p(U_i,M_j))U_j)-K_mI_{ij}(M_j) \\ =I_{ij}[(V_{ij}-p(U_i,M_j))U_j)-K_mM_j], j=1,\ldots,m

完全增量式学习是对每一个评分进行期望计算，期望如下：

还有些SVD算法考虑了每个用户，每个物品的bias,这里所谓的bias就是每个人的偏差，比如一个电影a,b两人都认为不错，但是a评分方便比较保守，不错的给3分，b评分比较宽松，不错的给4分，故一下的评分方式考虑到了每个用户，每个物品的bias，要比上述算法更加精准。原来评分的话是直接计算 $userfeature * itemfeature^T$ , ，但现在要考虑各种bias，如下：