PCA

算法过程

假设原始数据是 $X_{m\times n}$ ，其中m表示数据大小，n表示维度大小。

将X中的数据进行零均值化，即每一列都减去其均值。
计算协方差矩阵 $C=\frac{1}{m}X^T X$
求出C的特征值和特征向量
将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P
$Y=XP$ 就是降维到k维后的数据。

如何定义k？方差百分比: $\frac {\sum_{j=1}^k \lambda_j} {\sum_{j=1}^n \lambda_j}$ 。 $\lambda$ 为特征值，从小到大排列。主成分分析(PCA)——基于python+numpy

原理

最大化方差法：

PCA 可以用来做降维，但通俗一点说，其本质应该是线性空间坐标系的转换，从原始的空间坐标系，转换到一个“合适的”的坐标系来表达，在这个坐标系中，主要信息都集中在了某几个坐标轴上，所以只保留这个“关键”的坐标系上的表达，就能很大程度approximate原信号。

所以用特征向量组成的基来表达样本。

投影后方差 $\frac {1}{N} \sum_{n=1}^N \{u_1^T x_n - u_1^T \overline {x} \}^2 = u_1^T S u_1$

S就是你说的“去均值的原矩阵(去均值的原矩阵的协方差矩阵的特征向量作为列向量形成的矩阵）”。

因为 u有约束条件 $u_1^T u =1$ ,所以用乘子法： $u_1^T S u_1 + \lambda (u_1^T u)$ ，对 $u_1$ 求导，得到 $Su_1=\lambda u_1$

待完善

主成分分析（PCA）原理总结

求pca的时候，能不能不用协方差矩阵？

PCA降维，特征值分解，SVD， KPCA

code

【机器学习算法实现】主成分分析(PCA)——基于python+numpy PCA

import numpy as np
import matplotlib.pyplot as plt

def zeroMean(dataMat):        
    meanVal=np.mean(dataMat,axis=0)     #按列求均值，即求各个特征的均值  
    newData=dataMat-meanVal  
    return newData,meanVal  

def percentage2n(eigVals,percentage):  
    sortArray=np.sort(eigVals)   #升序  
    sortArray=sortArray[-1::-1]  #逆转，即降序  
    arraySum=sum(sortArray)  
    tmpSum=0  
    num=0
    for i in sortArray:
        tmpSum+=i 
        num+=1 
        if tmpSum>=arraySum*percentage: 
            return num 

def pca(dataMat,percentage=0.99):  
    newData,meanVal=zeroMean(dataMat)  
    covMat=np.cov(newData,rowvar=0)    #求协方差矩阵,return ndarray；若rowvar非0，一列代表一个样本，为0，一行代表一个样本  
    eigVals,eigVects=np.linalg.eig(np.mat(covMat))#求特征值和特征向量,特征向量是按列放的，即一列代表一个特征向量  
    n=percentage2n(eigVals,percentage)                 #要达到percent的方差百分比，需要前n个特征向量  
    eigValIndice=np.argsort(eigVals)            #对特征值从小到大排序  
    n_eigValIndice=eigValIndice[-1:-(n+1):-1]   #最大的n个特征值的下标  
    n_eigVect=eigVects[:,n_eigValIndice]        #最大的n个特征值对应的特征向量  
    lowDDataMat=newData*n_eigVect               #低维特征空间的数据  
    reconMat=(lowDDataMat*n_eigVect.T)+meanVal  #重构数据  
    return lowDDataMat,reconMat 

if __name__ == "__main__":
    p1 = plt.subplot(121)
    #XMat = np.array(pd.read_csv(datafile,sep="\t",header=-1)).astype(np.float)
    XMat = np.loadtxt("pca.txt",delimiter="\t",dtype="float")
    #XMat = lines[1:,:4].astype('float')
    #XMat = np.array(pd.read_csv(datafile,sep="\t",header=-1)).astype(np.float)
    p1.plot(XMat[:,0],XMat[:,1],'.')
    finalData, reconMat = pca(XMat)
    #p1.plot(recon_data[:,0],recon_data[:,1],'*')
    p1.plot(finalData[:,0],finalData[:,1],'*')
    plt.savefig("outfile.png")
    plt.show()