C-SVM求解

C-SVM的实质是在原始特征空间或者变换空间寻找一个最优超平面,能把两类样本集很好的分开,这个最优超平面的最优是“最大间隔”+“最少错分样本数目”的折中。 LS-SVM的实质也是寻找一个最优超平面,能把两类样本集很好的分开,但这个最优超平面所在的最优分类间隔的两个超平面是这样确定的:某类样本侧的超平面间隔关于该类样本的距离平方和最小。

因此基于不同的“最优”标准,就得到了不同的目标函数,因此尽管都是在寻找最优超平面,但因标准不一样,所以找到的超平面也不一样。

对于C-SVM来说,最优超平面仅有占据训练样本少数比例的支持向量所决定;而LS-SVM的最优超平面是由所有训练样本共同决定的。

LIBSVM: A Library for Support Vector Machines 这是libsvm官方文档

目标函数###

SVM软间隔原始形式

min12WTW+Ci=1nξ(w,xi,yi)\min \frac 12 W^TW + C \sum_{i=1}^n \xi(w,x_i,y_i)
  • 当损失函数 ξ(w,xi,yi)=max(0,(1yiwxi))\xi(w,x_i,y_i) = \max(0,(1-y_iwx_i))时就叫做L1-SVM,

  • 当损失函数 ξ(w,xi,yi)=max(0,(1yiwxi))2\xi(w,x_i,y_i) = \max(0,(1-y_iwx_i))^2时就叫做L2-SVM。

对偶函数统一形式###

minα12αTQαeTαsubjectto0αiU,ieT为单位列向量Q=Q+D,Qij=yiyj<xi,xj>,D为对角阵\min_{\alpha} \frac{1}{2} \alpha^T Q \alpha - e^T\alpha \\ subject to \quad 0 \le \alpha_i \le U , \forall i \\ e^T \text{为单位列向量} \\ Q = Q' + D , Q'_{ij}=y_iy_j<x_i,x_j> , D\text{为对角阵}

也可以从对偶形式定义:

  • 对于L1-SVM: Dii=0&&U=CD_{ii}=0 \quad \And\And \quad U=C

  • 对于L2-SVM: Dii=1/(2C)&&U=+D_{ii}=1/(2C) \quad \And\And \quad U=+\infty

Coordinate Descent Method###

αik+1=argminf(α1k+1,,αi1k+1,ε,αi+1k,,αnk)\alpha_i^{k+1} = \arg \min f(\alpha_1^{k+1},\cdots,\alpha_{i-1}^{k+1},\varepsilon,\alpha_{i+1}^k,\cdots,\alpha_n^k)

额,不知道怎么算法排版,后再排 然后对单维度进来牛顿法求解,

ADMM###

f=1ni=1n(max{1yiwTxi,0}+λ2nw2)f=1n/2i=1n/2(max{1yiw1Txi,0}+λ2nw12)+1n/2i=n/2+1n(max{1yiw2Txi,0}+λ2nw22)w1=w2f = \frac 1n \sum_{i=1}^n(\max\{1-y_i w^T x_i,0\} + \frac {\lambda}{2n} ||w||^2) \\ f = \frac 1{n/2} \sum_{i=1}^{n/2}(\max\{1-y_i w_1^T x_i,0\} + \frac {\lambda}{2n} ||w_1||^2) + \frac 1{n/2} \sum_{i=n/2+1}^{n}(\max\{1-y_i w_2^T x_i,0\} + \frac {\lambda}{2n} ||w_2||^2) \qquad w_1=w_2\\

参考佳文####

SVM学习——Coordinate Desent Method

Last updated

Was this helpful?