Machine Learning
  • Introduction
  • man
  • Linear model
    • Linear Regression
    • Generalized Linear Models
    • Nonlinear regression
  • bayes
    • bayesian network
    • Variational Bayesian inference
    • Gaussian Process Regression
  • Logistic Regression
    • L1 regularization
    • L2 regularization
    • softmax
    • Overflow and Underflow
  • SVM
    • C-SVM
    • C-SVM求解
  • EM
    • GMM
  • Maximum Entropy
    • IIS
  • HMM
    • viterbi algorithm
  • CRF
  • Random Forest
    • bagging
    • random forest
  • boosting
    • catboost
    • gradient boosting
    • Newton Boosting
    • online boosting
    • gcForest
    • Mixture models
    • XGBoost
    • lightGBM
    • SecureBoost
  • LDA
  • rank
    • RankNet
    • LambdaRank
    • SimRank
  • Factorization Machine
    • Field-aware Factorization Machine
    • xdeepFM
  • Clustering
    • BIRCH
    • Deep Embedding Clustering
  • Kalman filtering
  • word2vec
  • 关联规则挖掘
  • MATH-Mathematical Analysis
    • measure
  • MATH-probability
    • Variational Inference
    • Dirichlet分布
    • Gibbs Sampling
    • Maximum entropy probability distribution
    • Conjugate prior
    • Gaussian Process
    • Markov process
    • Poisson process
    • measure
    • Gumbel
  • MATH-Linear Algebra
    • SVD
    • SVD-推荐
    • PCA
    • Linear Discriminant Analysis
    • Nonnegative Matrix Factorization
  • MATH-Convex optimization
    • 梯度下降
    • 随机梯度下降
    • 牛顿法
    • L-BFGS
    • 最速下降法
    • 坐标下降法
    • OWL-QN
    • 对偶问题
    • 障碍函数法
    • 原对偶内点法
    • ISTA
    • ADMM
    • SAG
  • MATH-碎碎念
    • cost function
    • Learning Theory
    • sampling
    • Entropy
    • variational inference
    • basis function
    • Diffie–Hellman key exchange
    • wavelet transform
    • 图
    • Portfolio
    • 凯利公式
  • ML碎碎念
    • 特征
    • test
    • TF-IDF
    • population stability index
    • Shapley Values
  • 课件
    • xgboost算法演进
  • Time Series
  • PID
  • graph
    • SimRank
    • community detection
    • FRAUDAR
    • Anti-Trust Rank
    • Struc2Vec
    • graph theory
    • GNN
  • Anomaly Detection
    • Isolation Forest
    • Time Series
  • Dimensionality Reduction
    • Deep Embedded Clustering
  • Federated Learning
  • automl
  • Look-alike
  • KNN
  • causal inference
Powered by GitBook
On this page
  • 0-1 loss
  • 方差 quadratic loss
  • cross entropy
  • log-likelihood loss
  • 以logistic regression举例
  • absolute loss
  • 参考佳文

Was this helpful?

  1. MATH-碎碎念

cost function

0-1 loss

L(Y,f(x))={1,Y≠f(x)0,Y=f(x)L(Y,f(x)) = \begin{cases} 1, & Y \neq f(x) \\ 0, & Y = f(x) \\ \end{cases}L(Y,f(x))={1,0,​Y=f(x)Y=f(x)​

方差 quadratic loss

C=12(y−a)2C = \frac {1}{2}(y-a)^2C=21​(y−a)2 其中 a=σ(wx+b)a = \sigma(wx+b)a=σ(wx+b) 若用梯度下降来更新w,则w的偏导: ∂C∂w=(y−a)σ′(wx)x\frac {\partial C}{\partial w} = (y-a) \sigma^′(wx) x∂w∂C​=(y−a)σ′(wx)x 因为sigmoid函数的性质,导致σ′(wx)\sigma^′(wx)σ′(wx)在z取大部分值时会很小(曲线的两端),会导致w更新很慢。

cross entropy

C=−1n∑[yln⁡a+(1−y)ln⁡(1−a)]C = -\frac {1}{n} \sum [y\ln a+(1-y)\ln(1-a)]C=−n1​∑[ylna+(1−y)ln(1−a)] 其中y为期望输出,a为实际输出a=σ(∑wjxj)a= \sigma(\sum w_j x_j)a=σ(∑wj​xj​)。y的值为{0,1},所以而a只是接近于{0,1},所以不要换y与a的位置,因为ln0没有意义。

与方差代价函数一样,交叉熵代价函数同样有两个性质:

  • 非负性。(所以我们的目标就是最小化代价函数)

  • 当真实输出a与期望输出y接近的时候,代价函数接近于0.(比如y=0,a~0;y=1,a~1时,代价函数都接近0)。

另外,它可以克服方差代价函数更新权重过慢的问题。

∂C∂wj=1n∑xj(σ(wx)−y)\frac {\partial C}{\partial w_j} = \frac {1}{n}\sum x_j(\sigma(wx)-y)∂wj​∂C​=n1​∑xj​(σ(wx)−y)

可以看到,导数中没有σ′(wx)\sigma^′(wx)σ′(wx)这一项,权重的更新是受σ(z)−y这一项影响,即受误差的影响。所以当误差大的时候,权重更新就快,当误差小的时候,权重的更新就慢。这是一个很好的性质。

log-likelihood loss

对数似然函数也常用来作为softmax回归的代价函数,深度学习中普遍的做法是将softmax作为最后一层,此时常用的是代价函数是log-likelihood cost。 其实这两者是一致的,logistic回归用的就是sigmoid函数,softmax回归是logistic回归的多类别推广。log-likelihood代价函数在二类别时就可以化简为交叉熵代价函数的形式。

以logistic regression举例

P(y=1∣x,θ)=hθ(x)P(y=0∣x,θ)=1−hθ(x)P(y∣x,θ)=(hθ(x))y(1−hθ(x))(1−y)L(θ)=−log⁡∏i=1nP(yi∣xi,θ)=−∑i=1nlog⁡(hθ(xi))yi(1−hθ(xi))(1−yi)P(y=1|x,\theta) = h_\theta(x) \\ P(y=0|x,\theta) = 1-h_\theta(x) \\ P(y|x,\theta) = (h_\theta(x))^y(1-h_\theta(x))^{(1-y)} \\ L(\theta) = -\log \prod_{i=1}^n P(y^{i}|x^{i},\theta) = - \sum_{i=1}^n \log (h_\theta(x^{i}))^{y^{i}}(1-h_\theta(x^{i}))^{(1-y^{i})}P(y=1∣x,θ)=hθ​(x)P(y=0∣x,θ)=1−hθ​(x)P(y∣x,θ)=(hθ​(x))y(1−hθ​(x))(1−y)L(θ)=−logi=1∏n​P(yi∣xi,θ)=−i=1∑n​log(hθ​(xi))yi(1−hθ​(xi))(1−yi)

这个就是最小化 cross entropy 。

absolute loss

L(Y,f(x))=∣Y−f(x)∣L(Y,f(x)) = |Y-f(x)|L(Y,f(x))=∣Y−f(x)∣

参考佳文

PreviousMATH-碎碎念NextLearning Theory

Last updated 4 years ago

Was this helpful?

交叉熵代价函数
Cross entropy
各种Loss Function的比较