Machine Learning
  • Introduction
  • man
  • Linear model
    • Linear Regression
    • Generalized Linear Models
    • Nonlinear regression
  • bayes
    • bayesian network
    • Variational Bayesian inference
    • Gaussian Process Regression
  • Logistic Regression
    • L1 regularization
    • L2 regularization
    • softmax
    • Overflow and Underflow
  • SVM
    • C-SVM
    • C-SVM求解
  • EM
    • GMM
  • Maximum Entropy
    • IIS
  • HMM
    • viterbi algorithm
  • CRF
  • Random Forest
    • bagging
    • random forest
  • boosting
    • catboost
    • gradient boosting
    • Newton Boosting
    • online boosting
    • gcForest
    • Mixture models
    • XGBoost
    • lightGBM
    • SecureBoost
  • LDA
  • rank
    • RankNet
    • LambdaRank
    • SimRank
  • Factorization Machine
    • Field-aware Factorization Machine
    • xdeepFM
  • Clustering
    • BIRCH
    • Deep Embedding Clustering
  • Kalman filtering
  • word2vec
  • 关联规则挖掘
  • MATH-Mathematical Analysis
    • measure
  • MATH-probability
    • Variational Inference
    • Dirichlet分布
    • Gibbs Sampling
    • Maximum entropy probability distribution
    • Conjugate prior
    • Gaussian Process
    • Markov process
    • Poisson process
    • measure
    • Gumbel
  • MATH-Linear Algebra
    • SVD
    • SVD-推荐
    • PCA
    • Linear Discriminant Analysis
    • Nonnegative Matrix Factorization
  • MATH-Convex optimization
    • 梯度下降
    • 随机梯度下降
    • 牛顿法
    • L-BFGS
    • 最速下降法
    • 坐标下降法
    • OWL-QN
    • 对偶问题
    • 障碍函数法
    • 原对偶内点法
    • ISTA
    • ADMM
    • SAG
  • MATH-碎碎念
    • cost function
    • Learning Theory
    • sampling
    • Entropy
    • variational inference
    • basis function
    • Diffie–Hellman key exchange
    • wavelet transform
    • 图
    • Portfolio
    • 凯利公式
  • ML碎碎念
    • 特征
    • test
    • TF-IDF
    • population stability index
    • Shapley Values
  • 课件
    • xgboost算法演进
  • Time Series
  • PID
  • graph
    • SimRank
    • community detection
    • FRAUDAR
    • Anti-Trust Rank
    • Struc2Vec
    • graph theory
    • GNN
  • Anomaly Detection
    • Isolation Forest
    • Time Series
  • Dimensionality Reduction
    • Deep Embedded Clustering
  • Federated Learning
  • automl
  • Look-alike
  • KNN
  • causal inference
Powered by GitBook
On this page
  • 对数几率比的解释
  • Exponential model的解释
  • 模型参数估计
  • 并行化
  • GBDT+LR

Was this helpful?

  1. 课件

xgboost算法演进

Previous课件NextTime Series

Last updated 1 year ago

Was this helpful?

对数几率比的解释

logit(P(y=1∣x))=log⁡P(y=1∣x)P(y=0∣x)=log⁡P(y=1∣x)1−P(y=1∣x)=w⋅xP(y=1∣x)=logit−1(w⋅x)=11+exp⁡(−w⋅x)=exp⁡(w⋅x)1+exp⁡(w⋅x)P(y=0∣x)=1−P(y=1∣x)=11+exp⁡(w⋅x)logit(P(y=1|x)) = \log \frac{P(y=1|x)}{P(y=0|x)} = \log \frac{P(y=1|x)}{1-P(y=1|x)} = w \cdot x \\ P(y=1|x) = logit^{-1} (w \cdot x) = \color{Blue}{\frac {1}{1+\exp(-w \cdot x)}} = \frac {\exp(w \cdot x)}{1+\exp(w \cdot x)} \\ P(y=0|x) = 1-P(y=1|x) = \color{Blue}{\frac {1}{1+\exp(w \cdot x)}}logit(P(y=1∣x))=logP(y=0∣x)P(y=1∣x)​=log1−P(y=1∣x)P(y=1∣x)​=w⋅xP(y=1∣x)=logit−1(w⋅x)=1+exp(−w⋅x)1​=1+exp(w⋅x)exp(w⋅x)​P(y=0∣x)=1−P(y=1∣x)=1+exp(w⋅x)1​

Bernoulli分布

p(y∣p)=py(1−p)1−y=exp⁡(ylog⁡p1−p+log⁡(1−p))p(y|p) = p^y(1-p)^{1-y} = \exp (y \log \frac {p}{1-p} + \log (1-p))p(y∣p)=py(1−p)1−y=exp(ylog1−pp​+log(1−p))

Exponential model的解释

P(y=k)=exp⁡(∑i=1nwkixi)∑kexp⁡(∑i=1nwkixi)=exp⁡(WkTX)∑kexp⁡(WkTX)P(y=k) = \frac {\exp(\sum_{i=1}^n w_{ki}x_i)}{\sum_k \exp(\sum_{i=1}^n w_{ki}x_i)} = \frac {\exp(W_k^T X)}{\sum_k \exp(W_k^T X)}P(y=k)=∑k​exp(∑i=1n​wki​xi​)exp(∑i=1n​wki​xi​)​=∑k​exp(WkT​X)exp(WkT​X)​

若只有两类,将分子分母同除分子,则有P(Y=1∣x)=11+exp(−w⋅x)P(Y=1|x) = \frac {1}{1+exp(-w \cdot x)}P(Y=1∣x)=1+exp(−w⋅x)1​

模型参数估计

模型学习时,可以用极大似然估计法估计模型参数

max⁡wL(w)=∏jpy(1−p)(1−y)\max_w L(w) = \prod_j p^y (1-p)^{(1-y)}wmax​L(w)=j∏​py(1−p)(1−y)

L1正则形式:

并行化

GBDT+LR

  1. 就是先用已有特征训练GBDT模型,

  2. 然后利用GBDT模型学习到的树来构造新特征,

  3. 最后把这些新特征加入原有特征一起训练模型。

构造的新特征向量是取值0/1的,向量的每个元素对应于GBDT模型中树的叶子结点。当一个样本点通过某棵树最终落在这棵树的一个叶子结点上,那么在新特征向量中这个叶子结点对应的元素值为1,而这棵树的其他叶子结点对应的元素值为0。新特征向量的长度等于GBDT模型里所有树包含的叶子结点数之和。

举例说明。下面的图中的两棵树是GBDT学习到的,第一棵树有3个叶子结点,而第二棵树有2个叶子节点。对于一个输入样本点x,如果它在第一棵树最后落在其中的第二个叶子结点,而在第二棵树里最后落在其中的第一个叶子结点。那么通过GBDT获得的新特征向量为[0, 1, 0, 1, 0],其中向量中的前三位对应第一棵树的3个叶子结点,后两位对应第二棵树的2个叶子结点。

如果类别标签为{−1,1}\{-1,1\}{−1,1},则极大似然可以改写成

maxwL(w)=∏j11+exp⁡(−yjwTxj)min⁡w−log⁡L(w)=∑jlog⁡(1+exp⁡(−yjwTxj))这个形式方便于并行化,比如梯度:G=∑j[11+exp⁡(−yjwTxj)−1]yiximax_w L(w) = \prod_j \frac {1}{1+\exp(-y_j w^T x_j)} \\ \min_w -\log L(w) = \sum_j \log(1+\exp(-y_j w^T x_j)) \\ \text{这个形式方便于并行化,比如梯度:} \\ G = \sum_j [\frac {1}{1+\exp(-y_j w^T x_j)} -1]y_i x_imaxw​L(w)=j∏​1+exp(−yj​wTxj​)1​wmin​−logL(w)=j∑​log(1+exp(−yj​wTxj​))这个形式方便于并行化,比如梯度:G=j∑​[1+exp(−yj​wTxj​)1​−1]yi​xi​
1N∑n=1Nlog⁡(1+exp⁡(−ynWTXn))+λ∥W∥1\frac {1} {N} \sum_{n=1}^N \log (1+\exp(-y_n W^T X_n)) + \lambda \left \| W \right \|_1N1​n=1∑N​log(1+exp(−yn​WTXn​))+λ∥W∥1​