Machine Learning
  • Introduction
  • man
  • Linear model
    • Linear Regression
    • Generalized Linear Models
    • Nonlinear regression
  • bayes
    • bayesian network
    • Variational Bayesian inference
    • Gaussian Process Regression
  • Logistic Regression
    • L1 regularization
    • L2 regularization
    • softmax
    • Overflow and Underflow
  • SVM
    • C-SVM
    • C-SVM求解
  • EM
    • GMM
  • Maximum Entropy
    • IIS
  • HMM
    • viterbi algorithm
  • CRF
  • Random Forest
    • bagging
    • random forest
  • boosting
    • catboost
    • gradient boosting
    • Newton Boosting
    • online boosting
    • gcForest
    • Mixture models
    • XGBoost
    • lightGBM
    • SecureBoost
  • LDA
  • rank
    • RankNet
    • LambdaRank
    • SimRank
  • Factorization Machine
    • Field-aware Factorization Machine
    • xdeepFM
  • Clustering
    • BIRCH
    • Deep Embedding Clustering
  • Kalman filtering
  • word2vec
  • 关联规则挖掘
  • MATH-Mathematical Analysis
    • measure
  • MATH-probability
    • Variational Inference
    • Dirichlet分布
    • Gibbs Sampling
    • Maximum entropy probability distribution
    • Conjugate prior
    • Gaussian Process
    • Markov process
    • Poisson process
    • measure
    • Gumbel
  • MATH-Linear Algebra
    • SVD
    • SVD-推荐
    • PCA
    • Linear Discriminant Analysis
    • Nonnegative Matrix Factorization
  • MATH-Convex optimization
    • 梯度下降
    • 随机梯度下降
    • 牛顿法
    • L-BFGS
    • 最速下降法
    • 坐标下降法
    • OWL-QN
    • 对偶问题
    • 障碍函数法
    • 原对偶内点法
    • ISTA
    • ADMM
    • SAG
  • MATH-碎碎念
    • cost function
    • Learning Theory
    • sampling
    • Entropy
    • variational inference
    • basis function
    • Diffie–Hellman key exchange
    • wavelet transform
    • 图
    • Portfolio
    • 凯利公式
  • ML碎碎念
    • 特征
    • test
    • TF-IDF
    • population stability index
    • Shapley Values
  • 课件
    • xgboost算法演进
  • Time Series
  • PID
  • graph
    • SimRank
    • community detection
    • FRAUDAR
    • Anti-Trust Rank
    • Struc2Vec
    • graph theory
    • GNN
  • Anomaly Detection
    • Isolation Forest
    • Time Series
  • Dimensionality Reduction
    • Deep Embedded Clustering
  • Federated Learning
  • automl
  • Look-alike
  • KNN
  • causal inference
Powered by GitBook
On this page
  • bagging集成的适用条件
  • 误差分析

Was this helpful?

  1. Random Forest

bagging

Bagging 是 Bootstrap Aggregating 的简称,意思就是再取样 (Bootstrap) 然后在每个样本上训练出来的模型取平均

模型融合基本思想:对多个模型的结果进行平均。

  • 分类:投票

  • 回归:平均

为什么要模型融合?因为可能会带来更好的精确度。 比如,假设有5个Accuracy为70%的分类器,相互独立。若采用投票的方式将5个分类器的结果进行集成,则精确度为C530.730.32+C540.740.3+C550.75=83.7C_5^3 {0.7}^3 {0.3}^2 + C_5^4 {0.7}^4 {0.3} + C_5^5 {0.7}^5 = 83.7%C53​0.730.32+C54​0.740.3+C55​0.75=83.7。 若上述分类器有101个,则精确度可达99.9% 。

但是,如何获得多个分类器并且使他们尽量独立。

bagging集成的适用条件

  • 适合弱分类器

    • 不稳定:随机采样会得到较为不同的基分类器

    • 每个基分类器准确率略高于50%

    • 例如决策树

  • 不适合强分类器

    • 稳定:随机采样对结果影响不大

    • 反而可能不如不集成,因为每个基分类器只有更少的样本

    • 例如k近邻

误差分析

Bootstrap

为啥这种重采样有用呢。

假设样本的统计值为 观测统计量。通过bootstrap重采样的为 自助统计量。那么:

自助统计量::观察统计量<=>观察统计量::真值

“::”表示二者间的关系,“<=>”表示等价于

图截自Bootstrap方法的几点思考

PreviousRandom ForestNextrandom forest

Last updated 5 years ago

Was this helpful?

【机器学习】Bootstrap详解 这里举了一个投资组合的例子,可以学习。

https://zhuanlan.zhihu.com/p/24851814
投资组合理论
风险分散和马科维茨组合
Black-Letterman模型与贝叶斯公式