Machine Learning

CtrlK

bagging

Bagging 是 Bootstrap Aggregating 的简称，意思就是再取样 (Bootstrap) 然后在每个样本上训练出来的模型取平均

模型融合基本思想：对多个模型的结果进行平均。

分类：投票
回归：平均

为什么要模型融合？因为可能会带来更好的精确度。比如，假设有5个Accuracy为70%的分类器，相互独立。若采用投票的方式将5个分类器的结果进行集成，则精确度为 $C_5^3 {0.7}^3 {0.3}^2 + C_5^4 {0.7}^4 {0.3} + C_5^5 {0.7}^5 = 83.7%$ 。若上述分类器有101个，则精确度可达99.9% 。

但是，如何获得多个分类器并且使他们尽量独立。

bagging集成的适用条件

适合弱分类器
- 不稳定：随机采样会得到较为不同的基分类器
- 每个基分类器准确率略高于50%
- 例如决策树
不适合强分类器
- 稳定：随机采样对结果影响不大
- 反而可能不如不集成，因为每个基分类器只有更少的样本
- 例如k近邻

误差分析

Bootstrap

【机器学习】Bootstrap详解 https://zhuanlan.zhihu.com/p/24851814 这里举了一个投资组合的例子，可以学习。

投资组合理论

风险分散和马科维茨组合 Black-Letterman模型与贝叶斯公式

为啥这种重采样有用呢。

假设样本的统计值为观测统计量。通过bootstrap重采样的为自助统计量。那么：

自助统计量：：观察统计量<=>观察统计量：：真值
“：：”表示二者间的关系，“<=>”表示等价于

图截自Bootstrap方法的几点思考

PreviousRandom Forest Nextrandom forest

Last updated 5 years ago

Was this helpful?