集成学习与随机森林
- 集成学习的概念:
① 个体学习器:精确率仅高于随机学习器
② 集成学习:结合多个个体学习器从而获得精确率很高的学习器
③ 分类:基于Boosting的集成学习方法&基于Bagging的集成学习方法
区别:<1>样本选择:Boosting训练不变,样例权值变化,Bagging有放回抽取
<2>样例权重:前者根据错误率调整样例权值,错误率增减幅权值增大,后者权重相同
<3>预测函数:前者每个弱分类器有相应权值,后者弱分类器权值相等
<4>并行计算:前者只能顺序生成,后者可并行生成 - Boosting算法:个体之间存在强依赖关系
(c)Boosting意为“提升”每个个体学习器都在弥补集成学习器的欠缺从而达到整体优化- Boosting算法——AdaBoost算法
原理:通过每次降低个体学习器的分类误差,加大改进后个体学习器的重大性
公式:G(x)=sign[f(x)] =sign [σ(G1(x) +α2 G2(x) +…+σn Gn(x)]
- Boosting算法——AdaBoost算法
- 随机森林
基本随机,特征随机。
最新评论