集成学习与随机森林

  1. 集成学习的概念:
    ① 个体学习器:精确率仅高于随机学习器
    ② 集成学习:结合多个个体学习器从而获得精确率很高的学习器
    ③ 分类:基于Boosting的集成学习方法&基于Bagging的集成学习方法
    区别:<1>样本选择:Boosting训练不变,样例权值变化,Bagging有放回抽取
    <2>样例权重:前者根据错误率调整样例权值,错误率增减幅权值增大,后者权重相同
    <3>预测函数:前者每个弱分类器有相应权值,后者弱分类器权值相等
    <4>并行计算:前者只能顺序生成,后者可并行生成
  2. Boosting算法:个体之间存在强依赖关系
    (c)Boosting意为“提升”每个个体学习器都在弥补集成学习器的欠缺从而达到整体优化
    • Boosting算法——AdaBoost算法
      原理:通过每次降低个体学习器的分类误差,加大改进后个体学习器的重大性
      公式:G(x)=sign[f(x)] =sign [σ(G1(x) +α2 G2(x) +…+σn Gn(x)]
  3. 随机森林
    基本随机,特征随机。