机器学习–决策树

决策树是一种分类方法或分类器

(决策结果)

构成:一个根结点(样本全集),若干个内部结点(属性测试),若干个叶节点信息熵,衡量信息的不确定性。

构建决策树:依据属性划分数据

划分原则:将无序的数据变得有序

信息熵:𝐸(𝑋)=−∑𝑖=1𝑛𝑝(𝑥𝑖)log⁡2𝑝(𝑥𝑖)E(X)=−∑i=1np(xi​)log2​p(xi​)

一个系统越有序(信息越明确),信息熵就越低;系统越混乱,信息熵就越高。

信息增益:决策前的信息熵-决策后的信息熵

𝐺𝑎𝑖𝑛(𝐷,𝑥𝑖)=𝐸(𝑋)−∑𝑖=1𝑛∣𝐷𝑖∣∣𝐷∣𝐸(𝑥𝑖)Gain(D,xi​)=E(X)−∑i=1n​∣D∣∣Di​∣​E(xi​)

构建决策树一信用卡审批系统

决策树原理:自上而下,递归过程

终止条件:一个节点上的数据属于同一个类别没有属性可以再用于分割

构建决策树–ID3算法

使用信息增益最大的属性对数据集进行划分

算法步骤: 1.计算样本集的信息熵 2.计算各个属性的信息熵 3.计算每个属性的信息增益 4.选择获得最大信息增益的属性进行划分 5.当所有叶结点是纯的,划分过程终止,当数据不可进一步划分,也终止

过拟合问题与剪枝

过拟合问题:学习能力过于强大→影响分类模型的泛化能力 欠拟合问题:学习能力低下

解决方法:剪枝

先剪枝:控制决策树生长

后剪枝:允许决策树过拟合生长,之后进行剪枝。

实战演练: 1.准备数据 2.划分训练集和测试集 3.构建模型 4.测试模型 5.输出结果,投入生产

决策树的优缺点

优点: 1.计算复杂度不高 2.输出结果易于理解 3.可以处理样本值缺失的情况 4.对离散值和连续值的样本都适用

缺点:应用于小数据集