机器学习–决策树
决策树是一种分类方法或分类器
(决策结果)
构成:一个根结点(样本全集),若干个内部结点(属性测试),若干个叶节点信息熵,衡量信息的不确定性。
构建决策树:依据属性划分数据
划分原则:将无序的数据变得有序
信息熵:𝐸(𝑋)=−∑𝑖=1𝑛𝑝(𝑥𝑖)log2𝑝(𝑥𝑖)E(X)=−∑i=1np(xi)log2p(xi)
一个系统越有序(信息越明确),信息熵就越低;系统越混乱,信息熵就越高。
信息增益:决策前的信息熵-决策后的信息熵
𝐺𝑎𝑖𝑛(𝐷,𝑥𝑖)=𝐸(𝑋)−∑𝑖=1𝑛∣𝐷𝑖∣∣𝐷∣𝐸(𝑥𝑖)Gain(D,xi)=E(X)−∑i=1n∣D∣∣Di∣E(xi)
构建决策树一信用卡审批系统
决策树原理:自上而下,递归过程
终止条件:一个节点上的数据属于同一个类别没有属性可以再用于分割
构建决策树–ID3算法
使用信息增益最大的属性对数据集进行划分
算法步骤: 1.计算样本集的信息熵 2.计算各个属性的信息熵 3.计算每个属性的信息增益 4.选择获得最大信息增益的属性进行划分 5.当所有叶结点是纯的,划分过程终止,当数据不可进一步划分,也终止
过拟合问题与剪枝
过拟合问题:学习能力过于强大→影响分类模型的泛化能力 欠拟合问题:学习能力低下
解决方法:剪枝
先剪枝:控制决策树生长
后剪枝:允许决策树过拟合生长,之后进行剪枝。
实战演练: 1.准备数据 2.划分训练集和测试集 3.构建模型 4.测试模型 5.输出结果,投入生产
决策树的优缺点
优点: 1.计算复杂度不高 2.输出结果易于理解 3.可以处理样本值缺失的情况 4.对离散值和连续值的样本都适用
缺点:应用于小数据集
最新评论