中易网

决策树ID3,C4.5,CART算法中某一属性分类后,是否能运用该属性继续分类

答案:2  悬赏:70  
解决时间 2021-01-05 10:45
决策树ID3,C4.5,CART算法中某一属性分类后,是否能运用该属性继续分类
最佳答案
用过的分类属性是不能在用来分类的,假设:再用来分类的情况下,在数据很充分时,相当于把整个数据集合中的每一条信息用树结构表达出来。
全部回答
决策树主要有ID3,C4.5,CART等形式。ID3选取信息增益的属性递归进行分类,C4.5改进为使用信息增益率来选取分类属性。CART是Classfication and Regression Tree的缩写。表明CART不仅可以进行分类,也可以进行回归。其中使用基尼系数选取分类属性。以下主要介绍ID3和CART算法。
ID3算法:
信息熵: H(X)=-sigma(对每一个x)(plogp) H(Y|X)=sigma(对每一个x)(pH(Y|X=xi))
信息增益:H(D)-H(D|X) H(D)是整个数据集的熵
信息增益率:(H(D)-H(D|X))/H(X)
算法流程:(1)对每一个属性计算信息增益,若信息增益小于阈值,则将该支置为叶节点,选择其中个数最多的类标签作为该类的类标签。否则,选择其中最大的作为分类属 性。
(2)若各个分支中都只含有同一类数据,则将这支置为叶子节点。
否则 继续进行(1)。
CART算法:
基尼系数:Gini(p)=sigma(每一个类)p(1-p)
回归树:属性值为连续实数。将整个输入空间划分为m块,每一块以其平均值作为输出。f(x)=sigma(每一块)Cm*I(x属于Rm)
回归树生成:(1)选取切分变量和切分点,将输入空间分为两份。
(2)每一份分别进行第一步,直到满足停止条件。
切分变量和切分点选取:对于每一个变量进行遍历,从中选择切分点。选择一个切分点满足分类均方误差最小。然后在选出所有变量中最小分类误差最小的变量作为切分 变量。
分类树:属性值为离散值。
分类树生成:(1)根据每一个属性的每一个取值,是否取该值将样本分成两类,计算基尼系数。选择基尼系数最小的特征和属性值,将样本分成两份。
(2)递归调用(1)直到无法分割。完成CART树生成。
决策树剪枝策略:
预剪枝(树提前停止生长)和后剪枝(完全生成以后减去一些子树提高预测准确率)
降低错误率剪枝:自下而上对每一个内部节点比较减去以其为叶节点和子树的准确率。如果减去准确率提高,则减去,依次类推知道准确率不在提高。
代价复杂度剪枝:从原始决策树T0开始生成一个子树序列{T0、T1、T2、...、Tn},其中Ti+1是从Ti总产生,Tn为根节点。每次均从Ti中 减去具有最小误差增长率的子树。然后通过 交叉验证比较序列中各子树的效果选择最优决策树。追问你说的很全面了,但是我的问题是每次递归调用的时候是不是用全部属性还是需要把本次用于分枝的属性给剔除掉呢?
我要举报
如以上问答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
“TD手机”是什么意思?
126.co免费邮箱登录
从绝对不同意到绝对同意六个等级
湖北腾信金融有些公司吗?这公司是贷款公司吗
用英特尔g1840,加4g内存,h81c主板不要显卡
英语这怎么翻译?
k428与k1378软卧票价差异原因
她经常很久回我信息
为什么家里有老人死了以后,家里的人不可以洗
深圳华丽小学地址有知道的么?有点事想过去
我马自达6突然倒车无力怎么回事
苹果x为什么拍照发黄
应用三次泰勒多项式求sin9°的近似值
简述19世纪以来中国文化的现代趋势
14到16世纪的西欧,思想文化巨人代表人物
推荐资讯
2016年曲靖买房子首付三万
索尼笔记本睿酷i7 14寸内存16 g
江苏连云港A元昌生态禽业是一骗子,我也被骗
有哪些成语英文是四个的字谜
橙子小铺怎么去啊,我要去那办事
Gadd9和弦怎么按?
属鼠的生日十月初一生人应买多少层楼
iPhone7机身厚度多少mm
掘金时代是什么公司,实力怎么样?
连山张相公供电营业厅地址好找么,我有些事要
黄轩我好喜欢他
安卓无让root可以用幸运破解器破解吗
手机登qq时,显示手机磁盘不足,清理后重新登
刺客的套装怎么选啊?