中易网

为什么id3树不能处理连续性属性

答案:1  悬赏:60  
解决时间 2021-01-19 04:23
为什么id3树不能处理连续性属性
最佳答案
ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法也暴露出一些问题,具体如下:
(1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。
(2)ID3是非递增算法。
(3)ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调不够,容易导致决策树中子树的重复或有些属性在决策树的某一路径上被检验多次。
(4)抗噪性差,训练例子中正例和反例的比例较难控制。
于是Quilan改进了ID3,提出了C4.5算法。C4.5算法现在已经成为最经典的决策树构造算法,排名数据挖掘十大经典算法之首,下一篇文章将重点讨论。
决策树的经典构造算法——C4.5(WEKA中称J48)
由于ID3算法在实际应用中存在一些问题,于是Quilan提出了C4.5算法,严格上说C4.5只能是ID3的一个改进算法。
C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2) 在树构造过程中进行剪枝;
3) 能够完成对连续属性的离散化处理;
4) 能够对不完整数据进行处理。
C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
另外,无论是ID3还是C4.5最好在小数据集上使用,决策树分类一般只试用于小数据。当属性取值很多时最好选择C4.5算法,ID3得出的效果会非常差。
我要举报
如以上问答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
一首像诗歌一样的不幼稚的童谣,字不多,也不
卢龙县卢龙镇五里台小学地址在哪,我要去那里
乐林婚纱摄影地址有知道的么?有点事想过去
求企业门头标语,四字标语
,全国成立5O个省,撤销地级市?
佳佳幼儿园(邢台桥西区)地址在哪,我要去那里
在 龙 之 谷 勇 闯 格 拉 诺 活 动 中 , 通
原告与证人是男女朋友关系,可以作证吗?
盐蒸和汗蒸哪个好
2017汽车春运什么时候开始
崔姓族谱
虎因喜而轻诺勿因爱而轻信是什么意思
令牌总线网和令牌环网的特点
送男朋友生日礼物,请问DW合适吗?
新武器首饰到底好不好
推荐资讯
中投亿星一般什么时候公开招聘啊,一般都在哪
想考南京理工大学的环境工程专业,求解
想玩FIFA2005.但玩时需要光驱,怎么办?
自由公式酒吧地址在哪,我要去那里办事
近来 作为一种新的购物方式 海淘 正在成为新
Wii和17wee/17vee体感游戏机哪个好?实惠
对婴儿有害么
常喝桂子有什么好处
英利古筝艺术培训地址在什么地方,想过去办事
央行宏观调节工具中 SLF,SLO,MLF,PSL 各有
为什么古代称朝廷为“庙堂”呢?
国外基督徒也有说方言的吗?为什么国内基督徒
手机登qq时,显示手机磁盘不足,清理后重新登
刺客的套装怎么选啊?