在实际学习任务中,决策树不仅基于离散属性,而且使用连续属性。
因为连续属性的值的数目不再受到限制,所以节点不能直接根据连续属性的值进行分割。
在这种情况下,可以使用连续属性的离散技术。
数据离散化是一个重要的研究课题,学者们提出了许多离散化技术,可分为无监督离散化和监督离散化两大类。常用的无监督离散化方法有等深剖分盒法和等宽分割盒法:等深剖分盒法使每个子盒中的样本数一致;等宽分割盒法使每个子盒的取值范围一致。
相等宽度的子方框方法也称为等分方法,即将连续值的间隔划分为多个部分,并且每个部分被分配一个离散值,该离散值通常与10个箱一起使用。一种常见的监督离散化方法是将连续值的属性按照所选阈值划分为布尔属性(二进制属性):训练样本按连续属性A排列,找出不同类别标记的相邻样本的属性A的中间值,生成一组候选阈值。
可以证明,产生最大信息增益的阈值必须在这样的边界中计算与每个候选阈值相关联的信息增益。选择具有最大信息增益的阈值离散连续属性的二分法是:最小描述长度法(MDL),MDL方法将连续值的属性划分为多个区间,而不是单个阈值的两个区间。
特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。