机器学习：决策树学习之处理连续属性值问题|属性|阈值|离散

　　在实际学习任务中，决策树不仅基于离散属性，而且使用连续属性。

　　因为连续属性的值的数目不再受到限制，所以节点不能直接根据连续属性的值进行分割。

　　在这种情况下，可以使用连续属性的离散技术。

　　数据离散化是一个重要的研究课题，学者们提出了许多离散化技术，可分为无监督离散化和监督离散化两大类。常用的无监督离散化方法有等深剖分盒法和等宽分割盒法：等深剖分盒法使每个子盒中的样本数一致；等宽分割盒法使每个子盒的取值范围一致。

　　相等宽度的子方框方法也称为等分方法，即将连续值的间隔划分为多个部分，并且每个部分被分配一个离散值，该离散值通常与10个箱一起使用。一种常见的监督离散化方法是将连续值的属性按照所选阈值划分为布尔属性(二进制属性)：训练样本按连续属性A排列，找出不同类别标记的相邻样本的属性A的中间值，生成一组候选阈值。