今天我来科普一下什么是决策树的剪枝?有哪些优缺点

讨论 埼玉老师
Lv4 准师级炼丹师
发布在 综合   1073   0
讨论 埼玉老师   1073   0

摘自《机器学习导论》

剪枝

通常,如果到达一个节点的训练实例数小于训练集的某个百分比(例如,5%),则无论是不纯(离散数据)还是误差(连续数据),该节点都不进一步划分。其基本思想是,基于过少实例的决策树会导致较大的方差,从而导致加大的泛化误差。在树完全构造出来之前就提前停止树构造称作树的先剪枝(prepruning)。

得到较小树的另一种可能做法是后剪枝(postpruning),在实践中它比先剪枝效果更好。鉴于树的生长是贪心的,在每一步我们做出一个决策(即产生一个决策节点)以继续进行,绝不会说尝试其他可能的选择。唯一例外是后剪枝,它试图找出并剪出不必要的子树。

在后剪枝中,我们让树完全增长直到所有的树叶都是纯的且训练误差为0。然后我们找出导致过拟合的子树并剪除它们。我们从最初的被标记的数据集中保留一个剪枝集,在训练阶段不使用它。对每棵子树,我们用一个被该子树覆盖的训练实例标记的树叶节点替换它。如果该树叶在剪枝集上的性能不比该子树差,则剪掉该子树病保留树叶节点,因为该子树的附加复杂性是不必要的;否则保留子树。

先剪枝速度快,后剪枝准确率高。

版权声明:作者保留权利,不代表意本站立场。如需转载请联系本站以及作者。

参与讨论

回复《 今天我来科普一下什么是决策树的剪枝?有哪些优缺点

EditorJs 编辑器

沙发,很寂寞~
反馈
to-top--btn