我知道决策树试图在决策树上放置具有高熵的分类器.但是,信息如何发挥作用呢?
信息增益定义为:
InformationGain = EntropyBefore - EntropyAfter
决策树是否尝试在树的顶部放置信息增益较低的分类器?因此,熵总是最大化,信息增益总是最小化?
对不起,我有点困惑.谢谢!