Theory of Decision Tree

Posted by Andrew Sun on March 05, 2019 · 75 1 min read

1.决策树主要解决的问题:分类问题

2.给定条件:

  • 样本集$D$
  • 特征集合$A_k$
  • 所有分类集合$N$以及依据分类而划分的子集$D_i$

3.核心概念:熵、信息增益、信息增益比

  • 熵反映分类集合的不确定度,其中log一般以2为底,单位是比特
  • 条件熵:在特征A的情况下集合$D$的不确定度,$J$表示A特征的不同取值,公式即为该特征下熵的数学期望
  • 信息增益:某一特征对整体样本预测不确定度的减少程度
  • 信息增益率:由于信息增益往往趋向于选择特征值多的那一特征,故选用信息增益率作为另一种评测