信息增益是信息熵理論中的一個(gè)重要概念。在決策樹算法中,通過計(jì)算不同特征對(duì)于樣本分類的貢獻(xiàn)程度,來確定哪些特征可以被選擇用于構(gòu)建決策樹。具體來說,信息增益表示某個(gè)特征在得知它的取值后,可以讓樣本集合的信息熵下降的程度。
1.信息增益是什么意思
信息增益是衡量使用某個(gè)特征劃分?jǐn)?shù)據(jù)集所能獲得的收益大小。在決策樹算法的訓(xùn)練過程中,通常從根節(jié)點(diǎn)開始,遞歸地選取當(dāng)前節(jié)點(diǎn)分支出去的最優(yōu)特征,以此構(gòu)建一棵子樹。進(jìn)行特征選擇時(shí),通常會(huì)計(jì)算每個(gè)候選特征的信息增益,選取其中信息增益最大的特征作為當(dāng)前節(jié)點(diǎn)的分裂標(biāo)準(zhǔn)。
2.信息增益計(jì)算公式
信息增益的計(jì)算涉及到熵的概念,熵可以度量樣本集合的不確定性程度。假設(shè)$D$表示總的樣本集合,$C_k$表示樣本集合的第$k$個(gè)類別,$D_k$表示屬于類別$C_k$的樣本子集,$p_k=|D_k|/|D|$ 表示樣本屬于類別$C_k$的概率,則總體熵可以表示為:
$$Ent(D)=-sum_{k=1}^{|y|}p_klog_2p_k$$
在當(dāng)前節(jié)點(diǎn)分裂后,樣本會(huì)被劃分到不同的子節(jié)點(diǎn)中,設(shè)一個(gè)特征屬性$A$有$V$個(gè)可能取值${a_1,a_2,dots,a_V}$,令$D^v$表示劃分后落入屬性$A$第$v$個(gè)取值的子集合,則使用該特征劃分?jǐn)?shù)據(jù)的信息增益可以表示為:
$$Gain(D,A)=Ent(D)-sum_{v=1}^V frac{|D^v|}{|D|} Ent(D^v)$$
其中的權(quán)重$frac{|D^v|}{|D|}$表示第$v$個(gè)屬性值對(duì)應(yīng)的樣本占總樣本數(shù)的比例,$Ent(D^v)$表示子集中的樣本的信息熵。