欧美精品不卡,黑森林av福利网站,免费国产线观看免费观看

信息增益是信息熵理論中的一個(gè)重要概念。在決策樹(shù)算法中，通過(guò)計(jì)算不同特征對(duì)于樣本分類的貢獻(xiàn)程度，來(lái)確定哪些特征可以被選擇用于構(gòu)建決策樹(shù)。具體來(lái)說(shuō)，信息增益表示某個(gè)特征在得知它的取值后，可以讓樣本集合的信息熵下降的程度。

1.信息增益是什么意思

信息增益是衡量使用某個(gè)特征劃分?jǐn)?shù)據(jù)集所能獲得的收益大小。在決策樹(shù)算法的訓(xùn)練過(guò)程中，通常從根節(jié)點(diǎn)開(kāi)始，遞歸地選取當(dāng)前節(jié)點(diǎn)分支出去的最優(yōu)特征，以此構(gòu)建一棵子樹(shù)。進(jìn)行特征選擇時(shí)，通常會(huì)計(jì)算每個(gè)候選特征的信息增益，選取其中信息增益最大的特征作為當(dāng)前節(jié)點(diǎn)的分裂標(biāo)準(zhǔn)。

2.信息增益計(jì)算公式

信息增益的計(jì)算涉及到熵的概念，熵可以度量樣本集合的不確定性程度。假設(shè)$D$表示總的樣本集合，$C_k$表示樣本集合的第$k$個(gè)類別，$D_k$表示屬于類別$C_k$的樣本子集，$p_k=|D_k|/|D|$ 表示樣本屬于類別$C_k$的概率，則總體熵可以表示為：

$$Ent(D)=-sum_{k=1}^{|y|}p_klog_2p_k$$

在當(dāng)前節(jié)點(diǎn)分裂后，樣本會(huì)被劃分到不同的子節(jié)點(diǎn)中，設(shè)一個(gè)特征屬性$A$有$V$個(gè)可能取值${a_1,a_2,dots,a_V}$，令$D^v$表示劃分后落入屬性$A$第$v$個(gè)取值的子集合，則使用該特征劃分?jǐn)?shù)據(jù)的信息增益可以表示為：

$$Gain(D,A)=Ent(D)-sum_{v=1}^V frac{|D^v|}{|D|} Ent(D^v)$$

其中的權(quán)重$frac{|D^v|}{|D|}$表示第$v$個(gè)屬性值對(duì)應(yīng)的樣本占總樣本數(shù)的比例，$Ent(D^v)$表示子集中的樣本的信息熵。

信息增益

1.信息增益是什么意思

2.信息增益計(jì)算公式

相關(guān)推薦

電子產(chǎn)業(yè)圖譜