本發(fā)明專利技術(shù)提供一種基于互信息估計的主屬性選擇方法。方法首先通過計算數(shù)據(jù)集兩兩屬性間的互信息,得到互信息矩陣。然后通過調(diào)整參數(shù)設(shè)置,利用互信息矩陣中兩兩之間互信息對待選屬性與已選屬性子集之間的互信息進行估計。根據(jù)互信息估值,依次選擇待選屬性,從而得到一系列備選屬性子集。最后,發(fā)明專利技術(shù)利用交叉驗證的方式,將得到的屬性子集系列用于成本預(yù)測,并將預(yù)測結(jié)果最好的子集作為最終選擇的主屬性集合。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及一種基于互信息估計的屬性選擇方法,用于從一系列屬性集合中選擇關(guān)鍵屬性。
技術(shù)介紹
通過剔除與被預(yù)測變量無關(guān)的屬性列,并在相關(guān)性較強的屬性集合中,選出與被預(yù)測變量之間最相關(guān)的一組最小的屬性列集合,主屬性選擇方法減少了計算過程復(fù)雜度,提升了計算效率和計算的準確度。因而,主屬性選擇算法有著相當(dāng)普遍的應(yīng)用。 在眾多的主屬性選擇算法中,有一類選擇算法是基于信息熵相關(guān)理論實現(xiàn)的。信息熵表述的是描述某一事件所需的平均信息量大小,是該事件不確定性的一種度量?;バ畔t描述的是一個事件中包含另一事件的信息量。信息論基本原理表明,互信息值越大,則表明兩個事件的相關(guān)性越大。因而,可以通過度量被預(yù)測變量與屬性子集之間的互信息,設(shè)計屬性選擇算法。兩個單列屬性間的互信息易于計算,然而由于計算復(fù)雜度較高、計算精準度較低等原因,單列屬性與屬性集合間的互信息計算非常困難。因而實際用互信息做屬性選擇的時候,往往采用估計的方式,估算待選屬性與已選屬性集之間的互信息。現(xiàn)有的估算方法一般遵從“相關(guān)度-冗余度”的模型。其中,“相關(guān)度”指待選屬性與被預(yù)測變量之間的互信息,一般可通過直接計算的方式求得。“冗余度”則指待選屬性與已選屬性集之間的互信息?,F(xiàn)有的冗余度估計方法大多是此種方法的變形待選屬性列與已選屬性集中元素的互信息。常見的變形為,待選屬性列與已選屬性集中元素互信息的幾何平均。事實上,信息論的基本理論證明,待選屬性列與已選屬性集中元素互信息的幾何平均是一個確定的值,是被預(yù)測變量與已選屬性集間互信息值的一部分。現(xiàn)有方法通過在該確定值上添加系數(shù)的方式調(diào)整冗余度的值,有著明顯的缺陷。
技術(shù)實現(xiàn)思路
鑒于以上所述現(xiàn)有技術(shù)的缺點,本專利技術(shù)的目的在于提供一種基于互信息估計的屬性選擇方法,用于解決現(xiàn)有技術(shù)中單列屬性與屬性集合間的互信息計算非常困難的問題。本專利技術(shù)的目的在于針對單列屬性與屬性集合間互信息難以計算的問題,將該計算問題化為可計算部分和不可計算部分,通過對不可計算部分進行估計,實現(xiàn)對兩者互信息值的估算。本專利技術(shù)采用如下技術(shù)方案一種基于互信息估計的屬性選擇方法,其特征在于,該方法包括以下步驟I)提供一數(shù)據(jù)集D=F U {T};其中,F(xiàn)=If1, f2, - ,fj為屬性集,其中,η為屬性的個數(shù),T為目標(biāo)屬性;從F中選擇屬性子集S=Is1, S2,…,sk}k < η用于模型的輸入,其中,k為屬性選擇算法保留的屬性個數(shù),令待選屬性子集R滿足F=S U R, R=Ir1, r2,…,rn_k};選擇第一個屬性,得S=IsJ,對于R中的每個屬性,計算其與S的互信息,根據(jù)算法條件選取合適的屬性r,得S=S U {r},R=R/{r};重復(fù)步驟2直至滿足終止條件;2)當(dāng)|S|彡2時,待選屬性r與S之間的互信息難以計算,在此稱為不可計算部分;而r與S中任意元素s之間的互信息MI (r;s)計算相對容易,在此稱為可計算部分;3)將 MI(r;S)的定義為 MI (r; S) = β SsesMI (r,S,),S,=S/{s};其中,β為用戶輸入?yún)?shù),用于調(diào)整待選屬性!■與已選屬性子集S之間冗余度在屬性選擇公式中的權(quán)重;4)設(shè)置訓(xùn)練參數(shù)β,根據(jù)上述方法求得待選屬性r與已選屬性集S的互信息MI (r; S),選取使得MI (r; T) -MI (r; S)值最大的屬性r,添加到已選屬性集中,并從待選屬性集中刪除; 分別得到已選屬性集序列S1, S2。優(yōu)選地,該方法進一步包括驗證步驟,即利用實驗數(shù)據(jù)進行交叉驗證,選出結(jié)果最佳的屬優(yōu)選地,估算待選屬性與已選屬性集合子集間互信息采用遞歸的方式。為達上述目的,本方法首先計算可計算部分的值,然后調(diào)整參數(shù)的方式,得到待選屬性與已選屬性集合子集間互信息的估值。其中,待選屬性列與已選屬性集合子集間互信息的估算以遞歸的方式進行。接著,根據(jù)可計算部分值與估計值部分的和,選出一系列備選的屬性子集。最后,通過具體的驗證方法,利用實驗數(shù)據(jù)進行交叉驗證,選出結(jié)果最佳的屬性子集。附圖說明圖I為本專利技術(shù)的流程示意圖.具體實施例方式以下通過特定的具體實例說明本專利技術(shù)的實施方式,本領(lǐng)域技術(shù)人員可由本說明書所揭露的內(nèi)容輕易地了解本專利技術(shù)的其他優(yōu)點與功效。本專利技術(shù)還可以通過另外不同的具體實施方式加以實施或應(yīng)用,本說明書中的各項細節(jié)也可以基于不同觀點與應(yīng)用,在沒有背離本專利技術(shù)的精神下進行各種修飾或改變。請參閱圖I。需要說明的是,本實施例中所提供的圖示僅以示意方式說明本專利技術(shù)的基本構(gòu)想,遂圖式中僅顯示與本專利技術(shù)中有關(guān)的組件而非按照實際實施時的組件數(shù)目、形狀及尺寸繪制,其實際實施時各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也可能更為復(fù)雜。以下通過具體圖例說明本專利技術(shù)的實施方式,所屬領(lǐng)域的普通技術(shù)人員可由本說明書所揭示的內(nèi)容輕易地了解本專利技術(shù)的其他優(yōu)點與功效。本專利技術(shù)亦可通過其他不同的具體實例加以施行或應(yīng)用,本說明書中的各項細節(jié)亦可基于不同觀點與應(yīng)用,在不背離本專利技術(shù)的精神下進行各種修飾與變更。圖I中所示,首先根據(jù)待選屬性f計算出互信息中可計算的部分,然后對f與已選屬性集合S子集的互信息進行估遞歸估算。在滿足終止條件時,遞歸結(jié)束并返回結(jié)果。基于互信息(Mutual Information,記為MI)的屬性選擇算法可概括表述為對于數(shù)據(jù)集D=F U-,fn}為屬性集,其中,η為屬性的個數(shù),T為目標(biāo)屬性。利用屬性之間的互信息關(guān)系,從F中選擇合適的屬性子集S=Is1, S2, -,SkIk^ η用于模型的輸入。其中,k為屬性選擇算法保留的屬性個數(shù),令待選屬性子集R滿足F=S U R,R={ri,r2^··,rn-lJ。典型的基于互信息的選擇算法步驟分為1)S為空集,根據(jù)不同的算法,選擇第一個屬性,得S={Sl};2)對于R中的每個屬性,計算其與S的互信息,根據(jù)算法條件選取合適的屬性r,得 S=S U {r},R=R/Ir};3)重復(fù)步驟2直至滿足終止條件?!ど鲜龅?步中,當(dāng)|S|彡2時,待選屬性r與S之間的互信息難以計算,在此稱為不可計算部分;而r與S中任意元素s之間的互信息MI (r; s)計算相對容易,在此稱為可計算部分。本方法根據(jù)數(shù)學(xué)公式推導(dǎo),將MI (r;S)的定義為MI (r; S) = β Σ seSMI (r,S’),S’=S/{s};其中,β為用戶輸入?yún)?shù),用于調(diào)整待選屬性!■與已選屬性子集S之間冗余度在屬性選擇公式中的權(quán)重。設(shè)置訓(xùn)練參數(shù)β,根據(jù)上述方法求得待選屬性r與已選屬性集S的互信息MI (r; S),選取使得MI (r; T) -MI (r; S)值最大的屬性r,添加到已選屬性集中,并從待選屬性集中刪除。以此方法分別得到已選屬性集序列S1, S2等等。本方法將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。利用測試數(shù)據(jù)集,將步驟4中的屬性序列作為輸入?yún)?shù)傳入到訓(xùn)練模型中,選取結(jié)果最好的屬性集作為屬性選擇的結(jié)果。具體來說,待選屬性與被預(yù)測變量之間的互信息可以直接通過計算得到。但由于計算復(fù)雜度較大,待選屬性與已選屬性子集之間的互信息通過估計的方式實現(xiàn)。一般使用待選屬性與已選屬性子集元素間互信息值的幾何平均或和的部分值。本專利技術(shù)的特征在于,對待選屬性與已選屬性子集互信息進行估計時,除考慮待選屬性與已選屬性集合元素間的互信息外,還考慮到其與已選屬性集合子集的關(guān)系本文檔來自技高網(wǎng)...
【技術(shù)保護點】
一種基于互信息估計的屬性選擇方法,其特征在于,該方法包括以下步驟:1)提供一數(shù)據(jù)集D=F∪{T};其中,F(xiàn)={f1,f2,…,fn}為屬性集,其中,n為屬性的個數(shù),T為目標(biāo)屬性;從F中選擇屬性子集S={s1,s2,…,sk}k≤n,其中,k為屬性選擇算法保留的屬性個數(shù),所述屬性子集S用于模型的輸入,令待選屬性子集R滿足F=S∪R,R={r1,r2,…,rn?k},k為;選擇第一個屬性,得S={s1},對于R中的每個屬性,計算其與S的互信息,根據(jù)算法條件選取合適的屬性r,得S=S∪{r},R=R/{r};重復(fù)步驟2直至滿足終止條件;2)當(dāng)|S|≥2時,待選屬性r與S之間的互信息難以計算,在此稱為不可計算部分;而r與S中任意元素s之間的互信息MI(r;s)計算相對容易,在此稱為可計算部分;3)將MI(r;S)的定義為MI(r;s)=βΣs∈SMI(r;S’),S’=S/{s};其中,β為用戶輸入?yún)?shù),用于調(diào)整待選屬性r與已選屬性子集S之間冗余度在屬性選擇公式中的權(quán)重;4)設(shè)置訓(xùn)練參數(shù)β,根據(jù)上述方法求得待選屬性r與已選屬性集S的互信息MI(r;S),選取使得MI(r;T)?MI(r;S)值最大的屬性r,添加到已選屬性集中,并從待選屬性集中刪除;分別得到已選屬性集序列S1,S2。...
【技術(shù)特征摘要】
1.一種基于互信息估計的屬性選擇方法,其特征在于,該方法包括以下步驟 1)提供一數(shù)據(jù)集D=FU {T};其中,F(xiàn)={fi,f2,…,fn}為屬性集,其中,η為屬性的個數(shù),T為目標(biāo)屬性;從F中選擇屬性子集S=Is1, S2, -,SkIk^ η,其中,k為屬性選擇算法保留的屬性個數(shù),所述屬性子集S用于模型的輸入,令待選屬性子集R滿足F=S U R, R={ri,r2,…,rn_J,k為;選擇第一個屬性,得S=IsJ,對于R中的每個屬性,計算其與S的互信息,根據(jù)算法條件選取合適的屬性r,得S=S U {r},R=R/ Ir};重復(fù)步驟2直至滿足終止條件; 2)當(dāng)|S|彡2時,待選屬性r與S之間的互信息難以計算,在此稱為不可計算部分;而r與S中任意元素s之間的互信息MI (r;s)計算相對容...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉琴,朱宏明,楊筱雯,肖葭凱,石仕海,
申請(專利權(quán))人:同濟大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。