"/>
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種面向高維復(fù)雜數(shù)據(jù)的在線流特征選擇方法
[0001]本申請(qǐng)涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種面向高維復(fù)雜數(shù)據(jù)的在線流特征選擇方法。
技術(shù)介紹
[0002]隨著信息技術(shù)的飛速發(fā)展,許多應(yīng)用領(lǐng)域的數(shù)據(jù)呈爆炸式增長(zhǎng),且數(shù)據(jù)維度越來越高。在數(shù)據(jù)挖掘過程中,維度過高將會(huì)造成維數(shù)災(zāi)難,同時(shí)會(huì)引入與學(xué)習(xí)任務(wù)不相關(guān)的特征,特征選擇的原理是從原始數(shù)據(jù)中根據(jù)特征評(píng)價(jià)準(zhǔn)則選擇出滿足條件的特征構(gòu)成一個(gè)新的特征子集,這樣不僅可有效減少特征的維度,增強(qiáng)模型的泛化能力,并能降低模型的過擬合風(fēng)險(xiǎn)和計(jì)算開銷。當(dāng)前,靜態(tài)特征選擇方法是假設(shè)在學(xué)習(xí)任務(wù)開始前已獲取數(shù)據(jù)的所有特征,但是在許多應(yīng)用場(chǎng)景中特征是動(dòng)態(tài)流式產(chǎn)生的,特征隨著時(shí)間變化不斷流入,有時(shí)甚至特征空間未知,且靜態(tài)特征選擇方法通過不斷搜索特征空間對(duì)特征進(jìn)行評(píng)估度量,計(jì)算開銷較大。同時(shí),現(xiàn)實(shí)生活中數(shù)據(jù)的呈現(xiàn)形式多樣復(fù)雜,往往出現(xiàn)名義型數(shù)據(jù)和數(shù)值型數(shù)據(jù)同時(shí)并存的情況,現(xiàn)有的方法無(wú)法直接處理上述高維復(fù)雜的數(shù)據(jù),只能將數(shù)據(jù)轉(zhuǎn)換為特定類型數(shù)據(jù)再作處理,將會(huì)丟失數(shù)據(jù)中大量豐富的語(yǔ)義信息。并且動(dòng)態(tài)場(chǎng)景下現(xiàn)有的在線流特征選擇方法大多僅能處理單一類型數(shù)據(jù),即僅能處理數(shù)值型數(shù)據(jù)。
[0003]公開號(hào)為CN114091607A的專利文獻(xiàn)公開了一種基于鄰域粗糙集的半監(jiān)督多標(biāo)簽在線流特征選擇算法,通過定義的鄰域關(guān)系獲得缺失標(biāo)簽實(shí)例的鄰居,對(duì)缺失標(biāo)簽進(jìn)行預(yù)測(cè),并求得新特征的依賴度,對(duì)新特征進(jìn)行特征重要性評(píng)估并對(duì)候選集進(jìn)行在線冗余更新,該方法可以處理缺少標(biāo)簽的數(shù)據(jù)集,并且能夠選擇出高效率的特征;但該方法是基于經(jīng)典的依賴度 ...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】 【專利技術(shù)屬性】
1.一種面向高維復(fù)雜數(shù)據(jù)的在線流特征選擇方法,其特征在于,包括如下步驟:S100:輸入決策表,所述決策表包括數(shù)據(jù)樣本集合U=[x1,x2,x3,
…
,x
n
]、決策屬性集D、候選特征子集B和待評(píng)估特征子集F1={f1,f2,
…
,f
m
},其中,x
n
為數(shù)據(jù)樣本,f
m
為特征,候選特征子集S200:通過綜合考慮特征依賴度和特征相關(guān)度的方式計(jì)算待評(píng)估特征子集F1的重要性Sig(F1|D);當(dāng)待評(píng)估特征子集F1中在t時(shí)刻有特征f
t
流入時(shí),度量特征f
t
的特征重要性,即綜合考慮特征依賴度和特征相關(guān)度對(duì)特征的重要性進(jìn)行分析,計(jì)算加入特征f
t
后的待評(píng)估特征子集F1’
的重要性Sig(F1’
|D),其中,F(xiàn)1′
={f1,f2,
…
,f
m
,f
t
};在計(jì)算特征子集的重要性時(shí),特征依賴度用正域進(jìn)行度量,特征相關(guān)度用鄰域條件熵進(jìn)行度量;S300:判斷特征f
t
是否為候選特征,即將待評(píng)估特征子集F1’
的重要性Sig(F1’
|D)與待評(píng)估特征子集F1的重要性Sig(F1|D)進(jìn)行比較,若Sig(F1’
|D)≥Sig(F1|D),則將特征f
t
加入候選特征子集B中,形成候選特征子集B1;S400:度量候選特征子集B1中所有特征的冗余性,判斷特征是否冗余,如果存在特征冗余則將對(duì)應(yīng)的特征從候選特征子集B1中剔除,得到最小候選特征子集B
min
;S500:判斷是否有特征流入,如繼續(xù)有特征流入,則重復(fù)步驟S100~400,如沒有特征繼續(xù)流入,則將步驟S400得到的最小候選特征子集B
min
作為最終的特征子集輸出。2.根據(jù)權(quán)利要求1所述的一種面向高維復(fù)雜數(shù)據(jù)的在線流特征選擇方法,其特征在于,通過綜合考慮特征依賴度和特征相關(guān)度計(jì)算特征子集F的重要性Sig(F|D)的具體方法如下,其中,特征子集F為待評(píng)估特征子集F1或待評(píng)估特征子集F1’
:S201:將數(shù)據(jù)樣本集合U中數(shù)據(jù)樣本x
i
的鄰域和特征子集F的正域POS
F
(D)初始化為空,即令S202:判斷數(shù)據(jù)樣本集合U中數(shù)據(jù)樣本x
j
是否在數(shù)據(jù)樣本x
i
的鄰域內(nèi),其中,對(duì)象x
i
在特征子集F上的鄰域定義為:計(jì)算數(shù)據(jù)樣本x
i
與數(shù)據(jù)樣本x
j
之間的距離Δ
F
(x
i
,x
j
),并與數(shù)據(jù)樣本x
i
的鄰域半徑r進(jìn)行比較;若Δ
F
(x
i
,x
j
)≤r,則將數(shù)據(jù)樣本x
i
技術(shù)研發(fā)人員:錢文彬,曾武序,舒文豪,
申請(qǐng)(專利權(quán))人:江西農(nóng)業(yè)大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。