"/>
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種面向高維復(fù)雜數(shù)據(jù)的在線流特征選擇方法技術(shù)

    技術(shù)編號(hào):36709879 閱讀:20 留言:0更新日期:2023-03-01 09:36
    本申請(qǐng)涉及一種面向高維復(fù)雜數(shù)據(jù)的在線流特征選擇方法,它包括如下步驟:數(shù)據(jù)樣本集合、決策屬性集、候選特征子集和待評(píng)估特征子集F1;當(dāng)有特征f

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種面向高維復(fù)雜數(shù)據(jù)的在線流特征選擇方法


    [0001]本申請(qǐng)涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種面向高維復(fù)雜數(shù)據(jù)的在線流特征選擇方法。

    技術(shù)介紹

    [0002]隨著信息技術(shù)的飛速發(fā)展,許多應(yīng)用領(lǐng)域的數(shù)據(jù)呈爆炸式增長(zhǎng),且數(shù)據(jù)維度越來越高。在數(shù)據(jù)挖掘過程中,維度過高將會(huì)造成維數(shù)災(zāi)難,同時(shí)會(huì)引入與學(xué)習(xí)任務(wù)不相關(guān)的特征,特征選擇的原理是從原始數(shù)據(jù)中根據(jù)特征評(píng)價(jià)準(zhǔn)則選擇出滿足條件的特征構(gòu)成一個(gè)新的特征子集,這樣不僅可有效減少特征的維度,增強(qiáng)模型的泛化能力,并能降低模型的過擬合風(fēng)險(xiǎn)和計(jì)算開銷。當(dāng)前,靜態(tài)特征選擇方法是假設(shè)在學(xué)習(xí)任務(wù)開始前已獲取數(shù)據(jù)的所有特征,但是在許多應(yīng)用場(chǎng)景中特征是動(dòng)態(tài)流式產(chǎn)生的,特征隨著時(shí)間變化不斷流入,有時(shí)甚至特征空間未知,且靜態(tài)特征選擇方法通過不斷搜索特征空間對(duì)特征進(jìn)行評(píng)估度量,計(jì)算開銷較大。同時(shí),現(xiàn)實(shí)生活中數(shù)據(jù)的呈現(xiàn)形式多樣復(fù)雜,往往出現(xiàn)名義型數(shù)據(jù)和數(shù)值型數(shù)據(jù)同時(shí)并存的情況,現(xiàn)有的方法無(wú)法直接處理上述高維復(fù)雜的數(shù)據(jù),只能將數(shù)據(jù)轉(zhuǎn)換為特定類型數(shù)據(jù)再作處理,將會(huì)丟失數(shù)據(jù)中大量豐富的語(yǔ)義信息。并且動(dòng)態(tài)場(chǎng)景下現(xiàn)有的在線流特征選擇方法大多僅能處理單一類型數(shù)據(jù),即僅能處理數(shù)值型數(shù)據(jù)。
    [0003]公開號(hào)為CN114091607A的專利文獻(xiàn)公開了一種基于鄰域粗糙集的半監(jiān)督多標(biāo)簽在線流特征選擇算法,通過定義的鄰域關(guān)系獲得缺失標(biāo)簽實(shí)例的鄰居,對(duì)缺失標(biāo)簽進(jìn)行預(yù)測(cè),并求得新特征的依賴度,對(duì)新特征進(jìn)行特征重要性評(píng)估并對(duì)候選集進(jìn)行在線冗余更新,該方法可以處理缺少標(biāo)簽的數(shù)據(jù)集,并且能夠選擇出高效率的特征;但該方法是基于經(jīng)典的依賴度方法對(duì)數(shù)值型數(shù)據(jù)進(jìn)行處理,并且在度量特征重要性時(shí)沒有考慮不一致對(duì)象對(duì)特征重要性度量的影響,也只是利用平均依賴度對(duì)特征的冗余性進(jìn)行判定,因此具有無(wú)法直接處理復(fù)雜混合特征數(shù)據(jù)、對(duì)特征重要性度量不夠客觀準(zhǔn)確、特征子集中可能存在冗余特征,影響訓(xùn)練模型的分類性能等缺陷。

    技術(shù)實(shí)現(xiàn)思路

    [0004]本專利技術(shù)的目的在于,提供一種面向高維復(fù)雜數(shù)據(jù)的在線流特征選擇方法,通過基于粒計(jì)算的混合鄰域粒化方法,從特征依賴性和特征相關(guān)性兩個(gè)角度,對(duì)特征的重要性和冗余性進(jìn)行分析,實(shí)現(xiàn)對(duì)特征重要性的準(zhǔn)確刻畫,在保證時(shí)間消耗和特征子集大小的前提下,對(duì)呈現(xiàn)高維和類型復(fù)雜,同時(shí)包含名義型數(shù)據(jù)和數(shù)值型數(shù)據(jù)的特征數(shù)據(jù)有效選取特征子集,取得較優(yōu)的分類性能。
    [0005]本專利技術(shù)采取的技術(shù)方案是:一種面向高維復(fù)雜數(shù)據(jù)的在線流特征選擇方法,包括如下步驟:
    [0006]S100:輸入決策表,所述決策表包括數(shù)據(jù)樣本集合U=[x1,x2,x3,

    ,x
    n
    ]、決策屬性集D、候選特征子集B和待評(píng)估特征子集F1={f1,f2,...,f
    m
    },其中,x
    n
    為數(shù)據(jù)樣本,f
    m
    為特征,候選特征子集
    |D)≥Sig(B1|D),則將候選特征子集B1更新為B2;
    [0021]S403:重復(fù)步驟S402,直至待評(píng)估特征子集F1’
    的每個(gè)特征都進(jìn)行過相關(guān)性驗(yàn)證,得到最大相關(guān)性候選特征子集B3;
    [0022]S404:對(duì)最大相關(guān)性候選特征子集B3的特征進(jìn)行冗余性驗(yàn)證,即將最大相關(guān)性候選特征子集B3中的特征b剔除,得到候選特征子集B4,B4=B3?
    b,計(jì)算并比較最大相關(guān)性候選特征子集B3的重要性Sig(B3|D)和候選特征子集B4的重要性Sig(B4|D);若Sig(B4|D)≥Sig(B3|D),則將最大相關(guān)性候選特征子集B3更新為B4;
    [0023]S405:重復(fù)步驟S404,直至最大相關(guān)性候選特征子集B3的每個(gè)特征都進(jìn)行過冗余性驗(yàn)證,得到最小候選特征子集B
    min

    [0024]進(jìn)一步地,計(jì)算Sig(B1|D)、Sig(B2|D)、Sig(B3|D)和Sig(B4|D)的方法與計(jì)算特征子集F的重要性Sig(F|D)的方法相同,此時(shí)特征子集F為候選特征子集B1、候選特征子集B2、最大相關(guān)性候選特征子集B3或候選特征子集B4。
    [0025]本專利技術(shù)的有益效果在于:
    [0026](1)本專利技術(shù)同時(shí)考慮了依賴度和鄰域條件熵對(duì)特征重要性度量的影響,因此特征重要性的評(píng)價(jià)更加準(zhǔn)確客觀,能夠同時(shí)處理名義型和數(shù)值型的高維數(shù)據(jù);
    [0027](2)本專利技術(shù)從數(shù)據(jù)分布的視角,充分考慮了不一致對(duì)象和一致性對(duì)象對(duì)特征重要性度量的影響,能全面刻畫特征對(duì)分類器的監(jiān)督信息,提升分類器的性能;
    [0028](3)本專利技術(shù)在考慮冗余性特征時(shí),考慮了流特征的動(dòng)態(tài)性和時(shí)序性,即本專利技術(shù)是比較t時(shí)刻候選特征的重要性和t
    ?
    1時(shí)刻候選特征的重要性,并使得移除特征后,候選特征子集的重要性不減少,從而更好保留特征的區(qū)分能力。
    附圖說明
    [0029]為了更清楚地說明本專利技術(shù)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
    [0030]圖1為本專利技術(shù)實(shí)施例的方法流程圖;
    [0031]圖2為本專利技術(shù)實(shí)施例與其他五種在線流特征選擇方法基于樸素貝葉斯的分類分類性能的對(duì)比示意圖;
    [0032]圖3為本專利技術(shù)實(shí)施例與其他五種在線流特征選擇方法基于SVM的分類分類性能的對(duì)比示意圖。
    具體實(shí)施方式
    [0033]為了能夠更清楚地理解本專利技術(shù)的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式對(duì)本專利技術(shù)進(jìn)行進(jìn)一步的詳細(xì)描述。在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本專利技術(shù),但是,本專利技術(shù)還可以采用其他不同于在此描述的其他方式來實(shí)施,因此,本專利技術(shù)并不限于下面公開的具體實(shí)施例的限制。
    [0034]除非另作定義,此處使用的技術(shù)術(shù)語(yǔ)或者科學(xué)術(shù)語(yǔ)應(yīng)當(dāng)為本申請(qǐng)所述領(lǐng)域內(nèi)具有一般技能的人士所理解的通常意義。本專利申請(qǐng)說明書以及權(quán)利要求書中使用的“第一”、

    第二”以及類似的詞語(yǔ)并不表示任何順序、數(shù)量或者重要性,而只是用來區(qū)分不同的組成部分。同樣,“一個(gè)”或者“一”等類似詞語(yǔ)也不表示數(shù)量限制,而是表示存在至少一個(gè)。“連接”或者“相連”等類似的詞語(yǔ)并非限定于物理的或者機(jī)械的連接,而是可以包括電性的連接,不管是直接的還是間接的。“上”、“下”、“左”、“右”等僅用于表示相對(duì)位置關(guān)系,當(dāng)被描述對(duì)象的絕對(duì)位置改變后,則該相對(duì)位置關(guān)系也相應(yīng)地改變。
    [0035]記數(shù)據(jù)樣本集合為U,決策屬性集為D,在線流特征選擇的目的是在每個(gè)時(shí)刻t,找到一個(gè)盡可能好的特征子集B使得映射關(guān)系h
    t
    :U

    D映射成立。在線流特征選擇要求在動(dòng)態(tài)流特征的情況下,找到與決策屬性集相關(guān)性最大的特征子集,且該子集中盡可能不含冗余特征,從而最小化特征子集的大小。在線流特征場(chǎng)景下特征不斷流入,且特征空間未知,若對(duì)所有的特征進(jìn)行全局搜索,將會(huì)導(dǎo)致計(jì)算時(shí)間和存儲(chǔ)資源的消耗過大。
    [0036]基于上述目的,為了克服計(jì)算時(shí)間和存儲(chǔ)資本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】

    【技術(shù)特征摘要】
    1.一種面向高維復(fù)雜數(shù)據(jù)的在線流特征選擇方法,其特征在于,包括如下步驟:S100:輸入決策表,所述決策表包括數(shù)據(jù)樣本集合U=[x1,x2,x3,

    ,x
    n
    ]、決策屬性集D、候選特征子集B和待評(píng)估特征子集F1={f1,f2,

    ,f
    m
    },其中,x
    n
    為數(shù)據(jù)樣本,f
    m
    為特征,候選特征子集S200:通過綜合考慮特征依賴度和特征相關(guān)度的方式計(jì)算待評(píng)估特征子集F1的重要性Sig(F1|D);當(dāng)待評(píng)估特征子集F1中在t時(shí)刻有特征f
    t
    流入時(shí),度量特征f
    t
    的特征重要性,即綜合考慮特征依賴度和特征相關(guān)度對(duì)特征的重要性進(jìn)行分析,計(jì)算加入特征f
    t
    后的待評(píng)估特征子集F1’
    的重要性Sig(F1’
    |D),其中,F(xiàn)1′
    ={f1,f2,

    ,f
    m
    ,f
    t
    };在計(jì)算特征子集的重要性時(shí),特征依賴度用正域進(jìn)行度量,特征相關(guān)度用鄰域條件熵進(jìn)行度量;S300:判斷特征f
    t
    是否為候選特征,即將待評(píng)估特征子集F1’
    的重要性Sig(F1’
    |D)與待評(píng)估特征子集F1的重要性Sig(F1|D)進(jìn)行比較,若Sig(F1’
    |D)≥Sig(F1|D),則將特征f
    t
    加入候選特征子集B中,形成候選特征子集B1;S400:度量候選特征子集B1中所有特征的冗余性,判斷特征是否冗余,如果存在特征冗余則將對(duì)應(yīng)的特征從候選特征子集B1中剔除,得到最小候選特征子集B
    min
    ;S500:判斷是否有特征流入,如繼續(xù)有特征流入,則重復(fù)步驟S100~400,如沒有特征繼續(xù)流入,則將步驟S400得到的最小候選特征子集B
    min
    作為最終的特征子集輸出。2.根據(jù)權(quán)利要求1所述的一種面向高維復(fù)雜數(shù)據(jù)的在線流特征選擇方法,其特征在于,通過綜合考慮特征依賴度和特征相關(guān)度計(jì)算特征子集F的重要性Sig(F|D)的具體方法如下,其中,特征子集F為待評(píng)估特征子集F1或待評(píng)估特征子集F1’
    :S201:將數(shù)據(jù)樣本集合U中數(shù)據(jù)樣本x
    i
    的鄰域和特征子集F的正域POS
    F
    (D)初始化為空,即令S202:判斷數(shù)據(jù)樣本集合U中數(shù)據(jù)樣本x
    j
    是否在數(shù)據(jù)樣本x
    i
    的鄰域內(nèi),其中,對(duì)象x
    i
    在特征子集F上的鄰域定義為:計(jì)算數(shù)據(jù)樣本x
    i
    與數(shù)據(jù)樣本x
    j
    之間的距離Δ
    F
    (x
    i
    ,x
    j
    ),并與數(shù)據(jù)樣本x
    i
    的鄰域半徑r進(jìn)行比較;若Δ
    F
    (x
    i
    ,x
    j
    )≤r,則將數(shù)據(jù)樣本x
    i

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:錢文彬曾武序舒文豪
    申請(qǐng)(專利權(quán))人:江西農(nóng)業(yè)大學(xué)
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 精品深夜AV无码一区二区老年 | 精品人妻系列无码人妻漫画| 红桃AV一区二区三区在线无码AV| 亚洲av永久无码精品古装片| 免费无码成人AV片在线在线播放| 日韩综合无码一区二区| 亚洲综合无码无在线观看| 无码人妻精品一区二区蜜桃| 国产亚洲大尺度无码无码专线 | 亚洲中文字幕不卡无码| 一本天堂ⅴ无码亚洲道久久 | 高清无码中文字幕在线观看视频| 无码AV一区二区三区无码| 久久精品岛国av一区二区无码| 久久中文字幕无码一区二区| 无码精品人妻一区二区三区人妻斩| 午夜无码人妻av大片色欲| 亚洲爆乳无码精品AAA片蜜桃| 国产精品一级毛片无码视频| 国产精品爽爽V在线观看无码| 久久人妻无码中文字幕| 亚洲Av无码专区国产乱码DVD | 亚洲AV无码一区二区一二区| 久久久久亚洲AV成人无码| 国产做无码视频在线观看浪潮 | 无码精品A∨在线观看无广告| 欧洲Av无码放荡人妇网站| 国产精品无码A∨精品影院| 亚洲人成影院在线无码观看| 免费无遮挡无码视频网站| 久久久无码精品午夜| 亚洲欧洲国产综合AV无码久久| 无码国产精品一区二区免费| 亚洲Av无码专区国产乱码DVD| 中文字幕人妻无码系列第三区| 免费无码又爽又刺激网站直播| 中文字幕精品无码久久久久久3D日动漫 | 少妇无码AV无码专区在线观看| 八戒理论片午影院无码爱恋| 国产亚洲人成无码网在线观看| 亚洲中文字幕不卡无码|