本發(fā)明專利技術(shù)實(shí)施例公開了一種基于多標(biāo)簽柔性支持向量機(jī)的分類方法,包括以下步驟:首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點(diǎn)與點(diǎn)之間的距離;然后,在特定的分類目標(biāo)下對(duì)多標(biāo)簽空間中的每個(gè)點(diǎn)定義一個(gè)鄰域,某點(diǎn)的鄰域包含在新型的距離度量方法下離中心點(diǎn)最近的幾個(gè)點(diǎn);最后,結(jié)合每個(gè)樣本點(diǎn)在多標(biāo)簽空間中的鄰域信息,利用提出的一種新的多標(biāo)簽柔性支持向量機(jī)分類器進(jìn)行多標(biāo)簽分類訓(xùn)練。本發(fā)明專利技術(shù)用于利用多標(biāo)簽空間中包含的信息來提高鑒別型分類器在多標(biāo)簽分類中的分類精度,降低噪聲標(biāo)簽對(duì)分類的影響。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于標(biāo)簽
,特別地涉及一種。
技術(shù)介紹
隨著信息時(shí)代的到來,多媒體數(shù)據(jù)已經(jīng)實(shí)現(xiàn)了爆炸性的增長。標(biāo)簽,作為多媒體的內(nèi)容形式之一,能幫助解決數(shù)據(jù)挖掘方面很多重要的現(xiàn)實(shí)應(yīng)用,特別是在跨媒體領(lǐng)域,體現(xiàn)出非常重要的作用。例如,利用合適的標(biāo)簽作為圖像注釋的一部分,可以開發(fā)出強(qiáng)大的圖像標(biāo)注和圖像檢索技術(shù);利用合適的標(biāo)簽作為電影評(píng)論的一部分,可以開發(fā)出有效的電影推薦系統(tǒng);利用合適的標(biāo)簽作為網(wǎng)頁標(biāo)記的一部分,可以開發(fā)出更有效率的搜索引擎。標(biāo)簽的種類是多種多樣的,由于數(shù)據(jù)量日新月異爆炸性的增長,僅僅依靠數(shù)據(jù)處·理人員對(duì)所有的數(shù)據(jù)手工加標(biāo)簽是不現(xiàn)實(shí)的。在這種前提下,社會(huì)標(biāo)簽就應(yīng)運(yùn)而生了。社會(huì)標(biāo)簽,又稱合作標(biāo)簽,社會(huì)分類法,是一種讓普通大眾用戶能將在線的數(shù)字資源和自己提供的標(biāo)簽做關(guān)聯(lián)的方法,是由用戶產(chǎn)生的、對(duì)網(wǎng)絡(luò)內(nèi)容進(jìn)行組織和共享的自下而上的組織分類體系。在這里,普通民眾都可以通過在線環(huán)境在相應(yīng)的系統(tǒng)中為自己感興趣的數(shù)字資源添加自己覺得合適的標(biāo)簽。正是基于這種特點(diǎn),社會(huì)標(biāo)簽的結(jié)果往往是不準(zhǔn)確的,包含有很多噪聲,因?yàn)槊恳晃粎⑴c社會(huì)標(biāo)簽的普通用戶都不能排除自己的主觀性,粗心大意,甚至是缺乏耐心去提供一個(gè)完美的標(biāo)簽。為了更好的利用社會(huì)標(biāo)簽為進(jìn)一步的數(shù)據(jù)處理分析服務(wù),必須盡可能的提高標(biāo)簽分類的準(zhǔn)確度,降低噪聲對(duì)標(biāo)簽分類的影響。同時(shí),由于標(biāo)簽的種類是多種多樣的,因此,多標(biāo)簽抗噪分類器應(yīng)運(yùn)而生,并且有著非常廣闊的應(yīng)用前景和非常重要的實(shí)用價(jià)值。傳統(tǒng)的鑒別型分類器應(yīng)用到多標(biāo)簽分類問題中時(shí),一般將多標(biāo)簽問題轉(zhuǎn)化為一對(duì)多(One Vs All)的分類模式,即把多標(biāo)簽分類問題轉(zhuǎn)化為多個(gè)二分類問題。傳統(tǒng)的鑒別型分類器在這個(gè)轉(zhuǎn)化過程中并沒有用到多標(biāo)簽空間中所包含的信息。而實(shí)際上,數(shù)據(jù)被標(biāo)上的標(biāo)簽越多,標(biāo)簽空間中包含的信息也就越多,這些信息可以被利用起來。當(dāng)判斷數(shù)據(jù)點(diǎn)是否應(yīng)該標(biāo)上某個(gè)標(biāo)簽時(shí),該數(shù)據(jù)點(diǎn)已有的其他標(biāo)簽會(huì)對(duì)判斷起到一定的幫助作用。例如,當(dāng)一幅包含動(dòng)物的圖像已有的標(biāo)簽為天空,云,草地,樹木的時(shí)候,它更可能被標(biāo)上的標(biāo)簽是鳥而不是魚;而當(dāng)一幅包含動(dòng)物的圖像已有的標(biāo)簽為水,水草,大海,珊瑚的時(shí)候,它更有可能被標(biāo)上的標(biāo)簽是魚而不是鳥。多標(biāo)簽空間中包含的信息在某種程度上可以幫助我們更好的進(jìn)行分類,降低噪聲對(duì)分類的影響。
技術(shù)實(shí)現(xiàn)思路
為解決上述問題,本專利技術(shù)的目的在于提供一種,用于利用多標(biāo)簽空間中包含的信息來提高鑒別型分類器在多標(biāo)簽分類中的分類精度,降低噪聲標(biāo)簽對(duì)分類的影響。為實(shí)現(xiàn)上述目的,本專利技術(shù)的技術(shù)方案為—種,包括以下步驟首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點(diǎn)與點(diǎn)之間的距離,所述新型的距離度量方法為將多標(biāo)簽訓(xùn)練集表示為訓(xùn)練集中的每個(gè)點(diǎn)Ife I:都被標(biāo)上了多種多樣的標(biāo)簽,整個(gè)訓(xùn)練集的標(biāo)簽字典組成了s維的多標(biāo)簽空間T,多標(biāo)簽訓(xùn)練集中的每個(gè)點(diǎn)#,· e J在視角r中的特征向量表示為Xi,在標(biāo)簽字典中的標(biāo)簽向量表示為Φ = (dia,dij2,. . . , dijS)',其中du e {0,1} , I彡r彡S表示字典中的第r個(gè)標(biāo)簽I;是否在Ii中出現(xiàn),同時(shí)用yi, r表示Ii的分類標(biāo)簽,yi,r = 2· Cli,r-lo在多標(biāo)簽一對(duì)多(One Vs All)的分類模式中,當(dāng)一個(gè)標(biāo)簽T1^被作為分類目標(biāo)時(shí),標(biāo)簽字典中其余的標(biāo)簽就會(huì)組成一個(gè)S-I維的標(biāo)簽特征空間i;,用表示Ii在空間中的特征向里,tj, r — (CliJ, ... I φ,Η,(Iij r+1 j · · ·,(Iij s),定義權(quán)利要求1.一種,其特征在于,包括以下步驟 首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點(diǎn)與點(diǎn)之間的距離,所述新型的距離度量方法為將多標(biāo)簽訓(xùn)練集表示為I,訓(xùn)練集中的每個(gè)點(diǎn)都被標(biāo)上了多種多樣的標(biāo)簽,整個(gè)訓(xùn)練集的標(biāo)簽字典組成了 s維的多標(biāo)簽空間T,多標(biāo)簽訓(xùn)練集中的每個(gè)點(diǎn)IieJ在視角r中的特征向量表示為Xi,在標(biāo)簽字典中的標(biāo)簽向量表示為Φ = (dia, dij2, . . . , dijS);,其中du e {0,1}, I彡r彡S表示字典中的第r個(gè)標(biāo)簽Tr是否在Ii中出現(xiàn),同時(shí)用yi,r表示Ii的分類標(biāo)簽,yi,r = 2 *(1^-1,在多標(biāo)簽一對(duì)多OneVs All的分類模式中,當(dāng)一個(gè)標(biāo)簽T1^被作為分類目標(biāo)時(shí),標(biāo)簽字典中其余的標(biāo)簽就會(huì)組成一個(gè)S-I維的標(biāo)簽特征空間·£r,用表示Ii在空間1中的特征向量,全文摘要本專利技術(shù)實(shí)施例公開了一種,包括以下步驟首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點(diǎn)與點(diǎn)之間的距離;然后,在特定的分類目標(biāo)下對(duì)多標(biāo)簽空間中的每個(gè)點(diǎn)定義一個(gè)鄰域,某點(diǎn)的鄰域包含在新型的距離度量方法下離中心點(diǎn)最近的幾個(gè)點(diǎn);最后,結(jié)合每個(gè)樣本點(diǎn)在多標(biāo)簽空間中的鄰域信息,利用提出的一種新的多標(biāo)簽柔性支持向量機(jī)分類器進(jìn)行多標(biāo)簽分類訓(xùn)練。本專利技術(shù)用于利用多標(biāo)簽空間中包含的信息來提高鑒別型分類器在多標(biāo)簽分類中的分類精度,降低噪聲標(biāo)簽對(duì)分類的影響。文檔編號(hào)G06K9/62GK102945371SQ20121039679公開日2013年2月27日 申請(qǐng)日期2012年10月18日 優(yōu)先權(quán)日2012年10月18日專利技術(shù)者祁仲昂, 楊名, 張仲非, 張正友 申請(qǐng)人:浙江大學(xué)本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種基于多標(biāo)簽柔性支持向量機(jī)的分類方法,其特征在于,包括以下步驟:首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點(diǎn)與點(diǎn)之間的距離,所述新型的距離度量方法為:將多標(biāo)簽訓(xùn)練集表示為訓(xùn)練集中的每個(gè)點(diǎn)都被標(biāo)上了多種多樣的標(biāo)簽,整個(gè)訓(xùn)練集的標(biāo)簽字典組成了S維的多標(biāo)簽空間多標(biāo)簽訓(xùn)練集中的每個(gè)點(diǎn)在視角中的特征向量表示為xi,在標(biāo)簽字典中的標(biāo)簽向量表示為di=(di,1,di,2,...,di,S)′,其中di,r?∈{0,1},1≤r≤S表示字典中的第r個(gè)標(biāo)簽Tr是否在Ii中出現(xiàn),同時(shí)用yi,r表示Ii的分類標(biāo)簽,yi,r=2·di,r?1,在多標(biāo)簽一對(duì)多OneVs?All的分類模式中,當(dāng)一個(gè)標(biāo)簽Tr被作為分類目標(biāo)時(shí),標(biāo)簽字典中其余的標(biāo)簽就會(huì)組成一個(gè)S?1維的標(biāo)簽特征空間用ti,r表示Ii在空間中的特征向量,ti,r=(di,1,...,di,r?1,di,r+1,...,di,S)′,定義當(dāng)給定di,k=0or?1時(shí),di,r=0or1的條件概率如下所示:P10=ΔP(di,r=1|di,k=0)=1-P00P01=ΔP(di,r=0|di,k=1)=1-P11將每一個(gè)標(biāo)簽Tr的關(guān)聯(lián)度向量標(biāo)記為gr,gr=(gr,1,...,gr,r?1,gr,r+1,...,gr,S)′,向量的每一個(gè)元素表示標(biāo)簽Tr與其他標(biāo)簽的關(guān)聯(lián)度,關(guān)聯(lián)度元素gr,k(k∈{1,...,r?1,r+1,...,S})的定義如下式所示:gr,k=P00·P11+P10·P01,將樣本點(diǎn)在空間中的特征向量與每一個(gè)標(biāo)簽Tr關(guān)聯(lián)度向量結(jié)合起來,得到多標(biāo)簽空間中一種新型的距離度量方法的定義如下式所示:disr(Ii,Ij)=||(ti,r?tj,r)⊙gr||p,其中⊙表示向量之間的阿達(dá)馬Hadamard乘積;然后,在特定的分類目標(biāo)下對(duì)多標(biāo)簽空間中的每個(gè)點(diǎn)定義一個(gè)鄰域,某點(diǎn)的鄰域包含在新型的距離度量方法下離中心點(diǎn)最近的幾個(gè)點(diǎn),所述的鄰域的表示方法為:Ii在空間中用這種新型距離度量方法定義的鄰域,不包括Ii自己,表示為Ii和其領(lǐng)域中數(shù)據(jù)點(diǎn)的分類結(jié)果相似度高,和非鄰域數(shù)據(jù)點(diǎn)的分類結(jié)果相似度低,鄰域的大小u表示Ii在空間中的最鄰近的鄰居點(diǎn)的個(gè)數(shù),最后,結(jié)合每個(gè)樣本點(diǎn)在多標(biāo)簽空間中的鄰域信息,利用提出的一種新的多標(biāo)簽柔性支持向量機(jī)分類器進(jìn)行多標(biāo)簽分類訓(xùn)練,所述新的多標(biāo)簽柔性支持向量機(jī)分類器的建立方法為:將每個(gè)點(diǎn)Ii的分類標(biāo)簽yi,r的取值范圍從兩個(gè)點(diǎn){?1,+1}擴(kuò)展到了一個(gè)柔性范圍[?1,+1]內(nèi),每個(gè)點(diǎn)Ii的柔性分類標(biāo)簽標(biāo)記為li,r,li,r的取值不僅取決于Ii的分類標(biāo)簽yi,r,還取決于Ii在空間中最鄰近的鄰居點(diǎn)的分類標(biāo)簽,li,r的定義如下所示:D是常量,且0≤D<1,多標(biāo)簽柔性支持向量機(jī)的優(yōu)化式如下:minw12||w||2+CΣi=1n|li,r|ξis.t.∀i=1n:li,r(wTxi+b^)≥|li,r|2-|li,r|ξi,ξi≥0其中w,分別是多標(biāo)簽柔性支持向量機(jī)分類器SVM?MSM的系數(shù)和偏置,C是常數(shù),ξi是松弛變量。FDA00002270845300011.jpg,FDA00002270845300012.jpg,FDA00002270845300013.jpg,FDA00002270845300014.jpg,FDA00002270845300015.jpg,FDA00002270845300016.jpg,FDA00002270845300017.jpg,FDA00002270845300018.jpg,FDA00002270845300019.jpg,FDA000022708453000110.jpg,FDA000022708453000113.jpg,FDA00002270845300021.jpg,FDA00002270845300022.jpg,FDA00002270845300023.jpg,FDA00002270845300024.jpg,FDA00002270845300025.jpg,FDA00002270845300026.jpg,FDA00002270845300027.jpg,FDA00002270845300028.jpg,FDA000022708453000211.jpg...
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:祁仲昂,楊名,張仲非,張正友,
申請(qǐng)(專利權(quán))人:浙江大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。