本發(fā)明專利技術(shù)實施例公開了一種基于多標(biāo)簽約束支持向量機的分類方法,包括以下步驟:首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點與點之間的距離;然后,在特定的分類目標(biāo)下對多標(biāo)簽空間中的每個點定義一個鄰域,某點的鄰域包含在新型的距離度量方法下離中心點最近的幾個點,并提出了多標(biāo)簽鄰域相似度約束;最后,結(jié)合多標(biāo)簽鄰域相似度約束和傳統(tǒng)的支持向量機約束,提出一種新的多標(biāo)簽約束支持向量機分類器進行多標(biāo)簽分類訓(xùn)練。本發(fā)明專利技術(shù)用于通過多標(biāo)簽約束利用多標(biāo)簽空間中包含的信息來提高鑒別型分類器在多標(biāo)簽分類中的分類精度,降低噪聲標(biāo)簽對分類的影響。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)屬于多標(biāo)簽
,特別地涉及一種。
技術(shù)介紹
隨著信息時代的到來,多媒體數(shù)據(jù)已經(jīng)實現(xiàn)了爆炸性的增長。標(biāo)簽,作為多媒體的內(nèi)容形式之一,能幫助解決數(shù)據(jù)挖掘方面很多重要的現(xiàn)實應(yīng)用,特別是在跨媒體領(lǐng)域,體現(xiàn)出非常重要的作用。例如,利用合適的標(biāo)簽作為圖像注釋的一部分,可以開發(fā)出強大的圖像標(biāo)注和圖像檢索技術(shù);利用合適的標(biāo)簽作為電影評論的一部分,可以開發(fā)出有效的電影推薦系統(tǒng);利用合適的標(biāo)簽作為網(wǎng)頁標(biāo)記的一部分,可以開發(fā)出更有效率的搜索引擎。標(biāo)簽的種類是多種多樣的,由于數(shù)據(jù)量日新月異爆炸性的增長,僅僅依靠數(shù)據(jù)處·理人員對所有的數(shù)據(jù)手工加標(biāo)簽是不現(xiàn)實的。在這種前提下,社會標(biāo)簽就應(yīng)運而生了。社會標(biāo)簽,又稱合作標(biāo)簽,社會分類法,是一種讓普通大眾用戶能將在線的數(shù)字資源和自己提供的標(biāo)簽做關(guān)聯(lián)的方法,是由用戶產(chǎn)生的、對網(wǎng)絡(luò)內(nèi)容進行組織和共享的自下而上的組織分類體系。在這里,普通民眾都可以通過在線環(huán)境在相應(yīng)的系統(tǒng)中為自己感興趣的數(shù)字資源添加自己覺得合適的標(biāo)簽。正是基于這種特點,社會標(biāo)簽的結(jié)果往往是不準(zhǔn)確的,包含有很多噪聲,因為每一位參與社會標(biāo)簽的普通用戶都不能排除自己的主觀性,粗心大意,甚至是缺乏耐心去提供一個完美的標(biāo)簽。為了更好的利用社會標(biāo)簽為進一步的數(shù)據(jù)處理分析服務(wù),必須盡可能的提高標(biāo)簽分類的準(zhǔn)確度,降低噪聲對標(biāo)簽分類的影響。同時,由于標(biāo)簽的種類是多種多樣的,因此,多標(biāo)簽抗噪分類器應(yīng)運而生,并且有著非常廣闊的應(yīng)用前景和非常重要的實用價值。傳統(tǒng)的鑒別型分類器應(yīng)用到多標(biāo)簽分類問題中時,一般將多標(biāo)簽問題轉(zhuǎn)化為一對多(One Vs All)的分類模式,即把多標(biāo)簽分類問題轉(zhuǎn)化為多個二分類問題。傳統(tǒng)的鑒別型分類器在這個轉(zhuǎn)化過程中并沒有用到多標(biāo)簽空間中所包含的信息。而實際上,數(shù)據(jù)被標(biāo)上的標(biāo)簽越多,標(biāo)簽空間中包含的信息也就越多,這些信息可以被利用起來。當(dāng)判斷數(shù)據(jù)點是否應(yīng)該標(biāo)上某個標(biāo)簽時,該數(shù)據(jù)點已有的其他標(biāo)簽會對判斷起到一定的幫助作用。例如,當(dāng)一幅包含動物的圖像已有的標(biāo)簽為天空,云,草地,樹木的時候,它更可能被標(biāo)上的標(biāo)簽是鳥而不是魚;而當(dāng)一幅包含動物的圖像已有的標(biāo)簽為水,水草,大海,珊瑚的時候,它更有可能被標(biāo)上的標(biāo)簽是魚而不是鳥。多標(biāo)簽空間中包含的信息在某種程度上可以幫助我們更好的進行分類,降低噪聲對分類的影響。
技術(shù)實現(xiàn)思路
為解決上述問題,本專利技術(shù)的目的在于提供一種,用于通過多標(biāo)簽約束利用多標(biāo)簽空間中包含的信息來提高鑒別型分類器在多標(biāo)簽分類中的分類精度,降低噪聲標(biāo)簽對分類的影響。為實現(xiàn)上述目的,本專利技術(shù)的技術(shù)方案為—種,包括以下步驟首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點與點之間的距離,所述新型的距離度量方法為將多標(biāo)簽訓(xùn)練集表示為J,多標(biāo)簽訓(xùn)練集中的每個點都被標(biāo)上了多種多樣的標(biāo)簽,整個多標(biāo)簽訓(xùn)練集的標(biāo)簽字典組成了 s維的多標(biāo)簽空間*T5多標(biāo)簽訓(xùn)練集中的每個點厶€ J在視角F中的特征向量表示為Xi,在標(biāo)簽字典中的標(biāo)簽向量表示為Φ = ((IiajClij2,. . . ,dijS);,其中{0,1},l^r^S表示字典中的第r個標(biāo)簽I;是否在Ii中出現(xiàn),同時用r表示Ii的分類標(biāo)簽,y^ = 2*d^-l。在多標(biāo)簽一對多(One Vs All)的分類模式中,當(dāng)一個標(biāo)簽I;被作為分類目標(biāo)時,標(biāo)簽字典中其余的標(biāo)簽就會組成一個S-I維的標(biāo)簽特征空間厶,用表示Ii在空間《Cr中的特征向量,ti>r = (dia,…,(Iijrt, dijr+1,…,U ',定義〒r== U // £ Τ, Γ € {I, 2,. .., 5 }),當(dāng)給定 dijk = Oorl 時,dijr =Oorl的條件概率如下所示權(quán)利要求1 .一種,其特征在于,包括以下步驟 首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點與點之間的距離,所述新型的距離度量方法為將多標(biāo)簽訓(xùn)練集表示為J,多標(biāo)簽訓(xùn)練集中的每個點fie J都被標(biāo)上了多種多樣的&夂整個多標(biāo)簽訓(xùn)練集的標(biāo)簽字典組成了 s維的多標(biāo)簽空間孓,多標(biāo)簽訓(xùn)練集中的每個/ I1^ Γ在視角!F中的特征向量表示為Xi,在標(biāo)簽字典中的標(biāo)簽向量表示為di = (du,屯,2,...,U ',其中Cli^e {0,1},l^r^S表示字典中的第r個標(biāo)簽I;是否在Ii中出現(xiàn),同時用lu r表示Ii的分類標(biāo)簽,Yijr = 2 ·屯,廠1,在多標(biāo)簽一對多One Vs All的分類模式中,當(dāng)一個標(biāo)簽I;被作為分類目標(biāo)時,標(biāo)簽字典中其余的標(biāo)簽就會組成一個S-I維的標(biāo)簽特征空間·£r,用表示Ii在空間Xr中的特征向量,tijr = (dia, . . . , (Iijrt, dijr+1, . . . , Ο ', 定乂*Vf —1}( ε jTjF ε {lf2 ... ),當(dāng)給定(Ii, k = OorI 時,Cli, r =Oorl的條件概率如下所示全文摘要本專利技術(shù)實施例公開了一種,包括以下步驟首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點與點之間的距離;然后,在特定的分類目標(biāo)下對多標(biāo)簽空間中的每個點定義一個鄰域,某點的鄰域包含在新型的距離度量方法下離中心點最近的幾個點,并提出了多標(biāo)簽鄰域相似度約束;最后,結(jié)合多標(biāo)簽鄰域相似度約束和傳統(tǒng)的支持向量機約束,提出一種新的多標(biāo)簽約束支持向量機分類器進行多標(biāo)簽分類訓(xùn)練。本專利技術(shù)用于通過多標(biāo)簽約束利用多標(biāo)簽空間中包含的信息來提高鑒別型分類器在多標(biāo)簽分類中的分類精度,降低噪聲標(biāo)簽對分類的影響。文檔編號G06K9/62GK102945372SQ20121039856公開日2013年2月27日 申請日期2012年10月18日 優(yōu)先權(quán)日2012年10月18日專利技術(shù)者祁仲昂, 楊名, 張仲非, 張正友 申請人:浙江大學(xué)本文檔來自技高網(wǎng)...
【技術(shù)保護點】
一種基于多標(biāo)簽約束支持向量機的分類方法,其特征在于,包括以下步驟:首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點與點之間的距離,所述新型的距離度量方法為:將多標(biāo)簽訓(xùn)練集表示為多標(biāo)簽訓(xùn)練集中的每個點都被標(biāo)上了多種多樣的標(biāo)簽,整個多標(biāo)簽訓(xùn)練集的標(biāo)簽字典組成了S維的多標(biāo)簽空間多標(biāo)簽訓(xùn)練集中的每個點在視角中的特征向量表示為xi,在標(biāo)簽字典中的標(biāo)簽向量表示為di=(di,1,di,2,...,di,S)′,其中di,r∈{0,1},1≤r≤S表示字典中的第r個標(biāo)簽Tr是否在Ii中出現(xiàn),同時用yi,r表示Ii的分類標(biāo)簽,yi,r=2·di,r?1,在多標(biāo)簽一對多One?Vs?All的分類模式中,當(dāng)一個標(biāo)簽Tr被作為分類目標(biāo)時,標(biāo)簽字典中其余的標(biāo)簽就會組成一個S?1維的標(biāo)簽特征空間用ti,r表示Ii在空間中的特征向量,ti,r=(di,1,...,di,r?1,di,r+1,...,di,s)′,定義當(dāng)給定di,k=0or1時,di,r=0or1的條件概率如下所示:P10=ΔP(di,r=1|di,k=0)=1-P00P01=ΔP(di,r=0|di,k=1)=1-P11將每一個標(biāo)簽Tr的關(guān)聯(lián)度向量標(biāo)記為gr,gr=(gr,1,...,gr,r?1,gr,r+1,...,gr,S)′;向量的每一個元素表示標(biāo)簽Tr與其他標(biāo)簽的關(guān)聯(lián)度;關(guān)聯(lián)度元素gr,k(k∈{1,...,r?1,r+1,...,S})的定義如下式所示:gr,k=P00·P11+P10·P01,將樣本點在空間中的特征向量與每一個標(biāo)簽Tr關(guān)聯(lián)度向量結(jié)合起來,得到多標(biāo)簽空間中一種新型的距離度量方法的定義如下式所示:disr(Ii,Ij)=||(ti,r?tj,r)⊙gr||p,其中⊙表示向量之間的阿達馬Hadamard乘積;然后,在特定的分類目標(biāo)下對多標(biāo)簽空間中的每個點定義一個鄰域,某點 的鄰域包含在新型的距離度量方法下離中心點最近的幾個點,并提出了多標(biāo)簽鄰域相似度約束,所述的鄰域以及多標(biāo)簽鄰域相似度約束的建立方法為:Ii在空間中用這種新型距離度量方法定義的鄰域,不包括Ii自己,表示為Ii和其鄰域中數(shù)據(jù)點的分類結(jié)果相似度高,和非鄰域數(shù)據(jù)點的分類結(jié)果相似度低,鄰域的大小u表示Ii在空間中的最鄰近的鄰居點的個數(shù),所述多標(biāo)簽約束支持向量機通過添加多標(biāo)簽空間鄰域相似度約束來最小化每一個點和其在多標(biāo)簽空間中最鄰近的鄰居點的分類結(jié)果之間的差異,該約束如下所示:且|wTxi?wTxj|≤ηij,ηij≥0;其中w是多標(biāo)簽約束支持向量機分類器的系數(shù);最后,結(jié)合多標(biāo)簽鄰域相似度約束和傳統(tǒng)的支持向量機約束,提出一種新的多標(biāo)簽約束支持向量機分類器進行多標(biāo)簽分類訓(xùn)練,所述新的多標(biāo)簽約束支持向量機分類器的建立方法為:結(jié)合上述多標(biāo)簽約束條件和傳統(tǒng)的支持向量機約束條件,整合到多標(biāo)簽約束支持向量機的優(yōu)化式中,優(yōu)化式如下所示:minw=12||w||2+CΣi=1nξi+Σi=1nΣj∈NirC*edisr(Ii,Ij)·ηijs.t.∀i=1n:yi,r(wTxi+b^)≥1-ξi,ξi≥0且|wTxi?wTxj|≤ηij,ηij≥0其中分別是多標(biāo)簽約束支持向量機分類器的系數(shù)和偏置,C和C*是常數(shù),且C*<C,ξi是松弛變量。FDA00002270826600011.jpg,FDA00002270826600012.jpg,FDA00002270826600013.jpg,FDA00002270826600014.jpg,FDA00002270826600015.jpg,FDA00002270826600016.jpg,FDA00002270826600017.jpg,FDA00002270826600018.jpg,FDA00002270826600019.jpg,FDA000022708266000110.jpg,FDA000022708266000111.jpg,FDA000022708266000114.jpg,FDA00002270826600021.jpg,FDA00002270826600022.jpg,FDA00002270826600023.jpg,FDA00002270826600024.jpg,FDA00002270826600025.jpg,FDA00002270826600026.jpg,F...
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:祁仲昂,楊名,張仲非,張正友,
申請(專利權(quán))人:浙江大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。