本發(fā)明專利技術(shù)實施例公開了一種基于多標(biāo)簽二視角支持向量機的分類方法,包括以下步驟:首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點與點之間的距離;然后,在兩個相互條件獨立的視角上提取訓(xùn)練集的兩組特征,結(jié)合利用二視角所包含的兩組特征的互補信息;最后,結(jié)合多標(biāo)簽空間和二視角空間中的信息,利用定義的一種新的多標(biāo)簽二視角支持向量機分類器進行多標(biāo)簽分類訓(xùn)練。本發(fā)明專利技術(shù)用于采用鑒別型分類器結(jié)合利用標(biāo)簽空間中所包含的信息和多視角中的信息處理多標(biāo)簽分類問題,對訓(xùn)練集標(biāo)簽進行降噪的同時,得到一種更準(zhǔn)確的分類方法。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)屬于標(biāo)簽
,特別地涉及一種。
技術(shù)介紹
隨著信息時代的到來,多媒體數(shù)據(jù)已經(jīng)實現(xiàn)了爆炸性的增長。標(biāo)簽,作為多媒體的內(nèi)容形式之一,能幫助解決數(shù)據(jù)挖掘方面很多重要的現(xiàn)實應(yīng)用,特別是在跨媒體領(lǐng)域,體現(xiàn)出非常重要的作用。例如,利用合適的標(biāo)簽作為圖像注釋的一部分,可以開發(fā)出強大的圖像標(biāo)注和圖像檢索技術(shù);利用合適的標(biāo)簽作為電影評論的一部分,可以開發(fā)出有效的電影推薦系統(tǒng);利用合適的標(biāo)簽作為網(wǎng)頁標(biāo)記的一部分,可以開發(fā)出更有效率的搜索引擎。 標(biāo)簽的種類是多種多樣的,由于數(shù)據(jù)量日新月異爆炸性的增長,僅僅依靠數(shù)據(jù)處理人員對所有的數(shù)據(jù)手工加標(biāo)簽是不現(xiàn)實的。在這種前提下,社會標(biāo)簽就應(yīng)運而生了。社會標(biāo)簽,又稱合作標(biāo)簽,社會分類法,是一種讓普通大眾用戶能將在線的數(shù)字資源和自己提供的標(biāo)簽做關(guān)聯(lián)的方法,是由用戶產(chǎn)生的、對網(wǎng)絡(luò)內(nèi)容進行組織和共享的自下而上的組織分類體系。在這里,普通民眾都可以通過在線環(huán)境在相應(yīng)的系統(tǒng)中為自己感興趣的數(shù)字資源添加自己覺得合適的標(biāo)簽。正是基于這種特點,社會標(biāo)簽的結(jié)果往往是不準(zhǔn)確的,包含有很多噪聲,因為每一位參與社會標(biāo)簽的普通用戶都不能排除自己的主觀性,粗心大意,甚至是缺乏耐心去提供一個完美的標(biāo)簽。為了更好的利用社會標(biāo)簽為進一步的數(shù)據(jù)處理分析服務(wù),必須盡可能的提高標(biāo)簽分類的準(zhǔn)確度,降低噪聲對標(biāo)簽分類的影響。同時,由于標(biāo)簽的種類是多種多樣的,因此,多標(biāo)簽抗噪分類器應(yīng)運而生,并且有著非常廣闊的應(yīng)用前景和非常重要的實用價值。傳統(tǒng)的鑒別型分類器應(yīng)用到多標(biāo)簽分類問題中時,一般將多標(biāo)簽問題轉(zhuǎn)化為一對多(One Vs All)的分類模式,即把多標(biāo)簽分類問題轉(zhuǎn)化為多個二分類問題。傳統(tǒng)的鑒別型分類器在這個轉(zhuǎn)化過程中并沒有用到多標(biāo)簽空間中所包含的信息。而實際上,數(shù)據(jù)被標(biāo)上的標(biāo)簽越多,標(biāo)簽空間中包含的信息也就越多,這些信息可以被利用起來。當(dāng)判斷數(shù)據(jù)點是否應(yīng)該標(biāo)上某個標(biāo)簽時,該數(shù)據(jù)點已有的其他標(biāo)簽會對判斷起到一定的幫助作用。例如,當(dāng)一幅包含動物的圖像已有的標(biāo)簽為天空,云,草地,樹木的時候,它更可能被標(biāo)上的標(biāo)簽是鳥而不是魚;而當(dāng)一幅包含動物的圖像已有的標(biāo)簽為水,水草,大海,珊瑚的時候,它更有可能被標(biāo)上的標(biāo)簽是魚而不是鳥。多標(biāo)簽空間中包含的信息在某種程度上可以幫助我們更好的進行分類,降低噪聲對分類的影響。隨著獲取數(shù)據(jù)的終端的多樣化,數(shù)據(jù)一般都擁有多視角的特征,尤其是在多媒體領(lǐng)域,一個事件會被文本,圖像,聲音,視頻等多個視角進行記錄和描述。即使是只有一種媒體,也可以把該媒體的多個相互條件獨立的特征看作為多視角的特征。例如圖像,可以從紋理,顏色,區(qū)域形狀等多個視角進行分析。多個視角類似于多個獨立的歷史學(xué)家對于同一個歷史事件的記錄,盡管在這些記錄中存在著一定的重疊部分,但是這些記錄中的非重疊部分卻是最有價值的,能夠幫助后人盡可能的系統(tǒng)性的恢復(fù)整個歷史事件,甚至糾正單個歷史學(xué)家關(guān)于該歷史事件的一 些零星出現(xiàn)的主觀性的錯誤描述。同樣,利用多視角進行學(xué)習(xí),也能幫助我們更好的進行分類,降低噪聲對分類的影響,提高多標(biāo)簽分類的準(zhǔn)確度。本專利技術(shù)提出的鑒別型分類器可以有效的結(jié)合利用標(biāo)簽空間中所包含的信息和多視角空間中的信息來提高多標(biāo)簽分類的準(zhǔn)確度。因此,處理多標(biāo)簽分類問題的鑒別型分類器已經(jīng)成為當(dāng)前數(shù)據(jù)挖掘領(lǐng)域一個非常重要的研究方向。
技術(shù)實現(xiàn)思路
為解決上述問題,本專利技術(shù)的目的在于提供一種,用于采用鑒別型分類器結(jié)合利用標(biāo)簽空間中所包含的信息和多視角中的信息處理多標(biāo)簽分類問題,對訓(xùn)練集標(biāo)簽進行降噪的同時,得到一種更準(zhǔn)確的分類方法。為實現(xiàn)上述目的,本專利技術(shù)的技術(shù)方案為一種,包括以下步驟首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點與點之間的距離,其中所述新型的距離度量方法為,將多標(biāo)簽訓(xùn)練集表示為J,所述多標(biāo)簽訓(xùn)練集的兩個相互條件獨立的視角空間分別表示為!Fa)和!Fw,所述多標(biāo)簽訓(xùn)練集中的每個點J都被標(biāo)上了多種多樣的標(biāo)簽,所述多標(biāo)簽訓(xùn)練集的標(biāo)簽字典組成了 s維的多標(biāo)簽空間7%所述多標(biāo)簽訓(xùn)練集中的每個點於e J在視角空間!T㈣和!Γ·中的特征向量分別表示為xf和xf,在標(biāo)簽字典中的標(biāo)簽向量表示為Cli = (d,,1; Cli,2,...,Cli, s)/,其中due {0,1},1彡r彡S表示標(biāo)簽字典中的第r個標(biāo)簽Tr是否在1中出現(xiàn),同時用yi,!·表示Ii的分類標(biāo)簽,Yi, r = 2 · dij-l,在多標(biāo)簽一對多(One Vs All)的分類模式中,當(dāng)一個標(biāo)簽I;被作為分類目標(biāo)時,標(biāo)簽字典中其余的標(biāo)簽就會組成一個S-I維的標(biāo)簽特征空間I ,用表示Ii在空間厶中的特征向量,其中I = ((Iia, Cli^1, Cli, H )定義權(quán)利要求1. 一種,其特征在于,包括以下步驟 首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點與點之間的距離,其中所述新型的距離度量方法為,將多標(biāo)簽訓(xùn)練集表示為I,所述多標(biāo)簽訓(xùn)練集的兩個相互條件獨立的視角空間分別表示為!Ffe)和yw,所述多標(biāo)簽訓(xùn)練集中的每個點Aei"都被標(biāo)上了多種多樣的標(biāo)簽,所述多標(biāo)簽訓(xùn)練集的標(biāo)簽字典組成了 s維的多標(biāo)簽空間7",所述多標(biāo)簽訓(xùn)練集中的每個點J1- € J.在視角空間;和;中的特征向量分別表示為和5在標(biāo)簽字典中的標(biāo)簽向量表示為(Ii = (dia,dij2,. . . ,(Ii,s)',其中due {0,1},1彡r彡S表示標(biāo)簽字典中的第r個標(biāo)簽Tr是否在Ii中出現(xiàn),同時用Yi j表示Ii的分類標(biāo)簽,yi,r = 2· du-1,在多標(biāo)簽一對多的分類模式中,當(dāng)一個標(biāo)簽I;被作為分類目標(biāo)時,標(biāo)簽字典中其余的標(biāo)簽就會組成一個S-I維的標(biāo)簽特征空間^,用ti,r表示Ii在空間息中的特征向量,其中ti,r = (dia,…,Clijrt, dijr+1,…,U ', 定義全文摘要本專利技術(shù)實施例公開了一種,包括以下步驟首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點與點之間的距離;然后,在兩個相互條件獨立的視角上提取訓(xùn)練集的兩組特征,結(jié)合利用二視角所包含的兩組特征的互補信息;最后,結(jié)合多標(biāo)簽空間和二視角空間中的信息,利用定義的一種新的多標(biāo)簽二視角支持向量機分類器進行多標(biāo)簽分類訓(xùn)練。本專利技術(shù)用于采用鑒別型分類器結(jié)合利用標(biāo)簽空間中所包含的信息和多視角中的信息處理多標(biāo)簽分類問題,對訓(xùn)練集標(biāo)簽進行降噪的同時,得到一種更準(zhǔn)確的分類方法。文檔編號G06K9/62GK102945370SQ20121039661公開日2013年2月27日 申請日期2012年10月18日 優(yōu)先權(quán)日2012年10月18日專利技術(shù)者祁仲昂, 楊名, 張仲非, 張正友 申請人:浙江大學(xué)本文檔來自技高網(wǎng)...
【技術(shù)保護點】
一種基于多標(biāo)簽二視角支持向量機的分類方法,其特征在于,包括以下步驟:首先,在多標(biāo)簽空間中定義一種新型的距離度量方法,用來衡量在特定的分類目標(biāo)下多標(biāo)簽空間中點與點之間的距離,其中所述新型的距離度量方法為,將多標(biāo)簽訓(xùn)練集表示為所述多標(biāo)簽訓(xùn)練集的兩個相互條件獨立的視角空間分別表示為和所述多標(biāo)簽訓(xùn)練集中的每個點都被標(biāo)上了多種多樣的標(biāo)簽,所述多標(biāo)簽訓(xùn)練集的標(biāo)簽字典組成了S維的多標(biāo)簽空間所述多標(biāo)簽訓(xùn)練集中的每個點在視角空間和中的特征向量分別表示為和在標(biāo)簽字典中的標(biāo)簽向量表示為di=(di,1,di,2,...,di,S)′,其中di,r∈{0,1},1≤r≤S表示標(biāo)簽字典中的第r個標(biāo)簽Tr是否在Ii中出現(xiàn),同時用yi,r表示Ii的分類標(biāo)簽,yi,r=2·di,r?1,在多標(biāo)簽一對多的分類模式中,當(dāng)一個標(biāo)簽Tr被作為分類目標(biāo)時,標(biāo)簽字典中其余的標(biāo)簽就會組成一個S?1維的標(biāo)簽特征空間用ti,r表示Ii在空間中的特征向量,其中ti,r=(di,1,...,di,r?1,di,r+1,...,di,S)′,定義當(dāng)給定di,k=0or?1時,di,r=0or1的條件概率如下所示:P10=ΔP(di,r=1|di,k=0)=1-P00P01=ΔP(di,r=0|di,k=1)=1-P11將每一個標(biāo)簽Tr的關(guān)聯(lián)度向量標(biāo)記為gr,gr=(gr,1,...,gr,r?1,gr,r+1,...,gr,S)′,向量的每一個元素表示標(biāo)簽Tr與其他標(biāo)簽的關(guān)聯(lián)度,關(guān)聯(lián)度元素gr,k(k∈{1,...,r?1,r+1,...,S})的定義如下式所示:gr,k=P00·P11+P10·P01,將樣本點在空間中的特征向量與每一個標(biāo)簽Tr關(guān)聯(lián) 度向量結(jié)合起來,得到多標(biāo)簽空間中一種新型的距離度量方法的定義如下式所示:disr(Ii,Ij)=||(ti,r?tj,r)⊙gr||p,其中⊙表示向量之間的阿達馬Hadamard乘積;然后,在兩個相互條件獨立的視角上提取訓(xùn)練集的兩組特征,結(jié)合利用二視角所包含的兩組特征的互補信息;最后,結(jié)合多標(biāo)簽空間和二視角空間中的信息,利用定義的一種新的多標(biāo)簽二視角支持向量機分類器進行多標(biāo)簽分類訓(xùn)練,所述新的多標(biāo)簽二視角支持向量機分類器的建立方法為:Ii在標(biāo)簽特征空間中定義的鄰域,不包括Ii自己,表示為Ii和其鄰域中數(shù)據(jù)點的分類結(jié)果相似度高,和非鄰域數(shù)據(jù)點的分類結(jié)果相似度低,鄰域的大小u表示Ii在空間中的最鄰近的鄰居點的個數(shù),將和分別標(biāo)記為和通過最大化同一個樣本點在兩個視角下的分類相似度來添加二視角約束,該二視角約束如下所示:∀i=1n:|w(a)Txi(a)+b^(a)-w(b)Txi(b)-b^(b)|≤ηi,ηi≥0其中w(z),分別是多標(biāo)簽二視角支持向量機分類器MSVM?2K在視角z=a,b上的系數(shù)和偏置,通過最小化每一個點和其在多標(biāo)簽空間中最鄰近的鄰居點的分類結(jié)果在同一個視角和在不同視角之間的差異來添加多標(biāo)簽約束,多標(biāo)簽約束如下所示:且|w(a)Txi(a)-w(a)Txj(a)|≤ηij(aa),ηij(aa)≥0---(1)|w(b)Txi(b)-w(b)Txj(b)|≤ηij(bb),ηij(bb)≥0---(2)|w(a)Txi(a)+b^(a)-w(b)Txj(b)-b^(b)|≤ηij(ab),ηij(ab)≥0---(3)|w(b)Txi(b)+b^(b)-w(a)Txj(a)-b^(a)|≤ηij(ba),ηij(ba)≥0---(4)利用柔性分類標(biāo)簽來替代同一個視角下的多標(biāo)簽約束(1)和(2);同時,只選取不同視角下的多標(biāo)簽約束(3)和(4)中的一個以降低計算復(fù)雜度,將每個點Ii的柔性分類標(biāo)簽標(biāo)記為li,r,li,r的取值不僅取決于Ii的分類標(biāo)簽yi,r,還取決于Ii在空間中最鄰近的鄰居點的分類標(biāo)簽,li,r的定義如下所示:D是常量,且0≤D<1,多標(biāo)簽二視角支持向量機的優(yōu)化式如下所示:Cij=C(ab)i=jC(ab)*/edisr(Ii,Ij)i≠js.t.∀i=1n:li,r(w(a)Txi(a)+b^(a))≥|li,r|2-|li,r|ξi(a),ξi(a)&Great...
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:祁仲昂,楊名,張仲非,張正友,
申請(專利權(quán))人:浙江大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。