本發(fā)明專利技術(shù)公開了一種基于自動聚類的粒子群優(yōu)化分類算法,主要解決現(xiàn)有技術(shù)對鄰域信息參考的局限性和目標函數(shù)評價標準單一性的問題。其實現(xiàn)過程是:(1)對訓練數(shù)據(jù)執(zhí)行自動聚類方法,獲得自動聚類方法的類標;(2)對訓練數(shù)據(jù)執(zhí)行粒子群優(yōu)化分類方法,獲得該分類方法的類標;(3)計算粒子的適應(yīng)度值,計算最優(yōu)關(guān)系矩陣;(4)更新粒子的位置;(5)更新粒子的歷史最高適應(yīng)度值和種群的全局歷史最高適應(yīng)度值;(6)判斷算法是否滿足終止條件,若滿足,則停止迭代;否則轉(zhuǎn)至步驟(3);(7)利用粒子種群判測試數(shù)據(jù)的類標;(8)計算分類正確率。本發(fā)明專利技術(shù)具有對UCI數(shù)據(jù)分類效果顯著的優(yōu)點,可用于紋理圖像分類。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)屬于圖像處理
,涉及數(shù)據(jù)分類,可用于紋理圖像分類。
技術(shù)介紹
隨著數(shù)據(jù)庫規(guī)模的日益擴大,人類積累的數(shù)據(jù)量正在以指數(shù)速度迅速的增長。進入九十年代后,伴隨著因特網(wǎng)的出現(xiàn)和發(fā)展,以及隨之而來的企業(yè)內(nèi)部網(wǎng),企業(yè)外部網(wǎng)和虛擬私有網(wǎng)的產(chǎn)生和應(yīng)用,令整個世界成為一個規(guī)模較小的地球村。展現(xiàn)在我們面前的已不是局限于本部門,本行業(yè)的碩大數(shù)據(jù)庫,而是無窮無盡的信息海洋。同時,更多的數(shù)據(jù)也正以前所未有的速度收集于計算機中,因此,從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的工程就顯的尤為重要。人們必須學習如何在廣博的信息中發(fā)現(xiàn)和挖掘自己所需要的信息資源,掌握有效的分類方法,使得數(shù)據(jù)的分類效率和準確率都得到較大的提高。 其中,基于粒子群優(yōu)化的分類方法,是將數(shù)據(jù)中具有某方面相似特征的數(shù)據(jù)點劃分為一類,已經(jīng)有很多成熟的分類算法被用到數(shù)據(jù)的分類中。粒子群優(yōu)化作為一種新興的進化算法,目前主要的研究工作集中在算法的更新方式和目標函數(shù)的設(shè)計上。不同的更新方式將獲得不同的子代個體,不同的子代個體又會產(chǎn)生不同的分類效果。現(xiàn)有的更新方式主要有原始的粒子群優(yōu)化更新方式和標準的粒子群優(yōu)化方式兩種。但是,利用此兩種對個體進行更新迭代時,存在對鄰域信息參與的局限性。其次,不同的目標函數(shù)設(shè)計,對算法的結(jié)果將有很大的影響。分類中,傳統(tǒng)的目標函數(shù),是僅將數(shù)據(jù)的分類正確率作為評價標準,利用此類函數(shù)進行判別時,存在對數(shù)據(jù)分布特點認知上的不足,這些局限和不足限制了其在數(shù)據(jù)分類上的廣泛應(yīng)用。
技術(shù)實現(xiàn)思路
本專利技術(shù)的目的在于針對上述已有的技術(shù)不足,提出一種,以明確分類階段的聚類類別數(shù),確定數(shù)據(jù)的分布結(jié)構(gòu)特性,避免類別數(shù)被隨機選擇,提高分類效果。實現(xiàn)本專利技術(shù)目的技術(shù)方案是通過研究數(shù)據(jù)的分布結(jié)構(gòu)特性,結(jié)合粒子群優(yōu)化算法對數(shù)據(jù)進行分類,其步驟包括如下(I)輸入數(shù)據(jù)X,數(shù)據(jù)X的大小為NXD,即數(shù)據(jù)X的樣本個數(shù)為N,每一個樣本是D維的,將數(shù)據(jù)X分為訓練數(shù)據(jù)B和測試數(shù)據(jù)C兩部分,其中,訓練數(shù)據(jù)、測試數(shù)據(jù)的大小均為MXD, M = N/2 ;(2)輸入訓練數(shù)據(jù)B已知的類標E1,類標E1是一個IXM的向量e,向量e =Ie1, e2, · · ·,ei; · · ·,eM},向量e中每一個兀素Gi表不訓練數(shù)據(jù)B中的樣本所屬的類,ei e {I, 2,..., T}, T表示訓練數(shù)據(jù)B正確的分類數(shù),i e {1,2,· · ·,M};(3)采用差分進化自動聚類算法對訓練數(shù)據(jù)B進行自動聚類,得到聚類方法中訓練數(shù)據(jù)B的類標E2,類標E2是一個IXM的向量f,f = {fv f2,. . . , fi,. . . , fM},向量中每一個元素fi表示訓練數(shù)據(jù)B中的樣本匕在聚類方法中所屬的類,& e {1,2,...,K},K表示訓練數(shù)據(jù)B在聚類方法中分為幾類,i e {1,2,· · ·,M};(4)采用粒子群優(yōu)化分類法對訓練數(shù)據(jù)B進行分類,獲得分類方法中訓練數(shù)據(jù)B的類標E3,根據(jù)步驟(3)中自動聚類方法所得的類標E2和分類方法所得的類SE3,得到最終粒子的類標E4和粒子的位置V;(4. I)初始化粒子群優(yōu)化分類方法中訓練數(shù)據(jù)B的類標E3,其中,類標E3是一個IXM的向量h = Oi1, h2,. . . , hM},其中元素hi表示訓練數(shù)據(jù)B中的樣本IDi在該分類方法中所屬的類,比初始為0,i e {1,2,...,M},M是訓練數(shù)據(jù)B的樣本個數(shù);(4. 2)初始化粒子y的個數(shù)U = 10XT, T是已知訓練數(shù)據(jù)B的正確分類; (4. 3)初始迭代次數(shù)t = O ;(4.4)初始化粒子yi的位置V丨為IXD的隨機向量V’ =Iv1' ,V' 2,···,ν' j,...,v' j e u,2,….,D},其中元素 V' J 為 0和 I 之間的隨機數(shù),i e {I, 2,..., U};(4.5)初始化粒子yi的速度■^為IXD的隨機向量x’ ={x' !,Xi 2,...,x/,...,X' 1)},」_£{1,2,...,0},其中元素叉」為0和1之間的隨機數(shù),i e {1,2,···,υ};(4. 6)初始化粒子的歷史最高適應(yīng)度值/4 = O,i e {I, 2, . . . , U};(4. 7)初始化種群粒子的全局最高適應(yīng)度值< =0 ;(4. 8)初始化種群粒子的類標E4為IXU的向量g = {g” g2, · · ·,g” · · ·,gj ,其中元素gi表示粒子71所屬的類,i e {1,2,...,奶,&在{1,2,...,T}中隨機取值,T為已知訓練數(shù)據(jù)B的正確分類;(4.9)根據(jù)訓練數(shù)據(jù)B中的樣本匕與粒子yj; j e {1,2,. . .,U}的歐氏距離d,得到距離最小的粒子y,」,將粒子y'」所屬的類作為樣本h在類標E3中的類,i e {1,2,· · ·,M},M表示訓練數(shù)據(jù)B中的樣本個數(shù);(4. 10)根據(jù)步驟⑶中自動聚類方法所得的類標E2,以及步驟(4. 9)中粒子群優(yōu)化分類方法所得的類標E3,利用全概率方法得出這兩種類標的最優(yōu)關(guān)系矩陣P ;(4. 11)利用最優(yōu)關(guān)系矩陣P計算粒子的適應(yīng)度值< :(4. 12)將粒子yi的適應(yīng)度值4與其歷史最高適應(yīng)度值/i進行比較,并用兩者中較高的那個值,更新歷史最高適應(yīng)度值K,,i e {1,2,...,U};(4. 13)將所有粒子的適應(yīng)度值Jt中的最大值與全局適應(yīng)度值進行比較,并用兩者中較高的那個值,更新全局適應(yīng)度值< ;(4. 14)更新粒子Ji在第t+Ι次迭代時的位置>,I = (OtVrj +C1 X ι\ X (Ptbi - Xti) + C2 x r2 x (^ - Xtj),其中,符號ω表示位置比率值,Cot = I. 4-0. 4Xt/Tmax,Tmax=500,為最大迭代次數(shù);影響因子C1 = C2 = 2. OSjT1^r2為在O和I之間的隨機數(shù)表示粒子Ji在第t代的位置,4表示粒子Ii在第t代的速度,表示粒子Yi在第t代的歷史最高適應(yīng)度值表示粒子Ii在第t代的全局最高適應(yīng)度值,i e {1,2,...,U};(4. 15)將迭代次數(shù)t加1,判斷此時t的值是否大于Tmax,如果大于,則停止迭代,得到粒子的位置V和粒子的類標E4,否則返回步驟(4.9);(5)利用所得的粒子位置V和粒子類標E4,根據(jù)測試數(shù)據(jù)的樣本與每一個粒子的歐式距離d’,將距離最小的粒子的類作為樣本的類;(6)利用測試數(shù)據(jù)得到的分類結(jié)果,計算分類的正確率:r =,, M其中,Num表示測試數(shù)據(jù)中分類正確的樣本的個數(shù),M表示測試數(shù)據(jù)的樣本個數(shù)。本專利技術(shù)與現(xiàn)有技術(shù)相比具有以下優(yōu)點I、本專利技術(shù)由于對數(shù)據(jù)的分布結(jié)構(gòu)特性進行了充分的研究,以不同的關(guān)系矩陣來表達不同粒子分類能力的差異性,根據(jù)自動聚類算法,明確了在訓練階段中,聚 類中所用到的類別數(shù),降低了分類的隨機性;2、本專利技術(shù)相對已有的粒子群更新方式,從參考信息入手,對粒子進行全局更新,避免分類結(jié)果陷入局部最優(yōu)的問題。仿真實驗結(jié)果表明,本專利技術(shù)提出的基于粒子群優(yōu)化的分類方法能夠有效地運用于數(shù)據(jù)的分類,并進一步應(yīng)用于紋理圖像的分類。附圖說明圖I是本專利技術(shù)的總流程圖;圖2是本本文檔來自技高網(wǎng)...
【技術(shù)保護點】
一種基于自動聚類的粒子群優(yōu)化分類方法,包括如下步驟:(1)輸入數(shù)據(jù)X,數(shù)據(jù)X的大小為N×D,即數(shù)據(jù)X的樣本個數(shù)為N,每一個樣本是D維的,將數(shù)據(jù)X分為訓練數(shù)據(jù)B和測試數(shù)據(jù)C兩部分,其中,訓練數(shù)據(jù)、測試數(shù)據(jù)的大小均為M×D,M=N/2;(2)輸入訓練數(shù)據(jù)B已知的類標E1,類標E1是一個1×M的向量e,向量e={e1,e2,...,ei,...,eM},向量e中每一個元素ei表示訓練數(shù)據(jù)B中的樣本bi所屬的類,ei∈{1,2,...,T},T表示訓練數(shù)據(jù)B正確的分類數(shù),i∈{1,2,...,M};(3)采用差分進化自動聚類算法對訓練數(shù)據(jù)B進行自動聚類,得到聚類方法中訓練數(shù)據(jù)B的類標E2,類標E2是一個1×M的向量f,f={f1,f2,...,fi,...,fM},向量中每一個元素fi表示訓練數(shù)據(jù)B中的樣本bi在聚類方法中所屬的類,fi∈{1,2,...,K},K表示訓練數(shù)據(jù)B在聚類方法中分為幾類,i∈{1,2,...,M};(4)采用粒子群優(yōu)化分類法對訓練數(shù)據(jù)B進行分類,獲得分類方法中訓練數(shù)據(jù)B的類標E3,根據(jù)步驟(3)中自動聚類方法所得的類標E2和分類方法所得的類標E3,得到最終粒子的類標E4和粒子的位置v;(4.1)初始化粒子群優(yōu)化分類方法中訓練數(shù)據(jù)B的類標E3,其中,類標E3是一個1×M的向量:h={h1,h2,...,hM},其中元素hi表示訓練數(shù)據(jù)B中的樣本bi在該分類方法中所屬的類,hi初始為0,i∈{1,2,...,M},M是訓練數(shù)據(jù)B的樣本個數(shù);(4.2)初始化粒子y的個數(shù):U=10×T,T是已知訓練數(shù)據(jù)B的正確分類;(4.3)初始迭代次數(shù)t=0;(4.4)初始化粒子yi的位置為1×D的隨機向量:v“={v′1,v′2,...,v′j,...,v′D},j∈{1,2,...,D},其中元素v′j為0和1之間的隨機數(shù),i∈{1,2,...,U};(4.5)初始化粒子yi的速度為1×D的隨機向量:x“={x′1,x′2,...,x′j,...,x′D}, j∈{1,2,...,D},其中元素x′j為0和1之間的隨機數(shù),i∈{1,2,...,U};(4.6)初始化粒子yi的歷史最高適應(yīng)度值i∈{1,2,...,U};(4.7)初始化種群粒子的全局最高適應(yīng)度值(4.8)初始化種群粒子的類標E4為1×U的向量:g={g1,g2,...,gi,...,gU},其中元素gi表示粒子yi所屬的類,i∈{1,2,...,U},gi在{1,2,...,T}中隨機取值,T為已知訓練數(shù)據(jù)B的正確分類;(4.9)根據(jù)訓練數(shù)據(jù)B中的樣本bi與粒子yj,j∈{1,2,...,U}的歐氏距離d,得到距離最小的粒子y′j,將粒子y′j所屬的類作為樣本bi在類標E3中的類,i∈{1,2,...,M},M表示訓練數(shù)據(jù)B中的樣本個數(shù);(4.10)根據(jù)步驟(3)中自動聚類方法所得的類標E2,以及步驟(4.9)中粒子群優(yōu)化分類方法所得的類標E3,利用全概率方法得出這兩種類標的最優(yōu)關(guān)系矩陣P;(4.11)利用最優(yōu)關(guān)系矩陣P計算粒子yi的適應(yīng)度值(4.12)將粒子yi的適應(yīng)度值與其歷史最高適應(yīng)度值進行比較,并用兩者中較高的那個值,更新歷史最高適應(yīng)度值i∈{1,2,...,U};(4.13)將所有粒子的適應(yīng)度值Jt中的最大值與全局適應(yīng)度值進行比較,并用兩者中較高的那個值,更新全局適應(yīng)度值(4.14)更新粒子yi在第t+1次迭代時的位置vit+1=ωtvit+c1×r1×(pbit-xit)+c2×r2×(pgt-xit),其中,符號ω表示位置比率值,ωt=1.4?0.4×t/Tmax,Tmax=500,為最大迭代次數(shù);影響因子c1=c2=2.05,r1、r2為在0和1之間的隨機數(shù);表示粒子yi在第t代的位置,表示粒子yi在第t代的速度,表示粒子yi在第t代的歷史最高適應(yīng)度值,表示粒子yi在第t代的全局最高適應(yīng)度值,i∈{1,2,...,U};(4.15)將迭代次數(shù)t加1,判斷此時t的值是否大于Tmax,如果大于,則停止迭 代,得到粒子的位置v和粒子的類標E4,否則返回步驟(4.9);(5)利用所得的粒子位置v和粒子類標E4,根據(jù)測試數(shù)據(jù)的樣本與每一個粒子的歐式距離d′,將距離最小的粒子的類作為樣本的類;(6)利用測試數(shù)據(jù)得到的分類結(jié)果,計算分類的正確率:其中,Num表示測試數(shù)據(jù)中分類正確的樣本的個數(shù),M表示測試數(shù)據(jù)的樣本個數(shù)。FDA00001899213300011.jpg,FDA000018992...
【技術(shù)特征摘要】
1.ー種基于自動聚類的粒子群優(yōu)化分類方法,包括如下步驟 (1)輸入數(shù)據(jù)X,數(shù)據(jù)X的大小為NXD,即數(shù)據(jù)X的樣本個數(shù)為N,每ー個樣本是D維的,將數(shù)據(jù)X分為訓練數(shù)據(jù)B和測試數(shù)據(jù)C兩部分,其中,訓練數(shù)據(jù)、測試數(shù)據(jù)的大小均為MXD,M = N/2 ; (2)輸入訓練數(shù)據(jù)B已知的類標E1,類標E1是ー個IXM的向量e,向量e =Ie1, e2, · · ·,e” · · ·,eM},向量e中姆ー個兀素Gi表不訓練數(shù)據(jù)B中的樣本所屬的類,ちe {I, 2,..., T}, T表示訓練數(shù)據(jù)B正確的分類數(shù),i e {1,2,· · ·,M}; (3)采用差分進化自動聚類算法對訓練數(shù)據(jù)B進行自動聚類,得到聚類方法中訓練數(shù)據(jù)B的類標E2,類標E2是ー個IXM的向量f,f = {fi, f2,. . . , fi,. . . , fM},向量中姆ー個元素も表示訓練數(shù)據(jù)B中的樣本h在聚類方法中所屬的類,もe {1,2,...,K},K表示訓練數(shù)據(jù)B在聚類方法中分為幾類,i e {1,2,· · ·,M}; (4)采用粒子群優(yōu)化分類法對訓練數(shù)據(jù)B進行分類,獲得分類方法中訓練數(shù)據(jù)B的類標E3,根據(jù)步驟(3)中自動聚類方法所得的類標E2和分類方法所得的類標E3,得到最終粒子的類標E4和粒子的位置ν; (4. I)初始化粒子群優(yōu)化分類方法中訓練數(shù)據(jù)B的類標E3,其中,類標E3是ー個IXM的向量h = {h” h2, . . . , hM},其中元素Iii表示訓練數(shù)據(jù)B中的樣本h在該分類方法中所屬的類,h初始為0,i e {1,2,· · ·,M},M是訓練數(shù)據(jù)B的樣本個數(shù); (4. 2)初始化粒子y的個數(shù)U = 10XT,T是已知訓練數(shù)據(jù)B的正確分類; (4. 3)初始迭代次數(shù)t = O ; (4.4)初始化粒子Yi的位置V;為IXD的隨機向量V’=IV !,Vi 2, j, j e U,2,...,D},其中元素 V' j 為 0和 I 之間的隨機數(shù),i e ...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉若辰,張燕,吳沛,焦李成,劉靜,李陽陽,王爽,馬文萍,
申請(專利權(quán))人:西安電子科技大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。