本發明專利技術提出一種基于多目標優化的Web社區發現方法,應用于Web2.0下的社交網絡,可以提升信息主動服務質量、增強網絡文化安全等;其包括:設置粒子群規模、粒子位置和速度的范圍與維度、粒子群慣性因子、鄰域半徑及外部存檔最大容量等相關參數;建立Web信息網絡各節點的鄰居節點編號表;采用基于節點鄰居有序表的編碼方法初始化粒子群;重復如下操作直到停止條件滿足:計算粒子適應度向量,比較粒子的Pareto支配關系,更新Pareto最優社區結構集,選擇粒子飛行的leader,更新粒子的位置和速度;輸出全部Pareto最優解集元素所對應的網絡社區結構。與基于單目標優化策略的經典算法相比較,本發明專利技術提出的方法能發現更有效的Pareto最優網絡社區結構。
【技術實現步驟摘要】
本專利技術涉及一種Web2. O下信息交互平臺中的社區挖掘,特別是一種運用多目標優化理論的社區發現方法,屬于社會網絡
技術介紹
以自由開放共享為核心精神的Web 2. O使得廣大網民成為互聯網的主角,以博客網絡、社交網絡、wiki網絡等為代表的信息網絡已經深入到人們的工作、學習等各種活動中。如何從這些復雜的關系網絡挖掘出有價值的結構模式已成為互聯網的研究熱點,Web社區發現研究就是其中熱門話題之一。雖然Web社區的嚴格定義還不存在,但是我們可以松散地將其定義為具有某種共 同特征的相互連接的Web信息載體集合,例如,隸屬于某個特定主題的Web頁面集合,由具有某種共同興趣愛好的微博者組成的微群,等等。從網絡拓撲結構來看,一個網絡社區就是一個網絡圖的稠密連通子圖,在這個子圖內的節點之間連接密度高于子圖內部節點與外部節點的連接密度。網絡社區發現研究正吸引著來自物理學、生物學、社會學與計算機科學等不同領域學者的關注,近年來涌現出大量的方法。網絡社區發現本質上就是基于網絡鏈接的聚類學習,該聚類問題是一個與圖最優劃分等價的NP難問題,非凸最優化問題的一種有效解法是基于生物啟發式優化的近似策略。Tasgin等人通過利用GA算法優化社區模塊度Q函數來實現網絡最優劃分的近似.Pizzutiz首先給出用于評判網絡劃分質量的社區分數(community score)的定義,然后運用GA-Net進行優化網絡劃分。考慮到社會網絡的海量性,Lipczak等人提出一個基于社區足夠小且社區數有限假設的ACGA算法將一個社區編碼為一個個體,根據社區質量潛在提高量來選擇個體進行遺傳操作。段曉東等人引入粒子群算法對網絡進行迭代二分實現Web社區的發現。黃發良等人提出的CDPSO算法采用基于節點鄰居有序表的粒子編碼方式,通過PSO全局搜索來挖掘社區。Gog等人提出一種基于個體信息共享機制的協同進化算法對網絡社區結構進行尋優。這些算法主要是根據社區發現具體問題對進化算法從編碼模,遺傳算子與適應度函數等方面進行改造,其中的一個共同點是優化的目標函數只有一個而不是多個。而社區質量評判指標的多樣性、耦合關聯性與數據依賴性使得現有的基于單一評判指標優化的社區發現算法很難在實際工程問題中得到應用。
技術實現思路
本專利技術的目的是為了克服現有技術中的社區發現方法在Web網絡挖掘過程中沒有對各種相互依賴的社區質量評判指標進行綜合考量的缺陷,提供一種基于多目標粒子群優化的網絡社區發現方法。為了實現上述目的,本專利技術提供了一種基于多目標優化的Web社區發現方法,其特征在于應用于Web2. O下的社交網絡,包括以下步驟步驟I)、設置專利技術方法的算法相關參數粒子群規模,粒子位置和速度的范圍與維度,粒子群慣性因子,鄰域半徑及外部存檔最大容量,MOPSO算法的最大迭代次數; 步驟2)、對于給定Web信息網絡中的所有節點進行編號,通過對每個節點的鄰居根據其編號進行排序來構造鄰居有序表; 步驟3)、采用基于節點鄰居有序表的編碼方法初始化粒子群,粒子群中的個體粒子產生方法如下初始化一個長度為網絡節點數的向量,該向量中的第i位分量取值為區間[1,NLL]中的一個隨機整數,NLL為鄰居有序表中的中心節點i對應的鄰居列表長度; 步驟4)、通過MOPSO算法實現尋優Pareto最優解集元素所對應的網絡社區結構。本專利技術的有益效果是比起傳統的社區發現方法,本專利技術提出的方法能將各種網絡社區質量評判指標進行綜合考量,可以發現與網絡社區真實結構更相符合的社區結構。 本專利技術應用于以微博網絡、郵件網絡、BBS論壇網絡等各種社交平臺,可以優化信息網絡結構、提升信息主動服務質量、增強網絡文化安全等。附圖說明圖I為本專利技術的基于多目標優化的Web社區發現方法的總流程 圖2為本專利技術方法中的基于節點鄰居有序表的粒子編碼方法; 圖3為本專利技術方法中的基于核密度估計的leader選擇機制;具體實施例方式 下面結合附圖和具體實施方式對本專利技術予以說明。為了方便詳細闡述本專利技術,首先統一說明相關基本概念。定義I (Pareto支配關系)對于由社區劃分函數—& ^:釅~ 1>發現的蘊含于網絡6=(¥,E)中的兩種不同社區結構i^P3e P,社區結構Pareto支配社區結構/ 當且僅當下式成立并記為if : Cl) 定義2 (Pareto相等關系)類似Pareto支配關系,社區結構與社區結構Pareto相等當且僅當下式成立并記為i|=J| (2) 定義3 (Pareto不可明辨關系)類似Pareto支配關系,社區結構巧與社區結構P3滿足Pareto不可明辨關系當且僅當下式成立并記為 狀 >-F2)Λ-.(P3 > ^)(3) 定義4 (Pareto最優社區結構)若網絡社區劃分方案集合P中的某一劃分方案P*被稱為Pareto最優社區結構,當僅當如下條件成立-BR ^ P. R ^ P*(4) 定義5 (Pareto最優社區結構集)所有Pareto最優社區結構組成的集合 二 {P>P }稱為Pareto最優社區結構集。定義6 (Pareto前沿)Pareto最優社區結構集的社區所對應的質量評判指標向量組成的集合稱為Pareto前沿。定義7(Web社區發現)給定網絡,V為Web信息載體(節點)的非空集合,E網絡節點之間的連接關系,F為用戶指定的目標函數集合,V所對應的k劃分的網絡社區劃分方案巧,其中c』、須滿足4個條件,UCf=F與值可由算法決定或用戶給出.Web社區發現的過程就是 尋找使F函數達到最優化的劃分夂. 結合上述定義,Web社區結構劃分的多目標優化問題可用如下數學模型加以描述 ^C/d J)(5) \{X) = Q{k=XX ,q) 其中X為給定網絡的某種社區劃分方案,X的具體表示形式由進化算法的個體編碼方式而定,為目標向量,目標函數巧(JTKi = Ilm)為第i種社區質量評判指標,gjiJO與 為約束函數,借此約束函數可以指定算法發現滿足某些特定條件的網絡社區結構。如圖I所示,圖I是本專利技術的基于多目標優化的Web社區發現方法的總流程示意圖,該基于多目標優化的Web社區發現方法一共有以下幾個步驟 步驟I :設置專利技術方法的算法相關參數粒子群規模,粒子位置和速度的范圍與維度,粒子群慣性因子,鄰域半徑及外部存檔最大容量,MOPSO算法的最大迭代次數; 步驟2 :對于給定Web信息網絡,建立網絡節點的鄰居有序表,其實現方法為首先對網絡中所有節點進行編號,然后對每個節點的鄰居根據其編號進行排序形成鄰居有序表;步驟3 :根據步驟2建立的鄰居有序表進行粒子群的初始化,其實現方法為初始化一個長度為網絡節點數的向量,該向量中的第i位分量取值為區間[1,NLL]中的一個隨機整數,NLL為鄰居有序表中中心節點i對應的鄰居列表長度; 步驟4:借助多目標粒子群優化算法實現多個目標函數的Pareto最優解的尋優,對Pareto最優解對應粒子進行解碼,并將解碼結果作為網絡社區結構輸出。其實現方法如下重復如下操作直到最大迭代次數的停止條件滿足計算粒子適應度向量,比較粒子的Pareto支配關系,調用UpdatePS方法更新Pareto最優社區結構集,調用IeaderSelect本文檔來自技高網...
【技術保護點】
一種基于多目標優化的Web社區發現方法,其特征在于:應用于Web2.0下的社交網絡,包括以下步驟:步驟1)、設置專利技術方法的算法相關參數:粒子群規模,粒子位置和速度的范圍與維度,粒子群慣性因子,鄰域半徑及外部存檔最大容量,MOPSO算法的最大迭代次數;步驟2)、對于給定Web信息網絡中的所有節點進行編號,通過對每個節點的鄰居根據其編號進行排序來構造鄰居有序表;?步驟3)、采用基于節點鄰居有序表的編碼方法初始化粒子群,粒子群中的個體粒子產生方法如下:初始化一個長度為網絡節點數的向量,該向量中的第i位分量取值為區間[1,?NLL]中的一個隨機整數,NLL為鄰居有序表中的中心節點i對應的鄰居列表長度;步驟4)、通過MOPSO算法實現尋優Pareto最優解集元素所對應的網絡社區結構。
【技術特征摘要】
1.一種基于多目標優化的Web社區發現方法,其特征在于應用于Web2. O下的社交網絡,包括以下步驟 步驟I)、設置發明方法的算法相關參數粒子群規模,粒子位置和速度的范圍與維度,粒子群慣性因子,鄰域半徑及外部存檔最大容量,MOPSO算法的最大迭代次數; 步驟2)、對于給定Web信息網絡中的所有節點進行編號,通過對每個節點的鄰居根據其編號進行排序來構造鄰居有序表; 步驟3)、采用基于節點鄰居有序表的編碼方法初始化粒子群,粒子群中的個體粒子產生方法如下初始化一個長度為網絡節點數的向量,該向量中的第i位分量取值為區間[1,NLL]中的一個隨機整數,NLL為鄰居有序表中的中心節點i對應的鄰居列表長度; 步驟4)、通過MOPSO算法實現尋優Pareto最優解集元素所對應的網絡社區結構。2.根據權利要求I所述的基于多目標優化的Web社區發現方法,其特征在于,所述的步驟4)包括 步驟 4-1)、 計算 粒子 適應 度向 量 ,3.根據權利要求2所述的基于多目標優化的Web社區發現方法,其特征在于,所述的步驟4-3)包括 步驟4-3-1)、將當前迭代過程產生的網絡社區劃分方案集合CurBestP中的每個網絡社區劃分方案6與存儲Pareto歷史最優解的隊列中的每個粒子對應的社區結構進行Pareto關系比較,若社區結構# Pareto支配社區結構則在執行#入隊與A刪除操作; 步驟4-3-2)、將當前迭代過程產生的網絡社區劃分方案集合CurBestP中的每個網絡社區劃分方案#與隊列jfts中的每個粒子對應的社區結構Pi進行Pareto關系比...
【專利技術屬性】
技術研發人員:黃發良,
申請(專利權)人:福建師范大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。