• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>浙江大學專利>正文

    一種應用于社區發現的可覆蓋聚類算法制造技術

    技術編號:8105809 閱讀:198 留言:0更新日期:2012-12-21 04:41
    本發明專利技術公開了一種應用于社區發現的可覆蓋聚類算法,首先在得到原始數據之后,將其轉化為“用戶——屬性圖”。在初始化?候選子圖之后,對“用戶——屬性圖”中的行為進行初步的分類,其次,計算出每個候選子圖的占優屬性;同時計算出每個用戶和各個候選子圖之間的相關性。之后,建立概率統計模型,計算每個“用戶——屬性”對和候選子圖之間的相關性。對候選子圖進行迭代構造,運行到可以得到穩定而有效的候選子圖結構為止。最后,根據數據環境中的這些候選子圖的建立,對于數據中的各個“用戶——屬性圖”對進行合理的分類,發現擁有多種屬性的關鍵用戶。本發明專利技術用于同時處理內容性數據和相關性數據,更好的適應真實網絡環境中的社區發現需求。

    【技術實現步驟摘要】

    本專利技術屬于網絡信息
    ,特別地涉及一種應用于社區發現基于內容性數據和相關性數據的可覆蓋聚類算法。
    技術介紹
    隨著互聯網技術的發展,各種新型的網絡應用層出不窮,日益豐富了網絡用戶的虛擬社交行為。進而,互聯網和用戶之間早已不是像信息發布端和信息接收端這種簡單而直接的關系,互聯網已構成了向用戶提供生產生活的密不可分的另一個世界——“虛擬社會網絡”,并且用戶也更加積極和主動地融入進這個新的社會平臺中。比如,用戶會提出自己特定的觀點,用戶會自發形成討論組,而網絡公司則針對用戶群體進行差異化的營銷。為了能有效和深入地研究虛擬社會網絡這一新型的互聯網的表現形式,大量的研究者們對于網絡中的“社區發現”這一問題進行了大量的工作?!吧鐓^發現”這一名詞中的社區指的是網絡中具有相同行為特性的用戶的集合,從微觀上來看集合內的用戶之間,相比于集合外存在大量的信息交互、行為合作;而從宏觀上來看,集合往往自身具有相似的興趣傾向,并對社會事件有相似的觀點或理解。于是,“社區發現”具體是指通過科學的數學建模和高效的大規模計算方法從社會網絡中找出大量的潛在的社區或社區結構,即為用戶形成的類?!吧鐓^發現”有著廣泛的社會應用,比如發現不同的用戶群體進而實現差別化的廣告投放,或是依照用戶所在社區的不同特點對用戶進行相應不同的信用評分。傳統的社區發現算法,大多假設網絡中的每一個用戶只能屬于單一的社區;或者認為每個用戶在網絡中地位或作用是平等的。因此,發展一種新型的契合目前復雜數據環境的聚類方法迫在眉睫。目前發展的可覆蓋的社區發現方法,其重視網絡中的核心用戶的作用,認為這些核心用戶可以從屬于多個社區。于是,這種可覆蓋的社區發現方法就很好的突破傳統方法的局限性,并且可以更有效地展示出社會網絡潛在的社區結構。但目前的可覆蓋社區發現方法或聚類方法,存在以下問題(1)目前的可覆蓋社區發現方法或聚類方法的數據應用環境單一,只能處理內容性數據或只能處理相關性數據。(2) —般來說,傳統社區發現方法只是僅僅將網絡中的用戶作為社會網絡中的主體,這就潛在的造成了平等的對待每個用戶這一假定,因為這時每個用戶的權重值都相等。
    技術實現思路
    為解決上述問題,本專利技術的目的在于提供一種應用于社區發現的可覆蓋聚類算法,用于同時處理內容性數據和相關性數據,更好的適應真實網絡環境中的社區發現需求。為實現上述目的,本專利技術的技術方案為—種應用于社區發現的可覆蓋聚類算法,包括以下步驟步驟1,給出所需要的數據輸入,具體包括以下子步驟,步驟11,設立數據環境中的用戶集合為U = (U1, u2, U3......%},—共有N個;設立數據環境中的屬性集合為A= {a1; a2, a3......aM}, —共有M個;用Ui — a」代表第i個用戶擁有第j個屬性;步驟12,用屬性矩陣E代表用戶和屬性之間的關系,即為內容性數據,在數據環境中,定義權利要求1.一種應用于社區發現的可覆蓋聚類算法,其特征在于,包括以下步驟 步驟1,給出所需要的數據輸入,具體包括以下子步驟, 步驟11,設立數據環境中的用戶集合為U= K, u2, U3,......%},一共有N個;設立數據環境中的屬性集合為A = {a1; a2, a3,......aM}, 一共有M個;用Ui — a」代表第i個用戶擁有第j個屬性; 步驟12,用屬性矩陣E代表用戶和屬性之間的關系,即為內容性數據,在數據環境中,定義E e Rnxm, eiJ e {O,1},I彡i彡N,I彡j彡M,當叫=I時,表示第i個用戶擁有第j個屬性,eiJ = O時,表示第i個用戶不擁有第j個屬性; 步驟13,用鄰接矩陣W來代表用戶和用戶之間的關系,即為相關性數據,在數據環境中,定義W e RnxnjWij彡O,I彡i彡N,I彡j彡N7Wij的大小代表了第i個用戶和第j個用戶之間的關系緊密度; 步驟2,建立候選子圖,分為以下子步驟, 步驟21,建立“用戶——屬性圖”,“用戶——屬性圖”是建立同時具有內容性數據和相關性數據基礎上的數據結構,按照所述步驟I的定義可以表示為G= (U,A,W,E),其中U是數據環境中用戶的集合,A是數據環境中屬性的集合,W代表了用戶和用戶之間的相關性的度量,而E代表了用戶和屬性之間的關聯性質, 步驟22,在給出所述“用戶——屬性圖”的基礎上,一系列候選子圖被定義為Si = (Ui,Ai, Wi, Ei),其中i e {1,2,..., L},每一個候選子圖實際上為“用戶——屬性圖”的部分結構,并且所有的候選子圖的用戶的總和即是原有數據環境中的所有用戶總和;各個候選子圖不會占有同一個用戶; 步驟3,評估候選子圖,建立起測量用戶或屬性和這些候選子圖之間相關性的準則, 步驟31,度量屬性和候選子圖之間的相關性 η( ο\ I “—(々(φ Η/)) f°r ii-pGfar other 在上式中HaiIS1)是一種度量屬性和候選子圖之間相關性的核心技術;t是一個門限參數,它是由所有屬性與候選子圖做相關性測量后,再取均值所得到的出是一個歸一化參數;Xa是一個控制參數,而Pa是一較小的正常數,如果屬性和該候選子圖的相關性較高,那么該屬性從屬于該子圖的概率也就很高,并和相關性成指數關系,反之該屬性從屬的概率就很小,并取一個較小的正常數P ; 步驟32,度量用戶和候選子圖的相關性 采用一種馬爾科夫隨機場的變形來測量用戶和候選子圖之間的相關性,具體的測量準則如下所示 ,ι。、I flog% f°r '. Q|S/) = --rx{ Iv ^jJ公式 2Tl. pnfor other 上中H是一個歸一化參數,Νω是用戶Ui所有鄰居用戶的集合;λ η是一個控制參數,而Pn是一個正常數; 步驟33,度量“用戶——屬性”對和候選子圖的相關性在分別定義好屬性和用戶與候選子圖的相關性之后,建立起度量“用戶一屬性”對和候選子圖之間的相關性,具體如下所示 P (Ui — Eij I S1) P (Ui I S1) P (aj I S1)公式 3 步驟4,可覆蓋社區發現 步驟41,通過建立概率統計模型來求解具有可覆蓋性的社區,先假設用戶和屬性是已知的變量,而候選子圖是隱藏的變量s =,因此,每一個“用戶——屬性”對可以在概率上從屬于多個候選子圖,于是可以用下面的公式來描述“用戶——屬性”對,2.根據權利要求I所述的應用于社區發現的可覆蓋聚類算法,其特征在于,所述步驟31前進一步包括以下步驟, 具體定義HailS1)為,全文摘要本專利技術公開了一種應用于社區發現的可覆蓋聚類算法,首先在得到原始數據之后,將其轉化為“用戶——屬性圖”。在初始化 候選子圖之后,對“用戶——屬性圖”中的行為進行初步的分類,其次,計算出每個候選子圖的占優屬性;同時計算出每個用戶和各個候選子圖之間的相關性。之后,建立概率統計模型,計算每個“用戶——屬性”對和候選子圖之間的相關性。對候選子圖進行迭代構造,運行到可以得到穩定而有效的候選子圖結構為止。最后,根據數據環境中的這些候選子圖的建立,對于數據中的各個“用戶——屬性圖”對進行合理的分類,發現擁有多種屬性的關鍵用戶。本專利技術用于同時處理內容性數據和相關性數據,更好的適應真實網絡環境中的社區發現需本文檔來自技高網
    ...

    【技術保護點】
    一種應用于社區發現的可覆蓋聚類算法,其特征在于,包括以下步驟:步驟1,給出所需要的數據輸入,具體包括以下子步驟,步驟11,設立數據環境中的用戶集合為U={u1,u2,u3,......uN},一共有N個;設立數據環境中的屬性集合為A={a1,a2,a3,......aM},一共有M個;用ui→aj代表第i個用戶擁有第j個屬性;步驟12,用屬性矩陣E代表用戶和屬性之間的關系,即為內容性數據,在數據環境中,定義E∈RN×M,eij∈{0,1},1≤i≤N,1≤j≤M,當eij=1時,表示第i個用戶擁有第j個屬性,eij=0時,表示第i個用戶不擁有第j個屬性;步驟13,用鄰接矩陣W來代表用戶和用戶之間的關系,即為相關性數據,在數據環境中,定義W∈RN×N,Wij≥0,1≤i≤N,1≤j≤N,wij的大小代表了第i個用戶和第j個用戶之間的關系緊密度;步驟2,建立候選子圖,分為以下子步驟,步驟21,建立“用戶——屬性圖”,“用戶——屬性圖”是建立同時具有內容性數據和相關性數據基礎上的數據結構,按照所述步驟1的定義可以表示為G=(U,A,W,E),其中U是數據環境中用戶的集合,A是數據環境中屬性的集合,W代表了用戶和用戶之間的相關性的度量,而E代表了用戶和屬性之間的關聯性質,步驟22,在給出所述“用戶——屬性圖”的基礎上,一系列候選子圖被定義為Si=(Ui,Ai,Wi,Ei),其中i∈{1,2,...,L},每一個候選子圖實際上為“用戶——屬性圖”的部分結構,并且所有的候選子圖的用戶的總和即是原有數據環境中的所有用戶總和;各個候選子圖不會占有同一個用戶;步驟3,評估候選子圖,建立起測量用戶或屬性和這些候選子圖之間相關性的準則,步驟31,度量屬性和候選子圖之間的相關性p(ai|Sl)=1Hi×exp(λa(r(ai|Sl)-tl))forr(ai|Sl)≥tlpaforother公式1在上式中r(ai|S1)是一種度量屬性和候選子圖之間相關性的核心技術;t是一個門限參數,它是由所有屬性與候選子圖做相關性測量后,再取均值所得到的;H是一個歸一化參數;λa是一個控制參數,而pa是一較小的正常數,如果屬性和該候選子圖的相關性較高,那么該屬性從屬于該子圖的概率也就很高,并和相關性成指數關系,反之該屬性從屬的概率就很小,并取一個較小的正常數p;步驟32,度量用戶和候選子圖的相關性采用一種馬爾科夫隨機場的變形來測量用戶和候選子圖之間的相關性,具體的測量準則如下所示:公式2上中H是一個歸一化參數,N(i)是用戶ui所有鄰居用戶的集合;λn是一個控制參數,而pn是一個正常數;步驟33,度量“用戶——屬性”對和候選子圖的相關性在分別定義好屬性和用戶與候選子圖的相關性之后,建立起度量“用戶——屬性”對和候選子圖之間的相關性,具體如下所示:p(ui→aj|Sl)∞p(ui|Sl)p(aj|Sl)????????????????????????????公式3步驟4,可覆蓋社區發現步驟41,通過建立概率統計模型來求解具有可覆蓋性的社區,先假設用戶和屬性是已知的變量,而候選子圖是隱藏的變量s={s1}L1=1,因此,每一個“用戶——屬性”對可以在概率上從屬于多個候選子圖,于是可以用下面的公式來描述“用戶——屬性”對,p(ui→aj)=p(eij)=Σl=1Lπlp(eij|sl=1)公式4上式中的π代表了每個候選子圖的權重。步驟42,采用EM算法來最大化似然函數p(E|π)基于π,于是基于完整數據集{E,S},定義似然函數如下:p(E,S|π)=Πi=1NΠj=1MΠl=1Lp(eij,sl)wij公式5=Πi=1NΠj=1MΠl=1L(πsijlp(eij|sl=1)sijl)wij在上式中,sij1代表sij的第1個成分,為了方便推導公式,將上式轉移成log形式,lnp(E,S|π)=Σi=1NΣj=1MΣl=1Lwijsijl{lnπl+lnp(eij|sl=1)}公式6(3)給出了基于EM算法的公式推導。E步:對于候選子圖的后驗概率推導,可以由下式表達:lnp(E,S|π)∝Πi=1NΠj=1MΠl=1L[πlp(eij|sl)]sijl公式7之后,求取sij1的期望值,具體的推導如下:E[sijl]=Σsijl...

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:何周舟,張仲非飛利浦余,
    申請(專利權)人:浙江大學,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码人妻AV一二区二区三区| 无码毛片内射白浆视频| 日日摸夜夜添无码AVA片| 国产成人无码a区在线观看视频免费| 日本精品无码一区二区三区久久久| 无码人妻丰满熟妇区毛片18| 国产成人午夜无码电影在线观看| 亚洲精品GV天堂无码男同 | 亚洲乱人伦中文字幕无码| 日韩经典精品无码一区| 久久精品成人无码观看56| 丰满亚洲大尺度无码无码专线| 成人无码WWW免费视频| 日本精品无码一区二区三区久久久 | 中文字幕无码av激情不卡| 无码亚洲成a人在线观看| 久久亚洲精品无码aⅴ大香 | 无码国内精品久久人妻| 在线观看免费无码视频| 特级毛片内射www无码| av无码国产在线看免费网站| 亚洲韩国精品无码一区二区三区| 午夜亚洲av永久无码精品 | 精品人妻无码专区在中文字幕| 亚洲日韩国产精品无码av| 亚洲熟妇无码八AV在线播放| 国产精品午夜福利在线无码| 人妻丰满熟妇A v无码区不卡| 一区二区无码免费视频网站| 精品久久久久久无码专区不卡| 亚洲AV无码成人网站久久精品大| 丰满少妇人妻无码| 极品粉嫩嫩模大尺度无码视频| 日韩av片无码一区二区三区不卡 | 中文字幕无码无码专区| 国产成人无码一二三区视频| 中出人妻中文字幕无码| 无码人妻精品中文字幕免费| 无码人妻精品一区二区在线视频| 人妻无码一区二区三区AV| 久久精品国产亚洲AV无码娇色|