• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于自動閾值魚群算法的文本聚類方法技術

    技術編號:8765579 閱讀:235 留言:0更新日期:2013-06-07 22:52
    本發明專利技術公開了一種基于自動閾值魚群算法的文本聚類方法,通過計算文本特征向量的相似度矩陣,采用相似度矩陣的每行元素獲得每個文本的初始等價劃分閾值,從而對文本進行初始等價劃分,進而確定初始聚類數目和初始聚類中心;結合采用人工魚群算法,根據全局最優和局部最優信息更新每條人工魚的狀態,以尋找全局最優聚類中心,對初始聚類結果再聚類。由于采用自動獲取閾值的方法得到初始聚類數目和初始聚類中心,并通過人工魚群算法尋找全局最優聚類中心,本發明專利技術克服了傳統聚類方法對初值敏感、僅依靠局部數據特性等弊端,可提高文本聚類的準確度與智能性。

    【技術實現步驟摘要】

    【技術保護點】
    一種基于自動閾值魚群算法的文本聚類方法,其特征在于包括以下步驟:(1)、對N個文本對象進行預處理,包括中文分詞、去停用詞、詞頻統計、特征項提取、文本向量化,得到文本對象的特征向量:xi=Σr=1Rlr,iar;(2)、根據N個文本對象的特征向量計算每個文本對象的初始等價劃分閾值Thi,確定初始聚類數目和初始聚類中心:2.1)、計算文本對象的相似度矩陣S:其中,sim(xi,xj),1≤i≤N,1≤j≤N表示文本對象xi、xj之間的相似度;2.2)、將相似度矩陣S的每行元素按相似度從大到小排序,得到排序后的相似度矩陣S′:其中,sim(xi,xj′),1≤j′≤N表示經排序后文本對象xi與xj′之間的相似度;初始等價劃分閾值Thi的計算公式為:Thi={sim(xi,xj′)|Maxj′[sim(xi,xj′)-sim(xi,xj′+1)]},j′∈{1,2...,N-1}2.3)、根據相似度矩陣S和初始等價劃分閾值Thi計算每個文本的初始等價劃分Ri:Ri={{Pi},{U?Pi}}其中,Pi={xjsim(xi,xj)≥Thi},U={x1,x2,…,xi,…,xN};2.4)、根據每個文本的初始等價劃分Ri進行初始聚類,得到初始聚類結果 CR:CR=R1∩R2∩…∩Ri∩…∩RN={c1,c2,…,cK}其中,ck,1≤k≤K表示初始聚類結果中的一個類,K為初始聚類數目,將ck中所有文本對象特征向量的平均值作為初始第k類的聚類中心xck,初始聚類中心xck的計算公式為:xck=Σr=1Rlr,k‾ar其中p表示ck類中文本對象的個數,lr,s表示ck類中第s,1≤s≤pk個文本對象特征向量中第r個特征項的權值,是ck類中的所有文本對象特征向量中第r個特征項的權值之和;(3)、采用人工魚群算法對步驟(2)得到的初始聚類結果進行再聚類:3.1)、設置人工魚條數Total與各人工魚的初始狀態,第m條人工魚的狀態Qm,m=1,2,…,Total為數據空間中的向量,其形式與文本對象的特征向量一致;設置最大重復嘗試次數TryNumber、最大迭代次數IT、將K個初始聚類中心作為初始全局最優人工魚狀態Qbest_af,k,1≤k≤K;3.2)、對人工魚狀態進行迭代更新:在第t,1≤t≤IT次迭代更新時,依次對每條人工魚狀態進行更新,第m條人工魚的狀態為計算其適應度值Ymt=num(Qmt)π*Visual2其中,表示迭代次數為t時第m條人工魚的適應度值,表示迭代次數為t時第m條人工魚視野范圍內的文本對象個數;此時前m?1條人工魚已完成狀態更新,即當前時刻其狀態為當前時刻全局最優人工魚狀態記為其中離人工 魚距離最近的全局最優人工魚狀態記為第m條人工魚分別模擬執行以下三種行為:a.覓食行為:在第m條人工魚視野范圍內隨機選擇一個狀態若則第m條人工魚向和的向量方向前進一步:Qmt+1=Qmt+((Qnt-Qmt)+(Qnear,mt-Qmt)||(Qnt-Qmt)+(Qnear,mt-Qmt)||)·Step·Rand()其中,Rand()是一個介于0和1之間的隨機數;反之,則更新隨機選擇狀態判斷是否滿足前進條件;如果重復嘗試次數達到TryNumber次后仍不滿足條件,則第m條人工魚隨機移動一步:Qmt+1=Qmt+Visual·Rand()b.聚群行為在當前時刻的所有人工魚狀態中,計算第m條人工魚視野范圍內的人工魚同伴數目同伴中心為及其視野范圍內同伴的狀態的平均值,同伴中心的適應度值為若則第m條人工魚向和的向量方向前進一步:Qmt+1=Qmt+((Qc,mt-Qmt)+(Qnear,mt-Qmt)||(Qc,mt-Qmt)+(Qnear,mt-Qmt)||)·Step·Rand();否則第m條人工魚再重新執行一次覓食聚群行為;c.追尾行為:在當前時刻的所有人工魚狀態中,比較第m條人工魚視野范圍內各人工魚同伴的適應度值,找到適應度最大值及其對應的同伴狀態若則第m條人工魚向和的向量方向前進一步:Qmt+1=Qmt+((Qmax,mt-Qmt)+(Qmear,mt-Qmt)||(Qmax,mt-Qmt)+(Qmear,mt-Qmt)||)·Step·Rand()否則第m條人工魚再重新...

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:孫健梁雪芬徐杰隆克平艾麗麗周云龍唐明王曉麗
    申請(專利權)人:電子科技大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品人妻无码专区中文字幕| 亚洲人成影院在线无码观看 | 高清无码午夜福利在线观看| 色综合AV综合无码综合网站| 无码VA在线观看| 无码毛片一区二区三区中文字幕| 亚洲人成无码网站| 亚洲AV成人无码久久WWW| 免费看成人AA片无码视频吃奶| 久久国产精品无码HDAV| 国产精品亚洲专区无码不卡| 亚洲综合无码一区二区三区| 久久久精品无码专区不卡| 无码人妻精品一区二区三区99性 | 国产精品爆乳奶水无码视频| 亚洲AV无码AV男人的天堂| 一本大道无码人妻精品专区| av无码国产在线看免费网站| 13小箩利洗澡无码视频网站免费 | 亚洲AV无码AV男人的天堂| 办公室丝袜激情无码播放| 人妻丰满熟妇AV无码区| 无码国产精品一区二区免费3p| 久久亚洲国产成人精品无码区| 色综合热无码热国产| 无码夫の前で人妻を犯す中字| 无码精品国产一区二区三区免费| 亚洲精品无码你懂的网站| 国产AV无码专区亚洲AV麻豆丫| 亚洲中文无码mv| 在线观看亚洲AV每日更新无码| 精品无码一区二区三区爱欲九九 | 无码免费午夜福利片在线 | 无码一区二区三区| 亚洲AV无码一区东京热久久 | 久久国产亚洲精品无码 | 国产AⅤ无码专区亚洲AV | 国产精品99久久久精品无码| 亚洲不卡无码av中文字幕| 波多野42部无码喷潮在线| 日韩精品无码人成视频手机|