本發(fā)明專利技術(shù)涉及一種個性化并行分詞處理系統(tǒng)及其處理方法。本發(fā)明專利技術(shù)包括分詞請求模塊、基于個性化分詞詞典的分詞模塊、基于總分詞詞典的分詞模塊、控制模塊、高速分詞處理模塊,用戶的分詞請求同時發(fā)送給基于個性化分詞詞典的分詞模塊和基于總分詞詞典的分詞模塊,基于個性化分詞詞典的分詞模塊如果命中,則將分詞處理結(jié)果通過控制模塊返回至分詞請求模塊,同時中斷分詞請求模塊對基于總分詞詞典的分詞模塊的分詞請求;否則,根據(jù)基于總分詞詞典的分詞模塊的分詞處理結(jié)果,通過控制模塊按照最早最少使用原則對個性化分詞詞典進行動態(tài)更新。本發(fā)明專利技術(shù)可在滿足分詞準(zhǔn)確率的同時極大地提高系統(tǒng)的分詞效率,滿足了移動用戶高效的查詢需求。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)屬于移動搜索和中文信息處理領(lǐng)域,具體涉及。
技術(shù)介紹
詞是具有一定語義的最小單位,所謂分詞,就是把一個句子按照其中詞的含義進行切分。由于自然語言理解與處理一般是基于詞匯進行,而中文文本在書面表達(dá)或計算機內(nèi)部表示時,是以字為基本書寫單位,詞與詞之間沒有明確的界限,因此,中文分詞是中文信息處理的基本環(huán)節(jié),也是文本分類、信息檢索、信息過濾、文獻(xiàn)自動標(biāo)引、摘要自動生成等中文信息處理中的關(guān)鍵技術(shù)及難點。衡量分詞算法性能的優(yōu)劣主要考慮以下幾個方面分詞的速度和準(zhǔn)確性、歧義識別、新詞識別、是否需要語料庫或規(guī)則庫、算法的復(fù)雜性、技術(shù)的成熟度和實施難度。目前常用的中文分詞算法概括起來分為四類基于詞典的字符串匹配分詞算法、基于統(tǒng)計的分詞算法、基于理解的分詞算法、組合分詞算法。其中,基于詞典的字符串匹配分詞算法是按照一定的策略將待分詞的漢字串與一個充分大的機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功,從而識別出一個詞。這類分詞算法處理簡單,分詞速度較快,效率較高,但分詞準(zhǔn)確性較差,而且對詞典結(jié)構(gòu)的依賴性非常強,詞典結(jié)構(gòu)的好壞往往直接影響到分詞的速度、詞典的空間利用率和維護詞典的開銷。基于統(tǒng)計的分詞算法認(rèn)為詞是穩(wěn)定的漢字的組合,在上下文中漢字與漢字相鄰共現(xiàn)的概率能較好地反映成詞的可信度,因此,對語料中相鄰共現(xiàn)的漢字的組合頻度進行統(tǒng)計,計算它們的統(tǒng)計信息(如詞頻、互信息、 七_(dá)測試差等)并用作分詞的依據(jù)。這類分詞算法分詞準(zhǔn)確性較高,分詞速度一般,但需要大規(guī)模語料庫的支持?;诶斫獾姆衷~算法是在分詞的同時進行句法和語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象,這類分詞算法需要使用大量語言知識和信息,分詞準(zhǔn)確性高,但分詞速度慢,算法復(fù)雜度大,很難實施。上述分詞算法在桌面系統(tǒng)和互聯(lián)網(wǎng)環(huán)境中已逐漸發(fā)展成熟,但未必完全適用于移動互聯(lián)網(wǎng)的巨大市場。隨著移動互聯(lián)網(wǎng)的發(fā)展,用戶使用移動終端在互聯(lián)網(wǎng)上獲取信息將成為大勢所趨。但在移動搜索中,客戶端對查詢實時性的要求較高,若采用上述基于詞典的字符串匹配分詞處理方式,會存在較大的查詢延遲,用戶查詢體驗較差。其次,用戶通過移動終端訪問網(wǎng)絡(luò)的現(xiàn)象通常集中在幾個特定時段,當(dāng)大量用戶同時進行移動搜索時,都需要先依賴詞典進行分詞處理,勢必大大增加分詞處理模塊在特定時段的負(fù)載,從而進一步增加查詢延遲,降低用戶體驗度。大量查詢歷史記錄表明,在一個確定的時間段內(nèi),移動用戶的查詢關(guān)鍵詞相對集中在一定范圍內(nèi),因此,可利用這種集中性為每個終端用戶單獨開辟一小塊存儲區(qū)域,存儲用戶歷史查詢內(nèi)容中包含的詞,形成一個針對用戶的個性化分詞詞典。在分詞過程中,同時基于單個用戶的個性化分詞詞典和所有用戶共用的總分詞詞典進行雙路并行分詞處理,可極大地提高用戶查詢內(nèi)容的分詞效率,有效地彌補了傳統(tǒng)的基于詞典的字符串匹配分詞技術(shù)應(yīng)用于移動搜索領(lǐng)域時表現(xiàn)出的不足。
技術(shù)實現(xiàn)思路
本專利技術(shù)所解決的技術(shù)問題是提出一種滿足移動搜索中用戶高效的查詢處理和個性化查詢需求,提高用戶的查詢體驗的個性化并行分詞處理系統(tǒng)及其處理方法。為解決上述的技術(shù)問題,本專利技術(shù)采取的技術(shù)方案一種個性化并行分詞處理系統(tǒng),其特殊之處在于包括分詞請求模塊、基于個性化分詞詞典的分詞模塊、基于總分詞詞典的分詞模塊、控制模塊、高速分詞處理模塊;分詞請求模塊是將用戶查詢內(nèi)容同步、并行發(fā)送至基于個性化分詞詞典的分詞模塊和基于總分詞詞典的分詞模塊進行分詞處理,同時接收控制模塊回送的分詞結(jié)果及開始下次分詞處理的相關(guān)觸發(fā)信息;基于個性化分詞詞典的分詞模塊是將用戶查詢內(nèi)容的子串與個性化分詞詞典中的詞條進行匹配,完成分詞處理過程,其中,個性化分詞詞典中存放用戶在一段時間內(nèi)的查詢關(guān)鍵詞,于用戶第一次使用時創(chuàng)建,隨著用戶的使用而逐漸增加詞條,詞條數(shù)目少;基于總分詞詞典的分詞模塊是將用戶查詢內(nèi)容的子串與總分詞詞典中的詞條進行匹配,完成分詞處理過程,其中,總分詞詞典中存放所有用戶共用的所有詞條,信息完善,詞條數(shù)量龐大;控制模塊用于同步兩個分詞模塊的處理過程,以及本次分詞處理結(jié)束后,控制模塊向分詞請求模塊回送分詞結(jié)果及觸發(fā)信息,觸發(fā)下次分詞處理過程;用戶的分詞請求經(jīng)分詞請求模塊同時發(fā)送至基于個性化分詞詞典的分詞模塊、基于總分詞詞典的分詞模塊,基于個性化分詞詞典的分詞模塊、基于總分詞詞典的分詞模塊的處理信息發(fā)送至控制模塊,控制模塊再將分詞結(jié)果及觸發(fā)信息會送至分詞請求模塊;基于個性化分詞詞典的分詞模塊、基于總分詞詞典的分詞模塊之間連接高速分詞處理模塊。一種個性化并行分詞處理方法,其特殊之處在于用戶的分詞請求同時發(fā)送給基于個性化分詞詞典的分詞模塊和基于總分詞詞典的分詞模塊,基于個性化分詞詞典的分詞模塊如果命中,則將分詞處理結(jié)果通過控制模塊返回至分詞請求模塊,同時中斷分詞請求模塊對基于總分詞詞典的分詞模塊的分詞請求;否則,根據(jù)基于總分詞詞典的分詞模塊的分詞處理結(jié)果,通過控制模塊按照最早最少使用原則對個性化分詞詞典進行動態(tài)更新。上述的個性化并行分詞處理方法,具體步驟如下步驟I:在基于個性化分詞詞典的分詞模塊中判斷接收到的用戶查詢詞是否存在于個性化分詞詞典中,若存在,則轉(zhuǎn)至步驟2,否則轉(zhuǎn)至步驟3 ;步驟2:更新個性化分詞詞典中命中的查詢詞的訪問頻率及最近訪問時間等相關(guān)信息,轉(zhuǎn)至步驟4;步驟3 :通過控制模塊將基于總分詞詞典的分詞模塊分詞處理所得到的詞條發(fā)送至基于個性化分詞詞典的分詞模塊,并將這些詞條添加至個性化分詞詞典中,并初始化其相關(guān)信息;若個性化分詞詞典已滿,則根據(jù)最早最少使用原則淘汰某些詞條;步驟4 :控制模塊將基于個性化分詞詞典的分詞模塊或基于總分詞詞典的分詞模塊反饋的當(dāng)前分詞結(jié)果及下次分詞處理開始位置信息返回至分詞請求模塊,開始下輪分詞處理過程。上述的個性化分詞詞典的動態(tài)更新方法,具體步驟如下步驟I :判斷詞條是否存在于個性化分詞詞典中,若存在,則執(zhí)行步驟2,否則執(zhí)行步驟3 ;步驟2 :將個性化分詞詞典中該詞條所對應(yīng)的訪問頻率增加1,執(zhí)行步驟6 ;步驟3 :判斷個性化分詞詞典容量是否已達(dá)到閾值,若是,則執(zhí)行步驟4,否則執(zhí)行步驟5 ;步驟4 :刪除個性化分詞詞典中訪問時間最早且訪問頻率最低的詞;步驟5 :將詞條添加至個性化分詞詞典中相應(yīng)位置,并將其訪問頻率初始化為1,同時用當(dāng)前時間初始化其最近訪問時間;步驟6 :處理完畢,完成一個詞條在個性化分詞詞典中的更新處理。與現(xiàn)有技術(shù)相比,本專利技術(shù)的有益效果本專利技術(shù)采用個性化分詞詞典進行分詞處理時,具備較高的命中率和分詞效率,而本專利技術(shù)提出的個性化并行分詞處理方法可在滿足分詞準(zhǔn)確率的同時極大地提高系統(tǒng)的分詞效率,滿足了移動用戶高效的查詢需求,同時,由于所述的個性化分詞詞典針對不同用戶,保存了用戶最近及訪問頻率最高的查詢詞,因此,無需學(xué)習(xí)即可通過該詞典直接獲取用戶的興趣所在,便于從中提取用戶興趣模型,同時也為用戶興趣遷移的挖掘提供了可靠的依據(jù)。具體實施方式下面對本專利技術(shù)作進一步地詳細(xì)說明。本專利技術(shù)的處理系統(tǒng)包括分詞請求模塊、基于個性化分詞詞典的分詞模塊、基于總分詞詞典的分詞模塊、控制模塊、高速分詞處理模塊。分詞請求模塊是將用戶查詢內(nèi)容同步、并行發(fā)送至基于個性化分詞詞典的分詞模塊和基于總分詞詞典的分詞模塊進行分詞處理,同時接收控制模塊回送的分詞結(jié)果及開始下次本文檔來自技高網(wǎng)...
【技術(shù)保護點】
一種個性化并行分詞處理系統(tǒng),其特征在于:包括分詞請求模塊、基于個性化分詞詞典的分詞模塊、基于總分詞詞典的分詞模塊、控制模塊、高速分詞處理模塊;分詞請求模塊是將用戶查詢內(nèi)容同步、并行發(fā)送至基于個性化分詞詞典的分詞模塊和基于總分詞詞典的分詞模塊進行分詞處理,同時接收控制模塊回送的分詞結(jié)果及開始下次分詞處理的相關(guān)觸發(fā)信息;基于個性化分詞詞典的分詞模塊是將用戶查詢內(nèi)容的子串與個性化分詞詞典中的詞條進行匹配,完成分詞處理過程;其中,個性化分詞詞典中存放用戶在一段時間內(nèi)的查詢關(guān)鍵詞,于用戶第一次使用時創(chuàng)建,隨著用戶的使用而逐漸增加詞條,詞條數(shù)目少;基于總分詞詞典的分詞模塊是將用戶查詢內(nèi)容的子串與總分詞詞典中的詞條進行匹配,完成分詞處理過程;其中,總分詞詞典中存放所有用戶共用的所有詞條,信息完善,詞條數(shù)量龐大;控制模塊用于同步兩個分詞模塊的處理過程,以及本次分詞處理結(jié)束后,控制模塊向分詞請求模塊回送分詞結(jié)果及觸發(fā)信息,觸發(fā)下次分詞處理過程;用戶的分詞請求經(jīng)分詞請求模塊同時發(fā)送至基于個性化分詞詞典的分詞模塊、基于總分詞詞典的分詞模塊,基于個性化分詞詞典的分詞模塊、基于總分詞詞典的分詞模塊的處理信息發(fā)送至控制模塊,控制模塊再將分詞結(jié)果及觸發(fā)信息回送至分詞請求模塊;基于個性化分詞詞典的分詞模塊、基于總分詞詞典的分詞模塊之間連接高速分詞處理模塊。...
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王忠民,賀炎,齊靜娜,張榮,宋輝,范琳,
申請(專利權(quán))人:西安郵電大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。