• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種用于確定同義文本的方法和裝置制造方法及圖紙

    技術編號:8453067 閱讀:207 留言:0更新日期:2013-03-21 17:22
    本發明專利技術提供一種用于確定同義文本的方法和裝置。本發明專利技術對待處理的文本序列進行切詞,獲得至少一個文本片段;并根據所述至少一個文本片段,在所述文本序列的候選同義序列中進行查詢,獲得包含所述至少一個文本片段或其同義詞中的一個或多個的候選同義序列;并從所述候選同義文本中選擇所述文本序列的同義文本。與現有技術相比,本發明專利技術能夠獲得現有技術中難以召回的待處理文本序列的同義詞,并能較好地提高待處理文本序列的同義詞判斷準確性。

    【技術實現步驟摘要】

    本專利技術涉及計算機
    ,尤其涉及一種用于確定同義文本的方法和裝置
    技術介紹
    當用戶在互聯網上進行搜索時,很有可能會采用不同名稱來表達同一個搜索對象;例如,對于應用“where is my water”,用戶在搜索時可能采用“鱷魚愛洗澡”、“鱷魚愛沖涼”、“鱷魚小頑皮”等名稱來對其進行搜索;又例如,用戶所搜索的“掌上百度”和“掌百” 可能為同一搜索對象等。因此,搜索技術中需要識別這些名稱不同,但表示同一搜索對象的文本序列。現有技術中存在的識別表示同一搜索對象的文本序列的方式包括I)由人工進行識別和標記;2)通過語義上的同義詞識別,如識別出“洗澡”和“沖涼”為語義上的同義詞等,來識別表示同一搜索對象的文本序列。然而,人工識別和標記的方式滯后性大、且能夠識別的搜索對象有限,人工成本也較高;語義識別的識別率低,例如,對于一些語義上差別極大,但仍表示同一搜索對象的文本序列,則無法識別;并且,上述兩種方式均具有覆蓋面低的問題。
    技術實現思路
    本專利技術的目的是提供一種用于確定同義文本的方法和裝置。根據本專利技術的一個方面,提供了一種用于建立或更新候選同義序列庫的方法,其中,該方法包括以下步驟A將待處理的文本序列的第一搜索結果與其待挖掘序列的第二搜索結果進行匹配;其中,該方法還包括以下步驟X當所述匹配的結果符合第一預定條件時,根據所述待挖掘序列建立或更新所述待處理的文本序列的候選同義序列庫;其中,所述第一預定條件包括所述第一搜索結果與所述第二搜索結果包含至少一個相同的搜索結果項。根據本專利技術的另一個方面,還提供了一種用于確定同義文本的方法,其中,該方法包括以下步驟a對待處理的文本序列進行切詞,獲得至少一個文本片段;b根據所述至少一個文本片段,在所述文本序列的候選同義序列庫中進行查詢,獲得包含所述至少一個文本片段或其同義詞中的一個或多個的候選同義序列,作為所述文本序列的候選同義文本,其中,基于所述文本序列所得的歷史搜索結果與基于所述候選同義序列所得的歷史搜索結果的匹配結果符合第一預定條件;c從所述候選同義文本中選擇所述文本序列的同義文本;6其中,所述第一預定條件包括所述第一搜索結果與所述第二搜索結果包含至少一個相同的搜索結果項。根據本專利技術的另一個方面,還提供了一種用于建立或更新候選同義序列庫的更新裝置,其中,該更新裝置包括匹配裝置,用于將待處理的文本序列的第一搜索結果與其待挖掘序列的第二搜索結果進行匹配;庫更新裝置,用于當所述匹配的結果符合第一預定條件時,根據所述待挖掘序列建立或更新所述待處理的文本序列的候選同義序列庫;其中,所述第一預定條件包括所述第一搜索結果與所述第二搜索結果包含至少一個相同的搜索結果項。根據本專利技術的另一個方面,還提供了一種用于確定同義文本的同義文本確定裝置,其中,該同義文本確定裝置包括切詞裝置,用于對待處理的文本序列進行切詞,獲得至少一個文本片段;查詢裝置,用于根據所述至少一個文本片段,在所述文本序列的候選同義序列庫中進行查詢,獲得包含所述至少一個文本片段或其同義詞中的一個或多個的候選同義序列,作為所述文本序列的候選同義文本,其中,基于所述文本序列所得的歷史搜索結果與基于所述候選同義序列所得的歷史搜索結果的匹配結果符合第一預定條件;第一選擇裝置,用于從所述候選同義文本中選擇所述文本序列的同義文本;其中,所述第一預定條件包括所述第一搜索結果與所述第二搜索結果包含至少一個相同的搜索結果項。與現有技術相比,本專利技術具有以下優點1)能夠獲取在各自的搜索結果中均被用戶點擊的搜索結果項來建立關聯的待處理文本序列及其候選同義序列,并進一步通過多種方式判斷各個候選同義序列是否的確為待處理的文本序列的同義文本,從而能夠獲得現有技術中難以召回的待處理文本序列的同義詞,并能較好地提高待處理文本序列的同義詞判斷準確性;2)能夠對待處理的文本序列及其同義文本進行整理,確保兩者的統一性;3)通過基于所請求搜索的文本序列及其同義文本進行搜索,能夠獲得單純基于文本序列進行搜索難以獲得且實際可能為用戶所需的搜索結果項;4)由于若一個搜索結果項出現在兩個文本序列的搜索結果中,則可認為盡管用戶輸入了不同的文本序列,但其希望搜索的對象是相同或相似的,本專利技術據此來挖掘一個文本序列的候選同義序列,能夠獲得基于現有技術的方案難以召回的候選同義序列;5)更進一步的,若一個搜索結果項不僅出現在兩個文本序列的搜索結果中,還均被用戶點擊,則可認為用戶可能認為該兩個文本序列是相同或相似的,本專利技術據此進一步來挖掘一個文本序列的候選同義序列,能夠獲得基于現有技術的方案難以召回的候選同義序列;6)由于在兩個搜索結果中均被用戶點擊的次數、頻率等越高,其且均被用戶點擊的搜索結果項的數量越多,則用戶認為該兩個搜索結果項指向同一搜索對象的可能性越大,據此,本優選方案還能夠基于均被用戶點擊的搜索結果項的點擊信息,進一步篩選候選同義序列。附圖說明通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本專利技術的其它特征、目的和優點將會變得更明顯圖I為本專利技術一個優選實施例的用于確定同義文本的方法流程圖2為本專利技術一個優選實施例的用于建立或更新候選同義序列庫的方法流程圖3為本專利技術一個優選實施例的用于確定同義文本的確定裝置的結構示意圖4為本專利技術一個優選實施例的用于建立或更新候選同義序列庫的更新裝置的結構示意圖。附圖中相同或相似的附圖標記代表相同或相似的部件。具體實施方式下面結合附圖對本專利技術作進一步詳細描述。圖I為本專利技術一個優選實施例的用于確定同義文本的方法流程圖。根據本實施例的方法包括步驟SI、步驟S2和步驟S3。其中,本實施例的方法主要通過計算機設備來實現; 所述計算機設備包括但不限于網絡設備或用戶設備;所述網絡設備包括但不限于單個網絡服務器、多個網絡服務器組成的服務器組或基于云計算(Cloud Computing)的由大量計算機或網絡服務器構成的云,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機;所述用戶設備包括但不限于PC機、平板電腦等;所述計算機設備所處的網絡包括但不限于互聯網、廣域網、城域網、局域網、VPN網絡等。需要說明的是,所述計算機設備和網絡僅為舉例,其他現有的或今后可能出現的計算設備或網絡如可適用于本專利技術,也應包含在本專利技術保護范圍以內,并以引用方式包含于此。在步驟SI中,計算機設備對待處理的文本序列進行切詞,獲得至少一個文本片段。其中,所述待處理的文本序列包括任何需要確定其同義文本的文本序列;優選地, 所述待處理的文本序列包括網絡資源名稱,該網絡資源名稱包括網絡中能夠獲得的任何資源的名稱,如應用名稱、音視頻名稱等;更優選地,所述待處理的文本序列包括應用名稱。其中,計算機設備獲得待處理的文本序列的方式包括但不限于I)計算機設備獲取已預存儲的待處理的文本序列;如已預存儲在計算機設備或其他設備中的文本序列等;2)計算機設備實時獲取來自用戶的搜索序列,作為待處理的文本序列等。其中,計算機設備可采用多種方式來對待處理的文本序列進行切詞,獲得其至少一個文本片段。例如,計算機設備根據詞典,對待處理的文本序列“小頑皮愛沖涼”進行切詞,獲得該待處理的文本序列的3個文本片段“小頑皮”、“愛”以及“沖涼”。需要說明的是,上述舉例僅為更好地說明本文檔來自技高網...

    【技術保護點】
    一種用于建立或更新候選同義序列庫的方法,其中,該方法包括以下步驟:A將待處理的文本序列的第一搜索結果與其待挖掘序列的第二搜索結果進行匹配;其中,該方法還包括以下步驟:X當所述匹配的結果符合第一預定條件時,根據所述待挖掘序列建立或更新所述待處理的文本序列的候選同義序列庫;其中,所述第一預定條件包括所述第一搜索結果與所述第二搜索結果包含至少一個相同的搜索結果項。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:劉欽
    申請(專利權)人:百度在線網絡技術北京有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲日韩精品无码专区加勒比 | 国产精品无码无卡无需播放器 | 日韩无码系列综合区| 亚洲无码视频在线| 国产aⅴ无码专区亚洲av| 亚洲AV综合色区无码一二三区| HEYZO无码中文字幕人妻| 久久亚洲精品AB无码播放 | 国产成人无码AⅤ片在线观看| 久久久久无码精品国产不卡| 久99久无码精品视频免费播放 | 精品久久久久久无码中文野结衣 | 精品无码久久久久久久久水蜜桃 | 精品少妇人妻av无码久久| 狠狠躁狠狠爱免费视频无码| 亚洲AV日韩AV无码污污网站| 亚洲AV无码不卡无码| 国产AV无码专区亚洲AWWW | 亚洲AV无码成人精品区大在线| 久久精品无码午夜福利理论片| 亚洲精品无码久久久| 精品一区二区三区无码免费直播| 毛片无码免费无码播放| 亚洲AV无码精品色午夜果冻不卡| 成在人线av无码免费高潮水| 亚洲日韩精品无码专区加勒比| 亚洲精品无码永久在线观看你懂的| av无码久久久久不卡免费网站| 无码人妻少妇色欲AV一区二区| 亚洲成?v人片天堂网无码| 亚州AV综合色区无码一区| 亚洲AV无码一区二区二三区软件| 内射人妻无码色AV天堂| 日韩人妻精品无码一区二区三区 | 亚洲国产a∨无码中文777| 18禁免费无码无遮挡不卡网站| 高潮潮喷奶水飞溅视频无码| 久久久g0g0午夜无码精品| 真人无码作爱免费视频| 亚洲的天堂av无码| 人妻av无码一区二区三区|