本發明專利技術公開了一種手機網絡檢索用語簡稱-全稱轉換識別方法及裝置,所述轉換識別方法包括步驟:將輸入的簡稱分解為由一個一個單字組成的單字串;從一全稱數據庫中找出含有所述單字串中所有單字的全稱串,如果找不到所述全稱串,則輸出沒有匹配的全稱;對找到的候選全稱串,分別按照相關度公式進行評分,并將最大評分值所對應的候選全稱串作為該簡稱所對應的全稱進行輸出。本發明專利技術的轉換識別方法,兼顧了準確率和處理速度。
【技術實現步驟摘要】
本專利技術涉及數據檢索
,尤其與一種手機網絡檢索用語簡稱-全稱轉換識別方法及一種手機網絡檢索用語簡稱-全稱轉換識別裝置有關。
技術介紹
在日常交流和書面寫作中,根據人們日常的思維習慣和語言習慣,人們經常使用縮略語來指代一個名稱較長的實體名稱,如用“北工大”來指代“北京工業大學”。特別隨著手機上網越來越普及,網絡查詢功能也越來越多地被廣泛應用。但是,手機不像計算機具有操作屏幕大、查看方便、書寫方便的特點,用戶更希望通過詞語縮略語的查詢來獲得自己需要的信息。因此,一種用手機網絡用語簡稱來識別其全稱的方法與裝置就顯得非常有必要。全稱(F)是對實體或對象的名稱的完整稱呼,簡稱(A)是為了表達的簡潔明快,而對全稱進行精簡壓縮后得到的稱呼,若F和A具有全簡稱關系,則稱F為A的全稱,A為F的簡稱。簡稱處理問題就是對給定的一個簡稱A,設法了解它的全稱。簡稱處理問題已經成為自然語言處理、信息檢索等應用中一個基本而又關鍵的問題。自然語言處理是計算機科學領域與人工智能領域中的一個重要問題。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。隨著計算機和互聯網的廣泛應用,計算機可處理的自然語言文本數量空前增長,面向海量信息的文本挖掘、信息提取、跨語言信息處理、人機交互等應用需求急速增長,自然語言處理的對象也從小規模受限語言處理轉向大規模真實文本處理,其研究必將對人們的生活產生深遠的影響。信息檢索,研究如何從紛繁復雜的大量信息中,快速、準確獲取所需信息的技術。信息檢索技術經過多年的發展,目前已經相當成熟,新型信息檢索技術正朝智能化、動態化、多樣化、個性化等方向發展。解決網絡用語檢索的簡稱處理問題的方法可以分為兩大類一類是基于模式的方法,主要利用語言學和自然語言處理技術,通過詞法分析和語法分析提取關系模式,然后利用模式匹配獲取全簡稱關系,但該方法準確率難以達到理想的實用要求;另一類是基于統計的方法,主要基于語料庫和統計語言模型,通過計算概念之間的關聯度來獲取全簡稱關系,該方法準確率雖高,但不能滿足超大規模獲取。而其他一些處理全簡稱問題的方法,處理速度不高,難以應用于搜索引擎這樣的實時系統中。
技術實現思路
針對現有技術中存在的問題,本專利技術的目的在于提供一種手機網絡檢索用語簡稱-全稱轉換識別方法,以解決現有技術手機網絡檢索用語簡稱-全稱轉換識別方法不能兼顧準確率和處理速度的技術問題。本專利技術的另一個目的在于提供一種手機網絡檢索用語簡稱-全稱轉換識別裝置。為實現上述目的,本專利技術的技術方案如下一種手機網絡檢索用語簡稱-全稱轉換識別方法,包括步驟將輸入的簡稱分解為由一個一個單字組成的單字串;從一全稱數據庫中找出含有所述單字串中所有單字的全稱串,如果找不到所述全稱串,則輸出沒有匹配的全稱;對找到的候選全稱串,分別按照相關度公式進行評分,并將最大評分值所對應的候選全稱串作為該簡稱所對應的全稱進行輸出。一種手機網絡檢索用語簡稱-全稱轉換識別裝置,包括全稱數據庫、輸入單元、匹配單元、評分單元、比較器和輸出單元;所述輸入單元,接收一輸入的簡稱;所述匹配單元,將所述輸入單元所輸入的所述簡稱分解為由一個一個單字組成的單字串;并從所述全稱數據庫中找出含有所述單字串中所有單字的全稱串;所述評分單元,對找到的候選全稱串,分別按照相關度公式進行評分;所述比較器,比較所述評分單元的評分,選出最大評分值;輸出單元,如果找不到所述全稱串,則由輸出單元輸出沒有匹配的全稱;否則將最大評分值所對應的全稱串作為該簡稱所對應的全稱進行輸出。本專利技術的有益效果在于,本專利技術的手機網絡檢索用語簡稱-全稱轉換識別方法,首先接收一個簡稱A作為輸入,然后從一個全稱數據庫中找到A的侯選全稱Fl.....Fn,最后根據特定的判斷法則,挑選最好的一個(或多個)全稱Fi,作為A的全稱。本專利技術的方法具有較高的準確性和較快的處理速度,在含有2101個全稱數據庫(全國普通高校名稱)的測試中,準確率達到97%。附圖說明圖1為本專利技術實施例的手機網絡檢索用語簡稱-全稱轉換識別方法的流程圖。圖2為本專利技術實施例的手機網絡檢索用語簡稱-全稱轉換識別裝置的示意圖。具體實施例方式體現本專利技術特征與優點的典型實施例將在以下的說明中詳細敘述。應理解的是本專利技術能夠在不同的實施例上具有各種的變化,其皆不脫離本專利技術的范圍,且其中的說明及所附附圖在本質上是當作說明之用,而非用以限制本專利技術。本專利技術的手機網絡檢索用語簡稱-全稱轉換識別方法,主要的步驟包括首先接收一簡稱A作為輸入,然后從一全稱數據庫中找到簡稱A的侯選全稱Fl.....Fn,最后根據一個判斷法則,挑選最好的一個全稱Fi作為A的全稱輸出。以下具體介紹本專利技術實施例的手機網絡檢索用語簡稱-全稱轉換識別方法與裝置。本專利技術實施例的手機網絡檢索用語簡稱-全稱轉換識別方法,需要用到一全稱數據庫(包括檢索用語簡稱所對應的一個或多個領域的所有可能全稱的數據庫,簡稱為FDB)。在給定的全稱數據庫FDB中,全稱的形式如表I所示,它們以3列的方式存儲在全稱數據庫中。表I本文檔來自技高網...
【技術保護點】
一種手機網絡檢索用語簡稱?全稱轉換識別方法,包括步驟:將輸入的簡稱分解為由一個一個單字組成的單字串;從一全稱數據庫中找出含有所述單字串中所有單字的全稱串,如果找不到所述全稱串,則輸出沒有匹配的全稱;對找到的候選全稱串,分別按照相關度公式進行評分,并將最大評分值所對應的候選全稱串作為該簡稱所對應的全稱進行輸出。
【技術特征摘要】
1.一種手機網絡檢索用語簡稱-全稱轉換識別方法,包括步驟將輸入的簡稱分解為由一個一個單字組成的單字串;從一全稱數據庫中找出含有所述單字串中所有單字的全稱串,如果找不到所述全稱串,則輸出沒有匹配的全稱;對找到的候選全稱串,分別按照相關度公式進行評分,并將最大評分值所對應的候選全稱串作為該簡稱所對應的全稱進行輸出。2.如權利要求1所述的手機網絡檢索用語簡稱-全稱轉換識別方法,其特征在于,所述相關度公式為3.如權利要求2所述的手機網絡檢索用語簡稱-全稱轉換識別方法,其特征在于,還包括針對每個全稱預先計算相關度并將結果進行緩存的步驟。4.如權利要求3所述的手機網絡檢索用語簡稱-全稱轉換識別方法,其特征在于,還包括建立全稱數據庫的單字倒排表的步驟。5.一種手機網絡檢索用語簡稱-全稱轉換識別裝置,包括全稱數據庫、輸入單元、匹配單元、評分單元、比較器和輸出單元;所述輸入單元,接收一輸入的簡稱;所述匹...
【專利技術屬性】
技術研發人員:盧玉成,
申請(專利權)人:盧玉成,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。