本申請公開了一種同義詞語義映射關系確定方法及裝置。一種同義詞語義映射關系確定方法包括:獲取對文檔資源進行挖掘得到的各組同義詞詞對;對于每一組同義詞詞對,確定兩個同義詞的映射方向;遍歷所有同義詞詞對,根據所確定的映射方向,建立同義詞映射關系樹,其中,每組映射的起點和終點分別對應于樹形結構的父節點和子節點;判斷所述同義詞映射關系樹的收斂程度是否滿足預設要求,如果是,則確定該同義詞映射關系樹收斂到的葉子節點,并確定該葉子節點與其他非葉子節點存在同義詞映射關系。應用上述方案,可以從有限的文檔資源中獲取更多的同義詞簇內映射關系,從而提高利用同義詞映射關系召回搜索結果的全面性。
【技術實現步驟摘要】
一種同義詞語義映射關系確定方法及裝置
本申請涉及計算機應用
,特別是涉及一種同義詞語義映射關系確定方法及裝置。
技術介紹
隨著搜索引擎的發展,傳統的基于關鍵詞匹配的策略已經無法滿足用戶的搜索需求,語義匹配策略已經廣泛應用于現代搜索引擎中。同義詞,是指詞條名稱不同但這些詞條所指代的含義或某個義項所指代的含義相同的詞條。作為一種語義匹配資源,同義詞在現代搜索引擎中占據著重要的地位。例如,“北京大學”和“北大”構成同義詞,則當用戶以關鍵詞“北京大學”進行搜索時,搜索引擎能夠將包含“北大”相關內容的資源也作為搜索結果展現給用戶。同義詞關系往往不僅限存在于兩個詞之間,例如“哈爾濱工程大學”、“哈爾濱工程學院”、“哈爾濱軍工大學”、“哈爾濱船舶學院”、“哈工大”、“哈軍工”、“哈船舶”......這些詞彼此之間都可以構成同義詞,對于這種情況,將這些具有同一詞義的多個同義詞稱為一個同義詞簇。根據現有的同義詞資源處理方法,是在已知的同義詞對之間兩兩建立映射關系。 例如對于上述7個同義詞,理論上應存在C〗=21組映射關系,然而在實際應用中,同義詞資源需要從大量的語料資源中挖掘獲得,很多同義詞關系可能難以挖掘到,例如“哈爾濱軍工大學-哈軍工”是一組容易挖掘到的同義詞關系,但是“哈爾濱船舶學院-哈軍工”這樣的關系可能很難被挖掘到,造成同義詞簇內映射關系的缺失,進而影響搜索結果的全面性。
技術實現思路
為解決上述技術問題,本申請實施例提供一種同義詞語義映射關系確定方法及裝置,以提高同義詞映射資源的完整性,技術方案如下本申請提供一種同義詞語義映射關系確定方法,包括獲取對文檔資源進行挖掘得到的各組同義詞詞對;對于每一組同義詞詞對,確定兩個同義詞的映射方向;遍歷所有同義詞詞對,根據所確定的映射方向,建立同義詞映射關系樹,其中,每組映射的起點和終點分別對應于樹形結構的父節點和子節點;判斷所述同義詞映射關系樹的收斂程度是否滿足預設要求,如果是,則確定該同義詞映射關系樹收斂到的葉子節點,并確定該葉子節點與其他節點存在同義詞映射關系。在本申請的一種實現方式中,所述對文檔資源進行挖掘得到同義詞詞對,包括根據用戶行為日志中,用戶連續使用的搜索關鍵詞,獲得同義詞詞對。在本申請的一種實現方式中,所述對文檔資源進行挖掘得到同義詞詞對,包括根據用戶行為日志中,搜索請求與點擊網頁內容的對應關系,獲得同義詞詞對。在本申請的一種實現方式中,所述對文檔資源進行挖掘得到同義詞詞對,包括根據用戶行為日志中,點擊進入同一網頁所對應的不同搜索請求,獲得同義詞詞 對。在本申請的一種實現方式中,所述對文檔資源進行挖掘得到同義詞詞對,包括利用預置的同義詞模板與文檔內容進行匹配,獲得同義詞詞對。在本申請的一種實現方式中,在獲取同義詞詞對之后、確定同義詞映射方向之前, 還包括對所獲取的同義詞詞對進行同義詞關系驗證。在本申請的一種實現方式中,所述對同義詞詞對進行同義詞關系驗證,包括分別利用兩個同義詞的上下文特征詞構成特征向量,根據兩個特征向量的相似度 驗證同義詞關系。在本申請的一種實現方式中,所述確定兩個同義詞的映射方向,包括對于雙向可替換同義詞,統計兩個同義詞在文檔資源中的出現頻率,將低頻詞到 高頻詞的方向確定為所述兩個同義詞的映射方向,所述雙向可替換同義詞為根據文檔資 源能夠挖掘出雙向替換關系的同義詞。在本申請的一種實現方式中,所述確定兩個同義詞的映射方向,包括對于單向可替換同義詞,將同義詞的替換方向確定為所述兩個同義詞的映射方 向;所述單向可替換同義詞為根據文檔資源僅能挖掘出單向替換關系的同義詞。在本申請的一種實現方式中,所述判斷所述同義詞映射關系樹的收斂程度是否滿 足預設要求,包括判斷所述所述同義詞映射關系樹是否收斂于相同的葉子節點,如果是,則確定該 同義詞映射關系樹收斂到該葉子節點,并確定該葉子節點與其他節點存在同義詞映射關 系O在本申請的一種實現方式中,所述判斷所述同義詞映射關系樹的收斂程度是否滿 足預設要求,包括判斷出現次數最多的葉子節點數目與葉子節點總數的比值是否大于預置的閾值; 如果是,則進一步對該葉子節點和其他葉子節點分別進行同義詞關系驗證,如果滿足驗證 條件,則確定該同義詞映射關系樹收斂到所述出現次數最多的葉子節點。本申請還提供一種同義詞語義映射關系確定裝置,其特征在于,包括同義詞詞對獲取模塊,用于獲取對文檔資源進行挖掘得到的各組同義詞詞對;映射方向確定模塊,用于對于每一組同義詞詞對,確定兩個同義詞的映射方向;關系樹構建模塊,用于遍歷所有同義詞詞對,根據所確定的映射方向,建立同義詞 映射關系樹,其中,每組映射的起點和終點分別對應于樹形結構的父節點和子節點;映射關系確定模塊,用于判斷所述同義詞映射關系樹的收斂程度是否滿足預設要 求,如果是,則確定該同義詞映射關系樹收斂到的葉子節點,并確定該葉子節點與其他節點 存在同義詞映射關系。在本申請的一種實現方式中,所述同義詞詞對獲取模塊,具體配置為用于根據用戶行為日志中,用戶連續使用的搜索關鍵詞,獲得同義詞詞對。在本申請的一種實現方式中,所述同義詞詞對獲取模塊,具體配置為用于根據用戶行為日志中,搜索請求與點擊網頁內容的對應關系,獲得同義詞詞對。在本申請的一種實現方式中,所述同義詞詞對獲取模塊,具體配置為用于根據用戶行為日志中,點擊進入同一網頁所對應的不同搜索請求,獲得同義 詞詞對。在本申請的一種實現方式中,所述同義詞詞對獲取模塊,具體配置為用于利用預置的同義詞模板與文檔內容進行匹配,獲得同義詞詞對。在本申請的一種實現方式中,所述裝置還包括同義關系驗證模塊,用于在所述同義詞詞對獲取模塊獲取同義詞詞對之后、所述 映射方向確定模塊確定同義詞映射方向之前,對所述同義詞詞對獲取模塊所獲得的同義詞 詞對進行同義詞關系驗證。在本申請的一種實現方式中,所述同義關系驗證模塊,具體配置為用于分別利用兩個同義詞的上下文特征詞構成特征向量,根據兩個特征向量的相 似度驗證同義詞關系。在本申請的一種實現方式中,所述映射方向確定模塊,具體配置為對于雙向可替換同義詞,統計兩個同義詞在文檔資源中的出現頻率,將低頻詞到 高頻詞的方向確定為所述兩個同義詞的映射方向,所述雙向可替換同義詞為根據文檔資 源能夠挖掘出雙向替換關系的同義詞。在本申請的一種實現方式中,所述映射方向確定模塊,具體配置為對于單向可替換同義詞,將同義詞的替換方向確定為所述兩個同義詞的映射方 向;所述單向可替換同義詞為根據文檔資源僅能挖掘出單向替換關系的同義詞。在本申請的一種實現方式中,所述映射關系確定模塊,具體配置為用于判斷所述所述同義詞映射關系樹是否收斂于相同的葉子節點,如果是,則確 定該同義詞映射關系樹收斂到該葉子節點。在本申請的一種實現方式中,所述映射關系確定模塊,具體配置為用于判斷出現次數最多的葉子節點數目與葉子節點總數的比值是否大于預置的 閾值;如果是,則進一步對該葉子節點和其他葉子節點分別進行同義詞關系驗證,如果滿足 驗證條件,則確定該同義詞映射關系樹收斂到所述出現次數最多的葉子節點。本申請所提供的技術方案,根據同義詞的映射方向建立同義詞映射關系樹,將多 組同義詞詞對以樹形結構的方式組織起來,從而對同義詞簇中潛在的映射關系進行挖掘。 應用本申請技術方案,可以從有本文檔來自技高網...
【技術保護點】
一種同義詞語義映射關系確定方法,其特征在于,包括:獲取對文檔資源進行挖掘得到的各組同義詞詞對;對于每一組同義詞詞對,確定兩個同義詞的映射方向;遍歷所有同義詞詞對,根據所確定的映射方向,建立同義詞映射關系樹,其中,每組映射的起點和終點分別對應于樹形結構的父節點和子節點;判斷所述同義詞映射關系樹的收斂程度是否滿足預設要求,如果是,則確定該同義詞映射關系樹收斂到的葉子節點,并確定該葉子節點與其他節點存在同義詞映射關系。
【技術特征摘要】
【專利技術屬性】
技術研發人員:方高林,
申請(專利權)人:北京百度網訊科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。