【技術實現步驟摘要】
需求識別模板的自動挖掘方法、需求識別方法及對應裝置
本專利技術涉及計算機
,特別涉及一種需求識別模板的自動挖掘方法和需求識別方法及對應裝置。
技術介紹
隨著互聯網在全球范圍內的迅速發展與成熟,網絡上的信息資源不斷豐富,信息數據量也在飛速膨脹,通過搜索引擎獲取信息已經成為現代人獲取信息的主要方式。為了向用戶提供更加便捷、準確地查詢服務是搜索引擎技術在當今和未來的發展方向。在搜索引擎技術中,對用戶的搜索需求進行識別是提高搜索準確性和有效性的重要一環,特別在結構化搜索(即垂直搜索)中作用顯著。例如,當用戶輸入“從百度大廈到五道口怎么做公交車”的query時,用戶期望得到直接從起點到終點的公交線路的地圖結果,因此,需要搜索引擎能夠識別出該query具有地圖類的搜索需求,從而在地圖類的結構化數據庫中實現公交線路的結構化搜索。在針對用戶輸入的query進行需求識別時,常用到的方式是基于已經建立的需求識別模板對用戶輸入的query進行匹配,利用匹配到的需求識別模板確定搜索需求。在現有技術中,需求識別模板通常采用人工配置的方式,即通過人為觀察常用的query結構,總結出常用的需求識別模板,例如對于地圖類,人工配置出 “從地名到地名怎么走”、“地名在哪”,“機構名在什么位置”等需求識別模板,然而,這種人工配置需求識別模板的方式具有以下缺陷其一、耗費人力資源,建立需求識別模板的效率較低。其二、對query的召回率較低,也就是說,能夠覆蓋到的query數量有限,適用范圍較窄。
技術實現思路
本專利技術提供了一種需求識別模板的自動挖掘方法、需求識別方法及對應裝置,以便于節約人力 ...
【技術保護點】
一種需求識別模板的自動挖掘方法,其特征在于,該方法包括:S1、在搜索日志中確定預設類型的網頁被點擊時對應的query集合;S2、從所述query集合中選擇對應所述預設類型的網頁被點擊的總次數超過預設次數閾值,和/或,對應所述預設類型的網頁點擊比超過預設點擊比閾值的query,將選擇的query作為所述預設類型的種子query,其中query對應的所述預設類型的網頁點擊比為:該query對應所述預設類型的網頁被點擊的總次數與該query對應所有網頁被點擊的總次數的比值;S3、將各種子query分別與所述預設類型的詞典進行匹配,將種子query中匹配到詞典的詞語替換成詞典中對應詞語的屬性標記后,得到所述預設類型的模板集合,所述詞典包括詞語和詞語的屬性標記;S4、利用所述預設類型的模板集合確定所述預設類型的需求識別模板。
【技術特征摘要】
1.一種需求識別模板的自動挖掘方法,其特征在于,該方法包括51、在搜索日志中確定預設類型的網頁被點擊時對應的query集合;52、從所述query集合中選擇對應所述預設類型的網頁被點擊的總次數超過預設次數閾值,和/或,對應所述預設類型的網頁點擊比超過預設點擊比閾值的query,將選擇的query作為所述預設類型的種子query,其中query對應的所述預設類型的網頁點擊比為該query對應所述預設類型的網頁被點擊的總次數與該query對應所有網頁被點擊的總次數的比值;53、將各種子query分別與所述預設類型的詞典進行匹配,將種子query中匹配到詞典的詞語替換成詞典中對應詞語的屬性標記后,得到所述預設類型的模板集合,所述詞典包括詞語和詞語的屬性標記;54、利用所述預設類型的模板集合確定所述預設類型的需求識別模板。2.根據權利要求1所述的方法,其特征在于,所述步驟SI具體包括確定搜索日志中網頁的類型,收集所述預設類型的網頁,并確定所述預設類型的網頁被點擊時對應的所有query構成所述query集合;或者,確定預設類型的站點,將搜索日志中屬于所述預設類型的站點的網頁被點擊時對應的所有query構成所述query集合。3.根據權利要求1所述的方法,其特征在于,所述詞典中的詞語包括命名實體和所述預設類型的特征詞。4.根據權利要求1所述的方法,其特征在于,該方法還包括計算所述模板集合中各模板的準確率和/或召回率;其中,模板的準確率為該模板所覆蓋query對應所述預設類型的網頁點擊比之和與該模板所覆蓋query的數量的比值;模板的召回率為該模板所覆蓋query的數量與所述預設類型的種子query數量的比值。5.根據權利要求4所述的方法,其特征在于,所述步驟S4具體包括將所述模板集合中的各模板確定為所述預設類型的需求識別模板;或者,從所述模板集合中選擇準確率高于預設準確率閾值,和/或,召回率高于預設召回率閾值的模板,作為所述預設類型的需求識別模板。6.一種需求識別方法,其特征在于,該需求識別方法包括Al、將待識別query分別與各預設類型的詞典進行匹配,將所述待識別query中匹配到詞典的詞語替換成詞典中對應詞語的屬性標記,得到所述待識別query的語義標注,所述詞典包括詞語和詞語的屬性標記;A2、將所述待識別query的語義標注分別與各預設類型的需求識別模板進行匹配,利用匹配到的需求識別模板對應的類型確定所述待識別query的需求類型;其中,各預設類型的需求識別模板是通過如權利要求1至5任一權項所述的方法自動挖掘出的。7.根據權利要求6所述的需求識別方法,其特征在于,所述詞典中的詞語包括命名實體和對應預設類型的特征詞。8.根據權利要求6所述的需求識別方法,其特征在于,在所述步驟Al中,如果所述待識別query中存在同一個詞語匹配到多個詞典的詞語,則利用匹配到的多個詞典的詞語的屬性標記分別進行替換,得到多個所述待識別query的語義標注。9.根據權利要求6或8所述的需求識別方法,其特征在于,如果各預設類型的需求識別模板是通過如權利要求4所述的方法挖掘出的,則在所述待識別query的語義標注匹配到多個需求識別模板時,在所述步驟A2中進一步結合匹配到的各需求識別模板的準確率和/或召回率確定所述待識別query的需求類型。10.根據權利要求9所述的需求識別方法,其特征在于,在所述步驟A2中確定所述待識別query的需求類型包括將匹配到的各需求識別模板中準確率和/或召回率滿足預設要求的需求識別模板對應的需求類型確定為所述待識別query的需求類型;或者,將匹配到的各需求識別模板中準確率和/或召回率排在前N個的需求識別模板對應的需求類型確定為所述待識別query的需求類型,所述N為預設的正整數;或者,根據匹配到的各需求識別模板的準確率和/或召回率對應的需求級別,確定所述待識別query在各需求類型上的需求級別。11.一種需求識別模板的自動挖掘裝置,其特征在于,該裝置...
【專利技術屬性】
技術研發人員:黃際洲,柴春光,
申請(專利權)人:北京百度網訊科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。