【技術實現步驟摘要】
本專利技術涉及計算機自然語言處理領域,特別涉及一種自動問答方法、一種自動問答系統及一種構建問答實例庫的方法。
技術介紹
目前,很多行業需要承擔越來越多的用戶咨詢和反饋的解答工作,比如互聯網行業的售后服務或者客戶服務。由于用戶數量的指數增長,已經無法采用人工的方式對所有用戶的咨詢進行反饋或及時回答,并且用戶的問題大多集中在某些特定的知識點上,人工回復往往是進行重復性地勞動,因此,急需一種簡單、高效、易維護的系統來輔助人工進行問題回復。自動問答(QuestionAnswering, QA)是指根據用戶的自然語言提出的問題找到一個明確的答案。附圖說明圖1為現有的自動問答系統的結構示意圖,現結合圖1,對現有的自動問答系統的結構進行說明,具體如下現有的自動問答系統包括接口單元101、推理單元102和知識庫103。接口單元101將用戶采用自然語言進行提問的問題發送給推理單元102,推理單元102對問題進行解析得到問題的結構化表達及關鍵詞,根據問題的結構化表達式及關鍵詞從知識庫103中匹配獲得相關的應答內容,利用問題的結構化表達式、本體知識技術及語言知識技術從知識庫103中匹配獲得問題模板,利用自然語言處理技術、獲得的應答內容及獲得的問題模板,完成知識推理并最終生成答案,通過接口單元101輸出生成的答案。現有的自動問答系統的知識庫103的構建階段,需要從輸入的新問答對中挖掘問題模板,構建出模板庫,以供推理單元102查詢獲得問題模板,模板庫中的問題模板可為句型模板、語義模板等;可采用語言知識技術對輸入的新知識進行處理以獲得與關鍵詞對應的應答,還可對輸入的新問答對進行知識 ...
【技術保護點】
一種自動問答方法,其特征在于,該方法包括:A、將接收到的問題向量化獲得問題向量;所述問題向量包含多個向量元素;B、根據所述向量元素檢索問答實例庫,獲得多個實例向量;任一所述實例向量至少包含一個向量元素;C、利用相似度計算公式,計算問題向量與多個實例向量的相似度;D、利用所述相似度確定答復知識點,輸出與答復知識點對應的數據。
【技術特征摘要】
1.一種自動問答方法,其特征在于,該方法包括 A、將接收到的問題向量化獲得問題向量;所述問題向量包含多個向量元素; B、根據所述向量元素檢索問答實例庫,獲得多個實例向量;任一所述實例向量至少包含一個向量兀素; C、利用相似度計算公式,計算問題向量與多個實例向量的相似度; D、利用所述相似度確定答復知識點,輸出與答復知識點對應的數據。2.根據權利要求1所述的方法,其特征在于,所述步驟A之前進一步包括 A’、采樣人工回答記錄并向量化,生成問答實例庫。3.根據權利要求2所述的方法,其特征在于,所述步驟A’包括 A’1、確定需自動問答的知識點,為所述需自動問答的知識點分配問題ID ; A’ 2、根據所述需自動問答的知識點,對人工回答記錄進行采樣,獲得與所述需自動問答的知識點對應的問答實例,為所述問答實例包含的知識點分配回答知識點ID ; A’ 3、向量化所述問答實例包含的問題,獲得問題向量; A’ 4、將所述問答實例以三元組的形式進行存儲;任一所述問答實例的三元組包含問題ID、問題向量及回答知識點ID。4.根據權利要求3所述的方法,其特征在于,步驟A’2所述對人工回答記錄進行采樣,獲得與所述需自動問答的知識點對應的問答實例包括 A’ 21、確定進行采樣的知識點的樣本數量η ;所述進行采樣的知識點為需自動回答的知識點;所述η為自然數; Α’ 22、從人工回答記錄中選擇包含所述知識點的η個問題實例; Α’ 23、計算所述η個問題實例的問題的整體長度方差; Α’ 24、判斷所述問題的整體長度方差是否低于第一閾值,如果是,則執行步驟Α’ 25,否貝U,去除所述η個問題實例中問題長度與所述η個問題實例的長度平均值的差值最大的一個問題實例,從人工回答記錄中再選擇一個包含所述知識點的問題實例,執行步驟Α’ 23 ; Α’ 25、將所述η個問題實例作為選擇的η個包含所述需自動回答的知識點的問答實例。5.根據權利要求4所述的方法,其特征在于,所述步驟Α’23為 利用士6.根據權利要求3所述的方法,其特征在于,所述步驟A’3包括 提取所述問答實例中問題的關鍵詞、二元字符串及特殊詞性; 將所述關鍵詞作為向量元素,計算每一向量元素的權重; 利用每個向量元素的權重計算問答實例的向量的長度; 將向量元素、向量元素的權重及向量的長度作為問題向量。7.根據權利要求6所述的方法,其特征在于,所述計算每一向量元素的權重包括 利用郝8.根據權利要求6所述的方法,其特征在于,所述利用每個向量元素的權重計算問答實例的向量的長度包括 利用9.根據權利要求1-8任一項所述的方法,其特征在于,所述步驟A包括 將接收到的問題規整、分詞和歸一化處理,提取關鍵詞、ニ元字符串和詞性; 將關鍵詞作為向量元素; 將向量元素、向量元素的權重及向量的長度作為問題向量;所述向量元素的權重和所述向量長度為空。10.根據權利要求1-8任一項所述的方法,其特征在于,所述步驟C包括 Cl、將所述多個實例向量按照其包含的回答知識點ID進行歸類; C2、對于同一回答知識點ID,動態調整問題向量包含的向量元素在相同的回答知識點ID對應的實例向量中的權重,獲得調整后的向量元素; C3、利用所述調整后的向量元素在所述相同回答知識點ID對應的實例向量中的權重,計算所述調整后的向量元素與所述實例向量的余弦相似度。11.根據權利要求10所述的方法,其特征在于,所述步驟C3包括12.根據權利要求1-8任一項所述的方法,其特征在于,所述步驟D包括 Dl、將所述相似度轉換為實例向量與問題向量之間的距離; D2、將所述距離小于第二閾值的實例向量作為候選實例向量; D3、利用候選實例向量計算獲得其對應的回答知識點ID的加權票數; D4、在回答知識點ID的平均票數大于第三閾值時或在為回答知識點ID投票的實例向量的數量大于第四閾值時,將回答知識點ID確定為候選知識點ID ; D5、選擇加權票數排列在前L位的候選知識點ID對應的知識點為答復知識點;所述L為自然數; D6、利用候選知識點ID從知識點文案庫中讀取排列在前L位的回答內容,并按照加權票數的排列順序輸出L個回答內容。13.根據權利要求12所述的方法,其特征在于,所述步驟Dl包括 利用14.根據權利要求12所述的方法,其特征在于,所述步驟D3包括 利用15.根據權利要求12所述的方法,其特征在于,步驟D4所述回答知識點ID的平均票數為回答知識點ID所述加權票數除以屬于回答知識點ID的實例向量的數量獲得的商。16.—種自動問答系統,其特征在于,該系統包含 問答實例庫,以三元組的形式存儲問答實例;任一所述問答實例的三元組包含問題ID、問題向量及回答知識點ID ; 問題解析模塊,將接收到的問題向量化獲得問題向量;所述問題向量包含多個向量元素;...
【專利技術屬性】
技術研發人員:陳開江,
申請(專利權)人:微夢創科網絡科技中國有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。