The invention relates to a method and a system for automatically constructing a knowledge base based on word vectors to realize auxiliary diagnosis and treatment. Among them, the method may include obtaining patient description; use expanded word vector the disease disease based on related factors of patients described in the dictionary, keyword matching, extraction of patients with medical related words in the description and expression; and to detect the expression of the extracted words are in the standard disease disease factors based on the dictionary; the detection results obtained, scoring according to the correlation of factors related to disease dictionary based on the expanded disease related factors corresponding to the disease, calculate the disease grades; sort disease score; determine the disease according to the ranking results. Thus, the invention solves the technical problem of how to make a prediction of the spoken condition of the patient.
【技術實現步驟摘要】
基于詞向量自動構建知識庫實現輔助診療的方法和系統
本專利技術實施例涉及數據處理
,尤其是涉及一種基于詞向量自動構建知識庫實現輔助診療的方法和系統。
技術介紹
伴隨著互聯網醫療領域的諸多醫患在線問答網站和手機應用服務的快速發展,海量的患者病情及各類綜合信息的口語化描述,以及所對應著的醫生診斷結果構成問答對,形成了寶貴的問診知識庫。由于這些記錄往往是非結構化數據,而且存在大量口語化描述所導致的非規范醫學術語,直接利用這些數據會存在諸多挑戰。與此同時,在線問診的患者病例中有大量重復工作,這對于寶貴的醫生人力資源是一種浪費。如果能利用人工智能算法代替醫生做出初步的診斷結果,將大大提升問診效率。這個任務可以總結為:對一個新輸入的患者關于自身性別、年齡、癥狀、疾病史等綜合信息的描述,利用語句分析和相關算法,結合預先構建的領域知識圖譜,返回一個患者的疾病診斷結果預測?,F有的技術方案主要有以下兩種方法:1、通過搜索問答庫中和患者描述相似度最高的問題,返回所對應的醫生診斷結果。這類方法的主要問題是并未真正分析患者描述中出現的疾病信息,文本的相似度并不能完全反映患者病情的相似度,匹配準確度欠佳。2、通過患者點選與病情相關的癥狀和患病部位等信息,疊加專家預先標注的信息標簽對應疾病打分,最終返回一個可能患病的概率排序。這類方法的問題是,人工打分存在極大的不穩定性和主觀性,而且在需要標注的疾病數量大的時候要耗費大量的人力和時間成本,另外,對于可選癥狀外的信息,診斷系統無法分析利用。有鑒于此,特提出本專利技術。
技術實現思路
為了解決現有技術中的上述問題,即為了解決如何對患者的口語 ...
【技術保護點】
一種基于詞向量自動構建知識庫實現輔助診療的方法,其特征在于,所述方法包括:獲取患者描述;利用基于所述詞向量建立的擴充的疾病?疾病相關因子字典,對所述患者描述進行關鍵詞匹配,提取所述患者描述中跟醫學相關的詞語和表達;檢測提取出來的所述詞語和所述表達是否在標準疾病?疾病相關因子字典中;基于檢測結果,結合根據所述擴充的疾病?疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數;對所述疾病的分數進行排序;根據排序結果確定疾病。
【技術特征摘要】
1.一種基于詞向量自動構建知識庫實現輔助診療的方法,其特征在于,所述方法包括:獲取患者描述;利用基于所述詞向量建立的擴充的疾病-疾病相關因子字典,對所述患者描述進行關鍵詞匹配,提取所述患者描述中跟醫學相關的詞語和表達;檢測提取出來的所述詞語和所述表達是否在標準疾病-疾病相關因子字典中;基于檢測結果,結合根據所述擴充的疾病-疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數;對所述疾病的分數進行排序;根據排序結果確定疾病。2.根據權利要求1所述的方法,其特征在于,所述擴充的疾病-疾病相關因子字典通過以下方式建立:利用醫學信息訓練關于疾病-疾病相關因子的詞向量嵌入分布式表示模型;基于所述詞向量嵌入分布式表示模型,使用距離度量方法對所述標準疾病-疾病相關因子字典進行擴充,建立所述擴充的疾病、疾病相關因子字典。3.根據權利要求2所述的方法,其特征在于,所述利用醫學信息訓練關于疾病-疾病相關因子的詞向量嵌入分布式表示模型,具體包括:獲取醫學信息訓練語料;對所述醫學信息訓練語料進行清洗;統計在問答庫記錄中出現的高頻表達方式,增大高頻表達方式在分詞模型中的權重,并進行中文分詞,得到訓練文本;對所述訓練文本進行訓練,生成詞向量嵌入分布式表示模型。4.根據權利要求2所述的方法,其特征在于,所述疾病相關因子對應于疾病的相關性打分通過以下方式確定:基于所述詞向量嵌入分布式表示模型,使用距離度量方法對所述標準疾病-疾病相關因子字典進行擴充,建立替換詞表;使用所述擴充的疾病-疾病相關因子字典和所述替換詞表,匹配所述醫學信息中的疾病-疾病相關因子,計算所述疾病相關因子對應于疾病的相關性打分。5.根據權利要求4所述的方法,其特征在于,所述使用所述擴充的疾病-疾病相關因子字典和所述替換詞表,匹配所述醫學信息中的疾病-疾病相關因子,計算所述疾病相關因子對應于疾病的相關性打分,具體包括:利用所述擴充的疾病-疾病相關因子字典,對醫患問答記錄進行關鍵詞的匹配,提取所述醫患問答記錄中跟醫學相關的詞語和表達;檢測提取出的所述醫患問答記錄中跟醫學相關的所述詞語和所述表達是否在所述標準疾病-疾病相關因子字典中;若不在,則根據所述替換詞表,將提取出的所述醫患問答記錄中跟醫學相關的所述詞語和所述表達歸一化到對應的標準表達中;基于所述標準表達,統計疾病及其相關因子共現的頻數,得到疾病相關因子和疾病的共現頻數記錄矩陣;基于所述疾病相關因子和疾病的共現頻數記錄矩陣,使用非線性變換方法,得到所述疾病相關因子對應于疾病的相關性打分。6.根據權利要求2所述的方法,其特征在于,所述方法包括:基于所述詞向量嵌入分布式表示模型,使用距離度量方法對所述標準疾病-疾病相關因子字典進行擴充,建立替換詞表;所述檢測提取出來的所述詞語和所述表達是否在標準疾病-疾病相關因子字典中,具體包括:若未檢測到,則根據所述替換詞表,將提取出來的所述詞語和所述表達歸一化到對應的標準表達中,得到標準化疾病相關因子;所述基于檢測結果,結合根據所述擴充的疾病-疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數,具體包括:基于所述標準化疾病相關因子,結合根據所述擴充的疾病-疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數。7.根據權利要求5所述的方法,其特征在于,所述疾病相關因子對應于疾病的相關性打分通過下式確定:其中,所述Score(i,j)表示所述疾病相關因子對應于疾病的相關性打分;所述P(Di|Fj)表示患有疾病的條件概率;所述Di表示所述疾??;所述Fj表示所述疾病相關因子;所述Ni表示疾病頻數,所述Ni=∑jNij,所述Nij表示記錄頻數。8.根據權利要...
【專利技術屬性】
技術研發人員:張文生,牛景昊,
申請(專利權)人:中國科學院自動化研究所,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。