• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于詞向量自動構建知識庫實現輔助診療的方法和系統技術方案

    技術編號:15691236 閱讀:77 留言:0更新日期:2017-06-24 04:16
    本發明專利技術涉及一種基于詞向量自動構建知識庫實現輔助診療的方法和系統。其中,該方法可以包括:獲取患者描述;利用基于詞向量建立的擴充的疾病?疾病相關因子字典,對患者描述進行關鍵詞匹配,提取患者描述中跟醫學相關的詞語和表達;檢測提取出來的詞語和表達是否在標準疾病?疾病相關因子字典中;基于檢測結果,結合根據擴充的疾病?疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數;對疾病的分數進行排序;根據排序結果確定疾病。由此,本發明專利技術解決了如何對患者的口語病情描述做出預測的技術問題。

    Method and system for automatically constructing knowledge base based on word vector to realize auxiliary diagnosis and treatment

    The invention relates to a method and a system for automatically constructing a knowledge base based on word vectors to realize auxiliary diagnosis and treatment. Among them, the method may include obtaining patient description; use expanded word vector the disease disease based on related factors of patients described in the dictionary, keyword matching, extraction of patients with medical related words in the description and expression; and to detect the expression of the extracted words are in the standard disease disease factors based on the dictionary; the detection results obtained, scoring according to the correlation of factors related to disease dictionary based on the expanded disease related factors corresponding to the disease, calculate the disease grades; sort disease score; determine the disease according to the ranking results. Thus, the invention solves the technical problem of how to make a prediction of the spoken condition of the patient.

    【技術實現步驟摘要】
    基于詞向量自動構建知識庫實現輔助診療的方法和系統
    本專利技術實施例涉及數據處理
    ,尤其是涉及一種基于詞向量自動構建知識庫實現輔助診療的方法和系統。
    技術介紹
    伴隨著互聯網醫療領域的諸多醫患在線問答網站和手機應用服務的快速發展,海量的患者病情及各類綜合信息的口語化描述,以及所對應著的醫生診斷結果構成問答對,形成了寶貴的問診知識庫。由于這些記錄往往是非結構化數據,而且存在大量口語化描述所導致的非規范醫學術語,直接利用這些數據會存在諸多挑戰。與此同時,在線問診的患者病例中有大量重復工作,這對于寶貴的醫生人力資源是一種浪費。如果能利用人工智能算法代替醫生做出初步的診斷結果,將大大提升問診效率。這個任務可以總結為:對一個新輸入的患者關于自身性別、年齡、癥狀、疾病史等綜合信息的描述,利用語句分析和相關算法,結合預先構建的領域知識圖譜,返回一個患者的疾病診斷結果預測?,F有的技術方案主要有以下兩種方法:1、通過搜索問答庫中和患者描述相似度最高的問題,返回所對應的醫生診斷結果。這類方法的主要問題是并未真正分析患者描述中出現的疾病信息,文本的相似度并不能完全反映患者病情的相似度,匹配準確度欠佳。2、通過患者點選與病情相關的癥狀和患病部位等信息,疊加專家預先標注的信息標簽對應疾病打分,最終返回一個可能患病的概率排序。這類方法的問題是,人工打分存在極大的不穩定性和主觀性,而且在需要標注的疾病數量大的時候要耗費大量的人力和時間成本,另外,對于可選癥狀外的信息,診斷系統無法分析利用。有鑒于此,特提出本專利技術。
    技術實現思路
    為了解決現有技術中的上述問題,即為了解決如何對患者的口語病情描述做出預測的技術問題,本專利技術實施例提供一種基于詞向量自動構建知識庫實現輔助診療的方法。此外,本專利技術實施例還提供一種基于詞向量自動構建知識庫實現輔助診療的系統。為了實現上述目的,根據本專利技術的一個方面,提供以下技術方案:一種基于詞向量自動構建知識庫實現輔助診療的方法,該方法包括:獲取患者描述;利用基于詞向量建立的擴充的疾病-疾病相關因子字典,對患者描述進行關鍵詞匹配,提取患者描述中跟醫學相關的詞語和表達;檢測提取出來的詞語和表達是否在標準疾病-疾病相關因子字典中;基于檢測結果,結合根據擴充的疾病-疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數;對疾病的分數進行排序;根據排序結果確定疾病。進一步地,擴充的疾病-疾病相關因子字典可以通過以下方式建立:利用醫學信息訓練關于疾病-疾病相關因子的詞向量嵌入分布式表示模型;基于詞向量嵌入分布式表示模型,使用距離度量方法對標準疾病-疾病相關因子字典進行擴充,建立擴充的疾病、疾病相關因子字典。進一步地,利用醫學信息訓練關于疾病-疾病相關因子的詞向量嵌入分布式表示模型,具體可以包括:獲取醫學信息訓練語料;對醫學信息訓練語料進行清洗;統計在問答庫記錄中出現的高頻表達方式,增大高頻表達方式在分詞模型中的權重,并進行中文分詞,得到訓練文本;對訓練文本進行訓練,生成詞向量嵌入分布式表示模型。進一步地,疾病相關因子對應于疾病的相關性打分可以通過以下方式確定:基于詞向量嵌入分布式表示模型,使用距離度量方法對標準疾病-疾病相關因子字典進行擴充,建立替換詞表;使用擴充的疾病-疾病相關因子字典和替換詞表,匹配醫學信息中的疾病-疾病相關因子,計算疾病相關因子對應于疾病的相關性打分。進一步地,使用擴充的疾病-疾病相關因子字典和替換詞表,匹配醫學信息中的疾病-疾病相關因子,計算疾病相關因子對應于疾病的相關性打分,具體可以包括:利用擴充的疾病-疾病相關因子字典,對醫患問答記錄進行關鍵詞的匹配,提取醫患問答記錄中跟醫學相關的詞語和表達;檢測提取出的醫患問答記錄中跟醫學相關的詞語和表達是否在標準疾病-疾病相關因子字典中;若不在,則根據替換詞表,將提取出的醫患問答記錄中跟醫學相關的詞語和表達歸一化到對應的標準表達中;基于標準表達,統計疾病及其相關因子共現的頻數,得到疾病相關因子和疾病的共現頻數記錄矩陣;基于疾病相關因子和疾病的共現頻數記錄矩陣,使用非線性變換方法,得到疾病相關因子對應于疾病的相關性打分。進一步地,該方法還可以包括:基于詞向量嵌入分布式表示模型,使用距離度量方法對標準疾病-疾病相關因子字典進行擴充,建立替換詞表;檢測提取出來的詞語和表達是否在標準疾病-疾病相關因子字典中,具體包括:若未檢測到,則根據替換詞表,將提取出來的詞語和表達歸一化到對應的標準表達中,得到標準化疾病相關因子;基于檢測結果,結合根據擴充的疾病-疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數,具體包括:基于標準化疾病相關因子,結合根據擴充的疾病-疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數。進一步地,疾病相關因子對應于疾病的相關性打分可以通過下式確定:其中,Score(i,j)表示疾病相關因子對應于疾病的相關性打分;P(Di|Fj)表示患有疾病的條件概率;Di表示疾??;Fj表示疾病相關因子;Ni表示疾病頻數,Ni=∑jNij,Nij表示記錄頻數。進一步地,疾病的分數可以通過下式得到:其中,DS(Di)表示疾病的分數;Di表示疾?。籛(Fj)表示疾病類別映射權值;Score(i,j)表示疾病相關因子對應于疾病的相關性打分。為了實現上述目的,根據本專利技術的另一個方面,還提供了以下技術方案:一種基于詞向量自動構建知識庫實現輔助診療的系統,該系統可以包括:獲取模塊,用于獲取患者描述;提取模塊,用于利用基于詞向量建立的擴充的疾病-疾病相關因子字典,對患者描述進行關鍵詞匹配,提取患者描述中跟醫學相關的詞語和表達;檢測模塊,用于檢測提取出來的詞語和表達是否在標準疾病-疾病相關因子字典中;計算模塊,用于基于檢測結果,結合根據擴充的疾病-疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數;排序模塊,用于對疾病的分數進行排序;確定模塊,用于根據排序結果確定疾病。進一步地,提取模塊還具體可以包括:詞向量模型建立單元,用于利用醫學信息訓練關于疾病-疾病相關因子的詞向量嵌入分布式表示模型;擴充詞典建立單元,用于基于詞向量嵌入分布式表示模型,使用距離度量方法對標準疾病-疾病相關因子字典進行擴充,建立擴充的疾病、疾病相關因子字典。進一步地,詞向量模型建立單元具體可以包括:獲取單元,用于獲取醫學信息訓練語料;清洗單元,用于對醫學信息訓練語料進行清洗;第一統計單元,用于統計在問答庫記錄中出現的高頻表達方式,增大高頻表達方式在分詞模型中的權重,并進行中文分詞,得到訓練文本;生成單元,用于對訓練文本進行訓練,生成詞向量嵌入分布式表示模型。進一步地,計算模塊還具體可以包括:第一替換詞表建立單元,用于基于詞向量嵌入分布式表示模型,使用距離度量方法對標準疾病-疾病相關因子字典進行擴充,建立替換詞表;相關性打分計算單元,用于使用擴充的疾病-疾病相關因子字典和替換詞表,匹配醫學信息中的疾病-疾病相關因子,計算疾病相關因子對應于疾病的相關性打分。進一步地,相關性打分計算單元具體可以包括:提取單元,用于利用擴充的疾病-疾病相關因子字典,對醫患問答記錄進行關鍵詞的匹配,提取醫患問答記錄中跟醫學相關的詞語和表達;檢測單本文檔來自技高網...
    基于詞向量自動構建知識庫實現輔助診療的方法和系統

    【技術保護點】
    一種基于詞向量自動構建知識庫實現輔助診療的方法,其特征在于,所述方法包括:獲取患者描述;利用基于所述詞向量建立的擴充的疾病?疾病相關因子字典,對所述患者描述進行關鍵詞匹配,提取所述患者描述中跟醫學相關的詞語和表達;檢測提取出來的所述詞語和所述表達是否在標準疾病?疾病相關因子字典中;基于檢測結果,結合根據所述擴充的疾病?疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數;對所述疾病的分數進行排序;根據排序結果確定疾病。

    【技術特征摘要】
    1.一種基于詞向量自動構建知識庫實現輔助診療的方法,其特征在于,所述方法包括:獲取患者描述;利用基于所述詞向量建立的擴充的疾病-疾病相關因子字典,對所述患者描述進行關鍵詞匹配,提取所述患者描述中跟醫學相關的詞語和表達;檢測提取出來的所述詞語和所述表達是否在標準疾病-疾病相關因子字典中;基于檢測結果,結合根據所述擴充的疾病-疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數;對所述疾病的分數進行排序;根據排序結果確定疾病。2.根據權利要求1所述的方法,其特征在于,所述擴充的疾病-疾病相關因子字典通過以下方式建立:利用醫學信息訓練關于疾病-疾病相關因子的詞向量嵌入分布式表示模型;基于所述詞向量嵌入分布式表示模型,使用距離度量方法對所述標準疾病-疾病相關因子字典進行擴充,建立所述擴充的疾病、疾病相關因子字典。3.根據權利要求2所述的方法,其特征在于,所述利用醫學信息訓練關于疾病-疾病相關因子的詞向量嵌入分布式表示模型,具體包括:獲取醫學信息訓練語料;對所述醫學信息訓練語料進行清洗;統計在問答庫記錄中出現的高頻表達方式,增大高頻表達方式在分詞模型中的權重,并進行中文分詞,得到訓練文本;對所述訓練文本進行訓練,生成詞向量嵌入分布式表示模型。4.根據權利要求2所述的方法,其特征在于,所述疾病相關因子對應于疾病的相關性打分通過以下方式確定:基于所述詞向量嵌入分布式表示模型,使用距離度量方法對所述標準疾病-疾病相關因子字典進行擴充,建立替換詞表;使用所述擴充的疾病-疾病相關因子字典和所述替換詞表,匹配所述醫學信息中的疾病-疾病相關因子,計算所述疾病相關因子對應于疾病的相關性打分。5.根據權利要求4所述的方法,其特征在于,所述使用所述擴充的疾病-疾病相關因子字典和所述替換詞表,匹配所述醫學信息中的疾病-疾病相關因子,計算所述疾病相關因子對應于疾病的相關性打分,具體包括:利用所述擴充的疾病-疾病相關因子字典,對醫患問答記錄進行關鍵詞的匹配,提取所述醫患問答記錄中跟醫學相關的詞語和表達;檢測提取出的所述醫患問答記錄中跟醫學相關的所述詞語和所述表達是否在所述標準疾病-疾病相關因子字典中;若不在,則根據所述替換詞表,將提取出的所述醫患問答記錄中跟醫學相關的所述詞語和所述表達歸一化到對應的標準表達中;基于所述標準表達,統計疾病及其相關因子共現的頻數,得到疾病相關因子和疾病的共現頻數記錄矩陣;基于所述疾病相關因子和疾病的共現頻數記錄矩陣,使用非線性變換方法,得到所述疾病相關因子對應于疾病的相關性打分。6.根據權利要求2所述的方法,其特征在于,所述方法包括:基于所述詞向量嵌入分布式表示模型,使用距離度量方法對所述標準疾病-疾病相關因子字典進行擴充,建立替換詞表;所述檢測提取出來的所述詞語和所述表達是否在標準疾病-疾病相關因子字典中,具體包括:若未檢測到,則根據所述替換詞表,將提取出來的所述詞語和所述表達歸一化到對應的標準表達中,得到標準化疾病相關因子;所述基于檢測結果,結合根據所述擴充的疾病-疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數,具體包括:基于所述標準化疾病相關因子,結合根據所述擴充的疾病-疾病相關因子字典得到的疾病相關因子對應于疾病的相關性打分,計算疾病的分數。7.根據權利要求5所述的方法,其特征在于,所述疾病相關因子對應于疾病的相關性打分通過下式確定:其中,所述Score(i,j)表示所述疾病相關因子對應于疾病的相關性打分;所述P(Di|Fj)表示患有疾病的條件概率;所述Di表示所述疾??;所述Fj表示所述疾病相關因子;所述Ni表示疾病頻數,所述Ni=∑jNij,所述Nij表示記錄頻數。8.根據權利要...

    【專利技術屬性】
    技術研發人員:張文生,牛景昊
    申請(專利權)人:中國科學院自動化研究所
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文有码vs无码人妻| 亚洲一区精品无码| 少妇无码太爽了不卡视频在线看| 亚洲AV无码一区二三区| 一本无码中文字幕在线观| 亚洲AV无码一区二区乱子伦| 国产50部艳色禁片无码| 亚洲aⅴ天堂av天堂无码麻豆| 亚洲Aⅴ无码一区二区二三区软件| 久久亚洲AV永久无码精品| 亚洲成A人片在线观看无码不卡| 国产成人无码午夜视频在线观看| 精品久久久久久无码专区不卡 | 人禽无码视频在线观看| 国产精品无码一区二区三区毛片| 一本大道东京热无码一区| 无码亚洲成a人在线观看| 日日麻批免费40分钟无码| 国产精品无码AV一区二区三区| 曰韩无码二三区中文字幕| 成人免费无码大片a毛片| 亚洲精品无码国产片| 无码亚洲成a人在线观看| 亚洲Av无码国产一区二区| 亚洲中文字幕无码亚洲成A人片| 人妻无码中文久久久久专区 | 精品无码一区二区三区电影| 亚洲Av永久无码精品三区在线| 亚洲精品无码高潮喷水在线| 岛国无码av不卡一区二区| 免费无码中文字幕A级毛片| 中文无码字幕中文有码字幕| 成年无码av片完整版| 日日摸日日踫夜夜爽无码| 亚洲AV成人无码网天堂| 亚洲AV蜜桃永久无码精品| 无码精品国产VA在线观看| 无码中文字幕人妻在线一区二区三区| 亚洲日韩精品无码专区| 亚洲AV无码成人精品区大在线| 日韩免费人妻AV无码专区蜜桃|