【技術實現步驟摘要】
本專利技術涉及知識抽取,特別是涉及一種中醫循證知識抽取方法及系統。
技術介紹
1、循證醫學(evidence-based?medicine,縮寫為ebm),意為“遵循證據的醫學”,又稱實證醫學,也譯為證據醫學,是一種醫學診療方法,強調應用完善設計與執行的研究(證據)將決策最佳化。
2、循證醫學是20世紀90年代初發展起來的一門新興交叉臨床醫學學科,是基于臨床實踐,合理應用最佳證據的方法。循證中醫藥借鑒循證醫學的理論和方法,收集、評價、生產、轉化中醫藥有效性、安全性和經濟性證據,可揭示中醫藥臨床作用特點和規律,并指導臨床指南、路徑和衛生決策的制定,是循證醫學學科和研究領域的重要分支。近年來中醫臨床循證研究文獻發布數量日益增多,但臨床醫生對文獻中診療方法應用卻較少。一方面,文獻中結論無法解決臨床中復雜的問題,臨床醫生為診療決策尋找證據時會因較為單一的證據鏈而放棄使用。另一方面,臨床實踐文獻未直接轉化成醫療決策建議,無法被實時、準確查閱,很大程度上阻礙了循證文獻在臨床決策和實踐中的可操作性。
3、申請號為202311159972.0的現有技術中公開了一種多策略知識抽取系統,涉及知識系統
,其技術方案要點是:所述多策略知識抽取系統包括數據層、預處理層、模型層、服務層以及應用層。在該知識抽取系統中,通過搭建的多策略知識抽取模型,能夠對不同分類的文獻制定不同的抽取策略,能夠對大量的數據機械能標注,同時適用于長文本以及稀疏詞;基于知識圖譜研究框架,以中醫婦科循證臨床文獻為例,構建多維度基于深度學習等多策略知識抽取
技術實現思路
1、為了克服現有技術的不足,本專利技術的目的是提供一種中醫循證知識抽取方法及系統,能夠有效提取關鍵的中醫知識單元,確保了知識的可靠性和適用性。
2、為實現上述目的,本專利技術提供了如下方案:
3、一種中醫循證知識抽取方法,包括:
4、從多種渠道收集與中醫相關的多元化文獻數據;所述多元化文獻數據包括:學術期刊文章、學位論文和研究報告、書籍和專著、會議論文和摘要、臨床指南和共識意見、在線數據庫以及政府和行業報告;
5、對所述多元化文獻數據進行圖像化處理,得到文獻圖像,并對所述文獻圖像進行色差平衡,得到平衡圖像;
6、對所述平衡圖像進行圖像增強處理,得到增強圖像;
7、根據所述增強圖像進行ocr識別,得到識別文本,并對所述識別文本進行數據清洗,得到待測數據;
8、將所述待測數據輸入至構建好的多策略知識抽取模型中,得到抽取結果。
9、優選地,所述多種渠道包括期刊、書籍、數據庫和在線資源。
10、優選地,對所述文獻圖像進行色差平衡,得到平衡圖像,包括:
11、計算原始的文獻圖像在rgb三個通道的像素均值;其中,所述像素均值計算公式為:
12、
13、其中,d表示像素均值,表示原始的文獻圖像在紅色通道的像素均值,表示原始的文獻圖像在綠色通道的像素均值,表示原始的文獻圖像在藍色通道的像素均值;
14、根據所述平均像素值計算每個顏色通道的平衡系數;
15、利用所述平衡系數對所述原始的文獻圖像進行色差平衡,得到所述平衡圖像。
16、優選地,利用所述平衡系數的公式為:
17、
18、其中,kr表示紅色通道的平衡系數,kg表示綠色通道的平衡系數,kb表示藍色通道的平衡系數,r′表示紅色通道在平衡后的像素值,g′表示綠色通道在平衡后的像素值,b′表示藍色通道在平衡后的像素值,r表示原始的文獻圖像在紅色通道的像素值,g表示原始的文獻圖像在綠色通道的像素值,b表示原始的文獻圖像在藍色通道的像素值。
19、優選地,對所述平衡圖像進行圖像增強處理,得到增強圖像,包括:
20、求取所述平衡圖像各個像素點的明度均值和飽和度均值;
21、根據各個像素點的明度均值和飽和度均值計算各像素點的明度方差和飽和度方差;
22、根據所述明度方差和所述飽和度方差構建增強系數;
23、利用所述增強系數構建增強模型;
24、利用所述增強模型對所述平衡圖像進行圖像增強,得到增強圖像。
25、優選地,所述增強系數的公式為:
26、
27、其中,w表示所述平衡圖像上像素點的個數,υ(i,j)表示在(i,j)點的明度值,表示所述平衡圖像中所有像素點的明度均值,s(i,j)表示在(i,j)點的飽和度,sw(x,y)表示所述平衡圖像中所有像素點的飽和度均值,συ(x,y)表示所述平衡圖像中所有像素點的明度方差,σs(x,y)表示所述平衡圖像中所有像素點的飽和度方差。
28、優選地,所述數據清洗的方式包括:檢查輸入數據的一致性、處理無效數據以及缺失數據。
29、優選地,所述多策略知識抽取模型包括:語法模式子模型、領域詞典規則子模型和深度學習子模型。
30、優選地,所述抽取結果包括:常規文章概念、循證實體以及中醫藥領域實體。
31、一種中醫循證知識抽取系統,包括:
32、收集模塊,用于從多種渠道收集與中醫相關的多元化文獻數據;
33、第一圖像處理模塊,用于對所述多元化文獻數據進行圖像化處理,得到文獻圖像,并對所述文獻圖像進行色差平衡,得到平衡圖像;
34、第二圖像處理模塊,用于對所述平衡圖像進行圖像增強處理,得到增強圖像;
35、文本獲取模塊,用于根據所述增強圖像進行ocr識別,得到識別文本,并對所述識別文本進行數據清洗,得到待測數據;
36、知識抽取模塊,用于將所述待測數據輸入至構建好的多策略知識抽取模型中,得到抽取結果。
37、根據本專利技術提供的具體實施例,本專利技術公開了以下技術效果:
38、本專利技術提供了一種中醫循證知識抽取方法及系統,方法包括:從多種渠道收集與中醫相關的多元化文獻數據;對所述多元化文獻數據進行圖像化處理,得到文獻圖像,并對所述文獻圖像進行色差平衡,得到平衡圖像;對所述平衡圖像進行圖像增強處理,得到增強圖像;根據所述增強圖像進行ocr識別,得到識別文本,并對所述識別文本進行數據清洗,得到待測數據;將所述待測數據輸入至構建好的多策略知識抽取模型中,得到抽取結果。本專利技術通過多種渠道收集中醫相關文獻數據,確保了數據來源的廣泛性和多元性,從而反映了中醫領域的豐富知識和研究成果。在處理過程中,圖像化處理和色差平衡技術的應用,提升了文獻圖像的可讀性,為后續的ocr識別提供了高質量的輸入。這一系列的圖像增強處理保證了識別文本的準確性,減小了噪聲對數據清洗的影響,使得待測本文檔來自技高網...
【技術保護點】
1.一種中醫循證知識抽取方法,其特征在于,包括:
2.根據權利要求1所述的中醫循證知識抽取方法,其特征在于,所述多種渠道包括期刊、書籍、數據庫和在線資源。
3.根據權利要求1所述的中醫循證知識抽取方法,其特征在于,對所述文獻圖像進行色差平衡,得到平衡圖像,包括:
4.根據權利要求3所述的中醫循證知識抽取方法,其特征在于,利用所述平衡系數的公式為:
5.根據權利要求4所述的中醫循證知識抽取方法,其特征在于,對所述平衡圖像進行圖像增強處理,得到增強圖像,包括:
6.根據權利要求5所述的中醫循證知識抽取方法,其特征在于,所述增強系數的公式為:
7.根據權利要求1所述的中醫循證知識抽取方法,其特征在于,所述數據清洗的方式包括:檢查輸入數據的一致性、處理無效數據以及缺失數據。
8.根據權利要求1所述的中醫循證知識抽取方法,其特征在于,所述多策略知識抽取模型包括:語法模式子模型、領域詞典規則子模型和深度學習子模型。
9.根據權利要求8所述的中醫循證知識抽取方法,其特征在于,所述抽取結果包括:常規文
10.一種中醫循證知識抽取系統,其特征在于,包括:
...【技術特征摘要】
1.一種中醫循證知識抽取方法,其特征在于,包括:
2.根據權利要求1所述的中醫循證知識抽取方法,其特征在于,所述多種渠道包括期刊、書籍、數據庫和在線資源。
3.根據權利要求1所述的中醫循證知識抽取方法,其特征在于,對所述文獻圖像進行色差平衡,得到平衡圖像,包括:
4.根據權利要求3所述的中醫循證知識抽取方法,其特征在于,利用所述平衡系數的公式為:
5.根據權利要求4所述的中醫循證知識抽取方法,其特征在于,對所述平衡圖像進行圖像增強處理,得到增強圖像,包括:
6.根據權利要求5所述的中...
【專利技術屬性】
技術研發人員:楊碩,張君冬,周澤坤,陳嘉俊,趙博衡,李芹,陳琦,周文佳,
申請(專利權)人:中國中醫科學院中醫藥信息研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。