The invention relates to a prediction method of TCM syndrome type classification and multi label learning based on Bayesian network, by looking for the relationship between TCM disease type 6 diabetes mellitus, explore each type of invisible existence \causes\, and the \cause\ and the traditional four diagnostic information combined with the augmented feature set to describe the sample. Finally, the classifier is constructed by feature selection algorithm and multi label classification algorithm to predict the classification of 6 common diseases of Chinese medicine and clinical diabetes.
【技術實現步驟摘要】
基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法
本專利技術涉及一種信息分類預測方法,特別是涉及一種使用標記相關性作為描述樣本的補充特征,并且將多標記學習算法和貝葉斯網絡進行結合的基于多標記學習的中醫臨床癥型分類方法。
技術介紹
中醫臨床癥型分類主要是通過中醫望聞問切的手法得到患者的癥狀信息(如:頭疼、四肢冰冷、脈細等),并運用分類模型得到該患者對應癥型(如:氣虛、肝胃郁熱等)。中醫臨床癥型分類問題最大特點在于:每個患者對應癥型常有多個,例如:氣陰兩虛兼血瘀,其中包含了氣虛、陰虛和血瘀三種癥型,因此使用多標記學習模型構建分類器成為解決該問題的常用方法。基于考察標記之間相關性的不同方式,已有的多標記學習問題求解策略大致可以分為三種:一階、二階和高階;其中一階方法將多標記問題轉化成多個獨立的二分類問題,忽略標記之間的關系,所以模型泛化能力最低,正確率不高;二階方法將多標記問題拆分成兩兩標記比較,在一定程度上提高分類器泛化能力和正確率,但當現實問題具有超越二階的相關性時,該類方法的性能將會受到很大影響;高階方法策略通過考察高階的標記相關性來構造分類器,如處理任一標記對其它所有標記的影響,這類方法往往泛化能力最高,但其復雜度也可能隨之變大,不利于處理大規模數據。使用標記相關性來設計分類器,是多標記學習領域的特點也是難點?,F在常用的多標記分類方法有大部分是將已有的二分類器進行改編,以適應多標記學習問題。
技術實現思路
要解決的技術問題為了避免現有技術的不足之處,本專利技術提出一種基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法。技術方案一種基于多標記學習和貝葉斯網絡的中 ...
【技術保護點】
一種基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法,其特征在于步驟如下:步驟1:根據收集到的t個中醫病例,整理了s種四診癥狀,選擇以二值方式為特征賦值,如果病人出現某一癥狀,則該癥狀賦值為1,反之為0,由此得到每個樣本的特征集x
【技術特征摘要】
1.一種基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法,其特征在于步驟如下:步驟1:根據收集到的t個中醫病例,整理了s種四診癥狀,選擇以二值方式為特征賦值,如果病人出現某一癥狀,則該癥狀賦值為1,反之為0,由此得到每個樣本的特征集xi=(xi1,xi2,…,xis),其中i=1,…,t;同時,根據中醫病例整理出k種常見的糖尿病癥型,針對每個樣本,如果該樣本對應標記集中有某一癥型,則為該癥型賦值1,反之為0,由此得到每個樣本的標記集Yi=(yi1,yi2,…,yik),其中i=1,…,t,將每個樣本的特征集和標記集一一對應對應得到一個數據集S={(x1,Y1),(x2,Y2),…,(xt,Yt)},將數據集S分為訓練數據集D={(x1,Y1),(x2,Y2),…,(xm,Ym)}和測試數據集K={(x1,Y1),(x2,Y2),…,(xn,Yn)};步驟2:將樣本的標記集Yi=(yi1,yi2,…,yik)輸入到BayesianDAGlearning工具包中,使用BayesianDAGlearning工具包中所提供動態規劃算法DP來計算得到最優貝葉斯網絡模型;步驟3:根據貝葉斯網絡模型讀取訓練數據集D中每個樣本標記的父節點信息pa=(p1,p2,…,pk),將已有s維的四診信息與k維的父節點信息融合,得到了一個s+k維的訓練數據的增廣特征集:xi′=xi∪pai=(xi1,xi2,…,xis,pi1,pi2,…,pik);步驟4:使用訓練數據D的特征集x1,x2,…,xm和它們的父節點信息pa1,pa2,…,pam分別作為訓練數據和訓練數據的標記集,訓練得到一個多標記神經網絡,使用這個多標記神經網絡來預測測試數據集K中每個樣本標記的父節點信息;然后將父節點信息與測試數據四診信息融合,形成測試數據的增廣特征集;步驟5:將增廣訓練數據集D’={(x1′,Y1),(x2′,Y2),…,(xn′,Yn)}平均分成兩份D1’,D2’用來訓練出最優特征子集;使用訓練數據D1’來隨機生成新的特征子集共100組,將100組特征子集作為最初解空間,使用模擬退火算法SA進行迭代,每輪迭代中,將經過每組特征子集簡化后的訓練數據D1’輸入多標記分類器,由多標記分類器輸出一個指標Averageprecision作為描述特征子集的適應度,在設定時間Tk搜索解空間里適應度最高的解,即100組的特征子集:BF1’,BF2’,…,BF100’;步驟6:將BF1’,BF2’,…,BF100’作為遺傳算法GA的...
【專利技術屬性】
技術研發人員:夏勇,馬夢羽,沈璐,張艷寧,
申請(專利權)人:西北工業大學,
類型:發明
國別省市:陜西,61
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。