The invention discloses a medical large data analysis and processing system and a method thereof. The system includes a data acquisition module, collecting the raw data about disease complications to be predicted; data preprocessing module, cleaning and integration of the original data acquisition; data conversion module, for after data preprocessing using the entropy discretization; forecast model, for the construction of training logistic regression the model and get the final prediction model; prediction model test module, test using the final prediction model, in order to get the prediction results; the prediction results evaluation module, using a variety of measurement accuracy of the prediction results are evaluated. The invention can filter cleaning treatment of the medical data acquisition, and discretization based on entropy, ensure the fit of the final model, and use a lot of assessment to measure the prediction results are evaluated, so as to ensure the accuracy of the final results.
【技術實現步驟摘要】
一種醫療大數據分析處理系統及方法
本專利技術涉及一種大數據分析處理系統及方法,具體涉及一種醫療大數據分析處理系統及方法。
技術介紹
隨著網絡的日益普及和高速發展,各個行業的大數據都可以被收集到。針對大數據的挖掘已經在其它行業有了很大程度的應用并也有了很顯著的成果,但是與其它行業的應用不同的是,醫療行業由于與病患的生命安全有著緊密的聯系,所以其分析結果的準確性和實用性更是需要關注的重點。
技術實現思路
針對上述技術問題,本專利技術的目的是對臨床大數據進行分析和處理,以為常見的疾病并發癥進行及時和準備的預測,為醫療診斷提供輔助支持。本專利技術采用的技術方案為:本專利技術的一實施例提供一種醫療大數據分析處理系統,包括:數據采集模塊,采集關于需要預測的疾病并發癥的原始數據,所述原始數據包括病人檢驗指標信息、病人檢驗報告信息和病人就診記錄信息;數據預處理模塊,對采集的原始數據進行清洗和集成;數據轉換模塊,對經預處理后的數據利用熵進行離散化處理,以得到為標稱型數據的樣本集;預測模型構建模塊,構建用于訓練的邏輯回歸模型,從經數據轉換的樣本集中隨機抽取一份數據集作為訓練集,并基于該訓練集對構建的邏輯回歸模型的參數進行求解,以得到最終的預測模型;預測模型測試模塊,將樣本集中的另一份數據集作為測試集,利用得到的最終的預測模型進行測試,以得到預測結果;預測結果評估模塊,采用多種評估度量對預測結果的準確性進行評估。可選地,所述預測模型構建模塊包括:矩陣構建單元,將訓練集中的m個樣本構建為m×n型矩陣,n為訓練樣本的n個指標;訓練模型構建單元,基于構建的m×n型矩陣,構建如下式(1)所 ...
【技術保護點】
一種醫療大數據分析處理系統,其特征在于,包括:數據采集模塊,采集關于需要預測的疾病并發癥的原始數據,所述原始數據包括病人檢驗指標信息、病人檢驗報告信息和病人就診記錄信息;數據預處理模塊,對采集的原始數據進行清洗和集成;數據轉換模塊,對經預處理后的數據利用熵進行離散化處理,以得到為標稱型數據的樣本集;預測模型構建模塊,構建用于訓練的邏輯回歸模型,從經數據轉換的樣本集中隨機抽取一份數據集作為訓練集,并基于該訓練集對構建的邏輯回歸模型的參數進行求解,以得到最終的預測模型;預測模型測試模塊,將樣本集中的另一份數據集作為測試集,利用得到的最終的預測模型進行測試,以得到預測結果;預測結果評估模塊,采用多種評估度量對預測結果的準確性進行評估。
【技術特征摘要】
1.一種醫療大數據分析處理系統,其特征在于,包括:數據采集模塊,采集關于需要預測的疾病并發癥的原始數據,所述原始數據包括病人檢驗指標信息、病人檢驗報告信息和病人就診記錄信息;數據預處理模塊,對采集的原始數據進行清洗和集成;數據轉換模塊,對經預處理后的數據利用熵進行離散化處理,以得到為標稱型數據的樣本集;預測模型構建模塊,構建用于訓練的邏輯回歸模型,從經數據轉換的樣本集中隨機抽取一份數據集作為訓練集,并基于該訓練集對構建的邏輯回歸模型的參數進行求解,以得到最終的預測模型;預測模型測試模塊,將樣本集中的另一份數據集作為測試集,利用得到的最終的預測模型進行測試,以得到預測結果;預測結果評估模塊,采用多種評估度量對預測結果的準確性進行評估。2.根據權利要求1所述的醫療大數據分析處理系統,其特征在于,所述預測模型構建模塊包括:矩陣構建單元,將訓練集中的m個樣本構建為m×n型矩陣,n為訓練樣本的n個指標;訓練模型構建單元,基于構建的m×n型矩陣,構建如下式(1)所示的邏輯回歸模型:y=ΘTx=θ0*x0+θ1*x1+...+θn*xn(1)其中,x=[x0,x1,...,xm]為矩陣中的n維向量,表示n種檢驗指標的結果,y表示診斷結果,在訓練集中,當病人患有該種疾病時,取值為1,當病人沒有患有該種疾病時,取值為0,ΘT=[θ0,θ1,...,θm]為該n維向量的特征權重向量,為需要求解的模型參數;參數求解單元,利用極大似然函數對構建的邏輯回歸模型的參數進行求解,所述極大似然函數如下式(2)所示:L(Θ)=∏g(ΘTx)y(1-g(ΘTx))1-y(2)其中,g(ΘTx)為將回歸結果y二分化的激勵函數,當g(ΘTx)<T時,y=0,即g(ΘTx)y=1,(1-g(ΘTx))1-y=(1-g(ΘTx)),當g(ΘTx)≧T時,y=1,即g(ΘTx)y=g(ΘTx),(1-g(ΘTx))1-y=1,T為基于期望分類結果所確定的閾值;對上述公式(2)所示的極大似然函數兩端求導得到其對數似然函數,如下式(3)所示:l(Θ)=∑y*logg(ΘTx)+(1-y)*log(1-g(ΘTx))(3)通過對上述公式(3)所示的對數似然函數的參數進行求解,可得到用于訓練的邏輯回歸模型的模型參數,從而得到最終的預測模型。3.根據權利要求2所述的醫療大數據分析處理系統,其特征在于,采用梯度下降法來對所述對數似然函數的參數進行求解,包括如下步驟:(1)選擇梯度方向(2)選擇下降步長α,對參數進行更新:(3)重復以上步驟直至滿足停止條件;其中,xi是投影到[0,1]之間的任意變量,yi是第i個樣本的真實值,yi*是該樣本的預測值,λ是防止模型過擬合的結構化系數。4.根據權利要求2所述的醫療大數據分析處理系統,其特征在于,所述預測模型測試模塊基于最終的預測模型的決策函數來確定預測結果,所述決策函數如下式(4)所示:其中,P(y=1|x;θ)為預測結果為正類的概率。5.根據權利要求1所述的醫療大數據分析處理系統,其特征在于,所述數據轉換模塊對經預處理后的數據利用熵進行離散化處理包括:將樣本集中的指標數據的百分位數作為候選的分割節點,并且設定每個指標數據最多被分成3份:當以某個節點分割后,使得該指標數據分成兩個區域,若兩個區域的數據樣本量之比小于0.5或大于2,則繼續對較大的那個區域進行離散化,否則該指標的離散化結束。6.根據權利要求1所述的醫療大數據分析處理系統,其特征在于,所述數據預處理模塊采用檢測結果指標數據的平均值來對缺失的指標數據進行填補和采用“1-99”分位法來對指標數據中的離群點進行處理。7.根據權利要求1至6任一項所述的醫療大數據分析處理系統,其特征在于,所述評估度量包括...
【專利技術屬性】
技術研發人員:劉希,武洋,李建麗,
申請(專利權)人:國信優易數據有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。