• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種醫療大數據分析處理系統及方法技術方案

    技術編號:15691286 閱讀:105 留言:0更新日期:2017-06-24 04:22
    本發明專利技術公開了一種醫療大數據分析處理系統及方法。該系統包括:數據采集模塊,采集關于需要預測的疾病并發癥的原始數據;數據預處理模塊,對采集的原始數據進行清洗和集成;數據轉換模塊,對經預處理后的數據利用熵進行離散化處理;預測模型構建模塊,構建用于訓練的邏輯回歸模型和得到最終的預測模型;預測模型測試模塊,利用得到的最終的預測模型進行測試,以得到預測結果;預測結果評估模塊,采用多種評估度量對預測結果的準確性進行評估。本發明專利技術對獲取的醫療數據進行了過濾清洗處理,并進行了基于熵的離散化處理,保證了最終模型的擬合性,以及使用了多個評估度量來對預測結果進行了評估,從而確保了最終預測結果的準確性。

    Medical large data analysis processing system and method

    The invention discloses a medical large data analysis and processing system and a method thereof. The system includes a data acquisition module, collecting the raw data about disease complications to be predicted; data preprocessing module, cleaning and integration of the original data acquisition; data conversion module, for after data preprocessing using the entropy discretization; forecast model, for the construction of training logistic regression the model and get the final prediction model; prediction model test module, test using the final prediction model, in order to get the prediction results; the prediction results evaluation module, using a variety of measurement accuracy of the prediction results are evaluated. The invention can filter cleaning treatment of the medical data acquisition, and discretization based on entropy, ensure the fit of the final model, and use a lot of assessment to measure the prediction results are evaluated, so as to ensure the accuracy of the final results.

    【技術實現步驟摘要】
    一種醫療大數據分析處理系統及方法
    本專利技術涉及一種大數據分析處理系統及方法,具體涉及一種醫療大數據分析處理系統及方法。
    技術介紹
    隨著網絡的日益普及和高速發展,各個行業的大數據都可以被收集到。針對大數據的挖掘已經在其它行業有了很大程度的應用并也有了很顯著的成果,但是與其它行業的應用不同的是,醫療行業由于與病患的生命安全有著緊密的聯系,所以其分析結果的準確性和實用性更是需要關注的重點。
    技術實現思路
    針對上述技術問題,本專利技術的目的是對臨床大數據進行分析和處理,以為常見的疾病并發癥進行及時和準備的預測,為醫療診斷提供輔助支持。本專利技術采用的技術方案為:本專利技術的一實施例提供一種醫療大數據分析處理系統,包括:數據采集模塊,采集關于需要預測的疾病并發癥的原始數據,所述原始數據包括病人檢驗指標信息、病人檢驗報告信息和病人就診記錄信息;數據預處理模塊,對采集的原始數據進行清洗和集成;數據轉換模塊,對經預處理后的數據利用熵進行離散化處理,以得到為標稱型數據的樣本集;預測模型構建模塊,構建用于訓練的邏輯回歸模型,從經數據轉換的樣本集中隨機抽取一份數據集作為訓練集,并基于該訓練集對構建的邏輯回歸模型的參數進行求解,以得到最終的預測模型;預測模型測試模塊,將樣本集中的另一份數據集作為測試集,利用得到的最終的預測模型進行測試,以得到預測結果;預測結果評估模塊,采用多種評估度量對預測結果的準確性進行評估。可選地,所述預測模型構建模塊包括:矩陣構建單元,將訓練集中的m個樣本構建為m×n型矩陣,n為訓練樣本的n個指標;訓練模型構建單元,基于構建的m×n型矩陣,構建如下式(1)所示的邏輯回歸模型:y=ΘTx=θ0*x0+θ1*x1+...+θn*xn(1)其中,x=[x0,x1,...,xm]為矩陣中的n維向量,表示n種檢驗指標的結果,y表示診斷結果,在訓練集中,當病人患有該種疾病時,取值為1,當病人沒有患有該種疾病時,取值為0,ΘT=[θ0,θ1,...,θm]為該n維向量的特征權重向量,為需要求解的模型參數;參數求解單元,利用極大似然函數對構建的邏輯回歸模型的參數進行求解,所述極大似然函數如下式(2)所示:L(Θ)=∏g(ΘTx)y(1-g(ΘTx))1-y(2)其中,g(ΘTx)為將回歸結果y二分化的激勵函數,當g(ΘTx)<T時,y=0,即g(ΘTx)y=1,(1-g(ΘTx))1-y=(1-g(ΘTx)),當g(ΘTx)≧T時,y=1,即g(ΘTx)y=g(ΘTx),(1-g(ΘTx))1-y=1,T為基于期望分類結果所確定的閾值;對上述公式(2)所示的極大似然函數兩端求導得到其對數似然函數,如下式(3)所示:l(Θ)=∑y*logg(ΘTx)+(1-y)*log(1-g(ΘTx))(3)通過對上述公式(3)所示的對數似然函數的參數進行求解,可得到用于訓練的邏輯回歸模型的模型參數,從而得到最終的預測模型。可選地,采用梯度下降法來對所述對數似然函數的參數進行求解,包括如下步驟:(1)選擇梯度方向(2)選擇下降步長α,對參數進行更新:(3)重復以上步驟直至滿足停止條件;其中,xi是投影到[0,1]之間的任意變量,yi是第i個樣本的真實值,yi*是該樣本的預測值,λ是防止模型過擬合的結構化系數。可選地,所述預測模型測試模塊基于最終的預測模型的決策函數來確定預測結果,所述決策函數如下式(4)所示:其中,P(y=1|x;θ)為預測結果為正類的概率。可選地,所述數據轉換模塊對經預處理后的數據利用熵進行離散化處理包括:將樣本集中的指標數據的百分位數作為候選的分割節點,并且設定每個指標數據最多被分成3份:當以某個節點分割后,使得該指標數據分成兩個區域,若兩個區域的數據樣本量之比小于0.5或大于2,則繼續對較大的那個區域進行離散化,否則該指標的離散化結束。可選地,所述數據預處理模塊采用檢測結果指標數據的平均值來對缺失的指標數據進行填補和采用“1-99”分位法來對指標數據中的離群點進行處理。可選地,所述評估度量包括準確率、精度和召回率。本專利技術的另一實施例提供一種醫療大數據分析處理方法,包括:S100:采集關于需要預測的疾病并發癥的原始數據,所述原始數據包括病人檢驗指標信息、病人檢驗報告信息和病人就診記錄信息;S200:對采集的原始數據進行清洗和集成;S300:對經預處理后的數據利用熵進行離散化處理,以得到為標稱型數據的樣本集;S400:構建用于訓練的邏輯回歸模型,從經數據轉換的樣本集中隨機抽取一份數據集作為訓練集,并基于該訓練集對構建的邏輯回歸模型的參數進行求解,以得到最終的預測模型;S500:將樣本集中的另一份數據集作為測試集,利用得到的最終的預測模型進行測試,以得到預測結果;S600:采用多種評估度量對預測結果的準確性進行評估。本專利技術首先對獲取的醫療數據進行了過濾清洗處理,然后對經過濾清洗后的數據進行了基于熵的離散化處理,保證了最終模型的擬合性,以及使用了多個評估度量來對預測結果進行了評估,從而確保了最終預測結果的準確性。附圖說明圖1為本專利技術的醫療大數據分析處理系統的結構示意圖。圖2為本專利技術的醫療大數據分析處理方法的流程示意圖。具體實施方式為使本專利技術要解決的技術問題、技術方案和優點更加清楚,下面將結合附圖及具體實施例進行詳細描述。圖1為本專利技術的醫療大數據分析處理系統的結構示意圖。圖2為本專利技術的醫療大數據分析處理方法的流程示意圖。第一實施例首先,參考圖1對本專利技術的醫療大數據分析處理系統進行介紹。如圖1所示,本專利技術的醫療大數據分析處理系統包括數據采集模塊1、數據預處理模塊2、數據轉換模塊3、預測模型構建模塊4、預測模型模塊5和預測結果評估模塊6。以下,對這些模塊進行詳細介紹。【數據采集模塊】數據采集模塊1用于從各醫院信息平臺采集關于需要預測的疾病并發癥的原始數據,所述原始數據主要包括病人檢驗指標信息、病人檢驗報告信息和病人就診記錄信息等三部分信息。在一示例中,例如甲亢病人的診斷數據,這三部分的主要信息結構可如下表1所示:表1待處理數據信息結構上表中的字段表示的指標數據。【數據預處理模塊】數據預處理模塊2用于對采集的原始數據進行清洗和集成。<數據清洗>由于病人的檢測指標會存在一些指標數據不完整,以上表1的內容為例,使用的數據為甲亢病人的檢驗指標信息,檢驗指標為8種,即每個病人每次檢驗時都會去檢驗這8種指標,但并不是每個病人每次檢驗時都會去檢驗這8種指標,所以會出現一個病人每次檢驗指標不足8種的情況。對于此種情況,要在邏輯回歸模型中加入每種指標作為自變量時,就會造成該部分自變量的缺失;又或者某些指標數據大于正常指標等情況,例如,在實際情況中,可能由于各種各樣的原因造成了數據的不準確0此處的一個例子是,在病人檢驗指標的信息中,某些檢驗指標的值會出奇的高或者低,例如TPOAb指標的參考范圍為“<5.611U/ml”,而某些病人的該項指標檢測結果顯示為“>1000.00”,對于這種情況,無論是在實際情況中還是模型的準確性上,都有著很大的影響。因此,需要對采集的指標數據進行清洗。本專利技術中使用的指標數據由于涉及的8個字段的檢測結果均為數值類型字段,因此可使用指標數據的平均值來對缺失的指標數據進行替換。對于指標數據的離群點本文檔來自技高網...
    一種醫療大數據分析處理系統及方法

    【技術保護點】
    一種醫療大數據分析處理系統,其特征在于,包括:數據采集模塊,采集關于需要預測的疾病并發癥的原始數據,所述原始數據包括病人檢驗指標信息、病人檢驗報告信息和病人就診記錄信息;數據預處理模塊,對采集的原始數據進行清洗和集成;數據轉換模塊,對經預處理后的數據利用熵進行離散化處理,以得到為標稱型數據的樣本集;預測模型構建模塊,構建用于訓練的邏輯回歸模型,從經數據轉換的樣本集中隨機抽取一份數據集作為訓練集,并基于該訓練集對構建的邏輯回歸模型的參數進行求解,以得到最終的預測模型;預測模型測試模塊,將樣本集中的另一份數據集作為測試集,利用得到的最終的預測模型進行測試,以得到預測結果;預測結果評估模塊,采用多種評估度量對預測結果的準確性進行評估。

    【技術特征摘要】
    1.一種醫療大數據分析處理系統,其特征在于,包括:數據采集模塊,采集關于需要預測的疾病并發癥的原始數據,所述原始數據包括病人檢驗指標信息、病人檢驗報告信息和病人就診記錄信息;數據預處理模塊,對采集的原始數據進行清洗和集成;數據轉換模塊,對經預處理后的數據利用熵進行離散化處理,以得到為標稱型數據的樣本集;預測模型構建模塊,構建用于訓練的邏輯回歸模型,從經數據轉換的樣本集中隨機抽取一份數據集作為訓練集,并基于該訓練集對構建的邏輯回歸模型的參數進行求解,以得到最終的預測模型;預測模型測試模塊,將樣本集中的另一份數據集作為測試集,利用得到的最終的預測模型進行測試,以得到預測結果;預測結果評估模塊,采用多種評估度量對預測結果的準確性進行評估。2.根據權利要求1所述的醫療大數據分析處理系統,其特征在于,所述預測模型構建模塊包括:矩陣構建單元,將訓練集中的m個樣本構建為m×n型矩陣,n為訓練樣本的n個指標;訓練模型構建單元,基于構建的m×n型矩陣,構建如下式(1)所示的邏輯回歸模型:y=ΘTx=θ0*x0+θ1*x1+...+θn*xn(1)其中,x=[x0,x1,...,xm]為矩陣中的n維向量,表示n種檢驗指標的結果,y表示診斷結果,在訓練集中,當病人患有該種疾病時,取值為1,當病人沒有患有該種疾病時,取值為0,ΘT=[θ0,θ1,...,θm]為該n維向量的特征權重向量,為需要求解的模型參數;參數求解單元,利用極大似然函數對構建的邏輯回歸模型的參數進行求解,所述極大似然函數如下式(2)所示:L(Θ)=∏g(ΘTx)y(1-g(ΘTx))1-y(2)其中,g(ΘTx)為將回歸結果y二分化的激勵函數,當g(ΘTx)<T時,y=0,即g(ΘTx)y=1,(1-g(ΘTx))1-y=(1-g(ΘTx)),當g(ΘTx)≧T時,y=1,即g(ΘTx)y=g(ΘTx),(1-g(ΘTx))1-y=1,T為基于期望分類結果所確定的閾值;對上述公式(2)所示的極大似然函數兩端求導得到其對數似然函數,如下式(3)所示:l(Θ)=∑y*logg(ΘTx)+(1-y)*log(1-g(ΘTx))(3)通過對上述公式(3)所示的對數似然函數的參數進行求解,可得到用于訓練的邏輯回歸模型的模型參數,從而得到最終的預測模型。3.根據權利要求2所述的醫療大數據分析處理系統,其特征在于,采用梯度下降法來對所述對數似然函數的參數進行求解,包括如下步驟:(1)選擇梯度方向(2)選擇下降步長α,對參數進行更新:(3)重復以上步驟直至滿足停止條件;其中,xi是投影到[0,1]之間的任意變量,yi是第i個樣本的真實值,yi*是該樣本的預測值,λ是防止模型過擬合的結構化系數。4.根據權利要求2所述的醫療大數據分析處理系統,其特征在于,所述預測模型測試模塊基于最終的預測模型的決策函數來確定預測結果,所述決策函數如下式(4)所示:其中,P(y=1|x;θ)為預測結果為正類的概率。5.根據權利要求1所述的醫療大數據分析處理系統,其特征在于,所述數據轉換模塊對經預處理后的數據利用熵進行離散化處理包括:將樣本集中的指標數據的百分位數作為候選的分割節點,并且設定每個指標數據最多被分成3份:當以某個節點分割后,使得該指標數據分成兩個區域,若兩個區域的數據樣本量之比小于0.5或大于2,則繼續對較大的那個區域進行離散化,否則該指標的離散化結束。6.根據權利要求1所述的醫療大數據分析處理系統,其特征在于,所述數據預處理模塊采用檢測結果指標數據的平均值來對缺失的指標數據進行填補和采用“1-99”分位法來對指標數據中的離群點進行處理。7.根據權利要求1至6任一項所述的醫療大數據分析處理系統,其特征在于,所述評估度量包括...

    【專利技術屬性】
    技術研發人員:劉希武洋李建麗
    申請(專利權)人:國信優易數據有限公司
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码粉嫩虎白一线天在线观看| 亚洲av无码日韩av无码网站冲| 无码AⅤ精品一区二区三区| 精品无码一区二区三区爱欲| 午夜人性色福利无码视频在线观看| 亚洲精品无码av中文字幕| 西西4444www大胆无码| 国产成人无码一区二区在线播放| 亚洲aⅴ天堂av天堂无码麻豆| 国产又爽又黄无码无遮挡在线观看| 中文无码字慕在线观看| 亚洲精品一级无码鲁丝片| 97碰碰碰人妻视频无码| 久久无码人妻精品一区二区三区 | 国产成人无码午夜视频在线观看| 国产成人无码a区在线视频| 97性无码区免费| 久久精品aⅴ无码中文字字幕| 无码喷水一区二区浪潮AV | 久久久久亚洲AV无码网站| 精品无码黑人又粗又大又长| 亚洲中文字幕无码av永久| 午夜无码国产理论在线| 无码日韩精品一区二区免费暖暖 | 无码天堂亚洲国产AV| 亚洲AV无码一区二区三区性色 | 日韩精品无码永久免费网站| 亚洲中文字幕无码av在线| 亚洲国产精品无码久久久秋霞2| 中文字幕无码精品亚洲资源网| 少妇仑乱A毛片无码| 无码国产69精品久久久久孕妇| 无码少妇丰满熟妇一区二区| 最新无码专区视频在线| 久久无码高潮喷水| 亚洲中文字幕无码一去台湾| 色综合久久无码中文字幕| 色综合久久久久无码专区| 人妻aⅴ无码一区二区三区| 无码精品A∨在线观看免费| 无码乱码av天堂一区二区|