本發明專利技術公開了一種免疫相關lncRNA的篩選方法,所述包括如下步驟:從TCGA數據庫中下載癌癥患者的RNA測序(RNA
【技術實現步驟摘要】
一種免疫相關lncRNA的篩選方法
[0001]本專利技術屬于生物信息學中的關聯關系預測領域,涉及一種lncRNA的篩選方法。
技術介紹
[0002]近年來的研究發現癌癥的預后不但與癌癥的病理分期有關,還與一些腫瘤微環境具有較強且明顯的關系,腫瘤的微環境主要包括基質細胞、腫瘤細胞和免疫細胞等。免疫相關的lncRNA的差異表達與多種免疫細胞的抑制與活化有關,特異免疫相關lncRNA的差異性表達可以通過與調節因子的相互作用,進而調節癌細胞的生物學特征。免疫相關的lncRNAs已經被認為是介導免疫過程的免疫細胞特異性表達的調節劑。并且越來越多的研究發現,lncRNA在基因轉錄、翻譯和表觀遺傳等多層面參與生命活動調控,還可以調節巨噬細胞M2極化,從而影響腫瘤細胞的遷移和侵襲。因此通過將lncRNA與免疫細胞的數據相結合起來通過機器學習的技術篩選出免疫相關基因。彈性網絡算法是一種同時使用L1和L2范數作為先驗正則項訓練的線性回歸模型,彈性網絡是一不斷疊代的方法。該組合既可以擬合廣義線性模型的同時進行復雜度調整和變量篩選,又能具有良好的穩定性,可以提高模型的泛化能力,又能防止過擬合。因此利用彈性網絡算法篩選免疫相關lncRNA可以具有更好的準確性,以此深入了解癌癥免疫相關基因的功能,并可以更好地指導臨床工作。
技術實現思路
[0003]本專利技術將癌癥患者的lncRNA與免疫細胞相結合組成免疫相關lncRNA,首先利用彈性網絡算法篩選關鍵免疫相關lncRNA,并結合多因素Cox比例風險回歸模型篩選關鍵免疫相關lncRNA,最終構成預后風險模型。相較于其他方法,該專利技術納入了與癌癥預后相關具有緊密關系的免疫細胞與lncRNA進行關聯,并且對于篩選免疫相關lncRNA的方法進行了改進,利用彈性網絡算法進行篩選相較于以往的方法具有更好的準確性與穩定性。
[0004]專利技術目的:基于免疫相關的長鏈非編碼RNAs運用彈性網絡算法篩選并結合構建Cox比例風險回歸模型篩選癌癥預后免疫相關關鍵長鏈非編碼RNAs,以此構建預后風險模型。所述包括如下步驟:步驟一、獲取癌癥患者的RNA
?
seq和患者臨床數據以及免疫細胞數據;步驟二、對癌癥患者的RNA
?
Seq和患者臨床數據以及免疫細胞數據的預處理,包括提取疾病相關lncRNA與免疫細胞;步驟三、對預處理后的lncRNA與免疫相關基因進行相關性檢驗篩選出免疫相關的lncRNAs,組成免疫相關lncRNAs對;步驟四、將獲得免疫相關lncRNA數據集與臨床生存期數據進行合并,劃分為訓練集和測試集;步驟五、對訓練集基于彈性網絡模型篩選出癌癥預后相關差異性表達的免疫相關lncRNAS;步驟六、對篩選出的免疫相關lncRNAs納入多因素Cox回歸分析進一步篩選出癌癥
預后相關關鍵差異表達lncRNAs步驟七、構建回歸預測模型。
[0005]將下載的RNA
?
seq數據合并為表達矩陣數據,提取出lncRNAs和miRNAs數據進行差異化表達分析,并對基因表達量進行標準化處理,便于后續分析。利用下載的免疫相關基因集,分析提取免疫相關基因。
[0006]通過免疫相關基因
?
LncRNA共表達方法鑒定,以相關系數cor=0.4,pvalue=0.001作為過濾標準做相關性檢驗獲得免疫相關的LncRNA。
[0007]將獲得的癌癥免疫相關的LncRNA以及癌癥患者臨床數據整合為“lncRNA
?
臨床信息”矩陣,同時將數據分為訓練集與測試集,初步的預后相關lncRNAs的篩選以及預后風險評分的回歸系數的計算只再訓練集中進行,測試集用于驗證預后風險模型。
[0008]將得到的表達數據代入彈性網絡回歸模型,然后建立模型的目標函數,再通過驗證得到最優參數模型,計算回歸系數。
[0009]彈性網絡回歸的目標函數為:因為,因此總存在[0,1],使得:基于彈性網絡篩選出癌癥預后相關的差異表達免疫相關lncRNA后,進行多因素Cox比例風險回歸模型,根據最優的赤池信息模擬準則,篩選出最終構成風險評分模型的免疫相關lncRNAs。模型公式如下:風險評分=其中N表示構建風險評分模型的免疫相關lncRNA數目,表示免疫相關lncRNA系數,免疫相關lncRNA的表達水平。
附圖說明
[0010]圖1.基于彈性網絡算法的免疫相關lncRNA預后模型構建流程圖;圖2.依據模型得到的ROC圖;圖3.將生存期分為一年、兩年、三年的ROC;圖4.高低風險組預后模型圖。
具體實施方式
[0011]基于一種免疫相關lncRNA的篩選方法,以肝癌為例子進行說明,將免疫相關的長鏈非編碼RNAs運用彈性網絡算法篩選并結合構建Cox比例風險回歸模型篩選肝癌預后免疫相關關鍵長鏈非編碼RNAs,并構建預后風險模型。所述包括如下步驟:步驟1對肝癌患者的RNA
?
Seq和患者臨床數據以及免疫細胞數據的預處理,包括提取疾病相關lncRNA與免疫細胞;步驟2對預處理后的lncRNA與免疫相關基因進行相關性檢驗篩選出免疫相關的
lncRNAs,組成免疫相關lncRNAs;步驟3將數據集劃分為訓練集和測試集,對訓練集基于彈性網絡模型篩選出肝癌預后相關差異性表達的免疫相關lncRNAS;步驟4對篩選出的免疫相關lncRNAs納入多因素Cox回歸分析進一步篩選出肝癌預后相關關鍵差異表達lncRNAs并構建回歸預測模型。
[0012]所述步驟1中具體包括下列步驟:步驟1 從TCGA數據門戶網站(https://portal.gdc.cancer.gov/)下載肝癌的基因表達信息與肝癌患者臨床信息,利用Perl軟件對基因表達信息數據與肝癌患者臨床數據進行預處理將下載的數據合并,得到癌癥樣本374個,正常樣本50個。將得到的基因表達數據合并為表達矩陣數據,并對基因表達量進行標準化處理,便于后續分析。通過GENCODE(https://www.gencodegenes.org/)數據庫的注釋文件提取lncRNAs。
[0013]所述步驟2中具體包括下列步驟:步驟2 通過ImmPort數據庫下載免疫相關基因集,使用R語言的
‘
limma
’
包分析并提取免疫相關基因。以相關系數cor=0.4,pvalue=0.001作為過濾標準做相關性檢驗獲得免疫相關的LncRNA。
[0014]所述步驟3中具體包括下列步驟:步驟3 .1將獲得的肝癌免疫相關的LncRNA以及肝癌患者臨床數據整合為“lncRNA
?
臨床信息”矩陣,同時將數據分為訓練集與測試集,初步的預后相關lncRNAs的篩選以及預后風險評分的回歸系數的計算只再訓練集中進行,測試集用于驗證預后風險模型;步驟3.2基于彈性網絡算法初步篩選出肝癌預后相關的差異性表達免疫相關lncRNA:彈性網絡回歸的目標函數為:因為,因此總存在[0,1],使得:。
[0015]所述步驟4中具體包括下列步本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種免疫相關lncRNA的篩選方法,其特征在于,包括:獲取癌癥患者的RNA
?
seq和患者臨床數據以及免疫細胞數據;對癌癥患者的RNA
?
Seq和患者臨床數據以及免疫細胞數據的預處理,包括提取疾病相關lncRNA與免疫細胞;對預處理后的lncRNA與免疫相關基因進行相關性檢驗篩選出免疫相關的lncRNAs,組成免疫相關lncRNAs對;將獲得免疫相關lncRNA數據集與臨床生存期數據進行合并,劃分為訓練集和測試集;對訓練集基于彈性網絡模型篩選出癌癥預后相關差異性表達的免疫相關lncRNAS;對篩選出的免疫相關lncRNAs納入多因素Cox回歸分析進一步篩選出癌癥預后相關關鍵差異表達lncRNAs。2.根據權利要求1所述的免疫相關lncRNA的篩選方法,其特征在于,所述依據包括提取疾病相關lncRNA與免疫細胞樣本數據:將下載的RNA
?
seq數據合并為表達矩陣數據,提取出lncRNAs和miRNAs數據進行差異化表達分析,并對基因表達量進行 標準化處理,便于后續分析;利用下載的免疫相關基因集,分析提取免疫相關基因。3.根據權利要求1所述的一種免疫相關lncRNA的篩選方法,其特征在于,所述依據包括篩選出免疫相關的lncRNAs:通過免疫相關基因
?
lncRNA共表達方法鑒定,以相關系數cor=0.4,pvalue=0.001作為過濾標準做相關性...
【專利技術屬性】
技術研發人員:王波,劉潤杰,韓瑜,姜偉,王振飛,
申請(專利權)人:齊齊哈爾大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。