【技術實現步驟摘要】
【技術保護點】
一種基于多核學習與Boosting算法的蛋白質?DNA綁定位點預測方法,其特征在于,包括以下步驟:步驟1:特征提取,使用PSI?BLAST與SANN程序分別提取蛋白質序列的進化信息特征和溶劑可及性特征,在此基礎上使用滑動窗口技術構建每一個氨基酸殘基的特征向量,每個殘基有兩個對應著兩種不同的信息來源的特征向量;步驟2:特征融合,使用基于線性核的多核學習算法對上述步驟1中的兩個特征向量進行評估,得到相應的權重信息,并根據權重進行加權串行組合得到最終的樣本特征向量;步驟3:使用隨機下采樣技術,對非綁定位點殘基進行多次下采樣,得到多個非綁定位點樣本子集,將每一個非綁定位點樣本子集與綁定位點樣本集合并后訓練一個SVM預測模型,得到多個SVM預測模型;以及步驟4:使用Boosting提升算法,將步驟3中得到的多個SVM預測模型進行集成,得到最終的蛋白質?DNA綁定位點預測模型,用于預測樣本是否為DNA綁定位點;步驟5、對于待預測蛋白質序列,采用所述步驟1的方式進行特征提取和步驟2的方式進行特征融合,然后輸入步驟4中所最終得到的蛋白質?DNA綁定位點預測模型,預測出蛋白質?DNA綁定位點。
【技術特征摘要】
【專利技術屬性】
技術研發人員:於東軍,胡俊,李陽,沈紅斌,楊靜宇,
申請(專利權)人:南京理工大學,
類型:發明
國別省市:江蘇;32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。