本發明專利技術公開了基于專家知識與拓撲相似的鄰居優先生物分子子網搜索方法。其步驟如下:A、根據生物分子的序列特征,構建網絡T(Gt)和B(GB)中生物分子的初始相似矩陣。B、根據生物分子在網絡中的拓撲的相似特征,計算生物分子的相似矩陣S。C、構建專家知識字典。D、基于專家知識,以鄰居優先策略進行搜索,獲得結果子網。E、計算結果子網R(Gr)與目標子網T(Gt)的相似得分。F、計算p值。G、結果子網可視化。與同類方法相比,該方法計算準確度更高,具有更高的穩定性,能更好地處理生物分子網絡間的“空隙”(Gap),獲得更多的保守邊和節點,且能較好地反映生物分子網絡之間的變化情況。
【技術實現步驟摘要】
本專利技術涉及計算機領域,提出了基于專家知識與拓撲相似的鄰居優先生物分子子網搜索方法。
技術介紹
生物分子網絡是復雜網絡。在復雜網絡中搜索與目標子網最相似的子網是一個局部網絡比較問題,涉及到大量的計算,已被證實是一個NP完全問題(Non-deterministicPolynomial的問題,也即是多項式復雜程度的非確定性問題)。目前,研究人員普遍采用圖來表示復雜網絡,并以圖論的方法來研究它們。對于生物分子網絡而言,圖中的節點表示生物分子,邊表示生物分子之間的調控、相互作用等各種關系。由于生物分子網絡特有的生物學意義,僅用圖論的方法來研究它們是不夠的,其 搜索還面臨著更多的問題,主要包括(1)每個生物分子都有其生物學意義,要明確一個網絡中的某個生物分子和另外一個網絡中的哪個生物分子最相似,不僅要考慮生物分子本身的序列,還要考慮它在網絡中的拓撲位置;(2)無論是國際公開的數據庫中的數據,還是自己通過生物實驗獲得的數據都存在假陽性和假陰性現象,目前只能通過這些不完全準確和不完整的數據研究生物分子網絡;(3)對于要研究的不同的具體問題,網絡中各個分子的地位并不是完全平等的,計算過程中要合理利用專家知識,以貼近生物學的實際應用背景。目前,已有一些研究小組在進行這方面的研究,也開發了少量的工具。這些方法各有其優點,但也各有其局限性,無法滿足系統生物學的需要。而這些局限性主要體現在對具有相對復雜的拓撲結構的網絡搜索上,對于生物分子網絡而言,為了能獲得不同物種間的最相似網絡,計算的準確度必須得到提高。同時,考慮到生物分子網絡的進化和變異,不同物種的網絡雖然不同,卻有一定的保守性,算法應能在變異后的網絡中找到原始的保守信息,能較好地體現網絡拓撲的變化情況,且具有較高的穩定性。
技術實現思路
本專利技術的目的在于,為了解決上述問題而提供基于專家知識與拓撲相似的鄰居優先生物分子子網搜索方法,該方法能在復雜的生物分子網絡中搜索到與目標子網最相似的結果子網,避免了以往算法不能合理利用專家知識而帶來的計算的盲目性,并降低因原始信息缺失帶來的誤差,從而具有較高的穩定性。隨著生物分子網絡的進化和變異,該方法較少受到Gap的影響,從而可以搜索得到更多的保守邊和節點,而變異的邊數往往與未匹配邊數一致,即方法能較好地體現拓撲的變化情況。為達到上述目的,本專利技術的構思是首先結合生物分子的序列特征及其在網絡中的拓撲相似特征,計算各個生物分子之間的相似系數,其中拓撲相似特征主要考慮目標生物分子的鄰居/非鄰居分子之間的平均相似性,以降低原始信息缺失和不準確帶來的誤差,并提高其穩定性;然后根據具體問題和專家知識字典,將目標子網中的生物分子分類,確定K類分子的最相似分子;最后,根據生物分子之間的關系特點,如“與相似的蛋白質發生相互作用的那些蛋白質之間往往具有更高的相似度”,對N類分子采用鄰居優先的策略進行搜索,獲得結果子網。根據上述專利技術構思,對于網絡A (GA)、網絡B (Gb)及網絡A中的目標子網T (Gt),本專利技術采用下述技術方案A、計算 G t和 G B的初 始相 似矩 陣S0 :根據生物分子的序列特征,構建網絡T (Gt)和B (Gb)中生物分子的初始相似矩陣Se,其中的每個元素Sfc〕表示節點a. e Gt和節點I E Gs之間的序列相似系數b); B、計算Gt和Gb的相似矩陣S:根據生物分子在各自網絡中的拓撲相似特征,計算生物分子的相似矩陣S,矩陣中的每個元素Sb, b)為節點a G Gt和節點fc G Gs之間的相似系 數; C、構建專家知識字典字典中包含了網絡T(Gt)和B (Gb)中由專家確定的最相似的生物分子對; D、采用鄰居節點優先策略進行網絡搜索利用專家知識,基于相似矩陣&以鄰居優先策略進行搜索,獲得結果子網; E、計算結果子網(GJ與目標子網(Gt)的相似得分; F、計算/7值,分析目標子網的統計學意義; G、結果子網(4)可視化。本專利技術的基于專家知識與拓撲相似的鄰居優先生物分子子網搜索方法,與現有技術相比較,具有以下突出的實質性特點和顯著優點 I.該方法建立專家知識字典,避免了以往算法不能合理利用專家知識而帶來的計算的盲目性。2.該方法結合生物分子本身的序列特征及其在網絡中的拓撲特征計算生物分子的相似系數,實現了圖論方法和生物學應用背景的有機結合。3.該方法在計算生物分子拓撲結構相似的時候,強調生物分子在網絡拓撲結構上的平均相似性,而弱化它們的不相似性,有效降低了因為原始數據的不準確和不完整帶來的誤差。提高了算法的穩定性,且算法較少受到Gap的影響,能較好地體現網絡的變化情況。4.該方法采用鄰居節點優先進行網絡搜索,符合生物分子網絡的生物學意義,并降低了計算復雜度。附圖說明圖I是本專利技術的基于專家知識與拓撲相似的鄰居優先生物分子子網搜索方法的流程圖。圖2是圖I中步驟B所述的根據生物分子在各自網絡中的拓撲相似特征,對無向圖計算生物分子的相似矩陣的具體流程圖,對有向圖的計算與此類似。圖3是圖I中步驟D所述的基于專家知識進行搜索的流程圖。圖4是圖3中步驟D3所述的對N類生物分子根據鄰居優先的策略進行搜索配對的流程圖。圖5是圖I中步驟F所述的計算/7值的流程圖。圖6是圖5中步驟Fl所述的生成隨機網絡的流程圖。圖7是本專利技術與同類方法對經典示例的計算結果對比。圖8是為了不失一般性,對圖7算例的f 7條邊各進行100次拓撲變換后,本專利技術與同類方法的計算結果對比圖。圖9是為了不失一般性,各以最多100種方式刪除圖7算例的f 6個節點后,本發 明與同類方法的計算結果對比圖。圖10是為了不失一般性,對圖7算例增加節點后,本專利技術與同類方法的計算結果對比圖。圖11是對果蠅和人類網絡搜索比對時,采用或不采用專家知識的結果對比。具體實施例方式以下結合附圖對本專利技術的優選實施例進一步詳細說明。本實施例中,本專利技術的基于專家知識與拓撲相似的鄰居優先生物分子子網搜索方法的實驗在上海大學系統生物技術研究所的集群計算機上完成,該集群由14臺IBMHS21刀片服務器和2臺X3650服務器組成計算和管理節點,網絡連接采用千兆以太網和infiniband 2. 5G網。每個節點配置兩個雙核CPU和4GB內存,每個CPU為intel xeon 51502.66GMhz主頻,兩臺圖形工作站作為前端機,可以進行科學數據可視化。對于網絡A (GA)、網絡B (Gb)及網絡A (Ga)中的目標子網T (Gt),本專利技術的基于專家知識與拓撲相似的鄰居優先生物分子子網搜索方法,如圖I 一圖6所示,包括以下步驟A、根據生物分子的序列特征,構建網絡T(Gt)和B (Gb)中生物分子的初始相似矩陣S13,其中的每個元素5(}〔£1,1)表示節點£1 e Gf和節點I £ Gs之間的序列相似系數。具體步驟包括 Al、取E-VaMe < I,其余參數取缺省值,用BLAST計算Gt中所有分子在Gs的序列相似分子。A2、按以下公式計算這些生物分子之間的相似系數本文檔來自技高網...
【技術保護點】
基于專家知識與拓撲相似的鄰居優先生物分子子網搜索方法,其特征在于,對于網絡A(GA)、網絡B(GB)及A中的目標子網T(Gt),基于專家知識,同時考慮網絡中生物分子及其在網絡中的拓撲相似屬性,以鄰居節點優先的策略進行網絡搜索,以在網絡B(GB)中獲得與網絡T(Gt)在生物意義上最相似的結果子網R(Gr);具體操作步驟如下:A、計算Gt和GB的初始相似矩陣????????????????????????????????????????????????:根據生物分子的序列特征,構建網絡T(Gt)和網絡B(GB)中生物分子的初始相似矩陣,其中的每個元素表示節點和節點之間的序列相似系數,其具體步驟如下:A1、取,其余參數取缺省值,用BLAST計算中所有分子在的序列相似分子;A2、按以下公式計算這些生物分子之間的相似系數:B、計算Gt和GB的相似矩陣S:根據生物分子在各自網絡中的拓撲相似特征,計算生物分子的相似矩陣S,矩陣中的每個元素為節點和節點之間的相似系數;C、構建專家知識字典:字典中包含了網絡T(Gt)和網絡B(GB)中由專家確定的最相似的生物分子對;D、采用鄰居節點優先策略進行網絡搜索:利用專家知識,基于相似矩陣S,以鄰居優先策略進行搜索,獲得結果子網;E、計算結果子網(Gr)與目標子網(Gt)的相似得分;其相似得分定義如下:設目標子網為,結果子網為,其中,,分別代表網絡,的節點集合,且1,2,即網絡中有1個節點,網絡2個節點;表示節點存在于網絡中,,分別表示結果子網中與對應的節點;、分別代表網絡、的邊集合,表示邊的兩個端點是節點,表示邊是網絡的一條邊;表示邊的權重;表示網絡的節點和結果子網中與其對應的節點的序列相似系數;則結果子網相對于目標子網的得分為在無向圖中:其中?在有向圖中:其中F、計算p值,分析目標子網的統計學意義,p值反映了計算結果有多大概率是由兩個無關網絡隨機計算的結果,p值越接近于0,說明所得到的結果越顯著越不可能是隨機出現的結果,因此越可能具有生物學意義;反之,p值越接近于1,則所對應的結果就越不顯著,越可能是由于無意義的隨機計算得到的;其具體步驟如下:F1、生成網絡B(GB)的n個隨機網絡;F2、在每個隨機網絡中用同樣的方法搜索同一個目標子網的相似子網,得到n個結果子網;F3、用T檢驗計算p值;?G、結果子網(Gr)可視化。2012103586699100001dest_path_image001.jpg,316652dest_path_image001.jpg,335424dest_path_image002.jpg,2012103586699100001dest_path_image003.jpg,59535dest_path_image004.jpg,2012103586699100001dest_path_image005.jpg,149851dest_path_image006.jpg,2012103586699100001dest_path_image007.jpg,331434dest_path_image008.jpg,786686dest_path_image010.jpg,2012103586699100001dest_path_image011.jpg,233979dest_path_image003.jpg,800089dest_path_image004.jpg,101758dest_path_image012.jpg,2012103586699100001dest_path_image013.jpg,790228dest_path_image014.jpg,2012103586699100001dest_path_image015.jpg,911768dest_path_image007.jpg,593154dest_path_image016.jpg,2012103586699100001dest_path_image017.jpg,811645dest_path_image018.jpg,608700dest_path_image007.jpg,2012103586699100001dest_path_image019.jpg,217536dest_path_image020.jpg,2012103586699100001dest_path_image021.jpg,938498dest_path_image022.jpg,949180dest_path_image007.jpg,...
【技術特征摘要】
1.基于專家知識與拓撲相似的鄰居優先生物分子子網搜索方法,其特征在于,對于網絡A (GA)、網絡B (Gb)及A中的目標子網T (Gt),基于專家知識,同時考慮網絡中生物分子及其在網絡中的拓撲相似屬性,以鄰居節點優先的策略進行網絡搜索,以在網絡B (Gb)中獲得與網絡T (Gt)在生物意義上最相似的結果子網R (GJ ;具體操作步驟如下 A 、 計算 G t和 G B的初 始相 似矩 陣S0 :根據生物分子的序列特征,構建網絡T (Gt)和網絡B (Gb)中生物分子的初始相似矩陣5D,其中的每個元素S°(α 表示節點a e Gi和節點I £ Gs之間的序列相似系數,其具體步驟如下 AllE—Vaiue < I,其余參數取缺省值,用BLAST計算Gt中所有分子在Gs的序列相似分子; A2、按以下公式計算這些生物分子之間的相似系數2.根據權利要求I所述的基于專家知識與拓撲相似的鄰居優先生物分子子網搜索方法,其特征在于,所述步驟B的根據生物分子在各自網絡中的拓撲相似特征,計算生物分子的相似矩陣,其計算是依賴于步驟A的初始相似矩陣5 ,即生物分子的序列相似矩陣,具體步驟如下 BI、計算生物分子a E Gt和1) G Gs在網絡拓撲結構上的平均相似性,其相似性的各個方面在有向網絡中分別由AJatD)、A2(a,b)、43(a,o)和A.(a,b)表示,在無向網絡中則由Wi (a,b)和V2 {a, b)表示; B2、在生物分子a E GjPI E Gb的序列相似系數基礎上增加它們在網絡拓撲結構上的平均相似性,迭代,直至一致收斂或振蕩收斂;具體公式如下,其中上標々和々W代表迭代次數,5(G,fc)代表α和fc的相似系數,4( 、42(o,fc) > 43(fl,&〕和A,.(atb)表示有向網絡中α和I出/入鄰居節點和非鄰居節點之間的平均相似性,N1 (a,b)和iV2(a,i)表示無向網絡中β和的鄰居節點和非鄰居節點之間的平均相似性表示和“的序列 相似系數 在有向網絡中3.根據權利要求2所述的基于專家知識與拓撲相似的鄰居優先生物分子子網搜索方法,其特征在于,上述步驟BI中所述的計算生物分子a和6在網絡拓撲結構上的平均相似性,其具體方法為 B11、在有向網絡中,表示節點a和6的入鄰居(即有邊從這些鄰居節點指向a或辦)之間的平均相似性表示節點a和6的出鄰居(即有邊從a或6指向這些鄰居節點)之間的平均相似性,b)表示節點a和6的非入鄰居節點(指那些沒有邊進入a和b的節點)之間的平均相似性表示a和6的非出鄰居節點(指那些沒有邊從a和辦指向它的節點)之間的平均相似性;由degin (a)表示進入節點a的邊的條數,即a的入度,degDJt(a.)表示從節點<3引出的邊...
【專利技術屬性】
技術研發人員:謝江,譚軍,馬進,張武,文鐵橋,
申請(專利權)人:上海大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。