【技術實現步驟摘要】
一種基于隱藏亞組的生信降噪分析方法及系統
[0001]本申請涉及生信分析領域,具體涉及一種測序數據的背景噪音剔除方法。
技術背景
[0002]微生物群落的組成與環境生態系統、人類健康、臨床疾病關系密切。宏基因組方法(metagenomic next generation sequencing,mNGS)是一種可以對樣本中所有核酸分子進行檢測的方法,可以對樣本中微生物群落組成進行量化描述。由于其極高的靈敏度和極低的檢測限(LOD)的特點,宏基因組方法在檢出極微量的真實核酸分子信號的同時,也會檢出實驗過程中引入的污染(如環境微生物)的核酸分子。更麻煩的是,由于微生物物種之間的高度相似性,單一微生物的數據也會在后續的生物信息學分析過程中被注釋為多種微生物,形成誤檢。如果沒有有效的的分析處理,這些噪音信號,即,實驗引入的污染和生信引入的誤檢,就會導致不準確的數據解釋。
[0003]宏基因組測序方法包括將樣本中的所有核酸分子進行提取、構建文庫、文庫測序和數據分析等幾個步驟,以上的幾個步驟均可能引入噪音信號。雖然已有文獻報道可以通過嚴格的實驗操作盡量控制和防止污染,但這些方案未取得顯著成效,因此主流方法是采用生物信息學分析工具在后期數據處理過程中消除背景噪音。其中,一種廣泛使用的方法是剔除所有低于指定相對豐度閾值的組分,但這種方法依賴于閾值的選擇,常常會剔除低豐度的真實信號并保留高豐度的噪音信號。第二種方法利用陰性對照進行噪音剔除。在實踐中,對待測樣本進行宏基因組測序的同時,會配套同時設置一個陰性對照,即無核酸水,同步執 ...
【技術保護點】
【技術特征摘要】
1.一種區分真實信號與背景信號的生信分析方法,其特征在于,包括如下步驟:步驟1)待測樣本和陰性對照樣本測序步驟;步驟2)按分類單元對待測樣本和陰性對照樣本測序數據分組步驟;步驟3)待測樣本和陰性對照樣本的分類單元統計步驟;步驟4)待測樣本與陰性對照結果對比,計算分類單元相互關系步驟;步驟5)待測樣本與陰性對照結果對比,鑒定隱藏亞組步驟。2.權利要求1所述的生信分析方法,其特征在于,所述步驟2)中所述分組為基于比對的方法分別對待測樣本和陰性對照樣本進行分組;優選的,采用保留非單一比對結果的比對軟件(如BLASTN軟件)對測序讀出序列進行序列比對后分組。3.權利要求1所述的生信分析方法,其特征在于,所述步驟2)中所述分組為基于非比對的方法分別對待測樣本和陰性對照樣本進行分組;優選的,采用包括但不限于kmer方法、哈希表方法或字符串匹配方法進行分組。4.權利要求1
?
3任一所述的生信分析方法,其特征在于,所述步驟3)中所述分類單元統計包括但不限于如下統計量:統計每一個分類單元的支持測序讀出序列數目、每一個分類單元的相對比例或每一個分類單元經過某種歸一化之后的統計量。5.權利要求1
?
4任一所述的生信分析方法,其特征在于,所述步驟4)中所述計算分類單元相互關系為針對步驟3)的分類單元的統計量,將待測樣本中每兩個分類單元進行配對(pair),并計算該配對中的兩個分類單元的比例是否在待測樣本和陰性對照中維持穩定;如果維持穩定,則認為該配對的分類單元相互之間具有聯系。6.權利要求1
?
5任一所述的生信分析方法,其特征在于,所述步驟5)中所述鑒定隱藏亞組為針對步驟2)的分類單元和步驟4)的分類單元相互關系,進行分類單元相互關系的處理和篩選,并將保留下來的分類單元之間的聯系鑒定為隱藏亞組;優選的,所述隱藏亞組來自實驗過程中或生信分析過程中相同來源引入的信號,所述隱藏亞組內部元素倆倆之間的比例在兩個或多個條件下保持穩定;更優選的,所述鑒定和/或分析是通過無先驗信息的方式進行隱藏亞組分析;所述鑒定和/或分析是利用用于分析倆個或多個元素之間關聯或元素本身特點的分析方法進行;進一步優選的,所述鑒定和/或分析是利用計算機學科的圖論(graph)方法進行,即,將步驟2)中的每一個分類單元作為圖的頂點(node),每一個步驟4)中的具有聯系的配對做為圖的邊(edge),構建設完整的無向圖;在無向圖中,找到其中的完全子圖(complete subgraph),該完全子圖即作為隱藏亞組。7.權利要求1
?
5任一所述的生信分析方法,其特征在于,所述步驟5)后進一步包括如下步驟:步驟6)構建生信對照,并統計其分類單元步驟;步驟7)待測樣本與生信對照結果對比,計算分類單元相互關系步驟;步驟8)待測樣本與生信對照結果對比,鑒定隱藏亞組步驟。8.權利要求7所述的生信分析方法,其特征在于,所述步驟6)的生信對照為基于步驟2)的比對結果,按照測序讀出序列的比對情況,使用其中比對結果作為生信對照。9.權利要求7所述的生信分析方法,其特征在于,所述步驟6)的生信對照為基于步驟2)的非比對結果,對每個分類單元的參考基因組進行數據模擬,根據測序儀的錯誤分布規律,
模擬該分類單元的測序讀出序列,并用模擬的測序讀出序列進行分組,該模擬數據的分組結果即可作為該分類單元的生信對照。10.權利要求7
?
9任一所述的生信分析方法,其特征在于,所述步驟7)為針對步驟6)的分類單元的統計量,將待測樣本中每兩個分類單元進行配對(pair),并計算該配對中的兩個分類單元的比例是否在待測樣本中比在生信對照中更高或持平;優選的,如果更高或持平,則認為該配對的分類單元相互之間具有聯系;更優選的,所述兩個分類單元的比例是通過分類單元統計量的相除得到;或者是通過對單元統計量進行統計檢驗得到。11.權利要求7
?
9任一所述的生信分析方法,其特征在于,所述步驟7)在剔除步驟5)中形成隱藏亞組的分類單元后,再針對步驟6)的分類單元的統計量,將待測樣本中每倆個分類單元進行配對(pair),并計算該配對中的倆個分類單元的比例是否在待測樣本中比在生信對照中更高或持平;優選的,如果更高或持平,則認為該配對的分類單元相互之間具有聯系;更優選的,所述兩個分類單元的比例是通過分類單元統計量的相除得到;或者是通過對單元統計量進行統計檢驗得到。12.權利要求1...
【專利技術屬性】
技術研發人員:夏涵,胡龍,官遠林,梁曉雪,魏康飛,段美林,
申請(專利權)人:西咸新區予果微碼生物科技有限公司予果智造科技北京有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。