• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于隱藏亞組的生信降噪分析方法及系統技術方案

    技術編號:36701004 閱讀:25 留言:0更新日期:2023-03-01 09:17
    本申請涉及一種測序數據背景噪音剔除的生信分析方法和系統。本方法基于“引入的噪音信號會形成隱藏亞組”,對樣本中組分之間的連接進行分析,從而實現在最大程度保留真實信號前提下,更加有效剔除引入的噪音信號。本申請不依賴于任何對待測真實信號和噪音信號的先驗知識,即可高效去除噪音。即可高效去除噪音。即可高效去除噪音。

    【技術實現步驟摘要】
    一種基于隱藏亞組的生信降噪分析方法及系統


    [0001]本申請涉及生信分析領域,具體涉及一種測序數據的背景噪音剔除方法。
    技術背景
    [0002]微生物群落的組成與環境生態系統、人類健康、臨床疾病關系密切。宏基因組方法(metagenomic next generation sequencing,mNGS)是一種可以對樣本中所有核酸分子進行檢測的方法,可以對樣本中微生物群落組成進行量化描述。由于其極高的靈敏度和極低的檢測限(LOD)的特點,宏基因組方法在檢出極微量的真實核酸分子信號的同時,也會檢出實驗過程中引入的污染(如環境微生物)的核酸分子。更麻煩的是,由于微生物物種之間的高度相似性,單一微生物的數據也會在后續的生物信息學分析過程中被注釋為多種微生物,形成誤檢。如果沒有有效的的分析處理,這些噪音信號,即,實驗引入的污染和生信引入的誤檢,就會導致不準確的數據解釋。
    [0003]宏基因組測序方法包括將樣本中的所有核酸分子進行提取、構建文庫、文庫測序和數據分析等幾個步驟,以上的幾個步驟均可能引入噪音信號。雖然已有文獻報道可以通過嚴格的實驗操作盡量控制和防止污染,但這些方案未取得顯著成效,因此主流方法是采用生物信息學分析工具在后期數據處理過程中消除背景噪音。其中,一種廣泛使用的方法是剔除所有低于指定相對豐度閾值的組分,但這種方法依賴于閾值的選擇,常常會剔除低豐度的真實信號并保留高豐度的噪音信號。第二種方法利用陰性對照進行噪音剔除。在實踐中,對待測樣本進行宏基因組測序的同時,會配套同時設置一個陰性對照,即無核酸水,同步執行與待測樣本完全一致的操作,來模擬無真實信號時的背景。因此,現有方法往往利用陰性對照的組成對待測樣本的組成進行矯正,或直接移除所有同時被陰性對照報出的鑒定結果,或經過歸一化(如Z
    ?
    score方法)后,移除在陰性對照中更多在待測樣本中更少的組分,但由于測序具有的隨機性,這種方法常常會錯誤地剔除真實信號并保留噪音信號。第三類分析方法需要大量關于污染的先驗信息來維護一個“黑名單”,并在待測樣本的檢出中直接剔除這些“黑名單”中的組分。但這些先驗信息往往并不清楚,而且由于不同實驗室之間的噪音信號差異很大,歷史記錄不能充分反映本次實驗的具體狀態,因此從“黑名單”中刪除組分可能會導致假陰性和假陽性。第四類分析方法假設噪音信號與文庫制備后的DNA濃度呈負相關,但由于測序的隨機性,這種方法可能不適用于低含量污染物。綜上所述,現有分析方法,均針對樣本組成的單一組分進行分析,并通過不同假設和信息進行判斷,將判斷為噪音信號的單一組分進行剔除。但由于宏基因組測序極高的靈敏度、極低的檢測限和較強的隨機性的特點,針對單一組分進行判斷并剔除的方法無法有效消除背景噪音信號。
    [0004]有鑒于此,提出本申請。

    技術實現思路

    [0005]本申請要解決的核心問題是如何利用當前實驗所能提供的信息,針對性地對當前實驗結果進行高效的噪音去除工作。
    based de
    ?
    noising algorithm,Hugo
    ?
    DNA)以有效地減少噪音信號(實驗引入的污染和生物信息學引入的誤檢)。Hugo
    ?
    DNA基于以下假設:相同來源的一對噪音信號將在后續的處理和轉化的過程中保持其比值一致。具體而言,對于實驗引入的污染而言,先完成的實驗步驟引入的污染信號將在后續的實驗過程中保持內部相互之間的比值不變;對于生物信息學引入的誤檢而言,當前數據中一個真實信號錯誤鑒定為噪音信號的比例也不會發生變化。通過比較待測樣本組成數據與陰性對照的組成數據,可以剔除實驗引入的污染噪音信號。通過比較待測樣本組成數據與生信對照的組成數據,可以剔除生物信息學引入的誤檢噪音信號。Hugo
    ?
    DNA不需要先驗知識也無需設定閾值,即可高效去除污染。
    [0014]因此,本申請的第一目的是提供一種區分真實信號與背景信號的計算方法及系統;
    [0015]本申請的第二目的是提供一種隱藏亞組在測序數據降噪生信分析中的應用。
    [0016]基于上述目的,本申請提供如下技術方案:
    [0017]本申請首先提供一種區分真實信號與背景信號的生信分析方法,包括如下步驟:
    [0018]步驟1)待測樣本和陰性對照樣本測序步驟;
    [0019]步驟2)按分類單元對待測樣本和陰性對照樣本測序數據分組步驟;
    [0020]步驟3)待測樣本和陰性對照樣本的分類單元統計步驟;
    [0021]步驟4)待測樣本與陰性對照結果對比,計算分類單元相互關系步驟;
    [0022]步驟5)待測樣本與陰性對照結果對比,鑒定隱藏亞組步驟。
    [0023]進一步的,所述步驟2)中所述分組為基于比對的方法分別對待測樣本和陰性對照樣本進行分組;
    [0024]優選的,所述比對的方法是采用保留非單一比對結果的比對軟件(如BLASTN軟件)對測序讀出序列進行序列比對后分組。
    [0025]進一步的,所述步驟2)中所述分組為基于非比對的方法分別對待測樣本和陰性對照樣本進行分組;
    [0026]優選的,采用包括但不限于kmer方法、哈希表方法或字符串匹配等方法進行分組。
    [0027]進一步的,所述步驟3)中所述分類單元統計包括但不限于如下統計量:統計每一個分類單元的支持測序讀出序列數目、每一個分類單元的相對比例或每一個分類單元經過某種歸一化之后的統計量。
    [0028]進一步的,所述步驟4)中所述計算分類單元相互關系為針對步驟3)的分類單元的統計量,將待測樣本中每兩個分類單元進行配對(pair),并計算該配對中的兩個分類單元的比例是否在待測樣本和陰性對照中維持穩定;如果維持穩定,則認為該配對的分類單元相互之間具有聯系。
    [0029]進一步的,所述步驟5)中所述鑒定隱藏亞組為針對步驟2)的分類單元和步驟4)的分類單元相互關系,進行分類單元相互關系的處理和篩選,并將保留下來的分類單元之間的聯系鑒定為隱藏亞組;
    [0030]優選的,所述鑒定和/或分析是通過無先驗信息的方式進行隱藏亞組分析;所述鑒定和/或分析是利用用于分析倆個或多個元素之間關聯或元素本身特點的分析方法進行;
    [0031]更優選的,所述鑒定和/或分析是利用計算機學科的圖論(graph)方法進行,即,將步驟2)中的每一個分類單元作為圖的頂點(node),每一個步驟4)中的具有聯系的配對做為
    圖的邊(edge),構成一個完整的無向圖;在無向圖中,使用經典的圖分析方法,找到其中的完全子圖(complete subgraph),該完全子圖即作為隱藏亞組;
    [0032]進一步優選的,所述完全子圖的頂點數在2及2以上;比如2、3、4、5、6。
    [0033]進一步的,所述步驟5)后進一步包括如下步驟:
    [0034]步驟6)構建生信對照,并統計其分類單元步驟;
    [0035]步驟7)待測樣本與生信對照結果對比,計算分類單元相互關系步驟;
    [0036]步驟8)待測樣本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種區分真實信號與背景信號的生信分析方法,其特征在于,包括如下步驟:步驟1)待測樣本和陰性對照樣本測序步驟;步驟2)按分類單元對待測樣本和陰性對照樣本測序數據分組步驟;步驟3)待測樣本和陰性對照樣本的分類單元統計步驟;步驟4)待測樣本與陰性對照結果對比,計算分類單元相互關系步驟;步驟5)待測樣本與陰性對照結果對比,鑒定隱藏亞組步驟。2.權利要求1所述的生信分析方法,其特征在于,所述步驟2)中所述分組為基于比對的方法分別對待測樣本和陰性對照樣本進行分組;優選的,采用保留非單一比對結果的比對軟件(如BLASTN軟件)對測序讀出序列進行序列比對后分組。3.權利要求1所述的生信分析方法,其特征在于,所述步驟2)中所述分組為基于非比對的方法分別對待測樣本和陰性對照樣本進行分組;優選的,采用包括但不限于kmer方法、哈希表方法或字符串匹配方法進行分組。4.權利要求1
    ?
    3任一所述的生信分析方法,其特征在于,所述步驟3)中所述分類單元統計包括但不限于如下統計量:統計每一個分類單元的支持測序讀出序列數目、每一個分類單元的相對比例或每一個分類單元經過某種歸一化之后的統計量。5.權利要求1
    ?
    4任一所述的生信分析方法,其特征在于,所述步驟4)中所述計算分類單元相互關系為針對步驟3)的分類單元的統計量,將待測樣本中每兩個分類單元進行配對(pair),并計算該配對中的兩個分類單元的比例是否在待測樣本和陰性對照中維持穩定;如果維持穩定,則認為該配對的分類單元相互之間具有聯系。6.權利要求1
    ?
    5任一所述的生信分析方法,其特征在于,所述步驟5)中所述鑒定隱藏亞組為針對步驟2)的分類單元和步驟4)的分類單元相互關系,進行分類單元相互關系的處理和篩選,并將保留下來的分類單元之間的聯系鑒定為隱藏亞組;優選的,所述隱藏亞組來自實驗過程中或生信分析過程中相同來源引入的信號,所述隱藏亞組內部元素倆倆之間的比例在兩個或多個條件下保持穩定;更優選的,所述鑒定和/或分析是通過無先驗信息的方式進行隱藏亞組分析;所述鑒定和/或分析是利用用于分析倆個或多個元素之間關聯或元素本身特點的分析方法進行;進一步優選的,所述鑒定和/或分析是利用計算機學科的圖論(graph)方法進行,即,將步驟2)中的每一個分類單元作為圖的頂點(node),每一個步驟4)中的具有聯系的配對做為圖的邊(edge),構建設完整的無向圖;在無向圖中,找到其中的完全子圖(complete subgraph),該完全子圖即作為隱藏亞組。7.權利要求1
    ?
    5任一所述的生信分析方法,其特征在于,所述步驟5)后進一步包括如下步驟:步驟6)構建生信對照,并統計其分類單元步驟;步驟7)待測樣本與生信對照結果對比,計算分類單元相互關系步驟;步驟8)待測樣本與生信對照結果對比,鑒定隱藏亞組步驟。8.權利要求7所述的生信分析方法,其特征在于,所述步驟6)的生信對照為基于步驟2)的比對結果,按照測序讀出序列的比對情況,使用其中比對結果作為生信對照。9.權利要求7所述的生信分析方法,其特征在于,所述步驟6)的生信對照為基于步驟2)的非比對結果,對每個分類單元的參考基因組進行數據模擬,根據測序儀的錯誤分布規律,
    模擬該分類單元的測序讀出序列,并用模擬的測序讀出序列進行分組,該模擬數據的分組結果即可作為該分類單元的生信對照。10.權利要求7
    ?
    9任一所述的生信分析方法,其特征在于,所述步驟7)為針對步驟6)的分類單元的統計量,將待測樣本中每兩個分類單元進行配對(pair),并計算該配對中的兩個分類單元的比例是否在待測樣本中比在生信對照中更高或持平;優選的,如果更高或持平,則認為該配對的分類單元相互之間具有聯系;更優選的,所述兩個分類單元的比例是通過分類單元統計量的相除得到;或者是通過對單元統計量進行統計檢驗得到。11.權利要求7
    ?
    9任一所述的生信分析方法,其特征在于,所述步驟7)在剔除步驟5)中形成隱藏亞組的分類單元后,再針對步驟6)的分類單元的統計量,將待測樣本中每倆個分類單元進行配對(pair),并計算該配對中的倆個分類單元的比例是否在待測樣本中比在生信對照中更高或持平;優選的,如果更高或持平,則認為該配對的分類單元相互之間具有聯系;更優選的,所述兩個分類單元的比例是通過分類單元統計量的相除得到;或者是通過對單元統計量進行統計檢驗得到。12.權利要求1...

    【專利技術屬性】
    技術研發人員:夏涵胡龍官遠林梁曉雪魏康飛段美林
    申請(專利權)人:西咸新區予果微碼生物科技有限公司予果智造科技北京有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文字幕av无码专区第一页| 中文字幕无码不卡一区二区三区 | 精品人妻无码区在线视频| 久久精品成人无码观看56| 亚洲国产精品无码久久一区二区| 精品久久久无码中文字幕天天| HEYZO无码中文字幕人妻| 中文字幕无码av激情不卡| 欧洲Av无码放荡人妇网站| 亚洲国产av无码精品| 亚洲GV天堂无码男同在线观看| 亚洲中文字幕无码日韩| 国产高清不卡无码视频| 99精品人妻无码专区在线视频区 | 国产色无码专区在线观看| 精品欧洲av无码一区二区| 中文字幕无码一区二区免费| 人妻精品久久无码区| 日韩免费无码视频一区二区三区| 国产又爽又黄无码无遮挡在线观看 | 日韩av无码免费播放| 国产精品无码亚洲一区二区三区 | 中日韩精品无码一区二区三区| 熟妇人妻中文a∨无码| 亚洲AV无码乱码在线观看性色扶| 无码不卡av东京热毛片| 人妻无码一区二区三区AV| 亚洲AV永久纯肉无码精品动漫| 精品无码国产自产拍在线观看蜜| 国产丰满乱子伦无码专| 极品无码国模国产在线观看| 无码av高潮喷水无码专区线| 久久精品国产亚洲AV无码偷窥 | 亚欧无码精品无码有性视频| 中字无码av电影在线观看网站| 69久久精品无码一区二区| 50岁人妻丰满熟妇αv无码区| 亚洲AV无码AV吞精久久| 无码国产精成人午夜视频不卡 | 久久国产亚洲精品无码| 无码夫の前で人妻を侵犯 |