本發明專利技術適用于基因工程技術領域,提供了一種測序序列糾錯方法、系統及設備,所述方法包括下述步驟:接收測序序列,根據預設的高頻閥值構造高頻短串表;遍歷接收到的各測序序列,結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域;根據相應接收到的測序序列和所述高頻短串表,在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列;根據構造的所述左序列和/或右序列,以及查找到的所述區域還原相應測序序列。在本發明專利技術中,根據預設的高頻閥值構造高頻短串表,結合構建的高頻短串表將各測序序列中非連續高頻短串區域的序列恢復為連續高頻短串區域的序列,提高后續對測序序列進行分析、處理的準確性。
【技術實現步驟摘要】
本專利技術屬于基因工程
,尤其涉及一種測序序列糾錯方法、系統及設備。
技術介紹
基于現有的基因測序技術,堿基測錯的可能性是存在的,堿基測錯后對于后續的數據分析、短序列組裝等都存在一定的影響,現有的糾錯策略只是是簡單的屏蔽掉低頻的短串,刪除含有一定比例低頻短串的序列,實際上并沒有進行有效的糾正,糾錯效果很差。綜上所述,現有測序序列糾錯方法的糾錯效果很差。
技術實現思路
本專利技術實施例的目的在于提供一種測序序列糾錯方法,旨在解決現有測序序列糾錯方法的糾錯效果很差的問題。本專利技術實施例是這樣實現的,一種測序序列糾錯方法,所述方法包括下述步驟:接收測序序列,根據預設的高頻閥值構造高頻短串表;遍歷接收到的各測序序列,結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域;根據相應接收到的測序序列和所述高頻短串表,在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列;根據構造的所述左序列和/或右序列,以及查找到的所述區域還原相應測序序列。-->本專利技術實施例的另一目的在于提供一種測序序列糾錯系統,所述系統包括:高頻短串統計單元,用于接收測序序列,根據預設的高頻閥值構造高頻短串表;高頻區域查找單元,用于遍歷接收到的各測序序列,結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域;序列構造單元,用于根據相應接收到的測序序列和所述高頻短串表,在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列;以及序列還原單元,用于根據構造的所述左序列和/或右序列,以及查找到的所述區域還原相應測序序列。本專利技術實施例的另一目的在于提供包含上述測序序列糾錯系統的基因組裝設備。在本專利技術實施例中,根據預設的高頻閥值構造高頻短串表,結合構建的高頻短串表將各測序序列中非連續高頻短串區域的序列恢復為連續高頻短串區域的序列,實現了一種測序序列糾錯方法,提高后續對測序序列進行分析、處理的準確性,且所需內存小、耗時短。附圖說明圖1是本專利技術實施例提供的測序序列糾錯方法的實現流程圖;圖2是本專利技術實施例提供的左側樹的結構示意圖;圖3是本專利技術實施例提供的測序序列糾錯系統的結構圖。具體實施方式為了使本專利技術的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本專利技術進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本專利技術,并不用于限定本專利技術。在本專利技術實施例中,根據預設的高頻閥值構造高頻短串表,結合構建的高-->頻短串表將各測序序列中非連續高頻短串區域的序列恢復為連續高頻短串區域的序列。圖1示出了本專利技術實施例提供的測序序列糾錯方法的實現流程,詳述如下:在步驟S101中,接收測序序列,根據預設的高頻閥值構造高頻短串(kmer)表;在步驟S102中,遍歷接收到的各測序序列,結合高頻短串表在各測序序列上查找連續為高頻短串最多的區域;在步驟S103中,根據相應接收到的測序序列和高頻短串表,在查找到的區域左側和/或右側構造全是高頻短串的左序列和/或右序列;在步驟S104中,根據構造的左序列和/或右序列,以及查找到的區域還原相應測序序列。在本專利技術實施例中,上述步驟S101具體為:1.接收測序序列,將接收到的各測序序列逐個堿基切割成預設長度的短串;2.將切割得到的且出現次數超過預設高頻閥值的短串添加到高頻短串表。這里,接收到的各測序序列長度在處理程序邏輯上沒有限制,但一般在200堿基長度(bp)以下,短串的預設長度n為17bp,預設的高頻閥值為5次,認為出現5次以上的短串即為高頻短串,將高頻短串添加到高頻短串表。當然,短串的預設長度n可以取從1到小于測序序列堿基長度內的任意整數,但是在n的取值大于17bp時內存和運算時間的開銷會加大,在n的取值小于17bp時糾錯效果不理想,所以n最好取17bp。高頻閥值可以根據切割成的短串的頻率分布來確定,頻率分布在理論上應該存在兩個峰值,第一個峰是由于測序錯誤造成的,第二個峰是由于基因組序列本身的生物特性造成的,所以一般取第一個峰值為高頻閥值。接著,查找各測序序列連續高頻短串最多的區域,步驟S102具體為:1.遍歷接收到的各測序序列,結合高頻短序表,在各測序序列上查找連續為高頻短串的區域,即順序遍歷測序序列的短串,如果該短串出現在高頻短串-->表中,則認為該短串為高頻短串;否則,認為該短串不是高頻短串,這樣遍歷完各測序序列即可得到各測序序列相應的連續為高頻短串的區域;2.在各測序序列中取查找到的最長的區域作為其連續為高頻短串最多的區域,這里假設各測序序列中連續為高頻短串最多的區域為[s1,s2],其中s1、s2為查找到的最長的連續為高頻短串的區域的起始堿基、結束堿基距離相應測序序列首個堿基的數目。如果一個測序序列為X1X2X3......X1n-1X1n,其中ln為該測序序列的堿基長度,Xi表示該序列的第i個堿基,該測序序列最長的連續為高頻短串的區域為[26,46],則X26X27......X46為該測序序列中最長的高頻序列。然后,根據原測序序列和高頻短串表,在[s1,s2]的左側和右側各構造一條全是高頻短串的序列,上述步驟S103具體為:步驟1.從相應測序序列的第s1個堿基開始取n-1長度的序列作為樹的根節點,以A、C、G、T四種堿基為各節點的葉子構造一棵深度為s1的左側樹,其構造的樹如圖2所示,這里,深度s1即為26;步驟2.遍歷左側樹,找到一條全是高頻短串的路徑,根據該路徑從葉子節點向上構造全是高頻短串的左序列。這里,從根節點開始向下遍歷樹,根節點為長度為n-1的序列N1,其子節點L1依次為A、C、G、T四種堿基,考察短串kmer1=L1+N1是否是高頻短串,即判斷高頻短串表中是否有該短串,如果否,則結束相應堿基對應的路徑;如果是,則進一步判斷L1的值是否與相應測序序列X1X2X3......X49X50中相應堿基Xs1-1的值相同,如果相同則1級節點分數score1=0,否則1級節點分數score1=1,并繼續在kmer1左端取n-1長度的序列N2,按照上述方式考察短串kmer2=L2+N2,其子節點L2依次為A、C、G、T四種堿基。按照該規則向葉子節點迭代、判斷,并在迭代結束后,找到一條總分數score=Σi=1s1-1scorei]]>最小路徑,其中scorei為相應路徑中第i級節點的分數。找到的最小路徑即為全是高頻短串的路徑,根據該路徑從葉子節點向根節點遍歷得到的序列即為需要構造的全是高頻-->短序的左序列。當然,如果迭代結束后,得到多條總分數score都相等且都最小的路徑,則隨機取一條,然后從葉子節點向根節點遍歷得到需要構造的全是高頻短序的左序列。當然,也可以從下向上遍歷樹,來查找一條全是高頻短串的路徑。步驟3.從相應測序序列的第s2個堿基開始取n-1長度的序列作為樹的根節點,以A、C、G、T四種堿基為各節點的葉子構造一棵深度為ln-(s2-1)的右側樹,其中ln為該測試序列的堿基長度,其構造方式與上述步驟1相同,不再贅述;步驟4.遍歷右側樹,找到一條全是高頻短串的路徑,根據該路徑從根節點向下構造全是高頻短串的右序列,其查找最小路徑的方式與上述步驟2相應,不再贅述。在得到相應測序序列左側和右側的全是高頻短串的序列后,將得到的左本文檔來自技高網...
【技術保護點】
一種測序序列糾錯方法,其特征在于,所述方法包括下述步驟: 接收測序序列,根據預設的高頻閥值構造高頻短串表; 遍歷接收到的各測序序列,結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域; 根據相應接收到的測序序列和 所述高頻短串表,在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列; 根據構造的所述左序列和/或右序列,以及查找到的所述區域還原相應測序序列。
【技術特征摘要】
1、一種測序序列糾錯方法,其特征在于,所述方法包括下述步驟:接收測序序列,根據預設的高頻閥值構造高頻短串表;遍歷接收到的各測序序列,結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域;根據相應接收到的測序序列和所述高頻短串表,在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列;根據構造的所述左序列和/或右序列,以及查找到的所述區域還原相應測序序列。2、如權利要求1所述的方法,其特征在于,所述接收測序序列,根據預設的高頻閥值構造高頻短串表的步驟具體為:接收測序序列,將接收到的各測序序列逐個堿基切割成預設長度的短串;將切割得到的且出現次數超過預設高頻閥值的短串添加到所述高頻短串表。3、如權利要求2所述的方法,其特征在于,所述預設的高頻閥值根據切割成的預設長度的短串的頻率分布確定,所述預設長度為17個堿基長度。4、如權利要求1所述的方法,其特征在于,所述根據相應接收到的測序序列和所述高頻短串表,在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列的步驟具體為:從相應測序序列的第s1個堿基開始取n-1長度的序列作為樹的根節點,以A、C、G、T四種堿基為各節點的葉子構造一棵深度為s1的左側樹;遍歷所述左側樹,找到一條全是高頻短串的路徑,根據所述路徑從葉子節點向上構造全是高頻短串的左序列;從相應測序序列的第s2個堿基開始取n-1長度的序列作為樹的根節點,以A、C、G、T四種堿基為各節點的葉子構造一棵深度為ln-(s2-1)的右側樹;遍歷所述右側樹,找到一條全是高頻短串的路徑,根據所述路徑從根節點向下構造全是高頻短串的右序列;其中,s1、s2分別為查找到的所述連續為高頻短串最多的區域的起始堿基、結束堿基距離相應測序序列首個堿基的數目,n為所述高頻短串的堿基長度,ln為相應測序序列的堿基長度。5、如權利要求1所述的方法,其特征在于,所述接收到的測序序列的長度小于等于200堿基長度。6、一種測序序列糾錯系統...
【專利技術屬性】
技術研發人員:石仲斌,李瑞強,朱紅梅,阮玨,李勝霆,王俊,楊煥明,汪建,
申請(專利權)人:深圳華大基因研究院,
類型:發明
國別省市:94[中國|深圳]
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。