• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種測序序列糾錯方法、系統及設備技術方案

    技術編號:2912606 閱讀:232 留言:0更新日期:2012-04-11 18:40
    本發明專利技術適用于基因工程技術領域,提供了一種測序序列糾錯方法、系統及設備,所述方法包括下述步驟:接收測序序列,根據預設的高頻閥值構造高頻短串表;遍歷接收到的各測序序列,結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域;根據相應接收到的測序序列和所述高頻短串表,在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列;根據構造的所述左序列和/或右序列,以及查找到的所述區域還原相應測序序列。在本發明專利技術中,根據預設的高頻閥值構造高頻短串表,結合構建的高頻短串表將各測序序列中非連續高頻短串區域的序列恢復為連續高頻短串區域的序列,提高后續對測序序列進行分析、處理的準確性。

    【技術實現步驟摘要】

    本專利技術屬于基因工程
    ,尤其涉及一種測序序列糾錯方法、系統及設備
    技術介紹
    基于現有的基因測序技術,堿基測錯的可能性是存在的,堿基測錯后對于后續的數據分析、短序列組裝等都存在一定的影響,現有的糾錯策略只是是簡單的屏蔽掉低頻的短串,刪除含有一定比例低頻短串的序列,實際上并沒有進行有效的糾正,糾錯效果很差。綜上所述,現有測序序列糾錯方法的糾錯效果很差。
    技術實現思路
    本專利技術實施例的目的在于提供一種測序序列糾錯方法,旨在解決現有測序序列糾錯方法的糾錯效果很差的問題。本專利技術實施例是這樣實現的,一種測序序列糾錯方法,所述方法包括下述步驟:接收測序序列,根據預設的高頻閥值構造高頻短串表;遍歷接收到的各測序序列,結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域;根據相應接收到的測序序列和所述高頻短串表,在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列;根據構造的所述左序列和/或右序列,以及查找到的所述區域還原相應測序序列。-->本專利技術實施例的另一目的在于提供一種測序序列糾錯系統,所述系統包括:高頻短串統計單元,用于接收測序序列,根據預設的高頻閥值構造高頻短串表;高頻區域查找單元,用于遍歷接收到的各測序序列,結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域;序列構造單元,用于根據相應接收到的測序序列和所述高頻短串表,在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列;以及序列還原單元,用于根據構造的所述左序列和/或右序列,以及查找到的所述區域還原相應測序序列。本專利技術實施例的另一目的在于提供包含上述測序序列糾錯系統的基因組裝設備。在本專利技術實施例中,根據預設的高頻閥值構造高頻短串表,結合構建的高頻短串表將各測序序列中非連續高頻短串區域的序列恢復為連續高頻短串區域的序列,實現了一種測序序列糾錯方法,提高后續對測序序列進行分析、處理的準確性,且所需內存小、耗時短。附圖說明圖1是本專利技術實施例提供的測序序列糾錯方法的實現流程圖;圖2是本專利技術實施例提供的左側樹的結構示意圖;圖3是本專利技術實施例提供的測序序列糾錯系統的結構圖。具體實施方式為了使本專利技術的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本專利技術進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本專利技術,并不用于限定本專利技術。在本專利技術實施例中,根據預設的高頻閥值構造高頻短串表,結合構建的高-->頻短串表將各測序序列中非連續高頻短串區域的序列恢復為連續高頻短串區域的序列。圖1示出了本專利技術實施例提供的測序序列糾錯方法的實現流程,詳述如下:在步驟S101中,接收測序序列,根據預設的高頻閥值構造高頻短串(kmer)表;在步驟S102中,遍歷接收到的各測序序列,結合高頻短串表在各測序序列上查找連續為高頻短串最多的區域;在步驟S103中,根據相應接收到的測序序列和高頻短串表,在查找到的區域左側和/或右側構造全是高頻短串的左序列和/或右序列;在步驟S104中,根據構造的左序列和/或右序列,以及查找到的區域還原相應測序序列。在本專利技術實施例中,上述步驟S101具體為:1.接收測序序列,將接收到的各測序序列逐個堿基切割成預設長度的短串;2.將切割得到的且出現次數超過預設高頻閥值的短串添加到高頻短串表。這里,接收到的各測序序列長度在處理程序邏輯上沒有限制,但一般在200堿基長度(bp)以下,短串的預設長度n為17bp,預設的高頻閥值為5次,認為出現5次以上的短串即為高頻短串,將高頻短串添加到高頻短串表。當然,短串的預設長度n可以取從1到小于測序序列堿基長度內的任意整數,但是在n的取值大于17bp時內存和運算時間的開銷會加大,在n的取值小于17bp時糾錯效果不理想,所以n最好取17bp。高頻閥值可以根據切割成的短串的頻率分布來確定,頻率分布在理論上應該存在兩個峰值,第一個峰是由于測序錯誤造成的,第二個峰是由于基因組序列本身的生物特性造成的,所以一般取第一個峰值為高頻閥值。接著,查找各測序序列連續高頻短串最多的區域,步驟S102具體為:1.遍歷接收到的各測序序列,結合高頻短序表,在各測序序列上查找連續為高頻短串的區域,即順序遍歷測序序列的短串,如果該短串出現在高頻短串-->表中,則認為該短串為高頻短串;否則,認為該短串不是高頻短串,這樣遍歷完各測序序列即可得到各測序序列相應的連續為高頻短串的區域;2.在各測序序列中取查找到的最長的區域作為其連續為高頻短串最多的區域,這里假設各測序序列中連續為高頻短串最多的區域為[s1,s2],其中s1、s2為查找到的最長的連續為高頻短串的區域的起始堿基、結束堿基距離相應測序序列首個堿基的數目。如果一個測序序列為X1X2X3......X1n-1X1n,其中ln為該測序序列的堿基長度,Xi表示該序列的第i個堿基,該測序序列最長的連續為高頻短串的區域為[26,46],則X26X27......X46為該測序序列中最長的高頻序列。然后,根據原測序序列和高頻短串表,在[s1,s2]的左側和右側各構造一條全是高頻短串的序列,上述步驟S103具體為:步驟1.從相應測序序列的第s1個堿基開始取n-1長度的序列作為樹的根節點,以A、C、G、T四種堿基為各節點的葉子構造一棵深度為s1的左側樹,其構造的樹如圖2所示,這里,深度s1即為26;步驟2.遍歷左側樹,找到一條全是高頻短串的路徑,根據該路徑從葉子節點向上構造全是高頻短串的左序列。這里,從根節點開始向下遍歷樹,根節點為長度為n-1的序列N1,其子節點L1依次為A、C、G、T四種堿基,考察短串kmer1=L1+N1是否是高頻短串,即判斷高頻短串表中是否有該短串,如果否,則結束相應堿基對應的路徑;如果是,則進一步判斷L1的值是否與相應測序序列X1X2X3......X49X50中相應堿基Xs1-1的值相同,如果相同則1級節點分數score1=0,否則1級節點分數score1=1,并繼續在kmer1左端取n-1長度的序列N2,按照上述方式考察短串kmer2=L2+N2,其子節點L2依次為A、C、G、T四種堿基。按照該規則向葉子節點迭代、判斷,并在迭代結束后,找到一條總分數score=Σi=1s1-1scorei]]>最小路徑,其中scorei為相應路徑中第i級節點的分數。找到的最小路徑即為全是高頻短串的路徑,根據該路徑從葉子節點向根節點遍歷得到的序列即為需要構造的全是高頻-->短序的左序列。當然,如果迭代結束后,得到多條總分數score都相等且都最小的路徑,則隨機取一條,然后從葉子節點向根節點遍歷得到需要構造的全是高頻短序的左序列。當然,也可以從下向上遍歷樹,來查找一條全是高頻短串的路徑。步驟3.從相應測序序列的第s2個堿基開始取n-1長度的序列作為樹的根節點,以A、C、G、T四種堿基為各節點的葉子構造一棵深度為ln-(s2-1)的右側樹,其中ln為該測試序列的堿基長度,其構造方式與上述步驟1相同,不再贅述;步驟4.遍歷右側樹,找到一條全是高頻短串的路徑,根據該路徑從根節點向下構造全是高頻短串的右序列,其查找最小路徑的方式與上述步驟2相應,不再贅述。在得到相應測序序列左側和右側的全是高頻短串的序列后,將得到的左本文檔來自技高網...

    【技術保護點】
    一種測序序列糾錯方法,其特征在于,所述方法包括下述步驟: 接收測序序列,根據預設的高頻閥值構造高頻短串表; 遍歷接收到的各測序序列,結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域; 根據相應接收到的測序序列和 所述高頻短串表,在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列; 根據構造的所述左序列和/或右序列,以及查找到的所述區域還原相應測序序列。

    【技術特征摘要】
    1、一種測序序列糾錯方法,其特征在于,所述方法包括下述步驟:接收測序序列,根據預設的高頻閥值構造高頻短串表;遍歷接收到的各測序序列,結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域;根據相應接收到的測序序列和所述高頻短串表,在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列;根據構造的所述左序列和/或右序列,以及查找到的所述區域還原相應測序序列。2、如權利要求1所述的方法,其特征在于,所述接收測序序列,根據預設的高頻閥值構造高頻短串表的步驟具體為:接收測序序列,將接收到的各測序序列逐個堿基切割成預設長度的短串;將切割得到的且出現次數超過預設高頻閥值的短串添加到所述高頻短串表。3、如權利要求2所述的方法,其特征在于,所述預設的高頻閥值根據切割成的預設長度的短串的頻率分布確定,所述預設長度為17個堿基長度。4、如權利要求1所述的方法,其特征在于,所述根據相應接收到的測序序列和所述高頻短串表,在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列的步驟具體為:從相應測序序列的第s1個堿基開始取n-1長度的序列作為樹的根節點,以A、C、G、T四種堿基為各節點的葉子構造一棵深度為s1的左側樹;遍歷所述左側樹,找到一條全是高頻短串的路徑,根據所述路徑從葉子節點向上構造全是高頻短串的左序列;從相應測序序列的第s2個堿基開始取n-1長度的序列作為樹的根節點,以A、C、G、T四種堿基為各節點的葉子構造一棵深度為ln-(s2-1)的右側樹;遍歷所述右側樹,找到一條全是高頻短串的路徑,根據所述路徑從根節點向下構造全是高頻短串的右序列;其中,s1、s2分別為查找到的所述連續為高頻短串最多的區域的起始堿基、結束堿基距離相應測序序列首個堿基的數目,n為所述高頻短串的堿基長度,ln為相應測序序列的堿基長度。5、如權利要求1所述的方法,其特征在于,所述接收到的測序序列的長度小于等于200堿基長度。6、一種測序序列糾錯系統...

    【專利技術屬性】
    技術研發人員:石仲斌李瑞強朱紅梅阮玨李勝霆王俊楊煥明汪建
    申請(專利權)人:深圳華大基因研究院
    類型:發明
    國別省市:94[中國|深圳]

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文字幕乱码无码人妻系列蜜桃 | 国99精品无码一区二区三区| 亚洲爆乳精品无码一区二区| 亚洲AV无码一区二区三区性色| 不卡无码人妻一区三区音频| 精品亚洲A∨无码一区二区三区 | 免费看国产成年无码AV片| 亚洲中文字幕无码av在线| 精品久久久无码中文字幕边打电话 | 亚洲精品无码永久在线观看男男| 久久久久久久无码高潮| 亚洲欧洲AV无码专区| 国产精品无码无需播放器| 无码aⅴ精品一区二区三区| 亚洲日产无码中文字幕| 免费人成无码大片在线观看| 精品无码成人片一区二区98| 亚洲第一极品精品无码久久| 四虎成人精品国产永久免费无码| 中文无码一区二区不卡αv| 久久久无码精品亚洲日韩按摩| 日韩精品无码一区二区三区AV| 国产成人无码精品久久久小说 | 精品久久久久久无码人妻热| 亚洲综合一区无码精品| 免费A级毛片无码A∨中文字幕下载| 国产品无码一区二区三区在线蜜桃| 亚洲中文字幕无码中文字| 无码午夜成人1000部免费视频| 国产午夜精品无码| 亚洲av无码国产精品色午夜字幕 | 久久亚洲国产成人精品无码区| 亚洲AV永久无码区成人网站| 自慰系列无码专区| 在人线av无码免费高潮喷水| 日韩精品无码熟人妻视频| 亚洲AV无码日韩AV无码导航| 国产AV无码专区亚洲AV男同| heyzo高无码国产精品| 国产成人年无码AV片在线观看 | yy111111少妇无码影院|