一種測序序列糾錯方法、系統及設備技術方案

技術編號：2912606 閱讀：232 留言：0更新日期：2012-04-11 18:40

本發明專利技術適用于基因工程技術領域，提供了一種測序序列糾錯方法、系統及設備，所述方法包括下述步驟：接收測序序列，根據預設的高頻閥值構造高頻短串表；遍歷接收到的各測序序列，結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域；根據相應接收到的測序序列和所述高頻短串表，在查找到的所述區域左側和／或右側構造全是高頻短串的左序列和／或右序列；根據構造的所述左序列和／或右序列，以及查找到的所述區域還原相應測序序列。在本發明專利技術中，根據預設的高頻閥值構造高頻短串表，結合構建的高頻短串表將各測序序列中非連續高頻短串區域的序列恢復為連續高頻短串區域的序列，提高后續對測序序列進行分析、處理的準確性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于基因工程
，尤其涉及一種測序序列糾錯方法、系統及設備。
技術介紹
基于現有的基因測序技術，堿基測錯的可能性是存在的，堿基測錯后對于后續的數據分析、短序列組裝等都存在一定的影響，現有的糾錯策略只是是簡單的屏蔽掉低頻的短串，刪除含有一定比例低頻短串的序列，實際上并沒有進行有效的糾正，糾錯效果很差。綜上所述，現有測序序列糾錯方法的糾錯效果很差。
技術實現思路
本專利技術實施例的目的在于提供一種測序序列糾錯方法，旨在解決現有測序序列糾錯方法的糾錯效果很差的問題。本專利技術實施例是這樣實現的，一種測序序列糾錯方法，所述方法包括下述步驟：接收測序序列，根據預設的高頻閥值構造高頻短串表；遍歷接收到的各測序序列，結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域；根據相應接收到的測序序列和所述高頻短串表，在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列；根據構造的所述左序列和/或右序列，以及查找到的所述區域還原相應測序序列。-->本專利技術實施例的另一目的在于提供一種測序序列糾錯系統，所述系統包括：高頻短串統計單元，用于接收測序序列，根據預設的高頻閥值構造高頻短串表；高頻區域查找單元，用于遍歷接收到的各測序序列，結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域；序列構造單元，用于根據相應接收到的測序序列和所述高頻短串表，在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列；以及序列還原單元，用于根據構造的所述左序列和/或右序列，以及查找到的所述區域還原相應測序序列。本專利技術實施例的另一目的在于提...

【技術保護點】
一種測序序列糾錯方法，其特征在于，所述方法包括下述步驟：　接收測序序列，根據預設的高頻閥值構造高頻短串表；　遍歷接收到的各測序序列，結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域；　根據相應接收到的測序序列和所述高頻短串表，在查找到的所述區域左側和／或右側構造全是高頻短串的左序列和／或右序列；　根據構造的所述左序列和／或右序列，以及查找到的所述區域還原相應測序序列。

【技術特征摘要】
1、一種測序序列糾錯方法，其特征在于，所述方法包括下述步驟：接收測序序列，根據預設的高頻閥值構造高頻短串表；遍歷接收到的各測序序列，結合所述高頻短串表在各測序序列上查找連續為高頻短串最多的區域；根據相應接收到的測序序列和所述高頻短串表，在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列；根據構造的所述左序列和/或右序列，以及查找到的所述區域還原相應測序序列。2、如權利要求1所述的方法，其特征在于，所述接收測序序列，根據預設的高頻閥值構造高頻短串表的步驟具體為：接收測序序列，將接收到的各測序序列逐個堿基切割成預設長度的短串；將切割得到的且出現次數超過預設高頻閥值的短串添加到所述高頻短串表。3、如權利要求2所述的方法，其特征在于，所述預設的高頻閥值根據切割成的預設長度的短串的頻率分布確定，所述預設長度為17個堿基長度。4、如權利要求1所述的方法，其特征在于，所述根據相應接收到的測序序列和所述高頻短串表，在查找到的所述區域左側和/或右側構造全是高頻短串的左序列和/或右序列的步驟具體為：從相應測序序列的第s1個堿基開始取n-1長度的序列作為樹的根節點，以A、C、G、T四種堿基為各節點的葉子構造一棵深度為s1的左側樹；遍歷所述左側樹，找到一條全是高頻短串的路徑，根據所述路徑從葉子節點向上構造全是高頻短串的左序列；從相應測序序列的第s2個堿基開始取n-1長度的序列作為樹的根節點，以A、C、G、T四種堿基為各節點的葉子構造一棵深度為ln-(s2-1)的右側樹；遍歷所述右側樹，找到一條全是高頻短串的路徑，根據所述路徑從根節點向下構造全是高頻短串的右序列；其中，s1、s2分別為查找到的所述連續為高頻短串最多的區域的起始堿基、結束堿基距離相應測序序列首個堿基的數目，n為所述高頻短串的堿基長度，ln為相應測序序列的堿基長度。5、如權利要求1所述的方法，其特征在于，所述接收到的測序序列的長度小于等于200堿基長度。6、一種測序序列糾錯系統...

【專利技術屬性】
技術研發人員：石仲斌，李瑞強，朱紅梅，阮玨，李勝霆，王俊，楊煥明，汪建，
申請(專利權)人：深圳華大基因研究院，
類型：發明
國別省市：94[中國|深圳]

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術