The present invention provides a method for detecting and correcting sequence data errors in sequencing results. The sequence reaction solution contains nucleotide substrates of at least two different bases, and degenerate gene coding information is obtained. The coding information of two or more than two is compared with each other, and the technical personnel in the field can judge whether the coding of the position is contradictory or not. With the method of the present invention for correction, any minor improvement for the sequencing method that can reduce the error rate of the original sequencing data can significantly reduce the error rate of the corrected coded data.
【技術實現步驟摘要】
測序結果中序列數據錯誤的檢測和校正方法
本專利技術涉及測序反應結果中序列數據錯誤的檢測和校正方法,屬于基因測序領域。
技術介紹
近年來,隨著人們對于基因的認識越來越深入,基因測序對于醫學以及生物學帶來了巨大的變革。傳統的測序方法主要包括SangerDNA測序法、限制性酶切長度多態性、單鏈構象多態性和基于基因芯片的寡核苷酸探針雜交法等。測序過程中,由于種種的原因,例如CD采光不準、流體異動、環境光、雜DNA、信號校正系統誤差、測序反應液不純等原因,測序結果出現錯誤是不可避免的。DNA作為遺傳物質,儲存了生物的遺傳信息,該特性亦使得DNA被用作一般信息的存儲介質。在利用DNA存儲信息時,需要將信息編碼成DNA序列,然后利用基因測序的方法讀取該信息。為了避免編碼和/或讀取中的錯誤,通常會在編碼過程中引入冗余信息,并利用該冗余信息在讀取中進行信號校正。例如喬治·徹奇等人使用里德-所羅門碼來將信息編碼成DNA序列,并使用Illumina測序平臺來讀取DNA序列上的信息。DNA編碼-讀取技術還被應用于組合化學等領域中。在以往的DNA編碼技術中,每個堿基的類型通常與其他位置上的堿基無關(無記憶型編碼),或者僅與其鄰近范圍內的堿基有關。本專利技術提出了一種有記憶的、分布式、正交DNA編碼方式,其每個堿基的類型與它前面位置上所有堿基均有關,并利用多組正交編碼之間的綜合對比來進行解碼,有效提高編碼-讀取過程的準確率。
技術實現思路
本專利涉及測序反應結果中序列數據錯誤的檢測和校正方法。本專利技術公開一種測序結果中編碼錯誤的檢測和校正方法,其特征在于,對同一核酸序列進行測序,得到三 ...
【技術保護點】
一種測序結果中序列數據錯誤的檢測和校正方法,其特征在于,對同一核酸序列進行測序,得到三條或者三條以上相互正交的核酸簡并序列數據,三條或者三條以上正交的核酸簡并序列對比,可以檢測到序列中的錯誤;進一步在對比出現錯誤的位置,通過修改至少一個序列,可以獲得校正的序列。
【技術特征摘要】
1.一種測序結果中序列數據錯誤的檢測和校正方法,其特征在于,對同一核酸序列進行測序,得到三條或者三條以上相互正交的核酸簡并序列數據,三條或者三條以上正交的核酸簡并序列對比,可以檢測到序列中的錯誤;進一步在對比出現錯誤的位置,通過修改至少一個序列,可以獲得校正的序列。2.一種測序結果中序列數據錯誤的檢測和校正方法,其特征在于,對同一核酸序列進行測序,得到三條或者三條以上使用M、K、R、Y、W、S、B、D、H、V字母表示的簡并序列,三條或者三條以上簡并的序列對比,可以檢測序列錯誤;進一步在對比出現錯誤的位置,通過修改至少一個序列,可以獲得校正的序列。3.一種測序結果中序列數據錯誤的檢測和校正方法,其特征在于,對同一核酸序列進行測序,得到兩條或者兩條以上的使用M、K、R、Y、W、S、B、D、H、V字母表示的簡并序列,獲得一個以A、G、T、C為編碼的核酸序列信息,或者可以獲得以A、G、U、C為編碼的核酸序列信息;利用測序反應中由不同核苷酸堿基上連接的不同官能團導致的光或電信號作為冗余信息,可以檢測序列錯誤;進一步在對比出現錯誤的位置,通過修改至少一個序列,可以獲得校正的序列。4.一種利用核酸序列的記憶性檢測和校正測序結果中序列數據錯誤的方法,對同一核酸序列進行測序,獲得三條或者三條以上相互正交的核酸簡并序列數據;將簡并序列綜合對比,利用核酸序列的記憶性檢測序列錯誤;進一步在對比出現錯誤的位置,通過修改至少一個序列,可以獲得校正的序列;所述簡并序列中,每個序列信號表示了部分基因序列信息,并且從其中一個簡并序列上的信號,并不能推定另外一個簡并序列上同一位置的信號。5.一種測序結果中序列數據錯誤的檢測和校正方法,其特征在于,將待測核酸片段固定,通入反應液進行測序反應,每輪測序得到一條簡并的核酸序列;至少經過N輪測序,獲得N條簡并的核酸序列;N條簡并的序列綜合對比,可以檢測序列出現錯誤的位置;進一步在對比出現錯誤的位置,通過修改至少一個序列,可以獲得校正的序列;其中,所述的反應液中,含有兩種或者兩種以上不同堿基的核苷酸底物分子;所述N為大于等于2的正整數。6.根據權利要求5所述的方法,其特征在于,通過N-1條簡并的核酸序列對比,可以獲得一個以A、G、T、C為編碼的核酸序列信息,或者可以獲得以A、G、U、C為編碼的核酸序列信息;利用N條簡并的序列綜合對比,可以檢測序列出現錯誤的位置,所述N為大于等于3的正整數。7.根據權利要求5所述的方法,其特征在于,通過N條簡并的核酸序列對比,可以獲得一個以A、G、T、C為編碼的核酸序列信息,或者可以獲得以A、G、U、C為編碼的核酸序列信息;利用兩種或兩種以上的連接到堿基的官能團所提供的發光信息可以檢測序列出現的錯誤的位置,所述N為大于等于2的正整數。8.一種測序結果中序列數據錯誤的檢測和校正方法,其特征在于:將待測核酸片段固定,通入反應液進行測序反應;測序所用的核苷酸底物分子反應液根據堿基不同分成三組,每組反應液包含兩個不同的反應液,每個反應液中含有兩種不同堿基的核苷酸底物分子,兩個反應液中核苷酸上的堿基種類沒有交集;每輪測序使用一組反應液,每組反應液中的兩個反應液循環進入;使用三組反應液進行三輪測序,得到三條簡并的序列;三條簡并的序列綜合對比,可以檢測序列出現錯誤的位置;進一步,...
【專利技術屬性】
技術研發人員:黃巖誼,陳子天,周文雄,
申請(專利權)人:北京大學,賽納生物科技北京有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。