System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 波多野结AV衣东京热无码专区,亚洲精品高清无码视频,小泽玛丽无码视频一区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于N-gram模型增強蛋白質肽段組裝的方法技術

    技術編號:44502903 閱讀:3 留言:0更新日期:2025-03-07 13:02
    本發明專利技術公開了一種基于N?gram模型增強蛋白質肽段組裝的方法,包括:第一部分以UniRef50的非冗余蛋白質序列數據庫作為訓練數據,對這些序列數據進行清理和標準化格式的預處理;使用預處理后的數據進行N?gram模型構建;使用Kneser?Ney平滑技術優化模型并計算氨基酸的條件概率,為后續尋找deBruijn圖的最優路徑提供依據;第二部分以測序所得的蛋白質肽段序列作為輸入,對肽段序列進行預處理;將預處理后的肽段劃分為以k為長度的連續子串;使用肽段子串構建deBruijn圖,用于表示肽段之間的重疊關系;再結合貪婪算法與第一部分的氨基酸概率尋找最優路徑;輸出蛋白質組裝序列。本發明專利技術有效延長了蛋白質組裝序列的長度,并提高了精確度,為確定蛋白質全長序列提供了新技術。

    【技術實現步驟摘要】

    本專利技術涉及一種基于n-gram模型增強蛋白質肽段組裝的方法。


    技術介紹

    1、在蛋白質組學研究領域中,由于高通量質譜技術的發展,肽段數據規模也隨之增大。如何將這些肽段數據準確、快速地組裝成完整的蛋白質序列已經成為了生物信息學中的一項重要研究。利用組裝技術確定蛋白質全長序列對于理解蛋白質結構和功能都非常重要。現有的蛋白質序列組裝方法通常使用多序列比對以及序列重疊技術,其中最常使用的是基于序列重疊關系的debruijn組裝器,它以測序肽段及其對應的強度數據與位置置信度作為輸入,構建加權debruijn圖來組裝蛋白質序列。然而該方法仍然存在局限性,它比較依賴輸入數據的質量,對于低豐度的肽段,不可靠的強度評分可能會導致錯誤的組裝路徑,并且如果輸入數據缺乏重疊肽,在使用貪婪算法尋找最優路徑時會出現路徑斷裂的情況,無法得到有效的組裝結果。還有該方法組裝的序列長度有限,難以一次性獲得完整的蛋白質全長序列。

    2、通過對現有技術的研究分析,本專利技術提出了一種基于n-gram模型增強蛋白質肽段組裝的方法,利用統計語言模型能夠有效延長蛋白質肽段組裝的長度,還能進一步提高組裝序列的精確度。


    技術實現思路

    1、本專利技術是為了解決上述現有技術存在的問題而提供一種基于n-gram模型增強蛋白質肽段組裝的方法。

    2、本專利技術所采用的技術方案有:

    3、一種基于n-gram模型增強蛋白質肽段組裝的方法,包括以下步驟:

    4、s1:獲取蛋白質序列數據集,并對數據集進行預處理;

    5、s2:根據預處理后的所述數據集,令數據集中每一個蛋白質序列為一個“句子”,每一個氨基酸為一個“詞”,選擇n值并使用以n為長度的滑動窗口,將n個連續的氨基酸劃分為一組n-gram,將滑動窗口向右移動一個氨基酸,以此迭代生成n-grams表;

    6、s3:統計n-grams表中n-gram切片的出現頻率,生成對應的頻數表,并以此構建n-gram模型;

    7、s4:在每一個n-gram切片中,以前面n-1個氨基酸為發生的前提下,第n個氨基酸為目標,通過統計頻率計算條件概率,并且為避免零概率問題,對n-gram模型進行kneser-ney平滑處理;

    8、s5:以s8中的斷裂子串作為n-1個氨基酸,使用n-gram模型預測下一個氨基酸,即目標氨基酸;

    9、s6:使用困惑度作為內部評價指標對n-gram模型進行內部評價,調整n值,通過最小化困惑度來優化模型;

    10、s7:將原始測序數據進行預處理,所得的蛋白質肽段劃分為以k為長度的連續子串,使用子串、重疊關系和置信度權重構建debruijn圖;

    11、s8:使用貪婪算法尋找debruijn圖的最優路徑,以其中最大權重的子串作為種子,前后擴展種子形成蛋白質序列,受到重疊肽的缺失和從頭測序錯誤的影響,對斷裂的子串使用n-gram模型提供的條件概率,預測斷裂肽的下一個氨基酸,以此延長組裝的蛋白質序列;

    12、s9:以組裝序列的覆蓋率與準確率對n-gram模型行外部評價。

    13、進一步地,s1中,下載uniref50蛋白質序列數據集,對所述數據集進行預處理,包括去除冗余序列、標準化序列格式和去除不常見的氨基酸。

    14、進一步地,s2中,對預處理過后的蛋白質序列數據集進行劃分,選擇n=5的滑動窗口將序列分割為n-gram,窗口從序列的第一個位置開始,逐步向右移動一個單位,直到序列末尾。

    15、進一步地,s4中,條件概率計算的方式為:

    16、設w1w2w3…wn為一個n-gram切片,其概率表示為:

    17、p(wn|w1,w2,...,wn-1)#(1)

    18、在5-gram中對于五元組(wn-4,wn-3,wn-2,wn-1,wn)的概率表示為:

    19、

    20、其中,c(wn-4,wn-3,wn-2,wn-1,wn)是五元組出現的頻數,c(wn-4,wn-3,wn-2,wn-1)是前四個氨基酸出現的頻數。

    21、進一步地,kneser-ney平滑處理公式為:

    22、

    23、

    24、其中,表示在前面n-1個氨基酸的情況下,目標氨基酸wi出現的概率;

    25、是片段(wi-n+1,wi-n+2,...,wi)在訓練數據庫中出現的頻數;

    26、d是折扣因子,取值為0.75;

    27、表示基于前面n-1個氨基酸的條件下,所有可能后續氨基酸w的頻數之和,即前面n-1個氨基酸序列在訓練數據庫中的頻數;

    28、表示回退權重,用于調整回退到低階n-gram的概率質量;

    29、公式4中是指給定前面n-1個氨基酸的條件下,出現不同目標氨基酸wi的數量;

    30、公式3中是低一階,即n-1的gram的平滑概率,表示在給定前n-2個氨基酸的條件下,目標氨基酸wi的概率;

    31、最基本unigram的平滑概率計算為:

    32、

    33、其中,c(wi)表示氨基酸wi在數據庫中出現的次數;n是數據庫中所有氨基酸頻數之和。

    34、進一步地,s5中,使用n-gram模型計算目標氨基酸的概率,選擇其中概率最大的作為預測的目標氨基酸。

    35、進一步地,s6中,使用困惑度作為內部評價指標對n-gram模型進行內部評價,困惑度越小,序列的概率越大,n-gram模型越好,公式為:

    36、

    37、進一步地,s7中,對原始測序肽段數據進行數據清理,之后從測序肽段中提取k-mer,所述k-mer是對每一個測序肽段分割為以k為長度的連續子串,并將每一個k-mer分解為其前綴和后綴,其中每一個k-mer分解的前綴為k-mer的前k-1個氨基酸,后綴為k-mer的后k-1個氨基酸,即(k-1)-mer。

    38、進一步地,構建debruijn圖的節點,以所有生成的(k-1)-mer為圖的節點,對于每一個(k-1)-mer,只生成唯一的節點,根據每個k-mer的前綴與后綴構建有向邊,連接前綴對應的節點和后綴對應的節點,每一條有向邊代表一個k-mer序列,即有向邊連接兩個(k-1)-mer節點,其中一個為k-mer的前綴,另一個為后綴。

    39、進一步地,s9中,覆蓋率與準確率對n-gram模型行外部評價,具體為:

    40、所述覆蓋率為組裝出的蛋白質序列與參考蛋白質序列相比,被正確覆蓋的序列的比例,公式為:

    41、

    42、準確率為組裝最長contig中正確的氨基酸的百分比,公式為:

    43、

    44、本專利技術具有如下有益效果:

    45、本專利技術將debruijn圖結構技術與n-gram統計語言模型結合在一起,利用n-gram模型從標準數據庫尋找氨基酸序列規律來預測目標氨基酸,在測序肽段中重疊肽缺失和測序錯誤時本文檔來自技高網...

    【技術保護點】

    1.一種基于N-gram模型增強蛋白質肽段組裝的方法,其特征在于:包括以下步驟:

    2.如權利要求1所述的基于N-gram模型增強蛋白質肽段組裝的方法,其特征在于:S1中,下載UniRef50蛋白質序列數據集,對所述數據集進行預處理,包括去除冗余序列、標準化序列格式和去除不常見的氨基酸。

    3.如權利要求1所述的基于N-gram模型增強蛋白質肽段組裝的方法,其特征在于:S2中,對預處理過后的蛋白質序列數據集進行劃分,選擇N=5的滑動窗口將序列分割為N-gram,窗口從序列的第一個位置開始,逐步向右移動一個單位,直到序列末尾。

    4.如權利要求3所述的基于N-gram模型增強蛋白質肽段組裝的方法,其特征在于:S4中,條件概率計算的方式為:

    5.如權利要求4所述的基于N-gram模型增強蛋白質肽段組裝的方法,其特征在于:Kneser-Ney平滑處理公式為:

    6.如權利要求1所述的基于N-gram模型增強蛋白質肽段組裝的方法,其特征在于:S5中,使用N-gram模型計算目標氨基酸的概率,選擇其中概率最大的作為預測的目標氨基酸。>

    7.如權利要求1所述的基于N-gram模型增強蛋白質肽段組裝的方法,其特征在于:S6中,使用困惑度作為內部評價指標對N-gram模型進行內部評價,困惑度越小,序列的概率越大,N-gram模型越好,公式為:

    8.如權利要求1所述的基于N-gram模型增強蛋白質肽段組裝的方法,其特征在于:S7中,對原始測序肽段數據進行數據清理,之后從測序肽段中提取k-mer,所述k-mer是對每一個測序肽段分割為以k為長度的連續子串,并將每一個k-mer分解為其前綴和后綴,其中每一個k-mer分解的前綴為k-mer的前k-1個氨基酸,后綴為k-mer的后k-1個氨基酸,即(k-1)-mer。

    9.如權利要求8所述的基于N-gram模型增強蛋白質肽段組裝的方法,其特征在于:構建deBruijn圖的節點,以所有生成的(k-1)-mer為圖的節點,對于每一個(k-1)-mer,只生成唯一的節點,根據每個k-mer的前綴與后綴構建有向邊,連接前綴對應的節點和后綴對應的節點,每一條有向邊代表一個k-mer序列,即有向邊連接兩個(k-1)-mer節點,其中一個為k-mer的前綴,另一個為后綴。

    10.如權利要求1所述的基于N-gram模型增強蛋白質肽段組裝的方法,其特征在于:S9中,覆蓋率與準確率對N-gram模型行外部評價,具體為:

    ...

    【技術特征摘要】

    1.一種基于n-gram模型增強蛋白質肽段組裝的方法,其特征在于:包括以下步驟:

    2.如權利要求1所述的基于n-gram模型增強蛋白質肽段組裝的方法,其特征在于:s1中,下載uniref50蛋白質序列數據集,對所述數據集進行預處理,包括去除冗余序列、標準化序列格式和去除不常見的氨基酸。

    3.如權利要求1所述的基于n-gram模型增強蛋白質肽段組裝的方法,其特征在于:s2中,對預處理過后的蛋白質序列數據集進行劃分,選擇n=5的滑動窗口將序列分割為n-gram,窗口從序列的第一個位置開始,逐步向右移動一個單位,直到序列末尾。

    4.如權利要求3所述的基于n-gram模型增強蛋白質肽段組裝的方法,其特征在于:s4中,條件概率計算的方式為:

    5.如權利要求4所述的基于n-gram模型增強蛋白質肽段組裝的方法,其特征在于:kneser-ney平滑處理公式為:

    6.如權利要求1所述的基于n-gram模型增強蛋白質肽段組裝的方法,其特征在于:s5中,使用n-gram模型計算目標氨基酸的概率,選擇其中概率最大的作為預測的目標氨基酸。

    7.如權利要求1所述的基于n-gram模型增強蛋白質肽段組裝的方法,其特征在于...

    【專利技術屬性】
    技術研發人員:常珊邵赟龐明威倪申環楊程琿
    申請(專利權)人:江蘇理工學院
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 好了av第四综合无码久久| 国产成A人亚洲精V品无码性色 | 一本色道无码道在线观看| 亚洲精品无码久久毛片| 性无码一区二区三区在线观看| 亚洲另类无码专区首页| 国产50部艳色禁片无码| 国产丝袜无码一区二区视频| 无码少妇一区二区| 在线观看片免费人成视频无码| 无码精品一区二区三区| 久久Av无码精品人妻系列| 免费VA在线观看无码| 亚洲中文无码永久免| 国产成人精品无码片区在线观看| 国产莉萝无码AV在线播放 | 亚洲精品无码久久久影院相关影片 | 精品亚洲AV无码一区二区三区| 人妻无码一区二区三区四区| 白嫩少妇激情无码| 久久久久无码国产精品一区| 国产精品无码久久久久| 久久久久无码精品国产h动漫| 人妻无码一区二区不卡无码av| 自拍偷在线精品自拍偷无码专区| 亚洲一区无码精品色| 国产av无码专区亚洲av毛片搜| 无码少妇一区二区浪潮免费| 6080YYY午夜理论片中无码| 亚洲av永久无码嘿嘿嘿| 精品日韩亚洲AV无码| 亚洲AV无码乱码在线观看裸奔| 亚洲人成网亚洲欧洲无码久久| 亚洲伊人成无码综合网| 国产精品无码素人福利| HEYZO无码综合国产精品| 久久无码AV中文出轨人妻| 久久人妻少妇嫩草AV无码蜜桃| 精品久久久无码中文字幕| 熟妇人妻中文av无码| 亚洲精品无码国产|