• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    病原體基因組序列數據庫系統技術方案

    技術編號:8683003 閱讀:402 留言:0更新日期:2013-05-09 02:56
    本發明專利技術主要涉及到一個統一了幾種不同類型的病原體序列信息的數據庫系統,并在此基礎上發展的一個對病原體進行遺傳學、基因組學和系統發育研究的分析平臺。所涉及到的病原體主要包括:細菌、真菌、病毒、原生動物、寄生蟲。本發明專利技術有效地整合了各種來源的病原體基因組信息,能夠實現數據分析與統計,原始數據及加工數據的查詢和下載三者間的有機結合,并可實時地對各種病原體基因組數據進行收集、處理、分析和整合,從而建立了一個統一、穩定、高效的數據平臺。

    【技術實現步驟摘要】

    本專利技術主要涉及到一個統一了幾種不同類型的病原體序列信息的數據庫系統,并在此基礎上發展的一個對病原體進行遺傳學、基因組學和系統發育研究的分析平臺。所涉及到的病原體主要包括:細菌、真菌、病毒、原生動物、寄生蟲。
    技術介紹
    病原體(pathogen)是能引起疾病的微生物和寄生蟲的統稱。其中微生物占絕大多數,包括病毒、衣原體、立克次體、支原體、細菌、螺旋體和真菌。高致病性病原體的感染與爆發能給人類造成巨大的傷害,如近年來新發現的一個高致病性的禽流感病毒H5N1造成了 100多人的死亡并使得在亞洲、歐洲和非洲數以百萬計的禽類被屠宰(世界衛生組織報道),而對高致病性病原體遷移和進化模式進行嚴謹的監視和跨學科研究是防止人類和其他物種被傷亡的關鍵。病原體的基因組序列給我們提供了很多可用于病原體發病機理研究、診斷和治療上的有效信息。現階段在世界范圍內有許多的基因組序列信息數據庫,如美國國家生物技術信息中心(NCBI)內的RefSeq數據庫和EMBL中的Ensembl Genomes庫中提供了很多分類的基因組DNA序列和注釋信息,但是,由于在這兩個數據庫中的有些數據是來源于直接提交上去的序列信息,所以對這些數據庫中的病原體基因組序列數據進行提取、校正、確證和分類,建立一個專門的包含病原體基因組序列數據庫是非常必要的。在病原體檢測診斷方面,目前臨床上常用的病原微生物檢測診斷方法有PCR技術、培養技術、免疫酶技術(EIA)、酶聯免疫吸附試驗(ELISA)等。這些技術在臨床診斷中已發揮了巨大的作用,但仍存在一些缺點。雖然PCR技術本身的優越性是無可厚非的,但由于使用不當,很容易引起交叉污染,出現假陽性,如果反應條件控制不好也可能出現假陰性;培養技術繁瑣而費時;免疫技術大多需要在抗體出現后才能確定病原微生物。這些缺點需要利用一種新的技術去彌補。隨著病原微生物基因組計劃的進展,使基因診斷病原微生物感染成為可能,近幾年發展起來的生物芯片技術為病原微生物診斷提供了一種強有力的手段。生物芯片技術和其他檢測診斷技術相比有許多優點,如高通量、快速、準確、靈敏和對未知病原體的可檢測性等。在生物芯片的設計中,從病原體基因組序列出發,進行探針設計,中間往往需要對基因組序列信息進行大量復雜的處理,如提取、校正和分析等,這些過程往往給探針設計增加了一些不必要的時間,因此,為了適應于高通量檢測診斷病原體的生物芯片技術的飛速發展,建立一個適用于下游探針設計的序列信息數據庫就顯得格外重要了。為了從各方面對病原體基因組進行分析研究,國內外許多學者從一級數據庫出發,構建了各種病原體二級數據庫。如Suhua Chang等建立了一個流感病毒基因組序列數據庫IVDB。Adams等從NCBI出發,建立了一個廣泛的植物和真菌病毒基因和基因組數據庫DPAweb。Hirahata等在此基礎上從DDBJ出發建立了一個包含所有病毒基因組序列信息的數據庫GIB-V,并整合了幾種常見的數據分析工具。為了銜接病毒基因組和蛋白質組信息,更全面的對病毒的科和屬進行區分,Hulo等建立了一個廣泛的病毒基因組和蛋白質組數據庫ViralZone。而為了增強對抗原變異的理解,Hayes等建立了一個包含了 27個科,42個種的病原物序列信息數據庫varDB。綜上所述,這些數據庫都是針對某一種或幾種病原物和特定的目標功能而建立的,都是在一級數據庫基礎上進行的序列信息提取、篩選和重組,能夠在一定程度上解決一些生物學問題。但是這些數據庫也存在著以下幾點不足:1)數據庫所包含的病原物種類單一,如IVDB、DPAweb、GIB-V、ViralZone只包含了病毒的信息;2)就varDB而言,包含了多種病原物的基因組序列和蛋白質序列的信息,但是這種序列信息也還是需要進一步大量而復雜的處理和篩選,才能進一步的進行下游生物芯片探針設計。
    技術實現思路
    近年來,隨著DNA測序技術的高速發展,人類已知的DNA核酸序列不斷增長,而伴隨著各種基因組測序計劃的展開和分子結構測定技術的突破和Internet的普及,數以百計的二級生物學數據庫,如雨后春筍般迅速出現和成長,而這些生物學數據庫往往是針對某種特定的功能而建立。本專利技術在整合各種一級數據庫和二級數據庫的基礎上,進行了有針對性的改進,建立了一個病原物基因組序列信息數據庫,并將涉及到的譜系信息和基因組信息中的編碼區進行了注釋。能夠實現原始序列的收集、查詢、下載和分析,并在此基礎上整合了一些常規的數據分析工具,如調用Blast對一對或一組序列進行序列比對、調用ClustalW進行多序列的比對、調用Phylip等工具進行序列進化樹的構建和編輯等工作、調用軟件進行序列間共進化信息的分析、調用R語言的相關統計工具,實現一些常規的統計分析功能等。本專利技術還在原始序列信息數據的基礎上,兼顧下游探針設計的需要,并針對于不同的病原物種類,對原始的基因組序列數據進行了進一步的篩選、加工和處理,產生了一個適用于下游探針設計的數據庫資源。附圖說明圖1為數據庫的總體系統架構圖。圖2為數據庫系統中對數據進行采集、分類、加工以及重組的流程圖。圖3為網絡版數據庫的網頁截圖。圖4為使用數據庫系統中的分析工具對序列進行分析的實例。具體實施例方式下面結合具體的實例及附圖,從數據庫系統架構,數據庫的構建,數據的采集、分類、加工及重組,數據庫查詢和管理功能的實現四個方面對本專利技術作進一步說明。一、數據庫系統架構我們采用的Web框架包括=Linux操作系統,Apache網絡服務器,MySQL數據庫管理系統,Perl和HTML編程語言(圖1)。在本專利技術中,我們采用自定義安裝Apache服務器、MySQL服務器和PERL,然后手動配置環境,初步搭建了一個數據庫網站的平臺。二、數據庫的構建本數據庫是基于關系數據庫模式而構建的。從總體上來看,在數據庫中最終包含的信息有:譜系中各個等級的注釋;按照宿主進行劃分了的病毒基因組序列(EMBL格式)及其蛋白質產物與結構域的注釋;按照病原體種類進行劃分了的病原體基因組序列(EMBL格式)及其蛋白質產物與結構域的注釋;各基因組序列的 CDS、3,UTR、5,UTR、LTR、18s rRNA,5.8s rRNA 和 28s rRNA(對于細菌來說,后三類除外)序列信息(fasta格式);細菌的16s rRNA,5s rRNA和23s rRNA序列信息;便于探針設計的序列信息(新fasta格式)。數據的采集、分類、加工及重組(圖2)1、譜系注釋信息的采集、分類、校正分析及重組。NCBI中提供了一個廣泛的、綜合的、非冗余的譜系注釋信息,因此,我們選擇了這個數據庫作為譜系分類注釋信息的來源。從這個數據庫中下載總的譜系注釋信息,然后按照病原體的種類進行分類和校正分析,最后將結果存入到數據庫中。2、前期參考信息的獲取。ICTV 數據庫(international committee on taxonomy of viruses)提供了一個基于病毒分類信息的病毒描述鏈接,在此數據庫中,將病毒依據宿主種類劃分為9種,包括藻類病毒、古細菌病毒、細菌病毒、真菌病毒、非脊椎動物病毒、植物病毒、原生動物病毒、脊椎動物病毒和未分類的病毒,這種按照宿主種類進行劃分的信息給我們提供了一種很好的構建病毒庫的信本文檔來自技高網
    ...

    【技術保護點】
    數據庫的構建。本數據庫是基于關系數據庫模式而構建的。從總體上來看,在數據庫中最終包含的信息有:譜系中各個等級的注釋;按照宿主進行劃分了的病毒基因組序列(EMBL格式)及其蛋白質產物與結構域的注釋;按照病原體種類進行劃分了的病原體基因組序列(EMBL格式)及其蛋白質產物與結構域的注釋;各基因組序列的CDS、3’UTR、5’UTR、LTR、18s?rRNA、5.8s?rRNA和28s?rRNA(對于細菌來說,后三類除外)序列信息(fasta格式);細菌的16s?rRNA、5s?rRNA和23s?rRNA序列信息;便于探針設計的序列信息(新fasta格式)。

    【技術特征摘要】
    1.根據庫的構建。本數據庫是基于關系數據庫模式而構建的。從總體上來看,在數據庫中最終包含的信息有:譜系中各個等級的注釋;按照宿主進行劃分了的病毒基因組序列(EMBL格式)及其蛋白質產物與結構域的注釋;按照病原體種類進行劃分了的病原體基因組序列(EMBL格式)及其蛋白質產物與結構域的注釋;各基因組序列的 CDS、3,UTR、5,UTR、LTR、18s rRNA、5.8s rRNA 和 28s rRNA(對于細菌來說,后三類除外)序列信息(fasta格式);細菌的16s rRNA,5s rRNA和23s rRNA序列信息;便于探針設計的序列信息(新fasta格式)。2.根據采集、分類、加工及重組的實現 1)、譜系注釋信息的采集、分類、校正分析及重組。NCBI中提供了一個廣泛的、綜合的、非冗余的譜系注釋信息,因此,我們選擇了這個數據庫作為譜系分類注釋信息的來源。從這個數據庫中下載總的譜系注釋信息,然后按照病原體的種類進行分類和校正分析,最后將結果存入到數據庫中。 2)、前期參考信息的獲取。ICTV數據庫(international committee ontaxonomy ofviruses)提供了一個基于病毒分類信息的病毒描述鏈接,在此數據庫中,將病毒依據宿主種類劃分為9種,包括藻類病毒、古細菌病毒、細菌病毒、真菌病毒、非脊椎動物病毒、植物病毒、原生動物病毒、脊椎動物病毒和未分類的病毒,這種按照宿主種類進行劃分的信息給我們提供了一種很好的構建病毒庫的信息。從ICTV中分別按照宿主種類下載病毒屬的物種名信息,并整理成表格,以便于下游病毒庫的設計。從NCBI數據庫中下載taxid與其上一級的taxid的關系表nodes, dmp、taxid與其對應的學名及同義字關系表names, dmp、并依據物種分類表(division, dmp)將這兩個關系表劃分為10類,包括細菌、非脊椎動物、哺乳動物、植物、靈長類動物、嚙齒動物、病毒、脊椎動物、環境樣本、未分類和綜合類。我們對每一個分類的names, dmp和nodes, dmp表進行處理,生成taxid與其對應的所有物種名(包括學名與同義字)之間的關系表taxid.synonym。然后,我們對真菌、 細菌的nodes, dmp與names, dmp表進行如下處理:從nodes, dmp中查找得到屬以下等級的taxid,并進行此taxid對應的屬和種的信息的查找。在此過程中,我們獲得了每個分類下屬以下等級的taxid和學名與其對應的屬和科的taxid和學名之間的關系表 taxid.family。3)、病毒庫的構建。依據ICTV庫的信息,將病毒庫中的序列信息依據宿主種類劃分為9種,以便于下游的信息下載和分析。由于ICTV的數據更新比NCBI中的數據更新慢,所以,首先我們需要依據NCBI中的信息對ICTV中屬的信息進行校正,步驟如下:將ICTV中獲得的屬的物種名信息按照宿主進行分類,對每個分類進行如下處理:依據names, dmp對這些信息進行校正,最終校正的屬的學名以names, dmp中的名稱為準,同時生成屬的taxid與屬的學名之間的關系表;依據nodes, dmp對屬的taxid進行分支信息的查找,即查找各屬以下等級的物種信息,并生成taxid和其學名與其所對應的屬的taxid和學名之間的關系表。在此過程中,我們獲得了按照宿主進行分類了的所有病毒的taxid和學名及其對應的屬的taxid和學名之間的關系表taxid...

    【專利技術屬性】
    技術研發人員:張鑫磊蔣小云肖琛
    申請(專利權)人:北京健數通生物計算技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久久久琪琪去精品色无码| 无码人妻视频一区二区三区| a级毛片无码免费真人| 亚洲精品无码久久久久久| 亚洲久热无码av中文字幕| 熟妇人妻中文a∨无码| 亚洲国产成人精品无码一区二区 | 亚洲一区二区三区AV无码 | 精品无码人妻一区二区三区| 性生交片免费无码看人| 亚洲日韩精品无码专区网址| 无码高潮少妇毛多水多水免费| 亚洲精品无码国产| 内射无码午夜多人| 无码人妻久久一区二区三区免费| 免费无码一区二区| 丰满亚洲大尺度无码无码专线| 无码人妻精品一区二区三区东京热| 亚洲 另类 无码 在线| 亚洲中文无码mv| 蜜桃无码AV一区二区| 无码人妻少妇色欲AV一区二区| 国精品无码一区二区三区在线蜜臀 | 无码伊人66久久大杳蕉网站谷歌| 亚洲国产精品成人AV无码久久综合影院 | 亚洲AV永久无码区成人网站| 性色av无码不卡中文字幕| 精品无码人妻夜人多侵犯18| 免费看成人AA片无码视频吃奶| 国产精品无码久久综合网| 影音先锋中文无码一区 | 国产精品午夜福利在线无码| 亚洲av无码兔费综合| 999久久久无码国产精品| 久久水蜜桃亚洲av无码精品麻豆| 少妇人妻无码精品视频app| 国产成人精品无码免费看| 亚洲国产综合无码一区| 国产AV无码专区亚洲AVJULIA| 亚洲啪啪AV无码片| 亚洲AV无码专区亚洲AV伊甸园|