病原體基因組序列數據庫系統技術方案

技術編號：8683003 閱讀：402 留言：0更新日期：2013-05-09 02:56

本發明專利技術主要涉及到一個統一了幾種不同類型的病原體序列信息的數據庫系統，并在此基礎上發展的一個對病原體進行遺傳學、基因組學和系統發育研究的分析平臺。所涉及到的病原體主要包括：細菌、真菌、病毒、原生動物、寄生蟲。本發明專利技術有效地整合了各種來源的病原體基因組信息，能夠實現數據分析與統計，原始數據及加工數據的查詢和下載三者間的有機結合，并可實時地對各種病原體基因組數據進行收集、處理、分析和整合，從而建立了一個統一、穩定、高效的數據平臺。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術主要涉及到一個統一了幾種不同類型的病原體序列信息的數據庫系統，并在此基礎上發展的一個對病原體進行遺傳學、基因組學和系統發育研究的分析平臺。所涉及到的病原體主要包括:細菌、真菌、病毒、原生動物、寄生蟲。
技術介紹
病原體(pathogen)是能引起疾病的微生物和寄生蟲的統稱。其中微生物占絕大多數，包括病毒、衣原體、立克次體、支原體、細菌、螺旋體和真菌。高致病性病原體的感染與爆發能給人類造成巨大的傷害，如近年來新發現的一個高致病性的禽流感病毒H5N1造成了 100多人的死亡并使得在亞洲、歐洲和非洲數以百萬計的禽類被屠宰(世界衛生組織報道)，而對高致病性病原體遷移和進化模式進行嚴謹的監視和跨學科研究是防止人類和其他物種被傷亡的關鍵。病原體的基因組序列給我們提供了很多可用于病原體發病機理研究、診斷和治療上的有效信息。現階段在世界范圍內有許多的基因組序列信息數據庫，如美國國家生物技術信息中心(NCBI)內的RefSeq數據庫和EMBL中的Ensembl Genomes庫中提供了很多分類的基因組DNA序列和注釋信息，但是，由于在這兩個數據庫中的有些數據是來源于直接提交上去的序列信息，所以對這些數據庫中的病原體基因組序列數據進行提取、校正、確證和分類，建立一個專門的包含病原體基因組序列數據庫是非常必要的。在病原體檢測診斷方面，目前臨床上常用的病原微生物檢測診斷方法有PCR技術、培養技術、免疫酶技術(EIA)、酶聯免疫吸附試驗(ELISA)等。這些技術在臨床診斷中已發揮了巨大的作用，但仍存在一些缺點。雖然PCR技術本身的優越性是無可厚非的，但由于使用不當，很容...

【技術保護點】
數據庫的構建。本數據庫是基于關系數據庫模式而構建的。從總體上來看，在數據庫中最終包含的信息有：譜系中各個等級的注釋；按照宿主進行劃分了的病毒基因組序列(EMBL格式)及其蛋白質產物與結構域的注釋；按照病原體種類進行劃分了的病原體基因組序列(EMBL格式)及其蛋白質產物與結構域的注釋；各基因組序列的CDS、3’UTR、5’UTR、LTR、18s?rRNA、5.8s?rRNA和28s?rRNA(對于細菌來說，后三類除外)序列信息(fasta格式)；細菌的16s?rRNA、5s?rRNA和23s?rRNA序列信息；便于探針設計的序列信息(新fasta格式)。

【技術特征摘要】
1.根據庫的構建。本數據庫是基于關系數據庫模式而構建的。從總體上來看，在數據庫中最終包含的信息有:譜系中各個等級的注釋；按照宿主進行劃分了的病毒基因組序列(EMBL格式)及其蛋白質產物與結構域的注釋；按照病原體種類進行劃分了的病原體基因組序列(EMBL格式)及其蛋白質產物與結構域的注釋；各基因組序列的 CDS、3，UTR、5，UTR、LTR、18s rRNA、5.8s rRNA 和 28s rRNA(對于細菌來說，后三類除外)序列信息(fasta格式)；細菌的16s rRNA,5s rRNA和23s rRNA序列信息；便于探針設計的序列信息(新fasta格式)。2.根據采集、分類、加工及重組的實現 1)、譜系注釋信息的采集、分類、校正分析及重組。NCBI中提供了一個廣泛的、綜合的、非冗余的譜系注釋信息，因此，我們選擇了這個數據庫作為譜系分類注釋信息的來源。從這個數據庫中下載總的譜系注釋信息，然后按照病原體的種類進行分類和校正分析，最后將結果存入到數據庫中。 2)、前期參考信息的獲取。ICTV數據庫(international committee ontaxonomy ofviruses)提供了一個基于病毒分類信息的病毒描述鏈接，在此數據庫中，將病毒依據宿主種類劃分為9種，包括藻類病毒、古細菌病毒、細菌病毒、真菌病毒、非脊椎動物病毒、植物病毒、原生動物病毒、脊椎動物病毒和未分類的病毒，這種按照宿主種類進行劃分的信息給我們提供了一種很好的構建病毒庫的信息。從ICTV中分別按照宿主種類下載病毒屬的物種名信息，并整理成表格，以便于下游病毒庫的設計。從NCBI數據庫中下載taxid與其上一級的taxid的關系表nodes, dmp、taxid與其對應的學名及同義字關系表names, dmp、并依據物種分類表(division, dmp)將這兩個關系表劃分為10類，包括細菌、非脊椎動物、哺乳動物、植物、靈長類動物、嚙齒動物、病毒、脊椎動物、環境樣本、未分類和綜合類。我們對每一個分類的names, dmp和nodes, dmp表進行處理，生成taxid與其對應的所有物種名(包括學名與同義字)之間的關系表taxid.synonym。然后，我們對真菌、細菌的nodes, dmp與names, dmp表進行如下處理:從nodes, dmp中查找得到屬以下等級的taxid，并進行此taxid對應的屬和種的信息的查找。在此過程中，我們獲得了每個分類下屬以下等級的taxid和學名與其對應的屬和科的taxid和學名之間的關系表 taxid.family。3)、病毒庫的構建。依據ICTV庫的信息，將病毒庫中的序列信息依據宿主種類劃分為9種，以便于下游的信息下載和分析。由于ICTV的數據更新比NCBI中的數據更新慢，所以，首先我們需要依據NCBI中的信息對ICTV中屬的信息進行校正，步驟如下:將ICTV中獲得的屬的物種名信息按照宿主進行分類，對每個分類進行如下處理:依據names, dmp對這些信息進行校正，最終校正的屬的學名以names, dmp中的名稱為準，同時生成屬的taxid與屬的學名之間的關系表；依據nodes, dmp對屬的taxid進行分支信息的查找，即查找各屬以下等級的物種信息，并生成taxid和其學名與其所對應的屬的taxid和學名之間的關系表。在此過程中，我們獲得了按照宿主進行分類了的所有病毒的taxid和學名及其對應的屬的taxid和學名之間的關系表taxid...

【專利技術屬性】
技術研發人員：張鑫磊，蔣小云，肖琛，
申請(專利權)人：北京健數通生物計算技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術