學習筆記—-Genbank是什麼?

吴依霖 2024-08-26 22:22 10次浏览 0 条评论 taohigo.com

Genbank是最廣為人知的核酸和蛋白質序列數據庫。所以,我們就先來討論一下Genbank。

實際上,除瞭DNA和蛋白質序列之外,Genbank也包含許多書目和生物學註解。Genbank中的數據可從美國國立衛生研究院的生物信息研究中心免費獲取。

序列數據量

Genbank在2008年就已包含8千萬序列數據,一千億核苷酸數據。從1982年到現在,Genbank中堿基的數量大約每18個月翻一番。截止到2019年12月份,Genbank已經含有超過11億序列數據和6萬億核苷酸數據

WGS區域由高通量測序工作產生的序列組成。從2002年開始,WGS數據已經可以在NCBI網站上獲取,但是它們不被認為是Genbank釋放的一部分。

隨著Genbank序列數據的快速增長,新一代測序技術的到來導致大量新的DNA序列數據的導入。下一代測序包含巨量序列數據的產生,如耗時幾天的時間在一個單一實驗中產生1Gb的數據。在2008年11月的一期《自然》雜志中,Bentley等人描述瞭一個尼日利亞個體血統的測序,Wang等人發表瞭亞洲個體的DNA序列,Ley等人分析瞭腫瘤樣本的基因組序列。這三篇文章總共涉及492Gb DNA序列的產生和分析。到2008年底1000個基因組項目產生瞭數Tb的數據。對於幾個主要的數據中心,每個在2009年都產生瞭10Tb的數據,這些數據都可以通過NCBI的跟蹤存檔和EBI的Ensembl痕跡服務器獲取。

Genbank中的生物體

超過260000種不同的生物在Genbank中呈現,每個月會增加超過1000個新的物種。為瞭更好的組織獲取的信息,Genbank記錄的每個序列名稱緊跟其數據文件專區和主要的登錄號,下面的代碼被用來指定數據文件專區:

1. PRI:靈長目動物序列

2. ROD:嚙齒目動物序列

3. MAM:其他哺乳動物序列

4. VRT:其他脊椎動物序列

5. INV:無脊椎動物序列

6. PLN:植物、真菌及海藻序列

7. BCT:細菌序列

8. VRL:病毒序列

9. PHG:噬菌體序列

10.SYN:合成的序列

11. UNA:未註釋的序列

12. EST:表達序列標簽

13. PAT:專利序列

14. STS:序列標簽位置序列

15. GSS:基因組概覽序列

16. HTG:高通量基因組序列

17. HTC:高通量互補DNA序列

18. ENV:環境抽樣序列

Genbank中的數據類型

Genbank中有巨量的分子序列,那麼,我們接下來就探究其中一些基礎的數據類型。隨後,我會討論從Genbank中提取數據的策略。

我們以一個示例—-找出人類beta球蛋白的序列開始。一個基本的困難在於DNA、RNA及蛋白質序列被存儲在離散的數據庫中,而且在每個數據庫中,序列數據以不同的形式呈現。例如,beta球蛋白可能會在DNA水平(作為基因)、RNA水平(作為信使RNA進行轉錄)或是在蛋白質水平上進行描述。如果在瀏覽器中輸入“globin”,那麼檢索出的結果可能會是一個基因、一個DNA或是轉錄的RNA,在這三個層次上都有相對應的特定數據庫。具體的情況如下所示:

基因組DNA數據庫

beta球蛋白是染色體的一部分,以人類視黃醇結合蛋白為例我們可以看到它的基因位於11號染色體。另外,beta球蛋白也有可能是大型DNA片段(如可能包含多個基因的粘粒、細菌人工染色體或酵母人工染色體)的一部分。細菌人工染色體是克隆到DNA的較大的DNA片段(一般包含200000個堿基對),同樣地,酵母人工染色體將大型DNA片段克隆到酵母,細菌人工染色體和酵母人工染色體是對大部分基因組測序的有效載體。

beta球蛋白或許是以基因的形式存在。基因是遺傳的功能單元,其DNA序列一般包含調控區域、編碼蛋白質的外顯子和內含子。通常,人類基因有1萬到10萬個堿基對。

beta球蛋白以序列標簽位置的方式存在。就是說,用於連接遺傳和物理地圖的小型DNA片段是序列標簽位點數據庫的一部分。

對應於表達基因的cDNA庫

beta球蛋白以表達序列標簽的形式在數據庫中呈現,即是一個源自特定cDNA庫的cDNA序列。如果一個人獲得瞭一個組織,如肝臟,純化RNA,然後將RNA轉化為更穩定的cDNA,那麼某些cDNA的克隆可能會編碼beta球蛋白。

表達序列標簽

表達序列標簽庫是Genbank的一個專區,包含瞭來自許多生物體的單通道cDNA序列信息。一個表達序列標簽是一個cDNA克隆的部分DNA序列。所有的cDNA克隆及由此而產生的所有表達序列標簽,都源自某些特定的RNA資源,如人類大腦或小鼠肝臟。RNA被轉化為一種更穩定的形式–cDNA,隨後被打包到cDNA庫中。表達序列標簽通常為300到800個堿基對,對它們進行測序的最早努力導致瞭數以百計基因的識別,這在當時是相當新奇的。

Unigene

Unigene的目標是通過自動將EST分割為不重復的部分創造基因導向簇,最終一個UniGene簇被分配給生物體的一個基因。一個簇中可能僅僅含有一個EST,這表明該基因很少被表達,成千上萬個EST會與一個高度表達的基因聯系在一起。

對於人類beta球蛋白來說,隻有單一的UniGene入口,這個入口目前有2400個人類EST與beta球蛋白基因相匹配。大量的EST表明beta球蛋白基因如何在測序完成的cDNA庫中頻繁的表達。一個UniGene簇是一個包含成組EST的基因的數據庫入口。