Genbank

生物學 數據庫 基因

心氣虛,則脈細;肺氣虛,則皮寒;肝氣虛,則氣少;腎氣虛,則泄利前後;脾氣虛,則飲食不入。
醫學百科APP(安卓 | iOS | Windows版)

您的醫學知識庫 + 健康測試工具

https://www.wiki8.cn/app/

1 英文參考

Genbank

2 概述

GenBank 是一個開放獲取的序列數據庫,對所有公開可利用的核苷酸序列與其翻譯蛋白質進行收集並註釋。 此數據庫是國際協作核酸序列數據庫(INSDC)的一部分,由美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)主管,NCBI爲美國國立衛生研究院的下屬機構。GenBank和它的合作者從全球各個實驗室接收了超過百萬種生物的數據。Genbank庫包含了所有已知的核酸序列和蛋白質序列,以及與它們相關的文獻著作和生物學註釋。它的數據直接來源於測序工作者提交的序列、由測序中心提交的大量EST序列和其它測序數據、以及與其它數據機構協作交換數據而來。Genbank每天都會與歐洲分子生物學實驗室(EMBL)的數據庫,和日本的DNA數據庫(DDBJ)交換數據,使這三個數據庫的數據同步。到1999年8月,Genbank中收集的序列數量達到460萬條,34億個鹼基,而且數據增長的速度還在不斷加快。Genbank的數據可以從NCBI的FTP服務器上免費下載完整的庫,或下載積累的新數據。NCBI還提供廣泛的數據查詢、序列相似性搜索以及其它分析服務,用戶可以從NCBI的主頁上找到這些服務。

Genbank庫裏的數據按來源於約55,000個物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數據記錄包含了對序列的簡要描述,它的科學命名,物種分類名稱,參考文獻,序列特徵表,以及序列本身。序列特徵表裏包含對序列生物學特徵註釋如:編碼區、轉錄單元、重複區域、突變位點或修飾位點等。所有數據記錄被劃分在若干個文件裏,如細菌類、病毒類、靈長類、齧齒類,以及EST數據、基因組測序數據、大規模基因組序列數據等16類,其中EST數據等又被各自分成若干個文件。

Genbank網站:https://www.ncbi.nlm.nih.gov/genbank/

3 Genbank的歷史

1979年,洛斯阿拉莫斯國家實驗室(LANL)理論生物學生物物理學小組的Walter Goad等人建立了洛斯阿拉莫斯序列數據庫,最終成爲了公共的 GenBank數據庫的前身。1982年,由美國國立衛生研究院、美國國家科學基金會、美國能源部和國防部共同出資,LANL與BBN科技公司合作,成立了GenBank。到1983年底,已有超過2,000個序列被存儲在GenBank。

在20世紀80年代中期,斯坦福大學的Intelligenetics bioinformatics公司與LANL合作經營着GenBank項目[5]。作爲最早的互聯網生物信息學社區項目,GenBank計劃爲生物學家打造一個開放獲取的BIOSCI/Bionet消息社羣。1989到1992年,GenBank被轉移到新成立的美國國家生物技術信息中心[6]

Genbank和EMBL在1986/1987年出版的《核苷酸序列》I到VII卷

4 GenBank的發展

在GenBank的版本162.0(2007年8月)的發行說明中道出:“從1982年到現在,GenBank中的鹼基數每隔18個月翻一番。”[7]

截至2013年7月8日,GenBank的版本196.0已有165,740,164個基因座,152,599,230,112個鹼基,165,740,164個報導序列[3]。 GenBank數據庫還包括一些額外的數據集,不包括在這個統計內。

5 Genbank數據檢索

大型數據庫分成若干子庫,有許多好處。首先,可以把數據庫查詢限定在某一特定部分,以便加快查詢速度。其次,基因組計劃快速測序得到的大量序列尚未加以註釋,將它們單獨分類,有利於數據庫查詢和搜索時“有的放矢”。GenBank將這些數據按高通量基因組序列(HighThroughput Genomic Sequences,HTG)、表達序列標記(Expressed Sequence Tags,EST)、序列標記位點(SequenceTaggedSites,STS)和基因組概覽序列(Genome Survey Sequences,GSS)單獨分類。儘管這些數據尚未加以註釋,它們依然是GenBank的重要組成部分。

NCBI的數據庫檢索查詢系統是Entrez。Entrez是基於Web界面的綜合生物信息數據庫檢索系統。利用Entrez系統,用戶不僅可以方便地檢索Genbank的核酸數據,還可以檢索來自Genbank和其它數據庫蛋白質序列數據、基因組圖譜數據、來自分子模型數據庫(MMDB)的蛋白質三維結構數據、種羣序列數據集、以及由PubMed獲得Medline的文獻數據。這個系統核酸蛋白質序列和基因圖譜、蛋白質結構數據庫整合在一起。此外,通過該系統的文獻摘要數據庫MEDLINE,可獲取有關序列的進一步信息。Entrez提供了方便實用的檢索服務,所有操作都可以在網絡瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來實現複雜的檢索查詢工作。對於檢索獲得的記錄,用戶可以選擇需要顯示的數據,保存查詢結果,甚至以圖形方式觀看檢索獲得的序列。更詳細的Entrez使用說明可以在該主頁上獲得。在萬維網上,進入NCBI的主頁,可以用BLAST程序對GenBank數據庫進行未知序列的同源性搜索。

完整的GenBank數據庫包括序列文件,索引文件以及其它有關文件。索引文件是根據數據庫中作者、參考文獻等子段建立的,用於數據庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列數據庫,其數據格式爲FastA。GenBank曾以CD-ROM光盤的形式分發,價格比較便宜。隨着數據庫容量的增長,一套最新版的GenBank需要12張光盤存放,不僅生產成本很高,也不便於使用。現在,光盤分發的方式已經停止,可以通過網絡下載GenBank數據庫。

GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核甘酸鹼基排列順序和註釋兩部分。目前,許多生物信息資源中心通過計算機網絡提供該數據庫文件。下面,我們介紹序列文件的結構

序列文件由單個的序列條目組成。序列條目由字段組成,每個字段由關鍵字起始,後面爲該字段的具體說明。有些字段又分若干次子字段,以次關鍵字或特性表說明符開始。每個序列條目以雙斜槓“//”作結束標記。序列條目的格式非常重要,關鍵字從第一列開始,次關鍵字從第三列開始,特性表說明符從第五列開始。每個字段可以佔一行,也可以佔若干行。若一行中寫不下時,繼續行以空格開始。

序列條目的關鍵字包括代碼(LOCUS),說明(DEFINITION), 編號(ACCESSION),核酸標識符(NID),關鍵詞(KEYWORDS),數據來源(SOURCE),文獻(REFERENCE),特性表(FEATURES),鹼基組成(BASE COUNT)及鹼基排列順序(ORIGIN)。

代碼LOCUS是該序列條目的標記,或者說標識符,蘊涵這個序列的功能。例如,圖4.1中所示的HUMCYCLOX表示人的環氧化酶cyclooxygenase。該字段還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。說明字段是有關這一序列的簡單描述,如本例爲人環氧化酶-2的mRNA全序列。

序列代碼具有唯一性和永久性,如本例中代碼M90100用來表示上述人環氧化酶-2的mRNA序列,在文獻中引用這個序列時,應該以此代碼爲準。核酸標識符NID對序列信息的當前版本提供?

關鍵詞字段由該序列的提交者提供,包括該序列的基因產物以及其它相關信息,如本例中還氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。數據來源字段說明該序列是從什麼生物體、什麼組織得到的,如本例中人臍帶血管(umbilical vein)。次關鍵字種屬(ORGANISM)指出該生物體的分類學地位,如本例人、真核生物等等。文獻字段說明該序列中的相關文獻,包括作者(AUTHORS),題目(TITLE)及雜誌名(JOURNAL)等,以次關鍵詞列出。該字段中還列出醫學文獻摘要數據庫MEDLINE的代碼。該代碼實際上是個網絡鏈接指針,點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,並給出該序列中的哪一部分與文獻有關。

FEATURES是具有自己的一套結構,用來詳細描述序列特性的一個表格。在這個表格內,帶有‘/db-xref/’標誌的字符可以連接到其它數據庫內(本例,您看到的是一個分類數據庫(tax NCBI on 9606),以及一個蛋白質數據庫(PID:g181254));序列中各部分的位置都加以標明,5’非編碼區(1-97),編碼區(98-1912),3非編碼區(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白質翻譯信號肽及最終的多肽也都有所說明。這個例子不能說很全面,但已經足以說明特性表給出信息的詳細程度。

接下來是BASE COUNT記錄,計算出不同鹼基在整個序列中出現的次數(1010A,712個C,633個G,1032個T)。ORIGIN那一行,指出了序列第一個鹼基基因組中可能的位置。最後,核酸的序列全部列出,並以//作爲結尾。檢索方式:

如果在文獻中看到過你感興趣基因,而且文中還提到了該基因在Genbank中的ID號,進入NCBI ,在Search後的下拉框中選擇Nucleotide,把Genbank ID號輸入GO前面的文本框中,點“GO”,即可以檢索到所需序列。

6 向Genbank提交序列數據

測序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數據庫。這個任務可以由基於Web界面的BankIt或獨立程序Sequin來完成。

BankIt是一系列表單,包括聯絡信息、發佈要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列後,會從電子郵件收到自動生成的數據條目,Genbank的新序列編號,以及完成註釋後的完整的數據記錄。用戶還可以在BankIt頁面下修改已經發布序列的信息。BankIt適合於獨立測序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長的序列,EST序列和GSS序列也不應用BankIt提交。BankIt使用說明和對序列的要求可詳見其主頁面。

大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理複雜註釋,幷包含一系列內建的檢查函數來提高序列的質量保證。它還被設計用於提交來自系統進化種羣突變研究的序列,可以加入比對的數據。Sequin除了用於編輯和修改序列數據記錄,還可以用於序列的分析,任何以FASTA或ASN.1格式序列爲輸入數據的序列分析程序都可以整合到Sequin程序下。在不同操作系統下運行的Sequin程序都可以在下找到,Sequin的使用說明可詳見其網頁。

特別提示:本站內容僅供初步參考,難免存在疏漏、錯誤等情況,請您核實後再引用。對於用藥、診療等醫學專業內容,建議您直接咨詢醫生,以免錯誤用藥或延誤病情,本站內容不構成對您的任何建議、指導。