Entrez分子序列資料庫系統簡介
Entrez分子序列資料庫系統(Entrez Molecular Sequence Database System)是一個整合型的檢索介面,網址為:https://www.ncbi.nlm.nih.gov/search/,由美國國家生醫資訊中心(National Center for Biotechnology Information, NCBI)建置,在此介面可搜尋到6大類37種資料庫的資料,使用者可依檢索結果直接連到特定資料庫做更深入的檢索。本文針對上述資料庫簡介如下:
Literature (文獻類資料庫)
Genes (基因相關資料庫)
Genetics (遺傳學相關資料庫)
Proteins (蛋白質相關資料庫)
Genomes(基因組相關資料庫)
Chemicals (化學相關資料庫)
Bookshelf線上資料庫收錄超過1000種由NCBI所撰寫或列管之生物、醫學以及生命科學相關之圖書、報告、以及其他形式的學術文獻。
本資料庫做為NLM Literature Archive (LitArch)的圖書類全文數位寄存(digital repository)系統,除了致力於保存並維持生醫領域電子全文的免費取用,同時透過與其他NCBI資源的整合,如PubMed、Gene、OMIN、以及PubChem,讓使用者可連結到Bookshelf,增加探索的機會。使用者可以檢索到圖書的篇章及全文,透過檢索與瀏覽功能,可利用關鍵字檢索或瀏覽相關主題之圖書。
MeSH (Medical Subject Headings)是用來索引PubMed中期刊文獻的國家醫學圖書館控制詞彙索引典(thesaurus)。收錄在PubMed中的期刊文獻都會被賦予不只一組MeSH關鍵字。透過這些MeSH關鍵字可以有效聚集相關主題之期刊文獻。透過MeSH可以進一步了解關鍵字之間的樹狀關聯,進而查找更廣泛或更精確之文獻,亦可初步了解生醫領域主題的全貌。
NLM Catalog提供美國國家醫學圖書館的書目資料連結,包含期刊、圖書、視聽資料、電腦軟體、電子資源、以及其他類型資料等。亦提供連結至美國國家醫學圖書館線上館藏目錄LocatorPlus。
PubMed收錄超過2800萬筆來自MEDLINE的生醫領域文獻、生命科學期刊、以及電子書書目資料。書目資料包含PubMed Central與出版社網站的全文連結(使用權取決於所屬單位或個人是否有購買)。
PubMed Central (PMC)是美國國家醫學圖書館所提供,關於生醫與生命科學期刊文獻的免費電子全文寄存網站。此平台提供出版社與作者個人申請存放其著作之電子期刊全文,並免費提供連結使用。
本資料庫整合廣大範圍之物種資訊,單筆資料可能包含:命名法(nomenclature)、參考序列(RefSeqs)、圖譜(maps)、路徑(pathways)、變異(variations)、表型(phenotypes)以及來自全世界的基因體、表型、與基因特異連結。
本資料庫儲存基因表現型的資料集(DataSet),以及GEO資料庫中的原始Series及Platform紀錄。可輸入關鍵字查找相關的實驗。DataSet紀錄包含群集工具(cluster tools)以及差異性表現查詢(differential expression queries)等額外資源。
本資料庫儲存GEO DataSet資料庫中的單一基因表現譜(individual gene expression profiles),可以用基因註記(gene annotation)或預先運算之表現譜特徵為基礎搜尋特定表現譜資料。
透過來自全世界的真核物種基因集,本資料庫可查詢出假設的同源群體資料。
本資料庫提供透過演化相關實驗而收集的DNA序列組,這些序列組可能來自相同物種中不同成員,也可能來自不同物種的有機物。
本資料庫可運算出來自相同基因座(locus)的轉譯文本,依照健康狀態、年齡、以及組織來分析表現型,以及提供相關蛋白質以及相關生物複製所需資源(clone resources)。
本資料庫收集遺傳變異及其與人類健康之關係的相關資訊。
本資料庫全稱為「基因型與表現型資料庫」(The database of Genotypes and Phenotypes, dbGaP),主要致力於典藏與傳播人類基因型與表現型交互作用相關觀察及研究所產生之資料。
本資料庫包含人類單一核甘酸變異、微衛星DNA (microsatellites)、小規模核甘酸的插入/缺失及其造成的分子結果、以及突變(一般與臨床)的基因體與RefSeq比對資訊。
本資料庫為人類基因體結構變異相關資料庫,包含DNA片段缺失、插入、重複、重排、倒位等。
全稱為遺傳學測試註冊資料庫(The Genetic Testing Registry, GTR®),提供全世界的自願者註冊其所進行的遺傳學測試資訊,範圍包含測試目的、方法、信度、測驗的實用證據、以及實驗室的連絡資訊等。
本資料庫整合了人類醫療遺傳學相關資訊,例如某些疾病狀態特性與遺傳之關係,本資料庫也提供醫療遺傳學相關文獻連結。
本資料庫彙整人類基因與遺傳表現型,免費且每天更新,本資料庫由約翰霍普金斯醫學院McKusick-Nathans遺傳醫學研究所負責維護,所長為Ada Hamosh博士,此資料庫的官方首頁為omim.org.
全稱為保守結構域資料庫(Conserved Domain Database),提供蛋白質中功能單元註記所需資源,收錄NCBI利用3D結構產生的結構域模型,幫助了解序列/結構/功能的關聯。
全稱為相似蛋白質群組資料庫(Identical Protein Groups),在單一款目下整合不同來源,如GenBank、RefSeq、SwissProt、以及PDB等等的相似蛋白質序列資料,本資料庫讓研究者可獲得更精準的結果,並快速找到與研究主題相關之蛋白質。
收錄來自GenBank、RefSeq、TPA、SwissProt、PIR、PRF、及PDB等資料庫的蛋白質序列資料。
收錄相似蛋白質序列群集,包含自完整註記基因體、細胞器、或質體中截取之蛋白質,目前限制在古細菌、細菌、植物、真菌類、原生生物等類別。
依照結構域架構(domain architecture)所做的蛋白質功能分類。
收錄分子生物結構實驗產出之3D結構,可提供生物功能以及大分子演化歷史等豐富資訊,也可用來驗證序列-結構-功能的關係、交互作用、活性位點(active sites)等。
提供基因組組裝資訊,包含已組裝之基因組、組裝名稱、統計報表、以及基因組序列資料之連結等。
博物館、標本館以及其他生物寄存單位之收藏清單(以Collection為單位)。
提供資料給NCBI之生物計畫小組清單。
提供上傳至NCBI之生物資源之描述與後設資料,原始資料存放於SRA, GEO, dbGaP, GenBank, EST, GSS, WGS等資料庫,且可連結至BioProject資料庫。這些描述與後設資料內容是由生物資源上傳者提供。
提供來自全世界研究者所產出的DNA與RNA序列資料。
本資料庫是用來從事各種生物醫學研究應用之核酸試劑的公開註冊平台,收錄資訊包含、探測效度、以及經計算的序列相似性等資訊。
收集透過新一代定序工具取得之基因序列資料,例如Roche 454 GS System®, Illumina Genome Analyzer®, Applied Biosystems SOLiD System®, Helicos Heliscope®, Complete Genomics®, and Pacific Biosciences SMRT®等。
本資料庫可查得公開序列資料庫中有機物的分類與命名法。目前大約收錄地球上10%的已知物種資訊。
提供連結至各種生物系統,包含其組成的基因、蛋白質、以及小分子資訊(含傳導路徑等),另外也包含文獻資料,以及Entrez上的相關資料。
本資料庫包含PubChem Subtance中對於化學物質的生物活動監控資訊,本資料庫針對每個生物檢定法(bioassay)提供可搜尋的描述,包含各種情況及特定監控程序之輸出(readouts)。
本資料庫提供有效的描述性資訊用以描述PubChem Substance資料庫中的物質。儲存於本資料庫中的化學結構都被按照相似性與名稱聚集起來,並充分互相參照。
本資料庫收錄樣本的描述,並提供的連結至PubChem BioAssay資料庫的生物監控結果資訊,如果這些化學內容包含了已知化學物質,則會提供連結至PubChem Compound資料庫。
參考資料:https://www.ncbi.nlm.nih.gov/Web/Search/entrezfs.html
post by: Wen-Chi Huang