Ensembl genome database project - Ensembl genome database project
Obsah | |
---|---|
Popis | Ensembl |
Kontakt | |
Výzkumné centrum | |
Primární citace | Yates a kol. (2020) |
Přístup | |
webová stránka | www |
Projekt databáze genomu Ensembl je vědecký projekt Evropského institutu pro bioinformatiku , který byl zahájen v roce 1999 v reakci na bezprostřední dokončení projektu lidského genomu . Ensembl si klade za cíl poskytnout centralizovaný zdroj pro genetiky, molekulární biology a další výzkumníky studující genomy našeho vlastního druhu a dalších obratlovců a modelových organismů . Ensembl je jedním z několika známých prohlížečů genomu pro získávání genomových informací.
Podobné databáze a prohlížeče se nacházejí v NCBI a na Kalifornské univerzitě v Santa Cruz (UCSC) .
Pozadí
Lidský genom se skládá ze tří miliard párů bází , které kódují přibližně 20 000–25 000 genů . Samotný genom je však málo využitelný, pokud nelze určit umístění a vztahy jednotlivých genů. Jednou z možností je ruční anotace , kdy se tým vědců pokouší lokalizovat geny pomocí experimentálních dat z vědeckých časopisů a veřejných databází. Jedná se však o pomalý, pečlivý úkol. Alternativou, známý jako automatizované anotace, je využít sílu počítačů k tomu komplexní vzor-matching z proteinu na DNA .
V projektu Ensembl jsou sekvenční data vkládána do systému pro anotaci genů (soubor softwarových „pipelines“ napsaných v Perlu ), který vytváří sadu predikovaných umístění genů a ukládá je do databáze MySQL pro následnou analýzu a zobrazení. Ensembl tyto údaje volně zpřístupňuje světové výzkumné komunitě. Všechna data a kódy vytvořené projektem Ensembl jsou k dispozici ke stažení a existuje také veřejně přístupný databázový server umožňující vzdálený přístup. Web Ensembl navíc poskytuje počítačem generované vizuální zobrazení většiny dat.
Časem se projekt rozšířil o další druhy (včetně klíčových modelových organismů, jako jsou myši , ovocné mouchy a zebrafish ) a také širší škálu genomických dat, včetně genetických variací a regulačních prvků. Od dubna 2009 sesterský projekt Ensembl Genomes rozšířil působnost Ensemblu na metazoa bezobratlých , rostliny , houby , bakterie a prvoky , zatímco původní projekt se nadále zaměřuje na obratlovce.
Zobrazení genomických dat
Ústředním bodem konceptu Ensembl je schopnost automaticky generovat grafické pohledy na zarovnání genů a dalších genomických dat proti referenčnímu genomu . Ty se zobrazují jako datové stopy a jednotlivé stopy lze zapínat a vypínat, což uživateli umožňuje přizpůsobit zobrazení tak, aby vyhovovalo jeho výzkumným zájmům. Rozhraní také umožňuje uživateli přiblížit oblast nebo se pohybovat po genomu v obou směrech.
Jiné displeje ukazují data na různých úrovních rozlišení, od celých karyotypů až po textové reprezentace sekvencí DNA a aminokyselin , nebo představují jiné typy zobrazení, jako jsou stromy podobných genů ( homologů ) napříč řadou druhů. Grafiku doplňují tabulkové displeje a v mnoha případech lze data exportovat přímo ze stránky v různých standardních formátech souborů, jako je FASTA .
Externě produkovaná data lze také přidat na displej nahráním vhodného souboru v jednom z podporovaných formátů, jako je BAM , BED nebo PSL .
Grafika je generována pomocí sady vlastních modulů Perl založených na GD , standardní knihovně grafických displejů Perl.
Alternativní přístupové metody
Kromě svých webových stránek poskytuje Ensembl REST API a Perl API (Application Programming Interface), které modeluje biologické objekty, jako jsou geny a proteiny, což umožňuje psaní jednoduchých skriptů pro získání požadovaných dat. Stejné API používá interně webové rozhraní k zobrazení dat. Je rozdělena do sekcí, jako je základní API, compara API (pro srovnávací genomická data), variační API (pro přístup k SNP, SNV, CNV ..) a funkční genomické API (pro přístup k regulačním datům). Web Ensembl poskytuje rozsáhlé informace o tom, jak nainstalovat a používat API .
Tento software lze použít pro přístup k veřejné databázi MySQL , čímž se vyhnete nutnosti stahovat obrovské množiny dat. Uživatelé se mohou dokonce rozhodnout načítat data z MySQL pomocí přímých dotazů SQL, ale to vyžaduje rozsáhlé znalosti aktuálního schématu databáze.
Velké datové sady lze načíst pomocí nástroje pro těžbu dat BioMart . Poskytuje webové rozhraní pro stahování datových sad pomocí složitých dotazů.
Nakonec existuje server FTP, který lze použít ke stahování celých databází MySQL i některých vybraných datových sad v jiných formátech.
Aktuální druhy
Komentované genomy zahrnují většinu plně sekvenovaných obratlovců a vybrané modelové organismy. Všechny jsou eukaryoty, neexistují žádné prokaryoty. Od roku 2008 to zahrnuje:
-
Chordata
-
Mammalia
-
Euarchontogliry
- Primáti : keř , šimpanz , člověk, makak , lemur myši , orangutan , nártoun ;
- Scandentia : rejsek ;
- Glires (= hlodavce + Zajícovci): morčete , klokan krysí , myší , potkaní , pozemní veverky , Pika , králík ;
- Laurasiatheria : kráva , delfín , alpaka , prase , kočka , pes , kůň , megabat , mikrobat , ježek , rejsek ;
- Afrotheria: slon , hyrax , tenrec
- Xenarthra : pásovec , lenost ;
- Marsupialia : vačice , valaška ;
- Monotremes : ptakopysk ;
-
Euarchontogliry
- Ptáci : kuře , zebra finch ;
- Lepidosauria : anole ještěrka (pre);
- Lissamphibia : Xenopus tropicalis ;
- Teleost ryby: Takifugu rubripes ( Fugu ), Tetraodon nigroviridis (zelená tečkovaný pufferfish), Danio rerio ( zebrafish ), Oryzias latipes ( medaka ), Gasterosteus aculeatus ( stickleback );
- Cyclostomata : Petromyzon marinus ( mihule mořská ) (pre);
- Pláštěnci : Ciona intestinalis , Ciona savignyi ;
-
Mammalia
- Bezobratlí
- Hmyz : Drosophila melanogaster (fruitfly), Anopheles gambiae (komár), Aedes aegypti (komár)
- Červ : Caenorhabditis elegans
- Kvasinky : Saccharomyces cerevisiae (pekařské kvasnice)
Viz také
- Seznam sekvenovaných eukaryotických genomů
- Sekvenční analýza
- Nástroj pro profilování sekvencí
- Sekvenční motiv
- Prohlížeč genomů UCSC