Ensembl genome database project - Ensembl genome database project

Ensembl genome database project.
Sestava vydání58 sgcb screenshot.png
Obsah
Popis Ensembl
Kontakt
Výzkumné centrum
Primární citace Yates a kol. (2020)
Přístup
webová stránka www .ensembl .org

Projekt databáze genomu Ensembl je vědecký projekt Evropského institutu pro bioinformatiku , který byl zahájen v roce 1999 v reakci na bezprostřední dokončení projektu lidského genomu . Ensembl si klade za cíl poskytnout centralizovaný zdroj pro genetiky, molekulární biology a další výzkumníky studující genomy našeho vlastního druhu a dalších obratlovců a modelových organismů . Ensembl je jedním z několika známých prohlížečů genomu pro získávání genomových informací.

Podobné databáze a prohlížeče se nacházejí v NCBI a na Kalifornské univerzitě v Santa Cruz (UCSC) .

Pozadí

Lidský genom se skládá ze tří miliard párů bází , které kódují přibližně 20 000–25 000 genů . Samotný genom je však málo využitelný, pokud nelze určit umístění a vztahy jednotlivých genů. Jednou z možností je ruční anotace , kdy se tým vědců pokouší lokalizovat geny pomocí experimentálních dat z vědeckých časopisů a veřejných databází. Jedná se však o pomalý, pečlivý úkol. Alternativou, známý jako automatizované anotace, je využít sílu počítačů k tomu komplexní vzor-matching z proteinu na DNA .

V projektu Ensembl jsou sekvenční data vkládána do systému pro anotaci genů (soubor softwarových „pipelines“ napsaných v Perlu ), který vytváří sadu predikovaných umístění genů a ukládá je do databáze MySQL pro následnou analýzu a zobrazení. Ensembl tyto údaje volně zpřístupňuje světové výzkumné komunitě. Všechna data a kódy vytvořené projektem Ensembl jsou k dispozici ke stažení a existuje také veřejně přístupný databázový server umožňující vzdálený přístup. Web Ensembl navíc poskytuje počítačem generované vizuální zobrazení většiny dat.

Časem se projekt rozšířil o další druhy (včetně klíčových modelových organismů, jako jsou myši , ovocné mouchy a zebrafish ) a také širší škálu genomických dat, včetně genetických variací a regulačních prvků. Od dubna 2009 sesterský projekt Ensembl Genomes rozšířil působnost Ensemblu na metazoa bezobratlých , rostliny , houby , bakterie a prvoky , zatímco původní projekt se nadále zaměřuje na obratlovce.

Zobrazení genomických dat

Gen SGCB zarovnán s lidským genomem

Ústředním bodem konceptu Ensembl je schopnost automaticky generovat grafické pohledy na zarovnání genů a dalších genomických dat proti referenčnímu genomu . Ty se zobrazují jako datové stopy a jednotlivé stopy lze zapínat a vypínat, což uživateli umožňuje přizpůsobit zobrazení tak, aby vyhovovalo jeho výzkumným zájmům. Rozhraní také umožňuje uživateli přiblížit oblast nebo se pohybovat po genomu v obou směrech.

Jiné displeje ukazují data na různých úrovních rozlišení, od celých karyotypů až po textové reprezentace sekvencí DNA a aminokyselin , nebo představují jiné typy zobrazení, jako jsou stromy podobných genů ( homologů ) napříč řadou druhů. Grafiku doplňují tabulkové displeje a v mnoha případech lze data exportovat přímo ze stránky v různých standardních formátech souborů, jako je FASTA .

Externě produkovaná data lze také přidat na displej nahráním vhodného souboru v jednom z podporovaných formátů, jako je BAM , BED nebo PSL .

Grafika je generována pomocí sady vlastních modulů Perl založených na GD , standardní knihovně grafických displejů Perl.

Alternativní přístupové metody

Kromě svých webových stránek poskytuje Ensembl REST API a Perl API (Application Programming Interface), které modeluje biologické objekty, jako jsou geny a proteiny, což umožňuje psaní jednoduchých skriptů pro získání požadovaných dat. Stejné API používá interně webové rozhraní k zobrazení dat. Je rozdělena do sekcí, jako je základní API, compara API (pro srovnávací genomická data), variační API (pro přístup k SNP, SNV, CNV ..) a funkční genomické API (pro přístup k regulačním datům). Web Ensembl poskytuje rozsáhlé informace o tom, jak nainstalovat a používat API .

Tento software lze použít pro přístup k veřejné databázi MySQL , čímž se vyhnete nutnosti stahovat obrovské množiny dat. Uživatelé se mohou dokonce rozhodnout načítat data z MySQL pomocí přímých dotazů SQL, ale to vyžaduje rozsáhlé znalosti aktuálního schématu databáze.

Velké datové sady lze načíst pomocí nástroje pro těžbu dat BioMart . Poskytuje webové rozhraní pro stahování datových sad pomocí složitých dotazů.

Nakonec existuje server FTP, který lze použít ke stahování celých databází MySQL i některých vybraných datových sad v jiných formátech.

Aktuální druhy

Komentované genomy zahrnují většinu plně sekvenovaných obratlovců a vybrané modelové organismy. Všechny jsou eukaryoty, neexistují žádné prokaryoty. Od roku 2008 to zahrnuje:

Viz také

Reference

externí odkazy