Ensembl genome database project - Ensembl genome database project

Ensembl genome database project.
Obsah
Popis	Ensembl
Kontakt
Výzkumné centrum
Primární citace	Yates a kol. (2020)
Přístup
webová stránka	www .ensembl .org

Projekt databáze genomu Ensembl je vědecký projekt Evropského institutu pro bioinformatiku , který byl zahájen v roce 1999 v reakci na bezprostřední dokončení projektu lidského genomu . Ensembl si klade za cíl poskytnout centralizovaný zdroj pro genetiky, molekulární biology a další výzkumníky studující genomy našeho vlastního druhu a dalších obratlovců a modelových organismů . Ensembl je jedním z několika známých prohlížečů genomu pro získávání genomových informací.

Podobné databáze a prohlížeče se nacházejí v NCBI a na Kalifornské univerzitě v Santa Cruz (UCSC) .

Pozadí

Lidský genom se skládá ze tří miliard párů bází , které kódují přibližně 20 000–25 000 genů . Samotný genom je však málo využitelný, pokud nelze určit umístění a vztahy jednotlivých genů. Jednou z možností je ruční anotace , kdy se tým vědců pokouší lokalizovat geny pomocí experimentálních dat z vědeckých časopisů a veřejných databází. Jedná se však o pomalý, pečlivý úkol. Alternativou, známý jako automatizované anotace, je využít sílu počítačů k tomu komplexní vzor-matching z proteinu na DNA .

V projektu Ensembl jsou sekvenční data vkládána do systému pro anotaci genů (soubor softwarových „pipelines“ napsaných v Perlu ), který vytváří sadu predikovaných umístění genů a ukládá je do databáze MySQL pro následnou analýzu a zobrazení. Ensembl tyto údaje volně zpřístupňuje světové výzkumné komunitě. Všechna data a kódy vytvořené projektem Ensembl jsou k dispozici ke stažení a existuje také veřejně přístupný databázový server umožňující vzdálený přístup. Web Ensembl navíc poskytuje počítačem generované vizuální zobrazení většiny dat.

Časem se projekt rozšířil o další druhy (včetně klíčových modelových organismů, jako jsou myši , ovocné mouchy a zebrafish ) a také širší škálu genomických dat, včetně genetických variací a regulačních prvků. Od dubna 2009 sesterský projekt Ensembl Genomes rozšířil působnost Ensemblu na metazoa bezobratlých , rostliny , houby , bakterie a prvoky , zatímco původní projekt se nadále zaměřuje na obratlovce.

Zobrazení genomických dat

Gen SGCB zarovnán s lidským genomem

Ústředním bodem konceptu Ensembl je schopnost automaticky generovat grafické pohledy na zarovnání genů a dalších genomických dat proti referenčnímu genomu . Ty se zobrazují jako datové stopy a jednotlivé stopy lze zapínat a vypínat, což uživateli umožňuje přizpůsobit zobrazení tak, aby vyhovovalo jeho výzkumným zájmům. Rozhraní také umožňuje uživateli přiblížit oblast nebo se pohybovat po genomu v obou směrech.

Jiné displeje ukazují data na různých úrovních rozlišení, od celých karyotypů až po textové reprezentace sekvencí DNA a aminokyselin , nebo představují jiné typy zobrazení, jako jsou stromy podobných genů ( homologů ) napříč řadou druhů. Grafiku doplňují tabulkové displeje a v mnoha případech lze data exportovat přímo ze stránky v různých standardních formátech souborů, jako je FASTA .

Externě produkovaná data lze také přidat na displej nahráním vhodného souboru v jednom z podporovaných formátů, jako je BAM , BED nebo PSL .

Grafika je generována pomocí sady vlastních modulů Perl založených na GD , standardní knihovně grafických displejů Perl.

Alternativní přístupové metody

Kromě svých webových stránek poskytuje Ensembl REST API a Perl API (Application Programming Interface), které modeluje biologické objekty, jako jsou geny a proteiny, což umožňuje psaní jednoduchých skriptů pro získání požadovaných dat. Stejné API používá interně webové rozhraní k zobrazení dat. Je rozdělena do sekcí, jako je základní API, compara API (pro srovnávací genomická data), variační API (pro přístup k SNP, SNV, CNV ..) a funkční genomické API (pro přístup k regulačním datům). Web Ensembl poskytuje rozsáhlé informace o tom, jak nainstalovat a používat API .

Tento software lze použít pro přístup k veřejné databázi MySQL , čímž se vyhnete nutnosti stahovat obrovské množiny dat. Uživatelé se mohou dokonce rozhodnout načítat data z MySQL pomocí přímých dotazů SQL, ale to vyžaduje rozsáhlé znalosti aktuálního schématu databáze.

Velké datové sady lze načíst pomocí nástroje pro těžbu dat BioMart . Poskytuje webové rozhraní pro stahování datových sad pomocí složitých dotazů.

Nakonec existuje server FTP, který lze použít ke stahování celých databází MySQL i některých vybraných datových sad v jiných formátech.

Aktuální druhy

Komentované genomy zahrnují většinu plně sekvenovaných obratlovců a vybrané modelové organismy. Všechny jsou eukaryoty, neexistují žádné prokaryoty. Od roku 2008 to zahrnuje:

Chordata
- Mammalia
  - Euarchontogliry
    - Primáti : keř , šimpanz , člověk, makak , lemur myši , orangutan , nártoun ;
    - Scandentia : rejsek ;
    - Glires (= hlodavce + Zajícovci): morčete , klokan krysí , myší , potkaní , pozemní veverky , Pika , králík ;
  - Laurasiatheria : kráva , delfín , alpaka , prase , kočka , pes , kůň , megabat , mikrobat , ježek , rejsek ;
  - Afrotheria: slon , hyrax , tenrec
  - Xenarthra : pásovec , lenost ;
  - Marsupialia : vačice , valaška ;
  - Monotremes : ptakopysk ;
- Ptáci : kuře , zebra finch ;
- Lepidosauria : anole ještěrka (pre);
- Lissamphibia : Xenopus tropicalis ;
- Teleost ryby: Takifugu rubripes ( Fugu ), Tetraodon nigroviridis (zelená tečkovaný pufferfish), Danio rerio ( zebrafish ), Oryzias latipes ( medaka ), Gasterosteus aculeatus ( stickleback );
- Cyclostomata : Petromyzon marinus ( mihule mořská ) (pre);
- Pláštěnci : Ciona intestinalis , Ciona savignyi ;
Bezobratlí
- Hmyz : Drosophila melanogaster (fruitfly), Anopheles gambiae (komár), Aedes aegypti (komár)
- Červ : Caenorhabditis elegans
Kvasinky : Saccharomyces cerevisiae (pekařské kvasnice)

Languages

In other projects

Ensembl genome database project - Ensembl genome database project

Obsah

Pozadí

Zobrazení genomických dat

Alternativní přístupové metody

Aktuální druhy

Viz také

Reference

externí odkazy


Obsah
Popis	Ensembl
Kontakt
Výzkumné centrum
Primární citace	Yates a kol. (2020)
Přístup
webová stránka	www .ensembl .org