Projekt 1000 genomů - 1000 Genomes Project

Projekt 1000 genomů (zkráceně 1KGP ), zahájený v lednu 2008, byl mezinárodním výzkumným úsilím o vytvoření zdaleka nejpodrobnějšího katalogu genetických variací člověka . Vědci plánoval sekvenci v genomu alespoň jednoho tisíce anonymních účastníků z mnoha různých etnických skupin v následujících třech letech, za použití nově vyvinutých technologií , které byly rychlejší a méně nákladná. V roce 2010 projekt dokončil pilotní fázi, která byla podrobně popsána v publikaci v časopise Nature . V roce 2012 bylo v publikaci Nature oznámeno sekvenování 1092 genomů . V roce 2015 dva příspěvky v Nature oznámily výsledky a dokončení projektu a příležitosti pro budoucí výzkum.

Bylo identifikováno mnoho vzácných variací omezených na úzce související skupiny a bylo analyzováno osm tříd strukturních variací.

Projekt spojuje multidisciplinární výzkumné týmy z ústavů z celého světa, včetně Číny , Itálie , Japonska , Keni , Nigérie , Peru , Spojeného království a USA . Každý z nich přispěje k obrovskému datovému souboru sekvencí a k vytříbené mapě lidského genomu , která bude volně přístupná prostřednictvím veřejných databází vědecké komunitě i široké veřejnosti.

Konsorcium poskytne přehled o všech genetických variacích člověka a vytvoří cenný nástroj pro všechny oblasti biologické vědy, zejména v oborech genetiky , medicíny , farmakologie , biochemie a bioinformatiky .

Změny v počtu a pořadí genů (AD) vytvářejí genetickou rozmanitost v populaci a mezi nimi.

Pozadí

Od dokončení projektu lidského genomu pokroky v genetice lidské populace a srovnávací genomice umožnily získat rostoucí vhled do podstaty genetické rozmanitosti. Nicméně jsme právě začínají chápat, jak procesy jako náhodné vzorkování gamet , strukturální variace (inzercemi / delecemi ( indels ), kopírovat změny číslo (CNV), retroelements ), jeden-nukleotid polymorfismy (SNP), a přírodní výběr formovaly úroveň a vzor variací v rámci druhů a také mezi druhy.

Lidská genetická variace

Náhodné vzorkování gamet během sexuální reprodukce vede ke genetickému driftu - náhodnému kolísání populační frekvence znaku - v dalších generacích a mělo by za následek ztrátu všech variací při absenci vnějšího vlivu. Předpokládá se, že rychlost genetického driftu je nepřímo úměrná velikosti populace a že může být zrychlena ve specifických situacích, jako jsou úzká místa , kde je velikost populace po určitou dobu snížena, a efektem zakladatele (jednotlivci v populace stopující zpět k malému počtu zakládajících jedinců).

Anzai a kol. prokázali, že indely představují 90,4% všech pozorovaných variací v sekvenci hlavního histokompatibilního lokusu (MHC) mezi lidmi a šimpanzi . Když vezmeme v úvahu více indelů, vysoký stupeň genomové podobnosti mezi těmito dvěma druhy (98,6% identita nukleotidové sekvence ) klesne na pouhých 86,7%. Například velká delece 95 kilobází (kb) mezi lokusy lidských genů MICA a MICB vede k jedinému hybridnímu šimpanzímu genu MIC , který spojuje tuto oblast s druhově specifickým zpracováním několika retrovirových infekcí a výslednou citlivostí na různé autoimunitní choroby . Autoři dospěli k závěru, že namísto subtilnějších SNP byly hybným mechanismem speciace primátů indely.

Kromě mutací přispívají ke genetické rozmanitosti v lidské populaci SNP a další strukturální varianty, jako jsou varianty počtu kopií (CNV). Pomocí mikročipů bylo ve sbírce vzorků HapMap identifikováno téměř 1500 variabilních oblastí s počtem kopií pokrývajících přibližně 12% genomu a obsahujících stovky genů, lokusů onemocnění, funkčních prvků a segmentálních duplikací . Ačkoli specifická funkce CNV zůstává nepolapitelná, skutečnost, že CNV pokrývají více obsahu nukleotidů na genom než SNP, zdůrazňuje význam CNV v genetické rozmanitosti a evoluci.

Zkoumání lidských genomických variací má velký potenciál pro identifikaci genů, které by mohly být základem rozdílů v odolnosti vůči chorobám (např. Oblast MHC ) nebo metabolismu léčiv .

Přírodní výběr

Vývoj přirozeného výběru rysu lze rozdělit do tří tříd. Směrová nebo pozitivní selekce se týká situace, kdy má určitá alela větší kondici než jiné alely , v důsledku čehož se zvyšuje její populační frekvence (např. Odolnost bakterií vůči antibiotikům ). Naproti tomu stabilizační nebo negativní selekce (také známá jako purifikační selekce) snižuje frekvenci nebo dokonce odstraňuje alely z populace v důsledku nevýhod s ní spojených s ohledem na jiné alely. Nakonec existuje řada forem vyváženého výběru ; ty zvyšují genetickou variabilitu v rámci druhu tím, že jsou overdominantní ( heterozygotní jedinci jsou zdatnější než homozygotní jedinci, např. G6PD , gen, který se podílí jak na hemolytické anémii, tak na rezistenci na malárii ) nebo se mohou prostorově lišit v rámci druhu, který obývá různé niky, čímž upřednostňuje různé alely. Některé genomické rozdíly nemusí mít vliv na kondici. Neutrální variace, dříve považovaná za „nevyžádanou“ DNA, není ovlivněna přirozeným výběrem, což má za následek vyšší genetické variace na takových místech ve srovnání s místy, kde variace ovlivňuje kondici.

Není zcela jasné, jak přirozený výběr formoval populační rozdíly; nedávno byly identifikovány vybrané genetické kandidátské oblasti. Vzory polymorfismů DNA lze použít ke spolehlivé detekci signatur selekce a mohou pomoci identifikovat geny, které by mohly být základem variability odolnosti vůči chorobám nebo metabolismu léčiv. Barreiro a kol. našel důkaz, že negativní selekce snížila diferenciaci populace na úrovni změny aminokyselin (zejména v genech souvisejících s chorobami), zatímco pozitivní selekce zajistila regionální adaptaci lidských populací zvýšením diferenciace populace v genových oblastech (hlavně nesynonymních a 5'- varianty nepřekládané oblasti ).

Předpokládá se, že nejsložitější a mendelovská onemocnění (kromě nemocí s pozdním nástupem, za předpokladu, že starší jedinci již nepřispívají k kondici svých potomků) budou mít vliv na přežití a/nebo reprodukci, proto by měly být genetické faktory, které jsou základem těchto chorob ovlivněna přirozeným výběrem. Ačkoli nemoci, které mají dnes pozdní nástup, mohly být v minulosti dětskými chorobami, protože geny zpomalující progresi onemocnění mohly projít selekcí. Gaucherova choroba (mutace v GBA genu), Crohnova nemoc (mutace NOD2 ) a familiární hypertrofická kardiomyopatie (mutace v MYH7 , TNNT2 , TPM1 a MYBPC3 ), jsou všechny příklady negativní selekce. Tyto chorobné mutace jsou primárně recesivní a segregují podle očekávání při nízké frekvenci, což podporuje předpokládanou negativní selekci. Existují důkazy, že genetický základ diabetu 1. typu může být podroben pozitivní selekci. Bylo hlášeno několik případů, kdy se mutace způsobující onemocnění objevují na vysokých frekvencích podporovaných vyváženým výběrem. Nejvýraznějším příkladem jsou mutace lokusu G6PD, kde pokud dojde k homozygotnímu nedostatku enzymu G6PD a následně k hemolytické anémii , ale v heterozygotním stavu částečně chrání před malárií . Další možná vysvětlení pro segregaci alel onemocnění na středních nebo vysokých frekvencích zahrnují genetický drift a nedávné změny směrem k pozitivní selekci v důsledku změn prostředí, jako je dieta nebo genetické stopování .

Srovnávací analýzy různých genomů různých lidských populací a také mezi druhy (např. Člověk versus šimpanz) nám pomáhají porozumět vztahu mezi chorobami a selekcí a poskytují důkazy o tom, že mutace v omezených genech jsou nepřiměřeně spojeny s dědičnými fenotypy chorob . Geny zapojené do komplexních poruch mají tendenci být méně negativní selekcí než geny mendelovské choroby nebo geny jiné než choroby.

Popis projektu

Cíle

Existují dva druhy genetických variant souvisejících s nemocí. První jsou vzácné genetické varianty, které mají závažný účinek převážně na jednoduché znaky (např. Cystická fibróza , Huntingtonova choroba ). Druhá, běžnější, genetická varianta má mírný účinek a předpokládá se, že se podílí na komplexních rysech (např. Kognice , cukrovka , srdeční choroba ). Mezi těmito dvěma typy genetických variant leží značná mezera ve znalostech, kterou má projekt 1000 genomů vyřešit.

Primárním cílem tohoto projektu je vytvořit kompletní a podrobný katalog lidských genetických variací , který lze následně použít pro asociační studie týkající se genetických variací na nemoci. Konsorcium si tím klade za cíl objevit> 95% variant (např. SNP, CNV, indels) s četnostmi menších alel tak nízkými, jako je 1% napříč genomem a 0,1-0,5% v genových oblastech, a také odhadnout populaci frekvence, pozadí haplotypu a vazebné nerovnovážné vzory variantních alel.

Sekundární cíle budou zahrnovat podporu lepšího výběru SNP a sond pro genotypizační platformy v budoucích studiích a zlepšení lidské referenční sekvence . Dokončená databáze bude navíc užitečným nástrojem pro studium vybraných oblastí, variací ve více populacích a porozumění základním procesům mutace a rekombinace .

Obrys

Lidský genom se skládá z přibližně 3 miliardy párů bází DNA a odhaduje se, nosit 20000 protein kódující geny . Při navrhování studie muselo konsorcium řešit několik zásadních problémů týkajících se projektových metrik, jako jsou technologické výzvy, standardy kvality dat a pokrytí sekvencí.

V průběhu příštích tří let plánují vědci z Sanger Institute , BGI Shenzhen a rozsáhlé sekvenční sítě Národního institutu pro výzkum genomů sekvenovat minimálně 1 000 lidských genomů. Vzhledem k velkému množství sekvenčních dat, která je třeba generovat a analyzovat, je možné, že časem mohou být přijati další účastníci.

Během dvouleté výrobní fáze bude sekvenováno téměř 10 miliard bází denně. To odpovídá více než dvěma lidským genomům každých 24 hodin; průkopnická kapacita. Výzva pro přední odborníky na bioinformatiku a statistickou genetiku, bude sekvenční datový soubor obsahovat 6 bilionů DNA základen, což je 60krát více sekvenčních dat, než bylo publikováno v DNA databázích za posledních 25 let.

K určení konečného návrhu celého projektu byly navrženy tři pilotní studie, které budou provedeny v prvním roce projektu. První pilot má v úmyslu genotypovat 180 lidí ze 3 hlavních geografických skupin při nízkém pokrytí (2x). Pro druhou pilotní studii budou sekvenovány genomy dvou nukleárních rodin (oba rodiče a dospělé dítě) s hlubokým pokrytím (20x na genom). Třetí pilotní studie zahrnuje sekvenování kódujících oblastí ( exonů ) 1 000 genů u 1 000 lidí s hlubokým pokrytím (20x).

Odhaduje se, že pokud by byly použity standardní technologie sekvenování DNA, projekt by pravděpodobně stál více než 500 milionů dolarů. Proto bude použito několik nových technologií (např. Solexa , 454 , SOLiD ), což sníží očekávané náklady na 30 až 50 milionů dolarů. Hlavní podporu poskytne Wellcome Trust Sanger Institute v Hinxtonu v Anglii; Beijing Genomics Institute , Shenzhen (BGI Shenzhen), Čína; a NHGRI , součást Národních zdravotních ústavů (NIH).

V souladu se zásadami Fort Lauderdale Archived 2013-12-28 na Wayback Machine , všechna data (včetně variant volání) genomové sekvence je volně dostupný jako postupuje projekt a lze jej stáhnout přes ftp Od 1000 genomy promítat webové stránky .

Vzorky lidského genomu

Umístění populačních vzorků projektu 1000 Genomes. Každý kruh představuje počet sekvencí v konečném vydání.

Na základě celkových cílů projektu budou vzorky vybrány tak, aby poskytovaly energii v populacích, kde se provádějí asociační studie běžných chorob. Kromě toho vzorky nemusí mít lékařské nebo fenotypové informace, protože navrhovaný katalog bude základním zdrojem lidské variace.

Pro pilotní studie budou sekvenovány vzorky lidského genomu ze sbírky HapMap . Bude užitečné zaměřit se na vzorky, které mají k dispozici další data (jako je sekvence ENCODE , genomové genotypy, genomové sekvence, strukturní variační testy a genová exprese ), abychom mohli porovnat výsledky s výsledky z jiných projektů.

V souladu s rozsáhlými etickými postupy bude projekt 1000 Genomes poté používat vzorky od dobrovolných dárců. Do studie budou zahrnuty následující populace: Yoruba na Ibadanu (YRI), Nigérie ; Japonština v Tokiu (JPT); Číňané v Pekingu (CHB); Obyvatelé Utahu s původem ze severní a západní Evropy (CEU); Luhya ve Webuye , Keňa (LWK); Masajové v Kinyawa , Keňa (MKK); Toscani v Itálii (TSI); Peruánci v Limě , Peru (PEL); Indiáni Gudžaráti v Houstonu (GIH); Číňané v metropolitním Denveru (CHD); lidé mexického původu v Los Angeles (MXL); a lidé afrického původu na jihozápadě USA (ASW).

ID Místo Počet obyvatel Detail
ASW Spojené státy* Africký původ v JZ USA Detail
ACB Barbados* Africký Karibik na Barbadosu Detail
BEB Bangladéš Bengálština v Bangladéši Detail
GBR Spojené království Britové z Anglie a Skotska Detail
CDX Čína Čínský Dai v Xishuangbanna , Čína Detail
CLM Kolumbie Kolumbijec v Medellínu , Kolumbie Detail
ESN Nigérie Esan v Nigérii Detail
PLOUTEV Finsko Finština ve Finsku Detail
GWD Gambie Gambian v západní divizi - Mandinka Detail
GIH Spojené státy* Indiáni Gujarati v Houstonu , Texas , Spojené státy americké Detail
CHB Čína Han Číňané v Pekingu , Čína Detail
CHS Čína Han čínský jih , Čína Detail
IBS Španělsko Iberské populace ve Španělsku Detail
ITU Spojené království* Indický Telugu ve Velké Británii Detail
JPT Japonsko Japonci v Tokiu v Japonsku Detail
KHV Vietnam Kinh v Ho Či Minově městě , Vietnam Detail
LWK Keňa Luhya ve Webuye v Keni Detail
MSL Sierra Leone Mende v Sierra Leone Detail
MXL Spojené státy* Mexické předky v Los Angeles, CA, Spojené státy Detail
PEL Peru Peruánský v Limě , Peru Detail
PUR Portoriko Portoričan v Portoriku Detail
PJL Pákistán Punjabi v Lahore , Pákistán Detail
STU Spojené království* Srílanská tamilština ve Velké Británii Detail
TSI Itálie Toscani v Itálii Detail
YRI Nigérie Yoruba na Ibadanu v Nigérii Detail
CEU Spojené státy* Obyvatelé Utahu s původem ze Severní a Západní Evropy ze sbírky CEPH Detail

* Populace shromážděná v diaspoře

Komunitní setkání

Data generovaná projektem 1000 Genomes jsou široce využívána genetickou komunitou, což z prvního projektu 1000 Genomes činí jeden z nejcitovanějších článků v biologii. Na podporu této uživatelské komunity uspořádal projekt v červenci 2012 setkání s komunitní analýzou, které zahrnovalo rozhovory zdůrazňující klíčové objevy projektu, jejich dopad na genetiku populace a studie lidských chorob a souhrny dalších rozsáhlých sekvenčních studií.

Zjištění projektu

Pilotní fáze

Pilotní fáze se skládala ze tří projektů:

  • sekvenování celého genomu s nízkým pokrytím 179 jedinců ze 4 populací
  • sekvenování s vysokým pokrytím 2 trií (matka-otec-dítě)
  • exonově cílené sekvenování 697 jedinců ze 7 populací

Bylo zjištěno, že v průměru každý člověk nese kolem 250–300 variant ztráty funkce v anotovaných genech a 50–100 variant dříve zapojených do dědičných poruch. Na základě těchto dvou trií se odhaduje, že rychlost de novo zárodečné mutace je přibližně 10 - 8 na základnu na generaci.

Viz také

Reference

externí odkazy