Lidské mitochondriální molekulární hodiny - Human mitochondrial molecular clock

Lidský mitochondriální molekulární hodiny je rychlost, při které byly mutace hromadí v mitochondriálním genomu hominidů v průběhu evoluce člověka . Archeologický záznam lidské činnosti z raných období lidské prehistorie je poměrně omezený a jeho interpretace byla kontroverzní. Kvůli nejistotám z archeologických záznamů se vědci obrátili na techniky molekulárního datování, aby upřesnili časovou osu evoluce člověka. Hlavním cílem vědců v této oblasti je vyvinout přesné hominidní mitochondriální molekulární hodiny, které by pak mohly být použity k sebevědomému datování událostí, ke kterým došlo v průběhu evoluce člověka.

Odhady rychlosti mutace lidské mitochondriální DNA (mtDNA) se velmi liší v závislosti na dostupných datech a metodě použité pro odhad. Dvě hlavní metody odhadu, metody založené na fylogenezi a metody založené na rodokmenu, způsobily míru mutace, která se liší téměř o řád. Současný výzkum byl zaměřen na řešení vysoké variability získané z různých odhadů rychlosti.

Variabilita sazeb

Hlavním předpokladem teorie molekulárních hodin je, že mutace v konkrétním genetickém systému se vyskytují statisticky jednotnou rychlostí a tuto jednotnou rychlost lze použít pro datování genetických událostí. V praxi je předpoklad jednotné jednotné sazby přílišným zjednodušením. Ačkoli se často používá jedna míra mutace, často se jedná o kompozitní nebo průměr několika různých rychlostí mutací. Míru pozorovaných mutací ovlivňuje mnoho faktorů a tyto faktory zahrnují typ vzorků, oblast studovaného genomu a zahrnuté časové období.

Skutečné vs. pozorované sazby

Rychlost, s jakou se mutace vyskytují během reprodukce, míra zárodečné mutace , je považována za vyšší než všechny pozorované míry mutací, protože ne všechny mutace jsou úspěšně přeneseny do dalších generací. mtDNA je předávána pouze podél matrilineální linie, a proto jsou mutace předávané synům ztraceny. Náhodný genetický drift může také způsobit ztrátu mutací. Z těchto důvodů skutečná míra mutace nebude ekvivalentní rychlosti mutace pozorované ze vzorku populace.

Velikost populace

Předpokládá se, že dynamika populace ovlivňuje pozorované míry mutací. Když se populace rozšiřuje, je v populaci zachováno více zárodečných mutací . V důsledku toho pozorovaná míra mutací v rostoucí populaci obvykle roste. Když se populace smrští, jako v úzkém hrdle populace , dojde ke ztrátě dalších zárodečných mutací. Úzká místa populace mají tedy tendenci zpomalovat pozorované míry mutací. Od vzniku druhu homo sapiens asi před 200 000 lety se lidská populace rozšířila z několika tisíc jedinců žijících v Africe na více než 6,5 miliardy po celém světě. Expanze však nebyla jednotná, takže historie lidské populace může sestávat jak z úzkých míst, tak z expanzí.

Strukturální variabilita

Rychlost mutace v mitochondriálním genomu není rovnoměrně rozložena. Je známo, že určité oblasti genomu mutují rychleji než jiné. O hypervariabilních oblastech je známo, že jsou vysoce polymorfní ve srovnání s jinými částmi genomu.

Rychlost akumulace mutací v kódujících a nekódujících oblastech genomu se také liší, protože mutace v kódující oblasti podléhají purifikační selekci . Z tohoto důvodu se některé studie při kalibraci molekulárních hodin vyhýbají kódující oblasti nebo nesynonymním mutacím . Loogvali a kol. (2009) uvažují pouze synonymní mutace, překalibrovali molekulární hodiny lidské mtDNA na 7 990 let na synonymní mutaci nad mitochondriálním genomem. Soares a kol. (2009) považují mutace kódujících i nekódujících oblastí za účelem dosažení jediné rychlosti mutace, ale pro selekci v kódující oblasti uplatňují korekční faktor.

Časová variabilita

Bylo pozorováno, že rychlost mutace se mění s časem. Mutační rychlosti v lidském druhu jsou rychlejší než ty, které byly pozorovány podél linie lidoopů. Míra mutací je v poslední době také považována za rychlejší, od počátku holocénu před 11 000 lety.

Paralelní mutace a saturace

Paralelní mutace (někdy označovaná jako Homoplasy) nebo konvergentní evoluce nastává, když oddělené linie mají stejnou mutaci nezávisle na sobě na stejném místě v genomu. K nasycení dochází, když na jednom webu dojde k několika mutacím. Paralelní mutace a saturace mají za následek podhodnocení míry mutací, protože je pravděpodobné, že budou přehlédnuty.

Heteroplasmy

Jedinci postižení heteroplasmy mají směs typů mtDNA, někteří s novými mutacemi a někteří bez. Nové mutace mohou, ale nemusí být předány dalším generacím. Přítomnost heteroplazmatických jedinců ve vzorku tedy může komplikovat výpočet rychlosti mutace.

Metody

Na základě rodokmenu

Rodokmenové metody odhadují míru mutací porovnáním sekvencí mtDNA vzorku párů rodičů/potomků nebo analýzou sekvencí mtDNA jedinců z hluboce zakořeněné genealogie. Počet nových mutací ve vzorku se spočítá a vydělí celkovým počtem událostí přenosu DNA z rodiče na dítě, aby se dospělo k rychlosti mutace.

Na bázi fylogeneze

Metody založené na fylogenezi se odhadují nejprve rekonstrukcí haplotypu nejnovějšího společného předka (MRCA) vzorku dvou nebo více genetických linií. Požadavkem je, aby čas do posledního společného předka ( TMRCA ) vzorku linií již byl znám z jiných nezávislých zdrojů, obvykle z archeologického záznamu. Průměrný počet mutací, které se nahromadily od MRCA, se poté vypočítá a rozdělí TMRCA, aby se dospělo k rychlosti mutací. Míra lidské mutace se obvykle odhaduje porovnáním sekvencí moderních lidí a šimpanzů a poté rekonstrukcí haplotypu předků společného šimpanze-člověka. Podle paleontologických záznamů mohl poslední společný předek lidí žít asi před 6 miliony let.

Porovnání rodokmenu vs. fylogeneze

Ceny získané metodami původu jsou přibližně 10krát rychlejší než sazby získané fylogenetickými metodami. Za tento rozdíl může několik faktorů působících společně. Protože metody rodokmenu zaznamenávají mutace u živých subjektů, jsou míry mutací z rodokmenových studií blíže míře mutací zárodečných linií. Rodokmenské studie používají rodokmeny, které jsou hluboké jen několik generací, zatímco metody založené na fylogenezi používají časové plány hluboké tisíce nebo miliony let. Podle Henna a kol. 2009, metody založené na fylogenezi berou v úvahu události, které se vyskytují v dlouhých časových měřítcích, a jsou tedy méně ovlivněny stochastickými výkyvy. Howell a kol. 2003 naznačuje, že selekce, saturace, paralelní mutace a genetický drift jsou zodpovědné za rozdíly pozorované mezi metodami založenými na původu a metodami založenými na fylogenezi.

Odhad na základě archeologie AMH

Metody/parametry pro archeologicky odhadovaná data mitochondriální Evy
Studie
Typ sekvence
T Anchor
(umístění)
Referenční metoda
(metoda korekce)
Cann, Stoneking & Wilson (1987) Restrikční fragmenty 40, 30 a 12 Ka
(Austrálie,
Nový Guinea
Nový svět)
archeologicky definované
migrace odpovídající
odhadované míře divergence sekvencí
Endicott & Ho (2008) Genomický 40 až 55 Ka
(Papua Nová Guinea)
14,5 až 21,5 Ka
(Haps H1 a H3)
PNG po
Haploskupině P

Anatomičtí moderní lidé (AMH) se rozšířili z Afriky a na velkou oblast Eurasie a zanechali artefakty podél severního pobřeží jihozápadní, jižní, jihovýchodní a východní Asie. Cann, Stoneking & Wilson (1987) se při odhadu rychlostí jednonukleotidového polymorfismu (SNP) nespoléhali na predikovanou T CHLCA . Místo toho použili k odhadu míry mutací důkazy o kolonizaci v jihovýchodní Asii a Oceánii. K prozkoumání rozdílů mezi DNA navíc použili technologii RFLP ( polymorfismus délky restrikčních fragmentů ). Pomocí těchto technik přišla tato skupina s T MRCA 140 000 až 290 000 let. Cann a kol. (1987) odhadli TMRCA lidí na přibližně 210 ky a nejnovější odhady Soares et al. 2009 (s použitím 7 milionů let šimpanzí lidské mtDNA MRCA) se liší pouze o 9%, což je relativně blízko s ohledem na široký rozsah spolehlivosti obou odhadů a volání po starodávnější T CHLCA .

Endicott & Ho (2008) přehodnotili globálně předpokládané migrace a porovnali je se skutečnými důkazy. Tato skupina používala kódující oblasti sekvencí. Předpokládají, že molekulární hodiny založené na srovnání šimpanz-člověk nejsou spolehlivé, zejména při předpovídání nedávných migrací, jako je zakládání migrací do Evropy, Austrálie a Američanů. S touto technikou přišla tato skupina s T MRCA 82 000 až 134 000 let.

Odhad na základě CHLCA

Protože šimpanzi a lidé sdílejí matrilineárního předka, stanovení geologického věku tohoto posledního předka umožňuje odhadnout míru mutace. Poslední společný předek šimpanz-humánní (CHLCA) je často aplikována jako kotva pro MT-T MRCA studiích se pohybuje mezi 4 a 13 miliony let uvedená v literatuře. Toto je jeden ze zdrojů variací v odhadech času. Druhou slabinou je ne-hodinová akumulace SNP, která by měla tendenci způsobovat, že novější větve vypadají starší, než ve skutečnosti jsou.

Sazby SNP, jak je popsáno v Soares et al. (2009)
Regiony Podoblasti
(nebo místo v kodonu)
Sazba SNP
(na web * rok)
Kontrolní
oblast
HVR I 1,6 × 10 −7
HVR II 2,3 × 10 −7
zbývající 1,5 × 10 −8
Proteinové
kódování
( 1. a 2. ) 8,8 × 10 −9
( 3. ) 1,9 × 10 −8
DNA kódující rRNA (rDNA) 8,2 × 10 −9
DNA kódující tRNA (tDNA) 6,9 × 10 −9
jiný 2,4 × 10 −8
T CHLCA předpokládala 6,5 ​​Ma, relativní rychlost k 1. a 2. kodonu

Tyto dva zdroje se mohou navzájem vyvažovat nebo se navzájem zesilovat v závislosti na směru chyby T CHLCA . Existují dva hlavní důvody, proč je tato metoda široce používána. Za prvé, sazby založené na rodokmenu jsou nevhodné pro odhady po velmi dlouhou dobu. Za druhé, zatímco sazby ukotvené v archeologii představují mezilehlé rozmezí, archeologické důkazy o lidské kolonizaci se často objevují dobře po kolonizaci. Předpokládá se například, že kolonizace Eurasie ze západu na východ probíhala podél Indického oceánu. Nejstarší archeologická naleziště, která také prokazují anatomicky moderní lidi (AMH), jsou však v Číně a Austrálii, mají více než 42 000 let. Nejstarší indické naleziště s pozůstatky AMH však pochází z 34 000 let a jiné místo s archeologií kompatibilní s AMH přesahuje 76 000 let. Proto je aplikace kotvy subjektivní interpretací, kdy byli lidé poprvé přítomni.

Jednoduché měření divergence sekvence mezi lidmi a šimpanzi lze svázat pozorováním SNP. Vzhledem k tomu, že mitogenom je dlouhý přibližně 16 553 párů bází (každý pár bází, který lze zarovnat se známými odkazy, se nazývá místo), vzorec je:

„2“ ve jmenovateli je odvozeno ze 2 linií, člověka a šimpanze, které se odštěpily od CHLCA. V ideálním případě představuje akumulaci mutací na obou liniích, ale v různých polohách (SNP). Pokud se počet pozorovaných SNP blíží počtu mutací, funguje tento vzorec dobře. Na rychle se vyvíjejících místech jsou však mutace zakryty vlivem saturace. Třídění pozic v mitogenomu podle rychlosti a kompenzace saturace jsou alternativní přístupy.

Protože T CHLCA podléhá změnám s více paleontologickými informacemi, výše popsaná rovnice umožňuje srovnání TMRCA z různých studií.

Metody/parametry pro odhad data mitochondriální Evy
Studie
Typ sekvence
T CHLCA
(doba třídění)
Referenční metoda
(metoda korekce)
Vigilant a kol. (1991) HVR 4 až 6 Ma Transverze CH,
(přechod 15: 1: transverze)
Ingman a kol. (2000) genomický
(ne HVR)
5 Ma CH genomické
srovnání
Endicott & Ho (2008) genomický
(ne HVR)
5 až 7,5 Ma CH
(uvolněná sazba, definovaná rychlostní třída)
Gonder a kol. (2007) genomický
(ne HVR)
6,0 Ma
(+ 0,5 Ma)
CH
(definována rychlostní třída)
Mishmar a kol. (2003) genomický
(ne HVR)
6,5 Ma
(+ 0,5 Ma)
CH
(definována rychlostní třída)
Soares a kol. (2009) genomický 6,5 ma
(+ 0,5 ma)
CHLCA ukotvena, (Prozkoumáno výběrem
Ka/(Ks + k))
Šimpanz člověku = CH, LCA = poslední společný předek

Rané metody, HVR, založené na sekvencích

K překonání účinků nasycení se analýza HVR opírala o příčnou vzdálenost mezi lidmi a šimpanzi. Na tuto vzdálenost byl použit poměr přechodu k transverzi, aby se odhadla divergence sekvence v HVR mezi šimpanzi a lidmi, a děleno předpokládanou T CHLCA na 4 až 6 milionů let. Na základě 26,4 substitucí mezi šimpanzem a člověkem a poměru 15: 1 odhadovaných 396 přechodů na 610 párů bází prokázalo divergenci sekvence 69,2% (poměr * T CHLCA 0,369), což vytváří míry divergence zhruba 11,5% až 17,3% na milion let .

HVR je výjimečně náchylný k nasycení, což vede k podhodnocení rychlosti SNP při porovnávání velmi vzdáleně příbuzných linií

Vigilant a kol. (1991) také odhadli míru divergence sekvence pro místa v rychle se rozvíjejících oblastech HVR I a HVR II. Jak je uvedeno v tabulce výše, rychlost evoluce je tak vysoká, že k nasycení místa dochází při přímém srovnání šimpanzů a lidí. V důsledku toho tato studie použila transverze, které se vyvíjejí pomaleji než běžnější přechodové polymorfismy. Při srovnání mitogenomů šimpanzů a lidí zaznamenali 26,4 transverzí v oblastech HVR, avšak neprovedli žádnou korekci na saturaci. Jak bylo po této studii získáno více HVR sekvence, bylo zjištěno, že dinukleotidové místo CRS: 16181-16182 zaznamenalo četné transverze v analýze šetrnosti, mnohé z nich byly považovány za chyby sekvenování. Sekvenování neandertálce Feldhofera I však ukázalo, že na tomto místě došlo také k transverzi mezi lidmi a neandertálci. Kromě toho Soares a kol. (2009) zaznamenali tři místa, ve kterých došlo k rekurentním transverzím v lidských liniích, z nichž dvě jsou v HVR I, 16265 (12 výskytů) a 16318 (8 výskytů). 26,4 transverzí bylo proto podhodnocením pravděpodobného počtu transverzních událostí. Studie z roku 1991 také použila poměr přechodu k transverzi ze studie opic starého světa 15: 1. Vyšetřování šimpanzů a goril HVR však odhalí nižší míru a vyšetření lidí stanoví poměr 34: 1. Tato studie proto podcenila úroveň divergence sekvence mezi šimpanzem a člověkem. Odhadovaná divergence sekvence 0,738/místo (včetně transverzí) je výrazně nižší než ~ 2,5 na místo navržené Soares et al. (2009). Tyto dvě chyby by vedly k nadhodnocení lidské mitochondriální TMRCA. V analýze však nedokázali detekovat bazální linii L0 a také nezjistili opakující se přechody v mnoha liniích, které také podceňují TMRCA. Také Vigilant et al. (1991) použili novější kotvu CHLCA na 4 až 6 milionů let.

Metody založené na sekvenování kódujících oblastí

Haploskupiny afrických mtDNA
L0

L0d

L0k

L0f

L0b

L0a

L1

L1b

L1c

L5

L2

L6

L3

L4

Částečná sekvence kódující oblasti původně doplnila studie HVR, protože úplná sekvence kódující oblasti byla neobvyklá. Existovalo podezření, že studie HVR zmeškaly hlavní větve na základě některých dřívějších studií RFLP a kódujících oblastí. Ingman a kol. (2000) byla první studií porovnávající genomové sekvence pro koalescenční analýzu. Sekvence kódujících oblastí diskriminovala haploskupiny M a N a makrohaploskupiny L0 a L1 . Protože sekvenování genomové DNA vyřešilo dvě nejhlubší větve, zlepšilo to některé aspekty odhadu TMRCA oproti samotné sekvenci HVR. Vyloučení D-smyčky a používání 5milionové T CHLCA , Ingman et al. (2000) odhadoval míru mutace na 1,70 × 10 −8 na místo za rok (míra * T CHLCA = 0,085, 15 435 míst).

DNA kódující oblasti je však zpochybňována, protože kódující sekvence jsou buď pod purifikační selekcí, aby byla zachována struktura a funkce, nebo pod regionální selekcí pro vývoj nových kapacit. Problém s mutacemi v kódující oblasti byl popsán jako takový: mutace vyskytující se v kódující oblasti, které nejsou pro mitochondrie smrtelné, mohou přetrvávat, ale jsou negativně selektivní vůči hostiteli; po několik generací tyto přetrvávají, ale po tisíce generací jsou tyto pomalu odříznuty od populace a zanechávají SNP. Regionálně selektivní mutace však nemusí být více než tisíce generací rozlišovány od těchto přechodných mutací kódujících oblastí. Problém se vzácnými mutacemi v lidských mitogenomech je natolik závažný, že podnítí půl tuctu nedávných studií o této záležitosti.

Ingman a kol. (2000) odhadli vývoj oblasti non-D smyčky 1,7 × 10–8 za rok na místo na základě 53 neidentických genomových sekvencí, které nadměrně reprezentují Afriku v globálním vzorku. I přes toto nadměrné zastoupení chybělo rozlišení podrozvětví L0 a byla nalezena ještě jedna hluboká větve L1. Navzdory těmto omezením byl odběr vzorků pro puncovou studii adekvátní. Dnes je L0 omezen na africké populace, zatímco L1 je rodová haploskupina všech neafrických, stejně jako většiny Afričanů. Sekvenci mitochondriální Evy lze aproximovat srovnáním sekvence z L0 se sekvencí z L1. Sladěním mutací v L0 a L1. Sekvence mtDNA současných lidských populací se budou obecně lišit od sekvence Mitochondriální Evy asi o 50 mutací. Míra mutace nebyla klasifikována podle místa (kromě vyjmutí oblastí HVR). T CHLCA použitý ve studii rok 2000 ze dne 5. Ma byl také nižší než hodnoty používané v nejnovějších studií.

Odhady ze starověké DNA

Vzhledem k tomu, že je možné sekvenovat velké množství starověkých mitogenomů, několik studií odhadlo míru mitochondriálních mutací měřením toho, kolik průměrných mutací se v moderních (nebo pozdějších) genomech nahromadilo ve srovnání se starověkými (nebo staršími) genomy sestupujícími ze stejného fylogenetický uzel. Tyto studie získaly podobné výsledky: centrální odhady pro celý chromozom, v náhradách za místo za rok: 2,47 × 10 −8 ; 2,14 × 10 −8 ; 2,53 × 10 −8 ; a 2,74 × 10 −8 .

Inter-srovnávání sazeb a studií

Molekulární taktování mitochondriální DNA bylo kritizováno kvůli nekonzistentním molekulárním hodinám. Retrospektivní analýza jakéhokoli průkopnického procesu odhalí nedostatky. U mitochondrií jsou nedostatečnost argumentem z neznalosti kolísání rychlosti a přílišného sebevědomí ohledně T CHLCA 5 Ma. Nedostatek historické perspektivy by mohl vysvětlit druhý problém, problém kolísání rychlosti je něco, co by bylo možné vyřešit pouze masivním studiem mitochondrií, které následovalo. Počet sekvencí HVR, které se nahromadily v letech 1987 až 2000, se zvýšil o magnitudy. Soares a kol. (2009) použili 2196 mitogenomických sekvencí a odhalili 10 683 substitučních událostí v těchto sekvencích. Jedenáct ze 16560 míst v mitogenomu produkovalo více než 11% všech substitucí se statisticky významnými rozdíly v rychlosti v 11 místech. Argumentují tím, že existuje rychlost mutace neutrálního místa, která je o velikost nižší než rychlost pozorovaná u nejrychlejšího místa, CRS 16519. V důsledku toho, když čistíme selekci stranou, rychlost samotné mutace se mezi místy liší, přičemž několik míst je mnohem pravděpodobnější podstoupit nové mutace ve srovnání s ostatními. Soares a kol. (2009) zaznamenali dvě oblasti DNA, CRS 2651-2700 a 3028-3082, které neměly žádné SNP v 2196 mitogenomických sekvencích.

Fylogenetický strom haploskupin lidské mitochondriální DNA (mtDNA)

  Mitochondriální Eva ( L )    
L0 L1–6  
L1 L2   L3     L4 L5 L6
M N.  
CZ D E G Otázka   Ó A S R.   W X Y
C Z B F R0   před JT   P   U
HV JT K
H PROTI J. T

Poznámky

Poznámky pod čarou

Reference