Zápis nukleové kyseliny - Nucleic acid notation

V současnosti používaný zápis nukleové kyseliny poprvé formalizovala Mezinárodní unie pro čistou a aplikovanou chemii (IUPAC) v roce 1970. Tento všeobecně uznávaný zápis používá římské znaky G, C, A a T k reprezentaci čtyř nukleotidů, které se běžně vyskytují v deoxyribonukleové kyseliny (DNA). Vzhledem k rychle se rozšiřující roli genetického sekvenování, syntézy a analýzy v biologii byli vědci nuceni vyvinout alternativní zápisy, které by dále podporovaly analýzu a manipulaci s genetickými daty. Tyto zápisy obecně využívají k dosažení těchto cílů velikost, tvar a symetrii.

Zápis IUPAC

IUPAC degeneruje základní symboly
Popis Symbol Základy zastoupeny Doplňkové
základy
Ne. A C G T
Adenin A 1 A T
Cytosin C C G
Guanine G G C
Thymin T T A
Uracil U U A
Slabý W 2 A T W
Silný S C G S
A m ino M A C K
Keto K G T M
Pu r ine R. A G Y
P y rimidin Y C T R.
Ne A. B 3 C G T PROTI
Ne C. D A G T H
Ne G H A C T D
Ne T PROTI A C G B
A n y jedna základna N. 4 A C G T N.
Nula Z 0 Z

Základní symboly BBC v biochemii jsou reprezentací IUPAC pro pozici na sekvenci DNA, která může mít více možných alternativ. Ty by neměly být zaměňovány s nekanonickými bázemi, protože každá konkrétní sekvence bude mít ve skutečnosti jednu z pravidelných bází. Ty se používají ke kódování konsensuální sekvence populace zarovnaných sekvencí a používají se například ve fylogenetické analýze ke shrnutí do jedné vícenásobné sekvence nebo pro vyhledávání BLAST , přestože jsou degenerované symboly IUPAC maskovány (protože nejsou kódovány).

V běžně používaném systému IUPAC jsou nukleobáze reprezentovány prvními písmeny jejich chemických názvů: guanin, cytosin, adenin a thymin. Tato zkratka také obsahuje jedenáct znaků „nejednoznačnosti“ spojených s každou možnou kombinací čtyř bází DNA. Znaky nejednoznačnosti byly navrženy tak, aby kódovaly variace polohy, aby bylo možné hlásit chyby sekvenování DNA , konsensuální sekvence nebo jednonukleotidové polymorfismy . Zápis IUPAC, včetně nejednoznačných znaků a navrhovaných mnemotechnických pomůcek, je uveden v tabulce 1.

Navzdory svému širokému a téměř univerzálnímu přijetí má systém IUPAC řadu omezení, která vyplývají z jeho závislosti na římské abecedě. Špatná čitelnost velkých římských znaků, které se obecně používají při zobrazování genetických dat, může být hlavní mezi těmito omezeními. Hodnota externích projekcí při rozlišování písmen byla dobře zdokumentována. Tyto projekce však chybí u velkých písmen, která jsou v některých případech rozlišitelná pouze jemnými vnitřními narážkami. Vezměme si například velká písmena C a G, která představují cytosin a guanin. Tyto znaky obecně obsahují polovinu znaků v genetické sekvenci, ale jsou rozlišeny malým vnitřním zaškrtnutím (v závislosti na písmu). Nicméně tyto římské znaky jsou k dispozici ve znakové sadě ASCII, která se nejčastěji používá v textové komunikaci, což posiluje všudypřítomnost tohoto systému.

Další nedostatek zápisu IUPAC vyplývá ze skutečnosti, že jeho jedenáct nejednoznačných znaků bylo vybráno ze zbývajících znaků římské abecedy. Autoři notace se snažili vybrat nejednoznačné znaky s logickou mnemotechnikou. Například S se používá k reprezentaci možnosti nalezení cytosinu nebo guaninu v genetických lokusech, přičemž oba tvoří silné interakce vazby mezi vlákny. Naopak, interakce thyminu a adeninu v BBC jsou reprezentovány písmenem W. Pohodlné mnemotechnické pomůcky však nejsou pro ostatní nejednoznačné znaky uvedené v tabulce 1 tak snadno dostupné. To způsobilo, že se nejednoznačné znaky obtížně používají a které mohou odpovídat jejich omezené aplikaci.

Alternativní vizuálně vylepšené zápisy

Problémy s čitelností spojené s genetickými daty kódovanými IUPAC vedly biology k zvážení alternativních strategií pro zobrazování genetických dat. Tyto kreativní přístupy k vizualizaci sekvencí DNA obecně spoléhaly na použití prostorově distribuovaných symbolů a/nebo vizuálně odlišných tvarů ke kódování dlouhých sekvencí nukleových kyselin. Byly vyzkoušeny alternativní zápisy pro nukleotidové sekvence, nicméně obecný příjem byl nízký. Některé z těchto přístupů jsou shrnuty níže.

Stavební projekce

Stave Projection využívá prostorově rozmístěné body ke zlepšení čitelnosti sekvencí DNA .

V roce 1986 Cowin et al. popsal novou metodu pro vizualizaci sekvence DNA známou jako Stave Projection. Jejich strategií bylo zakódovat nukleotidy jako kruhy na řadách vodorovných pruhů podobných poznámkám na notové osnově. Jak je znázorněno na obrázku 1, každá mezera na pětičlenné tyči odpovídala jedné ze čtyř bází DNA. Prostorová distribuce kruhů výrazně usnadnila rozlišení jednotlivých základen a porovnání genetických sekvencí než data kódovaná IUPAC.

Pořadí základen (shora dolů, G, A, T, C) je zvoleno tak, aby bylo možné přečíst komplementární vlákno otočením projekce vzhůru nohama.

Geometrické symboly

Zimmerman a kol. zaujal jiný přístup k vizualizaci genetických dat. Spíše než spoléhat se na prostorově rozmístěné kruhy, aby zvýraznili genetické rysy, využili čtyři geometricky rozmanité symboly nalezené ve standardním počítačovém písmu k rozlišení čtyř základen. Autoři vyvinuli jednoduché makro WordPerfect k překladu znaků IUPAC do vizuálně odlišnějších symbolů.

Panorama DNA

S rostoucí dostupností editorů písem vyvinuli Jarvius a Landegren novou sadu genetických symbolů, známou jako písmo DNA Skyline, které k zobrazení různých základen DNA využívá stále vyšší bloky. Písmo DNA Skyline, které připomíná prostorově distribuovanou Stave Projection Cowina a spol ., Je možné snadno stáhnout a umožňuje překlad do a ze zápisu IUPAC pouhou změnou písma ve většině standardních aplikací pro zpracování textu.

Ambigrafické zápisy

AmbiScript používá ambigramy, aby odrážel symetrie DNA a podporoval manipulaci a analýzu genetických dat.

Ambigramy (symboly, které při pohledu v jiné orientaci vyjadřují odlišný význam) byly navrženy tak, aby zrcadlily strukturální symetrie, které se nacházejí v dvojité šroubovici DNA. Přiřazením ambigrafických znaků komplementárním bázím (tj. Guanin: b, cytosin: q, adenin: n a thymin: u) je možné doplnit sekvence DNA jednoduchým otočením textu o 180 stupňů. Ambigrafický zápis nukleové kyseliny také usnadňuje identifikaci genetických palindromů, jako jsou restrikční místa endonukleázy, jako části textu, které lze otočit o 180 stupňů bez změny sekvence.

Jedním příkladem ambigrafického zápisu nukleové kyseliny je AmbiScript, racionálně navržený zápis nukleových kyselin, který kombinuje mnoho vizuálních a funkčních vlastností jeho předchůdců. Jeho zápis také používá prostorově posunuté znaky k usnadnění vizuální kontroly a analýzy genetických dat. AmbiScript byl také navržen tak, aby indikoval nejednoznačné polohy nukleotidů pomocí složených symbolů. Cílem této strategie bylo nabídnout intuitivnější řešení pro použití nejednoznačných znaků, které poprvé navrhl IUPAC. Stejně jako u písem Skyline DNA společnosti Jarvius a Landegren lze písma AmbiScript stáhnout a aplikovat na sekvenční data kódovaná IUPAC.

Viz také

Reference

  1. ^ a b Komise IUPAC-IUB pro biochemickou nomenklaturu (1970). „Zkratky a symboly pro nukleové kyseliny, polynukleotidy a jejich složky“. Biochemie . 9 (20): 4022–4027. doi : 10,1021/bi00822a023 .
  2. ^ a b Výbor pro názvosloví Mezinárodní unie biochemie (NC-IUB) (1984). „Nomenklatura pro neúplně specifikované báze v sekvencích nukleových kyselin“ . Výzkum nukleových kyselin . 13 (9): 3021–3030. doi : 10,1093/nar/13.9.3021 . PMC  341218 . PMID  2582368 .
  3. ^ a b Výbor pro nomenklaturu Mezinárodní unie biochemie (NC-IUB) (1986). „Nomenklatura pro neúplně specifikované báze v sekvencích nukleových kyselin. Doporučení 1984“ . Proč. Natl. Akadem. Sci. USA . 83 (1): 4–8. Bibcode : 1986 PNAS ... 83 .... 4O . doi : 10,1073/pnas.83.1.4 . PMC  322779 . PMID  2417239 .
  4. ^ Tinker, MA 1963. Čitelnost tisku. Iowa State University Press, Ames IA.
  5. ^ Cowin, JE; Jellis, CH; Rickwood, D. (1986). „Nová metoda reprezentace sekvencí DNA, která kombinuje snadnou vizuální analýzu se strojovou čitelností“ . Výzkum nukleových kyselin . 14 (1): 509–15. doi : 10,1093/nar/14.1.509 . PMC  339435 . PMID  3003680 .
  6. ^ Zimmerman, PA; Kouzlo, ML; Rawls, J .; Unnasch, TR (1991). „Transformace dat sekvence DNA na geometrické symboly“. BioTechniques . 11 (1): 50–52. PMID  1954017 .
  7. ^ Jarvius, J .; Landegren, U. (2006). „DNA Skyline: písma usnadňující vizuální kontrolu sekvencí nukleových kyselin“ . BioTechniques . 40 (6): 740. doi : 10,2144/000112180 . PMID  16774117 .
  8. ^ Hofstadter, Douglas R. (1985). Metamagical Themas: Zpochybňování podstaty mysli a vzoru . New York: Základní knihy. ISBN 978-0465045662.
  9. ^ Rozak, DA (2006). „Praktické a pedagogické výhody ambigrafické notace nukleové kyseliny“. Nukleosidy, nukleotidy a nukleové kyseliny . 25 (7): 807–813. doi : 10,1080/15257770600726109 . PMID  16898419 . S2CID  23600737 .
  10. ^ Rozak, David A .; Rozak, Anthony J. (2008). „Jednoduchost, funkce a čitelnost ve vylepšené ambigrafické notaci nukleové kyseliny“ . BioTechniques . 44 (6): 811–813. doi : 10,2144/000112727 . PMID  18476835 .