Jak přečíst problematické úseky v DNA
Moderní vědecké metody umožňují “přečíst” najednou téměř kompletní dědičnou informaci organizmu. Téměř. Oříšek představují tzv. repetitivní sekvence – části, které obsahují velké množství stejných, stále se za sebou opakujících úseků. Dosud používané metody totiž neumožňovaly určit přesný počet, ani délku těchto opakování. Tento problém vyřešil až počítačový program TAREAN, vyvinutý laboratoří molekulární cytogenetiky ÚMBR. Nejenže pomocí grafické analýzy sekvenačních dat umožňuje opakující se sekvence přesně charakterizovat, ale dokáže také najít ty, které zatím unikaly pozornosti.
Každá lidská buňka obsahuje přibližně 1 metr DNA (molekuly dědičné informace), složené z asi 3 miliard jednotlivých písmenek. Buňky některých rostliny nebo např. obojživelníků pak mají DNA ještě několikrát více. V pořadí těchto písmenek je zakódováno, jak daný živočich či rostlina vypadá, jak funguje, jaké látky produkuje, nebo třeba i náchylnost k některým nemocem. Zjištění přesného pořadí písmenek v DNA, neboli sekvenování, je tedy základním úhelným kamenem současné biologie. Jak ale přečíst všechna ta písmenka najednou?
Princip moderního sekvenování spočívá v tom, že DNA nejprve rozstříháme na velké množství malých kousíčků, které přečteme snadno, a z těch ji složíme dohromady – podobně, jako bychom skládali nějakou rozstříhanou zprávu. S jednou verzí rozstříhané zprávy bychom pochopitelně nemohli zjistit, kam přesně který kousek patří, pokud ale máme více kopií rozstříhaných různými způsoby (což je v případě DNA vzorků splněno), můžeme výsledný text složit díky překrývajícím se částem (viz obrázek níže).
Problém nastává v případě, kdy se stejná slova několikrát za sebou neustále opakují. V knize by to asi vypadalo divně, ale v DNA se tyto repetitivní sekvence vyskytují klidně ve stovkách až tisících kopiích, a mají tam poměrně zásadní význam. Tvoří například strukturu míst, díky kterým se pak DNA při dělení buňky může rovnoměrně rozdělit na dvě přesné kopie. V dalších případech je zase důležitý přesný počet opakování, a menší nebo větší počet kopií může vést např. u lidí k některým onemocněním. Jak v tomto případě určit z tisíců kousků, kolikrát se dané slovo (nebo věta) v textu vyskytuje?
Už dříve bylo zjištěno, že repetitivní sekvence lze najít a charakterizovat graficky – každý získaný kousíček zakreslíme do obrázku jako bod, a od něhož povedeme linku k těm, kterým se alespoň částečně podobají. Repetitivní sekvence budou tvořit shluky vzájemně hustě propojených bodů (podobně jako na ilustračním obrázku nahoře). Tohoto využíval už dříve software RepeatExplorer, vyvinutý na oddělení molekulární cytogenetiky ÚMBR právě k analýze repetitivních sekvencí. Další postup spočíval ale v pracné, ruční charakterizaci grafických výstupů, které nešlo nijak automatizovat. Nyní ale kolegové ze stejného oddělení obešli tento nedostatek statistickým zpracováním přímo vlastních krátkých kousíčků a vše spojili do jednoho programu TAREAN. Ten nejprve zjistí přítomnost opakujících se sekvencí pomocí grafické analýzy a pak použije vybrané krátké kousky k sestavení kompletní opakující se sekvence a k určení její početnosti. Správnou funkci TAREANu potvrdil i nález nových repetitivních sekvencí u rostliny Bobu obecného, předpovězených právě tímto programem.
Publikace: Novák P., Avila Robledillo L., Koblížková A., Vrbová I., Neumann P., Macas J. (2017) TAREAN: a computational tool for identification and characterization of satellite DNA from unassembled short reads. Nucleic Acids Research. DOI: 10.1093/nar/gkx257 (IF = 9.202)