Sekwencjonowanie
Metody oparte na sekwencjonowaniu pozwalają na bezpośrednie ustalenie sekwencji kwasów nukleinowych cząsteczek DNA lub cDNA. W celu zbadania cząsteczki RNA należy otrzymać z niej wcześniej sekwencję cDNA.
Pierwszym przedsięwzięciem wykorzystującym sekwencjonowanie DNA na dużą skalę był projekt mający na celu poznanie kompletnego ludzkiego genomu (Human Genome Project). Wykorzystano wtedy sekwencjonowanie pierwszej generacji - metodę Sangera (metodę terminacji łańcucha). Projekt został zakończony w 2003 roku po 13 latach przeprowadzania eksperymentów, których koszt wyniósł około 3 miliardy dolarów.
Obecne techniki tzw. sekwencjonowania nowej generacji (next-generation sequencing, NGS) pozwalają na otrzymanie odczytów w sposób równoległy, znacząco wpływając na zredukowanie kosztów eksperymentów oraz ilość otrzymywanych danych. Sekwencjonowania Nowej Generacji nie wymaga wiedzy a priori o zsekwencjonowanym genomie, a rozdzielczość jednego nukleotydu umożliwia wykrywanie różnych transkryptów powstałych w wyniku alternatywnego składania (splicing), allelicznych wariantów tych samych genów oraz polimorfizmów pojedynczych nukleotydów (SNPs).
Istnieje wiele różnych technologii umożliwiających sekwencjonowanie, a także metod o nie opartych, jednak dla naszych potrzeb skupimy się na - wykorzystywanym w analizie ekspresji - sekwencjonowaniu RNA (RNAseq). Po więcej informacji o najbardziej popularnych technikach sekwencjonowania odsyłam do kursu EMBL-EBI dotyczącego sekwencjonowania nowej generacji, który dostępny jest tutaj. Bardzo szczegółowe informacje dotyczące przeprowadzania eksperymentów różnymi technikami sekwencjonowania dostępne są też na stronie firmy Ilumina.
RNAseq
Metoda RNAseq polega na wykorzystaniu sekwencjonowania nowej generacji do ustalenia sekwencji RNA, wyodrębnionego z komórek lub tkanek. Taka sekwencja może być następnie użyta w badaniach transkryptomicznych lub do anotacji genów.
W skrócie metoda polega na zastosowaniu sekwencjonowania do cząsteczek cDNA uzyskanych w wyniku odwrotnej transkrypcji wyizolowanego RNA. Na przebieg eksperymentu RNAseq składa się więc seria procedur mających na celu uzyskanie cząsteczek cDNA, konstrukcję na ich podstawie biblioteki oraz równoległe głębokie sekwencjonowanie.
Zarówno szczegóły części eksperymentalnej, jak i sposób analizy danych otrzymanych z sekwencjonowania będą różnić się w zależności od celu eksperymentu i organizmu, od którego pobrane są próbki.
Przygotowanie biblioteki polega na przekonwertowaniu populacji cząsteczek RNA na bibliotekę fragmentów cDNA zawierających adaptery (syntetyczne oligonukleotydy o znanej sekwencji) na obu końcach. Fragmenty z dołączonymi adapterami są następnie amplifikowane. Aby otrzymać sekwencją nukleotydową każda cząsteczka jest sekwencjonowania wysoko-przepustowo tak by można było otrzymać miliony krótkich odczytów (zazwyczaj długości 25-300 par zasad) z wygenerowanymi dla każdego z nich wartościami jakości odczytu.
Projektowanie eksperymentu i przygotowanie biblioteki
Podczas przygotowywania biblioteki cDNA należy pomyśleć przede wszystkim o:
typie RNA z którego będziemy korzystać - użycie całego materiału RNA z próbki może umożliwić nam wykrycie zarówno niekodującego RNA, jak i mRNA - wymaga to jednak dodatkowych kroków (enrichment steps) pozwalających na wykrycie niezbyt licznych transkryptów z różnym efektem,
potrzebie posiadania informacji o specyficzności odczytów - posiadanie biblioteki zachowującej informację o orientacji oryginalnych transkryptów RNA jest kluczowa jeśli chcemy identyfikować niekodujące lub antysensowne RNA,
typie otrzymywanych odczytów (single-end lub paired-end reads) - Odczyty ze sparowanymi końcami są otrzymywane w wyniku sekwencjonowania dwóch końców fragmentów cDNA i uliniowienia ich parami (co jest możliwe ponieważ odległość między odczytami jest stała). Takie odczyty są preferowanie np. w przypadku transkryptomiki de novo, analizy ekspresji różnych izoform i prób wykrycia słabo zanotowanych transkryptomów.
Obrazek 1. Sekwencjonowanie i uliniowienie odczytów o sparowanych końcach. Ilustracja pochodzi ze strony firmy Illumina.
Analiza danych z RNAseq
Szczegóły analizy surowych danych otrzymywanych z sekwencjonowania (zawartych w plikach FASTQ) bywają różne, natomiast istnieją kroki które zawsze się powtarzają.
Przeprowadzenie kontroli jakości odczytów
Usuwa się sekwencje adapterów, odczyty o niskiej jakości oraz odfiltrowuje możliwe zanieczyszczenia (np. sekwencje obcych organizmów). Najczęściej używane oprogramowanie do przeprowadzania kontroli jakości odczytów to FastQC oraz Trimmomatic.
Uliniowienie/mapowanie odczytów
Jeśli odczyty pochodzą z organizmu o znanym genomie możliwe jest wyciąganie wniosków o tym które transkrypty są eksprymowane poprzez mapowanie ich na genom referencyjny. Mapowanie takie nie wymaga wiedzy dodatkowej wiedzy o zbiorach transkryptów lub o tym jak przebiega proces składania genów. Przy pracy z organizmami dla których nie posiadamy genomu referencyjnego z odczytów składane są najpierw dłuższe contigi (de novo assembly), które traktowane są następnie jako transkryptom do którego odczyty są na nowo mapowane. Najpopularniejsze oprogramowanie do uliniowiania krótkich odczytów RNAseq to TopHat, który wykorzystuje program Bowtie.
Zliczenie poziomu ekspresji genów i transkryptów
Najprostszą miarą ekspresji jest po prostu zliczenie odczytów, które mapowane są na każdy gen lub transkrypt. Jeśli porównujemy ekspresję tego samego genu w różnych próbkach taka miara nam wystarczy. Jednak porównywanie różnych genów w tej samej próbce wymaga dodatkowej normalizacji ze względu na długość genu (dłuższe geny będą miały więcej zmapowanych odczytów przy tym samym poziomie ekspresji).
Analiza różnicowa ekspresji (differential gene expression analysis)
Wykrycie różnic w poziomie ekspresji między próbkami za pomocą analizy statystycznej przeprowadzanej na danych opisanych w poprzednim punkcie. Na przykład używamy testowania statystycznego aby zdecydować czy zaobserwowana dla określonego genu różnica w ilości zliczonych odczytów jest statystycznie istotna, czyli większa niż byłoby to oczekiwane biorąc pod uwagę naturalną losową wariancję. Istnieje wiele różnych programów służących do przeprowadzania różnicowej analizy ekspresji takich jak edgeR i DESeq (najpopularniejsze programy, korzystające z ujemnego rozkładu dwumianowego) lub baySeq i EBSeq (wykorzystujące podejścia Bayesowskie).
Dla zainteresowanych, bardziej szczegółowe informacje o RNAseq dostępne są między innymi tutaj.