Sunteți pe pagina 1din 13

Introduccin al RNA-Seq

El transcriptoma es el conjunto total de transcriptos presentes en una clula, para un estadio especfico
del desarrollo o condicin fisiolgica1. La transcriptmica se encarga de estudiar el transcriptoma
mediante tecnologas de alto rendimiento, como los microarrays y la secuenciacin de nueva
generacin (NGS: Next Generation Sequencing).

La comparacin de transcriptomas permite identificar genes que se expresan de modo diferencial en


distintas poblaciones de clulas, o bajo distintos tratamientos. Dos tecnologas importantes sirven
para este objetivo: microarray y RNA-Seq. El primer paso en ambas consiste en la construccin de una
biblioteca de ADNc a partir del ARN de una poblacin de clulas2. En la tecnologa de microarray,
desarrollada en los 90, el ADNc es marcado fluorescentemente e hibridado a un arreglo con sondas de
ADN (Figura 1). Posteriormente el escaneo mediante lseres permite que el ADNc marcado emita
fluorescencia, que es captada por una cmara y registrada por una computadora.

Figura 1 Microarray de dos colores. En la imagen se muestra un anlisis para un experimento con muestras
control y tratamiento. Estas dos muestras son marcadas con fluorocromos de distintos colores y luego puestas en
la placa en igual cantidad. El color detectado en un determinado spot indica el nivel de expresin relativo entre
ambas muestras.

1
Wang, Z., Gerstein, M., y Snyder, M. (2009). RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews genetics,
10:57-63
2
Actualmente se est utilizando tambin una tcnica que se basa la secuenciacin a nivel de clula individual (en vez de a nivel
poblacional), denominada single cell RNA-Seq
Los datos finales comprenden un conjunto de valores de fluorescencia. Estos permiten comparar,
para un gen, el nivel de fluorescencia relativo entre tratamientos.
El mtodo de RNA-Seq, desarrollado en 2008, se basa en la determinacin de las secuencias de
ADNc, sin informacin previa respecto a las mismas. Dentro de los secuenciadores disponibles en la
actualidad, Illumina es la tecnologa ms usada.

Construccin de bibliotecas

Dados que el ARNr comprende la mayor parte de los transcriptos de una clula (~90%), para la
obtencin de bibliotecas de ARN se utilizan generalmente dos protocolos que descartan esta especie,
permitiendo as un enriquecimiento con otras de inters3. En uno de ellos se utilizan oligonucletidos
poli-T, para aislar slo los mensajeros poliadenilados (mensajeros maduros). En el otro, el ARNr es
depletado, permitiendo el anlisis de los mensajeros maduros y, adems, de los ARN largos no
codificantes (ARNlnc). Bsicamente, los protocolos consisten en los siguientes pasos (Figura 2),
variando slo en el segundo:
1. Purificacin de ARN total
2. Seleccin del ARN poliadenilado (para biblioteca de ARNm) o extraccin del ARNr por medio
de hibridacin o captura magntica (para biblioteca de ARN total)
3. Fragmentacin del ARN
4. Sntesis de ADNc
5. Ligado de adaptadores y PCR. Este paso consiste en el agregado de secuencias adaptadoras en
ambos extremos de cada fragmento

Secuenciacin con Illumina

El proceso de secuenciacin con la tecnologa Illumina4 se realiza en una superficie denominada celda
de flujo. La celda de flujo, que tiene el tamao de un portaobjetos, contiene 8 lneas que en su
superficie presentan oligos de dos tipos, complementarios a los adaptadores en los extremos 5 o 3 de
los fragmentos de ADNc (Figura 2). Dichos fragmentos, en forma de cadena simple, se unen a la celda
de flujo a travs de estas secuencias y tras un ciclo de PCR, que usa como primer el oligo de la placa,
queda una nueva cadena unida de modo covalente a la celda. All comienzan una serie de ciclos de
PCR de modo paralelo a lo largo y ancho de la celda utilizando tambin como primers los oligos
presentes en las lneas (proceso denominado bridge amplification), que resulta en un conjunto de
clusters. Cada uno de estos clusters comprende secuencias que derivan de un fragmento inicial y que
poseen por ende la misma secuencia5. Tras obtener los clusters, las molculas son secuenciadas de un
extremo (single-read [SR] sequencing) o primero de uno y luego del otro (paired-end [PE]
sequencing, Figura 2).

3
Conesa, A., Madrigal, P., Tarazona, S., Gomez-Cabrero, D., Cervera, A., McPherson, A y otros. (2016). A survey of best
practices for RNA-seq data analysis. Genome biology, 17:1
4
El proceso es mostrado con mayor detalle en el siguiente video: https://youtu.be/fCd6B5HRaZ8
5
Tras el ciclo de PCR se presentan cadenas con la secuencia original y su complemento, pero se hace un paso de lavado al final
que permite quedarse slo con aquellas complementarias a uno de los adaptadores
Figura 2 Secuenciacin Single-read (SR) y Paired-end (PE). Los colores rojo y verde indican las zonas de los
fragmentos donde se lee para SR (rojo) o PE (rojo + verde). Para un mismo gen se generan cadenas cortas que
mapean en distintas zonas al fragmentar la poblacin de sus transcriptos. En el caso de lecturas PE, se sabe
cules lecturas son complementarias (es decir, lecturas en extremos de un mismo fragmento).

Durante el proceso de secuenciacin, se agregan de a una por vez bases marcadas fluorescentemente a
las cadena en crecimiento hasta completar el largo de secuenciacin deseado que abarca en general
unos 50-250 nucletidos en uno o ambos extremos de los fragmentos. Cada una de las cuatro bases
emite luz en un color distinto que permite identificarlas unvocamente. Con lseres que recorren la
celda de flujo se activa la fluorescencia de la base agregada, que es detectada por una cmara y
registrada en una computadora. Este proceso se produce en paralelo en millones de clusters (Figura 3).
La funcin de los clusters es poder generar una intensidad de seal suficiente para ser detectable por
una cmara.
Figura 3 Celda de flujo (A) mostrando las 8 lneas que la recorren (franjas verticales). En (B) se muestra el
proceso de secuenciacin descripto en el texto.

Los datos generados son analizados por software del secuenciador, que produce un archivo en formato
FASTQ (de FASTA, formato de archivo para secuencias, + Q = quality) con cada secuencia leda
y la calidad de cada una de sus bases. Este es el archivo que se utiliza como entrada en el posterior
anlisis de datos. Los siguientes son tres registros de un archivo FASTQ, que contiene millones como
estos (varios Gb de peso). El registro para cada secuencia individual est compuesto de 4 lneas:

@M00967:43:000000000-A3JHG:1:1101:18327:1699 1:N:0:188
NACGGAGGATGCGAGCGTTA
+
#>>AABABBFFFGGGGGGGG

@M00967:43:000000000-A3JHG:1:1101:14069:1827 1:N:0:188
TACGGAGGATGCGAGCGTTA
+
3AA?ABBDBFFBEGGEGGGG

@M00967:43:000000000-A3JHG:1:1101:18044:1900 1:N:0:188
TACGGAGGATGCGAGCGTTG
+
BA@BBBABBFFFGGGGGGGG

En negrita y fondo gris se indica el registro de una de las secuencias.


- La primera lnea consiste del smbolo @ seguido del identificador (ID) de la secuencia (primer
grupo de caracteres agrupados con :, y de una segunda cadena de caracteres con datos
adicionales. El identificador indica el nombre del aparato, linea, etc., y la ubicacin del cluster
(en coordenadas).
- La segunda lnea contiene la secuencia propiamente dicha
- La tercera lnea contiene el signo +
- La cuarta lnea, una cadena de caracteres de igual longitud que la secuencia, donde cada uno de
ellos puede traducirse en un nmero6 con un rango tpico entre 0 y 40. Este nmero representa
la calidad de la lectura para el nucletido correspondiente. Esto quiere decir lo siguiente: la
determinacin de cada base leda en una secuencia se hace en funcin de la fluorescencia
emitida en los ciclo de sntesis tal como se coment anteriormente. La conversin de lectura de
fluorescencia a identificacin de base lo hace un software del secuenciador, no es perfecto y se
produce con cierto error. La calidad es una medida de este error. A valores ms altos, ms
confiable es la identificacin del nucletido (menor error). Estos valores se pueden utilizar para
encontrar secuencias o partes de secuencias con baja calidad, haciendo una limpieza del archivo
antes de continuar con el anlisis.

Diseo experimental: replicacin y cobertura

Dos cosas importantes al momento de realizar un trabajo de RNA-Seq son el diseo experimental y la
cobertura a la que se quiere trabajar. El padre de la bioestadstica, R.A. Fisher, dijo hace ms de 80
aos que un buen experimento hace uso de replicacin, bloques y aleatorizacin7. Sin replicacin no
se puede conocer la variabilidad provocada por los tratamientos experimentales, y la expresin
diferencial que se puede encontrar no es generalizable (slo vale para ese experimento8).
Diferentes fuentes aportan variacin a los datos finales en un experimento controlado (Figura 4). Por un
lado est la variacin biolgica, que se debe a los tratamientos utilizados. La otra fuente de variacin
es la variacin tcnica, que incluye aquella generada durante la construccin de la biblioteca (efectos
de batch) y el proceso de secuenciacin.
La fuente de variacin que en el fondo nos interesa es la biolgica (Figura 4). Como regla general, se
recomienda utilizar al menos tres rplicas biolgicas por tratamiento.

6
Se utiliza una codificacin muy usada en computacin, denominada ASCII, que asigna un nmero a cada carcter. En su uso
corriente, permite transmitir informacin de texto entre equipos (que en el fondo slo entienden de nmeros!).
7
Fisher, R. A. (1935). The Design of Experiments. Ed. 2. Oliver & Boyd, Edinburgo
8
Auer, P. L., y Doerge, R. W. (2010). Statistical design and analysis of RNA sequencing data. Genetics, 185:405-416
Figura 4 Fuentes de variacin y diseo de un experimento. A. Rplicas biolgicas: diferentes muestras
biolgicas, procesadas de modo independiente. Permiten medir la variacin producida por los tratamientos
biolgicos, y hacer inferencias acerca de la poblacin estadstica; B. Rplicas tcnicas: el mismo material de
partida, pero con pasos independientes (desde la preparacin de la biblioteca). Permiten tener una medida del
error aleatorio del ensayo. Las lneas punteadas verticales indican qu tipo de variacin aporta cada paso.

Por otra parte, el nmero de los ADNc secuenciados para un gen deben estar por arriba de un umbral de
deteccin. Para mayor cantidad de lecturas totales (lo que se denomina profundidad de secuenciacin
o tamao de biblioteca, hablndose por ejemplo de 10 millones o 100 millones de lecturas), mayor es
la probabilidad de detectar un gen. La Figura 5 muestra lo que ocurre al variar el tamao de biblioteca
desde un punto de vista estadstico.
Figura 5 Una biblioteca de ARN puede pensarse como una bolsa que contiene una poblacin de bolitas
(transcriptos) de distintos colores. Los colores asignados corresponden a los genes de los cuales los transcriptos
derivan (rectngulos inferiores). El nmero de colores posibles en la poblacin es muy elevado. Al extraer un
nmero representativo de bolitas, 1000 para dar un ejemplo, se puede intuir que la proporcin de cada color en la
muestra tender a ser similar a la proporcin que posee en la bolsa; las bolitas ms frecuentes en la poblacin
sern las ms representadas en la muestra, y las menos frecuentes las menos representadas. Algunos colores
directamente no aparecern con este tamao muestral. Al extraer ahora no 1000, sino 10000, algunos colores con
baja frecuencia aparecen en la muestra (ya que el nmero de distintos colores en la bolsa es muy elevado, otros
siguen sin aparecer). As, a medida que se contina aumentando el nmero de bolitas extradas se detectan ms
genes, y el valor de frecuencia relativa de cada color, estimado a partir de la muestra, se va acercando al valor
poblacional.

Como se ver en la parte del anlisis de datos, luego del proceso de secuenciacin se alinean todas las
lecturas obtenidas al genoma de la especie de estudio9. Durante el proceso de secuenciacin, en el que
se genera un muestreo al azar de lecturas, algunas bases estarn ms presentes en ellas y otras menos.
La cobertura es el nmero promedio de lecturas que alinean en una base especfica del genoma (dicho
de otro modo, cuntas veces una base fue leda en promedio durante el proceso de secuenciacin,
Figura 6). Por ejemplo, una cobertura de 10X indica que una base fue secuenciada en promedio 10
veces.

9
En el caso de no tener acceso a un genoma de referencia se puede hacer lo que se denomina assembly de novo usando
programas especializados que generan contigs, permitiendo reconstruir el transcriptoma a partir de los resultados del RNA-Seq
Figura 6 Lecturas alineadas al genoma de referencia. La cobertura es el nmero de lecturas que en promedio
alinean a una posicin (base) especfica del genoma. El ejemplo muestra el caso para una cobertura 18X (esto
quiere decir que para una determinada base alinean en promedio 18 lecturas).

La cantidad de secuenciacin requerida vara en funcin de las preguntas que se hace el


investigador y de la especie bajo estudio. En general10 se desea una cobertura > 10X. En
determinados casos se requiere poca secuenciacin, como cuando se quiere hacer un anlisis global de
los transcriptos presentes. En muchos otros se requiere gran cantidad de secuenciacin, para dar con
transcriptos de baja frecuencia.

La frmula de Lander y Waterman11 describe la relacin entre la cobertura, el largo de la lectura, el


nmero de lecturas y el tamao del genoma:

C = L x N/G

Donde L es la longitud de la lectura, N es el tamao de la biblioteca en cada rplica, y G es el tamao


haploide del genoma de referencia. Despejando, se puede obtener una estima de la cantidad de lecturas
requeridas por rplica (N) como N= C x G / L

Por ejemplo, para valores de L = 50 pb, C = 10X y G = 50 Mb ( = 50 106 pb) N = 106

En el caso de lecturas pareadas, L es dos veces el valor que toma para lecturas simples; por ejemplo, L
= 2 x 50pb = 100pb.

10
www.illumina.com/science/education/sequencing-coverage.html
11
Lander, E. S. y Waterman, S. (1988). Genomic Mapping by Fingerprinting Random Clones: A Mathematical Analysis.
Genomics 239: 231239
Anlisis de los datos de RNA-Seq

Luego del proceso de secuenciacin, el mtodo estndar de anlisis consiste en mapear todas las
lecturas obtenidas a un genoma de referencia, utilizando alguno de los programas disponibles que
permiten alinear secuencias cortas a gran velocidad12. Posteriormente se mide la expresin de cada gen
contando el nmero de lecturas que alinean a su regin codificante. Dicho de otro modo:

Nivel de expresin de un gen cantidad de lecturas que alinean al mismo

El punto de partida para el anlisis de los datos es generar una matriz de genes por muestras, donde
cada celda corresponde al conteo de lecturas observadas para un gen en el tratamiento y rplica
correspondiente (Figura 7).

Figura 7 Estructura de la matriz bsica de datos para un anlisis de RNA-Seq con dos tratamientos y tres
rplicas por tratamiento. La matriz contiene la cantidad de lecturas (conteos) que alinean en un gen determinado
(en este caso se indica uno de ellos como gen x).

El anlisis posterior se basa en encontrar los genes que tienen un cambio significativo en abundancia
entre condiciones experimentales. Estos genes con cambios significativos pueden clasificarse como up-

12
Algunos de los alineadores ms utilizados son BWA, Bowtie y SubRead
regulados (expresin media del tratamiento mayor a la media de los controles) y down-regulados
(expresin media del tratamiento menor a la media de los controles).

Dos problemas hay asociados con el conteo de las lecturas:

a) Transcriptos ms largos van a producir ms lecturas (contribuyen con ms fragmentos, Figura


8A). Al comparar distintos tratamientos para un mismo gen, este efecto se cancela.
b) La cantidad de lecturas totales entre bibliotecas suele diferir13 (efecto que se produce por
variabilidad aleatoria generada al nivel de pasos tcnicos). Ms lecturas totales van a producir de modo
proporcional ms lecturas para un gen particular (Figura 8B). Por ello es necesario normalizar las
muestras para el tamao total de las bibliotecas, de modo de hacerlas comparables. No hay un nico
modo de normalizar, y diferentes normalizaciones tendrn efectos distintos sobre las estimaciones de
expresin diferencial.

Figura 8 A. Transcriptos de diferentes longitud; B. bibliotecas de distinto tamao

Dado un gen g, tres normalizaciones corrientes son:

CPM (Counts Per Million) =


106 x (lecturas gen g) / numero total de lecturas

RPKM (Reads Per Kilobase of gene Per Million reads) =


109 x (lecturas gen g)/ [(longitud gen g) x (nmero total de lecturas)]

FPKM (Fragments Per Kilobase of gene per Million reads) =


lo mismo que RPKM pero para lecturas pareadas, donde cada par se considera como una nica
lectura

13
En la prctica, el tamao de biblioteca se refiere a una de dos cosas: el nmero total de lecturas secuenciadas o el nmero total
de lecturas mapeadas
Estas normalizaciones han sido criticadas, debido a que pueden producir artefactos en determinadas
circunstancias (por ejemplo, cuando unos pocos genes muestran un alto nmero de conteos en uno de
los tratamientos).
Una vez elegida una forma de contar las lecturas de modo normalizado, la expresin diferencial puede
estimarse como la relacin de conteos entre las condiciones experimentales, esto es: cuntas veces
para un gen un tratamiento muestra ms expresin que el otro (lo que se denomina Fold
Change [FC]). Para experimentos con rplicas, se toma la relacin entre la expresin promedio para
cada condicin.
Los valores de FC deben ser reescalados, debido a que los genes up-regulados pueden tomar valores
entre 1 y cualquier valor positivo, mientras que los down-regulados toman valores entre 0 y 1. Primero,
a los conteos se les suma el valor de 1 y luego a su cociente se le saca el logaritmo en base 2:

Log2FC = Log2([conteo tratamiento normalizado + 1]/ [conteo control normalizado +1])

El Log2FC es negativo para los genes down-regulados y positivo para los up-regulados, tomando el
valor de 0 cuando no hay cambios entre tratamientos. El 1 se agrega para evitar dividir por cero cuando
el conteo del control es nulo. La Figura 9 muestra para un set de datos real el efecto de sacar el
logaritmo en base 2 del conteo de los datos + 1 (el cociente de estos valores es igual al Log2FC por
propiedad del logaritmo).

Figura 9 Histogramas para un set de datos, que muestran la proporcin de lecturas para los genes usando valores
de conteos crudos (A) o transformados en logaritmo base 2 (B). En A los valores estn comprimidos a la
izquierda del grfico (lo que se conoce como una distribucin con cola pesada). En B la distribucin de los
datos toma un aspecto normal.

A los valores de Log2FC se le da un valor de significancia en base al testeo de la siguiente hiptesis:


Ho: el conteo promedio para el gen x en la muestra A es igual al conteo promedio del gen x en
la muestra B. Los datos de conteos en este tipo de experimentos no permiten utilizar tests
tradicionales, por lo que se han desarrollado diversos mtodos, que escapan a los objetivos de la
presente introduccin.

Figura 9 Tablas para valores de Log2FC ordenadas segn valor absoluto creciente. Tabla 1: genes up-regulados;
Tabla 2: genes down-regulados. Extraido de Rolfe y col., 201614

Anlisis Downstream

Una vez que se identificaron los genes con expresin diferencial, se pueden realizar diversos anlisis.
Entre los ms comunes, los genes pueden analizarse por medio de anlisis de enriquecimiento
funcional15, que consiste en mapearlos a una lista de funciones biolgicas utilizando recursos como
Gene Ontology o KEGG, y encontrar aquellas que se encuentran estadsticamente enriquecidas (Figura
10).

14
Rolfe, A. J., Bosco, D. B., Wang, J., Nowakowski, R. S., Fan, J., y Ren, Y. (2016). Bioinformatic analysis reveals the
expression of unique transcriptomic signatures in Zika virus infected human neural stem cells. Cell & Bioscience, 6:1
15
Reimand, J., Arak, T., Adler, P., Kolberg, L., Reisberg, S., Peterson, H., y Vilo, J. (2016). g: Profilera web server for
functional interpretation of gene lists (2016 update). Nucleic acids research, gkw199
Figura 10 Enriquecimiento para funciones relacionadas con el metabolismo de cidos grasos. Extrado de Rolfe
y col., 2016 (ver cita nmero 14)