Sunteți pe pagina 1din 2

STAR: alineador universal ultrarrápido de RNA-seq

Alexander Dobin , 1, * Carrie A. Davis , 1 Felix Schlesinger , 1 Jorg Drenkow , 1 Chris


Zaleski , 1 Sonali Jha , 1Philippe Batut , 1 Mark Chaisson , 2 y Thomas R. Gingeras 1

1. INTRODUCCIÓN
Aunque los genomas están compuestos de secuencias de ácidos nucleicos ordenadas linealmente, las células
eucariotas generalmente reorganizan la información en el transcriptoma al unir exones no contiguos para
crear transcripciones maduras ( Hastings y Krainer, 2001) La detección y caracterización de estos ARN
empalmados ha sido un foco crítico de análisis funcionales de genomas tanto en el estado celular normal
como en el de la enfermedad. Los avances recientes en las tecnologías de secuenciación han hecho que los
análisis de transcriptomas a nivel de nucleótido único sean casi rutinarios. Sin embargo, cientos de millones
de secuencias cortas (36 nt) a medias (200 nt) de longitud (lecturas) generadas por tales experimentos de
secuenciación de alto rendimiento presentan desafíos únicos para la detección y caracterización de
transcripciones empalmadas. Dos tareas clave hacen que estos análisis sean computacionalmente
intensivos. La primera tarea es una alineación precisa de las lecturas que contienen desajustes, inserciones
y eliminaciones causadas por variaciones genómicas y errores de secuencia. La segunda tarea consiste en
mapear secuencias derivadas de regiones genómicas no contiguas que comprenden módulos de secuencia
empalmados que se unen para formar ARN empalmados. Aunque la primera tarea se comparte con los
esfuerzos de resecuenciación del ADN, la segunda tarea es específica y crucial para la secuencia de ARN,
ya que proporciona la información de conectividad necesaria para reconstruir la extensión total de las
moléculas de ARN empalmadas. Estos desafíos de alineación se ven agravados por la presencia de múltiples
copias de secuencias genómicas idénticas o relacionadas que se transcriben, lo que dificulta el mapeo
preciso. ya que proporciona la información de conectividad necesaria para reconstruir la extensión total de
las moléculas de ARN empalmadas. Estos desafíos de alineación se ven agravados por la presencia de
múltiples copias de secuencias genómicas idénticas o relacionadas que se transcriben, lo que dificulta el
mapeo preciso. ya que proporciona la información de conectividad necesaria para reconstruir la extensión
total de las moléculas de ARN empalmadas. Estos desafíos de alineación se ven agravados por la presencia
de múltiples copias de secuencias genómicas idénticas o relacionadas que se transcriben, lo que dificulta el
mapeo preciso. Recientemente se han desarrollado varios algoritmos de alineación de secuencias para
abordar estos desafíos ( Au et al. , 2010 ; De Bona, et al. , 2008 ; Grant et al. , 2011 ; Han et al. ,
2011 ; Trapnell et al. , 2009 ; Wang et al. , 2010 ; Wu y Nacu, 2010 ; Zhang et al. , 2012 ). Sin embargo, la
aplicación de estos algoritmos invoca compromisos en las áreas de precisión de mapeo (sensibilidad y
precisión) y recursos computacionales (tiempo de ejecución y espacio en disco) ( Grantet al. , 2011 ). Con
los avances actuales en las tecnologías de secuenciación, el componente computacional se está convirtiendo
cada vez más en un cuello de botella de rendimiento. La alta velocidad de mapeo es especialmente
importante para los esfuerzos de grandes consorcios, como ENCODE ( http://www.genome.gov/encode/ ),
que genera continuamente grandes cantidades de datos de secuencia. Además, la mayoría de los algoritmos
citados fueron diseñados para manejar lecturas relativamente cortas (típicamente ≤200 bases), y no son
adecuados para alinear secuencias de lectura largas generadas por las tecnologías emergentes de
secuenciación de tercera generación ( Flusberg et al. , 2010 ; Rothberg et al. , 2011 ). Las secuencias de
lectura más largas, que idealmente alcanzan longitudes completas de moléculas de ARN, tienen un gran
potencial para mejorar los estudios de transcriptoma al proporcionar información de conectividad de ARN
más completa. Este informe describe un algoritmo de alineación titulado 'Alineación de transcripciones
empalmadas a una referencia (STAR)', que se diseñó para abordar específicamente muchos de los desafíos
del mapeo de datos de RNA-seq, y utiliza una estrategia novedosa para alineaciones
empalmadas. Realizamos experimentos de validación de alto rendimiento que corroboraron la precisión de

S-ar putea să vă placă și