Sunteți pe pagina 1din 18

Introducción a la Bioinformática – Análisis secuencias codificantes

2 ANÁLISIS DE SECUENCIAS CODIFICANTES.

Cada uno de los veinte aminoácidos del código genético constituye una familia
compuesta por los codones sinónimos del aminoácido.

En la tabla 6 se clasifican las familias de acuerdo al número de codones


sinónimos que contienen.

Tabla 6. Aminoácidos agrupados por el número de codones sinónimos.

Número de Familias que son Total de


Codones especificadas por este aminoácidos
sinónimos número de codones.
1 Codón Metionina y Triptófano 2
2 Codones Tirosina, Histidina, Glutamina, 9
Asparagina, Lisina, Ácido
aspártico, Ácido glutámico,
Cistina y Fenilalanina.
3 Codones Isoleucina. 1
4 Codones Valina, Treonina, Alanina, 5
Glicina y Prolina
6 Codones Leucina, Serina y Arginina. 3

Al analizar una secuencia codificadora o CDS se podría esperar que las


frecuencias promedio de aparición de los codones que conforman cada familia,
sean iguales o muy cercanas entre sí, por ejemplo si se toma la familia de
codones que especifican Prolina (pro) la cual es codificada por cuatro codones
(CCA, CCC, CCT, CCG) entonces se esperaría observar cada codón con la
misma frecuencia, es decir que cada uno de los cuatro codones sinónimos se
utilizará con una frecuencia cercana al 25%.

Mediante la anotación (análisis de la estructura primaria de los genes que se han


obtenido por secuenciamiento), se ha logrado descubrir que el uso de codones no
es aleatorio ni uniforme en los organismos, por el contrario se observan patrones
específicos de uso de codones diferentes no solo de especie a especie sino

Roberto A. Pava Díaz rpava@uniminuto.edu 2


Introducción a la Bioinformática – Análisis secuencias codificantes

también dentro de la misma especie [6,7,8,15]. En la práctica se ha logrado


establecer que las frecuencias de los codones sinónimos están muy dispersas
entre los genomas, e incluso uno de los codones sinónimos puede ser usado con
mayor frecuencia que el resto de los sinónimos, a este codón se le ha dado el
nombre de codón óptimo [7].

El codón óptimo es un codón para el cual su tRNA se encuentra en mayor


concentración en la célula y por lo tanto es leído con mayor eficiencia. El sesgo
en el uso de codones se correlaciona positivamente con la expresión de los genes;
genes altamente expresados tienen un fuerte prejuicio en el patrón de uso de
codones evidenciando fuertemente la presencia de un codón óptimo; mientras que
los genes menos expresados tienen un prejuicio menos marcado, presentando un
uso de codones más equilibrado.

Por ejemplo si se consideran los seis (6) codones (CGU, CGC, CGA, CGG, AGA,
AGG) que codifican para la Arginina (arg), los cuales son traducidos por tres (3)
tRNAs en la Escherichia coli [6], se ha establecido que un sólo tRNA decodifica los
codones (CGU, CGC, CGA) y es el más abundante (mayor número de copias) en
este organismo, los otros dos tRNAs decodifican los codones restantes y se
encuentran en menor concentración. Es de esperar que en los genes altamente
expresados se utilice muy frecuentemente uno o más de los codones traducidos
por el primer tRNA, y que en los genes con una expresión menor es posible que
se utilicen los dos tRNAs con frecuencias muy similares presentando un sesgo en
el uso de codones menos marcado. (Tabla 7).

Tabla 7. Patrón de uso de codones de la Arginina en la Escherichia Coli. [6]

E. COLI
ARGININA ALTAMENTE BAJA
EXPRESADO EXPRESION
AGA 0 2
AGG 0 1
CGA 0 9
CGG 0 6
CGC 6 36
CGU 34 17

Roberto A. Pava Díaz rpava@uniminuto.edu 2


Introducción a la Bioinformática – Análisis secuencias codificantes

2.1. MEDIDAS ESTADÍSTICAS DEL PREJUICIO EN EL USO DE CODONES

El estudio de uso de codones enfrenta al investigador al problema de la realidad


de las observaciones. Un enfoque importante para establecer la realidad y el nivel
de las diferencias es el enfoque estadístico. El problema ha resultado ser muy
espinoso, y debido a esto hay un número importante de métodos estadísticos para
establecer la significancia del patrón.

Estos métodos se detallan a continuación:

2.1.1 RSCU (Relative synonymous codon usage): El uso relativo de codones


sinónimos fue propuesto por Paul M. Sharp en el año de 1986. Este
método ha sido diseñado bajo la hipótesis nula de un uso igual de
codones. El RSCU es el cociente entre la frecuencia observada de un
codón y el promedio de aparición de los codones para cada familia [7].

Para un codón dado el RSCU se calcula así (Tabla 8):

Tabla 8. Fórmula para el cálculo del RSCU

Xi Xi es la frecuencia de uso del i-


RSCU i =
X ésimo codón.
m X es el promedio de uso de
∑ Xi todos los codones sinónimos
i= 1
X= m = número de codones
m sinónimos para el aminoácido.

Por ejemplo si se calcula el RSCU con las frecuencias de uso de codones para la
Arginina (para los genes de baja expresión) mostrados en la tabla 7, se obtienen
los siguientes resultados:
m
∑ Xi 2196 3617 71
i= 1
X= = =
m 6 6

Roberto A. Pava Díaz rpava@uniminuto.edu 2


Introducción a la Bioinformática – Análisis secuencias codificantes

El RSCU para cada codón sinónimo de la Arginina es:

2 12
RSCU  AGA = = =0. 16090
71 71
6
1 6
RSCU  AGG = = =0 . 0845
71 71
6
9 54
RSCU  CGA = = =0 . 7606
71 71
6
36 216
RSCU  CGC = = =3. 0423
71 71
6
6 36
RSCU  CGG = = =0. 5070
71 71
6
17 102
RSCU  CGU = = =1. 4366
71 71
6

Este cálculo se efectúa para todas las familias, (excepto para el Triptófano y la
Metionina por carecer de codones sinónimos). En la tabla 9 se observa el valor
del RSCU para los codones de la secuencia del gen DCRB mostrado a
continuación:

Homo sapiens mRNA for DCRB, complete cds, gb AB000099


ATGTCGTTAATCATCTTGACGAGAGATGATGAACCCCGGATATTTACCCCAGA
CAGTGATGCCGCTTCACCAGCATTGCACTCTACTTCCCCGCTTCCTGATCCTG
CCTCAGCTTCTCCTCTCCACAGAGAAGAAAAAATTCTGCCTAAAGTCTGCAAC
ATCGTTTCCTGCCTGAGTTTCAGCCTGCCAGCTTCTCCTACGGATTCTGGACT
TGCCAGCCCCACAATCATAACCAGAGAGGGGCAGCAATTTTGGGCAAAATGT
CTGATTTGGAAATACCAACTTTACCTCCATGGGCTCCACAAGAAATCAGATGG
GAGAAGGGACAAGCAGATAAGCGCAAGCCCATCAACCTGA.

Roberto A. Pava Díaz rpava@uniminuto.edu 2


Introducción a la Bioinformática – Análisis secuencias codificantes

Tabla 9. RSCU para el gen DCRB ubicado en el cromosoma 21


humano.

Aminoácido Sinónimos RSCU Aminoácido Sinónimos RSCU


CGT 0.000000 CCT 1.384615
CGC 0.000000 CTC 1.384615
CGA 0.000000 CTA 0.000000
Arginina Leucina
CGG 1.000000 CTG 1.846154
AGA 4.000000 TTA 0.461538
AGG 1.000000 TTG 0.923077
TCT 1.411765 GTT 2.000000
TCC 0.705882 GTC 2.000000
Valina
TCA 1.411765 GTA 0.000000
Serina
TCG 0.352941 GTG 0.000000
AGT 0.705882 ACT 0.571429
Treonina
AGC 1.411765 ACC 1.714286
CCT 1.666667 ACA 0.571429
CCC 0.666667 ACG 1.142857
Prolina
CCA 1.333333 GCT 1.333333
Alanina
CCG 0.333333 GCC 1.333333
GGT 0.000000 GCA 1.333333
GGA 1.000000 GCG 0.000000
Glicina
GGC 0.000000 TAT 0.000000
Tirosina
GGG 3.000000 TAC 2.000000
Isoleucina ATA 1.000000 CAT 0.500000
Histidina
ATC 1.333333 CAC 1.500000
ATT 0.666666 Asparagina AAT 0.000000
Glutamina CAA 1.000000 AAC 2.000000
CAG 1.000000 Ácido GAT 1.500000
Aspártico
Lisina AAA 1.428571 GAC 0.500000
AAG 0.571429 Cisteina TGT 0.666667

Roberto A. Pava Díaz rpava@uniminuto.edu 2


Introducción a la Bioinformática – Análisis secuencias codificantes

Ácido GAA 1.500000 TGC 1.333333


Glutámico GAG 0.500000 Metionina ATG 1.000000
TTT 1.333333 Triptófano TGG 1.000000
Fenilalanina
TTC 0.666667 TGA Codón de terminación

2.1.2 Codon adaptation index (CAI): El índice de adaptación del codón fue
propuesto por Paul M. Sharp y Wen-Hsiung Li [7].

El CAI es una medida muy efectiva para evaluar el prejuicio de uso de codones
sinónimos; es muy útil para predecir el nivel de expresión de un gen ya que el
valor del CAI es directamente proporcional a la expresión de un gen; es decir si un
gen es altamente expresado tendrá valores altos para el CAI [7].

Además sirve para evaluar la adaptación de genes virales a sus anfitriones u


hospederos y para realizar comparaciones en el uso de codones entre los genes
de un organismo y entre los genes de varios organismos [7].

El CAI se calcula con la siguiente fórmula:

CAI= ∏ W
L ni
i
Donde:

• L = Es el número de codones del gen.


• Wi = La adaptación relativa del i-ésimo codón.
• ni = Número de veces que aparece el codón en el gen.

La adaptación relativa del i-esimo codón también llamada el índice de


adaptabilidad w, se calcula de la siguiente manera:

1. Construir la tabla RSCU, o alternamente establecer las frecuencias de


aparición de los codones (Tabla 10).
2. Calcular la adaptabilidad relativa (w) para cada codón. Esta es la
frecuencia de uso del i-ésimo codón sinónimo dividida por la frecuencia
del codón con la mayor frecuencia, (o es el cociente del RSCU de cada
codón sobre el valor de RSCU más alto de la familia).

Roberto A. Pava Díaz rpava@uniminuto.edu 2


Introducción a la Bioinformática – Análisis secuencias codificantes

TABLA 10. Cálculo del índice de adaptabilidad W.

RSCUij Xij
Wij= =
RSCUi max Xi max
Es el valor RSCU del i-ésimo codón sinónimo
RSCUij
de la familia j.
Es el valor RSCU máximo entre los codones
RSCUimax
sinónimos de un aminoácido.
Es la frecuencia del i-ésimo codón sinónimo de
Xij
la familia j.
Es la frecuencia máxima entre los codones
Ximax
sinónimos de un aminoácido.

Por ejemplo, si se tiene la secuencia de un gen conformado únicamente por


codones de Arginina con las frecuencias que se muestran en la tabla 7.
Por supuesto la secuencia tiene un codón de inicio y un codón de
terminación pero no son incluidos en el cálculo debido a que estos

Roberto A. Pava Díaz rpava@uniminuto.edu 2


Introducción a la Bioinformática – Análisis secuencias codificantes

métodos únicamente establecen el sesgo en el uso de codones sinónimos.


Al calcular la adaptabilidad relativa (W) se obtienen los resultados
mostrados en la tabla 11 con el cálculo detallado en la Figura 9.

Como se tiene una sola familia, la Arginina (i = 6), y 6 codones sinónimos


en la familia j (j = 1).

Tabla 11. Cálculo del Wij


i, j=1 ARGININA FRECUENCIA RSCU W
i=1 AGA 2 0.1690 0.0556
i=2 AGG 1 0.0845 0.0277
i=3 CGA 9 0.7606 0.2500
i=4 CGG 6 0.5070 0.1667
i=5 CGC 36 3.0423 1
i=6 CGU 17 1.4366 0.4722

2 0. 1690
W 1,1 =W  AGA= = =0. 0556
36 3. 0423
1 0. 0845
W 1,2 =W  AGG = = =0 . 0277
36 3 . 0423
9 0. 7606
W 1,3 =W  CGA= = =0. 2500
36 3. 0423
36 3 . 0423
W 1,4 =W  CGC = = =1
36 3 . 0423
6 0. 5070
W 1,5 =W  CGG = = =0 . 1667
36 3. 0423
17 1. 4366
W1, 6=W  CGU = = =0. 4722
36 3. 0423

Figura 9. Cálculo detallado del índice de adaptabilidad

De la tabla 7 se puede establecer que L = 71 codones, entonces el valor de


CAI para el gen hipotético es:

Roberto A. Pava Díaz rpava@uniminuto.edu 2


Introducción a la Bioinformática – Análisis secuencias codificantes
71
 2 1 9 36
CAI=  0. 05562   0 . 0277   0 .25   1   0.16667   0. 4722 
71
6 17

 2 . 0223 x 10−20
0 . 52798

Para evitar desbordamientos de memoria en los programas de computador


por tener que realizar operaciones con números muy pequeños en el
cálculo del CAI, es posible almacenar el logaritmo del número en lugar de
la magnitud del mismo. De este modo el CAI se calcula así:
1
[∑  ni ln wi ]
CAI=e L
1
[ 2ln  0 . 0556ln  0 . 0277 9ln  0 . 2536ln 1 6ln 0 . 166717ln 1 . 4722 ]
71
e
1
[ −45. 3475 ]
71
e
0 . 52798

Utilizando el programa de análisis genómico desarrollado en el proyecto


obtuvimos un valor de CAI de 0.032998, para el gen DCRB utilizado en el
cálculo del RSCU mostrado en la tabla 9.

2.1.3 χ 2 escalado: Este método fue propuesto por Neil R. McEwan y Derek
Gatherer en el año de 1997 [8]. El valor que se obtiene es general para el gen y
ya que este se incrementa proporcionalmente con la longitud del gen ha sido
necesario ajustar los valores teniendo en cuenta este parámetro con el fin de
poder comparar genes de diversa longitud [9].

El χ2 Escalado se calcula con la siguiente ecuación:

 ei−0i j 2
18 fj
ei
χ 2=∑ ∑
i= 1 j= 1 2n

• La primera sumatoria efectúa el cálculo para 18 aminoácidos. (Se


excluyen la Metionina y el Triptófano por no tener sinónimos.)

Roberto A. Pava Díaz rpava@uniminuto.edu 2


Introducción a la Bioinformática – Análisis secuencias codificantes

• La segunda sumatoria opera sobre todos los codones sinónimos de una


familia.
• fj es el número de codones sinónimos de la familia.
• oij es la frecuencia observada del codón j para el aminoácido i.
• n es el número total de codones en el gen, (excepto Metionina y
Triptófano.)
• ei representa el uso esperado de los codones de una familia bajo la
condición de un uso aleatorio. Este valor se calcula con la siguiente
ecuación:

∑   
fi
1
ei= Oij ∗
j= 1 fi

• Oij y fi está definido anteriormente.

Como ejemplo calculemos el χ2 Escalado para el gen hipotético que


solo contiene arginina (Ver tabla 7).

i=1, una sola familia (Arginina)

1 71
ei=  21936617 ∗ =
6 6

2
χ =
 3481 4225 289 21025 1225 961
426

426
 
426 426

426

426 
2  71 

χ 2=
 31206
426  =
31206
=0 . 5158698671
142 60492

Roberto A. Pava Díaz rpava@uniminuto.edu 2


Introducción a la Bioinformática – Análisis secuencias codificantes

También se cálculo el valor del χ2 escalado para el gen DCRB utilizado en el


calculo del RSCU mostrado en la tabla 9 cuyo valor fue de 0.195049.

2.1.4 Número efectivo de codones (NEC): El número efectivo de codones es un


indicador del número total de codones que son utilizados en el gen, su valor
mínimo es de 20, este valor indica un fuerte sesgo (únicamente se selecciona un
codón por familia) y el número máximo es de 61, el cual se presenta cuando un
gen tiene un uso totalmente uniforme de codones sinónimos.

El número efectivo de codones se calcula así:

NEC= 2  9F2   1F3    5F4   3F6 

Donde:

na = Número de codones usados para el grupo

∑ 
 
j
sinónimo de tamaño j.
y
na ∑ p 2i −1 pi = Frecuencia relativa del codón i ( ni/ na)
j= 1

m= 1 na−1 y = Total de grupos sinónimos de tamaño j


Fj=
y

2.1.5 Dinucleótidos intercodones: Este método consiste en establecer la


frecuencia de la pareja de nucleótidos que se forma entre el tercer nucleótido de
un codón en la posición i de un gen y el primer nucleótido del codón en la posición
i+1. Por ejemplo en la secuencia...ACTGCCACC... los dinucleótidos intercodones
son TG y CA.

Este análisis es importante ya que se ha logrado establecer que en genes de


plantas la selección de los codones se ve afectada por los dinucleótidos
intercodones [10], además dicha selección también se debe a la variación en el
contenido de G+C en los marcos de lectura.

Todo genoma es un mosaico de regiones con alto, medio y bajo contenido de G


+C, estas regiones han recibido el nombre de isócoros [11]. Originalmente un
isócoro se definió como una secuencia de DNA de longitud superior a 300 kpb
con una composición aproximadamente homogénea [11]. Los isócoros pueden

Roberto A. Pava Díaz rpava@uniminuto.edu 3


Introducción a la Bioinformática – Análisis secuencias codificantes

ser clasificados en varias familias dependiendo de su composición. En el genoma


humano, el cual es típico de la mayoría de los mamíferos, se pueden encontrar
tres regiones [11]:

• Muy Ricos en G+C: ≥ 52%


• Ricos en G+C: 47% ≤ G+C% < 52%
• Pobre en G+C: G+C% < 47%

En los genes de plantas, Marchetti y colaboradores [10] encontraron que los


dinucleótidos intercodones más frecuentes eran GC y AT, e incluso observó que el
dinucleótido intercodon GC ocurría con una frecuencia muy baja, pero que la baja
frecuencia del dinucleótido GC aumentaba a medida que aumentaba el contenido
de G+C en el resto del gen. De hecho la distribución de dinucleótidos intercodones
GC permitió clasificar los genomas eucarióticos en dos patrones básicos:

1. Baja frecuencia de GC, frecuentemente disperso a lo largo del genoma y


distribuido en las regiones codificantes y no codificantes del mismo.
2. El dinucleótido GC se presenta con una frecuencia muy cercana a la
esperada con base en el contenido de G+C del genoma y además se
encuentra agrupado en segmentos de DNA llamados islas GC.

En contraste el dinucleótido intercodon TA se excluye muy severamente del DNA


codificante que se expresara como mRNA [10], esto se puede explicar por la
inestabilidad de dinucleótido UA e incluso esto puede estar relacionado con el
hecho que dos de los tres codones de terminación contengan el dinucleótido TA
(TAA, TAG, TGA).

En la figura 10 se visualiza la gráfica que se obtuvo con el programa desarrollado


en esta investigación de análisis genómico de los dinucleótidos intercodones
para el gen DCRB utilizado en el cálculo del RSCU mostrado en la tabla 9.

Roberto A. Pava Díaz rpava@uniminuto.edu 3


Introducción a la Bioinformática – Análisis secuencias codificantes

Figura 10. Frecuencia relativa de los dinucleótidos intercodones para el gen DCRB

2.1.6 Frecuencia de nucleótidos en cada posición del codón: Este método


establece las frecuencias de cada uno de los nucleótidos en las tres diferentes
posiciones del codón; es decir como resultado del método se obtiene una tabla de
frecuencias relativas y/o absolutas.

Shepered [12], notó que los codones más frecuentes en los genes humanos son
de la forma RNY (R = A o G, Y = C o T, N = A, C, G o T), es decir la composición
más frecuente que se encontró en los genes del hombre, específicamente ha sido:
Purina – Pirimidina - Purina/Pirimidina., este resultado se ha usado para formular
métodos que prueban la existencia de una región codificante calculando el número
de diferencias entre la secuencia analizada y el patrón RNYRNYRNYRNY... RNY.

En la figura 11 se muestra el uso de nucleótidos por cada posición del codón para
el gen DCRB.

Figura 11. Frecuencia de nucleótidos por posición de codón para el gen DCRB.

Roberto A. Pava Díaz rpava@uniminuto.edu 3


Introducción a la Bioinformática – Análisis secuencias codificantes

2.1.7 Determinación de la distribución de nucleótidos y de oligonucleótidos


de 2, 3 y 4 nucleótidos: éste procedimiento consiste en tomar el CDS y contar
traslapadamente la frecuencia de nucleótidos, dinucleótidos, trinucleótidos y
tetranucleótidos. Por ejemplo si se tiene la secuencia: AAAACCTGAC se
obtendrán los resultados mostrados en la tabla 12.

Tabla 12. Frecuencia para diferentes oligonucleótidos

Oligonucleótido Frecuencia Total


s
Nucleótidos A= 5, C=3, T=1, G=1 10
Dinucleótidos AA=3, AC=2, CC=2, CT=1, TG=1, GA=1 10
AAA=2, AAC=1, ACC=1, CCT=1,
Trinucleótidos 8
CTG=1, TGA=1, GAC=1
AAAA=1, AAAC=1, AACC=1, ACCT=1,
Tetranucleótidos 7
CCTG=1, CTGA=1, TGAC=1

En las figuras 12 y 13 se muestran las frecuencias de los nucleótidos y


dinucleótidos para el gen DCRB.

Roberto A. Pava Díaz rpava@uniminuto.edu 3


Introducción a la Bioinformática – Análisis secuencias codificantes

Figura 12. Frecuencia de nucleótidos del gen DCRB.

Figura 13. Frecuencia de dinucleótidos del gen DCRB.

2.1.8 Entropía: Es la suma de las incertidumbres de los símbolos que conforman


la cadena de nucleótidos. Se ha denominado con la letra H y se calcula así:

Ui=−Log  Pi 
M
H=− ∑ PiLog  Pi 
i= 1
M
1
H=− ∑ PiLog  
i= 1 Pi

Donde, Ui es la incertidumbre de observar el símbolo i en un momento dado


(Tabla 13).

Tabla 13. Cálculo de la incertidumbre del símbolo i

Ui=−Log 2  Pi  Si Pi tiende a 0, Sería muy


sorprendente observar el símbolo i. y
Ui tiende a infinito.

Si Pi tiende a 1, Es natural observar


el símbolo i. y Ui tiende a cero (0).

Roberto A. Pava Díaz rpava@uniminuto.edu 3


Introducción a la Bioinformática – Análisis secuencias codificantes

Es decir no existe incertidumbre ya


que este símbolo siempre
aparecería.

La entropía es la suma del producto de todos los U i por Pi, donde Pi es la


frecuencia de observación del símbolo i.
M
H=− ∑ Pi Ui
i= 1

Por ejemplo, en la Tabla 14 se muestra el Ui para una fuente que genera cuatro
símbolos A, C, T, y G, con probabilidades ½, ¼, 1/8 y 1/8 respectivamente.

Tabla 14. Ui dada las probabilidades de aparición de los símbolos

Símbolo Pi Ui (bits)
A ½ 1
C ¼ 2
G 1/8 3
T 1/8 3

La entropía del sistema es:


M
H=− ∑ Pi Ui
i= 1
1 1 1 1
¿  1  2   3   3 
2 4 8 8
¿ 1. 75 bits por símbolo

2.1.8.1 La teoría de la información aplicada al análisis de secuencias


biológicas: La aplicación de la teoría de la información al análisis de secuencias
de DNA o RNA comenzó aproximadamente en la década de 1970; dos grandes
períodos pueden ser distinguidos en este proceso; el primero de 1970 a 1977
(aproximadamente) cuando aparece la primera publicación sobre el tema, se
desarrollan métodos para la estimación de parámetros tales como la información,
la redundancia y la divergencia entre las secuencias de DNA. El objetivo de estos

Roberto A. Pava Díaz rpava@uniminuto.edu 3


Introducción a la Bioinformática – Análisis secuencias codificantes

estudios era obtener una expresión cuantitativa que describiera la complejidad de


las secuencias.

El segundo período de 1987 al presente (existió un receso de 10 años en el


estudio) donde ocurre un renovado interés en la materia como objeto de
investigación, esto se debe en parte a los éxitos de los proyectos de
secuenciamiento de los genomas.

2.1.8.2 Representación informacional:

• La transferencia de la información biológica puede ser modelada de


acuerdo a lo propuesto por Claude Shannon. (Emisor - canal de
comunicación - receptor), donde el mensaje emitido (entrada) es la
secuencia de DNA y el mensaje recibido (salida) es la cadena de
aminoácidos de la proteína.
• El conjunto de símbolos -Alfabeto- generado por la fuente es {A,C,T,G},
estos símbolos son emitidos con frecuencias diferentes.
• La distribución de probabilidad del alfabeto es una propiedad de la
fuente.

 P(A) + P(C) + P(G) + P(T) = 1.


 Las bases no son independientes del mensaje genético; pueden
ser modeladas por un proceso de Markov.
 La entropía máxima para una fuente de cuatro (4) símbolos es:
Hpot(N) = log2 (4) = 2 bits

2.2 ANÁLISIS DE SECUENCIAS NO CODIFICANTES.

El análisis de secuencias no codificantes se realiza generalmente bajo el precepto


de que los genomas son secuencias aleatorias de nucleótidos, es decir que cada
nucleótido es independiente del contexto en el que se encuentre. En la gran
mayoría del DNA de los organismos eucarióticos las secuencias no codificantes
representan alrededor del 90% del genoma,

Para realizar este análisis se ha incluido todo el genoma, cómo el estudio se ha


realizado por cromosomas, se toma todo un cromosoma sin extraer las regiones
que formarán parte de los genes (ORFs); por está razón sería más preciso
denominar este estudio como análisis de la secuencia de un genoma.

Roberto A. Pava Díaz rpava@uniminuto.edu 3


Introducción a la Bioinformática – Análisis secuencias codificantes

Los métodos que se han empleado para el estudio de este tipo de secuencias son:

 Determinación de la distribución de nucleótidos y de oligonucleótidos


de 2,3 y 4 nucleótidos. Es el mismo procedimiento descrito en el método
2.1.7 del análisis de secuencias codificantes.
 Entropía. Es el mismo procedimiento descrito en el método 2.1.8 del
análisis de secuencias codificantes.

Nota: Este documento es una copia parcial de mi proyecto de pregrado


Títulado: Anotación estructural del genoma humano: Una Rúbrica genómica.
Universidad Nacional de Colombia. Bogotá. 2002.

Roberto A. Pava Díaz rpava@uniminuto.edu 3

S-ar putea să vă placă și