Sunteți pe pagina 1din 8

BMC Bioinformatics Bio Medicina Central

Software Acceso abierto

I-TASSER servidor para la proteína de predicción de estructura 3D


Zhang Yang

Dirección: Centro de Bioinformática y el Departamento de Biociencia Molecular de la Universidad de Kansas, 2030 Becker Dr, Lawrence, KS 66047, EE.UU. Correo electrónico: Yang Zhang -

yzhang@ku.edu

Publicado: 23 Enero 2008 Recibido: 19 Septiembre 2007


Aceptado: 23 Enero 2008
BMC Bioinformatics 2008, 9: 40 doi: 10.1186 / 1471-2105-9-40

Este artículo está disponible en: http://www.biomedcentral.com/1471-2105/9/40 © 2008 Zhang;

BioMed Central
Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Atribución (h ttp: //creativecommons.org/licenses/by/2.0 ), Que permite el uso ilimitado, distribución y
reproducción en cualquier medio, siempre que la obra original esté debidamente citados.

Fondo abstracto: Predicción de estructuras de proteínas 3 dimensiones a partir de secuencias de aminoácidos representa uno
de los problemas más importantes en la biología estructural computacional. La evaluación crítica de toda la comunidad de
experimentos de estructura de predicción (CASP) han sido diseñados para obtener una evaluación objetiva del estado de la
técnica del campo, donde la I-TASSER se clasificó como el mejor método en la sección del servidor de la reciente experimento
CASP séptimo. Nuestro laboratorio ha hecho desde entonces recibido numerosas peticiones sobre la disponibilidad pública del
algoritmo I-TASSER y el uso de las predicciones I-TASSER.

resultados: Una versión en línea de la I-TASSER se desarrolla en el Centro de Bioinformática KU que ha generado predicciones
de estructura de proteínas para miles de solicitudes de modelado de más de 35 países. Una función de puntuación (C-score)
basado en la densidad estructural agrupación relativa y la puntuación de importancia consenso de varias plantillas de roscado se
introduce para estimar la exactitud de las predicciones I-TASSER. Una prueba de punto de referencia a gran escala demuestra
una fuerte correlación entre la puntuación C y la TM-score (una medición de la similitud estructural con valores en [0, 1]) de los
primeros modelos con un coeficiente de correlación de 0,91. El uso de un corte C-score>

- 1,5 para los modelos de topología correcta, tanto las tasas de positivos falsos y negativos falsos están por debajo de 0,1. La combinación
C-score y longitud de la proteína, la exactitud de los modelos I-TASSER se puede predecir con un error promedio de 0,08 para TM-score y 2
Å para RMSD.

Conclusión: El servidor de I-TASSER ha sido desarrollado para generar predicciones estructurales de la proteína 3D de larga duración
automatizados, donde el sistema de puntuación ayuda a los usuarios como punto de referencia para obtener evaluaciones cuantitativas de
los modelos I-TASSER. La salida de la I-TASSER servidor para cada consulta incluye hasta cinco modelos de larga duración, la puntuación
de confianza, el TM-score y RMSD estimado, y la desviación estándar de las estimaciones. El servidor de I-TASSER es de libre disposición
de la comunidad académica en h ttp: //zhang.bioinformatics.ku.edu/I-TASSER .

Antecedentes etc.) podría ayudar en tanto el montaje como modelo estructural selección
la predicción de estructura de proteínas se refiere al esfuerzo de generar modelos [1,2]. Sin embargo, el desarrollo de algoritmos fullyautomated tiene la
de 3 dimensiones a partir de secuencias de aminoácidos usando algoritmos ventaja en la aplicación potencial en la estructura predicciones proteoma
informáticos. Sin embargo, los procesos de modelado estructura a menudo escala [3,4]. Sobre todo, permite que los no expertos para generar modelos
implican la intervención humana debido a que el conocimiento humano experto estructurales para sus propias secuencias a través de servicios de Internet.
combina con la información bioquímica (función, mutagénesis, residuos catalíticos, En la reciente Doble Ciego de toda la comunidad, CASP7,

Página 1 de 8
(No el número de página para efectos de referencia)
BMC Bioinformatics 2008, 9: 40 http://www.biomedcentral.com/1471-2105/9/40

I-TASSER (como 'Zhang-Servidor') generó las mejores predicciones de la estructura ment simulación montaje de nuevo, que comienza desde el centroide racimo
3D entre todos los servidores automatizados. Los GDT_TS promedio [5] o TM-score de la primera simulación ronda. restricciones espaciales se extraen de los
[6] de los 124 objetivos / dominios es al menos 5% más alto que el segundo mejor centroides y las estructuras de AP buscadas por la estructura del programa de
servidor y comparables con las mejores predicciones humano-expertos [7]. alineación TM-align [25], que se utilizan para guiar la segunda simulación
ronda. Por último, los señuelos estructura se agrupan y se selecciona la
estructura de energía más bajo en cada grupo, que tiene el C α átomos y los
Desde la primera versión pública en noviembre de 2006, el servidor ITASSER centros de la cadena lateral de masa especificados. Pulchra [26] se utiliza para
ha generado predicciones de la estructura de miles de solicitudes de agregar átomos del esqueleto (N,
modelado de diversos laboratorios del mundo. Hemos estado con frecuencia
hechas por los usuarios sobre cómo la calidad de los modelos I-TASSER debe C, O) y Scwrl_3.0 [27] para construir rotámeros de cadena lateral.
ser anotado ya que esto esencialmente decidir cómo van a explotar las
predicciones en sus investigaciones. La idea general de la estimación de la Si cualquier región con> 80 residuos no se ha alineado residuos en al menos dos
calidad de modelado 3D de los modelos ha sido perseguido por varios autores fuertes alineaciones PPA de Z-score> Z 0 ( ver más abajo), el objetivo será juzgada
[8-10], que se une como un nuevo tema de investigación de "programas de como un múltiplo límites de proteínas de dominio y dominio se asignan
evaluación de la calidad del modelo" (MQAP) [11] y se evaluó en el CASP7 automáticamente basado en las fronteras de los grandes huecos. simulaciones
reciente experimento en la categoría de control de calidad [12]. I-TASSER se llevará a cabo para la cadena completa, así como los dominios
separados. Los modelos finales de longitud completa se generan por atracar el
modelo de dominios juntos. El dominio de acoplamiento se lleva a cabo por una
rápida simulación Metropolis Monte Carlo en donde la energía se define como la
En este trabajo, se introduce el ajuste en línea del servidor ITASSER y RMSD de modelos de dominio para el modelo de cadena completo más el
desarrollar un sistema de puntuación de la confianza que puede proporcionar a recíproco del número de choques estéricos entre dominios. El objetivo del
los usuarios una evaluación sencilla y fiable de los modelos ITASSER. A acoplamiento es encontrar la orientación de dominio que es la más cercana al
diferencia de la mayoría de los programas MQAP que evalúan los modelos modelo de cadena completa I-TASSER pero tiene los choques estéricos
puramente basado en la estructura de los modelos finales, la función de mínimos. Este procedimiento no influye en las múltiples proteínas de dominio
puntuación de confianza desarrollado aquí incorpora la información y los que tienen todos los dominios completamente alineados por los CCE.
parámetros de las simulaciones de modelos.

Implementación
método I-TASSER C-score
I-TASSER es un enfoque jerárquico estructura de la proteína de modelado El C-score de los modelos I-TASSER se define como
basado en el secundario-estructura mejorada perfil perfil roscado de
alineación (PPA) [13] y la aplicación iterativa de
• 4 •
El roscado Asamblea • Π Z ()ii

Refinamiento programa (TASSER) [14]. El detalle del método ITASSER se • 1 1 •
C-score = En M ⋅ ⋅= (1)
ha descrito en [15,16]. Aquí se da una breve descripción del método. • MTOT RMSD 4 •
• Π Z0 ()ii •
• •
• =1 •

Las secuencias diana son roscados primero a través de una biblioteca donde M es la multiplicidad de las estructuras en el cluster SPICKER; METRO nene
representativa estructura PDB (con un par-sabia de identidad de secuencia de es el número total de los señuelos de estructura I-TASSER utilizados en la
corte de 70%) para buscar los posibles pliegues por cuatro variantes simples de agrupación; RMSD es la RMSD media de los señuelos para el centroide de
métodos PPA, con diferentes combinaciones de los modelos ocultos de Markov [ clúster; Z ( yo) es la Zscore más alta (la energía a significar en la unidad de
17] y [18] PSIBLAST perfiles y la Needleman-Wunsch [19] y Smith-Waterman [20] desviación estándar) de las plantillas de la yo º PPA programa de enhebrado y Z 0
algoritmos de alineación. Los fragmentos continuos son luego extirpados de las ( yo) es un punto de corte Z de la especificada programa para distinguir entre las
regiones de roscado alineado que se utilizan para volver a montar los modelos de plantillas de buenos y malos, es decir Z 0 ( 1) =
larga duración mientras que las regiones no alineados Threading (bucles
principalmente) son construidos por ab initio modelación [21]. El espacio 7,0, Z 0 ( 2) = 8,5, Z 0 ( 3) = 8,0, Z 0 ( 4) = 10,5.
conformacional es buscado por de intercambio de réplica de simulaciones de
Monte Carlo [22]. Las trayectorias de estructura son agrupados por SPICKER Los dos primeros factores de la Ecuación 1 cuenta para el grado de estructura
[23,24] y los centroides de racimo se obtienen por el promedio de las de la convergencia en la agrupación SPICKER, que se correlaciona con la
coordenadas de todas las estructuras agrupadas. Para descartar los choques consistencia de las restricciones externas y el potencial inherente I-TASSER. El
estéricos en las estructuras del centroide y refinar los modelos más, ponemos en tercer factor que da cuenta de la calidad de las alineaciones de roscado. El
práctica la fragmentación logaritmo en la ecuación 1 es para ajustar los valores C-score en una
distribución aproximadamente uniforme. A C- previamente definido

Página 2 de 8
(No el número de página para efectos de referencia)
BMC Bioinformatics 2008, 9: 40 http://www.biomedcentral.com/1471-2105/9/40

la puntuación se ha demostrado que tiene una fuerte correlación con la calidad de hora para una secuencia de alrededor de 200 residuos). Una vez finalizado el
los modelos de predicción [14]. En este caso, la definición de C-score es ligeramente modelado, un correo electrónico será enviado a los usuarios, que incluyen los
diferente. En primer lugar, un normalizado puntuación Z por Z 0 se utiliza en lugar de archivos de formato PDB de hasta 5 modelos predichos, C-score de los modelos, y
la propia puntuación Z que hace que sea fácil de extender la definición a los casos el RMSD y TMscore del primer modelo predijo. Una breve explicación de la RMSD,
en los que las plantillas son generadas por diferentes algoritmos de roscado. En TM-score, y C-score también se proporciona en el correo electrónico.
segundo lugar, representa el consenso de confianza alineación de múltiples
programas de roscado en lugar de programa de una rosca.
Una vez que se hace una predicción, un archivo GIF visual se hace para cada uno de los
modelos I-TASSER de manera que los usuarios pueden obtener una vista rápida en línea
de la forma en que la topología de sus modelos se parece. Los archivos PDB y los archivos
También hemos intentado otras alternativas para la definición C-score. Por visuales se mantienen en nuestro servidor durante 365 días e hicieron públicamente
ejemplo, si añadimos TM-score , El TM-puntuación media de los señuelos para el descargable en [28], por lo que otros usuarios pueden recuperar rápidamente los resultados
centroide de clúster, en el numerador del segundo factor en la ecuación 1, la de los modelos sin volver a presentar los trabajos cuando quieren modelar las mismas o
correlación entre la puntuación C y TM-puntuación aumentará por ~ 2%. Pero similares proteínas. La cola de los puestos de trabajo se muestra en la página, así por lo
no aumenta la correlación de C-partido en el RMSD y el cálculo de TM-score aumentará
que los usuarios pueden realizar un seguimiento de sus trabajos presentados. Por último,
el tiempo de ejecución SPICKER por ~ 20%. Así que no hemos incluido una página web "Sobre servidor I-TASSER" [29] está diseñado para proporcionar una
TM-score en la definición CPuntuacion. También se intentó optimizar las introducción detallada del servidor que se mantiene actualizada cuando se desarrollan
potencias de los tres factores de la ecuación 1 mediante la maximización de la nuevas características.
correlación entre la puntuación C y la calidad de los modelos finales en las
proteínas de formación. Curiosamente, los poderes optimizadas de los tres
factores están cerca de 1, lo que indica que el C-score en la Ecuación 1 se
encuentra cerca de una definición óptima si teniendo en cuenta estos 3 Resultados y discusiones
factores. Para el punto de referencia del servidor I-TASSER, recogemos 800 proteínas de un
solo dominio no homólogos directamente desde la biblioteca AP [30], que tiene un
par-sabia de identidad de secuencia <30% con el tamaño que varía de 50 a 300
residuos. El propósito ha sido hecho para tener las proteínas seleccionadas de una
TM-score distribución equilibrada en las clases de estructura secundaria y la dificultad de
TM-score se define para evaluar la similitud topológica de dos estructuras de modelado. Como resultado, el conjunto de referencia incluye 220/212/368 α / β / αβ- proteínas.
proteínas [6]: Con base en los Zscores de las alineaciones de PPA, 236/248/316 objetivos se
asignan como fácil / medio / objetivos duros respectivamente. Nosotros
seleccionamos al azar 300 proteínas como el conjunto de entrenamiento para
112
Σ
1
TM-score = , (2) adaptarse a los parámetros de la calidad del modelo estimado (véase más adelante);
L 02
=1
Illinois
+ hizo las 500 proteínas restantes serán utilizados como el conjunto de ensayo (véase [31]).
Cuando I-TASSER se utiliza para generar los modelos para las 800 proteínas,
plantillas homólogos con una identidad de secuencia> 30% a la diana se excluyen de
dónde re yo es la distancia de la yo ésimo par de residuos entre dos estructuras
la biblioteca de plantillas de roscado.
después de una óptima superposición,
3
re 0 = 1 .24 L - -15 1 8 . y L es la longitud de la proteína. TM-

Siguen en [0, 1] con los valores más altos indican mejores modelos.
Estadísticamente, una MT-score ≤ 0,17 corresponde a una similitud entre dos
Cabe mencionar que aquí referencia al algoritmo ITASSER sólo en las
estructuras seleccionados al azar de la biblioteca de AP; un TM-score> 0.5 se
proteínas de un solo dominio. Para las proteínas de múltiples dominios, un
corresponde aproximadamente con dos estructuras de la topología similar.
pequeño misorientation de los dominios puede resultar en un cambio
Una ventaja de la TMscore es que el significado de los puntos de corte dramático de los valores de TM-score y RMSD incluso si la topología de los
TMscore es independiente del tamaño de las proteínas [6]. dominios individuales no se modifica, lo cual puede resultar en correlaciones
divergentes de la C-score y el modelo general cualidades. En consecuencia, la
confianza puntuación y estimación de la calidad de los modelos múltiples de
configuración del servidor dominio debe entenderse aproximadamente como aquellos para las unidades
La dirección URL del servidor de I-TASSER en línea aparece al final del de dominio individuales.
documento. Para utilizar el servidor, lo que los usuarios necesitan proporcionar es
la secuencia de aminoácidos de las proteínas a ser modelado en el formato
FASTA. Actualmente, el rango de tamaño aceptable de los objetivos es entre La correlación de la puntuación C y modelo cualidades

10-1,500 residuos. Dependiendo del tamaño de la proteína, el procedimiento de En la Figura 1a, se muestra la TM-score de los primeros modelos I-TASSER de todas
modelado I-TASSER toma un máximo de 48 horas (típicamente 5-10 las 500 proteínas de prueba, que muestra una fuerte correlación con las C-resultados
con una correlación de Pearson

Página 3 de 8
(No el número de página para efectos de referencia)
BMC Bioinformatics 2008, 9: 40 http://www.biomedcentral.com/1471-2105/9/40

Figura 1 (a) y RMSD (b) versus C-score de los modelos I-TASSER para 500 proteínas de prueba
TM-score
TM-score (a) y RMSD (b) versus C-score de los modelos I-TASSER para 500 proteínas de prueba. La curva de trazos en (a) es de la Ecuación 3 que es en forma de las proteínas de
formación 300 y se utiliza para la estimación de la TM-score de los modelos I-TASSER. Los círculos sólidos son la raíz cuadrada media desviación de los valores estimados TM-score
(RMSTD). La curva de trazo continuo es partir de la Ecuación 4, que es en forma de las proteínas de formación 300. Las líneas de puntos son los puntos de corte TM-score y C-score
para pliegues correctos.

coeficiente de 0,91. Si definimos un modelo de TM-score> 0.5 como un pliegue correcto La segunda razón de la baja correlación RMSD / C-score es debido a la
y evaluar los modelos utilizando un punto de corte de CPuntuacion> -1.5, la tasa de dependencia del tamaño inherente de RMSD. En figura
falsos positivos y falsos negativos son 3, se muestran los valores de TM-score y RMSD de los modelos ITASSER frente a
0,05 y 0,09 respectivamente. la longitud de la proteína para las proteínas de prueba 500. Obviamente, las
proteínas pequeñas tienden a tener un RMSD inferior, una tendencia también se
La correlación de RMSD con el C-score no es tan fuerte como la de la observa en los seleccionados al azar pares estructura PDB [6,33], lo que resulta en
TM-score (Figura 1b). Muchos modelos de alta puntuación C tienen un gran una correlación RMSD no trivial / longitud (Figura 3b). Dado que la distancia en
RMSD. Esto es principalmente debido a la definición de RMSD que TM-score se normaliza mediante una escala dependiente de la longitud (véase la
promedia distancias de todos los pares de residuo con un peso igual [32]. Ecuación 2), no hay dependencia de longitud en los valores de TM-score, que
Por lo tanto, un gran error de modelos local dará lugar a un alto valor de tienen un corte casi uniforme cerca de 0,17 (Figura 3a).
RMSD incluso cuando la topología global es correcta. Para ilustración, en la
Figura 2, se muestran dos ejemplos de la modelización I-TASSER. Para
1ca4A que tiene un alto C-score = 1,1, la región del núcleo del modelo es
muy cerca de la nativa con una RMSD = 2,2 Å. Sin embargo, el N-terminal En la Figura 4, representamos gráficamente los valores de RMSD frente a C-score-ln ( L),

del modelo es mis-orientados que resulta en un RMSD global = 12,1 Å, una que tiene una correlación obviamente más fuerte (coeficiente de correlación
región normalmente implicando pliegues equivocadas. Tal como se define = 0,81) que en la Figura 1b.
en la Ecuación 2, los pesos TM-score los pares de residuos de pequeñas
distancias más fuertes que los de las grandes distancias, Como control, también calcular la correlación de TM-score (o RMSD) con la
identidad de secuencia entre el objetivo y la mejor plantilla, que es 0,33 (o
-0.23). La baja correlación no es sorprendente, ya que todas las plantillas
homólogos con una alta identidad de secuencia> 30% han sido excluidos y
0,81 en el ejemplo. Para 1cmaA, la topología global de los arreglos de los programas de perfil perfil menudo identificar las plantillas de topología
estructura secundaria en el modelado I-TASSER es incorrecto con un correcta incluso cuando la identidad de secuencia con el objetivo es baja.
TM-score de 0,22 (cerca de azar). El C-score en este caso es -3.5. Sin
embargo, la RMSD (= 12,5 Å) es similar a la de 1ca4A. Por lo tanto, los
valores de RMSD en la región de alta RMSD no son sensibles a la
topología global de las estructuras. estimación cuantitativa de la calidad de los modelos I-TASSER
Sobre la base de los modelos I-TASSER de las proteínas de formación 300, nos
ajustamos a un polinomio de dos para el TM-score / C-

Página 4 de 8
(No el número de página para efectos de referencia)
BMC Bioinformatics 2008, 9: 40 http://www.biomedcentral.com/1471-2105/9/40

Dos ejemplos
Figura 2 de los modelos I-TASSER de 1ca4A y 1cmaA
Dos ejemplos de los modelos I-TASSER de 1ca4A y 1cmaA. Ambos modelos tienen RMSD valores similares, pero indican signifi- cativamente diferentes calidades de
modelado. En la superposición, las columnas vertebrales delgadas son la estructura nativa y backbones gruesas los modelos I- TASSER. Azul a pistas rojas de N- a C-terminal.

figura 3 (a) y RMSD (b) de los modelos I-TASSER frente a la longitud de proteínas diana
TM-score
TM-score (a) y RMSD (b) de los modelos I-TASSER frente a la longitud de proteínas diana. Los números indican los coeficientes de correlación de Pearson.

Página 5 de 8
(No el número de página para efectos de referencia)
BMC Bioinformatics 2008, 9: 40 http://www.biomedcentral.com/1471-2105/9/40

puntuación puede ser relativamente más fácil predecir en ambas regiones altas y bajas
CPuntuacion en comparación con la de la región medio CPuntuacion. Los datos encaja
bien con la función de Gauss en las proteínas como de formación

• •
( C-score + 1 .7 2)10
RMSTD = 0 .14
Exp • - •. (4)
• 7 . •
• •

Una superposición de la ecuación 4 con los datos RMSTD se muestra en la Figura 1a


(curva sólida).

Dado que la RMSD de los modelos I-TASSER correlaciona mejor con


C-score-ln ( L) que con C-score, nos ajustamos el polinomio 2-orden con los
datos de RMSD / C-score-ln ( L) en las proteínas de formación 300. Obtenemos

RMSD = 0,09 (C-score - ln L) 2 - 1,14 (puntuación C - ln L) - 3,17, (5)

Figurafrente
RMSD
(círculos 4 a C-score-ln ( L) de los modelos I-TASSER para 500 proteínas de prueba
abiertos)
RMSD frente a C-score-ln ( L) de los modelos I-TASSER para 500 proteínas de prueba con una desviación típica RMSD cuadrado (RMSRD) de
(círculos abiertos). La curva de trazos es de ecuaciones ción 5, que es en forma de las
3.1 Å. En la Figura 4, se muestra la curva de la ecuación 5 (curva de trazos)
proteínas de formación 300 y se utiliza para la estimación de RMSD de los modelos
que encaja bien con las proteínas de ensayo con un Å RMSRD = 3,7. El error
I-TASSER. Los círculos sólidos son la media de la raíz cuadrada RMSD desviación
medio de la RMSD estimado utilizando la ecuación 5 es 2,0 Å en el conjunto de
(RMSRD) de los valores estimados de RMSD. La curva de trazo continuo es partir de la
prueba.
ecuación 6, que es en forma de las proteínas de formación 300.

En la parte baja de la figura 4, se muestra el valor RMSRD calculado en


cada bin de [C-score-ln L- 0,5, C-scoreln L + 0.5] y la curva de Gauss
equipado de las proteínas de formación, es decir,
anotar los datos por el método de ajuste de mínimos cuadrados [34]. Obtenemos

• •
Tm-score = 0,0006 * C-score 2 + 0,13 * C-score + 0,71, (3) ( C-score - En L + 7 .4 2)13
RMSRD = 4 .5Exp • - •. (6)
• 7 . •
• •

con una raíz cuadrada media desviación TM-score (RMSTD) de


Conclusión
0,08 para el conjunto de proteínas de entrenamiento. En la Figura 1a, se muestra la Desarrollamos el servidor I-TASSER para la longitud completa de
curva de la ecuación 3 (curva de trazos), que se ajusta muy bien con las proteínas de
predicción de estructura de proteínas automatizado. Una serie de páginas
ensayo con un RMSTD de 0,09. Si tenemos en cuenta la ecuación 3 como el TM-score
web accesorias están diseñados para facilitar a los usuarios en la
estimado, el error medio de la estimación es de 0,08 en la prueba. Aquí observamos
presentación, visualización y seguimiento de las predicciones. Sobre la
que el RMSTD se define como la raíz cuadrada (TM-score - TM-score ) 2
base de la significación estadística de las alineaciones de roscado PPA y la
convergencia estructura de las simulaciones de Monte Carlo, una nueva
y el error promedio de estimación es | TMscore - TMscore | , dónde TM-score Es puntuación de confianza (C-score) se introduce y como punto de referencia
la TM-puntuación media en el conjunto de entrenamiento y el estimado para el servidor de I-TASSER, lo que demuestra una fuerte correlación con
TM-score en el equipo de prueba. Si utilizamos RMSTD como la desviación la calidad real de los modelos finales. Los coeficientes de correlación de
estándar de la estimación TM-score, hay una probabilidad de 68,3% de que el Pearson de la CPuntuacion con TM-score y RMSD son 0,91 y 0,75
verdadero TM-score caerá en el rango de TM-score ± RMSTD [34]. respectivamente. La fuerte correlación de datos nos permite hacer
estimaciones cuantitativas de la precisión de las predicciones I-TASSER. El
uso de un 2-orden ecuación polinómica ajuste a partir de 300 proteínas de
En la parte inferior de la figura 1a, se muestra los datos de RMSTD frente a formación,
C-score. En cada punto, la RMSTD de la TM-score estimado por la
Ecuación 3 se calcula para las proteínas en un bin de [C-score-0,5, C-score
+ 0,5]. En promedio, cada bin contiene 70 proteínas. La dependencia de
RMSTD con C-score es-husillo similares, que indica que el TM-

Página 6 de 8
(No el número de página para efectos de referencia)
BMC Bioinformatics 2008, 9: 40 http://www.biomedcentral.com/1471-2105/9/40

Para cada secuencia presentada, elementos siguientes serán devueltos a los abreviaturas
usuarios por correo electrónico después de que el modelado de la I-TASSER: I-TASSER: enhebrado iterativo algoritmo de montaje de refinamiento.
(1) hasta cinco modelos predichos clasificados en base a la densidad de la
estructura de la agrupación SPICKER; (2) C-score de todos los modelos
I-TASSER; (3) estimado TM-score y RMSD para el primer modelo en la forma PPA: perfil perfil algoritmo de alineación de roscado.
de Estimacion ± Desviación donde los valores de Estimacion y Desviación se
calculan por las Ecuaciones 3-6. Por definición, en 68,3% de los casos, la RMSD: desviación típica cuadrado.
RMSD valores reales TM-score y caerán en este rango de [34]. A pesar de la
correlación significativa entre la puntuación C y la TM-score, que han sido RMSRD: desviación típica RMSD cuadrado de RMSD promedio o
introducidos para los diferentes fines. Si bien los jueces C-score la confianza estimada.
que el servidor se siente acerca de las predicciones basadas en la
información de las simulaciones de modelos, TM-score es una medida de la RMSTD: de media cuadrática desviación TM-score de la media o estimada
calidad absoluta del modelo final en comparación con la estructura nativa, TM-score.
que se estima a través del cálculo de la C-score.
Contribuciones de los autores
YZ desarrolló el servidor de I-TASSER, realiza el cálculo de referencia y
escribió el manuscrito. Ha leído y aprobado el manuscrito final.

Cabe mencionar que las cualidades estimadas se proporcionan sólo para el


primer modelo, aunque con el propósito de proporcionar más información al Agradecimientos
C-score de los 5 modelos se envían a los usuarios. La correlación de la El autor quiere agradecer al Dr. Wu sitao en busca de ayuda en la construcción de las páginas web. El proyecto es

apoyado en parte por KU Puesta en marcha 06194 Fondo.


puntuación C y la calidad de modelado para los modelos de menor rango es
mucho más débil que para el primer modelo. Esto es comprensible debido a
que el espacio conformacional cubierto por las simulaciones ITASSER está
referencias
1. Murzin AG, Bateman A: enfoque de reconocimiento homología distante CASP2 basada
limitada. Para un blanco fácil casi todos los señuelos son casi nativo y las en el conocimiento y doblar predicción en CASP4.
estructuras se agrupan principalmente en el primer grupo. Después de quitar proteínas 2001, Suppl 5: 76-85.
2. Ginalski K, Rychlewski L: La proteína de predicción de estructura de modelado
las estructuras en el primer grupo, el tamaño de los grupos de menor rango
comparativo CASP5 y doblar los objetivos de reconocimiento utilizando alineación
será mucho más pequeña que puede ser comparable a la de objetivos duros. enfoque consenso y evaluación 3D. proteínas
Pero la calidad de los grupos de menor rango de los blancos fáciles sigue 2003, 53 Suppl 6: 410-417.
3. Baker, D, Sali A: la predicción de estructura de proteínas y la genómica estructural. Ciencias 2001,
siendo en promedio mejor que la de los blancos duros, porque la mayoría de 294 (5540): 93-96.

los señuelos que se generan en los objetivos duros son incorrectos. Sin 4. Skolnick J, Fetrow JS, Kolinski A: la genómica estructural y su importancia para el

embargo, existe una correlación entre el rango y la calidad de los racimos para análisis de la función génica. Nat Biotechnol 2000,
18 (3): 283-287.
el mismo objetivo. En este conjunto de proteínas de prueba, el promedio 5. Zemla A, Venclovas C, Moult J, Fidelis K: Procesamiento y análisis de estructura de
TMscore (RMSD) de los cinco primeros modelos son 0,501 (9,6 Å), proteínas predicciones CASP3. proteínas 1999, Suppl 3: 22-29.

6. Zhang Y, Skolnick J: función para Assessment automatizada de la estructura de proteínas


de calidad plantilla de puntuación. proteínas 2004,
57: 702-710.
7. Battey JN, Kopp J, L Bordoli, Lee RJ, Clarke ND, Schwede T: Automático acoplado
0.468 (10,6 Å), 0.466 (10,7 Å), 0.461 (11,1 Å), y 0.454 (11,3 Å), respectivamente. predicciones del servidor en CASP7. proteínas 2007,
Por lo tanto, los datos, la puntuación C y predijo deben considerarse como una 69 (S8): 68-82.
8. Tosatto SC: El / la función FRST vencedor de la calidad del modelo mación estimación. J Comput
estimación del límite superior de la calidad de todos los modelos I-TASSER. Biol 2005, 12 (10): 1316-1327.

9. Pettitt CS, McGuffin LJ, Jones DT: La mejora de reconocimiento veces basada en la secuencia
mediante el uso de evaluación de la calidad modelo 3D. bioinformática 2005, 21 (17): 3509-3515.

Disponibilidad y requisitos 10. Wallner B, Elofsson A: Predicción del modelo global y local
Nombre del proyecto: I-TASSER servidor la calidad en el uso de CASP7 Pcons y ProQ. proteínas 2007,
69 (S8): 184-193.
11. Fischer D: Servidores para la predicción de estructura de proteínas. Current Opinion in Structural
Proyecto página principal: h ttp: //zhang.bioinformatics.ku.edu/I- Biology 2006, 16 (2): 178-182.

T ASSER 12. Cozzetto D, Kryshtafovych A, Ceriani M, Tramontano A: Evaluar-


ción de predicciones en el modelo de evaluación de la calidad catego- ría. proteínas 2007,
69 (S8): 175-183.
sistema (s) operativo: Windows, Linux, Mac 13. Wu ST, Zhang Y: LOMETS: Un local de meta-threading-servidor para
proteína de predicción de estructura. Nucl Acids Res 2007, 35: Desde 3375 hasta 3382.
14. Zhang Y, Skolnick J: Automatizado de predicción de estructura de débilmente
Lenguaje de programación: Perl, Fortran77
proteínas homólogas en una escala genómica. Actas de la Academia Nacional de
Ciencias de los Estados Unidos de América 2004,
Licencia: GPL 101: 7.594 hasta 7.599.

15. Wu ST, Skolnick J, Zhang Y: Ab initio de modelado de proteínas pequeñas


mediante simulaciones TASSER iterativos. BMC Biology 2007, 5: 17.
Todas las restricciones al uso de no-académicos: la licencia necesaria 16. Zhang Y: El modelado basado en la plantilla y el modelado libre por I-
TASSER en CASP7. proteínas 2007, 69 (S8): 108-117.

Página 7 de 8
(No el número de página para efectos de referencia)
BMC Bioinformatics 2008, 9: 40 http://www.biomedcentral.com/1471-2105/9/40

17. Karplus K, Barrett C, Hughey R: modelos ocultos de Markov para


detectar homologías de proteínas remotas. bioinformática 1998,
14: 846-856.
18. Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, W Miller, DJ hombre de labios: BLAST con huecos y
PSI-BLAST: una nueva generación de programas de búsqueda de bases de datos de proteínas. investigación
de los ácidos nucleicos 1997,
25 (17): 3389-3402.
19. Needleman SB, CD Wunsch: Un método general aplicable a
la búsqueda de similitudes en la secuencia de aminoácidos de dos proteínas. Diario de
la biología molecular 1970, 48 (3): 443-453.
20. Smith TF, Waterman MS: Identificación de subsecuencias moleculares comunes. Diario
de la biología molecular 1981, 147 (1): 195-197.
21. Zhang Y, Kolinski A, Skolnick J: TOUCHSTONE II: Un nuevo
enfoque para ab initio de predicción de estructura de proteínas. Diario biofísico 2003, 85: 1145-1164.

22. Zhang Y, Kihara D, Skolnick J: Local aplanamiento panorama energético:


Parallel muestreo hiperbólica Monte Carlo de plegamiento de proteínas.
proteínas 2002, 48: 192-201.
23. Zhang Y, Skolnick J: SPICKER: Un enfoque de agrupación para identificar
la proteína se pliega casi nativo. Diario de la química computacional 2004,
25 (6): 865-871.
24. SPICKER paquete [ h ttp: //zhang.bioinformatics.ku.edu/SPICKER ]
25. Zhang Y, Skolnick J: TM-align: una alineación de la estructura de proteínas
algoritmo basado en el TM-score. investigación de los ácidos nucleicos 2005,
33 (7): 2302-2309.
26. Feig M, Rotkiewicz P, Kolinski A, Skolnick J, Brooks CL tercera: Accu
reconstrucción tasa de todas-átomo de representaciones de proteínas a partir de modelos de baja
resolución basadas en la cadena lateral. proteínas 2000,
41 (1): 86-97.
27. Canutescu AA, AA Shelenkov, Dunbrack RL Jr .: A-teoría de grafos
algoritmo para la rápida proteína predicción de la cadena lateral. Protein Sci
2003, 12 (9): 2001-2014.
28. I-cola TASSER [h ttp: //zhang.bioinformatics.ku.edu/I-TASSER/
o utput.html ]
29. Acerca de I-TASSER [ h ttp: //zhang.bioinformatics.ku.edu/I-TASSER/
una bout.html ]
30. Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE:
El Protein Data Bank. investigación de los ácidos nucleicos 2000, 28 (1): 235-242.

31. Lista proteína de referencia [h ttp: //zhang.bioinformatics.ku.edu/I-


T ASSER / señuelos / proteínas ]
32. Kabsch W: Una solución para la mejor rotación de relacionar dos conjuntos
de vectores. Acta Cryst 1976, A 32: 922-923.
33. Betancourt MR, Skolnick J: medida de similitud universal para
la comparación de estructuras de proteínas. biopolímeros 2001, 59 (5): 305-309.
34. Reichl LE: Un Curso Moderno de Física Estadística. 2ª edición.
Nueva York, Wiley-Interscience; 1998.

publicar con Bio Medicina Central y cada científico puede


leer su trabajo de forma gratuita
"BioMed Central será el acontecimiento más significativo para la difusión de los
resultados de la investigación biomédica en nuestra vida."
Sir Paul Nurse, Cancer Research UK

Sus trabajos de investigación serán: disponible de forma gratuita a toda la comunidad

biomédica pares revisado y publicado inmediatamente después de la aceptación

citado en PubMed y archivados en PubMed Central de la suya - se mantiene el

derecho de autor

Enviar su manuscrito aquí: Bio Medicina central


http://www.biomedcentral.com/info/publishing_adv.asp

Página 8 de 8
(No el número de página para efectos de referencia)

S-ar putea să vă placă și