Sunteți pe pagina 1din 6

BMC Bioinformática Bio

med
Central

Servidor I-TASSER para la predicción de la estructura 3D de


proteínas
Yang Zhang

Dirección: Centro de Bioinformática y Departamento de Biociencia Molecular, Universidad de Kansas, 2030 Becker Dr, Lawrence, KS 66047, Usa
Email: Yang Zhang - yzhang@ku.edu

Abstracto
Antecedentes: La predicción de estructuras proteicas tridimensionales a partir de la secuencia de
aminoácidos representa uno de los problemas más importantes en la biología estructural
computacional. Los experimentos de evaluación crítica de predicción de estructuras (CASP) a nivel
comunitario se han diseñado para obtener una evaluación objetiva del estado de la técnica del
campo, donde I-TASSER se clasificó como el mejor método en la sección de servidores de la
reciente 7o experimento CASP. Nuestro laboratorio ha recibido desde entonces numerosas
solicitudes sobre la disponibilidad pública del algoritmo I-TASSER y el uso de las predicciones I-
TASSER.
Resultados: Una versión en línea de I-TASSER se desarrolla en el Ku Center for Bioinformatics
que ha generado predicciones de estructura proteica para miles de solicitudes de modelado de más de
35 países. Se introduce una función de puntuación (puntuación C) basada en la densidad estructural
de agrupación en clústeres relativa y la puntuación de significancia de consenso de varias plantillas
de subprocesos para estimar la precisión de las predicciones I-TASSER. Una prueba de referencia a
gran escala demuestra una fuerte correlación entre la puntuación C y la puntuación TM (una
medición de similitud estructural con valores en [0. 1]) de los primeros modelos con un coeficiente
de correlación de 0,91. Uso de un límite de puntuación C > -1,5 para los modelos de topología
correcta. las tasas de falsos positivos y falsos negativos están por debajo de 0,1. Combinando la
puntuación C y la longitud de la proteína. la precisión de los modelos I-TASSER se puede predecir
con un error promedio de 0.08 para la puntuación TM y 2 A para RMSD.
Conclusión: El servidor I-TASSER se ha desarrollado para generar predicciones estructurales de
proteínas 3D de longitud completa automatizadas en las que el sistema de puntuación comparado
ayuda a los usuarios a obtener evaluaciones cuantitativas de los modelos I-TASSER. La salida del
servidor I-TASSER para cada consulta incluye hasta cinco modelos de longitud completa. la
puntuación de confianza. la puntuación TM estimada y RMSD. y la desviación estándar de las
estimaciones. El servidor I-TASSER está disponible gratuitamente para la comunidad académica en
http://zhang.bioinformatics.ku.edu/I-TASSER.

Antecedentes ventaja en la aplicación potencial en predicciones de


La predicción de la estructura de proteínas se refiere al estructura a escala proteoma [3,4]. Especialmente, permite a
esfuerzo de generar modelos tridimensionales a partir de los no expertos generar modelos estructurales para sus
secuencias de aminoácidos utilizando algoritmos propias secuencias a través de servicios de Internet. En el
informáticos. Sin embargo, los procesos de modelado de reciente experimento a ciegas de toda la comunidad, CASP7,
estructuras a menudo implican intervenciones humanas I-TASSER (como 'Zhang-Server') generó las mejores
porque el conocimiento humano-experto combinado con predicciones de estructura 3D entre todos los servidores
información bioquímica (función, mutagénesis, residuos automatizados. La puntuación media de GDT_TS [5] o TM
catalíticos, etc.) podría ayudar tanto en el montaje estructural [6] de los 124 objetivos/dominios es al menos un 5%
como en la selección del modelo [1,2]. Sin embargo, el superior al segundo mejor servidor y comparable con las
desarrollo de algoritmos totalmente automatizados tiene la mejores predicciones de expertos humanos [7].

Página 1 de 8
(número de página no para citar propósitos)
BMC Bioinformática 2008, 9:40 http://www.biomedcentral.eom/1471 -2105/9/40
Desde la primera versión pública en noviembre de 2006, el para agregar átomos de columna vertebral (N, C, O) y
servidor I- TASSER ha generado predicciones de estructura Scwrl_3.0 [27] para construir rotamers de cadena lateral.
para miles de solicitudes de modelado de varios laboratorios
en el mundo. Los usuarios nos han preguntado con
Si cualquier región con >80 residuos no tienen residuos
frecuencia sobre cómo se debe anotar la calidad de los alineados en al menos dos alineaciones PPA fuertes de la
modelos I-TASSER, ya que esto esencialmente decidirá puntuación Z > Z0 (véase más adelante), el objetivo se
cómo explotarán las predicciones en su investigación. La juzgará como una proteína de dominio múltiple y los límites
idea general de la estimación de la calidad del modelado 3D de dominio se asignan automáticamente en función de los
ha sido perseguida por varios autores [8-10], que se fusiona bordes de las grandes brechas. Las simulaciones I-TASSER
como un nuevo tema de investigación de "programas de se ejecutarán para toda la cadena, así como para los
evaluación de la calidad de los modelos" (MQAP) [11] y se dominios separados. Los modelos finales de longitud
evalúa en el reciente experimento CASP7 en la categoría de completa se generan acoplando el modelo de dominios
QA [ 12]. juntos. El acoplamiento de dominio sacó a cabo una
simulación rápida de Metrópolis Monte Carlo donde la
En este trabajo, introducimos la configuración en línea del energía se define como el RMSD de los modelos de dominio
servidor I-TASSER y desarrollamos un sistema de al modelo de cadena completa más el recíproco del número
puntuación de confianza que puede proporcionar a los de enfrentamientos estericos entre dominios. El objetivo del
usuarios una evaluación simple y confiable de los modelos I- acoplamiento es encontrar la orientación del dominio más
TASSER. A diferencia de la mayoría de los programas cercana al modelo de cadena completa I-TASSER, pero tiene
MQAP que evalúan modelos basados exclusivamente en la los conflictos esteréticos mínimos. Este procedimiento no
estructura de los modelos finales, la función de puntuación influye en las múltiples proteínas de dominio que tienen
de confianza desarrollada aquí incorpora la información y todos los dominios completamente alineados por los PPA.
los parámetros de las simulaciones de modelado.
Puntuación C
Implementación del método I-TASSER La puntuación C de los modelos I-TASSER se define como
Es un enfoque de modelado de estructura de proteína
jerárquica basado en la alineación mejorada de roscado de
perfil-perfil (PPA) [13] y la implementación iterativa del
programa Threading ASSEmbly Refinement (TASSER)
[14]. El detalle del método I- TASSER se ha descrito en
[15,16]. Aquí damos una breve visión general del método.
Las secuencias de destino se enhebran primero a través de
una biblioteca de estructuras PDB representativa (con un
corte de identidad de secuencia en pares del 70%) para
buscar los posibles pliegues mediante cuatro variantes donde M es la multiplicidad de estructuras en el clúster
simples de métodos PPA, con diferentes combinaciones de SPICKER; Mtot es el número total de señuelos de estructura
los perfiles ocultos del modelo Markov [17] y PSI- BLAST I-TASSER utilizados en la agrupación en clústeres; (RMSD)
[18] y los algoritmos de alineación Needleman-Wunsch [19] es el RMSD promedio de los señuelos al centroide del
y Smith-Waterman [20]. A continuación, los fragmentos racimo; Z(i) es la puntuación Z más alta (la energía a
continuos se extirpan de las regiones alineadas de roscado significar en la unidad de desviación estándar) de las
que se utilizan para volver a ensamblar modelos de longitud plantillas por el programa de roscado ith PPA y Z0(i) es un
completa, mientras que las regiones no alineadas de roscado límite de puntuación Z especificado por el programa para
(principalmente bucles) se construyen mediante el modelado distinguir entre plantillas buenas y malas, es decir, Z0(1) =
ab initio [21]. El espacio de conformación es buscado por 7.0 , Z0(2) = 8,5, Z0(3) = 8,0, Z0(4) = 10,5.
simulaciones Monte Carlo de intercambio de réplicas [22]. Los dos primeros factores de la Ecuación 1 tienen en cuenta
Las trayectorias de la estructura están agrupadas por el grado de convergencia de la estructura en la agrupación en
SPICKER [23,24] y los centroides del racimo se obtienen clústeres SPICKER, que se correlaciona con la coherencia de
promediando las coordenadas de todas las estructuras las restricciones externas y el potencial i-TASSER inherente.
agrupadas. Para descartar los conflictos estericos en las El tercer factor explica la calidad de las alineaciones de
estructuras centroides y para refinar aún más los modelos, roscado. El logaritmo en la ecuación 1 es para ajustar los
implementamos de nuevo la simulación de ensamblaje de valores de puntuación C en una distribución
fragmentos, que comienza a partir del centroide de racimo de aproximadamente uniforme. Una C- se ha demostrado que
la simulación de la primera ronda. Las restricciones tiene una fuerte correlación con la calidad de los modelos
espaciales se extraen de los centroides y las estructuras PDB pronosticados [14]. Aquí, la definición de puntuación C es
buscadas por el programa de alineación de estructura TM- ligeramente diferente. En primer lugar, se utiliza una
align [25], que se utilizan para guiar la simulación de la
puntuación Z normalizada por Z0 en lugar de la propia
segunda ronda. Finalmente, los señuelos de estructura se
puntuación Z, lo que facilita extender la definición a los
agrupan y se selecciona la estructura de energía más baja en
casos en que las plantillas son generadas por diferentes
cada grupo, que tiene los átomos de Ca y los centros de
algoritmos de subprocesos. En segundo lugar, representa el
cadena lateral de masa especificados. Pulchra [26] se utiliza

Página 2 de 8
(número de página no para citar)
BMC Bioinformática 2008, 9:40 http://www.biomedcentral.eom/1471 -2105/9/40
consenso de la confianza de alineación de múltiples visual GIF para cada uno de los modelos I-TASSER para
programas de roscado en lugar de un programa de roscado. que los usuarios puedan obtener una vista rápida en línea de
cómo se ve la topología de sus modelos. Los archivos PDB y
También probamos otras alternativas para la definición de los archivos visuales se mantienen en nuestro servidor
puntuación C. Por ejemplo, si añadimos (puntuación TM), la durante 365 días y se pueden descargar públicamente en
puntuación media TM de los señuelos al centroide del [28], para que otros usuarios puedan recuperar rápidamente
racimo, en el numerador del segundo factor de la Ecuación los resultados de modelado sin volver a enviar los trabajos
1, la correlación entre la puntuación C y la puntuación TM cuando quieran modelar las mismas proteínas o similares. La
aumentará en un 2%. Pero no aumenta la correlación de la cola de los trabajos también se muestra en la página para que
puntuación C con RMSD y el cálculo de (puntuación TM) los usuarios puedan realizar un seguimiento de sus trabajos
aumentará el tiempo de ejecución de SPICKER en un 20 %. enviados. Por último, una página web "Acerca del servidor I-
Así que no incluimos (TM-score) en la definición de TASSER" [29] está diseñada para proporcionar una
puntuación C. También intentamos optimizar las potencias introducción detallada del servidor que se mantiene
de los tres factores de la Ecuación 1 maximizando la actualizado cuando se desarrollan nuevas características.
correlación entre la puntuación C y la calidad de los modelos
finales en las proteínas de entrenamiento. Curiosamente, los Resultados y discusiones
poderes optimizados de los tres factores están cerca de 1, lo Para el punto de referencia del servidor I-TASSER,
que indica que la puntuación C en la ecuación 1 está cerca de recopilamos 800 proteínas no homólogas de un solo dominio
una definición óptima si se tienen en cuenta estos 3 factores. directamente de la biblioteca PDB [30], que tienen una
identidad de secuencia en pares <30% con el tamaño que
Puntuación TM oscila entre 50 y 300 residuos. Se ha hecho que las proteínas
LA puntuación TM se define como assesla similitud seleccionadas de una distribución equilibrada en las clases
topológica de dos estructuras proteicas [6]: de estructura secundaria y la dificultad de modelado tengan
las proteínas seleccionadas de una distribución equilibrada
en las clases de estructura secundaria y la dificultad de
modelado. Como resultado, el conjunto de referencia incluye
220/212/368 a/P/aP-proteínas. Sobre la base de las
puntuaciones Z de las alineaciones PPA, los objetivos
236/248/316 se asignan como objetivos fáciles/medios/duros
donde di es la distancia del par ith de residuos entre dos respectivamente. Seleccionamos aleatoriamente 300
estructuras después de una superposición óptima, d0 a proteínas como el conjunto de entrenamiento para ajustarse a
I.243L -15 -1.8 , y L es la longitud de la proteína. LA los parámetros de la calidad estimada del modelo (ver más
puntuación TM- se mantiene en [0, 1] con valores más altos abajo); las 500 proteínas restantes se utilizarán como
que indican mejores modelos. Estadísticamente, una conjunto de prueba (véase [31]). Cuando se utiliza I-
puntuación TM <0.17 corresponde a una similitud entre dos TASSER para generar modelos para las 800 proteínas, las
estructuras seleccionadas aleatoriamente de la biblioteca plantillas homólogas con identidad de secuencia >30% al
PDB; una puntuación TM > 0.5 corresponde destino se excluyen de la biblioteca de plantillas de
aproximadamente a dos estructuras de la topología similar. subprocesos.
Una ventaja de la puntuación TM es que el significado de los Cabe mencionar que aquí comparamos el algoritmo I-
cortes de la puntuación TM es independiente del tamaño de TASSER sólo en las proteínas de un solo dominio. Para las
las proteínas [6]. proteínas de varios dominios, una pequeña desorientación de
los dominios puede dar lugar a un cambio drástico en los
Configuración del servidor valores de la puntuación TM y RMSD, incluso si la
La dirección URL del servidor I-TASSER en línea aparece topología de los dominios individuales no cambia, lo que
puede dar lugar a correlaciones divergentes de la puntuación
al final del documento. Para utilizar el servidor, lo que los
C y la general calidades de modelo. Por consiguiente, la
usuarios necesitan proporcionar es la secuencia de
puntuación de confianza y la estimación de la calidad de los
aminoácidos de las proteínas que se modelarán en el formato
modelos de varios dominios deben entenderse
FASTA. Actualmente, el rango de tamaño aceptable de los
aproximadamente como las de las unidades de dominio
objetivos es de entre 10-1.500 residuos. Dependiendo del
individuales.
tamaño de la proteína, el procedimiento de modelado I-
TASSER tarda un máximo de 48 horas (normalmente 5-10
Correlación de la puntuación C y las cualidades del modelo
horas para una secuencia alrededor de 200 residuos). Una
En
vez finalizado el modelado, se enviará un correo electrónico En la Figura 1a, mostramos la puntuación TM de los
a los usuarios, que incluyen los archivos de formato PDB de primeros modelos I-TASSER de las 500 proteínas de prueba,
hasta 5 modelos predichos, la puntuación C de los modelos y que muestra una fuerte correlación con las puntuaciones C
la puntuación RMSD y TM del primer modelo pronosticada. con una correlación de Pearson coeficiente de 0,91. Si
Una breve explicación de la RMSD, la puntuación TM y la definimos un modelo de puntuación TM > 0,5 como un
puntuación C también se proporciona en el correo pliegue correcto y evaluamos los modelos utilizando un
electrónico. límite de Puntuación C > -1,5, la tasa de falsos positivos y
Una vez que se realiza una predicción, se realiza un archivo falsos negativos es 0,05 y 0,09 respectivamente.

Página 3 de 8
(número de página no para citar)
BMC Bioinformática 2008, 9:40 http://www.biomedcentral.eom/1471 -2105/9/40
La correlación de RMSD con la puntuación C no es tan
fuerte como la de la puntuación TM (Figura 1b). Muchos
modelos de puntuación C alta tienen un gran RMSD. Esto se
debe principalmente a la definición de RMSD que promedia
las distancias de todos los pares de residuos con un peso
igual [32]. Por lo tanto, un gran error de modelado local dará
como resultado un valor RMSD alto incluso cuando la
topología global es correcta. A modo de ilustración, en la
Figura 2, mostramos dos ejemplos del modelado I-TASSER.
Para 1ca4A que tiene una puntuación C alta 1.1, la región
central del modelo está muy cerca del nativo con un RMSD
a 2.2 A. Pero el N-terminus del modelo está mal orientado,
lo que resulta en un RMSD global a 12,1 A, una región que
suele implicar pliegues incorrectos. Como se define en la
Ecuación 2, la puntuación TM pondera los pares de residuos
de distancias pequeñas más fuertes que los de grandes
distancias, lo que no es sensible a los errores de la estructura
local y tiene un valor de 0,81 en el ejemplo. Para 1cmaA, la
topología global de las disposiciones de estructura
secundaria en el modelado I-TASSER es incorrecta con una
puntuación TM de 0,22 (cerca de aleatoria). La puntuación C
en este caso es -3.5. Sin embargo, el RMSD (a 12,5 A) es
similar al de 1ca4A. Por lo tanto, los valores RMSD en la
región RMSD alta no son sensibles a la topología global de
estructuras.

La segunda razón para la correlación de baja RMSD/C- Como control, también calculamos la correlación de la
puntuación se debe a la dependencia de tamaño inherente de puntuación TM (o RMSD) con la identidad de secuencia
RMSD. En la Figura 3, mostramos los valores de puntuación entre el destino y la mejor plantilla, que es 0,33 (o -0,23). La
TM y RMSD de los modelos I-TASSER frente a la longitud correlación baja no es sorprendente porque todas las
de proteína para las 500 proteínas de prueba. Obviamente, plantillas homólogas con una identidad de secuencia alta
las proteínas pequeñas tienden a tener un RMSD más bajo, >30% se han excluido y los programas de perfil de perfil a
una tendencia también vista en los pares de estructura PDB menudo identifican plantillas de topología correcta incluso
seleccionados aleatoriamente [6,33], lo que resulta en una cuando la identidad de secuencia al destino es baja.
correlación RMSD/longitud no trivial (Figura 3b). Puesto
que la distancia en la puntuación TM se normaliza por una
escala dependiente de la longitud (véase la ecuación 2), no
hay dependencia de longitud en los valores de la puntuación
Estimación cuantitativa de la calidad de los modelos I-
TM, que tienen un corte casi uniforme cerca de 0.17 (Figura
TASSER
3a).

En la Figura 4, trazamos los valores RMSD frente a C-score Basándonos en los modelos I-TASSER de las 300 camisetas
ln(L), que tiene una correlación obviamente más fuerte profesionales deentrenamiento, encajamos un polinomio de
(coeficiente de correlación de 0,81) que la de la Figura 1b. dos ódos en la tm-puntuación/

Página 4 de 8
(número de página no para citar)
BMC Bioinformática 2008, 9:40 http://www.biomedcentral.eom/1471 -2105/9/40

datos de puntuación por el método de ajuste mínimo con una desviación RMSD cuadrada media raíz (RMSRD)
cuadrado [34]. Obtenemos de 3.1 A. En la Figura 4, mostramos la curva de la Ecuación
5 (curva discontinua) que encaja bien con las proteínas de
Puntuación Tm: 0,0006*C-puntuación2 + 0,13*C- prueba con un RMSRD a 3,7 A. El error medio del RMSD
puntuación + 0,71, (3) estimado utilizando la Ecuación 5 es 2.0 A en el conjunto de
pruebas.
con una desviación de puntuación TM (RMSTD) de 0,08
para el conjunto de proteínas de entrenamiento. En la Figura En la parte baja de la Figura 4, mostramos el valor RMSRD
1a, mostramos la curva de la Ecuación 3 (curva discontinua) calculado en cada bin de [C-score-lnL-0.5, C-score-
que encaja muy bien con las proteínas de prueba con un lnL+0.5] y la curva gaussiana ajustada a partir de las
RMSTD de 0.09. Si consideramos la Ecuación 3 como la proteínas de entrenamiento, es decir.
puntuación TM estimada, el error promedio de la estimación
es 0.08 en el conjunto de pruebas. Aquí observamos que el
RMSTD se define como sqrt((TM-score - (TM-score))2- y el
error promedio de estimación es ( TM-score - (TM- score),
donde (TM-score) es la puntuación media TM en el conjunto
de entrenamiento y la puntuación TM estimada en el
conjunto de pruebas. Si usamos RMSTD como la desviación
estándar de la estimación de la puntuación TM, existe una Conclusión
probabilidad del 68,3% de que la puntuación TM real caiga Desarrollamos el servidor I-TASSER para la predicción
en el rango de la puntuación TM - RMSTD [34]. automatizada de la estructura proteica de longitud completa.
Una serie de WebPages accesorios están diseñados para
En la parte inferior de la Figura 1 a, mostramos los facilitar a los usuarios en el envío, visualización y
datos de RMSTD frente a la puntuación C. En cada seguimiento de las predicciones. Sobre la base de la
punto, el RMSTD de la puntuación TM estimada por la importancia estadística de las alineaciones de roscado PPA y
Ecuación 3 se calcula para las proteínas en un bin de la convergencia de la estructura de las simulaciones de
Monte Carlo, se introduce una nueva puntuación de
[C-score-0.5, C-score+0.5]. En promedio, cada confianza (puntuación C) y se compara para el servidor I-
recipiente contiene 70 proteínas. La dependencia de TASSER, lo que demuestra una fuerte correlación con la
RMSTD con puntuación C es similar a un husillo, lo calidad real de los modelos finales. Los coeficientes de
que indica que la puntuación TM puede ser correlación de Pearson de la puntuación C con la puntuación
relativamente más fácil predecirse en regiones de TM y RMSD son 0,91 y 0,75 respectivamente. Los sólidos
puntuación C alta y baja en comparación con la de la datos de correlación nos permiten hacer estimaciones
región de puntuación C media. Los datos encajan bien cuantitativas de la precisión de las predicciones I-TASSER.
con la función gaussiana en las proteínas de Usando una ecuación polinómica de 2° orden, que se ajustan
entrenamiento como a partir de 300 proteínas de entrenamiento, podemos predecir
la puntuación TM y RMSD de los modelos finales con un
error promedio de 0.08 y 2.0 A respectivamente en una
prueba de referencia a gran escala.

Para cada secuencia enviada, los siguientes elementos se


devolverán a los usuarios por correo electrónico después del
modelado I-TASSER: (1) hasta cinco modelos previstos
clasificados en función de la densidad de estructura de la
En la Figura 1a (curva sólida) se muestra una superposición agrupación en clústeres SPICKER; (2) Puntuación C de
de la Ecuación 4 con los datos RMSTD. todos los modelos I-TASSER; (3) la puntuación TM
estimada y el RMSD para el primer modelo en forma de
Estimación - Desviación donde los valores de Estimación y
Dado que el RMSD de los modelos I-TASSER se
Desviación se calculan por las Ecuaciones 3-6. Por
correlaciona mejor con C-score-ln(L) que con la puntuación definición, en el 68,3% de los casos, los valores reales de la
C, ajustamos el polinomio de 2 ódos con los datos de puntuación TM y RMSD caerán en este rango [34]. A pesar
RMSD/C-score-ln(L) en las 300 proteínas de entrenamiento. de la correlación significativa entre la puntuación C y la
Obtenemos puntuación TM, se han introducido para los diferentes
propósitos. Mientras que la puntuación C juzga cuán seguro
RMSD - 0.09(Puntuación C - ln L)2 - 1.14(Puntuación C - ln se siente el servidor acerca de las predicciones basadas en la
L) - 3.17, (5) información de las simulaciones de modelado, TM-score es

Página 5 de 8
(número de página no para citar)
BMC Bioinformática 2008, 9:40 http://www.biomedcentral.eom/1471 -2105/9/40

una medida de la calidad absoluta del modelo final en RMSTD: desviación de la puntuación TM cuadrada media
comparación con la estructura nativa, que se estima mediante de raíz de la puntuación TM media o estimada.
el cálculo de la puntuación C.
Contribuciones de los autores
Cabe mencionar que las cualidades estimadas se YZ desarrolló el servidor I-TASSER, realizó la marca de
proporcionan sólo para el primer modelo, aunque con el fin bancocalculation y escribió el manuscrito. Ha leído y
de proporcionar más información la puntuación C de los 5 aprobado el manuscrito final.
modelos se envían a los usuarios. La correlación de
puntuación C y calidad de modelado para los modelos de Agradecimientos
rango inferior es mucho más débil que la del primer modelo. El autor quiere agradecer al Dr. Sitao Wu por su ayuda en la construcción de las-
Esto es comprensible porque el espacio de conformación páginas web. El proyecto cuenta en parte con el apoyo del FONDO de puesta en
cubierto por las simulaciones I-TASSER es limitado. Para marcha de KU 06194.
objetivos fáciles, casi todos los señuelos son casi nativos y
las estructuras se agrupan principalmente en el primer
clúster. Después de quitar las estructuras en el primer clúster,
el tamaño de los clústeres de rango inferior será mucho
menor, lo que puede ser comparable al de los destinos duros.
Pero la calidad de los clústeres de rango inferior de los
objetivos fáciles sigue siendo en promedio mejor que la de
los objetivos duros porque la mayoría de los señuelos
generados en los objetivos duros son incorrectos. Sin
embargo, hay una correlación entre el rango y la calidad de
los clústeres para el mismo objetivo. En este conjunto de
proteínas de ensayo, la puntuación media TM- (RMSD) de
los cinco modelos superiores es 0.501 (9.6 A), 0.468 (10.6
A), 0.466 (10.7 A), 0.461 (11.1 A) y 0.454 (11.3 A)
respectivamente. Por lo tanto, la puntuación C y los datos
previstos deben considerarse como una estimación de límite
superior para la calidad de todos los modelos I-TASSER.

Disponibilidad y requisitos
Nombre de Project: servidor I-TASSER

Página de inicio del proyecto:


http://zhang.bioinformatics.ku.edu/I- TASSF. R

Sistema operativo: Windows, Linux, Mac

Programming idioma: Perl, Licencia

Fortran77: GPL

Cualquier restricción de uso por parte de los no académicos:

licencia necesaria
Abreviaturas
I-TASSER: algoritmo de refinamiento del ensamblaje de
roscado interactivo.

PPA: algoritmo de roscado de alineación de perfil de perfil.

RMSD: desviación cuadrada media de raíz.

RMSRD: desviación rmSD cuadrada media raíz de la edad


avero RMSD estimado.

Página 6 de 8
(número de página no para citar)

S-ar putea să vă placă și