Documente Academic
Documente Profesional
Documente Cultură
Variables: Circunferencia de la cintura (CC) en cm, X de 109 hombres Tejido adiposo abdominal (TAA) Y
Indivi duo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
X 74. 75 72. 60 81. 80 83. 95 74. 65 71. 85 80. 90 83. 40 63. 50 73. 20 71. 90 75. 00 73. 10 79. 00 77. 00 60. 85 75. 95 74. 15
Y 25. 72 25. 89 42. 60 42. 80 29. 84 21. 68 29. 80 32. 98 11. 44 32. 22 28. 34 43. 86 38. 21 42. 48 30. 96 55. 78 43. 78 33. 41
Indivi duo 29 30 31 32 33 34 35 36 37 38 39 40 41 41 43 44 45 46
X 86.0 0 82.5 0 83.5 0 88.1 0 90.8 0 89.4 0 102. 00 94.5 0 91.0 0 103. 00 80.0 0 79.0 0 83.5 0 76.0 0 80.5 0 86.5 0 83.0 0 107. 10
Y 78.8 9 64.7 5 72.5 6 89.3 1 78.9 4 83.5 5 127. 00 121. 00 107. 00 129. 00 74.0 2 55.4 8 73.1 3 50.5 0 50.8 8 140. 00 96.5 4 118. 00
Indivi duo 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74
X 87.8 0 86.3 0 85.5 0 83.7 0 77.6 0 89.9 0 79.8 0 108. 30 119. 60 119. 90 96.5 0 105. 50 105. 00 107. 00 107. 00 101. 00 93.0 0 100. 00
Y 88.8 5 155. 00 70.7 7 75.0 8 57.0 5 99.7 3 27.9 6 123. 00 90.4 1 106. 00 144. 00 121. 00 97.1 3 166. 00 87.9 9 154. 00 100. 00 123. 00
X 108. 50 104. 00 111. 00 108. 50 121. 00 109. 00 97.5 0 105. 50 98.0 0 94.5 0 97.0 0 105. 00 106. 00 99.0 0 91.0 0 102. 50 106. 00 109. 10
Y 183. 00 184. 00 121. 00 159. 00 245. 00 137. 00 165. 00 152. 00 181. 00 80.9 5 137. 00 125. 00 241. 00 134. 00 150. 00 198. 00 151. 00 229. 00
19 20 21 22 23 24 25 26 27 28
73. 80 75. 90 76. 85 80. 90 79. 90 89. 20 82. 00 92. 00 86. 60 80. 50
43. 35 29. 31 36. 60 40. 25 35. 43 60. 90 45. 84 70. 40 83. 45 84. 30
47 48 49 50 51 52 53 54 55 56
94.3 0 94.5 0 79.7 0 79.3 0 89.8 0 83.8 0 85.2 0 75.5 0 78.4 0 78.6 0
107. 00 123. 00 65.9 2 81.2 9 111. 00 90.7 3 133. 00 41.9 0 41.7 1 58.1 6
75 76 77 78 79 80 81 82 83 84
108. 00 100. 00 103. 00 104. 00 106. 00 109. 00 103. 50 110. 00 110. 00 112. 00
217. 00 140. 00 109. 00 127. 00 112. 00 192. 00 132. 00 126. 00 153. 00 158. 00
Grafico de dispersin de puntos entre circunferencia de la cintura (X) por tejido adiposo abdominal (Y).
300.00
250.00
200.00
A T
150.00
100.00
50.00
CC
Se traza la lnea que cubra mejor los puntos de la grafica del diagrama de dispersin. El diagrama de dispersin parece ser favorable para la regresin lineal, con dos posibles causas de preocupacin.
300.00
250.00
200.00
A T
150.00
100.00
CC
La variabilidad de la circunferencia de la cintura (X) parece aumentar con el tejido adiposo abdominal (Y).
300.00
250.00
200.00
A T
150.00
100.00
CC
Se deben verificar los puntos que se alejan de la nube de puntos y que pudieran ejercer una influencia indebida en la disposicin de la regresin. Se deber investigar si el efecto de los puntos que se alejan y son motivo de preocupacin y persisten durante anlisis que comprueba el modelo de la regresin. En este caso se muestran alejados de la nube de puntos los individuos 9, 16, 65, 66, 89 y 103.
300.00
103
250.00
89
200.00
104
A T
150.00
100.00
16
50.00
9
44
99 95
88 84 72 92 101 83 76
CC
Al correr el anlisis de regresin lineal simple, con el paquete estadstico SPSS 12: Elegir CC, como la variable independiente (X). Elegir TAA, como la variable dependiente (Y). Solicitar grficos de las variables: seleccionar *SDRESID como la variable CC (X) y *ZPRED como la variable TAA (Y). Solicitar el histograma y el diagrama de probabilidad normal. En guardar
Solicitar que se guarden los valores predichos tipificados. Solicitar que se guarden los residuos tipificados. Se utilizo un nivel de = 0.05 Solicitar las opciones distancias de distancias en el grupo. La seleccin de estas opciones producir un modelo de regresin lineal de circunferencia de la cintura basado en el tejido adiposo acumulado. El anlisis solicitado realiza el trazo de los residuos estudentizados por los valores predichos por el modelo, y varios valores se guardan para pruebas adicionales de diagnstico. Anlisis: La ecuacin dice que, puesto que a es un valor negativo, la recta cruza el eje Y por abajo del origen y que, puesto que el valor b, la pendiente, es positivo, la recta se extiende desde el extremo izquierdo inferior de la grfica hasta el extremo derecho superior. Tambin, es posible apreciar que por cada unidad que aumente x, y aumenta por una cantidad igual a 3.414. El smbolo representa el valor calculado de y mediante la ecuacin, en lugar del valor observado de Y. El modelo indica que el valor de tejido adiposo acumulado esperado es igual a = -211.662 + 3.414 (CC). Al sustituir los valores adecuados de X en la ecuacin se obtienen las coordenadas necesarias para trazar la recta. Para un valor de X = 70 se obtiene: 27.318= -211.662 + 3.414 (70) y para un valor de x = 100 129.738= -211.662 + 3.414 (100)
Coeficientesa Coeficientes no estandarizados B Error tp. -211.662 21.743 3.414 .234 Coeficientes estandarizad os Beta .816
Cooks
Modelo 1
(Constante) CC
t -9.735 14.580
En la tabla de ANDEVA para la aceptacin del modelo para una perspectiva estadstica. La fila de regresin despliega informacin sobre la variacin considerada para el modelo.
b ANO VA
Modelo 1
gl 1 107 108
F 212.568
Sig. .000a
La informacin que desplegada en la fila residual muestra la variacin que no se considera para el modelo.
b ANO VA
Modelo 1
gl 1 107 108
F 212.568
Sig. .000a
La regresin y sumas de los cuadrado del residuo difieren, lo que indica que ms la mitad la variacin del los valores de tejido adiposo acumulado se explican por el modelo.
b ANO VA
Modelo 1
gl 1 107 108
F 212.568
Sig. .000a
El valor de significancia de la F estadstica es menor a 0.05, lo cul significa que la variacin explicada por el modelo no se debe al azar. Pruebas de hiptesis para el modelo: HO: = = 0 HA: = 0 Se rechaza la hiptesis nula, porque 212.568 es mayor que 8.25, el valorar critico de F (este valor se obtiene de la interpolacin 1 y 107 grados de libertad). La tabla de ANDEVA es un anlisis til que demuestra la habilidad del modelo para explicar cualquier variacin en la variable dependiente (TAA), y no se rige directamente por la fuerza de esas relaciones.
b ANO VA
Modelo 1
gl 1 107 108
F 212.568
Sig. .000a
La tabla del resumen del modelo informa de la fuerza de las relaciones entre el modelo y la variable dependiente (TAA). La R, o el coeficiente de correlacin mltiple, es la correlacin lineal entre los valores observados y los predichos por el modelo de la variable dependiente (TAA). Un valor grande indica fuertes relaciones.
b Resumen del modelo
Modelo 1
La R cuadrada, es el coeficiente de determinacin, es el cuadrado del valor del coeficiente de correlacin mltiple. Esto significa que ms de la mitad (66.5 %) de la variacin de tejido adiposo acumulado (Y) es explicada por el modelo.
b Resumen del modelo
Modelo 1
Como una medida adicional de la fuerza del modelo, se compara el error estndar del estimado en la tabla del resumen del modelo para la desviacin estndar del tejido adiposo acumulado, y se reporta en la tabla de la estadstica descriptiva.
Estadsticos descriptivos Media 101.9083 91.8376 Desviacin tp. 57.28067 13.68235 N 109 109
TAA CC
Sin el conocimiento previo de la circunferencia de la cintura, la mejor suposicin para tejido adiposo abdominal sera aproximadamente 101.9, con desviacin estndar de 57.2
Estadsticos descriptivos Media 101.9083 91.8376 Desviacin tp. 57.28067 13.68235 N 109 109
TAA CC
Con el modelo de regresin lineal, el error del estimado es bajo, aproximadamente 33.29.
b Resumen del modelo
Modelo 1
Un residuo es la diferencia entre los valores observados por el modelo y los predichos por el mismo de la variable dependiente. El residuo para un producto dado es el valor observado del error estndar esos productos. Un histograma o diagrama P-P de los residuos puede auxiliar para verificar que se asume la normalidad del error estndar. La forma del histograma debe ser
aproximadamente la forma de la curva normal. Este histograma es aceptable y muy semejante a la curva normal.
Histograma
40
30
20
a i n u c e r F
10
0 -4 -3 -2 -1 0 1 2 3
El diagrama P-P de los residuos debe seguir un lnea de 45 . Ni el histograma ni el diagrama indican que la normalidad (que se asume) es violada.
Grfico P-P normal de regresin Residuo tipificado
0.8
0.6
0.4
d p s e m u c a b o r P
0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0
El diagrama de los residuos por los valores predichos muestra que la varianza de los errores se incrementa con el incremento de los valores predicho para el TAA. ste es un buen diagrama de dispersin.
Grfico de dispersin
o a z i n d u t s e
-2 -3
) l p ( a b o u d n i s r g e R
-4 -4 -2 0 2 4
Para revisar los residuos para la variable circunferencia de la cintura, se realiza un diagrama de dispersin simple. Ahora se introducen los residuos estandarizados como la variable Y. El diagrama de los residuos por circunferencia de la cintura muestran los mismos resultados.
3.00000
2.00000
1.00000
0.00000
-1.00000
l u s R e z i r d n a t S
-2.00000
-3.00000
CC
Para corregir el heteroscedasticidad de los residuos en anlisis adicionales, se debe definir una variable de peso basada en el inverso de la circunferencia de la cintura. Usando esta variable de peso disminuir la influencia de los productos que sean muy grandes entre las variables circunferencia de la cintura y tejido adiposo acumulado, y as las estimaciones que sean originadas por la regresin sern ms precisas. Para revisar los datos que tiene influencia sobre el modelo, se realiza un diagrama de dispersin simple. Ahora en vez de utilizar los residuos estandarizados se utiliza la variable distancia de CooKs como la variable Y. En el caso de la variable circunferencia de cintura es sustituida por la
variable valorar la influencia de las distancias en el grupo como la variable X. El diagrama de dispersin muestra a la derecha una serie de punto alejados.
0.30000
0.25000
0.20000
0.15000
e c n a t i D s ' k o C
0.10000 0.05000 0.00000 0.00000 0.01000 0.02000 0.03000 0.04000 0.05000
Se seleccionan los puntos y se definen como Tray. En estos casos existe un alto nivel de influencia (se muestran alejados los individuos 9, 16, 65, 66, 89 y 103). Su gran influencia les da un peso extra en el cmputo de la lnea de regresin, y la gran influencia indica que afectaron la pendiente de la lnea de regresin. Para corregir esto se utiliza una variable de peso que le da menos importancia a los puntos que influyen sobre el modelo (Pardo & Ruiz, 2002; Prez, 2005).
0.30000
65
0.25000
0.20000
66
0.15000
e c n a t i D s ' k o C
16
0.10000
103
0.05000
89
Conclusin: a partir de la medida de la circunferencia de la cintura se puede predecir y estimar de manera muy acertada la cantidad de tejido adiposos abdominal, usando el modelo obtenido con el anlisis de la regresin lineal. Se concluye que el modelo lineal proporciona un buen ajuste para los datos utilizados.
Tabla 2. Base de datos del ndice de P-450IA2, nmero de cigarros fumados por da y nivel de cotinina urinaria.
No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
de de entre
ndice CIGD (X1) por IA2 (Y). Se traza la lnea que cubra mejor los puntos grafica diagrama de la del de
Cig/da (X1) 1 1 1 1 1 3 8 8 8 8 8 10 10 15 15 15 20 20 24
Cot (X2) .0000 .0000 .0000 .0000 .0000 .0000 10.5950 4.6154 27.1902 5.5319 2.7778 19.7856 22.8045 .0000 14.5193 36.7113 21.2267 21.1273 63.2125
ndice IA2 (Y) 4.1648 3.7314 5.7481 4.4370 6.4687 3.8923 5.2952 4.6031 5,8112 3.6890 3.3722 8.0213 10.8367 4.1148 5.5429 11.3531 7.5637 7.2158 13.5000
dispersin. El diagrama de dispersin parece ser favorable para la regresin lineal, con una posible causa de preocupacin En este caso se muestra alejado de la nube de puntos el individuo 19.
12.0000 14.0000 14.0000 12.0000
10.0000
10.0000
2 A I
2 A I
8.0000
8.0000
6.0000
6.0000
4.0000
CIGD
CIGD
14.0000
19
12.0000
16 13
10.0000
2 A I
8.0000
12 17 18
6.0000
3 5
9 15 7 6 10 8 14
4.0000
R Sq Linear = 0.379
11
CIGD
Grafico de dispersin de puntos entre ndice COTU (X2) por IA2 (Y). El diagrama de dispersin parece ser favorable para la regresin lineal.
14.0000
14.0000
12.0000
12.0000
10.0000
10.0000
2 A I
2 A I
8.0000
8.0000
6.0000
6.0000
4.0000
COTU
COTU
14.0000
19
12.0000
16 13
10.0000
2 A I
8.0000
5
12 17 18 3 7 4 8 10 15 9
6.0000
1 6
4.0000
14 2
R Sq Linear = 0.785
11
COTU
Al correr el anlisis de regresin lineal mltiple, con el paquete estadstico SPSS 12: Elegir CIGD y COTU, como las variable independientes (X1, X2).
Elegir IA2, como la variable dependiente (Y). Solicitar grficos de las variables: seleccionar *SDRESID como la variable IA2 (Y) y *ZPRED como las variables CIGD y COTU (X1 y X2). Solicitar el histograma y el diagrama de probabilidad normal. En guardar Solicitar que se guarden los valores predichos tipificados. Solicitar que se guarden los residuos tipificados. Solicitar las opciones distancias de distancias en el grupo. Se utilizo un nivel de = 0.05 La seleccin de estas opciones producir un modelo de regresin lineal de CIGD y COTU basado en IA2. El anlisis solicitado traza los residuos estudentizados por los valores predichos por el modelo, y varios valores se guardan para pruebas adicionales de diagnstico. Anlisis: En la tabla se muestran los coeficientes de la regresin lineal. La ecuacin obtenida para el modelo es: = 4.5234 0.052(X1) + 0.170(X2).
Coeficientesa Coeficientes no estandarizados B Error tp. 4.523 .538 -.052 .070 .170 .030 Coeficientes estandarizad os Beta -.130 .984
Modelo 1
En la tabla de ANDEVA para la aceptacin del modelo para una perspectiva estadstica. La fila de regresin despliega informacin sobre la variacin considerada para el modelo.
b ANO VA
Modelo 1
gl 2 16 18
F 30.555
Sig. .000a
La informacin que desplegada en la fila residual muestra la variacin que no se considera para el modelo.
b ANO VA
Modelo 1
gl 2 16 18
F 30.555
Sig. .000a
La regresin y sumas de los cuadrado del residuo difieren, lo que indica que ms de la mitad de la variacin (79 %) del los valores de IA2 se explican por el modelo.
b ANO VA
Modelo 1
gl 2 16 18
F 30.555
Sig. .000 a
El valor de significancia de la F estadstica es menor a 0.05, lo cul significa que la variacin explicada por el modelo no se debe al azar. Pruebas de hiptesis para el modelo: HO: = 1 = 2 = 3 = K = 0 HA: = no todas las 1 = 0 En otras palabras, la hiptesis nula afirma que todas las variables independientes carecen de valor para explicar la variacin en los valores de Y. Se rechaza la hiptesis nula, porque 30.55 es mayor que 6.23, el valorar
critico de F (este valor se obtiene de la interpolacin 2 y 16 grados de libertad).
La tabla de ANDEVA es un anlisis til de la habilidad del modelo para explicar cualquier variacin en la variable dependiente (IA2), y no se rige directamente por la fuerza de esas relaciones.
b ANOVA
Modelo 1
gl 2 16 18
F 30.555
Sig. .000 a
La tabla del resumen del modelo informa de la fuerza de las relaciones entre el modelo y la variable dependiente (IA2). La R, o el coeficiente de correlacin mltiple, es la correlacin lineal entre los valores observados y los predichos por el modelo de la variable dependiente (IA2). Un valor grande indica fuertes relaciones.
b Resumen del modelo
Modelo 1
La R cuadrada, es el coeficiente de determinacin, es el cuadrado del valor del coeficiente de correlacin mltiple. Se puede decir que aproximadamente 79.3 % del total de la variacin en los valores en Y se explica a travs del plano de regresin ajustado; es decir a travs de la relacin lineal con X1 y X2.
b Resumen del modelo
Modelo 1
Como una medida adicional de la fuerza del modelo, se compara el error estndar del estimado en la tabla del resumen del modelo para la desviacin estndar de la variable IA2, y se reporta en la tabla de la estadstica descriptiva.
Estadsticos descriptivos Media IA2 6.282174 CIGD 9.315789 COTU 13.163026 Desviacin tp. 2.8768348 7.2115080 16.6365421 N 19 19 19
Sin el conocimiento previo de las variables CIGD y COTU, la mejor suposicin para IA2 sera aproximadamente 6.28, con desviacin estndar de 2.87.
Estadsticos descriptivos Media IA2 6.282174 CIGD 9.315789 COTU 13.163026 Desviacin tp. 2.8768348 7.2115080 16.6365421 N 19 19 19
Con el modelo de regresin lineal, el error del estimado es bajo, aproximadamente 1.39
b Resumen del modelo
Modelo 1
Un residuo es la diferencia entre los valores observados por el modelo y los predichos por el mismo de la variable dependiente. El residuo para un producto dado es el valor observado del error estndar esos productos. Un histograma o diagrama P-P de los residuos puede auxiliar para verificar que se asume la normalidad del error estndar. La forma del histograma debe ser aproximadamente la forma de la curva normal. Este histograma es aceptable y muy semejante a la curva normal.
Histograma
7 6
a i n u c e r F
El diagrama P-P de los residuos debe seguir un lnea de 45 . Ni el histograma ni el diagrama indican que la normalidad (que se asume) es violada.
0.8
0.6
0.4
d p s e m u c a b o r P
0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0
El diagrama de los residuos por los valores predichos muestra que la varianza de los errores disminuye con el incremento de los valores predichos para el 1A2.
Grfico de regresin parcial
2 A I
0 -1 -2 -3 -6 -3 0 3 6 9 12
CIGD
El diagrama de los residuos por los valores predichos muestra que la varianza de los errores aumenta con el incremento de los valores predicho para el 1A2.
2 A I
-2
-4 -40 -20 0 20 40
COTU
Para revisar los residuos por la variable CIGD, se realiza un diagrama de dispersin simple. Ahora se introducen los residuos estandarizados como la variable Y. El diagrama de los residuos por CIGD muestran los distintos resultados al diagrama de los residuos por los valores predichos. Un resultado semejante se observa para la variable COTU.
4.00000
4.00000
2.00000
2.00000
0.00000
0.00000
l u s R e z i r d n a t S
l u s R e z i r d n a t S
-2.00000
-2.00000
CIGD
COTU
Para corregir el heteroscedasticidad de los residuos en anlisis adicionales, se debe definir una variable de peso basada en el inverso de la circunferencia de la cintura. Usando esta variable de peso disminuir la influencia de los productos que sean muy grandes entre las variables CIGD y IA2 y COTU y IA2 , y as las estimaciones que sean originadas por la regresin sern ms precisas. Para revisar los datos que tiene influencia sobre el modelo, se realiza un diagrama de dispersin simple. Ahora en vez de utilizar los residuos estandarizados se utiliza la variable distancia de CooKs como la variable Y. En el caso de la variables CIGD y COTU se sustituyen por la variable valorar la influencia de las distancias en el grupo como la variable X. El diagrama de dispersin muestra a la derecha dos punto alejados. Se seleccionan los
0.40000
0.30000
0.20000
e c n a t i D s ' k o C
0.10000 0.00000 0.00000 0.10000 0.20000 0.30000 0.40000 0.50000 0.60000
En estos casos existe un alto nivel de influencia (se muestran alejados los
individuos 9 y 19). Su gran influencia les da un peso extra en el cmputo de
la lnea de regresin, y la gran influencia indica que afectaron la pendiente de la lnea de regresin. Para corregir esto se utiliza una variable de peso que le da menos importancia a los puntos que influyen sobre el modelo (Pardo & Ruiz, 2002; Prez, 2005).
0.40000
0.30000
0.20000
19
e c n a t i D s ' k o C
0.10000 0.00000 0.00000 0.10000 0.20000 0.30000 0.40000 0.50000 0.60000
Conclusin: a partir de los valores de CIGD y COTU se puede predecir y estimar la variable IA2, usando el modelo obtenido con el anlisis de la regresin lineal. Se concluye, que de g la poblacin de la cual se extrajo la muestra, existe relacin lineal entre las tres variables.
BIBLIOGRAFA Daniel WW. 2006. Bioestadstica: Base para el Anlisis de la Ciencias de la Salud. Biostaistics: a Foundation for Analysis in the Health Sciences. 4a Ed. Mxico. Limusa Wiley. pp. 924. Prez LC. 2005. Tcnicas Estadsticas con SPSS 12. Aplicaciones al anlisis de datos. Pearson Educacin S.A. Madrid. pp.824. Pardo MA, Ruiz DMA. 2002. Manual de SPSS 10. Gua para el anlisis de datos. Mc Graw Hill. Espaa. pp.71.