Sunteți pe pagina 1din 27

REGRESIN LINEAL SIMPLE Y REGRESIN LINEAL MLTIPLE CON EL PAQUETE ESTADISTICO SPSS 12

1.- EJERCICIO ANLISIS DE REGRESIN SIMPLE


Desprs y colaboradores sealaron que la topografa del tejido adiposo est asociada con complicaciones metablicas consideradas como factores de riesgo para enfermedades cardiovasculares. Afirman que es importante medir la cantidad de tejido intraabdominal como parte de la evaluacin del riesgo de enfermedades cardiovasculares en un individuo. La tomografa computada, es la nica tcnica disponible con la que es posible medir de manera precisa y confiable la cantidad de tejido adiposo intraabdominal profundo; sin embargo, es una tcnica costosa y requiere de irradiacin sobre el individuo. Adems, la tecnologa no esta disponible para muchos mdicos. Desprs y sus colaboradores desarrollaron ecuaciones para predecir la cantidad de tejido adiposo del abdomen a partir de mediciones antropomtricas simples. Los individuos estudiados eran hombres con edades 18 y 42 aos que no presentaban enfermedades metablicas que necesitaran tratamiento. En la tabla 1 se muestran las mediciones tomadas a cada individuo respecto a la circunferencia de la cintura y a la cantidad de tejido adiposos profundo mediante la tomografa computada. La pregunta es qu tan acertado seria predecir y estimar la cantidad de tejido adiposos abdominal a partir de la medida de la circunferencia de la cintura?. Esta pregunta es de aquellas que se pueden responder mediante el anlisis de regresin lineal. Dado que la cantidad de tejido adiposo abdominal profundo es la variable sobre la que se pretende estimar y predecir, constituye la variable dependiente. La variable medicin de la cintura es la variable independiente que se utilizar para hacer predicciones y estimaciones (Daniel, 2006).

Variables: Circunferencia de la cintura (CC) en cm, X de 109 hombres Tejido adiposo abdominal (TAA) Y

Tabla 1. Base de datos de las mediciones de la circunferencia de la cintura y


la cantidad de tejido adiposos profundo mediante la tomografa computada.

Indivi duo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

X 74. 75 72. 60 81. 80 83. 95 74. 65 71. 85 80. 90 83. 40 63. 50 73. 20 71. 90 75. 00 73. 10 79. 00 77. 00 60. 85 75. 95 74. 15

Y 25. 72 25. 89 42. 60 42. 80 29. 84 21. 68 29. 80 32. 98 11. 44 32. 22 28. 34 43. 86 38. 21 42. 48 30. 96 55. 78 43. 78 33. 41

Indivi duo 29 30 31 32 33 34 35 36 37 38 39 40 41 41 43 44 45 46

X 86.0 0 82.5 0 83.5 0 88.1 0 90.8 0 89.4 0 102. 00 94.5 0 91.0 0 103. 00 80.0 0 79.0 0 83.5 0 76.0 0 80.5 0 86.5 0 83.0 0 107. 10

Y 78.8 9 64.7 5 72.5 6 89.3 1 78.9 4 83.5 5 127. 00 121. 00 107. 00 129. 00 74.0 2 55.4 8 73.1 3 50.5 0 50.8 8 140. 00 96.5 4 118. 00

Indivi duo 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74

X 87.8 0 86.3 0 85.5 0 83.7 0 77.6 0 89.9 0 79.8 0 108. 30 119. 60 119. 90 96.5 0 105. 50 105. 00 107. 00 107. 00 101. 00 93.0 0 100. 00

Y 88.8 5 155. 00 70.7 7 75.0 8 57.0 5 99.7 3 27.9 6 123. 00 90.4 1 106. 00 144. 00 121. 00 97.1 3 166. 00 87.9 9 154. 00 100. 00 123. 00

Indivi duo 85 86 87 88 89 90 91 92 93 94 95 95 97 98 99 100 101 102

X 108. 50 104. 00 111. 00 108. 50 121. 00 109. 00 97.5 0 105. 50 98.0 0 94.5 0 97.0 0 105. 00 106. 00 99.0 0 91.0 0 102. 50 106. 00 109. 10

Y 183. 00 184. 00 121. 00 159. 00 245. 00 137. 00 165. 00 152. 00 181. 00 80.9 5 137. 00 125. 00 241. 00 134. 00 150. 00 198. 00 151. 00 229. 00

19 20 21 22 23 24 25 26 27 28

73. 80 75. 90 76. 85 80. 90 79. 90 89. 20 82. 00 92. 00 86. 60 80. 50

43. 35 29. 31 36. 60 40. 25 35. 43 60. 90 45. 84 70. 40 83. 45 84. 30

47 48 49 50 51 52 53 54 55 56

94.3 0 94.5 0 79.7 0 79.3 0 89.8 0 83.8 0 85.2 0 75.5 0 78.4 0 78.6 0

107. 00 123. 00 65.9 2 81.2 9 111. 00 90.7 3 133. 00 41.9 0 41.7 1 58.1 6

75 76 77 78 79 80 81 82 83 84

108. 00 100. 00 103. 00 104. 00 106. 00 109. 00 103. 50 110. 00 110. 00 112. 00

217. 00 140. 00 109. 00 127. 00 112. 00 192. 00 132. 00 126. 00 153. 00 158. 00

103 104 105 106 107 108 109

115. 00 101. 00 100. 10 93.3 0 101. 80 107. 90 108. 50

253. 00 188. 00 124. 00 62.2 0 133. 00 208. 00 208. 00

Base de datos tomada de Daniel, 2006.

Grafico de dispersin de puntos entre circunferencia de la cintura (X) por tejido adiposo abdominal (Y).

300.00

250.00

200.00

A T

150.00

100.00

50.00

0.00 60.00 70.00 80.00 90.00 100.00 110.00 120.00 130.00

CC

Se traza la lnea que cubra mejor los puntos de la grafica del diagrama de dispersin. El diagrama de dispersin parece ser favorable para la regresin lineal, con dos posibles causas de preocupacin.

300.00

250.00

200.00

A T

150.00

100.00

50.00 R Sq Linear = 0.665

0.00 60.00 70.00 80.00 90.00 100.00 110.00 120.00 130.00

CC

La variabilidad de la circunferencia de la cintura (X) parece aumentar con el tejido adiposo abdominal (Y).

300.00

250.00

200.00

A T

150.00

100.00

50.00 R Sq Linear = 0.665

0.00 60.00 70.00 80.00 90.00 100.00 110.00 120.00 130.00

CC

Se deben verificar los puntos que se alejan de la nube de puntos y que pudieran ejercer una influencia indebida en la disposicin de la regresin. Se deber investigar si el efecto de los puntos que se alejan y son motivo de preocupacin y persisten durante anlisis que comprueba el modelo de la regresin. En este caso se muestran alejados de la nube de puntos los individuos 9, 16, 65, 66, 89 y 103.

300.00

103

250.00

97 75 108 100 86 93 58 91 67 70 102 109 80 85

89

200.00

104

A T

150.00

100.00

16

50.00
9

90 107 82 78 46 87 8138 105 74 96 68 64 66 62 73 79 52 45 32 47 77 65 71 50 28 57 27 69 33 94 39 60 59 34 3049 29 56 106 40 61 41 31 26 42 43 12 24 25 19 17 55 23 13 R Sq Linear = 0.665 54 14 15 3 22 4 21 8 10 18 11 1 2 5 20 763 6 53 36 35 48 98 37 51

44

99 95

88 84 72 92 101 83 76

0.00 60.00 70.00 80.00 90.00 100.00 110.00 120.00 130.00

CC

Al correr el anlisis de regresin lineal simple, con el paquete estadstico SPSS 12: Elegir CC, como la variable independiente (X). Elegir TAA, como la variable dependiente (Y). Solicitar grficos de las variables: seleccionar *SDRESID como la variable CC (X) y *ZPRED como la variable TAA (Y). Solicitar el histograma y el diagrama de probabilidad normal. En guardar

Solicitar que se guarden los valores predichos tipificados. Solicitar que se guarden los residuos tipificados. Se utilizo un nivel de = 0.05 Solicitar las opciones distancias de distancias en el grupo. La seleccin de estas opciones producir un modelo de regresin lineal de circunferencia de la cintura basado en el tejido adiposo acumulado. El anlisis solicitado realiza el trazo de los residuos estudentizados por los valores predichos por el modelo, y varios valores se guardan para pruebas adicionales de diagnstico. Anlisis: La ecuacin dice que, puesto que a es un valor negativo, la recta cruza el eje Y por abajo del origen y que, puesto que el valor b, la pendiente, es positivo, la recta se extiende desde el extremo izquierdo inferior de la grfica hasta el extremo derecho superior. Tambin, es posible apreciar que por cada unidad que aumente x, y aumenta por una cantidad igual a 3.414. El smbolo representa el valor calculado de y mediante la ecuacin, en lugar del valor observado de Y. El modelo indica que el valor de tejido adiposo acumulado esperado es igual a = -211.662 + 3.414 (CC). Al sustituir los valores adecuados de X en la ecuacin se obtienen las coordenadas necesarias para trazar la recta. Para un valor de X = 70 se obtiene: 27.318= -211.662 + 3.414 (70) y para un valor de x = 100 129.738= -211.662 + 3.414 (100)
Coeficientesa Coeficientes no estandarizados B Error tp. -211.662 21.743 3.414 .234 Coeficientes estandarizad os Beta .816

Cooks

y valorar la influencia de las

Modelo 1

(Constante) CC

t -9.735 14.580

Sig. .000 .000

a. Variable dependiente: TAA

En la tabla de ANDEVA para la aceptacin del modelo para una perspectiva estadstica. La fila de regresin despliega informacin sobre la variacin considerada para el modelo.

b ANO VA

Modelo 1

Regresin Residual Total

Suma de cuadrados 235708.295 118647.842 354356.137

gl 1 107 108

Media cuadrtica 235708.295 1108.858

F 212.568

Sig. .000a

a. Variables predictoras: (Constante), CC b. Variable dependiente: TAA

La informacin que desplegada en la fila residual muestra la variacin que no se considera para el modelo.
b ANO VA

Modelo 1

Regresin Residual Total

Suma de cuadrados 235708.295 118647.842 354356.137

gl 1 107 108

Media cuadrtica 235708.295 1108.858

F 212.568

Sig. .000a

a. Variables predictoras: (Constante), CC b. Variable dependiente: TAA

La regresin y sumas de los cuadrado del residuo difieren, lo que indica que ms la mitad la variacin del los valores de tejido adiposo acumulado se explican por el modelo.
b ANO VA

Modelo 1

Regresin Residual Total

Suma de cuadrados 235708.295 118647.842 354356.137

gl 1 107 108

Media cuadrtica 235708.295 1108.858

F 212.568

Sig. .000a

a. Variables predictoras: (Constante), CC b. Variable dependiente: TAA

El valor de significancia de la F estadstica es menor a 0.05, lo cul significa que la variacin explicada por el modelo no se debe al azar. Pruebas de hiptesis para el modelo: HO: = = 0 HA: = 0 Se rechaza la hiptesis nula, porque 212.568 es mayor que 8.25, el valorar critico de F (este valor se obtiene de la interpolacin 1 y 107 grados de libertad). La tabla de ANDEVA es un anlisis til que demuestra la habilidad del modelo para explicar cualquier variacin en la variable dependiente (TAA), y no se rige directamente por la fuerza de esas relaciones.

b ANO VA

Modelo 1

Regresin Residual Total

Suma de cuadrados 235708.295 118647.842 354356.137

gl 1 107 108

Media cuadrtica 235708.295 1108.858

F 212.568

Sig. .000a

a. Variables predictoras: (Constante), CC b. Variable dependiente: TAA

La tabla del resumen del modelo informa de la fuerza de las relaciones entre el modelo y la variable dependiente (TAA). La R, o el coeficiente de correlacin mltiple, es la correlacin lineal entre los valores observados y los predichos por el modelo de la variable dependiente (TAA). Un valor grande indica fuertes relaciones.
b Resumen del modelo

Modelo 1

R R cuadrado .816 a .665

R cuadrado corregida .662

Error tp. de la estimacin 33.29952

a. Variables predictoras: (Constante), CC b. Variable dependiente: TAA

La R cuadrada, es el coeficiente de determinacin, es el cuadrado del valor del coeficiente de correlacin mltiple. Esto significa que ms de la mitad (66.5 %) de la variacin de tejido adiposo acumulado (Y) es explicada por el modelo.
b Resumen del modelo

Modelo 1

R R cuadrado .816 a .665

R cuadrado corregida .662

Error tp. de la estimacin 33.29952

a. Variables predictoras: (Constante), CC b. Variable dependiente: TAA

Como una medida adicional de la fuerza del modelo, se compara el error estndar del estimado en la tabla del resumen del modelo para la desviacin estndar del tejido adiposo acumulado, y se reporta en la tabla de la estadstica descriptiva.
Estadsticos descriptivos Media 101.9083 91.8376 Desviacin tp. 57.28067 13.68235 N 109 109

TAA CC

Sin el conocimiento previo de la circunferencia de la cintura, la mejor suposicin para tejido adiposo abdominal sera aproximadamente 101.9, con desviacin estndar de 57.2
Estadsticos descriptivos Media 101.9083 91.8376 Desviacin tp. 57.28067 13.68235 N 109 109

TAA CC

Con el modelo de regresin lineal, el error del estimado es bajo, aproximadamente 33.29.
b Resumen del modelo

Modelo 1

R R cuadrado .816 a .665

R cuadrado corregida .662

Error tp. de la estimacin 33.29952

a. Variables predictoras: (Constante), CC b. Variable dependiente: TAA

Un residuo es la diferencia entre los valores observados por el modelo y los predichos por el mismo de la variable dependiente. El residuo para un producto dado es el valor observado del error estndar esos productos. Un histograma o diagrama P-P de los residuos puede auxiliar para verificar que se asume la normalidad del error estndar. La forma del histograma debe ser

aproximadamente la forma de la curva normal. Este histograma es aceptable y muy semejante a la curva normal.
Histograma

Variable dependiente: TAA

40

30

20

a i n u c e r F
10

0 -4 -3 -2 -1 0 1 2 3

Mean = 6.75E-16 Std. Dev. = 0.995 N = 109

Regresin Residuo tipificado

El diagrama P-P de los residuos debe seguir un lnea de 45 . Ni el histograma ni el diagrama indican que la normalidad (que se asume) es violada.
Grfico P-P normal de regresin Residuo tipificado

Variable dependiente: TAA


1.0

0.8

0.6

0.4

d p s e m u c a b o r P
0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0

Prob acum observada

El diagrama de los residuos por los valores predichos muestra que la varianza de los errores se incrementa con el incremento de los valores predicho para el TAA. ste es un buen diagrama de dispersin.

Grfico de dispersin

Variable dependiente: TAA


3 2 1 0 -1

o a z i n d u t s e
-2 -3

) l p ( a b o u d n i s r g e R
-4 -4 -2 0 2 4

Regresin Valor pronosticado tipificado

Para revisar los residuos para la variable circunferencia de la cintura, se realiza un diagrama de dispersin simple. Ahora se introducen los residuos estandarizados como la variable Y. El diagrama de los residuos por circunferencia de la cintura muestran los mismos resultados.
3.00000

2.00000

1.00000

0.00000

-1.00000

l u s R e z i r d n a t S

-2.00000

-3.00000

-4.00000 60.00 70.00 80.00 90.00 100.00 110.00 120.00 130.00

CC

Para corregir el heteroscedasticidad de los residuos en anlisis adicionales, se debe definir una variable de peso basada en el inverso de la circunferencia de la cintura. Usando esta variable de peso disminuir la influencia de los productos que sean muy grandes entre las variables circunferencia de la cintura y tejido adiposo acumulado, y as las estimaciones que sean originadas por la regresin sern ms precisas. Para revisar los datos que tiene influencia sobre el modelo, se realiza un diagrama de dispersin simple. Ahora en vez de utilizar los residuos estandarizados se utiliza la variable distancia de CooKs como la variable Y. En el caso de la variable circunferencia de cintura es sustituida por la

variable valorar la influencia de las distancias en el grupo como la variable X. El diagrama de dispersin muestra a la derecha una serie de punto alejados.

0.30000

0.25000

0.20000

0.15000

e c n a t i D s ' k o C
0.10000 0.05000 0.00000 0.00000 0.01000 0.02000 0.03000 0.04000 0.05000

Centered Leverage Value

Se seleccionan los puntos y se definen como Tray. En estos casos existe un alto nivel de influencia (se muestran alejados los individuos 9, 16, 65, 66, 89 y 103). Su gran influencia les da un peso extra en el cmputo de la lnea de regresin, y la gran influencia indica que afectaron la pendiente de la lnea de regresin. Para corregir esto se utiliza una variable de peso que le da menos importancia a los puntos que influyen sobre el modelo (Pardo & Ruiz, 2002; Prez, 2005).

0.30000
65

0.25000

0.20000

66

0.15000

e c n a t i D s ' k o C

16

0.10000

103

0.05000

89

0.00000 0.00000 0.01000 0.02000 0.03000 0.04000 0.05000

Centered Leverage Value

Conclusin: a partir de la medida de la circunferencia de la cintura se puede predecir y estimar de manera muy acertada la cantidad de tejido adiposos abdominal, usando el modelo obtenido con el anlisis de la regresin lineal. Se concluye que el modelo lineal proporciona un buen ajuste para los datos utilizados.

2.- EJERCICIO ANLISIS DE REGRESIN MLTIPLE


Kalow y Tana; condujeron un estudio para establecer la variacin de las actividades del citocromo P-4501A2 determinada mediante la cafena en una poblacin de voluntarios sanos. El segundo objetivo del estudio era comparar la variacin en fumadores contra la mayora de no fumadores de la poblacin. Los individuos respondieron a los carteles colocados en el edificio de ciencias mdicas de una universidad. Las variables sobre las que el investigador recolect datos fueron: 1) ndice de P-450IA2 (ndice IA2), 2) nmero de cigarros fumados por da (Cig/da), y 3) nivel de cotinina urinaria (Cot). Las mediciones de estas tres variables se muestran en la tabla 2. Se pretende obtener la ecuacin de regresin mltiple (Daniel, 2006). Variables: se ingresan las observaciones de las variables independientes Cig/da (CIGD, X1), Cot (COTU, X2) y la variable dependiente, ndice IA2 (IA2, Y), para 19 individuos

Tabla 2. Base de datos del ndice de P-450IA2, nmero de cigarros fumados por da y nivel de cotinina urinaria.

Base de datos tomada de Daniel, 2006.

No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Grafico dispersin puntos

de de entre

ndice CIGD (X1) por IA2 (Y). Se traza la lnea que cubra mejor los puntos grafica diagrama de la del de

Cig/da (X1) 1 1 1 1 1 3 8 8 8 8 8 10 10 15 15 15 20 20 24

Cot (X2) .0000 .0000 .0000 .0000 .0000 .0000 10.5950 4.6154 27.1902 5.5319 2.7778 19.7856 22.8045 .0000 14.5193 36.7113 21.2267 21.1273 63.2125

ndice IA2 (Y) 4.1648 3.7314 5.7481 4.4370 6.4687 3.8923 5.2952 4.6031 5,8112 3.6890 3.3722 8.0213 10.8367 4.1148 5.5429 11.3531 7.5637 7.2158 13.5000

dispersin. El diagrama de dispersin parece ser favorable para la regresin lineal, con una posible causa de preocupacin En este caso se muestra alejado de la nube de puntos el individuo 19.
12.0000 14.0000 14.0000 12.0000

10.0000

10.0000

2 A I

2 A I

8.0000

8.0000

6.0000

6.0000

4.0000

4.0000 R Sq Linear = 0.379

2.0000 0.0000 5.0000 10.0000 15.0000 20.0000 25.0000

2.0000 0.0000 5.0000 10.0000 15.0000 20.0000 25.0000

CIGD

CIGD

14.0000

19

12.0000
16 13

10.0000

2 A I

8.0000

12 17 18

6.0000

3 5

9 15 7 6 10 8 14

4.0000

R Sq Linear = 0.379
11

2.0000 0.0000 5.0000 10.0000 15.0000 20.0000 25.0000

CIGD

Grafico de dispersin de puntos entre ndice COTU (X2) por IA2 (Y). El diagrama de dispersin parece ser favorable para la regresin lineal.

14.0000

14.0000

12.0000

12.0000

10.0000

10.0000

2 A I

2 A I

8.0000

8.0000

6.0000

6.0000

4.0000

4.0000 R Sq Linear = 0.785

2.0000 0.0000 10.0000 20.0000 30.0000 40.0000 50.0000 60.0000 70.0000

2.0000 0.0000 10.0000 20.0000 30.0000 40.0000 50.0000 60.0000 70.0000

COTU

COTU

14.0000

19

12.0000
16 13

10.0000

2 A I

8.0000
5

12 17 18 3 7 4 8 10 15 9

6.0000

1 6

4.0000

14 2

R Sq Linear = 0.785
11

2.0000 0.0000 10.0000 20.0000 30.0000 40.0000 50.0000 60.0000 70.0000

COTU

Al correr el anlisis de regresin lineal mltiple, con el paquete estadstico SPSS 12: Elegir CIGD y COTU, como las variable independientes (X1, X2).

Elegir IA2, como la variable dependiente (Y). Solicitar grficos de las variables: seleccionar *SDRESID como la variable IA2 (Y) y *ZPRED como las variables CIGD y COTU (X1 y X2). Solicitar el histograma y el diagrama de probabilidad normal. En guardar Solicitar que se guarden los valores predichos tipificados. Solicitar que se guarden los residuos tipificados. Solicitar las opciones distancias de distancias en el grupo. Se utilizo un nivel de = 0.05 La seleccin de estas opciones producir un modelo de regresin lineal de CIGD y COTU basado en IA2. El anlisis solicitado traza los residuos estudentizados por los valores predichos por el modelo, y varios valores se guardan para pruebas adicionales de diagnstico. Anlisis: En la tabla se muestran los coeficientes de la regresin lineal. La ecuacin obtenida para el modelo es: = 4.5234 0.052(X1) + 0.170(X2).
Coeficientesa Coeficientes no estandarizados B Error tp. 4.523 .538 -.052 .070 .170 .030 Coeficientes estandarizad os Beta -.130 .984

Cooks y valorar la influencia de las

Modelo 1

(Constante) CIGD COTU

t 8.407 -.744 5.649

Sig. .000 .468 .000

a. Variable dependiente: IA2

En la tabla de ANDEVA para la aceptacin del modelo para una perspectiva estadstica. La fila de regresin despliega informacin sobre la variacin considerada para el modelo.
b ANO VA

Modelo 1

Regresin Residual Total

Suma de cuadrados 118.060 30.911 148.971

gl 2 16 18

Media cuadrtica 59.030 1.932

F 30.555

Sig. .000a

a. Variables predictoras: (Constante), COTU, CIGD b. Variable dependiente: IA2

La informacin que desplegada en la fila residual muestra la variacin que no se considera para el modelo.
b ANO VA

Modelo 1

Regresin Residual Total

Suma de cuadrados 118.060 30.911 148.971

gl 2 16 18

Media cuadrtica 59.030 1.932

F 30.555

Sig. .000a

a. Variables predictoras: (Constante), COTU, CIGD b. Variable dependiente: IA2

La regresin y sumas de los cuadrado del residuo difieren, lo que indica que ms de la mitad de la variacin (79 %) del los valores de IA2 se explican por el modelo.
b ANO VA

Modelo 1

Regresin Residual Total

Suma de cuadrados 118.060 30.911 148.971

gl 2 16 18

Media cuadrtica 59.030 1.932

F 30.555

Sig. .000 a

a. Variables predictoras: (Constante), COTU, CIGD b. Variable dependiente: IA2

El valor de significancia de la F estadstica es menor a 0.05, lo cul significa que la variacin explicada por el modelo no se debe al azar. Pruebas de hiptesis para el modelo: HO: = 1 = 2 = 3 = K = 0 HA: = no todas las 1 = 0 En otras palabras, la hiptesis nula afirma que todas las variables independientes carecen de valor para explicar la variacin en los valores de Y. Se rechaza la hiptesis nula, porque 30.55 es mayor que 6.23, el valorar
critico de F (este valor se obtiene de la interpolacin 2 y 16 grados de libertad).

La tabla de ANDEVA es un anlisis til de la habilidad del modelo para explicar cualquier variacin en la variable dependiente (IA2), y no se rige directamente por la fuerza de esas relaciones.

b ANOVA

Modelo 1

Regresin Residual Total

Suma de cuadrados 118.060 30.911 148.971

gl 2 16 18

Media cuadrtica 59.030 1.932

F 30.555

Sig. .000 a

a. Variables predictoras: (Constante), COTU, CIGD b. Variable dependiente: IA2

La tabla del resumen del modelo informa de la fuerza de las relaciones entre el modelo y la variable dependiente (IA2). La R, o el coeficiente de correlacin mltiple, es la correlacin lineal entre los valores observados y los predichos por el modelo de la variable dependiente (IA2). Un valor grande indica fuertes relaciones.
b Resumen del modelo

Modelo 1

R R cuadrado .890a .793

R cuadrado corregida .767

Error tp. de la estimacin 1.3899370

a. Variables predictoras: (Constante), COTU, CIGD b. Variable dependiente: IA2

La R cuadrada, es el coeficiente de determinacin, es el cuadrado del valor del coeficiente de correlacin mltiple. Se puede decir que aproximadamente 79.3 % del total de la variacin en los valores en Y se explica a travs del plano de regresin ajustado; es decir a travs de la relacin lineal con X1 y X2.
b Resumen del modelo

Modelo 1

R R cuadrado .890a .793

R cuadrado corregida .767

Error tp. de la estimacin 1.3899370

a. Variables predictoras: (Constante), COTU, CIGD b. Variable dependiente: IA2

Como una medida adicional de la fuerza del modelo, se compara el error estndar del estimado en la tabla del resumen del modelo para la desviacin estndar de la variable IA2, y se reporta en la tabla de la estadstica descriptiva.

Estadsticos descriptivos Media IA2 6.282174 CIGD 9.315789 COTU 13.163026 Desviacin tp. 2.8768348 7.2115080 16.6365421 N 19 19 19

Sin el conocimiento previo de las variables CIGD y COTU, la mejor suposicin para IA2 sera aproximadamente 6.28, con desviacin estndar de 2.87.
Estadsticos descriptivos Media IA2 6.282174 CIGD 9.315789 COTU 13.163026 Desviacin tp. 2.8768348 7.2115080 16.6365421 N 19 19 19

Con el modelo de regresin lineal, el error del estimado es bajo, aproximadamente 1.39
b Resumen del modelo

Modelo 1

R R cuadrado .890a .793

R cuadrado corregida .767

Error tp. de la estimacin 1.3899370

a. Variables predictoras: (Constante), COTU, CIGD b. Variable dependiente: IA2

Un residuo es la diferencia entre los valores observados por el modelo y los predichos por el mismo de la variable dependiente. El residuo para un producto dado es el valor observado del error estndar esos productos. Un histograma o diagrama P-P de los residuos puede auxiliar para verificar que se asume la normalidad del error estndar. La forma del histograma debe ser aproximadamente la forma de la curva normal. Este histograma es aceptable y muy semejante a la curva normal.

Histograma

Variable dependiente: IA2

7 6

a i n u c e r F

1 Mean = -5.9E-16 Std. Dev. = 0.943 N = 19 -3 -2 -1 0 1 2 3

Regresin Residuo tipificado

El diagrama P-P de los residuos debe seguir un lnea de 45 . Ni el histograma ni el diagrama indican que la normalidad (que se asume) es violada.

Grfico P-P normal de regresin Residuo tipificado

Variable dependiente: IA2


1.0

0.8

0.6

0.4

d p s e m u c a b o r P
0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0

Prob acum observada

El diagrama de los residuos por los valores predichos muestra que la varianza de los errores disminuye con el incremento de los valores predichos para el 1A2.
Grfico de regresin parcial

Variable dependiente: IA2


4 3 2 1

2 A I
0 -1 -2 -3 -6 -3 0 3 6 9 12

CIGD

El diagrama de los residuos por los valores predichos muestra que la varianza de los errores aumenta con el incremento de los valores predicho para el 1A2.

Grfico de regresin parcial

Variable dependiente: IA2

2 A I

-2

-4 -40 -20 0 20 40

COTU

Para revisar los residuos por la variable CIGD, se realiza un diagrama de dispersin simple. Ahora se introducen los residuos estandarizados como la variable Y. El diagrama de los residuos por CIGD muestran los distintos resultados al diagrama de los residuos por los valores predichos. Un resultado semejante se observa para la variable COTU.
4.00000

4.00000

2.00000

2.00000

0.00000

0.00000

l u s R e z i r d n a t S

l u s R e z i r d n a t S
-2.00000

-2.00000

-4.00000 0.0000 5.0000 10.0000 15.0000 20.0000 25.0000

-4.00000 0.0000 10.0000 20.0000 30.0000 40.0000 50.0000 60.0000 70.0000

CIGD

COTU

Para corregir el heteroscedasticidad de los residuos en anlisis adicionales, se debe definir una variable de peso basada en el inverso de la circunferencia de la cintura. Usando esta variable de peso disminuir la influencia de los productos que sean muy grandes entre las variables CIGD y IA2 y COTU y IA2 , y as las estimaciones que sean originadas por la regresin sern ms precisas. Para revisar los datos que tiene influencia sobre el modelo, se realiza un diagrama de dispersin simple. Ahora en vez de utilizar los residuos estandarizados se utiliza la variable distancia de CooKs como la variable Y. En el caso de la variables CIGD y COTU se sustituyen por la variable valorar la influencia de las distancias en el grupo como la variable X. El diagrama de dispersin muestra a la derecha dos punto alejados. Se seleccionan los

puntos y se definen como Tray.

0.40000

0.30000

0.20000

e c n a t i D s ' k o C
0.10000 0.00000 0.00000 0.10000 0.20000 0.30000 0.40000 0.50000 0.60000

Centered Leverage Value

En estos casos existe un alto nivel de influencia (se muestran alejados los
individuos 9 y 19). Su gran influencia les da un peso extra en el cmputo de

la lnea de regresin, y la gran influencia indica que afectaron la pendiente de la lnea de regresin. Para corregir esto se utiliza una variable de peso que le da menos importancia a los puntos que influyen sobre el modelo (Pardo & Ruiz, 2002; Prez, 2005).

0.40000

0.30000

0.20000

19

e c n a t i D s ' k o C
0.10000 0.00000 0.00000 0.10000 0.20000 0.30000 0.40000 0.50000 0.60000

Centered Leverage Value

Conclusin: a partir de los valores de CIGD y COTU se puede predecir y estimar la variable IA2, usando el modelo obtenido con el anlisis de la regresin lineal. Se concluye, que de g la poblacin de la cual se extrajo la muestra, existe relacin lineal entre las tres variables.

BIBLIOGRAFA Daniel WW. 2006. Bioestadstica: Base para el Anlisis de la Ciencias de la Salud. Biostaistics: a Foundation for Analysis in the Health Sciences. 4a Ed. Mxico. Limusa Wiley. pp. 924. Prez LC. 2005. Tcnicas Estadsticas con SPSS 12. Aplicaciones al anlisis de datos. Pearson Educacin S.A. Madrid. pp.824. Pardo MA, Ruiz DMA. 2002. Manual de SPSS 10. Gua para el anlisis de datos. Mc Graw Hill. Espaa. pp.71.

S-ar putea să vă placă și