Documente Academic
Documente Profesional
Documente Cultură
y
x
10
10
4
20
1
25
9
12
8
13
6
15
2
23
3
21
5
18
6
17
Aqu una variable depende de la otra, pero hay un pequeo giro en las relaciones
entre las mismas. El incremento de una variable se acompaa por la disminucin de
la otra o viceversa, esto se denomina correlacin inversa o negativa.
Otros ejemplos de correlacin son los problemas que encontramos diariamente en el
trabajo, tales como:
Cul es la relacin entre la temperatura del horno y la resistencia del material?
Qu relacin existe entre el alimento consumido y el peso del ganado?
Cul es el precio de una mercanca afectada por la oferta?
Cul es la relacin entre el tamao de la granja y su rentabilidad?
Cul es la relacin entre las horas dedicadas para estudiar una unidad de la materia
de estadstica y la calificacin obtenida?
Otros ejemplos de correlacin los encontramos casi a diario en los peridicos en la
seccin de finanzas, con las grficas; prcticamente todo grfico es, en esencia, una
representacin entre la correlacin de dos variables. Donde el eje de la abscisa (x)
tiene a la variable independiente y el eje de la ordenada (y), la variable dependiente.
Terminaremos esta hoja definiendo los trminos de correlacin y regresin de la
siguiente manera.
Qu es correlacin? es la relacin que existe entre dos variables y a la estrechez de
dicha relacin.
Qu es regresin? es la cantidad de cambio que sufre la variable dependiente (y)
por cada cambio nico de la variable independiente (x).
1.3 Clculo del coeficiente de correlacin.
Hasta ahora hemos visto como estn relacionadas dos variables, pero aqu surge
una pregunta. Qu tan estrechamente relacionadas se encuentran las variables?
Para contestar esta pregunta, necesitamos una medida que cuantifique la estrechez
de la relacin entre dos variables. Esta medida recibe el nombre de coeficiente de
correlacin que se representa por la letra r.
Para medir de un modo matemtico y ms preciso el grado de correlacin existente,
es necesario determinar un valor numrico que lo exprese y ste es el coeficiente
de correlacin lineal o r de Pearson. Veamos algunos ejemplos grficos y su
cuantificacin matemtica en las siguientes grficas.
Los valores que puede tomar el coeficiente de correlacin lineal van de: 1 r 1 ,
cuando el valor de r = 1 r = -1 ambos indican correlaciones perfectas, cuando r = 0
significa ausencia de correlacin lineal.
Una relacin positiva significa: a mayor rendimiento en x mayor rendimiento en y o
viceversa. Una correlacin negativa significa: a un rendimiento menor en x se tiene
un rendimiento mayor en y o viceversa a un rendimiento mayor en x se tiene un
rendimiento menor en y.
El algoritmo matemtico que simboliza al coeficiente de correlacin lineal se define
por:
n
x x y y
i 1
i 1
i 1
2
2
xi x yi y
Aplicando lgebra elemental podemos redefinir este algoritmo para facilitar su clculo
como:
x y
i 1
i 1
2
i
x
i 1
xi yi
i 1
i 1
y
i 1
2
i
y
i 1
100
110
120
130
140
150
160
170
180
190
45
51
54
61
66
70
74
78
85
89
Lo primero que debe hacerse es graficar estas variables, tal presentacin se conoce
como diagrama de dispersin.
TEMPERATURA DEL HORNO Y RESISTENCIA DE LA VARILLA.
80
70
60
50
40
100
110
120
130
140
150
160
170
180
190
X
x = temperatura del horno.
y = resistencia de la varilla en psi.
A primera vista la grfica sugiere que existe correlacin lineal entre las dos
variables, y que podemos ajustar una ecuacin de primer grado de la forma
y a bx a los valores observados. Los clculos bsicos de la variable dependiente
4
y 673
x 1450
y 47225
2
x 218500
xy 101570
2
(1450)(673)
10
0.998128718
2
2
(1450)
(673)
218,500
47,225
10
10
101,570
El valor de r = 0.998 nos indica que existe alta correlacin lineal entre la
temperatura del horno y la resistencia de la varilla, un valor de uno hubiera sido
correlacin perfecta. Adems de lo anterior el coeficiente r nos dice que la ecuacin
que ajustemos a los datos tiene una pendiente positiva.
Advertencia
El no encontrar evidencia de correlacin lineal entre las variables, se puede deber a:
a) De hecho las dos variables no estn relacionadas.
b) Las variables estn relacionadas en forma no lineal, en este caso la r de Pearson
no nos sirve para medir la relacin entre dos variables. Por eso es recomendable que
antes de realizar cualquier clculo se grafiquen los datos, sin olvidarse de emplear la
regla de los tres cuartos de altura (el eje de la ordenada y debe medir tres cuartas
partes de lo que mida el eje de la abcisa x).
1.4 Regresin lineal.
El hecho de estudiar la correlacin entre dos variables, es con la esperanza de que
cualquier relacin que se encuentre, pueda usarse como auxiliar para hacer
estimaciones o predicciones de una variable en particular.
El problema de la prediccin lineal se reduce a ajustar una lnea recta a un grupo de
puntos, ahora bien la ecuacin general de la lnea recta puede describirse como:
y a bx
5
a=3
Para encontrar la pendiente podemos empezar eligiendo dos puntos sobre la lnea
en la grfica anterior, as tendremos que (x 1, y1) = (1, 5) y (x 2, y2) = (2, 7). Entonces,
en este punto, podemos calcular el valor b usando esta ecuacin:
b
y 2 y1 7 5
2
x 2 x1
2 1
En estadstica se dice, que una lnea tendr buen ajuste si minimiza el error entre
los puntos estimados de la lnea y los verdaderos puntos observados que se
utilizaron para trazarla.
Si tenemos un conjunto de puntos de datos a travs de los cuales podramos trazar
un nmero infinito de lneas de estimacin, cmo podemos saber cundo hemos
encontrado la mejor lnea de ajuste?
Para lograr lo anterior se emplea el criterio de mnimos cuadrados, que consiste en
hacer mnima la suma de cuadrados de los errores de estimacin, donde el error de
estimacin es la diferencia entre el valor observado de la muestra y el valor estimado
por la ecuacin obtenida.
En estadstica existen dos ecuaciones que nos sirven para calcular la pendiente y la
interseccin y, de la lnea de regresin de mejor ajuste y son:
i 1
n
xi x yi
x x
i 1
xy n x y
i 1
n
x nx
2
i 1
xy
x y
n
x
x2
n
a y bx
Con estos coeficientes podemos obtener la lnea de regresin de mejor ajuste para
cualquier conjunto de dos variables de puntos de datos.
1.6 Uso del mtodo de mnimos cuadrados en un problema.
Consideremos el ejemplo de la temperatura del horno y la resistencia de la varilla, los
clculos bsicos para el clculo de los coeficientes de regresin a y b son:
n 10
x 1450
218,500
xy
101,570
y 673
(1450)(673)
10
0.48303
1450 2
218500
10
101570
Ahora bien, la ecuacin lineal que mejor describe la relacin entre la temperatura del
horno en grados centgrados y la resistencia de la varilla, la obtenemos al sustituir el
valor de a y b en la ecuacin de la recta y a bx , la cual es:
y 2.74 0.483 x
a = -2.74 nos indica que la ecuacin que estimamos corta al eje de la ordenada y en
un sistema de coordenadas cartesianas en el punto negativo de -2.74.
b = 0.483 significa que por cada grado centgrado de temperatura que aumentemos
en el horno, se logra un incremento de 0.483 psi de resistencia en la varilla.
Con esta ecuacin podemos predecir el valor de la variable dependiente para algn
valor no conocido de x, por ejemplo. De cunto ser la resistencia de la varilla
cuando la temperatura del horno sea de 165 oC?
y 2.74 0.483(165) 76.96 psi.
Nota. Se recomienda tener mucho cuidado al hacer predicciones, ya que estas son
vlidas siempre y cuando se hagan dentro del rango de valores que se este
estudiando, si se quiere hacer pronsticos fuera del rango observado, es
recomendable aumentar los valores observados y estimar una nueva ecuacin.
1.7 Error estndar de estimacin.
Despus de haber ajustado la lnea de regresin a una lista de puntos, generalmente
es posible inspeccionar su grfica y observar que tan exactamente predice los
valores de y. Un procedimiento matemtico para medir la confiabilidad de la ecuacin
estimada es el error estndar de estimacin, el cual se simboliza por Se y es similar a
la desviacin estndar, en cuanto a que ambas son medidas de dispersin.
El error estndar de estimacin mide la variabilidad, o dispersin de los valores
observados alrededor de la lnea de regresin. Su clculo matemtico se obtiene por:
Se
( y y )
n2
Donde:
y = valores de la variable dependiente
y
= valores estimados con la ecuacin de regresin
2 = nmero de parmetros estimados en el modelo (a y b).
Continuando con nuestro ejemplo tenemos:
x
y
100 110
45
51
45.6 50.4
-0.6 0.6
120
54
55.2
-1.2
130
61
60.1
0.9
140
66
64.9
1.1
150
70
69.7
0.3
160
74
74.6
-0.6
170
78
79.4
-1.4
180
85
84.2
0.8
190
89
89.0
0.0
8
(y - )2
0.36 0.36
y y
1.44
0.81
1.21
0.09
0.36
1.96
0.64
0.0
7.23
7.23
0.90375 0.9506
10 2
y y
1 r
y
n
2
(1 0.998,128,7182)(47,225 673 ) 7.22
10
a y b xy ny 2
y 2 ny 2
r2
H1 : b
CME
x
2
x
n
Donde CME es el cuadrado medio del error del anlisis de varianza de la regresin, y
tc es la distribucin t de Student con v = n - 2 grados de libertad, donde n es el
nmero de pares de datos. Se rechazara H 0 si:
t t
c 2,n 2
H 0 : a 1
H 1 : a 1
Utilizamos el estadstico:
10
a 1
1
CME
x
x
x
n
t t
c 2,n 2
H1 : b 0
11
Suma de cuadrados
Grados
de
libertad
x y
xy n
Cuadrado
medio
S .C . regresin
G.L. regresin
C.M . Re g .
C.M . error
n2
S .C. error
G.L. error
n-1
673
xy
101,570
12
x 1,450
47,225
b 0.483
Por lo tanto las sumas de cuadrados y la tabla del ANOVA queda definida por:
Suma de cuadrados total
= 47,225 (673) 2 10 = 1,932.1
Suma de cuadrados de la Reg. = 0.483 101,570 - 1,450 673 10 = 1,924.75
Suma de cuadrados del error
= 1,932.1 1,924.75 = 7.35
ANOVA DE LA TEMPERATURA DEL HORNO Y LA RESISTENCIA DE LA VARILLA.
Fuente de
variacin
Regresin
Error
Total
Suma de
cuadrados
1,924.75
7.35
1,932.10
Grados de
libertad
1
8
9
Cuadrado
medio
1,924.75
0.919
F
2,094.4
= 0.10
3.46
= 0.05
5.32
= 0.01
11.26
13
Tambin puede apreciarse que la suma de cuadrados del error 7.35, es muy
parecido a (y - )2 obtenida en el punto 1.7, lo cual puede servir para verificar
nuestros clculos
1.11 Estimacin de intervalos en la regresin lineal simple.
Adems de la estimacin de los parmetros a y b de la ecuacin estimada es posible
obtener estimaciones de intervalos de confianza para estos parmetros, el ancho de
estos intervalos es una media de la calidad total de la lnea de regresin.
En consecuencia el intervalo de confianza 100 (1 - ) % para la pendiente b, est
dado por el siguiente intervalo, donde t es un valor de t de Student con un cierto nivel
con v = n - 2 grados de libertad y CME es el cuadrado medio del error del
ANOVA.
P b t
CME
2,n 2
x
n
b b t
CME
2, n 2
x
n
0.919
0.919
P 0.483 2.306
b 0.483 2.306
8
,
250
8
,250
0.95
14
P a t
2, n 2
1
x
CME
n
x
x
n
a a
t
2
2, n 2
1
x2
CME
n
x
x
n
1
145 2
10
8,250
1
145 2
10
8,250
0.95
ei
ei
A) Satisfactorio
ei
B) Embudo
ei
C) Doble arco
D) No lineal
100 110
45
51
45.6 50.4
e1
e2
ei yi y i -0.6
0.6
120
54
55.2
e3
-1.2
130
61
60.1
e4
0.9
140
66
64.9
e5
1.1
150
70
69.7
e6
0.3
160
74
74.6
e7
-0.6
170
78
79.4
e8
-1.4
180
85
84.2
e9
0.8
190
89
89.0
e10
0.0
i , se presentan a continuacin.
Las grficas de residuos contra xi y y
GRFICA DE RESIDUOS CONTRA xi
16
Residuo
0,5
0,0
-0,5
-1,0
-1,5
100
110
120
130
140
150
160
170
180
190
Residuo
0,5
0,0
-0,5
-1,0
-1,5
40
50
60
70
Valor ajustado
80
90
Una vez hecha la trasformacin de los datos originales se lleva a cabo el anlisis de
regresin como si se tratara de datos normales.
De igual manera si hubiera aparecido una curva en las grficas, ello nos est
indicando que el modelo no es el adecuado, y que se tiene que utilizar otro de
mayor orden (cuadrtica, cbica, etc.)
Para verificar el supuesto de que los errores se distribuyen de manera normal
realizamos la grfica normal de residuos, en ella se puede observar que los residuos
caen aproximadamente sobre una recta, con lo que se puede concluir que no hay
desviacin importante de normalidad, o sea que el supuesto de que los errores se
distribuyen de manera normal se cumple.
Cuando aparecen valores atpicos, es decir observaciones que no son tpicas al
resto de los datos, significa que los errores no se distribuyen de manera normal.
95
90
Porcentaje
80
70
60
50
40
30
20
10
5
-2
-1
0
Residuo
Por lo tanto en base a la evidencia encontrada en las grficas, podemos concluir que
no existe insuficiencia seria del modelo, dicho en otras palabras nuestro modelo es
vlido.
Apndice 1.1 Empleo del software Minitab en el anlisis de regresin lineal.
Elaboracin del diagrama dispersin.
18
1
2
3
4
5
6
7
8
9
10
C1
x
100
110
120
130
140
150
160
170
180
190
C2
y
45
51
54
61
66
70
74
78
85
89
19
1
2
3
4
5
6
7
8
9
10
C1
x
100
110
120
130
140
150
160
170
180
190
C2
y
45
51
54
61
66
70
74
78
85
89
21