Sunteți pe pagina 1din 33

Tipos de relaciones

Los anlisis de regresin y de correlacin se basan en la relacin, o asociacin, entre dos


(o ms) variables.

La variable (o variables) conocida(s) se llama variable(s) independiente(s); la que


tratamos de predecir es la variable dependiente.
Los cientficos saben, por ejemplo, que existe una relacin entre las ventas anuales de
latas de aerosoles y la cantidad de fluorocarburos liberados a la atmsfera cada ao. Si
estudiramos esta relacin, el nmero de latas de aerosol vendidas cada ao sera la
variable independiente y la cantidad de fluorocarburos liberados anualmente sera la
variable dependiente.
Consideremos otro ejemplo. Los economistas pueden basar sus predicciones del producto
interno bruto anual, o PIB, en el gasto final de consumo dentro de la economa. Por tanto,
el consumo final es la variable independiente y el PNB la variable dependiente.
En regresin, podemos tener slo una variable dependiente en la ecuacin de estimacin.
Sin embargo, podemos usar ms de una variable independiente. A menudo, cuando
agregamos variables independientes, mejoramos la exactitud de nuestra prediccin.
Los economistas, por ejemplo, con frecuencia aaden una segunda variable
independiente, el nivel de gasto de inversin, para mejorar su estimacin del PIB. Los
dos ejemplos de fluorocarburos y PIB son ilustraciones de asociaciones directas entre
variables independientes y dependientes. Al incrementarse la variable independiente, la
variable dependiente tambin lo hace.
De manera similar, esperamos que las ventas de una compaa se incrementen al
aumentar el presupuesto de publicidad. Podemos graficar una relacin directa de este
tipo colocando la variable independiente en el eje X y la variable dependiente en el eje Y.
La grfica (a) de la figura anterior muestra esto.
Note cmo la pendiente de la recta sube cuando X toma valores cada vez ms grandes.
Se dice que la pendiente de esta recta es positiva, porque Y crece si X crece.

Las
relaciones
pueden
ser
inversas en vez de directas. En
estos
casos,
la
variable
dependiente
disminuye
al
aumentar
la
variable
independiente.
El
gobierno
supone que existe una asociacin
inversa entre un mayor gasto
anual de una compaa en
dispositivos anticontaminantes y
menores emisiones contaminantes. La grfica (b) de la figura ilustra este tipo de relacin,
que se caracteriza por una pendiente negativa (la variable dependiente Y disminuye al
aumentar la variable independiente X).
A menudo encontramos una relacin causal entre variables, esto es, la variable
independiente causa cambios en la variable dependiente. ste es el caso en el
ejemplo de la contaminacin. Pero en muchos casos, otros factores ocasionan los
cambios tanto en las variables dependientes como en las independientes. Podramos
predecir las ventas de aretes de diamantes observando las de Cadillacs nuevos, pero no
podramos decir que una origina a la otra. Ms bien, nos damos cuenta que otro factor,
como el nivel de ingresos disponibles, es la causa de los niveles de ventas tanto de
Cadillacs como de aretes de diamantes.
Por esta razn, es importante considerar que las relaciones encontradas por la
regresin son relaciones de asociacin, pero no necesariamente de causa y
efecto. A menos que tenga razones especficas para creer que los valores de la
variable dependiente se originan por los valores de las variables
independientes, no infiera causalidad en las relaciones encontradas por la
regresin
Diagramas de dispersin
El primer paso para determinar si existe una relacin entre dos variables es examinar la
grfica de los datos observados (o conocidos). Esta grfica, o dibujo, se llama diagrama
de dispersin
Calificaciones de estudiantes en exmenes de admisin y promedios de generales
acumulados al graduarse
Estudiante

Calificaciones examen de admisin


Promedio acumulado

74
2.6

69
2.2

85
3.4

63
2.3

82
3.1

60
2.1

79
3.2

91
3.8

Un diagrama de dispersin nos puede dar dos tipos de informacin. Visualmente,


podemos identificar patrones que indiquen que las variables estn relacionadas. Si esto
sucede, podemos ver qu tipo de lnea, o ecuacin de estimacin, describe esta relacin.
Desarrollaremos y utilizaremos un diagrama de dispersin especfico. Suponga que el
director de admisiones de una universidad nos pide determinar si existe una relacin
entre las calificaciones de un estudiante en su examen de admisin y su promedio
general al graduarse.
El director ha reunido una muestra aleatoria de datos de los registros de la universidad.
La tabla de notas contiene esta informacin. Para comenzar, debemos realizar una
grfica. Puesto que el director desea utilizar las calificaciones de los exmenes para
pronosticar xitos en la universidad, hemos colocado el promedio de calificaciones
acumulado (la variable dependiente) en el eje vertical o Y, y la calificacin del examen de
admisin (la variable independiente) en el eje horizontal o X. La grafica nos muestra el
diagrama de dispersin completo. A primera vista se sabe por qu llamamos as al
diagrama de dispersin.
El patrn de puntos resulta al registrar cada par de datos de la tabla como un punto.
Cuando vemos todos estos puntos juntos, podemos visualizar la relacin que existe entre
las dos variables. Como resultado, podemos trazar, o ajustar una lnea recta a travs de
nuestro diagrama de dispersin para representar la relacin. Es comn intentar trazar
estas lneas de forma tal que un nmero igual de puntos caiga en cada lado de la lnea.

En este caso, la lnea trazada a travs de los puntos representa una relacin directa,
porque Y se incrementa al aumentar X. Como los puntos estn relativamente cerca de
esta lnea, podemos decir que existe un alto grado de asociacin entre las calificaciones
de exmenes y el promedio de calificaciones acumulativo. En la figura de las
calificaciones, podemos ver que la relacin descrita por los puntos est bien descrita por
una lnea recta. Por tanto, podemos decir que es una relacin lineal.
La relacin entre las variables X y Y tambin puede tomar la forma de una curva. Los
especialistas en estadstica la llaman relacin curvilnea. Los empleados de muchas
industrias, por ejemplo, experimentan lo que se denomina curva de aprendizaje, es
decir, al fabricar un nuevo producto, el tiempo requerido para producir una unidad se
reduce en alguna proporcin fija al duplicarse el nmero total de unidades. Una industria
de este tipo es la aviacin. El tiempo de fabricacin por unidad de una nueva aeronave
tiende a disminuir un 20% cada vez que se duplica el nmero de nuevos aviones
terminados. La figura anterior ilustra la relacin curvilnea de este fenmeno de curva de
aprendizaje. La direccin de la curva puede indicar si la relacin curvilnea es directa o
inversa. La curva de la figura anterior describe una relacin inversa porque Y disminuye
al aumentar X.
Para repasar las relaciones posibles en un diagrama de dispersin, examinemos las
grficas de la siguiente figura. Las grficas (a) y (b) muestran relaciones lineales directas
e inversas. Las grficas (c) y (d) son ejemplos de relaciones curvilneas que indican
asociaciones directas e inversas entre variables, respectivamente. La grfica (e) ilustra
una relacin lineal inversa con un patrn de puntos ampliamente disperso. Esta mayor
dispersin indica que existe menor grado de asociacin entre las variables independiente
y dependiente que el existente en la grfica (b). El patrn de puntos en la grfica (f)
parece indicar que no existe relacin entre las dos variables; por tanto, conocer el pasado
referente a una variable no nos permitir pronosticar ocurrencias futuras de la otra.

Anlisis de correlacin
El anlisis de correlacin es la herramienta estadstica que podemos usar para
describir el grado en el que una variable est linealmente relacionada con otra.
Con frecuencia, el anlisis de correlacin se utiliza junto con el de regresin para medir
qu tan bien la lnea de regresin explica los cambios de la variable dependiente, Y. Sin
embargo, la correlacin tambin se puede usar sola para medir el grado de asociacin
entre dos variables.
El siguiente diagrama resume el anlisis del coeficiente de correlacin entre dos variable:

Formula:
2

x
n ( x 2)

y 2
n ( y 2 )

n ( xy ) ( x ) ( y)
r=

Donde:
n: Nmero de pares u observaciones
x: es la suma de la variable x
y: es la suma de la variable y
x2: es la suma de los cuadrados variable x
y2: es la suma de los cuadrados variable y

(x)2: es la suma de la variable x elevada al cuadrado


(y)2: es la suma de la variable y elevada al cuadrado
xy: es la suma de los productos de x y y
Ejercicio:
Suponga que el gerente de ventas de Printer S: A: que tiene una gran fuerza de venta en
todo Huehuetenango y Quetzaltenango, quiere determinar si existe alguna relacin entre
el nmero de llamadas de venta realizadas en un mes con el nmero de copiadoras
vendidas en ese mes.
El gerente selecciona una muestra aleatoria de diez representantes y determina el
nmero de llamadas de venta realizadas por cada representante el mes pasado y el
nmero de copiadoras que vendi, la informacin se muestra en la siguiente tabla
Representante De Ventas
Jorge Prez
Maynor Lpez
Arnoldo Snchez
Eddy Lpez
Amanda Martnez
Maritza Reyes
Lizbeth Rivas
Yesenia Daz
Hubes Cifuentes
Ivn Garca

Diagrama de dispersin

llamad
as
20
40
20
20
10
10
20
20
20
30
210

Copiador
as
30
60
40
60
30
40
40
50
30
70

Coeficiente de correlacin
representa
nte
de
ventas
1
2
3
4
5
6
7
8
9
10

xy

X2

Y2

20
40
20
30
10
10
20
20
20
30
220

30
60
40
60
30
40
40
50
30
70
450

600
2400
800
1800
300
400
800
1000
600
2100
10800

400
1600
400
900
100
100
400
400
400
900
5600

900
3600
1600
3600
900
1600
1600
2500
900
4900
22100

Clculos:
suma de x

220

suma de y
media de x
media de y
suma xy
suma x al cuadrado
suma y al cuadrado
media de x al cuadrado
media de y al cuadrado

450
22
45
10800
5600
22100
484
2025

x 2
n ( x 2 )

y 2
n ( y 2)

n ( xy ) ( x ) ( y )
r=

220 2
10 ( 5600 )

450 2
10 ( 22100 )

10 ( 10800 )( 220 ) ( 450 )


r=

9000
9000
=
=0.759
( 7600 ) ( 18500 ) 11857.4870

Interpretacin: primero es positiva por lo que vemos que existe una relacin directa entre
el nmero de llamadas realizadas y el nmero de copiadoras vendidas. Esto confirma
nuestro razonamiento basado en el diagrama de dispersin.
El valor 0.759 est bastante cerca de 1, por lo que concluimos que la relacin entre las
variable es fuerte. Dicho de otra manera un aumento en un 25% de las llamadas
posiblemente aumente un 25% las ventas.
El coeficiente de determinacin

El coeficiente de determinacin es la proporcin de la variacin total de la variable


dependiente y que se explica o se debe a la variacin de la variable independiente x,
su frmula es:

r 2=r
Coeficiente de correlacin:
0.576

0.759 elevado al cuadrado: coeficiente de determinacin:

En el primer ejemplo, interpretamos el coeficiente de correlacin de 0.759 con respecto


de la relacin que existe entre las llamadas telefnicas y las ventas de fotocopiadoras y
se determino como fuerte. Una medicin que tiene una mejor interpretacin es el
coeficiente de determinacin que se calcula elevando al cuadrado el coeficiente de
correlacin:
El coeficiente de determinacin muestra se deriva de la relacin entre dos tipos de
variacin: la variacin de los valores Y en un conjunto de datos alrededor de
1. la recta de regresin ajustada;
2. su propia media.
A continuacin veremos otras formas de calcular el coeficiente de determinacin:
El trmino variacin en estos dos casos se utiliza en su sentido estadstico usual para
expresar la suma de los cuadrados de un grupo de desviaciones. Usando esta
definicin, entonces, es razonable expresar la variacin de los valores Y alrededor de la
recta de regresin con esta ecuacin:

La segunda variacin, la de los valores de Y alrededor de su propia media, est


determinada por:

Uno menos la razn entre estas dos variaciones es el coeficiente de determinacin


muestral, que se denota por r 2

Mtodo abreviado para obtener el coeficiente de determinacin de la muestra


Este mtodo se utiliza cuando no se tiene el resultado del coeficiente de correlacin, para
esto se necesitan los valores a y b. ms adelante se trabajaran los mismos, por el
momento solo se dan los valores:

De acuerdo a los datos mencionados anteriormente podemos obtener el coeficiente por


dos mtodos.
representa
nte
de
ventas
1
2
3
4
5
6
7
8
9
10

suma de x
suma de y
media de x
media de y
suma xy
suma x al cuadrado
suma y al cuadrado

Xy

Y2

20
40
20
30
10
10
20
20
20
30
220

30
60
40
60
30
40
40
50
30
70
450

600
2400
800
1800
300
400
800
1000
600
2100
10800

900
3600
1600
3600
900
1600
1600
2500
900
4900
22100

220
450
22
45
10800
5600
22100

media de x al cuadrado
media de y al cuadrado
valor de b

484
2025
1.184210
53

valor de a

18.94736
84

Coeficiente de determinacin en base al coeficiente de correlacin


2

r =0.759 =0.576

Coeficiente de determinacin en base a su formula

r=

18.94450+1.184210800102025 1,062.36
=
=0.5757
22100102025
1085

Como podemos observar por los dos mtodos el resultado es igual.


Conclusin el coeficiente de determinacin es de 0.576 que equivale a 57.6% por lo que
podemos decir que el 57.6% de las variables en el numero de copiadoras vendidas se
explica o se debe a la variacin en el nmero de llamadas de venta.
Ejercicio:
Las libreras de la universidad han vendido el libro Belive or Not: Wonders of statistics
Guide durante 12 semestres y desean estimar la relacin entre las ventas y el nmero de
secciones de estadstica elemental que se ensean en cada semestre. Se recolectaron los
siguientes datos:
Nmero
de
seccione
s (x)
3
7
6
6
10
12
12
13
12

Ventas
(y)
33
38
24
61
52
45
65
82
29

Xy

266
144
366
520
540
780
1066
348

X2

99 9
49
36
36
100
144
144
169
144

Y2

1089
1444
576
3721
2704
2025
4225
6724
841

13
14
15
123

63
50
79
621

819
700
1185
6833

169
196
225
1421

3969
2500
6241
36059

a. Dibuje el diagrama de dispersin

Ventas de libros de Estadistica


100
80
60
Ventas

40
20
0
2

10

Nmero de seccin

b. Calcule el coeficiente de correlacin

x 2
n ( x 2 )

y 2
n ( y 2)

n ( xy ) ( x ) ( y )
r=

12

14

16

123 2
12 (1,421 )

2
621
12 (36,059 )

12 ( 6,833 )( 123 ) ( 621 )


r=

5,613
5,613
=
=0.5899
9,513.66
( 1,923 ) ( 47,067 )

Interpretacin: primero es positiva por lo que vemos que existe una relacin directa entre
el nmero de secciones que reciben estadstica y el nmero de libros vendidos. Esto
confirma nuestro razonamiento basado en el diagrama de dispersin.
El valor 0.5899 est cerca de la mitad, por lo que concluimos que la relacin entre las
variable es moderada. Por lo que, aunque est relacionada, la venta de libros no esta
totalmente basada en el numero de secciones.
c. Calcule el coeficiente de determinacin

r 2=0.5899 2=0.3481
Conclusin el coeficiente de determinacin es de 0.3481 que equivale a 34.81 % por lo
que podemos decir que el 34.81 % de las variables en el nmero de libros vendidos se
explica o se debe a la variacin en el nmero de secciones que estn estudiando
estadstica.
Correlaciones Espurias
Cuando existe una relacin fuerte supongamos 0.94 entre 2 variables, podemos pensar
que un incremento o una disminucin en una variable causa un cambio en la otra
variable, por ejemplo:
Se puede mostrar que el consumo de manas y el consumo de aspirinas estn
fuertemente relacionados, sin embargo esto no indica que un aumento en el consumo de
manas cause tambin un incremento en el consumo de aspirinas.
Prueba de significancia del coeficiente de correlacin
Recordando el ejercicio de Printer, S. A. se encontr que la correlacin entre el nmero de
llamadas y el nmero de copiadoras vendidas era de 0.759 esto indica una fuerte

relacin entre las dos variables, sin embargo en la muestra nicamente se tomaron 10
vendedores podra ser que el coeficiente de correlacin fuera cero?
Esto significara que el coeficiente de correlacin de 0.759 fuera producto de la
casualidad.
La poblacin en este ejemplo son todas las personas empleadas en la empresa, para
resolver este problema necesita una prueba para contestar a la siguiente pregunta:
Podra tener la poblacin de la cual se tomo la muestra una correlacin de cero?
Para confirmar esta correlacin formularemos las siguientes hiptesis
Ho = p = 0 la correlacin en la poblacin es cero
H2 p = 0 la correlacin en la poblacin es diferente de cero
Por la manera como planteamos la hiptesis nula, sabemos que se trata de una prueba
de dos colas la frmula para t es =

t=

r n2
1r 2

Con n-2 grados de significancia


No se
rechaza.

Regin de
rechazo

Regin de
rechazo

10-2= 8 grados de libertad


2.306 = gl/0.005 nivel de significancia de dos colas

t=

0.759 8 2.146776188
=
=3.297
10.576 0.651090623

Conclusin:
Para una prueba de significancia de 0.02 el valor crtico es de 2.896 y el valor crtico para
un nivel de significancia de 0.01 es de 0.355

Tabla de valores crticos de la distribucin t de Student


Niveles de Significancia DOS
COLA
0.50
0.25
0.20
0.10
0.05
0.02
0
0
0
0
0
5
0.020
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

1.00
0.82
0.76
0.74
0.73
0.72
0.71
0.71
0.70
0.70
0.70
0.70
0.69
0.69
0.69
0.69
0.69
0.69
0.69
0.69
0.69
0.69
0.69
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.68
0.25
0

2.41
1.60
1.42
1.34
1.30
1.27
1.25
1.24
1.23
1.22
1.21
1.21
1.20
1.20
1.20
1.19
1.19
1.19
1.19
1.18
1.18
1.18
1.18
1.18
1.18
1.18
1.18
1.17
1.17
1.17
1.17
1.17
1.17
1.17
1.17
1.17
1.17
1.17
1.17
1.17
0.12
5

3.08
6.31
1.89
2.92
1.64
2.35
1.53
2.13
1.48
2.02
1.44
1.94
1.41
1.89
1.40
1.86
1.38
1.83
1.37
1.81
1.36
1.80
1.36
1.78
1.35
1.77
1.35
1.76
1.34
1.75
1.34
1.75
1.33
1.74
1.33
1.73
1.33
1.73
1.33
1.72
1.32
1.72
1.32
1.72
1.32
1.71
1.32
1.71
1.32
1.71
1.31
1.71
1.31
1.70
1.31
1.70
1.31
1.70
1.31
1.70
1.31
1.70
1.31
1.69
1.31
1.69
1.31
1.69
1.31
1.69
1.31
1.69
1.30
1.69
1.30
1.69
1.30
1.68
1.30
1.68
0.10
0.05
0
0
Niveles de
COLA

12.71 25.45
4.30
6.21
3.18
4.18
2.78
3.50
2.57
3.16
2.45
2.97
2.36
2.84
2.31
2.75
2.26
2.69
2.23
2.63
2.20
2.59
2.18
2.56
2.16
2.53
2.14
2.51
2.13
2.49
2.12
2.47
2.11
2.46
2.10
2.45
2.09
2.43
2.09
2.42
2.08
2.41
2.07
2.41
2.07
2.40
2.06
2.39
2.06
2.38
2.06
2.38
2.05
2.37
2.05
2.37
2.05
2.36
2.04
2.36
2.04
2.36
2.04
2.35
2.03
2.35
2.03
2.35
2.03
2.34
2.03
2.34
2.03
2.34
2.02
2.33
2.02
2.33
2.02
2.33
0.02
0.01
5
3
Significancia

31.82
6.96
4.54
3.75
3.36
3.14
3.00
2.90
2.82
2.76
2.72
2.68
2.65
2.62
2.60
2.58
2.57
2.55
2.54
2.53
2.52
2.51
2.50
2.49
2.49
2.48
2.47
2.47
2.46
2.46
2.45
2.45
2.44
2.44
2.44
2.43
2.43
2.43
2.43
2.42
0.010
UNA

0.01
0
63.66
9.92
5.84
4.60
4.03
3.71
3.50
3.36
3.25
3.17
3.11
3.05
3.01
2.98
2.95
2.92
2.90
2.88
2.86
2.85
2.83
2.82
2.81
2.80
2.79
2.78
2.77
2.76
2.76
2.75
2.74
2.74
2.73
2.73
2.72
2.72
2.72
2.71
2.71
2.70
0.00
5

0.00
5
127.3
2
14.09
7.45
5.60
4.77
4.32
4.03
3.83
3.69
3.58
3.50
3.43
3.37
3.33
3.29
3.25
3.22
3.20
3.17
3.15
3.14
3.12
3.10
3.09
3.08
3.07
3.06
3.05
3.04
3.03
3.02
3.01
3.01
3.00
3.00
2.99
2.99
2.98
2.98
2.97
0.00
3

Estimacin mediante la recta de regresin


En los diagramas de dispersin que hemos utilizado hasta ahora, se colocaron las lneas
de regresin ajustando las lneas visualmente entre los puntos de datos. En esta seccin,
aprenderemos a calcular la lnea de regresin de manera ms precisa, usando una
ecuacin que relaciona las dos variables matemticamente.
Aqu, examinaremos slo relaciones lineales entre dos variables; estudiaremos las
relaciones entre ms de dos variables en el siguiente captulo.
La ecuacin para una lnea recta donde la variable dependiente Y est determinada por la
variable independiente X es:

Usando esta ecuacin, podemos tomar un valor dado de X y calcular el valor de Y. La a se


denomina la ordenada Y porque su valor es el punto en el cual la lnea de regresin
cruza el eje Y, es decir, el eje vertical. La b en la ecuacin 12-1 es la pendiente de la
recta.
Representan qu tanto cada cambio de una unidad de la variable independiente X hace
que cambie la variable dependiente Y. Tanto a como b son constantes numricas porque
para cualquier lnea recta dada, sus valores no cambian. Supongamos que sabemos que
a es 3 y b es 2. Determinemos cul sera Y para X igual a 5. Al sustituir los valores de a, b
y X en la ecuacin, encontramos que el valor correspondiente de Y es:
Y= a+bx
=3+2(5)
=3+10
=13 valor de y dada x= 5

Pendiente de una lnea recta

b=

75 2
= =2 pendiente de larecta
21 1

De esta manera, podemos conocer los valores de las constantes numricas, a y b, y


escribir la ecuacin de la recta, por tanto
Y = x + bx
Y= 3+2x
Usando esta ecuacin, podemos determinar el valor correspondiente de la variable
dependiente para cualquier valor de X.
Si sustituye ms valores de X en la ecuacin, observar que Y se incrementa al aumentar
X. Por tanto, la relacin entre las variables es directa y la pendiente es positiva
En la siguiente grafica vemos que cruza el eje y en 6, Por lo tanto sabemos que a = 6. Si
seleccionamos los dos puntos donde (X1, Y1) = (0, 6) y (X2, Y2) = (1, 3), encontraremos
que la pendiente de la recta es

2 x 1

36 3
= =3
10 1
y 2 y

b=
1

Observe que cuando b es negativa, la recta representa una relacin inversa, y la


pendiente es negativa (Y disminuye al aumentar X). Una vez determinados los valores
numricos de a y b, podemos sustituirlos en la ecuacin general de la lnea recta:

y=a+bc
y=6+ (3 ) x
y=63 x
Suponga que deseamos encontrar el valor de la variable dependiente que corresponde a
X = 2.
Y= 6 3(2)
Y = 6 -6
Y= 0
Por tanto, cuando X = 2, Y debe ser igual a 0. Si consultamos la lnea de la siguiente
figura, podemos ver que el punto (2, 0) s est en la recta.

El mtodo de mnimos cuadrados


Ahora que hemos visto cmo determinar la ecuacin de una lnea recta, pensemos cmo
calcular una ecuacin para una lnea dibujada en medio de un conjunto de puntos de un
diagrama de dispersin. Cmo podemos ajustar una recta matemticamente si
ninguno de los puntos est sobre ella? Para un especialista en estadstica, la lnea tendr
un buen ajuste si minimiza el error entre los puntos estimados en la recta y los puntos
observados reales que se utilizaron para trazarla.
Antes de proceder, necesitamos introducir un nuevo smbolo. Hasta ahora, hemos
utilizado Y para representar los valores individuales de los puntos observados medidos a
lo largo del eje Y. Ahora debemos comenzar a usar Y (ye gorro) para simbolizar los
valores individuales de los puntos estimados, esto es, aquellos puntos que estn en la
lnea de estimacin. En consecuencia, escribiremos la ecuacin para la lnea de
estimacin como

A continuacin tenemos dos lneas de estimacin que se han ajustado al mismo conjunto
de tres puntos. Estos tres puntos dados, u observados, se muestran en negro. Se han
trazado dos lneas muy diferentes para describir la relacin entre las dos variables.
Obviamente, necesitamos una forma de decidir cul de estas lneas nos proporciona un
mejor ajuste.
Una forma en que podemos medir el error de nuestra lnea de estimacin es sumando
todas las diferencias, o errores, individuales entre los puntos estimados mostrados en
crculo y los puntos observados mostrados en negro. En la primera tabla, calculamos las
diferencias individuales entre las Y correspondientes y Y, y luego encontramos la suma de
estas diferencias.

Grfica(a)
Suma
de
Y - Y
errores de las
dos lneas de 8 - 6 = 2
estimacin de 1 - 5 = -4
la
figura 6 - 4 = 2
anterior
0 Error total
Suma de los
valores
absolutos
del
error de las
dos lneas de
estimacin de
la
figura
anterior

Grfica (a)
|Y - Y |

Grfica(b)
Y - Y

8-2= 6
1 - 5 = -4
6 - 8 = -2
Error total
Grfica (b)
|Y - Y |

|8 - 6| = 2
|1 - 5| = 4
|6 - 4| = 2

|8 - 2| = 6
|1 - 5| = 4
|6 - 8| = 2
8 = Error absoluto total
Error absoluto total

12 =

Un rpido examen visual de las dos lneas de estimacin de la grafica revela que la lnea
de la grfica (a) se ajusta a los tres puntos de datos mejor que la lnea de la grfica (b) .*
Sin embargo, nuestro proceso de suma de las diferencias individuales de la primera tabla,
indica que ambas lneas describen los datos igualmente bien (el error total en ambos
casos es cero). Por tanto, debemos concluir que el proceso de suma de las diferencias
individuales para calcular el error no es una forma confiable de juzgar la bondad de
ajuste de una lnea de estimacin.
El problema al sumar los errores individuales es el efecto de cancelacin de los valores
positivos y negativos. De esto, podramos deducir que el criterio adecuado para juzgar la
bondad del ajuste sera sumar los valores absolutos (los valores sin los signos
algebraicos) de cada error. Hemos hecho esto en la segunda tabla (El smbolo del valor
absoluto son dos lneas verticales paralelas, ||.) Como el error absoluto en la grfica (a) es
menor que el error absoluto en la grfica (b), dado que buscamos el mnimo error
absoluto, confirmamos nuestra impresin intuitiva de que la lnea de estimacin de la
grfica (a) es el mejor ajuste.
Con base en este xito, podramos concluir que la minimizacin de la suma de los valores
absolutos de los errores es el mejor criterio para encontrar un buen ajuste. Pero antes de
sentirnos demasiado cmodos con l, debemos examinar una situacin distinta.

Podemos

razonar que esto es as al observar que mientras ambas lneas de estimacin se separan
del segundo y tercer punto (de izquierda a derecha) una distancia igual, la lnea de la
grfica (a) se separa del primer punto una distancia mucho menor que la lnea de la
grfica (b)
La figura anterior nuevamente presenta dos diagramas de dispersin idnticos con dos
lneas de estimacin diferentes ajustadas a los tres datos puntuales. En la tabla anterior,
sumamos los valores absolutos de los errores y encontramos que la lnea de estimacin
de la grfica (a) es un mejor ajuste que la de la grfica (b).
Intuitivamente, sin embargo, pareciera que la lnea de la grfica (b) es la mejor lnea de
ajuste, porque se ha movido verticalmente para tomar el punto medio en consideracin.
La grfica (a), por otra parte, parece ignorar completamente el punto medio. As que tal
vez descartaramos este segundo criterio para encontrar el mejor ajuste. Por qu?
La suma de los valores absolutos no hace hincapi en la magnitud del error.
Parece razonable que mientras ms lejos est un punto de la lnea de estimacin, ms
serio es el error. Preferiramos tener varios errores absolutos pequeos que uno grande,
como vimos en el ejemplo anterior. En efecto, deseamos encontrar una forma de
penalizar errores absolutos grandes, para poder evitarlos. Podemos lograr
esto si elevamos al cuadrado los errores individuales antes de sumarlos. Los
cuadrados de cada trmino logran dos objetivos:
1. Magnifica, o penaliza, los errores ms grandes.
2. Cancela el efecto de los valores positivos y negativos (un error negativo al
cuadrado sigue siendo positivo).
Como estamos buscando la lnea de estimacin que minimiza la suma de los cuadrados
de los errores, a esto le llamamos mtodo de mnimos cuadrados
Apliquemos el criterio de mnimos cuadrados al problema de la figura anterior. Una vez
que organizamos los datos y sumamos los cuadrados de la segunda tabla, vemos que, tal
como lo pensamos, la lnea de estimacin en la grfica (b) es el mejor ajuste.
Usando el criterio de los mnimos cuadrados, podemos determinar si una lnea de
estimacin es mejor ajuste que otro. Pero para un conjunto de puntos a travs de los

cuales podramos trazar un nmero infinito de lneas de estimacin, cmo podemos


saber cundo hemos encontrado la recta del mejor ajuste?
Suma de
valores
solutos de
errores de
dos lneas
estimacin

los
ablos
las
de

Grfica (a)
Grfica (b)
|Y - Y |
|Y - Y |
|4 - 4| = 0
|4 - 5| = 1
|7 - 3| = 4
|7 - 4| = 3
|2 - 2| = 0
|2 - 3| = 1
4 Error absoluto total
absoluto total
Grfica (a)
(b)
Aplicacin del
(Y - Y )2
criterio
de
Y )2
mnimos
(4 - 4)2 = (0)2 = 0
cuadrados
a
2
las lneas de 1) = 1
estimacin
(7 - 3)2 = (4)2 = 16

5 Error
Grfica
(Y (4 - 5)2 = ((7 - 4)2 = (

3)2 = 9
(2 - 2)2 = (0)2 = 0

(2- 3)2 = (-

Los estadsticos han desarrollado dos ecuaciones que podemos utilizar para encontrar la
pendiente y la ordenada Y de la recta de regresin de mejor ajuste. La primera frmula
calcula la pendiente:

Donde,
b_ pendiente de la lnea de estimacin de mejor ajuste
X = valores de la variable independiente
Y = valores de la variable dependiente
X = media de los valores de la variable independiente
Y = media de los valores de la variable dependiente
n = nmero de puntos (es decir, el nmero de pares de valores de las variables
independiente y dependiente)
La segunda frmula calcula la ordenada Y de la recta cuya pendiente calculamos usando
la ecuacin anterior

Donde,
a = ordenada Y
b = pendiente de la ecuacin
Y_ _ media de los valores de la variable dependiente
X_ _ media de los valores de la variable independiente
Con estas dos ecuaciones, podemos encontrar la recta de regresin de mejor ajuste para
cualquier conjunto de puntos para dos variables.
Uso del mtodo de mnimos cuadrados
Suponga que la directora del Departamento de Salubridad de Chapel Hill est interesada
en la relacin que existe entre la antigedad de un camin de basura y los gastos
anuales de reparacin que debe esperar. Con el fin de determinar esta relacin, la
directora ha reunido informacin de cuatro de los camiones de la ciudad
El primer paso para calcular la recta de regresin de este problema es organizar los datos
como se resumen en la tabla. Esto nos permite sustituirlos directamente en las
ecuaciones para encontrar la pendiente y la ordenada Y de la recta de regresin de mejor
ajuste. La pendiente es:
2

44( 4 )
xyn x y 78( 4 )( 3 ) ( 6)
b=
=
2
2

x n x
Y la ordenada y es:

a= y b x =6( 0.75 )( 3 )=3.75 ordenada y


Ahora, para obtener la ecuacin de estimacin que describe la relacin entre la
antigedad de un camin y sus gastos anuales de reparacin, podemos sustituir los
valores de a y b en la ecuacin general para una lnea recta:

^y =a+bx=3.75+0.75 x

Nmero
camin
101
102
103
104

del

Antigedad
del camin en
aos (x)
5
3
3
1

Gastos
de
rep. Durante
el ltimo ao
en
cientos
de dlares
7
7
6
4

Xy

X2

35
21
18
4

25
9
9
1

Sumas

12

24

x =

12
=3 media de los valores de lavariable independiente
4

y =

24
=6 media de los valores de la variable dependiente
4

78

44

Utilizando esta ecuacin de estimacin (que podramos graficar como una recta de
regresin si as lo deseramos), la directora del Departamento de Salubridad puede
estimar los gastos anuales de reparacin, dada la antigedad de su equipo. Si, por
ejemplo, la ciudad tiene un camin de 4 aos de antigedad, la directora podra usar la
ecuacin para predecir los gastos anuales de reparacin para este camin de la siguiente
manera:

^y =3.75+ 0.75 ( 4 ) =3.75+3=6.75 Gastos anuales de reparacin esperados de 675.00


As, se calculara que la ciudad gasta aproximadamente $675 al ao en reparaciones de
un camin de 4 aos de antigedad
El error estndar de la estimacin
El siguiente proceso que debemos aprender en nuestro estudio del anlisis de regresin
es cmo medir la confiabilidad de la ecuacin de estimacin desarrollada. Aludimos a
este tema cuando introdujimos los diagramas de dispersin; en ese punto, nos dimos
cuenta intuitivamente de que una lnea ser ms exacta como estimador cuando los
datos puntuales caen cerca de la lnea, que cuando los puntos estn alejados de la lnea.
Para medir la confiabilidad de la ecuacin de estimacin, los especialistas en estadstica
han desarrollado el error estndar de la estimacin. Este error estndar se simboliza por
se y es similar a la desviacin estndar, en cuanto a que ambas son medidas de
dispersin. Recordar que la desviacin estndar se utiliza para medir la dispersin de un
conjunto de observaciones respecto a la media.
El error estndar de la estimacin, por otra parte, mide la variabilidad, o
dispersin, de los valores observados alrededor de la recta de regresin. Aun
as, ver la similitud entre el error estndar de la estimacin y la desviacin estndar.

Y = valores de la variable dependiente


Y = valores estimados con la ecuacin de estimacin que corresponden a cada valor
de Y
n = nmero de puntos utilizados para ajustar la lnea de regresin

Observe que, en la ecuacin, la suma de las desviaciones al cuadrado se divide entre n _


2 y no entre n. Esto sucede porque perdimos dos grados de libertad al estimar la recta de
regresin. Podemos razonar que, dado que los valores de a y b se obtuvieron de una
muestra de datos puntuales, perdemos dos grados de libertad cuando usamos estos
puntos para estimar la recta de regresin.
Ahora, no referiremos de nuevo al ejemplo anterior de la directora del Departamento de
Salubridad que relacionaba la antigedad de sus camiones con la cantidad de
reparaciones anuales. Encontramos que la ecuacin de estimacin en esa situacin era:
Y = 3.75 + 0.75X
Donde X es la antigedad del camin y Y la cantidad estimada de reparaciones anuales
(en cientos de dlares).
X

Error
individu
al
3.75+(0.75)
(5)
3.75+(0.75)
(3)
3.75+(0.75)
(3)
3.75+(0.75)
(1)

7.5

-0.5

0.25

4.5

-0.5

0.25
1.5

( y ^y2 )
S e=
n2
1.50

= 0.75=0.866 error estandar de estimacin 86.60


42

Uso de un mtodo abreviado para calcular el error estndar de la estimacin


Para usar la ecuacin anterior, debemos hacer la tediosa serie de clculos descritos en la
tabla. Para cada valor de y, debemos calcular el valor correspondiente de Y.
Afortunadamente, podemos eliminar algunos pasos de esta tarea al usar el camino corto
con la siguiente ecuacin

Donde,
X = valores de la variable independiente
Y = valores de la variable dependiente
a = ordenada Y de la ecuacin 12-5
b = pendiente de la ecuacin de estimacin de la ecuacin 12-4
n = nmero de puntos
Esta ecuacin es un atajo, porque al organizar primero los datos de este problema para
calcular la pendiente y la ordena y, determinamos cada valor que necesitamos para la
ecuacin
Camion
es
101
102
103
104
Sumas

xy

X2

y2

5
3
3
1
12

7
7
6
4
24

35
21
18
4
78

25
9
9
1
44

49
49
36
16
150

As tenemos los datos para el mtodo abreviado.

se=

150 (3.75 )( 24 )( 0.75 ) (78)


y 2a yb xy
1509058.5
=
=
= 0.75=0.866 eroor estandar de $ 86
n2
42
2

Interpretacin del error estndar de la estimacin


Como ocurra en el caso de la desviacin estndar, mientras ms grande sea el error
estndar de la estimacin, mayor ser la dispersin de los puntos alrededor de la lnea de
regresin. De manera inversa, si se = 0, esperamos que la ecuacin de estimacin sea un
estimador perfecto de la variable dependiente. En ese caso, todos los puntos caeran
directamente sobre la lnea de regresin y no habra puntos dispersos alrededor.
Usaremos el error estndar de la estimacin como una herramienta, de la misma forma
que podemos usar la desviacin estndar. Esto es, suponiendo que los puntos observados
siguen una distribucin normal alrededor de la recta de regresin, podemos esperar
encontrar el 68% de los puntos dentro de 1se (o ms menos 1 error estndar de la
estimacin), el 95.5% de los
puntos dentro de 2se y el 99.7%
de los puntos dentro de 3se.
La siguiente figura ilustra estos
lmites alrededor de la lnea de
regresin.
Otra
cosa
que
debemos observar en la figura
es que el error estndar de la
estimacin se mide a lo largo
del
eje
Y,
y
no

perpendicularmente desde la recta de regresin. En este punto, debemos


establecer las suposiciones necesarias, ya que pronto haremos algunas afirmaciones
probabilsticas. Especficamente:
1. Los valores observados para Y tienen distribucin normal alrededor de cada valor
estimado de Y.
2. La varianza de las distribuciones alrededor de cada valor posible de Y es la
misma.
Si esta segunda suposicin no fuera cierta, entonces el error estndar en un punto de la
recta de regresin podra diferir del error estndar en otro punto.

Anlisis de Regresin Mltiple


La regresin mltiple y el anlisis de correlacin implican un proceso de tres pasos como
el que usamos en la regresin simple. En este proceso:
1. Describimos la ecuacin de regresin mltiple;
2. Examinamos el error estndar de regresin mltiple de la estimacin, y
3. Utilizamos el anlisis de correlacin mltiple para determinar qu tan bien la ecuacin
de regresin describe los datos observados.
Adems, en la regresin mltiple podemos observar cada una de las variables
independientes y probar si contribuyen de manera significativa a la forma en que la
regresin describe los datos.

Donde
Y =valor estimado correspondiente a la variable dependiente
a = ordenada Y
X1 y X2 = valores de las dos variables independientes
b1 y b2 = pendientes asociadas con X1 y X2, respectivamente. En cuanto b1 es el
cambio en y por cada cambio en una unidad de x1, permaneciendo x2 constantes se le
llama coeficiente de regresin parcial, coeficiente de regresin neto o simplemente
coeficiente de regresin
Y b2 es el cambio neto en y por cada cambio de una unidad en x2, permaneciendo x1
constante.
Para ilustrar la interpretacin de a y de los coeficientes de regresin suponga que:
La cantidad de millas que recorre un coche por galn de gasolina est directamente
relacionada con el octanaje de los galos que se use (x) e inversamente relacionadas con
el peso del automvil (x2) y que la ecuacin de regresin mltiple es:

y=6.3+ 0.2 ( x 1) + (0.001x 2 )


El valor del .3 indica que el plano de regresin intercepta al eje y en el punto 6.3 cuando
x1 y x2 son ambos cero.
El valor 0.2 para la b1 indica que por cada aumento de un punto en el octanaje de la
gasolina el automvil recorrer 2/10 ms de milla por galn, sin importar el preso del
vehculo mantenindose constate el peso del mismo.
El valor -0.001 indica que por cada libra que aumente el peso del vehculo, el nmero de
millas que recorre el carro por galn disminuye 0.001 esto sin importar el octanaje de la
gasolina que se use.

Ejemplo:
Un automvil que tenga en el tanque gasolina de 92 octanos y que pese 2,000 libras
Cuntas millas en promedio por galn puede recorrer?

)=6.3+18.42=22.7
y=6.3+ 0.2 ( 92 ) + (0.0012000
Conclusin: podr recorrer 22.7 millas en promedio con los datos estimados.
Correlacin de Rango
ste es una medida de la correlacin que existe entre los dos conjuntos de
rangos, una medida del grado de asociacin entre las variables que no
podramos calcular de otra manera.
Una segunda razn para aprender el mtodo de correlacin de rango es la posibilidad de
simplificar el proceso de clculo de un coeficiente de correlacin a partir de un conjunto
de datos muy grande para cada una de las dos variables.

Coeficiente de Correlacin de Rango de Spearman

Donde:

rs= coeficiente de correlacin de rangos (observe que el subndice s, de Spearman,


distingue esta r de la calculada anteriormente o conocida como Correlacin de
pearson)

n = nmero de observaciones apareadas

= notacin que significa la suma de

d = diferencia entre los rangos para cada pareja de observaciones que esta dado
por:
o

xi= rango del articulo i respecto a una variable

yi= rango del articulo i respecto a una segunda variable.

Ejemplo:
Una empresa desea determinar si las personas que en el momento de ser contratas se
consideraban con un buen potencial de ser buenos vendedores, ahora que ya tienen el
empleo, presentan los mejores historiales de ventas.
Para investigar este asunto el vicepresidente del personal repaso con cuidado los
resmenes de entrevistas de contratacin, las calificaciones acadmicas y las cartas de
recomendacin, para 10 individuos en funcin de su potencia de xito, basando la
evaluacin solo en la informacin disponible al momento de la contratacin.
A continuacin formo una lista de la cantidad de unidades que cada vendedor, vendi en
sus primeros dos aos. Asimismo con base en el desempeo real como vendedor se hizo
una segunda clasificacin de los 10 vendedores.
Vendedor
A
B
C
D
E
F
G
H
I
J

lugar en
potencial
2
4
7
1
6
3
10
9
8
5

Ventas en dos
aos
400
360
300
295
280
350
200
260
220
385

lugar
real
1
3
5
6
7
4
10
8
9
2

Di

di2

1
1
2
-5
-1
-1
0
1
-1
3

1
1
4
25
1
1
0
1
1
9
44

El dilema estadstico consiste en determinar si habr concordancia entre la clasificacin


del potencial en el momento de la contratacin y la basada en el desempeo real como
vendedor durante los primeros dos aos para lo cual es necesario calcular el coeficiente
de correlacin de rango de spearman para los datos indicados:

r s =1

644
264
=1
=10.26667=0.733
2
990
10(10 1)

El coeficiente de correlacin de rango de Spearman puede valer +1 a -1 y su


interpretacin es parecida al coeficiente de correlacin de la muestra, porque los valores
cercanos a uno (1) indican que existe una fuerte asociacin ente las dos variables, a
medida que aumente un rango el otro tambin aumenta, las correlaciones de rango
cercanas o menos uno (-1) indican que existe una fuerte asociacin negativa entre las
dos variables al aumentar un rango el otro decrece.
Conclusin: para el caso de los vendedores el coeficiente de correlacin de rango de
Spearman es de 0.733 indica que existe una correlacin positiva entre el desempeo
potencial y el desempeo real.

A los individuos que al momento de su contratacin ocuparon lugares altos tienden a


desempearse en la realidad como buenos vendedores.
Ejemplo 2:
La clasificacin de una muestra de golfistas profesionales en 2,011 en cuanto a distancia
por golpe y a entrar en el hoyo es la siguiente.
Golfista
1
2
3
4
5
6
7
8
9
10

distancia por golpe


1
5
4
9
6
10
2
3
7
8

Hoyos
5
6
10
2
7
3
8
9
4
1

Di
-4
-1
-6
7
-1
7
-6
-6
3
7

di2
16
1
36
49
1
49
36
36
9
49
282

Determinar el coeficiente de correlacin de rango de Spearman:

r s =1

6282
1692
=1
=11.090=0.7090
2
990
10(10 1)

Conclusin:
En cuanto al coeficiente de correlacin de rango de los golfistas profesionales indica que
la relacin es negativa fuerte, entendindose que entre la distancia tenga el golpe menos
hoyos har cada golfista.

S-ar putea să vă placă și