Sunteți pe pagina 1din 13

3.

Asociacin, Correlacin y Regresin Lineal


3.1. Asociacin y Causalidad

Algunos sucesos o circunstancias tienden a seguir a otros cuando ocurren en el tiempo. Si


varios de estos sucesos que ocurren repetidamente en el tiempo tienen ciertas cualidades,
los observadores podran llegar a pensar que estn asociados de alguna manera. En ciertos
casos se puede ir ms lejos y pensar que un tipo de suceso es causa para otro, hablando de
relaciones causales o de causa y efecto.

Podemos decir , por ejemplo, que los gatos por consumo de una familia estn asociados a
su ingreso. Si el consumo aumenta (o disminuye) en la proporcin que el ingreso, podemos
pensar en una relacin causal. Sin embargo, las observaciones muestran que esto no es as
cuando los ingresos regulares aumentan en grandes cantidades: parte se ahorra o invierte.
Entonces, existe algn tipo de asociacin que no es causal.

En otros casos existen asociaciones de otro tipo, causadas indirectamente por terceras
variables. Por ejemplo, podemos observar que, a medida que aumenta el nmero de
televisores por familia, disminuye el nmero de hijos. Esto no quiere decir que la TV sea el
mejor anticonceptivo. Ms bien hay que pensar en que la cantidad de aparatos receptores
de televisin est ligada al ingreso y que, por otras razones, las familias de altos ingresos
tienen menos hijos.

Una asociacin o relacin estadstica, por fuerte y sugerente que sea, jams puede
establecer una asociacin causal. Las ideas de causa y efecto deben salir de otros mbitos
y no de la estadstica. Por ejemplo, la relacin entre la lluvia y el rendimiento de las
cosechas es un caso en el que consideraciones no estadsticas precisan una asimetra de la
situacin: se dice que la lluvia ocasiona una variacin en las cosechas, pero jams se podra
pensar esto al revs, es decir, que un aumento de cosecha implique un aumento de lluvia.

Aun cuando, en el caso anterior, no existan razones estadsticas para descartar la idea de un
efecto en las lluvias causado por las cosechas, el descarte de esta alternativa se basa en otro
tipo de consideraciones.

Como contrapartida de estas asociaciones estadsticas, existe el concepto de


independencia. As, el color caf del cabello de una persona est relacionado al tipo de
instrumento que use para escribir, por ejemplo, una lapicera.

El tema de este captulo se encuentra ampliamente tratado en la literatura cientfica y


tcnica, y es sumamente extenso. Nos centraremos en revisar los tipos de asociaciones y a
estudiar uno de ellos, el referente a la correlacin entre variables (cualitativas), que fue
desarrollado a comienzos del siglo pasado por Karl Pearson y George Udny Yule, entre
otros.

3.2. Qu asociar?

32
Recin se apunt a una asociacin entre variables. En estos casos se determinan dos a ms
variables en una poblacin o muestra de individuos.

Puede ser interesante, por ejemplo, saber si el contorno del busto entre las mujeres est
asociado a su estatura, si la temperatura influye en el tamao de los objetos o si el tipo de
corteza de cierta especie de rboles est relacionada con la presencia de cierto compuesto
qumico en la madera.

En la teora estadstica encontramos estadgrafos, usualmente llamados coeficientes de


correlacin, que nos permiten detectar si existe o no asociacin entre variables, y si existe,
qu tan fuerte es.

Tambin podemos asociar objetos o individuos. As, por ejemplo, podemos determinar
caractersticas en los seres humanos y agruparlos segn que tan parecidos sean, originando
la clasificacin en razas humanas. En otro caso, puede interesar la distancia que hay entre
islas para saber si estn asociadas, dando origen o no a archipilagos. Al asociar individuos,
el inters se centra en clasificarlos o agruparlos, lo que se hace a travs de estadgrafos
conocidos como coeficientes de similitud o medidas de distancia, tema que no tratar en
estos apuntes.

3.3. Tipos de asociacin

Al considerar los tipos de asociacin que pueden existir entre variables, tenemos una
primera clasificacin global en las siguientes tres categoras:

A) Independencia: En este caso, las variables no estn estadsticamente asociadas. Las


probabilidades de sucesos compuestos de casos correspondientes a variables
independientes se obtienen multiplicando las probabilidades individuales. Por ejemplo,
en una fiesta grande puede ocurrir que el 5% de las jvenes sean rubias y el 2% se
movilice en moto. La proporcin de jvenes que cumplan ambas condiciones ser el
producto 0.05 0.02 = 0.001 .

Al revs, las caractersticas de color, peso y tamao no son independientes de las razas
caninas, esto es lo que nos permite distinguir un chihuahua de un gran dans.

B) Dependencia funcional: La dependencia funcional se encuentra al relacionar variables a


travs de frmulas matemticas en las que no hay posibilidad de error. Son casos tpicos
de la fsica clsica. As, por ejemplo, la ley de Boyle establece que, si la temperatura es
constante, la presin P y el volumen V de cierta cantidad de gas estn relacionados por
la ecuacin P V = constante . Si queremos tomar en cuenta la temperatura T,
modificamos la ecuacin anterior obteniendo una relacin para las tres variables por la
P V
ecuacin = constante .
T

Esta materia es de inters estadstico debido a que las variables asociadas


funcionalmente estn, sin embargo, sujetas a errores y/o precisiones en instrumentos u

33
observadores que las miden. Cuando esto se toma en cuenta, la relacin funcional pasa
a ser una relacin estadstica.

C) Asociacin Estadstica: La mayor parte de asociacin estadstica nacen al interesarnos


por la distribucin conjunta de dos variables.

Si una categora de sucesos (por ejemplo, peso de las personas entre 70 y 80 kg) ocurre
con cierta proporcin p de los casos, y otra categora (por ejemplo, estatura entre 160 y
170 cm) ocurre con una proporcin q, los dos tipos de evento ocurrirn a la vez en
algunos miembros del grupo de estudio. De hecho, en una proporcin p q , si fueran
independientes.

En un sentido que no es tcnico, la existencia de personas con peso entre los 70 y 80 kg


y estaturas entre 160 y 170 cm, indica que ambos tipos de suceso ests asociados en
estos individuos. Pero esto no es evidencia que la asociacin sea estadstica.

Por asociacin estadstica queremos expresar que la proporcin de personas que


presentan ambos tipos de sucesos es, o bien, significativamente ms alta, o bien,
significativamente ms baja que la proporcin esperada sobre la base de una
consideracin simultnea de las frecuencias, calculadas por separado, de ambas
categoras de sucesos.

Consideremos otro ejemplo donde tenemos 200 personas idnticas. A 100 de ellas se
les vacuna contra la influenza (grupo experimental) y a las otras 100 se les administra
un placebo. En una epidemia posterior, ambos grupos quedan igualmente expuestos a la
enfermedad y 20 de los vacunados se contagian, mientras que lo mismo ocurre con 50
de los no vacunados. Siendo imposible atribuir estos resultados al azar, debemos
concluir que el hecho de estar vacunado est asociado a no contraer la enfermedad. Ms
an, se puede pensar que esta asociacin es de tipo casual.

Sin embargo, si miramos un individuo en particular, no es posible afirmar que la vacuna


sea la causa por la que no se contagi, pues hay ejemplos de personas vacunadas que s
se contagiaron y de individuos sin influenza que no estaban vacunados. Incluso se
podra decir que esas personas se contagiaron debido a que s estaban vacunadas!,
aunque la tendencia general haya sido en direccin opuesta.

Dentro de las asociaciones estadsticas podemos distinguir relaciones de


interdependencia y relaciones de dependencia:

a) Interdependencia: al estudiar una relacin de interdependencia, nos interesa


considerar varias variables simultneamente, a fin de establecer la estructura de
asociaciones entre ellas. Por ejemplo, puede ser de inters saber si existe relacin
entre el largo del brazo y el largo de la pierna en los seres humanos. Quizs se
quiera saber que tan relacionadas estn las distintas pruebas a que se somete una
persona para determinar su coeficiente intelectual . Un qumico querr saber la

34
relacin existente entre las decenas de productos qumicos obtenidos al destilar
hojas de eucaliptus. Y as, se podra nombrar muchos otros ejemplos.

Generalmente, el inters se centra es estas variables con el fin de establecer


relaciones numricas entre ellas, afn de disminuir su cantidad o de construir
indicadores (como el ndice de precios al consumidor).

b) Dependencia: Volviendo al ejemplo del largo de la pierna y el brazo, se puede


desear usar sus mediciones del largo del brazo para obtener informacin sobre el
largo de la pierna (una cosa til para los fabricantes de overoles). De esta forma,
estamos considerando la dependencia del largo de la pierna respecto el largo del
brazo.

La idea se puede extender al caso en que deseamos saber si ciertas variables


dependen de ciertas otras. Un caso internacionalmente conocido de esta situacin,
en el que se determin que tres o cuatro medidas en el ser humano podan predecir
las 15 20 necesarias para confeccionar un traje, casi elimin las confecciones a
medida, crendose la moda pret a porter y la produccin en serie.

Aunque no existe una distincin clara y precisa, en la terminologa estadstica, para


referirse a las tcnicas que tienen que ver con estos tipos de problemas, la
interdependencia conduce a la teora de la correlacin y la dependencia a la teora
de regresin.

3.4. Detectando Asociacin

El problema consiste en establecer si existe o no asociacin entre dos variables y , si existe,


determinar qu tan fuerte es esta asociacin.

Dos variables pueden tener relaciones del tipo funcional como las que se muestran en la
siguiente figura:

35
En el caso (a) el dibujo representa una curva, mientras que en (b) se observa una lnea
recta.

Cuando la relacin funcional es una lnea recta, el uso hace que se hable de una relacin
lineal. En los dems casos la relacin puede ser cuadrtica o de otra forma, no lineal.

El coeficiente de correlacin lineal de Pearson, que ser definido ms adelante, se puede


aplicar nicamente cuando la relacin funcional, o la asociacin estadstica
correspondiente, se basa en una recta. Este es un concepto que debe ser recordado siempre.

La investigacin de la relacin entre dos variables X e Y , basada en un conjunto de


n pares de observaciones, empieza con un intento por descubrir la forma aproximada de la
asociacin. Esto se realiza mediante un grfico X vs Y en el que se ubican los n puntos
pareados, y que se conoce como diagrama o grfico de dispersin.

Para aclara ideas, considere el nmero de empleados y los gastos fijos que se generan en
cuatro empresas muy similares. La informacin obtenida es:

X: Nro de Y: Gastos Fijos en miles


Empleados de pesos
20 380
25 430
30 500
35 580

Como se aprecia, ahora la informacin es entregada en pares ordenados. Por ejemplo el


dato (25,430) indica que esta empresa tiene 25 empleados y tiene un gasto fijo de $430000.
El diagrama o grfico de dispersin es:

Los puntos, as graficados, constituyen lo que se llama nube de puntos.

36
A simple vista se puede apreciar en este diagrama que hay una tendencia entre la cantidad
de empleados y los gastos fijos. Las empresas que tienen un bajo nmero de empleados
tienden a tener un bajo gasto fijo. Asimismo, empresas con una gran cantidad de empleados
tienen un gasto fijo alto. Adems, la tendencia general de la nube es la de una lnea recta.

3.5. Correlacin lineal de Pearson.

Para calcular el coeficiente de correlacin lineal de Pearson se debe considerar, todo, el


conjunto de n pares de observaciones, es decir, ( x1, y1),( x2 , y2 ),K, ( xn , yn ) .
n
S XY
Este coeficiente se define como r = , donde: S XY = xi yi n X Y ,
S XX SYY i =1

S XX = xi2 n (X ) y SYY = yi2 n (Y ) .


n n
2 2

i =1 i i =1 i

El coeficiente de correlacin lineal tiene algunas propiedades muy interesantes. En primer


lugar, la nube de puntos en el grfico de dispersin debe representar, al menos
aproximadamente, una lnea recta. Si esto no se cumple, no es bueno calcularla en
propiedad.

La correlacin lineal (r ) toma el valor 0 cuando la nube de puntos es circular, como se


muestra en la siguiente figura.

En general, r vara entre 1 y 1, es decir 1 r 1 .

El signo indica que tipo de asociacin existe entre las variables X e Y. Si el signo es
positivo la asociacin es directa, esto quiere decir, que si X aumenta, tambin aumenta Y ,o
a la inversa si X disminuye, tambin disminuye Y. Si el signo es negativo la relacin es
inversa, es decir, si X aumenta Y disminuye, o a la inversa si X disminuye, Y aumenta.

37
Si la correlacin, en valor absoluto, es cercana a 1 indica que la relacin funcional entre X e
Y es lineal (Y = a + bX ) . Por otra parte, si es cercana a 0 indica que las variables no estn
correlacionadas.

El prrafo anterior permite definir | r | 100% como el porcentaje de linealidad, existente,


entre las dos variables en estudio.

En el problema anterior, el coeficiente de correlacin lineal entre la cantidad de empleados


1675
y los gastos fijos es r = = 0.995 . El anlisis de esta cantidad es como sigue:
125 22675
Como el signo es positivo, indica que mientras mayor sea la cantidad de empleados, mayor
son los gastos fijos. Por otro lado, existe un 99.5% de linealidad indicando que la relacin
funcional entre el nmero de empleados y los gastos fijos es lineal.

Hay casos en que las variables en estudio estn extremadamente asociadas, pero como no
es lineal, el coeficiente de correlacin lineal es cercano a 0. Esto se debe a que el
coeficiente de correlacin lineal slo detecta linealidad o relacin lineal entre las variables
en estudio. Por eso es importante realizar en forma previa el diagrama de dispersin y
verificar visualmente la tendencia de los datos.

Es importante notar, que la interpretacin de un coeficiente de correlacin, como medida de


la intensidad de la relacin lineal entre dos variables, es puramente matemtica y libre de
cualquier implicacin de causa o efecto. El hecho de que las dos variables tiendan a crecer
o decrecer juntas, no indica que la una tenga un efecto directo o indirecto sobre la otra.
Ambas pueden estar influidas por otras variables de modo que se origine una fuerte relacin
matemtica.

Suponga que, a lo largo de un cierto perodo de aos, el coeficiente de correlacin entre los
sueldos de los profesores y el consumo de bebidas alcohlicas result ser 0.98. Durante ese
perodo de tiempo hubo una firme subida de los salarios de todo tipoy una tendencia
general ascendente propia de las buenas pocas. En tales condiciones, los sueldos de los
profesores aumentaron tambin. Adems la tendencia ascendente general de los salarios y
del poder adquisitivo se reflej en la compra de bebidas alcohlicas. Por lo tanto, esta
elevada correlacin muestra simplemente el efecto comn a la tendencia ascendente sobre
las dos variables.

38
Los coeficientes de correlacin deben manejarse con cuidado si se quiere que den
informacin sensata en lo que concierne a las relaciones entre pares de variables. El xito
de los coeficientes de correlacin requiere estar familiarizados con el campo de aplicacin,
as como tambin, con sus propiedades matemticas.

Respecto al valor mismo de la correlacin, la siguiente tabla da algunos criterios o guas


que pueden ayudar a interpretar el tamao del coeficiente de correlacin.
Valor de | r | Interpretacin
| r | = 0 .0 No hay correlacin
0 .0 < | r | 0 .5 Correlacin dbil
0 .5 < | r | 0 .8 Correlacin media
0 .8 < | r | < 1 .0 Fuerte correlacin
| r | = 1 .0 Correlacin perfecta

3.6. El problema de Regresin

En el ejemplo que relaciona los gastos fijos de la empresa (Y) con la cantidad de empleados
(X), el grfico de dispersin muestra una tendencia lineal casi perfecta. Lo que hace
suponer que el gasto fijo de la empresa i se comporta de la siguiente manera, segn la
cantidad que empleados que posee, yi = 0 + 1 xi + i , para i = 1,2,3 y 4. La
siguiente grfica explica mejor lo dicho anteriormente:

donde la lnea recta es 0 + 1 x i , pero como los puntos en la nube de puntos no estn,
generalmente, sobre la lnea recta se introduce el trmino i , que representa todo aquello
que no podemos medir y hace que el valor de yi (en el ejemplo el gasto fijo de la i-sima
empresa) no caiga exactamente sobre la lnea recta.

39
Cuando existe relacin funcional lineal entre las dos variables, en estudio, el modelo
matemtico yi = 0 + 1 xi + i , con i = 1,2, K, n , recibe el nombre de regresin
lineal simple.

Esta es una tcnica estadstica que permite el modelamiento e investigacin de la relacin


entre dos, la que permite predecir el valor de una de las variables (Y) dado un valor de la
otra (X).

La variable Y recibe el nombre de variable dependiente endgena variable explicada,


mientras que la variable X recibe el nombre de variable independiente variable exgena
variable explicatoria regresor. El trmino recibe el nombre de error aleatorio
perturbacin aleatoria shock aleatorio ruido blanco.

Lo que se quiere es encontrar el valor de 0 y de 1 de manera que pase lo ms cerca


de los puntos en el diagrama de dispersin, es decir, la distancia entre estos puntos a la
recta ( i ) sean lo ms pequeo posible.

Los valores que 0 y de 1 que cumplen con minimizar las distancias de la nube de
puntos a la recta 0 + 1 x i , son 0 y 1 (que reciben el nombre de estimaciones de 0
y de 1 ). Los valores de estas cantidades son 0 = Y 1 X

S xy
y 1 = .
S xx

Una de las dificultades del modelo de regresin lineal, es reconocer cual variable es la
explicatoria y cual la variable dependiente. En el problema de los gastos de fijos y el
nmero de empleados, visto con anterioridad, es claro que el nmero de empleados no
puede ser explicado por los gastos fijos. Esto indica que la variable dependiente es los
gastos fijos, mientras que la variable explicatoria es la cantidad de empleados (ya que a
mayor cantidad de empleados mayor es el gasto fijo). As se obtiene que:

X: Nro de Y: Gastos Fijos


Empresa X*X Y*Y X*Y
Empleados en miles de pesos
1 20 380 400 144400 7600
2 25 430 625 184900 10750
3 30 500 900 250000 15000
4 35 580 1225 336400 20300
Total 110 1890 3150 915700 53650

110 1890
As X = = 27.5 y Y = = 472.5 , por lo tanto, los estimadores de los parmetros
4 4
del modelo de regresin lineal simple son:

40
S xy 53650 4 27.5 472.5
1 = = = 13.4 0 = Y 1 X = 472.5 13.4 27.5 = 104
S xx 3150 4 * 25.52

entonces el modelo estimado es : yi = 104 + 13.4 xi , i = 1,2,3,4 .

La interpretacin de los parmetros estimados 0 y 1 es: 0 es el valor de la variable


dependiente cuando la variables dependiente toma el valor 0, y 1 es el aumento que se
produce en la variable dependiente cuando la variable independiente aumenta en una
unidad.

En el ejemplo 0 representa el gasto fijo de una empresa si se tienen cero empleados


($104000) y 1 representa el incremento en los gastos fijos por cada empleado, adicional,
que se contrata ($13400).

Para determinar si el modelo de regresin lineal es adecuado, existe una medida llamada el
2
coeficiente de determinacin o simplemente el R , que se calcula como
R = r (correlacin al cuadrado). Este coeficiente, nos indica cuanto explica el modelo
2 2

de regresin lineal al la variabilidad de la variable dependiente.

En el ejemplo de los gastos fijos se obtiene que el coeficiente de determinacin es


R 2 = 0.99 , indicando que el modelo explica a la variabilidad de los gastos fijos en un
99%.

3.7. Ejercicio Resuelto.

Imagine que una compaa de seguros desea determinar el grado de relacin que existe
entre el ingreso semanal familiar (X) y el monto del seguro de vida (Y) del jefe de familia.
Con base en una muestra de 18 familias, se obtuvo la siguiente informacin (en miles de
pesos).

Observacin Ingreso Seguro Observacin Ingreso Seguro


1 45 70 10 35 65
2 20 50 11 40 75
3 40 60 12 55 105
4 40 50 13 50 110
5 47 90 14 60 120
6 30 55 15 15 30
7 25 55 16 30 40
8 20 35 17 35 65
9 15 40 18 45 80

41
Al realizar el diagrama de dispersin se puede concluir que existe una asociacin funcional
lineal entre el monto del seguro y el ingreso semanal familiar.

Seguro de Vida

140
Monto del Seguro (en miles de $)

120
100
80
60
40
20
0
0 10 20 30 40 50 60 70 80
Ingreso Familiar (en miles de $)

Para calcular el coeficiente de correlacin lineal de Pearson necesitamos las siguientes


cantidades:
n
S xx = xi2 n X 2 = 26309 - 18 35.9 2 = 3052.9
i =1
n
S yy = yi2 n Y 2 = 90975 - 18 66.42 = 11640.3
i =1
n
S xy = xi yi nX Y = 48380 - 18 35.9 66.4 = 5426.4
i =1
as:
S XY 5426.4
= = 0.9103 . r=
S XX SYY 3052.9 11640.3
Esto nos indica que existe una fuerte relacin (directa) entre el monto del seguro y el
ingreso semanal familiar, ms an esta relacin es lineal en un 91.03%. Lo que nos hace
pensar que es adecuado pensar en un modelo de regresin lineal simple. Es fcil darse
cuenta que la variable dependiente es el monto del seguro y que la variable explicatoria es
el ingreso semanal familiar.

Los coeficientes estimados del modelo de regresin son:


S xy 5426.4
1 = = = 1.78 0 = Y - 1 X = 66.4 - 35.9 1.78 = 2.50
S xx 3052.9

Por lo que la ecuacin estimada de regresin quedara: yi = 2.5 + 1.78 xi .

La interpretacin de los coeficientes de regresin estimados son Por cada mil pesos que
aumenta el ingreso familiar, el seguro de vida aumenta en 1.78 pesos aproximadamente, y
que an cuando no exista un ingreso familiar, el monto del seguro de vida es de 2.500
pesos.

42
Imagine que la compaa de seguros est interesada en estimar montos individuales del
seguro de vida para los ingresos semanal de 18, 28, 38, 48 y 58 . Los montos individuales
estimados se muestran en la siguiente tabla:

Ingreso Seguro
18 34,49
28 52,27
38 70,04
48 87,82
58 105,59

El coeficiente de determinacin para este modelo es R = 0.8286 , indicando que el


2

modelo explica a la variabilidad del monto del seguro de vida en un 82.86%.

3.8. Ejercicios propuestos.

1. El gerente de una industria desea determinar si existe una relacin lineal entre el
nmero de unidades Y, armadas por los operadores de una lnea de ensamble, y el lapso
X que transcurre antes de que se presente una falla. Con base en una muestra aleatoria de
operadores de la lnea de ensamble, se observa la siguiente informacin:

Tiempo en Unidades Tiempo en Unidades


Observacin Observacin
Horas ensambladas Horas ensambladas
1 25 9 73
2 29 10 75
1 3
3 23 11 74
4 31 12 71
5 55 13 90
6 65 14 88
2 4
7 63 15 91
8 59 16 87

a) Trace un diagrama de dispersin de los datos. Parece razonable modelar una


ecuacin lineal que relacione a Y con X?

b) Calcule la ecuacin de regresin.e interprete los coeficientes

2. Un corredor de bienes races estudi la relacin entre X= ingreso anual (en millones de
pesos) de los compradores de residencias e Y= precio de venta de la residencia (en
millones de pesos). Se obtuvieron datos de las solicitudes hipotecarias correspondientes
a 24 profesionales de distintas empresas. El resumen de algunos resultados son:

43
24 24 24
n = 24 x i = 942.5 x 2
i = 39915.5 y i = 2830.6
i =1 i =1 i =1
24 24

y 2
i = 347868.9 x y i i = 116392.8
i =1 i =1

a) Para un modelo lineal simple, obtngase la ecuacin estimada de regresin

b) Interprtense los coeficientes de regresin estimados.

3. Como parte de un estudio de sucursales de un banco mercantil, se han obtenido datos


acerca del nmero del nmero de negocios independientes (X) localizados en una
muestra de reas seleccionadas por medio del cdigo postal y del nmero de
sucursales del banco (Y) ubicadas en dichas reas. Se excluyeron los centro
comerciales de las ciudades

N de Nmero de N de Nmero de
Observacin Observacin
negocios sucursales negocios sucursales
1 92 3 7 306 5
2 116 2 8 378 6
3 124 3 9 415 7
4 210 5 10 502 7
5 216 4 11 615 9
6 267 5 12 703 9

a) Trace un diagrama de dispersin de los datos. Parece razonable modelar una


ecuacin lineal que relacione a y con X?
b) Calcule la ecuacin de regresin e interprete los coeficientes.

44

S-ar putea să vă placă și