Sunteți pe pagina 1din 7

Captulo 2: Covarianza y Correlacin

En el captulo anterior hablamos mucho de los valores esperados (esperanzas o


medias) de las variables aleatorias. Sin embargo, nada dijimos sobre la varianza de las
distribuciones conjuntas de probabilidad. Eso es porque, en espacios
multidimensionales, tratar con la varianza ya no es tan sencillo como en una sola
variable aleatoria. Recordemos que la varianza daba una medida de la variabilidad
de la variable aleatoria respecto de su media; es decir, la varianza nos daba una
proporcin de cuan distribuida est la probabilidad de tomar valores respecto de la
media. Cmo mostramos entonces que tan distribuidos estn los valores? Cmo
mostramos que tanto varan en diferentes zonas del plano? Cmo mostramos,
especialmente qu valores toma una variable al tomar determinados valores la otra?
Para responder stas preguntas se introducen dos nuevos conceptos: uno es la
covarianza y el otro es la correlacin.

Covarianza

DEFINICIN: sean X e Y dos variables aleatorias distribuidas conjuntamente.

Sean x y y las esperanzas marginales de cada variable. Definimos covarianza


de la siguiente manera:

cov( X , Y ) E[( X x )(Y y )]

La covarianza de X e Y tambin se suele notar xy .


ste valor da una idea aproximada de la forma en que las variables X e Y tienden a
variar juntas, en relacion a sus medias. Estamos definindolo como un promedio del
producto de dos factores, X x e Y y , a los que llamaremos desviaciones de
X e Y respecto de sus medias, y lo que nos importa realmente para poder
interpretar la covarianza es su signo; entonces, el problema se reduce al signo que
tengan ambas desviaciones. La covarianza ser positiva si ambas desviaciones son
positivas, o si ambas desviaciones son negativas; y ser negativa si tienen signos
opuestos. Como estamos tratando con variables aleatorias, los valores que tomen (y
por tanto sus signos) no se mantendrn constantes, as que lo que consideramos son
las probabilidades de tomar stos valores. Puede parecer muy abstracto, complejo e
incluso arbitrario, pero intentaremos hacer el razonamiento lo ms visual posible:
Supongamos que X e Y , ambas, tienen altas probabilidades de tomar valores que
estn por encima de sus medias. En dicho caso, la desviacin respecto de la media de
ambas variables ser un valor positivo. Ahora supongamos que X e Y tienen altas
probabilidades de tomar valores que estn por debajo de sus medias. En este caso, la
desviacin respecto de la media de ambas variables ser negativa, pues a los valores
de la variable le estamos restando el valor de su media, que es ms grande. En estos
dos casos, los productos de las desviaciones de X e Y (positivo por positivo y
negativo por negativo) son positivos; por lo cual la covarianza es positiva. Ahora
supongamos los dos casos restantes: que el signo de la desviacin de X sea positivo,
y el de la desviacin de Y negativo, y viceversa; es decir, que una tiene alta
probabilidad de tomar valores por encima de su media, y la otra alta probabilidad de
tomar valores por debajo, entonces los productos son negativos, por lo cual la
covarianza es negativa. ste razonamiento se puede resumir en la siguiente
afirmacin:

-Si valores positivos de X x tienden a traer consigo valores positivos de Y y , o


valores negativos de X x tienden a traer consigo valores negativos de Y y ,
entonces la covarianza ser positiva.
-Si valores positivos de X x tienden a traer consigo valores negativos de Y y , o
viceversa, entonces la covarianza ser negativa.

TEOREMA: sean X e Y dos variables aleatorias, y sean x y y sus respectivas


esperanzas marginales. Se verifica:

cov( X , Y ) E[ XY ] x y

Dem.:
cov( X , Y ) E[( X x )(Y y )]
E[ XY xY X y x y ]
E[ XY ] x E[Y ] E[ X ] y x y
E[ XY ] 2x y x y
E[ XY ] x y

Esto, al igual que ocurra con la varianza, nos da una frmula alternativa mucho ms
sencilla para calcular la covarianza.

PROPIEDAD: sea X una variable aleatoria. Se verifica:


cov( X , X ) V ( X )
La demostracin es trivial, utilizando el teorema anterior.

PROPIEDAD: sean X e Y variables aleatorias, y sean r , s , t y u escalares. Se


verifica:
cov(rX s, tY u) rt cov( X , Y )
Dem.:

Notemos que rX s y tY u son dos funciones lineales de X e Y. Entonces, las


esperanzas son:
rX s E[rX s] E[rX ] E[s] rE[ X ] s
tY u E[tY u] E[tY ] E[u] tE[Y ] u
Luego:

cov(rX s, tY u)
E[((rX s) rX s )((tY u) tY u )]
E[((rX s) (rE[ X ] s))((tY u) (tE[Y ] u))]
E[(rX s)(tY u)] E[(rX s)(tE[Y ] u] E[(rE[ X ] s)(tY u)] E[(rE[ X ] s)(tE[Y ] u)]

E[rXtY rXu stY su] E[rXtE[Y ] rXu stE[Y ] su] E[rE[ X ]tY rE[ X ]u stY su]
E[rE[ X ]tE[Y ] rE[ X ]u stE[Y ] su]
rtE[ XY ] ruE[ X ] stE[Y ] su rtE[ XE[Y ]] ruE[ X ] stE[ E[Y ]] su

rtE[ E[ X ]Y ] ruE[ E[ X ]] stE[Y ] su rtE[ E[ X ]E[Y ]] ruE[ X ] stE[Y ] su

Como E[ X ] x y E[Y ] y son constantes, es evidente que cov( X , Y ) y


E[ E[Y ]] y . Lo mismo ocurre con E[ E[ X ]E[Y ]] E[ X ]E[Y ] ,
E[ XE[Y ]] E[ X ]E[Y ] y E[ XE[Y ]] E[ X ]E[Y ]

Entonces, aplicando estas propiedades y cancelando trminos, obtenemos:

rtE[ XY ] rtE[ X ]E[Y ]


rt ( E[ XY ] E[ X ]E[Y ])

Y esa ltima expresin entre parntesis es la forma alternativa de la covarianza


cov( X , Y ) y la porpiedad qued demostrada.

TEOREMA: sean X e Y dos variables aleatorias conjuntamente distribuidas. Se


verifica:
Si X e Y son independientes cov( X , Y ) 0

Ntese que la flecha es unidireccional, lo cual nos dice que la recproca de este
teorema no es cierta. Dos variables pueden tener covarianza 0 y an as no ser
independientes.
Cuando dos variables tienen covarianza 0, se dice que estn no correlacionadas (El
por qu de este nombre se explicar un poco ms adelante).

PROPIEDAD: V ( X Y ) V ( X ) V (Y ) 2cov( X , Y )

Caso particular: si X e Y estn no correlacionadas, entonces la varianza de la suma


de dos variables se puede calcular como la suma sus varianzas. Ntese que, como los
casos en que X e Y son independientes estn incluidos dentro de los casos en que
X e Y estn no correlacionadas, entonces basta que sean independientes para que
ste clculo sea vlido.
La demostracin de esta propiedad es muy similar a la demostracin vista
anteriormente de la linealidad de la esperanza.

Por todo lo dicho hasta ahora se puede ver que la covarianza brinda una cierta
informacin sobre la variabilidad de X e Y ; sin embargo, es una informacin muy
escueta y en la mayora de los casos insuficiente, adems de sesgada, por lo que se
suele apelar a otro recurso: el coeficiente de correlacin.

Correlacin

DEFINICIN: sean X e Y dos variables aleatorias. Sean x y y sus respectivas


desviaciones estndar. Se define el coeficiente de correlacin (tambin nombrado
como coeficiente de Pearson) como:

cov( X , Y )
( X ,Y )
x y

ste operador tiene una potencia mucho ms amplia que la covarianza para expresar
la forma en que dos variables aleatorias se relacionan, debido a que, a diferencia de
aquella, el coeficiente de correlacin no depende de la unidad en la que estn medidas
las variables aleatorias. No fue aclarado en la seccin anterior, pero puede
demostrarse fcilmente que el valor de la covarianza, para la misma variable aleatoria,
depende de la unidad en que sta est medida. El coeficiente de correlacin nos salva
de caer en sta ambigedad (a falta de un trmino ms apropiado) y debido a esto
podemos obtener ms informacin de l sobre la fuerza de la relacin entre las dos
variables.
PROPIEDAD: ( X ,Y ) 1

Es decir que los valores del coeficiente de correlacin estn contenidos en el intervalo
[-1,1]. La fuerza de la relacin se mide segn que tan cerca de los extremos del
intervalo se encuentre el valor, y dependiendo de en que extremo est, es el tipo de
relacin que se hallar.

-Si cov( X , Y ) 0 entonces =0.


-Si >0 se dice que la correlacin entre X e Y es positiva.
-Si <0 se dice que la correlacin entre X e Y es negativa.

Como ya habamos adelantado cuando explicamos el signo de la covarianza, si la


relacin es positiva entonces sabemos que, a medida que una de las variables toma
valores cada vez mayores respecto de su media, la otra tiende a comportarse de igual
manera; y si es negativa ocurre lo opuesto, las variables tienden a tomar valores
respecto de su media en proporcin inversa. Decimos tienden porque siempre
hablamos de la probabilidad de que cada variable tome determinados valores.

-Si 1 se dice que existe correlacin positiva perfecta.


-Si 1 se dice que existe correlacin negativa perfecta o correlacin perfecta
inversa.
-Si 0 se dice que no existe correlacin.

Los casos 1 y 1 son dos casos especiales, en los que se dice que la
correlacin es perfecta porque hay una relacin lineal exacta entre las variables. Para
ser ms precisos, existe una relacin del tipo:

Y aX b
Si a 0 , tenemos que las variables estn relacionadas por medio de una recta con
pendiente positiva, y 1 . Si a 0 , tenemos uqe las grficas estn relacionadas por
medio de una recta con pendiente negativa, y 1.

Correlacin Positiva Perfecta Correlacin Perfecta InInversa


En los grficos se puede observar los valores que se espera que tome una variable
para cada valor que toma la otra, y resultan rectas con pendiente positiva y negativa,
respectivamente.

Sin embargo, la relacin solo tiene la forma de una recta en stos casos particulares.
Normalmente, los puntos que va tomando el vector aleatorio van quedando dispersos
en el plano, y se pueden visualizar mediante diagramas de dispersin. Lo mismo
ocurre, por supuesto, con las ocurrencias reales: nunca obtendremos en ningn
experimento un resultado que sea una recta exacta, aunque si la relacin existe,
podemos conseguir resultados que se le parezcan mucho como consecuencia de la
Ley de los Grandes Nmeros, que se ver en el captulo siguiente. Es importante
recalcar que estos valores no son determinsticos, sino que hablamos siempre de
valores esperados. Siempre existir una probabilidad distinta de cero de encontrar
valores con una distribucin parecida a la segunda grfica, an si el coeficiente de
correlacin indica que se espera que sea parecida a la primera. Manejamos siempre
probabilidades, no relaciones determinsticas.

Linealidad de las relaciones

La covarianza y el coeficiente de correlacin que hemos estudiado no tienen un


sentido real en cualquier par de variables aleatorias. Solamente representan
tendencias reales si las variables en cuestin tienen una relacin aproximadamente
lineal, es decir, parecida a la lineal perfecta que describimos antes. Por supuesto, esto
no tiene por qu ocurrir, aunque ocurre en multitud de casos prcticos del mundo real.
Tambin puede haber variables aleatorias que estn relacionadas mediante funciones
no lineales, como por ejemplo:

X4
Y 2 X 3
o Y e
En estos casos en los que la relacin no es lineal, naturalmente podemos calcular la
covarianza y el coeficiente de correlacin (claro, siempre que las integrales puedan
resolverse) pero ste no nos aportar ninguna informacin real sobre la naturaleza de
la relacin. No obstante, y afortunadamente, este tipo de relaciones no son las que se
presentan ms frecuentemente.

Algunas notas importantes:

-Correlacin NO implica causalidad, ya que siempre estamos midiendo probabilidades,


lo cual no asegura un resultado exacto sino una tendencia.
-Cuando la covarianza vale 0, el coeficiente de correlacin vale 0, y entonces se
cumple que las variables estn no correlacionadas.

Dijimos anteriormente que los pares de valores esperados de las variables linealmente
correlacionadas se van aproximando a una recta. Sin embargo, conocer la existencia
de la correlacin lineal por s sola y su coeficiente no nos dice nada acerca de hacia
que recta tienden los puntos distribuidos en el plano. Para poder hacer un anlisis ms
profundo de la relacin, una vez detectada, se introduce el concepto de regresin
lineal, un tema que trataremos ms adelante.

S-ar putea să vă placă și