Documente Academic
Documente Profesional
Documente Cultură
(67$'67,&$
$QiOLVLV GH &RUUHODFLyQ
El anlisis de correlacin se utiliza para medir el grado de asociacin lineal entre dos variables
aleatorias cuantitativas a travs de un coeficiente, el coeficiente de correlacin U U , entendiendo por asociacin a la covariacin entre las dos variables dividida por el desvo de cada una de ellas. Si YDULDEOHV LQWHUYLQLHQWHV \ GH ODV TXH VH TXLHUH VDEHU VX JUDGR GH DVRFLDFLyQ VRQ FXDQWLWDWLYDV. (O FRHILFLHQWH GH FRUUHODFLyQ U YDUtD GH D \ PLGH HO VHQWLGR \ OD IXHU]D GH DVRFLDFLyQ OLQHDO HQWUH GRV YDULDEOHV HQ IRUPD VLPpWULFD Mide HO VHQWLGR de la asociacin porque: bien hay mltiples coeficientes de correlacin veremos slo el de Pearson TXH VH XWLOL]D FXDQGR ODV
Si su signo HV SRVLWLYR VLJQLILFD TXH ODV YDULDEOHV HVWiQ GLUHFWDPHQWH UHODFLRQDGDV. Cuando los valores de una aumentan los valores de la otra tambin; lo mismo cuando disminuyen. Si su signo HV QHJDWLYR VLJQLILFD TXH HVWiQ LQYHUVDPHQWH UHODFLRQDGDV. Cuando los valores de una variable aumentan los de la otra disminuyen; y viceversa. Mide OD IXHU]D de la asociacin porque cuanto ms se acerca su valor a 1 a +1 ms fuerte ser la asociacin, y cuanto ms cerca est de 0 ms dbil ser la asociacin. La fuerza de asociacin la da el valor absoluto del coeficiente, un valor de 0.85 es tan importante como otro de +0.85, igual fuerza con distinto sentido.2
1 2
U en el caso de obtenerse de una muestra U (ro, letra del alfabeto griego) en el caso de obtenerse de una poblacin. Algunos textos utilizan como escala la fuerza de asociacin lo siguiente: 0: asociacin nula, de 0,1 a 0,9: despreciable, de 0,10 a 0,29: baja, de 0,3 a 0,49: moderada, de 0,5 a 0,69: fuerte, de 0,7 a 0,99: muy fuerte y 1: asociacin perfecta
Es VLPpWULFD porque la asociacin que existe entre las variables D y E es la misma que entre las variables E y D. $ PD\RU YDORU DEVROXWR GHO FRHILFLHQWH GH FRUUHODFLyQ PD\RU VHUi HO JUDGR GH DVRFLDFLyQ OLQHDO HQWUH ODV YDULDEOHV HVWXGLDGDV
(67$'67,&$
(MHPSOR Los siguientes datos se refieren a la edad y al promedio de calificaciones obtenidos por una muestra de 21 estudiantes. Analizaremos si existe relacin lineal entre ambas variables.
(GDG 3URPHGLR
Calculamos el coeficiente de correlacin: Utilizando las funciones de excel se elige COEF.DE.CORREL y se obtiene el valor: U - Utilizando de herramientas el anlisis de datos se elige Coeficiente de correlacin y se obtiene la tabla:
(GDG 3URPHGLR (GDG 3URPHGLR En la tabla se nota la VLPHWUtD, donde: U para edad con edad y promedio con promedio y, U para edad con promedio
Observamos que el valor obtenido por cualquiera de los dos caminos es el mismo, pueden hacerlo por el que quieran. (VWH YDORU LQGLFD TXH H[LVWH FLHUWR JUDGR GH DVRFLDFLyQ OLQHDO LQYHUVD SXHV HO VLJQR HV QHJDWLYR HQWUH ODV YDULDEOHV
(67$'67,&$
5HJUHVLyQ /LQHDO
As como el coeficiente de correlacin se utiliza para medir el grado de asociacin lineal entre un par de variables, la regresin lineal se utiliza principalmente SDUD HVWLPDU. Estas estimaciones se realizan sobre una variable dependiente a partir del cambio que se observa en una o varias variables independientes. As como la correlacin permite medir la fuerza y sentido de una relacin lineal entre dos variables, OD UHJUHVLyQ SHUPLWH JUDILFDU HVWD UHODFLyQ OLQHDO \ HVWLPDU YDORUHV GH OD YDULDEOH GHSHQGLHQWH D SDUWLU GH FDPELRV HQ ODV YDULDEOHV LQGHSHQGLHQWHV GHQWUR GH VX UDQJR tiene la forma de la ecuacin de la recta: \ y DE[ \
A partir del anlisis de regresin lineal se obtiene una recta de regresin, que como dice su nombre
DE[
a x 'RQGH: \ es la variable dependiente; [ es la variable independiente; D es la ordenada al origen (donde la recta corta al eje y), y E es la pendiente (inclinacin de la recta).
Utilizando los datos del HMHPSOR voy a graficar el GLDJUDPD GH GLVSHUVLyQ R 6FDWWHUJUDP
"
(67$'67,&$
'LDJUDPD GH 'LVSHUVLyQ
(Q OD QXEH GH SXQWRV VH REVHUYD OD WHQGHQFLD GHFUHFLHQWH WDO FRPR IXHUD LQGLFDGD SRU U
10,0
3URPHGLR
'DWRV REVHUYDGRV
(GDG
'LDJUDPD GH 'LVSHUVLyQ
10,0 9,0 8,0
Srvq
3URPHGLR
Whyirhq
Whyrvhq
(GDG
14
15
16
17
18
La recta de regresin es aquella recta que mejor se ajusta a los datos, es la que va a pasar ms cerca de todos los puntos del diagrama de dispersin, se apoya en el mtodo de mnimos cuadrados. La distancia que hay entre un punto (valor observado o real) y la recta (valor estimado) se llama residuo o error5. La mejor recta de regresin es aquella donde la suma de todos los residuos es mnima,
4
En excel clicleamos con el botn derecho del mause en los puntos del diagrama (se iluminan todos) y elegimos de la leyenda Agregar lnea de tendencia al aceptar, en el cuadro de tipo elegimos lineal. 5 Los supuestos ms importantes para el anlisis de regresin son: 1- Todos los errores (referidos a la misma x) tienen esperanza cero. 2- Todos los errores (referidos a la misma x) tienen la misma varianza. 0DUtD (XJHQLD $QJHO
(67$'67,&$
pero para que los valores positivos (de arriba de la recta) no anulen los valores negativos (de debajo de la recta) se elevan al cuadrado los residuos, luego la condicin es que la suma de los residuos al cuadrado sea mnima6. (FXDFLyQ GH OD UHFWD GH UHJUHVLyQ Para hallar la HFXDFLyQ VH OD UHFWD, cuando se grafica la lnea de tendencia con el excel se tilda en opciones presentar ecuacin en el grfico y presentar el valor R cuadrado en el grfico obtenindose el siguiente grfico
'LDJUDPD GH 'LVSHUVLyQ
10,0 9,0 8,0 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 10 11 12 13
3URPHGLR
(GDG
14
15
16
17
18
La pendiente es negativa dado que la recta es decreciente porque la relacin es inversa, la pendiente tiene siempre el mismo signo que el coeficiente de correlacin.
3- Los errores son independientes entre s. 4- Los errores tienen distribucin normal. 6 (residuos)2= mnima. Por eso se llama mtodo de mnimos cuadrados. 0DUtD (XJHQLD $QJHO
(67$'67,&$
Esta recta permite estimar valores de promedio en funcin de la edad siempre y cuando nos mantengamos dentro del rango de edades estudiado porque no se sabe si el modelo o la tendencia se conserva si nos alejamos mucho del mismo Por ejemplo: el promedio estimado para un chico de 13 aos es de 5,96 puntos. ( ) Podramos estimar de igual modo el promedio para un chico de 18 aos (no nos alejamos mucho del valor mximo de la variable que es 17) pero no sera conveniente estimar el promedio de un chico de 20 aos ni de uno de 9 aos. &RHILFLHQWH GH GHWHUPLQDFLyQ El valor 5 regresin.
! !
En el ejemplo este coeficiente es esto indica que el modelo de regresin explica en un 29,4% la variacin del promedio en funcin de la edad de los alumnos (bastante poco) A mayor coeficiente de determinacin mejor ser el ajuste del modelo lineal. Si todos los valores observados estuvieran sobre la recta este coeficiente sera del 100%
2EVHUYDFLyQ En el ejemplo que estudiamos obtuvimos un coeficiente de correlacin lineal entre las variables no muy alto que indica que existe cierto grado de asociacin lineal inversa entre ellas, lo mismo pudo observarse en el diagrama de dispersin y en la ecuacin de la recta ya que la pendiente es negativa sin embargo el modelo lineal ajusta slo en un la relacin entre las variables.
Los datos obtenidos no nos permiten asegurar que el promedio de calificaciones disminuye a medida que aumenta la edad de los alumnos, lo conveniente en este caso es tomar otra muestra en lo posible de mayor tamao y volver a hacer el anlisis.
0DUtD (XJHQLD $QJHO
(67$'67,&$
Para analizar el ejemplo pueden utilizar directamente Regresin de Anlisis de datos de las herramientas de excel y les va a aparecer, entre otras cosas, los siguiente:
5HVXPHQ (VWDGtVWLFDV GH OD UHJUHVLyQ &RHILFLHQWH GH FRUUHODFLyQ P~OWLSOH &RHILFLHQWH GH GHWHUPLQDFLyQ 5A 5A DMXVWDGR (UURU WtSLFR 2EVHUYDFLRQHV
Whyhiyqryprsvpvrr
8rsvpvrrqrqrrvhpvyS
Tryvhyyphquhiqrh hvhiyrvqrrqvrr
10 9 8 7 6 5 4 v q 3 r 2 1 Q 0
r v p h p v s v y h p r q
10
11
12
13
14 (GDG
15
16
17
18
Promedio de calificaciones
Pqrhqhhyvtr qryhrph
,QWHUFHSFLyQ (GDG
Qrqvrrqryhrph
Las hiptesis sobre los parmetros poblacionales pendiente y ordenada de la recta siempre son: /D +LSyWHVLV QXOD +R HV TXH ORV SDUiPHWURV VRQ FHUR /D +LSyWHVLV DOWHUQDWLYD + GH TXH VRQ GLVWLQWR GH FHUR.
0DUtD (XJHQLD $QJHO
(67$'67,&$
El estadstico de prueba para ambos casos es una distribucin T de Student Qu pasa si la ordenada la pendiente son cero? Si la ordenada es cero, quiere decir que la recta pasa por el origen. No nos genera problema. Si la pendiente es cero quiere decir que entre la variable independiente dependiente no hay y la variable
(Grficamente la recta es paralela al eje X.) Las columnas estadstico t y probabilidad, nos dan el resultado de realizar la prueba de hiptesis. En este caso, el p- valor de la ordenada es muy chico (bastante menor a 0,05) lo que permite rechazar la Ho, es decir que la ordenada es distinta de cero. Sin embargo el p- valor de la pendiente si bien es menor a 0,05 podra hacernos dudar (si tomamos un nivel de significacin de 0,01 se acepta Ho), duda que confirma lo expuesto en la observacin.
2WUR HMHPSOR
8WLOL]DQGR ([FHO
0DUtD (XJHQLD $QJHO
Al ingresar en +HUUDPLHQWDV y luego $QiOLVLV GH GDWRV y seleccionar 5HJUHVLyQ, aparece la siguiente informacin:
14 12 10 y = 1,3454x + 4,1289
(67$'67,&$
<
8 6 4 2 0 0 1 2 3
WhvhiyrY
7DEOD 5HVXPHQ (VWDGtVWLFDV GH OD UHJUHVLyQ &RHILFLHQWH GH FRUUHODFLyQ P~OWLSOH &RHILFLHQWH GH GHWHUPLQDFLyQ 5A 5A DMXVWDGR (UURU WtSLFR 2EVHUYDFLRQHV Tabla 2 ,QWHUFHSFLyQ 9DULDEOH ; 1 &RHILFLHQWHV (UURU WtSLFR 0,94507185 0,27445731 3 (VWDGtVWLFR W 4,36883817 4,90189468
D Las variables x e y estn correlacionadas linealmente, esta correlacin es PX\ EXHQD \ GLUHFWD E El modelo de regresin lineal H[SOLFD HQ XQ coeficiente de determinacin es 0,6669, de tabla 1) \ (el coeficiente es 0,8166 de tabla 1 y tabla 3) la variacin de y respecto de x (el
(67$'67,&$
F Observando la columna 1 de la tabla 2 se obtiene que la recta de regresin lineal es [ . Si x es cero y es 4,12, adems para una variacin en una unidad de la variable x, la variable y G Observando las columnas 3 y 4 de la segunda tabla se puede afirmar que la pendiente y la H Se puede estimar valores de y para distintos valores de x que no se alejen demasiado del rango por ejemplo puede interesarnos saber cul ser el valor de y si la x vale 6. Reemplazando en la recta se tiene: y = 1,3454 . 6 + 4,12 = 12,19. No se podra estimar el valor de y si x es 9 porque se aleja demasiado del rango. ordenada al origen de la recta son distintas de cero (ambos p valores son muy pequeos). vara en 1,34 unidades.
(MHUFLFLR
Utilizando los datos de la encuesta docente analizar si existe relacin entre la edad de los docentes y la cantidad de hijos.