Sunteți pe pagina 1din 10

0$(675$ (1 &,(1&,$6 62&,$/(6 < +80$1,'$'(6

3URIHVRU Mara Eugenia Angel &ODVH 1   GH MXQLR GH 

(67$'67,&$

&RQWHQLGRV: $QiOLVLV GH &RUUHODFLyQ \ GH 5HJUHVLyQ



$QiOLVLV GH &RUUHODFLyQ

El anlisis de correlacin se utiliza para medir el grado de asociacin lineal entre dos variables

aleatorias cuantitativas a travs de un coeficiente, el coeficiente de correlacin U U , entendiendo por asociacin a la covariacin entre las dos variables dividida por el desvo de cada una de ellas. Si YDULDEOHV LQWHUYLQLHQWHV \ GH ODV TXH VH TXLHUH VDEHU VX JUDGR GH DVRFLDFLyQ VRQ FXDQWLWDWLYDV. (O FRHILFLHQWH GH FRUUHODFLyQ U YDUtD GH  D  \ PLGH HO VHQWLGR \ OD IXHU]D GH DVRFLDFLyQ OLQHDO HQWUH GRV YDULDEOHV HQ IRUPD VLPpWULFD Mide HO VHQWLGR de la asociacin porque: bien hay mltiples coeficientes de correlacin veremos slo el de Pearson TXH VH XWLOL]D FXDQGR ODV

Si su signo HV SRVLWLYR VLJQLILFD TXH ODV YDULDEOHV HVWiQ GLUHFWDPHQWH UHODFLRQDGDV. Cuando los valores de una aumentan los valores de la otra tambin; lo mismo cuando disminuyen. Si su signo HV QHJDWLYR VLJQLILFD TXH HVWiQ LQYHUVDPHQWH UHODFLRQDGDV. Cuando los valores de una variable aumentan los de la otra disminuyen; y viceversa. Mide OD IXHU]D de la asociacin porque cuanto ms se acerca su valor a 1 a +1 ms fuerte ser la asociacin, y cuanto ms cerca est de 0 ms dbil ser la asociacin. La fuerza de asociacin la da el valor absoluto del coeficiente, un valor de 0.85 es tan importante como otro de +0.85, igual fuerza con distinto sentido.2
1 2

U en el caso de obtenerse de una muestra U (ro, letra del alfabeto griego) en el caso de obtenerse de una poblacin. Algunos textos utilizan como escala la fuerza de asociacin lo siguiente: 0: asociacin nula, de 0,1 a 0,9: despreciable, de 0,10 a 0,29: baja, de 0,3 a 0,49: moderada, de 0,5 a 0,69: fuerte, de 0,7 a 0,99: muy fuerte y 1: asociacin perfecta

0DUtD (XJHQLD $QJHO

0$(675$ (1 &,(1&,$6 62&,$/(6 < +80$1,'$'(6

Es VLPpWULFD porque la asociacin que existe entre las variables D y E es la misma que entre las variables E y D. $ PD\RU YDORU DEVROXWR GHO FRHILFLHQWH GH FRUUHODFLyQ PD\RU VHUi HO JUDGR GH DVRFLDFLyQ OLQHDO HQWUH ODV YDULDEOHV HVWXGLDGDV

(67$'67,&$

(MHPSOR Los siguientes datos se refieren a la edad y al promedio de calificaciones obtenidos por una muestra de 21 estudiantes. Analizaremos si existe relacin lineal entre ambas variables.
(GDG 3URPHGLR                                          

! " # $ % & ' (  ! " # $ % & ' ( ! !

Calculamos el coeficiente de correlacin:  Utilizando las funciones de excel se elige COEF.DE.CORREL y se obtiene el valor: U  - Utilizando de herramientas el anlisis de datos se elige Coeficiente de correlacin y se obtiene la tabla:
(GDG 3URPHGLR   (GDG 3URPHGLR En la tabla se nota la VLPHWUtD, donde: U  para edad con edad y promedio con promedio y,  U  para edad con promedio

Observamos que el valor obtenido por cualquiera de los dos caminos es el mismo, pueden hacerlo por el que quieran. (VWH YDORU  LQGLFD TXH H[LVWH FLHUWR JUDGR GH DVRFLDFLyQ OLQHDO LQYHUVD SXHV HO VLJQR HV QHJDWLYR HQWUH ODV YDULDEOHV

0DUtD (XJHQLD $QJHO

0$(675$ (1 &,(1&,$6 62&,$/(6 < +80$1,'$'(6



(67$'67,&$

5HJUHVLyQ /LQHDO

As como el coeficiente de correlacin se utiliza para medir el grado de asociacin lineal entre un par de variables, la regresin lineal se utiliza principalmente SDUD HVWLPDU. Estas estimaciones se realizan sobre una variable dependiente a partir del cambio que se observa en una o varias variables independientes. As como la correlacin permite medir la fuerza y sentido de una relacin lineal entre dos variables, OD UHJUHVLyQ SHUPLWH JUDILFDU HVWD UHODFLyQ OLQHDO \ HVWLPDU YDORUHV GH OD YDULDEOH GHSHQGLHQWH D SDUWLU GH FDPELRV HQ ODV YDULDEOHV LQGHSHQGLHQWHV GHQWUR GH VX UDQJR tiene la forma de la ecuacin de la recta: \ y DE[ \

A partir del anlisis de regresin lineal se obtiene una recta de regresin, que como dice su nombre

DE[

a x 'RQGH: \ es la variable dependiente; [ es la variable independiente; D es la ordenada al origen (donde la recta corta al eje y), y E es la pendiente (inclinacin de la recta).

Utilizando los datos del HMHPSOR voy a graficar el GLDJUDPD GH GLVSHUVLyQ R 6FDWWHUJUDP 
"

En el asistente para grficos de excel se elige XY (Dispersin) 

0DUtD (XJHQLD $QJHO

0$(675$ (1 &,(1&,$6 62&,$/(6 < +80$1,'$'(6

(67$'67,&$

'LDJUDPD GH 'LVSHUVLyQ
(Q OD QXEH GH SXQWRV VH REVHUYD OD WHQGHQFLD GHFUHFLHQWH WDO FRPR IXHUD LQGLFDGD SRU U
10,0

3URPHGLR

8,0 6,0 4,0 2,0 0,0 10 11 12 13 14 15 16 17 18

 'DWRV REVHUYDGRV

(GDG

Completamos el grfico con la UHFWD GH UHJUHVLyQ 


#

'LDJUDPD GH 'LVSHUVLyQ
10,0 9,0 8,0
Srvq

3URPHGLR

7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 10 11 12 13

Whyirhq

Whyrvhq

(GDG
14

15

16

17

18

La recta de regresin es aquella recta que mejor se ajusta a los datos, es la que va a pasar ms cerca de todos los puntos del diagrama de dispersin, se apoya en el mtodo de mnimos cuadrados. La distancia que hay entre un punto (valor observado o real) y la recta (valor estimado) se llama residuo o error5. La mejor recta de regresin es aquella donde la suma de todos los residuos es mnima,
4

En excel clicleamos con el botn derecho del mause en los puntos del diagrama (se iluminan todos) y elegimos de la leyenda Agregar lnea de tendencia al aceptar, en el cuadro de tipo elegimos lineal. 5 Los supuestos ms importantes para el anlisis de regresin son: 1- Todos los errores (referidos a la misma x) tienen esperanza cero. 2- Todos los errores (referidos a la misma x) tienen la misma varianza. 0DUtD (XJHQLD $QJHO

0$(675$ (1 &,(1&,$6 62&,$/(6 < +80$1,'$'(6

(67$'67,&$

pero para que los valores positivos (de arriba de la recta) no anulen los valores negativos (de debajo de la recta) se elevan al cuadrado los residuos, luego la condicin es que la suma de los residuos al cuadrado sea mnima6. (FXDFLyQ GH OD UHFWD GH UHJUHVLyQ Para hallar la HFXDFLyQ VH OD UHFWD, cuando se grafica la lnea de tendencia con el excel se tilda en opciones presentar ecuacin en el grfico y presentar el valor R cuadrado en el grfico obtenindose el siguiente grfico

'LDJUDPD GH 'LVSHUVLyQ
10,0 9,0 8,0 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 10 11 12 13

[   5 

3URPHGLR

(GDG

14

15

16

17

18

Entonces la ecuacin de la recta es: \ la pendiente E es -0,6554.

[   donde la ordenada al origen D vale 14,479 y

La pendiente es negativa dado que la recta es decreciente porque la relacin es inversa, la pendiente tiene siempre el mismo signo que el coeficiente de correlacin.

3- Los errores son independientes entre s. 4- Los errores tienen distribucin normal. 6 (residuos)2= mnima. Por eso se llama mtodo de mnimos cuadrados. 0DUtD (XJHQLD $QJHO

0$(675$ (1 &,(1&,$6 62&,$/(6 < +80$1,'$'(6

(67$'67,&$

Esta recta permite estimar valores de promedio en funcin de la edad siempre y cuando nos mantengamos dentro del rango de edades estudiado porque no se sabe si el modelo o la tendencia se conserva si nos alejamos mucho del mismo Por ejemplo: el promedio estimado para un chico de 13 aos es de 5,96 puntos. (     ) Podramos estimar de igual modo el promedio para un chico de 18 aos (no nos alejamos mucho del valor mximo de la variable que es 17) pero no sera conveniente estimar el promedio de un chico de 20 aos ni de uno de 9 aos. &RHILFLHQWH GH GHWHUPLQDFLyQ El valor 5 regresin.
! !

 que aparece junto a la ecuacin de la recta es muy importante en el anlisis de

5 VH GHQRPLQD FRHILFLHQWH GH GHWHUPLQDFLyQ (es el valor de r elevado al cuadrado). Indica la bondad

de ajuste de la recta de regresin y se lo expresa como porcentaje.

En el ejemplo este coeficiente es  esto indica que el modelo de regresin explica en un 29,4% la variacin del promedio en funcin de la edad de los alumnos (bastante poco) A mayor coeficiente de determinacin mejor ser el ajuste del modelo lineal. Si todos los valores observados estuvieran sobre la recta este coeficiente sera del 100%

2EVHUYDFLyQ En el ejemplo que estudiamos obtuvimos un coeficiente de correlacin lineal entre las variables no muy alto  que indica que existe cierto grado de asociacin lineal inversa entre ellas, lo mismo pudo observarse en el diagrama de dispersin y en la ecuacin de la recta ya que la pendiente es negativa  sin embargo el modelo lineal ajusta slo en un  la relacin entre las variables.

Los datos obtenidos no nos permiten asegurar que el promedio de calificaciones disminuye a medida que aumenta la edad de los alumnos, lo conveniente en este caso es tomar otra muestra en lo posible de mayor tamao y volver a hacer el anlisis.
0DUtD (XJHQLD $QJHO

0$(675$ (1 &,(1&,$6 62&,$/(6 < +80$1,'$'(6



(67$'67,&$

2WUR WUDWDPLHQWR SDUD HO HMHPSOR

Para analizar el ejemplo pueden utilizar directamente Regresin de Anlisis de datos de las herramientas de excel y les va a aparecer, entre otras cosas, los siguiente:
5HVXPHQ (VWDGtVWLFDV GH OD UHJUHVLyQ &RHILFLHQWH GH FRUUHODFLyQ P~OWLSOH   &RHILFLHQWH GH GHWHUPLQDFLyQ 5A 5A DMXVWDGR   (UURU WtSLFR 2EVHUYDFLRQHV 

Whyhiyqryprsvpvrr

8rsvpvrrqrqrrvhpvyS

Tryvhyyphquhiqrh hvhiyrvqrrqvrr

10 9 8 7 6 5 4 v q 3 r 2 1 Q 0
r v p h p v s v y h p r q

(GDG &XUYD GH UHJUHVLyQ DMXVWDGD


y = -0,6554x + 14,479 R2 = 0,294

10

11

12

13

Pronstico Promedio de calificaciones Lineal (Promedio de calificaciones)

14 (GDG

15

16

17

18

Promedio de calificaciones

Pqrhqhhyvtr qryhrph

,QWHUFHSFLyQ (GDG

&RHILFLHQWHV (UURU WtSLFR    

(VWDGtVWLFR W 3UREDELOLGDG    


Qhyr

Qrqvrrqryhrph

Las hiptesis sobre los parmetros poblacionales pendiente y ordenada de la recta siempre son: /D +LSyWHVLV QXOD +R HV TXH ORV SDUiPHWURV VRQ FHUR /D +LSyWHVLV DOWHUQDWLYD + GH TXH VRQ GLVWLQWR GH FHUR.
0DUtD (XJHQLD $QJHO

0$(675$ (1 &,(1&,$6 62&,$/(6 < +80$1,'$'(6

(67$'67,&$

El estadstico de prueba para ambos casos es una distribucin T de Student Qu pasa si la ordenada la pendiente son cero? Si la ordenada es cero, quiere decir que la recta pasa por el origen. No nos genera problema. Si la pendiente es cero quiere decir que entre la variable independiente dependiente no hay y la variable

ningn tipo de relacin. Si la pendiente es cero no hay asociacin.

(Grficamente la recta es paralela al eje X.) Las columnas estadstico t y probabilidad, nos dan el resultado de realizar la prueba de hiptesis. En este caso, el p- valor de la ordenada  es muy chico (bastante menor a 0,05) lo que permite rechazar la Ho, es decir que la ordenada es distinta de cero. Sin embargo el p- valor de la pendiente  si bien es menor a 0,05 podra hacernos dudar (si tomamos un nivel de significacin de 0,01 se acepta Ho), duda que confirma lo expuesto en la observacin.



2WUR HMHPSOR

 Se tiene la siguiente tabla que relaciona las variables x e y


;               <              

8WLOL]DQGR ([FHO
0DUtD (XJHQLD $QJHO

0$(675$ (1 &,(1&,$6 62&,$/(6 < +80$1,'$'(6

Al ingresar en +HUUDPLHQWDV y luego $QiOLVLV GH GDWRV y seleccionar 5HJUHVLyQ, aparece la siguiente informacin:
14 12 10 y = 1,3454x + 4,1289

(67$'67,&$

<

8 6 4 2 0 0 1 2 3
WhvhiyrY

Pronstico para 5 6Y Lineal (Y) Lineal (Y)

7DEOD  5HVXPHQ (VWDGtVWLFDV GH OD UHJUHVLyQ &RHILFLHQWH GH FRUUHODFLyQ P~OWLSOH &RHILFLHQWH GH GHWHUPLQDFLyQ 5A 5A DMXVWDGR (UURU WtSLFR 2EVHUYDFLRQHV Tabla 2 ,QWHUFHSFLyQ 9DULDEOH ;  1 &RHILFLHQWHV   (UURU WtSLFR 0,94507185 0,27445731 3 (VWDGtVWLFR W 4,36883817 4,90189468

    

4 3UREDELOLGDG ,QIHULRU  6XSHULRU  0,00091405 2,06973134 6,18800062 0,00036478 0,74736973 1,94335192

Al ingresar en +HUUDPLHQWDV y luego $QiOLVLV GH GDWRV y seleccionar &RHILFLHQWH GH FRUUHODFLyQ, aparece:


Tabla 3 Columna 1 Columna 2 &ROXPQD  &ROXPQD  1  1

&yPR VH LQWHUSUHWD WRGD OD LQIRUPDFLyQ EULQGDGD"


0DUtD (XJHQLD $QJHO

0$(675$ (1 &,(1&,$6 62&,$/(6 < +80$1,'$'(6

D Las variables x e y estn correlacionadas linealmente, esta correlacin es PX\ EXHQD \ GLUHFWD E El modelo de regresin lineal H[SOLFD HQ XQ  coeficiente de determinacin es 0,6669, de tabla 1) \ (el coeficiente es 0,8166 de tabla 1 y tabla 3) la variacin de y respecto de x (el

(67$'67,&$

F Observando la columna 1 de la tabla 2 se obtiene que la recta de regresin lineal es  [  . Si x es cero y es 4,12, adems para una variacin en una unidad de la variable x, la variable y G Observando las columnas 3 y 4 de la segunda tabla se puede afirmar que la pendiente y la H Se puede estimar valores de y para distintos valores de x que no se alejen demasiado del rango por ejemplo puede interesarnos saber cul ser el valor de y si la x vale 6. Reemplazando en la recta se tiene: y = 1,3454 . 6 + 4,12 = 12,19. No se podra estimar el valor de y si x es 9 porque se aleja demasiado del rango. ordenada al origen de la recta son distintas de cero (ambos p valores son muy pequeos). vara en 1,34 unidades.



(MHUFLFLR

Utilizando los datos de la encuesta docente analizar si existe relacin entre la edad de los docentes y la cantidad de hijos.

Bueno, espero que se haya entendido.

+DVWD OD SUy[LPD FODVH 0DUtD (XJHQLD

0DUtD (XJHQLD $QJHO



S-ar putea să vă placă și