Documente Academic
Documente Profesional
Documente Cultură
1 MEDIDAS DE CORRELACION
Para medir el grado de asociacin entre dos o ms variables se utilizan los
coeficientes de correlacin. Existen varios tipos de correlacin que pueden
calcularse y dependen de la escala de medicin en que se hallan medido cada
una de las variables, enfatizando que la escala ms fuerte es la de razn por lo
que la estructura general se obtiene bajo este enfoque y el coeficiente de
correlacin de Pearson es la forma general de obtener un coeficiente de
correlacin lineal, los otros tipos son casos especiales, que se describirn en las
secciones prximas. Sin embargo el coeficiente de correlacin de Pearson, es el
ms importante y en la mayora de los trabajos de investigacin, debiera
orientarse a obtener este tipo de informacin para cada uno de las variables, para
luego pasar a las otras escalas ms dbiles si el estudio lo requiere. A seguir se
presentan varios tipos de coeficientes de correlacin, iniciando por aquellas que se
aplican a las escalas de medicin ms fuerte y finalizando con aquellas que se
aplican a la escala de medicin ms dbiles.
n
1
( X X ) ( Y Y )
n i=1
r=
n n
1 2 1 2
n i=1
( X X ) ( Y Y )
n i=1
r
t Cal = H t Student ( n2 ) g . l
1r 2
0
n2
Z Cal =
1
ln
( (1+r ) ( 10 )
(1r ) ( 1+ 0 ) )
2 1
n3
Z Cal =
1
ln
( ( 1+ r 1 )( 1r 2 )
( 1r 1 ) ( 1+r 2 ) )
2 1 1
+
n 13 n 23
Ejemplo: La administracin bibliotecaria universitaria ha formulado un proyecto de
inversin en infraestructuras fsicasde la educacin superior, el cual considera la
construccin de mdulos personales, bipersonales y para estudios grupales fuera
de las aulas de clase, dichos mdulos han sido implementados durante el ltimo
semestre, y con el fin de evaluar la importancia de dichos modulo en el proceso de
enseanza y aprendizaje, se ha reportado los resultados de un examen aplicado.
La hiptesis formulada consiste en verificar la importancia o no importancia de los
mdulos educativos para estudios fuera del aula de clase en el rendimiento
acadmico del estudiante. Por su naturaleza de las dos variables usadas,
calificacin promedio de las evaluaciones (Y), y las horas de estudio en los
mdulos educativos fuera del aula de clase(X), se implementara una prueba
estadstica sobre el coeficiente de correlacin de Pearson para verificar la
implicancia entre las variables consideradas. En cuanto a la poblacin de los
posibles usuarios potenciales de dichos mdulos, se ha contabilizado en total a los
N=4000, desde el cual se ha decidido tomar una muestra como el 0.25% del
tamao poblacional, es decir se seleccionara aleatoriamente a n=10 estudiantes, a
quienes se les registro para el ltimo periodo lectivo, el nmero promedio de horas
diarias de estudio fuera del aula de clases en los mdulos educativos, y el
promedio de sus evaluaciones en el periodo lectivo correspondiente. Dichos
promedios son reportados en la siguiente tabla, en donde la columna X denota al
nmero promedio de horas de estudio fuera del aula de clases, la columna Y
denota a los promedios de todas sus evaluaciones en el periodo lectivo en
cuestin, a partir de estas dos columnas se obtienen las tres ltimas columnas,
con el objetivo de poder implementar el clculo del coeficiente de correlacin de
Pearson mediante su frmula conocida.
Estudiante
Horas Rendimiento X i X Y iY ( X i X )( Y i Y )
estudio X Promedio Y
1 7 13.4 2.7 1.31 3.537
2 6 12.9 1.7 0.81 1.377
3 6 12.8 1.7 0.71 1.207
4 5 13.1 0.7 1.01 0.707
5 5 12.2 0.7 0.11 0.077
6 4 11.5 -0.3 -0.59 0.177
7 3 11.1 -1.3 -0.99 1.287
8 3 11.3 -1.3 -0.79 1.027
9 2 11 -2.3 -1.09 2.507
10 2 11.6 -2.3 -0.49 1.127
Total 43 120.9 0 1.7E-15 13.03
10 10
1 43 1 120.9
X = X i= =4.3 ; Y = Y i = =12.9
10 i=1 10 10 i=1 10
10 10 10
2 2
( X i X ) =28.1 ; ( Y iY ) =7.289 ; ( X i X )(Y iY ) =13.03
i=1 I 01 i=1
10
1 1
( X X ) ( Y Y )
10 i=1 10
(13.03)
1.303
r= = = =0.9104
1.431156
1
1
10 10
1 2 1 2
( X X ) 10 ( Y Y ) 10 ( 28.1 ) 10 (7.289)
10 i=1 i=1
Existe una asociacin alta entre las horas diarias de estudio fuera del aula en los
mdulos educativos y el rendimiento acadmico promedio, para saber si esta
influencia es significativa se realizara la prueba de hiptesis, mediante el
estadstico t- student;
0.9104 0.9104
t Cal = = =6.2241
0.1462
10.9104 2
102
El valor del estadstico de prueba, supera al valor tabular t-Student con 8 grados
de libertad, que es igual a 2.31, ubicndose en la zona de rechazo de la hiptesis
nula, por lo que se rechaza que no exista influencia entre las variables,
concluyndose que si existe relacin entre las horas de estudio en los mdulos
educativos fuera de las aulas y el rendimiento promedio.
Cuando las variables en estudio han sido medidas en la escala ordinal, una forma
tradicional de aplicar una encuesta con tems medidas a travs de la escala de
Likert de 05, 06, 07 puntos, para estos casos se tienen dos coeficientes de
correlacin, el de Spearman y el Kendall, cuyas definiciones se dan a seguir.
Para ilustrar el clculo de este coeficiente de correlacin entre los rangos de las
variables en estudio, se utiliza el siguiente ejemplo hipottico, en donde 2 y 4
constituyen los rangos de de cada variable, y en la columna 5 se reporta las
diferencias entre los rangos respectivos, dichos valores se expresan en el cuadro
siguiente:
Si hay empates se pone el rango promedio, por ejemplo en los rangos para Y, los
puestos 3 y 4 estn empatados, por lo que se asigna los puestos intermedios, es
decir; 3,5, a seguir se obtienen las diferencias entre los rangos que asume las
variables, sobre estas diferencias se obtendr el coeficiente de correlacin de
Spearman segn la siguiente ecuacin;;
n
2
6 di
i=1
r S =1 2
n( n 1)
Donde:
rS:es el coeficiente de correlacin por rangos de Spearman, y toma valores
entre -1<rS<1, Un valor cercano a 0 indica que las variables apenas estn
relacionadas.
di: es la diferencia entre el valor ordinal de la variable X, y el de la
variable Y, en el elemento i- simo
n :es el tamao de la muestra.
rs
t Cal =
1r 2s
n2
r S n Normal S ; { 1
n1 }
Por lo que la prueba de significacin puede llevarse a cabo tambin por el
estadstico Z, el cual es dado por:
rS
Z Cal =
1
n1
Donde:
k k
n3 3 n33
T Xi ; Y = T Yi
2 2
X =
12 i=1 12 i=1
t 3Xit Xi t 3Yi t Yi
T Xi= ; T Yi =
12 12
R(Yi
Xi Yi R(Xi) di d2
)
1 2.33 2.9 15 13 2.00 4.00
2 9.5 14.5 - 25.0
1.53 4 5.00 0
3 3 5.5 -
1 1.6 2.50 6.25
4 9.5 14.5 - 25.0
1.53 4 5.00 0
5 9.5 12 -
1.53 2 2.50 6.25
6 1 1.55 3 3 0.00 0.00
7 3 9 - 36.0
1 1.65 6.00 0
8 7 2 25.0
1.27 1.5 5.00 0
9 12.5 9 12.2
1.6 1.65 3.50 5
10 1.13 1.6 6 5.5 0.50 0.25
11 3 5.5 -
1 1.6 2.50 6.25
12 1 1.2 3 1 2.00 4.00
13 12.5 9 12.2
1.6 1.65 3.50 5
14 14 5.5 72.2
1.87 1.6 8.50 5
15 9.5 11 -
1.53 1.75 1.50 2.25
Total 20.9 30.2 237.
2 5 120 120 0.00 00
6 (237,0) 1422
r S =1 =1 =10.4232=0.57678
15(2251) 3360
n
X 2 +Y 2 d 2i 3186 3282
+ 237,0
i=1 12 12 302.0
rS = = = =0.5603
538.6406
2 ( X Y 2)
2
3186 3282
2
12 12
rs 0.5603
t Cal = = =2.43899
2 2
1r s 10.5603
n2 152
Procede del siguiente modo: Para h>i sea a h la cantidad de rangos Y(h) que
cumplen la propiedad Y(h)> Y(i) ; es decir el numero de concordancias en cuanto al
ranking, y de otro lado sea bh la cantidad de rangos Y(h) que cumplen la propiedad
Y(h)< Y(i) ; es decir el numero de discrepancias entre el ranking de ambas variables.
Por tanto cantidad efectiva de rangos escalculada por:
n 1 n 1
S= ah bh=PQ
h =1 h =1
PQ
r =
n(n1)
2
r
Z Cal = Nornal { 0,1 }
2(2 n+5)
9 n(n1)
Tambin puede usarse el estadstico de prueba de la t-student, para implementar
la prueba de hiptesis, es decir;
r
t Cal =
1r 2
n2
PQ
=
P+Q
PQ
r b =
Y los tXi, tYi son los nmeros de empates en el rango i de cada variable
respectivamente.
Todas estas medidas toman valores entre -1 y +1, y alcanza los valores extremos
cuando existe concordancia o discordancia perfecta. Valores prximos a 0 indican
ausencia de asociacin, y sus caractersticas e interpretacin son similares a las
del coeficiente de correlacin de Pearson.
217 14
r = = =0.50
Luego el coeficiente de correlacin de Kendall es; 8(81) 28
2
r 0.5
t Cal = = =1.4142
1r 2
n2 10.52
82
El cual al ser comparado con t tabular con 6 grados de libertad (2.45), resulta ser
menor, luego no existen evidencias estadsticas para afirmar que el grado de
escolaridad de las madres est relacionado con el desarrollo mental de los nios .
A) CORRELACION BISERIAL
Se utiliza para establecer el grado de correlacin entre dos variables, de las cuales
uno es dicotomizada, en este caso se trata de una modificacin del coeficiente de
correlacin de Pearson entre una variable continua X , y otra Y que se ha sido
dicotomizada. Este coeficiente al igual que las anteriores se desprende de la
estructura general del coeficiente de correlacin de Pearson, por lo que las
simplificaciones convergen en la definicin del coeficiente para un caso especial,
Para la correlacin biserialr b se tiene que su definicin tiene la siguiente
expresin:
X p X q pq X
X p
r b=
SX ( )
y
= p
SX y ()
donde:
X es la variable continua
Y es la variable dicotomizada
X p es la media de X cuando Y vale 0
X p X q X
r bp =
SX
X
pq= p
SX p
q
Propiedades
21
S X=
1
211 ( (
i=1
2
)
) =2.988
X i X
9
1
X P= X Pi=17.0
9 i =1
X p X
r bp =
SX p 17.0014.857 0.4286
q
=
2.988 0.5714=0.6211
Por tanto, el valor del coeficiente de correlacin entre ambas variables es 0.6211,
y al tratarse de un coeficiente de signo positivo, se interpreta que a mayores
puntuaciones de la variable X, le corresponde mayores valores de Y, es decir para
los colegios que revieron PIP los rendimientos acadmicos son mayores, la
significacin es realizada por el estadstico de prueba t-student;
r 0.6211
t Cal = = =3.4544
2
1r 10.6211 2
n2 212
Variable Y
B1 B2 Bj .. Bk Total
Este coeficiente se utiliza para medir el grado de asociacin entre dos variables
cualitativas con h y k categoras respectivamente. El estadstico de prueba
est basado en la comparacin de las frecuencias observadas con
lasesperadas bajo la hiptesis nula de que existe independencia, y su valor es
calculado por la expresin:
h k 2
( Oij eij )
=
2
Donde:
Oij : son las frecuencias observadas en cada celda,
eij : Son las frecuencias tericas o esperadas y se calculan por; i = (e i.e.j )/n..
2
2
2 2
(|Oij e ij|0.5 )
=
i=1 j=1 e ij
Una importante medida para determinar la dependencia entre dos variables est
basado en el estadstico 2 chi cuadrado, y se denomina coeficiente (Phi), que
a diferencia del estadstico chi cuadrado no depende del tamao de la muestra,
pues su obtencin es realizada dividindolo precisamente entre el tamao de la
muestra, es decir;
2
=
n
C) COEFICIENTE DE CONTINGENCIA C
Este coeficiente es usado para medir el grado de asociacin entre las variables X
e Y, cuando ellas estn representados en sus categoras respectivas, y se define
por la expresin:
C=
2
n+
2
C Max =
u1
u
; donde u=Min(h , k )
D) COEFICIENTE V DE CRAMER
Este coeficiente alcanza valores entre 0 y 1, toma valor 0 cuando todas las
frecuencias observadas son iguales a todas las frecuencias esperadas, indicando
que las variables son independientes, por lo que coeficiente de chi cuadrado es
igual a 0, y toma valor 1 cuando las dos variables tienen iguales marginales,
indicando que son dependientes. El coeficiente verifica que: 0 V 1, y se
interpreta igual que el coeficiente de contingencia, teniendo en cuenta que slo
proporciona informacin sobre la relacin entre las variables y no sobre el sentido
de la misma.
Variable Y
B1 B2
Total
Y=0 Y=1
Variable X
n 11 n22n21 n12
=
n1. n2. n.1 n .2