Sunteți pe pagina 1din 9

1

Elementos de estadstica
para historiadores
Jorge Gonzalorena Dll
Universidad de Valparaso
2014
Descripcin estadstica
de dos variables
Las medidas que han sido tratadas hasta aqu han
estado siempre referidas a la descripcin de series de
observaciones (variables) independientes.
Sin embargo, esto resulta insuficiente en aquellas
investigaciones en que lo que se desea es determinar
si tales series de observaciones estn mutuamente
relacionadas, es decir si es posible establecer algn
nexo numrico entre ellas.
Si, por ejemplo, se considera la altura y el peso de un
grupo de personas es de suponer que, en promedio,
las personas altas pesan ms que las bajas.
Otro ejemplo es el de la relacin entre el precio de
una mercanca y la magnitud de su demanda: por lo
general, si su precio es alto la cantidad demandada
ser menor que si su precio es bajo (ceteris paribus).
2
En el primer ejemplo se supone que a un alto valor en
una serie corresponder en promedio un alto valor en
la otra, lo cual implica una correlacin directa entre
ambas variables.
En el segundo ejemplo se supone que a un alto valor
en una serie corresponder en promedio uno bajo en
la otra, lo cual implica un correlacin inversa entre
ambas variables.
Con frecuencia se desea someter a prueba tales
supuestos sobre una relacin recproca entre dos
variables y para ello se puede recurrir al clculo del
coeficiente de correlacin.
Bsicamente, el coeficiente de correlacin es, por lo
tanto, una medida de la direccin y la fuerza de la
relacin, o grado de variacin conjunta, entre dos
series numricas.
No obstante, la naturaleza de las variables que se
correlacionan, y por lo tanto sus escalas de medicin,
determinarn la tcnica especfica y el coeficiente de
correlacin que corresponda aplicar en cada caso.
En todos ellos se suele identificar primero la posicin
de los puntos correspondientes a las coordenadas (o
valores pareados) de ambas variables sobre un plano
cartesiano mediante un diagrama de dispersin.
3
x
Relacin lineal positiva Relacin lineal negativa Sin relacin
Diagramas de dispersin
x x
y y y
Con un poco de prctica, se puede hacer una
estimacin preliminar del grado en que las variables
se correlacionan mediante la simple observacin de
este diagrama de dispersin.
Luego, segn la naturaleza de las variables, se
procede a determinar cul coeficiente de correlacin
es el que deber aplicarse para efectuar el clculo.
Los ms ampliamente utilizados son:
1. el coeficiente r de correlacin lineal producto-
momento de Pearson, para efectuar el clculo
con variables en escalas de intervalos o de razn
2. el coeficiente de correlacin r
s
por rangos de
Spearman, con variables cuyos valores se hallan
registrados en escala ordinal.
El coeficiente de correlacin
lineal producto-momento
de Pearson
La frmula para el clculo del coeficiente de
correlacin lineal producto-momento de Pearson ( r )
es:



=
2 2
) ( ) (
) )( (
y y x x
y y x x
r
4
Esta frmula demanda lo siguiente:
1. determinar la media aritmtica para ambas series
de observaciones
2. calcular luego, para cada una de las series, las
diferencias entre los valores observados y sus
respectivas medias
3. multiplicar las diferencias de la serie x con las
correspondientes diferencias de la serie y
4. sumar los productos obtenidos en el paso anterior,
obteniendo as el numerador de la frmula
5. proceder luego a elevar al cuadrado las
diferencias en cada una de las series
6. sumar los cuadrados de las diferencias en cada
una de las series por separado
7. multiplicar la suma de los cuadrados de las
diferencias de la serie x por la suma de los
cuadrados de las diferencias de la serie y
8. extraer la raz cuadrada del producto obtenido en
el paso anterior, obteniendo as el denominador
de la frmula
9. dividir, finalmente, la suma obtenida en el cuarto
paso por el resultado obtenido en el paso
precedente
Ejemplo: Llevamos a cabo una investigacin en diez
nuevos matrimonios y deseamos saber si existe algn
nexo entre las edades de los contrayentes.
Matrimonio
N
Edad del
marido(x)
Edad de la
mujer (y)
1 23 21
2 25 25
3 27 26
4 22 23
5 30 24
6 24 22
7 40 35
8 32 28
9 28 29
10 49 47
Matrimonio
N
Edad del
marido (x)
Edad de la
mujer (y)
(x-x) (y-y) (x-x)(y-y) (x-x)
2
(y-y)
2
1 23 21 -7 -7 49 49 49
2 25 25 -5 -3 15 25 9
3 27 26 -3 -2 6 9 4
4 22 23 -8 -5 40 64 25
5 30 24 0 -4 0 0 16
6 24 22 -6 -6 36 36 36
7 40 35 10 7 70 100 49
8 32 28 2 0 0 4 0
9 28 29 -2 1 -2 4 1
10 49 47 19 19 361 361 361
Suma 300 280 0 0 575 652 550
5



=
2 2
) ( ) (
) )( (
y y x x
y y x x
r
96 , 0
8 , 598
575
600 . 358
575
550 * 652
575
= = = = r
El coeficiente de correlacin por
rangos de Spearman
El coeficiente de correlacin por rangos de Spearman
( r
s
) se utiliza cuando una o ambas escalas de
medicin son ordinales, es decir, cuando sus valores
corresponden a posiciones (1, 2, 3 ).
En caso de que los valores de una de las variables no
correspondiesen a los de una escala ordinal, se los
debe considerar como si lo fuesen, registrando el
rango de sus puntuaciones.
) 1 (
6
1
2
2

n n
D
r
s
La frmula para calcular el coeficiente de
correlacin de Spearman es la siguiente:
Para el clculo de r
s
es necesario obtener la diferencia
D entre los rangos o posiciones correspondientes a
las puntuaciones de cada caso en ambas variables.
(3, 4) D = -1
(6, 6) D = 0
(5, 2) D = 3
6
Ejemplo:
Se consideran las notas,
tanto de admisin como
de rendimiento del primer
semestre, obtenidas por 8
estudiantes.
Prueba 1 Prueba 2
7,0 6,0
6,5 5,8
6,0 6,5
5,8 5,0
4,5 4,0
4,0 5,4
3,7 4,6
3,2 3,8
Se procede establecer el orden o rango de las notas,
tanto de admisin como de rendimiento, obtenidas por
los 8 estudiantes, indicando para cada uno de ellos el
lugar (1, 2, 3, . etc.) ocupado por sus notas en
cada una de las series.
Prueba 1 Prueba 2 Orden P1 Orden P2 D D
2
7,0 6,0 1 2 -1 1
6,5 5,8 2 3 -1 1
6,0 6,5 3 1 2 4
5,8 5,0 4 5 -1 1
4,5 4,0 5 7 -2 4
4,0 5,4 6 4 2 4
3,7 4,6 7 6 1 1
3,2 3,8 8 8 0 0
16
Por lo tanto, el clculo no se realiza en base al valor
de las notas obtenidas por cada alumno en ambas
oportunidades, sino al orden o rango de ellas tanto
en el examen de admisin como en sus calificaciones
del primer semestre.
(1, 2), (2, 3), (3, 1), (4, 5), (5, 7), (6, 4), (7, 6), (8, 8)
D -1 -1 2 -1 -2 2 1 0
D
2
1 1 4 1 4 4 1 0
81 , 0
504
96
1
) 1 64 ( 8
) 16 ( 6
1
) 1 (
6
1
2
2
= =

n n
D
r
s
Luego se obtiene la diferencia entre las posiciones
alcanzadas por cada individuo en cada una de las
series, el resultado se eleva al cuadrado y se obtiene
el coeficiente aplicando la frmula correspondiente.
Interpretacin de los resultados
7
En el clculo del coeficiente de correlacin, el
numerador puede adoptar valores tanto positivos
como negativos (o ser = 0), pero jams puede
resultar, visto en trminos absolutos, mayor que el
denominador.
Esto quiere decir que el coeficiente de correlacin
puede ser tanto positivo como negativo y que sus
posibles valores se extienden a lo largo de un rango
que va desde -1 hasta +1.
Si resulta negativo significa que valores elevados de
una variable se hallan relacionados con valores bajos
de la otra, como en el caso de los precios y
cantidades vendidas.
Si resulta positivo significa que valores elevados de
una variable se hallan relacionados con valores
elevados de la otra (y que valores bajos de una se
relacionan con valores tambin bajos de la otra).
Mientras ms cerca se halle del valor +1 ms segura
es la variacin conjunta de las dos magnitudes,
indicando el valor +1 la existencia de una variacin
conjunta plena o perfecta.
Mientras ms cerca se halle del valor -1 ms segura
es la variacin conjunta negativa o inversa de ambas
magnitudes, indicando el valor -1 la existencia de una
variacin inversa plena.
8
Ocurre tambin que mientras ms cerca de 0 se halle
el coeficiente de correlacin ms dbil es la variacin
conjunta y que con el valor 0 no existe ninguna
variacin conjunta, ni positiva ni negativa.
En el ejemplo de los diez matrimonios se obtuvo un
coeficiente de correlacin de 0,96, valor que queda
tan cerca de +1 que se puede concluir, sin duda, que
existe una relacin entre las edades de los
contrayentes.
Si bien el coeficiente de correlacin ofrece una
medida numrica de la variacin conjunta de dos
variables, ello no significa que exista entre dichas
variables una relacin de causa y efecto. Podra
ocurrir que se obtenga un alto valor en el coeficiente
de correlacin entre dos series de datos sin que ellas
tengan algo en comn.
Si p..e. en una zona aumenta el nmero de cigeas
conjuntamente con el nmero de recin nacidos no se
podra extraer de ello la conclusin de que existe
algn nexo de causa-efecto entre ambos fenmenos.
En una sociedad en expansin como la actual se
puede encontrar una gran cantidad de series que
varan en forma conjunta. Crecen p.e. el nmero de
accidentes del trnsito, el consumo de pan y el tiempo
promedio de escolaridad.
Probablemente, en muchos casos la combinacin de
dichas series arrojarn altos coeficientes de
correlacin, pero es muy improbable que se pudiese
establecer entre ellas alguna directa relacin causal.
9
Es necesario tener esto en cuenta como una seal de
alerta ante una aceptacin acrtica y una utilizacin
demasiado mecnica de los clculos de correlacin.

S-ar putea să vă placă și