Documente Academic
Documente Profesional
Documente Cultură
2. DESCRIPCION
VARIAS VARIABLES
Objetivo
Mostrar la relaci
on entre dos (o m
as) variables
discretas o categ
oricas.
Bibliografia recomendada
Pe
na y Romo (1997), Captulo 7.
Indice
1.
2.
La distribuci
on conjunta de frecuencias
3.
4.
Ideas de independencia
5.
Introducci
on
Puede que, exista una relaci
on entre dos variables. Midiendo los valores de ambas variables
simultaneamente, podemos intentar medir la
relaci
on.
Ejemplo 55
1.
2.
N
umero de partidos ganados y posici
on en
la clasificaci
on.
3.
N
umero de votos y n
umero de esca
nos
4.
5.
(O,Cas)
(O,Cas)
(P,Cas)
(O,Cas)
(O,Gal)
(G,Cas)
(G,Cas)
(O,Cas)
(C,Cat)
(C,Cat)
(O,Cas)
(O,Otr)
(G,Gal)
(O,Otr)
(O,Cas)
(P,Cas)
(O,Cas)
(C,Cat)
(O,Otr)
(C,Cas)
(C,Cat)
(C,Cat)
(G,Cas)
(G,Gal)
(P,Cas)
(O,Cas)
(P,Cas)
(C,Cas)
(O,Cas)
(P, Otr)
(G,Cas)
(C,Cat)
(O,Cas)
108
Cas
Cat
Lengua Eus
Gal
Otr
Provincia
C G O P
2 5 14 5
6 0 0 0
0 0 0 1
0 2 1 0
0 0 3 1
40
Es decir que tenemos 14 personas en la muestra que provienen de otras provincias y hablan
Castellano.
Podemos convertir la tabla en una tabla de
frecuencias relativas, dividiendo cada frecuencia por 40.
109
Cas
Cat
Lengua Eus
Gal
Otr
C
,050
,150
,000
,000
,000
Provincia
G
O
,125 ,350
,000 ,000
,000 ,000
,050 ,025
,000 ,075
P
,125
,000
,025
,000
,025
1
110
La distribuci
on marginal
Cas
Cat
Lengua Eus
Gal
Otr
C
,050
,150
,000
,000
,000
Provincia
G
O
,125 ,350
,000 ,000
,000 ,000
,050 ,025
,000 ,075
P
,125
,000
,025
,000
,025
,650
,150
,025
,075
,100
1,000
111
Cas
Cat
Lengua Eus
Gal
Otr
C
,050
,150
,000
,000
,000
,200
Provincia
G
O
,125 ,350
,000 ,000
,000 ,000
,050 ,025
,000 ,075
,175 ,450
P
,125 ,650
,000 ,150
,025 ,025
,000 ,075
,025 ,100
,175 1,000
112
La distribuci
on condicionada
Queremos la frecuencia de Castellanoparlantes
en las otras provincias. Miramos la columna de
frecuencias absolutas.
Cas
Cat
Eus
Gal
Otr
O
14
0
0
1
3
18
14
18
0
0
1
18
3
18
Es decir que 14
18 de la gente de otras provincias
en la muestra hablan Castellano.
113
C
alculo a trav
es de la tabla de frecuencias
relativas
Supongamos que queremos la distribuci
on de
las provincias de donde provienen la gente que
habla Castellano.
C
G
O
P
Cas ,050 ,125 ,350 ,125 ,650
Dividimos todas las entradas por la frecuencia
total (,650).
C
G
O
P
Cas ,077 ,192 ,538 ,192 1
Casi un 54 % de la gente que hablan Castellano
provienen de las otras provincias.
114
F
ormula General
Supongamos que medimos los valores de 2
variables X e Y con I y J distntas categoras o
valores (x1, . . . , xI e y1, . . . , yJ ) en una muestra
de n personas.
La tabla de doble entrada de frecuencias absolutas es la siguiente
Y
x1
x2
...
X
xI
y1 y2 . . . yJ
n11 n12 . . . n1J n1
n21 n22 . . . n2J n2
...
...
...
...
...
nI1 nI2 . . . nIJ nI
n1 n2 . . . nJ
n
where nij es el n
umero de veces que ocurre
PI
PJ
la pareja (xi, yj ) y n = i=1 j=1 nij . Las frecuencias marginales son ni =
PJ
j=1 nij y nj =
PI
i=1 nij
115
Y
y1
y2 . . .
yJ
n11
n12
n1J
x1 f11 = n f12 = n . . . f1J = n f1 = nn1
x2 f21 = nn21 f22 = nn22 . . . f2J = nn2J f2 = fn2
...
...
...
...
...
...
xI fI1 = nnI1 fI2 = nnI2 . . . fIJ = fnIJ fI = nnI
f1 = nn1 f2 = nn2 . . . fJ = nnJ
1
La distribuci
on condicionada de Y dado X = xi
es
f (Y = y1 |X = xi ) =
fi1
,
fi
f (Y = y2 |X = xi ) =
fi2
,
fi
...,
f (Y = yJ |X = xi ) =
fiJ
fi
La distribuci
on condicionada de X dado Y = yj
es
f (X = x1 |Y = yj ) =
f1j
,
fj
f (X = x2 |Y = yj ) =
f2j
,
fj
...,
f (X = xi |Y = yj ) =
116
fIj
fj
Variables discretas
Con dos variables discretas, se puede construir
una tabla de la misma manera.
Ejemplo 57 La siguiente tabla proporciona el
n
umero de veces (X) que una muestra de 50
estudiantes de Economa han tenido que repetir Introducci
on a la Estadstica y el n
umero de
a
nos que han tardado en acabar la licenciatura
(Y ).
0
1
X 2
3
5
15
4
0
0
Y
6
5
8
2
0
7
3
2
1
0
8
2
1
3
4
50
0
1
X 2
3
5
15
4
0
0
19
Y
6
5
8
2
0
15
7 8
3 2 25
2 1 15
1 3 6
0 4 4
6 10 50
0
1
X 2
3
5
,3
,08
0
0
,38
Y
6
7
,1 ,06
,16 ,04
,04 ,02
0
0
,3 ,12
8
,04 ,5
,02 ,3
,06 ,12
,08 ,08
,2
1
Adem
as podemos calcular las frecuencias acondicionadas.
118
Cu
al es la distribuci
on del n
umero de a
nos tardado en hacer la licenciatura suponiendo que
un estudiante tiene que repetir Introducci
on
dos veces?
Queremos f (Y |X = 2). Miramos la fila con
X = 2 y dividimos las frecuencias por la frecuencia marginal:
Y 5
6
7 8
f (Y |X = 2) 0 ,333 ,166 ,5
La mitad de los alumnos quienes han repetido
Introducci
on dos veces han tardado 8 a
nos en
acabar la carrera.
119
120
Media y varianza
Adem
as, para variables discretas, es posible
hallar la media y varianza. Para hacerlo, usamos la f
ormula que aplicamos para tablas de
frecuencias relativas en el Captulo 1.
Ejemplo 58 Volvemos al Ejemplo 57.
Tenemos
x
=
=
2
sx =
=
sx
y =
=
s2y =
=
sy
,5 0 + ,3 1 + ,12 2 + ,08 3
,78
,5 02 + ,3 12 + ,12 22 + ,08 32 ,782
0,8916
0,9442
,38 5 + ,3 6 + ,12 7 + ,2 8
6,14
,38 52 + ,3 62 + ,12 72 + ,2 82 6,142
1,2804
1,1315
121
La desviaci
on tpica condicionada es
,898.
,806
122
Gr
aficos
Existen varios gr
aficos para mostrar datos bivariantes. Si tenemos por lo menos una variable
categ
orica, podemos usar diagramas de pastel
o diagramas de barra comparativas.
Ejemplo 60 Se han preguntado a varios hombres y mujeres trabajadores su respuesta a la
pregunta piensan que el tratamiento de ambos sexos en el trabajo es igual? La tabla resume las respuestas.
sexo
H
M
Si 500 100 600
Opinion
No 200 600 800
No s
e 300 300 600
1000 1000 2000
123
Opinin
30,00%
No
Opinin
Si
Si
30,00%
No
No s
No s
50,00%
20,00%
60,00%
Barchart
30
Hombres
percentage
25
Mujeres
20
15
10
5
0
Si
No
No s
125
M
ultiples diagramas de caja
Con una variable categ
orica y una variable cuantitativa, podemos usar m
ultiples diagramas de
caja.
Ejemplo 61 El diagrama muestra los pesos de
jugadores de rugby de ambos sexos.
126
Histogramas tridimensionales
Con dos variables quantitativas (continuas), se
pueden construir histogramas tridimensionales.
Ejemplo 62 Los datos tienen que ver con RNA
y antibioticas.
Antibiotics and the 3 9-end of P/P 9-site-bound tRNA
127
Diagramas de dispersi
on
Es un diagrama
util para mostrar el tipo de
relaci
on entre dos variables cuantitativas.
Ejemplo 63 En un estudio sobre el tratamiento de diabetes, se interesaba por la p
erdida de
peso de los pacientes durante el tratamiento.
Los datos son los pesos iniciales de los pacientes (x) cuando les diagnosticaron la diabetes y la p
erdida de peso (y) despu
es de un
a
no (en libras).
X
Y
X
Y
128
Diagrama de dispersi
on de p
erdida de peso
frente a peso inicial
47
37
27
17
7
-3
120
150
180
210
240
270