Sunteți pe pagina 1din 24

CONJUNTA DE

2. DESCRIPCION
VARIAS VARIABLES
Objetivo
Mostrar la relaci
on entre dos (o m
as) variables
discretas o categ
oricas.
Bibliografia recomendada
Pe
na y Romo (1997), Captulo 7.

Indice
1.

La tabla de doble entrada

2.

La distribuci
on conjunta de frecuencias

3.

Distribuciones marginales y condicionadas

4.

Ideas de independencia

5.

Media y varianza condicionada.


106

Introducci
on
Puede que, exista una relaci
on entre dos variables. Midiendo los valores de ambas variables
simultaneamente, podemos intentar medir la
relaci
on.
Ejemplo 55
1.

Altura y peso. Esperamos que, por lo general, la gente m


as alta sea m
as pesada.

2.

N
umero de partidos ganados y posici
on en
la clasificaci
on.

3.

N
umero de votos y n
umero de esca
nos

4.

Tipo de vivienda y sueldo.

5.

Provincia de nacimiento y primera idioma.


107

Ejemplo 56 La Real Academa de la Lengua


Espa
nola quiere estudiar las idiomas habladas
en Espa
na. Por esta raz
on, se pregunta a una
muestra de 40 espa
noles su provincia de nacimiento {Catalu
na, Galicia, Otra,Pais Vasco } y su
lengua materna { Castellano, Catalan,Euskera,
Gallego, Otra} con los siguientes resultados:
(P,Eus)
(G,Cas)
(O,Cas)
(O,Cas)
(O,Cas)
(O,Cas)
(P,Cas)

(O,Cas)
(O,Cas)
(P,Cas)
(O,Cas)
(O,Gal)
(G,Cas)
(G,Cas)

(O,Cas)
(C,Cat)
(C,Cat)
(O,Cas)
(O,Otr)
(G,Gal)
(O,Otr)

(O,Cas)
(P,Cas)
(O,Cas)
(C,Cat)
(O,Otr)
(C,Cas)
(C,Cat)

(C,Cat)
(G,Cas)
(G,Gal)
(P,Cas)
(O,Cas)
(P,Cas)

(C,Cas)
(O,Cas)
(P, Otr)
(G,Cas)
(C,Cat)
(O,Cas)

Resumimos estos datos en una tabla de doble


entrada.

108

La tabla de doble entrada


Construimos una tabla mostrando las frecuencias de cada combinaci
on.

Cas
Cat
Lengua Eus
Gal
Otr

Provincia
C G O P
2 5 14 5
6 0 0 0
0 0 0 1
0 2 1 0
0 0 3 1
40

Es decir que tenemos 14 personas en la muestra que provienen de otras provincias y hablan
Castellano.
Podemos convertir la tabla en una tabla de
frecuencias relativas, dividiendo cada frecuencia por 40.
109

Tabla de frecuencias relativas

Cas
Cat
Lengua Eus
Gal
Otr

C
,050
,150
,000
,000
,000

Provincia
G
O
,125 ,350
,000 ,000
,000 ,000
,050 ,025
,000 ,075

P
,125
,000
,025
,000
,025
1

Vemos que un 12,5 % de la gente en la muestra


son del Pais Vasco y hablan Castellano.
Supongamos que s
olo nos interesan la lengua.
Podemos calcular las distribuci
on marginal.

110

La distribuci
on marginal

Cas
Cat
Lengua Eus
Gal
Otr

C
,050
,150
,000
,000
,000

Provincia
G
O
,125 ,350
,000 ,000
,000 ,000
,050 ,025
,000 ,075

P
,125
,000
,025
,000
,025

,650
,150
,025
,075
,100
1,000

Es decir, un 65 % de la gente en la muestra


hablan Castellano y un 15 % hablan Catalan.
Igualmente, podemos a
nadir la distribuci
on marginal de la regi
on de donde proviene la gente.

111

Cas
Cat
Lengua Eus
Gal
Otr

C
,050
,150
,000
,000
,000
,200

Provincia
G
O
,125 ,350
,000 ,000
,000 ,000
,050 ,025
,000 ,075
,175 ,450

P
,125 ,650
,000 ,150
,025 ,025
,000 ,075
,025 ,100
,175 1,000

Es decir que un 20 % de la gente en la muestra


son Catalanes, etc.
Puede que tambi
en nos interesa la distribuci
on
de las lenguas habladas por la gente de otras
provincias.

112

La distribuci
on condicionada
Queremos la frecuencia de Castellanoparlantes
en las otras provincias. Miramos la columna de
frecuencias absolutas.
Cas
Cat
Eus
Gal
Otr

O
14
0
0
1
3
18

Lo podemos convertir en frecuencias condicionadas.


O
Cas
Cat
Eus
Gal
Otr

14
18

0
0
1
18
3
18

Es decir que 14
18 de la gente de otras provincias
en la muestra hablan Castellano.
113

C
alculo a trav
es de la tabla de frecuencias
relativas
Supongamos que queremos la distribuci
on de
las provincias de donde provienen la gente que
habla Castellano.
C
G
O
P
Cas ,050 ,125 ,350 ,125 ,650
Dividimos todas las entradas por la frecuencia
total (,650).
C
G
O
P
Cas ,077 ,192 ,538 ,192 1
Casi un 54 % de la gente que hablan Castellano
provienen de las otras provincias.

114

F
ormula General
Supongamos que medimos los valores de 2
variables X e Y con I y J distntas categoras o
valores (x1, . . . , xI e y1, . . . , yJ ) en una muestra
de n personas.
La tabla de doble entrada de frecuencias absolutas es la siguiente
Y
x1
x2
...
X
xI

y1 y2 . . . yJ
n11 n12 . . . n1J n1
n21 n22 . . . n2J n2
...
...
...
...
...
nI1 nI2 . . . nIJ nI
n1 n2 . . . nJ
n

where nij es el n
umero de veces que ocurre
PI
PJ
la pareja (xi, yj ) y n = i=1 j=1 nij . Las frecuencias marginales son ni =

PJ
j=1 nij y nj =

PI
i=1 nij
115

La tabla de frecuencias relativas es

Y
y1
y2 . . .
yJ
n11
n12
n1J
x1 f11 = n f12 = n . . . f1J = n f1 = nn1
x2 f21 = nn21 f22 = nn22 . . . f2J = nn2J f2 = fn2
...
...
...
...
...
...
xI fI1 = nnI1 fI2 = nnI2 . . . fIJ = fnIJ fI = nnI
f1 = nn1 f2 = nn2 . . . fJ = nnJ
1

La distribuci
on condicionada de Y dado X = xi
es
f (Y = y1 |X = xi ) =

fi1
,
fi

f (Y = y2 |X = xi ) =

fi2
,
fi

...,

f (Y = yJ |X = xi ) =

fiJ
fi

La distribuci
on condicionada de X dado Y = yj
es
f (X = x1 |Y = yj ) =

f1j
,
fj

f (X = x2 |Y = yj ) =

f2j
,
fj

...,

f (X = xi |Y = yj ) =

116

fIj
fj

Variables discretas
Con dos variables discretas, se puede construir
una tabla de la misma manera.
Ejemplo 57 La siguiente tabla proporciona el
n
umero de veces (X) que una muestra de 50
estudiantes de Economa han tenido que repetir Introducci
on a la Estadstica y el n
umero de
a
nos que han tardado en acabar la licenciatura
(Y ).

0
1
X 2
3

5
15
4
0
0

Y
6
5
8
2
0

7
3
2
1
0

8
2
1
3
4
50

Calculamos las distribuciones marginales y de


frecuencias relativas como anteriormente.
117

Con frecuencias absolutas, tenemos

0
1
X 2
3

5
15
4
0
0
19

Y
6
5
8
2
0
15

7 8
3 2 25
2 1 15
1 3 6
0 4 4
6 10 50

y con frecuencias relativas,

0
1
X 2
3

5
,3
,08
0
0
,38

Y
6
7
,1 ,06
,16 ,04
,04 ,02
0
0
,3 ,12

8
,04 ,5
,02 ,3
,06 ,12
,08 ,08
,2
1

Adem
as podemos calcular las frecuencias acondicionadas.
118

Cu
al es la distribuci
on del n
umero de a
nos tardado en hacer la licenciatura suponiendo que
un estudiante tiene que repetir Introducci
on
dos veces?
Queremos f (Y |X = 2). Miramos la fila con
X = 2 y dividimos las frecuencias por la frecuencia marginal:
Y 5
6
7 8
f (Y |X = 2) 0 ,333 ,166 ,5
La mitad de los alumnos quienes han repetido
Introducci
on dos veces han tardado 8 a
nos en
acabar la carrera.

119

Comparamos esta distribuci


on con la distribuci
on marginal de Y .
Se tiene
Y
5 6
7 8
f (Y ) ,38 ,3 ,12 ,2
es decir que conociendo la informaci
on de que
X = 2, las frecuencias relativas de los distntos
valores de Y son muy distntas. Este nos proporciona una idea de dependencia entre X e
Y.

120

Media y varianza
Adem
as, para variables discretas, es posible
hallar la media y varianza. Para hacerlo, usamos la f
ormula que aplicamos para tablas de
frecuencias relativas en el Captulo 1.
Ejemplo 58 Volvemos al Ejemplo 57.
Tenemos
x
=
=
2
sx =
=
sx
y =
=
s2y =
=
sy

,5 0 + ,3 1 + ,12 2 + ,08 3
,78
,5 02 + ,3 12 + ,12 22 + ,08 32 ,782
0,8916
0,9442
,38 5 + ,3 6 + ,12 7 + ,2 8
6,14
,38 52 + ,3 62 + ,12 72 + ,2 82 6,142
1,2804
1,1315

121

Media y varianza condicionada


Ejemplo 59 Volvemos al Ejemplo 57.
Tenemos la distribuci
on condicionada de Y dado X = 2.
Y 5
6
7 8
f (Y |X = 2) 0 ,333 ,166 ,5
Podemos calcular la media condicionada de Y
dado X = 2 a trav
es de esta tabla.
La media de Y dado X = 2 es
5 0 + 6 ,333 + 7 ,166 + 8 ,5 = 7,166
La varianza es
52 0 + 62 ,333 + 72 ,166 + 82 ,5 7,166 2
,806

La desviaci
on tpica condicionada es
,898.

,806
122

Gr
aficos
Existen varios gr
aficos para mostrar datos bivariantes. Si tenemos por lo menos una variable
categ
orica, podemos usar diagramas de pastel
o diagramas de barra comparativas.
Ejemplo 60 Se han preguntado a varios hombres y mujeres trabajadores su respuesta a la
pregunta piensan que el tratamiento de ambos sexos en el trabajo es igual? La tabla resume las respuestas.
sexo
H
M
Si 500 100 600
Opinion
No 200 600 800
No s
e 300 300 600
1000 1000 2000

123

Diagramas de pastel comparativas

Piechart for Hombres

Piechart for Mujeres


10,00%

Opinin
30,00%

No

Opinin
Si

Si
30,00%

No
No s

No s
50,00%

20,00%

60,00%

Vemos que las proporciones son muy distntas


entre hombres y mujeres.
124

Diagramas de barra comparativas

Barchart
30
Hombres

percentage

25

Mujeres

20
15
10
5
0
Si

No

No s

125

M
ultiples diagramas de caja
Con una variable categ
orica y una variable cuantitativa, podemos usar m
ultiples diagramas de
caja.
Ejemplo 61 El diagrama muestra los pesos de
jugadores de rugby de ambos sexos.

126

Histogramas tridimensionales
Con dos variables quantitativas (continuas), se
pueden construir histogramas tridimensionales.
Ejemplo 62 Los datos tienen que ver con RNA
y antibioticas.
Antibiotics and the 3 9-end of P/P 9-site-bound tRNA

127

Diagramas de dispersi
on
Es un diagrama
util para mostrar el tipo de
relaci
on entre dos variables cuantitativas.
Ejemplo 63 En un estudio sobre el tratamiento de diabetes, se interesaba por la p
erdida de
peso de los pacientes durante el tratamiento.
Los datos son los pesos iniciales de los pacientes (x) cuando les diagnosticaron la diabetes y la p
erdida de peso (y) despu
es de un
a
no (en libras).
X
Y
X
Y

225 235 173 223 200 199 129 242


15
44
31
39
6
16
21
44
140 156 146 195 155 185 150 149
5
12 3
19
10
24 3
10

128

Diagrama de dispersi
on de p
erdida de peso
frente a peso inicial

47
37

27
17
7
-3
120

150

180

210

240

270

Hay una relaci


on positiva entre la p
erdida de
peso y el peso inicial.
129

S-ar putea să vă placă și