Documente Academic
Documente Profesional
Documente Cultură
Ejemplo: Una compaa de seguro de Gastos Mdicos quiere conocer los cinco
procedimientos quirrgicos ms frecuentes en los hospitales de la Repblica
Mexicana
Poblacin
Datos
Unidad Experimental
Variables de respuesta
Variables cualitativas
Denotan cualidades o atributos de las unidades experimentales estudiadas.
Ejemplos:
medicin.
Nmero de materias
0, 1, 2, Discreta
aprobadas hasta ahora
Porcentaje de materias
[0, 100) % Continua
aprobadas hasta ahora
Ejercicio:
Nmero de habitantes 1, 2,
Nmero de escuelas 0, 1, 2,
Ejercicio:
Escala nominal
Escala ordinal
Escala de intervalo
Escala de razn
Escala nominal
En este nivel, que es el ms bajo de medicin, se realiza la operacin ms sencilla y
bsica: clasificar los diferentes valores que asume la variable en categoras
mutuamente excluyentes y exhaustivas. Sin embargo NO es posible establecer una
relacin de orden entre las categoras.
Ejemplo:
Ejemplos:
Nivel socio econmico (bajo, medio, alto)
Hbito de fumar (nunca, poco, mucho)
Opinin acerca de un servicio (psimo, malo, regular, bueno, excelente)
Escala de intervalo
En este nivel, adems de todas las propiedades de la escala ordinal, es posible medir
exactamente la intensidad con la que se posee una caracterstica. Es una escala
cuantitativa, por lo tanto se pueden calcular diferencias entre las mediciones. Sin
embargo, en estas variables el punto cero de la escala es arbitrario y no significa ausencia
de valor. En algunos casos se pueden usar valores negativos.
Ejemplo:
Temperatura
Ubicacin en una carretera respecto de un punto de referencia (Kilmetro 85 Ruta 5)
Talla de ropa
Calificacin
Escala de razn
En este nivel de medicin el cero implica ausencia del atributo. De este modo se
pueden realizar operaciones de producto o cociente y de esta manera comparar
mediante proporciones o razones.
Ejemplo:
Velocidad de un automvil
Relacin entre las escalas de medicin
Variables
La intencin de voto
El nmero de televisores en el hogar
El INPC
El nmero de acciones vendidas cada da en la bolsa
Categora de un hotel (estrellas)
Temperaturas registradas cada hora en una ciudad
Tipo de poblacin en que se habita (urbana o rural)
El consumo de electricidad de una colonia
Percepcin del consumidor acerca de un producto (malo, regular, bueno)
Calificacin de un examen
Talla de los zapatos
Distribucin de frecuencias
Variables cualitativas 2
3
perro
no tiene mascota
4 perro
5 gato
6 gato
Ejemplo: Se realiz una encuesta a 7 perro
8 gato
20 personas en Coyoacn para saber 9 gato
10 no tiene mascota
si tienen mascotas y se obtuvieron 11 perro
12 perro
los siguientes resultados: 13 perro
14 perro
15 perro
16 perro
17 otro
18 no tiene mascota
19 no tiene mascota
20 perro
Persona Mascota
1 no tiene mascota
2 perro
3 no tiene mascota
4 perro
5 gato
6 gato Distribucin de frecuencias
7 perro
8 gato
9 gato Frecuencia Frecuencia
Mascota
10 no tiene mascota absoluta fi relativa pi (%)
Ejemplo:
No tiene
25%
Frecuencia Frecuencia
Mascota
absoluta fi relativa pi (%)
Perro 10 50%
Perro
Gato 4 20% Otro 50%
5%
Otro 1 5%
No tiene 5 25%
Gato
Total 20 100% 20%
Diagrama circular
Ejercicio: Obtener la distribucin de frecuencias a partir del diagrama
circular.
No tiene televisor
5%
Blanco y negro
Ambos
10%
25%
Categora fi pi (%)
Color
60%
Diagrama circular
Diagrama de barras
Consta de dos ejes, uno denota las frecuencias relativas y otro las categoras
de la variable
60%
50%
Frecuencia relativa
40%
30%
20%
10%
0%
Categoras
Diagrama de barras
Ejemplo:
0%
Perro No tiene Gato Otro
Diagrama de barras
Ejercicio: Realizar el diagrama de barras de la siguiente tabla
Categora fi pi (%)
Futbol 6 30%
Basket 5 25%
Natacin 4 20%
Box 2 10%
otro 2 10%
Voleibol 1 5%
Total 20 100%
Diagrama de barras
Ejercicio: Obtener la distribucin de frecuencias a partir del diagrama de
barras.
50%
Categora fi pi (%)
40%
30%
20%
10%
0%
Dos tazas No toma Una taza Ms de
al da caf al da tres tazas
al da
Tarea
4.7, 3.8, 4.3, 8.9, 3.8, 3.3, 3.7, 3.7, 5.4, 4, 4.3, 5.9, 4.8, 3.9, 5.2, 4.9, 3.7, 4.4,
4.4, 5.1, 2.3, 3.6, 4.4, 8.2, 2.7, 5.1
Si existen muchos datos cuyos valores se alejan mucho del resto del conjunto
2. Determinar una regla para dividir los dgitos de cada observacin en dos partes:
tallo y hoja, la cual se aplicar por igual a todas las observaciones
4. Por cada dato ingresar una hoja en el tallo que le corresponda, no es necesario
que se ingresen en orden
5. Una vez que se han ingresado todos los datos, se construye un nuevo tallo y se
procede a anotar las hojas de manera ordenada.
Diagrama de tallo y hojas
Ejemplo: Realizar el diagrama de tallo y hojas de la variable Tvtotal de la
pgina 1-8 del libro.
tallo hojas
0 00
0
1 4
tallo hojas tallo hojas
1 6
0 00 0 00 2 000 24
1 64 1 46 2 788 8
3 012 4
2 804080782 2 000247888
3 558
3 1552480 3 0124558 4 002 2
4 2020 ordenar 4 0022 Dividir en 2 4
5 244
5 4642 5 2446
(opcional Si el diagrama
5 6
6 9820 6 0289 6 02
presenta muchos datos en
7 406 7 046 cada tallo) 6 89
8 46422 8 22446 7 04
7 6
8 224 4
8 6
Tarea - Diagrama de tallo y hojas
Los siguientes son tiempos, en minutos, que tarda la cocina de un restaurante en
atender rdenes:
4.7, 3.8, 4.3, 8.9, 3.8, 3.3, 3.7, 3.7, 5.4, 4, 4.3, 5.9, 4.8, 3.9, 5.2, 4.9, 3.7, 4.4, 4.4,
5.1, 2.3, 3.6, 4.4, 8.2, 2.7, 5.1
Las categoras son los elementos que toma la variable. Nuevamente se aplica
un proceso de conteo para determinar las frecuencias absolutas y
posteriormente se calculan las frecuencias relativas
Distribucin de frecuencias
Variables discretas
Teles fi pi (%)
0 2 5%
1 8 20%
2 9 23%
3 13 33%
4 7 18%
5 1 3%
Total 40 100%
Distribucin de frecuencias
Variables continuas
La construccin es distinta porque puede ser que ningn valor se repita. Por
ello se utilizan intervalos para clasificar las observaciones.
Distribucin de frecuencias
Variables continuas
PROCEDIMIENTO:
Por facilidad,
tomemos 50,000
Distribucin de frecuencias
Variables continuas
3. Elegir el valor inicial que limitar el primer intervalo de clase y a partir del cual se
obtendrn todos los puntos iniciales y finales para cada uno de los siguientes
intervalos (llamados lmites de clase).
El primer lmite inferior deber ser un nmero un poco menor que el valor mnimo
observado en el conjunto de datos.
m1 = (75 000 + 125 000)/2 = 100 000 (75 000, 125 000]
3 7.5%
m2 = 150 000 (125 000, 175 000]
8 20%
m3 = 200 000 (175 000, 225 000]
10 25%
m4 = 250 000 (225 000, 275 000]
8 20%
m5 = 300 000 (275 000, 325 000]
5 12.5%
m6 = 350 000 (325 000, 375 000]
6 15%
Total 40 100%
Frecuencia absoluta acumulada ( )
Frecuencia
Frecuencia Frecuencia Frecuencia relativa
Intervalos de clase Marca de clase absoluta
absoluta relativa acumulada
acumulada
Es una forma especial de una grfica de barras en la cual los intervalos de clase estn representados por el
ancho de las barras y las frecuencias de las mediciones son proporcionales a las reas de los rectngulos
Frecuencias
relativas o
absolutas
Histogramas
30%
16%
25% 14%
12%
Frecuencia relativa
20%
Frecuencia relativa
10%
15%
8%
10% 6%
4%
5%
2%
0%
50000 100000 150000 200000 250000 300000 350000 400000 0%
Marcas de clase
Marcas de clase
Relacin entre histogramas y curvas poblacionales
Distribucin simtrica
Distribucin bimodal
Distribucin simtrica
Ej: IQ de la poblacin
Distribucin sesgada (asimtrica)
Puntos en el test
Distribucin bimodal
Este caso se podra dar, por ejemplo, si consideramos las variables peso y
estatura cuando no se tienen separadas las mediciones de hombres y mujeres
Polgono de frecuencias
La construccin es muy sencilla; slo se unen los puntos medios de la parte
superior de las barras del histograma y se cierran los extremos con el eje
horizontal
16%
14%
12%
Frecuencia relativa
10%
8%
6%
4%
2%
0%
Marcas de clase
Ojiva
La ojiva es la curva que resulta de graficar las frecuencias relativas acumuladas contra
los lmites superiores de cada intervalo de clase.
100%
90%
Frecuencia relativa acumulada
80%
70%
63%
60%
50%
Qu porcentaje de hogares tiene un
valor catastral menor a 250,000?
40%
30%
20%
10%
0%
75000 100000 125000 150000 175000 200000 225000 250000 275000 300000 325000 350000 375000
Lmites de clase
Percentiles
Los percentiles indican el valor de una variable por debajo de la cual se encuentra
un porcentaje dado de observaciones. Por ejemplo, el percentil 30% es el valor por
debajo del cual se encuentran el 30% de las observaciones.
100%
90%
Frecuencia relativa acumulada
80%
70%
Esto quiere decir que el 90% de las
60%
casas tienen un valor de hasta
50%
40%
345,000 y slo el 10% tienen un
30%
valor de ms de 345,000
20%
Percentil 90% = 345 000
10%
0%
75000 100000 125000 150000 175000 200000 225000 250000 275000 300000 325000 350000 375000
Lmites de clase
Agrupacin de variables
Este proceso consiste en formar una variable cualitativa combinando los
valores de otra variable (cualitativa o cuantitativa) en una coleccin de
clases.
Ejemplos:
Sin televisor Sin televisor a color
variable Teles Blanco y negro
Color Con televisor a color
Ambos
Medidas Percentiles
Medidas de posicin
descriptivas Deciles
Cuartiles
Amplitud
Medidas de variabilidad Varianza
o dispersin Coeficiente de variacin
Medidas de tendencia central
Las medidas de tendencia central son los valores numricos que tienden a
localizar, en cierto sentido, la parte central de la distribucin de frecuencias.
Poblacin Muestra
Media
Mediana
Mediana
Es el valor que ocupa la posicin central del conjunto de datos una vez que
stos han sido ordenados de acuerdo con su magnitud en forma ascendente
Es el percentil 50%
Localizacin de la mediana
= 0.5 37 + 0.5 = 19
4
Localizacin de la mediana
tallo hojas
0 00 = 0.5 40 + 0.5 = 20.5
1 46
2 000247888
3 012455 8
4 0022
5 2446
6 0289 Por lo tanto la mediana es el promedio
7 046
entre la posicin 20 y la 21, es decir
8 22446
3.8 + 4
= = 3.9
2
La mediana no necesariamente
pertenece al conjunto de
observaciones
Media (datos sin agrupar)
Es el promedio aritmtico de un conjunto de mediciones.
=1
=
La media es un buen indicador de la tendencia central en caso de una distribucin no muy sesgada y
sin observaciones atpicas
Media (datos agrupados)
Si nicamente contamos con la distribucin de frecuencias, y por tanto la suma exacta
de todas las observaciones ya no se puede obtener, podemos aproximar el valor de la
media de la siguiente manera:
=1
= =
=1
Marca Frecuencia Frecuencia
Frecuencia Frecuencia
Intervalos de clase de absoluta relativa
absoluta relativa
clase acumulada acumulada
k mi fi pi (%) Fi Pi (%)
(225 000, 275 000] 250 000 8 20% 29 72.5% = 227 500
(275 000, 325 000] 300 000 5 12.5% 34 85%
Total 40 100%
Moda
Es aquel valor que ocurre con mayor frecuencia
Moda
Comparacin de las medidas de tendencia central
As, la media debe ser nuestra medida preferida de tendencia central para los
conjuntos de datos que se distribuyen normalmente, puesto que es ms fcil de
calcular y de usar en forma matemtica.
Distribucin bimodal
En una distribucin bimodal, la media y la mediana no son de utilidad, puesto
que sus valores estarn en algn lugar entre los dos puntos mximos y
distorsionarn enormemente la descripcin de la distribucin.
La moda resulta ser la nica medida til de tendencia central. Sin embargo,
una distribucin bimodal es poco comn y en general podemos decir que
consta de dos distribuciones que se pueden analizar en forma independiente
Distribucin asimtrica
Cuando se describen distribuciones asimtricas, la media no es la mejor medida de
tendencia central disponible. Mientras mayor sea la asimetra o sesgo de los datos,
mayor utilidad tendr la mediana (y ms engaosa ser la media), porque la mediana
estar ms cerca del valor central de las observaciones. Por ejemplo, en el caso de una
distribucin asimtrica positiva, la media se encuentra inflada por la minora de las
observaciones que tienen un valor mayor.
0% 100%
25% 50% 75%
1 2 3
mediana
Cuartil inferior o primer cuartil
Tiene por debajo al 25% de los valores de la distribucin de frecuencias. El
cuartil inferior poblacional se denota 1 y el muestral 1
1 = 0.25 + 0.5
3 = 0.75 + 0.5
3 = 0.75 37 + 0.5 = 26
3 = 7.4
Cuartiles
Localizacin de los cuartiles
Ejemplo:
1 = 0.25 40 + 0.5 = 10.5
tallo hojas
0 00
1 46 3 = 0.75 40 + 0.5 = 30.5
2 00024 78 88
3 0124558
4 0022
5 2446 Por lo tanto los cuartiles son el promedio entre la posicin
6 0 28 9 10 y la 11, contando como corresponda
7 046
8 22446
6.2 + 6.8
2.7 + 2.8 3 = = 6.5
1 = = 2.75 2
2
Percentiles
Clculo del p-simo percentil: (0 < p < 100%)
=
100
Nota: Los percentiles 25% y 75% dan valores similares a q1 y q3, por lo que se usan indistintamente.
Percentiles
Ejemplo
Medidas Percentiles
Medidas de posicin
descriptivas Deciles
Cuartiles
Amplitud
Medidas de variabilidad Varianza
o dispersin Coeficiente de variacin
Desviaciones con respecto a la media
( ) = 0
=1
Desviaciones con respecto a la media
Ejemplo: Tenemos las siguientes observaciones: 3.5, 3.7, 4.4, 5.6, 6.5, 8.3 y 10.
Negativas Positivas
-2.5
4
-2.3
2.3
-1.6
0.5
-0.4
= =
. . = 3 1
2
2 =1( ) Nota: Al elevar al cuadrado las
Varianza poblacional = desviaciones respecto a la media, la
unidad en que se expresan stas ya
2 no es la misma de las observaciones
=1( )
Varianza muestral 2 = originales
1
Varianza 2 para datos sin agrupar
2 2
=1
La varianza poblacional tambin puede calcularse como 2 =
Demostracin:
=1( )
2 2
=1 2 +
2 2
2
2 = = =
=1 2
=1 +
=1
2 2
1 2
2 = 2 + 2 = 22 +
=1 =1 =1
2 2 2
2
2 = 22 + 2 = 2 =
=1 =1 =1
Desviacin estndar
Para tener una medida de dispersin que est en las unidades originales de las
observaciones, se le aplica raz cuadrada a la varianza.
Poblacional = 2
Muestral = 2
Desviacin estndar
La desviacin estndar es una medida del grado de dispersin de los datos con
respecto al valor promedio, es decir,
Nota: Tanto la varianza como la desviacin estndar son estadsticas no resistentes, ya que
pueden distorsionarse en presencia de observaciones con valores atpicos
Varianza (datos agrupados)
El procedimiento se basa en la misma consideracin que se hizo para el clculo
de la media con una distribucin de frecuencias: el valor de la marca de clase
representa a los valores de todas las observaciones que quedaron clasificadas
en dicho intervalo de clase.
Se puede usar
2 2 2 cualquiera de las dos
=1 ( )
=1 frmulas para realizar
2 = 2 = el clculo
1 1
Coeficiente de variacin
El coeficiente de variacin mide la dispersin relativa de un conjunto de
valores al dividir la desviacin estndar entre la media:
Poblacional Muestral
. . = . . =
1 3 Atpico Atpico
menor mayor
Adyacente Adyacente
inferior superior
Diagrama de caja y brazos
Construccin:
1 3
Adyacente Adyacente
inferior superior
Diagrama de caja y brazos
3. Los brazos se extienden hasta los valores mximo y mnimo de las observaciones o hasta 1.5
de la amplitud intercuartlica, por lo tanto se debe calcular el factor de escala = 1.5
con el cual obtenemos las barreras interiores
1 = 1 2 = 3 +
= 3 1
(50% de los datos)
Observacin mnima Observacin mxima
dentro de la barrera dentro de la barrera
interior 1 1 interior 2
3
Adyacente Adyacente
inferior superior
1 2
Diagrama de caja y brazos
Cuando los datos se extienden ms all de las fronteras interiores, significa que hay valores
atpicos en la serie, por lo tanto debemos calcular las barreras exteriores:
Barreras exteriores: = = +
Si el dato atpico no sobrepasa las barreras exteriores, se considera dato atpico menor. De lo
contrario, se le llama dato atpico mayor
Adyacente Adyacente
1 1 inferior superior 2 2
Problema de comparacin y asociacin
Poblacin
Estudiantes
Gnero
Ejemplo:
Automviles
Marca
Esta tabla contiene las frecuencias absolutas muestrales y toda la informacin necesaria para
llevar a cabo procedimientos exploratorios
Hbito de tabaquismo
De esta tabla de contingencia podemos calcular informacin relevante calculando las frecuencias
absolutas relativas y marginales, dividiendo entre el total de observaciones (540)
Las frecuencias relativas conjuntas nos dan una idea de qu tan frecuentemente se presentan
simultneamente ambos atributos en la poblacin. Podemos ver que la combinacin ms frecuente es
hombres que fuman actualmente, mientras que la menos frecuente son mujeres que han dejado de
fumar.
Hbito de tabaquismo
Fuma
Gnero Nunca ha Dej de Frec
actualment
fumado fumar marg
Tabla de frecuencias e
relativas conjuntas y Masculino 28.5% 4.6% 34.3% 67.4%
marginales
Femenino 23.5% 2.0% 7.0% 32.6%
Frecuencias
52.0% 6.7% 41.3% 100.0%
marginales
Las frecuencias relativas marginales, llamadas as porque se presentan en los mrgenes de la tabla,
nos dicen qu tan frecuentemente se presenta el atributo en la poblacin por s mismo.
Problema de comparacin
Variable cualitativa
Sin embargo, en el problema de comparacin deseamos ver si las frecuencias relativas dado el
gnero varan entre hombres y mujeres
Para hacer esta comparacin es relevante calcular las frecuencias relativas condicionales, que se
obtienen al dividir las frecuencias conjuntas entre la correspondiente frecuencia marginal.
Ejemplo:
Masculino 28.5% 4.6% 34.3% 67.4% Masculino 42.3% 6.9% 50.8% 100.0%
Femenino 23.5% 2.0% 7.0% 32.6% Femenino 72.2% 6.3% 21.6% 100.0%
Frecuencias
Frec marg 52.0% 6.7% 41.3% 100.0% 52.0% 6.7% 41.3% 100.0%
marginales
Problema de comparacin
Variable cualitativa
Hbito de tabaquismo
Frecuencias
52.0% 6.7% 41.3% 100.0%
marginales
Masculino Femenino
80.0% 100.0%
21.6%
70.0% 90.0%
Frecuencias condicionales
Frecuencia condicional
70.0%
50.0% 60.0%
40.0% 50.0% 6.9%
40.0% 72.2%
30.0%
30.0%
20.0% 42.3%
20.0%
10.0% 10.0%
0.0% 0.0%
Nunca ha fumado Dej de fumar Fuma actualmente Masculino Femenino
Nunca ha fumado
Grfica de barras hombro con hombro, condicionando Grfica de barras apiladas, condicionando sobre gnero
sobre gnero
Problema de comparacin
Variable discreta
En este caso el problema de comparacin se puede enfocar de la misma manera que con
variables cualitativas, es decir, comparando las distribuciones de frecuencia condicionales.
Este grfico es una variacin del diagrama de barras hombro con hombro. Presenta la
distribucin de frecuencias para cada colonia una frente otra; se ve claramente la
diferencia que existe entre ambas colonias con respecto al nmero de televisores por hogar.
50.0%
Frecuencia relativa condicional
45.0%
40.0% Col 1 moda 3
35.0%
30.0% Col 2 moda 1
25.0%
20.0%
15.0%
10.0%
5.0%
0.0%
0 1 2 3 4 5
Televisores
Colonia 1 Colonia 2
Problema de comparacin
Variable continua
En este caso estamos interesados en comparar tanto la localizacin como la dispersin entre
las distribuciones de frecuencia de las subpoblaciones, por lo tanto usaremos un diagrama
esquemtico, que consta de un diagrama de caja para cada una de las subpoblaciones con la
misma escala; esto facilita mucho la comparacin de la localizacin, dispersin y sesgo entre
las distintas distribuciones de frecuencia.
Problema de asociacin
Muchas veces es importante conocer si una variable influye sobre otra, es decir, si
el incremento o decremento de una variable () tiene efecto o est asociado con el
incremento o decremento de otra variable ()
Ambas ordinales
Ambas cuantitativas
Problema de asociacin
Ambas variables ordinales
100%
Posicin respecto al horario de verano 90% 27.1%
21.1%
30%
47.0%
20%
23.9% 20.7%
10%
Variable X Nivel socioeconmico
0%
Variable Y Opinin del horario de verano Bajo Medio Alto
Problema de asociacin
Una variable ordinal y otra cuantitativa
Este diagrama es interesante porque nos puede mostrar cmo dependen, no slo la
localizacin sino tambin la dispersin de la variable cuantitativa con respecto al
incremento o decremento de la variable ordinal.
Problema de asociacin
Una variable ordinal y otra cuantitativa
Grado escolar
Maternal Kinder I Kinder II
68 255 425
35 202 370
145 317 380
173 327 476
190 247 410
225 100 358
340 448 338
123 412 373
228 228 377
192 467
297 388
Construccin:
1. Sobre un par de ejes cartesianos seleccionar una escala en el eje X y otra en el eje Y, de
tal forma que quepan todos los valores observados
Ejemplo: Deseamos saber si existe una asociacin entre el ingreso de un hogar (X = Valor) y la
cantidad de renta que se est dispuesto a pagar por el servicio de TV por cable (Y = Renta).
80
positiva entre ambas variables, ya que se
observa que, en general, los valores ms
70
grandes de Valor estn asociados con los
60
Renta
40
30
20
10
50
La fuerza
40
El sentido
30
La forma
20
10
0
- 50,000 100,000 150,000 200,000 250,000 300,000 350,000 400,000
Valor
Correlacin entre variables
La forma establece el tipo de lnea que define el mejor ajuste: una lnea
recta o una curva
Correlacin entre variables
Este coeficiente mide el grado de intensidad de la posible relacin lineal entre las
variables.
0 Correlacin nula
Ejemplo: El diagrama muestra la poblacin (en miles) del poblado de Oldenburg versus el
nmero de cigeas observadas ese mismo ao.
75
Se nota que la correlacin es bastante alta pero
70 obviamente no hay una conexin lgica. A este
Poblacin (miles)
50
100 150 200 250 300
Nmero de cigeas