Sunteți pe pagina 1din 134

Anlisis exploratorio de datos

Variables de respuesta y datos

Datos Mediciones o valores que obtenemos al observar cierta caracterstica en


cada una de las unidades experimentales.

Unidad Experimental - Es la unidad ms pequea de la cual se obtiene una medida


o caracterstica. Por ejemplo a un investigador le pueden interesar: las familias,
las personas, las empresas de un cierto tipo.

Variables de respuesta Cada una de las caractersticas que se observan en las


unidades experimentales y que son susceptibles de ser cuantificadas o registradas.
De cada unidad experimental se pueden obtener una o diversas variables de
respuesta. Ej: edad, gnero y escolaridad de una persona.
Variables de respuesta y datos

Ejemplo: Un investigador quiere conocer el ingreso promedio de las familias que


viven en la colonia del valle y el nmero de personas que conforman la familia

Poblacin Todas las familias que viven en la colonia del Valle

Datos Respuestas de las familias encuestadas

Unidad Experimental Cada familia

Variables de respuesta Ingreso promedio familiar, nmero de personas


Variables de respuesta y datos

Ejemplo: Una compaa de seguro de Gastos Mdicos quiere conocer los cinco
procedimientos quirrgicos ms frecuentes en los hospitales de la Repblica
Mexicana

Poblacin Todos los hospitales de la Repblica Mexicana

Datos Informacin proporcionada por los hospitales

Unidad Experimental Cada hospital

Variables de respuesta Procedimientos quirrgicos ms frecuentes


Variables de respuesta y datos

Ejercicio: Un investigador quiere conocer los hbitos de consumo diario de


cigarro y caf de los estudiantes del ITAM.

Poblacin

Datos

Unidad Experimental

Variables de respuesta
Variables cualitativas
Denotan cualidades o atributos de las unidades experimentales estudiadas.

Pueden clasificarse en un nmero fijo de categoras mutuamente excluyentes.

Ejemplos:

Variable cualitativa Categoras

Gnero hombre, mujer


Estado civil soltero, casado

Mes de nacimiento Enero, Febrero, etc

Tez Clara, obscura

Color de ojos caf, verde, azul, etc


Variables cuantitativas

Tienen un significado numrico, los datos se obtienen de un proceso de conteo o

medicin.

Si se obtienen de un proceso de conteo se denominan DISCRETAS

Si se obtienen de un proceso de medicin se denominan CONTINUAS.


Variables cuantitativas
Ejemplos de variables cuantitativas en una encuesta a estudiantes del ITAM:

Variable cuantitativa Valores potenciales Tipo

Nmero de hermanos 0, 1, 2, Discreta

Semestre que cursa 1, 2, Discreta

Nmero de materias
0, 1, 2, Discreta
aprobadas hasta ahora
Porcentaje de materias
[0, 100) % Continua
aprobadas hasta ahora

Estatura (1.40,2.10) m Continua


intervalos
Peso (40,150) kg Continua

Promedio de la carrera (0, 10] Continua


Variables cuantitativas
En ocasiones en que se tienen datos cuantitativos puede ser conveniente

agruparlos en categoras y manejarlos como datos cualitativos.

Ejemplo: Edad infantes , preescolares, escolares, adolescentes.


Clasificacin de variables

Ejercicio:

Variable de respuesta Valores potenciales Tipo

Distrito Federal, Colima,


Estado de la repblica
Oaxaca,
Partido poltico gobernante PRI, PAN, PRD,

Nmero de habitantes 1, 2,

% hogares con electricidad [0, 100] %

Nmero de escuelas 0, 1, 2,

Ingreso per capita (0, )


Clasificacin de variables

Ejercicio:

Variable de respuesta Valores potenciales Tipo

Distrito Federal, Colima,


Estado de la repblica Cualitativa
Oaxaca,
Partido poltico gobernante PRI, PAN, PRD, Cualitativa

Nmero de habitantes 1, 2, Cuantitativa, discreta

% hogares con electricidad [0, 100] % Cuantitativa, continua

Nmero de escuelas 0, 1, 2, Cuantitativa, discreta

Ingreso per capita (0, ) Cuantitativa, continua


Escalas de medicin

Se entender por medicin al proceso de asignar el valor a una variable de un


elemento en observacin. Este proceso utiliza diferentes escalas:

Escala nominal

Escala ordinal

Escala de intervalo

Escala de razn
Escala nominal
En este nivel, que es el ms bajo de medicin, se realiza la operacin ms sencilla y
bsica: clasificar los diferentes valores que asume la variable en categoras
mutuamente excluyentes y exhaustivas. Sin embargo NO es posible establecer una
relacin de orden entre las categoras.

Ejemplo:

Gnero (masculino, femenino)

Estado civil (casado, soltero, divorciado, viudo, otros)

Preferencia por un partido poltico (PRI, PAN, PRD,)

Delegacin en la que vive el entrevistado (Benito Jurez, Miguel Hidalgo, etc)


Escala ordinal

En este nivel no slo se agrupan los valores de la variables en categoras, sino


que adems se establece una relacin de orden entre ellas.

Ejemplos:
Nivel socio econmico (bajo, medio, alto)
Hbito de fumar (nunca, poco, mucho)
Opinin acerca de un servicio (psimo, malo, regular, bueno, excelente)
Escala de intervalo
En este nivel, adems de todas las propiedades de la escala ordinal, es posible medir
exactamente la intensidad con la que se posee una caracterstica. Es una escala
cuantitativa, por lo tanto se pueden calcular diferencias entre las mediciones. Sin
embargo, en estas variables el punto cero de la escala es arbitrario y no significa ausencia
de valor. En algunos casos se pueden usar valores negativos.

Ejemplo:
Temperatura
Ubicacin en una carretera respecto de un punto de referencia (Kilmetro 85 Ruta 5)
Talla de ropa
Calificacin
Escala de razn
En este nivel de medicin el cero implica ausencia del atributo. De este modo se
pueden realizar operaciones de producto o cociente y de esta manera comparar
mediante proporciones o razones.

Ejemplo:

Nmero de adultos en un hogar

Ingreso mensual de una persona

Nmero de amigos en Facebook

Velocidad de un automvil
Relacin entre las escalas de medicin

Razn Intervalo Ordinal Nominal


Menos
Ms informacin
informacin

Siempre es posible transformar datos que se encuentran en cierta escala a una


escala ms dbil, simplemente ignorando la informacin extra que contienen.

Ejemplo: Calificacin de un examen (numrico) -> excelente, bueno, regular, malo,


muy malo -> aprobado, no aprobado
Resumen
Tipo Escala de medicin

Escala nominal (categoras)

Cualitativas Escala ordinal (categoras + orden)


(atributos)

Variables

Discretas (conteo) Escala de intervalo (cero no implica ausencia del atributo)


Cuantitativas
(significado numrico) Continuas (medicin) Escala de razn (cero implica ausencia del atributo)
Ejercicio
Identificar si la variable en cuestin es cualitativa o cuantitativa, continua o discreta y su escala de
medicin:

La intencin de voto
El nmero de televisores en el hogar
El INPC
El nmero de acciones vendidas cada da en la bolsa
Categora de un hotel (estrellas)
Temperaturas registradas cada hora en una ciudad
Tipo de poblacin en que se habita (urbana o rural)
El consumo de electricidad de una colonia
Percepcin del consumidor acerca de un producto (malo, regular, bueno)
Calificacin de un examen
Talla de los zapatos
Distribucin de frecuencias

La distribucin de frecuencias es una tabla en la que se muestran todos los


posibles valores de una variable de respuesta junto con el nmero de
observaciones de cada uno de ellos.

Ayudan a visualizar la manera en que se distribuye un conjunto de datos


Distribucin de frecuencias
Variables cualitativas

Una distribucin de frecuencias puede contener frecuencias absolutas o


frecuencias relativas.

La frecuencia absoluta, que denotaremos fi representa el nmero de veces que se


observ cierta categora.

La frecuencia relativa ( pi ) es el resultado de dividir la frecuencia absoluta entre


el total de observaciones. En ocasiones resulta conveniente expresar las
frecuencias relativas como porcentajes, multiplicndolas por 100
Distribucin de frecuencias Persona
1
Mascota
no tiene mascota

Variables cualitativas 2
3
perro
no tiene mascota
4 perro
5 gato
6 gato
Ejemplo: Se realiz una encuesta a 7 perro
8 gato
20 personas en Coyoacn para saber 9 gato
10 no tiene mascota
si tienen mascotas y se obtuvieron 11 perro
12 perro
los siguientes resultados: 13 perro
14 perro
15 perro
16 perro
17 otro
18 no tiene mascota
19 no tiene mascota
20 perro
Persona Mascota
1 no tiene mascota
2 perro
3 no tiene mascota
4 perro
5 gato
6 gato Distribucin de frecuencias
7 perro
8 gato
9 gato Frecuencia Frecuencia
Mascota
10 no tiene mascota absoluta fi relativa pi (%)

11 perro Perro 10 50%


12 perro Gato 4 20%
13 perro Otro 1 5%
14 perro No tiene 5 25%
15 perro
Total 20 100%
16 perro
17 otro
18 no tiene mascota
19 no tiene mascota
20 perro
Mtodos grficos

Los mtodos grficos nos permiten describir y descubrir caractersticas


presentes en un conjunto de datos.

Para representar grficamente los datos de variables cualitativas podemos


emplear dos tipos de diagramas: circulares y de barras
Diagrama circular (pastel)

Se emplean para representar porcentajes y proporciones

Ejemplo:
No tiene
25%
Frecuencia Frecuencia
Mascota
absoluta fi relativa pi (%)
Perro 10 50%
Perro
Gato 4 20% Otro 50%
5%
Otro 1 5%
No tiene 5 25%
Gato
Total 20 100% 20%
Diagrama circular
Ejercicio: Obtener la distribucin de frecuencias a partir del diagrama
circular.

Total encuestados: 40 hogares

No tiene televisor
5%

Blanco y negro
Ambos
10%
25%
Categora fi pi (%)

Color
60%
Diagrama circular
Diagrama de barras

Consta de dos ejes, uno denota las frecuencias relativas y otro las categoras
de la variable

Los grficos de barras son usados para comparar dos o ms valores

60%

50%
Frecuencia relativa

40%

30%

20%

10%

0%

Categoras
Diagrama de barras
Ejemplo:

Frecuencia Frecuencia 60%


Mascota
absoluta fi relativa pi (%)
50%
Perro 10 50%
No tiene 5 25% 40%

Gato 4 20% 30%


Otro 1 5%
20%
Total 20 100%
10%

0%
Perro No tiene Gato Otro
Diagrama de barras
Ejercicio: Realizar el diagrama de barras de la siguiente tabla

Categora fi pi (%)
Futbol 6 30%
Basket 5 25%
Natacin 4 20%
Box 2 10%
otro 2 10%
Voleibol 1 5%
Total 20 100%
Diagrama de barras
Ejercicio: Obtener la distribucin de frecuencias a partir del diagrama de
barras.

200 personas encuestadas


Consumo de caf
60%

50%

Categora fi pi (%)
40%

30%

20%

10%

0%
Dos tazas No toma Una taza Ms de
al da caf al da tres tazas
al da
Tarea

Utilizando la tabla 1.6 Datos de la encuesta de televisin por cable de la


pgina 1-8 del libro, realice la distribucin de frecuencia de la variable Tipo,
que indica el tipo de televisor que poseen en el hogar (blanco y negro, a color,
ambos o ninguno). Posteriormente grafquela con un diagrama circular y con un
diagrama de barras y explique si los diagramas son tiles y por qu.
Mtodos grficos
Variables cuantitativas

La manera en que los datos cuantitativos se reparten o distribuyen en la


poblacin es un aspecto de mucho inters, ya que buscamos caracterizar la
variabilidad presente en la poblacin estadstica a travs de su distribucin
de frecuencias.
Diagrama de punto
En l se aprecia el nmero de veces en que se presenta cada medicin en el
conjunto de datos.

La construccin se lleva a cabo colocando en el eje horizontal las diferentes


observaciones de la variable y sobre cada valor se anotan tantos puntos como
veces se repiten esos valores.
Diagrama de punto
Mediante este diagrama ciertas caractersticas presentes en el conjunto de
datos se vuelven aparentes, tales como:

Observaciones atpicas - Valores observados substancialmente grandes o pequeos


con respecto a los valores del resto del conjunto

Huecos - Espacios grandes entre conjuntos de puntos

Perfil de la distribucin Valores que son ms frecuentes

Pocas observaciones para


no perder claridad
Tarea Diagrama de punto
Los siguientes son tiempos, en minutos, que tarda la cocina de un restaurante
en atender rdenes:

4.7, 3.8, 4.3, 8.9, 3.8, 3.3, 3.7, 3.7, 5.4, 4, 4.3, 5.9, 4.8, 3.9, 5.2, 4.9, 3.7, 4.4,
4.4, 5.1, 2.3, 3.6, 4.4, 8.2, 2.7, 5.1

a) Obtenga el diagrama de puntos de este conjunto de datos

b) Hay algn valor alrededor del cual se concentren las observaciones?

c) Hay algunos valores que se alejen mucho del conjunto?


Diagrama de tallo y hojas
Este diagrama nos da una idea de la distribucin de frecuencia y la de
ordenacin de los datos

Adems el tallo y hojas nos permite determinar:

Qu tan alejados se encuentran los datos entre s

Alrededor de qu valor se concentran las observaciones

Si existen muchos datos cuyos valores se alejan mucho del resto del conjunto

Si existe simetra en cuanto a la distribucin de los datos

Si existen grupos aislados de observaciones


Diagrama de tallo y hojas

Pasos a seguir en la construccin del diagrama de tallo y hojas:

1. Determinar el valor mximo y mnimo en el conjunto de datos

2. Determinar una regla para dividir los dgitos de cada observacin en dos partes:
tallo y hoja, la cual se aplicar por igual a todas las observaciones

3. Presentar los tallos de menor a mayor en forma vertical

4. Por cada dato ingresar una hoja en el tallo que le corresponda, no es necesario
que se ingresen en orden

5. Una vez que se han ingresado todos los datos, se construye un nuevo tallo y se
procede a anotar las hojas de manera ordenada.
Diagrama de tallo y hojas
Ejemplo: Realizar el diagrama de tallo y hojas de la variable Tvtotal de la
pgina 1-8 del libro.
tallo hojas
0 00
0
1 4
tallo hojas tallo hojas
1 6
0 00 0 00 2 000 24
1 64 1 46 2 788 8
3 012 4
2 804080782 2 000247888
3 558
3 1552480 3 0124558 4 002 2
4 2020 ordenar 4 0022 Dividir en 2 4
5 244
5 4642 5 2446
(opcional Si el diagrama
5 6
6 9820 6 0289 6 02
presenta muchos datos en
7 406 7 046 cada tallo) 6 89
8 46422 8 22446 7 04
7 6
8 224 4
8 6
Tarea - Diagrama de tallo y hojas
Los siguientes son tiempos, en minutos, que tarda la cocina de un restaurante en
atender rdenes:

4.7, 3.8, 4.3, 8.9, 3.8, 3.3, 3.7, 3.7, 5.4, 4, 4.3, 5.9, 4.8, 3.9, 5.2, 4.9, 3.7, 4.4, 4.4,
5.1, 2.3, 3.6, 4.4, 8.2, 2.7, 5.1

a) Obtenga el diagrama de tallo y hojas de este conjunto de datos. Tome el tallo


como los minutos

b) Obtenga el diagrama de tallo y hojas de este conjunto de datos, aplicando la


expansin del tallo
Distribucin de frecuencias
Variables discretas

La construccin de la distribucin de frecuencias de variables discretas es


muy semejante a la de variables cualitativas.

Las categoras son los elementos que toma la variable. Nuevamente se aplica
un proceso de conteo para determinar las frecuencias absolutas y
posteriormente se calculan las frecuencias relativas
Distribucin de frecuencias
Variables discretas

Ejemplo: Distribucin de frecuencias para la variable Teles

Teles fi pi (%)
0 2 5%
1 8 20%
2 9 23%
3 13 33%
4 7 18%
5 1 3%
Total 40 100%
Distribucin de frecuencias
Variables continuas

La construccin es distinta porque puede ser que ningn valor se repita. Por
ello se utilizan intervalos para clasificar las observaciones.
Distribucin de frecuencias
Variables continuas

PROCEDIMIENTO:

1. Identificar el valor mximo y mnimo observado en el conjunto de datos para


obtener el intervalo en el que se encuentran los valores observados, as como su
amplitud

Ejemplo (variable valor, encuesta tv por cable)

Amplitud = mximo mnimo = 370,325 79,928 = 290,397


Distribucin de frecuencias
Variables continuas

2. Decidir cuntos intervalos de clase (k) establecer, as como el ancho de cada


uno de ellos (c). Es recomendable emplear entre 5 y 20 clases (decisin
arbitraria), todas del mismo ancho.

Ejemplo: Se establecen 6 clases para la variable valor

El ancho de cada clase


290397 48 399.5 debe ser un poco mayor a Redondear hacia arriba
= = 48 399.5
6

Por facilidad,
tomemos 50,000
Distribucin de frecuencias
Variables continuas

3. Elegir el valor inicial que limitar el primer intervalo de clase y a partir del cual se
obtendrn todos los puntos iniciales y finales para cada uno de los siguientes
intervalos (llamados lmites de clase).

El primer lmite inferior deber ser un nmero un poco menor que el valor mnimo
observado en el conjunto de datos.

En nuestro ejemplo, el valor mnimo observado es 79 928

por lo tanto, utilizaremos 75 000 para hacerlo ms sencillo.


Distribucin de frecuencias
Variables continuas

4. Una vez elegido el lmite inferior, los intervalos quedan:

Clase Lmites inferiores Clase Intervalos de clase

1 75 000 1 (75 000, 125000]

2 125 000 2 (125 000, 175 000]

3 175 000 3 (175 000, 225 000]

4 225 000 4 (225 000, 275 000]

5 275 000 5 (275 000, 325 000]

6 325 000 6 (325 000, 375 000]


Distribucin de frecuencias
Variables continuas

5. A continuacin se efecta un conteo del nmero de observaciones cuyos


valores pertenecen a cada intervalo de clase, es decir, se calculan las frecuencias
absolutas y a partir de stas, las relativas.

Intervalos de clase fi pi (%)


(75 000, 125 000] 3 7.5%
(125 000, 175 000] 8 20%
(175 000, 225 000] 10 25%
(225 000, 275 000] 8 20%
(275 000, 325 000] 5 12.5%
(325 000, 375 000] 6 15%
Total 40 100%
Marca de clase

La marca de clase (mi) es el punto central del intervalo, el cual representa la


magnitud de las observaciones que quedaron clasificadas en dicho intervalo

Intervalos de clase fi pi (%)

m1 = (75 000 + 125 000)/2 = 100 000 (75 000, 125 000]
3 7.5%
m2 = 150 000 (125 000, 175 000]
8 20%
m3 = 200 000 (175 000, 225 000]
10 25%
m4 = 250 000 (225 000, 275 000]
8 20%
m5 = 300 000 (275 000, 325 000]
5 12.5%
m6 = 350 000 (325 000, 375 000]
6 15%
Total 40 100%
Frecuencia absoluta acumulada ( )

La distribucin de frecuencias tambin puede incluir a la frecuencia


absoluta acumulada () que indica cuntos datos hay cuyo valor numrico
es menor o igual al del lmite superior de cada intervalo de clase.

Se calcula sumando todas las frecuencias absolutas de intervalos


anteriores a l ms la frecuencia absoluta que le corresponde.
Ejemplo: variable valor

Frecuencia Frecuencia Frecuencia absoluta Frecuencia relativa


Intervalos de clase Marca de clase
absoluta relativa acumulada acumulada

(75 000, 125 000] 100 000


3 7.5% 3 7.5%
(125 000, 175 000] 150 000
8 20% 11 27.5%
(175 000, 225 000] 200 000
10 25% 21 52.5%
(225 000, 275 000] 250 000
8 20% 29 72.5%
(275 000, 325 000] 300 000
5 12.5% 34 85%
(325 000, 375 000] 350 000
6 15% 40 100%
Total 40 100%
Si aumentamos el nmero de clases, tendremos ms detallada la informacin:

Frecuencia
Frecuencia Frecuencia Frecuencia relativa
Intervalos de clase Marca de clase absoluta
absoluta relativa acumulada
acumulada

(75 000, 100 000] 100 000 2 5% 2 5%


(100 000, 125 000] 112 500 1 2.5% 3 7.5%
(125 000, 150 000] 137 500 3 7.5% 6 15%
(150 000, 175 000] 162 500 5 12.5% 11 27.5%
(175 000, 200 000] 187 500 6 15% 17 42.5%
(200 000, 225 000] 212 500 4 10% 21 52.5%
(225 000, 250 000] 237 500 4 10% 25 62.5%
(250 000, 275 000] 262 500 4 10% 29 72.5%
(275 000, 300 000] 287 500 2 5% 31 77.5%
(300 000, 325 000] 312 500 2 5% 33 82.5%
(325 000, 350 000] 337 500 4 10% 37 92.5%
(350 000, 375 000] 362 500 3 7.5% 40 100%
Total 40 100%
Histogramas

La representacin grfica de la distribucin de frecuencias de datos continuos se realiza mediante histogramas

Es una forma especial de una grfica de barras en la cual los intervalos de clase estn representados por el
ancho de las barras y las frecuencias de las mediciones son proporcionales a las reas de los rectngulos

Frecuencias
relativas o
absolutas
Histogramas

Ejemplo: Histogramas de la variable valor con 6 y 12 clases.

30%
16%

25% 14%

12%
Frecuencia relativa

20%

Frecuencia relativa
10%

15%
8%

10% 6%

4%
5%
2%

0%
50000 100000 150000 200000 250000 300000 350000 400000 0%

Marcas de clase

Marcas de clase
Relacin entre histogramas y curvas poblacionales

En general, esperaramos que la distribucin de frecuencias de una muestra nos arrojara un


perfil similar al de la poblacin de la cual se tom

Un histograma nos da una caracterizacin de la variabilidad y distribucin de los valores de la


poblacin estadstica.

El modelo matemtico de la distribucin de frecuencias poblacional de una variable continua


se puede visualizar cono una versin suavizada de un histograma pero considerando a toda la
poblacin, y en la cual las frecuencias quedan representadas por reas bajo esta curva
Formas de la distribucin

A esta representacin grfica de las frecuencias poblacionales se le denomina curva


de la distribucin de frecuencia poblacional y puede adquirir comnmente las
siguientes formas:

Distribucin simtrica

Distribucin sesgada (asimtrica)

Distribucin bimodal
Distribucin simtrica

Esta curva poblacional se caracteriza por la existencia de un valor central


alrededor del cual son igualmente probables valores superiores o inferiores

Ej: IQ de la poblacin
Distribucin sesgada (asimtrica)

En estas curvas una extremidad o cola est ms extendida que la otra. La


direccin del sesgo corresponde a la extremidad de mayor extensin

Sesgo a la derecha Sesgo a la izquierda


(sesgo positivo) (sesgo negativo)

Ej: ingreso de la poblacin


Ejemplo
Puntuaciones de un grupo de sujetos en un test de habilidades sociales antes, durante
y despus de recibir 6 sesiones de entrenamiento en habilidades sociales.

antes durante despus

Puntos en el test
Distribucin bimodal

Se caracteriza por tener dos jorobas separadas que indican la presencia de


dos grupos con diferentes distribuciones en la poblacin.

Cada una de las jorobas indica una moda.

Este caso se podra dar, por ejemplo, si consideramos las variables peso y
estatura cuando no se tienen separadas las mediciones de hombres y mujeres
Polgono de frecuencias
La construccin es muy sencilla; slo se unen los puntos medios de la parte
superior de las barras del histograma y se cierran los extremos con el eje
horizontal

Esto puede ser til para visualizar el perfil de la distribucin de frecuencias


Polgono de frecuencias
La otra forma es graficar un punto en cada marca de clase y su frecuencia relativa y
posteriormente unir los puntos con lneas rectas. Con el ejemplo de la variable valor:

16%

14%

12%
Frecuencia relativa

10%

8%

6%

4%

2%

0%

Marcas de clase
Ojiva
La ojiva es la curva que resulta de graficar las frecuencias relativas acumuladas contra
los lmites superiores de cada intervalo de clase.

100%

90%
Frecuencia relativa acumulada

80%

70%
63%
60%

50%
Qu porcentaje de hogares tiene un
valor catastral menor a 250,000?
40%

30%

20%

10%

0%
75000 100000 125000 150000 175000 200000 225000 250000 275000 300000 325000 350000 375000

Lmites de clase
Percentiles
Los percentiles indican el valor de una variable por debajo de la cual se encuentra
un porcentaje dado de observaciones. Por ejemplo, el percentil 30% es el valor por
debajo del cual se encuentran el 30% de las observaciones.

En general, si p es cualquier porcentaje entre 0 y 100%, el p-simo percentil es una


abscisa tal que por lo menos p por ciento de los elementos tienen un valor de la
variable debajo de l y (100-p) % de los elementos tienen un valor por arriba de l

Son 99 valores que dividen la serie de datos en 100 partes iguales.


Percentiles con ojiva
Grficamente es muy fcil visualizar un percentil usando la ojiva:

Busco el percentil 90%

100%

90%
Frecuencia relativa acumulada

80%

70%
Esto quiere decir que el 90% de las
60%
casas tienen un valor de hasta
50%

40%
345,000 y slo el 10% tienen un

30%
valor de ms de 345,000
20%
Percentil 90% = 345 000

10%

0%
75000 100000 125000 150000 175000 200000 225000 250000 275000 300000 325000 350000 375000

Lmites de clase
Agrupacin de variables
Este proceso consiste en formar una variable cualitativa combinando los
valores de otra variable (cualitativa o cuantitativa) en una coleccin de
clases.

Ejemplos:
Sin televisor Sin televisor a color
variable Teles Blanco y negro
Color Con televisor a color
Ambos

B (bajo) si el valor es menor a 200 000


Variable Valor M (medio si el valor est entre 200 000 y 300 000
A (alto) si es mayor a 300 000
Medidas descriptivas

Particularmente nos interesa describir la parte central de la distribucin de


frecuencias, as como conocer qu tanto estn variando los datos observados
con respecto a algn valor central de la distribucin. A las primeras se les
conoce como medidas de tendencia central y a las ltimas medidas de
variabilidad, que en conjunto se les denomina medidas descriptivas.
Medidas descriptivas
Media
Medidas de tendencia
central
Mediana
Moda

Medidas Percentiles
Medidas de posicin
descriptivas Deciles
Cuartiles

Amplitud
Medidas de variabilidad Varianza
o dispersin Coeficiente de variacin
Medidas de tendencia central

Las medidas de tendencia central son los valores numricos que tienden a
localizar, en cierto sentido, la parte central de la distribucin de frecuencias.

Se estudiarn nicamente 3 de stas: media, mediana y moda

Poblacin Muestra

Media

Mediana
Mediana

Es el valor que ocupa la posicin central del conjunto de datos una vez que
stos han sido ordenados de acuerdo con su magnitud en forma ascendente

Es el percentil 50%

La mediana es una medida de tendencia central til cuando se tienen


distribuciones sesgadas
Mediana
Para calcular la mediana se siguen estos pasos:

1. Realizar el diagrama de tallo y hojas ordenado

2. Calcular la localizacin de la mediana en la serie ordenada de datos = 0.5 + .5

3. Si esta posicin es un nmero entero, entonces la mediana es precisamente


aquella observacin que se encuentra en el lugar . Si no es entero, entonces
la mediana ser el resultado de promediar aritmticamente los dos valores centrales.
Mediana
Ejemplo:

Localizacin de la mediana

= 0.5 37 + 0.5 = 19
4

Por lo tanto la mediana es el valor en


la posicin 19, es decir m = 6.4
Mediana
Ejemplo:

Localizacin de la mediana
tallo hojas
0 00 = 0.5 40 + 0.5 = 20.5
1 46
2 000247888
3 012455 8
4 0022
5 2446
6 0289 Por lo tanto la mediana es el promedio
7 046
entre la posicin 20 y la 21, es decir
8 22446

3.8 + 4
= = 3.9
2

La mediana no necesariamente
pertenece al conjunto de
observaciones
Media (datos sin agrupar)
Es el promedio aritmtico de un conjunto de mediciones.

Conceptualmente es el promedio de todas las mediciones de la poblacin

estadstica es la media poblacional, que denotaremos con la letra griega



=1
=

El promedio muestral se denotar por , entonces:

=1
=

La media es un buen indicador de la tendencia central en caso de una distribucin no muy sesgada y
sin observaciones atpicas
Media (datos agrupados)
Si nicamente contamos con la distribucin de frecuencias, y por tanto la suma exacta
de todas las observaciones ya no se puede obtener, podemos aproximar el valor de la
media de la siguiente manera:


=1
= =

=1
Marca Frecuencia Frecuencia
Frecuencia Frecuencia
Intervalos de clase de absoluta relativa
absoluta relativa
clase acumulada acumulada
k mi fi pi (%) Fi Pi (%)

(75 000, 125 000] 100 000 3 7.5% 3 7.5%


= .075 100 000 + .2 150 000 + + (.15)(350 000)
(125 000, 175 000] 150 000 8 20% 11 27.5%

(175 000, 225 000] 200 000 10 25% 21 52.5%

(225 000, 275 000] 250 000 8 20% 29 72.5% = 227 500
(275 000, 325 000] 300 000 5 12.5% 34 85%

(325 000, 375 000] 350 000 6 15% 40 100%

Total 40 100%
Moda
Es aquel valor que ocurre con mayor frecuencia

Si el valor es nico, entonces decimos que la distribucin es unimodal

Para ver si hay ms de una moda, conviene observar la grfica de barras y


buscar las cimas

Moda
Comparacin de las medidas de tendencia central

Las ventajas y limitaciones de usar la media, la moda y la mediana para


describir un conjunto de datos depende estrictamente de la forma de la
distribucin de datos. Siempre que se pueda usar, en general se prefiere la
media para describir la tendencia central, aunque algunas distribuciones se
describen mejor por medio de la moda y la mediana. A continuacin
evaluaremos la aplicabilidad de nuestras tres medidas a diferentes tipos de
distribuciones.
Distribucin normal
En una distribucin normal, la media, moda y mediana tienen un valor idntico. Esto en
realidad es evidente, dado que una distribucin normal es perfectamente simtrica, y
la curva tiene un slo punto mximo (moda) que tambin se encuentra en el centro.

As, la media debe ser nuestra medida preferida de tendencia central para los
conjuntos de datos que se distribuyen normalmente, puesto que es ms fcil de
calcular y de usar en forma matemtica.
Distribucin bimodal
En una distribucin bimodal, la media y la mediana no son de utilidad, puesto
que sus valores estarn en algn lugar entre los dos puntos mximos y
distorsionarn enormemente la descripcin de la distribucin.

La moda resulta ser la nica medida til de tendencia central. Sin embargo,
una distribucin bimodal es poco comn y en general podemos decir que
consta de dos distribuciones que se pueden analizar en forma independiente
Distribucin asimtrica
Cuando se describen distribuciones asimtricas, la media no es la mejor medida de
tendencia central disponible. Mientras mayor sea la asimetra o sesgo de los datos,
mayor utilidad tendr la mediana (y ms engaosa ser la media), porque la mediana
estar ms cerca del valor central de las observaciones. Por ejemplo, en el caso de una
distribucin asimtrica positiva, la media se encuentra inflada por la minora de las
observaciones que tienen un valor mayor.

Ej. Ingreso de la poblacin


Percentiles o medidas de posicin
Un conjunto de medidas descriptivas muy tiles son los percentiles o medidas
de posicin

Un percentil muy usado es la mediana, por dividir la distribucin de


frecuencias a la mitad

Primero veremos los cuartiles y posteriormente un mtodo de clculo general


para cualquier percentil.
Cuartiles
Son los valores que dividen el conjunto de observaciones ordenadas en cuatro
partes, es decir, son las abscisas que tienen por debajo al 25%, 50% (mediana) y
75% de la distribucin de frecuencias.

0% 100%
25% 50% 75%

1 2 3
mediana
Cuartil inferior o primer cuartil
Tiene por debajo al 25% de los valores de la distribucin de frecuencias. El
cuartil inferior poblacional se denota 1 y el muestral 1

Dada una muestra, una manera fcil de obtener 1 es calculando la


localizacin del cuartil dada por

1 = 0.25 + 0.5

Una vez calculado 1 se obtiene el diagrama de tallo y hojas ordenado. Si


1 es entero, entonces 1 es la observacin en esa posicin. Si es
fraccionario, 1 es el promedio de las observaciones alrededor de 1
Cuartil superior o tercer cuartil

Tiene por debajo al 75% de los valores de la distribucin de frecuencias. El


cuartil superior poblacional se denota 3 y el muestral 3

Dada una muestra, una manera fcil de obtener 3 es calculando la


localizacin del cuartil dada por

3 = 0.75 + 0.5

Una vez calculado 3 se obtiene el diagrama de tallo y hojas ordenado. Si


3 es entero, entonces 3 es la observacin en esa posicin. Si es
fraccionario, 1 es el promedio de las observaciones alrededor de 3
Cuartiles
Localizacin de los cuartiles
Ejemplo:
1 = 0.25 34 + 0.5 = 9
1 = 5.4

3 = 0.75 37 + 0.5 = 26

3 = 7.4
Cuartiles
Localizacin de los cuartiles
Ejemplo:
1 = 0.25 40 + 0.5 = 10.5

tallo hojas
0 00
1 46 3 = 0.75 40 + 0.5 = 30.5
2 00024 78 88
3 0124558
4 0022
5 2446 Por lo tanto los cuartiles son el promedio entre la posicin
6 0 28 9 10 y la 11, contando como corresponda
7 046
8 22446
6.2 + 6.8
2.7 + 2.8 3 = = 6.5
1 = = 2.75 2
2
Percentiles
Clculo del p-simo percentil: (0 < p < 100%)

1. Tener el conjunto de datos ordenado de manera ascendente

2. Calcular el ndice de localizacin


=
100

3. Si no es entero, se redondea. El valor inmediato mayor de , indica la posicin del


p-simo percentil. Si es entero, el p-simo percentil es el promedio de los valores
de los datos ubicados en los lugares e + 1

Nota: Los percentiles 25% y 75% dan valores similares a q1 y q3, por lo que se usan indistintamente.
Percentiles
Ejemplo

p i Valor en la posicin i Valor en la posicin i+1 Percentil

10 4 132,867 141,901 137,384.0

20 8 156,841 157,041 156,941.0

30 12 180,124 180,437 180,280.5

40 16 192,816 193,279 193,047.5

50 20 216,321 216,465 216,393.0 Deciles

60 24 241,531 249,098 245,314.5

70 28 269,898 271,556 270,727.0

80 32 311,195 318,551 314,873.0

90 36 332,699 336,290 334,494.5


Medidas descriptivas
Media
Medidas de tendencia
central
Mediana
Moda

Medidas Percentiles
Medidas de posicin
descriptivas Deciles
Cuartiles

Amplitud
Medidas de variabilidad Varianza
o dispersin Coeficiente de variacin
Desviaciones con respecto a la media

Son las diferencias entre cada valor observado y la media ( )

El total de las desviaciones positivas es igual al de las negativas, por lo tanto

( ) = 0
=1
Desviaciones con respecto a la media
Ejemplo: Tenemos las siguientes observaciones: 3.5, 3.7, 4.4, 5.6, 6.5, 8.3 y 10.

=1( ) 3.5 + 3.7 + 4.4 + 5.6 + 6.5 + 8.3 + 10


Media = = =6
7

Calculamos ( ) para cada observacin y las sumamos para comprobar que ( ) = 0


=1

Negativas Positivas
-2.5
4
-2.3
2.3
-1.6
0.5
-0.4

3 3.5 3.7 4 4.4 5 5.6 6 6.5 7 8 8.3 9 10



Introduccin a medidas de dispersin

Supongamos que deseamos obtener el salario representativo de cuatro empleados


de una empresa cuyos salarios individuales son:

1 = 42 400, 2 = 42 450, 3 = 42 400, 4 = 42 350

De igual manera deseamos calcular el salario representativo para otros cuatro


empleados con salarios:

1 = 42 400, 2 = 37 300, 3 = 42 400, 4 = 47 500


Introduccin a medidas de dispersin

Conclusin: Si dos grupos de datos tienen el mismo centro, medido de la manera


que sea, dicho centro es ms descriptivo para el grupo de datos que tengan
MENOR VARIABILIDAD

Es necesario entonces, medir y presentar como medida descriptiva de variabilidad


y dispersin de los datos.
Medidas de dispersin

Son medidas que cuantifican la variabilidad o dispersin presente en el


conjunto de observaciones.

Estas medidas de variabilidad sern pequeas si no existen diferencias muy


grandes entre los valores observados y resultarn grandes en caso contrario.

Dentro de estas medidas, estudiaremos: la amplitud, la varianza, la desviacin


estndar y el coeficiente de variacin
Amplitud (R)
Esta es la medida de dispersin ms simple de todas, mide la distancia que
separa la observacin de mayor valor a la de menor valor en el conjunto de
observaciones.

= =

Ejemplo: amplitud de valores catastrales para la encuesta de tv por cable

= 370 325 79 928 = 290 397


Amplitud Intercuartlica (A.I.)
Tambin se basa en la distancia entre los cuartiles para medir la variabilidad
presente en los datos. Se calcula tomando la diferencia entre el valor del
cuartil superior y el del inferior

. . = 3 1

La amplitud intercuartlica es una estadstica resistente, ya que su valor no se


ver afectado por las observaciones atpicas.
Varianza 2 para datos sin agrupar
Como vimos anteriormente, la suma de las desviaciones de las observaciones
con respecto a la media es cero para cualquier grupo de datos.

Una manera de eliminar el signo de las desviaciones es elevndolas al


cuadrado.

De esta manera definimos a la varianza como el promedio de los cuadrados de


las observaciones con respecto a la media:

2
2 =1( ) Nota: Al elevar al cuadrado las
Varianza poblacional = desviaciones respecto a la media, la

unidad en que se expresan stas ya
2 no es la misma de las observaciones
=1( )

Varianza muestral 2 = originales
1
Varianza 2 para datos sin agrupar
2 2
=1
La varianza poblacional tambin puede calcularse como 2 =

Demostracin:


=1( )
2 2
=1 2 +
2 2
2

2 = = =
=1 2
=1 +
=1

2 2
1 2

2 = 2 + 2 = 22 +

=1 =1 =1

2 2 2
2

2 = 22 + 2 = 2 =

=1 =1 =1
Desviacin estndar
Para tener una medida de dispersin que est en las unidades originales de las
observaciones, se le aplica raz cuadrada a la varianza.

A esta transformacin se le conoce como desviacin estndar:

Poblacional = 2

Muestral = 2
Desviacin estndar
La desviacin estndar es una medida del grado de dispersin de los datos con
respecto al valor promedio, es decir,

La desviacin estndar nos dice cunto tienden a alejarse los valores de la


media en una distribucin

Nota: Tanto la varianza como la desviacin estndar son estadsticas no resistentes, ya que
pueden distorsionarse en presencia de observaciones con valores atpicos
Varianza (datos agrupados)
El procedimiento se basa en la misma consideracin que se hizo para el clculo
de la media con una distribucin de frecuencias: el valor de la marca de clase
representa a los valores de todas las observaciones que quedaron clasificadas
en dicho intervalo de clase.

De este modo, las desviaciones con respecto a la media para cualquier


intervalo i es la diferencia entre la marca de clase u la media multiplicada por
la frecuencia absoluta de dicho intervalo

Se puede usar
2 2 2 cualquiera de las dos
=1 ( )
=1 frmulas para realizar
2 = 2 = el clculo
1 1
Coeficiente de variacin
El coeficiente de variacin mide la dispersin relativa de un conjunto de
valores al dividir la desviacin estndar entre la media:

Poblacional Muestral
. . = . . =

De esta manera podemos expresar la desviacin estndar como proporcin de


la media, con la ventaja de que ste coeficiente es independiente de las
unidades de medicin, debido a que tanto como se miden en las unidades
originales. Por ello es sumamente til para comparar la variabilidad de dos o
ms conjuntos de datos, aunque no tengan las mismas unidades de medicin.
Coeficiente de variacin

El coeficiente de variacin muestra una mejor interpretacin porcentual del grado de

variabilidad que la desviacin estndar.

A mayor valor del coeficiente de variacin mayor heterogeneidad de los valores de la

variable; y a menor C.V., mayor homogeneidad en los valores de la variable

El coeficiente de variacin no posee unidades.

Normalmente es menor que uno. Sin embargo, en ciertas distribuciones de probabilidad

puede ser 1 o mayor que 1.

Para su mejor interpretacin se expresa como porcentaje.


Diagrama de caja y brazos
Se emplean para analizar y presentar las caractersticas ms importantes de un
conjunto de observaciones como son localizacin, dispersin, simetra y
observaciones atpicas.

Resultan ser sumamente tiles cuando queremos comparar dos o ms conjuntos


de datos.

1 3 Atpico Atpico
menor mayor

Adyacente Adyacente
inferior superior
Diagrama de caja y brazos
Construccin:

1. Se obtienen 1 y 3 , que sern los extremos de la caja

2. Se dibuja la lnea en el valor de la mediana

1 3

Adyacente Adyacente
inferior superior
Diagrama de caja y brazos
3. Los brazos se extienden hasta los valores mximo y mnimo de las observaciones o hasta 1.5
de la amplitud intercuartlica, por lo tanto se debe calcular el factor de escala = 1.5
con el cual obtenemos las barreras interiores

1 = 1 2 = 3 +

= 3 1
(50% de los datos)
Observacin mnima Observacin mxima
dentro de la barrera dentro de la barrera
interior 1 1 interior 2
3

Adyacente Adyacente
inferior superior
1 2
Diagrama de caja y brazos
Cuando los datos se extienden ms all de las fronteras interiores, significa que hay valores
atpicos en la serie, por lo tanto debemos calcular las barreras exteriores:

Barreras exteriores: = = +

Si el dato atpico no sobrepasa las barreras exteriores, se considera dato atpico menor. De lo
contrario, se le llama dato atpico mayor

Atpico Atpico 1 3 Atpico Atpico


mayor menor menor mayor

Adyacente Adyacente
1 1 inferior superior 2 2
Problema de comparacin y asociacin

Independientemente de todos los tipos de variables, de sus distribuciones


de frecuencia y de sus medidas de posicin y dispersin, hay dos temas
que unifican a la mayora de los anlisis estadsticos. A estos temas les
llamaremos el problema de comparacin y el problema de asociacin
Problema de comparacin

Consiste en contrastar las distribuciones de frecuencia de una variable de inters


para dos o ms subpoblaciones basndose en los datos de la muestra.

Buscamos contestar preguntas como:


Hay alguna diferencia entre las distribuciones poblacionales?

Cul es la naturaleza de esa diferencia?

Qu tan grandes son esas diferencias?

Por ejemplo, comparar hbitos de tabaquismo de hombres y mujeres


Subpoblaciones
Una manera de generar subpoblaciones es empleando una variable cualitativa
nominal para definirlas.

Ejemplo: hbitos de tabaquismo en estudiantes

Poblacin
Estudiantes

Gnero

Subpoblaciones Femenino Masculino


Subpoblaciones

Ejemplo:

Automviles

Marca

Honda Mazda Volkswagen


Problema de comparacin

Para presentar el problema de comparacin se discutirn tres casos, dependiendo


si la variable de inters es cualitativa, discreta o continua
Problema de comparacin
Variable cualitativa

Se utiliza un arreglo tabular bidimensional llamado tabla de contingencia o tabulacin cruzada

Esta tabla contiene las frecuencias absolutas muestrales y toda la informacin necesaria para
llevar a cabo procedimientos exploratorios

Ejemplo: tabla de contingencia, encuesta estudiantil. Tabaquismo

Hbito de tabaquismo

Gnero Nunca ha Fuma


Dej de fumar Total
fumado actualmente

Masculino 154 25 185 364

Femenino 127 11 38 176

Total 281 36 223 540


Problema de comparacin
Variable cualitativa

De esta tabla de contingencia podemos calcular informacin relevante calculando las frecuencias
absolutas relativas y marginales, dividiendo entre el total de observaciones (540)

Hbito de tabaquismo Hbito de tabaquismo

Gnero Nunca ha Dej de Fuma Gnero Nunca ha Dej de Fuma Frecuencias


Total
fumado fumar actualmente fumado fumar actualmente marginales

Masculino 154 25 185 364 Masculino 28.5% 4.6% 34.3% 67.4%

Femenino 127 11 38 176 Femenino 23.5% 2.0% 7.0% 32.6%


Frecuencias
Total 281 36 223 540 marginales
52.0% 6.7% 41.3% 100.0%

Tabla de contingencia Tabla de frecuencias relativas conjuntas y


marginales
Problema de comparacin
Variable cualitativa

Las frecuencias relativas conjuntas nos dan una idea de qu tan frecuentemente se presentan
simultneamente ambos atributos en la poblacin. Podemos ver que la combinacin ms frecuente es
hombres que fuman actualmente, mientras que la menos frecuente son mujeres que han dejado de
fumar.
Hbito de tabaquismo
Fuma
Gnero Nunca ha Dej de Frec
actualment
fumado fumar marg
Tabla de frecuencias e
relativas conjuntas y Masculino 28.5% 4.6% 34.3% 67.4%
marginales
Femenino 23.5% 2.0% 7.0% 32.6%
Frecuencias
52.0% 6.7% 41.3% 100.0%
marginales

Las frecuencias relativas marginales, llamadas as porque se presentan en los mrgenes de la tabla,
nos dicen qu tan frecuentemente se presenta el atributo en la poblacin por s mismo.
Problema de comparacin
Variable cualitativa

Sin embargo, en el problema de comparacin deseamos ver si las frecuencias relativas dado el
gnero varan entre hombres y mujeres

Para hacer esta comparacin es relevante calcular las frecuencias relativas condicionales, que se
obtienen al dividir las frecuencias conjuntas entre la correspondiente frecuencia marginal.

Ejemplo:

Tabla de frecuencias relativas conjuntas y marginales Tabla de frecuencias relativas condicionales

Hbito de tabaquismo Hbito de tabaquismo

Gnero Nunca ha Dej de Fuma Frec Gnero Nunca ha Dej de Fuma


Total
fumado fumar actualmente marg fumado fumar actualmente

Masculino 28.5% 4.6% 34.3% 67.4% Masculino 42.3% 6.9% 50.8% 100.0%

Femenino 23.5% 2.0% 7.0% 32.6% Femenino 72.2% 6.3% 21.6% 100.0%
Frecuencias
Frec marg 52.0% 6.7% 41.3% 100.0% 52.0% 6.7% 41.3% 100.0%
marginales
Problema de comparacin
Variable cualitativa

La interpretacin es la siguiente: De la poblacin femenina de la universidad, un 72%


aproximadamente nunca ha fumado vs 42% de la poblacin masculina; el porcentaje que ha
dejado de fumar es similar para ambos gneros y finalmente el porcentaje de fumadores
dentro de cada gnero vara considerablemente.

Hbito de tabaquismo

Gnero Nunca ha Fuma


fumado
Dej de fumar
actualmente
Total
Por lo tanto, el hbito
Masculino 42.3% 6.9% 50.8% 100.0% de tabaquismo
depende del gnero
Femenino 72.2% 6.3% 21.6% 100.0%

Frecuencias
52.0% 6.7% 41.3% 100.0%
marginales

Tabla de frecuencias relativas condicionales


Problema de comparacin
Variable cualitativa

Para visualizar ms fcilmente la comparacin se pueden utilizar dos grficos:

Masculino Femenino
80.0% 100.0%
21.6%
70.0% 90.0%
Frecuencias condicionales

80.0% 50.8% 6.3%


60.0%

Frecuencia condicional
70.0%
50.0% 60.0%
40.0% 50.0% 6.9%
40.0% 72.2%
30.0%
30.0%
20.0% 42.3%
20.0%
10.0% 10.0%
0.0% 0.0%
Nunca ha fumado Dej de fumar Fuma actualmente Masculino Femenino
Nunca ha fumado

Hbito de fumar Dej de fumar


Gnero
Fuma actualmente

Grfica de barras hombro con hombro, condicionando Grfica de barras apiladas, condicionando sobre gnero
sobre gnero
Problema de comparacin
Variable discreta

En este caso el problema de comparacin se puede enfocar de la misma manera que con
variables cualitativas, es decir, comparando las distribuciones de frecuencia condicionales.

Ejemplo: Nmero de televisores por hogar, encuesta tv por cable

Nmero de televisores por hogar


Nmero de televisores por hogar Colonia Total
Colonia Total
0 1 2 3 4 5
0 1 2 3 4 5
1 0.0% 0.0% 13.3% 46.7% 33.3% 6.7% 100.0%
1 0 0 2 7 5 1 15
2 2 8 7 6 2 0 25 2 8.0% 32.0% 28.0% 24.0% 8.0% 0.0% 100.0%
Frecuencias
Total 2 8 9 13 7 1 40 marginales
5.0% 20.0% 22.5% 32.5% 17.5% 2.5% 100.0%

Tabla de frecuencias relativas condicionales


Problema de comparacin
Variable discreta

Este grfico es una variacin del diagrama de barras hombro con hombro. Presenta la
distribucin de frecuencias para cada colonia una frente otra; se ve claramente la
diferencia que existe entre ambas colonias con respecto al nmero de televisores por hogar.

50.0%
Frecuencia relativa condicional

45.0%
40.0% Col 1 moda 3
35.0%
30.0% Col 2 moda 1
25.0%
20.0%
15.0%
10.0%
5.0%
0.0%
0 1 2 3 4 5

Televisores
Colonia 1 Colonia 2
Problema de comparacin
Variable continua

En este caso estamos interesados en comparar tanto la localizacin como la dispersin entre
las distribuciones de frecuencia de las subpoblaciones, por lo tanto usaremos un diagrama
esquemtico, que consta de un diagrama de caja para cada una de las subpoblaciones con la
misma escala; esto facilita mucho la comparacin de la localizacin, dispersin y sesgo entre
las distintas distribuciones de frecuencia.
Problema de asociacin

Muchas veces es importante conocer si una variable influye sobre otra, es decir, si
el incremento o decremento de una variable () tiene efecto o est asociado con el
incremento o decremento de otra variable ()

Por ejemplo, en una cadena de establecimientos comerciales les interesara saber


qu tanto influye el tamao del establecimiento con el volumen de las ventas.
Tambin les interesara saber si un incremento en el tamao del establecimiento
necesariamente significa un incremento de las ventas.
Problema de asociacin

En el problema de asociacin slo se considerarn variables que estn al menos en


una escala ordinal. Si una de las variables no es ordinal, el problema cae en el
mbito de comparacin.

Consideraremos tres casos:

Ambas ordinales

Una de ellas es ordinal y la otra cuantitativa (ya sea continua o discreta)

Ambas cuantitativas
Problema de asociacin
Ambas variables ordinales

Una manera de analizar la asociacin ente dos variables ordinales es a travs de la


tabla de contingencia usando frecuencias relativas condicionales con sus
correspondientes diagramas de barra

100%
Posicin respecto al horario de verano 90% 27.1%
21.1%

Desacuerdo Indiferente Acuerdo Total 80% 43.1%


NSE Desacuerdo
70%
Bajo 23.9% 49.0% 27.1% 100.0% 31.9% Indiferente
60%
Medio 47.0% 31.9% 21.1% 100.0%
Acuerdo
50% 49.0%
Alto 20.7% 36.2% 43.1% 100.0%
Frec marg 32.4% 41.6% 26.0% 100.0% 40% 36.2%

30%
47.0%
20%
23.9% 20.7%
10%
Variable X Nivel socioeconmico
0%
Variable Y Opinin del horario de verano Bajo Medio Alto
Problema de asociacin
Una variable ordinal y otra cuantitativa

En esta situacin una manera de evidenciar la posible asociacin entre las


variables es a travs del diagrama esquemtico

Este diagrama es interesante porque nos puede mostrar cmo dependen, no slo la
localizacin sino tambin la dispersin de la variable cuantitativa con respecto al
incremento o decremento de la variable ordinal.
Problema de asociacin
Una variable ordinal y otra cuantitativa

Ejemplo: Calificaciones de una prueba de habilidad verbal para una muestra de


nios de una escuela privada

Grado escolar
Maternal Kinder I Kinder II
68 255 425
35 202 370
145 317 380
173 327 476
190 247 410
225 100 358
340 448 338
123 412 373
228 228 377
192 467
297 388

Variable X Grado escolar del nio


Variable Y Calificacin
Problema de asociacin
Ambas variables cuantitativas

En este caso es interesante realizar un diagrama de dispersin, el cual consiste en


representar cada pareja de valores de la muestra 1 , 1 , , sobre un plano
cartesiano.

Construccin:

1. Sobre un par de ejes cartesianos seleccionar una escala en el eje X y otra en el eje Y, de
tal forma que quepan todos los valores observados

2. Graficar cada pareja , en el punto que le corresponda. Si hay puntos repetidos,


trazar crculos concntricos
Problema de asociacin
Ambas variables cuantitativas

Ejemplo: Deseamos saber si existe una asociacin entre el ingreso de un hogar (X = Valor) y la
cantidad de renta que se est dispuesto a pagar por el servicio de TV por cable (Y = Renta).

Diagrama de dispersin Renta vs Valor. Encuesta tv por cable


90
Podemos concluir que hay una asociacin

80
positiva entre ambas variables, ya que se
observa que, en general, los valores ms
70
grandes de Valor estn asociados con los
60
Renta

valores ms grandes de Renta y viceversa


50

40

30

20

10

0 Los datos atpicos se deben a


- 50,000 100,000 150,000 200,000 250,000 300,000 350,000 400,000
hogares sin televisin
Valor
Problema de asociacin
Ambas variables cuantitativas
La asociacin entre dos variables cuantitativas queda representada mediante la lnea
de mejor ajuste, trazada a partir de la nube de puntos.

Diagrama de dispersin Renta vs Valor. Encuesta tv por cable


90
Los principales componentes elementales

80 de una lnea de ajuste y, por lo tanto, de


70 una correlacin son:
60
Renta

50
La fuerza
40
El sentido
30
La forma
20

10

0
- 50,000 100,000 150,000 200,000 250,000 300,000 350,000 400,000

Valor
Correlacin entre variables

La fuerza mide el grado en que la lnea representa a la nube de puntos: si la


nube es estrecha y alargada indica que la relacin es fuerte; si la nube de
puntos tiene una tendencia elptica, la relacin es dbil.

El sentido mide la variacin de los valores de Y con respecto a X: si al crecer


los valores de X lo hacen los de Y, la asociacin es positiva. Si al crecer los
valores de X disminuyen los de Y, la asociacin es negativa.

La forma establece el tipo de lnea que define el mejor ajuste: una lnea
recta o una curva
Correlacin entre variables

Correlacin fuerte Correlacin dbil

Asociacin no lineal No hay asociacin


Coeficiente de correlacin lineal (r)

Adems del anlisis grfico, es interesante tener una medida de la asociacin


entre las dos variables. Para ello se cre el coeficiente de correlacin, que se
calcula:

=1
, = = 1 1

Este coeficiente mide el grado de intensidad de la posible relacin lineal entre las
variables.

El valor absoluto de r ser mayor a medida que la nube de puntos se aproxime ms


a una lnea recta.
Coeficiente de correlacin lineal (r)
Valor de r Significado
-1 Correlacin negativa perfecta

-0.9 a -0.99 Correlacin negativa muy fuerte

-0.7 a -0.89 Correlacin negativa fuerte

-0.4 a -0.69 Correlacin negativa moderada

-0.2 a -0.39 Correlacin negativa dbil

-0.01 a -0.19 Correlacin negativa muy dbil

0 Correlacin nula

0.01 a 0.19 Correlacin positiva muy dbil

0.2 a 0.39 Correlacin positiva dbil

0.4 a 0.69 Correlacin positiva moderada

0.7 a 0.89 Correlacin positiva fuerte

0.9 a 0.99 Correlacin positiva muy fuerte

1 Correlacin positiva perfecta


Correlacin entre variables
Una cuestin que es importante tener presente, es que la correlacin entre dos variables
no implica, por s misma, ninguna relacin de causalidad .

Ejemplo: El diagrama muestra la poblacin (en miles) del poblado de Oldenburg versus el
nmero de cigeas observadas ese mismo ao.

75
Se nota que la correlacin es bastante alta pero
70 obviamente no hay una conexin lgica. A este
Poblacin (miles)

fenmeno se le llama correlacin espuria. Lo


65
que sucede es que hay una tercera variable
60
escondida. En este caso, el tiempo, en donde
55 ambas poblaciones crecen simultneamente.

50
100 150 200 250 300

Nmero de cigeas

S-ar putea să vă placă și