Documente Academic
Documente Profesional
Documente Cultură
ESTADISTICA
DESCRIPTIVA
QUE TEMAS VEREMOS EN LO QUE RESPECTA A PRESENTAR Y
Primera Acepción
No es más que
una colección de
datos ordenados
(*) y clasificados
según un criterio
Segunda Acepción
110
100
CAJAS (MILES)
90
80
70
60
0 2 4 6 8 10
DIA
Solución
En la figura, el jefe de producción puede identificar los
días de baja producción, así como los días de mayor
producción.-
No parecería que hubiera mucha diferencia en el numero
de cajas producidas en los seis primeros días.-
Sin embargo, en los días 7 y 8 el nivel de
producción parecería que era mas alto.- En
cambio, en los días 9 y 10 parecería que era mas
bajo.-
Basándose en estas observaciones, el equipo
intento identificar las causas por las que la
productividad era mas alta y mas baja.-
Por ejemplo, tal vez en los días 9 y 10 estuvieron
ausentes trabajadores clave o hubieran cambiado
las materias primas.- También se podrían
identificar las causas por las que aumento la
productividad en los días 7 y 8.-
Respecto a la Estadística Inferencial, diremos:
Tamaño
Población finita: cuando el número de elementos que la forman es
numerable, se puede contar, por ejemplo el número de alumnos de la
universidad, cantidad de empleados de una fábrica, etc.-
Población infinita: cuando el número de elementos que la forman es
incontable o tan grande que puede considerarse infinito. Como por
ejemplo, si se realizara un estudio estadístico sobre los productos
que hay en el mercado, producción de un torno, etc.-
Ejemplos de poblaciones son:
• Todos los estudiantes de una universidad.-
• Todos los votantes incriptos en un paìs.-
•Todas las familias que viven en una ciudad.-
• Todas las acciones que se cotizan en una bolsa de
valores.-
•Todas las reclamaciones que recibe en un año una
compañía de seguros.-
•Todas las cuentas pendientes de cobro de un comercio.-
• Todas las boletas de ventas correspondientes a un año
de un comercio que hay que auditar.-
• Etc……
ELEMENTOS Los elementos de una población
poseen una serie de cualidades,
O UNIDAD
propiedades o rasgos comunes que se
denominan en estadística
ESTADISTICA CARACTERES.
DE LA VARIABLE EN
ESTUDIO
Para el análisis de datos se debe estar
familiarizado con que existen cuatro escalas
numéricas de medida de las variables que
estamos estudiando.- Cuanto más alta sea la
jerarquía o posición que ocupe el tipo de datos en
estas medidas más información contendrán.-
NOMINAL DE INTERVALOS
ORDINAL
Datos
longitudinales.
Datos Son los datos de
transversales. series de tiempo, se
Se reúnen al mismo coleccionan a lo
tiempo y bajo las largo de varios
mismas condiciones.- períodos de
tiempo.-
FUNDAMENTOS DE LA
INVESTIGACION
EN LOS
NEGOCIOS Y AFINES
Los estudios de investigación en el mundo de los
negocios se clasifican de acuerdo con su objetivo.-
Se pueden identificar cuatro tipos de estudios:
EXPLORATORIOS
DESCRIPTIVOS
CAUSALES
PREDICTIVOS
EXPLORATORIO
Una investigación exploratoria suele ser el paso inicial y
nos ayuda a familiarizarnos con la situación o el
problema, a identificar las variables importantes y a
utilizar estas últimas para plantear hipótesis que puedan
ponerse a prueba en una investigación posterior.-
La hipótesis es una afirmación acerca de una variable o
de la relación entre las variables; por ejemplo, la
producción aumentará si intercambiamos las
asignaciones de las líneas de los operadores A y B.- La
hipótesis quizá no sea cierta, pero es una afirmación que
puede ser examinada mediante la recolección de datos
de la muestra para un período de prueba durante el cual
los operadores hayan intercambiado las posiciones en
las líneas.-
La investigación exploratoria también puede ser de
naturaleza cualitativa.- Uno de tales métodos es la
entrevista al grupo objetivo, en la cual un moderador
conduce un pequeño grupo de análisis, sobre un tema
mientras el cliente observa y escucha sin que los
entrevistados sepan de su presencia.- Un fabricante de
computadoras, que se preguntaba porque los dueños de
negocios pequeños no compraban sus productos,
preparó una de tales sesiones.- Los directivos de la
empresa comprendieron muy pronto que los dueños de
los negocios pequeños no tenían tantos conocimientos
técnicos como habían supuesto la compañía y que no
compraban las computadoras porque no comprendían
como funcionaban o les atemorizaba no conocerlas.-
Este tipo de estudio lo esta aplicando muchas de las
grandes empresas en la actualidad.-
DESCRIPTIVOS.-
Como cabría esperar, una investigación descriptiva tiene
el propósito de describir algo.- Por ejemplo, el dueño de
un Supermercado importante , encontró que a la hora de
la siesta la afluencia de público era baja, solo un 15% de
la ocurrencia diaria y el 8% de los clientes eran gente de
bajos recursos, donde los canastos demostraban poco
gastos, por lo que debía analizar si convenía tenerlo
abierto o no.-
CAUSALES
En una investigación causal, el objetivo es determinar si
una variable afecta a otra.- Veamos un ejemplo, que se
publicó en una revista técnica norteamericana, la
Duquesne Light Company encontró que se dañaban
alrededor de 30% menos postes después de que en
Pensylvania entraron en vigor leyes más estrictas contra
los conductores ebrios.- De acuerdo con un vocero de la
empresa, “puede ser solo una coincidencia, pero antes,
teníamos un promedio de 1000 postes dañados.-
Después de este año, el promedio disminuyó a 700
postes.- Casi todos los accidentes relacionados con
postes de alumbrado ocurren entre la 1 y 4 de la mañana,
,más o menos la hora en que cierran los bares y las
personas vuelven a sus casas.-
Con respecto a los estudios causales, debe señalarse
que las técnicas estadísticas por si mismas no
demuestran una causalidad.- Debe realizarse una
comprobación con base en los resultados cuantitativos y
en la lógica.-
En el caso de los postes telefónicos del párrafo
anterior, parece obvio que la causa no fue en la dirección
inversa (es decir, que la reducción del daño de los
postes provoco leyes más severa contra los
conductores ebrios).- Sin embargo, debemos considerar
la posibilidad de que una o más variables pudieron haber
contribuido a la reducción en el daño a los postes, por
ejemplo, la empresa pudo haber iniciado un cableado
subterráneo al mismo tiempo que se promulgó la ley
más estricta.-
PREDICTIVOS
La investigación predictiva intenta pronosticar una
situación o valor que ocurrirá en el futuro.- Una variable
común para tales estudios es el nivel esperado de ventas
futuras.- Como cabría esperar, las predicciones no
siempre son exactas.- Por ejemplo, cierta empresa
predijo un aumento de ventas del 22% para el año
siguiente cuando en realidad fue del 17%.- Como
cualquier pronostico, siempre habrá un error entre la
cantidad pronosticada y la cantidad real.- No obstante,
para un buen modelo de predicción, la magnitud de ese
error debe ser más pequeña que si no utilizara el
modelo.-
Sobre este tema, veremos una Unidad completa.-
LOS DATOS SE PUEDEN OBTENER
POR DOS TIPOS DE FUENTES
SECUNDARIAS
PRIMARIAS
DATOS PRIMARIOS.-
Son aquellos que se encuentran en la forma original en
que fueron registrados (datos brutos), sin haber sufrido
ningún tipo de tratamiento o elaboración posterior.
Ejemplos: una encuesta, un censo.-
DATOS SECUNDARIOS.-
Son aquellos que fueron producidos (diseñados y
recopilados) por terceros con un fin ajeno al de la
investigación y que ya han sido sometidos a alguna
forma de elaboración posterior.- En consecuencia,
estos datos siempre se originan en terceras fuentes.-
Ejemplo; los datos que publican las oficinas de
estadísticas de organismos oficiales, de empresas, etc.-
FUENTES PRIMARIAS.-
Los datos los podemos obtener
mediante dos tipos de estudios
estadísticos:
1.-Experimentales
2.- Observacionales
ESTUDIO EXPERIMENTALES.-
En un estudio experimental, primero se
identifican las variables de interés.- Luego se
identifican o controlan una o más variables, de
modo que se pueda obtener datos de cómo
influyen en la variable de interés.- Por ejemplo,
una empresa farmacéutica.-
ESTUDIO OBSERVACIONALES O NO
EXPERIMENTAL.-
En este tipo de estudios no se trata de
controlarlas variables de interés, ni de influir
sobre ellas.- Quizá los tipo más común de
estudios observacionales sean:
a) Realización de un CENSO.
b) Conducción de una encuesta.-
1.- Modificar las afirmaciones siguientes para que reflejen una posible
incertidumbre:
DESPUES DE LO EXPRESADO
PODEMOS RESUMIR DICIENDO:
Muy frecuentemente es necesario seleccionar una muestra y en base
a ésta, extraer conclusiones respecto de la población.-
CUADRO
ESTADISTICO
PORCENTAJES
DEL TOTAL, DE FILAS
GRAFICOS Y DE COLUMNAS
PARTES DE UN CUADRO ESTADISTICO
TITULO
NOTA DE
CALCE
Encabezado
y
sub.-
encabezado
CUERPO
Columna
Matriz o
concepto
FUENTE
Nota al pie
1.-TITULO.- Se coloca siempre sobre el cuadro, ya que
leemos de arriba hacia abajo.- Si el titulo es muy largo,
se coloca en forma de pirámide truncada.-
Un titulo debe responder a cuatro preguntas básicas:
QUE?, que es lo que queremos mostrar.-
DONDE?, se refiere al lugar donde fueron obtenidos.-
COMO?, se refiere a como queremos mostrar los datos.-
CUANDO?, hace referencia cuando fueron obtenidos los
datos.-
2.-ENCABEZADO Y SUBENCABEZADOS.-
Son las denominaciones de las columnas y
responde al Como del titulo.- Una columna
puede tener subencabezados.-
3.-COLUMNA MATRIZ O CONCEPTO.- Son
las denominaciones de la filas.- Responde
también al Como del titulo.-
Arquitectura 15 12,5
Abogacía 24 20,0
TOTAL 120 100,0
Fuente: Elaboración propia
Matricula de la UNLAR según carreras.
Marzo 2008
Abogacía
Arquitectura
Medicina
Sistema
Psicopedagogía
Contador
0 5 10 15 20 25 30
Matricula de la UNLAR según carreras.
Marzo 2008
20% 23%
13% 9%
16% 19%
En %
100%
90%
80%
70%
60% Contabilidad
50% Marketing
40%
Finanzas
30%
20%
10%
0%
2006 2007 2008
Fuente: UNC
TABLA DE CONTINGENCIA.-
Supongamos que ahora a la muestra de estudiantes se observo el
sexo y se registro la información:
Medicina 15 4 19
Arquitectura 5 10 15
Abogacía 17 7 24 Frecuencias
TOTAL 69 51 120 absolutas
marginales
Matricula de la UNLAR por carreras y sexo. Marzo 2008.-
Abogacía
Arquitectura
Medicina Mujeres
Sistemas Varones
Psicopedagogía
Contador
0 5 10 15 20
Analizamos una tabla de contingencia, según lo que queramos
explicar.-
CARRERAS SEXO
Varón Mujer
Contador 13,3 10,0
Psicopedagogía 2,5 6,7
Sistemas 10,8 8,3
Medicina 12,5 3,3
Arquitectura 4,2 8,3
Abogacía 14,2 5,8
EJERCICIO PARA HACER EN CLASE
14,0% 13,33%
12,67%
12,0%
10,00%
10,0% 9,33%
8,67%
8,00%
8,0% Este
6,67% 6,67% 6,67% 6,67%
6,00% Norte
6,0% 5,33% Oeste
4,0%
2,0%
0,0%
Herramienta Madera Pintura Ninguno
ALGUNOS TIPOS DE GRÁFICOS ESTADISTICOS
VERTICALES SIMPLES
HORIZONTALES DOBLES
COMPUESTAS
SUBDIVIDIDAS
Veamos algunos gráficos para interpretar en
clase.-
Tercer
Año 18,5%
Cuarto 18,5%
Año 12,7%
Quinto
Año 22,9%
22,9%
Recibidos 28% 12,7%
TOTAL 99,9%
NO USAR este tipo de Grafico
Chart of Curso
30
25
20
Percent
15
10
0
Cuarto año Primer año Quinto año Recibidos Segundi año Tercer año
Curso
Percent within all data.
“SI USAR” este tipo de Grafico
Recibidos 28%
18000
Montos de Ventas
16000
14000
12000
10000
8000
16000
Y-Data
14000
12000
10000
8000
Percent
60
Count
50
40
40
30
20 20
10
0 0
TIPO DE DEFECTO ne ía so sa a s na ra er
f r o o r
e tie en tu tu R ay cio cie O
th
d c c n
se No e fe e fe
o
fu no
o d d N rta
n te r a e
tor ur le intu Pu
o B P
M
Count 36 27 9 5 4 2 2 3
Percent 40,9 30,7 10,2 5,7 4,5 2,3 2,3 3,4
Cum % 40,9 71,6 81,8 87,5 92,0 94,3 96,6 100,0
Vemos que la categoría “otros” siempre debe ir al final,
sin importar su valor.- De esta manera, si hubiese
tenido un valor más alto, igual debería haberse ubicado
en la última fila.-
Ahora resulta evidente cuales son los tipos de defectos
más frecuentes.- Podemos observar que los tres
primeros tipos de defectos se presentan en el 82% de
las heladeras, aproximadamente.-
500
400
Data
300
200
100
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
Year
Solución
En la figura de arriba, podemos ver que el numero de
matriculados de primer año ha aumentado desde 2000 y
que el máximo que alcanzo el numero de estudiantes
procedentes de otras universidades en 2001 fue seguido
de un continuo descenso.- El personal de administración
debe averiguar cuales son los factores que explican
ambas tendencias.-
La tabla siguiente muestra las ventas trimestrales
realizadas por una empresa durante un periodo de 6 años,
desde el 2001 al 2006.- Describa gráficamente los datos:
AÑOS TRIMESTRE
1 2 3 4
2001 271 199 240 255
2002 341 246 245 275
2003 351 283 353 292
2004 401 282 306 291
2005 370 242 281 274
2006 356 245 304 279
Venta trimestrales de la empresa en 6 años
450
400
350
Venta en miles
300
250
200
150
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
2001 2002 2003 2004 2005 2006
Años y trimestres
La figura anterior es un grafico de serie
temporales de los 24 intervalos de tiempo.-
Observamos que las ventas del primer trimestre
van seguidas sistemáticamente de una
disminución de las ventas en el segundo.- Tal vez
la estación del año sea una explicación.- En el
estudio de Series de Tiempo se ven modelos para
ajustar los datos de las series temporales con el
fin de tener en cuenta la estacionalidad, las
tendencias, la conducta cíclica o algún otro
componente irregular.-
Si solo nos interesa comparar las ventas del primer trimestre con las
del segundo, puede hacerse un grafico de series temporales como el
de la figura siguiente:
GRAFICOS PARA
DESCRIBIR
RELACIONES ENTRE
DOS VARIABLES
NUMERICAS
En todos los temas anteriores nos hemos
ocupado de mostrar gráficamente una única
variable.- Estas imágenes nos han ayudado a
entender y analizar mejor la información que
contenía un gran volumen de datos.- En este
apartado ampliamos las medidas graficas para
describir las relaciones entre dos variables
numéricas.- Aquí elaboramos lo que llamamos
los diagramas de dispersión, algunos autores los
llaman diagrama de puntos dispersos.-
Los analistas empresariales y economistas a
menudo se refieren a relaciones entre variables
numéricas.-
Por ejemplo, ¿Cuánto varia la cantidad vendida
cuando varia el precio?, ¿obtienen mejores
clasificaciones medias en la universidad los
alumnos que tienen mejores notas en los
exámenes de ingreso?, ¿aumenta la publicidad
las ventas?, ¿Cómo influye en las ventas los
ingresos total de las familias de la región?.....etc.-
En estos ejemplos, observamos que una variable
puede depender de alguna medida de la otra
variable, es decir que tenemos pares de valores
que llamamos X e Y.- Por ejemplo, los montos de
ventas puede depender de cuanto se haya
gastado en publicidad.- En este caso llamamos a
la variable Y dependiente y a la X independiente.-
El diagrama de dispersión, es una imagen que muestra a
menudo la relación entre las dos variables.-
Podemos trazar un diagrama de dispersión, localizando
un punto por cada par de dos variables que
representan una observación del conjunto de datos.-
Nos muestra:
a) El rango de cada variable.-
b) La pauta de valores existentes dentro del rango.-
c) Una sugerencia sobre la posible relación entre las dos
variables.-
d) Una indicación de los casos atípicos (puntos muy
extremos).-
Veamos un ejemplo:
Notas de los exámenes de admisión en las
universidades en los EEUU y las calificaciones
media de los estudios universitarios.-
¿Son las notas obtenidas en la prueba de
matemáticas del SAT para acceder a la
universidad un buen indicador de éxito en la
universidad?.- En los EEUU, todos los
estudiantes realizan uno o mas test de aptitud
para ingresar en una universidad.- El personal de
admisiones de las universidades utilizan los
resultados para admitir o no a los estudiantes.-
En la tabla siguiente se muestra las notas
obtenidas en la prueba de admisión por una
muestra aleatoria de 11 estudiantes de una
pequeña universidad del oeste, y la calificación
media obtenida al terminar los estudios
universitarios.- Trace un diagrama de dispersión
y comente que información le suministra.- Los
datos fueron:
450 480 500 520 560 580 590 600 620 650 700
3,75
Calificacion media
3,50
3,25
3,00
2,75
2,50
450 500 550 600 650 700
Notas en matematicas
Hemos utilizado un programa Minitab, para hacer el
diagrama, hoy todos los paquetes tienen este grafico,
incluso Excel.-
Observamos que las calificaciones medias van desde
alrededor de 2,5 hasta 4 y las notas de matemáticas van
desde 450 hasta 700.- Una interesante pauta es la
tendencia ascendente positiva; las calificaciones medias
tienden a aumentar directamente con los aumentos de las
notas obtenida en la prueba de matemáticas.- Observe
también que la relación no suministra una predicción
exacta.- Algunos estudiantes que obtienen una baja nota
en la prueba de matemáticas tiene una calificación media
mas alta que los estudiantes que obtienen una nota
mejor en la prueba de matemáticas.- Vemos que la pauta
básica indica que las notas mas altas obtenidas en los
exámenes de admisión predicen mayores calificaciones
medias pero los resultados no son perfectos.-
EJERCICIO PARA HACER EN CLASE.-
Gastos 10 15 7 12 14 18 14 9 15 13 16 17
Ventas 100 200 80 120 150 270 160 120 220 170 240 200
4 5 2 6 4 6 4 4 7 6
3 7 5 3 6 5 5 6 6 7
6 4 5 4 5 6 3 8 4 8
7 6 8 2 4 5 4 5 5 5
4 5 4 7 8 7 4 8 3 6
6 3 4 3 5 5 2 5 4 7
5 6 5 4 6 3 6 7 6 6
3 6 6 6 6 6 7 5 6 5
Podemos ordenarlos en forma creciente y algo podemos decir:
2 2 2 3 3 3 3 3 3 3
3 4 4 4 4 4 4 4 4 4
4 4 4 4 4 4 5 5 5 5
5 5 5 5 5 5 5 5 5 5
5 5 5 5 6 6 6 6 6 6
6 6 6 6 6 6 6 6 6 6
6 6 6 6 6 6 7 7 7 7
7 7 7 7 7 8 8 8 8 8
Gráfica de puntos de C1
2 3 4 5 6 7 8
C1
b1) Datos
agrupados sin
intervalos.-
Variable discreta.-
Vamos a verlo mediante un ejemplo.- Supongamos que
el Gerente de un Supermercado esta interesado en
saber que cantidad de gente entra a el durante la siesta
(13 a 16 horas).- Tomamos una muestra de 80 días y
contamos la gente que entró en ese horario al
Supermercado.- Resultaron los siguientes valores:
4 5 2 6 4 6 4 4 7 6
3 7 5 3 6 5 5 6 6 7
6 4 5 4 5 6 3 8 4 8
7 6 8 2 4 5 4 5 5 5
4 5 4 7 8 7 4 8 3 6
6 3 4 3 5 5 2 5 4 7
5 6 5 4 6 3 6 7 6 6
3 6 6 6 6 6 7 5 6 5
Xi = cantidad de personas que entraron en ese horario.-
Xi variable discreta.-
Agrupamos en una tabla que llamamos DISTRIBUCIÓN DE
FRECUENCIA.-
Xi Conteo fi hi Fi Hi Fi%
2 III 3 0,0375 3 0.0375 3,75
3 IIIIIIII 8 0,1000 11 0.1375 13.75
4 IIIIIIIIIIIIIII 15 0,1875 26 0.3250 32,50
5 IIIIIIIIIIIIIIIIII 18 0,2250 44 0.5500 55,00
6 IIIIIIIIIIIIIIIIIIIIII 22 0,2750 66 0.8250 82,50
7 IIIIIIIII 9 0,1125 75 0.9375 93,75
8 IIIII 5 0,0625 80 1.0000 100,0
TOTAL --------- 80 1,0000 ------ --------- -------------
Días
25
20
15
10
5
0 1 2 3 4 5 6 7 8 Cantidad personas
b2) Datos
agrupados con
intervalos.-
Variable continua.-
Para agrupar los datos en una distribución de
frecuencia con intervalos, debemos pensar varias
cosas, como cuantos intervalos vamos a hacer, que
amplitud usamos, etc.- Se recomienda no usar menos
de 5 ni más de 15 intervalos.- Cuando agrupamos los
datos en intervalos, perdemos la individualidad del
dato.-
k
2 ≥ n
Donde k nos indica la cantidad de intervalos a realizar.-
b) Amplitud a utilizar:
Rx = rango o recorrido de la variable.
Rx =Xi máximo --- Xi mínimo
Ci = amplitud Ci = Rx / I
61 88 70 76 66 79 64 75 78 76
80 61 75 79 76 60 74 68 76 78
70 65 52 78 72 76 58 86 94 78
I = 5
Rx = 94 - 52 = 42
Ci = 42 / 5 = 8,4 ≈ 9
La distribución de frecuencia será:
Li - Ls Conteo fi hi Fi Hi Fi %
15
Frequency
10
0
-4 -2 0 2 4 6 8 10
X1
Histogram of X3
18
16
14
12
Frequency
10
0
0 10 20 30 40
X3
Histogram of HSPct
30
25
20
Frequency
15
10
0
30 40 50 60 70 80 90 100
HSPct
POLIGONO DE
FRECUENCIA
16
frecuencia absoluta
12
0
43 52 61 70 79 88 97 106
Montos de ventas
POLIGONO DE FRECUENCIA CON EL HISTOGRAMA
16
frecuencia absoluta
12
0
43 52 61 70 79 88 97 106
Montos de ventas
POLIGONO DE FRECUENCIA SIN EL HISTOGRAMA
16
frecuencia absoluta
12
0
43 52 61 70 79 88 97 106
Montos de ventas
OJIVA O GRÁFICO DE FRECUENCIA ACUMULADA
32
frec. abs. acumulada
24
16
0
43 52 61 70 79 88 97 106
Montos de ventas
ANALISIS
EXPLORATORIO
DE DATOS.-
Las técnicas del análisis exploratorio de datos consisten
en operaciones aritméticas sencillas y gráficas fáciles de
trazar, que pueden emplearse para resumir con rapidez los
datos.-
Una técnica de explorar los datos que son objeto de
nuestro estudio y que hoy trae casi todos los paquetes
estadísticos de computación es el llamado DIAGRAMA
DE TALLO Y HOJA.- La importancia de este diagrama es
que no perdemos el dato original, cosa que nos sucede
con las distribución de frecuencia con intervalos.-
El diagrama es una herramienta valiosa y versátil para
organizar un conjunto de datos y entender la distribución y
agrupación de los valores dentro del intervalo de
observaciones en el conjunto.- Generalmente el primer
dígito forma el tallo y el resto las hojas.- Veamos un
ejemplo sencillo.-
Suponga que las calificaciones en un parcial de ESTADÍSTICA de
40 alumnos fueron las siguientes:
42 46 87 34 81
2 1 9
64 87 69 75 73 3 4 7
91 70 86 67 49 4 2 6 7 9
55 74 81 75 37 5 5 7 9
21 69 29 59 69 6 9 4 0 9 5 7 9 8 6 8
60 81 77 47 68 7 5 7 3 4 0 4 5
74 65 87 97 57 8 7 1 7 1 2 6 7 1
68 66 90 82 94
9 7 1 0 4
MEDIDAS
DESCRIPTIVAS
QUE RESUMEN
A LOS DATOS
Hasta este punto, hemos analizado la
presentación de datos categóricos y
numéricos en forma tabular y gráfica.-
Aunque la presentación de datos es una
componente esencial de la estadística
descriptiva, la tarea no termina ahí.- Dentro
del manejo de la información numérica, un
buen análisis de los datos no se limita a la
presentación de datos y la observación de
lo que estos tratan de transmitir, también
abarca los cálculos y el resumen de las
características importante y el análisis de
lo que contienen.-
LAS MEDIDAS DESCRIPTIVAS ESTADISTICAS QUE
CARACTERIZAN A UNA MUESTRA O A UNA POBLACION SON:
MEDIDAS
DE MEDIDAS DE
TENDENCIA ORDEN
CENTRAL
MEDIDAS DE
MEDIDAS DE FORMA
DISPERSION O DE
VARIABILIDAD
MEDIDAS DE TENDENCIA CENTRAL.-
MEDIA
ARITMETICA MEDIANA
X Me
MEDIA
PONDERADA MODO
Xp Mo
MEDIA MEDIA
GEOMETRICA ARMONICA
XG XA
MEDIDAS DE ORDEN
PERCENTILES
CUARTILES
PR %
QR
RANGO DEL
PERCENTIL
RP (xi)
MEDIDAS DE DISPERSION O DE VARIABILIDAD
RANGO O
RECORRIDO
VARIANCIA
RX
S²X
RANGO
INTERCUARTILICO
COEFICIENTE
DESVIO DE
ESTANDAR VARIACION
SX CVX
MEDIDAS DE FORMA
ASIMETRIA
AS
CURTOSIS
CR
MEDIA ARITMETICA , también llamada Media:
∑ xi
x =
n
87- 99- 160- 180- 135- 145- 105- 138- 153- 129- 119- 99- 165- 172
Observamos que, la media aritmética será:
∑ xi 1886
x = ---------- = ----------- = 134,71 135 $.-
n 14
Nº IMPAR DE DATOS
a) PARA DATOS
SIN AGRUPAR
Nº PAR DE DATOS
Mº = (n + 1) / 2 = 16 / 2 = 8ª posición
Me = 10 minutos
a2) Nº PAR DE DATOS.-
En el ejemplo anterior supongamos tener datos durante 14 días.-
8 9 9 10 10 11 12 13 13 15 17 18 18 20
Mº = (n + 1) / 2 = 15 / 2 = 7,5 ª posición
12 + 13
Me = = 12,5 minutos
2
b1) MEDIANA PARA DATOS AGRUPADOS SIN INTERVALOS.-
Supongamos tener la cantidad de accidentes automovilísticos por
mes en cierta localidad.- Se registraron datos correspondientes a 60
meses.-
xi fi Fi Fi% Buscamos la menor Fi % que
0 10 10 16,7 me contiene al 50 %.-
1 12 22 36,7 Observamos ahora que valor
2 16 38 63,3 de variable le corresponde:
3 8 46 76,7
4 7 53 88,3
Me = 2 accidentes
5 5 58 96,7
6 2 60 100,0
Total 60 ----- -----
b2) MEDIANA PARA DATOS AGRUPADOS EN INTERVALOS.-
850 – 875 – 856 – 882 – 875 – 880 – 896 – 810 – 875 – 942 - 975
Observamos el valor de variable que más veces se da:
M o = 875 $
MODO PARA DATOS AGRUPADOS SIN INTERVALOS.-
Supongamos que en el relevamiento de 50 empleados de una
empresa, se les pregunto la cantidad de niños en edad escolar
que tienen.- Resulto la siguiente tabla:
xi fi
4 18
6 6
TOTAL 50
MODO PARA DATOS AGRUPADOS CON INTERVALOS.-
Supongamos que tenemos una muestra de 72 notas de un parcial
de Estadística que se les tomo a un curso integrado por 200
alumnos.- Estas fueron las siguientes:
Li Ls fi d1
*c
36 46 4 Mo Li i
d1 d 2
46 56 9
d1 = fi - fi-1 = 23 - 18 = 5
56 66 18
d2 = fi - fi+1 = 23 - 11 = 12
66 76 23
5
76 86 11
Mo = 66 + ---------------- * 10 =
86 96 7 5 + 12
TOTAL 72 = 68,94 ≈ 69 puntos.-
USO DE LAS
DISTINTAS MEDIDAS
DE TENDENCIA CENTRAL
Cuando se tiene datos de escalas intervalares o proporcionales, en
general se utiliza la media porque, es una medida que atiende en
forma exhaustiva toda la información disponible: los valores, las
distancias y proporcionalidad entre ellos y la frecuencia de cada
uno.
7.1 7.2 7.2 7.6 7.6 7.9 8.1 8.1 8.1 8.3
8.3 8.4 8.4 8.9 9.0 9.0 9.1 9.1 9.1 9.1
9.4 9.6 9.9 10.1 10.1 10.1 10.2 10.3 10.5 10.7
11.0 11.1 11.2 11.2 11.2 12.0 13.6 14.7 14.9 15.5
∑ xi W i
Xp = ----------------
∑ Wi
∑ xi Wi 285,50
Xp = ---------------- = -------------- = $ 5,49
∑ Wi 52
1/4
Xg = ( 1,05 . 1,02 . 1,10 . 1,06) = 1,0571
Veamos un ejercicio:
Hallar la tasa de crecimiento suponiendo que las
ventas han crecido un 25 por ciento en 5 años.-
Solución
La tentación intuitiva, pero ingenua, es dividir simplemente el
crecimiento total, 25 por ciento, por el numero de periodos, 5 y
concluir que la tasa media de crecimiento es del 5 %.- Este resultado
es incorrecto porque no tiene en cuenta el efecto compuesto del
crecimiento.-
Suponiendo que la tasa anual de crecimiento es realmente del 5 por
ciento, en ese caso, el crecimiento total de 5 años será:
(1,05 . 1,05 . 1,05 . 1,05 . 1,05 ) = 1,2763 o sea un 27,63 %.-
Sin embargo, la tasa anual de crecimiento r, que daría un 25 % en
cinco año, debe satisfacer esta ecuación:
5
( 1 + r) = 1,25
Primero hallamos la media geométrica:
Xg = 3 . 2 . 4 . 6 = 144
n
Valor al final del periodo
Xg = - 1
Valor al inicio del periodo
10
22
Xg = - 1
2
= 1,2710 - 1 = 0,2710
El valor final es 0,2710.- De modo que la tasa de aumento
anual es de 27,1 %.- Es decir que el puesto tuvo una
tasa de crecimiento de la población de 27,1% al año.-
Cuartiles
Se lo simboliza con Qr., donde con “r” indicamos el orden del
cuartil que queremos calcular. Los cuartiles dividen mi distribución
de datos u observaciones en cuatro partes iguales o sea que
tenemos tres cuartiles el cuartil de orden 1, de orden 2 y el de
orden 3, y en cada uno se encuentra el 25 % del total de casos
observados.
Si me da un valor decimal en 5, el
cuartil buscado será el promedio
(n + 1) r
entre el dato posición del entero y
el siguiente.-
Qºr = =
4 Si me da un valor ni entero, ni
decimal en 5, el cuartil buscado
será el dato que ocupe la
posición siguiente al valor
entero.-
Veamos un ejemplo.-
Supongamos tener las edades de una muestra de empleados de
cierta empresa textil.- Estos resultaron ser:
22-58-24-50-29-52-57-31-30-41-44-40-46-29-31-37-32-44-49-29
Ordenamos en forma creciente los datos:
22-24-29-29-29-30-31-31-32-37-40-41-44-44-46-49-50-52-57-58
xi fi Fi Fi%
El PERCENTIL 82%, nos
0 4 4 6,7 implica el 82%, por lo tanto
buscamos el menor
I 9 13 21,7 porcentaje que lo cubre, y
2 12 25 41,7 observamos el valor de
variable que le corresponde,
3 18 43 71,7 entonces:
4 10 53 88,3 P82% = 4 hijos.-
5 7 60 100,0 El 82% de los empleados
Total 60 ------ ------ tienen 4 hijos o menos.-
PERCENTILES PARA DATOS AGRUPADOS CON INTERVALOS
0,27
frecuencia relativa
0,18
0,09
0,00
0,36
0,27
frecuencia relativa
0,18
0,09
0,00
Media
RANGO O RECORRIDO DE LA VARIABLE.-
RANGO INTERCUARTÍLICO.-
∑ ( xi - x)²
S²x =
n - 1
Si el denominador fuera n en lugar de (n – 1), se obtendría el
promedio de los cuadrados de las diferencias con respecto a la
media.- Si embargo, se utiliza (n – 1) debido a ciertas propiedades
matemáticas deseadas que tiene el estadístico S², lo cual lo hacen
muy apropiadas para hacer inferencias estadísticas.- A medida
que se aumenta el tamaño de la muestra, la diferencia entre n y (n
– 1) disminuye cada vez más.-
• La variancia como esta definida como un valor cuadrado nunca
puede ser negativa.-
• No tiene explicación por estar definida como un valor cuadrado y
nos da un resultado con unidad de medida al cuadrado.- Por ejemplo,
si estamos trabajando datos en $, la variancia nos va dar un
resultado en $², si trabajamos empleados nos dará empleados al
cuadrado, etc.-
• Será igual a cero cuando no exista diferencia entre los datos, es
decir, todas las observaciones en la muestra deberían ser
exactamente iguales.-
En este improbable caso, el rango y rango intercuartílico también
sería igual a cero.-
Los datos numéricos por naturaleza, son variables no constantes.-
Cualquier fenómeno aleatorio de interés puede adquirir una amplia
variedad de valores.- Entonces, la importancia de estudiar, no solo
las medidas de tendencia central que resumen nuestros datos, sino
también las medidas de variación que reflejan la dispersión de los
datos numéricos, se debe a esa variación intrínseca de los datos.-
Como su calculo es bastante complicado,
surge la llamada Formula de Calculo de la
Variancia, que abrevia mucho el calculo de
la misma.-
∑ x² - n x²
S²x = para datos sin agrupar
n - 1
∑ x² fi - n x²
S²x = para datos agrupados
n - 1
Esta fórmula será para datos agrupados sin y con
intervalos.- La diferencia se da en el valor de las
observaciones xi, ya que en datos agrupados sin
intervalo serán los datos originales, y en datos
agrupados con intervalos serán los puntos
medios de los intervalos.-
Como dijimos, la variancia me da un resultado en
unidades de medida de la variable al cuadrado,
entonces aparece otra medida que llamamos
Desvío Estándar.-
DESVIACION ESTANDAR
sx = variancia
0 2 5 1 5 1 5
2 4 9 3 27 9 81
4 6 14 5 70 25 350
6 8 20 7 140 49 980
8 10 2 9 18 81 162
50 226
5 puntos = -------- = 4,61 ptos²
49
∑ ( xi - μ)²
σ²x =
N
S
CVx = -------- * 100
x
Cuando comparamos dos distribuciones de
datos en diferentes unidades de medida, y
queremos saber cual es más homogénea
en sus datos referentes a su media, no
tenemos más opción que comparar los CV,
a menor CV más homogéneos son los
datos.- Por ejemplo, si tenemos una
distribución donde estudiamos sueldos de
la empresa y en la otra la antigüedad en la
empresa de esos mismos empleados, y nos
preguntamos en que son más homogéneos
esos empleados, en sueldos o en
antigüedad.-
Cuando comparamos dos distribuciones de
datos en igual unidad de medida podemos
preguntarnos en cual distribución son más
homogéneos los datos respecto a su media.- En
este caso podemos comparar los desvíos
estándar solo si las medias son iguales, y el
menor desvío estándar más homogéneos son
los datos.-
Comercio A Comercio B
10.5 8.9 9.6 7.9 10.6 8.4
10.1 9.3 9.1 8.2 10.1 9.2
10.0 9.7 11.2 9.1 8.5 10.7
11.0 10.4 10.5 9.3 7.5 9.8
9.8 10.0 9.9 8.8 9.3 9.5
Eje de simetría
Variable
X = Me = Mo
A medida que la distribución se hace más asimétrica
hacia uno u otro lado (derecha e izquierda), las medidas
de tendencia central tienden a alejarse una de otra,
siendo la media por estar afectada por los valores
extremos la que más se desplaza hacia la cola de la
distribución.-
X Me Mo Mo Me X
X - Mo 3(X - Me)
CAP = o CAP =
s s
Comentarios
• La magnitud absoluta del coeficiente indica la
“cantidad de desvío estándar” a los que se encuentra
la media del modo.-
• Se lo puede expresar en porcentaje, multiplicando
por cien el resultado de la expresión anterior.-
• Si el coeficiente es igual a cero, estamos en una
situación de simetría perfecta.-
• En situaciones de asimetría el coeficiente puede
tomar una asimetría a derecha o a izquierda.-
Recordemos que una es positiva y la otra negativa.-
•En términos teóricos, este Coeficiente puede tomar
valores que varían entre - 3 y +3.-
ANALISIS
EXPLORATORIO DE
DATOS
3300
3200
3100
Sueldo
3000
2900
2800
2700
1obs 2obs 3obs
41 70 22
78 53 68
84 34 48
60 36 25
46 47 29
64 16 56 Suponga que tiene las tres
43 53 64
37 43 30
observaciones correspondientes a tres
50 29 57 meses diferentes de su empresa.-
57 83 32
24 42 39 Decide comparar la situación de su
78 48 39
51 57 50
empresa en los tres meses mediante
41 29 35 diagramas de caja y bigote.- Resulta el
56 64 36 diagrama siguiente:
46 41 16
99 86 98
71 54 39
41 2 53
41 39 36
22 40 46
62 70 46
64 52 57
44 38 60
41 63 62
Boxplot of 1obs; 2obs; 3obs
100
80
60
Data
40
20
0
1obs 2obs 3obs
VEAMOS OTRO EJEMPLO.-
90
80
Data
70
60
50
40
1º 2º 3º
La figura anterior contiene los diagramas de caja
de las puntuaciones de cada uno de estos tres
grupos.- En este ejemplo concreto, puede
apreciarse que no hay observaciones
excesivamente atípicas en ninguno de los tres
grupos.- Por eso, los bigotes de las cajas
corresponden a la menor y mayor puntuación de
cada grupo.- En el diagrama se observa que los
estudiantes de Contador consiguieron la mejor
mediana, pero sus puntuaciones tienen una
variabilidad considerablemente mayor que la de
los otros grupos.- Otro hecho que llama la
atención es la gran cantidad de puntuaciones
bajas obtenidas por los estudiantes de
Economía.-
EJERCICIO DE
MEDIDAS DESCRIPTIVA
Y
DIAGRAMA DE CAJA
CON INFOSTAT
Supongamos tener el Rendimiento anual, de una muestra de 50
fondos mutuos que se tomaron de 6858 fondos mutuos que se
publicaron en una Revista Económico Financiera en febrero del
2006.- Para cada fondo el rendimiento anual se da como porcentaje,
los valores fueron:
0,5 1,1 2,0 3,6 1,9 2,6 1,3 3,2 2,4 1,5
1,8 1,6 3,8 2,4 2,3 3,1 3,0 2,4 2,8 0,7
4,0 2,3 3,0 0,8 1,2 2,5 2,7 2,5 2,7 3,7
1,0 3,5 2,3 3,4 1,9 1,7 1,2 1,9 4,5 1,8
2,0 2,2 1,8 1,4 2,3 5,0 1,5 3,1 2,1 1,7
C:\ Archivos de programa\ InfoStat\datos\Rendimientos fondos
(pier).IDB: 22/03/2006 - 6:41:08
Estadística descriptiva
Resumen Columna1
n 50,00
Media 2,31
D.E. 0,98
Var(n-1) 0,95
CV 42,22
Mín 0,50
Máx 5,00
Mediana 2,30
Q1 1,70
Q3 3,00
Asimetría 0,53
Kurtosis 0,21
P(90) 3,60
5,2
Rendimiento anual en %
4,0
2,8
1,5
0,3
4
Rendimiento anual en %
0
EJEMPLOS PARA RESOLVER EN CLASE
4,8 5,2 7,6 5,7 6,2 6,6 7,5 8,0 9,0 7,7
3,7 7,3 6,7 7,7 8,2 9,2 8,3 7,3 8,2 6,5
5,4 9,3 10,0 7,3 8,2 9,7 8,4 4,7 7,4 8,3
a) Calcule y explique la media y desviación estándar.-
b) De acuerdo con el Teorema de Chebycheff, por lo menos
¿Cuántas relaciones precios ganancias están dentro de dos
desviaciones estándar de la media?.-
c) ¿Cuántas están realmente a dos desviaciones estándar de la
media?.-
Resp. a) 7,3367 1,5464 b) 22,5 c) 29
MEDIDAS DE LAS
RELACIONES
ENTRE
VARIABLES
Cuando hemos hablados de los distintos gráficos para
mostrar los datos, hemos hecho referencia al diagrama
de dispersión como grafico para mostrar las relaciones
entre variables.- Ahora introduciremos la covariancia y
la correlación, que permiten describir numéricamente
una relación lineal y que después en la Unidad de
Regresión lineal simple y Correlación nos dedicaremos
en detalle.-
│r│ = 2
Veamos un ejemplo de
diagrama
de dispersión y su Coeficiente
de correlación.
EJERCICIO PARA DISCUTIR EN CLASE
SOLUCION
Scatterplot of nº de mesas vs nº de trabajadores
60
50
nº de mesas
40
30
20
10 15 20 25 30
nº de trabajadores
La planilla de calculo para calcula la Covarianza y el
Coeficiente de correlación será:
x y Xi - x (xi - x)² (yi - y) (yi - y)² (xi - X) (yi- Y)
12 20 - 9,3 86,49 - 21,2 449,44 197,16
30 60 8,7 75,69 18,8 353,44 163,56
15 27 - 6,3 39,69 - 14,2 201,64 89,46
24 50 2,7 7,29 8,8 77,44 23,76
14 21 - 7,3 53,29 - 20,2 408,04 147,46
18 30 - 3,3 10,89 - 11,2 125,44 36,96
28 61 6,7 44,89 19,8 392,04 132,66
26 54 4,7 22,09 12,8 163,84 60,16
19 32 - 2,3 5,29 - 9,2 84,64 21,16
27 57 5,7 32,49 15,8 249,64 90,06
213 412 -------- 378,1 -------- 2505,6 962,4
Aplicando la ecuación de la covarianza tenemos:
(xi – x) (yi - y)
Cov (x,y) = Sxy = =
n-1
962,4
= 9
= 106,93