Documente Academic
Documente Profesional
Documente Cultură
ESTADÍSTICA EMPRESARIAL I
PARTE I: ESTADÍSTICA DESCRIPTIVA
ÍNDICE
PRIMERA PARTE:ESTADÍSTICA DESCRIPTIVA
Tema 1. Introducción 4
1.1. Definiciones previas 5
1.2. Objetivo de la Estadística Descriptiva 7
1.3. Variables: Definición y tipos 9
1.4. Datos: Definición y tipos 17
1.5. Propiedades típicas de los datos 23
1.6.Transformaciones de los datos 29
Tema 2. Descripción estadística de una variable 41
2.1.La representación de los datos: Distribución de frecuencias 42
2.2.Representaciones gráficas 51
2.3. Resumen de la información: medidas características de una distribución 59
2.3.1.Medidas de posición. 60
2.3.2. Medidas de dispersión. 93
2.3.3. Medidas de forma. 120
ÍNDICE
PRIMERA PARTE:ESTADÍSTICA DESCRIPTIVA
LECTURAS RECOMENDADAS:
•“Estadística para administración y economía” Newbold P. CAPÍTULO 1 Y CAPÍTULO 2:
APARTADO 2.1.
•“Fundamentos de Estadística” Peña D.CAPÍTULO 1.INTRODUCCIÓN.
1. INTRODUCCIÓN
1.1.Definiciones previas
INDIVIDUO: Elemento básico de una población con una serie de características cuyo
estudio interesa.
POBLACIÓN:Conjunto formado por TODOS los individuos que comparten las
características que se quieren estudiar.
MUESTRA : Subconjunto de la población
Ejemplos
Ejemplo # 2:
ESTADÍSTICA ESTADÍSTICA
INFERENCIAL
DESCRIPTIVA
La estadística descriptiva esta formada por los métodos gráficos y numéricos que se
utilizan para resumir y procesar los datos y transformarlos en información.
La estadística inferencial constituye la base para hacer predicciones sobre la población
a partir de la información muestral.
Deterministas
Primera
clasificación
Aleatorias
Tipos de
variables Cualitativas
Segunda o categóricas
Continuas
clasificación
Cuantitativas
o numéricas
Discretas
Variable determinista : Aquella cuyo valor puede preverse con total certeza, antes de la
extracción del individuo
Variable aleatoria: Aquella cuyo valor no puede preverse con total certeza, antes de que
se produzca la extracción del individuo
Variable cuantitativa o numérica: Aquella cuyos resultados posibles son números. Las
variables cuantitativas se clasifican a su vez en continuas o discretas.
Ejemplo #1:
Población: Alumnos del CES Cardenal Cisneros de 1º curso del Grado de ADE. Se agrupa a
todas las alumnas en al clase A y a los alumnos en la clase B. Se hacen 10 extracciones,
una de cada clase, empezando por la clase A(las extracciones se realizan al azar).La
variable sexo en este contexto es perfectamente previsible, dado que las extracciones
pares corresponden a la clase B(chicos) y las impares a la clase A(chicas).Antes de que se
produzca la extracción, se conoce el sexo del individuo que será seleccionado.
Ejemplo #2:
Aunque no ha acabado 2013,se supone que los gastos en publicidad para esa empresa y
año ,ya han sido decididos por el CE0 y por tanto son conocidos antes de que se produzca
la extracción.
Ejemplo #1:
Si cada día laborable corresponde a una selección de sesión, hoy, no es posible prever, con
total certeza, la cotización del Banco Santander para la sesión de mañana.
Ejemplo #2:
Población: Años para los que se ha medido el PIB español + Años por los que se medirá
en el futuro(no se conoce el final)
Variable: Valor del PIB
Antes de que acabe el año(momento de la extracción) no es posible saber, con total
certeza, qué valor tomará la variable.
•Variables discretas:
Sólo pueden tomar valores en el conjunto de los números enteros.
Ejemplo#1: número de hijos, número de goles..
También serían discretas aquellas que tomando valores reales, solo lo pudieran hacer
dentro de un conjunto finito o infinito numerable.
Ejemplo# 2: 1,5;2,5;3,5
•Variables continuas:
Pueden tomar cualquier valor en un intervalo de la recta real.
Ejemplos : Salario de una persona, PIB…
Ejemplo #1 :
Variable
VARIABLE RAZA (Color de la piel) ficticia
Como alternativa, es posible convertir una variable categórica como la raza, en 4 variables
ficticias, tantas como categorías tenga la variable original , así:
Ejemplo #2 :
V1Sería una variable que toma el valor “1” si la persona es blanca y “0” en otro caso.
V2 Sería una variable que toma el valor “1” si la persona es negra y “0” en otro caso.
V3 Sería una variable que toma el valor “1” si la persona es amarilla y “0” en otro caso.
V4 Sería una variable que toma el valor “1” si la persona pertenece al grupo de otras
razas y “0” en otro caso.
DATOS (poblacionales y/o muestrales): Así llamaremos a los valores que de cada
característica de interés se han recogido de los individuos encuestados.
VARIABLE DATO
Los datos de panel son una combinación de los dos anteriores. Se observan las
características de “N” individuos a lo largo de “T” periodos.
ENCUESTA
19
ESTADÍSTICA EMPRESARIAL I –ESTADÍSTICA DESCRIPTIVA 19
EJEMPLOS
Datos de Series Temporales
España
20
ESTADÍSTICA EMPRESARIAL I –ESTADÍSTICA DESCRIPTIVA 20
EJEMPLOS
Datos de Panel
N Países
21
ESTADÍSTICA EMPRESARIAL I –ESTADÍSTICA DESCRIPTIVA 21
1. INTRODUCCIÓN
1.4. Datos: Bases de datos
Los datos de series temporales pueden presentar una o varias de las siguientes
características que se enumeran a continuación:
•Tendencia (determinística versus estocástica)
•Estacionalidad (determinística versus estocástica)
•Autocorrelación (dependencia del pasado)
oAutocorrelación de carácter no estacionario
oAutocorrelación de carácter estacionario
oAutocorrelación de carácter regular
oAutocorrelación de carácter estacional
•Heterocedasticidad (varianza no constante)
•Valores extremos(valores atípicos)
Los datos de sección cruzada suelen presentar heterocedasticidad y valores extremos.
Por su parte, las características típicas de los datos de panel están formadas por la unión
de las características de los datos de series temporales y de los datos de sección cruzada.
Tendencia:
700000
600000 Yt
500000
400000
300000
200000
100000
0
1993
1996
2000
2003
2004
2007
1991
1992
1994
1995
1998
1999
2001
2002
2005
2006
2008
CONSUMO
Series no estacionarias
24
ESTADÍSTICA EMPRESARIAL I –ESTADÍSTICA DESCRIPTIVA 24
EJEMPLOS
Propiedades típicas de los datos de Series Temporales
Estacionalidad no estacionaria:
120
100
80
60
40
20
0
2000M01
2000M06
2002M12
2003M05
2003M10
2006M04
2006M09
2007M02
2000M11
2001M04
2001M09
2002M02
2002M07
2004M03
2004M08
2005M01
2005M06
2005M11
2007M07
2007M12
2008M05
2008M10
Se observa como todos los años en los Se observa como la temperatura media
meses de agosto el IPI cae. en el mismo mes de distintos años es
aproximadamente constante.
Son fáciles de apreciar en un gráfico, pero es difícil distinguirlas sólo a partir de un gráfico.
Para su detección y modelización serán necesarios instrumentos más sofisticados.
26
ESTADÍSTICA EMPRESARIAL I –ESTADÍSTICA DESCRIPTIVA 26
EJEMPLOS
Propiedades típicas de los datos de Series Temporales
Heterocedasticidad:
Rendimiento porcentual diario del IBEX35: Serie mensual del número de pasajeros
de líneas aéreas:
Tramo de Tramo de
variabilidad variabilidad La variabilidad crece con el nivel
grande pequeña
de la serie:
27
ESTADÍSTICA EMPRESARIAL I –ESTADÍSTICA DESCRIPTIVA 27
EJEMPLOS
Propiedades típicas de los datos de Series Temporales
Valores extremos:
Yt
Valor atípico en t*
t
Son datos inusualmente grandes (en valor absoluto) en comparación con el resto de la
serie temporal.
1. Generales:
Cambio de origen:
Cambio de escala:
TRANSFORMACIÓN
LOGARÍTIMICA
SERIES TEMPORALES
zt
zt f yt ln yt
Yt serie original
Y t-1 serie retardada 1 periodo Byt yt 1
Yt-2 serie retardada 2 periodos B 2 yt yt 2
…
Yt-s serie retardada s periodos B s yt yt s
34
ESTADÍSTICA EMPRESARIAL I –ESTADÍSTICA DESCRIPTIVA 34
1. INTRODUCCIÓN
1.4. Transformaciones en los datos de series temporales: Diferencia regular
aplicado sobre una serie temporal Yt, induce estacionariedad en series sin componente
estacional( se utiliza para eliminar la tendencia de la serie).
2 yt 1 B yt 1 B yt
2
•Para d = 2 (dos diferencias regulares):
(1 2 B B 2 ) yt yt 2 yt 1 yt 2
EJEMPLO
35
ESTADÍSTICA EMPRESARIAL I –ESTADÍSTICA DESCRIPTIVA 35
EJEMPLO
Transformaciones en los datos de series temporales: Diferencia regular
Tabla primera diferencia regular
ln yt ln yt 1 ln yt
Mes
Enero/1.945 2.6368 – –
Febrero/1.945 2.6836 2.6368 0.0468
Marzo/1.945 2.6771 2.6836 –0.0065
Abril/1945 2.6649 2.6771 –0.0122
36
ESTADÍSTICA EMPRESARIAL I –ESTADÍSTICA DESCRIPTIVA 36
1. INTRODUCCIÓN
1.4. Transformaciones en los datos de series temporales: Diferencia estacional
NOTA: Muchas series mensuales necesitan que se les aplique una diferencia regular y otra
estacional para convertirlas en estacionarias:
12 yt 1 B 1 B12 yt (1 B B12 B13 ) yt yt yt 1 yt 12 yt 13
37
ESTADÍSTICA EMPRESARIAL I –ESTADÍSTICA DESCRIPTIVA 37
EJEMPLO
Transformaciones en los datos de series temporales: Diferencia estacional
t t para t pequeño
LECTURAS RECOMENDADAS:
•“Estadística para administración y economía” Newbold P.
CAPÍTULO 2 Y 3:DESCRIPCIÓN GRÁFICA Y NUMÉRICA DE UNA VARIABLE.
•“Fundamentos de Estadística” Peña D.CAPÍTULO 2.LA DESCRIPCIÓN DE UNA VARIABLE.
2. DESCRIPCIÓN ESTADÍSTICA DE UNA VARIABLE
2.1. La representación de los datos: Distribución de frecuencias
Una distribución de frecuencias es una lista o una tabla utilizada para organizar los datos,
que contiene agrupaciones de clases(valores numéricos, valores no numéricos o
categorías, intervalos de valores numéricos) junto con las correspondientes frecuencias.
Frecuencias:
Frecuencia relativa de un valor xi es la proporción de individuos para los que la variable toma
un valor determinado .Se representa por hi
Frecuencia absoluta acumulada: Nos dice el número de datos que hay igual al considerado
e inferiores a él. Su símbolo es: N i
Frecuencia relativa acumulada: Proporción de individuos que presentan una modalidad igual
o inferior a la considerada. Su símbolo es: H i
TABLA
n
N ni
DISTRIBUCIÓN
Frecuencia total o total de datos: FRECUENCIAS
i 1
EJEMPLO
… … … … …
xr nk hk Nk=N Hk=1
TOTAL N 1
Ejemplo #1:
Investigados los precios por habitación de 50 hoteles de una ciudad española, se han
obtenido los siguientes resultados en euros:
70 30 50 40 50 70 40 75 80 50
50 75 30 70 100 150 50 75 120 80
40 50 30 50 100 30 40 50 70 50
30 40 70 40 70 50 40 70 100 75
70 80 75 70 75 80 70 70 120 80
En primer lugar hay que hay que proceder a la ordenación de la información, haciendo
recuento de las veces que se repite cada precio, obteniendo así la tabla estadística de la
distribución de precios agrupados por frecuencias absolutas. Para obtener el resto de
frecuencias basta con aplicar las fórmulas de las mismas:
xi ni hi ni N N i i 1 ni H i i 1 hi
k k
30 5 0,1 5 0,1
40 7 0,14 12 0,24
50 10 0,2 22 0,44
70 11 0,22 33 0,66
75 6 0,12 39 0,78
80 5 0,1 44 0,88
100 3 0,06 47 0,94
120 2 0,04 49 0,98
150 1 0,02 50 1
N=50 1
Agrupación en intervalos :
Para variables continuas o para variables discretas cuando hay un número elevado de
datos. En estos casos, para reducir información hay que agrupar los datos en intervalos o
clases.(Desventajas: se pierde información ya que no trabajamos con los datos sino con
un intervalo y su marca de clase)
Como representante de cada intervalo
Conjunto de los intervalos o clases elegimos su punto medio
ordenados de menor a mayor,
(Li-1, Li; ni).
Donde Li es el extremo superior ANEXO
del intervalo y Li-1 su extremo
inferior.
*Siguiendo la nomenclatura
estándar : [Li-1,Li)
EXHAUSTIVOS EXCLUYENTES
Ejemplo #1(continuación)
Investigados los precios por habitación de 50 hoteles de una ciudad española, se han
obtenido los siguientes resultados en euros:
70 30 50 40 50 70 40 75 80 50
50 75 30 70 100 150 50 75 120 80
40 50 30 50 100 30 40 50 70 50
30 40 70 40 70 50 40 70 100 75
70 80 75 70 75 80 70 70 120 80
b) Con los mismos datos, se pide:
Agruparlos en cinco intervalos de igual amplitud y construir las distribuciones de
frecuencias absolutas y relativas.
.
Para construir cinco intervalos de igual amplitud, debemos decidir, precisamente, qué
amplitud debe tener cada intervalo. Una regla sencilla es aplicar el siguiente criterio:
Rango Xmax Xmin 150 30
ai 24
número de intervalos número de intervalos 5
Li 1 , Li ni hi ni N N i i 1 ni
k
H i i 1 hi
k
Una vez obtenida la distribución de frecuencias de los datos, se pueden realizar las
siguientes representaciones gráficas:
VARIABLES VARIABLES
CUALITATIVAS CUANTITATIVAS
DISCRETAS
Diagrama de
sectores • Diagrama de
barras curva de
acumulación
CONTINUAS
Diagrama de
barras • Histograma
Diagrama de sectores:
Es un gráfico empleado fundamentalmente para variables cualitativas.
Las modalidades se representan en un círculo dividido en sectores.
La amplitud de cada sector, en grados, se obtiene multiplicando la frecuencia
relativa de cada modalidad o valor por 360º.
azul
37% 33% EJEMPLO
verde
marron
negro
22% 8%
UCI
4%
Maternidad
6%
0 Ejemplo
30 40 50 70 75 80 100 120 150
Precio hoteles ( xi )
Castilla y León
Murcia
Baleares
Navarra
País Vasco
Rioja, La
Ceuta
Andalucía
Aragón
Castilla - La Mancha
Galicia
C.Valenciana
Cataluña
Asturias
Canarias
Extremadura
Madrid
Cantabria
Cataluña 885,1
Melilla
C.Valenciana 700,2
Extremadura 173,6
Galicia 277,4
Madrid 665,3
Murcia 216,6
Navarra 52,6
País Vasco 162,8
Rioja, La 28
Ceuta 12,6
Melilla 9,1
Histograma:
Si las amplitudes de los intervalos son desiguales, las alturas de los rectángulos
vienen dadas por sus densidades “di ” :
Densidad
n de
di i
ai
frecuencias
ni
Por tanto, el área del rectángulo será: área ai ni Ejemplo
ai
Frecuencia
Histograma: Temperatura
Intervalos máxima diaria
absoluta 8
[10 -20) 3
[20 -30) 6
[30 -40) 5 6
[40 -50) 4 Frecuencia
[50-60 ) 2
4
Medidas características de
Conjunto ”medidas resumen” de la
una distribución
distribución frecuencias.
Medidas de posición:
Media
aritmética
Media
Media
geométrica
De tendencia Media
Mediana
central armónica
Medidas de
Moda
posición
De tendencia
Cuantiles
no central
Tendencia central
x i
x i1
n
Punto medio de Valor más
Media los valores frecuente
aritmética ordenados
TEMA 1 TEMA 2 TEMA 3
Valores de la Frecuencias
variable(xi) absolutas(ni)
x1 n1
x2 n2 n
…. …
n
i 1
i N
xn nn EJEMPLOS
xn i i n
X i 1
xi hi
N i 1 NOTA
2) Tabla de frecuencias: xi ni n
ni
Si llamamos wi entonces:
N n
n n
n n n n i
N
X xi wi y wi 1 2 ... n i 1
1
i 1 i 1 N N N N N
EJEMPLO
a las wi se les denomina ponderaciones
n
Se llama Media aritmética ponderada a la expresión: X p xi wi ,donde wi son “n”
n i 1
Ejemplo #1:
Un estudiante ha realizado dos exámenes. El primero cuenta un 25% y el segundo un 75%
de la nota final. Ambos se califican sobre 10 puntos. En el primero obtuvo un 10 y en el
segundo un 4,su nota media ponderada será de:
n
X p xi wi 10 0.25 4 0.75 2,5 3 5,5
i 1
Se utiliza para obtener la media de una variable en la que los valores de la misma no
tienen la misma importancia o significación. Cada valor de la variable se multiplica por
su respectivo peso o ponderación(wi),que refleja la importancia de ese valor.
( x x )n
i 1
i i 0
Propiedad 2 :
La media del cuadrado de las desviaciones de xi respecto a k, se hace mínima cuando k x
n
ni
( xi k )2
i 1 N
es mínima si k x
Propiedad 3:
La media aritmética de una variable queda afectada por cambios de origen y cambios de
base.
Propiedad 4:
Si se divide la distribución en L subconjuntos disjuntos, la media aritmética de la
distribución puede calcularse como media ponderada de las medias de estos
subconjuntos.
n n n
( x x )n x n x n
i 1
i i
i 1
i i
i 1
i Nx xN 0
n
Nx n
i 1
i N
xn i i n
Si x i 1
Nx xi ni
N i 1
n n 2
2 ni ni
( xi k ) ( xi x ) (k x )
i 1 N i 1 N
n
ni
( xi x ) 2 (k x ) 2 2( xi x )(k x )
i 1 N
n n n
ni ni n
( xi x ) 2
(k x ) 2(k x ) ( xi x ) i
2
i 1 N i 1 N i 1 N
n
n
( xi x ) 2 i (k x ) 2 Si k x entonces el segundo término se hará
i 1 N cero y por tanto, la expresión se hará
mínima.
Sea la variable xi, si a partir de ella se construye la variable Zi=a+bxi ,la variable Zi
tendrá una media aritmética que vendrá dada por:
z a bx
n n n n
ni ni ni n
z zi (a bxi ) a b xi i a bx
i 1 N i 1 N i 1 N i 1 N
1 x
La media aritmética queda afectada por cambios de origen en la variable. Si a todos los
valores de la variable les sumamos una constante k, la media queda aumentada en esa
constante.
La media aritmética queda afectada por cambios de escala(base) en la variable. Si a
todos los valores de la variable los multiplicamos por una constante k, la media
también queda multiplicada en esa constante.
Valores de la Frecuencias
variable(xi) absolutas(ni)
x1 n1
h h
ni
x2 n2 N1 ni x1 xi
i 1 i 1 N1
…. …
xh nh
Xh+1 nh+1 n n
ni
…. … N2 ni x2 x
i h 1
i
N2
i h 1
xn nn
h h
1 (x n )
( xi ni )
n
ni 1 h n i i
N1 x1 N 2 x2 N N
x xi ( xi ni ) ( xi ni ) N1 i 1 N2 i 1
x1 1 x2 2
i 1 N N i 1 i h 1 N N 1 N2 N N N
xi ni
1 30
2 50
4 20
5 30
Valor extremo que sólo 3000 1
ha aparecido una vez. N=131
Media geométrica:
Se define como:
1
n ni
xi
N
G N x x2 ...xn
1
n1 n2 nn
i 1 EJEMPLOS
1
ln(1) x10ln( 2) x 30ln(3) x 20
G 60 110 230320 e e 2, 04
60 0,713
Ejemplo # 2:
Un inversor mantiene un capital de 100 millones de euros, durante 5 años, invertido en un
depósito a plazo fijo(con reinversión de intereses) que le ha rentado un 3% durante el
primer año, un 2% durante el segundo año, un 5% durante el tercero, un 6% durante el
cuarto año y un 10% durante el quinto año. Calcule el tipo de interés medio anual.
SOLUCIÓN
Media armónica:
EJEMPLO 1
Solución: Velocidad=espacio/tiempo
20km
Tiempo del primer recorrido: t1 0,5h
40km / h
velocidad t1 t2 t3
espacio
Calcular la producción media por hectárea de una explotación que consta de 3 fincas. En la
primera se han producido 200 toneladas de plátanos, en la 2º 200 y en la tercera 50.La
producción media por hectárea de esas fincas es 10 tm/h,15 tm/h,20 tm/h.
Mediana:
Es el valor de la variable que deja a ambos lados el 50% de los datos (el 50% son mayores que
la mediana y el otro 50% menores).
III)
N
xi ni Ni Aquel valor de la distribución cuya frecuencia acumulada es
1 15 15 N 2
21
N 42 2
2 8 23 21 Med 2
2 2
3 19 42 111….1|222222..2|33…..3
N=42 15”1” 8”2” 19”3”
22
2
par 2
N
Ni 1
Me Li 1 ai 2 Ejemplo
ni
ni
Li-1-Li ni Ni ai ai
20-40 35 35 20 1,75
40-50 12 47 10 1,20
Intervalo N
50-100 23 70 50 50 0,46
mediano 100-200 30 100 2
100 0,30
100
Mediana: Será el valor que ocupe el lugar N/2=50.Al ser la frecuencia acumulada del tercer
Intervalo 70,el valor que ocupa el lugar 50 se encontrará en este intervalo:50-100
Una vez detectado el intervalo mediano sabemos que :
N
Ni 1
50 47
Me Li 1 ai 2 50 50 56,52
ni 23
NOTA
Ni
ni
100
ai
2
B´
N B
1 50
2 C´
A C
20 40 50 100 200
m
20 40 50 Me 100 200
Límite inferior
intervalo mediano
Límite inferior Límite superior
Me Li 1 m Li 1 AC
intervalo
mediano
intervalo
mediano
intervalo
mediano
N N Li 1
AC BC BC
Li Li 1 2
i 1 Li
pero = AC AC
AC BC BC Ni Ni 1
Amplitud intervalo
mediano
ai
N N N N
Me Li 1 Li Li 1 2 i 1 i 1
Li 1 ai 2
Ni N i 1 ni
50 47 Frecuencia intervalo
Me 50 (100 50) 50 6,52 56,52 mediano
70 47
ni
las frecuencias que hacen falta para llegar a N desde las Ni 1 del intervalo justamente
2
anterior.
Moda:
Es el valor más frecuente de la distribución(aquel valor de la distribución que más se repite)
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6
Moda:
1)El intervalo modal será aquel 1)El intervalo modal: será aquel
intervalo de mayor frecuencia y intervalo con mayor densidad de
la moda será uno de los valores frecuencias:
contenidos en el mismo ni
di
ai
FUTBOLISTAS ADMINISTRATIVOS
Salario(euros) Nº personas Salario(euros) Nº Personas
0-10.000 20 0-600 50
10.000-20.000 40 600-1200 10
20.000-30.000 32 1200-3000 2
Al estar agrupados los datos de los salarios en intervalos en primer lugar es necesario
distinguir si todos los intervalos tienen la misma amplitud:
El intervalo modal será aquel intervalo de El intervalo modal será aquel intervalo con
mayor frecuencia y la moda será uno de los mayor densidad de frecuencias y la moda será
valores contenidos en el mismo uno de los valores del mismo.
Intervalo modal:0-600
Intervalo modal:10000-20000
di 1
ni 1 Moda: Mo Li 1 ai
Moda: Mo Li 1 ai di 1 di 1
ni 1 ni 1
0, 0167
10000 10000
32
16153,85 euros 0 600 600 euros
20 32 0 0, 0167
Son valores de la distribución que la dividen en partes iguales, en intervalos que comprenden
el mismo número de valores (no reflejan ninguna tendencia central)
Cuartiles
Cuantiles
Percentiles
Deciles
Cuartiles
Son tres valores de la distribución que la dividen en cuatro partes iguales, es decir, son 4
intervalos dentro de cada cual están incluidos el 25% de las observaciones.
Q1 Q 2 Me Q3
4 4 4
i)DATOS SIN AGRUPAR: Se calculan previamente las frecuencias absolutas acumuladas, y
después se busca el valor que ocupe el lugar correspondiente:
N
Q 1 Valor que ocupa el lugar
4 4
2N N
Q 2 Me Valor que ocupa el lugar
4 4 2
3N
Q 3 Valor que ocupa el lugar
4 4
Ejemplo
rN
Ni 1
Qr Li 1 ai k
k ni
La distribución de los salarios mensuales del colectivo de los funcionarios y los futbolistas
es la siguiente:
ADMINISTRATIVOS FUTBOLISTAS
Salario(euros) Nº Personas Salario(euros) Nº personas
0-600 50 0-10.000 20
600-1200 10 10.000-20.000 40
1200-3000 2 20.000-30.000 32
1.Calcule el salario mínimo del 25% de los administrativos con mayores ingresos.
2. Si clasificamos a un equipo de fútbol en el grupo que se encuentra el 30% de menores
ingresos, ¿cuál es el salario máximo que percibirían sin salir de ese grupo?
1.Calcule el salario mínimo del 25% de los administrativos con mayores ingresos
Si dividimos la distribución de los salarios en cuatro partes iguales, el salario mínimo que
podrían percibir los administrativos más ricos será el tercer cuartil:
rN 3 62
Será el valor que ocupe el lugar 46,5
4 4
Li 1 Li ni xi Ni
0-600 50 300 50
600-1200 10 900 60
1200-3000 2 2100 62
N=62
Al ser la frecuencia acumulada del primer intervalo 50 ,el valor que ocupa el lugar 46,5 se
encontrará en ese intervalo (0- 600).Una vez detectado el intervalo, sabemos que:
3N
Ni 1
46,5 0
Q3 Li 1 ai 4 0 600 558 euros
4 ni 50
rN 30 92
Será el valor que ocupe el lugar 27, 6
100 100
Li 1 Li ni xi Ni
0-10000 20 5000 20
10000-20000 40 15000 60
20000-30000 32 25000 92
N=92
Al ser la frecuencia acumulada del segundo intervalo 60 ,el valor que ocupa el lugar 27,6
se encontrará en ese intervalo : 10000-20000.Una vez detectado el intervalo, sabemos
que: 30 N
Ni 1
100 27, 6 20
P30 Li 1 ai 10000 100004 11900 euros
ni 50
Medidas de Medidas de
posición Medidas forma
de
dispersión
A la mayor o menor separación de los valores de la variable entre sí, o respecto a otro que
se pretende sea su síntesis, como por ejemplo la media, se le llama dispersión o
variabilidad.
Misma
media,distinta
variabilidad
EJEMPLO
La media será tanto más representativa cuanto más agrupados en torno a ella estén los
valores promediados.
MEDIDAS DE
DISPERSIÓN
Las medidas de dispersión más importantes son las que evalúan la representatividad de
la media Varianza y desviación típica
Rango o Recorrido:
Es la diferencia entre el mayor y el menor valor de una distribución
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Rango = 14 - 1 = 13
TEMA 1 TEMA 2 TEMA 3
Inconvenientes:
• Ignora la manera en que los datos están distribuidos:
7 8 9 10 11 12 7 8 9 10 11 12
Rango = 12 - 7 = 5 Rango = 12 - 7 = 5
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Rango = 5 - 1 = 4
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Rango intercuartílico:
Una manera de evitar el problema de los valores extremos es ordenar los datos en sentido
ascendente o descendente, descartar algunos de los números más altos y más bajos, y
hallar el rango del resto.
Rango Intercuartílico
Mide la dispersión que hay en el 50 % central de los datos. Es la diferencia entre el tercer y
primer cuartil:
RI= Q 3 Q 1
4 4
Nos indica que en un intervalo de longitud RI se encuentran el 50% de los valores centrales.
i 1 N
( xi x )2 es la distancia euclidea del punto xi a x , luego la varianza es la media aritmética de
las distancias.
x1 x2
La varianza en torno a x1 es MENOR que la varianza en torno a x2
n
ni
sx s 2
x ( xi x )2
i 1 N
Desviación típica:
n
ni
sx s 2
x ( xi x )2
i 1 N
Ventaja: Tiene las mismas unidades
de medida que la variable.
NOTA
EJEMPLO
Datos A
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 3.338
Datos B
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 0.926
Datos C
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 4.570
Empresas españolas:
xi ni xini xi2ni a)Rendimiento medio:
10 4 40 400 n
11 6 66 726
xn i i
232
x i
11, 6 miles de euros
12 6 72 864 N 20
13 2 26 338 b)Dispersión:
14 2 28 392 n
sx2 ( xi x )2
ni n
n
xi2 i x 2
2720
11, 62 1, 44 miles euros 2
N i 1 N 20
N=20 232 2720 i 1
68%
x
x 1S x
95% 99.7%
x 2Sx x 3S x
Un auditor observa que los valores de las cuentas pendientes de cobro de una empresa
tienen una media de 295 euros y una desviación típica de 63 euros.
a) Halle el intervalo en el que pueda garantizarse que se encuentra el 60 por ciento de
estos valores.
b) Halle un intervalo en el que pueda garantizarse que se encuentra el 84% de estos
valores.
1
Entre la media "k" veces la desviación típica x ksx ,están como mínimo el 100 1 2 % de los casos.
k
a)
1
x 295 100 1 2 60; k 2 2,5; k 1,58 En el intervalo de 195,46 a 394,54
k
S x 63 se encuentra el 60% de los datos.
295 1,58 63 295 99,54 195, 46;394,54
b)
1
x 295 100 1 2 84; k 2 6, 25; k 2,5 En el intervalo de 137,5 a 452,5
k
S x 63 se encuentra el 84% de los datos.
295 2,5 63 295 157,5 137,5; 452,5
Propiedades de la varianza:
Propiedad 1:
La varianza nunca puede ser negativa: sx2 0
Propiedad 2:
2
n
2 ni
n
2 ni n ni n
2 ni
sx ( xi x )
2
xi xi xi x2
i 1 N i 1 N i 1 N i 1 N
Propiedad 3:
Propiedad 4:
La varianza cambia al realizar un cambio de escala(kxi):Si a xi la multiplicamos por una
constante (xi*=kxi),entonces: s2 k 2s2
x* x
n n
ni n
m2 s ( xi x )
2
x xi2 i x 2 a2 a12
2
i 1 N i 1 N
Cálculo varianza
en la práctica.
n n
ni n
s ( xi x )
2
x ( xi2 x 2 2 xi x ) i
2
i 1 N i 1 N
n
n
n ni n
ni n
n
xi 2 i
x 2 i 1
2 x xi xi2 i x 2 2 x 2
i 1 N N i 1 N i 1 N
n
2 ni
xi x 2 a2 a12
i 1 N
Distribución de frecuencias ( xi , ni )
n n
n ni
x xi i s xi x
2 2
y x
i 1 N i 1 N
Consideremos la distribución ( xi* , ni ) xi* xi k
x* x k
2
s * x x
n n n
ni ni 2 n
2
x
*
i
* 2
( xi k ) ( x k ) xi x i sx2
i 1 N i 1 N i 1 N
Distribución de frecuencias ( xi , ni )
n n
n ni
x xi i y s xi x
2 2
x
i 1 N i 1 N
Consideremos la distribución ( xi* , ni ) xi* kxi y x * kx
s * x x
n n n
ni 2 ni 2 n
2
x
*
i
* 2
(kxi kx ) k xi x i k 2 sx2
2
i 1 N i 1 N i 1 N
Inconveniente: En caso de que la media tome valor cero o próximo a cero, el coeficiente
tiende a infinito, lo cual nos hace tomar conclusiones estadísticamente erróneas.
• ACCIONES EMPRESA A:
– Precio medio último año= 50
– Desviación típica=5
s 5
VA 100% 100% 10%
Ambas acciones
x 50
tienen la misma
• ACCIONES EMPRESA B: desviación típica,
– Precio medio último año = 100 pero las acciones
– Desviación típica=5 de B son menos
volátiles en
relación a su
s 5 precio.
VB 100% 100% 5%
x 100
EJEMPLO
b)¿ En cuál de los dos países las empresas presentan un comportamiento más
homogéneo en cuanto a sus rendimientos?
De la comparación entre los coeficientes de variación resulta que las empresas españolas
(10,34%<13,32%)son más homogéneas que las norteamericanas.
Desviación media: n
ni
D xi P
i 1 N
P es un promedio(media,mediana...)
n
ni
Respecto a la mediana DMe xi Me
i 1 N
n
ni
Dx
Respecto a la media
aritmética xi x
i 1 N
Un valor D grande nos indicará una gran dispersión en la distribución, y por tanto el
promedio(mediana o media aritmética) no será representativo.
xi x
Tipificar una variable con media x y desviación típica s x ,consiste en calcular zi = .
sx
Expresar cada valor individual x i mediante su diferencia con la media y en términos de desviaciones típicas.
Esta nueva variable tiene media cero y varianza(desviación tipica) uno: z 0 y s z =1.
Permite representar en un nuevo gráfico varias variables sin preocuparse por la escala.
Nos sirve para comparar la POSICIÓN RELATIVA de un valor con el resto de los datos.
EJEMPLO
El volumen de ventas de la empresa de productos químicos ÁTOMO S.A en 2012 fue de 2,1
millones de euros, mientras que la media del sector fue de 1,9 millones de euros y la varianza
14.En el caso de la empresa VOLÁTIL S.A, las ventas fueron de 2,4 millones de euros, siendo la
media del sector 2,2 millones de euros y la varianza 15.¿Cuál de las dos empresas está mejor
situada en cuanto a su volumen de ventas?
Para comparar la posición relativa de un valor con el resto de los datos hay que tipificar
ÁTOMO S.A: sx 14 sx 14 3,74 millones euros z = xi x 2,1 1,9 0,053 dt.
2
A
x 1,9 sx 3,74
Las medidas de forma describen cómo están distribuidos los datos, la “forma” de su
distribución sin necesidad de su representación gráfica.
MEDIDAS DE
MEDIDAS DE APUNTAMIENTO
ASIMETRÍA
(CURTOSIS)
Medidas de asimetría
Las medidas de asimetría se dirigen a elaborar un indicador que permita establecer el grado
de simetría (asimetría) que presenta la distribución, sin necesidad de llevar a cabo su
representación gráfica.
El eje de simetría que suele utilizarse como referente principal es el valor de la media
aritmética. Si una distribución es simétrica, existe el mismo número de valores a la derecha
y a la izquierda de X (media) y por tanto, el mismo número de desviaciones con signo
positivo que con signo negativo.
1. Coeficiente de asimetría:
n
ni
m3 ( xi x )3
i 1 N
m3 0 m3 0 m3 0
Asimétrica positiva: Simétrica: Asimétrica negativa:
m3
g as 0
sx3 m3
g as 0
sx3
m3
La mayor parte de la distribución se g as 0 La mayor parte de la distribución se
encuentra a la izquierda de la media, sx3 encuentra a la derecha de la media, ya que
ya que predominan las desviaciones la suma de las desviaciones positivas será
negativas sobre las positivas. TEMA 2 mayor que la de desviaciones
TEMA 1 TEMA 3 negativas.
m4 3sx4
Coeficiente de m4 n
m4 ( xi x )4
ni
g ap 4 3 N
Curtosis: sx i 1
0 Distribución mesocúrtica(Normal)
g ap 0 Distribución leptocúrtica(más apuntada que la Normal)
0 Distribución platicúrtica(menos apuntada que la Normal)
NOTA
Distribución más apuntada que la normal Distribución menos apuntada que la normal
(LEPTOCÚRTICA): (PLATICÚRTICA):
m4 m4
g ap 4 3 0 g ap 4
3 0
sx sx EJEMPLO
Para lanzar un nuevo producto al mercado, una empresa estudia el tiempo de publicidad,
en segundos, empleado en los medios audiovisuales por otra empresa que tiene un
producto similar.
Duración Nº de
n n
ni ni
Li 1 Li anuncios xi (x x )
i
3
N
(x x )
i
4
N NOTA:
ni i 1 i 1
a)Coeficiente de asimetría:
n
Asimetría positiva
n m 776,87
m3 ( xi x )3 i 776,87 g as 33 3
0, 6453 (las desviaciones
i 1 N s x 10, 64 positivas tienen más
peso que las negativas)
b)Coeficiente de apuntamiento:
n
ni m 37269,57 Platicúrtica
m4 ( xi x )4 g ap 44 3 3 0, 092
i 1 N sx 10, 644 (distribución menos
apuntada que la normal)
-- n
ni
RESPECTO AL ORIGEN ar xir r 0,1, 2...
- i 1 N
n n
ni n N
a0 x i 1
0
i
i 1 N i 1 N N
n
n
a1 xi i x
i 1 N
n
ni
RESPECTO A LA MEDIA mr ( xi x )r r 0,1, 2...
(CENTRALES) i 1 N
m0 1; m1 0
m2 s 2
m3 Coeficiente de asimetría
Medidas de forma
m4 Analizar la curtosis
Todos los momentos respecto a la media se pueden expresar en función de los momentos
respecto al origen.
LECTURAS RECOMENDADAS:
•“Estadística para administración y economía” Newbold P. CAPÍTULO 2 : APARTADO 2.5 Y
CAPÍTULO 3:APARTADO 3.4.
•“Fundamentos de Estadística” Peña D.CAPÍTULO 3:DESCRIPCIÓN CONJUNTA DE VARIAS
VARIABLES.
3. DESCRIPCIÓN ESTADÍSTICA CONJUNTA DE DOS VARIABLES
3.1.Distribución de frecuencias bidimensional
Para cada individuo o elemento del conjunto de datos, queremos analizar dos
características: X,Y VARIABLE ESTADÍSTICA BIDIMENSIONAL.
Se puede estudiar cada valor por separado, pero el interés se centra en estudiar las posibles
RELACIONES o DEPENDENCIA entre ambas variables.
Y : y1, y2 ... ym
valores de la variable Y
y j j 1,2...m
Nº de individuos en
X : x1, x2 ...xk los datos para los que
valores de la variable X nij se presenta el valor xi
xi i 1,2..r
junto con el valor yj
Ejemplo
n
i 1
i. n. j nij N
j 1 i 1 j 1
Salario/hora
nij frecuencia absoluta
Xi\Yj 0-10 10-30 30 ó +
nij
(j=1) (j=2) (j=3) h ij frecuencia relativa
N
0-6 40 0 0 40
(i=1) (n11 ) (n12 ) (n13 )
Años educación
6-11 5 3 0 8
(i=2) (n21 ) (n22 ) (n23 )
11-16 3 7 5 15 3
n1 n2 n3 n4 N
n3 j n3
(i=3) (n31 ) (n32 ) (n33) 4
i
j 1
n N
16 ó + 2 20 15 37 3 i 1
(i=4) (n41 ) (n42 ) (n43 ) n
j 1
4j n4
50 30 20 100=N
4 4 n1 n 2 n 3 n 4 N
n i1 n 1 n
i 1
i3 n3
3
n j N
i 1
j 1
Distribución de cada variable por separado, con independencia de los valores que tome
la2.DISTRIBUCIÓN DE FRECUENCIAS
otra variable(estudio unidimensional MARGINALES
de cada variable)
Distribución marginal de X: Distribución marginal de Y:
Se obtiene de la distribución Se obtiene de la distribución
bidimensional bidimensional
Sólo nos fijamos en los valores de X Sólo nos fijamos en los valores de Y y
y en el número de veces que X toma cada en el número de veces que Y toma cada
valor con independencia de los de Y ni. valor con independencia de los de X n.j
X Y
xi ni. yi n.j
x2 n2. y1 n.1
… … Ejemplo
… …
xi ni. yj n.j
N N
N=100
EJEMPLO
Xi ni/y=10-30 Yj ni/x=6-11
0 -6 0 0 -10 5
6 -11 3 10-30 3
11 -16 7 30 ó + 0
16 o > 20 8
30
Diagrama de
dispersión
Coeficiente
de Covarianza
correlación
Diagrama de dispersión:
Covarianza:
Es una medida de la relación lineal entre dos variables (que resume la información
existente en un gráfico de dispersión).
r m nij 1 r m
Cov (x ,y) s xy ( xi x )( y j y ) x y n i j ij xy
i 1 j 1 N N i 1 j 1
Covarianza:
Es una medida de la relación lineal entre dos variables (que resume la información
existente en un gráfico de dispersión).
r m nij 1 r m
Cov (x ,y) s xy ( xi x )( y j y ) x y n i j ij xy
i 1 j 1 N N i 1 j 1
Coeficiente de Correlación:
1 rxy 1
-1 0 1
Coeficiente de Correlación:
1 rxy 1
-1 0 1
La tabla adjunta proporciona información sobre dos indicadores económicos para un grupo
de 10 países:
Se pide:
a) Estudiar la relación entre ambas variable mediante un diagrama de dispersión.
b) Calcular la covarianza entre las dos variables.
c) Calcular el coeficiente de correlación entre las dos variables.
b)La covarianza es una medida de dependencia lineal entre dos variables, que resume la
Información contenida en un gráfico de dispersión:
r m nij 1 r m
Cov (x ,y) s xy ( xi x )( y j y ) x y n i j ij xy
i 1 j 1 N N i 1 j 1
Al ser la covarianza negativa, podemos afirmar que existe una relación lineal negativa.
Sabemos el sentido de la relación pero no el grado, al no estar acotada la covarianza, por
lo tanto no se sabe cuando es Sxy suficientemente grande o pequeña. Además, la
covarianza depende de las unidades de medida, por lo que calculamos el coeficiente de
correlación lineal:
S xy 3,9748
rxy 0,9462
Sx S y 1, 41 12, 45
El coeficiente de correlación es negativo y muy próximo a -1,lo cual quiere decir que
existe una muy fuerte dependencia lineal entre las dos variables que estamos analizando
CÁLCULOS
RESPECTO AL ORIGEN
NÚMEROS ÍNDICE
LECTURAS RECOMENDADAS:
“Fundamentos de Estadística” Peña D.CAPÍTULO 3.7:Apéndice 3A:Números índice.
NÚMEROS ÍNDICE
1.CONCEPTO
Números índices:
Un número índice es una medida estadística que nos permite estudiar los cambios que
se producen en una magnitud simple(precio de un producto) o compleja(precio de una
bolsa de productos) con respecto al tiempo y/o al espacio. Es decir, vamos a comparar
dos situaciones, una de las cuales se considera de referencia.
Ejemplo: Podemos comparar el coste de vida en una ciudad con el habido en un periodo
anterior o bien el coste de vida en una ciudad vecina.
SIMPLES
NÚMEROS NO
INDICES PONDERADOS
COMPLEJOS
PONDERADOS
Para construir un número índice simple, It, se compara la magnitud en el periodo t con la
magnitud en un periodo de referencia o periodo base.
Xt
It 100
X0
Dada una serie temporal de cifras de ventas(en millones de euros) de unos grandes
almacenes , calcule el índice de ventas con base en 2006
Tomando 2006 como año base, tenemos que el valor del índice en 2007 es:
Ventas2007 14
I 2007 100 100 116, 67
Ventas2006 12
Proporciona de manera directa los crecimientos relativos de cada año respecto al año
base:
It 100
I t I t 1 I
100 t 1 100 EJEMPLO
I t 1 I t 1
Cambio de base.
I w i i
n n n
pit
I w i i
i 1 pio
pio qio p q it io
LP i 1
n
n
100 i 1
n
100
w
i 1
i p
i 1
q
io io p
i 1
q
io io EJEMPLO
n n n
qit
I w i i
i 1 qio
pio qio p q
io it
LP i 1
n
n
100 i 1
n
100
w
i 1
i p
i 1
q
io io p
i 1
q
io io
Un inconveniente del Índice de Laspeyres cuando analizamos periodos largos ,es que los
hábitos de consumo cambian mucho a lo largo del tiempo. Una solución es considerar la
cesta de cada año como en el índice de Paasche.
Es también una media aritmética ponderada de los índices simples, pero aquí el coeficiente
de ponderación es w p q
i io it
n
n pit n
I w i i
i 1 pio
pio qit p q it it
EJEMPLO
PP i 1
n
n
100 i 1
n
100
w
i 1
i p
i 1
q
io it p
i 1
io itq
El cálculo del Índice de Paasche es un poco más laborioso, ya que se tiene que calcular el
denominador(ponderaciones) cada año.
Determine los números índices de precios de Laspeyres y Paasche con base 2008.
n
Solución: p q it io
LP i 1
n
100
p
i 1
io ioq
08 100
Lp 08
2 10 6 12 11 3
08
Lp 09 100 113, 64
2 10 5 12 10 3
3 10 6 12 12 3
Lp10 100 125, 45
08
2 10 5 12 10 3
4 10 7 12 12 3
08
Lp11 100 145, 45
2 10
5 12
10 3
4 10 8 12 13 3
Lp 09 100 159, 09
08
2 10 5 12 10 3
p q it it
PP i 1
n
100
p
i 1
io itq
08 100
Pp 08
2 12 6 10 11 2
08
Pp 09 100 112, 77
2 12 5 10 10 2
3 15 6 5 12 3
Pp10 100 130,59
08
2 15 5 5 10 3
4 20 7 6 12 1
08
Pp11 100 167,5
2 20
5 6 10 1
4 18 8 5 13 2
Pp 09 100 170,37
08
2 18 5 5 10 2
El Índice de Precios de Consumo(IPC) tiene como objetivo medir la evolución del nivel de
precios de los bienes y servicios de consumo adquiridos por los hogares residentes en
España. Para calcular el IPC, el Instituto Nacional de Estadística(INE) hace una Encuesta
Continua de Presupuestos familiares (ECPF) sobre el consumo de aproximadamente 500
productos.
http://www.ine.es/jaxi/menu.do?type=pcaxis&path=%2Ft25/p138&file=inebase&L=0