Clase Analisis de Datos Pronosticos

ANALISIS DE
DATOS
PRONSTICOS
ANLISIS DE LOS DATOS
El anlisis de datos consiste en la realizacin de las
operaciones a las que el investigador someter los datos

con la finalidad de alcanzar los objetivos del estudio.
Todas estas operaciones no pueden definirse de antemano
de manera rgida. La recoleccin de datos y ciertos anlisis
preliminares pueden revelar problemas y dificultades que
desactualizarn la planificacin inicial del anlisis de los
datos.
Sin embargo es importante planificar los principales
aspectos del plan de anlisis en funcin de la verificacin
de cada una de las hiptesis formuladas ya que estas
definiciones condicionarn a su vez la fase de recoleccin
de datos.
ANLISIS DE LOS DATOS

Existen dos grandes familias de tcnicas de
anlisis de datos:
Tcnicas cualitativas: en las que los datos son

presentados de manera verbal (o grfica) - como
los textos de entrevistas, las notas, los
documentosTcnicas cuantitativas: en las que los datos se
presentan en forma numrica
Estas
dos
modalidades
son
especies
radicalmente diferentes y utilizan conocimientos y
tcnicas completamente diferenciadas.
ANLISIS CUALITATIVO
No existen reglas formales (al estilo de los
mtodos estadsticos) para la realizacin de

anlisis cualitativos. Sin embargo estos estudios
suelen realizarse en las siguientes cuatro etapas:
1. Preparacin y descripcin del material bruto
2. Reduccin de los datos
3. Eleccin y aplicacin de los mtodos de anlisis
4. Anlisis transversal de los casos estudiados (si
hubiera ms de uno)
1. Preparacin y descripcin del

material
bruto
Consiste en preparar la base documental completa y

fcilmente accesible
La informacin debe ser detectable (saber que existe)
ubicable (dnde se encuentra) y trazable (dnde y como
se obtuvo, cuales son sus fuentes). Existe software que
facilita algo esta tarea
La informacin suele ser voluminosa por lo que en
muchos casos se requiere bastante trabajo de
preparacin.
La prueba del xito de esta etapa sera que un
investigador ajeno a la investigacin pudiera ejecutar las
fases siguientes del anlisis de datos a partir de la base
documental
2. Reduccin de los datos

Se intenta reducir el volumen de los datos, despejando los componentes (las variables)
de inters para la investigacin.(puede ser slo enumerativo como en el anlisis de

contenidos o ms complejo como en el anlisis semitico)
Existen tres formas de realizar la reduccin de datos:
1. La redaccin de resmenes: reduce la masa de informacin pero no utiliza
mtodos muy especficos (no es replicable por otros investigadores). En el resumen
se procura identificar los conceptos relevantes y cmo stos se relacionan entre s.
2. La codificacin: es el modo ms desarrollado de reduccin de datos. Consiste en
atribuir categoras o conceptos a porciones del material bien circunscriptas y que
presentan una alta unidad conceptual. Un buen sistema de codificacin debe ser.
Inclusivo: exhaustivo (abarcar todas las posibilidades) y permitir que cada elemento tenga tantos
cdigos como sea necesario para la investigacin
Adaptativo: debe permitir generar nuevos cdigos cuando la investigacin lo requiera

Abarcar varios niveles de abstraccin: permitir categoras descriptivas y analticas
3. Induccin: consiste en identificar temas a partir de la base de datos y luego

realizar reagrupamientos a partir de estos temas.
3. Eleccin y aplicacin de los

mtodos
de anlisis
En esta etapa se procede a la interpretacin de los datos utilizando tres
posibles mtodos de anlisis para detectar patrones a partir de los datos

previamente organizados
1. Mtodo de emparejamiento: compara una configuracin terica predicha
con una configuracin emprica observada. (Requiere Teora previa y
eleccin cuidadosa del caso o casos adecuados para poner la Teora a
prueba)
2. Mtodo iterativo: Abordaje de los datos con mnima formalizacin terica
y construccin progresiva de una explicacin. (Requiere conocimiento de
las diferentes teoras que pueden explicar el fenmeno y la realizacin de
un trabajo reiterado sobre los datos)
3. Mtodo de anlisis histrico (series temporales): Consiste en formular
predicciones sobre la evolucin en el tiempo de un fenmeno. Es un caso
particular del mtodo de emparejamiento en el que la Teora es la prediccin
sobre el futuro.
Los tres mtodos pueden utilizarse conjuntamente.
4. Anlisis transversal
El anlisis transversal apunta esencialmente a verificar
si hay replica de resultados entre varios casos o

situaciones. Se agrega a las etapas precedentes
cuando los datos cualitativos recolectados se refieren
a varios casos del fenmeno (organizaciones,
situaciones, individuos)
Procede por comparacin dnde cada situacin es
analizada de acuerdo al o los modos de anlisis
descritos precedentemente, de manera de captar si
los modelos o patrones observados se reproducen.
ANLISIS CUANTITATIVO
Son los ms conocidos. En muchos casos,
cuando se requieren tcnicas estadsticas

muy complejas es conveniente solicitar el
apoyo de especialistas (que pueden conocer
mejor las tcnicas, en particular sus alcances
y limitaciones)
Existen dos niveles de anlisis cuantitativos.
1. Anlisis descriptivos
2. Anlisis ligados a las hiptesis
Anlisis descriptivos
Consiste en asignar un atributo a cada una de las variables del
modelo terico.
Los atributos pueden ser estadsticos descriptivos como la media,
la mediana, la moda o la varianza, sobre cuyas propiedades
existe gran conocimiento, experiencia y consenso, por lo que no
es necesario realizar anlisis de validez y fiabilidad. Pero en
estadsticos menos conocidos (como por ejemplo la covarianza)
puede ser necesario realizar este tipo de anlisis.
Es necesario tener definidos los criterios a seguir en caso de
porcentajes elevados de no respuesta y los eventuales sesgos
que esto pueda representar.
El anlisis descriptivo suele realizarse mediante la utilizacin de
software estadstico como el SPSS, Systat, etc.
Anlisis Descriptivo :
ayudar a observar el
comportamiento de la muestra en estudio, a travs
de tablas, grficos.....
Los resultados recogidos en la muestra se resumen
en una matriz de datos N x M , en la cual N es el
nmero de unidades de anlisis utilizadas ( nmero
de casos ) y M es el nmero de caractersticas de
dichas unidades , unidades de las que tenemos
informacin.
Anlisis ligado a las hiptesis

Cada una de las hiptesis planteadas en el
estudio debe ser objeto de una verificacin.

Cuando los datos recolectados son de naturaleza
cuantitativa, esta verificacin se realiza con la
ayuda de herramientas estadsticas que se
definen sobre la base de 3 aspectos principales:
Las hiptesis que se desea verificar
Los diseos de investigacin experimental, quasi
experimental, experimental invocado)
Distribucin estadstica de las variables
Nociones bsicas de la
Estadstica
Media o promedio
Es la medida ms comn de localizacin y representa el centro de
un grupo de datos
El valor obtenido es ms preciso que la precisin asociada con
cada observacin por lo cual siempre se representa con un dgito
ms que los utilizados en la medicin
Datos no agrupados
X
X
i 1
X
i 1
Datos agrupados
n
M
i 1
fi
Frecuencia
Mi= punto medio de la clase

fi = frecuencia de la clase i
n= fi=tamao de la muestra
Media
Ejemplo (datos no agrupados)

Ingresos mensuales en dlares
1000
1110
1010
1070
1030
1000
1150
990
1090
1080
1150
1200
1050
1030
1120
1050
1030
1150
1230
1170
1180
1110
1160
1100
1100
1060
1130
1105
935
1210
30
1000 1150 1050 1230 1100 1110 990 1030 1170L 1210
X
30
30
32800
X
1.093,33
30
i 1
Ejemplo (datos agrupados)

INTERVALO
DE CLASE
MARCA
DE CLASE
FRECUENCIA
ABSOLUTA
fi
FRECUENCIA
ABSOLUTA
ACUMULADA
Fi
FRECUENCIA
RELATIVA
Fi /n
FRECUENCIA
RELATIVA
ACUMULADA
FI /n
(930-980]
955
1/30
1/30
(980-1030]
1005
7/30
8/30
(1030-1080]
1055
13
5/30
13/30
(1080, 1130]
1105
21
8/30
21/30
(1130-1180]
1155
27
6/30
27/30
(1180-1230]
1205
30
3/30
30/30=1
30
6
30/30=1
955(1) 1005(7) 1055(5) 1105(8) 1155(6) 1205(3)

n
30
30
955 7035 5275 8840 6930 3615 32650
X
1.088,333
30
30
X
i 1
i i
i 1
i i
Mediana
La mediana m de un conjunto de datos x1,x2,,xn, es el valor
xi que se encuentra en el punto medio o centro, cuando se
ordenan los valores de menor a mayor.
La interpretacin geomtrica de la mediana, es que es el valor
que divide un histograma en dos partes iguales.
Procedimiento de clculo:
Datos no agrupados
Ordenar de menor a mayor los valores xi del conjunto de datos
individuales, i = 1,2,,n
Identificar si n es impar o par
x%
x([ n 1]) / 2)
x( n / 2) x( n / 2 1)
2
Ejemplo
Encontrar la mediana del siguiente conjunto de datos que corresponden
al tiempo en segundos, requerido por una cajera para marcar la compra
de artculos en un supermercado que utiliza verificadores automticos
{ 10, 15, 62, 53, 11, 38, 75, 112, 40, 22, 57 }.
Ordenamos el conjunto de datos:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
n = 11, impar. Entonces la mediana m es:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
Datos
1 2 3 4 5 6 7 8 9 10 11
Indice
m x n 1
2
n 1 11 1 12
6
2
2
2
x n 1 x6 40
2
m x6 40
Datos
agrupados
En el caso de que los datos estn agrupados, se obtiene primero la clase de la

mediana
La clase de la mediana se define como la primera clase que aparece en la tabla,
para la cual la frecuencia acumulada, Fi, sea igual o mayor a la mitad de la suma
de todas las frecuencias absolutas, esto es:
n
n
2
2
con j 1, 2,..., k ,
k - nmero de intervalos
Fj
i 1
Paso 1.- Obtener la Clase de la Mediana,nes decir, el primer intervalo que cumpla
la condicin:
donde
,k
Fj
n - es el nmero total de datos del conjunto

j - es el nmero del intervalo de clase que cumple la condicin, j = 1, 2,
Fj- es la frecuencia acumulada del intervalo de clase j
Calcular la mediana con la siguiente

ecuacin:
Paso 2.-
2 FL
m Lm
C
fm
Donde:
Lm = Lmite inferior del intervalo que corresponde a la clase mediana.
n = Total de datos
FL = Suma de frecuencias de todas las clases por debajo de la clase
mediana, (frecuencia acumulada absoluta de las clases anteriores a la
clase mediana)
fm = Frecuencia absoluta en la clase mediana.
C = Tamao del intervalo de clase. (amplitud o distancia del intervalo)
Ejemplo
INTERVALO
DE CLASE
MARCA
DE CLASE
FRECUENCIA
ABSOLUTA
fi
FRECUENCIA
ABSOLUTA
ACUMULADA
Fi
FRECUENCIA
RELATIVA
Fi /n
FRECUENCIA
RELATIVA
ACUMULADA
FI /n
(930-980]
955
1/30
1/30
(980-1030]
1005
7/30
8/30
(1030-1080]
1055
13
5/30
13/30
(1080, 1130]
1105
21
8/30
21/30
(1130-1180]
1155
27
6/30
27/30
(1180-1230]
1205
30
3/30
30/30=1
30
30/30=1
Paso 1.- Obtener la Clase de la Mediana

n = 30 y n/2 = 15,
k = 6 intervalos de clase
En el 4 intervalo se cumple que: F4 = 21 15.
Por tanto el cuarto intervalo se identificar como la clase mediana, esto
es:
(1080, 1130] es el intervalo de clase.
F4 = 21
Paso 2.- Calcular la mediana:
Lm = 1080 Limite inferior de la clase de la mediana

n = 30
Datos u observaciones
n/2 = 15
Datos u observaciones
FL = F3 = 13 Frec.acumul.absoluta inf.
fm = f4 = 8 Frec. Absoluta de la clase de la mediana
C = Lsup Linf = 50
No
Intervalo
fi
Fi
(1030,1080]
13
(1080,1130]
21
F
L
2
m Lm
C
f
m
(15 13)
m 1080
50 1.092,50
8
La interpretacin de este valor, es que la mitad de las familias
entrevistadas ganan menos de 1.092,50 dlares.
Moda
Es la observacin que se presenta con mayor frecuencia
en la muestra o poblacin
Si los datos tienen una sola moda son unimodales, si
tienen 2 son bimodales y as sucesivamente
No son comparables en su totalidad los resultados
obtenidos entre datos individuales y agrupados
Procedimiento de clculo (datos no agrupados):
Paso 1. Ordenar los datos en forma ascendente

Paso 2. Identificar el o los datos con mayor frecuencia
Ejemplo
En el conjunto de datos dados para medir el ingreso promedio anual de las familias que habitan en
un determinado sector, se tiene :
{935, 990, 1000, 1000, 1010, 1030, 1030, 1030, 1050, 1050, 1060, 1070, 1080, 1090, 1100, 1100, 1105, 1110,
1110, 1120, 1130, 1150, 1150, 1150, 1160, 1170, 1180, 1200, 1210, 1230 }
En este conjunto hay dos valores que aparecen ms veces :

1030 ( 3 veces)
1150 ( 3 veces)
por tanto la moda es = 1030 y 1150, y en este caso se dice que el conjunto de datos es bimodal
La Moda estar representada por la clase que posee la ms alta frecuencia, denominndose
clase modal.
El clculo de la Moda se obtiene con la siguiente expresin:
Donde:
1
Moda LI
C
2 1
LI = Lmite inferior del intervalo de clase, la clase modal.

1 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior, f i - fi-1, con i nmero de
intervalo de la clase modal
2 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior. f i - fi+1, con i nmero de
intervalo de la clase modal
C = Tamao del intervalo de clase.
Datos agrupados
Ejemplo
Calcular la moda del ingreso promedio mensual de las familias que

habitan en un determinado sector
Intervalo de clase modal: el 4, (1080 1130] ya que
f4 = 8 (la mayor frecuencia absoluta de la tabla)
LI = 1080 dlares
No.
Intervalo
fi
Fi
1 = f4 f3 = 8 - 5 = 3
2 = f4 f5 = 8 - 6 = 2
3
(1030,1080]
5
13
C = 50
4
(1080,1130]
8
21
Sustituyendo los datos:
(1130, 1180]
27
1
3
Moda LI
C 1080
50 1.110,0
2 3
2 1
Este valor de $ 1.110,0 se interpreta como el ingreso familiar que con ms
frecuencia se da
Medidas de variabilidad o
dispersin
Medidas De Dispersin
Una de las caracterstica ms importante que describe un
conjunto de datos, es la dispersin

La dispersin es la cantidad de variacin, o diseminacin en
los datos. Determina si los valores estn relativamente cercanos

entre s, o no
Tiene como propsito ofrecer informacin adicional que permita
juzgar la confiabilidad de la medida de tendencia central
Rango
Es la medida de dispersin ms fcil de calcular
Rango Valor maximo - Valor minimo

No estn usada ya que slo considera los
valores extremos de la serie de datos
Varianza
Indica qu tan dispersos se encuentran los
datos, en promedio, de la media de la

poblacin
Para representar la varianza poblacional y la
varianza muestral se utilizan los siguientes
dos smbolos:
2 - donde es la letra griega (sigma ) al
cuadrado que determinar la varianza de una
poblacin
s2 determina la varianza de la muestra
analizada
La frmula para calcular la varianza de una

poblacin est dada por la expresin:
2
(
x
)
i
i 1
N 1
1
N 1
2
x
i 1
x
i 1
donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin.
2 = La varianza de la poblacin
Para calcular la varianza muestral para datos no

agrupados se utiliza la misma frmula reemplazando
las variables 2, y N por s2,x y n, respectivamente,
esto es:
s
2
2
(
x
x
)
i
i 1
n 1
n 1
2
x
i
i 1
i 1
donde:
x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2, 3,...,n
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos No Agrupados
Para calcular la varianza muestral para datos

agrupados se utiliza la frmula:
k
s
2
f (M
i 1
x)
n 1
n 1
2
f
M
i i
i 1
f M
i 1
donde:
xi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
s2 - La varianza de la muestra
Datos Agrupados
Desviacin Estndar
En la varianza, los resultados se expresan en
unidades originales al cuadrado, por lo que se
requiere de una medida de desviacin que sea til
en unidades originales que no estn elevadas
Esta medida es llamada desviacin estndar y es
la raz cuadrada de la varianza
Para representar la desviacin estndar poblacional
y la desviacin estndar muestral se utilizan los
siguientes dos smbolos:
- donde sigma es la letra griega que
determinar la desviacin estndar de una
poblacin
s -determina la desviacin estndar de la
muestra analizada
La frmula para calcular la desviacin estndar de

una poblacin est dada por la expresin:
N
(x )
i 1
N 1
N 1
2
x
i
i 1
i 1
donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin
= La desviacin estndar de la poblacin
Para Desviacin estndar muestral

de datos
individuales se utiliza la misma frmula
reemplazando las variables y N por s, x y n,
respectivamente, esto es:
n
(x x)
i 1
n 1
n 1
2
x
i
i 1
i 1
donde:
xi - son las observaciones que componen la muestra, i = 1, 2,
3,...,n
s - la desviacin estndar de la muestra
Datos No Agrupados
Para datos agrupados se utiliza la frmula:

k
f (M
i 1
x)
n 1
1
n 1
i 1
f i M i2
f M
i 1
donde:
Mi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
s - la desviacin estndar de la muestra
Datos Agrupados
Ejemplo
Datos No Agrupados
Ingresos mensuales en dlares

1000
1110
1010
1070
1030
1000
1150
990
1090
1080
1150
1200
1050
1030
1120
1050
1030
1150
1230
1170
1180
1110
1160
1100
1100
1060
1130
1105
935
1210
Datos No Agrupados
Xi
Xi2
Xi
Xi2
935
874225
1100
1210000
990
980100
1105
1221025
1000
1000000
1110
1232100
1000
1000000
1110
1232100
1010
1020100
1120
1254400
1030
1060900
1130
1276900
1030
1060900
1150
1322500
1030
1060900
1150
1322500
1050
1102500
1150
1322500
1050
1102500
1160
1345600
1060
1123600
1170
1368900
1070
1144900
1180
1392400
1080
1166400
1200
1440000
1090
1188100
1210
1464100
1100
1210000
1230
1512900
Total
32800
36013050
Datos No Agrupados
Varianza
n
s2
(x
i 1
x)
n 1
n 1
2
x
i
i 1
x
i 1
(
32800
)
1

36013050
29
30
(32800) 2
1
1
36013050
36013050 35861333.3 5231.6092
29
30
29
Desviacin estndar
n
(x
i 1
x)
n 1
1
n 1
2
x
i
i 1
s s 2 5231.6092 72.33
x
i 1
Este ltimo clculo significa que existe una
dispersin de $ 72.33 con respecto a la media
Esta unidad de medida es congruente con la
obtenida al calcular la media aritmtica, por lo

tanto, se pueden hacer inferencias con respecto
a la poblacin objeto de estudio a travs de los
intervalos de confianza
Ejemplo
Consideremos los valores expuestos en el
ejemplo anterior y definamos las clases
Datos Agrupados
INT.
DE CLASE
MARCA
DE
CLASE
Mi
FREC.
ABS.
fi
X i2
fMi
fiMi2
(930 - 980]
955
912025
955
912025
(980 1030]
1005
1010025
7035
7070175
(1030 1080]
1055
1113025
5275
5565125
(1080 1130]
1105
1221025
8840
9768200
(1130 1180]
1155
1334025
6930
8004150
(1180 1230]
1205
1452025
3615
4356075
32650
35675750
30=n
29= n-1
Total
Datos Agrupados
Varianza
k
s2
f (M
i 1
x)
n 1
n 1
2
f
M
i i
f M
i 1
1
(32650)

35675750
29
30
i 1
1
35675750 35534083.3 4885.057
29
Desviacin estndar
k
f (M
i 1
x)
n 1
1
n 1
fM
i 1
4885.057 69.89
2
i
f M
i 1
Este ltimo clculo significa que existe una
dispersin de $ 69.89 con respecto a la media

Esta unidad de medida es congruente con la
obtenida al calcular la media aritmtica, por lo

tanto, se pueden hacer inferencias con respecto a
la poblacin objeto de estudio a travs de los
intervalos de confianza
Coeficiente De Variacin
Es la dispersin relativa existente entre la
desviacin estndar y la media aritmtica de

los datos
Este coeficiente est dado como el cociente
resultante de dividir la desviacin estndar
entre la media:
S
C.V .
El coeficiente de variacin se puede expresar
como porcentaje
Esta
medida de variabilidad expresa la

desviacin estndar por unidad experimental
como una medida general del experimento.
De esta forma se puede comparar entre dos
o ms coeficientes de variacin, y observar

cul muestra tiene mayor variabilidad.
Estimacin de la Desviacin Estndar

Se puede obtener la estimacin de la desviacin
estndar conociendo nicamente el rango (amplitud)
de los datos, ya que
Rango = 4 S aprox
Donde
Rango = Xmax Xmin
S aprox es la desviacin estndar
Por tanto
Saprox = Rango/4.
Ejemplo: Encontrar los intervalos para el conjunto de datos agrupados

del ingreso de familias, aproximando la desviacin estndar:
Saprox = Rango/4 = (1230-935)/4 = 295/4 = 73.75
% DE DATOS
INTERVALOS
68
1088.3373.75
(1014.58, 1162.08)
95
1088.332(73.75)
(940.83, 1235.83)
99 o 100
1088.333(73.75)
(867.08, 1309.58)
Pronsticos e informacin
Pronstico: prediccin de los hechos y
condiciones futuros
Ejemplos para una empresa:

mercadotecnia: demanda para varios productos, en
diferentes regiones y entre distintos grupos
finanzas: tasa de inters para tomar decisiones
acerca de inversiones en capital
administracin de personal: produccin futura, para
saber a cuntos emplear
programa de produccin: demanda de cada producto
Ejemplos para un gobierno:

educacin: nmero de alumnos en cada lugar, en
cada nivel
servicios pblicos: demanda para agua y luz
finanzas pblicas: recaudacin de impuestos de
varios tipos, gastos necesarios
Ejemplos para una organizacin no-gubernamental:
recaudacin de fondos
costos de proyectos
Ejemplos para un individuo o una familia:

valor de acciones, divisas y otras inversiones
ingresos futuros
costo de la universidad para los hijos
valor de los fondos para el retiro
informacin transversal: valores observados en un punto
de tiempo (datos transversales)
Serie de tiempo: sucesin cronolgica de
observaciones de una variable particular. (datos de

serie de tiempo)
Partes de una serie de tiempo:
Tendencia
Ciclo
Variaciones estacionales
Fluctuaciones irregulares
Mtodos para establecer

pronsticos
Cualitativos
Juicio experto
Mtodo Delphi y el grupo de consenso
Pronsticos populares e investigacin de mercado
Cuantitativos
Modelo de serie de tiempo
Se pronostica el valor futuro de la variable basndose en el

comportamiento anterior de la misma durante un periodo de
tiempo.
Modelos causales para establecer pronsticos
Se pronostica el valor futuro de la variable en base de los

factores conocidos y cuantificables que afectan la variable
variable dependiente
variables independientes
Modelos de serie de tiempo

Modelo de nivel
Un modelo de pronostico que es aplicable cuando la
demanda por periodo es relativamente constante
sobre el tiempo alrededor de un valor A fijo pero
desconocido.
Dt
A
Et
Modelo de tendencia
variable por periodo muestra un patrn por lo general
creciente o decreciente durante el tiempo
Modelo estacional

variable por periodo en un ao tiene un patrn
estacional definido que se repite cada ao
Mediciones de rendimiento de
modelos de pronostico
Error medio cuadrado (RMSE)
La medicin de funcionamiento de un modelo de
pronostico obtenida al calcular la raz cuadrada del
promedio de los cuadrados de los errores de
pronostico
Error medio absoluto (MAE)
pronostico obtenida calculando el promedio del valor
absoluto de los errores de pronostico
Error medio porcentual absoluto (MAPE)
pronostico que se obtiene calculando el promedio de
los errores de pronostico absolutos como un
porcentaje de la variable real
Modelo de pronsticos
causales, ajuste de curvas
Regresin y Correlacin
Introduccin
En la investigacin las variables que estn asociadas
entre si pueden ser relacionadas matemticamente
una en funcin de la otra
Las variables pueden tener una relacin clara o
absurda
Nota: estadsticamente interesa analizar una relacin
existente o lgica entre variables
Objetivo: proporcionar los procedimientos y las
tcnicas para expresar y medir la relacin entre
variables
Decimos que dos variables, X e Y, estn correlacionadas cuando hay

una relacin cuantitativa entre ellas. X suele ser la variable
independiente e Y la dependiente (Y depende de X).
Altura y peso de nios. Peso = f(Altura)

Velocidad mxima que alcanza un coche y potencia de su motor.
Velocidad = f(Potencia)
Presupuesto para adquisiciones y nmero de libros que puede adquirir
una biblioteca. Libros = f(Presupuesto)
Si se hace una lista ordenando las palabras segn su frecuencia de
aparicin en un texto extenso, se encuentra que hay una correlacin
entre frecuencia y posicin o rango en esa lista. Frecuencia = f(Rango)
=>(Ley de Zipf)
La relacin puede ser claramente causal o no.

La potencia del motor de un coche es la causa de que alcance una
mayor velocidad, as como un mayor presupuesto el que se puedan
comprar ms libros. (X es la causa de Y)
En cambio, el rango de una distribucin tipo Zipf no es la causa de la
frecuencia; en todo caso, la frecuencia es la causa del rango. (Y es la
causa de X)
La relacin altura peso tiene parte de causalidad, pero tambin

existen otros factores. (X y otros factores son la causa de Y)
Relaciones espreas
Hay que evitar las denominadas relaciones espreas o
espurias, es decir, que llevan a conclusiones errneas.
Ocurren cuando dos variables, X e Y, son realmente
independientes entre s, pero dependientes ambas de una
misma causa comn, Z.
X
Y
Z
Ejemplo de relacin esprea: Cierto bilogo ingls public un estudio en el que

se comprueba que en los pueblos y ciudades con ms cigeas en los
campanarios, X, nacen ms nios, Y. Lleg a la conclusin de que los nios los
trae la cigea.
Lo cierto es que tanto el nmero de cigeas, X, como el de nios, Y, dependen
de la causa comn, Z, que es el tamao del pueblo o ciudad. En las poblaciones
grandes hay siempre ms cigeas y ms nios. Tanto cigeas como nios
estn correlacionados con el tamao de la poblacin, pero no entre ellos
mismos.
Con el anlisis de las series de tiempo se estudiaran mtodos para

pronosticar el valor de una variable: con la informacin del pasado se
extrapolar tal comportamiento para predecir el futuro; en esta parte
se estudiarn los mtodos causales: relacin entre causa y efecto,
donde no necesariamente el pronstico depender del tiempo.
Variable
independiente
x
Variables
independientes
x1, x2, ..., xn
Relacin simple:
y=f(x)
Relacin mltiple:
y=f(x1, x2, ..., xn)
Variable
dependiente
y
1. La relacin entre una causa y un efecto.
Efecto y
Las relaciones encontradas por la regresin son relaciones de

asociacin, pero no necesariamente relaciones de causa y efecto.
Esto es no debe inferirse causalidad de las relaciones encontradas
por la ecuacin de regresin.
2. La relacin entre una causa y otra causa.
Causa y
Causa x
3. La relacin entre un efecto y otro efecto (un

problema y otro problema, o una caracterstica de
calidad del producto con otra).
Efecto y
Causa x
Efecto x
Tres Pasos para hacer

un pronstico:
1.- Determinar la forma
de la relacin funcional
entre las variables, puede
ser lineal, exponencial,
cuadrtica, etc.
2.- Estimar los parmetros
de la relacin.
3.- Probar que la relacin
encontrada con sus
parmetros
correspondientes
se ajustan a los datos
observados.
Anlisis de regresin (clculo

de la ecuacin de regresin),
slo para una relacin lineal.
Anlisis de correlacin utilizado
para medir que tan bien sirve la
ecuacin de regresin para
expresar la relacin entre las
variables.
Una variable: Varias variables:
y=f(x)
y=f(x1, x2, ..., xn)
Anlisis de regresin Anlisis de regresin

x= variable independiente (regresor). y correlacin simple y correlacin mltiple
y= variable dependiente o de respuesta.
Nubes de Puntos
Sea un conjunto de pares de valores de las variables X e Y. Si los
representamos en un diagrama de dispersin obtendremos una nube de
puntos que nos dar una idea grfica de la posible correlacin entre ambas
variables.
No hay relacin
Relacin positiva
Relacin negativa
Algunos tipos de relaciones
Modelo Lineal
relacin lineal positiva
relacin lineal negativa

Potencial
Logartmica
Otros tipos
Potencial
Potencial
inversa
Exponencial
Exponencial
positiva
negativa
Otros tipos
Otros tipos
Relaciones entre variables aleatorias y regresin

lineal
El trmino regresin fue introducido por Galton en su libro

Natural inheritance (1889) refirindose a la ley de la regresin
universal:
Cada peculiaridad en un hombre es compartida por sus

descendientes, pero en media, en un grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos fsicos
de los descendientes (una variable) a partir de los de sus
padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de 1000
registros de grupos familiares observando una relacin del tipo:
Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

Conclusin: los padres muy altos tienen tendencia a tener
hijos que heredan parte de esta altura, aunque tienen
tendencia a acercarse (regresar) a la media. Lo mismo
puede decirse de los padres muy bajos.
Hoy en da el sentido de regresin es el de prediccin de una

medida basndonos en el conocimiento de otra.
Francis Galton
Estudio conjunto de dos variables

aleatorias
A la derecha tenemos una posible manera de recoger los

datos obtenido observando dos variables aleatorias en
varios individuos de una muestra.
Altura
en cm.
Peso en
Kg.
162
61
154
60
180
78
Cada columna representa los valores que toma una

variable aleatoria sobre los mismos.
158
62
171
66
Las individuos no se muestran en ningn orden particular.
169
60
166
54
176
84
163
68
...
...
En cada fila tenemos los datos de un individuo
Dichas observaciones pueden ser representadas en un

diagrama de dispersin (scatterplot). En ellos, cada
individuos es un punto cuyas coordenadas son los valores
de las variables.
Nuestro objetivo ser intentar reconocer a partir del mismo
si hay relacin entre las variables, de qu tipo, y si es
posible predecir el valor de una de ellas en funcin de la
otra.
Diagramas de dispersin o nube de puntos

Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin. Cada punto es un valor particular de la variable
aleatoria bidimensional (X, Y).
Pesa 50 kg.
Mide 161 cm.
Mide 187 cm.
Pesa 76 kg.
Relacin entre variables

Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.
ue
q
ce
e
r
Pa ra
altu
s
e
p
el
nta
e
um
a
o
la
n
co
Prediccin de una variable en funcin de otra

Aparentemente el peso aumenta 10 Kg por cada 10 cm de altura... O sea,
el peso aumenta en una unidad por cada unidad de altura.
10 kg.
10 cm.
Cmo reconocer relacin directa e inversa

330
280
Incorrelacin
230
180
130
80
30
140
150
160
170
180
190
200
Para valores de X por encima de la media

tenemos valores de Y por encima y por
debajo en proporciones similares.
Incorrelacin.
Para los valores de X mayores
que la media le corresponden

valores de Y mayores tambin.
Para los valores de X menores
que la media le corresponden

valores de Y menores tambin.
Esto se llama relacin directa o
creciente entre X e Y.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.
Cmo reconocer buena o mala relacin
Dado un valor de X no podemos decir

gran cosa sobre Y. Mala relacin.
Independencia.
Conocido X sabemos que Y se mueve
por una horquilla estrecha. Buena

relacin.
Lo de horquilla estrecha hay que
entenderlo con respecto a la dispersin

que tiene la variable Y por si sola, cuando
no se considera X.
Covarianza
Recordemos que...
Media aritmtica: Suma de los valores que toma una variable dividida entre el
nmero total, n, de valores sumados.
Varianza: Es una medida de lo que se dispersan los valores de una muestra

respecto de su media. Se determina con cualquiera de las formulas equivalentes
siguientes:
2
Vx S
2
x
x x
o bien mediante Vx S
2
x
2
i
La varianza, V, es tambin el cuadrado de la desviacin tpica, S.
Cuando se trata de una distribucin bidimensional...

Covarianza: Es una medida de lo que se dispersan los valores de una muestra
bidimensional tanto del valor medio de la x como del valor medio de la y. Se
determina mediante la expresin:
Vxy S xy
x x y
i
o bien mediante Vxy S xy
x y
i
xy
La covarianza entre dos variables, Sxy, nos indica
si la posible relacin entre dos variables es directa

o inversa:
Directa: Sxy > 0
Inversa: Sxy < 0
Incorreladas: Sxy = 0
El signo de la covarianza nos dice si el aspecto de
la nube de puntos es creciente o no, pero no nos

dice nada sobre el grado de relacin entre las
variables.
Coeficiente de correlacin lineal de Pearson

El coeficiente de correlacin lineal de Pearson
de dos variables, r, nos indica si los puntos tienen

una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).
Tiene el mismo signo que Sxy . Por tanto de su
signo obtenemos el que la posible relacin sea

directa o inversa.
r es til para determinar si hay relacin lineal entre
dos variables, pero no servir para otro tipo de

relaciones (cuadrtica, logartmica,...)
S xy
SxSy
Grado de Correlacin
El coeficiente de correlacin, r, presenta valores entre 1 y +1.
Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La
nube de puntos est muy dispersa o bien no forma una lnea recta. No se
puede trazar una recta de regresin.
Cuando r es cercano a +1, hay una buena correlacin positiva entre las
variables segn un modelo lineal y la recta de regresin que se determine

tendr pendiente positiva, ser creciente.
Cuando r es cercano a -1, hay una buena correlacin negativa entre las
variables segn un modelo lineal y la recta de regresin que se determine

tendr pendiente negativa: es decreciente.
No hay
correlacin
r 0
Hay correlacin
no lineal
r 0
Correlacin lineal
positiva
r 1
Correlacin lineal
negativa
r 1
Entrenando el ojo: correlaciones positivas.
Entrenando el ojo: casi perfectas y positivas
Entrenando el ojo: correlaciones negativas
Si r = 0 eso quiere decir que

las variables son independientes?
Me ha salido r = 1,2 La relacin es superlineal ?
En la prctica, casi siempre

s, pero no tiene por qu ser
cierto en todos los casos.
Lo contrario si es cierto:
Independencia implica
incorrelacin.
Superqu? Eso es un error de clculo. Siempre debe tomar un

valor entre -1 y +1.
A partir de qu valores se considera que hay buena relacin lineal?
Es difcil dar un valor concreto (mirad los grficos anteriores). Para

este curso digamos que si |r| > 0,7 hay buena relacin lineal y que si
|r| > 0,4 hay cierta relacin (por decir algo... la cosa es un poco ms
complicada: observaciones anmalas,...)
Regresin lineal simple

El anlisis de regresin sirve para predecir una medida
en funcin de otra medida (o varias: regresin mltiple).
Y = Variable dependiente
predicha, medida, es una variable aleatoria
explicada
X = Variable independiente
predictora, controlada, no es una variable aleatoria.
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X
Regresin lineal simple

El ejemplo del estudio de la altura en grupos familiares de Pearson
es del tipo que desarrollaremos en el resto del tema.
Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)
Si el padre mide 200cm cunto mide el hijo?

Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.
Si el padre mide 120cm cunto mide el hijo?

Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.
Es decir, nos interesaremos por modelos de regresin lineal simple.
Modelo de regresin lineal simple

En el modelo de regresin lineal simple, dado dos variables
Y (dependiente)
X (independiente, explicativa)
buscamos encontrar una funcin de X muy simple (lineal) que
nos permita aproximar Y mediante
= b0 + b1X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)
Y e rara vez coincidirn por muy bueno que sea el modelo de
regresin. A la cantidad
e = Y- se le denomina residuo o error residual.
En el ejemplo de Pearson y las alturas, l encontr:
= b0 + b1X
b0 = 85 cm (No interpretar como altura de un hijo cuyo padre

mide 0 cm Extrapolacin salvaje!)
b1= 0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)
b1=0,5
b0=85 cm
La relacin entre las variables no es exacta. Es natural preguntarse
entonces:
Cul es la mejor recta que sirve para predecir los valores de Y
en funcin de los de X
Qu error cometemos con dicha aproximacin (residual).
b1=0,5
b0=85 cm
El modelo lineal de regresin se construye utilizando la tcnica de
estimacin de mnimos cuadrados:
Buscar b0, b1 de tal manera que se minimice la

cantidad
i ei2 = i (Yi - )2
Se comprueba que para lograr dicho resultado basta con elegir:
b1 r
Sy
Sx
b0 y b1 x
La recta de regresin estimada ser:
S xy
SxS y
y y b1 ( x x )
Se obtiene adems unas ventajas de regalo:
El error residual medio es nulo.

La varianza del error residual es mnima para dicha
estimacin.
Que el error medio de las
predicciones sea nulo no quiere

decir que las predicciones sean
buenas.
Hay que encontrar un medio de
expresar la bondad del ajuste

(bondad de la prediccin).
No importa. Con los dos

ltimos clientes me
equivoqu en +10 y
+20. En trmino medio
el error es cero.
Cometi un
error de - 30 en
su ltima
prediccin
Cmo medir la bondad de una regresin?

Imaginemos un diagrama de
dispersin, y vamos a tratar de
comprender en primer lugar qu
es el error residual, su relacin
con la varianza de Y, y de ah,
cmo medir la bondad de un
ajuste.
Interpretacin de la variabilidad en Y
En primer lugar olvidemos que
existe la variable X. Veamos cul
es la variabilidad en el eje Y.
La franja sombreada indica la zona

donde varan los valores de Y.
Proyeccin sobre el
eje Y = olvidar X.
Interpretacin del residuo

Fijmonos ahora en los errores de
prediccin (lneas verticales). Los
proyectamos sobre el eje Y.
Se observa que los errores de
prediccin, residuos, estn menos
dispersos que la variable Y original.
Cuanto menos dispersos sean los
residuos, mejor ser la bondad del
ajuste.
Bondad de un ajuste
Resumiendo:
La dispersin del error residual ser una
fraccin de la dispersin original de Y.
Cuanto menor sea la dispersin del error
residual mejor ser el ajuste de regresin.
Eso hace que definamos como medida

de bondad de un ajuste de regresin,
o coeficiente de determinacin a:
S
R 1
S
2
2
e
2
y
S S
2
e
2
Y
EJEMPLOS DE REGRESIN
LINEAL SIMPLE
Ejemplo 1. Regresin Lineal

y
2
3
4
5
8
7
y = x+ 2
6
5
4
3
x
0
1
2
3
2
1
n xi yi xi yi
n xi2 xi
y b x
a
i
0
-4
-3
-2
-1 -1 0
-2
X
Bondad de los ajustes

Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar
mediante cualquiera de las dos expresiones siguientes:
x y
x y
x
2
x
n
2
i
2
i
n x
n xi yi xi yi
2
i
xi n yi2 yi
2
Coeficiente de Determinacin, R2
Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el
Coeficiente de Determinacin, R2, que es el Coeficiente de Correlacin elevado

al cuadrado.
Se determina mediante cualquiera de las dos expresiones siguientes:
R2
x y
i
xi2 x 2
x y
yi2
2
y
n
n x y x y
n x x n y y
2
R2
2
i
2
i
Su valor oscila entre 0 y +1.

Cuando hay una buena correlacin lineal, R 2 es muy cercano a +1.
Normalmente se acepta para valores de R 2 >= 099.
Cuando no hay correlacin o bien sta no es lineal, R 2 es bajo e incluso
cercano a cero
Ejemplo 2: Relacin Profesores/Alumnos

en las Universidades
Universidades
Alumnos Profesores
Aragn
Asturias
Baleares
Cantabria
Castilla la Mancha
Castilla Len
Extremadura
Madrid
Murcia
1.
Trazar la grfica de la distribucin
2.
Calcular parmetros de la distribucin
3.
Cul es la Universidad con mejor proporcin

profesor/alumno?
R2=0.998
b=0.0515
a=-17
36154
34441
9519
11962
15123
74272
17678
214402
26407
2043
1442
385
737
787
4030
865
10971
1248
4.
Qu Universidad tiene la peor ratio y cuntos

profesores necesitara para equilibrarla?
5.
Calcular los valores tericos de profesores de la

Universidad de Granada si sta tena 55123
alumnos en el curso 1994-95.
6.
Calcular los valores de la FBD si sta tena 1100

alumnos
Ejemplo 2: Grfica de distribucin

Relacin Profesores/Alumnos en
Universidades
14000
3000
12000
2500
Profesores
Profesores
10000
8000
6000
4000
2000
1500
1000
2000
500
0
0
100000
200000
Alumnos
300000
10000
20000
30000
Alumnos
40000
50000
Modelos No Lineales
Antes de proceder a la regresin, hay que transformar la ecuacin no lineal,

y = f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x,
a y b respectivamente.
Modelo
Potencial
Exponencial
y ax b
Ecuacin
Ecuacin
Linealizada
Logartmico
y aebx
log y log a b log x
ln y ln a bx
Log y
y a b log x
----------
Ln y
Grfica
Log x
Log x
Log y
Ln y
Log x
Log x
Log a
Ln a
a
b
eA
10 A
B
A
B
(c) Rosario Ruiz Baos. Departamento de Biblioteconoma y Documentacin. Universidad de Granada (Espaa)
Ejemplo 3: El Pndulo de
Galileo
Una de las principales aportaciones de Galileo Galilei (15641642), fue encontrar la relacin entre el tiempo o periodo de
oscilacin de un pndulo y su longitud. Esto permiti construir
por primera vez en la historia relojes de gran precisin basados
en pndulos. Dicen que la idea de correlacionar estas variables
se le ocurri en la iglesia de su ciudad natal, Pisa, mientras,
absorto, observaba cmo oscilaban las lmparas del techo...
Estos datos podran corresponder a

un hipottico experimento realizado
por Galileo...
T(s)
0,6
1,1
2,1
3,4
5,0
6,0
7,0
Tiempo de oscilacin, T(s)
L(m)
0,1
0,3
1,0
3,0
6,0
9,0
El Pndulo de Galileo
6,0
5,0
4,0
3,0
2,0
1,0
0,0
0,0
2,0
4,0
6,0
8,0
Longitud del pndulo, L(m)
10,0
Las deducciones de Galileo

Para encontrar el modelo que relaciona periodo de oscilacin, T, con la longitud del
pndulo, L, Galileo bien pudo hacer las siguientes deducciones...
7,0
10,0
6,0
5,0
log T
4,0
3,0
2,0
1,0
No es lineal
1,0
No es exponencial
0,0
0,0
2,0
4,0
6,0
8,0
0,1
10,0
0,0
2,0
4,0
6,0
8,0
10,0
L
10,0
7,0
6,0
Tampoco es logartmica
log T
5,0
4,0
3,0
1,0
Es potencial
2,0
1,0
0,0
0,1
0,1
1,0
log L
10,0
0,1
1,0
log L
10,0
T aL
y ax b
Clculos de la Regresin Potencial para

el Pndulo de Galileo
Como vamos a ajustar a un modelo potencial, hacemos el cambio de variables: X = log x e Y = log y.
Por lo dems se procede exactamente igual a una regresin lineal, ajustando a una expresin del tipo
Y = A + BX. Por ltimo, de B y A calculados se despejan b y a respectivamente.
L(m)
T(s) X = log x
Y = log y
X
Y
y
0,6
-1 -0,22185
1,1 -0,52288 0,041393
2,1
0 0,322219
3,4 0,477121 0,531479
5,0 0,778151 0,69897
6,0 0,954243 0,778151
Sumas 0,686636 2,150363
x
0,1
0,3
1,0
3,0
6,0
9,0
XY
X^2
Y^2
0,221849
-0,02164
0
0,25358
0,543904
0,742545
1,740235
1
0,273402182
0
0,227644692
0,605519368
0,910578767
3,017145009
0,049217
0,001713
0,103825
0,28247
0,488559
0,605519
1,531304
n= 6
n xi yi xi yi
n x xi
2
i
b xi
n
6 1,740235 0,686636 2,150363

0,5085
6 3.01745009 (0,686636) 2
2,150363 0,5085 0,686636

0,3002
6
b B 0,5085
a 10 A 100,3002 1,9962
n x y x y
n x x n y y
2
R2
2
i
2
i
0.9988
Ley del Pndulo

10,0
7,0
6,0
4,0
1,0
log T
5,0
3,0
y = 1,9962x 0,5085
R2 = 0,9988
y = 1,9962x 0,5085
R2 = 0,9988
2,0
1,0
0,1
0,0
0,1
1,0
10,0
log L
2,0
4,0
6,0
8,0
10,0
L
Generalizando...
Se deduce que...
1
2
T 2L 2L 2 L
0 '5
0,0
T k
El periodo de oscilacin de un pndulo es

proporcional a la raz cuadrada de su longitud

Clase Analisis de Datos Pronosticos

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Clase Analisis de Datos Pronosticos

Încărcat de

Drepturi de autor:

Formate disponibile

ANALISIS DE

ANLISIS DE LOS DATOS

El anlisis de datos consiste en la realizacin de las

operaciones a las que el investigador someter los datos

ANLISIS DE LOS DATOS

Tcnicas cualitativas: en las que los datos son

mtodos estadsticos) para la realizacin de

1. Preparacin y descripcin del

Consiste en preparar la base documental completa y

2. Reduccin de los datos

de inters para la investigacin.(puede ser slo enumerativo como en el anlisis de

Adaptativo: debe permitir generar nuevos cdigos cuando la investigacin lo requiera

3. Induccin: consiste en identificar temas a partir de la base de datos y luego

3. Eleccin y aplicacin de los

posibles mtodos de anlisis para detectar patrones a partir de los datos

Los tres mtodos pueden utilizarse conjuntamente.

si hay replica de resultados entre varios casos o

cuando se requieren tcnicas estadsticas

Consiste en asignar un atributo a cada una de las variables del

Anlisis ligado a las hiptesis

estudio debe ser objeto de una verificacin.

Mi= punto medio de la clase

Ejemplo (datos no agrupados)

Ejemplo (datos agrupados)

955(1) 1005(7) 1055(5) 1105(8) 1155(6) 1205(3)

Identificar si n es impar o par

En el caso de que los datos estn agrupados, se obtiene primero la clase de la

n - es el nmero total de datos del conjunto

Calcular la mediana con la siguiente

Paso 1.- Obtener la Clase de la Mediana

Paso 2.- Calcular la mediana:

Lm = 1080 Limite inferior de la clase de la mediana

Procedimiento de clculo (datos no agrupados):

Paso 1. Ordenar los datos en forma ascendente

En este conjunto hay dos valores que aparecen ms veces :

LI = Lmite inferior del intervalo de clase, la clase modal.

Calcular la moda del ingreso promedio mensual de las familias que

Sustituyendo los datos:

conjunto de datos, es la dispersin

los datos. Determina si los valores estn relativamente cercanos

juzgar la confiabilidad de la medida de tendencia central

Rango Valor maximo - Valor minimo

valores extremos de la serie de datos

datos, en promedio, de la media de la

La frmula para calcular la varianza de una

Para calcular la varianza muestral para datos no

Para calcular la varianza muestral para datos

La frmula para calcular la desviacin estndar de

Para Desviacin estndar muestral

Para datos agrupados se utiliza la frmula:

Ingresos mensuales en dlares

36013050 35861333.3 5231.6092

Este ltimo clculo significa que existe una

dispersin de $ 72.33 con respecto a la media

Esta unidad de medida es congruente con la

obtenida al calcular la media aritmtica, por lo

ejemplo anterior y definamos las clases

Este ltimo clculo significa que existe una

dispersin de $ 69.89 con respecto a la media

obtenida al calcular la media aritmtica, por lo

desviacin estndar y la media aritmtica de

El coeficiente de variacin se puede expresar

medida de variabilidad expresa la

De esta forma se puede comparar entre dos