Sunteți pe pagina 1din 105

ANALISIS DE

DATOS
PRONSTICOS

ANLISIS DE LOS DATOS

El anlisis de datos consiste en la realizacin de las

operaciones a las que el investigador someter los datos


con la finalidad de alcanzar los objetivos del estudio.
Todas estas operaciones no pueden definirse de antemano
de manera rgida. La recoleccin de datos y ciertos anlisis
preliminares pueden revelar problemas y dificultades que
desactualizarn la planificacin inicial del anlisis de los
datos.
Sin embargo es importante planificar los principales
aspectos del plan de anlisis en funcin de la verificacin
de cada una de las hiptesis formuladas ya que estas
definiciones condicionarn a su vez la fase de recoleccin
de datos.

ANLISIS DE LOS DATOS


Existen dos grandes familias de tcnicas de

anlisis de datos:

Tcnicas cualitativas: en las que los datos son


presentados de manera verbal (o grfica) - como
los textos de entrevistas, las notas, los
documentosTcnicas cuantitativas: en las que los datos se
presentan en forma numrica

Estas

dos
modalidades
son
especies
radicalmente diferentes y utilizan conocimientos y
tcnicas completamente diferenciadas.

ANLISIS CUALITATIVO
No existen reglas formales (al estilo de los

mtodos estadsticos) para la realizacin de


anlisis cualitativos. Sin embargo estos estudios
suelen realizarse en las siguientes cuatro etapas:
1. Preparacin y descripcin del material bruto
2. Reduccin de los datos
3. Eleccin y aplicacin de los mtodos de anlisis
4. Anlisis transversal de los casos estudiados (si
hubiera ms de uno)

1. Preparacin y descripcin del


material
bruto

Consiste en preparar la base documental completa y


fcilmente accesible
La informacin debe ser detectable (saber que existe)
ubicable (dnde se encuentra) y trazable (dnde y como
se obtuvo, cuales son sus fuentes). Existe software que
facilita algo esta tarea
La informacin suele ser voluminosa por lo que en
muchos casos se requiere bastante trabajo de
preparacin.
La prueba del xito de esta etapa sera que un
investigador ajeno a la investigacin pudiera ejecutar las
fases siguientes del anlisis de datos a partir de la base
documental

2. Reduccin de los datos


Se intenta reducir el volumen de los datos, despejando los componentes (las variables)

de inters para la investigacin.(puede ser slo enumerativo como en el anlisis de


contenidos o ms complejo como en el anlisis semitico)
Existen tres formas de realizar la reduccin de datos:
1. La redaccin de resmenes: reduce la masa de informacin pero no utiliza
mtodos muy especficos (no es replicable por otros investigadores). En el resumen
se procura identificar los conceptos relevantes y cmo stos se relacionan entre s.
2. La codificacin: es el modo ms desarrollado de reduccin de datos. Consiste en
atribuir categoras o conceptos a porciones del material bien circunscriptas y que
presentan una alta unidad conceptual. Un buen sistema de codificacin debe ser.

Inclusivo: exhaustivo (abarcar todas las posibilidades) y permitir que cada elemento tenga tantos
cdigos como sea necesario para la investigacin

Adaptativo: debe permitir generar nuevos cdigos cuando la investigacin lo requiera


Abarcar varios niveles de abstraccin: permitir categoras descriptivas y analticas

3. Induccin: consiste en identificar temas a partir de la base de datos y luego


realizar reagrupamientos a partir de estos temas.

3. Eleccin y aplicacin de los


mtodos
de anlisis
En esta etapa se procede a la interpretacin de los datos utilizando tres

posibles mtodos de anlisis para detectar patrones a partir de los datos


previamente organizados
1. Mtodo de emparejamiento: compara una configuracin terica predicha
con una configuracin emprica observada. (Requiere Teora previa y
eleccin cuidadosa del caso o casos adecuados para poner la Teora a
prueba)
2. Mtodo iterativo: Abordaje de los datos con mnima formalizacin terica
y construccin progresiva de una explicacin. (Requiere conocimiento de
las diferentes teoras que pueden explicar el fenmeno y la realizacin de
un trabajo reiterado sobre los datos)
3. Mtodo de anlisis histrico (series temporales): Consiste en formular
predicciones sobre la evolucin en el tiempo de un fenmeno. Es un caso
particular del mtodo de emparejamiento en el que la Teora es la prediccin
sobre el futuro.

Los tres mtodos pueden utilizarse conjuntamente.

4. Anlisis transversal
El anlisis transversal apunta esencialmente a verificar

si hay replica de resultados entre varios casos o


situaciones. Se agrega a las etapas precedentes
cuando los datos cualitativos recolectados se refieren
a varios casos del fenmeno (organizaciones,
situaciones, individuos)
Procede por comparacin dnde cada situacin es
analizada de acuerdo al o los modos de anlisis
descritos precedentemente, de manera de captar si
los modelos o patrones observados se reproducen.

ANLISIS CUANTITATIVO
Son los ms conocidos. En muchos casos,

cuando se requieren tcnicas estadsticas


muy complejas es conveniente solicitar el
apoyo de especialistas (que pueden conocer
mejor las tcnicas, en particular sus alcances
y limitaciones)
Existen dos niveles de anlisis cuantitativos.
1. Anlisis descriptivos
2. Anlisis ligados a las hiptesis

Anlisis descriptivos

Consiste en asignar un atributo a cada una de las variables del

modelo terico.
Los atributos pueden ser estadsticos descriptivos como la media,
la mediana, la moda o la varianza, sobre cuyas propiedades
existe gran conocimiento, experiencia y consenso, por lo que no
es necesario realizar anlisis de validez y fiabilidad. Pero en
estadsticos menos conocidos (como por ejemplo la covarianza)
puede ser necesario realizar este tipo de anlisis.
Es necesario tener definidos los criterios a seguir en caso de
porcentajes elevados de no respuesta y los eventuales sesgos
que esto pueda representar.
El anlisis descriptivo suele realizarse mediante la utilizacin de
software estadstico como el SPSS, Systat, etc.

Anlisis Descriptivo :

ayudar a observar el
comportamiento de la muestra en estudio, a travs
de tablas, grficos.....
Los resultados recogidos en la muestra se resumen
en una matriz de datos N x M , en la cual N es el
nmero de unidades de anlisis utilizadas ( nmero
de casos ) y M es el nmero de caractersticas de
dichas unidades , unidades de las que tenemos
informacin.

Anlisis ligado a las hiptesis


Cada una de las hiptesis planteadas en el

estudio debe ser objeto de una verificacin.


Cuando los datos recolectados son de naturaleza
cuantitativa, esta verificacin se realiza con la
ayuda de herramientas estadsticas que se
definen sobre la base de 3 aspectos principales:
Las hiptesis que se desea verificar
Los diseos de investigacin experimental, quasi
experimental, experimental invocado)
Distribucin estadstica de las variables

Nociones bsicas de la
Estadstica

Media o promedio
Es la medida ms comn de localizacin y representa el centro de

un grupo de datos
El valor obtenido es ms preciso que la precisin asociada con
cada observacin por lo cual siempre se representa con un dgito
ms que los utilizados en la medicin

Datos no agrupados
X

X
i 1

X
i 1

Datos agrupados
n

M
i 1

fi

Frecuencia

Mi= punto medio de la clase


fi = frecuencia de la clase i
n= fi=tamao de la muestra

Media

Ejemplo (datos no agrupados)


Ingresos mensuales en dlares
1000

1110

1010

1070

1030

1000

1150

990

1090

1080

1150

1200

1050

1030

1120

1050

1030

1150

1230

1170

1180

1110

1160

1100

1100

1060

1130

1105

935

1210

30

1000 1150 1050 1230 1100 1110 990 1030 1170L 1210
X

30
30
32800
X
1.093,33
30
i 1

Ejemplo (datos agrupados)


INTERVALO
DE CLASE

MARCA
DE CLASE

FRECUENCIA
ABSOLUTA
fi

FRECUENCIA
ABSOLUTA
ACUMULADA
Fi

FRECUENCIA
RELATIVA
Fi /n

FRECUENCIA
RELATIVA
ACUMULADA
FI /n

(930-980]

955

1/30

1/30

(980-1030]

1005

7/30

8/30

(1030-1080]

1055

13

5/30

13/30

(1080, 1130]

1105

21

8/30

21/30

(1130-1180]

1155

27

6/30

27/30

(1180-1230]

1205

30

3/30

30/30=1

30
6

30/30=1

955(1) 1005(7) 1055(5) 1105(8) 1155(6) 1205(3)


n
30
30
955 7035 5275 8840 6930 3615 32650
X

1.088,333
30
30
X

i 1

i i

i 1

i i

Mediana
La mediana m de un conjunto de datos x1,x2,,xn, es el valor
xi que se encuentra en el punto medio o centro, cuando se
ordenan los valores de menor a mayor.
La interpretacin geomtrica de la mediana, es que es el valor
que divide un histograma en dos partes iguales.
Procedimiento de clculo:

Datos no agrupados
Ordenar de menor a mayor los valores xi del conjunto de datos
individuales, i = 1,2,,n

Identificar si n es impar o par

x%

x([ n 1]) / 2)

x( n / 2) x( n / 2 1)
2

Ejemplo
Encontrar la mediana del siguiente conjunto de datos que corresponden
al tiempo en segundos, requerido por una cajera para marcar la compra
de artculos en un supermercado que utiliza verificadores automticos
{ 10, 15, 62, 53, 11, 38, 75, 112, 40, 22, 57 }.
Ordenamos el conjunto de datos:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
n = 11, impar. Entonces la mediana m es:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
Datos
1 2 3 4 5 6 7 8 9 10 11
Indice

m x n 1
2

n 1 11 1 12

6
2
2
2
x n 1 x6 40
2

m x6 40

Datos
agrupados

En el caso de que los datos estn agrupados, se obtiene primero la clase de la


mediana
La clase de la mediana se define como la primera clase que aparece en la tabla,
para la cual la frecuencia acumulada, Fi, sea igual o mayor a la mitad de la suma
de todas las frecuencias absolutas, esto es:
n

n
2
2
con j 1, 2,..., k ,
k - nmero de intervalos
Fj

i 1

Paso 1.- Obtener la Clase de la Mediana,nes decir, el primer intervalo que cumpla

la condicin:

donde
,k

Fj

n - es el nmero total de datos del conjunto


j - es el nmero del intervalo de clase que cumple la condicin, j = 1, 2,
Fj- es la frecuencia acumulada del intervalo de clase j

Calcular la mediana con la siguiente


ecuacin:

Paso 2.-

2 FL
m Lm
C
fm

Donde:
Lm = Lmite inferior del intervalo que corresponde a la clase mediana.
n = Total de datos
FL = Suma de frecuencias de todas las clases por debajo de la clase
mediana, (frecuencia acumulada absoluta de las clases anteriores a la
clase mediana)
fm = Frecuencia absoluta en la clase mediana.
C = Tamao del intervalo de clase. (amplitud o distancia del intervalo)

Ejemplo

INTERVALO
DE CLASE

MARCA
DE CLASE

FRECUENCIA
ABSOLUTA
fi

FRECUENCIA
ABSOLUTA
ACUMULADA
Fi

FRECUENCIA
RELATIVA
Fi /n

FRECUENCIA
RELATIVA
ACUMULADA
FI /n

(930-980]

955

1/30

1/30

(980-1030]

1005

7/30

8/30

(1030-1080]

1055

13

5/30

13/30

(1080, 1130]

1105

21

8/30

21/30

(1130-1180]

1155

27

6/30

27/30

(1180-1230]

1205

30

3/30

30/30=1

30

30/30=1

Paso 1.- Obtener la Clase de la Mediana


n = 30 y n/2 = 15,
k = 6 intervalos de clase
En el 4 intervalo se cumple que: F4 = 21 15.
Por tanto el cuarto intervalo se identificar como la clase mediana, esto
es:
(1080, 1130] es el intervalo de clase.
F4 = 21

Paso 2.- Calcular la mediana:

Lm = 1080 Limite inferior de la clase de la mediana


n = 30
Datos u observaciones
n/2 = 15
Datos u observaciones
FL = F3 = 13 Frec.acumul.absoluta inf.
fm = f4 = 8 Frec. Absoluta de la clase de la mediana
C = Lsup Linf = 50
No

Intervalo

fi

Fi

(1030,1080]

13

(1080,1130]

21

F
L
2
m Lm
C
f
m

(15 13)
m 1080
50 1.092,50
8
La interpretacin de este valor, es que la mitad de las familias
entrevistadas ganan menos de 1.092,50 dlares.

Moda
Es la observacin que se presenta con mayor frecuencia

en la muestra o poblacin
Si los datos tienen una sola moda son unimodales, si
tienen 2 son bimodales y as sucesivamente
No son comparables en su totalidad los resultados
obtenidos entre datos individuales y agrupados

Procedimiento de clculo (datos no agrupados):

Paso 1. Ordenar los datos en forma ascendente


Paso 2. Identificar el o los datos con mayor frecuencia

Ejemplo
En el conjunto de datos dados para medir el ingreso promedio anual de las familias que habitan en
un determinado sector, se tiene :
{935, 990, 1000, 1000, 1010, 1030, 1030, 1030, 1050, 1050, 1060, 1070, 1080, 1090, 1100, 1100, 1105, 1110,
1110, 1120, 1130, 1150, 1150, 1150, 1160, 1170, 1180, 1200, 1210, 1230 }

En este conjunto hay dos valores que aparecen ms veces :


1030 ( 3 veces)

1150 ( 3 veces)

por tanto la moda es = 1030 y 1150, y en este caso se dice que el conjunto de datos es bimodal
La Moda estar representada por la clase que posee la ms alta frecuencia, denominndose

clase modal.
El clculo de la Moda se obtiene con la siguiente expresin:

Donde:

1
Moda LI
C
2 1

LI = Lmite inferior del intervalo de clase, la clase modal.


1 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior, f i - fi-1, con i nmero de
intervalo de la clase modal
2 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior. f i - fi+1, con i nmero de
intervalo de la clase modal
C = Tamao del intervalo de clase.

Datos agrupados

Ejemplo

Calcular la moda del ingreso promedio mensual de las familias que


habitan en un determinado sector
Intervalo de clase modal: el 4, (1080 1130] ya que
f4 = 8 (la mayor frecuencia absoluta de la tabla)
LI = 1080 dlares
No.
Intervalo
fi
Fi
1 = f4 f3 = 8 - 5 = 3
2 = f4 f5 = 8 - 6 = 2
3
(1030,1080]
5
13
C = 50
4
(1080,1130]
8
21

Sustituyendo los datos:

(1130, 1180]

27

1
3
Moda LI
C 1080
50 1.110,0
2 3
2 1
Este valor de $ 1.110,0 se interpreta como el ingreso familiar que con ms
frecuencia se da

Medidas de variabilidad o
dispersin

Medidas De Dispersin
Una de las caracterstica ms importante que describe un

conjunto de datos, es la dispersin


La dispersin es la cantidad de variacin, o diseminacin en

los datos. Determina si los valores estn relativamente cercanos


entre s, o no
Tiene como propsito ofrecer informacin adicional que permita

juzgar la confiabilidad de la medida de tendencia central

Rango
Es la medida de dispersin ms fcil de calcular

Rango Valor maximo - Valor minimo


No estn usada ya que slo considera los

valores extremos de la serie de datos

Varianza
Indica qu tan dispersos se encuentran los

datos, en promedio, de la media de la


poblacin
Para representar la varianza poblacional y la
varianza muestral se utilizan los siguientes
dos smbolos:
2 - donde es la letra griega (sigma ) al
cuadrado que determinar la varianza de una
poblacin
s2 determina la varianza de la muestra
analizada

La frmula para calcular la varianza de una


poblacin est dada por la expresin:

2
(
x

)
i
i 1

N 1

1
N 1

2
x

i 1

x
i 1

donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin.
2 = La varianza de la poblacin

Para calcular la varianza muestral para datos no


agrupados se utiliza la misma frmula reemplazando
las variables 2, y N por s2,x y n, respectivamente,
esto es:

s
2

2
(
x

x
)
i
i 1

n 1

n 1

2
x
i
i 1

i 1

donde:

x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2, 3,...,n
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos No Agrupados

Para calcular la varianza muestral para datos


agrupados se utiliza la frmula:
k

s
2

f (M
i 1

x)

n 1

n 1

2
f
M

i i

i 1

f M
i 1

donde:
x - es la media muestral
xi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos Agrupados

Desviacin Estndar
En la varianza, los resultados se expresan en
unidades originales al cuadrado, por lo que se
requiere de una medida de desviacin que sea til
en unidades originales que no estn elevadas
Esta medida es llamada desviacin estndar y es
la raz cuadrada de la varianza
Para representar la desviacin estndar poblacional
y la desviacin estndar muestral se utilizan los
siguientes dos smbolos:
- donde sigma es la letra griega que
determinar la desviacin estndar de una
poblacin
s -determina la desviacin estndar de la
muestra analizada

La frmula para calcular la desviacin estndar de


una poblacin est dada por la expresin:
N

(x )
i 1

N 1

N 1

2
x
i

i 1

i 1

donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin
= La desviacin estndar de la poblacin

Para Desviacin estndar muestral


de datos
individuales se utiliza la misma frmula
reemplazando las variables y N por s, x y n,
respectivamente, esto es:
n

(x x)
i 1

n 1

n 1

2
x
i

i 1

i 1

donde:
x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2,
3,...,n
n - el nmero total de elementos de la muestra
s - la desviacin estndar de la muestra
Datos No Agrupados

Para datos agrupados se utiliza la frmula:


k

f (M
i 1

x)

n 1

1
n 1

i 1

f i M i2

f M
i 1

donde:
x - es la media muestral
Mi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
n - el nmero total de elementos de la muestra
s - la desviacin estndar de la muestra
Datos Agrupados

Ejemplo
Datos No Agrupados

Ingresos mensuales en dlares


1000

1110

1010

1070

1030

1000

1150

990

1090

1080

1150

1200

1050

1030

1120

1050

1030

1150

1230

1170

1180

1110

1160

1100

1100

1060

1130

1105

935

1210

Datos No Agrupados
Xi

Xi2

Xi

Xi2

935

874225

1100

1210000

990

980100

1105

1221025

1000

1000000

1110

1232100

1000

1000000

1110

1232100

1010

1020100

1120

1254400

1030

1060900

1130

1276900

1030

1060900

1150

1322500

1030

1060900

1150

1322500

1050

1102500

1150

1322500

1050

1102500

1160

1345600

1060

1123600

1170

1368900

1070

1144900

1180

1392400

1080

1166400

1200

1440000

1090

1188100

1210

1464100

1100

1210000

1230

1512900

Total

32800

36013050

Datos No Agrupados

Varianza
n

s2

(x
i 1

x)

n 1

n 1

2
x

i
i 1

x
i 1

(
32800
)
1

36013050

29
30

(32800) 2
1
1

36013050

36013050 35861333.3 5231.6092

29
30
29

Desviacin estndar
n

(x
i 1

x)

n 1

1
n 1

2
x
i

i 1

s s 2 5231.6092 72.33

x
i 1

Este ltimo clculo significa que existe una

dispersin de $ 72.33 con respecto a la media

Esta unidad de medida es congruente con la

obtenida al calcular la media aritmtica, por lo


tanto, se pueden hacer inferencias con respecto
a la poblacin objeto de estudio a travs de los
intervalos de confianza

Ejemplo
Consideremos los valores expuestos en el

ejemplo anterior y definamos las clases

Datos Agrupados

INT.
DE CLASE

MARCA
DE
CLASE
Mi

FREC.
ABS.
fi

X i2

fMi

fiMi2

(930 - 980]

955

912025

955

912025

(980 1030]

1005

1010025

7035

7070175

(1030 1080]

1055

1113025

5275

5565125

(1080 1130]

1105

1221025

8840

9768200

(1130 1180]

1155

1334025

6930

8004150

(1180 1230]

1205

1452025

3615

4356075

32650

35675750

30=n
29= n-1

Total

Datos Agrupados
Varianza
k

s2

f (M
i 1

x)

n 1

n 1

2
f
M
i i

f M

i 1

1
(32650)

35675750

29
30

i 1

1
35675750 35534083.3 4885.057
29

Desviacin estndar
k

f (M
i 1

x)

n 1

1
n 1

fM
i 1

4885.057 69.89

2
i

f M
i 1

Este ltimo clculo significa que existe una

dispersin de $ 69.89 con respecto a la media


Esta unidad de medida es congruente con la

obtenida al calcular la media aritmtica, por lo


tanto, se pueden hacer inferencias con respecto a
la poblacin objeto de estudio a travs de los
intervalos de confianza

Coeficiente De Variacin
Es la dispersin relativa existente entre la

desviacin estndar y la media aritmtica de


los datos
Este coeficiente est dado como el cociente
resultante de dividir la desviacin estndar
entre la media:
S

C.V .

El coeficiente de variacin se puede expresar

como porcentaje

Esta

medida de variabilidad expresa la


desviacin estndar por unidad experimental
como una medida general del experimento.

De esta forma se puede comparar entre dos

o ms coeficientes de variacin, y observar


cul muestra tiene mayor variabilidad.

Estimacin de la Desviacin Estndar


Se puede obtener la estimacin de la desviacin
estndar conociendo nicamente el rango (amplitud)
de los datos, ya que
Rango = 4 S aprox
Donde
Rango = Xmax Xmin
S aprox es la desviacin estndar
Por tanto
Saprox = Rango/4.

Ejemplo: Encontrar los intervalos para el conjunto de datos agrupados


del ingreso de familias, aproximando la desviacin estndar:
Saprox = Rango/4 = (1230-935)/4 = 295/4 = 73.75

% DE DATOS

INTERVALOS

68

1088.3373.75

(1014.58, 1162.08)

95

1088.332(73.75)

(940.83, 1235.83)

99 o 100

1088.333(73.75)

(867.08, 1309.58)

Pronsticos e informacin
Pronstico: prediccin de los hechos y

condiciones futuros

Ejemplos para una empresa:


mercadotecnia: demanda para varios productos, en
diferentes regiones y entre distintos grupos
finanzas: tasa de inters para tomar decisiones
acerca de inversiones en capital
administracin de personal: produccin futura, para
saber a cuntos emplear
programa de produccin: demanda de cada producto

Ejemplos para un gobierno:


educacin: nmero de alumnos en cada lugar, en
cada nivel
servicios pblicos: demanda para agua y luz
finanzas pblicas: recaudacin de impuestos de
varios tipos, gastos necesarios
Ejemplos para una organizacin no-gubernamental:

recaudacin de fondos
costos de proyectos

Ejemplos para un individuo o una familia:


valor de acciones, divisas y otras inversiones
ingresos futuros
costo de la universidad para los hijos
valor de los fondos para el retiro

informacin transversal: valores observados en un punto

de tiempo (datos transversales)

Serie de tiempo: sucesin cronolgica de

observaciones de una variable particular. (datos de


serie de tiempo)

Partes de una serie de tiempo:

Tendencia
Ciclo
Variaciones estacionales
Fluctuaciones irregulares

Mtodos para establecer


pronsticos
Cualitativos

Juicio experto
Mtodo Delphi y el grupo de consenso
Pronsticos populares e investigacin de mercado
Cuantitativos
Modelo de serie de tiempo

Se pronostica el valor futuro de la variable basndose en el


comportamiento anterior de la misma durante un periodo de
tiempo.

Modelos causales para establecer pronsticos

Se pronostica el valor futuro de la variable en base de los


factores conocidos y cuantificables que afectan la variable
variable dependiente
variables independientes

Modelos de serie de tiempo


Modelo de nivel
Un modelo de pronostico que es aplicable cuando la
demanda por periodo es relativamente constante
sobre el tiempo alrededor de un valor A fijo pero
desconocido.

Dt
A

Et

Modelo de tendencia
Un modelo de pronostico que es aplicable cuando la
variable por periodo muestra un patrn por lo general
creciente o decreciente durante el tiempo

Modelo estacional

Un modelo de pronostico que es aplicable cuando la


variable por periodo en un ao tiene un patrn
estacional definido que se repite cada ao

Mediciones de rendimiento de
modelos de pronostico
Error medio cuadrado (RMSE)
La medicin de funcionamiento de un modelo de
pronostico obtenida al calcular la raz cuadrada del
promedio de los cuadrados de los errores de
pronostico
Error medio absoluto (MAE)
La medicin de funcionamiento de un modelo de
pronostico obtenida calculando el promedio del valor
absoluto de los errores de pronostico
Error medio porcentual absoluto (MAPE)
La medicin de funcionamiento de un modelo de
pronostico que se obtiene calculando el promedio de
los errores de pronostico absolutos como un
porcentaje de la variable real

Modelo de pronsticos
causales, ajuste de curvas

Regresin y Correlacin
Introduccin
En la investigacin las variables que estn asociadas
entre si pueden ser relacionadas matemticamente
una en funcin de la otra
Las variables pueden tener una relacin clara o
absurda
Nota: estadsticamente interesa analizar una relacin
existente o lgica entre variables
Objetivo: proporcionar los procedimientos y las
tcnicas para expresar y medir la relacin entre
variables

Decimos que dos variables, X e Y, estn correlacionadas cuando hay


una relacin cuantitativa entre ellas. X suele ser la variable
independiente e Y la dependiente (Y depende de X).

Altura y peso de nios. Peso = f(Altura)


Velocidad mxima que alcanza un coche y potencia de su motor.
Velocidad = f(Potencia)
Presupuesto para adquisiciones y nmero de libros que puede adquirir
una biblioteca. Libros = f(Presupuesto)
Si se hace una lista ordenando las palabras segn su frecuencia de
aparicin en un texto extenso, se encuentra que hay una correlacin
entre frecuencia y posicin o rango en esa lista. Frecuencia = f(Rango)
=>(Ley de Zipf)

La relacin puede ser claramente causal o no.


La potencia del motor de un coche es la causa de que alcance una
mayor velocidad, as como un mayor presupuesto el que se puedan
comprar ms libros. (X es la causa de Y)
En cambio, el rango de una distribucin tipo Zipf no es la causa de la
frecuencia; en todo caso, la frecuencia es la causa del rango. (Y es la
causa de X)

La relacin altura peso tiene parte de causalidad, pero tambin


existen otros factores. (X y otros factores son la causa de Y)

Relaciones espreas
Hay que evitar las denominadas relaciones espreas o
espurias, es decir, que llevan a conclusiones errneas.
Ocurren cuando dos variables, X e Y, son realmente
independientes entre s, pero dependientes ambas de una
misma causa comn, Z.
X

Y
Z

Ejemplo de relacin esprea: Cierto bilogo ingls public un estudio en el que


se comprueba que en los pueblos y ciudades con ms cigeas en los
campanarios, X, nacen ms nios, Y. Lleg a la conclusin de que los nios los
trae la cigea.
Lo cierto es que tanto el nmero de cigeas, X, como el de nios, Y, dependen
de la causa comn, Z, que es el tamao del pueblo o ciudad. En las poblaciones
grandes hay siempre ms cigeas y ms nios. Tanto cigeas como nios
estn correlacionados con el tamao de la poblacin, pero no entre ellos
mismos.

Con el anlisis de las series de tiempo se estudiaran mtodos para


pronosticar el valor de una variable: con la informacin del pasado se
extrapolar tal comportamiento para predecir el futuro; en esta parte
se estudiarn los mtodos causales: relacin entre causa y efecto,
donde no necesariamente el pronstico depender del tiempo.
Variable
independiente
x

Variables
independientes
x1, x2, ..., xn

Relacin simple:
y=f(x)

Relacin mltiple:
y=f(x1, x2, ..., xn)

Variable
dependiente
y

1. La relacin entre una causa y un efecto.

Efecto y

Las relaciones encontradas por la regresin son relaciones de


asociacin, pero no necesariamente relaciones de causa y efecto.
Esto es no debe inferirse causalidad de las relaciones encontradas
por la ecuacin de regresin.

2. La relacin entre una causa y otra causa.

Causa y

Causa x

3. La relacin entre un efecto y otro efecto (un


problema y otro problema, o una caracterstica de
calidad del producto con otra).

Efecto y

Causa x

Efecto x

Tres Pasos para hacer


un pronstico:
1.- Determinar la forma
de la relacin funcional
entre las variables, puede
ser lineal, exponencial,
cuadrtica, etc.
2.- Estimar los parmetros
de la relacin.
3.- Probar que la relacin
encontrada con sus
parmetros
correspondientes
se ajustan a los datos
observados.

Anlisis de regresin (clculo


de la ecuacin de regresin),
slo para una relacin lineal.
Anlisis de correlacin utilizado
para medir que tan bien sirve la
ecuacin de regresin para
expresar la relacin entre las
variables.
Una variable: Varias variables:
y=f(x)
y=f(x1, x2, ..., xn)

Anlisis de regresin Anlisis de regresin


x= variable independiente (regresor). y correlacin simple y correlacin mltiple
y= variable dependiente o de respuesta.

Nubes de Puntos
Sea un conjunto de pares de valores de las variables X e Y. Si los
representamos en un diagrama de dispersin obtendremos una nube de
puntos que nos dar una idea grfica de la posible correlacin entre ambas
variables.

No hay relacin

Relacin positiva

Relacin negativa

Algunos tipos de relaciones

Modelo Lineal

relacin lineal positiva

relacin lineal negativa


Potencial
Logartmica
Otros tipos
Potencial
Potencial

inversa

Exponencial

Exponencial

positiva

negativa

Otros tipos

Otros tipos

Relaciones entre variables aleatorias y regresin


lineal

El trmino regresin fue introducido por Galton en su libro


Natural inheritance (1889) refirindose a la ley de la regresin
universal:

Cada peculiaridad en un hombre es compartida por sus


descendientes, pero en media, en un grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos fsicos
de los descendientes (una variable) a partir de los de sus
padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de 1000
registros de grupos familiares observando una relacin del tipo:

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)


Conclusin: los padres muy altos tienen tendencia a tener
hijos que heredan parte de esta altura, aunque tienen
tendencia a acercarse (regresar) a la media. Lo mismo
puede decirse de los padres muy bajos.

Hoy en da el sentido de regresin es el de prediccin de una


medida basndonos en el conocimiento de otra.

Francis Galton

Estudio conjunto de dos variables


aleatorias

A la derecha tenemos una posible manera de recoger los


datos obtenido observando dos variables aleatorias en
varios individuos de una muestra.

Altura
en cm.

Peso en
Kg.

162

61

154

60

180

78

Cada columna representa los valores que toma una


variable aleatoria sobre los mismos.

158

62

171

66

Las individuos no se muestran en ningn orden particular.

169

60

166

54

176

84

163

68

...

...

En cada fila tenemos los datos de un individuo

Dichas observaciones pueden ser representadas en un


diagrama de dispersin (scatterplot). En ellos, cada
individuos es un punto cuyas coordenadas son los valores
de las variables.
Nuestro objetivo ser intentar reconocer a partir del mismo
si hay relacin entre las variables, de qu tipo, y si es
posible predecir el valor de una de ellas en funcin de la
otra.

Diagramas de dispersin o nube de puntos


Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin. Cada punto es un valor particular de la variable
aleatoria bidimensional (X, Y).

Pesa 50 kg.
Mide 161 cm.

Mide 187 cm.

Pesa 76 kg.

Relacin entre variables


Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.

ue
q
ce
e
r
Pa ra
altu

s
e
p
el

nta
e
um
a
o

la
n
co

Prediccin de una variable en funcin de otra


Aparentemente el peso aumenta 10 Kg por cada 10 cm de altura... O sea,
el peso aumenta en una unidad por cada unidad de altura.

10 kg.

10 cm.

Cmo reconocer relacin directa e inversa


330
280

Incorrelacin

230
180
130
80
30
140

150

160

170

180

190

200

Para valores de X por encima de la media


tenemos valores de Y por encima y por
debajo en proporciones similares.
Incorrelacin.

Para los valores de X mayores

que la media le corresponden


valores de Y mayores tambin.
Para los valores de X menores

que la media le corresponden


valores de Y menores tambin.
Esto se llama relacin directa o

creciente entre X e Y.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.

Cmo reconocer buena o mala relacin

Dado un valor de X no podemos decir


gran cosa sobre Y. Mala relacin.
Independencia.

Conocido X sabemos que Y se mueve

por una horquilla estrecha. Buena


relacin.
Lo de horquilla estrecha hay que

entenderlo con respecto a la dispersin


que tiene la variable Y por si sola, cuando
no se considera X.

Covarianza
Recordemos que...
Media aritmtica: Suma de los valores que toma una variable dividida entre el
nmero total, n, de valores sumados.

Varianza: Es una medida de lo que se dispersan los valores de una muestra


respecto de su media. Se determina con cualquiera de las formulas equivalentes
siguientes:
2

Vx S

2
x

x x

o bien mediante Vx S

2
x

2
i

La varianza, V, es tambin el cuadrado de la desviacin tpica, S.

Cuando se trata de una distribucin bidimensional...


Covarianza: Es una medida de lo que se dispersan los valores de una muestra
bidimensional tanto del valor medio de la x como del valor medio de la y. Se
determina mediante la expresin:

Vxy S xy

x x y
i

o bien mediante Vxy S xy

x y
i

xy

La covarianza entre dos variables, Sxy, nos indica

si la posible relacin entre dos variables es directa


o inversa:

Directa: Sxy > 0

Inversa: Sxy < 0

Incorreladas: Sxy = 0

El signo de la covarianza nos dice si el aspecto de

la nube de puntos es creciente o no, pero no nos


dice nada sobre el grado de relacin entre las
variables.

Coeficiente de correlacin lineal de Pearson


El coeficiente de correlacin lineal de Pearson

de dos variables, r, nos indica si los puntos tienen


una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).

Tiene el mismo signo que Sxy . Por tanto de su

signo obtenemos el que la posible relacin sea


directa o inversa.
r es til para determinar si hay relacin lineal entre

dos variables, pero no servir para otro tipo de


relaciones (cuadrtica, logartmica,...)

S xy
SxSy

Grado de Correlacin
El coeficiente de correlacin, r, presenta valores entre 1 y +1.
Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La

nube de puntos est muy dispersa o bien no forma una lnea recta. No se
puede trazar una recta de regresin.
Cuando r es cercano a +1, hay una buena correlacin positiva entre las

variables segn un modelo lineal y la recta de regresin que se determine


tendr pendiente positiva, ser creciente.
Cuando r es cercano a -1, hay una buena correlacin negativa entre las

variables segn un modelo lineal y la recta de regresin que se determine


tendr pendiente negativa: es decreciente.

No hay
correlacin

r 0

Hay correlacin
no lineal

r 0

Correlacin lineal
positiva

r 1

Correlacin lineal
negativa

r 1

Entrenando el ojo: correlaciones positivas.

Entrenando el ojo: casi perfectas y positivas

Entrenando el ojo: correlaciones negativas

Si r = 0 eso quiere decir que


las variables son independientes?

Me ha salido r = 1,2 La relacin es superlineal ?

En la prctica, casi siempre


s, pero no tiene por qu ser
cierto en todos los casos.
Lo contrario si es cierto:
Independencia implica
incorrelacin.

Superqu? Eso es un error de clculo. Siempre debe tomar un


valor entre -1 y +1.

A partir de qu valores se considera que hay buena relacin lineal?

Es difcil dar un valor concreto (mirad los grficos anteriores). Para


este curso digamos que si |r| > 0,7 hay buena relacin lineal y que si
|r| > 0,4 hay cierta relacin (por decir algo... la cosa es un poco ms
complicada: observaciones anmalas,...)

Regresin lineal simple


El anlisis de regresin sirve para predecir una medida

en funcin de otra medida (o varias: regresin mltiple).

Y = Variable dependiente
predicha, medida, es una variable aleatoria
explicada
X = Variable independiente
predictora, controlada, no es una variable aleatoria.
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X

Regresin lineal simple


El ejemplo del estudio de la altura en grupos familiares de Pearson

es del tipo que desarrollaremos en el resto del tema.

Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

Si el padre mide 200cm cunto mide el hijo?


Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.

Si el padre mide 120cm cunto mide el hijo?


Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.

Es decir, nos interesaremos por modelos de regresin lineal simple.

Modelo de regresin lineal simple


En el modelo de regresin lineal simple, dado dos variables
Y (dependiente)
X (independiente, explicativa)
buscamos encontrar una funcin de X muy simple (lineal) que

nos permita aproximar Y mediante

= b0 + b1X

b0 (ordenada en el origen, constante)

b1 (pendiente de la recta)

Y e rara vez coincidirn por muy bueno que sea el modelo de

regresin. A la cantidad

e = Y- se le denomina residuo o error residual.

En el ejemplo de Pearson y las alturas, l encontr:

= b0 + b1X

b0 = 85 cm (No interpretar como altura de un hijo cuyo padre


mide 0 cm Extrapolacin salvaje!)
b1= 0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)

b1=0,5

b0=85 cm

La relacin entre las variables no es exacta. Es natural preguntarse

entonces:
Cul es la mejor recta que sirve para predecir los valores de Y
en funcin de los de X
Qu error cometemos con dicha aproximacin (residual).

b1=0,5

b0=85 cm

El modelo lineal de regresin se construye utilizando la tcnica de

estimacin de mnimos cuadrados:

Buscar b0, b1 de tal manera que se minimice la


cantidad

i ei2 = i (Yi - )2

Se comprueba que para lograr dicho resultado basta con elegir:

b1 r

Sy
Sx

b0 y b1 x

La recta de regresin estimada ser:

S xy

SxS y

y y b1 ( x x )

Se obtiene adems unas ventajas de regalo:

El error residual medio es nulo.


La varianza del error residual es mnima para dicha
estimacin.

Que el error medio de las

predicciones sea nulo no quiere


decir que las predicciones sean
buenas.

Hay que encontrar un medio de

expresar la bondad del ajuste


(bondad de la prediccin).

No importa. Con los dos


ltimos clientes me
equivoqu en +10 y
+20. En trmino medio
el error es cero.

Cometi un
error de - 30 en
su ltima
prediccin

Cmo medir la bondad de una regresin?


Imaginemos un diagrama de
dispersin, y vamos a tratar de
comprender en primer lugar qu
es el error residual, su relacin
con la varianza de Y, y de ah,
cmo medir la bondad de un
ajuste.

Interpretacin de la variabilidad en Y
En primer lugar olvidemos que
existe la variable X. Veamos cul
es la variabilidad en el eje Y.

La franja sombreada indica la zona


donde varan los valores de Y.
Proyeccin sobre el
eje Y = olvidar X.

Interpretacin del residuo


Fijmonos ahora en los errores de
prediccin (lneas verticales). Los
proyectamos sobre el eje Y.
Se observa que los errores de
prediccin, residuos, estn menos
dispersos que la variable Y original.
Cuanto menos dispersos sean los
residuos, mejor ser la bondad del
ajuste.

Bondad de un ajuste
Resumiendo:
La dispersin del error residual ser una
fraccin de la dispersin original de Y.
Cuanto menor sea la dispersin del error
residual mejor ser el ajuste de regresin.

Eso hace que definamos como medida


de bondad de un ajuste de regresin,
o coeficiente de determinacin a:

S
R 1
S
2

2
e
2
y

S S
2
e

2
Y

EJEMPLOS DE REGRESIN
LINEAL SIMPLE

Ejemplo 1. Regresin Lineal


y
2
3
4
5

8
7

y = x+ 2

6
5
4
3

x
0
1
2
3

2
1

n xi yi xi yi
n xi2 xi

y b x

a
i

0
-4

-3

-2

-1 -1 0

-2
X

Bondad de los ajustes


Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar

mediante cualquiera de las dos expresiones siguientes:

x y

x y

x
2
x
n

2
i

2
i

n x

n xi yi xi yi

2
i

xi n yi2 yi
2

Coeficiente de Determinacin, R2
Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el

Coeficiente de Determinacin, R2, que es el Coeficiente de Correlacin elevado


al cuadrado.
Se determina mediante cualquiera de las dos expresiones siguientes:

R2

x y
i

xi2 x 2

x y

yi2
2

y
n

n x y x y

n x x n y y
2

R2

2
i

2
i

Su valor oscila entre 0 y +1.


Cuando hay una buena correlacin lineal, R 2 es muy cercano a +1.

Normalmente se acepta para valores de R 2 >= 099.

Cuando no hay correlacin o bien sta no es lineal, R 2 es bajo e incluso

cercano a cero

Ejemplo 2: Relacin Profesores/Alumnos


en las Universidades
Universidades

Alumnos Profesores

Aragn
Asturias
Baleares
Cantabria
Castilla la Mancha
Castilla Len
Extremadura
Madrid
Murcia
1.

Trazar la grfica de la distribucin

2.

Calcular parmetros de la distribucin

3.

Cul es la Universidad con mejor proporcin


profesor/alumno?

R2=0.998

b=0.0515

a=-17

36154
34441
9519
11962
15123
74272
17678
214402
26407

2043
1442
385
737
787
4030
865
10971
1248

4.

Qu Universidad tiene la peor ratio y cuntos


profesores necesitara para equilibrarla?

5.

Calcular los valores tericos de profesores de la


Universidad de Granada si sta tena 55123
alumnos en el curso 1994-95.

6.

Calcular los valores de la FBD si sta tena 1100


alumnos

Ejemplo 2: Grfica de distribucin


Relacin Profesores/Alumnos en
Universidades

14000

3000

12000

2500
Profesores

Profesores

10000
8000
6000
4000

2000
1500
1000

2000

500

0
0

100000

200000

Alumnos

300000

10000

20000

30000

Alumnos

40000

50000

Modelos No Lineales

Antes de proceder a la regresin, hay que transformar la ecuacin no lineal,


y = f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x,
a y b respectivamente.
Modelo

Potencial

Exponencial

y ax b

Ecuacin
Ecuacin
Linealizada

Logartmico

y aebx

log y log a b log x

ln y ln a bx

Log y

y a b log x
----------

Ln y

Grfica
Log x

Log x

Log y

Ln y

Log x

Log x

Log a

Ln a

a
b

eA

10 A
B

A
B

(c) Rosario Ruiz Baos. Departamento de Biblioteconoma y Documentacin. Universidad de Granada (Espaa)

Ejemplo 3: El Pndulo de
Galileo

Una de las principales aportaciones de Galileo Galilei (15641642), fue encontrar la relacin entre el tiempo o periodo de
oscilacin de un pndulo y su longitud. Esto permiti construir
por primera vez en la historia relojes de gran precisin basados
en pndulos. Dicen que la idea de correlacionar estas variables
se le ocurri en la iglesia de su ciudad natal, Pisa, mientras,
absorto, observaba cmo oscilaban las lmparas del techo...

Estos datos podran corresponder a


un hipottico experimento realizado
por Galileo...

T(s)
0,6
1,1
2,1
3,4
5,0
6,0

7,0
Tiempo de oscilacin, T(s)

L(m)
0,1
0,3
1,0
3,0
6,0
9,0

El Pndulo de Galileo

6,0
5,0
4,0
3,0
2,0
1,0
0,0
0,0

2,0

4,0

6,0

8,0

Longitud del pndulo, L(m)

10,0

Las deducciones de Galileo


Para encontrar el modelo que relaciona periodo de oscilacin, T, con la longitud del
pndulo, L, Galileo bien pudo hacer las siguientes deducciones...

7,0

10,0

6,0
5,0

log T

4,0
3,0
2,0

1,0

No es lineal

1,0

No es exponencial

0,0
0,0

2,0

4,0

6,0

8,0

0,1

10,0

0,0

2,0

4,0

6,0

8,0

10,0

L
10,0

7,0
6,0

Tampoco es logartmica
log T

5,0

4,0
3,0

1,0

Es potencial

2,0
1,0
0,0

0,1
0,1

1,0

log L

10,0

0,1

1,0

log L

10,0

T aL
y ax b

Clculos de la Regresin Potencial para


el Pndulo de Galileo

Como vamos a ajustar a un modelo potencial, hacemos el cambio de variables: X = log x e Y = log y.
Por lo dems se procede exactamente igual a una regresin lineal, ajustando a una expresin del tipo
Y = A + BX. Por ltimo, de B y A calculados se despejan b y a respectivamente.

L(m)

T(s) X = log x

Y = log y

X
Y
y
0,6
-1 -0,22185
1,1 -0,52288 0,041393
2,1
0 0,322219
3,4 0,477121 0,531479
5,0 0,778151 0,69897
6,0 0,954243 0,778151
Sumas 0,686636 2,150363

x
0,1
0,3
1,0
3,0
6,0
9,0

XY

X^2

Y^2

0,221849
-0,02164
0
0,25358
0,543904
0,742545
1,740235

1
0,273402182
0
0,227644692
0,605519368
0,910578767
3,017145009

0,049217
0,001713
0,103825
0,28247
0,488559
0,605519
1,531304

n= 6

n xi yi xi yi

n x xi
2
i

b xi
n

6 1,740235 0,686636 2,150363


0,5085
6 3.01745009 (0,686636) 2

2,150363 0,5085 0,686636


0,3002
6

b B 0,5085

a 10 A 100,3002 1,9962

n x y x y

n x x n y y
2

R2

2
i

2
i

0.9988

Ley del Pndulo


10,0

7,0
6,0

4,0
1,0

log T

5,0

3,0
y = 1,9962x 0,5085
R2 = 0,9988

y = 1,9962x 0,5085
R2 = 0,9988

2,0
1,0

0,1

0,0
0,1

1,0

10,0

log L

2,0

4,0

6,0

8,0

10,0

L
Generalizando...

Se deduce que...

1
2

T 2L 2L 2 L
0 '5

0,0

T k

El periodo de oscilacin de un pndulo es


proporcional a la raz cuadrada de su longitud

S-ar putea să vă placă și