Sunteți pe pagina 1din 36

1

1/71
Tema 9.1
Preparacin de datos
Regresin lineal
2/71
Distribuciones de frecuencias
Espacio muestral: conjunto de todos los sucesos
posibles y distintos del experimento
Distribuciones empricas: cuando la variable es
discreta y el nmero de sucesos del espacio
muestral es pequeo
Distribuciones agrupadas: cuando la variable es
continua o el nmero de sucesos es grande
Recorrido o rango: diferencia entre los valores
extremos de la variable
Intervalos de clase: divisin del recorrido de la
variable en intervalos ms pequeos
Marcas de clase: valor representativo. Punto
medio del intervalo de clase
2
3/71
Reduccin de datos
Medidas de posicin y centralizacin
4/71
Medidas de posicin y centralizacin
Nos centramos en el estudio de variables
discretas
Mediana: dispuestos los datos por orden de
magnitud, quedan el mismo nmero por
encima o por debajo del valor central. En caso
de nmero de valores par se hara la media de
los centrales
Ejem: 3, 20, 24, 17, 27, 28, 29, 35
3, 17, 20, 24, 27, 28, 29, 35
5 , 25
2
51
2
27 24
= =
+
= Me
3
5/71
Medidas de posicin y centralizacin
Percentil de orden P: valor de la variable
para el cual el nmero de observaciones con
valores iguales o inferiores a l es el P% del
nmero total de observaciones hechas
Los percentilescorrespondientes al 25% o
al 75% se denominan cuartiles
Cuartil inferior Q1: percentil del 25%
Cuartil superior Q2: percentil del 75%
6/71
Medidas de posicin y centralizacin
Moda: Valor de la variable ms frecuente en la
distribucin
Un valor puede tener varias modas
No responde a una caracterstica de valor
central
No estinfluida por todas las observaciones ni
tiene correspondencia con los valores extremos
de la distribucin
Ejem: 7, 8, 8, 8, 12, 13, 16
Mo=8
4
7/71
Medidas de posicin y centralizacin
Media aritmtica: suma de los valores
observados, dividida entre el nmero de
observaciones efectuadas

=
=
+ + + +
=
N
i
i i
N
x n
N N
x x x x
X
1
3 2 1
.
1 ...
8/71
Reduccin de datos
Medidas de dispersin
5
9/71
Medidas de dispersin
Recorrido intercuartlico: comprende el 50% de las
observaciones
R
q
=Q
2
Q
1
Desviacin mediade un parmetro:
Si el valor de xi p no fuera absoluto el sumatorio
sera igual a 0 cuando
p x n
N
d
i
i
i p
=

1
X p =
10/71
Medidas de dispersin
Ejemplo: 2, 3, 7, 9
2-5,25=-3,25
3-5,25=-2,25
7-5,25=1,75
9-5,25=3,75
25 , 5
4
9 7 3 2
=
+ + +
= x
0 =
i
r
6
11/71
Medidas de dispersin
Varianza: desviacin cuadrtica media con
respecto a la media de la distribucin
( )

=
N
i
i i
X x n
N
S
2
2
1
12/71
Medidas de dispersin
Desviacin tpicao estndar: Para evitar el
problema de la dimensin cuadrtica de la
varianza, se define la desviacin tpica
como el valor positivo de la raz cuadrada
de la varianza
( )

=
N
i
i i
X x n
N
S
2
1
7
13/71
Definicin de distribuciones
El clculo de parmetros estadsticos no
determina si los datos de la distribucin son
correctos
Slo se sabrsi un nuevo dato procede de
esa distribucin cuando sta est
contrastada y podamos comprobar que no se
separa en un cierto margen del dato terico
esperado
14/71
Comportamiento de la varianza
ante un cambio de origen
Fr
0 3 6 9
6
0
-3 -6 -9
8
15/71
Comportamiento de la varianza
ante un cambio de unidad
Fr
60
0
-30 -60 -90
16/71
Reduccin de datos
Momento, Sesgo y Curtosis
9
17/71
Momentos
Se define como momentode orden r
respecto a un valor cualquiera (A)
( )

=
=
N
j
r
j
A x
N
a
1
1
18/71
Momentos respecto al origen
El momento de una distribucin con
respecto al valor cero (origen) ser:
El momento respecto al origen de primer
orden coincide con la media
r
i
i
i r
x n
N
a .
1

=
X x n
N
a
i
i
i r
= =

.
1
10
19/71
Momentos centrales
Si se calcula el momento con respecto a la
media, se obtiene:
El momento central de segundo orden
coincide con la varianza
( )

=
=
N
j
r
j i r
X x n
N
m
1
1
( )

=
=
N
j
j i
X x n
N
m
1
2
2
1
20/71
Coeficiente de Asimetra o Sesgo
Si el polgono de frecuencias de una
distribucin no es simtrica, se dice que la
distribucin es asimtrica o que tiene sesgo
Fr
Mo X
Asimetra Negativa Asimetra Positiva
Fr
Mo X
11
21/71
Coeficiente de Asimetra o Sesgo
Segn la diferencia entre la y la Mo
podrn darse los casos siguientes:
- Mo=0; distribucin simtrica
- Mo>0; distribucin asimtrica positiva
- Mo<0; distribucin asimtrica negativa
El coeficiente de asimetra de Pearson
permite dar una idea de la asimetra de una
distribucin
X
X
X
X
x
S
Mo X
22/71
Coeficiente de Asimetra o Sesgo
Analizando la frmula de los momentos,
podemos deducir que si la distribucin es
simtrica los momentos de orden impar son
nulos
Si la asimetra es positiva habrms
diferencias que sern positivas y por
tanto m
r
serpositivo
( )

=
=
N
j
r
j i r
X x n
N
m
1
1
( ) X x
j

12
23/71
Coeficiente de Asimetra o Sesgo
Para r =1 el momento correspondiente ser
nulo. Sernecesario calcular el momento de
tercer orden
Para evitar que el resultado nos de
dimensin tres con respecto a la variable se
divide por S
3
3
3
1
S
m
g =
g
1
>0; asimtrica positiva
g
1
<0; asimtrica negativa
g
1
=0; simtrica
24/71
Coeficiente de apuntamiento o
curtosis
Si consideramos dos distribuciones con
igual y S, pero con ms concentracin de
frecuencias en torno a la media en una de
ellas. Una serms esbelta que la otra
X
13
25/71
Coeficiente de apuntamiento o curtosis
Se comprueba de manera experimental , que
dadas dos distribuciones, la ms esbelta
tiene los momentos centrales de orden par
superior a dos, mayores que la ms
aplastada
Sersuficiente usar el momento de orden 4
En una distribucin normal tenemos
3
4
4
=
S
m
26/71
Coeficiente de apuntamiento o
curtosis
Podemos definir el coeficiente de
apuntamiento como
3
4
4
2
=
S
m
g
g
2
>0; ms esbelta que la normal
g
2
<0; menos esbelta que la normal
g
2
=0; distribucin normal
14
27/71
Distribuciones bidimensionales
Son aquellas que dan lugar a la medida de
dos variables x
i
e y
i
n
n
y
n
x
n
..... ...... ......
n
3
y
3
x
3
n
2
y
2
x
2
n
1
y
1
x
1
n Y X
28/71
Momentos en distribuciones
bidimensionales
Momentos respecto al origen
Si el orden se considera r +s
Si r=1 y s=0
s
j
i
r
i
j
ij rs
y x n
N
a

= . .
1

= = =
i
i i j
i
r
i
j
ij
x n x
N
y x n
N
a .
1
. .
1
0
10
15
29/71
Momentos en distribuciones
bidimensionales
Momentos respecto a la media
Si el orden es r +s
Los momentos m
10
y m
01
=0
Si r =2 y s =0
( ) ( )
s
j
i j
r
i ij rs
Y y X x n
N
m =

.
1
( ) ( )
2
2 2
20
1 1
x
i
i i
i j
i ij
S X x n
N
X x n
N
m = = =

30/71
Momentos en distribuciones
bidimensionales
Por analoga m
02
=
Si r =1 y s =1, se obtiene la covarianza
( ) ( ) Y y X x n
N
m
j
i j
i ij
=

.
1
11
2
y
S
16
31/71
Regresin y correlacin
32/71
Regresin y correlacin
Si todos los valores de las variables satisfacen una
ecuacin exactamente decimos que las variables
estn perfectamente correlacionadas.
Por ejemplo:
C=2..r
Si se lanzan dos dados 100 veces no hay relacin
entre las puntuaciones
Variables como el peso y la altura de las personas
tienen cierta relacin
17
33/71
Regresin y correlacin
La regresinserla funcin que represente
la relacin entre variables
La correlacinserun coeficiente que nos
indicarsi existe relacin entre ambas
variables
34/71
Regresin y correlacin
Es habitual emplear y =ax +b , en la que x es
la variable independiente e y la dependiente.
Si la variable dependiente es x, la definicin
se modifica considerando desviaciones
horizontales () en lugar de verticales ()
Estas dos definiciones conducen en general a
dos curvas distintas de mnimos cuadrados,
Y sobre X; y X sobre Y
18
35/71
Regresin y correlacin

36/71
Regresin y correlacin
Se denomina correlacin positiva o directa
cuando y tiende a crecer cuando crece x
Se denomina correlacin negativa o inversa
cuando y tiende a decrecer cuando crece x
19
37/71
Regresin y correlacin
Para ajustar una recta a una nube de puntos
se aplica el mtodo de mnimos cuadrados,
calculando la suma de los cuadrados de los
residuos y haciendo mnima esta expresin
Sea la funcin que se aproxima f(x) =bx+a
( ) ( )
2 2
2
. ) ( a bx y n i f y n n E
i i
i
i i
i
i i
i
i
= = =


38/71
Regresin y correlacin
Las condiciones de mnimo seran
( ) 0 . 2 = =

a bx y n
da
dE
i i
i
i
( ) 0 . . 2 = =

a bx y x n
db
dE
i i i
i
i
El sistema
sera
equivalente
al siguiente
y x b a = +
11 20
a ba x a = +
En los que a
20
y a
11
son momentos.
De la primera ecuacin se
concluye que la recta pasa por los
puntos y e x
20
39/71
Regresin y correlacin
Del sistema de ecuaciones obtenemos el valor
de la pendiente b, denominado coeficiente de
regresin
Como sabemos que la recta pasa por el valor
medio de ambas variables se puede expresar
en forma paramtricala ecuacin de y sobre x

=
2
11
x
S
m
b
( ) x x
S
m
y y
x
=
2
11
40/71
Regresin y correlacin
De forma similar se obtendra la ecuacin de x
sobre y
El coeficiente de correlacin sirve para medir la
bondad del ajuste y carece de dimensin. Se
define como la media geomtrica de los
coeficientes de regresin
( ) y y
S
m
x x
y
=
2
11
y x y x y x y x
S S
m
S S
m
S
m
S
m
r
S
m
S
m
r
.
. ; .
11
2 2
2
11
2
11
2
11
2
11
2
11 2
= = = =
21
41/71
Regresin y correlacin
Como propiedades ms destacadas del
coeficiente de correlacin tenemos:
Estcomprendido entre +1 y 1
Es invariante en un cambio de origen y unidad;
con lo que r(x,y) =r(u,v)
Si r =1 la correlacin es perfecta y directa
Si r =-1 la correlacin es perfecta e inversa
Si r =0 las dos variables estn
incorrelacionadas
42/71
Correlacin de Spearmano
por rdenes
En este caso se tienen en cuenta los rdenes
que en una relacin tengan las magnitudes,
en lugar del valor de las mismas
X
i
=nde orden que ocupa x
i
Y
i
=nde orden que ocupa y
i
La recta de regresin de Y sobre X se expresa

+
=
+

2
1
2
1 N
X r
N
Y
s
22
43/71
Correlacin de Spearmano
por rdenes
Donde N es el nmero de pares
correlacionados y r
s
es el coeficiente de
correlacin de Spearman
En el que
( ) ( ) 1 . . 1
6
1
2
+
=

N N N
r
i
s

i i i
Y X =
44/71
Ejemplo
Calcular el coeficiente de correlacin de Spearman
y la recta de regresin de y sobre x de las series de
las calificaciones de Filosofa y Matemticas de
los alumnos de una clase
1 0
3 4
10 9
6,5 8,3
6,8 7,5
Filosofa Matemticas
23
45/71
Ejemplo
Se ordenan los datos de mayor a menor
0 0 5 5 (5) 0 (5) 0
0 0 4 4 (4) 3 (4) 4
0 0 1 1 (1) 10 (1) 9
1 -1 3 2 (3) 6,5 (2) 8,3
1 1 2 3 (2) 6,8 (3) 7,5
(X
i
-Y
i
)
2
X
i
-Y
i
Y
i
X
i
y
i
x
i
46/71
Ejemplo
Calculando el coeficiente de correlacin
La recta de regresin quedara
( ) ( )
9 . 0
6 . 5 . 4
12
1
1 5 . 5 . 1 5
2 . 6
1 = =
+
=
s
r

+
=
+

2
1
2
1 N
X r
N
Y
s
( ) 3 , 0 . 9 , 0 ; 3 9 , 0 3 ;
2
1 5
9 , 0
2
1 5
+ = =

+
=
+
X Y X Y X Y
24
47/71
Funciones de ajuste ms
frecuentes
Las funciones de ajuste ms frecuentes
son de la forma
a) y =a e
bx
b) y =a +b lnx
c) y =a x
b
d) y =b
0
+b
1
x +b
2
x
2
+..... +b
n
x
n
48/71
Funciones y =a e
bx
Si tomamos logaritmos a la funcin
lny =lna +bx
Haciendo un cambio de variable
La funcin se transforma Y =A +B X
X x
B b
A lna
Y lny
25
49/71
Funciones y =a e
bx
Slo habra que ajustar una recta a esos
valores y luego deshacer el proceso
El ajuste exponencial es adecuado si b>0 e
y crece muy deprisa al crecer x, o si b<0 e y
decrece muy deprisa al crecer x
50/71
Funciones y =a e
bx
Para calcular la recta de regresin sera
necesario calcular los valores
Covarianza m
11
Varianza de x
Media de las x
Media de los lnde y
Y
X
2
x
S
26
51/71
Funciones y =a e
bx
Una vez obtenidos estos valores la ecuacin
de la recta sera
De donde
( ) X X
S
m
Y Y
x
=
2
11
X
S
m
Y X
S
m
Y
x x
2
11
2
11
+ =
52/71
Funciones y =a e
bx
Deshaciendo el cambio de variable por
comparacin con lny =lna +bx
La funcin ajustada sera: y =a e
bx
2
11
x
S
m
b =

= X
S
m
Y antiLn a
x
2
11
27
53/71
Funciones y =a e
bx
Clculo del coeficiente de correlacin
Se realizara por aplicacin directa de la
frmula
y x
S S
m
r
.
11
=
54/71
Funciones y =a +b lnx
En este caso debe ser siempre x >0
Se realizara el siguiente cambio de variable
Slo habra que ajustar una recta a esos
valores con la forma Y =A +BX
X lnx
B b
A a
Y y
28
55/71
Funciones y =a +b lnx
El ajuste logartmico es apropiado cuando y
crece (b>0) o decrece (b<0) lentamente al
crecer x
56/71
Funciones y =a +b lnx
Para calcular la recta de regresin sera
necesario calcular los valores
Obteniendo la ecuacin de la recta
Covarianza m
11
Varianza de x
Media de los lnde x
Media de las y
Y
X
2
x
S
( ) X X
S
m
Y Y
x
=
2
11
29
57/71
Funciones y =a +b lnx
Deshaciendo el proceso y comparando con
y =b lnx +a
De igual manera se procedera al ajuste de
una funcin de la forma y =a x
b
X
S
m
Y X
S
m
Y
x x
2
11
2
11
+ =
2
11
x
S
m
b =
X
S
m
Y a
x
2
11
=
58/71
Ajuste por mnimos cuadrados de
un polinomio de grado k
y =b
0
+b
1
x +b
2
x
2
+..... +b
n
x
n
Habra que calcular los coeficientes b
0
, b
1
,
b
2
,..b
n
Aplicando mnimos cuadrados habra que
hacer mnima la expresin que expresa los
residuos de cada uno de los puntos
( ) ( )
2
2
2 1 0
2 2
... . ) (
k
i k i i i
i
i i
i
i i
i
i
x b x b x b b y n i f y n n E = = =


Valor del dato
Valor de la funcin para y
i
30
59/71
Ajuste por mnimos cuadrados de
un polinomio de grado k
Se calcula la primera derivada con respecto
a cada una de las variables y se iguala a
cero obteniendo
( ) 0 ... . 2
2
2 1 0
0
= =

k
i k i i i
i
i
x b x b x b b y n
db
dE
( ) 0 ... . . 2
2
2 1 0
1
= =

k
i k i i i i
i
i
x b x b x b b y x n
db
dE
( ) 0 ... . . 2
2
2 1 0
= =

k
i k i i i
k
i
i
i
k
x b x b x b b y x n
db
dE
60/71
Ajuste por mnimos cuadrados de
un polinomio de grado k
Elaborando las ecuaciones obtendramos el
siguiente sistema en el que habra que hallar
los valores de b
0
...b
k
a
01
=b
0
+b
1
a
10
+b
2
a
20
+...+b
k
a
k0
a
11
=b
0
a
10
+b
1
a
20
+b
2
a
30
+...+b
k
a
k+10
a
21
=b
0
a
20
+b
1
a
30
+b
2
a
40
+...+b
k
a
k+20
a
k1
=b
0
a
k0
+b
1
a
k+10
+b
2
a
k+20
+...+b
k
a
2k0
Momentos
respecto al origen
31
61/71
Ajuste por mnimos cuadrados de
un polinomio de grado k
Varianza residual
ndice de determinacin o correlacin
Si I
2
=1; =0. El ajuste serperfecto.
Cuanto ms se aproxime I a la unidad mejor serel
ajuste

=
N
i
i i
n
N
S
2 2
1

k
i k i i i i
x b x b x b b y = ...
2
2 1 0

2
2
2
1
y
S
S
I

=
2

S
62/71
Trabajo propuesto
Calcule la recta de regresin y el coeficiente
de correlacin lineal correspondiente a las
variables peso y estatura de una persona
Compruebe cul sera el peso de una persona
de 2 metros de altura
Compruebe cul sera la estatura de una
persona que pesa 68 kg.
Los datos se tomarn de una muestra entre
los asistentes al curso
32
63/71
Anlisis de series de tiempo
64/71
Anlisis de series de tiempo
Estn basadas en variables bidimensionales
en las que una de ellas es el tiempo
Componentes de la serie de tiempo:
Tendencia (T)
Variaciones estacionales (S)
Variaciones cclicas (C)
Variaciones irregulares (I)
33
65/71
Series de tiempo
Tendencia
Variacin cclica
Variacin
estacional
66/71
Series de tiempo
Existen dos modelos de integracin de estos
factores
Modelo aditivo
Y =T +S +C +I
Modelo multiplicativo
Y =T .S .C. I
34
67/71
Tendencia
Direccin general a la que la serie se dirige
a largo plazo
Se puede calcular por medio de diferentes
mtodos:
Ajuste de una funcin: lineal, parablica,
exponencial, logartmica
Mtodo grfico: mtodo subjetivo por
observacin de la representacin de las
variables
68/71
Tendencia
Mtodo del movimiento medio: consiste en buscar
movimientos mediosapropiados para eliminar
todos los componentes de la serie de tiempo a
excepcin de la tendencia (medias mviles)
Ejemplo: 4, 5, 6, 1, 2, 9, 7
Med: 4,5,6=5; Med: 5,6,1=4; Med=6,1,2=3
Med: 1,2,9=4; Med: 2,9,7=6
La tendencia estara marcada por la serie:
5, 4, 3, 4, 6
35
69/71
Variables estacionales (S)
Estn constituidas por oscilaciones peridicas
debidasa movimientos recurrentesy que se
producen a intervalos constantes. Se expresa
mediante el ndice S
Mtodos de clculo: Porcentaje medio
Se calcula la media anual
Se expresan los datosde cada mes como porcentaje de
la media anual
Los porcentajes resultantes sonel ndice estacional
Si la media no es el 100% deberajustarse
multiplicando por 1200/S
70/71
Porcentaje medio
Ejemplo
Porcentaje medio por mes=Valor*100/Med
350
Dic
270,5 317 299 258 239 220 210 230 245 272 280 326 2002
Med Nov Oct Sep Ago J ul J un May Abr Mar Feb Ene
129,4
Dic
117,2 110,5 95,3 88,3 81,3 77,6 85 90,6 100,5 103,5 120,5 2002
Nov Oct Sep Ago J ul J un May Abr Mar Feb Ene
36
71/71
Series de tiempo
Variaciones cclicas: Todas las oscilaciones
que tiene un fenmeno a ambos lados de su
nivel normal se denomina variacin cclica
Variaciones irregulares: movimientos que
aparecen en contadas ocasiones y que son
debidos a sucesos extraordinarios, huelgas,
terremotos...

S-ar putea să vă placă și