Documente Academic
Documente Profesional
Documente Cultură
Variables nominales
Estadsticos centrales
Media (esperanza) muestral: promedio de todos los valores
1 n
yi
n i =1
Moda: valor que aparece ms veces
Mediana: valor que deja el mismo nmero de casos a ambos
lados
media ( y) = y =
Estadsticos de dispersin
Recorrido (intervalo, o rango):
max(yi)-min(yi)
Varianza: promedio de desviaciones con respecto a valor medio
1 n
1 n 2
2
2
Var ( y ) =
( yi y) =
y i ny
n 1 i =1
n 1 i =1
valor
media, sigma
14
12
10
8
6
4
2
0
-2 0
-4
Datos
valor medio
valor medio+sigma
valor medio - sigma
10
20
30
40
muestra
Histograma
Estimacin de la distribucin de densidad de probabilidad:
frecuencia absoluta o relativa de valores de yi por unidad de intervalo
histograma normal
N de casos en intervalo
frecuencia absoluta
140
120
100
80
60
40
20
0
-3
-2,4
-1,8
-1,2
-0,6
0,6
1,2
1,8
2,4
intervalos de clase
his togram a
acum ulado
1.2
1
0.8
0.6
acum ulado
0.4
0.2
0
0
0.2
0.4
0.6
0.8
alumnos
Calificacin
2,8
0,6
5
3,1
3,9
4,9
1
0
6,55
...
frecuencia
80
60
40
20
0
0
10
calificacin
Recorrido inter-cuartlico:
[1.4, 4]: contiene 50% datos
Cuartil 1
Cuartil 3
Cuartil 2
Cuartil 4
p 1 =100(n1 / n)%
p2 = 100(n2 / n)%
M
n = nj
j =1
max (n j )
j
1 n
2
( vi p) = p(1 p)
n i =1
p = p(1 p)
60
50
porcentaje
Sexo
M
M
H
M
H
H
M
H
M
H
H
H
M
H
M
M
M
M
M
H
H
M
H
H
M
H
M
M
M
M
40
30
20
10
0
H
M
sexo
120
100
porcentaje
Edad
23
25
18
37
45
62
43
40
60
54
28
18
54
29
42
26
32
41
37
36
53
21
24
21
45
64
22
61
37
66
80
frecuencia
60
acumulada
40
20
0
18
25
35
45
55
65
edad
10
Distribucin Normal
Curva de gran inters por explicar datos en muchas situaciones
Aplicada por primera vez como distribucin por A. Quetelet (1830)
f (z) =
1
1
exp z 2
2
2
0.066807229
0.15865526
0.308537533
0.5
0.691462467
0.84134474
0.933192771
0.977249938
0.99379032
0.998650033
y y
zi = i
i
F(z0)
f(z)
0
-5
-4
-3
-2
-1
z0
11
f(z)
F(z0)
-3
-2
-1
F(z0)
-3
-2
-1
12
13
r
r
r
{( X1, y1), (X 2 , y 2 ),..., (X n , y n )}
r
X : vectores con M dimensiones
g(.) : R M
R
r
r
X
y = g(X)
Tcnicas Clsicas de Anlisis de Datos
14
Mnimos Cuadrados
Estima vector de coeficientes que minimiza error
I
r
r
r
yi = g i (X) = a 0 + a p x p =(A t ) * X
p =1
r
( A ) = [a 0
r
a1 L a I ]t ; X = [1 x1 L x I ]t
15
Mnimos Cuadrados
Solucin genrica matricial
1
1
r
y1
y1 g (X1) 1 x1 L x I
r
1 x 2 L x 2 r
r
I A = H*A
1
y = M ; g = M = M =
rN M M
M
M
y N
y N g (X
)
1 x N L x N
I
1
Solucin MC:
r
r
A = [ H t H ]1 H t y
16
Ao
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
Renta
Consumo consumo E
1959,75
1751,87
1683,473374
2239,09
1986,35
1942,43325
2623,84
2327,9
2299,11261
3176,06
2600,1
2811,043671
3921,6
3550,7
3502,190468
4624,7
4101,7
4153,993607
5566,02
5012,6
5026,63666
6977,84
6360,2
6335,452914
8542,51
7990,13
7785,967518
9949,9
9053,5
9090,676976
11447,5
10695,4
10479,01488
13123,04
12093,8
12032,31062
15069,5
12906,27
13836,76054
16801,6
15720,1
15442,48976
18523,5
17309,7
17038,76316
Estimacin Lineal
a1
a0
0.927041871
-133.296932
ConsumoE = a 0 + a1 * Re nta
17
dependencia consumo
consumos
20000
15000
Consumo
10000
consumo E
5000
0
0
5000
10000
15000
20000
renta
18
x1
Superficie
310
333
356
379
402
425
448
471
494
517
540
x2
Antigedad
20
12
33
43
53
23
99
34
23
55
22
y
Valor
106,287 Euros
107,784 Euros
113,024 Euros
112,275 Euros
104,042 Euros
126,497 Euros
94,311 Euros
106,961 Euros
122,006 Euros
126,497 Euros
111,527 Euros
Estimacin Lineal
a2
a1
a0
-220.444829 58.2271936 95538.7217
Valor
predicho
109,180 Euros
112,283 Euros
108,993 Euros
108,128 Euros
107,262 Euros
115,215 Euros
99,800 Euros
115,469 Euros
119,233 Euros
113,518 Euros
122,132 Euros
19
valores predichos
140000
150000
100000
100000
60000
superficie (m 2)
494
448
402
90
70
50
30
10
356
540
0
310
antigedad (a)
310
10 20 30 40 50 60 70 80 90 100 110
402
356
20000
494
50000
40000
540
80000
448
valor (euros)
120000
20
10
/2
N(0,1)
-4
-3
-2
-1
21
Factor de correlacin
Factor de correlacin entre datos y predicciones:
Corr ( y , y ) =
1
S y S y
( y
j=1
y )( y j y ) =
Cov ( y , y )
Var ( y ) Var ( y )
22
11
{X1 , X 2 ,..., X n }
Matriz de covarianzas:
r 1 n r
= Xi
n i =1
cov(x1, x 2 ) L cov(x1, x 2 )
var(x1 )
cov(x , x )
n r
r
var(x1)
1
r
r
1
2
t
r = (X i )(X i ) =
C
X n
M
O
M
i =1
cov(x , x )
L
var(x I )
1 I
23
Variacin NE
Y1
Y2
Y3
Y
24
12
y1 > y2
y1 < y2
Situaciones posibles:
Muestras independientes: conjuntos distintos.
Muestras dependientes: mismo conjunto, con dos variables a
comparar en cada ejemplo.
25
/2=0.025
-3
z=1.96
z=+1.96
Hiptesis alternativa B:
=0.05
0 .4
-3
0 .3 5
z=1.65
0 .3
0 .2 5
0 .2
0 .1 5
0 .1
0 .0 5
0
-5
-4
-3
-2
-1
26
13
Variacin Explicada
Observaciones
Y11,Y12,...Y1j,...Y1n1
...
Yi1,Yi2,...Yij,...Yini
...
YI1,YI2,...YIj,...YInI
Variacin No
Explicada
y
Y1
ni
i =i j=1
ij
Y3
i =1
variacin explicada:
variabilidad entre grupos
variacin no explicada
(residual): variabilidad
dentro de los grupos
(Y
Y2
n = ni
ni
Y ) 2 = (Yij Yi ) 2 + n i ( Yi Y ) 2
i =i j=1
i =1
27
totales 1
variable 2
valor 1
valor 2 ... valor p2
n12 ... n1p2
t1
n11
n21
...
np11
t'1
n22
...
np12
t'2
...
...
...
...
n2p2
...
np1p2
t'p2
Probabilidades marginales:
Tcnicas Clsicas dePjAnlisis
de Datos
=tj/t
t2
...
tp1
t
Probabilidades
marginales:
Pi=ti/t
Casos esperados
Eij=t(ti/t)(tj/t)= titj/t
28
14
totales 1
variable 2
valor 1
valor 2 ... valor p2
n12 ...
n1p2
t1
n11
n21
...
np11
t'1
n22
...
np12
t'2
...
...
...
...
n2p2
...
np1p2
t'p2
t2
...
tp1
t
Probabilidades marginales:
Pj=tj/t
Probabilidades
marginales:
Pi=ti/t
Estimacin del n
esperado de
observaciones
Eij=t(ti/t)(tj/t)= titj/t
29
30
15
Ejemplo
31
32
16
fdp(T_finsemana-T_diario)
/2=0.025
/2=0.025
-3
0 1.5
+1.96
1.96
Mayor grado de relacin? Ms evidencia estadstica para rechazar la hiptesis de
independencia
33
14
140
12
120
10
100
80
retardo
intervenciones
60
40
20
0
0
10
20
30
operaciones
40
50
10
20
30
40
50
-20
operaciones
34
17
35
p1 p 2
2 = ( E ij Oij ) 2 / E ij
i =1j=1
2
Tcnicas Clsicas de Anlisis de Datos
36
18