Sunteți pe pagina 1din 18

Tcnicas Estadsticas de Anlisis de Datos

Descripcin de datos. Estadsticos de una variable


Distribuciones de probabilidad e intervalos de confianza
Contrastes de hiptesis. Tipos
Relaciones entre atributos
Nominales- Numricos: Tests de comparacin de medias (muestras
dependientes e independientes) y anlisis de varianza.
Numricos - Numricos: Anlisis de Regresin
Nominales-Nominales: Tablas de Contingencia. Tests de
independencia y comparacin de proporciones.
Aplicacin de tcnicas estadsticas a la clasificacin
Clasificacin mediante regresin numrica
Clasificador bayesiano

Tcnicas Clsicas de Anlisis de Datos

Anlisis de una variable (muestra de datos)


Estadsticos: resumen (describen) toda la informacin contenida
en una muestra de datos :
Variables continuas

medidas centrales (media, moda, mediana)

medidas de dispersin (rango, varianza, desviacin


estndar, percentiles)

medidas de forma (histograma)

Variables nominales

frecuencias relativas (probabilidades), moda

media y varianza de probabilidad estimada

Muestra: yi; i =1n; toma valores en un rango continuo/discreto

Tcnicas Clsicas de Anlisis de Datos

Estadsticos centrales
Media (esperanza) muestral: promedio de todos los valores
1 n
yi
n i =1
Moda: valor que aparece ms veces
Mediana: valor que deja el mismo nmero de casos a ambos
lados
media ( y) = y =

mediana ( y) = yi | N casos y j yi = N casos ( y k yi )

equivale a ordenar el vector de datos y tomar el valor


central
menos sensible frente a valores extremos poco probables

Tcnicas Clsicas de Anlisis de Datos

Estadsticos de dispersin
Recorrido (intervalo, o rango):
max(yi)-min(yi)
Varianza: promedio de desviaciones con respecto a valor medio
1 n
1 n 2
2
2
Var ( y ) =
( yi y) =
y i ny

n 1 i =1
n 1 i =1

Desviacin estndar (tpica): raz cuadrada de la varianza


desv ( y ) = y = Var ( y )

valor

media, sigma
14
12
10
8
6
4
2
0
-2 0
-4

Datos
valor medio
valor medio+sigma
valor medio - sigma
10

20

30

40

muestra

Tcnicas Clsicas de Anlisis de Datos

Histograma
Estimacin de la distribucin de densidad de probabilidad:
frecuencia absoluta o relativa de valores de yi por unidad de intervalo
histograma normal

N de casos en intervalo

frecuencia absoluta

140
120
100
80
60
40
20
0
-3

-2,4

-1,8

-1,2

-0,6

0,6

1,2

1,8

2,4

intervalos de clase

La suma total de frecuencias absolutas es el nmero de datos


La suma de frecuencias relativas es 1
5

Tcnicas Clsicas de Anlisis de Datos

Ejemplo: histograma de variable uniforme


his togram a
140
120
100
80
60
40
20
0

his togram a

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

acum ulado
1.2
1
0.8
0.6

acum ulado

0.4
0.2
0
0

0.2

0.4

Tcnicas Clsicas de Anlisis de Datos

0.6

0.8

Cuantiles del histograma


Cuantil: valores que dividen el recorrido de datos en k partes de la
misma frecuencia (percentiles: 100 partes, cuartiles: 4 partes, etc.)
Ejemplo: cuartiles
porcentaje cuartiles
0,25
1,4
0,5
2,725
0,75
4
1
7,7

alumnos

Calificacin
2,8
0,6
5
3,1
3,9
4,9
1
0
6,55
...

frecuencia
80
60
40
20
0
0

10

calificacin

Recorrido inter-cuartlico:
[1.4, 4]: contiene 50% datos

Cuartil 1

Cuartil 3
Cuartil 2

Cuartil 4

Tcnicas Clsicas de Anlisis de Datos

Estadsticos de variable nominal


yi nominal: toma valores de un conjunto discreto (categoras): {vi1, , viki}
Distribucin de frecuencias de cada valor

p 1 =100(n1 / n)%
p2 = 100(n2 / n)%
M

pki = 100(nki / n)%


ki

n = nj
j =1

Moda: valor que aparece ms veces

max (n j )
j

Tcnicas Clsicas de Anlisis de Datos

Media y varianza de frecuencias estimadas


Clculo de cada frecuencia
para una categora dada: m casos de n
p=m/n
puede verse como asignar: vi=1 cada ejemplo en la categora
vi=0 en el resto
1 n
p = vi
n i =1
Varianza de p:
Var (p) =

1 n
2
( vi p) = p(1 p)
n i =1

p = p(1 p)

caso mxima varianza: p=0.5


9

Tcnicas Clsicas de Anlisis de Datos

Ejemplo variable nominal y numrica

Tcnicas Clsicas de Anlisis de Datos

60
50
porcentaje

Sexo
M
M
H
M
H
H
M
H
M
H
H
H
M
H
M
M
M
M
M
H
H
M
H
H
M
H
M
M
M
M

40
30
20
10
0
H

M
sexo

120
100
porcentaje

Edad
23
25
18
37
45
62
43
40
60
54
28
18
54
29
42
26
32
41
37
36
53
21
24
21
45
64
22
61
37
66

80
frecuencia

60

acumulada

40
20
0
18

25

35

45

55

65

edad

10

Distribucin Normal
Curva de gran inters por explicar datos en muchas situaciones
Aplicada por primera vez como distribucin por A. Quetelet (1830)
f (z) =

1
1
exp z 2
2
2

distribucin simtrica: coincide media y mediana en 0


se dispone del valor de la distribucin de probabilidad: rea bajo la curva
de fZ(z) para cualquier valor:
Tipificar o estandarizar variables: Se
z
FZ (z)
-3
0.001349967
mide el desplazamiento respecto a la
-2.5
0.00620968
-2
0.022750062
media en unidades de desviacin tpica:
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3

0.066807229
0.15865526
0.308537533
0.5
0.691462467
0.84134474
0.933192771
0.977249938
0.99379032
0.998650033

y y
zi = i
i

F(z0)

f(z)

0
-5

-4

-3

-2

-1

z0
11

Tcnicas Clsicas de Anlisis de Datos

Distribucin Normal e Intervalos de Confianza


f(z)

f(z)

F(z0)
-3

-2

-1

Una cola (unilateral)

F(z0)
-3

-2

-1

Simtrico dos colas (bilateral)

Ej.: se conocen parmetros de una poblacin con distribucin normal:


media: = 115; desviacin tpica:= 20
casos inferiores a 70? z=(70-115)/20, F(z)=0,012
casos superiores a 150? z=(150-115)/20, 1-F(z)=0,04
en intervalo 90-130? F((130-115)/20)-F((90-115)/20)=0,667
qu intervalos simtrico tienen el 80%, 95% de los casos
(intervalos de confianza)? z=F-1(/2); y=z

80%: z0.1=1,28; 115 z0.1*20=[89.3, 140.6]

95%: z0.025=1,96; 115 z0.025*20=[75.8, 154.2]

Tcnicas Clsicas de Anlisis de Datos

12

RELACIONES DE VARIABLES. TEST DE HIPOTESIS


ANLISIS DE VARIAS VARIABLES
Objetivo: analizar la interrelacin (dependencia) entre los valores de distintas
variables, haciendo uso de los datos disponibles

Numricas (retardo, carga, distancia,)

Nominales (tipo de avin, condicin visibilidad, )

Herramienta de anlisis: tests de hiptesis

Numricas-numricas: anlisis de regresin y covarianza

Nominales-nominales: tablas de contingencia

Nominales-numricas: comparacin de medias, anlisis de varianza

Tcnicas Clsicas de Anlisis de Datos

13

ANLISIS ESTADSTICO DE DATOS


ANLISIS DE VARIAS VARIABLES - NUMRICA-NUMRICA
Permite identificar relaciones entre variables numricas y construir modelos de
regresin
Se consideran relaciones de una variable de salida (dependiente) con mltiples
variables de entrada (independientes)
Estimacin de una funcin (Regresin Lineal) que mejor explique los datos

r
r
r
{( X1, y1), (X 2 , y 2 ),..., (X n , y n )}

r
X : vectores con M dimensiones

g(.) : R M
R
r
r
X
y = g(X)
Tcnicas Clsicas de Anlisis de Datos

14

Mnimos Cuadrados
Estima vector de coeficientes que minimiza error
I
r
r
r
yi = g i (X) = a 0 + a p x p =(A t ) * X
p =1

r
( A ) = [a 0

r
a1 L a I ]t ; X = [1 x1 L x I ]t

Objetivo: dadas N muestras, determinar coeficientes que


minimicen el error de prediccin global
2
n
r
= [g ( X j ) y j ]
j=1

El mtodo de mnimos cuadrados selecciona, como estimacin de


la recta de regresin poblacional, aquella para la cual esta suma
de cuadrados es menor.
Problema clsico de minimizacin de funcin cuadrtica: solucin
nica
Tcnicas Clsicas de Anlisis de Datos

15

Mnimos Cuadrados
Solucin genrica matricial
1
1

r
y1
y1 g (X1) 1 x1 L x I
r

1 x 2 L x 2 r
r
I A = H*A
1
y = M ; g = M = M =

rN M M
M
M
y N
y N g (X
)


1 x N L x N

I
1

Solucin MC:

r
r
A = [ H t H ]1 H t y

[(1+F)x1] = [(1+F)xN] [Nx(1+F)] [(1+F)xN] [Nx1]

Tcnicas Clsicas de Anlisis de Datos

16

Ejemplo: regresin lineal de 1 variable

Ao
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984

Renta
Consumo consumo E
1959,75
1751,87
1683,473374
2239,09
1986,35
1942,43325
2623,84
2327,9
2299,11261
3176,06
2600,1
2811,043671
3921,6
3550,7
3502,190468
4624,7
4101,7
4153,993607
5566,02
5012,6
5026,63666
6977,84
6360,2
6335,452914
8542,51
7990,13
7785,967518
9949,9
9053,5
9090,676976
11447,5
10695,4
10479,01488
13123,04
12093,8
12032,31062
15069,5
12906,27
13836,76054
16801,6
15720,1
15442,48976
18523,5
17309,7
17038,76316

Estimacin Lineal
a1
a0
0.927041871
-133.296932

ConsumoE = a 0 + a1 * Re nta

17

Tcnicas Clsicas de Anlisis de Datos

Ejemplo: regresin lineal de 1 variable

dependencia consumo

consumos

20000
15000

Consumo

10000

consumo E

5000
0
0

5000

10000

15000

20000

renta

Tcnicas Clsicas de Anlisis de Datos

18

Ejemplo: regresin lineal de 2 variables

x1
Superficie
310
333
356
379
402
425
448
471
494
517
540

x2
Antigedad
20
12
33
43
53
23
99
34
23
55
22

y
Valor
106,287 Euros
107,784 Euros
113,024 Euros
112,275 Euros
104,042 Euros
126,497 Euros
94,311 Euros
106,961 Euros
122,006 Euros
126,497 Euros
111,527 Euros

Estimacin Lineal
a2
a1
a0
-220.444829 58.2271936 95538.7217

Valor
predicho
109,180 Euros
112,283 Euros
108,993 Euros
108,128 Euros
107,262 Euros
115,215 Euros
99,800 Euros
115,469 Euros
119,233 Euros
113,518 Euros
122,132 Euros

Valor = a 0 + a1* Superficie +


a 2 * Antigedad

19

Tcnicas Clsicas de Anlisis de Datos

Ejemplo: regresin lineal de 2 variables

valores predichos

140000

150000

100000

100000

60000

superficie (m 2)

Tcnicas Clsicas de Anlisis de Datos

494

448

402

90

70

50

30

10

356

540

0
310

antigedad (a)

310

10 20 30 40 50 60 70 80 90 100 110

402

356

20000

494

50000

40000

540

80000

448

valor (euros)

120000

20

10

Evaluacin del modelo de regresin


Anlisis de validez del modelo asumido:
Medidas de parecido entre variable de salida estimada y real,
influencia de variables de entrada
Factor de Correlacin
Error de prediccin
Anlisis de calidad del modelo
Error en coeficientes
Hiptesis de significatividad de parmetros: t-Student
A1
AF
,...,
?
A1
AF

/2

N(0,1)
-4

-3

-2

-1

21

Tcnicas Clsicas de Anlisis de Datos

Factor de correlacin
Factor de correlacin entre datos y predicciones:

Corr ( y , y ) =

1
S y S y

( y
j=1

y )( y j y ) =

Cov ( y , y )
Var ( y ) Var ( y )

El factor de correlacin vara entre -1 y 1.


En general, se puede hacer factores de correlacin entre cualquier par
de variables numricas: indica el grado de relacin lineal existente.
-1: existe asociacin lineal negativa perfecta.
1 positiva perfecta.
0 no hay asociacin lineal.

Tcnicas Clsicas de Anlisis de Datos

22

11

Matrices de covarianza y correlacin


Muestra de vectores aleatorios:

{X1 , X 2 ,..., X n }

Matriz de covarianzas:
r 1 n r
= Xi
n i =1

cov(x1, x 2 ) L cov(x1, x 2 )
var(x1 )
cov(x , x )

n r
r
var(x1)
1
r
r
1
2
t
r = (X i )(X i ) =

C
X n
M
O
M

i =1
cov(x , x )
L
var(x I )

1 I

La matriz de correlaciones es similar, normalizada

23

Tcnicas Clsicas de Anlisis de Datos

ANLISIS ESTADSTICO DE DATOS


ANLISIS DE VARIAS VARIABLES - NUMRICA-NOMINAL
Mide la relacin entre variables numricas y nominales, o nominales y
nominales (proporciones)
Analiza las diferencias de medias condicionadas a variable nominal:
impacto de la variable nominal sobre la continua
Variacin E

Dos tipos de anlisis:

Con dos medias o proporciones:


significatividad de la diferencia tstudent

Ms de dos valores distintos:


Anlisis de Varianza

Tcnicas Clsicas de Anlisis de Datos

Variacin NE

Y1

Y2

Y3

Y
24

12

1. Comparacin de dos medias


Se plantea como un test de hiptesis, dividiendo los datos en dos grupos,
cada uno con su media y varianza.
Hiptesis sobre diferencia de medias: D = y1 y2
H0: la diferencia de medias en la poblacin es nula D=0.
Hiptesis alternativa A: las medias son distintas: D!=0.
Hiptesis alternativa B: la media de 1 es mayor que 2:

y1 > y2

Hiptesis alternativa C: la media de 1 es menor que 2:

y1 < y2

Situaciones posibles:
Muestras independientes: conjuntos distintos.
Muestras dependientes: mismo conjunto, con dos variables a
comparar en cada ejemplo.

25

Tcnicas Clsicas de Anlisis de Datos

Contrastes de dos medias


Hiptesis alternativa A
/2=0.025

/2=0.025
-3

z=1.96

z=+1.96

Hiptesis alternativa B:
=0.05
0 .4
-3

0 .3 5

z=1.65

0 .3

0 .2 5

Cuando las muestras son pequeas no es


vlida la hiptesis de normalidad de los
estadsticos de medias
y t / 2 ,GL
Tcnicas Clsicas de Anlisis de Datos

0 .2
0 .1 5

0 .1

0 .0 5

0
-5

-4

-3

-2

-1

26

13

2. Anlisis de varianza (ANOVA)


Niveles
1
...
i
...
I

Variacin Explicada

Observaciones
Y11,Y12,...Y1j,...Y1n1
...
Yi1,Yi2,...Yij,...Yini
...
YI1,YI2,...YIj,...YInI

Variacin No
Explicada
y

Y1

Nmero total de elementos:


1 I
Yi = Yij
Media por nivel:
n i i =1
1 I ni
Media total:
Y = Yij
n i =i j=1

ni

i =i j=1

ij

Y3

i =1

variacin explicada:
variabilidad entre grupos
variacin no explicada
(residual): variabilidad
dentro de los grupos

Relacin entre cuadrados:

(Y

Y2

n = ni

ni

Y ) 2 = (Yij Yi ) 2 + n i ( Yi Y ) 2
i =i j=1

i =1

27

Tcnicas Clsicas de Anlisis de Datos

ANLISIS ESTADSTICO DE DATOS


ANLISIS DE VARIAS VARIABLES - NOMINAL-NOMINAL
Analiza la interrelacin entre los valores de variables nominales segn distribucin
de casos
Herramienta para dos variables: tabla de contingencia

distribucin de casos (frecuencias) para las distintas combinaciones de


valores de las dos variables
variable 1
valor 1
valor 2
...
valor p1
totales 2

totales 1
variable 2
valor 1
valor 2 ... valor p2
n12 ... n1p2
t1
n11
n21
...
np11
t'1

n22
...
np12
t'2

...
...
...
...

n2p2
...
np1p2
t'p2

Probabilidades marginales:
Tcnicas Clsicas dePjAnlisis
de Datos
=tj/t

t2
...
tp1
t

Probabilidades
marginales:
Pi=ti/t

Casos esperados
Eij=t(ti/t)(tj/t)= titj/t
28

14

Relacin entre variables nominales-nominales


Objetivo: analizar la interrelacin (dependencia) entre los valores
de variables nominales
Herramienta para dos variables: tabla de contingencia
distribucin de casos (frecuencias) para las distintas
combinaciones de valores de las dos variables
variable 1
valor 1
valor 2
...
valor p1
totales 2

totales 1
variable 2
valor 1
valor 2 ... valor p2
n12 ...
n1p2
t1
n11
n21
...
np11
t'1

n22
...
np12
t'2

...
...
...
...

n2p2
...
np1p2
t'p2

t2
...
tp1
t

Probabilidades marginales:
Pj=tj/t

Tcnicas Clsicas de Anlisis de Datos

Probabilidades
marginales:
Pi=ti/t

Estimacin del n
esperado de
observaciones
Eij=t(ti/t)(tj/t)= titj/t

29

Contraste Chi-2 de variables nominales


Es aplicable en anlisis bi-variable (normalmente clase vs atributo)
Determina si es rechazable la hiptesis de que dos variables son
independientes
Bajo hiptesis H0 se determinan los casos en el supuesto de
variables independientes. Los valores esperados se determinan con
probabilidades marginales de las categoras: Eij=tPi Pj (valores
esperados).
Nuestro contraste de hiptesis nula de no asociacin estar basado
en las magnitudes de las diferencias entre los valores observados y
los esperados bajo la hiptesis nula.
El estadstico Chi-cuadrado mide la diferencia entre los valores
observados y los valores esperados.
p1 p 2

2 = (Oij Eij ) 2 / Eij


i =1 j =1

Tcnicas Clsicas de Anlisis de Datos

30

15

Ejemplo

Tcnicas Clsicas de Anlisis de Datos

31

EJEMPLOS VALIDACIN HIPTESIS


ANLISIS DE VARIAS VARIABLES - NOMINAL-NUMRICA

Hay relacin entre tiempo en retardo y: franja horaria (maana-tarde-noche), tipo de


da (diario-finsemana), compaa
Mayor grado de relacin?

Tcnicas Clsicas de Anlisis de Datos

32

16

EJEMPLOS VALIDACIN HIPTESIS


ANLISIS DE VARIAS VARIABLES - NOMINAL-NUMRICA
Hiptesis (anlogo a comparacin de prestaciones!)

Hiptesis nula H0: la diferencia de medias segn tipo da es nula D=0

Hiptesis alternativa: las medias son distintas: D!=0

fdp(T_finsemana-T_diario)
/2=0.025

/2=0.025
-3

0 1.5
+1.96
1.96
Mayor grado de relacin? Ms evidencia estadstica para rechazar la hiptesis de
independencia

33

Tcnicas Clsicas de Anlisis de Datos

EJEMPLOS VALIDACIN HIPTESIS


ANLISIS DE VARIAS VARIABLES - NUMRICA-NUMRICA

14

140

12

120

10

100

80
retardo

intervenciones

Qu variables estn ms linealmente relacionadas

60
40

20

0
0

10

20

30

operaciones

40

50

Tcnicas Clsicas de Anlisis de Datos

10

20

30

40

50

-20
operaciones

34

17

EJEMPLOS VALIDACIN HIPTESIS


ANLISIS DE VARIAS VARIABLES NOMINAL-NOMINAL
Dependencia entre grado de retardo y tipo de avin, visibilidad,

35

Tcnicas Clsicas de Anlisis de Datos

EJEMPLOS VALIDACIN HIPTESIS


ANLISIS DE VARIAS VARIABLES NOMINAL-NOMINAL
Hiptesis nula H0: las variables retardo y categora son independientes:
Eij=t(ti/t)(tj/t)

p1 p 2

2 = ( E ij Oij ) 2 / E ij
i =1j=1

2
Tcnicas Clsicas de Anlisis de Datos

36

18

S-ar putea să vă placă și