Sunteți pe pagina 1din 9

Los estadsticos descriptivos clsicos

MUESTRA 1

MUESTRA 2

10
10
11
12
12
13
14
15
15
15
16
18
19

10
10
11
12
12
13
14
15
15
15
16
18
57

(Robustez)

MUESTRA 1

MUESTRA 2

13

13

13,85

16,77

Mediana

14

14

Moda

15

15

Desviacin

2,74

11.8

Simetra

0,31

3.37

Curtosis

-0.688

11.77

N CASOS
Media

Ambas muestras son idnticas salvo en


un valor, sin embargo los estadsticos
clsicos como la media o desviacin
presentan valores muy dispares. De ah
que sean poco robustos, frente a otros
como la mediana

Los grficos de ambas muestras permiten observar que salvo un


elemento extrao y atpico ambas son casi idnticas

Anlisis Exploratorio de Datos E.D.A.*


Tiene como finalidad examinar los datos para detectar anomalas a
la vez que permite descubrir patrones y modelos de distribucin.
Para ello recurre:
Representaciones grficas revelan visualmente el comportamiento de los
datos y la estructura del conjunto.
ndices descriptivos robustos A diferencia de la estadstica descriptiva
clsica estos se basan en valores de dispersin, moda y simetra.

Entre los ndices descriptivos que trabaja estn


Localizacin Se corresponde a los ndices de posicin y tendencia
central clsicos
Dispersin Definen la concentracin o dispersin de los datos, cuanto
menor sea su valor ms informacin aportan los de localizacin
Forma Evalan la situacin de los datos desde ejes horizontales
(curtosis) y verticales (simetra)
Grficos Muestran las agrupaciones internas de los valores e indican los
ndices anteriores
(*) AA.VV (1992): Anlisis exploratorio de datos: Nuevas estadsticas, PPU, Barcelona

Indicadores
Promedio de cuartiles Es la suma promediada
del primer y tercer cuartil, recoge el 50% central de
la distribucin y por tanto la Mediana

Q=

C25 + C75
2

Trimedia Se define como la distancia media entre


M +Q
TRI = d
la mediana Md y el promedio intercuartlico Q
2
Recorrido intercuartlico Tambin
IQR = C75 C25
denominado dispersin media o diferencia
entre cuartiles
C + C75 (2 M d )
Y = 25
Simetra de Yule Se calcula mediante:
2Md
Y = 0 Distribucin simtrica
Y > 0 Asimetra positiva (menos datos en la
parte superior de la distribucin
Y < 0 Asimetra negativa (menos datos en la
mitad inferior de la distribucin)

Curtosis Se calcula mediante:

K=

(C90 C10 )
1,9(C75 C25 )

Y = 1 Distribucin Normal o Mesocrtica


En SPSS Y=0
Y > 1 Curtosis positiva curva Leptocrtica
o ms auntada que la normal. En SPSS
Y>0
Y < 1 Curtosis negativa Platicurtica ms
aplastada que la normal. En SPSS
Y<1

Grfico de caja Box Plot


Proporciona grficamente los valores de los datos de forma
resumida, para ello proporciona sus valores indicativos principales

El grfico de caja nos muestra visualmente los siguientes


indicadores:

Rango Diferencia entre los extremos del grfico


IQR Altura de la caja
Md Mediana como indicador robusto de tendencia central
Simetra Por la posicin de la medina en la caja y las colas,
comparando la longitud de los extremos.
Curtosis Por la anchura de la caja, cuanto ms larga ms leptocrtica
y viceversa.

Diagrama de tronco y hojas


Este grfico mantiene las caractersticas de un histograma a la vez
que nos permite ver los valores tabulados de la serie.
El enfoque EDA propone la utilizacin de representaciones que no solo en su
aspecto bsicamente cualitativo, sino cuantitativo, conserve en lo posible los
propios valores numricos de la serie.
Sea la serie de valores: 112, 112, 115, 212, 213, 213, 215, 342, 358, 361, 362,
383, 433. 436, 438, 513 y 568 representando sus dgitos ms significativos
(centenas y decenas) a la izquierda de las lneas y los menos a la derecha:
1 1 225
2 1 2335
4 2
3 5 8
6 12
8 3
4 3 368
1 3
5 3 8

Este tipo de representacin El tronco y las hojas del


ingls Stem-and-Leaf viene a ser un grfico
parecido al histograma (girado 90) con la ventaja de
mantener ms informacin (los valores originales de
la distribucin).

El modo de construir un grfico de Tronco y hojas es simple:


Escoger el intervalo de unidades a representar en el tronco, procurando que cubra
el rango de datos a representar.
En nuestra anterior serie (112, 112, 115, 212, 213, 213, 215, 342, 358, 361,
362, 383, 433. 436, 438, 513 y 568), podramos haber optado por la cifra
de las centenas como nico dgito significativo para el tronco
Dibujamos una lnea vertical, situando y anotando las unidades seleccionadas en
orden creciente
Anotamos a la derecha de la lnea la cifra del siguiente dgito elegido, poniendo cada
uno de los valores que contiene la serie bajo el dgito que hay en el tronco
Una vez trascritos todos los casos podemos hacer una columna de frecuencias a la
izquierda del tronco anotando en la parte inferior si cada dgito de las hojas tiene una
frecuencia superior a uno
En ocasiones para cubrir mejor los valores menos
Frecuencia Tronco

3
4
5
3
2
N=17

1
2
3
4
5

Hojas

111
1111
45668
333
16

significativos de las hojas se recurre a agrupar en una


segunda de tronco bajo * las cifras de 0 a 4 y con
o las de 5 a 9
1 *
225

Unidad=100 Amplitud de la hoja=1

1
2
2
3
3
4
4
5
5

o
*
o
*
o
*
o
*
o

233 5
2
8123
368
3
8

Anlisis exploratorio con SPSS


El anlisis exploratorio en SPSS V.12 lo encontramos a travs del
men: Analizar Estadsticos descriptivos Explorar

En la ventana Explorar podemos solicitar los estadsticos robustos y las grficas


de caja incluyendo la variable a explorar en Dependientes y si queremos
comparar la distribucin segn otra variable incluyndola en Factores

El apartado Mostrar nos permite seleccionar estadsticos y grficos


conjuntamente Ambos o cualquiera de ellos por separado

En botn Estadisticos nos abre una ventana de opciones donde podemos optar
por solicitar los descriptivos, los robustos centrales, los valores atpicos y los
percentiles

En botn Grficos nos


abre una ventana de
opciones donde podemos
elegir entre grficos de caja
simple o de Tallo y Hojas
adems del histograma. Los
grficos de normalidad
permiten saber si nuestros
datos se distribuyen con
arreglo a la curva normal

La salida Descriptivos nos proporciona los siguientes estadsticos:

Los indicadores de simetra al ser


positivos indican un desplazamiento
de la distribucin hacia valores altos

Valores positivos de Curtosis


indican una distribucin
leptocrtica (alargada)

La salida Descriptivos nos puede dar los percentiles: 5,10,25,50,75,90 y 95:

Nos muestra si lo solicitamos los cinco valores extremos tanto inferiores como
superiores

La salida
Grficos nos
proporciona el
de caja

Valores
extremos

Recorrido
intercuartlico

Percentil 75

Mediana

Percentil 25

Si activamos Tallo y hojas nos muestra el grfico:


Frecuencias

Extremos

& Fracciones de hojas

Valor de cada
hoja 9 casos

Si activamos Histograma nos muestra el grfico:

En el histograma
podemos apreciar la
asimetra positiva
(menos datos en la
parte superior de la
escala, acumulacin en
los valores bajos).
Tambin curtosis
positiva, estiramiento
en su parte central

S-ar putea să vă placă și