Sunteți pe pagina 1din 18

Curso de Estadstica no-paramtrica

Sesin 1: Introduccin Inferencia no Paramtrica

David Conesa

Grup dEstadstica espacial i Temporal Departament dEstadstica


en Epidemiologia i Medi Ambient i Investigaci Operativa

Universitat de Valncia

Junio 2013

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Inferencia Estadstica

Estadstica: recopilacin, presentacin, anlisis y uso de los datos con el


objetivo de tomar decisiones y resolver problemas.
Necesaria? Los procesos de la vida real presentan variabilidad.
el nmero de empresas que cierran por ao es diferente,
la cantidad de lluvia recogida en un dia en una determinada zona vara,
el precio de una accin vara continuamente, etc.
La Probabilidad juega un papel destacado en el razonamiento cientfico:
El azar est presente en gran parte de los procesos cotidianos.
Los resultados experimentales presentan variabilidad atribuible a
factores no controlados por el experimentador.
La seleccin de las unidades experimentales se basa en mecanismos
aleatorios.
Las conclusiones de un anlisis estadstico se formulan en trminos
probabilsticos, ya que los modelos probabilsticos fundamentan la
justificacin terica de la Inferencia Estadstica.
2 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Inferencia estadstica (2)

Distinguir entre
Estadstica Descriptiva: mtodos para resumir y organizar datos
Inferencia Estadstica: mtodos para obtener conclusiones vlidas para
toda una poblacin a partir de los datos que nos aportan una parte de
dicha poblacin.
El esquema bsico:
Seleccin aleatoria

Poblacin muestra Estadstica Descriptiva

Inferencia Estadstica
Representatividad
Conclusiones en la Poblacin
3 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Inferencia Paramtrica

Poblacin: conjunto de individuos objeto de estudio; de dicha poblacin


estudiamos una variable de inters: X .
Poblacin: conjunto de valores de la variable observacional que obtendramos si se
repitiera indefinidamente el proceso de obtencin de los datos.
La variable de inters X tiene una distribucin de probabilidad asociada, la
distribucin poblacional (lo que habitualmente entendemos por poblacin).
Tipos de variables aleatorias: Categricas (nominal u ordinal) y Cuantitativas
(discreta o continua).
Habitualmente (en problemas reales), la distribucin poblacional de la variable de
inters es desconocida o al menos no es completamente conocida.
En la mayora de los casos, lo que se conoce es la familia (o el tipo) a la cual
pertenece la distribucin (exponencial, normal, etc.) pero lo que no se conocen son
sus parmetros.
Los parmetros son las caractersticas de inters de la poblacin (media, varianza,
proporcin poblacional, etc.).
En los casos en los que no conocemos la distribucin (Estadstica no paramtrica)
no tiene sentido preguntarse por los parmetros.
4 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Ejemplos: poblaciones e inferencia

1 Siete empresas familiares voluntarias participaron en un estudio para determinar si


una campaa publicitaria podra elevar las ventas anuales de la empresa. Se
midieron las ventas dos veces, una antes de la campaa y otra despus. Los
resultados de las ventas (en miles de euros) aparecen en la siguiente tabla:
EMPRESAS Antes Despus Diferencia
1 46 56 10
2 47 52 5
3 41 47 6
4 45 48 3
5 37 37 0
6 48 51 3
7 58 62 4
Cual es la poblacin? Muestra? Variable de inters? Tamao muestral? Qu
inferencia tiene sentido aqu?
2 Once empresas fueron analizadas por un inspector de hacienda. Tres de ellas
estaban en regla, y el resto no:
Poblacin? Muestra? Parmetro de inters? Qu inferencia tiene sentido aqu?

5 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Cmo hacemos inferencia paramtrica?

Muestreo aleatorio: muestra, tamao muestral, representatividad.


Una muestra aleatoria de observaciones de una variable X de tamao
muestral n es un conjunto de variables aleatorias X1 , X2 , . . . , Xn
independientes e idnticamente distribuidas con la misma distribucin
de la variable X .
Estadsticos. Distribucin en el muestreo.
Utilizar esta informacin para extrapolar los resultados obtenidos a
una poblacin ms grande (Inferencia Estadstica):
1 Estimacin: la estimacin trata de utilizar la informacin muestral para
aproximar el valor de los parmetros desconocidos del modelo
Puntual.
Por Intervalos de Confianza.
2 Contraste de Hiptesis: a partir de las observaciones podemos obtener
evidencia a favor o en contra de hiptesis referidas a los
parmetros desconocidos del modelo.
Qu pasa si no conocemos la distribucin de la variable?
6 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Estimacin paramtrica

Muestreo
Poblacin muestra

X Modelo() X = (X1 , . . . , Xn )
Parmetro(s) t(X) funcin
desconocido(s) de los datos

Estimacin y/o Contraste de Hiptesis


Utilizamos t(X) para explicar

7 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Estimacin paramtrica

, Espacio Paramtrico: conjunto de valores posibles de los parmetros.


S, Espacio Muestral: conjunto de todos los valores posibles que pueden tomar las
muestras X = (X1 , . . . , Xn ).
Estimador es cualquier funcin del espacio muestral en el espacio paramtrico,
t(X):
T : S
X t(X)
Es decir, cualquier estadstico es un estimador y tiene asociado una distribucin
muestral
Estimacin es cualquier realizacin del estimador.
No todos los estimadores que se pueden obtener son igual de buenos. Buscamos
pues mtodos de obtencin de estimadores y criterios para su evaluacin:
Que la distribucin del estimador est centrada en el parmetro,
que tenga poca dispersin.
Qu pasa si no conocemos la distribucin de la variable?

8 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Contraste de Hiptesis paramtricos

En general una hiptesis estadstica tiene la forma: 0 .


Por el propio objetivo de un contraste, este siempre tendr dos hiptesis:
Hiptesis nula que denotaremos H0 y que representa la afirmacin que se quiere
contrastar 0
Hiptesis alternativa que denotaremos H1 HA y que contiene los otros valores
posibles del parmetro 1
Se suele denotar como: 
H0 : 0
HA : 1
El tratamiento no es simtrico, aceptaremos H0 mientras no demostremos que es
falsa. Por eso, habitualmente, indicaremos en HA lo que es ms relevante y en H0
lo que consideraremos como cierto mientras no se demuestre lo contrario.
Qu pasa si no conocemos la distribucin de la variable?

9 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Contraste de Hiptesis paramtricos

Contrastar una hiptesis es realizar un experimento relacionado con el(los)


valor(es) desconocido(s) de un parmetro y, a partir del resultado de esta
informacin, decidir sobre el rechazo o aceptacin de la hiptesis
contrastada.
Un test de hiptesis es una regla de decisin que asigna uno de los dos
posibles resultados (Aceptar H0 y Rechazar H0 ) para cada posible valor del
experimento X S.
Los valores para los cuales se rechaza H0 se denominan Regin Crtica.
Los tests de hiptesis se describen en trminos de un estadstico T (X) que
se denomina estadstico de contraste o test estadstico o estadstico del test.
Y si queremos hacer no paramtrica?

10 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Ejemplo contrastes

1 En el ejemplo de las empresas que hacen un estudio para valorar el


funcionamiento de la mejora de una campaa publicitaria, identificar
sus elementos bsicos como un problema de contraste de hiptesis:
Hiptesis Hiptesis estadsticas
Poblacin Estadstica Parmetro
Experimento Espacio Muestral
Estadstico del contraste Test de hiptesis
Regin crtica
2 Anlogamente con el ejemplo de las empresas investigadas por un
inspector.

11 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Concepto de p-valor

Los contrastes de hiptesis se pueden resolver como reglas de decisin sobre


rechazar o no la hiptesis nula.
Una alternativa muy popular se basa en la medicin de la credibilidad de la
hiptesis nula a la luz de los datos obtenidos. Esta informacin sobre la
concordancia de los datos y la H0 se mide con probabilidades.
Sea 
X1 , . . . , Xn una m.a. de una distribucin de probabilidad (modelo) conocida.
H0 : 0
Sea una hiptesis que se desea contrastar y sea T un estadstico
H1 : 1
para el que los datos toman el valor T = t0 del que sabemos su distribucin.
El p-valor correspondiente al valor observado t0 es la probabilidad (bajo H0 ) de
obtener dicho valor t0 o valores ms extremos (en la direccin o direcciones de HA ).
La forma habitual de resolver el contraste es fijar un nivel de significatividad (error
de tipo I mximo que queremos cometer) y rechazar si el p-valor es menor que
dicho nivel.
Los pasos finales incluyen decidir que conclusin es la que vamos a tomar,
interpretar los resultados obtenidos y reportar las conclusiones.

12 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Concepto de p-valor (2)

Contrastes unilaterales
A menudo est claro que la desviacin de la mediana solo puede darse en un
sentido o solamente nos interesa demostrar que esa desviacin se da en un
nico sentido.
En estos casos utilizaremos una hiptesis alternativa direccional para indicar
que rechazaremos la hiptesis nula si la diferencia entre muestra y poblacin
es significativa en la direccin que propone la hiptesis alternativa.
En este caso slo tenemos que cambiar la forma de calcular el P-valor:
1 En primer lugar debemos comprobar que los datos estn en la misma
direccin que la hiptesis alternativa. Si no es as no es posible
rechazar la hiptesis nula.
2 Si los datos estn en la misma direccin que la hiptesis alternativa
debemos dividir por dos el P-valor obtenido (solo queremos el rea de
una cola).

13 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Inferencia no paramtrica

En el campo de las ciencias sociales y del comportamiento nos encontramos con


dos caractersticas que hacen de la inferencia no paramtrica una herramienta muy
importante:
Muchos datos estn clasificados en forma nominal u ordinal.
Cuando tenemos datos continuos, no tenemos garantizada la normalidad.
La mayora de los tests paramtricos (test t para comparar medias, ANOVA, etc.)
se basan en una serie de suposiciones (datos normales, independencia de las
observaciones, poblaciones con varianzas aproximadamente iguales, etc.) que no
siempre se cumplen, por lo que se necesitan tests alternativos para llevar a cabo la
inferencia.
A veces es posible evitar estos problemas, transformando los datos, o eliminarndo
observaciones extremas (outliers) que no dan sentido al modelo.
Cuando los datos analizados cumplen las asunciones para la aplicacin de los tests
paramtricos es preferible usarlos SIEMPRE, ya que los paramtricos son ms
potentes (en el sentido que tienen mayor capacidad para rechazar la hiptesis nula
cuando sta es falsa).
La inferencia no paramtrica fundamentalmente se realiza mediante contrastes de
hiptesis (aunque es posible ampliar la informacin que da un test mediante la
estimacin por intervalos de confianza).
14 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Inferencia no paramtrica (2)

Un test no paramtrico es un test basado en un modelo que no necesita la


especificacin de ninguna condicin sobre los parmetros de la poblacin de la que
se ha extraido la muestra. Ni siquiera sobre la propia poblacin.
Observar pues que no necesitan suposiciones (datos normales, independencia de
las observaciones, poblaciones con varianzas aproximadamente iguales, etc.) tan
fuertes como las de los paramtricos.
Adems existen mucho para datos nominales y ordinales: tests binomiales, bondad
de ajuste, tablas de contingencia, medidas de correlacin entre variables
categricas, etc.
Los tests no paramtricos para datos continuos se focalizan en conteos y rankings
u ordenaciones. Los datos se convierten de puntuaciones a rangos o signos.
As, por ejemplo, un test que compara medias (test t) se basa en la diferencia
media, mientras que un test no paramtrico se focaliza en la diferencia entre las
medianas.

15 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Inferencia no paramtrica (3)

Hay diferentes tests no paramtricos dependiendo del tipo de datos


que analizamos y del nmero de variables analizadas.
Variables continuas:
1 muestra: tests de localizacin, tests para valorar la forma de una
distribucin, tests de aleatoriedad.
Comparacin 2 muestras independientes
Comparacin 2 muestras relacionadas
Comparacin K muestras independientes
Comparacin K muestras relacionadas
Regresin y correlacin
Variables categricas:
Bondad de ajuste
Homogeneidad e Independencia
Medidas de Asociacin
Contrastes de Aleatoriedad

16 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Conteos y rangos

Dos de las herramientas ms bsicas en las que se basan muchos de


estos tests son:
1 Conteos: varios tests no paramtricos requieren el conteo (o
frecuencia) de las observaciones.
Basta contar el nmero de veces que una observacin se repite.
Tiene mucho sentido en variables categricas y en localizacin por
encima de la mediana.
Ejemplo: se observa el capital social de 15 empresas y se quiere ver si
el valor central es superior a 15000 euros. Se construye un test basado
en el nmero de observaciones que superan dicho valor.
2 Rangos (o transformaciones de rangos):
La clave es ordenar los datos y ver cada valor en qu posicin queda.
Hay que tener en cuenta los empates.
Tiene mucho sentido en variables continuas para ver si los grupos son
diferentes.
Ejemplo: se observa el capital social de 5 empresas valencianas y se
quiere ver si el valor central es superior al de 5 empresas catalanas. Se
construye un test basado en el orden que ocupan las empresas tras
ordenarlas conjuntamente.
17 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Introduccin a SPSS

SPSS
SPSS (Statistical Package for the Social Sciences) es un programa
estadstico informtico muy usado en las ciencias sociales y en el mbito
sanitario.

Sistema amigable de mens y ventanas


tambin nos permite programar utilizando sintaxis

Fcil anlisis de datos y generacin de grficos


poco flexible

Desventaja: Software privado


alternativas como R (R-Commander) o PSPP

18 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Interfaces de SPSS
Editor de datos

Vista de datos
Esta pgina es visible al abrir por primera vez el Editor de datos y contiene
el banco de datos.

19 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Interfaces de SPSS
Editor de datos

Vista de variables
Descripcin de las variables que tenemos en el banco de datos

20 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Interfaces de SPSS
Visor

Visor
Ventana donde aparecen los resultados

21 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Interfaces de SPSS
Editor de sintaxis

Editor de sintaxis
Para programar en SPSS

22 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Importacin de datos
Introduccin de datos

Importar datos
SPSS nos permite importar datos en diferentes formatos
.xls, .txt, .dat, .sav, etc...
Archivo/Abrir/Datos...

23 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Importacin de datos
Introduccin de datos: Importar datos txt

Importar datos txt

24 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Importacin de datos
Introduccin de datos: Importar datos xls

Importar datos xls

25 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Importacin de datos
Introduccin de datos: Directa (1)

Introduccin directa de datos


Archivo/Nuevo/Datos...

26 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Anlisis de una muestra de una variable continua

Cuando analizamos una muestra de una poblacin, lo primero que


(siempre) debemos hacer es concretar cual es nuestro objetivo:
Comparar unos datos observados con unos esperados:
Datos categricos (sesin 3): test binomial (datos binarios) y test
chi-cuadrado (variables categricas en general)
Datos continuos: test de Kolmogorov-Smirnov (utilizado habitualmente
para contrastar normalidad)
Comprobar la aleatoriedad de una muestra: test de rachas
Comprobar la localizacin de una muestra respecto a un valor
prefijado: test de Wilcoxon

27 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Test de Kolmogorov-Smirnov

Cuando queremos comprobar si unos datos siguen una determinada distribucin


utilizamos el test de Kolmogorov-Smirnov.
Este procedimiento comprueba si la funcin de distribucin muestral de una
muestra se parece a la funcin de distribucin de la distribucin uniforme, normal,
Poisson, o exponencial.
Definicin de distribucin muestral de una muestra: distribucin discreta que
asigna la probabilidad 1/n a cada valor obtenido Xj .
Si la variable de la poblacin es discreta con posibles valores x1 , x2 , . . . , xm eso
significa asignar probabilidad fj /n para cada valor x1 , x2 , . . . , xm (donde fj es la
frecuencia de ocurrencia del valor xj en la muestra).
Ejemplo: si en una Universidad con 5000 estudiantes realizamos una muestra de
50 estudiantes con los siguientes resultados:
Curso 1 2 3 4 5
Frec. Abs. 10 12 8 7 13

La distribucin muestral es:


Curso 1 2 3 4 5
Frec. Rel. 0.2 0.24 0.16 0.14 0.26

28 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Test de Kolmogorov-Smirnov (2)

En nuestro caso, como es continua utilizamos la funcin de


distribucin de la distribucin muestral.
Definicin: es la funcin de distribucin que aumenta 1/n a cada
valor, es decir:
](observaciones x )
Fn (x ) =
n
Observar que si el valor aparece k veces, tiene probabilidad k/n y la
f.d.m. sube a k/n en ese valor (tericamente, si la variable es
continua los valores no pueden repetirse, pero por redondeo a veces
ocurre en la prctica).
Observar que esta funcin f.d.m. es una versin emprica de la
funcin de distribucin poblacional y en principio debera parecerse
(por la ley de los grandes nmeros, Fn (x ) converge a F (x )).

29 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Anlisis de una muestra de una variable continua


Comparar unos datos observados con unos esperados (1)

Test de Kolmogorov-Smirnov
Analizar/Tests no paramtricos/1 muestra...

30 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Anlisis de una muestra de una variable continua


Comparar unos datos observados con unos esperados (2)

Test de Kolmogorov-Smirnov
Analizar/Tests no paramtricos/1 muestra...

31 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Anlisis de una muestra de una variable continua


Comparar unos datos observados con unos esperados (3)

Test de Kolmogorov-Smirnov
Analizar/Tests no paramtricos/1 muestra...

32 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Test de Wilcoxon

Cuando el objetivo es comprobar la localizacin de una muestra


respecto a un valor, analizamos su mediana y vemos si vale el valor
que estamos cuestionando.
En concreto, el test de rangos de Wilcoxon comprueba si la mediana
muestral de una muestra difiere significativamente de un hipottico
valor (que es que queremos contrastar).
Por ejemplo si queremos comprobar si el capital social de 5 empresas
es superior a 15000 euros. Tambin podramos plantearnos si es
diferente.

33 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Anlisis de una muestra de una variable continua


Localizacin de una muestra (1)

Test de Wilcoxon
Analizar/Tests no paramtricos/1 muestra...

34 / 36
Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Anlisis de una muestra de una variable continua


Localizacin de una muestra (2)

Test de Wilcoxon
Analizar/Tests no paramtricos/1 muestra...

35 / 36

Introduccin Est. paramtrica Est. no paramtrica Introduccin SPSS Anlisis 1 muestra var. continua

Ejemplos

Ejemplos
1 Existe informacin sobre el porcentaje de la poblacin (p.e. Anon, 1991) con edad
superior a 60 aos en ms de 200 pases. La siguiente muestra aleatoria se ha
obtenido de 12 de esos pases:
4.9 6.0 6.9 17.6 4.5 12.3
5.7 5.3 9.6 13.5 15.7 7.7
Utilizar el test de Wilcoxon par comprobar si la mediana es 12 o diferente.
2 Comprobar la normalidad de los datos anteriores. Comprobar tambin si pueden
venir de una distribucin uniforme.
3 El valor de las reclamaciones por siniestros de automvil en un seguro durante un
ao ha sido de 1000 euros. Para comprobar que las del ao siguiente no son
diferentes realizan una muestra de 8 reclamaciones, cuyos resultados son:
409 900 1120 1700 450 1123 530 990
Estn los datos de acuerdo con la suposin de la empresa?

36 / 36

S-ar putea să vă placă și