Sunteți pe pagina 1din 41

Pruebas Estadsticas

Esquema:
Planteamiento del problema
Hiptesis nula y alternativa

Recogida de datos
No rechazar la hiptesis nula
Test estadstico

Rechazar la hiptesis nula


(aceptar la hiptesis alternativa)

Cuntas Variables?

Una variable

Normal?

Un grupo

S
Media y
Des. Est.

Dos grupos
No
Binomial

S
T-test

No
Ji-Cuadrado

Tres o ms
grupos

ANOVA

No

No paramtrica

Cuntas Variables?
Dos variables

Ambas continuas

1 categrica y
1 cuantitativa

Ambas
Categricas

Correlacin

ANOVA

JI-CUADRADO

Cuntas Variables?

3 + variable

Dos grupos
o + grupos

Un grupo

Regresin
Mltiple

Anlisis
Factorial

ANOVA
Medidas
repetidas

Anlisis de
covarianza

ANOVA
Multivaridas

Anlisis
Discriminante

Cuntas Muestras?
Pruebas
No paramtricas

Dos Muestras
Independientes

Una Muestra

Escala
Nominal

Ji-Cuadrado

Escala
Ordinal

Escala Ordinal

Kolmogorov-Smirnov

K Muestras
Independientes

Escala Ordinal

T de Wilcoxon

K Muestras
Relacionadas

Escala Ordinal

Kruskal-Wallis

F de Friedman

Pruebas Estadsticas Comnmmente Usadas


Prueba Basadas en la
Teora de la
Normalidad

Prueba no
paramtrica
correspondiente

Propsito de la Prueba

t test para muestras


independientes

Prueba U de MannWhitney; Test Wilcoxon

Comparar dos muestras


independientes

t test para muestras


relacionadas

Wilcoxon para muestras


relacionadas

Examina un grupo de
diereencias

Coeficiente de
correlacin de Pearson

Coeficiente de
correlacin de
Spearman

Evala la asociacin
lineal entre dos variables.

Anlisis de Varianza de
1 factors (Prueba F)

Anlisis de varianza por


rangos de KruskalWallis

Compara tres o ms
grupos

Anlisis de Varianza de
dos factores

Anlisis de Varianza de
dos factores de
Friedman

Compara dos grupos


clasificados por
diferentes factores

Tipo de test estadstico


En primer lugar el investigador debe identificar la naturaleza
de la variables que desea estudiar. Es decir:
- Variable Respuesta
- Distribucin (continua, ordinal, categrica)
- Variable Explicativa
- Nmero de grupos o niveles
As cmo la idoneidad del tipo de prueba:
- Homogeneidad
- Grupos bien balanceados

Prueba T para una muestra


Permite examinar si la
media de la muestra
(para una variable
normalmente distribuida)
difiere significativamente
de un valor hipottico.

Contrastando una
hiptesis

Son demasiados...

Creo que la edad


media es 40 aos...

Gran
diferencia!
Muestra
aleatoria

Rechazo la
hiptesis

X = 20 aos

Se quiere examinar el promedio de puntaje de escritura difiere significativamente de 50.

1
2
Estadsticos para una muestra
N
puntaje escritura

200

Media
52,78

Desviacin
tp.
9,479

Error tp. de
la media
,670

Prueba para una muestra


Valor de prueba = 50

3
puntaje escritura

t
4,140

gl
199

Sig. (bilateral)
,000

Diferencia
de medias
2,77

95% Intervalo de
confianza para la
diferencia
Inferior
Superior
1,45
4,10

La media para esta muestra de estudiantes es 52,78, que es


significativamente diferente del Valor de prueba 50. Se concluye que
Este grupo de estudiantes tiene una media Significativamente ms
alta que 50 en el test de escritura

Identificacin de hiptesis

Hiptesis nula Ho

La que contrastamos

Hip. Alternativa H1
Niega a H0

Los datos pueden refutarla

Los datos pueden mostrar evidencia a


favor

No debera ser rechazada sin una buena


razn.

No debera ser aceptada sin una gran


evidencia a favor.

H0 :

H1 :

p = 50% = , ,
p 50 %

, <, >

Razonamiento bsico
Si supongo que H0 es cierta...
No hay evidencia contra H0
Si una teora hace
predicciones con
xito, queda
probado que es
cierta?

No se rechaza H0
El experimento no es concluyente
El contraste no es significativo

= 40
X = 38

... el resultado del experimento es coherente.

Regin crtica y nivel de significacin


Regin crtica
Valores improbables si...
Es conocida antes de realizar el
experimento: resultados experimentales
que refutaran H0

Nivel de significacin:
Nmero pequeo: 1% , 5%
Fijado de antemano por el
investigador
Es la probabilidad de rechazar H0
cuando es cierta
=5%

Reg. Crit.

Reg. Crit.

No rechazo H0
0: =40

z = valor crtico
zona blanca = regin de no rechazo
zona gris = regin de rechazo
El porcentaje correspondiente a la regin de no
rechazo se denomina el nivel de confianza y
se escribe (1-a ) donde a representa el
porcentaje correspondiente a las colas (tails) y
el porcentaje correspondiente a la regin de
rechazo (a) se llama el nivel de significacin
(level of significance)

La distribucin muestral de la media


generalmente sigue la distribucin
normal y es importante determinar cul
debe ser la regin de rechazo (rejection
region) o regin crtica y cul la regin
de no rechazo (nonrejection region).
Generalmente la regin de no rechazo
cubre el 95% del rea alrededor de la
media y la regin crtica el 5% de los
extremos. El trabajo estadstico previo
consiste en determinar con qu valor de
X comienza la regin crtica.

3
Si z0 < -1.96 si z0 > 1.96 entonces se
rechaza H0
Si -1.96 < z0 < 1.96 entonces no se rechaza H0
z0 se denomina la z observada o el valor
observado de la estadstica.

Cuando a = 0.05 y p = 0.02 entonces se rechaza H0


En otras palabras, la estadstica se encuentra en la zona de rechazo.
Si p = 0.06 entonces no se rechaza H0 puesto que la estadstica se
encuentra en la zona de no rechazo. En otras palabras, siempre que p <
se rechaza H0 y siempre que p > a no se rechaza H0.
Visualmente se puede describir p como el rea bajo los extremos de la
curva.

Contrastes: unilateral y bilateral


La posicin de la regin crtica depende de la hiptesis alternativa

Bilateral

Unilateral

H1: <40

H1: 40

Unilateral

H1: >40

Grado de Significacin: p
Probabilidad de error al rechazar la hiptesis nula. Se calcula a posteriori,
cuando se conoce el resultado de haber aplicado una prueba d esignificacin.

Nivel de Significacin:

Valor a priori: 0,05 0,01

H0: =40

Grado de Significacin: p

No se rechaza
H0: =40

H0: =40

X = 43

10

Grado de Significacin: p
Es la probabilidad de tener una muestra que discrepe an ms que la nuestra de H0.
Es la probabilidad de que por puro azar obtengamos una muestra ms extraa que la obtenida.
p es conocido despus de realizar el experimento aleatorio
El contraste es no significativo cuando p>

No se rechaza
H0: =40

X = 43

Grado de Significacin: p

Se rechaza H0: =40


Se acepta H1: >40

X = 50

11

Grado de Significacin: p
El contraste es estadsticamente significativo cuando p<

Es decir, si el resultado experimental discrepa ms de lo tolerado a priori.

Se rechaza H0: =40


Se acepta H1: >40

X = 50

Resumen: , p y criterio de
rechazo
Sobre

Sobre p

Es nmero pequeo,
preelegido al disear el
experimento

Es conocido tras realizar el


experimento

Conocido sabemos todo


sobre la regin crtica

Conocido p sabemos todo


sobre el resultado del
experimento

Sobre el criterio de rechazo


Contraste significativo = p menor que

12

Tipos de error al contrastar hiptesis


Realidad
H0 cierta
No Rechazo H0

Correcto

H0 Falsa

Error de tipo II

El tratamiento no tiene El tratamiento si tiene efecto


efecto y as se decide. pero no lo percibimos.
Probabilidad

Rechazo H0
Acepto H1

Error de tipo I Correcto

El tratamiento no tiene El tratamiento tiene efecto y el


efecto pero se decide experimento lo confirma.
que s.
Probabilidad

Para un tamao muestral fijo, no se pueden reducir a la vez


ambos tipos de error.
Para reducir , hay que aumentar el tamao muestral.

13

Conclusiones

Las hiptesis no se plantean despus de observar los datos.

En ciencia, las hiptesis nula y alternativa no tienen el mismo papel:

H0 : Hiptesis cientficamente ms simple.


H1 : El peso de la prueba recae en ella.

debe ser pequeo

Rechazar una hiptesis consiste en observar si p<

Rechazar una hiptesis no prueba que sea falsa. Podemos cometer error de tipo I

No rechazar una hiptesis no prueba que sea cierta. Podemos cometer error de tipo II

Si decidimos rechazar una hiptesis debemos mostrar la probabilidad de equivocarnos.

Se usar la prueba T para muestras


independientes en orden a comparar las
medias de una variable dependiente
intervalar distribuida normalmente para
dos grupos independientes.
VI: sexo (categrica)
VD: puntaje en escritura (numrica)

H0 :

H1 :

?
=0,05

14

Variable respuesta Normal


Para comparar una variable respuesta entre dos muestras
independientes cuando dicha variable sigue una distribucin
normal se utiliza la prueba:
prueba T de Student (T-Test):
La hiptesis que contrasta es:
H0: 1= 2
H1: 1 2

Las medias son iguales


Las medias son diferentes

El contraste de hiptesis para muestras independientes divide los


casos en dos grupos y compara las medias de los grupos respecto
a una variable. En una situacin ideal los sujetos deberan
asignarse aleatoriamente a los grupos, de forma que cualquier
diferencia pueda atribuirse al efecto del tratamiento y no a otros
factores. Dicho de otro modo, debe asegurarse que las diferencias
en otros factores no enmascaren o resalten una diferencia
significativa entre las medias.
VI: sexo (categrica)

VD: puntaje en escritura (numrica)

15

4
El resultado indica que hay diferencias
estadsticamente significativas en la
media de los puntajes de escritura entre
hombres y mujeres (t=-3.734, p=0.000).
En otras palabras, las mujeres tienen
una media (54,99) ms alta en escritura
que los hombres (50,12) y es
estadsticamente significativa

2
puntaje escritura

SEXO
Hombre
Mujer

Los grados de libertad son una cantidad que


permite introducir una correccin matemtica
en los clculos estadsticos para restricciones
impuestas en los datos.
Estadsticos de grupo
N
91
109

Media
50,12
54,99

Desviacin
tp.
10,305
8,134

Los grados de libertad permiten tomar en


cuenta el nmero de parmetros poblacionales
que se deben estimar en una muestra para
poder aplicar ciertas pruebas estadsticas.

Error tp. de
la media
1,080
,779

Sobre el criterio de rechazo

Prueba de muestras independientes

F
puntaje escritura Se han asumido
varianzas iguales
No se han asumido
varianzas iguales

Contraste significativo = p menor que

Prueba de Levene
para la igualdad de
varianzas

11,133

Sig.
,001

Prueba T para la igualdad de medias

Sig. (bilateral)

-3,734

198

,000

-4,87

1,304

-7,442

-2,298

-3,656

169,707

,000

-4,87

1,332

-7,499

-2,241

gl

Error tp. de
la diferencia

95% Intervalo de
confianza para la
diferencia
Inferior
Superior

Diferencia
de medias

Supuestos
1. Las muestras se seleccionan aleatoriamente.
2. Las muestras son independientes (ie. Las observaciones en una
muestra no tienen nada que ver con las observaciones en la otra
muestra)
3. Las poblaciones tienen una distribucin normal
4 . Las varianzas de las poblaciones son iguales (homogeneidad de
varianzas)
Si hay el mismo nmero de observaciones en los dos grupos, la
prueba es robusta y por lo tanto no hace falta realizar la prueba
de homogeneidad de varianzas.
Tradicionalmente los dos primeros supuestos se logran seleccionando
aleatoriamente los sujetos y asignando aleatoriamente la mitad al
grupo control y la otra mitad al experimental.

16

H0 :
?

H1 :

VI: Sexo de los sujetos (categrica)


VD: puntaje en escritura (numrica)

=0,05

Se aplicar la prueba Wilcoxon-Mann-Whitney


(no paramtrica) dado que no se asume que la
variable intervalar est normalmente distribuida
La versin paramtrica es el t-test para
muestras independientes

4
Rangos

2
puntaje escritura

SEXO
Hombre
Mujer
Total

N
91
109
200

Rango
promedio
85,63
112,92

Estadsticos de contraste

3
U de Mann-Whitney
W de Wilcoxon
Z
Sig. asintt. (bilateral)

puntaje
escritura
3606,000
7792,000
-3,329
,001

Suma de
rangos
7792,00
12308,00

Sobre el criterio de rechazo


Contraste significativo = p menor que

Los resultados indican que hay diferencias


estadsticamente significativas entre
hombres y mujeres en sus puntajes en
escritura (z=-3.329, p=0,001).

a. Variable de agrupacin: SEXO

17

Se desea examinar la relacin entre


dos variables categricas. Para este
efecto se usar la Ji Cuadrado.
Variables Categricas: tipo de
institucin (tip_inst) y sexo (sexo).

VI: Sexo
VD: tip_inst

H0 :

H1 :

?
=0,05

Variable respuesta Categrica


Para comparar una variable respuesta entre dos muestras
independientes cuando dicha variable es categrica se utilizan
las pruebas:
prueba 2, prueba Exacta de Fisher:
La hiptesis que contrastan es:
H0: La variable respuesta es independiente de la variable
explicativa (Los grupos de tratamiento son homogneos).
H1: La variable respuesta NO es independiente de la variable
explicativa (Los grupos de tratamiento no son homogneos).

18

La hiptesis que deseamos contrastar es:


H0: La distribucin segn tipo de institucin es homognea en
ambos grupos (sexo).
H1: La distribucin segn tipo de institucin NO es homognea
en ambos grupos (sexo).

1
2
Tabla de contingencia tipo institucin * SEXO
Recuento

tipo institucin
Total

pblica
privada

SEXO
Hombre
Mujer
77
91
14
18
91
109

Total
168
32
200

Sobre el criterio de rechazo


Contraste significativo = p mayor que

3
Chi-cuadrado de Pearson
Correccin apor
continuidad
Razn de verosimilitud
Estadstico exacto de
Fisher
Asociacin lineal por
lineal
N de casos vlidos

Pruebas de chi-cuadrado

Sig. asinttica
(bilateral)
,828

,001

,981

,047

,828

,047

,829

Valor
,047b

gl

Sig. exacta
(bilateral)

Sig. exacta
(unilateral)

,849

,492

Los resultados indican que no hay


diferencias estadsticamente significativas
en la relacin entre el tipo de institucin y el
sexo de los sujetos (Chi=0,047, p=0,828)

200

a. Calculado slo para una tabla de 2x2.


b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada
es 14,56.

19

Se quiere estudiar al relacin lineal


entre el gnero (sexo) y el estatus
socioeconmico (ses).
JI CUADRADO
Una variable tiene dos niveles (sexo)
[variable independiente] y la otra ses
tiene tres niveles (bajo, medio, alto)
[variable dependiente].

H0 :

H1 :

=0,05

1
Tabla de contingencia estus socioeconmico * SEXO
Recuento

estus socioeconmico

bajo
medio
alto

Total

SEXO
Hombre
Mujer
15
32
47
48
29
29
91
109

Total
47
95
58
200

Se halla que no hay


diferencias estadsticamente significativas
al relacionar la variables.
(Chi= 4,577, p=0,101, gl. 2)

2
Pruebas de chi-cuadrado

Chi-cuadrado de Pearson
Razn de verosimilitud
Asociacin lineal por
lineal
N de casos vlidos

Valor
4,577a
4,679
3,110

2
2

Sig. asinttica
(bilateral)
,101
,096

,078

gl

200

a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.


La frecuencia mnima esperada es 21,39.

Sobre el criterio de rechazo


Contraste significativo = p mayor que

20

Se tiene una variable independiente categrica (con


dos o ms categricas) y una variable dependiente
intervalar normalmente distribuida y se desea examinar
las diferencias de medias de la variable dependiente en
funcin de los niveles de la variables independiente.
ANOVA 1 FACTOR
Variables: tipos de programa (categrica,
independiente) y puntaje en escritura (intervalar,
dependiente). Se desea saber si las medias difieren en
funcin de stos.

H0 :

H1 :

=0,05

Test de hiptesis (ANOVA I)


Este contraste plantea en su hiptesis nula que las medias
poblacionales de k poblaciones independientes son iguales
H0: 1 = 2 = ... = k
donde k es el nmero de grupos experimentales o muestras frente a la
hiptesis alternativa de que alguna media es diferente

21

1
VD

VI
3
2
La media de la variable
dependiente difiere significativamente
segn los niveles de programas. Pero no
sabemos si las diferencias es entre que
Niveles.

ANOVA
puntaje escritura
Suma de
cuadrados
Inter-grupos 3175,698
Intra-grupos 14703,177
Total
17878,875

gl
2
197
199

Media
cuadrtica
1587,849
74,635

F
21,275

Sig.
,000

La Tabla ANOVA nos indica que al ser 0.000 inferior al valor 0.05 valor
habitual del nivel crtico deberemos de rechazar la hiptesis nula

Comparaciones mltiples

Variable dependiente: puntaje escritura


Scheff

Diferencia de
(I) tipo de programa
(J) tipo de programa
medias (I-J)Error tpico
general
acadmico
-4,92*
1,539
vocacional
4,57*
1,775
acadmico
general
4,92*
1,539
vocacional
9,50*
1,484
vocacional
general
-4,57*
1,775
acadmico
-9,50*
1,484

Intervalo de confianza al
95%
Lmite
Sig. Lmite inferior superior
,007
-8,72
-1,13
,038
,19
8,95
,007
1,13
8,72
,000
5,84
13,16
,038
-8,95
-,19
,000
-13,16
-5,84

*. La diferencia entre las medias es significativa al nivel .05.

22

VI: Tipo de Programas (ms de un nivel). Categrica


VD: Puntajes de escritura. Intervalar

PRUEBA DE KRUSKAL WALLIS


(comparacin de "a" grupos independientes)
Es la versin no paramtrica de la ANOVA de
1 factor.

H0 :

H1 :

Hiptesis nula: no hay diferencias entre los grupos),

=0,05

23

1
2
Rangos

puntaje escritura

tipo de programa
general
acadmico
vocacional
Total

N
45
105
50
200

Rango
promedio
90,64
121,56
65,14

4
3

Estadsticos de contraste

Chi-cuadrado
gl
Sig. asintt.

a,b

puntaje
escritura
34,045
2
,000

a. Prueba de Kruskal-Wallis
b. Variable de agrupacin: tipo de programa

Sobre el criterio de rechazo


Contraste significativo = p menor que

Los resultados indican que hay diferencias


estadsticamente significativas entre los
tres programas.

Examinar si las medias de los puntajes de


lectura (variable numrica) son iguales que las
medias de los puntajes de escritura (variable
numrica).

La Prueba T para muestras relacionadas compara las medias


de dos variables de un solo grupo. Calcula las diferencias entre
los valores de las dos variables y contrasta si la media difiere
de cero. Es decir, este diseo se aplica cuando los datos estn
apareados o emparejados (provienen de sujetos con variables
medidas antes y despus del tratamiento o de pares de sujetos
emparejados a partir de sus caractersticas similares en
variables de control o que se desean controlar de modo
especfico).

24

Se requiere examinar si las


medias de estas puntuaciones,
normalmente distribuidas, difieren.

H0 :

H1 :

=0,05

1
5

Sobre el criterio de rechazo


Contraste significativo = p mayor que

2
Par 1

Estadsticos de muestras relacionadas

puntaje lectura
puntaje escritura

Media
52,23
52,78

N
200
200

Los resultados indican que la media de los puntajes de


lectura no presentan diferencias estadsticamente
significativas con la media de las Puntuaciones de lectura
(t=-0,867, p=0.387)

Error tp. de
la media
,725
,670

Correlaciones de muestras relacionadas


N

Par 1

Desviacin
tp.
10,253
9,479

puntaje lectura y
puntaje escritura

Correlacin
200

Sig.

,597

,000

Prueba de muestras relacionadas


Diferencias relacionadas

Media
Par 1

puntaje lectura puntaje escritura

-,55

Desviacin
tp.
8,887

Error tp. de
la media
,628

95% Intervalo de
confianza para la
diferencia
Inferior
Superior
-1,78

,69

t
-,867

gl

Sig. (bilateral)
199

,387

25

Explorar estadstica descriptiva

Seleccionar la
estadstica

Para seleccionar
grficos diagnstico,
click en Grficos.

Primero, click en los


grficos de Normalidad
(prueba la hiptesis de
normalidad).

Segundo, click en el
Histograma

26

Histograma
60

Una impresin inicial de la


normalidad de la distribucin
se puede obtener a partir del
histograma.

50

40

30

Frecuencia

20
Desv. tp. = 9,48

10

Media = 52,8
N = 200,00

0
30,0

40,0
35,0

50,0
45,0

60,0
55,0

65,0

puntaje escritura

Pruebas de normalidad
a

puntaje escritura

Kolmogorov-Smirnov
Estadstico
gl
Sig.
,134
200
,000

Estadstico
,947

Shapiro-Wilk
gl
200

Sig.
,000

a. Correccin de la significacin de Lilliefors

Dado que la probabilidad asociada es < 0.001 es menor


que o igual que el nivel de significacin (0.05), se
rechaza la hiptesis nula y se concluye que el puntaje no
est normalmente distribuido. Esto obliga a revisar
decisiones anteriores.

Prueba de Kolmogorov-Smirnov para una muestra

N
a,b
Parmetros normales

Diferencias ms
extremas

Media
Desviacin tpica
Absoluta
Positiva
Negativa

Z de Kolmogorov-Smirnov
Sig. asintt. (bilateral)

puntaje
lectura
200
52,23

puntaje
escritura
200
52,78

10,253

9,479

,105
,105
-,083
1,485
,024

,134
,068
-,134
1,900
,001

a. La distribucin de contraste es la Normal.


b. Se han calculado a partir de los datos.

27

Se tiene dos o ms variables dependientes, en


este caso estatus socioeconmico (ses) y sexo
de los sujetos (sexo), y como variable
dependiente una variable numrica: puntaje
escritura.

Se aplicar ANOVA factorial.

VD

VI

28

Factores inter-sujetos

SEXO
estus socioeconmico

0
1
1
2
3

Etiqueta
del valor
Hombre
Mujer
bajo
medio
alto

N
91
109
47
95
58

2
Pruebas de los efectos inter-sujetos
Variable dependiente: puntaje escritura

Fuente
Modelo corregido
Interseccin
SEXO
SES
SEXO * SES
Error
Total
Total corregida

Suma de
cuadrados
tipo III
2278,244a
473967,467
1334,493
1063,253
21,431
15600,631
574919,000
17878,875

gl
5
1
1
2
2
194
200
199

Media
cuadrtica
455,649
473967,467
1334,493
531,626
10,715
80,416

F
5,666
5893,972
16,595
6,611
,133

Significacin
,000
,000
,000
,002
,875

a. R cuadrado = ,127 (R cuadrado corregida = ,105)

31

Los resultados indican que el modelo general es


estadsticamente significativo (F=5,666, p = 0,000)
la variable sexo y ses son tambin estadsticamente
significativas (F=16,595, p0,000 y F= m 6,611, p = 0,002
eespectivamente). Si embargo, la interaccin sexo y
ses no es estadsticamente significativa (F= 0,133, p= 0,875).

Prueba de Friedman
Se tiene una variable independiente y
una variable dependiente que no est
normalmente distribuida.
Hay diferencia entre los puntajes de lectura, escritura y matemticas?
Hiptesis nula: las distribuciones de los rangos de cada tipo de puntaje
(lectura, escritura, matemticas) son los mismos.

29

Rangos

puntaje lectura
puntaje escritura
puntaje mat.

Rango
promedio
1,96
2,04
2,01

Contraste significativo = p mayor que

Estadsticos de contrastea

N
Chi-cuadrado
gl
Sig. asintt.

Sobre el criterio de rechazo

200
,645
2
,724

La ji cuadrado de Friedman tiene un valor de 0,645 y


p de 0,724 y no es estadsticamente significativa.
no hay evidencia de que las distribuciones de los tres
tipos de puntajes sean diferentes.

a. Prueba de Friedman

Se quiere examinar la relacin entre


el puntaje de matemtica y puntaje de
ciencias. Ambas variables distribuidas
normalmente y nmericas.
Se quiere saber si los alumnos que sacaron notas
altas en matemticas tambin sacaron notas altas en
ciencias. Para eso, una de las primeras cosas que se
hace es que se grafican los puntos en el plano
cartesiano donde cada punto corresponde a un
estudiante

30

H0 :

H1 :

1
80

70

60

50

40

puntaje ciencia

=0,05

30

20
30

40

puntaje mat.

50

60

70

80

Los estudios de correlacin


tratan de medir el grado de
asociacin que existe entre
dos variables. Estos estudios
sobre la relacin entre
variables son muy comunes
en las ciencias sociales.
Sin embargo, como hay
diferentes escalas para medir
las variables hay que ver la
medida o coeficiente de
correlacin que se utilice va a
depender directamente de las
escalas de medicin de las
variables.

2
Este tipo de diagrama presenta una imagen de la
relacin entre dos variables numricas.
En la grfica de la transparencia se observa un patrn
que indica una correlacin positiva, puesto que los
puntos suben a medida que nos movemos hacia la
derecha.

31

CORRELACIN

a) Relacin lineal directa

d) Relacin lineal directa


Con mayor grado de
relacion de a)

b)Relacin lineal inversa

e) Relacin lineal directa


Con menor grado de
relacion de a)

c) Relacin curvilnea

No existe relacin

El coeficiente de correlacin puede tomar valores entre +1 y -1,


donde el signo indica direccin de la relacin.

32

Correlaciones
puntaje
puntaje mat. ciencia
Correlacin de Pearson
1
,631**
Sig. (bilateral)
.
,000
N
200
200
puntaje ciencia Correlacin de Pearson
,631**
1
Sig. (bilateral)
,000
.
N
200
200
puntaje mat.

**. La correlacin es significativa al nivel 0,01 (bilateral).

Hay 200 estudiantes y el


coeficiente de correlacin
entre sus puntuaciones de
matemticas y sus
puntuaciones en ciencias es r
= 0.631.
Por lo tanto (0.631)2 = 0.40
de la varianza en las
puntuaciones de ciencias se
relaciona con la variacin de
la puntuaciones en
matemticas. El 60% restante
de la variacin est asociada
con otros factores.

Interpretacin del
coeficiente de correlacin

COEFICIENTE DE
CORRELACIN

INTERPRETACIN

0,20-0,35

Relacin muy dbil.

0,35-0,65

Relaciones estadsticamente significativas


a un nivel de confianza de 0,01.

0,65-0,85

Relaciones altas. Permiten establecer predicciones con escaso error.

0,85-1

Relacin muy alta y estrecha entre variables.

33

Se quiere examinar la relacin lineal entre una


variable numrica, normalmente distribuida y
que es predictora, con otra variable numrica
que es una variable criterio.

Las variables son matemticas


(predictora) y ciencias (criterio o
dependiente).

H0 :

H1 :

=0,05

34

4
Coeficientesa

Modelo
1

Resumen del modelo

Modelo
1

R
R cuadrado
,631a
,398

R cuadrado
corregida
,395

Error tp. de la
estimacin
7,702

a. Variables predictoras: (Constante), puntaje mat.

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
7760,558
11746,942
19507,500

gl
1
198
199

Media
cuadrtica
7760,558
59,328

F
130,808

Coeficientes
estandarizad
os
Beta
,631

t
5,378
11,437

Sig.
,000
,000

a. Variable dependiente: puntaje ciencia

(Constante)
puntaje mat.

Coeficientes no
estandarizados
B
Error tp.
16,758
3,116
,667
,058

La relacin entre ambas variables


Es positiva (0,631) y basados en el valor de t (11,47)
y p = 0,000. Se concluye que hay una relacin
estadsticamente significativa.
Hay una relacin lineal positiva entre matemticas
Y ciencia.
Sig.
,000a

a. Variables predictoras: (Constante), puntaje mat.


b. Variable dependiente: puntaje ciencia

Se quiere examinar la relacin entre dos


variables que no estn distribuidas
normalmente, ambas intervalares. Los valores
de las variables se convierten en rangos y
despus de correlaciona. Se trata de una
correlacin no paramtrica (Spearman)
Variables:
Puntuaciones lectura y puntuaciones
escritura

35

H0 :

H1 :

=0,05

Los resultados sugieren que la


relacin entre lectura y escritura
(rho=0,640, p = 0,000)
es estadsticamente significativa.

Correlaciones
puntaje mat.
Rho de Spearman

puntaje mat.

puntaje ciencia

Coeficiente de
correlacin
Sig. (bilateral)
N
Coeficiente de
correlacin
Sig. (bilateral)
N

1,000

puntaje
ciencia
,640**

.
200

,000
200

,640**

1,000

,000
200

.
200

**. La correlacin es significativa al nivel 0,01 (bilateral).

36

Se tiene ms de una variable


predictora.
Regresin mltiple
Se predecir los puntajes de escritura
a partir del gnero, lectura,
matemticas, ciencias y estudios
sociales.

H0 :

H1 :

=0,05

37

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
10756,924
7121,951
17878,875

gl
5
194
199

Media
cuadrtica
2151,385
36,711

F
58,603

Sig.
,000a

a. Variables predictoras: (Constante), SEXO, puntaje mat., puntaje cs. soc., puntaje
ciencia, puntaje lectura
b. Variable dependiente: puntaje escritura
Coeficientesa

Modelo
1

Resumen del modelo


Modelo
1

R
R cuadrado
,776a
,602

R cuadrado
corregida
,591

Error tp. de la
estimacin
6,059

(Constante)
puntaje lectura
puntaje mat.
puntaje ciencia
puntaje cs. soc.
SEXO

Coeficientes no
estandarizados
B
Error tp.
6,139
2,808
,125
,065
,238
,067
,242
,061
,229
,053
5,493
,875

Coeficientes
estandarizad
os
Beta
,136
,235
,253
,260
,289

t
2,186
1,931
3,547
3,986
4,339
6,274

Sig.
,030
,055
,000
,000
,000
,000

a. Variable dependiente: puntaje escritura

a. Variables predictoras: (Constante), SEXO, puntaje mat.,


puntaje cs. soc., puntaje ciencia, puntaje lectura

Los resultados indican que el modelo general es estadsticamente significativo (F=58,60, p=0,000.
Adems, todas las variables predictoras son estadsticamente significativas, excepto lectura.

El anlisis de la covarianza es una tcnica estadstica


que, utilizando un modelo de regresin lineal mltiple,
busca comparar los resultados obtenidos en diferentes
grupos de una variable cuantitativa, pero "corrigiendo"
las posibles diferencias existentes entre los grupos en
otras variables que pudieran afectar tambin al
resultado (covariantes).

Las variables son las siguientes


puntuaciones escritura con lectura
por tipo de programa.

38

VD

VI

covariable

Factores inter-sujetos

tipo de
programa

1
2
3

Etiqueta
del valor
general
acadmic
o
vocaciona
l

N
45
105

Pruebas de los efectos inter-sujetos


50

Variable dependiente: puntaje escritura

Fuente
Modelo corregido
Interseccin
LECTURA
PROG
Error
Total
Total corregida

Suma de
cuadrados
tipo III
7017,681a
4867,964
3841,983
650,260
10861,194
574919,000
17878,875

gl
3
1
1
2
196
200
199

Media
cuadrtica
2339,227
4867,964
3841,983
325,130
55,414

F
42,213
87,847
69,332
5,867

Significacin
,000
,000
,000
,003

a. R cuadrado = ,393 (R cuadrado corregida = ,383)

Los resultados indican que incluso ajustando el puntaje de lectura,


los puntajes de escritura siguen siendo significativamente diferentes
por tipo de programa (F= 5,867, p=0,003).

39

Se quiere realizar un anlisis


multivariado para reducir el nmero
de variables en un modelo o detectar
las relaciones entre las variables.
El objetivo es tratar de identificar
los factores subyacentes en las
variables.

KMO y prueba de Bartlett


Medida de adecuacin muestral de
Kaiser-Meyer-Olkin.
Prueba de esfericidad
de Bartlett

,861

Chi-cuadrado
aproximado
gl

492,437
10

Sig.

,000

Comunalidades
puntaje lectura
puntaje escritura
puntaje mat.
puntaje ciencia
puntaje cs. soc.

Inicial
1,000
1,000
1,000
1,000
1,000

Extraccin
,736
,704
,750
,849
,900

Mtodo de extraccin: Anlisis de Componentes principales.

La comunalidad es la proporcin de la varianza


de la variables (i.e, lectura) de la cual dan cuenta todos los
factores tomados en conjunto. Una muy baja comunalidad
puede indicar que una variable puede no pertenecer a
ninguno de los factores.

40

Grfico de sedimentacin
4,0
3,5
3,0

El grfico de sedimentacin puede ser til para


determinar cuntos factores retener. Tambin es
importante examinar la varianza total explicada. En
este caso un factor explican el 67,6% de la
varianza.

2,5
2,0
1,5

Autovalor

1,0
,5
0,0
1

Nmero de componente

Varianza total explicada

Componente
1
2
3
4
5

Autovalores iniciales
% de la
Total
varianza
% acumulado
3,381
67,616
67,616
,557
11,148
78,764
,407
8,136
86,900
,356
7,123
94,023
,299
5,977
100,000

Suma de las saturaciones al cuadrado


de la rotacin
% de la
Total
varianza
% acumulado
2,113
42,267
42,267
1,825
36,497
78,764

Mtodo de extraccin: Anlisis de Componentes principales.

Matriz de componentes rotadosa

puntaje lectura
puntaje escritura
puntaje mat.
puntaje ciencia
puntaje cs. soc.

Componente
1
2
,650
,559
,508
,667
,757
,421
,900
,198
,222
,922

Mtodo de extraccin: Anlisis de componentes principales.


Mtodo de rotacin: Normalizacin Varimax con Kaiser.
a. La rotacin ha convergido en 3 iteraciones.

La matriz de componente rotados,


Se detecta que tres los puntajes
tienen cargas mayores con el primer factor,
y dos con el segundo. Aunque los altos valores
en ambos factores indican precaucin en la
interpretacin.

41

S-ar putea să vă placă și