Documente Academic
Documente Profesional
Documente Cultură
DE HUACAVELICA
ESCUELA ACADEMICO PROFECIONAL DE
ZOOTECNIA
MANUAL DE
METODOS
ESTADISTICOS CON
SAS
Ms.Sc. EDGAR C.QUISPE PEA
Ing. HEBERT E. RAMOS ACUA
2007
INTRODUCCION
1. IN.
Durante los ltimos aos la estadstica aplicada ha ganado
mucha importancia en el mundo de la investigacin,
probablemente debido a la gran potencia de clculo de los
ordenadores y en concreto a los diferentes paquetes
estadsticos.
Paralelamente, los paquetes estadsticos tambin se han
adaptado a las nuevas necesidades, de manera que ahora ya
no se habla de "paquetes estadsticos", trmino demasiado
concreto. Por ejemplo, SAS inicialmente significaba "Statistical
Analysis System", pero a medida que este programa iba
incorporando nuevas capacidades la mayora de las cuales no
eran propiamente estadsticas, SAS pas a convertirse en una
sola palabra.
Este sencillo manual de SAS para Windows pretende
ser una primera aproximacin al programa SAS para aquellas
personas con algunos conocimientos de estadstica que
quieran iniciarse en el tratamiento de los datos mediante este
programa. Este manual slo trata aquellas instrucciones ms
bsicas y sus opciones ms habituales. Es til haber tenido
contactos previos con otros programas de anlisis y
manipulacin de datos, hojas de clculo y lenguajes de
programacin. Por otro lado, se da por supuesto qu el
usuario ya tiene experiencia suficiente en el entorno Windows.
El manual est dividido en diferentes apartados bastante
concretos: leer datos, tabular los datos, etc. pero en cada uno
de ellos se introducen diversas caractersticas generales con el
objetivo de avanzar paralelamente en otros detalles necesarios
del funcionamiento del programa.
2
SAS PARA METODOS ESTADISTICOS
1. INICIO DE SECION
Ventana inicial.
El programa SAS bsicamente es encuentra dividido en dos
grandes ventanas:
3
advertencia y de error en caso necesario y se informa
sobre la velocidad de ejecucin y recursos.
Ventana OUTPUT: Cuando se ejecutan procedimientos
de SAS, en esta ventana se muestran los listados, tablas
y/o resultados.
2. MDULOS DE SAS
4
3. FUNCIONES DE SAS.
4. FUNCIONES NUMRICAS:
FUNCIONES ALEATORIAS:
RANBIN(SEMILLA, n, p) Binomial de parmetros "n" y "p"
generada a partir de cierta semilla.
5
RANNOR(SEMILLA) Normal de media "0" y desviacin
estndar "1" generada a partir de cierta
semilla.
RANPOI(SEMILLA, a) Poisson de parmetro "a"
generada a partir de cierta
semilla.
RANUNI(SEMILLA) Uniforme con parmetros "0" y
"1" generada a partir de cierta
semilla.
FUNCIONES ALFANUMRICAS:
INDEX Busca una expresin de caracteres dentro de
una cadena.
COMPRESS Elimina caracteres especficos de una cadena.
LOWCASE Convierte todas las letras del argumento a
minsculas.
UPCASE Convierte todas las letras del argumento a
maysculas.
LENGTH Retorna la longitud del argumento.
LEFT Alinea a la izquierda una expresin de
caracteres.
REVERSE Da la vuelta a una cadena.
SCAN Selecciona una palabra en particular de una
expresin de caracteres.
SOUNDEX Codifica una cadena a sonidos para facilitar
comparaciones.
SPEDIS Determina la similitud entre dos palabras
expresada cmo una distancia.
SUBSTR Extraes una subcadena de un argumento.
TRANSLATE Reemplaza caracteres especficos de un
argumento.
6
DISEO COMPLETAMENTE AL AZAR (DCA)
7
unidades experimentales. A este diseo se le conoce tambin
como diseo de clasificacin de una va (ONE way).
Ejemplo (1)
COMPUESTO
VITAMINICO AUMENTO DE PESO TRAS UNA SEMANA EN LIBRAS
8
A 10.9
A 10.8 Esta es la
A 10.2
A 11.4
forma de
A 10.7 ingreso de
B 11.5 datos
B 11.0
B 10.8
B 10.6
B 11.2
B 10.9
C 10.1
C 10.6
C 11.2
C 10.2
C 10.4
D 9.2
D 9.8
D 10.1
D 9.7
D 10.4
;
Proc print;
proc GLM;
class trat;
Model Y=trat;
means trat/duncan;
run;
quit;
Resultados a comprobar en
MANUALMENTE:
diseo completamente al azar
Obs trat Y
1 A 11.1
2 A 10.9
3 A 10.8
4 A 10.2
5 A 11.4
6 A 10.7
9
7 B 11.5
8 B 11.0
9 B 10.8
10 B 10.6
11 B 11.2
12 B 10.9
13 C 10.1
14 C 10.6
15 C 11.2
16 C 10.2
17 C 10.4
18 D 9.2
19 D 9.8
20 D 10.1
21 D 9.7
22 D 10.4
10
NOTE: This test controls the Type I comparisonwise error rate, not
the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 18
Error Mean Square 0.160389
Harmonic Mean of Cell Sizes 5.454545
NOTE: Cell sizes are not equal.
Number of Means 2 3 4
Critical Range .5095 .5346 .5504
Means with the same letter are not significantly different.
Duncan Grouping
Mean N trat
A 11.0000 6 B
A
A 10.8500 6 A
A
A 10.5000 5 C
B 9.8400 5 D
11
dentro de cada bloque, y son al azar porque los tratamientos
son asignados aleatoria mente dentro de cada bloque. A este
diseo se le conoce tambin como diseo de clasificacin de
dos vas sin interaccin (Two Way).
Los diseos de bloques pueden tambin pueden ser
incompletos balanceados. En este caso los bloques, son
incompletos no por que todos los tratamientos aparecen
dentro de cada bloque y balanceados por que el nmero de
tratamientos de cada bloque es el mismo y cada tratamiento
se repite el nmero de veces dentro del experimento.
Ejemplo (2)
DIAS
SOLUCION 1 2 3 4
1 13 22 18 39
2 16 24 17 44
3 5 4 1 22
Data metodos;
12
Options nodate nocenter nonumber ls=72 ps=60;
Title "diseo de bloques completamente al azar";
input trat bloque Y;
cards;
1 1 13
1 2 22
1 3 18
1 4 39
2 1 16
2 2 24
2 3 17
2 4 44
3 1 5
3 2 4
3 3 1
3 4 22
;
proc print;
proc ANOVA;
class TRAT Bloque;
model Y= trat bloque ;
MEANS trat bloque/Duncan Tukey Lsd;
run;
quit;
Dependent Variable: Y
Sum of
13
Source DF Squares Mean Square F Value
Model 5 1810.416667 362.083333 41.91
Error 6 51.833333 8.638889
Corrected Total 11 1862.250000
Source Pr > F
Model 0.0001
Error
Corrected Total
R-Square Coeff Var Root MSE Y Mean
0.972166 15.67573 2.939199 18.75000
14
(filas y columnas) por lo que cada tratamiento debe aparecer
una vez en cada fila y en cada columna la aleatorizacion en
este diseo consiste en elegir un cuadrado al azar de entre
todos los cuadrados latinos posibles. Por ejemplo para un
DCL con 3 tratamientos, todos los cuadrados posibles serian.
T1 T2 T3 T1 T2 T3
T2 T3 T1 T3 T1 T2
T3 T1 T2 T2 T3 T1
T2 T1 T3 T3 T1 T2
T1 T3 T2 T2 T3 T1
T3 T2 T1 T1 T2 T3
T3 T1 T2 T2 T1 T3
T1 T2 T3 T3 T2 T1
T2 T3 T1 T1 T3 T2
Ejemplo (3)
15
Se realizo un experimento para comparar la efectividad de 4
abonos nitrogenados en el cultivo de caa de azcar. Las
clavez para los abonos son:
COLUMNAS
FILA 1 2 3 4
1 432(SA) 518(NA) 458(SS) 583(UR)
2 550(SS) 724(UR) 400(NA) 524(SA)
3 556(UR) 384(SS) 400(SA) 297(NA)
4 500(NA) 506(SA) 501(UR) 494(SS)
Donde:
Y(i)jk es el rendimiento de caa observado en el i-ensimo
tratamiento, j-ensima fila, k-ensima columna.
es el efecto de la media general.
t(i) es el efecto del i-ensimo abono nitrogenado.
j es el efecto de la j-ensima bloque fila
k es el efecto de la k-ensima bloque columna
16
(i)jk es el efecto del error experimental en el i-simo abono
nitrogenado , j-simo bloque fila, k-simo bloque columna.
k-simo bloque columna.
t =4 es el nmero de tratamientos que es igual al numero
de filas y columnas
DATA METODOS;
Options nodate nocenter nonumber ls=72 ps=60;
Title diseo cuadrado latino;
Input COL BLOCK TRAT$ VR;
Cards;
1 1 SA 432
1 2 NA 518
1 3 SS 458 RECUERD
1 4 UR 583 A QUE EL
2 1 SS 550
2 2 UR 724
INGRESO
2 3 NA 400 DE DATOS
2 4 SA 524 DEBE SER
3 1 UR 556 ORDENAD
3 2 SS 384
O
3 3 SA 400
3 4 NA 297
4 1 NA 500
4 2 SA 506
4 3 UR 501
4 4 SS 494
;
Proc print;
proc ANOVA;
Class COL BLOCK TRAT;
Model VR= COL BLOCK TRAT;
Means trat/ Duncan;
run;
quit
DISEO CUADRADO LATINO
1 1 1 SA 432
2 1 2 NA 518
3 1 3 SS 458
4 1 4 UR 583
5 2 1 SS 550
17
6 2 2 UR 724
7 2 3 NA 400
8 2 4 SA 524
9 3 1 UR 556
10 3 2 SS 384
11 3 3 SA 400
12 3 4 NA 297
13 4 1 NA 500
14 4 2 SA 506
15 4 3 UR 501
16 4 4 SS 494
Dependent variable: vr
Sum of
Source DF Squares Mean Square F Value
Model 9 120430.5625 13381.1736 3.58
Error 6 22425.8750 3737.6458
Corrected Total 15 142856.4375
Source Pr > F
Model 0.0673
Error
Corrected Total
18
TRAT 0.0399
NOTE: This test controls the Type I comparisonwise error rate, not
the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 6
Error Mean Square 3737.646
Number of Means 2 3 4
Critical Range 105.8 109.6 111.5
Means with the same letter are not significantly different.
Duncan Grouping
Mean N TRAT
A 591.00 4 UR
B 471.50 4 SS
B
B 465.50 4 SA
B
B 428.75 4 NA
19
DISEO CUADRADO LATINO CON
ARREGLO FACTORIAL
El siguiente cuadro muestra los datos de un experimento en
cuadrado latino con arreglo factorial 2x2.donde se evalu el
efecto de dos niveles de nitrgeno 0 vs 200Kg./Ha en
combinacin con dos niveles de fsforo 0 vs 50 kg/Ha sobre el
rendimiento forrajero de festuca dichoclada.
DONDE:
A=NoPo
B=NoP1
C=N1Po
D=N1P1
Yjjkl=+Ti+ Cj+Bk+eijkl
Donde:
20
Yijkl = Rendimiento forrajero de F. dicholada.
= media general.
Ti = efecto del i-ensimo tratamiento.
DATA METODOS;
OPTIONS NODATE NOCENTER NONUMBER LS=72 PS=60;
TITLE "CUADRADO LATINO REDUCIDO";
INPUT COLUMNA BLOQUE TRAT$ Y ;
CARDS;
1 1 A 1.0
1 2 B 1.5
1 3 C 2.0
1 4 D 3.0
2 1 B 1.6
2 2 A 1.1
2 3 D 3.2
2 4 C 2.1
3 1 C 2.2
3 2 D 3.3
3 3 A 1.2
3 4 B 1.7
4 1 D 3.5
4 2 C 2.3
4 3 B 1.8
4 4 A 1.3
;
PROC PRINT;
PROC GLM;
CLASS COLUMNA BLOQUE TRAT;
MODEL Y= TRAT COLUMNA BLOQUE;
21
LSMEANS TRAT/ STDERR PDIFF;
RUN;
QUIT;
22
TRAT 4 ABCD
Number of observations 16
TRAT 3 9.68000000
3.22666667 1936.00
COLUMNA 3 0.26500000
0.08833333 53.00
BLOQUE 3 0.00500000
0.00166667 1.00
23
B 1.65000000 0.02041241 <.0001
2
C 2.15000000 0.02041241 <.0001
3
D 3.25000000 0.02041241 <.0001
4
Dependent Variable: Y
i/j 1 2 3 4
24
de regresin sobre la variable respuesta el investigador desea
eliminar, ajustando las medias de tratamientos a una media
comn de X. En este anlisis se asume que la variable
dependiente Y est asociada en forma lineal con la variable
independiente X, existiendo homogeneidad de pendientes.
Ejemplo (4)
25
40 1 37 4.72
50 1 37 4
60 1 35 4.59
30 2 24 2.78
40 2 32 4.92
50 2 34 5.05
60 2 22 3.63
30 3 31 2.79
40 3 38 4.5
50 3 47 5.54
60 3 44 6.2
;
PROC GLM;
CLASSES TRT REP;
MODEL Y=TRT REP/SS1;
PROC GLM;
CLASSES TRT REP;
MODEL Y=TRT REP X;
MEANS trt; lsmeans trt/stderr pdiff;
run;
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 6 11.21948408 1.86991401 40.07 0.0005
Error 5 0.23331592 0.04666318
Corr T 11 11.45280000
27
TRT 3 2.90919992 0.96973331 20.78 0.0030
REP 2 1.65723743 0.82861871 17.76 0.0054
X 1 4.68960074 4.68960074 100.50 0.0002
Dependent Variable: Y
i/j 1 2 3 4
PARCELAS DIVIDIDAS
29
y con bloques completo al azar los espaciamientos entre
surcos se aplicaron a sub. parcelas.
BLOQUE
VARIEDAD DISTANCIA 1 2 3 4
4 56 45 43 46
1 8 60 50 45 48
12 66 57 50 50
4 65 61 60 63
2 8 60 58 56 60
12 53 53 48 55
4 60 61 50 53
3 8 62 68 57 60
12 73 77 77 65
ECUACION LINEAL:
Y=U-B-V+(BV)I+D+(VD)+e
30
2 3 8 68
2 3 12 77
3 1 4 43
3 1 8 45
3 1 12 50
3 2 4 60
3 2 8 56
3 2 12 48
3 3 4 60
3 3 8 67
3 3 12 77
4 1 4 46
4 1 8 48
4 1 12 50
4 2 4 63
4 2 8 60
4 2 12 55
4 3 4 53
4 3 8 60
4 3 12 65
;
Proc Print;
proc glm;
class rep A B;
Model VR=REP A A*REP B A*B;
TEST h=A e=A*REP;
Lsmeans A*B/stderr pdiff;
lsmeans A/ e=A*REP stderr pdiff;
run;
quit;
RESULTADOS
1 1 1 4 56
2 1 1 8 60
3 1 1 12 66
4 1 2 4 65
31
5 1 2 8 60
6 1 2 12 53
7 1 3 4 60
8 1 3 8 62
9 1 3 12 73
10 2 1 4 45
11 2 1 8 50
12 2 1 12 57
13 2 2 4 61
14 2 2 8 58
15 2 2 12 53
16 2 3 4 61
17 2 3 8 68
18 2 3 12 77
19 3 1 4 43
20 3 1 8 45
21 3 1 12 50
22 3 2 4 60
23 3 2 8 56
24 3 2 12 48
25 3 3 4 60
26 3 3 8 67
27 3 3 12 77
28 4 1 4 46
29 4 1 8 48
30 4 1 12 50
31 4 2 4 63
32 4 2 8 60
33 4 2 12 55
34 4 3 4 53
35 4 3 8 60
36 4 3 12 65
32
DISEO DE PARCELAS DIVIDIDA
Sum of
Source DF Squares Mean Square F
Value
Model 17 2522.250000 148.367647 57.43
Error 18 46.500000 2.583333
Corrected Total 35 2568.750000
Source Pr > F
Model <.0001
Error
Corrected Total
R-Square Coeff Var Root MSE VR Mean
0.981898 2.767188 1.607275 58.08333
33
Source Pr > F
REP <.0001
A <.0001
REP*A <.0001
B <.0001
A*B <.0001
34
as an Error Term
Source Pr > F
A 0.0147
DISEO DE PARCELAS DIVIDIDA
Dependent Variable: VR
i/j 1 2 3 4 5
1 0.0104 <.0001 <.0001 <.0001
2 0.0104 0.0003 <.0001 <.0001
3 <.0001 0.0003 <.0001 0.0263
4 <.0001 <.0001 <.0001 0.0040
5 <.0001 <.0001 0.0263 0.0040
6 0.0006 0.2034 0.0065 <.0001 <.0001
7 <.0001 <.0001 0.0263 0.0040 1.0000
8 <.0001 <.0001 <.0001 0.0954 <.0001
9 <.0001 <.0001 <.0001 <.0001 <.0001
35
Least Squares Means for effect A*B
Pr > |t| for H0: LSMean(i)=LSMean(j)
Dependent Variable: VR
i/j 6 7 8 9
Standard LSMEAN
Dependent Variable: VR
i/j 1 2 3
1 0.0985 0.0051
2 0.0985 0.0579
3 0.0051 0.0579
37
submuestreo en varias etapas y su equivalencia en la
experimentacion es el diseo anidado. Como no existe el
mismo municipio en todos los departamentos, es imposible
obtener una interaccion entre el factor municipio y el factor
departamento: por otro lado; el diseo anidado puede
analizarse mediante un modelo mixto o un modelo de
componentes de varianza el modelo i no es apropiado ya que
en el submuestreo los niveles son seleccionados al azar.
Considerese primero el modelo mixto para un diseo
anidado con un factor fijo A y un factor B anidado.
38
8 2 6.5
8 2 7.0
8 2 8.0
8 2 6.5
8 3 7.0
8 3 7.0
8 3 7.0
8 3 7.0
12 4 6.0
12 4 5.5
12 4 3.5
12 4 7.0
12 5 6.0
12 5 8.5
12 5 4.5
12 5 7.5
12 6 6.5
12 6 6.5
12 6 8.5
12 6 7.5
16 7 7.0
16 7 9.0
16 7 8.5
16 7 8.5
16 8 6.0
16 8 7.0
16 8 7.0
16 8 7.0
16 9 11.0
16 9 7.0
16 9 9.0
16 9 8.0
;
proc print;
proc anova;
class p m;
model resp=p m(p);
test h=p e=m(p);
run;
quit;
39
RESULTADOS CUADRO ANOVA
Obs p m resp
1 8 1 8.5
2 8 1 6.0
3 8 1 9.0
4 8 1 8.5
5 8 2 6.5
6 8 2 7.0
7 8 2 8.0
8 8 2 6.5
9 8 3 7.0
10 8 3 7.0
11 8 3 7.0
12 8 3 7.0
13 12 4 6.0
14 12 4 5.5
15 12 4 3.5
16 12 4 7.0
17 12 5 6.0
18 12 5 8.5
19 12 5 4.5
20 12 5 7.5
21 12 6 6.5
22 12 6 6.5
23 12 6 8.5
24 12 6 7.5
25 16 7 7.0
26 16 7 9.0
27 16 7 8.5
28 16 7 8.5
29 16 8 6.0
30 16 8 7.0
31 16 8 7.0
32 16 8 7.0
33 16 9 11.0
34 16 9 7.0
35 16 9 9.0
36 16 9 8.0
40
Class Levels Values
p 3 8 12 16
m 9 123456789
Number of observations 36
Sum of
Sourc DF Squares Mean Square F Value Pr > F
Model 8 30.55555556 3.81944444 2.77 0.0224
Error 27 37.18750000 1.37731481
Corr Total 35 67.74305556
C1 C2 C3
R1 R2 R3 R1 R2 R3 R1 R2 R3
N1=50 KG N/HA
M1 9,320 9,864 9,507 6,101 5,112 5,815 5,355 5,536 5,244
M2 3,766 4,311 4,875 5,096 4,873 5,166 7,442 6,462 6,582
41
M3 8,660 9,915 9,400 9,573 9,495 9,225 2,018 2,02 3,642
N2=80 KG N/HA
M4 5,468 5,778 4,422 5,442 5,988 6,509 6,452 6,698 5,650
M5 5,759 6,130 5,308 6,398 6,398 6,569 5,662 8,562 6,514
M6 3,215 4,106 4,318 3,953 3,953 4,991 3,112 4,140 3,320
N2=110 KG N/HA
M7 6,132 4,375 4,678 2,860 3,894 2,573 9,314 8,508 8,032
M8 9,389 4,315 5,896 6,857 6,974 7,422 9,224 9,680 9,294
M9 9,217 5,389 7,309 7,254 7,812 8,950 9,990 9,896 9,712
42
1 1 Amarilis 49.5 2
1 1 Libertea 16 2
1 1 INIA305 85.5 2
1 1 Chata 54.2 2
1 1 Clon12 64.5 2
1 1 Clon24 46.8 2
1 1 Amarilis 45 3
1 1 Libertea 18.8 3
1 1 INIA305 97.1 3
1 1 Chata 79.3 3
1 1 Clon12 59.4 3
1 1 Clon24 47.5 3
2 2 Libertea 34.7 1
2 2 Chata 34.8 1
2 2 INIA305 43.3 1
2 2 Amarilis 51.1 1
2 2 Clon24 38.2 1
2 2 Clon12 38.2 1
2 2 Libertea 34.4 2
2 2 Chata 38.2 2
2 2 INIA305 46.5 2
2 2 Amarilis 48.4 2
2 2 Clon24 41.4 2
2 2 Clon12 41.4 2
2 2 Libertea 37.3 3
2 2 Chata 45.7 3
2 2 INIA305 49.2 3
2 2 Amarilis 42.4 3
2 2 Clon24 33.9 3
2 2 Clon12 33.9 3
1 3 Clon24 12 1
1 3 Amarilis 18.7 1
1 3 INIA305 15.5 1
1 3 Clon12 19.8 1
1 3 Chata 15.3 1
1 3 Libertea 11.6 1
1 3 Clon24 14.3 2
1 3 Amarilis 18.7 2
1 3 INIA305 16.3 2
1 3 Clon12 19.2 2
1 3 Chata 15.7 2
1 3 Libertea 10.1 2
43
1 3 Clon24 10.8 3
1 3 Amarilis 18.1 3
1 3 INIA305 17.2 3
1 3 Clon12 21.7 3
1 3 Chata 15.5 3
1 3 Libertea 10.3 3
2 4 Libertea 30.2 1
2 4 Clon12 33.6 1
2 4 Clon24 31.5 1
2 4 Amarilis 53.2 1
2 4 INIA305 43.1 1
2 4 Chata 34.5 1
2 4 Libertea 30 2
2 4 Clon12 36.7 2
2 4 Clon24 29.9 2
2 4 Amarilis 36.4 2
2 4 INIA305 35.9 2
2 4 Chata 33.4 2
2 4 Libertea 29.6 3
2 4 Clon12 27.5 3
2 4 Clon24 32.9 3
2 4 Amarilis 50.3 3
2 4 INIA305 44.1 3
2 4 Chata 39.1 3
;
proc glm data=set1;
class anno lugar clon rep;
model rdto = anno lugar(anno) rep(anno*lugar) clon
clon*anno
clon*lugar(anno)/ss3;
random rep(anno*lugar)/test;
run;
quit;
rep 3 123
Number of observations 72
The SAS System 10
The GLM Procedure
Dependent Variable: rdto
Sum of
Source DF Squares Mean Square F Value Pr >
F
Model 31 24277.23764 783.13670 27.54
<.0001
Error 40 1137.64556 28.44114
Corrected Total 71 25414.88319
45
Source Type III Expected Mean Square
anno Var(Error) + 6 Var(rep(anno*lugar)) +
Q(anno,lugar(anno),anno*clon,lugar*clon(anno))
46
Error: MS(Error) 40 1137.645556 28.441139
* This test assumes one or more other fixed effects are zero.
REGRECION LINEAL
DATA quesos;
TITLE "REGRECION LINEAL"
options LS=72 PS=60 NODATE NOCENTER;
input x y;
cards;
4.545 12.3
5.759 47.9
5.892 37.3
5.242 21
4.477 0.7
6.365 40.9
5.247 18
5.298 15.2
5.366 16.8
5.328 0.7
;
proc print;
run;
proc reg;
model y=x;
proc glm;
proc plot;
plot y*x/vpcs=15 hpos=30;
run;
quit;
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 1476.86594 1476.86594 13.60 0.0061
Error 8 868.53006 108.56626
CorreTotal 9 2345.39600
Root MSE 10.41951 R-Square 0.6297
Dependent Mean 21.08000 Adj R-Sq 0.5834
Coeff Var 49.42843
Parameter Estimates
47
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 -99.13520 32.76002 -3.03 0.0164
x 1 22.46215 6.09015 3.69 0.0061
48
REGRECION LINEAL options PS=60 NODATE NOCENTER Plot of
y*x. Legend: A = 1 obs, B = 2 obs, etc.
y
60
A
40 A
A
20 B
B
A
0 A A
4 5 6 7
Ejemplo 2
INGESTA DE ZINC 0 2 4 8 12 16 30
PESO MEDIO % 100 92 95 90 98 85 67
49
Efectu el anlisis de varianza
Calcule e interprete el coeficiente de
determinacin y el de correlacin
Obs x y
1 0 100
2 2 92
3 4 95
4 8 90
5 12 98
6 16 85
7 30 67
EGRECION LINEAL options PS=60 NODATE NOCENTER
50
The REG Procedure
Model: MODEL1
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 595.77379 595.77379 19.87 0.0067
Error 5 149.94050 29.98810
Corrected Total 6 745.71429
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 99.46892 3.03559 32.77 <.0001
x 1 -0.96226 0.21589 -4.46 0.006
Plot of y*x. Legend: A = 1 obs, B = 2 obs, etc.
100 A
A
A
y A A
A
80
A
60
0 10 20 30
51
PSS 13.00 WINDOWS
1. INTRODUCCIN
SPSS es un potente sistema de anlisis estadstico y gestin
de datos. Ofrece un rpido entorno de modelizacin visual que
abarca desde lo ms simple hasta lo ms complejo para crear
modelos de manera interactiva y realizar cambios utilizando
tcnicas analticas probadas y acreditadas. Permite sacar
partido a los datos utilizando una completa gama de
productos respaldados por ms de 30 aos de experiencia en
el campo del software analtico. Este anual est basado en la
versin 10.0.6.SPSS opera en las ms conocidas plataformas:
MS Windows, Macintosh, Digital y UNIX. En el caso de MS
Windows, los requisitos de hardware y de software mnimos
para ejecutar el sistema son:
Windows 95, Windows 98, Windows NT 4.0 o Windows
2000.
El sistema est compuesto por mdulos que pueden instalarse
por separado pero funcionan conjuntamente. Los mdulos
ms importantes, y que han sido utilizados en la elaboracin
de este manual, son:
Base (Base)
52
Mdulo con funciones fundamentales necesario para utilizar
los otros. Estadsticas, grficos y tablas de pivote
multidimensionales.
Modelos de regresin (Regression Models)
Modelos predictivos avanzados respecto a los de regresin
lineal simple. Medicin de distancias entre datos.
Modelos avanzados (Advanced Models)
Anlisis de relaciones complejas con un conjunto de
procedimientos avanzado, y anlisis de datos de
supervivencia.
Tablas (Tables)
Resultados dispuestos en potentes tablas con los estadsticos
que se requieran.
Tendencias (Trends)
Anlisis de series temporales como informacin histrica.
Creacin de modelos y acontecimientos futuros.
Categoras (Categories)
Completo grupo de herramientas para la investigacin de
productos con el anlisis de conjunto y la familia de
procedimientos de escalamiento.
Anlisis conjunto (Conjoint)
Creado con el objetivo de proporcionar una forma de
evaluacin del impacto de los atributos de productos
individuales sobre determinadas preferencias.
Pruebas exactas
Proporciona dos mtodos adicionales para calcular los niveles
de significacin de los estadsticos disponibles mediante
tablas de contingencia y pruebas no paramtricas.
1.2. Ejecucin
Para ejecutar SPSS se acceder al botn Inicio y desde all a
Programas / SPSS for Windows / SPSS 10.0 para Windows.
Aparece la presentacin del programa con el Editor de datos al
fondo:
53
A continuacin nos preguntar cmo queremos comenzar:
ejecutando el tutorial, introduciendo datos nuevos, abriendo
datos de disco, etc. Una vez hecho esto, nos dejar con el
Editor de datos. Se pueden abrir varias sesiones de SPSS
independientes para poder trabajar con diferentes ficheros de
datos.
1.3. Forma de trabajar: pasos bsicos
Para trabajar con SPSS debemos seguir los 4 pasos bsicos
que se muestran a continuacin:
54
Grficos. ste puede ser normal o interactivo, en cuyo caso
podremos modificar posteriormente las variables usadas y los
parmetros del mismo.
1.3.3. Seleccin de variables y opciones
Ahora se nos solicita la seleccin de las variables que
queremos usar en el procedimiento de anlisis o en el grfico.
El cuadro de seleccin de variables es similar en todos los
procedimientos: nos muestra una lista de todas las variables y
una o varias casillas de destino donde debemos introducirlas
para que el sistema pueda calcular los estadsticos o valores
que precise para la presentacin de resultados.
1.3.4. Examen de resultados
El ltimo paso es el examen de resultados en una nueva
ventana llamada Visor. Esta ventana nos muestra dos
paneles. El de la izquierda es el conjunto de los titulares de
los elementos grficos situados en el panel de la derecha. Su
apariencia y funcionamiento es similar al del explorador de
Windows. El de la derecha muestra los elementos grficos,
que pueden ser textos, tablas o grficos.
Seleccionar las variables que queremos usar Seleccionar
procedimiento a ejecutar Obtener datos examinar los
resultados
Los resultados o elementos grficos que vayamos generando
no se sustituyen, sino que se van acumulando en el visor
donde les podremos dar formato para su posterior impresin,
as como para su almacenamiento en disco. En el caso de los
grficos interactivos podremos modificarlos directamente, sin
necesidad de volver a generarlos de nuevo.
1.4. Ventanas
Ya hemos comentado la existencia de dos ventanas: el Editor
de datos y el Visor, pero
SPSS utiliza adems otras. He aqu un resumen de las
diferentes ventanas existentes:
Editor de datos
55
Muestra el contenido del fichero de datos. Permite crear
nuevos archivos de datos o modificar los existentes. Esta
ventana se abre automticamente cuando se inicia una sesin
de SPSS. No se puede tener ms de un archivo de datos
abierto al mismo tiempo. Para ello debemos abrir varias
sesiones. Est compuesto de dos vistas: Vista de datos y Vista
de variables.
Visor
Muestra los resultados estadsticos, tablas y grficos que se
generen. Permite editar los resultados, almacenarlos e
imprimirlos. Esta ventana se abreautomticamente la primera
vez que se ejecuta un procedimiento que genera resultados.
Visor de borrador
Esta ventana muestra los resultados como texto normal (en
lugar de como tablas pivote interactivas).
Editor de tablas pivote
Permite modificar los resultados mostrados en este tipo de
tablas. Podemos editar el texto, intercambiar los datos de las
filas y las columnas, aadir colores, crear tablas
multidimensionales y ocultar y mostrar los resultados de
manera selectiva.
Editor de grficos
Permite modificar los grficos y diagramas. Es posible
cambiar los colores, seleccionar diferentes tipos de fuentes y
tamaos, intercambiar los ejes horizontal y vertical, rotar
diagramas de dispersin 3-D e incluso cambiar el tipo de
grfico.
Editor de resultados de texto
Los resultados de texto que no aparecen en las tablas pivote
pueden modificarse con este editor. Es posible variar el texto y
cambiar las caractersticas de las fuentes (tipo, estilo, color y
tamao).
Editor de sintaxis
Permite escribir conjuntos de comandos para que el sistema
las ejecute (SPSS funciona internamente a base de
56
comandos). Podemos pegar las selecciones de un cuadro de
dilogo en una ventana de sintaxis, donde aparecern en
forma de comandos. Este editor permite utilizar las funciones
especiales de SPSS que no se encuentran disponibles en los
cuadros de dilogo. Tambin podemos guardar los comandos
en un archivo para utilizarlos en sesiones posteriores.
Editor de procesos
El procesamiento y la automatizacin OLE permiten
personalizar y automatizar muchas tareas en SPSS. Este
editor permite crear y modificar procesos bsicos.
1.5. Barra de mens
Desde esta barra podemos acceder a todas las funciones que
implementa el sistema. Cada ventana posee su propia barra
de mens pero varios de ellos son comunes a todas las
ventanas. Los mens ms importantes se describen a
continuacin:
Archivo F Permite abrir, cerrar, guardar e imprimir archivos.
Edicin F Para cortar, copiar y pegar elementos, adems de
acceder a las opciones generales.
Ver F Podemos hacer que se muestren u oculten diversos
elementos del sistema.
Datos F Permite realizar cambios en los datos como combinar
ficheros, transponer variables y casos, o crear grupos de
casos para analizar.
Transformar F Permite modificar los datos de las variables a
partir de los ya existentes, en s mismas o en otras nuevas.
Analizar F Encontramos en este men los procedimientos de
anlisis estadstico.
Grficos F Crea grficos de barras, histogramas, etc.,
normales o interactivos.
Utilidades F Varias utilidades: definir conjuntos, ejecutar
procesos, editar mens,etc.
Ventana F Gestin de ventanas abiertas y cambio de unas a
otras. ? F Acceso a la ayuda de SPSS, basada en temas.
57
1.6. Barras de herramientas
Adems de la barra de mens, la interfaz de SPSS incorpora
una o varias barras de herramientas segn la ventana en la
que nos encontremos. Estas barras contienen las funciones
ms usadas en el trabajo usual para facilitar el acceso a ellas.
Si detenemos el puntero del ratn unos segundos sobre una
de las herramientas (o botones) nos presentar un pequeo
cuadro con una breve descripcin de la utilidad del mismo:
Las barras, adems, son personalizables, pudiendo aadir o
eliminar los botones que queramos as como moverlos; incluso
permite cambiar de sitio la barra o borrarla completamente.
Regresin logstica
La regresin logstica resulta til para los casos en los que se
desea predecir la presencia o ausencia de una caracterstica o
resultado segn los valores de un conjunto de variables
predictoras. Es similar a un modelo de regresin lineal pero
est adaptado para modelos en los que la variable
dependiente es dicotmica. Los coeficientes de regresin
logstica pueden utilizarse para estimar la razn de las
ventajas (odds ratio) de cada variable independiente del
modelo. La regresin logstica se puede aplicar a un rango
ms amplio de situaciones de investigacin que el anlisis
discriminante.
Ejemplo. Qu caractersticas del estilo de vida son factores
de riesgo de enfermedad cardiovascular? Dada una muestra
de pacientes a los que se mide la situacin de fumador, dieta,
ejercicio, consumo de alcohol, y estado de enfermedad
cardiovascular, se puede construir un modelo utilizando las
cuatro variables de estilo de vida para predecir la presencia o
ausencia de enfermedad cardiovascular en una muestra de
pacientes. El modelo puede utilizarse posteriormente para
derivar estimaciones de la razn de las ventajas para cada
58
uno de los factores y as indicarle, por ejemplo, cunto ms
probable es que los fumadores desarrollen una enfermedad
cardiovascular frente a los no fumadores.
Estadsticos. Para cada anlisis: Casos totales, Casos
seleccionados, Casos vlidos. Para cada variable categrica:
codificacin de los parmetros. Para cada paso: variables
introducidas o eliminadas, historial de iteraciones, 2 log de la
verosimilitud, bondad de ajuste, estadstico de bondad de
ajuste de Hosmer-Lemeshow, chi-cuadrado del modelo , chi-
cuadrado de la mejora, tabla de clasificacin, correlaciones
entre las variables, grfico de las probabilidades
pronosticadas y los grupos bservados, chi-cuadrado residual.
Para cada variable de la ecuacin: coeficiente (B), error tpico
de B, Estadstico de Wald, razn de las ventajas estimada
(exp(B)), intervalo de confianza para exp(B), log de la
verosimilitud si el trmino se ha eliminado del modelo. Para
cada variable que no est en la ecuacin: estadstico de
puntuacin.
59
Seleccione una variable dependiente dicotmica. Esta variable
puede ser numrica o de cadena corta.
Seleccione una o varias covariables. Para incluir trminos de
interaccin, seleccione todas las variables contenidas en la
interaccin y seleccione >a*b>.
Para introducir variables por grupos (en bloques), seleccione
las covariables para un bloque y pulse en Siguiente para
especificar un nuevo bloque. Repita estos pasos hasta que
haya especificado todos los bloques.
Si lo desea, puede seleccionar casos para el anlisis. Elija una
variable de seleccin y
pulse Regla.
Figura 2-2
Cuadro de dilogo Regresin logstica: Establecer regla
60
Regresin logstica: Definir variables categricas
Figura 2-3
Cuadro de dilogo Regresin logstica: Definir variables
categricas
61
orientar la campaa publicitaria de una pelcula concreta al
grupo de la poblacin que tenga ms probabilidades de ir a
verla.
Estadsticos. Historial de iteraciones, coeficientes de los
parmetros, covarianza asinttica y matrices de correlacin,
pruebas de la razn de verosimilitud para los efectos del
modelo y los parciales, 2 log de la verosimilitud. Chi-
cuadrado de la bondad de ajuste de Pearson y de la
desviacin. R2 de Cox y Snell, de Nagelkerke y de McFadden.
Clasificacin: frecuencias observadas respecto a las
frecuencias pronosticadas, por cada categora de respuesta.
Tablas de contingencia: frecuencias observadas y
pronosticadas (con los residuos) y proporciones por patrn en
las covariables y por categora de respuesta.
62
Figura 3-2
Cuadro de dilogo Regresin logstica multinomial:
Modelo
Figura 3-3
Cuadro de dilogo Regresin logstica multinomial: Categora
de referencia
63
Categora de referencia. Especifique la primera, la ltima o
una categora
personalizada.
Orden de categoras. En orden ascendente, el valor mnimo
define la primera
categora, y el valor ms alto la ltima. En orden descendente,
el valor mximo define la primera categora y el valor inferior
define la ltima.
Figura 3-4
Cuadro de dilogo Regresin logstica multinomial: Estadsticos
64
! Resumen de pasos. Esta tabla resume los efectos
introducidos o eliminados en cada paso, mediante un mtodo
por pasos. No se genera si no se especifica un modelo por
pasos en el cuadro de dilogo Modelo.
! Informacin de ajuste de los modelos. Esta tabla compara
los modelos ajustado y de slo interseccin o nulo.
! Probabilidades de casilla. Imprime una tabla de las
frecuencias observadas y esperadas (con los residuos) y las
proporciones por patrn en las covariables y por categora de
respuesta.
! Tabla de clasificacin. Imprime una tabla de las respuestas
observadas respecto a las respuestas pronosticadas.
! Estadsticos de bondad de ajuste de chi-cuadrado.
Imprime los estadsticos de chi-cuadrado de Pearson y de chi-
cuadrado de la razn de verosimilitud. Los estadsticos se
calculan para los patrones en las covariables determinados
por todos los factores y las covariables o por un subconjunto
de los factores y las covariables definido por el usuario.
Parmetros. Estadsticos relativos a los parmetros del
modelo.
! Estimaciones. Imprime las estimaciones de los parmetros
del modelo con un nivel de confianza especificado por el
usuario.
! Contraste de la razn de verosimilitud. Imprime los
contrastes de la razn de verosimilitud para los efectos
parciales del modelo. El contraste para el modelo global se
imprime de manera automtica.
! Correlaciones asintticas. Imprime la matriz de las
correlaciones entre las estimaciones de los parmetros.
! Covarianzas asintticas. Imprime la matriz de las
covarianzas de las estimaciones de los parmetros.
Definir subpoblaciones. Le permite seleccionar un
subconjunto de factores y covariables de manera que pueda
65
definir los patrones en las covariables utilizados por las
probabilidades de casilla y las pruebas de bondad de ajuste.
Anlisis factorial
66
La lista de variables del archivo de datos contiene un listado
de todas las variables del archivo, incluidas las variables de
cadena (aunque stas slo pueden utilizarse como variables
de seleccin).
Para llevar a cabo un anlisis factorial: Seleccionar el
conjunto de variables que se desea analizar y trasladarlas a la
lista Variables.
Variable de seleccin. Este cuadro permite seleccionar una
de las variables del archivo de datos como variable de filtro:
para definir una sub-muestra de sujetos que cumplan una
determinada condicin. Esta opcin es especialmente til
cuando se ha reservado un porcentaje de los sujetos de la
muestra para llevar a cabo una validacin cruzada del modelo
final. Para utilizar una variable de seleccin:Trasladar la
variable al cuadro Variable de seleccin y pulsar en el botn
Valor...
para acceder al subcuadro de dilogo que muestra la figura
20.2.
Figura 20.2. Subcuadro de dilogo Anlisis factorial:
Establecer valor.
67
Ejemplo (Anlisis factorial)
Este ejemplo muestra cmo ejecutar el procedimiento Anlisis
factorial con las especificaciones que el programa tiene
establecidas por defecto. Vamos a comprobar si es posible
resumir, mediante un nmero reducido de dimensiones o
factores, la informacin disponible sobre las caractersticas
laborales de un conjunto de empleados de banca (archivo de
datos: Datos de empleados.sav). Para ello:
En el cuadro de dilogo Anlisis factorial (ver figura
20.1), seleccionar las variables
educ, catlab, salario, salini, tiempemp, expprev y edad y
trasladarlas a la lista Variables. (La variable edad se ha
creado a partir de la variable fechnac mediante la expresin
edad = CTIME.DAYS(DATE.DMY(31,12,1997) fechnac)/365,
obteniendo as la edad en aos a fecha 31/12/1997).
Aceptando estas selecciones, el Visor ofrece los resultados que
muestran las tablas 20.1 a la 20.3.
Tabla 20.1. Comunidades.
68
A partir de esta tabla podemos empezar a plantearnos si el
nmero de factores obtenidos (enseguida veremos cules son
esos factores) es suficiente para explicar todas y cada una de
las variables incluidas en el anlisis. Tambin podemos
empezar a plantearnos en este momento si, dando por bueno
el nmero de factores extrado, alguna de las variables
incluidas podra quedar fuera del anlisis.
La informacin de esta tabla puede utilizarse para tomar una
decisin sobre el nmero idneo de factores que deben
extraerse. Si quisiramos explicar, por ejemplo, un mnimo del
90% de la variabilidad contenida en los datos, sera necesario
extraer cuatro factores.
La matriz de varianzas-covarianzas analizada por defecto es la
matriz de correlaciones entre las 7 variables incluidas en el
anlisis. Puesto que esta matriz es de dimensiones 7x7, es
posible extraer hasta 7 factores independientes. Tal como
muestra la columna de porcentajes acumulados (%
acumulado), con los 7 factores que es posible extraer se
consigue explicar el 100% de la varianza total, pero con ello
no se consigue el objetivo de reducir el nmero de
dimensiones necesarias para explicar los datos.
Tabla 20.2. Porcentajes de varianza explicada.
69
(o saturaciones) y cada uno de los factores. Conviene sealar
que esta matriz cambia de denominacin dependiendo del
mtodo de extraccin elegido. En este caso se denomina
matriz de componentes porque en nuestro ejemplo hemos
utilizado el mtodo de componentes principales como mtodo
de extraccin (es el mtodo que acta por defecto). Ms
adelante veremos que tambin recibe el nombre de matriz de
estructura factorial. Comparando las saturaciones relativas de
cada variable en cada uno de los tres factores podemos
apreciar que el primer factor est constituido por las variables
nivel educativo, categora laboral, salario actual y salario
inicial. Todas estas variables saturan en un nico factor
porque constituyen un grupo diferenciado de variables dentro
de la matriz de correlaciones. Este factor parece reflejar la
dimensin de "promocin" dentro de la empresa. El segundo
factor recoge el grupo de las variables experiencia previa y
edad, por lo que podra representar la "veterana laboral". Por
ltimo, el tercer factor est formado por una nica variable,
los meses desde el contrato, o lo que es lo mismo, la
antigedad en el puesto, que es independiente de la
promocin y de la veterana laboral (puesto que los factores
son independientes entre s y la variable no satura en los
otros dos factores).
Tabla 20.3. Matriz de componentes (matriz de la estructura
factorial).
70
matrices y estadsticos relacionados con ella. Para obtener
estos estadsticos: Pulsar en el botn Descriptivos... del
cuadro de dilogo Anlisis factorial (ver figura 20.1) para
acceder al subcuadro de dilogo Anlisis factorial: Descriptivos
que muestra la figura 20.3.
Figura 20.3. Subcuadro de dilogo Anlisis factorial:
Descriptivos.
71
a. Determinante = 1.196E-02
ANLISIS DISCRIMINANTE
Introduccin
Con independencia del rea de conocimiento en la que se est
trabajando, es frecuente tener que enfrentarse con la
necesidad de identificar las caractersticas que permiten
diferenciar a dos o ms grupos de sujetos. Y, casi siempre,
72
para poder clasificar nuevos casos como pertenecientes a uno
u otro grupo: se beneficiar este paciente del tratamiento, o
no?devolver este cliente el crdito, o no?, se adaptar este
candidato al puesto de trabajo, o no?, etc.
A falta de otra informacin, cualquier profesional se limita a
utilizar su propia experiencia o la de otros, o su intuicin,
para anticipar el comportamiento de un sujeto: el paciente se
beneficiar del tratamiento, el cliente devolver el crdito o el
candidato se adaptar a su puesto de trabajo en la medida en
que se parezcan a los pacientes, clientes o candidatos que se
benefician del tratamiento, que devuelven el crdito o que se
adaptan a su puesto de trabajo. Pero a medida que los
problemas se hacen ms complejos y las consecuencias de
una mala decisin ms graves, las impresiones subjetivas
basadas en la propia intuicin o experiencia deben ser
sustituidas por argumentos ms consistentes. El anlisis
discriminante ayuda a identificar las caractersticas que
diferencian (discriminan) a dos o ms grupos y a crear una
funcin capaz de distinguir con la mayor precisin posible a
los miembros de uno u otro grupo. Obviamente, para llegar a
conocer en qu se diferencian los grupos necesitamos
disponer de la informacin (cuantificada en una serie de
variables) en la que suponemos que se diferencian.
El anlisis discriminante es una tcnica estadstica capaz de
decirnos qu variables permiten diferenciar a los grupos y
cuntas de estas variables son necesarias para alcanzar la
mejor clasificacin posible. La pertenencia a los grupos,
conocida de antemano, se utiliza como variable dependiente
(una variable categrica con tantos valores discretos como
grupos). Las variables en las que suponemos que se
diferencian los grupos se utilizan como variables
independientes o variables de clasificacin (tambin llamadas
variables
mos, deben ser variables cuantitativas continuas o, al menos,
admitir un tratamiento numrico con significado. El objetivo
73
ltimo del anlisis discriminante es encontrar la combinacin
lineal de las variables independientes que mejor permite
diferenciar (discriminar) a los grupos. Una vez encontrada esa
combinacin (la funcin discriminante) podr ser utilizada
para clasificar nuevos casos. Se trata de una tcnica de
anlisis multivariante que es capaz de aprovechar las
relaciones existentes entre una gran cantidad de variables
independientes para maximizar la capacidad de
discriminacin.
El anlisis discriminante es aplicable a muy diversas reas de
conocimiento. Se ha utilizado para distinguir grupos de
sujetos patolgicos y normales a partir de los resultados
obtenidos en pruebas diagnsticas, como los parmetros
hemodinmicos en el mbito clnico mdico o las pruebas
psicodiagnsticas en el mbito clnico psicolgico. En el
campo de los recursos humanos se aplica a la seleccin de
personal para realizar un filtrado de los curricula previo a la
entrevista personal. En banca se ha utilizado para atribuir
riesgos crediticios y en las compaas aseguradoras para
predecir la siniestralidad.
El anlisis discriminante es conceptualmente muy similar al
anlisis de varianza multivariante de un factor. Su propsito
es el mismo que el del anlisis de regresin logstica, pero a
diferencia de l, slo admite variables cuantitativas. Si alguna
de las variables independientes es categrica, es preferible
utilizar la regresin logstica.
74
La lista de variables del archivo de datos contiene un listado
con todas las variables del archivo excepto las que tienen
formato de cadena. Para obtener un Anlisis discriminante
con las especificaciones que el programa tiene establecidas
por defecto:
Seleccionar una variable categrica (nominal u
ordinal) y trasladarla al cuadro Variable de
agrupacin. La variable de agrupacin es aquella que
define los grupos que se desea comparar.
Seleccionar al menos una variable cuantitativa (de
intervalo o razn) y trasladarla a la lista
Independientes. Las variables independientes son
aquellas en las que se desea comparar los grupos.
Pulsar el botn Definir rango... para acceder al
subcuadro de dilogo Definir rango que muestra la
figura 23.4.
Figura 23.4. Subcuadro de dilogo Anlisis discriminante:
Definir rango.
75
Tras seleccionar la variable de agrupacin es necesario
introducir los cdigos que identifican a los grupos que se
desea comparar. El anlisis incluir tantos grupos como
nmeros enteros consecutivos contenga la variable de
agrupacin entre los lmites del rango definido (ambos lmites
incluidos). Para ello:
|Introducir el nmero correspondiente al lmite
inferior del rango en el cuadro de texto Mnimo y el
nmero correspondiente al lmite superior del rango en
el cuadro de texto Mximo. Pulsar el botn Continuar
para volver al cuadro de dilogo principal.
76
Seleccionar la opcin Seleccionar casos... del men
Datos ara acceder al cuadro de dilogo Seleccionar
casos.
Marcar la opcin Si se satisface la condicin y pulsar
el botn Si... para acceder al cuadro de dilogo
Seleccionar casos: Si.
Establecer la condicin de filtrado (por ejemplo, origen
< 3") y pulsar el botn Continuar.
Aceptando estas selecciones, el archivo de datos queda filtrado
dejando disponibles 306 vehculos
de los 406 originales.
77
en al menos una variable discriminante, y los que cumplen
las dos condiciones anteriores.
Tabla 23.1. Tabla resumen de los casos procesados.
78
ejemplo slo hay una funcin, slo se muestra una fila. Esta
nica funcin explica el 100% de las diferencias existentes
entre los sujetos de los grupos.
El autovalor es el cociente entre la variacin debida a las
diferencias entre los grupos (medida mediante la suma de
cuadrados inter-grupos) y la variacin que se da dentro de
cada grupo combinada en una nica cantidad (medida
mediante la suma de cuadrados intra-grupos).
Este estadstico se diferencia de la F del anlisis de varianza
multivariante en que no intervienen los grados de libertad. Su
inters principal radica en que permite comparar cmo se
distribuye la dispersin inter-grupos cuando existe ms de una
funcin. Aunque un autovalor tiene un mnimo de cero, no
tiene un mximo, lo cual lo hace difcilmente interpretable por
s slo.
Por esta razn se acostumbra a utilizar el estadstico lambda
de Wilks, que se encuentra estrechamente relacionado con los
autovalores. La correlacin cannica es la correlacin entre la
combinacin lineal de las variables independientes (la funcin
discriminante) y una combinacin lineal de variables
indicador (unos y ceros) que recogen la pertenencia de los
sujetos a los grupos. En el caso de dos grupos, la correlacin
cannica es la correlacin simple entre las puntuaciones
discriminantes y una variable con cdigos 1 y 0 segn cada
caso pertenezca a un grupo o a otro. Una correlacin cannica
alta indica que las variables discriminantes permiten
diferenciar entre los grupos. Con ms de dos grupos, la
correlacin cannica es equivalente al estadstico eta utilizado
en el anlisis de varianza de un factor (eta = raz cuadrada del
cociente entre la suma de cuadrados inter-grupos y la suma de
cuadrados total).
El autovalor obtenido en nuestro ejemplo est bastante
prximo a 0 y la correlacin cannica es moderada, por lo que
debemos suponer que las variables discriminantes utilizadas
79
(peso y aceleracin) no permiten distinguir demasiado bien
entre los dos grupos.
Tabla 23.3. Autovalores.
Estadsticos
80
REFERENCIAS BIBLIOGRAFICAS
INDICE
Pag.
SAS WINDOWS 1
INICIO DE SECION 3
FUNCION DEL SAS 4
DISEOS EXPERIMENTALES
81
DCA 6
DBCA 11
DCL 14
DCL CON ARREGLO FATORIAL 18
ANALISIS DE COVARIANZA 22
PARCELAS DIVIDIDAS 27
DISEO JERARQUICO O ANIDADO 36
REGRESION LINEAL SIMPLE 45
REFERENCIAS BIBLIOGRAFICAS 49
82