Manual Sas y Spss

UNIVERSIDAD NACIONAL
DE HUACAVELICA
ESCUELA ACADEMICO PROFECIONAL DE
ZOOTECNIA
MANUAL DE
METODOS
ESTADISTICOS CON
SAS
Ms.Sc. EDGAR C.QUISPE PEA
Ing. HEBERT E. RAMOS ACUA
2007
INTRODUCCION
1. IN.
Durante los ltimos aos la estadstica aplicada ha ganado
mucha importancia en el mundo de la investigacin,
probablemente debido a la gran potencia de clculo de los
ordenadores y en concreto a los diferentes paquetes
estadsticos.
Paralelamente, los paquetes estadsticos tambin se han
adaptado a las nuevas necesidades, de manera que ahora ya
no se habla de "paquetes estadsticos", trmino demasiado
concreto. Por ejemplo, SAS inicialmente significaba "Statistical
Analysis System", pero a medida que este programa iba
incorporando nuevas capacidades la mayora de las cuales no
eran propiamente estadsticas, SAS pas a convertirse en una
sola palabra.
Este sencillo manual de SAS para Windows pretende
ser una primera aproximacin al programa SAS para aquellas
personas con algunos conocimientos de estadstica que
quieran iniciarse en el tratamiento de los datos mediante este
programa. Este manual slo trata aquellas instrucciones ms
bsicas y sus opciones ms habituales. Es til haber tenido
contactos previos con otros programas de anlisis y
manipulacin de datos, hojas de clculo y lenguajes de
programacin. Por otro lado, se da por supuesto qu el
usuario ya tiene experiencia suficiente en el entorno Windows.
El manual est dividido en diferentes apartados bastante
concretos: leer datos, tabular los datos, etc. pero en cada uno
de ellos se introducen diversas caractersticas generales con el
objetivo de avanzar paralelamente en otros detalles necesarios
del funcionamiento del programa.
2
SAS PARA METODOS ESTADISTICOS
1. INICIO DE SECION
Ventana inicial.
El programa SAS bsicamente es encuentra dividido en dos
grandes ventanas:
- Ventana izquierda "Explorer": contiene accesos directos a

los ficheros que interesen, informacin sobre las libreras,
y una ventana de resultados dnde aparece la
informacin obtenida de las diferentes ejecuciones
desglosadas.
- Ventana derecha: Contiene las ventanas principales LOG,
OUTPUT, EDITOR. El modo de trabajo que utiliza SAS se
basa en stas tres ventanas:
Ventana EDITOR: Esta ventana corresponde a la
ventana de sintaxis, por lo tanto es editable. Para poder
ejecutar la sintaxis, se debe pulsar el botn: . Para
ejecutar una parte de la sintaxis, primero se selecciona
dicha parte y despus se pulsa el botn.
Ventana LOG: En esta ventana se consulta y revisa todo
lo que se ha ejecutado, aparecen mensajes de
3
advertencia y de error en caso necesario y se informa
sobre la velocidad de ejecucin y recursos.
Ventana OUTPUT: Cuando se ejecutan procedimientos
de SAS, en esta ventana se muestran los listados, tablas
y/o resultados.
2. MDULOS DE SAS
SAS/ACCESS Interfase a otros formatos de ficheros

SAS/AF Lenguaje para el diseo de aplicaciones
SAS/ASSIST Asistencia para el uso de SAS
SAS/CONNECT Conjunto de herramientas
cliente/servidor
SAS/EIS Permite construir Bases de datos
multidimensionales (MDDB) y
relacionales (RDBMS)
SAS/ETS Anlisis de Series Temporales
SAS/FSP Facilidades para la entrada de datos de
forma interactiva
SAS/GIS GIS (Sistema de Informacin Geogrfica)
interactivo con SAS
SAS/GRAPH Mdulo grfico
SAS/IML Manipulacin de matrices
SAS/INSIGHT Herramienta para explorar y analizar
datos
SAS/MDDB Trabajo con Bases de datos
Multidimensionales
SAS/ODBC Conexiones ODBC
SAS/OR Para resolver problemas de optimizacin
SAS/QC Control de Calidad
SAS/SPECTRAVIEW Visualizacin de datos cmo
representaciones grficas
SAS/STAT Anlisis Estadsticos
SAS/IntrNet Permite a los usuarios ejecutar
programas desde un navegador
4
3. FUNCIONES DE SAS.
Cuando se trabaja con las variables de la base de datos, es

usual generar nuevas variables a partir de aquellas que ya
existan utilizando funciones y operadores. Igualmente se
emplean funciones y operadores para escribir condiciones
utilizando, adems, smbolos para comparar expresiones.
Aunque hay una gran cantidad de funciones slo se
escriben aquellas que son ms usuales:
4. FUNCIONES NUMRICAS:
ABS(EXPRESIN) Valor Absoluto

SQRT(EXPRESIN) Raz Cuadrada
ROUND(EXPRESIN) Redondear
ROUND(EXPRESIN, PRECISIN) Redondear con cierta precisin
EXP(EXPRESIN) Exponencial
LOG(EXPRESIN) Logaritmo
LOG2(EXPRESIN) Logaritmo con base 2
LOG10(EXPRESIN) Logaritmo con base 10
COS(EXPRESIN) Coseno
SIN(EXPRESIN) Seno
TAN(EXPRESIN) Tangente
FUNCIONES ALEATORIAS:
RANBIN(SEMILLA, n, p) Binomial de parmetros "n" y "p"
generada a partir de cierta semilla.
5
RANNOR(SEMILLA) Normal de media "0" y desviacin
estndar "1" generada a partir de cierta
semilla.
RANPOI(SEMILLA, a) Poisson de parmetro "a"
generada a partir de cierta
semilla.
RANUNI(SEMILLA) Uniforme con parmetros "0" y
"1" generada a partir de cierta
semilla.
FUNCIONES ALFANUMRICAS:
INDEX Busca una expresin de caracteres dentro de
una cadena.
COMPRESS Elimina caracteres especficos de una cadena.
LOWCASE Convierte todas las letras del argumento a
minsculas.
UPCASE Convierte todas las letras del argumento a
maysculas.
LENGTH Retorna la longitud del argumento.
LEFT Alinea a la izquierda una expresin de
caracteres.
REVERSE Da la vuelta a una cadena.
SCAN Selecciona una palabra en particular de una
expresin de caracteres.
SOUNDEX Codifica una cadena a sonidos para facilitar
comparaciones.
SPEDIS Determina la similitud entre dos palabras
expresada cmo una distancia.
SUBSTR Extraes una subcadena de un argumento.
TRANSLATE Reemplaza caracteres especficos de un
argumento.
6
DISEO COMPLETAMENTE AL AZAR (DCA)
Es el ms simple de todos. Es un diseo en la cual los

tratamientos son asignados aleatoriamente a las unidades
experimentales sin ningn tipo de restriccin. Este diseo es
utilizado cuando las unidades experimentales son
bastamente homogneas. Es decir cuando la variabilidad
entre ellas es pequea y no existe ningn criterio de bloqueo
que permita disminuirla. Dado que los tratamientos
constituyen el nico criterio de clasificacin para las
7
unidades experimentales. A este diseo se le conoce tambin
como diseo de clasificacin de una va (ONE way).
Ejemplo (1)
Se realizo un experimento para evaluar el efecto de la adicin

de compuestos vitamnicos al alimento balanceado con la
ganancia de peso en cerdos. tres diferentes compuestos fueron
evaluados (ABC) y un control (I) sin la adicin de compuesto
vitamnico). El aumento de peso tras una semana en una
muestra aleatoria de 22 cerdos se da continuacin
COMPUESTO
VITAMINICO AUMENTO DE PESO TRAS UNA SEMANA EN LIBRAS
A 11,1 10,9 10,8 10,2 11.4 10.7

B 11,5 11 10,8 10,6 11.2 10.9
C 10,1 10,6 11,2 10,2 10.4
D 9,2 9,8 10,1 9,7 10.4
Este experimento bajo los tratamientos de un DCA por lo que el
modelo aditivo lineal es el siguiente
ij = + Ti + ij
Donde:
ij = Es la variable de j-esima observacin debido al efecto i-
ensimo tratamiento.
= Media poblacional.
T = Es el efecto del i-esimo tratamiento.
ij = Error experimental.
INGRESO DE DATOS EN EL SAS V8
Data metodos;
Options nodate nocenter nonumber ls=72 ps=60;
Title "diseo completamente al azar";
Input trat $ Y;
cards;
A 11.1
8
A 10.9
A 10.8 Esta es la
A 10.2
A 11.4
forma de
A 10.7 ingreso de
B 11.5 datos
B 11.0
B 10.8
B 10.6
B 11.2
B 10.9
C 10.1
C 10.6
C 11.2
C 10.2
C 10.4
D 9.2
D 9.8
D 10.1
D 9.7
D 10.4
;
Proc print;
proc GLM;
class trat;
Model Y=trat;
means trat/duncan;
run;
quit;
Resultados a comprobar en
MANUALMENTE:
diseo completamente al azar
Obs trat Y
1 A 11.1
2 A 10.9
3 A 10.8
4 A 10.2
5 A 11.4
6 A 10.7
9
7 B 11.5
8 B 11.0
9 B 10.8
10 B 10.6
11 B 11.2
12 B 10.9
13 C 10.1
14 C 10.6
15 C 11.2
16 C 10.2
17 C 10.4
18 D 9.2
19 D 9.8
20 D 10.1
21 D 9.7
22 D 10.4
DISEO COMPLETAMENTE AL AZAR

THE GLM PROCEDURE
Class Level Information
Class Levels Values
trat 4 ABCD
Number of observations 22
DISEO COMPLETAMENTE AL AZAR
THE GLM PROCEDURE
DEPENDENT VARIABLE: Y
Sum of
Source DF Squares Mean Square F Value
Model 3 4.26572727 1.42190909 8.87
Error 18 2.88700000 0.16038889
Corrected Total 21 7.15272727
Source Pr > F
Model 0.0008
Error
Corrected Total
R-Square Coeff Var Root MSE Y Mean
0.596378 3.784660 0.400486 10.58182
Source DF Type I SS Mean Square F Value
trat 3 4.26572727 1.42190909 8.87
Source Pr > F
trat 0.0008
Source DF Type III SS Mean Square F Value
trat 3 4.26572727 1.42190909 8.87
Source Pr > F
trat 0.0008
Diseo Completamente Al Azar

The GLM Procedure
Duncan's Multiple Range Test for Y
10
NOTE: This test controls the Type I comparisonwise error rate, not
the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 18
Error Mean Square 0.160389
Harmonic Mean of Cell Sizes 5.454545
NOTE: Cell sizes are not equal.
Number of Means 2 3 4
Critical Range .5095 .5346 .5504
Means with the same letter are not significantly different.
Duncan Grouping
Mean N trat
A 11.0000 6 B
A
A 10.8500 6 A
A
A 10.5000 5 C
B 9.8400 5 D
DISEO EN BLOQUES COMPLETAMENTE AL AZAR

(DBCA)
Al diseo que controla una fuente de variacin

adicional a los tratamientos se le conoce como el diseo de
Bloques. Los bloques son completos porque todos los
tratamientos aparecen en igual nmero, usualmente una vez,
11
dentro de cada bloque, y son al azar porque los tratamientos
son asignados aleatoria mente dentro de cada bloque. A este
diseo se le conoce tambin como diseo de clasificacin de
dos vas sin interaccin (Two Way).
Los diseos de bloques pueden tambin pueden ser
incompletos balanceados. En este caso los bloques, son
incompletos no por que todos los tratamientos aparecen
dentro de cada bloque y balanceados por que el nmero de
tratamientos de cada bloque es el mismo y cada tratamiento
se repite el nmero de veces dentro del experimento.
Ejemplo (2)
Tres diferentes soluciones estn siendo estudiadas para

evaluar su efectividad en el retardo del crecimiento de
bacterias en contenedores de leche de 5 galones. Los anlisis
son hechos en los laboratorios y solo tres ensayos pueden
efectuarse en un da dado. Debido a que los das pueden ser
una fuente de variabilidad. El investigador decide utilizar un
diseo de bloques completamente ala azar. Las observaciones
fueron tomadas en cuatro dias y los datos en (UFC) se
muestran en la siguiente tabla
DIAS
SOLUCION 1 2 3 4
1 13 22 18 39
2 16 24 17 44
3 5 4 1 22
MODELO ADITIVO LINEAL

ij = + r i +j + ij i = 1,....,t j=1,...,b
Data metodos;
12
Title "diseo de bloques completamente al azar";
input trat bloque Y;
cards;
1 1 13
1 2 22
1 3 18
1 4 39
2 1 16
2 2 24
2 3 17
2 4 44
3 1 5
3 2 4
3 3 1
3 4 22
;
proc print;
proc ANOVA;
class TRAT Bloque;
model Y= trat bloque ;
MEANS trat bloque/Duncan Tukey Lsd;
run;
quit;
Diseo De Bloques Completamente Al Azar
OBS TRAT BLOQUE Y

1 1 1 13
2 1 2 22
3 1 3 18
4 1 4 39
5 2 1 16
6 2 2 24
7 2 3 17
8 2 4 44
9 3 1 5
10 3 2 4
11 3 3 1
12 3 4 22
The ANOVA Procedure
Dependent Variable: Y
Sum of
13
Model 5 1810.416667 362.083333 41.91
Error 6 51.833333 8.638889
Source Pr > F
Model 0.0001
Error
Corrected Total
0.972166 15.67573 2.939199 18.75000
Source DF Anova SS Mean Square F Value
Trat 2 703.500000 351.750000 40.72

bloque 3 1106.916667 368.972222 42.71
Source Pr > F
trat 0.0003
bloque 0.0002
The ANOVA Procedure
T TESTS (LSD) FOR Y
the
experimentwise error rate.
Alpha 0.05
Critical Value of t 2.44691
Least Significant Difference 5.0855
T Grouping
Mean N trat
A 25.250 4 2
A
A 23.000 4 1
B 8.000 4 3
DISEO CUADRADO LATINO

En este tratamiento se tiene dos restricciones de
aleatorizacin para la asignacin de los tratamientos de las
14
(filas y columnas) por lo que cada tratamiento debe aparecer
una vez en cada fila y en cada columna la aleatorizacion en
este diseo consiste en elegir un cuadrado al azar de entre
todos los cuadrados latinos posibles. Por ejemplo para un
DCL con 3 tratamientos, todos los cuadrados posibles serian.
T1 T2 T3 T1 T2 T3
T2 T3 T1 T3 T1 T2
T3 T1 T2 T2 T3 T1
T2 T1 T3 T3 T1 T2
T1 T3 T2 T2 T3 T1
T3 T2 T1 T1 T2 T3
T3 T1 T2 T2 T1 T3
T1 T2 T3 T3 T2 T1
T2 T3 T1 T1 T3 T2
Y(i)jk=+t(i)+ j+k+(i)jk i,j,k = 1,....t

Donde:
Y(i)jk es el valor o rendimiento observado en el i-ensimo
tratamiento, j-ensima fila, k-ensima columna.
es el efecto de la media general.
t(i) es el efecto del i-ensimo tratamiento.
j es el efecto de la j-ensima fila.
k es el efecto de la k-ensima columna.
(i)jk es el efecto del error experimental en el i-simo
tratamiento, j-simo bloque fila, k-simo bloque columna.
k-simo bloque columna.
t es el nmero de tratamientos.
Ejemplo (3)
15
Se realizo un experimento para comparar la efectividad de 4
abonos nitrogenados en el cultivo de caa de azcar. Las
clavez para los abonos son:
1.-NA: Nitrato amonico NH4NO3 2.-SA:Sulfato amonico

(NH4
3-SS: Salitre sdico 4.-UR:UREA
Todos los abonos se aplicaron a razn de 100g por hectrea.

El diseo empleado fue un cuadrado latino. Donde las
unidades experimentales fueron clasificadas en filas y
columnas segn su ubicacin en el terreno tal y como se
muestra en el siguiente croquis junto con los resultados del
experimento.
COLUMNAS
FILA 1 2 3 4
1 432(SA) 518(NA) 458(SS) 583(UR)
2 550(SS) 724(UR) 400(NA) 524(SA)
3 556(UR) 384(SS) 400(SA) 297(NA)
4 500(NA) 506(SA) 501(UR) 494(SS)
Y(i)jk=+t(i)+ j+k+(i)jk i,j,k = 1,....t
Donde:
Y(i)jk es el rendimiento de caa observado en el i-ensimo
tratamiento, j-ensima fila, k-ensima columna.
es el efecto de la media general.
t(i) es el efecto del i-ensimo abono nitrogenado.
j es el efecto de la j-ensima bloque fila
k es el efecto de la k-ensima bloque columna
16
(i)jk es el efecto del error experimental en el i-simo abono
nitrogenado , j-simo bloque fila, k-simo bloque columna.
k-simo bloque columna.
t =4 es el nmero de tratamientos que es igual al numero
de filas y columnas
DATA METODOS;
Title diseo cuadrado latino;
Input COL BLOCK TRAT$ VR;
Cards;
1 1 SA 432
1 2 NA 518
1 3 SS 458 RECUERD
1 4 UR 583 A QUE EL
2 1 SS 550
2 2 UR 724
INGRESO
2 3 NA 400 DE DATOS
2 4 SA 524 DEBE SER
3 1 UR 556 ORDENAD
3 2 SS 384
O
3 3 SA 400
3 4 NA 297
4 1 NA 500
4 2 SA 506
4 3 UR 501
4 4 SS 494
;
Proc print;
proc ANOVA;
Class COL BLOCK TRAT;
Model VR= COL BLOCK TRAT;
Means trat/ Duncan;
run;
quit
OBS COL BLOCK TRAT VR
1 1 1 SA 432
2 1 2 NA 518
3 1 3 SS 458
4 1 4 UR 583
5 2 1 SS 550
17
6 2 2 UR 724
7 2 3 NA 400
8 2 4 SA 524
9 3 1 UR 556
10 3 2 SS 384
11 3 3 SA 400
12 3 4 NA 297
13 4 1 NA 500
14 4 2 SA 506
15 4 3 UR 501
16 4 4 SS 494

THE ANOVA PROCEDURE
Class Levels Values
COL 4 1234
BLOCK 4 1234
TRAT 4 NA SA SS UR
Diseo cuadrado latino
The anova procedure
Dependent variable: vr
Sum of
Model 9 120430.5625 13381.1736 3.58
Error 6 22425.8750 3737.6458
Source Pr > F
Model 0.0673
Error
Corrected Total
R-Square Coeff Var Root MSE VR Mean

0.843018 12.49752 61.13629 489.1875
Source DF Anova SS Mean Square F Value
COL 3 40893.18750 13631.06250 3.65

BLOCK 3 19967.68750 6655.89583 1.78
TRAT 3 59569.68750 19856.56250 5.31
Source Pr > F
COL 0.0832
BLOCK 0.2506
18
TRAT 0.0399

THE ANOVA PROCEDURE
DUNCAN'S MULTIPLE RANGE TEST FOR VR
the experimentwise error rate.
Alpha 0.05
Number of Means 2 3 4
Critical Range 105.8 109.6 111.5
Duncan Grouping
Mean N TRAT
A 591.00 4 UR
B 471.50 4 SS
B
B 465.50 4 SA
B
B 428.75 4 NA
19
DISEO CUADRADO LATINO CON
ARREGLO FACTORIAL
El siguiente cuadro muestra los datos de un experimento en
cuadrado latino con arreglo factorial 2x2.donde se evalu el
efecto de dos niveles de nitrgeno 0 vs 200Kg./Ha en
combinacin con dos niveles de fsforo 0 vs 50 kg/Ha sobre el
rendimiento forrajero de festuca dichoclada.
1,0 B 1,6 C 2,2 D 3,5 A

1,5 A 1,1 D 3,3 C 2,3 B
2,0 D 3,2 A 1,2 B 1,8 C
3,0 C 2,1 B 1,7 A 1,3 D
DONDE:
A=NoPo
B=NoP1
C=N1Po
D=N1P1
Yjjkl=+Ti+ Cj+Bk+eijkl
Donde:
20
Yijkl = Rendimiento forrajero de F. dicholada.
= media general.
Ti = efecto del i-ensimo tratamiento.
k = efecto de la k-ensima columna.

eijk = efecto residual.
DATA METODOS;
OPTIONS NODATE NOCENTER NONUMBER LS=72 PS=60;
TITLE "CUADRADO LATINO REDUCIDO";
INPUT COLUMNA BLOQUE TRAT$ Y ;
CARDS;
1 1 A 1.0
1 2 B 1.5
1 3 C 2.0
1 4 D 3.0
2 1 B 1.6
2 2 A 1.1
2 3 D 3.2
2 4 C 2.1
3 1 C 2.2
3 2 D 3.3
3 3 A 1.2
3 4 B 1.7
4 1 D 3.5
4 2 C 2.3
4 3 B 1.8
4 4 A 1.3
;
PROC PRINT;
PROC GLM;
CLASS COLUMNA BLOQUE TRAT;
MODEL Y= TRAT COLUMNA BLOQUE;
21
LSMEANS TRAT/ STDERR PDIFF;
RUN;
QUIT;
El programa SAS nos da los resultados

para calcular la forma reducida del ANVA.
Que a continuacin presentamos
CUADRADO LATINO REDUCIDO
Obs COLUMNA BLOQUE TRAT Y

1 1 1 A 1.0
2 1 2 B 1.5
3 1 3 C 2.0
4 1 4 D 3.0
5 2 1 B 1.6
6 2 2 A 1.1
7 2 3 D 3.2
8 2 4 C 2.1
9 3 1 C 2.2
10 3 2 D 3.3
11 3 3 A 1.2
12 3 4 B 1.7
13 4 1 D 3.5
14 4 2 C 2.3
15 4 3 B 1.8
16 4 4 A 1.3

The GLM Procedure
Class Levels Values
COLUMNA 4 1234
BLOQUE 4 1234
22
TRAT 4 ABCD

The GLM Procedure
Sum of
Source DF Squares Mean Square
F Value Pr > F
Model 9 9.95000000 1.10555556
663.33 0.0001
Error 6 0.01000000 0.00166667
Corre T 15 9.96000000
R-Square Coeff Var Root MSE
Y Mean
0.998996 1.991455 0.040825
2.050000
Source DF Type I SS Mean

Square F Value
TRAT 3 9.68000000
3.22666667 1936.00
COLUMNA 3 0.26500000
0.08833333 53.00
BLOQUE 3 0.00500000
0.00166667 1.00
The GLM Procedure

Least Squares Means
Standard LSMEAN
TRAT Y LSMEAN Error Pr > |t|
Number
A 1.15000000 0.02041241 <.0001

1
23
B 1.65000000 0.02041241 <.0001
2
C 2.15000000 0.02041241 <.0001
3
D 3.25000000 0.02041241 <.0001
4
Least Squares Means for effect TRAT

Pr > |t| for H0: LSMean(i)=LSMean(j)
i/j 1 2 3 4
1 <.0001 <.0001 <.0001

2 <.0001 <.0001 <.0001
3 <.0001 <.0001 <.0001
4 <.0001 <.0001
<.0001
NOTE: To ensure overall protection level, only

probabilities associated
with pre-planned comparisons should be
used.
ANLISIS DE COVARIANZA (ANCOVA)
Consiste bsicamente en elegir una o ms variables
adicionales o covariables que estn relacionadas con la
variable de respuesta, evitando que los promedios de
tratamientos se confundan con los de las covariables,
incrementando de esa manera la precisin del experimento.
Por ejemplo: nmero de plantas por unidad experimental,
pesos iniciales en animales, grado de infestacin de
garrapatas, das de lactancia o edad de destete, etc.; pueden
ser covariables que influyan en el resultado final y cuyo efecto
24
de regresin sobre la variable respuesta el investigador desea
eliminar, ajustando las medias de tratamientos a una media
comn de X. En este anlisis se asume que la variable
dependiente Y est asociada en forma lineal con la variable
independiente X, existiendo homogeneidad de pendientes.
Ejemplo (4)
Se evalu el efecto del tiempo de cosecha sobre el

rendimiento de grano de maz. Se utilizaron 4
tratamientos y 3 repeticiones, con el diseo bloques
completos al azar. Los tratamientos fueron: 30, 40, 50
y 60 das despus de la polinizacin. El nmero de
plantas planificado por parcela til fue de 52, pero al
cosechar se obtuvieron diferentes nmeros de plantas
por unidad experimental. Los resultados se presentan
en el cuadro siguiente:
REPETICIONES
I II III
TRATAMIENTOS X Y X Y X Y Xi Yi
30 41 4,08 24 2,78 31 2,76 91 9,65
40 37 4,72 32 4,92 38 4,50 107 14,12
50 37 4,0 34 5,05 47 5,54 118 14,59
60 35 4,59 22 3,63 44 6,20 101 14,42
Xj-Yj 150 17,39 112 16,38 160 19 422 52,8
MODELO ADITIVO LINEAL:

Yij .. i j ij ij
INGRESO DE DATOS EN SAS
options nodate nonumber;

DATA ANCOVA;
INPUT TRT REP X Y;
CARDS;
30 1 41 4.08
25
40 1 37 4.72
50 1 37 4
60 1 35 4.59
30 2 24 2.78
40 2 32 4.92
50 2 34 5.05
60 2 22 3.63
30 3 31 2.79
40 3 38 4.5
50 3 47 5.54
60 3 44 6.2
;
PROC GLM;
CLASSES TRT REP;
MODEL Y=TRT REP/SS1;
PROC GLM;
CLASSES TRT REP;
MODEL Y=TRT REP X;
MEANS trt; lsmeans trt/stderr pdiff;
run;
The SAS System

The GLM Procedure
Class Levels Values
TRT 4 30 40 50 60
REP 3 123
The SAS System

The GLM Procedure
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 5 6.52988333 1.30597667 1.59 0.2923
Error 6 4.92291667 0.82048611

26
0.570156 20.58652 0.905807 4.400000
Source DF Type I SS Mean Square F Value Pr > F

TRT 3 5.63553333 1.87851111 2.29 0.1784
REP 2 0.89435000 0.44717500 0.55 0.6061
The SAS System
The GLM Procedure
Class Levels Values
TRT 4 30 40 50 60
REP 3 123
The SAS System

The GLM Procedure
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 6 11.21948408 1.86991401 40.07 0.0005
Error 5 0.23331592 0.04666318
Corr T 11 11.45280000

0.979628 4.909469 0.216017 4.400000
Source DF Type I SS Mean Square F Value Pr > F
TRT 3 5.63553333 1.87851111 40.26 0.0006
REP 2 0.89435000 0.44717500 9.58 0.0195
X 1 4.68960074 4.68960074 100.50 0.0002
Source DF Type III SS Mean Square F Value Pr > F
27
TRT 3 2.90919992 0.96973331 20.78 0.0030
REP 2 1.65723743 0.82861871 17.76 0.0054
X 1 4.68960074 4.68960074 100.50 0.0002
The SAS System

The GLM Procedure
Level of--------------Y-------------- --------------X--------------
TRT N Mean Std Dev Mean Std Dev
30 3 3.21666667 0.74768532 32.0000000 8.5440037
40 3 4.71333333 0.21007935 35.6666667 3.2145503
50 3 4.86333333 0.78678671 39.3333333 6.8068593
60 3 4.80666667 1.29862748 33.6666667 11.0604400
The SAS System

The GLM Procedure
Least Squares Means
Standard LSMEAN
TRT Y LSMEAN Error Pr > |t| Number

30 3.72313182 0.13456125 <.0001 1
40 4.63336515 0.12497210 <.0001 2
50 4.19693182 0.14132677 <.0001 3
60 5.04657121 0.12699244 <.0001 4
Least Squares Means for effect TRT

i/j 1 2 3 4
1 0.0045 0.0753 0.0007

2 0.0045 0.0657 0.0693
3 0.0753 0.0657 0.0078
4 0.0007 0.0693 0.0078
28
NOTE: To ensure overall protection level, only probabilities
associated with pre-planned
comparisons should be used.
PARCELAS DIVIDIDAS
Es un factorial conducido de tal manera que la unidad

experimental con respecto a uno o ms factores es una
subunidad de la unidad experimental con respecto a
otros factores. Los experimentos con parcelas divididas
son frecuentemente usados por necesidad cuando un
factor debe ser aplicado a una gran unidad
experimental, mientras que otros factores son mas
apropiados aplicarlos a las subunidades. Tambin este
diseo es utilizado por la conveniencia o facilidad de
aplicar diferentes factores a diferentes unidades con
tamaos distintos. El diseo de parcelas divididas
tambin puede ser usado para incrementar la precisin
del efecto estimado por la aplicacin de un factor a las
subunidades.
Ejemplo (5)
Comparar el efecto del espaciamiento de tres surcos (4,

8,12 pulgadas) sobre el rendimiento de forraje de tres
variedades de festuca. El diseo es en parcela dividida
con variedades (1.2 y 3) como tratamientos de parcelas
29
y con bloques completo al azar los espaciamientos entre
surcos se aplicaron a sub. parcelas.
BLOQUE
VARIEDAD DISTANCIA 1 2 3 4
4 56 45 43 46
1 8 60 50 45 48
12 66 57 50 50
4 65 61 60 63
2 8 60 58 56 60
12 53 53 48 55
4 60 61 50 53
3 8 62 68 57 60
12 73 77 77 65
ECUACION LINEAL:
Y=U-B-V+(BV)I+D+(VD)+e
INGRESO DE DATOS EN EL SAS

data metodos;
options nodate nonumber ls=72 ps=60;
Title "DISEO DE PARCELAS DIVIDIDA";
Input REP A B VR;
CARDS;
1 1 4 56
1 1 8 60
1 1 12 66
1 2 4 65
1 2 8 60
1 2 12 53
1 3 4 60
1 3 8 62
1 3 12 73
2 1 4 45
2 1 8 50
2 1 12 57
2 2 4 61
2 2 8 58
2 2 12 53
2 3 4 61
30
2 3 8 68
2 3 12 77
3 1 4 43
3 1 8 45
3 1 12 50
3 2 4 60
3 2 8 56
3 2 12 48
3 3 4 60
3 3 8 67
3 3 12 77
4 1 4 46
4 1 8 48
4 1 12 50
4 2 4 63
4 2 8 60
4 2 12 55
4 3 4 53
4 3 8 60
4 3 12 65
;
Proc Print;
proc glm;
class rep A B;
Model VR=REP A A*REP B A*B;
TEST h=A e=A*REP;
Lsmeans A*B/stderr pdiff;
lsmeans A/ e=A*REP stderr pdiff;
run;
quit;
RESULTADOS
DISEO DE PARCELAS DIVIDIDA

Obs REP A B VR
1 1 1 4 56
2 1 1 8 60
3 1 1 12 66
4 1 2 4 65
31
5 1 2 8 60
6 1 2 12 53
7 1 3 4 60
8 1 3 8 62
9 1 3 12 73
10 2 1 4 45
11 2 1 8 50
12 2 1 12 57
13 2 2 4 61
14 2 2 8 58
15 2 2 12 53
16 2 3 4 61
17 2 3 8 68
18 2 3 12 77
19 3 1 4 43
20 3 1 8 45
21 3 1 12 50
22 3 2 4 60
23 3 2 8 56
24 3 2 12 48
25 3 3 4 60
26 3 3 8 67
27 3 3 12 77
28 4 1 4 46
29 4 1 8 48
30 4 1 12 50
31 4 2 4 63
32 4 2 8 60
33 4 2 12 55
34 4 3 4 53
35 4 3 8 60
36 4 3 12 65
32
The GLM Procedure

Class Levels Values
REP 4 1234
A 3 123
B 3 4 8 12

The GLM Procedure
Dependent Variable: VR
Sum of
Source DF Squares Mean Square F
Value
Model 17 2522.250000 148.367647 57.43
Error 18 46.500000 2.583333
Source Pr > F
Model <.0001
Error
Corrected Total
R-Square Coeff Var Root MSE VR Mean
0.981898 2.767188 1.607275 58.08333
Source DF Type I SS Mean Square F Value

REP 3 210.083333 70.027778 27.11
A 2 1165.166667 582.583333 225.52
REP*A 6 378.166667 63.027778 24.40
B 2 109.500000 54.750000 21.19
A*B 4 659.333333 164.833333 63.81
33
Source Pr > F
REP <.0001
A <.0001
REP*A <.0001
B <.0001
A*B <.0001

REP 3 210.083333 70.027778 27.11
A 2 1165.166667 582.583333 225.52
REP*A 6 378.166667 63.027778 24.40
B 2 109.500000 54.750000 21.19
Source Pr > F
REP <.0001
A <.0001
REP*A <.0001
B <.0001
The GLM Procedure


A*B 4 659.333333 164.833333 63.81
Source Pr > F
A*B <.0001
Tests of Hypotheses Using the Type III MS for REP*A as
an Error Term
A 2 1165.166667 582.583333 9.24
Tests of Hypotheses Using
the Type III MS for REP*A
34
as an Error Term
Source Pr > F
A 0.0147
The GLM Procedure

Least Squares Means
Standard LSMEAN
A B VR LSMEAN Error Pr > |t| Number
1 4 47.5000000 0.8036376 <.0001 1

1 8 50.7500000 0.8036376 <.0001 2
1 12 55.7500000 0.8036376 <.0001 3
2 4 62.2500000 0.8036376 <.0001 4
2 8 58.5000000 0.8036376 <.0001 5
2 12 52.2500000 0.8036376 <.0001 6
3 4 58.5000000 0.8036376 <.0001 7
3 8 64.2500000 0.8036376 <.0001 8
3 12 73.0000000 0.8036376 <.0001 9
Least Squares Means for effect A*B
i/j 1 2 3 4 5
1 0.0104 <.0001 <.0001 <.0001
2 0.0104 0.0003 <.0001 <.0001
3 <.0001 0.0003 <.0001 0.0263
4 <.0001 <.0001 <.0001 0.0040
5 <.0001 <.0001 0.0263 0.0040
6 0.0006 0.2034 0.0065 <.0001 <.0001
7 <.0001 <.0001 0.0263 0.0040 1.0000
8 <.0001 <.0001 <.0001 0.0954 <.0001
9 <.0001 <.0001 <.0001 <.0001 <.0001
35
Least Squares Means for effect A*B
i/j 6 7 8 9
1 0.0006 <.0001 <.0001 <.0001

2 0.2034 <.0001 <.0001 <.0001
3 0.0065 0.0263 <.0001 <.0001
4 <.0001 0.0040 0.0954 <.0001
5 <.0001 1.0000 <.0001 <.0001
6 <.0001 <.0001 <.0001
7 <.0001 <.0001 <.0001
8 <.0001 <.0001 <.0001
9 <.0001 <.0001 <.0001

associated
with pre-planned comparisons should be used.
The GLM Procedure

Least Squares Means
Standard Errors and Probabilities Calculated Using the
Type III MS for
REP*A as an Error Term
Standard LSMEAN
A VR LSMEAN Error Pr > |t| Number

36
1 51.3333333 2.2917929 <.0001 1
2 57.6666667 2.2917929 <.0001 2
3 65.2500000 2.2917929 <.0001 3
Least Squares Means for effect A
i/j 1 2 3
1 0.0985 0.0051
2 0.0985 0.0579
3 0.0051 0.0579

associated
with pre-planned comparisons should be used.
DISEO JERARQUICO O ANIDADO
En algunos experimentos los niveles de un factor estan

anidados en los niveles de otro factor, de modo que no es
posible cruzarlos para formar combinaciones de
tratamientos. Esto se presenta cuando los niveles de un factor
se originan por sub muestreo de los niveles de otro factor .
Supongase que se desea estudiar un rasgo particular
del hombre colombiano. Para ello se eligen algunos
departamentos o regiones al azar; de cada uno de ellos se
toman municipios, tambien al azar; de cada municipio se
muestrean hogares y finalmente se muestrean personas
dentro de esos hogares . Este procedimiento es un
37
submuestreo en varias etapas y su equivalencia en la
experimentacion es el diseo anidado. Como no existe el
mismo municipio en todos los departamentos, es imposible
obtener una interaccion entre el factor municipio y el factor
departamento: por otro lado; el diseo anidado puede
analizarse mediante un modelo mixto o un modelo de
componentes de varianza el modelo i no es apropiado ya que
en el submuestreo los niveles son seleccionados al azar.
Considerese primero el modelo mixto para un diseo
anidado con un factor fijo A y un factor B anidado.
EJEMPLO Se diseo un experimento de invernadero para

observar el crecimiento de los tallos de plantas de menta en
una solucion nutritiva y sometidas a tres periodos diferentes
de luz diurna 8, 12 y 16 horas diarias. Para cada periodo se
seleccionaron tres materas y se midieron cuatro plantas
muestreadas de cada matera. Los datos obtenidos se dan en
la siguiente tabla
HORAS
DE LUZ 8 12 16
MATERAS 1 2 3 4 5 6 7 8 9
PLANTAS 8,5 6,5 7,0 6,0 6,0 6,5 7,0 6,0 11,0
6,0 7,0 7,0 5,5 8,5 6,5 9,0 7,0 7,0
9,0 8,0 7,0 3,5 4,5 8,5 8,5 7,0 9,0
8,5 6,5 7,0 7,0 7,5 7,5 8,5 7,0 8,0
TOTAL DE 32,0 28,0 28,0 22,0 26,5 29,0 33,0 27,0 35,0
MADERAS
TOTAL DE 88,0 77,5 95,0
HORAS
INGRESO DE DATOS EL EL SAS V8
data jerar;
options nodate nocenter nonumber ls=80;
input p m resp;
cards;
8 1 8.5
8 1 6.0
8 1 9.0
8 1 8.5
38
8 2 6.5
8 2 7.0
8 2 8.0
8 2 6.5
8 3 7.0
8 3 7.0
8 3 7.0
8 3 7.0
12 4 6.0
12 4 5.5
12 4 3.5
12 4 7.0
12 5 6.0
12 5 8.5
12 5 4.5
12 5 7.5
12 6 6.5
12 6 6.5
12 6 8.5
12 6 7.5
16 7 7.0
16 7 9.0
16 7 8.5
16 7 8.5
16 8 6.0
16 8 7.0
16 8 7.0
16 8 7.0
16 9 11.0
16 9 7.0
16 9 9.0
16 9 8.0
;
proc print;
proc anova;
class p m;
model resp=p m(p);
test h=p e=m(p);
run;
quit;
39
RESULTADOS CUADRO ANOVA
The SAS System
Obs p m resp
1 8 1 8.5
2 8 1 6.0
3 8 1 9.0
4 8 1 8.5
5 8 2 6.5
6 8 2 7.0
7 8 2 8.0
8 8 2 6.5
9 8 3 7.0
10 8 3 7.0
11 8 3 7.0
12 8 3 7.0
13 12 4 6.0
14 12 4 5.5
15 12 4 3.5
16 12 4 7.0
17 12 5 6.0
18 12 5 8.5
19 12 5 4.5
20 12 5 7.5
21 12 6 6.5
22 12 6 6.5
23 12 6 8.5
24 12 6 7.5
25 16 7 7.0
26 16 7 9.0
27 16 7 8.5
28 16 7 8.5
29 16 8 6.0
30 16 8 7.0
31 16 8 7.0
32 16 8 7.0
33 16 9 11.0
34 16 9 7.0
35 16 9 9.0
36 16 9 8.0
The SAS System
The ANOVA Procedure
40
Class Levels Values
p 3 8 12 16
m 9 123456789
The SAS System
The ANOVA Procedure
Dependent Variable: resp
Sum of
Sourc DF Squares Mean Square F Value Pr > F
Model 8 30.55555556 3.81944444 2.77 0.0224
Error 27 37.18750000 1.37731481
Corr Total 35 67.74305556
R-Square Coeff Var Root MSE resp Mean

0.451051 16.21853 1.173591 7.236111
Source DF Anova SS Mean Square F Value Pr > F
p 2 12.93055556 6.46527778 4.69 0.0178
m(p) 6 17.62500000 2.93750000 2.13 0.0822
Tests of Hypotheses Using the Anova MS for m(p) as an Error Term

Source DF Anova SS Mean Square F Value Pr > F
p 2 12.93055556 6.46527778 2.20 0.1919
EJEMPLO 2.
Experimento Factorial para evaluar el comportamiento de 3

clones de papa con 3 dosis de nitrgeno y 3 manejos de
agricultores en campos diferentes Diseo: Bloques Completos
al Azar Reps: 3
C1 C2 C3
R1 R2 R3 R1 R2 R3 R1 R2 R3
N1=50 KG N/HA
M1 9,320 9,864 9,507 6,101 5,112 5,815 5,355 5,536 5,244
M2 3,766 4,311 4,875 5,096 4,873 5,166 7,442 6,462 6,582
41
M3 8,660 9,915 9,400 9,573 9,495 9,225 2,018 2,02 3,642
N2=80 KG N/HA
M4 5,468 5,778 4,422 5,442 5,988 6,509 6,452 6,698 5,650
M5 5,759 6,130 5,308 6,398 6,398 6,569 5,662 8,562 6,514
M6 3,215 4,106 4,318 3,953 3,953 4,991 3,112 4,140 3,320
N2=110 KG N/HA
M7 6,132 4,375 4,678 2,860 3,894 2,573 9,314 8,508 8,032
M8 9,389 4,315 5,896 6,857 6,974 7,422 9,224 9,680 9,294
M9 9,217 5,389 7,309 7,254 7,812 8,950 9,990 9,896 9,712
Analizar bajo las siguientes condiciones:

Caso a.: Factores aleatorios Clon y Manejo y fijo el Nitrogeno
Caso b. Factores fijos Clon y Nitrogeno y aleatorio el Manejo.
Caso c. Factores fijos Manejo y Nitrogeno y aleatorio el Clon.
Caso d. Factores aleatorios Clon , Nitrogeno y Manejo.
En todos los casos las repeticiones son los bloques .
Hallar las fuentes y grados de libertad
Hallar los esperados cuadrados medios
Para analizar utilizar el programa R. y hacer las comparaciones de
medias en los casSOS que sea posible.
EL INGRESO DE DATOS EN EL SAS ES EL SIQUIENTE
EL INGRESO DE DATOS EN EL SAS
options nodate nocenter ls=80;

data set1;
input anno lugar clon $ rdto rep;
cards;
1 1 Amarilis 70.1
1 1 Libertea 27.5 1
1 1 INIA305 85.5 1
1 1 Chata 62.1 1
1 1 Clon12 59.5 1
1 1 Clon24 47 1
42
1 1 Amarilis 49.5 2
1 1 Libertea 16 2
1 1 INIA305 85.5 2
1 1 Chata 54.2 2
1 1 Clon12 64.5 2
1 1 Clon24 46.8 2
1 1 Amarilis 45 3
1 1 Libertea 18.8 3
1 1 INIA305 97.1 3
1 1 Chata 79.3 3
1 1 Clon12 59.4 3
1 1 Clon24 47.5 3
2 2 Libertea 34.7 1
2 2 Chata 34.8 1
2 2 INIA305 43.3 1
2 2 Amarilis 51.1 1
2 2 Clon24 38.2 1
2 2 Clon12 38.2 1
2 2 Libertea 34.4 2
2 2 Chata 38.2 2
2 2 INIA305 46.5 2
2 2 Amarilis 48.4 2
2 2 Clon24 41.4 2
2 2 Clon12 41.4 2
2 2 Libertea 37.3 3
2 2 Chata 45.7 3
2 2 INIA305 49.2 3
2 2 Amarilis 42.4 3
2 2 Clon24 33.9 3
2 2 Clon12 33.9 3
1 3 Clon24 12 1
1 3 Amarilis 18.7 1
1 3 INIA305 15.5 1
1 3 Clon12 19.8 1
1 3 Chata 15.3 1
1 3 Libertea 11.6 1
1 3 Clon24 14.3 2
1 3 Amarilis 18.7 2
1 3 INIA305 16.3 2
1 3 Clon12 19.2 2
1 3 Chata 15.7 2
1 3 Libertea 10.1 2
43
1 3 Clon24 10.8 3
1 3 Amarilis 18.1 3
1 3 INIA305 17.2 3
1 3 Clon12 21.7 3
1 3 Chata 15.5 3
1 3 Libertea 10.3 3
2 4 Libertea 30.2 1
2 4 Clon12 33.6 1
2 4 Clon24 31.5 1
2 4 Amarilis 53.2 1
2 4 INIA305 43.1 1
2 4 Chata 34.5 1
2 4 Libertea 30 2
2 4 Clon12 36.7 2
2 4 Clon24 29.9 2
2 4 Amarilis 36.4 2
2 4 INIA305 35.9 2
2 4 Chata 33.4 2
2 4 Libertea 29.6 3
2 4 Clon12 27.5 3
2 4 Clon24 32.9 3
2 4 Amarilis 50.3 3
2 4 INIA305 44.1 3
2 4 Chata 39.1 3
;
proc glm data=set1;
class anno lugar clon rep;
model rdto = anno lugar(anno) rep(anno*lugar) clon
clon*anno
clon*lugar(anno)/ss3;
random rep(anno*lugar)/test;
run;
quit;
The SAS System

The GLM Procedure
Class Levels Values
anno 2 12
lugar 4 1234
44
clon 6 Amarilis Chata Clon12 Clon24 INIA305
Liberte
rep 3 123
The SAS System 10
The GLM Procedure
Dependent Variable: rdto
Sum of
Source DF Squares Mean Square F Value Pr >
F
Model 31 24277.23764 783.13670 27.54
<.0001
Error 40 1137.64556 28.44114
R-Square Coeff Var Root MSE rdto Mean

0.955237 14.32272 5.333023 37.23472
Source DF Type III SS Mean Square F Value Pr >

F
anno 1 109.76681 109.76681 3.86 0.0564
lugar(anno) 2 15164.46028 7582.23014 266.59 <.0001
rep(an*lug) 8 187.83444 23.47931 0.83 0.5852
clon 5 4097.64736 819.52947 28.81 <.0001
anno*clon 5 1509.98403 301.99681 10.62 <.0001
lug*clon(an)10 3207.54472 320.75447 11.28 <.0001
The SAS System

The GLM Procedure
45
Source Type III Expected Mean Square
anno Var(Error) + 6 Var(rep(anno*lugar)) +
Q(anno,lugar(anno),anno*clon,lugar*clon(anno))
lugar(anno) Var(Error) + 6 Var(rep(anno*lugar)) +

Q(lugar(anno),lugar*clon(anno))
rep(anno*lugar) Var(Error) + 6 Var(rep(anno*lugar))

clon Var(Error) +
Q(clon,anno*clon,lugar*clon(anno))
anno*clon Var(Error) +
Q(anno*clon,lugar*clon(anno))
lugar*clon(anno) Var(Error) + Q(lugar*clon(anno))
The SAS System

The GLM Procedure
Tests of Hypotheses for Mixed Model Analysis of Variance
Dependent Variable: rdto
F
* anno 1 109.766806 109.766806 4.68 0.0626
* lugar(anno) 2 15164 7582.230139 322.93 <.0001
Error 8 187.834444 23.479306
Error: MS(rep(anno*lugar))
* This test assumes one or more other fixed effects are zero.

F
rep(an*lu) 8 187.834444 23.479306 0.83 0.5852
* clon 5 4097.647361 819.529472 28.81 <.0001
* anno*clon 5 1509.984028 301.996806 10.62 <.0001
lugar*clon(an) 10 3207.544722 320.754472 11.28
<.0001
46
Error: MS(Error) 40 1137.645556 28.441139
* This test assumes one or more other fixed effects are zero.
REGRECION LINEAL
DATA quesos;
TITLE "REGRECION LINEAL"
options LS=72 PS=60 NODATE NOCENTER;
input x y;
cards;
4.545 12.3
5.759 47.9
5.892 37.3
5.242 21
4.477 0.7
6.365 40.9
5.247 18
5.298 15.2
5.366 16.8
5.328 0.7
;
proc print;
run;
proc reg;
model y=x;
proc glm;
proc plot;
plot y*x/vpcs=15 hpos=30;
run;
quit;
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 1476.86594 1476.86594 13.60 0.0061
Error 8 868.53006 108.56626
CorreTotal 9 2345.39600
Root MSE 10.41951 R-Square 0.6297
Dependent Mean 21.08000 Adj R-Sq 0.5834
Coeff Var 49.42843
Parameter Estimates
47
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 -99.13520 32.76002 -3.03 0.0164
x 1 22.46215 6.09015 3.69 0.0061
48
REGRECION LINEAL options PS=60 NODATE NOCENTER Plot of
y*x. Legend: A = 1 obs, B = 2 obs, etc.
Plot of y*x. Legend: A = 1 obs, B = 2 obs, etc.
y
60

A

40 A
A

20 B
B
A

0 A A

4 5 6 7
Ejemplo 2
Se efectuo un experiemento para evaluar el efecto del zinc

en el peso de cacatas. En el experiemnto. A 7 grupos de
cacatas adultas se les dio diferentes dosis de zinc y sus
perdidas de peso tras la primera semana fueron
registradas. los datos de los pesos medios por grupo al
final de la semana estan expresados como porcentaje
sobre los pesos iniciales.
INGESTA DE ZINC 0 2 4 8 12 16 30
PESO MEDIO % 100 92 95 90 98 85 67
Estime la lnea de regresin lineal
49
Efectu el anlisis de varianza
Calcule e interprete el coeficiente de
determinacin y el de correlacin

DATA quesos;
TITLE "REGRECION LINEAL"
options LS=72 PS=60 NODATE NOCENTER;
input x y;
cards;
0 100
2 92
4 95
8 90
12 98
16 85
30 67
;
proc print;
run;
proc reg;
model y=x;
proc glm;
proc plot;
plot y*x/vpcs=15 hpos=30;
run;
quit;
RESULTADOS: SE DEJA AL LECTOR PARA QUE PEDA

INTERPRETAR LAS DEMAS PREMISAS
REGRECION LINEAL options PS=60 NODATE NOCENTER
Obs x y
1 0 100
2 2 92
3 4 95
4 8 90
5 12 98
6 16 85
7 30 67
EGRECION LINEAL options PS=60 NODATE NOCENTER
50
The REG Procedure
Model: MODEL1
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 595.77379 595.77379 19.87 0.0067
Error 5 149.94050 29.98810
Root MSE 5.47614 R-Square 0.7989

Dependent Mean 89.57143 Adj R-Sq 0.7587
Coeff Var 6.11371
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 99.46892 3.03559 32.77 <.0001
x 1 -0.96226 0.21589 -4.46 0.006
Plot of y*x. Legend: A = 1 obs, B = 2 obs, etc.
100 A
A
A
y A A

A

80

A

60

0 10 20 30
51
PSS 13.00 WINDOWS
1. INTRODUCCIN
SPSS es un potente sistema de anlisis estadstico y gestin
de datos. Ofrece un rpido entorno de modelizacin visual que
abarca desde lo ms simple hasta lo ms complejo para crear
modelos de manera interactiva y realizar cambios utilizando
tcnicas analticas probadas y acreditadas. Permite sacar
partido a los datos utilizando una completa gama de
productos respaldados por ms de 30 aos de experiencia en
el campo del software analtico. Este anual est basado en la
versin 10.0.6.SPSS opera en las ms conocidas plataformas:
MS Windows, Macintosh, Digital y UNIX. En el caso de MS
Windows, los requisitos de hardware y de software mnimos
para ejecutar el sistema son:
Windows 95, Windows 98, Windows NT 4.0 o Windows
2000.
El sistema est compuesto por mdulos que pueden instalarse
por separado pero funcionan conjuntamente. Los mdulos
ms importantes, y que han sido utilizados en la elaboracin
de este manual, son:
Base (Base)
52
Mdulo con funciones fundamentales necesario para utilizar
los otros. Estadsticas, grficos y tablas de pivote
multidimensionales.
Modelos de regresin (Regression Models)
Modelos predictivos avanzados respecto a los de regresin
lineal simple. Medicin de distancias entre datos.
Modelos avanzados (Advanced Models)
Anlisis de relaciones complejas con un conjunto de
procedimientos avanzado, y anlisis de datos de
supervivencia.
Tablas (Tables)
Resultados dispuestos en potentes tablas con los estadsticos
que se requieran.
Tendencias (Trends)
Anlisis de series temporales como informacin histrica.
Creacin de modelos y acontecimientos futuros.
Categoras (Categories)
Completo grupo de herramientas para la investigacin de
productos con el anlisis de conjunto y la familia de
procedimientos de escalamiento.
Anlisis conjunto (Conjoint)
Creado con el objetivo de proporcionar una forma de
evaluacin del impacto de los atributos de productos
individuales sobre determinadas preferencias.
Pruebas exactas
Proporciona dos mtodos adicionales para calcular los niveles
de significacin de los estadsticos disponibles mediante
tablas de contingencia y pruebas no paramtricas.
1.2. Ejecucin
Para ejecutar SPSS se acceder al botn Inicio y desde all a
Programas / SPSS for Windows / SPSS 10.0 para Windows.
Aparece la presentacin del programa con el Editor de datos al
fondo:
53
A continuacin nos preguntar cmo queremos comenzar:
ejecutando el tutorial, introduciendo datos nuevos, abriendo
datos de disco, etc. Una vez hecho esto, nos dejar con el
Editor de datos. Se pueden abrir varias sesiones de SPSS
independientes para poder trabajar con diferentes ficheros de
datos.
1.3. Forma de trabajar: pasos bsicos
Para trabajar con SPSS debemos seguir los 4 pasos bsicos
que se muestran a continuacin:
1.3.1. Obtencin de datos

Existen dos formas de obtener datos en SPSS. La primera es
la introduccin directa de los datos en las casillas que nos
muestra el Editor de datos. Las columnas nos indican las
variables que tenemos, y las filas los casos de las variables. Al
introducir un dato en una casilla, se activa la variable de la
columna donde nos encontremos y se define automticamente
segn el tipo de dato que hayamos introducido. Si queremos
definir las variables nosotros mismos, debemos seleccionar la
Vista de variables donde podremos especificar su nombre,
tipo, tamao y otros atributos.
La segunda forma de obtener datos es extrayndolos de un
archivo de disco. ste puede ser de formato SPSS (*.sav); de
formato Excel, Lotus, texto, etc.; o de formato de base de
datos como Access, dBase, FoxPro, etc.
Si los datos son nuevos o los hemos modificado es
conveniente almacenarlos en disco a travs del men Archivo.
1.3.2. Seleccin de procedimiento
Una vez tenemos los datos en el Editor de datos, debemos
elegir un procedimiento en el men Analizar para poder
obtener resultados. El sistema nos permite realizar informes,
estadsticos descriptivos, tablas, correlaciones, anlisis de
regresin, etc. Asimismo si deseamos un grfico descriptivo de
los datos, elegiremos uno de los existentes en el men
54
Grficos. ste puede ser normal o interactivo, en cuyo caso
podremos modificar posteriormente las variables usadas y los
parmetros del mismo.
1.3.3. Seleccin de variables y opciones
Ahora se nos solicita la seleccin de las variables que
queremos usar en el procedimiento de anlisis o en el grfico.
El cuadro de seleccin de variables es similar en todos los
procedimientos: nos muestra una lista de todas las variables y
una o varias casillas de destino donde debemos introducirlas
para que el sistema pueda calcular los estadsticos o valores
que precise para la presentacin de resultados.
1.3.4. Examen de resultados
El ltimo paso es el examen de resultados en una nueva
ventana llamada Visor. Esta ventana nos muestra dos
paneles. El de la izquierda es el conjunto de los titulares de
los elementos grficos situados en el panel de la derecha. Su
apariencia y funcionamiento es similar al del explorador de
Windows. El de la derecha muestra los elementos grficos,
que pueden ser textos, tablas o grficos.
Seleccionar las variables que queremos usar Seleccionar
procedimiento a ejecutar Obtener datos examinar los
resultados
Los resultados o elementos grficos que vayamos generando
no se sustituyen, sino que se van acumulando en el visor
donde les podremos dar formato para su posterior impresin,
as como para su almacenamiento en disco. En el caso de los
grficos interactivos podremos modificarlos directamente, sin
necesidad de volver a generarlos de nuevo.
1.4. Ventanas
Ya hemos comentado la existencia de dos ventanas: el Editor
de datos y el Visor, pero
SPSS utiliza adems otras. He aqu un resumen de las
diferentes ventanas existentes:
Editor de datos
55
Muestra el contenido del fichero de datos. Permite crear
nuevos archivos de datos o modificar los existentes. Esta
ventana se abre automticamente cuando se inicia una sesin
de SPSS. No se puede tener ms de un archivo de datos
abierto al mismo tiempo. Para ello debemos abrir varias
sesiones. Est compuesto de dos vistas: Vista de datos y Vista
de variables.
Visor
Muestra los resultados estadsticos, tablas y grficos que se
generen. Permite editar los resultados, almacenarlos e
imprimirlos. Esta ventana se abreautomticamente la primera
vez que se ejecuta un procedimiento que genera resultados.
Visor de borrador
Esta ventana muestra los resultados como texto normal (en
lugar de como tablas pivote interactivas).
Editor de tablas pivote
Permite modificar los resultados mostrados en este tipo de
tablas. Podemos editar el texto, intercambiar los datos de las
filas y las columnas, aadir colores, crear tablas
multidimensionales y ocultar y mostrar los resultados de
manera selectiva.
Editor de grficos
Permite modificar los grficos y diagramas. Es posible
cambiar los colores, seleccionar diferentes tipos de fuentes y
tamaos, intercambiar los ejes horizontal y vertical, rotar
diagramas de dispersin 3-D e incluso cambiar el tipo de
grfico.
Editor de resultados de texto
Los resultados de texto que no aparecen en las tablas pivote
pueden modificarse con este editor. Es posible variar el texto y
cambiar las caractersticas de las fuentes (tipo, estilo, color y
tamao).
Editor de sintaxis
Permite escribir conjuntos de comandos para que el sistema
las ejecute (SPSS funciona internamente a base de
56
comandos). Podemos pegar las selecciones de un cuadro de
dilogo en una ventana de sintaxis, donde aparecern en
forma de comandos. Este editor permite utilizar las funciones
especiales de SPSS que no se encuentran disponibles en los
cuadros de dilogo. Tambin podemos guardar los comandos
en un archivo para utilizarlos en sesiones posteriores.
Editor de procesos
El procesamiento y la automatizacin OLE permiten
personalizar y automatizar muchas tareas en SPSS. Este
editor permite crear y modificar procesos bsicos.
1.5. Barra de mens
Desde esta barra podemos acceder a todas las funciones que
implementa el sistema. Cada ventana posee su propia barra
de mens pero varios de ellos son comunes a todas las
ventanas. Los mens ms importantes se describen a
continuacin:
Archivo F Permite abrir, cerrar, guardar e imprimir archivos.
Edicin F Para cortar, copiar y pegar elementos, adems de
acceder a las opciones generales.
Ver F Podemos hacer que se muestren u oculten diversos
elementos del sistema.
Datos F Permite realizar cambios en los datos como combinar
ficheros, transponer variables y casos, o crear grupos de
casos para analizar.
Transformar F Permite modificar los datos de las variables a
partir de los ya existentes, en s mismas o en otras nuevas.
Analizar F Encontramos en este men los procedimientos de
anlisis estadstico.
Grficos F Crea grficos de barras, histogramas, etc.,
normales o interactivos.
Utilidades F Varias utilidades: definir conjuntos, ejecutar
procesos, editar mens,etc.
Ventana F Gestin de ventanas abiertas y cambio de unas a
otras. ? F Acceso a la ayuda de SPSS, basada en temas.
57
1.6. Barras de herramientas
Adems de la barra de mens, la interfaz de SPSS incorpora
una o varias barras de herramientas segn la ventana en la
que nos encontremos. Estas barras contienen las funciones
ms usadas en el trabajo usual para facilitar el acceso a ellas.
Si detenemos el puntero del ratn unos segundos sobre una
de las herramientas (o botones) nos presentar un pequeo
cuadro con una breve descripcin de la utilidad del mismo:
Las barras, adems, son personalizables, pudiendo aadir o
eliminar los botones que queramos as como moverlos; incluso
permite cambiar de sitio la barra o borrarla completamente.
Regresin logstica
La regresin logstica resulta til para los casos en los que se
desea predecir la presencia o ausencia de una caracterstica o
resultado segn los valores de un conjunto de variables
predictoras. Es similar a un modelo de regresin lineal pero
est adaptado para modelos en los que la variable
dependiente es dicotmica. Los coeficientes de regresin
logstica pueden utilizarse para estimar la razn de las
ventajas (odds ratio) de cada variable independiente del
modelo. La regresin logstica se puede aplicar a un rango
ms amplio de situaciones de investigacin que el anlisis
discriminante.
Ejemplo. Qu caractersticas del estilo de vida son factores
de riesgo de enfermedad cardiovascular? Dada una muestra
de pacientes a los que se mide la situacin de fumador, dieta,
ejercicio, consumo de alcohol, y estado de enfermedad
cardiovascular, se puede construir un modelo utilizando las
cuatro variables de estilo de vida para predecir la presencia o
ausencia de enfermedad cardiovascular en una muestra de
pacientes. El modelo puede utilizarse posteriormente para
derivar estimaciones de la razn de las ventajas para cada
58
uno de los factores y as indicarle, por ejemplo, cunto ms
probable es que los fumadores desarrollen una enfermedad
cardiovascular frente a los no fumadores.
Estadsticos. Para cada anlisis: Casos totales, Casos
seleccionados, Casos vlidos. Para cada variable categrica:
codificacin de los parmetros. Para cada paso: variables
introducidas o eliminadas, historial de iteraciones, 2 log de la
verosimilitud, bondad de ajuste, estadstico de bondad de
ajuste de Hosmer-Lemeshow, chi-cuadrado del modelo , chi-
cuadrado de la mejora, tabla de clasificacin, correlaciones
entre las variables, grfico de las probabilidades
pronosticadas y los grupos bservados, chi-cuadrado residual.
Para cada variable de la ecuacin: coeficiente (B), error tpico
de B, Estadstico de Wald, razn de las ventajas estimada
(exp(B)), intervalo de confianza para exp(B), log de la
verosimilitud si el trmino se ha eliminado del modelo. Para
cada variable que no est en la ecuacin: estadstico de
puntuacin.
Para obtener un anlisis de regresin logstica

Elija en los mens:
Analizar
Regresin
Logstica binaria...
Figura 2-1
Cuadro de dilogo Regresin logstica
59
Seleccione una variable dependiente dicotmica. Esta variable
puede ser numrica o de cadena corta.
Seleccione una o varias covariables. Para incluir trminos de
interaccin, seleccione todas las variables contenidas en la
interaccin y seleccione >a*b>.
Para introducir variables por grupos (en bloques), seleccione
las covariables para un bloque y pulse en Siguiente para
especificar un nuevo bloque. Repita estos pasos hasta que
haya especificado todos los bloques.
Si lo desea, puede seleccionar casos para el anlisis. Elija una
variable de seleccin y
pulse Regla.
Figura 2-2
Cuadro de dilogo Regresin logstica: Establecer regla
60
Regresin logstica: Definir variables categricas
Figura 2-3
Cuadro de dilogo Regresin logstica: Definir variables
categricas
Regresin logstica multinomial

La opcin Regresin logstica multinomial resulta til en
aquellas situaciones en las que desee poder clasificar a los
sujetos segn los valores de un conjunto de variables
predictoras. Este tipo de regresin es similar a la regresin
logstica, pero ms general, ya que la variable dependiente no
est restringida a dos categoras.
Ejemplo. Para conseguir una produccin y distribucin de
pelculas ms eficaz, los estudios de cine necesitan predecir
qu tipo de pelculas es ms probable que vayan a ver los
aficionados. mediante una regresin logstica multinomial, el
estudio puede determinar la influencia que la edad, el sexo y
las relaciones de pareja de cada persona tiene sobre el tipo de
pelcula que prefieren. De esta manera, el estudio puede
61
orientar la campaa publicitaria de una pelcula concreta al
grupo de la poblacin que tenga ms probabilidades de ir a
verla.
Estadsticos. Historial de iteraciones, coeficientes de los
parmetros, covarianza asinttica y matrices de correlacin,
pruebas de la razn de verosimilitud para los efectos del
modelo y los parciales, 2 log de la verosimilitud. Chi-
cuadrado de la bondad de ajuste de Pearson y de la
desviacin. R2 de Cox y Snell, de Nagelkerke y de McFadden.
Clasificacin: frecuencias observadas respecto a las
frecuencias pronosticadas, por cada categora de respuesta.
Tablas de contingencia: frecuencias observadas y
pronosticadas (con los residuos) y proporciones por patrn en
las covariables y por categora de respuesta.
Obtencin de una regresin logstica multinomial

Elija en los mens:
Analizar
Regresin
Logstica multinomial ...
Figura 3-1 Cuadro de dilogo Regresin logstica
multinomial
Seleccione una variable dependiente.

Los factores son opcionales y pueden ser numricos o
categricos.
Las covariables son opcionales, pero si se especifican
deben ser numricas.
62
Figura 3-2
Cuadro de dilogo Regresin logstica multinomial:
Modelo
Figura 3-3
Cuadro de dilogo Regresin logstica multinomial: Categora
de referencia
Por defecto, el procedimiento Regresin logstica multinomial

hace de la ltima categora la categora de referencia. Este
cuadro de dilogo le otorga el control sobre la categora de
referencia y sobre la forma de ordenar las categoras.
63
Categora de referencia. Especifique la primera, la ltima o
una categora
personalizada.
Orden de categoras. En orden ascendente, el valor mnimo
define la primera
categora, y el valor ms alto la ltima. En orden descendente,
el valor mximo define la primera categora y el valor inferior
define la ltima.
Figura 3-4
Cuadro de dilogo Regresin logstica multinomial: Estadsticos
Puede especificar los siguientes estadsticos para una

regresin logstica multinomial:
Resumen de procesamiento de casos. Esta tabla contiene
informacin sobre las variables categricas especificadas.
Modelo. Estadsticos del modelo global.
! Estadsticos de resumen. Imprime el estadstico de Cox y
Snell, de Nagelkerke y el R2 McFadden . Regresin logstica
multinomial
64
! Resumen de pasos. Esta tabla resume los efectos
introducidos o eliminados en cada paso, mediante un mtodo
por pasos. No se genera si no se especifica un modelo por
pasos en el cuadro de dilogo Modelo.
! Informacin de ajuste de los modelos. Esta tabla compara
los modelos ajustado y de slo interseccin o nulo.
! Probabilidades de casilla. Imprime una tabla de las
frecuencias observadas y esperadas (con los residuos) y las
proporciones por patrn en las covariables y por categora de
respuesta.
! Tabla de clasificacin. Imprime una tabla de las respuestas
observadas respecto a las respuestas pronosticadas.
! Estadsticos de bondad de ajuste de chi-cuadrado.
Imprime los estadsticos de chi-cuadrado de Pearson y de chi-
cuadrado de la razn de verosimilitud. Los estadsticos se
calculan para los patrones en las covariables determinados
por todos los factores y las covariables o por un subconjunto
de los factores y las covariables definido por el usuario.
Parmetros. Estadsticos relativos a los parmetros del
modelo.
! Estimaciones. Imprime las estimaciones de los parmetros
del modelo con un nivel de confianza especificado por el
usuario.
! Contraste de la razn de verosimilitud. Imprime los
contrastes de la razn de verosimilitud para los efectos
parciales del modelo. El contraste para el modelo global se
imprime de manera automtica.
! Correlaciones asintticas. Imprime la matriz de las
correlaciones entre las estimaciones de los parmetros.
! Covarianzas asintticas. Imprime la matriz de las
covarianzas de las estimaciones de los parmetros.
Definir subpoblaciones. Le permite seleccionar un
subconjunto de factores y covariables de manera que pueda
65
definir los patrones en las covariables utilizados por las
probabilidades de casilla y las pruebas de bondad de ajuste.
Anlisis factorial
El anlisis factorial consta de cuatro fases caractersticas: el

clculo de una matriz capaz de expresar la variabilidad
conjunta de todas las variables, la extraccin del nmero
ptimo de factores, la rotacin de la solucin para facilitar su
interpretacin y la estimacin de las puntuaciones de los
sujetos en las nuevas dimensiones. Para ejecutar
correctamente un anlisis factorial ser necesario tomar
algunas decisiones en cada una de estas fases. La estructura
del procedimiento Anlisis factorial del SPSS se ajusta a las
cuatro fases mencionadas. Este captulo explica cules son
las especificaciones mnimas para obtener una solucin inicial
y cules son las opciones disponibles para personalizar la
ejecucin del procedimiento.
Para llevar a cabo un anlisis factorial: Seleccionar la opcin
Reduccin de datos > Anlisis factorial... del men
Analizar para acceder al cuadro de dilogo Anlisis factorial
que se muestra en la figura 20.1.
Figura 20.1. Cuadro de dilogo Anlisis factorial.
66
La lista de variables del archivo de datos contiene un listado
de todas las variables del archivo, incluidas las variables de
cadena (aunque stas slo pueden utilizarse como variables
de seleccin).
Para llevar a cabo un anlisis factorial: Seleccionar el
conjunto de variables que se desea analizar y trasladarlas a la
lista Variables.
Variable de seleccin. Este cuadro permite seleccionar una
de las variables del archivo de datos como variable de filtro:
para definir una sub-muestra de sujetos que cumplan una
determinada condicin. Esta opcin es especialmente til
cuando se ha reservado un porcentaje de los sujetos de la
muestra para llevar a cabo una validacin cruzada del modelo
final. Para utilizar una variable de seleccin:Trasladar la
variable al cuadro Variable de seleccin y pulsar en el botn
Valor...
para acceder al subcuadro de dilogo que muestra la figura
20.2.
Figura 20.2. Subcuadro de dilogo Anlisis factorial:
Establecer valor.
67
Ejemplo (Anlisis factorial)
Este ejemplo muestra cmo ejecutar el procedimiento Anlisis
factorial con las especificaciones que el programa tiene
establecidas por defecto. Vamos a comprobar si es posible
resumir, mediante un nmero reducido de dimensiones o
factores, la informacin disponible sobre las caractersticas
laborales de un conjunto de empleados de banca (archivo de
datos: Datos de empleados.sav). Para ello:
En el cuadro de dilogo Anlisis factorial (ver figura
20.1), seleccionar las variables
educ, catlab, salario, salini, tiempemp, expprev y edad y
trasladarlas a la lista Variables. (La variable edad se ha
creado a partir de la variable fechnac mediante la expresin
edad = CTIME.DAYS(DATE.DMY(31,12,1997) fechnac)/365,
obteniendo as la edad en aos a fecha 31/12/1997).
Aceptando estas selecciones, el Visor ofrece los resultados que
muestran las tablas 20.1 a la 20.3.
Tabla 20.1. Comunidades.
Mtodo de extraccin: Anlisis de Componentes

principales.
68
A partir de esta tabla podemos empezar a plantearnos si el
nmero de factores obtenidos (enseguida veremos cules son
esos factores) es suficiente para explicar todas y cada una de
las variables incluidas en el anlisis. Tambin podemos
empezar a plantearnos en este momento si, dando por bueno
el nmero de factores extrado, alguna de las variables
incluidas podra quedar fuera del anlisis.
La informacin de esta tabla puede utilizarse para tomar una
decisin sobre el nmero idneo de factores que deben
extraerse. Si quisiramos explicar, por ejemplo, un mnimo del
90% de la variabilidad contenida en los datos, sera necesario
extraer cuatro factores.
La matriz de varianzas-covarianzas analizada por defecto es la
matriz de correlaciones entre las 7 variables incluidas en el
anlisis. Puesto que esta matriz es de dimensiones 7x7, es
posible extraer hasta 7 factores independientes. Tal como
muestra la columna de porcentajes acumulados (%
acumulado), con los 7 factores que es posible extraer se
consigue explicar el 100% de la varianza total, pero con ello
no se consigue el objetivo de reducir el nmero de
dimensiones necesarias para explicar los datos.
Tabla 20.2. Porcentajes de varianza explicada.
En la tabla 20.3 se encuentra la solucin factorial propiamente

dicha. Contiene las correlaciones entre las variables originales
69
(o saturaciones) y cada uno de los factores. Conviene sealar
que esta matriz cambia de denominacin dependiendo del
mtodo de extraccin elegido. En este caso se denomina
matriz de componentes porque en nuestro ejemplo hemos
utilizado el mtodo de componentes principales como mtodo
de extraccin (es el mtodo que acta por defecto). Ms
adelante veremos que tambin recibe el nombre de matriz de
estructura factorial. Comparando las saturaciones relativas de
cada variable en cada uno de los tres factores podemos
apreciar que el primer factor est constituido por las variables
nivel educativo, categora laboral, salario actual y salario
inicial. Todas estas variables saturan en un nico factor
porque constituyen un grupo diferenciado de variables dentro
de la matriz de correlaciones. Este factor parece reflejar la
dimensin de "promocin" dentro de la empresa. El segundo
factor recoge el grupo de las variables experiencia previa y
edad, por lo que podra representar la "veterana laboral". Por
ltimo, el tercer factor est formado por una nica variable,
los meses desde el contrato, o lo que es lo mismo, la
antigedad en el puesto, que es independiente de la
promocin y de la veterana laboral (puesto que los factores
son independientes entre s y la variable no satura en los
otros dos factores).
Tabla 20.3. Matriz de componentes (matriz de la estructura
factorial).
La opcin Descriptivos ofrece algunos estadsticos

descriptivos, adems de la matriz de correlaciones y otras
70
matrices y estadsticos relacionados con ella. Para obtener
estos estadsticos: Pulsar en el botn Descriptivos... del
cuadro de dilogo Anlisis factorial (ver figura 20.1) para
acceder al subcuadro de dilogo Anlisis factorial: Descriptivos
que muestra la figura 20.3.
Figura 20.3. Subcuadro de dilogo Anlisis factorial:
Descriptivos.
Tabla 20.4. Estadsticos descriptivos.
La tabla 20.5 ofrece la matriz de correlaciones, es decir, los

coeficientes de correlacin de Pearson entre cada par de
variables. Si no se especifica lo contrario, sta es, segn
hemos sealado ya, la matriz de la cual parte el anlisis. Con
el mtodo de extraccin componentes principales (mtodo que
acta por defecto), la matriz de correlaciones se auto-
descompone en sus autovalores y autovectores para alcanzar
la solucin factorial. El resto de los mtodos de extraccin se
basan en una transformacin de la matriz de correlaciones.
Tabla 20.5. Matriz de correlaciones.
71
a. Determinante = 1.196E-02
La tabla 20.6 recoge la inversa de la matriz de correlaciones.

Esta matriz se encuentra estrechamenterelacionada con la
matriz anti-imagen que se muestra ms abajo (ver tabla 20.8).
Si el determinante de la matriz de correlaciones vale
exactamente cero, el programa emite una advertencia
indicando que no es posible calcular la matriz inversa, en
cuyo caso tampoco ser posible utilizar algunos de los
mtodos de extraccin (por ejemplo, ejes principales o mxima
verosimilitud).
Tabla 20.6. Inversa de la matriz de correlaciones.
ANLISIS DISCRIMINANTE
Introduccin
Con independencia del rea de conocimiento en la que se est
trabajando, es frecuente tener que enfrentarse con la
necesidad de identificar las caractersticas que permiten
diferenciar a dos o ms grupos de sujetos. Y, casi siempre,
72
para poder clasificar nuevos casos como pertenecientes a uno
u otro grupo: se beneficiar este paciente del tratamiento, o
no?devolver este cliente el crdito, o no?, se adaptar este
candidato al puesto de trabajo, o no?, etc.
A falta de otra informacin, cualquier profesional se limita a
utilizar su propia experiencia o la de otros, o su intuicin,
para anticipar el comportamiento de un sujeto: el paciente se
beneficiar del tratamiento, el cliente devolver el crdito o el
candidato se adaptar a su puesto de trabajo en la medida en
que se parezcan a los pacientes, clientes o candidatos que se
benefician del tratamiento, que devuelven el crdito o que se
adaptan a su puesto de trabajo. Pero a medida que los
problemas se hacen ms complejos y las consecuencias de
una mala decisin ms graves, las impresiones subjetivas
basadas en la propia intuicin o experiencia deben ser
sustituidas por argumentos ms consistentes. El anlisis
discriminante ayuda a identificar las caractersticas que
diferencian (discriminan) a dos o ms grupos y a crear una
funcin capaz de distinguir con la mayor precisin posible a
los miembros de uno u otro grupo. Obviamente, para llegar a
conocer en qu se diferencian los grupos necesitamos
disponer de la informacin (cuantificada en una serie de
variables) en la que suponemos que se diferencian.
El anlisis discriminante es una tcnica estadstica capaz de
decirnos qu variables permiten diferenciar a los grupos y
cuntas de estas variables son necesarias para alcanzar la
mejor clasificacin posible. La pertenencia a los grupos,
conocida de antemano, se utiliza como variable dependiente
(una variable categrica con tantos valores discretos como
grupos). Las variables en las que suponemos que se
diferencian los grupos se utilizan como variables
independientes o variables de clasificacin (tambin llamadas
variables
mos, deben ser variables cuantitativas continuas o, al menos,
admitir un tratamiento numrico con significado. El objetivo
73
ltimo del anlisis discriminante es encontrar la combinacin
lineal de las variables independientes que mejor permite
diferenciar (discriminar) a los grupos. Una vez encontrada esa
combinacin (la funcin discriminante) podr ser utilizada
para clasificar nuevos casos. Se trata de una tcnica de
anlisis multivariante que es capaz de aprovechar las
relaciones existentes entre una gran cantidad de variables
independientes para maximizar la capacidad de
discriminacin.
El anlisis discriminante es aplicable a muy diversas reas de
conocimiento. Se ha utilizado para distinguir grupos de
sujetos patolgicos y normales a partir de los resultados
obtenidos en pruebas diagnsticas, como los parmetros
hemodinmicos en el mbito clnico mdico o las pruebas
psicodiagnsticas en el mbito clnico psicolgico. En el
campo de los recursos humanos se aplica a la seleccin de
personal para realizar un filtrado de los curricula previo a la
entrevista personal. En banca se ha utilizado para atribuir
riesgos crediticios y en las compaas aseguradoras para
predecir la siniestralidad.
El anlisis discriminante es conceptualmente muy similar al
anlisis de varianza multivariante de un factor. Su propsito
es el mismo que el del anlisis de regresin logstica, pero a
diferencia de l, slo admite variables cuantitativas. Si alguna
de las variables independientes es categrica, es preferible
utilizar la regresin logstica.
Seleccionar la opcin Clasificar > Discriminante... del men

Analizar para acceder al cuadro de dilogo Anlisis
discriminante que muestra la figura 23.3.
Figura 23.3. Cuadro de dilogo Anlisis discriminante.
74
La lista de variables del archivo de datos contiene un listado
con todas las variables del archivo excepto las que tienen
formato de cadena. Para obtener un Anlisis discriminante
con las especificaciones que el programa tiene establecidas
por defecto:
Seleccionar una variable categrica (nominal u
ordinal) y trasladarla al cuadro Variable de
agrupacin. La variable de agrupacin es aquella que
define los grupos que se desea comparar.
Seleccionar al menos una variable cuantitativa (de
intervalo o razn) y trasladarla a la lista
Independientes. Las variables independientes son
aquellas en las que se desea comparar los grupos.
Pulsar el botn Definir rango... para acceder al
subcuadro de dilogo Definir rango que muestra la
figura 23.4.
Figura 23.4. Subcuadro de dilogo Anlisis discriminante:
Definir rango.
75
Tras seleccionar la variable de agrupacin es necesario
introducir los cdigos que identifican a los grupos que se
desea comparar. El anlisis incluir tantos grupos como
nmeros enteros consecutivos contenga la variable de
agrupacin entre los lmites del rango definido (ambos lmites
incluidos). Para ello:
|Introducir el nmero correspondiente al lmite
inferior del rango en el cuadro de texto Mnimo y el
nmero correspondiente al lmite superior del rango en
el cuadro de texto Mximo. Pulsar el botn Continuar
para volver al cuadro de dilogo principal.
Ejemplo (Anlisis discriminante)

Este ejemplo muestra cmo llevar a cabo un anlisis
discriminante con las especificaciones que el programa tiene
establecidas por defecto. Vamos a averiguar en qu se
diferencian los vehculos producidos en EE.UU. y los
producidos en Europa. Para ello, utilizaremos el archivo
Coches. sav, que se encuentra en la misma carpeta en la que
ha sido instalado el SPSS. El archivo contiene informacin
tcnica (consumo, aceleracin, peso, cilindrada, etc.) sobre
una muestra de 406 vehculos.
Antes de iniciar el anlisis hemos obtenido una
representacin de la dispersin de los vehculos
estadounidenses y europeos en las variables aceleracin y
peso (figura 23.5). El archivo de datos contiene una variable
llamada origen con tres valores: 1 = E.UU, 2 = Europa y 3 =
Japn. Para trabajar nicamente con los vehculos de
fabricacin estadounidense y europea, hay que filtrar el
archivo de datos antes de obtener el diagrama de dispersin.
Para ello:
76
Seleccionar la opcin Seleccionar casos... del men
Datos ara acceder al cuadro de dilogo Seleccionar
casos.
Marcar la opcin Si se satisface la condicin y pulsar
el botn Si... para acceder al cuadro de dilogo
Seleccionar casos: Si.
Establecer la condicin de filtrado (por ejemplo, origen
< 3") y pulsar el botn Continuar.
Aceptando estas selecciones, el archivo de datos queda filtrado
dejando disponibles 306 vehculos
de los 406 originales.
Para llevar a cabo el anlisis discriminante con las

especificaciones que el programa tiene establecidas por
defecto:
En el cuadro de dilogo Anlisis discriminante (ver
figura 23.3), trasladar la variable origen al cuadro
Variable de agrupacin las variables acel (aceleracin)
y peso a la lista Independientes.
Pulsar en Definir rango... para acceder al subcuadro
de dilogo Anlisis discriminante: Definir rango (ver
figura 23.4) e introducir los valores 1 y 2 en los
cuadros de texto Mnimo y Mximo, respectivamente.
Pulsar el botn Continuar.
Aceptando las selecciones hechas, el Visor ofrece los
resultados que muestran las tablas 23.1 a la 23.7. La tabla
23.1 ofrece un resumen con el total de casos procesados, el
nmero de casos vlidos para el anlisis y el nmero de casos
excluidos. Dentro de los casos excluidos se distingue entre los
que son excluidos porque su cdigo en la variable de
agrupacin no est dentro del rango seleccionado (en ele
ejemplo, 80 vehculos japoneses con el cdigo 3 en la variable
origen), los que son excluidos porque tienen un valor perdido
77
en al menos una variable discriminante, y los que cumplen
las dos condiciones anteriores.
Tabla 23.1. Tabla resumen de los casos procesados.
La tabla 23.2 ofrece un resumen del nmero de casos vlidos

en cada variable discriminante. La informacin de esta tabla
posee un inters especial, pues un nmero desigual de casos
en cada uno de los grupos puede afectar a la clasificacin. En
nuestro ejemplo, los vehculos europeos representan menos
del 25% del total de vehculos analizados.
Tabla 23.2. Estadsticos por grupo (n de casos vlidos en
cada variable).
La tabla 23.3 contiene los autovalores y algunos estadsticos

descriptivos multivariantes. Esta tabla y la siguiente se
encuentran estrechamente relacionadas y cobran mayor
significado en el caso de ms de dos grupos. Como veremos
ms adelante, cuando se trabaja con ms de dos grupos se
obtiene ms de una funcin discriminante: en estas tablas es
posible comparar de manera global la capacidad
discriminativa de cada funcin. En la tabla aparece una fila
numerada por cada funcin discriminante; como en nuestro
78
ejemplo slo hay una funcin, slo se muestra una fila. Esta
nica funcin explica el 100% de las diferencias existentes
entre los sujetos de los grupos.
El autovalor es el cociente entre la variacin debida a las
diferencias entre los grupos (medida mediante la suma de
cuadrados inter-grupos) y la variacin que se da dentro de
cada grupo combinada en una nica cantidad (medida
mediante la suma de cuadrados intra-grupos).
Este estadstico se diferencia de la F del anlisis de varianza
multivariante en que no intervienen los grados de libertad. Su
inters principal radica en que permite comparar cmo se
distribuye la dispersin inter-grupos cuando existe ms de una
funcin. Aunque un autovalor tiene un mnimo de cero, no
tiene un mximo, lo cual lo hace difcilmente interpretable por
s slo.
Por esta razn se acostumbra a utilizar el estadstico lambda
de Wilks, que se encuentra estrechamente relacionado con los
autovalores. La correlacin cannica es la correlacin entre la
combinacin lineal de las variables independientes (la funcin
discriminante) y una combinacin lineal de variables
indicador (unos y ceros) que recogen la pertenencia de los
sujetos a los grupos. En el caso de dos grupos, la correlacin
cannica es la correlacin simple entre las puntuaciones
discriminantes y una variable con cdigos 1 y 0 segn cada
caso pertenezca a un grupo o a otro. Una correlacin cannica
alta indica que las variables discriminantes permiten
diferenciar entre los grupos. Con ms de dos grupos, la
correlacin cannica es equivalente al estadstico eta utilizado
en el anlisis de varianza de un factor (eta = raz cuadrada del
cociente entre la suma de cuadrados inter-grupos y la suma de
cuadrados total).
El autovalor obtenido en nuestro ejemplo est bastante
prximo a 0 y la correlacin cannica es moderada, por lo que
debemos suponer que las variables discriminantes utilizadas
79
(peso y aceleracin) no permiten distinguir demasiado bien
entre los dos grupos.
Tabla 23.3. Autovalores.
Se han empleado las 1 primeras funciones discriminantes

cannicas en el anlisis.
Estadsticos
El subcuadro de dilogo Estadsticos permite obtener

informacin adicional sobre algunos aspectos del
anlisis. Parte de esta informacin es descriptiva, pero
tambin contiene estadsticos que permiten
comprobar algunos de los supuestos en los que se
fundamenta la tcnica. Para obtener esta informacin:
Pulsar en el botn Estadsticos... (ver figura

23.3) para acceder al subcuadro de dilogo
Anlisis discriminate: Estadsticos que se muestra en
la figura 23.6.
Figura 23.6. Subcuadro de dilogo Anlisis

discriminante: Estadsticos.
80
REFERENCIAS BIBLIOGRAFICAS
HERRERA, J.; BARRERAS, A. 2001. Manual de

procedimientos: Anlisis estadstico de experimentos
pecuarios. Instituto de Recursos Genticos y
Productividad, Especialidad de Ganadera. Mxico:
Colegio de Postgraduados.
2. PIMENTEL GOMES, F. 2000. Curso de Estatstica
Experimental. Universidade de So Paulo,Escola
Superior de Agricultura Luiz de Queiroz. 14. Ed.
Piracicaba, SP.
3. OSTLE, B. 1992 Estadstica Aplicada. Mxico, D.F.:
Limusa.
INDICE
Pag.
SAS WINDOWS 1
INICIO DE SECION 3
FUNCION DEL SAS 4
DISEOS EXPERIMENTALES
81
DCA 6
DBCA 11
DCL 14
DCL CON ARREGLO FATORIAL 18
ANALISIS DE COVARIANZA 22
PARCELAS DIVIDIDAS 27
DISEO JERARQUICO O ANIDADO 36
REGRESION LINEAL SIMPLE 45
REFERENCIAS BIBLIOGRAFICAS 49
82

Manual Sas y Spss

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Manual Sas y Spss

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSIDAD NACIONAL

- Ventana izquierda "Explorer": contiene accesos directos a

SAS/ACCESS Interfase a otros formatos de ficheros

Cuando se trabaja con las variables de la base de datos, es

ABS(EXPRESIN) Valor Absoluto

Es el ms simple de todos. Es un diseo en la cual los

Se realizo un experimento para evaluar el efecto de la adicin

A 11,1 10,9 10,8 10,2 11.4 10.7

DISEO COMPLETAMENTE AL AZAR

Diseo Completamente Al Azar

DISEO EN BLOQUES COMPLETAMENTE AL AZAR

Al diseo que controla una fuente de variacin

Tres diferentes soluciones estn siendo estudiadas para

MODELO ADITIVO LINEAL

INGRESO DE DATOS EN EL SAS V8

Diseo De Bloques Completamente Al Azar

OBS TRAT BLOQUE Y

Source DF Anova SS Mean Square F Value

Trat 2 703.500000 351.750000 40.72

DISEO CUADRADO LATINO

MODELO ADITIVO LINEAL

Y(i)jk=+t(i)+ j+k+(i)jk i,j,k = 1,....t

1.-NA: Nitrato amonico NH4NO3 2.-SA:Sulfato amonico

Todos los abonos se aplicaron a razn de 100g por hectrea.

MODELO ADITIVO LINEAL

Y(i)jk=+t(i)+ j+k+(i)jk i,j,k = 1,....t

OBS COL BLOCK TRAT VR

DISEO CUADRADO LATINO

Diseo cuadrado latino

The anova procedure

R-Square Coeff Var Root MSE VR Mean

COL 3 40893.18750 13631.06250 3.65

DISEO CUADRADO LATINO

1,0 B 1,6 C 2,2 D 3,5 A

MODELO ADITIVO LINEAL

k = efecto de la k-ensima columna.

INGRESO DE DATOS EN EL SAS V8

El programa SAS nos da los resultados

CUADRADO LATINO REDUCIDO

Obs COLUMNA BLOQUE TRAT Y

CUADRADO LATINO REDUCIDO

CUADRADO LATINO REDUCIDO

Source DF Type I SS Mean

The GLM Procedure

A 1.15000000 0.02041241 <.0001

Least Squares Means for effect TRAT

1 <.0001 <.0001 <.0001

NOTE: To ensure overall protection level, only

Se evalu el efecto del tiempo de cosecha sobre el

MODELO ADITIVO LINEAL:

INGRESO DE DATOS EN SAS

options nodate nonumber;

The SAS System

The SAS System

Corrected Total 11 11.45280000

0.570156 20.58652 0.905807 4.400000

Source DF Type I SS Mean Square F Value Pr > F

The SAS System

R-Square Coeff Var Root MSE Y Mean

Source DF Type III SS Mean Square F Value Pr > F

The SAS System

The SAS System

TRT Y LSMEAN Error Pr > |t| Number

Least Squares Means for effect TRT

rep(annolugar) Var(Error) + 6 Var(rep(annolugar))

lugarclon(anno) Var(Error) + Q(lugarclon(anno))