Sunteți pe pagina 1din 52

SAS

INTERMEDIO
Giampaolo Orlandoni M. Josefa Ramoni P.
Instituto de Estadstica Aplicada Universidad de Los Andes Mrida. Venezuela

Caracas 2012

ANLISIS ESTADSTICO MULTIVARIANTE DE DATOS 1. 2. 3. Anlisis de Regresin Lineal y Regresin Logstica Anlisis Componentes Principales y Factorial Anlisis de Datos Categricos: Anlisis Correspondencias ANALISIS DE SERIES TEMPORALES 1. 2. Proc ARIMA Proc Autoreg

SAS
SAS/FSP SAS/CONNECT SAS/CALC SAS/INSIGHT SAS/EIS SAS/QC SAS/STAT SAS/IML SAS/OR SAS/GRAPH SAS/AF SAS/ASSIST SAS/ACCESS SAS/TOOLKIT SAS/SHARE SAS/PH-CLINICAL SAS/ETS / SAS/LAB

Base SAS

Otros productos SAS

ANALISIS ESTADISTICOMULTIVARIANTE
1. PEA, DANIEL(2002). ANALISIS DE DATOS MULTIVARIANTES. MCGRAW HILL. 2. JOHNSON, R; WICHERN, D.(1998). APPLIED MULTIVARIATE STATISTICAL ANALYSIS. 4thEd. PRENTICE HALL. 3. HAIR, J.; R. ANDERSON; R. TATHAM; W. BLACK(1998). MULTIVARIATE DATA ANALYSIS. ANALYSIS PRENTICE HALL HALL. (Version Espaol, 2000: Anlisis Multivariante) 4. LEBART,L.,A.MORINEAU, K.WARWICK(1984). MULTIVARIATE DESCRIPTIVE STATISTICAL ANALYSIS, JOHN WILEY. 5. RENCHER, A.(2002). METHODS OF MULTIVARIATE ANALYSIS. 2ND ED. John Wiley.

ANLISIS MULTIVARIANTE 1. TCNICAS DE REDUCCIN DE LA DIMENSIONALIDAD: A.-PARA VARIABLES: 1. COMPONENTES PRINCIPALES 2. ANALISIS FACTORIAL B.-PARA CATEGORIAS: 1. ANALISIS DE CORRESPONDENCIAS SIMPLES 2 ANALISIS DE CORRESPONDENCIAS MULTIPLE 2. 2. TCNICAS DE DEPENDENCIA: PARA VARIABLES: REGRESIN MLTIPLE ANALISIS DISCRIMINANTE. PARA CATEGORIAS: TABLAS DE CONTINGENCIA MULTIPLE. 3. TCNICAS DE CLASIFICACIN: Anlisis DISCRIMINANTE

CLASIFICACION DE METODOS DE ANLISIS MULTIVARIANTE


1-INTERDEPENDENCIA 1 INTERDEPENDENCIA ANALISIS CONGLOMERADOS (CLUSTER) ANALISIS COMPONENTES PRINCIPALES ANLISIS FACTORIAL ANALISIS CORRESPONDENCIAS SIMPLES Y MULTIPLES

2-DEPENDENCIA TABLAS DE CONTINGENCIA DISCRIMINANTE REGRESIN CORRELACION CANONICA

ANLISIS MULTIVARIANTE de DATOS 1.INTRODUCCIN AL ANLISIS MULTIVARIANTE 2 COMPONENTES PRINCIPALES: 2.COMPONENTES


PROC PRINCOMP

3.ANLISIS DE CORRESPONDENCIA:
PROC CORRESP

4.ANLISIS DE CONGLOMERADOS:
PROC ACECLUS, CLUSTER, FASTCLUS, VARCLUS Y TREE

5. ANLISIS DISCRIMINANTE:
PROC DISCRIM

MATRIZ DE DATOS

Xnp =

X 11 X 21 . . X n1

X 12 X 22 . . X n2

X 13 X 23 . . X n3

X1p X 24 .... X 2 p . . . . X n 4 .... X np X 14 ....

MATRIZ DE DATOS MATRIZ DE COVARIANZAS MATRIZ DE CORRELACION


X1
X11 X12

X2

...

X1p

Xp

Xnp =
X 1 Xn1 X 2 Xn2 X Xnp

n>p p

Sp
Matriz M t i Covarianzas

Rp Matriz Correlacin
9

Anlisis de Componentes Principales (ACP) Tcnica estadstica multivariante de sntesis de la informacin y reduccin de la dimensionalidad (nmero de variables) de un conjunto de datos con numerosas variables Objetivo: reducir las p variables a un nmero menor q, q manteniendo la mayor cantidad de informacin posible. Los componentes principales o factores son una combinacin lineal de las variables ariables originales y estn incorrelados entre s.

10

Anlisis de Componentes Principales (ACP) El ACP permite de el l de reducir los en conjunto j t q (q<p) se n d de la p

dimensionalidad t transformando f d variables conjunto

datos, otro

originales

variables llamadas sobre sob e

incorrelacionadas Las as cada p variables a ab es de los

componentes principales. miden de uno individuos,

generando una matriz de datos de orden n*p (p<n).


11

Clculo de los CP: opcin de usar la matriz de correlaciones o la matriz de covarianzas. Opcin p matriz de Correlaciones: se est dando la misma importancia a todas las variables(todas las variables son igualmente relevantes) Opcin matriz de Covarianzas: cuando g las mismas todas las variables tengan unidades de medida y cuando sea conveniente destacar cada una de las variables en funcin de su grado de variabilidad.

12

Resultado del anlisis de CP:


Las q nuevas variables (componentes principales) se obtienen como combinaciones lineales de las variables ariables originales. originales

Y1 a11 X 1 a12 X 2 a13 X 3 ... a1 p X p


Y2 a21 X 1 a22 X 2 a23 X 3 ... a2 p X p
Yq a q1 X 1 a q 2 X 2 a q 3 X 3 ... a qp X p

13

Resultado del anlisis de CP:


Los componentes se ordenan en funcin del porcentaje de varianza explicada. As As, el primer componente es el ms importante por ser el que explica mayor porcentaje de la varianza de los d t datos. El anlisis se realiza en el espacio de las variables y, en forma dual, en el espacio de los individuos. Se acostumbra a representar grficamente los puntosvariables y los puntos-individuos puntos individuos tomando como ejes de coordenadas los componentes.

14

APLICACIONES DEL ACP


1. Anlisis exploratorio de datos: permite descubrir interrelaciones entre los datos y de acuerdo con los resultados, proponer los anlisis estadsticos ms apropiados. 2. Reducir la dimensionalidad de la matriz de datos con el fin de evitar redundancias y destacar relaciones. En la mayora de los casos, tomando slo los primeros componentes, se puede explicar la mayor parte de la variacin total contenida en los datos originales.

15

APLICACIONES DEL ACP


3. Construir variables no observables (componentes) a partir de variables observables. Ejemplo, construir Indicadores sintticos 4. Usar los componentes como variables de entrada d para otros anlisis. li i Por ejemplo, en el caso de la regresin mltiple cuando las variables independientes presentan alta colinealidad es preferible hacer la regresin sobre los componentes principales en lugar de usar las variables originales.

16

Anlisis de Componentes Principales (ACP) SAS

P Proc PRINCOMP data=Sasuser.Protein d t S P t i out=WORK.SCORE std outstat=WORK.STATS; var REDMT WHITEMT EGGS MILK FISH CEREAL STARCH NUTS FRUVEG; run; PROC GPLOT DATA=score; DATA PLOT PRIN1*PRIN2; RUN;

Anlisis de Componentes Principales (ACP)

Correlation Matrix

RedMt WhiteM Eggs t


RedMt Red Meat

Milk

Fish

Cereal Starch

Nuts

FruVeg -.0742 -.0613 -.0455 -.2610 0.2661

1.0000 0.1530 0.5856 0.4846 0.0610 -.4999 -.4138

0.1354 -.3494 0.3138 -.6350 0.4522 -.5598 0.2554 -.5058 0.4039 -.1472

WhiteMt White Meat 0.1530 1.0000 0.6204 0.2755 -.2340

Eggs Milk Fish Cereal Starch Nuts

Eggs Milk Fish Cereal Starch Nuts

0.5856 0.6204 1.0000 0.5000 0.0656 -.7124 0.4846 0.2755 0.5000 1.0000 0.0262 -.4421 0.0610 -.2340 -.4999 -.4138 0.0656 0.0262 1.0000 -.5242 -.7124 -.4421 -.5242

1.0000 -.5333

0.6510 0.0465 0.0844

0.1354 0.3138 0.4522 0.2554 0.4039 -.5333 -.3494 3494 -.6350 6350 -.0613 -.5598 5598 -.0455 -.5058 5058 -.2610 -.1472 1472

1.0000 -.4743

0 6510 -.4743 0.6510 4743

1 0000 0.3750 1.0000 0 3750

FruVeg Fruits and -.0742 Vegetables

0.2661 0.0465 0.0844 0.3750 1.0000

COMPONENTES RedMt WhiteMt Eggs Milk Fish Cereal Starch Nuts FruVeg Red Meat

Pi 1 Prin1

Pi 2 Prin2

Pi 3 Prin3

Pi 4 Prin4

Pi 5 Prin5

Pi 6 Prin6

Pi 7 Prin7

Pi 8 Prin8

Pi 9 Prin9

0.309748 -.065972 -.515118 0.463822 -.201170 0.332079 -.449486 -.044367 0.253920

White Meat 0.324237 -.260235 0.606207 0.141962 -.117969 -.245393 -.070860 -.108072 0.590485 Eggs Milk Fish Cereal Starch Nuts 0.435600 -.049211 0.078644 0.326051 -.101460 0.183421 0.570153 0.536011 -.197525 0.337594 -.191821 -.367087 0.013510 0.715068 -.430399 0.102380 -.046233 0.071519 0.130009 0.667080 -.212505 -.283382 -.175199 -.275070 0.024421 0.351425 0.426830 -.438556 -.240522 0.080827 0.049592 0.326888 0.143574 -.270571 0.688046 0.258341 0.314340 0.334045 0.281898 -.241259 0.471464 0.633700 -.097502 -.118458 0.067373 -.422473 0.140097 -.126266 0.337759 0.139700 0.197971 0.557204 -.293179 0.465539

Fruits and -.093176 0.504628 0.281296 0.634959 0.211314 -.271246 -.252184 -.003641 -.269316 Vegetables

Anlisis de Componentes Principales (ACP)

ANALISISCLUSTER
datamileages(type=distance); input(atlanta chicago denver houston losangeles miami newyork sanfran seattle washdc)(5.) @55city $15.; d t li datalines; 0 ATLANTA 5870 CHICAGO 12129200 DENVER 7019408790 HOUSTON 1936174583113740 LOSANGELES 6041188172696823390 MIAMI 74871316311420245110920 NEWYORK 213918589491645347259425710 SANFRANC 2182173710211891959273424086780 SEATTLE 543597149412202300923205244223290 WASHD.C. ; /* Average linkage */ title2'Using method=average'; procclusterdata=mileagesouttree=treemethod=averagepseudo; idcity;run;

24

ANALISISDECORRESPONDENCIAS 1SIMPLES 2MULTIPLES

25

ANLISIS DE CORRESPONDENCIAS
B 1 A 1 A 2 A 3 n11 n21 n31 B2 n12 n22 n32 B3 n13 n23 n33 Bs n1s n2s n3s N1. N2. N3.

A r Total

nr1 N.1

nr2 N.2

nr3 N.3

nrs N.s

Nr . N

B 1 A 1 A 2 A 3 f11 f21 f31

B 2 f12 f22 f32

B 3 f13 f23 f33

B s f1s f2s f3s

T otal f1. f2. f3.

A r T otal

fr1 f .1

fr2 f .2

fr3 f .3

frs f.s

fr. 1

Poblacin: n individuos
VARIABLE V1:GrupoEdad V2:Sexo V3 Estudios V3:Estudios V4:CSE V5:Vivienda Modalidad 1,2,3 1,2 1234 1,2,3,4 1,2,3 1,2 Categoras g Joven; Adulto;Anciano M;F Prim Sec; Prim; Sec Univ; Univ Otra Bajo;Media;Alta Propietario;NoPropiet.

R: Tabla Mltiple: Matriz de datos asociada a las respuestas de


cada modalidad de las preguntas (variables)
V1 V2 V3 V4 V5

1 1 1 1

2 2 4 1

2 3 3 1

1 1 1 1
28

Rn.k =

1 3 1

TABLA DISYUNTIVA COMPLETA: Z Z: El archivo de datos (respuestas codificadas en forma binaria) se


dispone en una matriz Z, formada por la yuxtaposicin de Q submatrices, , en forma Disyuntiva y Completa: p Z = [Z1,Z2,Z3,Z4,Z5]
E1
0 1 0 1

E2
1 0 0 0

E3
0 0 1 0

M
1 1 1 1

F
0 0 0 0

P
0 0 0 1

S
1 0 0 0

U
0 1 0 0

O
0 0 1 0

B
0 0 0 1

M A
1 0 0 0 0 1 1 0

Pr
1 0 1 1

NP
0 1 . 0 0

TOTAL
5 5 .. 5 5

29

ACM CON SAS ods graphics on;

*ANALISIS CORRESPONDENCIAS SIMPLES


Proc Corresp all data=carro outc=coor1; Tables marital, origen;

*ANALISIS CORRESPONDENCIAS MULTIPLES


Proc Corresp MCA observed data data=carro carro outc outc=coor2; coor2; Tables origen tama tipo casa ingreso marital sexo; ods graphics off; %plotit(data=coor1, color=black, datatype=corresp) p ot t(data coo , co color=black, o b ac , datatype=mca) datatype ca) %plotit(data=coor2,
30

ACM CON SAS proc CORRESP data=SASUSER.Prot all dimens=3 outc=Salida; Tables eval1 eval2 eval3 eval4; run; %plotit(data=Prot, plotvars=Dim1 Dim2)
PROC CORRESP (OPCIONES); TABLES ROW-VARIABLES, COLUMM VARIABLES; VAR (VARIABLES); ( ); BY; ID; SUPLEMENTARY (VARIABLES); WEIGHT (VARIABLES);

ANALISIS CORRESPONDENCIAS SIMPLES

ANALISIS CORREPONDENCIAS MULTIPLES TABLA DE BURT


AMR EUR JPN GRN MED PEQ DPR FML 128 0 0 37 61 30 25 83 0 44 0 4 20 20 23 17 0 0 165 2 61 102 59 76 37 4 2 43 0 0 1 31 61 20 61 0 142 0 39 90 30 20 102 0 0 152 67 55 25 23 59 1 39 67 107 0 83 17 76 31 90 55 0 176 20 4 30 11 13 30 0 0 58 18 74 20 57 73 55 69 70 26 91 23 85 79 52 107 35 6 54 8 36 51 36 46 93 38 111 35 106 101 71 130 52 15 44 22 52 37 12 81 37 13 51 9 42 50 35 50 6 1 8 1 8 6 2 10 33 15 62 11 40 59 58 35 768 264 990 258 852 912 642 1056

B = ZZ
TRB In1In2 ALQ PRP C_H Csd S_H Slt 20 58 70 35 93 52 37 6 33 4 18 26 6 38 15 13 1 15 30 74 91 54 111 44 51 8 62 11 20 23 8 35 22 9 1 11 13 57 85 36 106 52 42 8 40 30 73 79 51 101 37 50 6 59 0 55 52 36 71 12 35 2 58 0 69 107 46 130 81 50 10 35 54 26 28 13 41 18 16 3 17 26 150 0 70 80 27 10 14 99 28 0 187 25 162 84 91 1 11 13 70 25 95 0 5 25 7 58 41 80 162 0 242 106 76 8 52 18 27 84 5 106 111 0 0 0 16 10 91 25 76 0 101 0 0 3 14 1 7 8 0 0 15 0 17 99 11 58 52 0 0 0 110 324 9001122 570 1452 666 606 90 660 Sum 768 264 990 258 852 912 642 1056 324 900 1122 570 1452 666 606 90 660 12132

AMR EUR JPN GRN MED PEQ Q DPR FML TRB In1 In2 ALQ PRP C_H Csd S_H Slt Sum

33

34

ANALISIS CORREPONDENCIAS MULTIPLES MARKET RESEARCH ANALYSIS

METODOS DE MUESTREO SAS PROC SURVEY

SURVEY
1. SURVEYFREQ: Tablas de frecuencias y tablas cruzadas de datos muestrales muestrales. Estimaciones: Total poblacional Proporcin Pob lacional 2. SURVEYMEANS 3. SURVEYREG R Regresin i con d datos t muestrales t l 4. SURVEYSELECT: sas5\7_2-ProcSurveySelect.sas sas5\7_1-ProcSurveyMeans.sas

PROC SURVEYSELECT
1-Equal probability sampling methods: (Mtodos de Muestreo Equiprobables)
1. Simple random sampling 2. Unrestricted random sampling (with replacement) 3 Systematic random sampling: SYS 3. 4. Sequential random sampling

2-Probability proportional to size (PPS) methods:


(Mtodos de Muestreo probabilsticos Proporcional al Tamao) 1 PPS sampling without replacement 1. 2. PPS sampling with replacement 3. PPS systematic sampling: PPS_SYS 4. PPS algorithms for selecting two units per stratum 5. PPS sequential sampling with minimum replacement

PROC SURVEYSELECT
El muestreo sistemtico consiste en la eleccin de una muestra a partir d los de l elementos l t de d una lista li t segn un orden d determinado, d t i d o recorriendo i d la lista a partir de un nmero aleatorio determinado. Crear una muestra sistemtica del data set sashelp.class y que contenga el 50% de la informacin. informacin El cdigo sera:

PROC SURVEYSELECT data=sashelp.class out=_sys_ method=sys method sys samprate samprate=0.5 0.5 OUTSORT=class OUTSORT class_sorted; sorted; control age;
Method=sys indica que la seleccin ser sistemtica Samprate=0.5 indica que el tamao de la muestra es del 50% Outsort= nombre del data set ordenado por la variable utilizada en la sentencia CONTROL CO O Control= Esta opcin especfica la variable que deseamos utilizar para crear la muestra. El data set es ordenado por esta variable para posteriormente hacer la seleccin sistemtica.

Sin la opcin control, la muestra ser seleccionada en el orden en el que aparecen en originalmente los datos.

PROC SURVEYMEANS
Variable Gasto Grupo G Alto G_Alto G_Bajo Nivel N 40 17 23 Media 9.141298 0 455445 0.455445 0.544555 Error Est Media 0.531799 0 058424 0.058424 0.058424 95% CLMedia 8.06377052 10.2188254 0 33706769 0.5738232 0.33706769 0 5738232 0.42617678 0.6629323

Informacin del estrado ndice estrado 1 Grado Total Tasa Nmero Variable Nivel Poblacin Muestreo obs 7 1824 1.10% 20 Gasto Grupo 2 8 1025 0.88% 9 Gasto Grupo 3 9 1151 0.96% 11 Gasto Grupo N 20 G_Alto 3 G_Bajo 17 9 G_Alto 9 G_Bajo 0 11 G_Alto 5 G_Bajo 6

MUESTRAS ALEATORIAS
1- Muestra Aleatoria Simple SIN Reposicin 2- Muestra Aleatoria Simple CON Reposicin \7_3-MuestrAleatoria.sas MUESTRAS ALEATORIAS ESTRATIFICADAS \7_3-MuestrAleatoria.sas 7 3-MuestrAleatoria sas NMEROS ALEATORIOS
7_4-NumerosAleatorios.sas

ANALISISDE DATOSTEMPORALES

ANLISIS DE DATOS TEMPORALES SERIES DE TIEMPO


1. DATOS CON FECHAS 2. DATOS LONGITUDINALES 3. SERIES TEMPORALES 1. ANLISIS UNIVARIANTE DE SERIES TEMPORALES 2. MODELOS DE ALISAMIENTO 3. PROC FORECAST 4. MODELOS ARIMA(p,d,q) y ARIMA(p,d,q)(P,D,Q) 5. PROC ARIMA 6. PROC AUTOREG 4. ANALISIS DE ST CON ASSIST

ANLISIS DE DATOS LONGITUDINALES


Datos Longitudinales: Mediciones repetidas p en el tiempo p sobre el mismo individuo Las mediciones estn correlacionadas sobre el mismo individuo Estructura de los datos: 1 U 1-Una observacin b i o caso por sujeto. j t L Las medidas repetidas se mantienen en variables separadas 2-Observaciones separadas para cada medicin, con variables indicando a qu sujeto y ocasin pertenece. pertenece

ANLISIS DE DATOS LONGITUDINALES


data longitudinal; infile 'c:\DataSas\dat\Estable.dat'; input grupo x1-x8; run; data Establ(keep=idno grupo x1-x8) x1 x8) EstbMes(keep=idno grupo mes dep); set longitudinal; idno= n ; idno=_n_;

ANLISIS DE DATOS LONGITUDINALES


array xarr {8} x1-x8; do i=1 to 8; if xarr{i}=-9 then xarr{i}=.; mes=i; dep=xarr{i}; output EstbMes; end; output Establ; run; p proc print data= Establ; run; p proc print data= EstbMes; run;

ANLISIS GRAFICO DE DATOS LONGITUDINALES *1-PERFIL DE CADA ESTABLECIMIENTO; Proc gplot data=EstbMes; Plot dep*mes=idno/skipmiss; run;

symbol1 i=join i join v v=none none l l=1 1 r r=27; 27; symbol2 i i=join join v v=none none l l=2 2 r r=34; 34;

*2-GRAFICOS BOX POR GRUPO; proc sort data=EstbMes; by Grupo Mes; Proc BoxPlot data=EstbMes; ; Plot dep*mes; by grupo; run; *3-GRAFICO PROMEDIO POR GRUPO; ; goptions reset=symbol; symbol1 i=stdm1j l=1; symbol2 i=stdm1j l=2; Proc gplot data=EstbMes; Plot dep*mes=grupo; run; *GRAFICO DE MATRIZ CORRELACION; ods graphics on; Proc Corr data=Establ plots=matrix(histogram); var x1-x8; run; ods graphics off;

ANLISIS ESTADISTICO DE DATOS LONGITUDINALES

Comparar la media de grupos 1.-Calcular la media sobre las observaciones disponibles para cada sujeto sin considerar los datos faltantes. 2.Incluir slo los sujetos con todas las observaciones. 3.Imputar 3 Imputar los valores faltantes (missing) de alguna manera. Una de ellas es el procedimiento LOCF(last observation carried forward). Los valores de los primeros dos meses se consideran calculando el cambio en los scores (cscore): media_6_ltimos_meses di 6 lti menos media_2_primeros_meses di 2 i anlisis de covarianza de medias

ANLISIS DE DATOS LONGITUDINALES *Implementacin del clculo de las medias data Establ; set Establ; array xarr {8} x1-x8; array locf {8} locf1-locf8; do i=3 to 8; locf{i}=xarr{i}; if xarr{i}=. xarr{i}= then locf{i}=locf{i-1}; end; mnbase=mean(x1,x2); mnresp=mean(of ( f x3-x8); ) mncomp=(x3+x4+x5+x6+x7+x8)/6; mnlocf=mean(of locf3-locf8); Cscore = mnbase-mnresp; run; proc print data data=Establ; Establ; run;

ArrayLongitudinal.sas

ANLISIS DE DATOS LONGITUDINALES *Comparacin Co pa ac de las as Medias ed as de los os dos G Grupos; upos; proc ttest data=Establ; class grupo; var mnresp mnlocf mncomp; run; *ANALISIS DEL CAMBIO EN EL VALOR DEL SCORE,
MEDIANTE ANALISIS DE COVARIANZA; 1-ANALISIS DE LAS DIFERENCIAS ENTRE GRUPOS EN CSCORE;

proc glm data=Establ; class grupo; model cscore= grupo/solution; run;


2-ANALISIS DEL EFECTO DE LA MEDIABASE Y GRUPO SOBRE LA MEDIARESP;

proc glm data=Establ; data Establ; class grupo; model mnresp=mnbase grupo/Solution; run;

S-ar putea să vă placă și