Documente Academic
Documente Profesional
Documente Cultură
Procedura UNIVARIATE, este folosită pentru examinarea distribuţiei datelor pentru o singură
variabilă, incluzând o evaluarea a normalităţii datelor şi identificarea valorilor extreme.
Pe lângă calcularea unor indicatori statistici de bază (care se vor regăsi şi în procedra MEANS),
UNIVARIATE poate include şi reprezentări grafice necesare pentru a analiza datele.
Sintaxa simplificată:
Fără declaraţia VAR, procedura va genera statistici pentru toate variabilele numerice ale setului
de date.
Opţiuni uzuale:
- DATA,
- NORMAL - prin opţiunea NORMAL sunt realizate teste de normalitate
1
- FREQ - generează tabele de frecvenţă ale variabilelor
- PLOT - produce trei tipuri de grafice:
diagrama ramură-frunză (stem-leaf),
diagrama box plot
diagrama distribuţiei normale.
- BY - pentru a obţine analize separate pe grupe de valori.
- ID denumeşte variabila care identifică observaţiile în locul numărului observaţiei,
- HISTOGRAM construieşte un grafic de tip histogramă.
Implicit, procedura afişează cinci dintre valorile cele mai mici şi mai mari ale variabilei analizate
şi numărul observaţiei care are aceste valori extreme.
- NEXTROBS= pentru a afişa un alt număr de valori extreme
- NEXTRVAL= pentru a afişa cele mai mici şi mai mari valori distincte
- NEXTROBS=0 pentru a suprima afişarea tabelei cu observaţiile extreme
Procedura MEANS are rolul de a crea rapoarte agregate prin generarea de diferiţi indicatori
statistici pentru variabilele de tip numeric. De asemenea, poate fi folosită pentru a crea seturi de
date agregate care pot fi ulterior analizate cu ajutorul altor secţiuni de date sau proceduri.
Implicit, PROC MEANS produce statistici privind toate variabilele numerice din setul de date
SAS de intrare.
Statisticile implicite produse sunt N (numărul de valori care nu lipsesc), Mean (medie), Std Dev
(deviația standard), Minimum şi Maximum. Prin adăugarea oricărui indicator, procedura nu va
mai calcula indicatorii impliciţi, aceştia trebuind adăugaţi.
Sintaxa:
2
MEDIAN – mediana
STD - deviatia standard
VAR – dispersia
Intervalul de încredere implicit pentru calculul mediei este acela al nivelului de
semnificaţie 0.05, adică 95%. Dacă se doreşte specificarea unui alt interval de încredere,
acest lucru trebuie realizat folosind opţiunea ALPHA împreună cu indicatorul CLM
(limitele intervalului de încredere).
PROC FORMAT;
VALUE f_calitate_grup
LOW -< 10 = 'Scazuta'
10 - HIGH = 'Ridicata';
RUN;
PROC MEANS DATA=exemple.produse n nmiss mean median
MIN MAX MAXDEC=1;
CLASS cal;
FORMAT cal f_calitate_grup
VAR cant pret;
RUN;
3
N N
Calitate Obs Variable N Miss Mean Median
Scazuta 384 cant 352 32 5.5 5.5
pret 351 33 6938.2 6910.0
Ridicata 411 cant 376 35 5.5 5.5
pret 374 37 7138.9 7130.0
statistica (lista_variabile)=lista_nume
statistica - unul dintre indicatorii statistici disponibili cu procedura MEANS;
lista_variabile - pentru ce variabile se vor calcula indicatorii;
lista_nume - noile nume de variabile asociate indicatorilor statistici.
NOPRINT rezultatele nu se vor mai afişa pe ecran, ci vor fi direcţionate doar către setul de date
de ieşire.
PROC MEANS DATA=exemple.produse NOPRINT;
VAR cant pret;
OUTPUT OUT = my_summary
MEAN = MedieCant MediePret;
RUN;
PROC PRINT DATA=my_summary NOOBS;
RUN;
Unde variabila MedieCant contine media valorilor din variariabila cant iar variabila MediePreţ
contine media valorilor din variariabila prêt.
4
II.13.3. Procedura FREQ – calcularea frecvenţelor
PROC FREQ poate fi utilizată pentru a calcula frecvențele atât a variabilelor de caractere, cât și
a celor numerice, în tabele unidimensionale, bidimensionale și cu tridimensionale. În plus, pot
crea seturi de date de ieșire care conțin numere și procente.
In mod implicit se calculează frecvenţele, numerice şi procentuale, frecvenţele vumulative
numerice şi frecvenţele cumulative procentuale, pentru toate variabilele din setul de date.
Sintaxa:
PROC FREQ DATA = date_intrare <optiuni>;
TABLES combinatii_variabile <optiuni>;
Se pot solicita mai multe tabele bidimensionale în mai multe moduri. De exemplu, dacă doriți să
vedeți o variabilă de rând defalcată în funcție de mai multe variabile de coloană, puteți utiliza o
instrucțiune TABLES astfel:
TABLES A * (B C D);
5
Puteți furniza o listă de variabile (în paranteze) atât pentru variabilele rând și coloană, cum ar fi:
TABLES (A B) * (C D);
Procedura CORR, inclusă în BASE SAS, are rolul de a calcula corelaţii între două variabile, prin
intermediul coeficienţilor de corelaţie.
Sintaxa:
PROC CORR DATA = set_date;
VAR lista_variabile;
WITH lista_variabile;
RUN;
Fără declaraţiile VAR şi WITH, procedura calculează corelaţii între toate variabilele
numerice care se găsesc în setul de date SAS cel mai recent utilizat.
Variabilele specificate în declaraţia VAR vor apărea în partea de sus a tabelului de
corelaţie,
Variabilele specificate în declaraţia WITH vor apărea în stânga tabelului.
Implicit, procedura CORR calculează coeficientul de corelaţie al lui Pearson.
Se pot adăuga opţiuni prin care se pot calcula alţi coeficienţi, precum SPEARMAN sau
KENDALL.
DATA produse;
INPUT Cantitate Pret;
DATALINES;
56 6 2 78
44 9 0 76
85 1 6 67
64 4 1 73
87 8 4 73
78 5 2 69
;
RUN;
PROC CORR DATA = produse;
VAR Cantitate;
WITH Pret;
RUN;
6
II.13.5. Procedura REG - analiza de regresie
Sintaxa:
În declaraţia MODEL, variabila dependentă este plasată în stânga semnului “=”, iar variabila(le)
independente în partea dreaptă.
Declaraţia PLOT este una dintre multele opţiuni ale procedurii prin intermediul acesteia
realizându-se diferite diagrame de corelaţie.
ANOVA (parte a SAS/STAT) este una dintre procedurile disponibile în SAS pentru efectuarea
de analize dispersionale. Procedura este special proiectată pentru a lucra cu date echilibrate, unde
există acelaşi număr de observaţii pentru fiecare variabilă de clasificare.
Sintaxa:
PROC ANOVA DATA = set_date;
CLASS listă_variabile;
MODEL dependenta = explicative;
MEANSexplicative /optiuni;
Pentru realizarea de grafice cu opţiuni mai avansate în SAS este necesar modulul SAS/GRAPH
7
Şi BASE SAS permite construirea de grafice (prin procedurile CHART şi PLOT), însă acestea
au doar opţiuni de bază în ceea ce priveşte modul de prezentare.
Afişarea graficelor este controlată prin opţiuni grafice globale precum GOPTIONS, SYMBOL
sau PATTERN, al căror effect rămâne valabil între prelucrări şi care sunt aditive (spre exemplu,
dacă setăm două elemente grafice şi, ulterior, modificăm unul dintre ele, celălalt element rămâne
valabil). Opţiunea RESET=ALL resetează toate opțiunile grafice la valorile lor implicite.
Sintaxa:
Opţiuni:
- SUMVAR – arată variabilele pentru care se calculează indicatorul statistic;
- TYPE – tipul de indicator statistic.
- GROUP grupează datele înfuncţie de valorile variabilei de clasificare pe care o referă
- SUBGROUP pentru a reprezenta valorile variabilei adăugate, foloseşte şabloane diferite
în cadrul fiecărei coloane
- Opțiunea NOHEADING elimină heading-ul implicit
PATTERN VALUE=EMPTY;
8
PROC GCHART DATA=exemple.produse;
VBAR pret;
RUN;
QUIT;
Instrucțiunea PATTERN cere ca barele din graficul vertical al barei să aibă doar contur (implicit
sunt pline) în contradicţie cu PATTERN VALUE = SOLID;.
Procedura GPLOT se poate folosi pentru a construi un grafic care arată legătura între două
variabile.
Sintaxa:
- declaraţia PLOT specifică cele două variabile care se reprezintă pe axele graficului.
- declaraţia SYMBOL adăuga anumite simboluri care să reprezinte intersecţia valorilor
variabilelor şi se pot conecta punctele prin linii drepte sau curbe.
- opţiunea INTERPOL= (prescurtat I=) ajută la conectarea punctelor şi poate lua valori
precum join (uneşte cu linii drepte) sau sm (uneşte prin linie continuă),
- opţiunea WIDTH= controlează lăţimea liniei.
SYMBOL VALUE=DOT;
PROC GPLOT DATA=exemplu.produse;
plot cant * pret / HAXIS=70 TO 120 BY 5
VAXIS=100 TO 220 BY 10;
RUN;
9
Opțiunea WIDTH = controlează lățimea valorilor liniei mai mari, dând astfel
linii mai întunecate.
Opțiunea LINE = vă permite să selectați tipurile de linii (1 = 0, valoarea
implicită).
O a doua instrucțiune TITLE este de asemenea utilizată, cu înălțimea setată la
1.2 unități.
TITLE "Titlu1";
TITLE2 h=1.2 " Titlu1";
SYMBOL VALUE=DOT INTERPOL=JOIN WIDTH=2;
PROC GPLOT DATA=exemplu.produse;
PLOT cant var;
RUN;
10