Sunteți pe pagina 1din 10

Contents

II.13. Realizarea de analize statistice .......................................................................................... 1


II.13.1. Procedura UNIVARIATE - generarea de statistici descriptive ................................. 1
II.13.2. Procedura MEANS - crearea de rapoarte agregate .................................................... 2
II.13.3. Procedura FREQ – calcularea frecvenţelor ................................................................ 5
II.13.4. Procedura CORR – analiza de corelaţie ..................................................................... 6
II.13.5. Procedura REG - analiza de regresie.......................................................................... 7
II.13.6. Procedura ANOVA – analiza dispersională ............................................................... 7
II.14. Realizarea de grafice ......................................................................................................... 7
II.14.1. Procedura GCHART şi GPLOT ................................................................................. 7
II.14.1. Procedura GPLOT ...................................................................................................... 9

II.13. Realizarea de analize statistice


II.13.1. Procedura UNIVARIATE - generarea de statistici descriptive

Procedura UNIVARIATE, este folosită pentru examinarea distribuţiei datelor pentru o singură
variabilă, incluzând o evaluarea a normalităţii datelor şi identificarea valorilor extreme.
Pe lângă calcularea unor indicatori statistici de bază (care se vor regăsi şi în procedra MEANS),
UNIVARIATE poate include şi reprezentări grafice necesare pentru a analiza datele.
Sintaxa simplificată:

PROC UNIVARIATE <optiuni>;


VAR listă_variabile;
BY listă_variabile;
ID variabilă;
HISTOGRAM <listă_variabile>;

Fără declaraţia VAR, procedura va genera statistici pentru toate variabilele numerice ale setului
de date.
Opţiuni uzuale:
- DATA,
- NORMAL - prin opţiunea NORMAL sunt realizate teste de normalitate

1
- FREQ - generează tabele de frecvenţă ale variabilelor
- PLOT - produce trei tipuri de grafice:
 diagrama ramură-frunză (stem-leaf),
 diagrama box plot
 diagrama distribuţiei normale.
- BY - pentru a obţine analize separate pe grupe de valori.
- ID denumeşte variabila care identifică observaţiile în locul numărului observaţiei,
- HISTOGRAM construieşte un grafic de tip histogramă.
Implicit, procedura afişează cinci dintre valorile cele mai mici şi mai mari ale variabilei analizate
şi numărul observaţiei care are aceste valori extreme.
- NEXTROBS= pentru a afişa un alt număr de valori extreme
- NEXTRVAL= pentru a afişa cele mai mici şi mai mari valori distincte
- NEXTROBS=0 pentru a suprima afişarea tabelei cu observaţiile extreme

II.13.2. Procedura MEANS - crearea de rapoarte agregate

Procedura MEANS are rolul de a crea rapoarte agregate prin generarea de diferiţi indicatori
statistici pentru variabilele de tip numeric. De asemenea, poate fi folosită pentru a crea seturi de
date agregate care pot fi ulterior analizate cu ajutorul altor secţiuni de date sau proceduri.
Implicit, PROC MEANS produce statistici privind toate variabilele numerice din setul de date
SAS de intrare.
Statisticile implicite produse sunt N (numărul de valori care nu lipsesc), Mean (medie), Std Dev
(deviația standard), Minimum şi Maximum. Prin adăugarea oricărui indicator, procedura nu va
mai calcula indicatorii impliciţi, aceştia trebuind adăugaţi.

Sintaxa:

PROC MEANS indicatori;


Unde:
- indicatori reprezintă tipuri de indicatori statistici.
Exemple de indicatori care pot fi utilizaţi:
MAX – valoarea maximă
MIN – valoarea minimă
MEAN – media
N – numărul de valori nenule
NMISS – numărul de valori lipsă
SUM – suma

2
MEDIAN – mediana
STD - deviatia standard
VAR – dispersia
Intervalul de încredere implicit pentru calculul mediei este acela al nivelului de
semnificaţie 0.05, adică 95%. Dacă se doreşte specificarea unui alt interval de încredere,
acest lucru trebuie realizat folosind opţiunea ALPHA împreună cu indicatorul CLM
(limitele intervalului de încredere).

Se pot adăuga următoarele declaraţii opţionale:


- BY lista_variabile – realizează analize separate pentru fiecare nivel al variabilelor din listă.
Datele trebuie să fie în prealabil sortate în aceeaşi ordine în care apar variabilele din
lista_variabile.
- CLASS lista_variabile – realizează tot analize separate pentru fiecare nivel al variabilelor,
însă rezultatele sunt prezentate mai compact faţă de declaraţia BY, iar datele nu trebuie
sortate.
O caracteristică foarte utilă a utilizării unei instrucțiuni CLASS (pe lângă faptul că nu trebuie
ca datele să fie sortate ) este că SAS utilizează valori formate ale variabilelor CLASS. Se
poate adăuga o instrucțiune FORMAT la procedură schimbând modul în care variabila
CLASS grupează datele, fără a fi nevoie să să se modifice setul de date original.
- VAR lista_variabile – specifică variabile analizate.
- MAXDEC = controlează numărul de locuri din dreapta punctului zecimal care sunt tipărite
în ieșire.

PROC MEANS DATA=exemple.produse n nmiss mean median


MIN MAX MAXDEC=1;
BY categorie;
VAR cant pret;
RUN;

PROC FORMAT;
VALUE f_calitate_grup
LOW -< 10 = 'Scazuta'
10 - HIGH = 'Ridicata';
RUN;
PROC MEANS DATA=exemple.produse n nmiss mean median
MIN MAX MAXDEC=1;
CLASS cal;
FORMAT cal f_calitate_grup
VAR cant pret;
RUN;

3
N N
Calitate Obs Variable N Miss Mean Median
Scazuta 384 cant 352 32 5.5 5.5
pret 351 33 6938.2 6910.0
Ridicata 411 cant 376 35 5.5 5.5
pret 374 37 7138.9 7130.0

Scrierea statisticilor agregate într-un set de date


Uneori este necesară salvarea statisticilor agregate într-un set de date pentru analize ulterioare
sau pentru combinarea cu alte date.

OUTPUT OUT = set-date lista-statistici-iesire;


unde:
- set-date - setul de date care va conţine rezultatele;
- lista-statistici-iesire - conţine indicatorii statistici care se vor calcula şi numele variabilelor
asociate cu aceştia.
Un format posibil pentru această listăde ieşire este:

statistica (lista_variabile)=lista_nume
 statistica - unul dintre indicatorii statistici disponibili cu procedura MEANS;
 lista_variabile - pentru ce variabile se vor calcula indicatorii;
 lista_nume - noile nume de variabile asociate indicatorilor statistici.
NOPRINT rezultatele nu se vor mai afişa pe ecran, ci vor fi direcţionate doar către setul de date
de ieşire.
PROC MEANS DATA=exemple.produse NOPRINT;
VAR cant pret;
OUTPUT OUT = my_summary
MEAN = MedieCant MediePret;
RUN;
PROC PRINT DATA=my_summary NOOBS;
RUN;

Unde variabila MedieCant contine media valorilor din variariabila cant iar variabila MediePreţ
contine media valorilor din variariabila prêt.

4
II.13.3. Procedura FREQ – calcularea frecvenţelor
PROC FREQ poate fi utilizată pentru a calcula frecvențele atât a variabilelor de caractere, cât și
a celor numerice, în tabele unidimensionale, bidimensionale și cu tridimensionale. În plus, pot
crea seturi de date de ieșire care conțin numere și procente.
In mod implicit se calculează frecvenţele, numerice şi procentuale, frecvenţele vumulative
numerice şi frecvenţele cumulative procentuale, pentru toate variabilele din setul de date.

Sintaxa:
PROC FREQ DATA = date_intrare <optiuni>;
TABLES combinatii_variabile <optiuni>;

Instrucţiunea TABLES - defineşte variabilele pentru care se creează tabele de frecvenţe.


- pentru tabelele de frecvenţe unidimensionle, se specifică numele variabilei,
- pentru tabele de frecvenţe multidimensionale se scrie o expresie de tipul
var1*var2*...*varn.

Opţiuni ale instrucţiunii TABLES care controlează modul de afişare:


- LIST – afişează tabelele multidimensionale în format listă, nu tabelar;
- MISSING – include valorile lipsă în statistici;
- NOCOL – suprimă afişarea procentelor coloanelor în tabelele de frecvenţă;
- NOROW – suprimă afişarea procentelor rândurilor în tabelele de frecvenţă;
- NOCUM – suprimă afişarea frecvenţelor şi procentelor cumulate în tabelele
unidmensionale. Deoarece NOCUM este o opțiune în instrucțiunea TABLES, este
urmată de caracterul / (aceasta este sintaxa pentru toate opțiunile de instrucțiuni din
cadrul unei proceduri)
- NOPERCENT – suprimă afişarea tuturor procentelor în tabelele de frecvenţe.
- OUT = set_date – scrie un set de date care conţine frecvenţele.
Tabele de frecvenţe bidirecționale se pot realiza specificând variabilele rând și coloană într-o
instrucțiune TABLES, separate de un asterisc (*).
TABLES var1 * var2;

Se pot solicita mai multe tabele bidimensionale în mai multe moduri. De exemplu, dacă doriți să
vedeți o variabilă de rând defalcată în funcție de mai multe variabile de coloană, puteți utiliza o
instrucțiune TABLES astfel:

TABLES A * (B C D);

Această instrucțiune generează trei tabele: A cu B, A cu C și A cu D.

5
Puteți furniza o listă de variabile (în paranteze) atât pentru variabilele rând și coloană, cum ar fi:

TABLES (A B) * (C D);

Această solicitare generează patru tabele: A cu C, A cu D, B cu C și B cu D.

II.13.4. Procedura CORR – analiza de corelaţie

Procedura CORR, inclusă în BASE SAS, are rolul de a calcula corelaţii între două variabile, prin
intermediul coeficienţilor de corelaţie.

Sintaxa:
PROC CORR DATA = set_date;
VAR lista_variabile;
WITH lista_variabile;

RUN;

 Fără declaraţiile VAR şi WITH, procedura calculează corelaţii între toate variabilele
numerice care se găsesc în setul de date SAS cel mai recent utilizat.
 Variabilele specificate în declaraţia VAR vor apărea în partea de sus a tabelului de
corelaţie,
 Variabilele specificate în declaraţia WITH vor apărea în stânga tabelului.
 Implicit, procedura CORR calculează coeficientul de corelaţie al lui Pearson.
 Se pot adăuga opţiuni prin care se pot calcula alţi coeficienţi, precum SPEARMAN sau
KENDALL.
DATA produse;
INPUT Cantitate Pret;
DATALINES;
56 6 2 78
44 9 0 76
85 1 6 67
64 4 1 73
87 8 4 73
78 5 2 69
;
RUN;
PROC CORR DATA = produse;
VAR Cantitate;
WITH Pret;
RUN;

6
II.13.5. Procedura REG - analiza de regresie

Procedura REG (parte a modulului SAS/STATrealizează analiza de regresie liniară.

Sintaxa:

PROC REG DATA = set_date;


MODEL var_dependenta = var_independenta;
PLOT var_dependenta * var_independenta;

În declaraţia MODEL, variabila dependentă este plasată în stânga semnului “=”, iar variabila(le)
independente în partea dreaptă.
Declaraţia PLOT este una dintre multele opţiuni ale procedurii prin intermediul acesteia
realizându-se diferite diagrame de corelaţie.

II.13.6. Procedura ANOVA – analiza dispersională

ANOVA (parte a SAS/STAT) este una dintre procedurile disponibile în SAS pentru efectuarea
de analize dispersionale. Procedura este special proiectată pentru a lucra cu date echilibrate, unde
există acelaşi număr de observaţii pentru fiecare variabilă de clasificare.

Sintaxa:
PROC ANOVA DATA = set_date;
CLASS listă_variabile;
MODEL dependenta = explicative;
MEANSexplicative /optiuni;

 CLASS trebuie scrisă înainte de MODEL şi defineşte variabila(le) de clasificare.


 MODEL defineşte variabila dependentă şi variabilele explicative.
 MEANS calculează media variabilei dependente pentru oricare din variabilele explicative
speficate în MODEL.
 Se pot efectua mai multe tipuri de teste de comparaţie pentru medii, precum SCHEFFE sau
testul t al lui Bonferroni (BON).

II.14. Realizarea de grafice


II.14.1. Procedura GCHART şi GPLOT

Pentru realizarea de grafice cu opţiuni mai avansate în SAS este necesar modulul SAS/GRAPH

7
Şi BASE SAS permite construirea de grafice (prin procedurile CHART şi PLOT), însă acestea
au doar opţiuni de bază în ceea ce priveşte modul de prezentare.
Afişarea graficelor este controlată prin opţiuni grafice globale precum GOPTIONS, SYMBOL
sau PATTERN, al căror effect rămâne valabil între prelucrări şi care sunt aditive (spre exemplu,
dacă setăm două elemente grafice şi, ulterior, modificăm unul dintre ele, celălalt element rămâne
valabil). Opţiunea RESET=ALL resetează toate opțiunile grafice la valorile lor implicite.

SYMBOL - definește simbolurile de plotare și stilurile de linie),

PATTERN - definește stilurile pentru graficele cu bare

AXIS - definește axele orizontale și verticale.

Sintaxa:

PROC GCHART DATA = set_date;


HBAR | HBAR3D | VBAR | VBAR3D lista_var_grafic / <optiuni>;
PIE | PIE3D | DONUT lista_var_grafic / <optiuni>;
STAR lista_var_grafic / <optiuni>;
Declaraţiile care urmează după numele procedurii definesc tipul de grafic construit, astfel:
- HBAR – Grafic cu bare orizontale
- HBAR3D – Grafic cu bare orizontale 3D
- VBAR – Grafic cu bare verticale
- VBAR3D – Grafic cu bare verticale 3D
- PIE – Grafic de tip Pie
- PIE3D – Grafic de tip Pie 3D
- DONUT– Grafic de tip inel
- STAR– Grafic de tip stea

Opţiuni:
- SUMVAR – arată variabilele pentru care se calculează indicatorul statistic;
- TYPE – tipul de indicator statistic.
- GROUP grupează datele înfuncţie de valorile variabilei de clasificare pe care o referă
- SUBGROUP pentru a reprezenta valorile variabilei adăugate, foloseşte şabloane diferite
în cadrul fiecărei coloane
- Opțiunea NOHEADING elimină heading-ul implicit

PATTERN VALUE=EMPTY;

8
PROC GCHART DATA=exemple.produse;
VBAR pret;
RUN;
QUIT;
Instrucțiunea PATTERN cere ca barele din graficul vertical al barei să aibă doar contur (implicit
sunt pline) în contradicţie cu PATTERN VALUE = SOLID;.

II.14.1. Procedura GPLOT

Procedura GPLOT se poate folosi pentru a construi un grafic care arată legătura între două
variabile.

Sintaxa:

PROC GPLOTDATA = set_date;


PLOT variabila_Y*variabila_X / <optiuni>;

- declaraţia PLOT specifică cele două variabile care se reprezintă pe axele graficului.
- declaraţia SYMBOL adăuga anumite simboluri care să reprezinte intersecţia valorilor
variabilelor şi se pot conecta punctele prin linii drepte sau curbe.
- opţiunea INTERPOL= (prescurtat I=) ajută la conectarea punctelor şi poate lua valori
precum join (uneşte cu linii drepte) sau sm (uneşte prin linie continuă),
- opţiunea WIDTH= controlează lăţimea liniei.

SYMBOL VALUE=DOT;
PROC GPLOT DATA=exemplu.produse;
plot cant * pret / HAXIS=70 TO 120 BY 5
VAXIS=100 TO 220 BY 10;
RUN;

- Opțiunea VALUE = specifică faptul că pentru simbol pentru plotare de va fi caracterul


punct.
- Opțiunile HAXIS și VAXIS controlează intervalele pe axele orizontale și verticale.
- La instrucțiunea SYMBOL se poate adăuga o opțiune de pentru a cere ca punctele să fie
îmbinate printr-o linie dreaptă sau curbă - opțiunea INTERPOL = (sau doar I =) are
numeroase opțiuni care controlează aspectul plotului.
 Opțiunea JOIN conectează punctele cu linii drepte.

9
 Opțiunea WIDTH = controlează lățimea valorilor liniei mai mari, dând astfel
linii mai întunecate.
 Opțiunea LINE = vă permite să selectați tipurile de linii (1 = 0, valoarea
implicită).
 O a doua instrucțiune TITLE este de asemenea utilizată, cu înălțimea setată la
1.2 unități.

TITLE "Titlu1";
TITLE2 h=1.2 " Titlu1";
SYMBOL VALUE=DOT INTERPOL=JOIN WIDTH=2;
PROC GPLOT DATA=exemplu.produse;
PLOT cant var;
RUN;

10

S-ar putea să vă placă și