Sunteți pe pagina 1din 218

SISTEME DE ANALIZĂ A

DATELOR

Prof. univ. dr. habil. Cristina COCULESCU


Obiectivele disciplinei

• Înțelegerea conceptelor, metodelor si tehnicilor de analiză a datelor, precum și a


posibilităților de utilizare a acestora în domeniul economico-financiar

• Formarea modului de gândire cantitativă a specialistului economist, dezvoltarea și


aprofundarea cunoștințelor acestuia în domeniul măsurării, cuantificării, analizei,
evaluării, interpretării și predicției economico-financiare

• Dezvoltarea cunoștințelor și formarea abilităților necesare analizei și interpretării


datelor și rezultatelor metodelor și tehnicilor de analiză a datelor

• Formarea de abilități privind înțelegerea și utilizarea sistemelor informatice dedicate


analizei datelor
Competenţele generale și specifice acumulate

▪ Utilizarea conceptelor, teoriilor, principiilor și metodelor de abordare cantitativă a


proceselor, fenomenelor și sistemelor economice

▪ Identificarea, colectarea și prelucrarea de informații cantitative și calitative pentru


modelarea și interpretarea fenomenelor și proceselor specifice domeniului
economic

▪ Formarea capacității de identificare și evaluare a oportunităților și riscurilor


specifice domeniului economic
TEMATICĂ CURSURI
Prezentarea structurii cursului, a conținutului Fișei disciplinei și modalităților de
lucru la curs și seminar / laborator
1. Introducere în analiza datelor
1.1. Principii și abordări specifice
1.2. Instrumente de analiză a datelor
1.3. Tehnici și metode de analiză a datelor
1.4. Procesul de analiză a datelor

2. Sisteme de analiză a datelor


2.1. Concepte de bază privind sistemele de analiză a datelor
2.2. SAS – Arhitectură, componente, caracteristici
3. SAS Enterprise Guide – Descriere generală
3.1. Interfața implicită și interfața de programare
3.2. Structura și obiectele unui proiect SAS EG

4. SAS Enterprise Guide - Accesarea datelor


4.1. Formate de date suportate de SAS Enterprise Guide
4.2. Formate de introducere / afișare date, valori lipsă și metadate
4.3. Date locale și date la distanță
4.4. Adăugarea datelor SAS într-un proiect
4.5. Importul datelor dintr-un fișier text
5. Pregătirea datelor pentru analiză
5.1. Interogarea datelor
5.2. Crearea unei interogări și adăugarea de coloane

6. Pregătirea datelor pentru analiză


6.1. Filtrarea datelor în cadrul unei interogări
6.2. Joncțiunea tabelelor în cadrul unei interogări

7. Prelucrarea datelor
7.1. Caracteristici generale ale procedurilor de date
7.2. Generarea statisticilor Summary
8. Personalizarea rezultatelor prelucrărilor
8.1. Crearea și aplicarea formatelor personalizate
8.2. Crearea de grafice

9. Analiza componentelor principale


9.1. Considerații generale
9.2. Modelul matematic al componentelor principale
9.3. Metoda geometrică

10. Analiza componentelor principale


10.1. Proprietățile componentelor principale
10.2. Aplicarea analizei componentelor principale
10.3. Corelația dintre variabilele inițiale și componentele principale
11. Analiza factorială
10.1. Considerații generale
10.2. Modelul matematic al analizei factoriale
10.3. Alegerea numărului de factori comuni

12. Analiza factorială


11.1. Estimarea modelului de analiză factorială
11.2. Scorurile factor
11.3. Diferența dintre analiza componentelor principale și analiza factorială
13. Analiza corespondențelor
13.1. Considerații generale
13.2. Tabele de contingență și construirea profilurilor
13.3. Independența și testul hi-pătrat
13.4. Reducerea dimensiunii

14. Test scris pentru evaluarea însușirii cunoștințelor


TEMATICĂ SEMINARE
▪ Prezentarea cerințelor legate de activitatea de seminar / laborator și de elaborare a unui proiect
individual care să ateste însușirea cunoștințelor și capacitatea de a utiliza abilitățile dobândite în cadrul
disciplinei.

1. Noțiuni recapitulative de algebră liniară – tipuri de matrice, operații cu matrice, rangul unei
matrice, determinatul și inversa unei matrice, vectori și valori proprii, spații liniare, dependență și
independență liniară

2. Elemente de statistică și teoria probabilităților necesare în analiza datelor – indicatori ai tendinței


centrale și variabilității, transformări aplicate datelor primare

3. Prezentarea facilităților avansate ale pachetului software Microsoft Excel – funcții matematice,
logice, matriceale, statistice, lucrul cu meniul Data (Form, Sort, Filter, Pivot Table, Data Analysis)
4. Utilizarea facilităților pachetului software SAS Enterprise Guide – interfață, importul
fișierelor non-SAS și crearea tabelelor de date SAS

5. Utilizarea facilităților pachetului software SAS Enterprise Guide – crearea unei interogări și
adăugarea de coloane

6. Utilizarea facilităților pachetului software SAS Enterprise Guide – filtrarea datelor în cadrul
unei interogări, joncțiunea tabelelor în cadrul unei interogări

7. Utilizarea facilităților pachetului software SAS Enterprise Guide – crearea și utilizarea


parametrilor într-o interogare

8. Utilizarea facilităților pachetului software SAS Enterprise Guide – prelucrarea datelor,


generarea statisticilor Summary

9. Utilizarea facilităților pachetului software SAS Enterprise Guide - rapoarte, grafice,


personalizarea rezultatelor
10. Utilizarea funcțiilor SAS pentru extragerea componentelor principale

11. Interpretarea output-urilor obținute prin apelarea funcțiilor dedicate extragerii componentelor
principale

12. Analiza factorială: pregătirea datelor pentru analiza factorială, corelații parțiale, interpretarea
rezultatelor

13. Aplicarea analizei corespondențelor – cazul bidimensional: pregătirea datelor, tabele de


contingență, construirea profilurilor, interpretarea rezultatului grafic al analizei corespondențelor

14. Susținerea proiectului


BIBLIOGRAFIE
1. Dileep K. Panda, An Introduction to the SAS System, http://www.iiwm.res.in/naip-nars/SAS_Training_Material.pdf

2. Introduction to SAS Enterprise Guide, https://www.sas.com/storefront/aux/en/spstateg/57255_excerpt.pdf

3. Muraru, A., Metode și tehnici de analiză multidimensională a datelor, Editura ASE, 2018

4. Uță A., Andreescu A., Oprea S.V. Pachete software și aplicații SAS, Editura ASE, 2018

5. Tomar, R.S., Rajender Parsad, Seema Jaggi, Sanju and Sachin Kumar, SAS Enterprise Guide: An overview, I.A.S.R.I.
Library Avenue, New Delhi – 110 012, https://sscnars.icar.gov.in/sas_manual/11-SAS_Enterprise_Guide.pdf

6. Lawrence S. Meyers, Glenn Gamst and A. J. Guarino, Data Analysis Using SAS Enterprise Guide, Cambridge
University Press, https://assets.cambridge.org/97805211/30073/frontmatter/9780521130073_frontmatter.pdf

7. Ruxanda, Gh., Analiza Multidimensională a Datelor, Editura ASE, București, 2005

▪ Coculescu, C., Materiale didactice în format digital


Standard minim de performanță
• Însușirea noțiunilor teoretice de bază și utilizarea acestora în rezolvarea unor
aplicații și/sau studii de caz cu un nivel mediu de complexitate.
• Participarea activă la cursuri și seminare / laboratoare.
• Prezentarea unui proiect individual.

Promovarea examenului se realizează dacă, prin


• aplicarea criteriilor pentru evaluarea pe parcurs și
• evaluarea din cadrul sesiunii de examene, se obține minim nota 5
(un punct fiind acordat din oficiu).
2. Introducere în analiza datelor

2.1. Principii și abordări specifice


2.2. Instrumente de analiză a datelor
2.3. Tehnici și metode de analiză a datelor
2.4. Procesul de analiză a datelor

2.1. Principii și abordări specifice

Analiza este o metodă generală de cercetare a realității bazată pe descompunerea obiectelor,


proceselor, fenomenelor etc. studiate în părțile lor componente în scopul unei examinări
sistematice mai amănunțite și cunoașterii separate a acestor părți ca elemente ale unui întreg
complex.

Analiza datelor este un proces de investigare, curățare, transformare și modelare a datelor în


scopul descoperirii de informații utile pentru luarea deciziilor de către utilizatori.

Analiza datelor are multiple fațete și abordări, cuprinde tehnici diverse sub o varietate de nume
și este utilizată în diferite domenii ale științelor teoretice sau aplicate, precum și în diverse
domenii de business. În prezent, analiza datelor deține un rol esențial în luarea deciziilor într-
un mod mai bine documentat și ajută organizațiile să ajungă la o funcționare mai eficientă.

Statisticianul John Tukey, a definit analiza datelor în 1961, ca:

"Proceduri de analiză a datelor, tehnici de interpretare a rezultatelor unor astfel de proceduri,


modalități de planificare a culegerii datelor pentru a face analiza mai ușoară, mai precisă sau cu
mai mare acuratețe, și toate mecanismele și rezultatele statisticilor (matematice) care se aplică
analizei datelor".

Analiza datelor este adesea confundată cu știința datelor. Deși este similar în natură, analiza
datelor se preocupă mai mult de rezolvarea problemelor prin seturi de date definite, în timp ce
știința datelor necesită dezvoltarea de noi modele și algoritmi prin codificare și programare.

1
Știința datelor este un domeniu interdisciplinar care folosește metode științifice, procese,
algoritmi și sisteme pentru a extrage cunoștințe și perspective din seturi de date structurate și
nestructurate. Folosește tehnici și teorii din mai multe domenii în contextul matematicii,
statisticii, informaticii, cunoașterii domeniului și științei informației.

Știința datelor – ca profesie și ca disciplină academică în sine – este nouă, fiind născută în
primul deceniu al secolului 21. Știința datelor, așa cum se practică astăzi, ia naștere din lumea
„big data / cloud computing” și din știința complexității.

Organigrama procesului de știința datelor din Doing Data Science, de Schutt & O’Neil (2013)

2
2.2. Instrumente de analiză a datelor

Instrumentele de analiză a datelor:

➢ facilitează procesarea și manipularea datelor de către utilizatori,

➢ analizează relațiile și corelațiile dintre seturile de date și

➢ ajută la identificarea tiparelor și tendințelor de interpretare.

La baza analizei datelor se află matematica și statisticile riguroase. Astăzi, pe lângă limbajele
statistice, există multe instrumente software bazate pe cloud care se adaptează nevoilor de
afaceri diferite.

Excel - Microsoft Excel acceptă formule pentru a extrage informații din date și limbaje de
codare precum VBA.

SQL - limbajul de interogare structurat permite analistilor de date să extragă și să manipuleze


date din baze de date.

R sau Python - Aceste limbaje sunt utile pentru programarea statistică și sunt mult mai
eficiente și au timp de procesare mai rapid decât Excel.

SAS - SAS este un pachet software cuprinzător pentru analize și statistici avansate.

3
2.3. Tehnici și metode de analiză a datelor

Principalele metode de analiză a datelor sunt:


➢ Analiza textului
➢ Analiza statistică
➢ Analiza de diagnostic
➢ Analiza predictivă
➢ Analiza prescriptivă

Analiza textului, numită și Data Mining, aplică tehnici statistice, lingvistice și structurale
pentru extragerea și clasificarea informațiilor din surse textuale, o categorie de date
nestructurate. Aceasta transformă datele brute în informații utile pentru o afacere.

Analiza statistică arată "Ce se întâmplă?" prin utilizarea datelor anterioare. Analiza statistică
include colectarea, analiza, interpretarea, prezentarea și modelarea datelor. Aceasta analizează
un set de date sau un eșantion de date. Există două categorii ale acestui tip de analiză:

➢ analiza descriptivă - urmărește descrierea variabilelor (calcularea indicatorilor statistici


descriptivi, reprezentări grafice etc.).

➢ analiza inferențială - cuprinde procedurile prin intermediul cărora se pot obţine aserţiuni
asupra populaţiei studiate din observaţiile efectuate asupra unui eşantion din acea populaţie.

Analiza de diagnostic arată motivele pentru care s-a obținut un rezultat și nu altul. Mai exact,
această analiză răspunde la întrebarea "De ce s-a întâmplat?" prin găsirea cauzei din
perspectiva descoperită prin analiza statistică. Această analiză este utilă pentru a identifica
tiparele de comportament.

Analiza predictivă arată "Ce este posibil să se întâmple" folosind date anterioare. Așadar, acest
tip de analiză face predicții despre rezultatele viitoare pe baza datelor actuale sau anterioare.
Prognoza este însă doar estimativă. Precizia predicției din analiza datelor poate fi influențată
de volumul de date și de nivelul de detaliere al acestora.

Analiza prescriptivă combină informațiile din toate analizele anterioare pentru a determina ce
acțiune trebuie luată într-o problemă sau decizie curentă.

4
2.4. Procesul de analiză a datelor

Analiza datelor presupune parcurgerea următoarelor faze:


✓ Colectarea cerințelor de date
✓ Colectarea datelor
✓ Procesarea datelor
✓ Curățarea datelor
✓ Analiza exploratorie a datelor
✓ Interpretarea datelor
✓ Vizualizarea datelor

Colectarea cerințelor de date

În primul rând, trebuie să vă gândiți de ce doriți să faceți această analiză a datelor?

Tot ce aveți nevoie pentru a afla scopul sau scopul efectuării analizei datelor.

Trebuie să decideți ce tip de analiză de date doriți să faceți!

În această fază, trebuie să decideți ce să analizați și cum să îl măsurați, trebuie să înțelegeți de


ce investigați și ce măsuri trebuie să utilizați pentru a face această analiză.

- Datele sunt necesare ca elemente de intrare în analiză, care este specificată pe baza
cerințelor celor care dirijează analiza sau a clienților (care vor utiliza produsul finit al
analizei).

- Tipul general de entitate asupra căruia vor fi colectate datele este denumit o unitate
experimentală (de exemplu, o persoană sau o populație de oameni).

- Variabile specifice privind o populație (de exemplu, vârstă și venitul) pot fi specificate și
obținute.

- Datele pot fi numerice sau categorice (de exemplu, o etichetă text pentru numere).

După colectarea cerințelor, veți avea o idee clară despre:

- ce lucruri trebuie să măsurați și


- care ar trebui să fie concluziile dvs.

5
Colectarea datelor. În această fază sunt colectate datele pe baza cerințelor stabilite anterior.

Datele sunt colectate dintr-o varietate de surse. Datele pot fi, de asemenea, colectate de la
senzori din mediu, inclusiv camere de trafic, sateliți, dispozitive de înregistrare etc. De
asemenea, pot fi obținute prin interviuri, descărcări din surse online sau citirea documentației.

Pe măsură ce datele sunt colectate din diferite surse, trebuie păstrat un jurnal cu data de
colectare și sursa datelor.

Procesarea datelor. Datele, obținute inițial, trebuie procesate sau organizate pentru analiză.
De exemplu, acestea pot implica plasarea datelor în rânduri și coloane într-un format de tabel
(cunoscut sub numele de date structurate) pentru analize ulterioare, adesea prin utilizarea unei
foi de calcul sau a unui software statistic.

Curățarea datelor

Printre datele colectate în faza anterioară ar putea să existe unele care să nu fie utile sau
irelevante pentru scopul efectuării analizei: datele colectate pot conține înregistrări duplicate,
spații albe sau erori. De aceea, datele trebuie curățate și fără erori.

Curățarea datelor este procesul de prevenire și corectare a acestor erori. Această fază trebuie
parcursă înainte de analiză, deoarece pe baza curățării datelor, rezultatul analizei va fi mai
aproape de rezultatul așteptat.

Sarcinile obișnuite includ:


- potrivirea înregistrărilor,
- identificarea inexactității datelor,
- calitatea generală a datelor existente,
- deduplicarea și segmentarea coloanelor.

Există mai multe tipuri de curățare a datelor, care depind de tipul de date din set; acestea ar
putea fi numere de telefon, adrese de e-mail, angajatori sau alte valori.

- Metodele cantitative de date pentru detecția anterioară pot fi utilizate pentru a scăpa de
datele care par să aibă o probabilitate mai mare de a fi introduse incorect.
- Verificatoarele ortografice de date textuale pot fi utilizate pentru a reduce cantitatea de
cuvinte greșit scrise, cu toate acestea este mai greu de spus dacă cuvintele în sine sunt
corecte.

6
Analiza exploratorie a datelor

Odată ce datele sunt colectate, curățate și procesate, acestea sunt gata pentru analiză.

Analiștii pot aplica o varietate de tehnici, denumite analize exploratorii de date, pentru a
începe să înțeleagă mesajele conținute în datele obținute.

Procesul de explorare a datelor poate avea ca rezultat:

- curățarea suplimentară a datelor sau


- solicitări suplimentare de date.

Statisticile descriptive, cum ar fi, media sau mediana, pot fi generate pentru a ajuta la
înțelegerea datelor.

Vizualizarea datelor este, de asemenea, o tehnică utilizată, în care analistul este capabil să
examineze datele într-un format grafic pentru a obține informații suplimentare, cu privire la
mesajele din cadrul datelor.

Modelare și algoritmi. Analiștii pot încerca, de asemenea, să construiască modele care să


descrie datele, în scopul simplificării analizei și comunicării rezultatelor.

- Formulele sau modelele matematice (cunoscute sub numele de algoritmi), pot fi


aplicate datelor pentru a identifica relațiile dintre variabile; de exemplu, folosind
corelația sau cauzalitatea.

- În termeni generali, modelele pot fi dezvoltate pentru a evalua o variabilă specifică


bazată pe alte variabile conținute în setul de date, cu unele erori reziduale în funcție de
acuratețea modelului implementat (de exemplu, Date = Model + Eroare).

Statistica inferențială include utilizarea tehnicilor care măsoară relațiile dintre anumite
variabile. De exemplu, analiza de regresie poate fi utilizată pentru a modela dacă o modificare
a publicității (variabila independentă X) oferă o explicație pentru variația vânzărilor (variabila
dependentă Y).

În această fază, puteți utiliza instrumente și software de analiză a datelor care vă vor ajuta să
înțelegeți, să interpretați și să obțineți concluzii pe baza cerințelor.

7
Interpretarea datelor

Puteți alege modalitatea de a vă exprima sau de a comunica analiza datelor:


- fie o puteți folosi pur și simplu în cuvinte sau
- poate într-un tabel sau grafic.

Apoi utilizați rezultatele procesului de analiză a datelor pentru a decide cea mai bună acțiune.

Vizualizarea datelor

Vizualizarea datelor este frecvent utilizată în practică, sub formă de diagrame și grafice. Cu
alte cuvinte, datele sunt prezentate grafic, astfel încât creierului uman îi va fi mai ușor să le
înțeleagă și să le proceseze.

Vizualizarea datelor este adesea folosită pentru a descoperi fapte și tendințe necunoscute.
Observând relațiile și comparând seturile de date, puteți găsi o modalitate de a afla informații
semnificative.

Odată ce datele sunt analizate, acestea pot fi raportate în mai multe formate utilizatorilor
analizei pentru a-și susține cerințele. Utilizatorii pot avea feedback, ceea ce duce la analize
suplimentare. Ca atare, o mare parte din ciclul analitic este iterativ.

La stabilirea modului de comunicare a rezultatelor, analistul poate lua în considerare


implementarea unei varietăți de tehnici de vizualizare a datelor, pentru a ajuta la comunicarea
clară și eficientă a publicului.

- Vizualizarea datelor folosește afișaje de informații (grafică, cum ar fi tabele și


diagrame) pentru a ajuta la comunicarea mesajelor cheie conținute în date.

- Tabelele sunt un instrument valoros, permițând capacității unui utilizator de a interoga


și de a se concentra asupra anumitor numere; în timp ce diagramele (de exemplu,
diagrame cu bare sau diagrame liniare) pot ajuta la explicarea mesajelor cantitative
conținute în date.

8
3. SISTEME DE ANALIZĂ A DATELOR

3.1. Concepte de bază privind sistemele de analiză a datelor

3.2. SAS – Arhitectură, componente, caracteristici


3.1. Concepte de bază privind sistemele de analiză a datelor

• Conceptul de sistem apare în formă embrionară încă din filozofia antică greacă. Afirmând că întregul
este mai mult decât suma părților, Aristotel dă o primă definiție noțiunii de sistem, care se va dezvolta
și va evolua pentru a ajunge la forma actuală, de abia la începutul secolului XX.

• Cel care pune bazele unei teorii închegate privind teoria sistemele (considerat fondatorul teoriei
generale a sistemelor) este biologul german Ludwig von Bertalanffy (1901-1972) care în perioada
1928-1950 publică o serie de lucrări reprezentând începuturile teoriei generale a sistemelor și a
sistemelor deschise.

• Conform definiției date de Ludwig von Bertalanffy, “sistemul este format dintr-o mulțime de elemente
aflate într-o interdependență neîntâmplătoare”.
• În sensul cel mai larg, denumirea de sistem poate fi atribuită oricărei colecții de obiecte sau procese
între care există anumite conexiuni (relații), stabilite în vederea atingerii unui scop.

• Conexiunile se pot stabili și cu sisteme, subsisteme sau elemente din mediul înconjurător. De aceea, se
face distincția între:

– conexiuni interne – care se stabilesc între elementele aceluiași sistem (subsistem) ;

– conexiuni externe (intrări și ieșiri) – dintre elementele unui sistem și elemente din mediul
înconjurător.

• Atât elementele, cât și relațiile (conexiunile) au caracter dinamic, iar existența și funcționarea
sistemului este subordonată realizării unor obiective bine definite (unui scop).
Sistemul informatic este un ansamblu structurat de elemente interconectate funcțional pentru
automatizarea procesului de obținere a informațiilor și fundamentarea deciziilor. Acest sistem permite:

- introducerea de date (prin procedee manuale sau prin culegere automată de către sistem),

- stocarea acestora,

- prelucrarea lor și

- extragerea informației (rezultatelor) sub diverse forme.

Componentele sistemului informatic sunt:

✓ calculatoarele,

✓ programele,

✓ rețelele de calculatoare și

✓ utilizatorii.
• Prin urmare, sistemele informatice se caracterizează prin faptul că prelucrează date în scopul obținerii
de informații. Pe de altă parte, în unele lucrări termenul "sistem informatic" este utilizat ca sinonim
cu "sistem de prelucrare a datelor" (data processing system) pentru a desemna grupul de
componente specializate numai pe prelucrare.

• Sistemul de prelucrare a datelor este o combinație de mașini, oameni și procese care, pentru un set
de intrări, produce un set definit de ieșiri. Intrările și ieșirile sunt interpretate ca date, fapte, informații
etc., în funcție de relația interpretului cu sistemul.

• În accepțiunea actuală, un sistem de prelucrare (procesare) a datelor este un sistem care utilizează
un program sau un limbaj de calculator pentru a procesa datele brute și a transfera datele în informații
prin utilizarea unei metode cunoscute sub numele de procesare a tranzacțiilor.
În general, în informatică se face distincție între semnificațiile noțiunilor "dată" și "informație".

➢ Se numește dată un semn, un număr, un șir de caractere, o imagine, reprezentând valoarea unei
anumite caracteristici a unei entități oarecare. Data este depusă (stocată sau memorată) pe un suport
oarecare în vederea regăsirii.

➢ Se numește informație, o dată căreia i s-a atribut o anumită semnificație, adică este precizată
caracteristica pe care o reprezintă, precum și entitatea căreia îi aparține acea caracteristică.
De regulă, o informație este rezultatul prelucrării (corelării) mai multor date și nu doar a uneia singure.

• data reprezintă un fapt, iar informația, reprezintă semnificația atribuită faptului respectiv.
De asemenea, se pot desprinde principalele caracteristici ale datei și informației:

✓ O dată are sens numai dacă poate fi regăsită. Aceasta presupune că data trebuie să aibă asigurată o
anumită durată de viață, cel puțin din momentul înregistrării sale și până în momentul primei utilizări.

✓ Perenitatea datei implică existența unui suport adecvat pentru păstrarea acesteia (o agendă în care se
notează un număr de telefon, un disc magnetic pe care se înregistrează un fișier cu date, un catalog în
care se înregistrează notele studenților etc.).

✓ De asemenea, este necesară o organizare specifică a datelor.

Informația este rezultatul unui proces de prelucrare a datelor desfășurat în cadrul unul sistem
informatic.
3.2. SAS – Arhitectură, componente, caracteristici

• SAS (acronimul de la Statistical Analysis System) a fost creat în anii 1970 de către SAS Institute Inc.ca
un pachet software statistic. De-a lungul timpului, produsul a evoluat ajungând astăzi să reprezinte
unul dintre ele mai utilizate pachete software integrate, care oferă utilizatorilor facilități precum:
- introducerea, accesarea şi managementul datelor;

- data mining (extragerea de informaţii din date);

- realizarea de rapoarte şi grafice;

- analize statistice;

- planificarea afacerilor, prognoză, precum şi suport de decizie;

- cercetări operaţionale şi managementul proiectelor;


- dezvoltarea de aplicaţii;

- lucrul cu depozite de date (“data warehousing”);

- lucrul independent de platforma hardware şi de locaţie.

• În plus, SAS oferă multe soluţii de business şi soluţii software pentru domenii cum ar fi:

✓ managementul IT,

✓ managementul resurselor umane,

✓ management financiar,

✓ inteligența afacerii ("business intelligence" - BI),

✓ managementul relaţiilor cu clienţii etc.


Figura nr. 2 Funcționalitățile principale ale SAS
Componentele produsului SAS

• SAS constă dintr-un număr mare de componente (peste 200 de componente), pe care
organizaţiile le pot achiziţiona şi instala separat, în funcţie de necesităţi.

• În centrul soluţiilor SAS se află componenta Base SAS. Aceasta este un mediu software integrat,
având facilităţi pentru accesul la date, analiza datelor, crearea de rapoarte etc.

• Base SAS beneficiază şi de suportul unui limbaj de programare propriu de generaţia a patra
(limbajele de generaţia a patra sunt orientate pe rezolvarea unei anumite clase de probleme: SQL
sau PL/SQL sau cele folosite de alte pachete software ca Matlab sau SPSS).
Componentele, de tip bibliotecă, SAS/STAT, SAS/Graph şi SAS/OR extind capabilităţile
motorului de bază Base SAS.

➢ SAS/STAT oferă o gamă largă de instrumente pentru analiza statistică a datelor.

➢ SAS/GRAPH este modulul care permite vizualizarea datelor sub formă de grafice sau hărţi.

➢ SAS/OR este o componentă care are ca scop susţinerea procesului decizional prin intermediul unor
tehnici de optimizare, simulare sau planificare a proiectelor.

➢ SAS/IML este un limbaj specializat în lucrul cu matrice.

➢ SAS Add-inn for MS Office permite utilizatorilor să beneficieze de facilităţile analitice, de raportare
şi pentru accesul la date oferite de SAS direct din Microsoft Office prin intermediul unor meniuri şi
bare de instrumente integrate în produsele Office.
Prelucrări bazate pe date
Funcţionalitatea pachetului software integrat SAS este construită în jurul a patru tipuri de
prelucrări, bazate pe date, prelucrări comune pentru aproape toate tipurile de aplicaţii software:

✓ accesarea datelor - se referă la obţinerea accesului la datele cerute de aplicaţie;

✓ managementul datelor - presupune pregătirea datelor astfel încât acestea să aibă forma cerută de
aplicaţie;

✓ analiza datelor - rezumă sau transformă datele primare în informaţii utile, care au o semnificaţie
pentru analist;

✓ prezentarea datelor - comunică informaţiile într-o manieră care demonstrează clar semnificaţia
acestora.
Transformarea datelor în informaţii

Produsul lucrează prin intermediul programelor SAS care definesc o succesiune de operaţii ce trebuiesc
efectuate asupra datelor stocate în tabele.

Un program SAS este compus din trei părţi majore:


- secţiunea de DATE (DATA steps),
- secţiunile de PROCEDURI (PROC steps) şi
- un limbaj macro.

• Secțiunile de date sunt, de obicei, folosite pentru:


- a crea tabele de date în format SAS (Data Set) pe baza unor seturi de date SAS, fișiere text sau alte
formate,

- a actualiza tabele deja existente.


• Secțiunile de proceduri sunt, de obicei, folosite pentru
- a efectua prelucrări și interogări,
- a genera rapoarte,
- a sintetiza date
- a genera grafice.

Secțiunile de date încep cu cuvântul DATA, iar cele de procedure cu cuvântul PROC și se termină de
cele mai multe ori cu directiva RUN. Fiecare secțiune este executată complet, înainte să se treacă la
următoarea secțiune.

Produsul SAS conține, de asemenea și declarații globale, care afectează întreg mediul SAS și rămân
valide de la o secțiune DATA sau PROC la alta (de exemplu OPTIONS și TITLE), până când ele sunt
schimbate de alte directive globale sau până se încheie sesiunea de lucru SAS.
• Secțiunile de date (DATA steps) sunt folosite pentru a crea / actualiza tabele SAS.

• Secțiunile de proceduri (PROC steps) sunt folosite pentru a efectua prelucrări și interogări.

• Macro-urile SAS sunt bucăți de cod sau variabile care sunt codificate o singură dată și
referite pentru a efectua sarcini repetitive.
• Fișierele cu care lucrează SAS la nivel de cod sunt de două tipuri principale:
- externe (preluate sau importate din alte aplicații)
- interne (generate de către SAS), care pot fi:
▪ temporare (stocate în librăria Work)
▪ permanente (stocate în alte librării sau directoare decât Work).

Pentru realizarea de programe în SAS se utilizează componenta SAS Studio care reprezintă mediul de
programare al produsului SAS.

Deşi există interfeţe grafice destinate utilizatorilor care nu deţin cunoştinţe de programare SAS (cum este
SAS Enterprise Guide), de cele mai multe ori aceste interfeţe sunt doar un mijloc pentru a automatiza sau
a facilita generarea de programe SAS.
Figura nr. 3 Transformarea datelor în informații
Avantajele și dezavantajele SAS

Avantajele SAS

1. Ușor de înțeles și de învățat - SAS are o sintaxă foarte simplă și ușor de înțeles.

2. Ușor de depanat - Fereastra de jurnal a instrumentului SAS afișează clar toate erorile și
avertismentele, astfel încât să poată fi corectate din mers.

3. Capacitate mare de gestionare a bazelor de date

4. Securitate înaltă a datelor - Datele nu pot fi extrase din SAS fără o licență corespunzătoare,
chiar dacă sunt în scopuri oficiale.
5. Servicii adecvate de îngrijire a clienților - SAS poate fi modificat doar de către organizația SAS,
deoarece nu este un instrument open-source. Toate tipurile de probleme ale clienților sunt soluționate
bine de asistența clienților SAS.

6. Algoritmi bine evaluați - Toți algoritmii implementați în SAS sunt analizați, testați și verificați în
detaliu de către dezvoltatorii SAS. Înainte de lansarea oficială, toate versiunile SAS sunt testate intens
și verificate într-un mediu bine gestionat. Aceste testări și verificări sunt realizabile numai pentru că
SAS nu este un software open-source.

7. Interfață grafică foarte bună (GUI) - Analiza statistică a fost facilitată de limbajul SAS pentru
persoanele obișnuite care nu sunt programatori. SAS oferă o uimitoare Interfață grafică de utilizator
pentru dezvoltatori. GUI SAS oferă numeroase instrumente precum comploturi, grafice și o bibliotecă
foarte flexibilă.

8. Ieșire precisă - Oferă o ieșire precisă și bine formatată, care este ușor de înțeles.

9. Oportunități mari de angajare


Dezavantajele SAS
1. Nu este un Open-Source

• SAS nu este atât de rapid în comparație cu R în implementarea de noi algoritmi de învățare


automată. Acest lucru se datorează faptului că limbajul de programare R este un instrument open-
source și limbajul SAS este mai degrabă un software cu sursă închisă.

• Algoritmii SAS nu sunt deschiși pentru utilizare publică comună și sunt disponibili doar în
versiunile licențiate. Mai mult, SAS nu este disponibil în mod transparent în scopuri de cercetare
pentru public, spre deosebire de limbajul de programare R.

2. Preț ridicat - Unul dintre dezavantajele cruciale ale SAS este costul ridicat al acestuia.

• Funcțiile și aplicațiile SAS nu pot fi accesate public fără licențe adecvate.


3. Reprezentare grafică slabă - Chiar dacă SAS are o GUI uimitoare, R are o reprezentare grafică mai
bună și avansată. R are o reprezentare grafică mult compatibilă. În comparație cu SAS, R are diverse
opțiuni de reprezentare grafică.

4. Mai dur decât R - SAS urmează o abordare programatică procedurală comparativ cu R.

• Liniile de cod din SAS sunt mult mai multe decât în ​R.

• Aplicațiile celor mai noi tehnologii precum învățarea automată și învățarea statistică sunt foarte
ușoare în R în comparație cu cea a SAS.

• Pachetele precum extragerea textului, formatarea în timp a seriei, etc. sunt foarte scumpe în SAS,
comparativ cu limbajul de programare R.
5. Dificultate în extragerea textului - Extragerea informațiilor utile din datele textului este
cunoscută sub numele de text mining. R oferă gratuit minerirea textului, în timp ce minerirea
textului în SAS este foarte scumpă.

Concluzie SAS este foarte popular în rândul întreprinderilor mari, deoarece oferă niveluri ridicate de
securitate în comparație cu R, care este popular printre freelanceri și nu este la fel de sigur ca SAS.
4. SAS Enterprise Guide – descriere generală

4.1. Interfața implicită și interfața de programare

4.2. Structura și obiectele unui proiect SAS EG


4.1. Interfața implicită și interfața de programare

SAS Enterprise Guide este o aplicaţie client pentru Microsoft Windows uşor de utilizat, pentru
accesarea și analiza datelor utilizând modulele SAS care oferă următoarele facilităţi:

➢ interfaţă vizuală intuitivă și personalizabilă;

➢ acces la cele mai multe dintre modulele SAS;

➢ acces transparent la date;

➢ proceduri predefinite pentru analiză şi raportare;

➢ exportul facil al datelor şi al rezultatelor în alte aplicaţii;

➢ editor de programe cu facilități de completare de sintaxă;

➢ facilităţi de scripting şi automatizare.


SAS Enterprise Guide nu este o alternativă a SAS, ci poate fi considerat o extensie a acestuia care
permite un mod alternativ de lucru și care nu poate funcționa în absența unui motor SAS.

• Utilizatorii având diverse niveluri de experienţă (de la începători până la experţi) pot utiliza SAS
Enterprise Guide pentru a obţine rapid rezultate semnificative.

• Interfaţa de ultimă generaţie a SAS Enterprise Guide oferă:


- funcţionalitate de tip drag-and-drop;

- ferestre de dialog pentru introducerea parametrilor prelucrărilor şi efectuarea de setări prin instrumente de
tip wizard;

- editor de sintaxă pentru scrierea programelor, cu evidenţierea în culori diferite a elementelor codului;

- facilităţi de Help Online, help senzitiv la context şi tutorial de iniţiere.


Utilizând SAS Enterprise Guide, se pot accesa modulele SAS fără să fie nevoie să se înveţe limbajul
de programare SAS.

Dacă utilizatorul este programator SAS, el poate utiliza editorul de cod al pachetului de programe
pentru a crea cod nou sau pentru a modifica programe SAS existente.

Utilizatorul poate modifica codul SAS generat de pachet (din fereastra Code) pentru a personaliza
rezultatele şi pentru a accesa facilităţile SAS care nu sunt disponibile în cadrul interfeţei grafice.
De asemenea, utilizatorul poate salva codul şi să îl execute într-un mediu de tip batch.

Observație. Un fișier de tip batch reunește într-un singur fișier un set de comenzi care altfel ar fi fost
prezentate în mod interactiv, pe rând, sistemului de operare, folosind tastatura sau mouse-ul.
Un astfel de fișier este, de obicei, creat pentru a încapsula o secvență de comenzi pe care utilizatorul
o execută în mod repetat.
Pentru a lucra cu SAS Enterprise Guide, trebuie parcurşi următorii paşi:

1. crearea unui proiect nou

2. adăugarea de date la proiect

3. executarea de prelucrări asupra datelor

4. personalizarea rezultatelor

5. automatizarea procesului
Pe măsură pe accesaţi date şi realizaţi prelucrări, SAS Enterprise Guide generează cod SAS.

Atunci când rulaţi o prelucrare, codul generat este trimis motorului SAS pentru procesare, iar
rezultatele sunt returnate către SAS Enterprise Guide.

Pachetul software SAS Enterprise Guide se poate conecta la motorul SAS:

• pe calculatorul local sau

• pe un alt calculator numit server SAS.


Când informațiile despre obiecte sunt stocate, SAS Enterprise Guide se conectează, de asemenea, la
un depozit de metadate SAS.

Figura nr. 1 Conectarea SAS Enterprise Guide la un server SAS la distanță și


la un depozit de metadate SAS
La lansarea în execuție a produsului SAS Enterprise Guide, ferestrele sunt aranjate în mod implicit ca în figura 2.

Figura nr. 2 Interfața implicită SAS Enterprise Guide


Interfața implicită constă din patru ferestre principale și anume:

➢ fereastra arborelui proiectului (Project Tree)

➢ fereastra principală (spațiul de lucru) unde se vizualizează fluxul de proces (Process Flow)

➢ fereastra prelucrărilor (Submission Status) și

➢ fereastra resurselor (Resources pane) - formată din mai multe ferestre.


Dacă utilizatorul își personalizează interfața, prin închiderea, deschiderea sau schimbarea poziției
ferestrelor, modificările sunt salvate la ieșirea din SAS Enterprise Guide.

- Dacă se dorește să se restaureze modul de vizualizare implicit, din meniul principal se vor selecta
opțiunile View ⇒ 𝐑𝐞𝐬𝐞𝐭 𝐭𝐨 𝐝𝐞𝐟𝐚𝐮𝐥𝐭 𝐥𝐚𝐲𝐨𝐮𝐭.

- Dacă una dintre ferestre a fost închisă și se dorește restaurarea ei, din meniul View se va selecta
numele ei.
• Fereastra de resurse (Resources pane) și spațiul de lucru (Process Flow) constituie elemente
ale interfeței în care sunt rezidente mai multe ferestre.

• Implicit, se poate vizualiza o singură fereastră în aceste zone (opțiunea Show One), dar este
posibilă divizarea lor pentru a permite vizualizări multiple prin selectarea butonului săgeată în jos,
opțiunea Show Multiple și selectarea ferestrelor dorite.

• Totodată, în interiorul spațiului de lucru sunt aplicate mare parte din funcțiile SAS Enterprise
Guide aflate la dispoziția utilizatorului. De aceea, înainte de a diviza acest spațiu, este utilă o
maximizare a sa, folosind opțiunea 𝐕𝐢𝐞𝐰 ⇒ 𝐅𝐮𝐥𝐥 𝐬𝐜𝐫𝐞𝐞𝐧 𝐅𝟏𝟏 din bara de meniu.
Pentru vizualizarea secvențială a ferestrelor din fereastra aferentă resurselor, se apasă
pictogramele corespunzătoare, respective:

• Tasks

• SAS Folders

• Server List

• Prompt Manager
4.2. Structura și obiectele unui proiect SAS EG

▪ În SAS Enterprise Guide, toată activitatea desfășurată este salvată în proiecte. Un proiect este o
colecție de date aferente, sarcini, programe și rezultate.

▪ Fereastra arborelui proiectului (Project Tree) afişează o structură ierarhică a proiectului activ.

- Atunci când se creează un proiect nou, ferestra Project Tree este goală.

- Pe măsură ce se adaugă date, se execută prelucrări sau se generează rezultate, în această ferestră
vor fi adăugate pictograme (iconiţe) pentru fiecare dintre aceste obiecte. Ele sunt văzute ca
obiecte ale unui proiect.
• Se poate reveni la o prelucrare a datelor în arborele proiectului, modifica și rula din nou pentru a
obține un set nou de rezultate ce pot fi salvate separate sau pot fi suprascrise peste rezultatele
prelucrării anterioare.

• Pentru deschiderea unui proiect nou, dacă SAS Enterprise Guide nu este deja deschis, se lansează
în execuție și din fereastra principală se selectează opțiunea New Project, în caz contrar, se vor
selecta opțiunile 𝐅𝐢𝐥𝐞 ⇒ 𝐍𝐞𝐰 ⇒ 𝐏𝐫𝐨𝐣𝐞𝐜𝐭.

• În acest moment noul proiect va fi deschis, având ferestrele Project Tree și Process Flow goale.
Un proiect și conținutul acestuia poate fi salvat în orice locație, inclusiv într-un alt server, ca un
singur fișier. În acest scop se vor parcurge următorii pași:

1. Se selectează opțiunile 𝐅𝐢𝐥𝐞 ⇒ 𝐒𝐚𝐯𝐞 𝐏𝐫𝐨𝐣𝐞𝐜𝐭 𝐀𝐬.

2. La deschiderea ferestrei Save se va stabili și selecta dacă proiectul va fi salvat în calculatorul local
sau pe server, după care se selectează opțiunea My Computer.

3. În fereastra Save se selectează locația pentru proiect, în câmpul File name se introduce numele
proiectului (care se va salva cu extensia .egp)

4. Se efectuează click pe butonul Save.


Fereastra fluxului de proces (Process Flow) este formată din mai multe ferestre, putând fi deschisă fie
selectând-o din meniul View, făcând dublu click pe numele său în fereastra arborelui proiectului (Project
Tree), selectând din lista care apare deasupra spațiului de lucru, din lista de pe bara de meniu sau apăsând
tasta F4.

Fereastra fluxului de proces este formată din ferestre ce conțin:

• datele,

• rezultatele,

• programele SAS (codul),

• informații privind execuția (engl. logs) sau

• note,

existând un tip special de pictogramă pentru fiecare tip de document.


Spre exemplu, în figura nr. 3 fluxul de proces conține date, rezultate, prelucrări și programe SAS.

Figura nr. 3 Obiectele unui proiect


Arborele proiectului (Project Tree) afișează o vizualizare ierarhică a proiectului activ și date asociate,
programe, note și rezultate. Fereastra Project Tree poate fi folosită pentru a gestiona obiectele din
proiect.

SAS Enterprise Guide are la un moment dat un singur proiect activ. Fiecare proiect conţine unul sau
mai multe fluxuri de proces. Un flux de proces reprezintă vizual relaţiile dintre obiectele unui proiect.

• Într-un proiect se pot crea noi fluxuri pe proces şi se pot muta sau copia obiecte între fluxurile de
proces.

• De asemenea, se poate executa doar o porţiune a unui flux de proces, sau întregul flux, imediat sau
poate fi programat pentru o execuție ulterioară.
Înainte de rulare, fereastra aferentă fluxului de proces este singura fereastră deschisă în zona de lucru.

Când se generează rapoarte sau se deschid fișiere de date, în spațiul de lucru se deschid mai multe
ferestre, ce pot fi accesate cu ușurință.

• Fereastra Submission Status este o parte a interfeței SAS Enterprise Guide utilizată pentru a afișa
date, cod, informații privind execuția (log-uri), rezultatele activităților și a fluxurilor de proces.
În SAS Enterprise Guide, task-urile sunt utilizate pentru realizarea oricărei activități, de la
manipularea datelor, la derularea procedurilor analitice specific sau la crearea de rapoarte.

Multe task-uri sunt, de asemenea, disponibile ca wizard-uri, care conțin un număr limitat de opțiuni și
care pot oferi o modalitate rapidă și ușoară de a utiliza o parte dintre aceste task-uri.

Task-urile și wizard-urile pot fi alese utilizând lista de activități (Tasks) sau prin utilizarea meniului
principal.

În mod implicit Tasks este ascunsă, dar ea poate fi vizualizată apăsând butonul Tasks din fereastra de
resurse aflat în colțul din stânga jos al spațiului de lucru.
Tasks permite mai multe moduri de vizualizare (figura nr. 4), vizualizează task-urile:
- în ordine alfabetică
- recente
- favorite
- filtrate etc.

Figura nr. 4 Fereastra Tasks din fereastra de resurse


Fereastra de stare a activităților (Submission Status) afișează mesaje despre starea task-urilor așa
cum acestea sunt prelucrate (figura nr.5).

- Fereastra Submission Status nu este afișată în mod implicit, dar ea poate fi vizualizată prin
selectarea opțiunilor View ⇒ Submission Status.

- Fereastra Process Flow afișează, de asemenea, o culoare de fundal diferită în jurul task-ului activ,
pentru fiecare fază de prelucrare.
Figura nr. 5 Fereastra Submission Status
5. SAS Enterprise Guide - Accesarea datelor

5.1. Formate de date suportate de SAS Enterprise Guide

5.2. Formate de introducere / afișare date, valori lipsă și metadate

5.3. Date locale și date la distanță

5.4. Adăugarea datelor SAS într-un proiect

5.5. Importul datelor dintr-un fișier text


5.1. Formate de date suportate de SAS Enterprise Guide

Înainte de a realiza prelucrarea și analiza datelor SAS Enterprise Guide, este necesar ca datele să fie adăugate
(importate) în proiect. Utilizatorul are posibilitatea să deschidă date care se află:
- pe calculatorul local sau
- pe orice alt server pe care este autorizat să îl acceseze.

SAS Enterprise Guide poate citi:


- fişiere de date SAS (date locale sau la distanță),
- fişiere de date HTML (date locale),
- tabele Microsoft Access (date locale),
- foi de calcul Microsoft Excel și foi de calcul Lotus (date locale),
- baze de date dBASE2, Oracle și Sybase (locale sau la distanță, cu condiția că este necesară o licență pentru
motorul SAS database),
- cuburi OLAP (locale sau la distanță și cu conectare la un server OLAP) și altele.
Formatele de fișiere suportate de SAS Enterprise Guide pot fi clasificate în trei categorii:

1. Tabele de date SAS, care sunt formate specifice ale pachetului de programe SAS. Pentru a putea fi
supuse prelucrărilor, toate celelalte tipuri de formate suportate de pachetul SAS trebuie transformate
în tabele de date SAS.

2. Fișiere flat conțin înregistrări între care nu există nicio inter-relaționare. Avantajul este acela că
ocupă mai puțin spațiu decât fișierele structurate. Totuși, necesită ca aplicația care le folosește să
cunoască modul în care datele sunt organizate în fișier. Exemple de fișiere flat sunt fișiere text, fișiere
ASCII sau fișiere secvențiale.

3. Fișiere ale altor aplicații software cum ar fi Microsoft Access sau Paradox. Nu este nevoie să se
instaleze software adițional pentru a citi date în următoarele formate: dBase, HTML, IBM Lotus 1-2-
3, Microsoft Access, Microsoft Excel.
Pentru fișiere de dimensiuni mari, se pot îmbunătăți performanțele aplicației prin utilizarea software-ului
SAS/ACCESS. În acest sens, în funcție de tipul de fișier care va fi citit, interfețe SAS/ACCESS to PC Files
sau SAS/ACCESS to ODBC trebuie instalate pe același calculator pe care este instalat și SAS.

Observație.

• Deși se pot deschide și rula task-uri pe diverse tipuri de date, dacă se dorește editarea acestor date,
ele trebuie deschise ca un set de date SAS. În acest scop SAS Enterprise Guide permite importul a
diverse tipuri de fișiere de date pentru crearea seturilor de date SAS.
SAS Enterprise Guide poate citi şi utiliza date dintr-o varietate de formate:
▪ Fișierele text conțin înregistrări între care nu există nicio inter-relaționare. Avantajul este acela că
ocupă mai puțin spațiu decât fișierele structurate. Totuși, necesită ca aplicația care le folosește să
cunoască modul în care datele sunt organizate în fișier.

✓ Fişiere text cu lăţime fixă - Un fişier text cu lăţime fixă are un format specific care permite
salvarea datelor / informaţiilor textuale într-o manieră organizată. Este un tip special de fişier în
care formatul este definit de:
o lăţimea coloanei - specificată sub forma unui număr de caractere;
o caracterele folosite pentru spaţiere - caracterul spaţiu (sau orice caracter se doreşte) în cazul în
care datele ocupă mai puţine caractere decât lăţimea specificată pentru coloana respectivă;
o alinierea la stânga sau dreapta.
Spre exemplu, un fișier text în care lățimea primei coloane este de 27 de caractere, celei de-a doua de
8 caractere și cea de-a treia de 12 caractere:

Nume student Grupă Telefon

Popescu Dan 301 0235377234

Ionescu Marin 612 0744237689

Zaharia Ciprian 702AS 0730897654


✓ Fişiere text delimitate - într-un fişier text delimitat fiecare linie de text reprezintă o înregistrare, iar
câmpurile sunt separate prin caractere cunoscute. Delimitatori frecvent utilizaţi sunt caracterul tab (\t)
sau diferite caractere de punctuaţie. Delimitatorul trebuie întotdeauna să fie un caracter care nu se
regăseşte în date.

Astfel de fişiere se pot crea ușor folosind aplicaţii de calcul tabelar sau pentru baze de date (ex.
Microsoft Excel, Microsoft Access).

Spre exemplu, în Excel: File –> Save As, Text (Tab delimited).

Un astfel de fișier poate conține numele, prenumele și vârsta persoanelor, delimitate prin simbolul
linie verticală (|).

• Popescu|Dan|25

• Ionescu|Marin|18

• Zaharia|Ciprian|35
▪ Date compatibile cu standardul ODBC. ODBC (Open DataBase Connectivity) este o metodă
standard de accesare a bazelor de date care permite accesul la orice date din cadrul oricărei aplicații,
indiferent de sistemul de gestiune a bazelor de date (SGBD) care gestionează datele.

- ODBC realizează acest lucru prin inserarea unui strat de mijloc (middle layer), numit driver de
baze de date, între aplicație și SGBD.

- Scopul acestui strat este de a transforma interogările aplicației în comenzi pe care un SGBD le
înțelege. În acest sens, atât aplicația, cât și SGBD-ul trebuie să fie compatibile cu standardul
ODBC, adică aplicația trebuie să fie capabilă să genereze comenzi ODBC, iar SGBD-ul trebuie
să fie capabil să răspundă la acestea.

• OLE DB (Object Linking and Embedding Database) este o interfață API proiectată de Microsoft
pentru accesarea diferitelor tipuri de date stocate într-o manieră uniformă. OLE DB include și
capabilitățile ODBC.
▪ Datele în format SAS (sau tabele SAS), Foi de calcul Microsoft Excel, Fişiere dBase, Tabele
HTML, Tabele Microsoft Access. Pentru a putea fi accesate de SAS EG, datele trebuie să fie
reprezentate în format tabelar (ca o mulţime de linii şi coloane).

- O linie (rând) reprezintă o instanţă a unei entităţi. Entitatea poate fi un produs, un client, o
comandă sau orice alt lucru.

- Fiecare coloană (variabilă) descrie caracteristicile entităţii, cum ar fi codul de identificare a


unui produs, numele clientului sau cantitatea vândută (figura nr. 1).

Toate coloanele trebuie să aibă un nume, un tip şi o lungime.

- Numele poate avea lungimea între 1 și 32 de caractere.

- Eticheta ataşată unei coloane poate avea lungimea de maxim 265 de caractere.
Figura nr. 1 Exemplu de tabelă
Unul dintre cele mai importante lucruri care trebuie ştiute despre date este ce tip de date conţine fiecare
coloană (sau variabilă). SAS priveşte datele ca fiind:

- fie de tip caracter,

- fie de tip numeric.

• În cazul în care datele dintr-o coloană conţin doar litere, aceasta are date de tip caracter.

Valorile de tip caracter pot avea lungimea între 1și 32,767 caractere (octeți).

• În cazul în care datele dintr-o coloană conţin numere, aceasta poate fi de tip caracter sau numeric.
▪ Datele numerice sunt grupate în patru categorii de date, în funcţie de modul în care acestea sunt afişate.
În figura nr. 2 sunt prezentate simbolurile asociate fiecărui tip de data precum și pictogramele asociate lor.

✓ Pictogramele apar în titlurile de coloană ale tabelei de date.

✓ Pictograme se pot vedea atunci când se rulează o prelucrare.

✓ Aceste simboluri constituie un indiciu despre modul în care pot fi folosite coloanele sau variabilele în
prelucrări.

Valorile numerice sunt stocate pe 8 octeți în virgulă mobilă și pot fi de tip:

- Numeric

- Monedă

- Dată

- Timp
Figura nr. 2 Tipuri de date și pictogramele lor
5.2. Formate de introducere / afișare date, valori lipsă și metadate

Formatele de intrare (Informat) sunt, de obicei, folosite pentru a citi într-o variabilă date din surse
externe numite fişiere flat (fişiere text, fişiere ASCII sau fişiere secvenţiale).

Formatele de intrare instruiesc aplicaţiile SAS despre modul în care trebuie să citească datele într-o
variabilă SAS. Sunt, de obicei, grupate în trei categorii:

✓ caracter

✓ numeric şi

✓ data / timp.
• Formatele de intrare au următoarea sintaxă:
- caracter: $INFORMATw.
- numerice: INFORMATw.d
- dată/timp: INFORMATw.

Semnificaţia simbolurilor folosite de formatele de intrare este următoarea:

$ indică prezenţa unui caracter


w semnifică lăţimea unei variabile (în octeţi sau număr de coloane)
INFORMAT este un nume opţional de format de intrare SAS
d este folosit în cazul datelor numerice pentru a specifica numărul de cifre ale părţii
zecimale.

Toate formatele de intrare trebuie să conţină punctul zecimal (.), astfel încât să se poată face diferenţa între
un format de intrare şi o variabilă SAS.
Figura nr. 3 Formate de intrare
Formatul de afişare (Format) este folosit pentru a controla modul în care sunt afişate valorile. Formatul
de afişare nu afectează modul de stocare a valorilor. Un format de afişare (Format) este o "instrucţiune"
care se aplică unei coloane, indicând produsului SAS Enterprise Guide cum să afişeze valorile datelor
(figura nr. 4).

Figura nr. 4 Formate de afișare


Valori lipsă. Dacă într-o coloană, valoarea unei date nu există pentru un anumit rând, ea este
considerată lipsă.
- O valoare lipsă de tip caracter este afişată ca spaţiu.
- O valoare lipsă de tip numeric este afişată ca virgulă sau punct.

În SAS Enterprise Guide sunt multe funcţii care furnizează opţiuni pentru modul de manipulare a
valorilor lipsă, în scopul raportării sau analizei.
Metadatele reprezintă informaţii despre datele în sine, cum ar fi:

- originea / sursa datelor,

- dimensiunea sau

- formatul lor.

Multe formate de fişiere care memorează date sub formă tabelară includ metadate ca parte a tabelei:

- tabelele SAS

- MS Access

- dBASE

sunt exemple de fişiere care conţin metadate stocate în interiorul lor.

Atunci când accesează un astfel de fişier, SAS EG poate accesa metadatele pentru a determina numele

unei coloane, tipul (caracter sau numeric) şi lungimea (dimensiunea).


Există şi cîteva formate de fişiere, cum ar fi:
- foile de calcul Microsoft Excel
- tabelele HTML
- fişierele text
care nu conţin metadate. Pentru aceste tipuri de fişiere, SAS EG trebuie să facă anumite deducţii
referitoare la atributele fiecărei coloane.

Implicit, SAS EG caută numele coloanei în primul rând al fişierului şi analizează valorile stocate în
câmpuri sau celule pentru a stabili dacă o anumită coloană trebuie memorată ca şir de caractere sau ca
număr. Dacă se stabileşte că o coloană este de tip caracter, atunci lungimea ei este setată în mod automat ca
fiind 255 (octeţi), care este numărul maxim de caractere permis de motorul de baze de date Microsoft Jet.
5.3. Date locale și date la distanță

Când utilizatorul deschide date în SAS Enterprise Guide, el trebuie să selecteze dacă dorește să le
preia din :

- computerul local,

- dintr-un server SAS sau

- dintr-un folder SAS.

Dacă utilizatorul efectuează click pe opțiunea My Computer, el poate parcurge structura de directoare a
calculatorului local și poate să deschidă orice tip de fișier de date pe care SAS Enterprise Guide îl poate citi.
Figura nr. 5 Surse de date în SAS Enterprise Guide
Dacă se selectează opțiunea Servers, utilizatorul va putea să caute datele pe un server. Acest server poate
să fie:
- un server local, dacă pe calculatorul local este instalat software-ul SAS, sau
- un server la distanță, dacă software-ul SAS este instalat pe un alt calculator.

Servere-le pe care le poate vedea utilizatorul depind de mediul la care acesta este conectat. În cadrul
fiecărui server există pictograme care pot fi selectate, pentru
➢ biblioteci (Libraries) și
➢ fișiere (Files)

Unele biblioteci sunt definite de SAS, iar altele de SAS Enterprise Guide. Bibliotecile conțin numai seturi
de date SAS.

Directorul Files dintr-un server permite utilizatorului să acceseze fișiere de date dintr-o structură de
director aflată pe calculatorul pe care funcționează serverul SAS.
Figura nr. 6 Biblioteci și fișiere
Deschiderea fișierelor dintr-un server se poate face și printr-un dublu click pe fișier în fereastra
Server List. Această fereastră este deschisă implicit în fereastra de resurse, în colțul din stânga jos a
spațiului de lucru. În cazul în care fereastra Server List este închisă, pentru a o deschide se
selectează opțiunea View ⇒ Server List
Dacă utilizatorul selectează SAS Folders, el poate naviga prin lista de directoare SAS la care are acces.
Directoarele SAS sunt definite în SAS Metadata Server și pot fi utilizate pentru a furniza o locație
centrală pentru stocarea proceselor, hărților de informații (information maps) și a proiectelor, astfel încât
ele să poată fi partajate cu alte aplicații SAS. Directoarele SAS pot stoca, de asemenea și conținut care
nu se regăsește în SAS Metadata Server, cum ar fi fișierele de date.
5.4. Adăugarea datelor SAS într-un proiect

Adăugarea datelor SAS din calculatorul local


Pentru adăugarea datelor se va parcurge următoarea secvență de pași:
• Se selectează opțiunile File ⇒ Open
• În fereastra Open se selectează opțiunea My Computer
• În câmpul Look In se selectează opțiunea Data, fișierul dorit și apoi
• Se efectuează click pe butonul Open

În mod implicit, în fereastră vor fi afișate fișierele de toate tipurile.

Fișierele cu pictograma sunt seturi de date în format SAS.


În acest moment, setul de date este adăugat în proiect și deschis în grila de date.

• În mod implicit, tabela este deschisă în modul citire (Protect Data din Edit). În acest mod, utilizatorul
poate parcurge datele, redimensiona lățimea coloanelor, ascunde coloane și rânduri și poate copia
coloane și rânduri într-un nou fișier, dar nu poate edita datele decât dacă va trece în modul editare
(Update Mode).

• Este de remarcat faptul că atunci când se inserează date într-un proiect se creează referințe la date, dar
SAS Enterprise Guide nu realizează o nouă copie a fișierului.

• Pentru a vizualiza proprietățile unui set de date, în arborele proiectului se selectează fișierul de date,
click dreapta și apoi opțiunea Properties. Se va deschide fereastra Properties, în care se vor putea
vedea informații referitoare la proprietățile generale, cum ar fi locația fizică a datelor și data ultimei lor
modificări.
Dacă, în zona de selecție se optează pentru opțiunea Columns, se va putea vedea lista coloanelor
setului de date precum și atributele acestor coloane.
Adăugarea datelor dintr-o bibliotecă SAS
În cadrul unui proiect, pentru a adăuga date dintr-o bibliotecă SAS, se procedează astfel:
• Se selectează opțiunile File ⇒ Open.
• În fereastra Open se selectează opțiunea Servers.

Se poate ca în fereastră să fie afișate mai multe servere. Server-ul la care este conectat SAS Enterprise Guide
este marcat distinct. Se deschide prin dublu-click.

Dacă SAS Enterprise Guide nu este conectat la un server, se va efectua dublu-click pe server-ul adecvat
pentru a-l conecta și deschide.

După deschiderea server-ului se va selecta opțiunea Libraries, apoi directorul dorit (în biblioteci sunt
stocate numai seturi de date SAS) și de acolo setul de date dorit, care va fi adăugat în proiect și deschis în
fereastra principală.
5.5. Importul datelor dintr-un fișier text

Facilitatea de import de date (Import Data) permite să se creeze seturi de date SAS din fișiere text,
HTML, Microsoft Excel sau fișiere de baze de date (inclusiv Microsoft Access și alte formate
populare). Se pot specifica opțiuni pentru a controla modul în care fișierul de intrare este importat și
modul în care este salvat ca un set de date SAS. În acest scop se:

▪ Se selectează fișierul text și se specifică setul de date de ieșire – se începe procedura de import
date din meniul File. În plus, dacă se dorește adăugarea de date care sunt într-un format pe care SAS
Enterprise Guide îl poate importa, task-ul Import Data îl deschide automat.
• Implicit, SAS Enterprise Guide selectează pentru setul de date și îl stochează în prima bibliotecă
disponibilă la care are acces. Pentru acest lucru se selectează opțiunile File ⇒ Import Data și se
selectează fișierul text care va fi importat.

• Odată ce procedura Import Data a fost deschisă, în pagina Specify Data se pot observa, în zona
Output SAS data set, numele bibliotecii și al setului de date.

• În mod implicit, tabela este salvată în biblioteca Work (totuși se poate ca serverul să fie astfel setat
astfel încât, în mod implicit, datele să fie salvate în biblioteca Sasuser).
• În continuare se va efectua click pe butonul
Browse, în câmpul File name se va
introduce numele dorit pentru fișierul
importat și se va activa butonul Save.

• Apoi, se va efectua click pe butonul Next


pentru a specifica formatul de text și pentru
a vedea modul în care sunt definite
câmpurile.
▪ Se selectează formatul textului și lățimea câmpurilor

✓ În zona Text format se selectează opțiunea Fixed columns.

✓ Se specifică delimitatorii de coloane prin click pe riglă la începutul fiecărei coloane.

✓ Pentru a indica sfârșitul primei coloane și începutul celei de-a doua se va efectua din nou click pe
riglă bifând poziția dorită, obținându-se astfel o linie de demarcație, procedându-se identic pentru
celelalte coloane se va efectua clic pe butonul Next pentru a specifica atributele fiecărui câmp.
▪ Se specifică atributele câmpurilor – în tabela care conține atributele câmpurilor este selectat
implicit câmpul F1.

✓ Se va efectua clic pe butonul Modify pentru a deschide fereastra Field Attributes pentru
câmpul F1.

✓ În zonele Name, Label și Type se vor introduce numele, eticheta și tipul pentru acest câmp,
apoi se va apăsa butonul OK.

Pentru selecția celorlalte câmpuri se va efectua dublu click pe numele lor (respectiv F2, F3 etc.),
procedându-se similar.
Specificarea atributelor coloanelor
Pentru a elimina din procesul de importare
preluarea unui anumit câmp se va deselecta bifa
din box-ul de control aferent câmpului respectiv.
• În final, se va apăsa butonul Next pentru a
vedea opțiunile avansate și pentru a executa
procesul de import de date.

• În pagina Advanced Options se pot seta


opțiunile respective sau se pot accepta
selecțiile implicite.
▪ Se importă datele – În fereastra
Import Data se va efectua click
pe butonul Finish.

Când procesul de import va fi


finalizat, datele importate vor fi
afișate în fereastra principală.
6. Pregătirea datelor pentru analiză

6.1. Interogarea datelor


6.2. Setarea opțiunilor unei interogări
6.3. Specificarea formatului rezultatelor unei interogări

Pregătirea datelor este activitatea cea mai importantă şi mai consumatoare de timp în orice
proiect analitic. În cadrul unei firme, deseori apar probleme / situații pentru rezolvarea cărora
este necesară o analiză ad-hoc a datelor, însă, de cele mai multe ori, acestea nu sunt în forma cerută
de procesul de analiză.

Activitatea de pregătire a datelor include:


- colectarea datelor corespunzătoare,
- extragerea subseturilor de date necesare şi
- agregarea datelor.

La nivelul unei firme, datele trebuie reunite din diverse surse dispersate. Aceste surse de date pot
include: date tranzacţionale (de exemplu privind facturarea şi plata), cifre demografice sau date
financiare. Ulterior, pentru a le aduce în forma de analiză, asupra acestor date trebuie să fie aplicate
diverse transformări.

Sistemele software care procesează date pot fi clasificate în două categorii principale:
- sisteme operaționale și
- sisteme pentru depozite de date.

Sistemele operaționale au următoarele caracteristici principale:


- sunt proiectate pentru a oferi suport proceselor operaționale ale unei organizații;
- sunt sisteme care trebuie să fie integrate cu procesele de afaceri și fluxurile de lucru ale
companiilor sau organizațiilor care le folosesc;
- sunt specializate în preluarea, stocarea și prelucrarea datelor privitoare la tranzacțiile zilnice,
de rutină (de aceea se mai numesc și sisteme tranzacționale).

1
Sistemele pentru depozite de date sunt proiectate pentru a furniza informații utilizatorilor, cu
facilități pentru raportare, pentru regăsirea informațiilor sau pentru depozitarea datelor.

Este de preferat ca produsul final care rezultă din procesul de pregătire a datelor să fie o singură
tabelă (care va fi folosită pentru analiză) tabelă care va fi numită în continuare tabelă de analiză
sau tabelă analitică.

În figura nr. 1 sunt prezentate sursele datelor incluse în tabela analitică.

Tabelă analitică

Depozit de date

Sistem Operațional Alte Date, Date Externe

Figura nr. 1 Intrări pentru tabela analitică din perspectivă logică

În figura nr. 1 se poate observa că există două surse principale pentru datele de analiză:

- datele tranzacționale

- alte date, cum ar fi date externe, date obținute din sondaje, date ad-hoc, tabele asociative
(lookup tables), foi de calcul sau fișiere text.

Ambele tipuri de date:


- pot intra direct în tabela analitică sau

- pot fi regăsite prin intermediul depozitului de date.

2
6.1. Interogarea datelor

O interogare ("query") se poate utiliza dacă se dorește să se analizeze date care sunt localizate în
mai multe tabele sau doar o parte a datelor dintr-o tabelă. Tehnic vorbind, o interogare este o
cerere de regăsire a datelor din una sau mai multe surse de date.

Interogările pot fi folosite pentru:

• Selectarea rândurilor pornind de la una sau mai multe condiţii

• Selectarea, ordonarea şi sortarea coloanelor

• Definirea de variabile calculate

• Examinarea relațiilor dintre valorile datelor

• Înlocuirea valorilor datelor

• Joncţiunea (unirea) tabelelor prin diferite metode

• Gruparea şi agregarea datelor

• Specificarea unui parametru pentru interogare

• Selectarea rândurilor pornind de la una sau mai multe condiţii.

Rândurile pot fi selectate pe baza uneia sau mai multor condiții. În cadrul rezultatului
interogării, rândurile pot fi ordonate pe baza valorilor din una sau mai multe coloane
(figura nr. 2).

Figura nr. 2 Ordonarea rândurilor unei interogări

3
• Selectarea, ordonarea şi sortarea coloanelor. După selectarea sursei sau surselor de date,
utilizatorul poate să aleagă numai acele coloane pe care dorește să le obțină în rezultate și poate
să specifice și ordinea de apariție a acestora. De asemenea, el poate să creeze și să calculeze noi
coloane precum și să înlocuiască valori în coloanele existente (figura nr. 3).

Figura nr. 3 Selectarea coloanelor aferente unei interogări

• Definirea de variabile calculate. În cadrul unei interogări pot fi create noi coloane ale căror
valori pot fi calculate pe baza valorilor din coloane deja existente.

• Examinarea relațiilor dintre valorile datelor

• Înlocuirea valorilor datelor. Prin intermediul interogării, utilizatorul poate să înlocuiască, în


mod automat, anumite valori dintr-o coloană cu alte valori.

• Joncţiunea (unirea) tabelelor cu scopul de a combina date din diverse surse. Pentru a
obține date din mai mult de o singură sursă de date, tabelele pot fi reunite, pe baza unor coloane
comune, în diferite moduri (figura nr. 4).

4
Figura nr. 4 Joncțiunea tabelelor

• Gruparea şi agregarea datelor. Datele pot fi împărțite în grupuri pe baza valorilor dintr-o
coloană. În plus, în oricare dintre coloanele unei interogări pot fi introduse funcții de agregare
(însumare) – figura nr. 5.

Figura nr. 5 Gruparea datelor

• Specificarea unui parametru pentru interogare. Dacă se dorește ca rândurile să poată fi


selectate în mod dinamic, în timp ce se execută interogarea, se pot defini interogări care să
accepte parametrii și să permită utilizatorului să selecteze sau să introducă de la tastatură
valorile dorite pentru aceștia.

În contextul SAS, o interogare este o colecţie de specificaţii care ne permit să aducem datele în
forma dorită de utilizator.

În funcție de necesități, utilizatorul poate selecta între mai multe tipuri de ieșiri ale unei
interogări, și anume:
- tabela fizică (data table – opțiunea implicită)
- tabela virtuală (data view) sau
- raport (report).

5
În SAS Enterprise Guide, instrumentul care ne permite să construim specificaţiile unei interogări poartă
denumirea de Query Builder. Pornind de la aceste specificaţii, Query Builder generează cod SQL.
Interogările care au asociaţi parametri permit utilizatorului să furnizeze date de intrare pentru interogare, la
momentul execuţiei acesteia.

Query Builder se deschide având afișate, în fereastra de tabele, tabelele selectate în cadrul
interogării, oferindu-i utilizatorului și posibilitatea:
- de a adăuga la acestea noi tabele (prin intermediul opțiunii Add Tables),

- de a șterge tabele (cu opțiunea Delete), iar

- dacă se combină date din surse diferite, cu ajutorul opțiunii Join se poate specifica tipul
de joncțiune care se va utiliza (figura nr. 7).

Ecranul principal al Query Builder este prezentat în figura nr. 6.

Figura nr. 6 Ecran principal Query Builder

6
În Query Builder, interogările se fac pornind de la un anumit set de date.
✓ Implicit, ele se deschid fără a avea selectată nicio coloană a tabelei.

✓ Înainte de a rula o interogare, trebuie să adăugăm cel puţin o coloană.

Proprietăţile unei coloane pot fi modificate, incluzând numele (alias-ul), eticheta sau formatul.

Funcţionalităţi diferite ale Query Builder sunt oferite prin intermediul a trei tab-uri:
- Select Data,
- Filter Data şi
- Sort Data.

Pentru a adăuga coloane:


- fie se selectează coloana și se trage (drag and drop) în tab-ul Select Data,

- fie se realizează dublu-clic pe numele coloanei din listă (figura nr. 8).

Select Data - este folosit pentru a selecta care coloane sunt incluse şi care vor fi rolurile lor în
interogare.

Tab-ul Select Data permite:


- crearea de coloane calculate;

- aplicarea de formate asupra datelor;

- folosirea funcţiilor de agregare;

- crearea de expresii condiţionale.

7
Figura nr. 7 Opțiunea Join

Figura nr. 8 Opțiunea Select Data

8
Prin intermediul opțiunii Select Data:
➢ se pot selecta, ordona sau șterge coloane din interogare

➢ se pot modifica proprietățile coloanelor

➢ se pot specifica alias-uri pentru coloane

➢ se pot grupa datele

➢ se pot calcula noi coloane

➢ se pot defini parametri

➢ se poate valida codul interogării

➢ se poate vizualiza codul sau rezultatele interogării, utilizând butoanele din partea
dreaptă a zonei Select Data sau pe cele din partea de sus a ecranului (figura nr. 8).

Figura nr. 9 Butoane Select Data

9
Crearea unei noi coloane calculate

Într-o interogare se poate insera o nouă coloană care să fie coloană calculată pe baza altor
coloane sau valori. O coloană calculată poate fi folosită pentru:
- a agrega valori
- a înlocui valori pornind de la o anumită condiție sau
- a efectua calcule.

După crearea unei coloane calculate, aceasta poate fi folosită pentru sortarea sau gruparea
rezultatelor.

Există trei modalităţi de creare a unei coloane calculate într-o interogare (Figura nr. 10):
- coloană agregată (Summarized column)
- coloană recodificată (Recoded column)
- coloană calculată (Advanced expression)

Figura nr. 10 Modalităţi de creare a unei coloane calculate

10
Coloană agregată

Există posibilitatea aplicării unei funcții de agregare pe oricare dintre coloanele interogării.

După crearea unei coloane agregate sau a unei coloane calculate care conține o funcție de
agregare, pentru ca rezultatele să aibă o semnificație, datele pot fi grupate în funcție de
valorile unei coloane. Această operație este echivalentă cu folosirea clauzei GROUP BY
într-o interogare SQL.

Implicit, atunci când rulăm o interogare, aceasta este grupată după toate coloanele pe care
trebuie să le afișeze și nu va calcula funcțiile de agregare pentru un anumit grup de valori.

Pentru a specifica variabila de grupare dorită se debifează opțiunea Automatically select


groups și apoi Edit Groups (Figura nr.12).

11
Figura nr. 11 Gruparea rezultatelor după o anumită coloană

12
Coloană recodificată
Prin intermediul facilității de recodificare a unei coloane se permite crearea unei coloane
calculate prin recodificarea:

- unei valori individuale sau a

- unui domeniu de valori.

Aceasta mai poartă și denumirea de înlocuire a valorilor după anumite criterii.

Recodificarea este o modalitate eficientă de grupare a valorilor. Facilitatea de calculare efectivă


a unei coloane permite folosirea editorului avansat de expresii.

Dacă în cadrul opțiunii Select Data se dorește gruparea datelor, se pot utiliza facilitățile din zona
Summary pentru a realiza subseturi de date grupate pe baza unor condiții specificate de
utilizator. Se specifică valorile care se înlocuiesc. Se pot înlocui valori punctuale, domenii de valori
sau se pot specifica condiţii care vor fi transformate în clauze CASE ale limbajului SQL.

Noua coloană recodificată este automat inclusă în tab-ul Select Data. Poate fi folosită în
crearea de filtre sau pentru sortarea datelor.

13
Figura nr. 12 Noua coloană recodificată este automat inclusă în tab-ul Select Data

14
Coloană calculată

A treia opţiune permite folosirea editorului avansat de expresii pentru definirea unei noi
coloane pe baza unei formule de calcul.

Figura nr.13 Utilizarea ferestrei Build an advanced expression

15
În scopul calculului valorilor unei coloane se pot utiliza, de asemenea, și funcțiile. O funcție
preia o valoare și o transformă în altă valoare, SAS Enterprise Guide dispunând de o
multitudine de funcții predefinite.

O expresie poate fi creată prin intermediul funcțiilor, efectuând clic pe opțiunea


Functions (figura nr. 3) aflată în partea de jos a ferestrei Build an advanced expression.
Aceasta permite afișarea tuturor funcțiilor grupate în categorii, precum și afișarea tuturor
funcțiilor, în ordine alfabetică.

Odată selectată o funcție, va fi afișată adiacent și o descriere a sintaxei acesteia. Multe dintre
funcții necesită un parametru, iar comentariul afișat în expresie indică tipul valorii care va
trebui utilizat.

Figura nr. 14 Utilizarea funcțiilor predefinite

16
Opțiunea Filter Data

Prin intermediul opțiunii Filter Data, utilizatorul poate selecta numai acele rânduri care
corespund unui anumit criteriu bazat pe valorile din anumite coloane (figura nr. 15).
Pentru a realiza acest lucru:
- fie se selectează numele coloanei și se trage în zona filtrului,
- fie se realizează dublu-clic pe numele coloanei din listă.

Condițiile de filtrare se definesc în fereastra New Filter.

Figura nr. 15 Opțiunea Filter Data

17
Se pot defini două tipuri de filtre: filtre simple şi filtre avansate.

Pentru un filtru simplu, trebuie selectat operatorul de comparaţie şi introduse valorile sau
valoarea de comparat. Aceste valori pot fi preluate şi din valorile câmpului respectiv stocate
în tabela SAS corespunzătoare. Dacă în câmpul Value trebuie să introducem valori
nenumerice, atunci acestea trebuie incluse între ghilimele şi trebuie să se ţină cont de faptul
că valorile sunt case-sensitive.

Pentru filtrele avansate, se pot crea expresii complexe prin intermediul unui editor de
expresii avansate. Operatorii de comparaţie disponibili includ operatori standard, dar şi
operatori avansaţi.

18
Figura nr. 16 Definirea condițiilor de filtrare

Figura nr. 17 Aplicarea unui filtru

19
Combinarea filtrelor

Atunci când se creează unul sau mai multe filtre asupra datelor, se poate specifica dacă
relaţiile dintre filtre sunt de tip AND sau OR. De asemenea, pentru condiţii complexe, filtrele
pot fi grupate.

Când se combină mai multe filtre, relația AND este implicită.

Figura nr. 18 Combinarea filtrelor

Dacă s-ar dori (ceea ce nu e cazul în exemplul de față) schimbarea operatorului, ar trebui
urmați pașii de mai jos:

1. Se efectuează clic pe butonul Combine Filter (figura nr. 19).

20
Figura nr. 19 Vizualizarea combinației condițiilor de filtrare

21
2. Se efectuează clic pe operatorul AND dintre cele două condiții de filtrare. Prin această
operație se va deschide un meniu prin care se permite schimbarea relației dintre filtre
(figura nr. 20).

Figura nr. 20 Schimbarea combinației condițiilor de filtrare

22
Opțiunea Sort Data

Pentru a sorta datele în funcție de valorile din una sau mai multe coloane se adaugă coloana
în tab-ul Sort Data, se selectează ordinea de sortare (ascendentă sau descendentă).

Ordinea de sortare va fi definită de ordinea în care sunt adăugate coloanele în tab-ul


Sort Data (figura nr. 21).

Figura nr. 21 Opțiunea Sort Data

Când interogarea a fost finalizată, prin intermediul butonului Run ea va fi procesată. Pe ecran
(în fereastra principală) vor apărea rezultatele și în proiect va fi adăugat un element specific
interogării.

Aceasta va putea fi redeschisă efectuând dublu-clic pe elementul corespunzător din fereastra


Project Tree (figura nr. 22).

23
Figura nr. 22 Rezultatele unei interogări

Pornind de la specificațiile unei interogări, Query Builder generează cod SQL (Structured
Query Language), ceea ce înseamnă că, pentru a realiza o largă varietate de interogări de bază sau
avansate, nu este necesar ca utilizatorul să dețină cunoștințe de informatică, dar dacă utilizatorul
este familiarizat cu limbajul SQL, el poate modifica cu ușurință codul generat. De exemplu, când
se selectează anumite rânduri, prin intermediul opțiunii Filter Data, Query Builder creează o
clauză WHERE bazată pe informațiile specificate de utilizator. În figura nr. 23 este prezentat un
exemplu de cod generat (procedură SQL) de către Query Builder.

Figura nr. 23 Exemplu de cod SQL

24
6.2. Setarea opțiunilor unei interogări

Meniul Options din Query Builder permite setarea opțiunilor pentru o anumită interogare
sau opțiuni implicite pentru toate interogările (figura nr. 24).

➢ Dacă s-a selectat Defaults for All Queries, pe ecran va apărea fereastra Options.
Opțiunile care vor fi setate prin intermediul acestei ferestre vor fi aplicate tuturor
interogărilor care vor fi procesate de aici înainte.

➢ Dacă se selectează Options for This Query, pe ecran se va deschide fereastra Results
Options. Opțiunile care vor fi setate prin intermediul acestei ferestre vor rescrie opțiunile
implicite care au fost setate prin intermediul ferestrei Options.

Figura nr. 24 Setarea opțiunilor interogării

25
După ce interogarea a fost procesată, pot fi setate câteva opțiuni, prin intermediul ferestrei
Properties. Această fereastră poate fi deschisă realizând clic-dreapta pe icoana pentru
interogare din fereastra Project Tree și apoi selectând Properties.

Pentru a aplica schimbările făcute, interogarea va trebui rulată, rezultatele putând fi


suprascrise sau salvate separat.

Setarea opțiunilor pentru o interogare specifică – utilizând fereastra Query Options 


Results, Server pot fi schimbate opțiuni ca tipul formatului rezultatului, numele datelor de
ieșire și locul în care acestea vor fi salvate, precum și serverul unde va fi procesată
interogarea.

În zona Output data din Results pot fi văzute și schimbate numele datelor de ieșire și
biblioteca unde ele vor fi salvate. În mod implicit, SAS Enterprise Guide salvează datele de
ieșire ale unei interogări în prima bibliotecă în care se poate scrie: Egtask, Sasuser și Work.
De asemenea, pot fi definite biblioteci adiționale. Se poate utiliza opțiunea Change pentru a
specifica utilizarea unei biblioteci diferite pentru a salva datele de ieșire.

În zona SAS server for this query din Server, se poate vizualiza și schimba serverul care va
fi utilizat pentru procesarea interogării. Dacă se dorește schimbarea serverului utilizat, se
efectuează clic pe lista drop-down Server și se selectează unul dintre serverele pentru care
există permisiunea de acces.

În mod implicit, SAS Enterprise Guide execută interogarea pe serverul pe care a fost
rezidentă prima tabelă inclusă în interogare.

Orice date din interogare care sunt rezidente pe alte servere sunt copiate temporar pe serverul
pe care se procesează interogarea. Deoarece este de preferat să se minimizeze volumul de
date copiate între servere, este bine ca cea mai mare tabelă să fie introdusă prima în
interogare.

26
6.3. Specificarea formatului rezultatelor unei interogări

După terminarea introducerii în Query Builder a specificațiilor interogării, se pot genera


rezultatele acesteia. În acest scop pot fi utilizate mai multe opțiuni de generare a ieșirilor.

Alegerea unui tip de rezultat înainte de rularea interogării este o garanție a faptului că
interogarea va oferi informațiile în formatul potrivit. De exemplu, dacă utilizatorul dorește să
vizualizeze rezultatele interogării într-un browser Web, el poate genera rezultatele sub forma
unui raport HTML.

Utilizatorul poate genera rezultatele interogării în mai multe formate și anume data table,
data view și report, fiecare dintre acestea oferind diverse avantaje.

În tabelul nr. 1 sunt prezentate formatele de rezultate pentru o interogare și caracteristicile lor.

Tabelul nr. 1 Formatele de rezultate pentru o interogare

Format rezultat Caracteristicile datei Rezultate interogare

O tabelă statică asupra căreia se pot realiza


Data table Stocată permanent, putând fi prelucrări. Rezultatele nu sunt actualizate
utilizată și în alte scopuri până la reexecutarea interogării.

O viziune dinamică a datelor asupra căreia


se pot realiza prelucrări. De fiecare dată
Data view Actualizată în permanență când rezultatele interogării sunt deschise,
acestea sunt actualizate pentru a reflecta
schimbările care s-au realizat, între timp,
asupra datelor incluse în interogare.
Un raport în formatul care este specificat
(HTML, PDF, RTF text sau raport SAS).
Report Formatat pentru prezentare Rezultatele nu sunt actualizate până la
reexecutarea interogării. Nu se pot efectua
prelucrări asupra acestui format de
rezultat.

27
Data view – dacă o tabelă de date (data table) stochează datele efective, o tabelă virtuală
(data view) conține numai logica necesară pentru regăsirea datelor care sunt stocate în alte
locații. Data view-urile permit citirea dinamică a datelor fără a folosi spațiul fizic de stocare
de pe disc pentru crearea unei noi tabele.

Acest tip de format de ieșire pentru o interogare este util deoarece:


➢ Salvează spațiul de memorie prin dimensiunile lor reduse;

➢ Asigură faptul că seturile de date de intrare sunt întotdeauna actualizate;

➢ Pot ascunde de utilizatori anumite coloane confidențiale, pot conține coloane calculate
fără să existe vizibilitate asupra coloanelor implicate în calcul, permițându-le, în
același timp, să vadă alte coloane;

➢ Ascund utilizatorului joncțiuni sau interogări complexe.

Setarea opțiunilor unei interogări pentru:


- a genera ieșiri într-un anumit format și
- creșterea numărului de rânduri afișate în fereastra Preview

se realizează conform pașilor următori:

1. În fereastra Project Tree sunt afișate seturile de date care vor fi utilizate

2. Se selectează Tools  Options

Figura nr. 25 Setarea Options

28
3. În Query, se realizează clic în box-ul Number of rows to display in preview results
window în care se va introduce valoarea dorită (numărul de rânduri care se dorește să
fie afișate în fereastra Preview).

Figura nr. 26 Setarea opțiunilor unei interogări pentru a crește numărul de rânduri
care sunt afișate în fereastra Preview

29
4. Se realizează clic pe lista de tip drop - down, Save query result set as și se selectează
formatul dorit (Data table, Data view sau Report – HTML, etc.). Click OK.

Figura nr. 27 Setarea opțiunilor unei interogări pentru a genera ieșiri într-un anumit
format

30
7. Joncţiunea tabelelor în cadrul unei interogări

Joncţiunea tabelelor se utilizează atunci când se dorește:

➢ Să se calculeze o nouă coloană folosind ca intrări date din coloane stocate în tabele diferite.

➢ Să se adauge informaţii dintr-o tabelă asociativă pentru a le introduce în tabela de analiză.

➢ Să se identifice dacă valorile unei coloane se regăsesc sau nu în alte tabele.

Tabelele care participă la joncţiune trebuie să aibă cel puțin o coloană comună. Această
coloană trebuie să conţină valori care:
- să se potrivească exact sau
- să poată fi cu uşurinţă comparate între tabele.

O joncţiune creată între coloane ale căror valori au corespondent exact se numeşte joncțiune
internă (inner join) şi reprezintă tipul de joncţiune implicită în SAS Enterprise Guide.

Pe lângă acest tip, sunt suportate şi alte tipuri de joncţiuni, cum sunt joncţiunile externe.

Într-o interogare se pot realiza joncţiuni între maxim 32 de tabele diferite.

Atunci când, într-o interogare, se adaugă mai mult de o tabelă, Query Builder încearcă automat să
realizeze joncţiunea între tabele, pe baza coloanelor care au același nume şi același tip.

Dacă în tabelele pe care se dorește realizarea joncțiunii nu există coloane cu același nume, dar
există coloane care conțin date de același tip, joncțiunea poate fi realizată manual (figura nr. 1).

1
Figura nr. 1 Joncțiunea după coloane cu nume diferit

Când utilizatorul încearcă să adauge o tabelă cu care Query Builder nu poate realiza în mod
automat joncțiunea, va deschide fereastra Tables and Joins. Pentru a realiza joncțiunea dintre
tabele se va executa clic-dreapta pe coloana din prima tabelă și se va selecta opțiunea Join
[column-name] with apoi, din meniu se va selecta coloana corespondentă din cealaltă tabelă.

O altă modalitate de a realiza joncțiunea este de a selecta numele coloanei din una dintre tabele,
apoi, ținând apăsat butonul stâng al mouse-ului, se va muta pointerul pe numele coloanei
corespunzătoare din cealaltă tabelă.

În tabelul nr. 1 sunt prezentate tipurile de joncțiuni posibil de realizat într-o interogare.
Zona întunecată marchează rândurile pe care le va returna ca ieșire tipul respectiv de joncțiune.

2
Tabelul nr. 1 Tipurile de joncțiuni

Tip joncţiune Rânduri returnate de rezultatul interogării

Numai rândurile care au corespondent


inner

Tabela1 Tabela 2

Toate rândurile (care au corespondent şi care nu au corespondent) din


prima tabelă a interogării, plus rîndurile care au corespondent din cea de-a
left outer doua tabelă

Tabela 1 Tabela 2

Toate rândurile (care au corespondent şi care nu au corespondent) din


cea de-a doua tabelă a interogării, plus rîndurile care au corespondent din
right outer prima tabelă

Tabela 1 Tabela 2

Toate rândurile din amândouă tabelele


full outer

Tabela 1 Tabela 2

3
8. Prelucrarea datelor și personalizarea rezultatelor

8.1. Caracteristici generale ale procedurilor de date

8.1.1. Selectarea variabilelor analizate și a rolurilor

8.1.2. Exportarea rezultatelor

8.1.3. Includerea parametrilor în prelucrări

8.1.4. Personalizarea stilului de afișare

8.1.5. Combinarea rezultatelor unui proiect

8.2. Generarea statisticilor Summary

8.2.1. Prelucrarea Summary Statistics

8.2.2. Prelucrarea Summary Tables

8.3. Personalizarea rezultatelor

8.3.1. Crearea și aplicarea formatelor personalizate

8.3.2. Crearea de grafice

1
8.1. Caracteristici generale ale procedurilor de date

Prelucrările SAS EG generează cod SAS şi rezultate formatate. Prelucrările includ proceduri SAS
care variază de la simple liste de date, la cele mai complexe proceduri analitice.

După ce în proiect au fost introduse datele:


- se pot crea rapoarte sau
- se pot executa proceduri pentru analiza datelor. În acest scop se poate selecta o procedură
din Task List sau din meniul Tasks.

Anumite prelucrări beneficiază de un instrument opţional de tip Wizard (asistent de configurare)


care poate fi folosit pentru a seta rapid rezultatele prelucrării: Summary Statistics, Summary
Tables, Bar Chart, Pie Chart and Line Plot.

Prelucrările create cu un astfel de instrument sunt identificate cu o baghetă pe icoana corespunzătoare


prelucrării. Pentru a reveni la caseta de dialog tradiţională a prelucrării, după ce aceasta a fost creată cu un
asistent de configurare, faceţi clic dreapta pe pictograma asociată prelucrării şi selectaţi Open  Open In
Advanced View....

8.1.1. Selectarea variabilelor analizate și a rolurilor

În SAS Enterprise Guide, fereastra aferentă prelucrărilor (task-urilor) are un format standard
(figura nr. 1, astfel încât utilizatorul, dacă este familiarizat cu execuția unui task, să le poată utiliza
cu ușurință pe celelalte.

În partea stângă a fiecărei ferestre de prelucrare se găsește un panou de selecţie care se utilizează
pentru selecția grupurilor de opțiuni aferente prelucrărilor.

De asemenea, toate procedurile au o zonă de date (Data) prin intermediul căreia utilizatorul va
aloca variabilele la rolurile prelucrării.

2
Figura nr. 1 Exemplu de fereastră de prelucrare

Box-ul Variables to assign listează variabilele (coloanele) din setul de date. Pictograma alăturată
fiecărei variabile indică tipul acesteia și anume:

Pictograma Tipul variabilei

O variabilă de tip caracter

O variabilă de tip numeric în format numeric

O variabilă de tip numeric în format data

O variabilă de tip numeric în format timp

O variabilă de tip numeric în format monedă

3
Box-ul Task roles listează modurile în care variabilele pot fi utilizate de către prelucrare.

Pentru a putea fi executată o anumită prelucrare, este necesar ca cel puțin o variabilă să fie selectată
în rolul List variables.

Pictogramele din dreptul fiecărui rol indică tipul de variabilă care poate fi alocat acelui rol.
- rolul List variables acceptă toate tipurile de variabile, dar
- rolul Total of acceptă numai variabile numerice.

Atribuirea variabilelor la roluri se realizează prin tragerea lor din lista Variables to assign în rolul
adecvat aflat în lista Task roles. Dacă unui anumit rol au fost asignate mai multe variabile, acestea
pot fi ordonate prin intermediul butoanelor cu săgeți.

Pentru anumite roluri, numărul de variabile care le pot fi asignate este limitat, caz în care limita este
indicată sub numele rolului. De asemenea, pentru fiecare prelucrare există mai multe opțiuni care,
în panelul de selecție, sunt grupate pe categorii. Multe dintre prelucrări permit specificarea de titluri
și de footnote-uri pentru rezultatele aferente lor.

Din moment ce au fost asignate variabile la roluri și au fost setate opțiunile prelucrării, SAS
Enterprise Guide generează cod SAS pe care utilizatorul îl poate vizualiza prin intermediul
butonului Preview code.

Prin utilizarea butonului Run, codul este trimis motorului SAS și executat. După execuție,
utilizatorul poate accesa datele de intrare, precum și toate ieșirile prelucrării făcând clic pe tab-urile
din zona de lucru.

Deși, când se execută prelucrarea fereastra aferentă ei se închide, selecțiile făcute sunt salvate și se
poate redeschide prelucrarea prin utilizarea butonului Modify Task din panelul de instrumente al
zonei de lucru. Dacă prelucrarea nu este deschisă în zona de lucru, ea se poate redeschide și făcând
clic-dreapta pe numele ei din zona aferentă arborelui proiectului (Project Tree) și selectând
opțiunea Modify task-name.

4
8.1.2. Exportarea rezultatelor

Rezultatele prelucrării pot fi exportate:

- din zona aferentă arborelui proiectului (Project Tree) sau

- din fereastra fluxului de process (Process Flow).

Rezultatele unei prelucrări pot fi exportate ca:

- raport într-un fişier în format SAS Report (*.srx) sau în

- alte formate ca html, xml sau pdf (figura nr. 2).

Figura nr. 2 a) Exportul rezultatelor prelucrărilor

5
Raportul poate fi:

- exportat direct (Export) sau

- exportul se poate adăuga ca un pas de export la actualul proiect SAS EG, astfel încât
raportul să fie exportat de fiecare dată când proiectul este rulat (Export as a step in project)

Figura nr. 2 b) Exportul rezultatelor prelucrărilor – prin opțiunea Export

6
8.1.3. Includerea parametrilor în prelucrări

Parametrii oferă posibilitatea utilizatorului de a introduce date în SAS EG în timpul executării


codului. Includerea parametrilor în cod creşte capacitatea de reutilizare a codului (figurile nr. 3, 4).

➢ Se pot defini parametri care să ceară utilizatorului să selecteze sau să introducă una sau mai
multe valori atunci când se execută o prelucrare, o interogare, un program sau o procedură
stocată.

➢ De asemenea, parametrii permit utilizatorului să furnizeze numele unei variabile pentru a


rula o prelucrare sau o valoare pentru expresia unui filtru într-o interogare sau program.

La momentul execuţiei, pentru fiecare parametru se generează una sau mai multe macro-variabile.

Definirea unui parametru se poate realiza selectând din meniul View opțiunea Prompt Manager.

Definirea opțiunilor generale ale unui parametru:

o Name – acest nume va fi folosit în codul SAS pentru a referi parametrul

o Displayed text – textul pe care îl vede utilizatorul atunci când prelucrarea se execută

o Options – opțiuni suplimentare

Figura nr. 3 Definirea oțiunilor generale ale unui parametru

7
Definirea tipului și variabilelor unui parametru

o Prompt type - Tipul definește modul în care parametrul va putea fi folosit

o Variables to assign - Numele variabilelor pot fi încărcate în lista valorilor din


sursele de date existente.

Figura nr. 4 Definirea tipului și variabilelor unui parametru

8
8.1.4. Personalizarea stilului de afişare

SAS Enterprise Guide foloseşte un stil implicit pentru afişarea rezultatelor generate în
format HTML. Un stil poate fi descris ca:

➢ un set de specificaţii care controlează afişarea unui rezultat de tip HTML și

➢ este bazat pe Cascading Style Sheets (CSS)

Un CSS (Cascading Style Sheet) este un fişier care conţine instrucţiuni despre modul cum să se
afişeze conţinutul unui document HTML. Un CSS poate controla aproape orice aspect al formatării
unei pagini HTML, inclusiv stiluri şi font-uri ale textului, culori, margini sau imagini.

După modificarea unui stil, rezultatul nu trebuie reexecutat pentru ca stilul să fie aplicat.

Se poate adăuga un stil nou prin:

➢ referirea unui stil stocat într-un document extern sau

➢ pornind de la un stil predefinit în SAS EG.

9
Mai departe, utilizatorul poate personaliza stilul cu ajutorul editorului de stiluri (Style Manager).
Stilurile predefinite oferite de SAS nu pot fi modificate din editor, numai o copie a acestora poate fi
modificată.

Instrumentul Style Manager (figura nr. 5) poate fi folosit pentru a modifica stilul implicit sau
pentru a adăuga, şterge sau edita stiluri existente.

Figura nr. 5 Style Manager

10
8.1.5. Combinarea rezultatelor unui proiect

Rapoartele compuse permit combinarea rezultatelor mai multor prelucrări din proiect într-un
singur document. Facilitatea se accesează selectând opțiunile File  New  Report (figura nr. 6).

Atunci când se previzualizează sau salvează documentul, SAS Enterprise Guide include rezultatele
HTML create la ultima execuţie a fiecărei prelucrări. Documentul este actualizat dinamic.

Figura nr. 6 Raport compus

11
8.2. Generarea statisticilor Summary

Prin intermediul funcției Summary Statistics pot fi realizate:

- un raport, care poate include histograme și,

- un set de date în format SAS, care poate fi exportat în Microsoft Excel - dacă se alege
opțiunea Save statistics to dataset (figura nr. 7).

12
Figura nr. 7 Rezultate Summary Statistics

13
8.2.1. Prelucrarea Summary Statistics

Prelucrarea Summary Statistics dispune de un wizard precum și de un box standard de dialog care
pot fi utilizate pentru setarea rezultatelor.

Box-ul standard de dialog poate fi accesat din meniul Task selectând opțiunea Describe și apoi
opțiunea Summary Statistics, iar wizard-ul prin intermediul opțiunilor Describe  Summary
Statistics Wizard (figura nr. 8).

Task  Statistics  Summary Statistics

Task  Describe  Summary Statistics

Task  Describe  Summary Statistics Wizard

Figura nr. 8 Lansarea în execuție a prelucrării Summary Statistics

14
Prelucrarea Summary Statistics are următoarele roluri (figura nr. 9):

➢ Calcularea de statistici pentru variabilele numerice selectate de utilizator

➢ Specificarea variabilelor ale căror valori definesc grupuri.

Figura nr. 9 Rolurile prelucrării Summary Statistics

În plus, prin setarea opțională (Group variable) și intermediul butonului Advanced, sunt oferite
următoarele facilități:

Group variable – pentru fiecare grup vor fi generate statistici descriptive separate. Grupurile vor fi
determinate prin intermediul valorilor variabilelor asignate acestei facilități.

• Frequency count – se va analiza frecvența de apariție a unei variabile.

• Relative weight – se va defini o variabilă ale cărei valori vor fi utilizate pentru a calcula
medii ponderate, dispersii și sume.

• Copy Variable – variabilele asignate acestei facilități vor fi incluse ca variabile adiționale
în setul de date de ieșire.

15
16
Prin intermediul acestei prelucrări, utilizatorul poate opta pentru obținerea anumitor statistici și
rezultate (figurile nr. 10, 11).

Figura nr. 10 Alegerea statisticilor

Figura nr. 11 Alegerea rezultatelor

17
O dată realizată prelucrarea Summary Statistics prin intermediul wizard-ului aferent ei, efectuând
clic-stânga pe pictograma ei din cadrul ferestrei Project Tree, și selectând opțiunea Open in
Advanced View, utilizatorul poate alege între alte câteva opțiuni avansate, și anume:

• sortarea după o variabilă de clasificare

• aplicarea unui anumit format unei variabile de clasificare

• includerea în calcule a valorilor lipsă

• specificarea de combinații pentru variabilele de clasificare.

Dacă pentru rolul Classification se selectează una sau mai multe variabile, pentru specificarea
nivelului de sumarizare a datelor se poate selecta una dintre următoarele opțiuni:

• sumarizarea numai după combinația tuturor variabilelor de clasificare (N-way only)

• sumarizarea tuturor combinațiilor variabilelor de clasificare (All ways)

• indicarea unor combinații specifice pe baza cărora vor fi sintetizate datele (Specify ways).

De exemplu, dacă se selectează trei variabile pentru clasificare, utilizatorul poate specifica toate
combinațiile, două variabile sau trei variabile prin introducerea în câmpul text a cifrelor 1, 2 sau 3.

Dacă sumarizarea se face după 0 variabile, se vor calcula statisticile pentru întreg setul de date.

Variabilele analizate trebuie să fie întotdeauna numerice.

Variabilele de clasificare sunt, de obicei, de tip caracter sau numerice discrete, dar pot fi și valori
numerice continue care au aplicat un format discret.

18
8.2.2. Prelucrarea Summary Tables

Prelucrarea Summary Tables afișează statisticile descriptive, pentru una sau mai multe variabile,
sub forma unui tabel tabular (figura nr. 12).

Figura nr. 12 Prelucrarea Summary Tables

19
În cadrul acestei prelucrări, utilizatorul poate seta variabilele analizate, statisticile care vor fi
calculate, precum și forma raportului (figura nr. 13).

Figura nr. 13 Realizarea raportului Summary Tables

20
Variabilele analizate trebuie să fie întotdeauna numerice.

Variabilele de clasificare sunt, de obicei, de tip caracter sau numerice discrete, dar pot fi și valori
numerice continue care au aplicat un format discret.

Modul în care se selectează variabilele analizate, statisticile, precum și variabilele de clasificare se


poate observa în figurile nr. 14, 15.

Figura nr. 14 Selectarea variabilelor analizate și statisticilor

21
Figura nr. 15 Selectarea variabilelor de clasificare

Specificarea totalurilor pentru coloane, rânduri și pagini se poate realiza conform figurii nr. 16.

Figura nr. 16 Specificarea totalurilor


22
Se vor obține rezultate intermediare pe baza cărora utilizatorul poate să stabilească ce modificări
mai dorește să efectueze (figura nr. 17).

Figura nr. 17 Rezultate intermediare

23
Pentru îmbunătățirea aspectului tabelei rezultatelor (figura nr. 18), se poate utiliza opțiunea Table
Properties a prelucrării (prin clic-dreapta în zona aferentă fiecărui element și schimbarea
proprietăților), pentru a realiza:

• schimbarea etichetei pentru valorile lipsă (din simbolul _ în alt simbol);

• schimbarea modului implicit de afișare a valorilor statisticilor din raport;

• asignarea unei etichete descriptive la o variabilă sau eliminarea unei etichete;

• asignarea unui format de afișare specific la fiecare statistică descriptivă, în mod individual;

• adăugarea de note adiționale sau text în zona box-ului tabelei.

Figura nr. 18 Schimbarea proprietăților elementelor tabelei

24
8.3. Personalizarea rezultatelor

8.3.1. Crearea și aplicarea formatelor personalizate

Formatele pot fi utilizate:


- fie pentru a controla aspectul afișării datelor,
- fie pentru a grupa valorile datelor pentru analize.

Pentru a realiza un nou format se accesează procedura Create Format, din meniul bară, iar apoi se
selectează opțiunile Data  Create Format (figura nr. 19).

Figura nr. 19 Procedura Create Format

25
Selectând mai departe Options se deschide fereastra din figura nr. 20, prin intermediul căreia se pot
introduce opțiunile legate de format, respectiv:
- numele formatului,
- tipul acestuia (numeric sau caracter),
- lățimea lui și
- locația în care el va fi stocat.

Figura nr. 20 Fereastra Options

Câmpul Format name – Numele formatului trebuie să înceapă cu o literă sau cu caracterul
underscore și nu se poate termina cu o cifră. Pentru un set complet de reguli pentru nume se va
selecta opțiunea Help din procedura Create Format.

Opțiunea Currently assigned libraries. WORK (temporary) – Implicit există numai pe durata
unei sesiuni SAS Enterprise Guide. Când se încheie sesiunea, formatul este șters. Aceasta înseamnă
că dacă se închide sesiunea de lucru, apoi se redeschide, pentru a putea utiliza formatul, trebuie
reexecutată procedura Create Format.

26
În fereastra Define Formats (figura nr. 21), se construiește o tabelă de corespondență pentru a
asocia valorile datelor cu valorile formatate. Se definește o etichetă pentru a specifica textul care va
fi afișat în locul datelor originale.

Tipuri de coloane:
• Discrete – acceptă valori singulare, de exemplu Europa sau OK
• Range – acceptă o valoare limita-minimă, cum ar fi 100 și o valoare limită-maximă, ca 200,
pentru a defini o gamă de valori. Punctele extreme pot fi proiectate ca inclusive sau
exclusive.

Trebuie remarcat faptul că definițiile formatului sunt case-sensitive. Prin urmare, textul furnizat
prin intermediul câmpului Values al procedurii Create Format trebuie să fie identic cu textul din
coloana sau coloanele din tabela de date asupra cărora se va aplica formatul.

Figura nr. 21 Fereastra Define Formats

27
În figura nr. 22 se poate observa modul în care se definesc etichetele. În box-urile Values nu este
permisă introducerea cuvintelor cheie High și Low. Acestea se vor selecta din lista drop-down.

Figura nr. 22 Fereastra Define Formats – definire etichete

28
Utilizarea metodei de a specifica un format de coloană se aplică numai în cazul unei prelucrări
particulare - List Data (figura nr. 23).

Observație. Pentru a aplica formatul la o coloană dintr-un set de date SAS în mod permanent,
trebuie să se modifice proprietățile coloanei în Query Builder sau în Data Grid (modul editare), un
anumit format putând fi aplicat mai multor coloane.

Figura nr. 23 Aplicarea formatului la o coloană specifică

29
8.3.2. Crearea de grafice

SAS Enterprise Guide oferă cinci formate diferite de ieșiri grafice care pot fi selectate prin
intermediul opțiunilor Tools  Options accesate din Results Graph.

Formatele de ieșire grafică sunt următoarele:

• ActiveX (generează graficul ca un control ActiveX. Acesta este formatul de ieșire implicit
care poate fi văzut în Microsoft Internet Explorer din Microsoft Windows).

• Java (generează graficul ca un applet Java. Un applet Java poate fi văzut în orice browser
Web care suportă Java).

• GIF (generează graficul ca un fișier GIF).

• JPG (generează graficul ca un fișier JPG).

• ActiveX image (SAS) (generează graficul ca un fișier PNG utilizând tehnologie ActiveX.
Acest format poate fi generat numai pe servere SAS pentru Windows.

• Java image (SAS) (generează graficul ca un fișier PNG utilizând tehnologie Java. Acest
format poate fi generat de orice server SAS.

• EMF (SAS) (generează graficul ca Microsoft Enhanced Metafile).

Formatele de ieșire ActiveX control și Java applet sunt interactive. Din moment ce a fost generat
un grafic într-un astfel de format, prin clic-dreapta pe pictograma aferentă lui, se pot modifica tipul
graficului și multe alte opțiuni. Fiecare opțiune schimbată este reflectată numai în rezultat și nu în
selecțiile de dialog ale prelucrării, selecții care au fost făcute pentru setarea opțiunilor graficului.

Formatele de ieșire GIF, JPG, ActiveX image, Java image și EMF nu sunt interactive, adică nu se
poate schimba aspectul graficului după ce el a fost generat.

30
Figura nr. 24 Formate de ieșire pentru grafice

31
Meniul Graph include toate procedurile aferente graficelor avansate, precum și wizard-uri
(figura nr. 25).

Figura nr. 25 Tipuri de grafice

32
Principalele tipuri de grafice sunt: bar charts, pie charts, line charts, scatter charts, area plot etc.
Pentru a realiza un grafic de tip bar chart, se pot realiza o serie de setări pentru a personaliza
rezultatele (figurile nr. 26).

Figura nr. 26 Grafice de tip Bar Chart

33
ANALIZA MULTIDIMENSIONALĂ A DATELOR

În continuare vom aborda trei categorii de tehnici de analiză multidimensională a datelor:

1. analiza componentelor principale (ACP)

2. analiza factorială (AF)

3. analiza corespondențelor (AC).

Trăsătura comună a acestor metode este faptul că au același scop principal: reducerea
dimensiunii setului de date. Atingerea acestui obiectiv se realizează în concordanță cu anumite
criterii, care diferă de la o tehnică la alta, și anume:

➢ conservarea unei cantități cât mai mari din variabilitate, în cazul ACP,

➢ explicarea covarianțelor dintre variabile în cazul AF și

➢ identificarea corespondențelor în cazul AC (aceasta fiind o tehnică aplicabilă variabilelor


calitative).

Elementul cauzal care facilitează atingerea scopului acestor analize este prezența legăturilor
între variabile (măsurate prin corelații și covarianțe).

Fundamentul matematic al metodelor este oarecum asemănător, cu particularitățile de rigoare,


fiind vorba în toate cazurile de diagonalizarea unor matrice, de identificarea de vectori și valori
proprii; mai mult, toate metodele pot fi abordate și din punct de vedere geometric: trecerea la un
spațiu de dimensiune redusă, cât mai apropiat de punctele inițiale, ale cărui axe sunt
componentele, factorii și respectiv dimensiunile căutate.

Utilitatea acestor tehnici este dată:

• pe de-o parte, de faptul că pot constitui un scop în sine, când se urmărește construirea unor
indicatori sau identificarea unor construcții latente care generează evoluția comună a unui
grup de variabile și,

• pe de altă parte, de faptul că ele fac posibilă includerea corectă a unor variabile în alte
tipuri de analize (analiză cluster, discriminantă, modele de regresie).

1
ANALIZA COMPONENTELOR PRINCIPALE

1. Considerații generale

2. Modelul matematic al componentelor principale

3. Metoda geometrică
4. Proprietățile componentelor principale

1. Considerații generale

Analiza componentelor principale se poate folosi pentru orice fel de date: nominale, ordinale, de
interval sau de raport, ajustându-se în funcție de tipul acestora.

În funcţie de provenienţă, variabilele care pot face obiectul unei ACP pot lua:

➢ valori cantitative, obţinute în urma unor măsurători,

➢ valori calitative obţinute în urma unor notaţii dar sunt asimilabile cu variabilele cantitative

➢ valori calitative ordinale obţinute în urma unor clasamente dar pot fi transformate în
variabile continue.

Obiectivul principal al metodei de Analiză a Componentelor Principale (ACP) (eng. Principal


Components Analysis - PCA) este reducerea dimensiunii setului de date. Dacă un eșantion este
descris inițial de n variabile, în urma aplicării ACP se urmărește obținerea unei caracterizări
aproape la fel de precisă a obiectelor prin folosirea unui număr redus de noi variabile.

Cea mai simplă modalitate de raportare la aceste noi construcții (inițial egale ca număr cu
variabilele originale) este de a le privi drept medii ponderate ale variabilelor inițiale.

Determinarea ponderilor se face în așa fel încât noile variabile să înmagazineze, în ordine
descrescătoare, cât mai mult din informația primară a setului de date: prima variabilă să aibă
conținutul informațional cel mai mare, a doua să fie următoarea din această perspectivă, iar ultima
să fie cel mai puțin informativă. Având această distribuire descendentă a informației în noile
variabile, se poate renunța la ultimele dintre ele, contribuția lor fiind nesemnificativă.

2
Un alt rezultat important al aplicării ACP este obținerea de noi variabile necorelate între ele
pornind de la setul inițial caracterizat de grade diferite de intercorelare între seriile de date.

Așadar, analiza componentelor principale este o tehnică de analiză multidimensională care, prin
construirea de combinații liniare de variabile inițiale 𝒙𝒊 , permite rescrierea informației conținute
de acestea într-un număr identic de alte variabile 𝒛𝒊 , denumite componente principale, cu
varianță distribuită descrescător și necorelate între ele.

Aceste două proprietăți esențiale ale componentelor principale permit eliminarea suprapunerilor
informaționale caracteristice variabilelor corelate și fac posibilă trecerea la un alt spațiu de
variabile de dimensiune mai mică, în condițiile pierderii unei cantități neînsemnate de informații.
În acest fel, noul set de variabile, lipsit de redundanțe, permite o reprezentare mai clară a
contribuției fiecărei variabile la variabilitatea totală.

Întrucât varianța este o măsură a cantității de informație dintr-o variabilă, prima componentă
principală construită, cea mai informativă, are abaterea medie pătratică cea mai ridicată, iar
ultimele, varianța cea mai mică.

Matematic, dacă considerăm un vector de 𝒏 variabile originale (𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 )′ ,


ACP constă în identificarea unei transformări liniare maximizatoare de varianță prin

aplicarea căreia să se poată trece la un vector de 𝒑 componente principale (𝒛𝟏 , 𝒛𝟐 , … , 𝒛𝒑 )
(𝒑 < 𝒏) care să conserve o cantitate satisfăcător de mare din variabilitatea inițială.

Componentele principale pot fi scrise:

𝑧1 = 𝑎11 ∙ 𝑥1 + 𝑎21 ∙ 𝑥2 + ⋯ + 𝑎𝑛1 ∙ 𝑥𝑛


𝑧2 = 𝑎12 ∙ 𝑥1 + 𝑎22 ∙ 𝑥2 + ⋯ + 𝑎𝑛2 ∙ 𝑥𝑛
⋮ (1)
𝑧𝑛 = 𝑎1𝑛 ∙ 𝑥1 + 𝑎2𝑛 ∙ 𝑥2 + ⋯ + 𝑎𝑛𝑛 ∙ 𝑥𝑛

3
Matriceal, aceste relații pot fi transpuse în:

𝑧1 𝑎11 𝑎21 ⋯ 𝑎𝑛1 𝑥1


𝑧2 𝑎12 𝑎22 ⋯ 𝑎𝑛2 𝑥2
(⋮)=( ⋮ ⋮ ⋱ ⋮ ) ∙ ( ⋮) (2)
𝑧𝑛 𝑎1𝑛 𝑎2𝑛 ⋯ 𝑎𝑛𝑛 𝑥𝑛

ceea ce poate fi sintetizat prin:

𝒛 = 𝑨′ ∙ 𝒙 (3)

𝑧1 𝑥1 𝑎11 𝑎21 ⋯ 𝑎𝑛1 𝑎11 𝑎12 ⋯ 𝑎1𝑛


𝑧2 𝑥2 𝑎12 𝑎22 ⋯ 𝑎𝑛2 𝑎21 𝑎22 ⋯ 𝑎2𝑛
unde 𝑧 = ( ⋮ ), 𝑥 = ( ⋮ ), 𝐴′ = ( ⋮ ⋮ ⋱ ⋮ ), 𝐴 = ( ⋮ ⋮ ⋱ ⋮ )
𝑧𝑛 𝑥𝑛 𝑎1𝑛 𝑎2𝑛 ⋯ 𝑎𝑛𝑛 𝑎𝑛1 𝑎𝑛2 ⋯ 𝑎𝑛𝑛

Prezentarea matricei 𝑨 în formă transpusă se realizează pentru a putea fi mai usor identificată
semnificația coloanelor acesteia, după cum se va vedea pe parcursul expunerii.

În aplicațiile de natură economică, ACP:

• poate fi un scop în sine, atunci când, spre exemplu, se dorește construirea unui indicator
care să păstreze cvasiintegral cantitatea de informații din variabilele care intră în
construcția sa sau

• un pas intermediar din cadrul unei alte analize (pot fi incluse în modele de regresie, în
metodele de recunoaștere a formelor atât în analiza discriminantă, cât și în analiza cluster.

4
2. Modelul matematic al componentelor principale

Primele lucrări în care sunt descrise componentele principale aparțin lui Pearson (1901 – metoda
geometrică) și Hotelling (1933 – metoda algebrică).

▪ În abordarea geometrică, definirea componentelor principale urmărește identificarea unui


subspațiu pe care punctele să fie cel mai bine reprezentate.

▪ În abordarea algebrică, identificarea componentelor principale pornește de la


formularea problemei de maximizare a varianței acestora.

Dacă matricea de covarianță a variabilelor inițiale este

𝝈𝟐𝟏 𝝈𝟏𝟐 ⋯ 𝝈𝟏𝒏


𝟐 ⋯ 𝝈𝟐𝒏
𝚺 = 𝝈𝟐𝟏 𝝈𝟐
⋮ ⋮ ⋱ ⋮
(𝝈𝒏𝟏 𝝈𝒏𝟐 ⋯ 𝝈𝟐𝒏 )

atunci varianța componentei principale 𝑧𝑖 , poate fi scrisă drept:

𝒗𝒂𝒓(𝒛𝒊 ) = 𝒗𝒂𝒓(𝒂(𝒊)′ ∙ 𝒙) = 𝒂(𝒊)′ ∙ 𝚺 ∙ 𝒂(𝒊) (4)

𝑎1𝑖
𝑎2𝑖
unde 𝑎 (𝑖) = ( ⋮ ) este al i-lea vector coloană al matricei 𝐴.
𝑎𝑛𝑖

Așadar, pentru construirea lui 𝑧𝑖 , este nevoie de identificarea vectorului 𝒂(𝒊) care îi asigură un
nivel maxim de variabilitate.

5
➢ Întrucât multiplicarea lui 𝒂(𝒊) cu un scalar ar duce la obținerea unui nou nivel maxim, este
necesară impunerea unei condiții pentru identificare:

𝒂(𝒊)′ ∙ 𝒂(𝒊) = 𝟏 (5)

➢ Însă, aceasta nu rezolvă complet problema, componenta principală continuând să nu fie


unic identificată din perspectiva semnului:

(−𝒂(𝒊)′ ) ∙ (−𝒂(𝒊) ) = 𝒂(𝒊)′ ∙ 𝒂(𝒊) = 𝟏

Impunerea acestei condiții implică de fapt considerarea unor vectori 𝒂(𝒊) de lungime unitară –
cu norma egală cu 1.

‖𝑎(𝑖) ‖ = √𝑎1𝑖 2 + 𝑎2𝑖 2 + ⋯ + 𝑎𝑛𝑖 2 (6)

Problema de maximizat poate fi descrisă astfel:

[𝒎𝒂𝒙 ] 𝒗𝒂𝒓(𝒛𝒊 ) = 𝒂(𝒊)′ ∙ 𝚺 ∙ 𝒂(𝒊)


{ 𝒂 (7)
𝒂(𝒊)′ ∙ 𝒂(𝒊) = 𝟏

Pentru rezolvare, aplicăm metoda multiplicatorilor lui Lagrange:

Pasul 1. Se construiește Lagrangeanul problemei (o problemă clasică de extrem cu legături).

𝑳(𝒂(𝒊) ; 𝝀𝒊 ) = 𝒂(𝒊)′ ∙ 𝚺 ∙ 𝜶(𝒊) − 𝝀𝒊 ∙ (𝒂(𝒊)′ ∙ 𝒂(𝒊) − 𝟏) (8)

6
Pasul 2. Se impun condițiile necesare de optim:

𝜕𝐿
𝜕𝒂(𝒊)
(𝒂(𝒊) ; 𝝀𝒊 ) = 0
{ 𝜕𝐿 (9)
𝜕𝝀𝒊
(𝒂(𝒊) ; 𝝀𝒊 ) = 0

Calculând derivatele parțiale se obține:

2 ∙ 𝚺 ∙ 𝒂 ( 𝒊 ) − 2 ∙ 𝝀𝒊 ∙ 𝒂 ( 𝒊 ) = 0
{ (10)
𝒂(𝒊)′ ∙ 𝒂(𝒊) − 𝟏 = 0

și deci 𝚺 ∙ 𝒂(𝒊) = 𝝀𝒊 ∙ 𝒂(𝒊) (11)

Deoarece Σ este o matrice pătratică, iar 𝝀𝒊 un scalar, 𝒂(𝒊) (diferit de vectorul nul) este vector

propriu al matricei de varianță - covarianță Σ.

Așadar, 𝝀𝒊 este valoarea proprie asociată vectorului propriu 𝒂(𝒊) și este rădăcină a ecuației
caracteristice:
|𝚺 − 𝝀𝒊 ∙ 𝑰| = 𝒅𝒆𝒕(𝚺 − 𝝀𝒊 ∙ 𝑰) = 𝟎

iar vectorul propriu 𝒂(𝒊) este soluție a ecuației matriciale:

(𝚺 − 𝝀𝒊 ∙ 𝑰) ∙ 𝒂(𝒊) = 𝟎 (12)

7
Totodată, 𝝀𝒊 reprezintă și varianța componentei principale 𝒛𝒊 , deoarece, pornind de la relația

(11) și înmulțind cu 𝒂(𝒊)′ la stânga, se obține:

𝒗𝒂𝒓(𝒛𝒊 ) = 𝒂(𝒊)′ ∙ 𝚺 ∙ 𝒂(𝒊) = 𝒂(𝒊)′ ∙ 𝝀𝒊 ∙ 𝒂(𝒊) = 𝝀𝒊 ∙ 𝒂(𝒊)′ ∙ 𝒂(𝒊) = 𝝀𝒊 (13)

𝒗𝒂𝒓(𝒛𝒊 ) = 𝝀𝒊

Ordonând descrescător valorile proprii, 𝝀𝟏 ≥ 𝝀𝟐 ≥ ⋯ ≥ 𝝀𝒏 , componenta principală 𝒛𝒊 se

construiește cu ajutorul vectorului propriu asociat valorii proprii celei mai mari, 𝝀𝟏 .

Vectorii proprii 𝒂(𝒊) sunt ortogonali doi câte doi, 𝒂(𝒊)′ ∙ 𝒂(𝒋) = 𝟎 – consecință a faptului că

matricea Σ este simetrică.

Prin urmare, componentele principale construite cu ajutorul lor moștenesc această proprietate:

𝒛′𝒊 ∙ 𝒛𝒋 = 𝟎 (14)

Matricea 𝑨, care are pe coloane vectorii proprii, 𝒂(𝒊) , ortogonali și de normă 1, este o matrice
ortonormală, având proprietatea că:

𝑨′ ∙ 𝑨 = 𝑨 ∙ 𝑨′ = 𝑰 și deci 𝑨′ = 𝑨−𝟏 .

Matricea de covarianță a componentelor principale,

𝜆1 0 ⋯ 0
0 𝜆2 ⋯ 0
Λ=( ) (15)
⋮ ⋮ ⋱ ⋮
0 0 ⋯ 𝜆𝑛

poate fi scrisă ca
𝚲 = 𝑨′ ∙ 𝚺 ∙ 𝐀 sau 𝚲 = 𝑨−𝟏 ∙ 𝚺 ∙ 𝐀 (16)

8
Pornind de la teoria vectorilor și valorilor proprii pot fi enunțate două proprietăți, importante în
contextul ACP, referitoare la relația dintre matricea Σ și valorile proprii:

1. urma matricei Σ este egală cu suma valorilor proprii 𝒕𝒓(𝚺) = ∑𝒏𝒊=𝟏 𝝀𝒊 ;

2. determinantul matricei Σ este egal cu produsul valorilor proprii |𝚺| = ∏𝒏𝒊=𝟏 𝝀𝒊 .

Aceste proprietăți ilustrează capacitatea componentelor principale de a conserva variabilitatea


spațiului inițial de variabile:

➢ pe de-o parte, urma matricei Σ este egală cu suma elementelor de pe diagonala sa, deci
reprezintă varianța totală a variabilelor inițiale și determinantul ei reprezintă varianța
generalizată iar,

➢ pe de altă parte, varianța totală a componentelor principale este egală cu suma valorilor
proprii, și varianța lor generalizată este determinantul matricei Λ, deci produsul lor.

𝑽𝑻𝒙 = ∑𝒏𝒊=𝟏 𝝈𝟐𝒊 = 𝒕𝒓(𝚺) (17)

𝑽𝑻𝒛 = ∑𝒏𝒊=𝟏 𝒗𝒂𝒓(𝒛𝒊 ) = ∑𝒏𝒊=𝟏 𝝀𝒊 = 𝒕𝒓(𝚺) = 𝑽𝑻𝒙 (18)

𝒏 𝒏

∑ 𝝈𝟐𝒊 = ∑ 𝝀𝒊
𝒊=𝟏 𝒊=𝟏

𝑉𝐺𝑥 = |𝚺| (19)

𝑉𝐺𝑧 = |Λ| = ∏𝒏𝒊=𝟏 𝝀𝒊 = |𝚺| = 𝑉𝐺𝑥 (20)

9
Cantitatea de informație descrisă de o componentă principală 𝒛𝒊 este egală cu raportul dintre
valoarea proprie asociată ei și varianța totală a componentelor principale sau, implicit, a
variabilelor inițiale.

𝝀𝒊 𝝀𝒊
% 𝒅𝒊𝒏 𝒗𝒂𝒓𝒊𝒂𝒏ță = ∑𝒏
= ∑𝒏 𝟐 (21)
𝒊=𝟏 𝝀𝒊 𝒊=𝟏 𝝈𝒊

Întrucât scopul ACP este ca pornind de la un număr ridicat de variabile inițiale (𝑛) să se realizeze
trecerea la un număr mai redus de componente principale (𝑝, 𝒑 < 𝒏) în condițiile unei pierderi
informaționale minime, este necesară determinarea procentului din varianță reținut de cele 𝒑
componente principale. Acesta se calculează sub forma:

𝝀𝟏 +𝝀𝟐 +⋯+𝝀𝒑 𝝀𝟏 +𝝀𝟐 +⋯+𝝀𝒑


% 𝒅𝒊𝒏 𝒗𝒂𝒓𝒊𝒂𝒏ță 𝒄𝒖𝒎𝒖𝒍𝒂𝒕 = = ∑𝒏 𝟐 (22)
𝝀𝟏 +𝝀𝟐 +⋯+𝝀𝒏 𝒊=𝟏 𝝈𝒊

Varianța generalizată este o măsură care ține cont atât de varianța individuală a caracteristicilor,
cât și de covarianțe, de legăturile existente între variabile. Ea este egală cu determinantul
matricei de varianță-covarianță:
𝑽𝑮 = 𝒅𝒆𝒕(𝚺) = |𝚺|

10
3. Metoda geometrică

Din punct de vedere geometric, identificarea componentelor principale este echivalentă cu


definirea unui nou sistem de axe ortogonale și maximizatoare de varianță cu originea în centrul
norului de puncte.

Acesta se construiește prin rotirea axelor inițiale în așa fel încât variabilitatea proiecției punctelor
pe noile axe să fie distribuită descrescător – prima axă fiind cea de-a lungul căreia varianța
proiecției punctelor (scorurilor principale) înregistrează nivelul maxim – și astfel încât axele să
fie ortogonale două câte două.

Matematic, aceasta echivalează cu multiplicarea fiecărui vector 𝒙𝒊 cu o matrice ortogonală 𝑨′


(am considerat matricea în formă transpusă pentru a păstra notația din secțiunea dedicată
modelului matematic).
𝒛𝒊 = 𝑨′ ∙ 𝒙𝒊 (23)

Această transformare nu duce la modificarea poziționării punctelor, ele continuând să se plaseze


la aceeași distanță față de origine și după înmulțirea cu matricea 𝑨′ :

𝒛′𝒊 ∙ 𝒛𝒊 = (𝑨′ ∙ 𝒙𝒊 )′ ∙ (𝑨′ ∙ 𝒙𝒊 ) = 𝒙′𝒊 ∙ (𝑨′ )′ ∙ 𝑨′ ∙ 𝒙𝒊 =

= 𝒙′𝒊 ∙ 𝑨 ∙ 𝑨′ ∙ 𝒙𝒊 = 𝒙′𝒊 ∙ 𝑰 ∙ 𝒙𝒊 = 𝒙′𝒊 ∙ 𝒙𝒊 (24)

Întrucât rotația axelor se realizează în așa fel încât componentele principale obținute să fie
ortogonale, matricea de varianță - covarianță a acestora este o matrice diagonală:

𝜎12 0 ⋯ 0
2 ⋯ 0
𝐂𝐎𝐕(𝒛𝒊 ) = 𝚺𝒛 = 𝑨′ ∙ 𝚺 ∙ 𝐀 = 0 𝜎2 (25)
⋮ ⋮ ⋱ ⋮
( 0 0 ⋯ 𝜎𝑛2 )

unde 𝚺 este matricea de varianță - covarianță a variabilelor inițiale.

11
Teorema de descompunere spectrală spune că o matrice simetrică 𝑴 poate fi scrisă
sub forma 𝑴 = 𝑷 ∙ 𝑫 ∙ 𝑷′ , unde:

➢ 𝑫 este o matrice diagonală care conține valorile proprii ale lui 𝑀, iar

➢ 𝑷 matricea care conține pe coloane vectorii proprii ai matricei 𝑀 (matrice ortonormală),


adică 𝑷′ ∙ 𝑷 = 𝑷 ∙ 𝑷′ = 𝑰

Pornind de la această teoremă, diagonalizarea unei matrice simetrice se poate realiza prin
înmulțirea acesteia cu matricea ei de vectori proprii: 𝑫 = 𝑷′ ∙ 𝑴 ∙ 𝑷.

Așadar, prin simetrie, varianțele de pe diagonala matricei Σ𝑧 sunt valorile proprii ale
matricei simetrice 𝚺,

𝜎12 0 ⋯ 0 𝜆1 0 ⋯ 0
2 ⋯ 0 0 𝜆2 ⋯ 0
𝚺𝒛 = 𝑨′ ∙ 𝚺 ∙ 𝐀 = 0 𝜎2 =( )
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
2
( 0 0 ⋯ 𝜎𝑛 ) 0 0 ⋯ 𝜆𝑛

iar matricea 𝑨′ este echivalenta lui 𝑷′ , conținând, astfel, pe linii vectorii proprii ai matricei de
varianță - covarianță a variabilelor inițiale (Rencher, 2002).

Pentru cazul a două variabile, matricea 𝑨′ cu ajutorul căreia se face rotația axelor are forma:

𝐜𝐨𝐬 𝜽 𝐬𝐢𝐧 𝜽
𝑨′ = ( ) (26)
− 𝐬𝐢𝐧 𝜽 𝐜𝐨𝐬 𝜽

unde 𝜽 este unghiul cu care se rotesc axele.

Folosind această scriere a matricei 𝑨′ , componentele principale 𝒛𝟏 și 𝒛𝟐 pot fi definite ca:

𝒛𝟏 = 𝐜𝐨𝐬 𝜽 ∙ 𝒙𝟏 + 𝐬𝐢𝐧 𝜽 ∙ 𝒙𝟐
𝒛𝟐 = − 𝐬𝐢𝐧 𝜽 ∙ 𝒙𝟏 + 𝐜𝐨𝐬 𝜽 ∙ 𝒙𝟐 (27)

12
4. Proprietățile componentelor principale

Sintetizând informațiile prezentate până acum, se pot formula următoarele proprietăți ale
componentelor principale:

1. Sunt combinații liniare de variabile inițiale.

2. Dacă variabilele inițiale sunt distribuite după legea normală și componentele principale
vor avea aceeași distribuție;

𝑿~𝑵(𝝁, 𝚺) , 𝒁~𝑵(𝟎, 𝚲)

3. Numărul lor este egal cu cel al variabilelor inițiale;

4. Au varianțele distribuite descrescător (𝝀𝟏 ≥ 𝝀𝟐 ≥ ⋯ ≥ 𝝀𝒏 ), prima componentă principală


având varianța maximă, iar ultima, varianța cea mai mică;

5. Conservă varianța totală și varianța generalizată a variabilelor originale

𝑽𝑻𝒛 = 𝑽𝑻𝒙 și 𝑽𝑮𝒛 = 𝑽𝑮𝒙

6. Sunt necorelate între ele (𝑪𝒐𝒗(𝒛𝒊 , 𝒛𝒋 ) = 𝟎, (∀) 𝒊 ≠ 𝒋), iar în termeni vectoriali formează
un sistem ortonormal (sunt ortogonale și au norma (lungimea) egală cu 1, adică suma
pătratelor coeficienților cu ajutorul cărora sunt construiți este egală cu 1).

Valorile pe care le iau variabilele 𝒛𝒊 pentru fiecare instanță a variabilelor inițiale (fiecare
înregistrare) poartă denumirea de scoruri principale și ele reprezintă coordonatele obiectelor în
sistemul de axe format de componentele principale.

13
5. Aplicarea analizei componentelor principale

Deși, în mod tradițional, ACP se aplică asupra matricei de covarianță a variabilelor inițiale
este comună aplicarea sa și asupra matricei coeficienților de corelație dintre acestea.

➢ Optarea pentru cea de-a doua este justificată de existența unor variabile cu unități de
măsură diferite acestea afectând covarianța și varianța, ‒ componentele obținute în acest
caz ar fi lipsite de semnificație, însă nu și coeficienții de corelație.

➢ De asemenea, utilizarea matricei de corelație este utilă atunci când unele dintre variabile au
varianțe ridicate și astfel ar fi dominante în construirea componentelor principale pe baza
matricei de covarianță.

Echivalentul utilizării matricei de corelație este:

- standardizarea în prealabil a variabilelor inițiale, și

- aplicarea ACP asupra matricei de covarianță a acestora

deoarece, pentru variabile standardizate covarianța și coeficienții de corelație sunt egali.

Rezultatele ACP vor varia în funcție de matricea folosită, vectorii și valorile proprii fiind
diferite între cele două matrice. Dacă ACP se aplică asupra datelor standardizate, rezultatul
său poartă numele de componente principale normalizate.

Matricea coeficienților de corelație:

𝟏 𝒓𝟏𝟐 ⋯ 𝒓𝟏𝒏
𝒓 𝟏 ⋯ 𝒓𝟐𝒏
𝑹 = ( 𝟐𝟏 )
⋮ ⋮ ⋱ ⋮
𝒓𝒏𝟏 𝒓𝒏𝟐 ⋯ 𝟏

𝟏
∑𝒏 (𝒙 ̅) (𝒚𝒊 − 𝒚 ̅)
𝒓𝒙𝒚 =
𝒔𝒙𝒚
= 𝒏 − 𝟏 𝒊=𝟏 𝒊 − 𝒙 =
∑𝒏𝒊=𝟏(𝒙𝒊 − 𝒙
̅) (𝒚𝒊 − 𝒚
̅)
∈ [−𝟏, 𝟏]
𝒔𝒙 ∙ 𝒔𝒚 𝒏
̅)𝟐 √∑𝒏𝒊=𝟏(𝒙𝒊 − 𝒙
̅)𝟐 √∑𝒏𝒊=𝟏(𝒚𝒊 − 𝒚 ̅)𝟐 ∙ √∑𝒏𝒊=𝟏(𝒚𝒊 − 𝒚
̅)𝟐
√∑𝒊=𝟏(𝒙𝒊 − 𝒙 ∙
𝒏−𝟏 𝒏−𝟏

1
Alegerea numărului de componente principale necesare pentru a sintetiza în mod eficient
setul de variabile, în condițiile unei pierderi minime de informații, se poate realiza în funcție
de mai multe criterii:

1. Criteriul lui Benzecri (criteriul procentului de acoperire, criteriul cantității de informație)


– alegerea unui număr mic de variabile care să asigure o bună reprezentare a variabilelor
inițiale cu condiția ca procentul din varianța totală reținut de acestea să fie suficient de
mare. Alegerea pragului peste care varianța conservată este considerată satisfăcătoare este
la latitudinea celui care realizează analiza, o cantitate de 70-75% din informații fiind
uneori suficientă, alteori pierderea a 25-30% din variabilitate fiind considerată prea mare;

2. Criteriul lui Kaiser (criteriul valorii supraunitare) – păstrarea acelor componente


principale ale căror varianțe sunt mai mari decât media. În cazul folosirii datelor
standardizate sau a aplicării ACP asupra matricei de corelație, nivelul cu care vor fi
comparate valorile proprii este 1 (nivelul mediu al varianței);

3. Criteriul lui Evrard (criteriul pantei sau "granulozităţii") (Scree Plot) – acest criteriu
presupune analizarea graficului construit pe baza valorilor proprii ale matricei de varianță
- covarianță Σ și identificarea unui punct de inflexiune.

2
Spre exemplu, dacă până la valoarea proprie, 𝝀𝟑 , graficul a avut o pantă lent descendentă,
dar între 𝝀𝟑 și 𝝀𝟒 coborârea este abruptă și urmată de o evoluție relativ constantă între
următoarele valori proprii, numărul de componente principale selectate va fi egal cu 3.

Explicația pentru această alegere este faptul că plusul informațional adus începând cu
componenta 4 este foarte mic, aproape nesemnificativ, în comparație cu variabilitatea
conservată de primele 3 componente.

3
6. Corelația dintre variabilele inițiale și componentele principale

Analiza corelațiilor dintre variabilele inițiale și componentele principale oferă un indiciu cu


privire la numărul de componente principale prin care poate fi sumarizat eficient setul de date.

De cele mai multe ori, numărul de componente principale reținut va fi egal cu numărul de
grupe de variabile puternic corelate. Reducerea dimensiunii setului de date la un spațiu
principal de mărime comparabilă cu numărul de categorii de variabile corelate este cu atât mai
plauzibilă cu cât corelațiile din interiorul grupelor sunt mai strânse și cele dintre grupe mai
slabe. Astfel, componentele principale vor fi mai puternic corelate cu clase diferite de variabile,
care vor fi mai proeminente în construcția lor.

Componentele principale sunt construcții abstracte, iar, la prima vedere, scorurile principale
(valorile pe care le iau variabilele 𝒛𝒊 ) par greu de interpretat și analizat. Însă, prin investigarea
corelațiilor dintre componentele principale și variabilele inițiale, precum și prin examinarea
coeficienților cu care variabilele inițiale intră în construcția lor, componentelor principale li se
poate atribui un sens concret.

Matricea factor

Intensitatea legăturii dintre variabilele inițiale și componentele principale poate fi ilustrată prin
intermediul matricei factor. Această matrice conține coeficienții de corelație dintre vectorii x
și z fiind utilă în interpretarea componentelor principale.

Matricea factor poate fi scrisă ca:

𝟏 𝟏
𝑪𝒐𝒗(𝒙,𝒛)
𝑭 = 𝑪𝒐𝒓𝒓(𝒙, 𝒛) = 𝑽𝒂𝒓(𝒙)−𝟐 ∙ 𝑪𝒐𝒗(𝒙, 𝒛) ∙ 𝑽𝒂𝒓(𝒛)−𝟐 = (28)
√𝑽𝒂𝒓(𝒙)∙√𝑽𝒂𝒓(𝒛)

iar,

𝑪𝒐𝒗(𝒙, 𝒛) = 𝑬 ((𝒙 − 𝑬(𝒙)) ∙ (𝒛 − 𝑬(𝒛)) ) (29)

unde 𝐸(𝑥) = 0 și 𝐸(𝑧) = 0, variabilele fiind centrate înainte de aplicarea ACP.

4
Așadar,

𝑪𝒐𝒗(𝒙, 𝒛) = 𝑬(𝒙 ∙ 𝒛′ ). (30)

În definirea modelului matematic al componentelor principale, vectorul 𝒛 a fost scris ca:

𝒛 = 𝑨′ ∙ 𝒙 (31)

unde 𝑨 este o matrice ortonormală, așa încât 𝑨′ = 𝑨−𝟏 și deci 𝒛 = 𝑨−𝟏 𝒙.

Înmulțind cu 𝑨 la stânga, 𝒙 poate fi scris drept:

𝒙=𝑨∙𝒛 (32)

Înlocuind (32) în (30) obținem:

𝑪𝒐𝒗(𝒙, 𝒛) = 𝑬(𝑨 ∙ 𝒛 ∙ 𝒛′ ) = 𝑨 ∙ 𝑬(𝒛 ∙ 𝒛′ ) = 𝑨 ∙ 𝚲, (33)

𝝀𝟏 𝟎 ⋯ 𝟎
𝟎 𝝀𝟐 ⋯ 𝟎
unde 𝑬(𝒛 ∙ 𝒛′ ) = 𝚲 = ( )
⋮ ⋮ ⋱ ⋮
𝟎 𝟎 ⋯ 𝝀𝒏

este matricea de covarianță a componentelor principale,

𝚲 = 𝑨′ ∙ 𝚺 ∙ 𝐀 sau 𝚲 = 𝑨−𝟏 ∙ 𝚺 ∙ 𝐀

5
iar matricea factor poate fi scrisă ca:

𝟏 𝟏 𝟏 𝟏
𝑭 = 𝑪𝒐𝒓𝒓(𝒙, 𝒛) = 𝑽𝒂𝒓(𝒙)−𝟐 ∙ 𝑨 ∙ 𝚲 ∙ 𝚲−𝟐 = 𝑽𝒂𝒓(𝒙)−𝟐 ∙ 𝑨 ∙ 𝚲𝟐 (34)

𝜎1−1 0 ⋯ 0 𝑎11 𝑎12 ⋯ 𝑎1𝑛 √𝜆1 0 ⋯ 0


−1 ⋯ 0 𝑎21 𝑎22 ⋯ 𝑎2𝑛 ⋯ 0
𝑭 = ( 0 𝜎2 )∙( ⋮ ⋮ ⋱ ⋮ )∙
0√𝜆2 (35)
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
0 0 ⋯ 𝜎𝑛−1 𝑎𝑛1 𝑎𝑛2 ⋯ 𝑎𝑛𝑛
( 0 0 ⋯ √𝜆𝑛 )

√𝜆1 𝑎11 √𝜆2 𝑎12 √𝜆𝑛 𝑎1𝑛


𝜎1 𝜎1 ⋯ 𝜎1
√𝜆1 𝑎21 √𝜆2 𝑎22 ⋯ √𝜆𝑛 𝑎2𝑛
𝑭= 𝜎2 𝜎2 𝜎2 (36)
⋮ ⋮ ⋱ ⋮
√𝜆1 𝑎𝑛1 √𝜆2 𝑎𝑛2 √𝜆𝑛 𝑎𝑛𝑛
( ⋯ )
𝜎𝑛 𝜎𝑛 𝜎𝑛

√𝝀𝒋
Elementele matricei factor, 𝒇𝒊𝒋 = 𝑪𝒐𝒓𝒓(𝒙𝒊 , 𝒛𝒋 ) = 𝒂𝒊𝒋 , coeficienții de corelație dintre
𝝈𝒊

variabilele inițiale și componentele principale, sunt importante în contextul identificării


semnificației componentelor principale. Cu cât un coeficient este mai ridicat, cu atât contribuția
variabilei respective la construcția componentei principale este mai importantă.

Atunci când ACP se aplică pe variabile standardizate, matricea de varianță a variabilelor


inițiale va fi matricea identitate (𝑉𝑎𝑟(𝑥) = 𝐼) și, astfel, matricea factor (𝑭𝒔 pentru variabilele
standardizate) poate fi scrisă drept:

𝟏
𝑭𝒔 = 𝑨 ∙ 𝚲𝟐 (37)

6
iar elementele sale sunt de forma 𝒇𝒊𝒋 = √𝝀𝒋 ∙ 𝒂𝒊𝒋 , suma pătratelor acestor coeficienți pe

fiecare coloană fiind egală cu varianța componentei principale respective:

𝟐 𝟐 𝟐
∑𝒏𝒊=𝟏(𝒇𝒊𝒋 ) = ∑𝒏𝒊=𝟏 𝝀𝒋 ∙ (𝒂𝒊𝒋 ) = 𝝀𝒋 ∙ ∑𝒏𝒊=𝟏(𝒂𝒊𝒋 ) = 𝝀𝒋 (38)

Valorile 𝒇𝒊𝒋 arată intensitatea legăturii dintre fiecare variabilă și componentele principale, iar

contribuția pe care variabilele o au la construcția componentelor principale este ilustrată de


coeficienții 𝒂𝒊𝒋 (vectorii proprii ai matricei de covarianță 𝚺) – acestea fiind cele două categorii

de elemente a căror analiză oferă componentelor principale interpretabilitate.

7
Analiza factorială

1. Considerații generale

2. Modelul matematic al analizei factoriale

3. Alegerea numărului de factori comuni

4. Nonunicitatea soluției. Rotația axelor

5. Estimarea modelului de analiză factorială

6. Scorurile factor

1. Considerații generale

Analiza factorială (AF) are drept scop identificarea și evaluarea acelor factori de natură
neobservabilă care stau la baza evoluției comune a variabilelor și care generează manifestarea
corelațiilor dintre acestea. Acești factori latenți și nemăsurabili în mod direct se regăsesc intrinsec
în structura datelor, iar existența lor este sugerată de structura relațiilor dintre variabile.

Este o metodă des utilizată în științele socio-economice și comportamentale, întrucât permite


evidențierea unor preferințe, trăsături, factori comportamentali care stau la baza evoluției
fenomenelor studiate.

Analiza factorială se aseamănă cu analiza componentelor principale prin faptul că ambele încearcă să
reducă și să simplifice structura setului de date. De foarte multe ori cele două tipuri de analiză sunt
confundate sau considerate a oferi aceleași rezultate. În realitate însă, singura asemănare dintre cele
două este posibilitatea de reducere a dimensiunii setului de date.

- Prin aplicarea ACP rezultă un număr de componente principale egal cu numărul de variabile
primare, prima dintre ele având cea mai mare varianță.

- În cazul AF, se obține un anumit număr de factori comuni, primul dintre ei având
interpretabilitatea cea mai ridicată.

1
Soluția ACP este unică (exceptând semnul), în schimb

în realizarea AF analistul are un grad ridicat de libertate în:

• alegerea metodei de estimare,

• alegerea modului de rotație a axelor,

• selectării numărului de factori comuni,

rezultatele diferind în funcție de toate acestea. De altfel, în aplicarea AF se consideră că există un


grad ridicat de subiectivitate.

Spre deosebire de ACP, care are drept obiectiv explicarea integrală a varianței, analiza factorială
urmărește să identifice indicatorii latenți cauzali pentru mișcarea variabilelor și, în acest mod, să
explice covarianțele dintre acestea.

Formularea modelului matematic diferă mult între cele două metode:

- în cazul ACP componentele principale sunt scrise în funcție de variabilele inițiale (acestea
sunt funcții exacte, adică combinații liniare, de variabilele inițiale);

- în cazul AF factorii comuni explică variabilele primare (variabilele inițiale sunt combinații
liniare de factorii comuni plus un element de unicitate și rezidualitate).

Există două tipuri de analiză factorială:

(i) exploratorie – care își propune identificarea și construirea factorilor comuni și

(ii) confirmatorie – care are drept obiectiv confirmarea ipotezelor privind mărimile latente.

2
2. Modelul matematic al analizei factoriale

Modelul matematic al analizei factoriale exprimă fiecare variabilă inițială (primară) ca pe o


combinație liniară de factori comuni și specifici.

Factorii comuni sunt mai puțini ca număr decât variabilele inițiale, ei reprezentând factorii cauzali
nemăsurabili în mod direct, responsabili pentru covarianța manifestată în setul de date și în general
sunt prezenți în ecuațiile tuturor variabilelor. Totuși, există și posibilitatea ca unii factori comuni să
nu influențeze evoluția tuturor indicatorilor și astfel ei să nu fie prezenți în toate ecuațiile modelului.

Reducerea dimensiunii setului de date prin aplicarea analizei factoriale este posibilă deoarece între
variabilele inițiale există redundanțe informaționale ilustrate de coeficienții de corelație dintre ele.

În analiza factorială se consideră că aceste suprapuneri ale conținutului variabilelor inițiale sunt
generate de manifestarea unor factorilor cauzali abstracți, de cele mai multe ori egali ca număr cu
grupele de variabile puternic corelate.

Factorii specifici, la rândul lor construcții latente, necuantificabile în mod direct, cunoscuți și sub
numele de factori unici, sunt diferiți de la o variabilă la alta, ei reflectând elementele particulare ale
acestora.

Atât factorii comuni, cât și cei unici, pentru a avea sensul descris, nu pot fi corelați între ei. În unele
cazuri totuși, cum se va vedea în secțiunea referitoare la rotație, factorilor comuni le este permis să
devină corelați.

Pe lângă aceste două categorii de factori, în scrierea matematică a modelului apare și o componentă
reziduală (erorile) care surprinde factori de natură accidentală, erori de măsurare, fiind
nesemnificativă în explicarea variabilelor.

3
Modelul matematic poate fi scris astfel:

𝑥1 − 𝜇1 = 𝑎11 𝑓1 + 𝑎12 𝑓2 + ⋯ + 𝑎1𝑝 𝑓𝑝 + 𝑢1 + 𝜀1


𝑥2 − 𝜇2 = 𝑎21 𝑓1 + 𝑎22 𝑓2 + ⋯ + 𝑎2𝑝 𝑓𝑝 + 𝑢2 + 𝜀2
(1)

𝑥𝑛 − 𝜇𝑛 = 𝑎𝑛1 𝑓1 + 𝑎𝑛2 𝑓2 + ⋯ + 𝑎𝑛𝑝 𝑓𝑝 + 𝑢𝑛 + 𝜀𝑛
unde:
➢ 𝝁𝒊 este media variabilei 𝒙𝒊 ,

➢ 𝒇𝒊 este factorul comun 𝒊 ,

➢ 𝒖𝒊 reprezintă elementul de unicitate,

➢ 𝜺𝒊 reprezintă elementul de rezidualitate,

iar 𝒑 < 𝒏.

Având în vedere importanța scăzută a componentei reziduale, dat fiind caracterul său întâmplător,
mulți autori ignoră erorile sau le consideră parte a unicității și elimină astfel această componentă din
scrierea modelului, abordare pe care o vom urma mai departe.

Matricial, modelul matematic poate fi scris:

𝑿−𝝁=𝑨∙𝑭+𝑼 (2)

𝑥1 𝜇1 𝑎11 𝑎12 ⋯ 𝑎1𝑝


𝑥2 𝜇2 𝑎21 𝑎22 ⋯ 𝑎2𝑝
unde: 𝑋=( ⋮ ), 𝜇=( ⋮ ), 𝐴=
⋮ ⋮ ⋱ ⋮
𝑥𝑛 𝜇𝑛 ( 𝑎𝑛1 𝑎𝑛2 ⋯ 𝑎𝑛𝑝 )

𝑓1 𝑢1
𝑓2 𝑢2
𝐹=( ), 𝑈 = ( ⋮ ).

𝑓𝑝 𝑢𝑛

4
Coeficienții 𝑨 mai poartă și denumirea de intensități ale factorilor, iar mulțimea acestora este
cunoscută sub numele de configurație factor. Coeficienții factorilor pot fi interpretați ca fiind
ponderea cu care factorii intră în construcția variabilelor inițiale și prin analizarea acestor valori se
pot trage concluzii cu privire la natura factorilor latenți, a înțelesului care le poate fi atribuit.

Ipotezele (premisele, presupunerile) modelului factorial sunt (Rencher, 2002):

1. Factorii comuni au:

➢ medie 0 (𝑴(𝒇𝒊 ) = 𝑬(𝒇𝒊 ) = 𝟎, 𝒊 = 𝟏, 𝟐, … , 𝒑),

➢ varianța egală cu 1 (𝒗𝒂𝒓(𝒇𝒊 ) = 𝟏, 𝒊 = 𝟏, 𝟐, … , 𝒑) și

➢ sunt necorelați între ei (𝒄𝒐𝒗(𝒇𝒊 , 𝒇𝒋 ) = 𝟎, 𝒊 ≠ 𝒋)

➢ matricea lor de covarianță este, așadar, matricea identitate (𝒄𝒐𝒗(𝑭) = 𝑰).

2. Factorii unici sunt, la rândul lor, de:

➢ medie 0 (𝑬(𝒖𝒊 ) = 𝟎, 𝒊 = 𝟏, 𝟐, … , 𝒏),

➢ necorelați între ei (𝒄𝒐𝒗(𝒖𝒊 , 𝒖𝒋 ) = 𝟎, 𝒊 ≠ 𝒋), dar

➢ de varianță diferită de 1 (𝒗𝒂𝒓(𝒖𝒊 ) = 𝝍𝒊 , 𝒊 = 𝟏, 𝟐, … , 𝒏).

➢ matricea lor de covarianță are foma:

𝝍𝟏 𝟎 ⋯ 𝟎
𝟎 𝝍𝟐 ⋯ 𝟎
𝒄𝒐𝒗(𝑼) = ( )= 𝚿
⋮ ⋮ ⋱ ⋮
𝟎 𝟎 ⋯ 𝝍𝒏

3. Factorii comuni și factorii unici nu sunt corelați (𝒄𝒐𝒗(𝒇𝒊 , 𝒖𝒋 ) = 𝟎, (∀) 𝒊, 𝒋).

5
Ținând cont de aceste proprietăți, varianța variabilelor inițiale poate fi scrisă ca:

𝒗𝒂𝒓(𝒙𝒊 ) = 𝝈𝟐𝒊 = 𝑎𝑖1


2 2
∙ 𝑣𝑎𝑟(𝑓1 ) + 𝑎𝑖2 2
∙ 𝑣𝑎𝑟(𝑓2 ) + ⋯ + 𝑎𝑖𝑝 ∙ 𝑣𝑎𝑟(𝑓𝑝 ) + 𝑣𝑎𝑟(𝑢𝑖 ) (3)

𝝈𝟐𝒊 = 𝒂𝟐𝒊𝟏 + 𝒂𝟐𝒊𝟐 + ⋯ + 𝒂𝟐𝒊𝒑 + 𝝍𝒊


sau
𝝈𝟐𝒊 = 𝒉𝟐𝒊 + 𝝍𝒊 (4)
unde
𝒉𝟐𝒊 = 𝒂𝟐𝒊𝟏 + 𝒂𝟐𝒊𝟐 + ⋯ + 𝒂𝟐𝒊𝒑 (5)

➢ 𝒉𝟐𝒊 - poartă numele de comunalitate sau varianță comună și este partea din varianță
atribuibilă factorilor comuni, iar

➢ 𝝍𝒊 - este cunoscută ca specificitate, varianță unică sau reziduală și reprezintă partea din
variabilitate neexplicată de factorii comuni, generată de elemente particulare, unice pentru
comportamentul seriei de date.

Observație. Atunci când variabilele inițiale sunt standardizate, suma dintre comunalitate și
unicitate este egală cu 1 (𝒗𝒂𝒓(𝒙𝒊 ) = 𝝈𝟐𝒊 = 𝒉𝟐𝒊 + 𝝍𝒊 = 𝟏).

În ceea ce privește matricea de covarianță a variabilelor inițiale, aceasta poate fi scrisă în


următoarea formă simplificată:

𝚺 = 𝒄𝒐𝒗(𝑿) = 𝒄𝒐𝒗(𝑨 ∙ 𝑭 + 𝑼)

Σ = 𝑐𝑜𝑣(𝐴 ∙ 𝐹) + 𝑐𝑜𝑣(𝑈)

Σ = 𝐴 ∙ 𝑐𝑜𝑣(𝐹) ∙ 𝐴′ + Ψ

Σ = 𝐴 ∙ 𝐼 ∙ 𝐴′ + Ψ

𝚺 = 𝑨 ∙ 𝑨′ + 𝚿 (6)

6
În continuare, vom analiza covarianța dintre variabilele inițiale și factorii comuni. Aceasta se poate
exprima ca:

𝒄𝒐𝒗(𝒙𝒊 , 𝒇𝒋 ) = 𝑬 [(𝒙𝒊 − 𝑬(𝒙𝒊 )) ∙ (𝒇𝒋 − 𝑬(𝒇𝒋 ))]

𝑐𝑜𝑣(𝑥𝑖 , 𝑓𝑗 ) = 𝐸[(𝑥𝑖 − 𝜇𝑖 ) ∙ (𝑓𝑗 − 0)]

𝑐𝑜𝑣(𝑥𝑖 , 𝑓𝑗 ) = 𝐸[(𝑎𝑖1 𝑓1 + 𝑎𝑖2 𝑓2 + ⋯ + 𝑎𝑖𝑗 𝑓𝑗 + ⋯ + 𝑎𝑖𝑝 𝑓𝑝 + 𝑢𝑖 ) ∙ 𝑓𝑗 ]

𝑐𝑜𝑣(𝑥𝑖 , 𝑓𝑗 ) = 𝐸[(𝑎𝑖1 𝑓1 𝑓𝑗 + 𝑎𝑖2 𝑓2 𝑓𝑗 + ⋯ + 𝑎𝑖𝑗 𝑓𝑗 𝑓𝑗 + … + 𝑎𝑖𝑝 𝑓𝑝 𝑓𝑗 + 𝑢𝑖 𝑓𝑗 )]

𝑐𝑜𝑣(𝑥𝑖 , 𝑓𝑗 ) = 𝑎𝑖1 𝑐𝑜𝑣(𝑓1 , 𝑓𝑗 ) + 𝑎𝑖2 𝑐𝑜𝑣(𝑓2 , 𝑓𝑗 ) + ⋯ +𝒂𝒊𝒋 𝒗𝒂𝒓(𝒇𝒋 ) + ⋯ + 𝑎𝑖𝑝 𝑐𝑜𝑣(𝑓𝑝 , 𝑓𝑗 ) + 𝑐𝑜𝑣(𝑢𝑖 , 𝑓𝑗 )

𝒄𝒐𝒗(𝒙𝒊 , 𝒇𝒋 ) = 𝒂𝒊𝒋 (7)

Așadar, intensitățile factorilor sunt, de fapt, covarianțele dintre aceștia și variabilele considerate, deci
matricea de covarianță dintre variabilele inițiale și factorii comuni este identică cu configurația
factor.
𝒄𝒐𝒗(𝑿, 𝑭) = 𝑨 (8)

Prin urmare, matricea coeficienților de corelație dintre variabilele inițiale și factorii comuni poate
fi scrisă astfel:

𝑹 = 𝒄𝒐𝒓𝒓(𝑿, 𝑭) = 𝑺−𝟏/𝟐 ∙ 𝑨 ∙ 𝒄𝒐𝒗(𝑭)−𝟏/𝟐 = 𝑺−𝟏/𝟐 ∙ 𝑨 (9)

unde
✓ 𝑺 este matricea de varianță (aproximare la nivelul eșantionului pentru 𝚺) a variabilelor
inițiale, o matrice diagonală ale cărei valori sunt varianțele variabilelor inițiale.

Mulțimea coeficienților de corelație dintre factori și variabilele inițiale poartă numele de


structură factor.

Observație. Atunci când 𝒙𝒊 sunt standardizate, 𝑎𝑖𝑗 sunt coeficienți de corelație și astfel structura
factor este identică cu configurația factor.

7
3. Alegerea numărului de factori comuni

Există o multitudine de criterii folosite în determinarea numărului de factori comuni, eficiența lor
constituind obiectul unui număr ridicat de studii de-a lungul timpului. Dintre acestea, vor fi prezentate
doar cele mai cunoscute:

➢ Criteriul cantității de informație – reținerea acelui număr de componente principale care


păstrează suficient de mult din varianța inițială. Acest criteriu se aplică îndeosebi când în estimare
se folosește metoda componentelor principale.

Atunci când modelul este estimat cu metoda factorului principal, întrucât suma valorilor proprii
̂ sau 𝑹 − 𝚿
ale matricei 𝑺 − 𝚿 ̂ (partea din covarianță sau corelație explicată de factorii comuni)
poate trece de 1 și apoi scădea înapoi (valorile proprii nefiind toate pozitive), se recomandă
alegerea acelui număr de componente principale pentru care suma valorilor proprii depășește
prima dată valoarea 1 (Rencher, 2002);

➢ Criteriul granulozității (screeplot) – alegerea numărul de factori comuni egal cu numărul de


valori proprii după care în screeplot urmează o pantă descendentă abruptă;

➢ Criteriul lui Kaiser – selectarea unui număr de factori comuni egali cu numărul de valori proprii
mai mari decât 1;

➢ Testul Bartlett – acesta presupune testarea ipotezei că toate valorile proprii sunt egale. Când
ipoteza nulă nu mai poate fi respinsă începând de la un anumit număr de factori, acela este
numărul de componente principale reținute;

➢ Minimul mediilor parțiale (minimum average partial – MAP) – este o metodă care presupune
calcularea matricei corelațiilor parțiale dintre variabile, condiționate de factorii comuni.
Se însumează pătratele elementelor aflate de o parte și de alta a diagonalei, și numărul de factori
comuni va fi cel pentru care se înregistrează minimul pătratelor corelațiilor parțiale calculate după
eliminarea influenței factorilor comuni;

➢ Analiza parallel (parallel analysis) – presupune compararea valorilor proprii din matricea
datelor reale cu valorile proprii calculate pentru o matrice generată aleator. În urma acestei
comparații se vor reține atâția factori câte valori proprii sunt mai ridicate în matricea de date reale
față de cea simulată.
8
4. Nonunicitatea soluției. Rotația axelor

Matricea de coeficienți, 𝑨, nu este unică.

Considerând 𝑸 o matrice ortogonală și deci cu proprietatea 𝑸 ∙ 𝑸′ = 𝑰 și incluzând acest produs în


model obținem:
𝑿 − 𝝁 = 𝑨 ∙ 𝑸 ∙ 𝑸′ ∙ 𝑭 + 𝑼 (10)

Notând
𝑨 ∙ 𝑸 = 𝑨∗ (11)

și

𝑸 ′ ∙ 𝑭 = 𝑭∗ (12)

ecuația (2) devine

𝑿 − 𝝁 = 𝑨∗ ∙ 𝑭∗ + 𝑼 (13)

Așadar, poate fi identificată o infinitate de soluții factor.

După cum am arătat la ACP, înmulțirea cu o matrice ortogonală are sensul unei rotiri a axelor.
Neidentificarea unică a soluției este, în cazul analizei factoriale, un avantaj întrucât ea permite rotirea
sistemului de axe până la identificarea unei soluții factor (𝑨𝑸) care să fie mai ușor de interpretat din
perspectiva corelațiilor cu variabilele inițiale.

Prin rotația axelor se urmărește să se producă o diferențiere a intensității factorilor pe variabile, în


așa fel încât ei să aibă greutate ridicată doar în explicarea variabilelor pe care le influențează în mod
real, iar în celelalte ecuații să fie nesemnificativi. Pornind de la acest sens al rotației factorilor, devine
evidentă o altă diferență față de ACP:

- în ACP variabilele inițiale erau cele rotite pentru identificarea componentelor principale
maximizatoare de varianță, pe când

- în AF factorii comuni sunt cei care se rotesc în așa fel încât corelațiile dintre ei și variabilele
inițiale să diferențieze cât mai bine și să asigure un grad maxim de interpretabilitate. Din acest
motiv, relația dintre variabilele inițiale și factorii comuni este analizată de cele mai multe ori
din perspectiva matricei factor rotite.

9
Rotația axelor se poate face în așa fel încât:

➢ mărimile latente să rămână ortogonale (rotație ortogonală) sau

➢ se poate opta pentru identificarea unor factori care să fie corelați (rotație oblică).

Considerarea unei noi matrice de coeficienți 𝑨∗ = 𝑨 ∙ 𝑸 nu modifică modul în care sunt explicate
covarianța și varianța variabilelor inițiale:

𝚺 = 𝑨 ∙ 𝑨′ + 𝚿 (14)

𝚺 = 𝑨 ∙ (𝑸 ∙ 𝑸′ ) ∙ 𝑨′ + 𝚿 (15)

𝚺 = 𝑨 ∙ 𝑸 ∙ (𝑨 ∙ 𝑸)′ + 𝚿 (16)

𝚺 = 𝑨∗ ∙ (𝑨∗ )′ + 𝚿 (17)

Comunalitatea nu se modifică nici ea în urma rotației axelor. La nivelul variabilei 𝑖, aceasta poate fi
scrisă:
𝒉∗𝟐 ∗𝟐 ∗𝟐 ∗𝟐
𝒊 = 𝒂𝒊𝟏 + 𝒂𝒊𝟐 + ⋯ + 𝒂𝒊𝒑

𝒉∗𝟐 ∗ ∗ ′ ′ ′ ′ ′ 𝟐
𝒊 = 𝒂𝒊 ∙ (𝒂𝒊 ) = 𝒂𝒊 ∙ 𝑸 ∙ (𝒂𝒊 ∙ 𝑸) = 𝒂𝒊 ∙ 𝑸 ∙ 𝑸 ∙ 𝒂𝒊 = 𝒂𝒊 ∙ 𝒂𝒊 = 𝒉𝒊 (18)

unde:
𝑎𝑖1
𝑎𝑖2
𝑎𝑖 = (𝑎𝑖1 𝑎𝑖2 … 𝑎𝑖𝑝 ) , 𝑎𝑖′ = ( ⋮ )
𝑎𝑖𝑝

Astfel, varianța variabilei 𝒊 este explicată în aceeași măsură de comunalitate și unicitate, indiferent
de modul de rotație al factorilor:

𝝈𝟐𝒊 = 𝒉∗𝟐 𝟐
𝒊 + 𝝍 𝒊 = 𝒉𝒊 + 𝝍 𝒊 (19)

10
Varimax este cea mai cunoscută dintre metodele ortogonale de rotație și constă în aducerea axelor
cât mai aproape de reprezentarea obiectelor, ceea ce echivalează cu găsirea unei soluții care să asigure
maximizarea – în ordine descrescătoare – a contribuției factorilor la variabilitatea totală (primul
factor să aibă aportul cel mai ridicat, iar ultimul pe cel mai scăzut).

̂ 𝟐𝒊𝒋 pe fiecare
Matematic, această procedură caută un maxim pentru suma pătratelor coeficienților 𝒂
̂.
coloană din 𝑨

Pentru cazul a două variabile, matricea 𝑴(𝜽) cu ajutorul căreia se face rotația axelor are forma:

𝒄𝒐𝒔𝜽 𝒔𝒊𝒏𝜽
𝑴(𝜽) = ( ) (20)
−𝒔𝒊𝒏𝜽 𝒄𝒐𝒔𝜽

unde 𝜽 este unghiul cu care se rotesc axele. (𝑴(𝜽) este matrice ortogonală)

Din punct de vedere geometric procedura presupune identificarea unghiului 𝜃 din matricea 𝑀(𝜃)
pentru care are loc maximizarea pe fiecare coloană a sumei pătratelor coeficienților din matricea

̂∗ = 𝑨
𝑨 ̂ ∙ 𝑴(𝜽)

Uneori, dispunerea obiectelor face ca rotația ortogonală să nu ofere relevanță factorilor în ceea ce
privește sensul lor, fapt ce poate fi corectat printr-o rotație de tip oblic. Aceasta permite axelor să
treacă mult mai aproape de puncte și, în acest mod, intensitățile asigură un plus de interpretabilitate,
însă factorii comuni devin corelați.

Pentru multitudinea de soluții factor obținute prin rotația axelor există o diferență substanțială între
rezultate. Alegerea soluției celei mai bune rămâne decizia celui care face analiza, motiv pentru care
se consideră de multe ori că există un grad ridicat de subiectivitate în analiza factorială.

11
5. Estimarea modelului de analiză factorială

Există mai multe modalități prin care poate fi estimat modelul, în cele ce urmează fiind descrise
metoda componentelor principale și cea a factorilor comuni cu o referire sintetică la adresa metodei
iterativă a factorilor comuni.

Metoda componentelor principale

Singura asemănare dintre această metodă și estimarea componentelor principale este scrierea
coeficienților factorilor în funcție de vectorii proprii ai matricei de covarianță.

În cadrul acestei metode se pornește de la teorema de descompunere spectrală a matricei 𝑺


(ca aproximare la nivelul eșantionului pentru 𝚺),

̂∙𝑨
➢ se construiește produsul 𝑨 ̂′ ,

̂ și apoi
➢ se estimează 𝚿

➢ se corectează 𝑺.

Relația de definire a covarianței pentru matricea 𝑺 este:

̂∙𝑨
𝑺=𝑨 ̂′ + 𝚿
̂ (21)

În prima fază, se ignoră componenta de unicitate și se diagonalizează matricea 𝑺 pentru a identifica


̂∙𝑨
produsul 𝑨 ̂′ .

Conform teoremei de descompunere spectrală 𝑺 = 𝑷 ∙ 𝑫 ∙ 𝑷′ , unde:

➢ 𝑷 este o matrice ortogonală care conține pe coloane vectorii proprii ai matricei 𝑺, iar

➢ 𝑫 este o matrice diagonală ale cărei elemente sunt valorile proprii.

Cum valorile proprii ale lui 𝑺 sunt pozitive, 𝑫 poate fi scris ca 𝑫 = 𝑫𝟏/𝟐 ∙ 𝑫𝟏/𝟐 și astfel:


𝑺 = 𝑷 ∙ 𝑫 ∙ 𝑷′ = 𝑷 ∙ 𝑫𝟏/𝟐 ∙ 𝑫𝟏/𝟐 ∙ 𝑷′ = (𝑷 ∙ 𝑫𝟏/𝟐 )(𝑷 ∙ 𝑫𝟏/𝟐 ) = 𝚲 ∙ 𝚲′ (22)

12
Întrucât dimensiunea matricei 𝚲 este 𝑛 × 𝑛, iar dimensiunea necesară pentru identificarea matricei 𝑨
̂ de dimensiunea necesară, prin selectarea vectorilor proprii
este de 𝑛 × 𝑝 , se va construi matricea 𝚲
corespunzători celor mai mari 𝒑 valori proprii.

Generic, un element 𝑎𝑖𝑗 poate fi scris drept:

𝒂𝒊𝒋 = √𝝀𝒋 ∙ 𝒑𝒊𝒋 (23)


unde:
- 𝜆𝑗 este a j-a valoare proprie a matricei 𝑺, iar

- 𝑝𝑖𝑗 este elementul 𝑖 din vectorul propriu 𝑗 al matricei 𝑆.

̂.
După ce matricea 𝑨 a fost aproximată, se determină o aproximare pentru matricea 𝚿

̂
𝜓 0 ⋯
1 0
̂ ⋯ 0
̂ = 0
𝚿
𝜓 2 , ̂ 𝒊 = 𝒔𝒊𝒊 − ∑𝒑 𝒂𝒊𝒋
𝝍 (24)
𝒋=𝟏
⋮ ⋮ ⋱ ⋮
̂
⋯ 𝜓
(0 0 𝑛)

Astfel, prin această metodă, sunt estimate doar elementele de pe diagonala matricei 𝑆, cele din afara
diagonalei neputând fi determinate.

În cazul acestui model de estimare, comunalitatea va fi egală cu suma valorilor proprii:

𝒑 𝟐 𝒑 𝟐 𝒑 𝟐
𝒉𝟐𝒊 = ∑𝒋=𝟏(𝒂𝒊𝒋 ) = ∑𝒋=𝟏(√𝝀𝒋 ∙ 𝒑𝒊𝒋 ) = 𝝀𝒋 ∑𝒋=𝟏(𝒑𝒊𝒋 ) = 𝝀𝒋 (25)

întrucât vectorii proprii au norma egală cu 1.

Erorile modelului pot fi scrise ca:

𝟐
̂∙𝑨
∑𝒊,𝒋 (𝑺 − (𝑨 ̂′ + 𝚿
̂ )) ≤ 𝝀𝟐𝒑+𝟏 + ⋯ + 𝝀𝟐𝒏 (26)

Așadar, cu cât sunt mai mici valorile proprii la care s-a renunțat în factorizarea lui 𝑨, cu atât erorile
modelului vor fi mai mici.
13
Metoda factorului principal

Spre deosebire de metoda factorului comun, unde unicitatea era ignorată în factorizarea
̂
inițială a lui 𝑺, metoda factorului principal descompune direct matricea de diferențe dintre 𝑺 și 𝚿
̂ ) sau dintre 𝑹 (matricea coeficienților de corelație) și 𝚿
(𝑺 − 𝚿 ̂ (𝑹 − 𝚿
̂ ).

Selectarea ca punct de pornire a uneia dintre cele două matrice 𝑺 sau 𝑹 duce la obținerea de
rezultate diferite.

Pentru aplicarea acestei metode este nevoie de aproximarea comunalității. În cazul folosirii matricei
𝑹, comunalitatea este în mod tradițional estimată prin intermediul coeficientului de corelație multiplă
̂ 𝟐𝒊 = 𝑹𝟐𝒊 sau ca pătratul celui mai ridicat coeficient de corelație dintre 𝑥𝑖 și 𝑥𝑗 , 𝑖 ≠ 𝑗.
𝒉

Atunci când se folosește matricea 𝑺, o estimare a comunalității este:

𝟏
̂ 𝟐𝒊 = 𝒔𝒊𝒊 −
𝒉 = 𝒔𝒊𝒊 ∙ 𝑹𝟐𝒊
𝒔∗𝒊𝒊

unde 𝑠𝑖𝑖 este varianța variabilei 𝑥𝑖 , iar 𝑠𝑖𝑖∗ elementul 𝑖 de pe diagonala matricei 𝑆 −1 .

̂
Apoi se aplică teorema de descompunere spectrală asupra matricei 𝑺 − 𝚿 sau ̂ și
𝑹−𝚿
coeficienții pot fi scriși ca:
𝒂𝒊𝒋 = √𝝀𝒋 ∙ 𝒑𝒊𝒋 (27)

unde 𝜆𝑗 cu 𝑗 = 1, 2, … , 𝑝 sunt primele 𝑝 valori proprii, iar 𝑝𝑖 vectorii proprii asociați acestora.

Această metodă are și o variantă iterativă ‒ metoda iterativă a factorilor comuni. Pe baza vectorilor
și valorilor proprii se calculează un nou nivel al comunalității. Apoi, se aplică din nou teorema de
descompunere spectrală, se determină un nou nivel al comunalității și procedura se repetă până când
nivelul 𝜓̂𝑖 rămâne nemodificat și soluția converge.

Estimarea modelului se poate face și prin alte metode (cum ar fi metoda verosimilității maxime),
rezultatele fiind diferite atât în funcție de metoda aleasă, cât și în funcție de matricea pe care este
aplicată.

14
6. Scorurile factor

Ca și în cazul componentelor principale, scorurile factorilor comuni reprezintă valorile pe care


aceștia le înregistrează în funcție de variabilele inițiale. Pentru calcularea lor, factorii comuni trebuie
scriși în funcție de variabilele inițiale.

Atunci când pentru estimarea factorilor se folosește metoda componentelor principale sau metoda
factorului comun, scorile factorilor pot fi scrise în mod direct folosind vectorii și valorile proprii ale
̂∙̂
matricei 𝑨 𝑨′ (Jobson, 1992).

Cea mai simplă și cunoscută tehnică pentru calculul scorurilor este regresia (Rencher, 2002).

𝑓1 = 𝛾11 (𝑥1 − 𝜇1 ) + 𝛾12 (𝑥2 − 𝜇2 ) + ⋯ + 𝛾1𝑛 (𝑥𝑛 − 𝜇𝑛 ) + 𝜀1


𝑓2 = 𝛾21 (𝑥1 − 𝜇1 ) + 𝛾22 (𝑥2 − 𝜇2 ) + ⋯ + 𝛾2𝑛 (𝑥𝑛 − 𝜇𝑛 ) + 𝜀2
(28)

𝑓𝑝 = 𝛾𝑝1 (𝑥1 − 𝜇1 ) + 𝛾𝑝2 (𝑥2 − 𝜇2 ) + ⋯ + 𝛾𝑝𝑛 (𝑥𝑛 − 𝜇𝑛 ) + 𝜀𝑝

Matricial acestea pot fi scrise:

𝑭 = 𝑿𝒄 ∙ 𝚪 + 𝜺 (29)

unde:
𝑓1′ (𝑥1 − 𝜇1 )′ 𝜀1′
𝑓′ (𝑥 − 𝜇2 )′ 𝜀′
𝐹 = ( 2) , 𝑋𝑐 = ( 2 ), 𝜀 = ( 2 ).
⋮ ⋮ ⋮
𝑓𝑝′ (𝑥𝑛 − 𝜇𝑛 )′ 𝜀𝑝′

𝚪̂ = (𝑿′𝒄 ∙ 𝑿𝒄 )−𝟏 ∙ (𝑿′𝒄 ∙ 𝑭) (30)

unde 𝑿𝒄 = 𝑿 − 𝝁 reprezintă vectorul de variabile centrate, ceea ce în termeni de matrice de


covarianță echivalează cu:

𝚪̂ = 𝑺−𝟏
𝑿𝒄 𝑿𝒄 ∙ 𝑺𝑿𝒄 𝑭 (31)

15
și astfel
𝚪̂ = 𝑺−𝟏 ∙ 𝑨
̂ (32)

iar scorurile estimate ale factorilor sunt:

̂ = 𝑿𝒄 ∙ 𝑺−𝟏 ∙ 𝑨
𝑭 ̂ (33)

Atunci când se folosește matricea coeficienților de corelație,

𝚪̂ = 𝑹−𝟏 ∙ 𝑨
̂ (34)

scorurile estimate au forma:

̂ = 𝑿𝒄 ∙ 𝑹−𝟏 ∙ 𝑨
𝑭 ̂ (33)

16

S-ar putea să vă placă și