Documente Academic
Documente Profesional
Documente Cultură
DATELOR
7. Prelucrarea datelor
7.1. Caracteristici generale ale procedurilor de date
7.2. Generarea statisticilor Summary
8. Personalizarea rezultatelor prelucrărilor
8.1. Crearea și aplicarea formatelor personalizate
8.2. Crearea de grafice
1. Noțiuni recapitulative de algebră liniară – tipuri de matrice, operații cu matrice, rangul unei
matrice, determinatul și inversa unei matrice, vectori și valori proprii, spații liniare, dependență și
independență liniară
3. Prezentarea facilităților avansate ale pachetului software Microsoft Excel – funcții matematice,
logice, matriceale, statistice, lucrul cu meniul Data (Form, Sort, Filter, Pivot Table, Data Analysis)
4. Utilizarea facilităților pachetului software SAS Enterprise Guide – interfață, importul
fișierelor non-SAS și crearea tabelelor de date SAS
5. Utilizarea facilităților pachetului software SAS Enterprise Guide – crearea unei interogări și
adăugarea de coloane
6. Utilizarea facilităților pachetului software SAS Enterprise Guide – filtrarea datelor în cadrul
unei interogări, joncțiunea tabelelor în cadrul unei interogări
11. Interpretarea output-urilor obținute prin apelarea funcțiilor dedicate extragerii componentelor
principale
12. Analiza factorială: pregătirea datelor pentru analiza factorială, corelații parțiale, interpretarea
rezultatelor
3. Muraru, A., Metode și tehnici de analiză multidimensională a datelor, Editura ASE, 2018
4. Uță A., Andreescu A., Oprea S.V. Pachete software și aplicații SAS, Editura ASE, 2018
5. Tomar, R.S., Rajender Parsad, Seema Jaggi, Sanju and Sachin Kumar, SAS Enterprise Guide: An overview, I.A.S.R.I.
Library Avenue, New Delhi – 110 012, https://sscnars.icar.gov.in/sas_manual/11-SAS_Enterprise_Guide.pdf
6. Lawrence S. Meyers, Glenn Gamst and A. J. Guarino, Data Analysis Using SAS Enterprise Guide, Cambridge
University Press, https://assets.cambridge.org/97805211/30073/frontmatter/9780521130073_frontmatter.pdf
Analiza datelor are multiple fațete și abordări, cuprinde tehnici diverse sub o varietate de nume
și este utilizată în diferite domenii ale științelor teoretice sau aplicate, precum și în diverse
domenii de business. În prezent, analiza datelor deține un rol esențial în luarea deciziilor într-
un mod mai bine documentat și ajută organizațiile să ajungă la o funcționare mai eficientă.
Analiza datelor este adesea confundată cu știința datelor. Deși este similar în natură, analiza
datelor se preocupă mai mult de rezolvarea problemelor prin seturi de date definite, în timp ce
știința datelor necesită dezvoltarea de noi modele și algoritmi prin codificare și programare.
1
Știința datelor este un domeniu interdisciplinar care folosește metode științifice, procese,
algoritmi și sisteme pentru a extrage cunoștințe și perspective din seturi de date structurate și
nestructurate. Folosește tehnici și teorii din mai multe domenii în contextul matematicii,
statisticii, informaticii, cunoașterii domeniului și științei informației.
Știința datelor – ca profesie și ca disciplină academică în sine – este nouă, fiind născută în
primul deceniu al secolului 21. Știința datelor, așa cum se practică astăzi, ia naștere din lumea
„big data / cloud computing” și din știința complexității.
Organigrama procesului de știința datelor din Doing Data Science, de Schutt & O’Neil (2013)
2
2.2. Instrumente de analiză a datelor
La baza analizei datelor se află matematica și statisticile riguroase. Astăzi, pe lângă limbajele
statistice, există multe instrumente software bazate pe cloud care se adaptează nevoilor de
afaceri diferite.
Excel - Microsoft Excel acceptă formule pentru a extrage informații din date și limbaje de
codare precum VBA.
R sau Python - Aceste limbaje sunt utile pentru programarea statistică și sunt mult mai
eficiente și au timp de procesare mai rapid decât Excel.
SAS - SAS este un pachet software cuprinzător pentru analize și statistici avansate.
3
2.3. Tehnici și metode de analiză a datelor
Analiza textului, numită și Data Mining, aplică tehnici statistice, lingvistice și structurale
pentru extragerea și clasificarea informațiilor din surse textuale, o categorie de date
nestructurate. Aceasta transformă datele brute în informații utile pentru o afacere.
Analiza statistică arată "Ce se întâmplă?" prin utilizarea datelor anterioare. Analiza statistică
include colectarea, analiza, interpretarea, prezentarea și modelarea datelor. Aceasta analizează
un set de date sau un eșantion de date. Există două categorii ale acestui tip de analiză:
➢ analiza inferențială - cuprinde procedurile prin intermediul cărora se pot obţine aserţiuni
asupra populaţiei studiate din observaţiile efectuate asupra unui eşantion din acea populaţie.
Analiza de diagnostic arată motivele pentru care s-a obținut un rezultat și nu altul. Mai exact,
această analiză răspunde la întrebarea "De ce s-a întâmplat?" prin găsirea cauzei din
perspectiva descoperită prin analiza statistică. Această analiză este utilă pentru a identifica
tiparele de comportament.
Analiza predictivă arată "Ce este posibil să se întâmple" folosind date anterioare. Așadar, acest
tip de analiză face predicții despre rezultatele viitoare pe baza datelor actuale sau anterioare.
Prognoza este însă doar estimativă. Precizia predicției din analiza datelor poate fi influențată
de volumul de date și de nivelul de detaliere al acestora.
Analiza prescriptivă combină informațiile din toate analizele anterioare pentru a determina ce
acțiune trebuie luată într-o problemă sau decizie curentă.
4
2.4. Procesul de analiză a datelor
Tot ce aveți nevoie pentru a afla scopul sau scopul efectuării analizei datelor.
- Datele sunt necesare ca elemente de intrare în analiză, care este specificată pe baza
cerințelor celor care dirijează analiza sau a clienților (care vor utiliza produsul finit al
analizei).
- Tipul general de entitate asupra căruia vor fi colectate datele este denumit o unitate
experimentală (de exemplu, o persoană sau o populație de oameni).
- Variabile specifice privind o populație (de exemplu, vârstă și venitul) pot fi specificate și
obținute.
- Datele pot fi numerice sau categorice (de exemplu, o etichetă text pentru numere).
5
Colectarea datelor. În această fază sunt colectate datele pe baza cerințelor stabilite anterior.
Datele sunt colectate dintr-o varietate de surse. Datele pot fi, de asemenea, colectate de la
senzori din mediu, inclusiv camere de trafic, sateliți, dispozitive de înregistrare etc. De
asemenea, pot fi obținute prin interviuri, descărcări din surse online sau citirea documentației.
Pe măsură ce datele sunt colectate din diferite surse, trebuie păstrat un jurnal cu data de
colectare și sursa datelor.
Procesarea datelor. Datele, obținute inițial, trebuie procesate sau organizate pentru analiză.
De exemplu, acestea pot implica plasarea datelor în rânduri și coloane într-un format de tabel
(cunoscut sub numele de date structurate) pentru analize ulterioare, adesea prin utilizarea unei
foi de calcul sau a unui software statistic.
Curățarea datelor
Printre datele colectate în faza anterioară ar putea să existe unele care să nu fie utile sau
irelevante pentru scopul efectuării analizei: datele colectate pot conține înregistrări duplicate,
spații albe sau erori. De aceea, datele trebuie curățate și fără erori.
Curățarea datelor este procesul de prevenire și corectare a acestor erori. Această fază trebuie
parcursă înainte de analiză, deoarece pe baza curățării datelor, rezultatul analizei va fi mai
aproape de rezultatul așteptat.
Există mai multe tipuri de curățare a datelor, care depind de tipul de date din set; acestea ar
putea fi numere de telefon, adrese de e-mail, angajatori sau alte valori.
- Metodele cantitative de date pentru detecția anterioară pot fi utilizate pentru a scăpa de
datele care par să aibă o probabilitate mai mare de a fi introduse incorect.
- Verificatoarele ortografice de date textuale pot fi utilizate pentru a reduce cantitatea de
cuvinte greșit scrise, cu toate acestea este mai greu de spus dacă cuvintele în sine sunt
corecte.
6
Analiza exploratorie a datelor
Odată ce datele sunt colectate, curățate și procesate, acestea sunt gata pentru analiză.
Analiștii pot aplica o varietate de tehnici, denumite analize exploratorii de date, pentru a
începe să înțeleagă mesajele conținute în datele obținute.
Statisticile descriptive, cum ar fi, media sau mediana, pot fi generate pentru a ajuta la
înțelegerea datelor.
Vizualizarea datelor este, de asemenea, o tehnică utilizată, în care analistul este capabil să
examineze datele într-un format grafic pentru a obține informații suplimentare, cu privire la
mesajele din cadrul datelor.
Statistica inferențială include utilizarea tehnicilor care măsoară relațiile dintre anumite
variabile. De exemplu, analiza de regresie poate fi utilizată pentru a modela dacă o modificare
a publicității (variabila independentă X) oferă o explicație pentru variația vânzărilor (variabila
dependentă Y).
În această fază, puteți utiliza instrumente și software de analiză a datelor care vă vor ajuta să
înțelegeți, să interpretați și să obțineți concluzii pe baza cerințelor.
7
Interpretarea datelor
Apoi utilizați rezultatele procesului de analiză a datelor pentru a decide cea mai bună acțiune.
Vizualizarea datelor
Vizualizarea datelor este frecvent utilizată în practică, sub formă de diagrame și grafice. Cu
alte cuvinte, datele sunt prezentate grafic, astfel încât creierului uman îi va fi mai ușor să le
înțeleagă și să le proceseze.
Vizualizarea datelor este adesea folosită pentru a descoperi fapte și tendințe necunoscute.
Observând relațiile și comparând seturile de date, puteți găsi o modalitate de a afla informații
semnificative.
Odată ce datele sunt analizate, acestea pot fi raportate în mai multe formate utilizatorilor
analizei pentru a-și susține cerințele. Utilizatorii pot avea feedback, ceea ce duce la analize
suplimentare. Ca atare, o mare parte din ciclul analitic este iterativ.
8
3. SISTEME DE ANALIZĂ A DATELOR
• Conceptul de sistem apare în formă embrionară încă din filozofia antică greacă. Afirmând că întregul
este mai mult decât suma părților, Aristotel dă o primă definiție noțiunii de sistem, care se va dezvolta
și va evolua pentru a ajunge la forma actuală, de abia la începutul secolului XX.
• Cel care pune bazele unei teorii închegate privind teoria sistemele (considerat fondatorul teoriei
generale a sistemelor) este biologul german Ludwig von Bertalanffy (1901-1972) care în perioada
1928-1950 publică o serie de lucrări reprezentând începuturile teoriei generale a sistemelor și a
sistemelor deschise.
• Conform definiției date de Ludwig von Bertalanffy, “sistemul este format dintr-o mulțime de elemente
aflate într-o interdependență neîntâmplătoare”.
• În sensul cel mai larg, denumirea de sistem poate fi atribuită oricărei colecții de obiecte sau procese
între care există anumite conexiuni (relații), stabilite în vederea atingerii unui scop.
• Conexiunile se pot stabili și cu sisteme, subsisteme sau elemente din mediul înconjurător. De aceea, se
face distincția între:
– conexiuni externe (intrări și ieșiri) – dintre elementele unui sistem și elemente din mediul
înconjurător.
• Atât elementele, cât și relațiile (conexiunile) au caracter dinamic, iar existența și funcționarea
sistemului este subordonată realizării unor obiective bine definite (unui scop).
Sistemul informatic este un ansamblu structurat de elemente interconectate funcțional pentru
automatizarea procesului de obținere a informațiilor și fundamentarea deciziilor. Acest sistem permite:
- introducerea de date (prin procedee manuale sau prin culegere automată de către sistem),
- stocarea acestora,
- prelucrarea lor și
✓ calculatoarele,
✓ programele,
✓ rețelele de calculatoare și
✓ utilizatorii.
• Prin urmare, sistemele informatice se caracterizează prin faptul că prelucrează date în scopul obținerii
de informații. Pe de altă parte, în unele lucrări termenul "sistem informatic" este utilizat ca sinonim
cu "sistem de prelucrare a datelor" (data processing system) pentru a desemna grupul de
componente specializate numai pe prelucrare.
• Sistemul de prelucrare a datelor este o combinație de mașini, oameni și procese care, pentru un set
de intrări, produce un set definit de ieșiri. Intrările și ieșirile sunt interpretate ca date, fapte, informații
etc., în funcție de relația interpretului cu sistemul.
• În accepțiunea actuală, un sistem de prelucrare (procesare) a datelor este un sistem care utilizează
un program sau un limbaj de calculator pentru a procesa datele brute și a transfera datele în informații
prin utilizarea unei metode cunoscute sub numele de procesare a tranzacțiilor.
În general, în informatică se face distincție între semnificațiile noțiunilor "dată" și "informație".
➢ Se numește dată un semn, un număr, un șir de caractere, o imagine, reprezentând valoarea unei
anumite caracteristici a unei entități oarecare. Data este depusă (stocată sau memorată) pe un suport
oarecare în vederea regăsirii.
➢ Se numește informație, o dată căreia i s-a atribut o anumită semnificație, adică este precizată
caracteristica pe care o reprezintă, precum și entitatea căreia îi aparține acea caracteristică.
De regulă, o informație este rezultatul prelucrării (corelării) mai multor date și nu doar a uneia singure.
• data reprezintă un fapt, iar informația, reprezintă semnificația atribuită faptului respectiv.
De asemenea, se pot desprinde principalele caracteristici ale datei și informației:
✓ O dată are sens numai dacă poate fi regăsită. Aceasta presupune că data trebuie să aibă asigurată o
anumită durată de viață, cel puțin din momentul înregistrării sale și până în momentul primei utilizări.
✓ Perenitatea datei implică existența unui suport adecvat pentru păstrarea acesteia (o agendă în care se
notează un număr de telefon, un disc magnetic pe care se înregistrează un fișier cu date, un catalog în
care se înregistrează notele studenților etc.).
Informația este rezultatul unui proces de prelucrare a datelor desfășurat în cadrul unul sistem
informatic.
3.2. SAS – Arhitectură, componente, caracteristici
• SAS (acronimul de la Statistical Analysis System) a fost creat în anii 1970 de către SAS Institute Inc.ca
un pachet software statistic. De-a lungul timpului, produsul a evoluat ajungând astăzi să reprezinte
unul dintre ele mai utilizate pachete software integrate, care oferă utilizatorilor facilități precum:
- introducerea, accesarea şi managementul datelor;
- analize statistice;
• În plus, SAS oferă multe soluţii de business şi soluţii software pentru domenii cum ar fi:
✓ managementul IT,
✓ management financiar,
• SAS constă dintr-un număr mare de componente (peste 200 de componente), pe care
organizaţiile le pot achiziţiona şi instala separat, în funcţie de necesităţi.
• În centrul soluţiilor SAS se află componenta Base SAS. Aceasta este un mediu software integrat,
având facilităţi pentru accesul la date, analiza datelor, crearea de rapoarte etc.
• Base SAS beneficiază şi de suportul unui limbaj de programare propriu de generaţia a patra
(limbajele de generaţia a patra sunt orientate pe rezolvarea unei anumite clase de probleme: SQL
sau PL/SQL sau cele folosite de alte pachete software ca Matlab sau SPSS).
Componentele, de tip bibliotecă, SAS/STAT, SAS/Graph şi SAS/OR extind capabilităţile
motorului de bază Base SAS.
➢ SAS/GRAPH este modulul care permite vizualizarea datelor sub formă de grafice sau hărţi.
➢ SAS/OR este o componentă care are ca scop susţinerea procesului decizional prin intermediul unor
tehnici de optimizare, simulare sau planificare a proiectelor.
➢ SAS Add-inn for MS Office permite utilizatorilor să beneficieze de facilităţile analitice, de raportare
şi pentru accesul la date oferite de SAS direct din Microsoft Office prin intermediul unor meniuri şi
bare de instrumente integrate în produsele Office.
Prelucrări bazate pe date
Funcţionalitatea pachetului software integrat SAS este construită în jurul a patru tipuri de
prelucrări, bazate pe date, prelucrări comune pentru aproape toate tipurile de aplicaţii software:
✓ managementul datelor - presupune pregătirea datelor astfel încât acestea să aibă forma cerută de
aplicaţie;
✓ analiza datelor - rezumă sau transformă datele primare în informaţii utile, care au o semnificaţie
pentru analist;
✓ prezentarea datelor - comunică informaţiile într-o manieră care demonstrează clar semnificaţia
acestora.
Transformarea datelor în informaţii
Produsul lucrează prin intermediul programelor SAS care definesc o succesiune de operaţii ce trebuiesc
efectuate asupra datelor stocate în tabele.
Secțiunile de date încep cu cuvântul DATA, iar cele de procedure cu cuvântul PROC și se termină de
cele mai multe ori cu directiva RUN. Fiecare secțiune este executată complet, înainte să se treacă la
următoarea secțiune.
Produsul SAS conține, de asemenea și declarații globale, care afectează întreg mediul SAS și rămân
valide de la o secțiune DATA sau PROC la alta (de exemplu OPTIONS și TITLE), până când ele sunt
schimbate de alte directive globale sau până se încheie sesiunea de lucru SAS.
• Secțiunile de date (DATA steps) sunt folosite pentru a crea / actualiza tabele SAS.
• Secțiunile de proceduri (PROC steps) sunt folosite pentru a efectua prelucrări și interogări.
• Macro-urile SAS sunt bucăți de cod sau variabile care sunt codificate o singură dată și
referite pentru a efectua sarcini repetitive.
• Fișierele cu care lucrează SAS la nivel de cod sunt de două tipuri principale:
- externe (preluate sau importate din alte aplicații)
- interne (generate de către SAS), care pot fi:
▪ temporare (stocate în librăria Work)
▪ permanente (stocate în alte librării sau directoare decât Work).
Pentru realizarea de programe în SAS se utilizează componenta SAS Studio care reprezintă mediul de
programare al produsului SAS.
Deşi există interfeţe grafice destinate utilizatorilor care nu deţin cunoştinţe de programare SAS (cum este
SAS Enterprise Guide), de cele mai multe ori aceste interfeţe sunt doar un mijloc pentru a automatiza sau
a facilita generarea de programe SAS.
Figura nr. 3 Transformarea datelor în informații
Avantajele și dezavantajele SAS
Avantajele SAS
1. Ușor de înțeles și de învățat - SAS are o sintaxă foarte simplă și ușor de înțeles.
2. Ușor de depanat - Fereastra de jurnal a instrumentului SAS afișează clar toate erorile și
avertismentele, astfel încât să poată fi corectate din mers.
4. Securitate înaltă a datelor - Datele nu pot fi extrase din SAS fără o licență corespunzătoare,
chiar dacă sunt în scopuri oficiale.
5. Servicii adecvate de îngrijire a clienților - SAS poate fi modificat doar de către organizația SAS,
deoarece nu este un instrument open-source. Toate tipurile de probleme ale clienților sunt soluționate
bine de asistența clienților SAS.
6. Algoritmi bine evaluați - Toți algoritmii implementați în SAS sunt analizați, testați și verificați în
detaliu de către dezvoltatorii SAS. Înainte de lansarea oficială, toate versiunile SAS sunt testate intens
și verificate într-un mediu bine gestionat. Aceste testări și verificări sunt realizabile numai pentru că
SAS nu este un software open-source.
7. Interfață grafică foarte bună (GUI) - Analiza statistică a fost facilitată de limbajul SAS pentru
persoanele obișnuite care nu sunt programatori. SAS oferă o uimitoare Interfață grafică de utilizator
pentru dezvoltatori. GUI SAS oferă numeroase instrumente precum comploturi, grafice și o bibliotecă
foarte flexibilă.
8. Ieșire precisă - Oferă o ieșire precisă și bine formatată, care este ușor de înțeles.
• Algoritmii SAS nu sunt deschiși pentru utilizare publică comună și sunt disponibili doar în
versiunile licențiate. Mai mult, SAS nu este disponibil în mod transparent în scopuri de cercetare
pentru public, spre deosebire de limbajul de programare R.
2. Preț ridicat - Unul dintre dezavantajele cruciale ale SAS este costul ridicat al acestuia.
• Liniile de cod din SAS sunt mult mai multe decât în R.
• Aplicațiile celor mai noi tehnologii precum învățarea automată și învățarea statistică sunt foarte
ușoare în R în comparație cu cea a SAS.
• Pachetele precum extragerea textului, formatarea în timp a seriei, etc. sunt foarte scumpe în SAS,
comparativ cu limbajul de programare R.
5. Dificultate în extragerea textului - Extragerea informațiilor utile din datele textului este
cunoscută sub numele de text mining. R oferă gratuit minerirea textului, în timp ce minerirea
textului în SAS este foarte scumpă.
Concluzie SAS este foarte popular în rândul întreprinderilor mari, deoarece oferă niveluri ridicate de
securitate în comparație cu R, care este popular printre freelanceri și nu este la fel de sigur ca SAS.
4. SAS Enterprise Guide – descriere generală
SAS Enterprise Guide este o aplicaţie client pentru Microsoft Windows uşor de utilizat, pentru
accesarea și analiza datelor utilizând modulele SAS care oferă următoarele facilităţi:
• Utilizatorii având diverse niveluri de experienţă (de la începători până la experţi) pot utiliza SAS
Enterprise Guide pentru a obţine rapid rezultate semnificative.
- ferestre de dialog pentru introducerea parametrilor prelucrărilor şi efectuarea de setări prin instrumente de
tip wizard;
- editor de sintaxă pentru scrierea programelor, cu evidenţierea în culori diferite a elementelor codului;
Dacă utilizatorul este programator SAS, el poate utiliza editorul de cod al pachetului de programe
pentru a crea cod nou sau pentru a modifica programe SAS existente.
Utilizatorul poate modifica codul SAS generat de pachet (din fereastra Code) pentru a personaliza
rezultatele şi pentru a accesa facilităţile SAS care nu sunt disponibile în cadrul interfeţei grafice.
De asemenea, utilizatorul poate salva codul şi să îl execute într-un mediu de tip batch.
Observație. Un fișier de tip batch reunește într-un singur fișier un set de comenzi care altfel ar fi fost
prezentate în mod interactiv, pe rând, sistemului de operare, folosind tastatura sau mouse-ul.
Un astfel de fișier este, de obicei, creat pentru a încapsula o secvență de comenzi pe care utilizatorul
o execută în mod repetat.
Pentru a lucra cu SAS Enterprise Guide, trebuie parcurşi următorii paşi:
4. personalizarea rezultatelor
5. automatizarea procesului
Pe măsură pe accesaţi date şi realizaţi prelucrări, SAS Enterprise Guide generează cod SAS.
Atunci când rulaţi o prelucrare, codul generat este trimis motorului SAS pentru procesare, iar
rezultatele sunt returnate către SAS Enterprise Guide.
➢ fereastra principală (spațiul de lucru) unde se vizualizează fluxul de proces (Process Flow)
- Dacă se dorește să se restaureze modul de vizualizare implicit, din meniul principal se vor selecta
opțiunile View ⇒ 𝐑𝐞𝐬𝐞𝐭 𝐭𝐨 𝐝𝐞𝐟𝐚𝐮𝐥𝐭 𝐥𝐚𝐲𝐨𝐮𝐭.
- Dacă una dintre ferestre a fost închisă și se dorește restaurarea ei, din meniul View se va selecta
numele ei.
• Fereastra de resurse (Resources pane) și spațiul de lucru (Process Flow) constituie elemente
ale interfeței în care sunt rezidente mai multe ferestre.
• Implicit, se poate vizualiza o singură fereastră în aceste zone (opțiunea Show One), dar este
posibilă divizarea lor pentru a permite vizualizări multiple prin selectarea butonului săgeată în jos,
opțiunea Show Multiple și selectarea ferestrelor dorite.
• Totodată, în interiorul spațiului de lucru sunt aplicate mare parte din funcțiile SAS Enterprise
Guide aflate la dispoziția utilizatorului. De aceea, înainte de a diviza acest spațiu, este utilă o
maximizare a sa, folosind opțiunea 𝐕𝐢𝐞𝐰 ⇒ 𝐅𝐮𝐥𝐥 𝐬𝐜𝐫𝐞𝐞𝐧 𝐅𝟏𝟏 din bara de meniu.
Pentru vizualizarea secvențială a ferestrelor din fereastra aferentă resurselor, se apasă
pictogramele corespunzătoare, respective:
• Tasks
• SAS Folders
• Server List
• Prompt Manager
4.2. Structura și obiectele unui proiect SAS EG
▪ În SAS Enterprise Guide, toată activitatea desfășurată este salvată în proiecte. Un proiect este o
colecție de date aferente, sarcini, programe și rezultate.
▪ Fereastra arborelui proiectului (Project Tree) afişează o structură ierarhică a proiectului activ.
- Atunci când se creează un proiect nou, ferestra Project Tree este goală.
- Pe măsură ce se adaugă date, se execută prelucrări sau se generează rezultate, în această ferestră
vor fi adăugate pictograme (iconiţe) pentru fiecare dintre aceste obiecte. Ele sunt văzute ca
obiecte ale unui proiect.
• Se poate reveni la o prelucrare a datelor în arborele proiectului, modifica și rula din nou pentru a
obține un set nou de rezultate ce pot fi salvate separate sau pot fi suprascrise peste rezultatele
prelucrării anterioare.
• Pentru deschiderea unui proiect nou, dacă SAS Enterprise Guide nu este deja deschis, se lansează
în execuție și din fereastra principală se selectează opțiunea New Project, în caz contrar, se vor
selecta opțiunile 𝐅𝐢𝐥𝐞 ⇒ 𝐍𝐞𝐰 ⇒ 𝐏𝐫𝐨𝐣𝐞𝐜𝐭.
• În acest moment noul proiect va fi deschis, având ferestrele Project Tree și Process Flow goale.
Un proiect și conținutul acestuia poate fi salvat în orice locație, inclusiv într-un alt server, ca un
singur fișier. În acest scop se vor parcurge următorii pași:
2. La deschiderea ferestrei Save se va stabili și selecta dacă proiectul va fi salvat în calculatorul local
sau pe server, după care se selectează opțiunea My Computer.
3. În fereastra Save se selectează locația pentru proiect, în câmpul File name se introduce numele
proiectului (care se va salva cu extensia .egp)
• datele,
• rezultatele,
• note,
SAS Enterprise Guide are la un moment dat un singur proiect activ. Fiecare proiect conţine unul sau
mai multe fluxuri de proces. Un flux de proces reprezintă vizual relaţiile dintre obiectele unui proiect.
• Într-un proiect se pot crea noi fluxuri pe proces şi se pot muta sau copia obiecte între fluxurile de
proces.
• De asemenea, se poate executa doar o porţiune a unui flux de proces, sau întregul flux, imediat sau
poate fi programat pentru o execuție ulterioară.
Înainte de rulare, fereastra aferentă fluxului de proces este singura fereastră deschisă în zona de lucru.
Când se generează rapoarte sau se deschid fișiere de date, în spațiul de lucru se deschid mai multe
ferestre, ce pot fi accesate cu ușurință.
• Fereastra Submission Status este o parte a interfeței SAS Enterprise Guide utilizată pentru a afișa
date, cod, informații privind execuția (log-uri), rezultatele activităților și a fluxurilor de proces.
În SAS Enterprise Guide, task-urile sunt utilizate pentru realizarea oricărei activități, de la
manipularea datelor, la derularea procedurilor analitice specific sau la crearea de rapoarte.
Multe task-uri sunt, de asemenea, disponibile ca wizard-uri, care conțin un număr limitat de opțiuni și
care pot oferi o modalitate rapidă și ușoară de a utiliza o parte dintre aceste task-uri.
Task-urile și wizard-urile pot fi alese utilizând lista de activități (Tasks) sau prin utilizarea meniului
principal.
În mod implicit Tasks este ascunsă, dar ea poate fi vizualizată apăsând butonul Tasks din fereastra de
resurse aflat în colțul din stânga jos al spațiului de lucru.
Tasks permite mai multe moduri de vizualizare (figura nr. 4), vizualizează task-urile:
- în ordine alfabetică
- recente
- favorite
- filtrate etc.
- Fereastra Submission Status nu este afișată în mod implicit, dar ea poate fi vizualizată prin
selectarea opțiunilor View ⇒ Submission Status.
- Fereastra Process Flow afișează, de asemenea, o culoare de fundal diferită în jurul task-ului activ,
pentru fiecare fază de prelucrare.
Figura nr. 5 Fereastra Submission Status
5. SAS Enterprise Guide - Accesarea datelor
Înainte de a realiza prelucrarea și analiza datelor SAS Enterprise Guide, este necesar ca datele să fie adăugate
(importate) în proiect. Utilizatorul are posibilitatea să deschidă date care se află:
- pe calculatorul local sau
- pe orice alt server pe care este autorizat să îl acceseze.
1. Tabele de date SAS, care sunt formate specifice ale pachetului de programe SAS. Pentru a putea fi
supuse prelucrărilor, toate celelalte tipuri de formate suportate de pachetul SAS trebuie transformate
în tabele de date SAS.
2. Fișiere flat conțin înregistrări între care nu există nicio inter-relaționare. Avantajul este acela că
ocupă mai puțin spațiu decât fișierele structurate. Totuși, necesită ca aplicația care le folosește să
cunoască modul în care datele sunt organizate în fișier. Exemple de fișiere flat sunt fișiere text, fișiere
ASCII sau fișiere secvențiale.
3. Fișiere ale altor aplicații software cum ar fi Microsoft Access sau Paradox. Nu este nevoie să se
instaleze software adițional pentru a citi date în următoarele formate: dBase, HTML, IBM Lotus 1-2-
3, Microsoft Access, Microsoft Excel.
Pentru fișiere de dimensiuni mari, se pot îmbunătăți performanțele aplicației prin utilizarea software-ului
SAS/ACCESS. În acest sens, în funcție de tipul de fișier care va fi citit, interfețe SAS/ACCESS to PC Files
sau SAS/ACCESS to ODBC trebuie instalate pe același calculator pe care este instalat și SAS.
Observație.
• Deși se pot deschide și rula task-uri pe diverse tipuri de date, dacă se dorește editarea acestor date,
ele trebuie deschise ca un set de date SAS. În acest scop SAS Enterprise Guide permite importul a
diverse tipuri de fișiere de date pentru crearea seturilor de date SAS.
SAS Enterprise Guide poate citi şi utiliza date dintr-o varietate de formate:
▪ Fișierele text conțin înregistrări între care nu există nicio inter-relaționare. Avantajul este acela că
ocupă mai puțin spațiu decât fișierele structurate. Totuși, necesită ca aplicația care le folosește să
cunoască modul în care datele sunt organizate în fișier.
✓ Fişiere text cu lăţime fixă - Un fişier text cu lăţime fixă are un format specific care permite
salvarea datelor / informaţiilor textuale într-o manieră organizată. Este un tip special de fişier în
care formatul este definit de:
o lăţimea coloanei - specificată sub forma unui număr de caractere;
o caracterele folosite pentru spaţiere - caracterul spaţiu (sau orice caracter se doreşte) în cazul în
care datele ocupă mai puţine caractere decât lăţimea specificată pentru coloana respectivă;
o alinierea la stânga sau dreapta.
Spre exemplu, un fișier text în care lățimea primei coloane este de 27 de caractere, celei de-a doua de
8 caractere și cea de-a treia de 12 caractere:
Astfel de fişiere se pot crea ușor folosind aplicaţii de calcul tabelar sau pentru baze de date (ex.
Microsoft Excel, Microsoft Access).
Spre exemplu, în Excel: File –> Save As, Text (Tab delimited).
Un astfel de fișier poate conține numele, prenumele și vârsta persoanelor, delimitate prin simbolul
linie verticală (|).
• Popescu|Dan|25
• Ionescu|Marin|18
• Zaharia|Ciprian|35
▪ Date compatibile cu standardul ODBC. ODBC (Open DataBase Connectivity) este o metodă
standard de accesare a bazelor de date care permite accesul la orice date din cadrul oricărei aplicații,
indiferent de sistemul de gestiune a bazelor de date (SGBD) care gestionează datele.
- ODBC realizează acest lucru prin inserarea unui strat de mijloc (middle layer), numit driver de
baze de date, între aplicație și SGBD.
- Scopul acestui strat este de a transforma interogările aplicației în comenzi pe care un SGBD le
înțelege. În acest sens, atât aplicația, cât și SGBD-ul trebuie să fie compatibile cu standardul
ODBC, adică aplicația trebuie să fie capabilă să genereze comenzi ODBC, iar SGBD-ul trebuie
să fie capabil să răspundă la acestea.
• OLE DB (Object Linking and Embedding Database) este o interfață API proiectată de Microsoft
pentru accesarea diferitelor tipuri de date stocate într-o manieră uniformă. OLE DB include și
capabilitățile ODBC.
▪ Datele în format SAS (sau tabele SAS), Foi de calcul Microsoft Excel, Fişiere dBase, Tabele
HTML, Tabele Microsoft Access. Pentru a putea fi accesate de SAS EG, datele trebuie să fie
reprezentate în format tabelar (ca o mulţime de linii şi coloane).
- O linie (rând) reprezintă o instanţă a unei entităţi. Entitatea poate fi un produs, un client, o
comandă sau orice alt lucru.
- Eticheta ataşată unei coloane poate avea lungimea de maxim 265 de caractere.
Figura nr. 1 Exemplu de tabelă
Unul dintre cele mai importante lucruri care trebuie ştiute despre date este ce tip de date conţine fiecare
coloană (sau variabilă). SAS priveşte datele ca fiind:
• În cazul în care datele dintr-o coloană conţin doar litere, aceasta are date de tip caracter.
Valorile de tip caracter pot avea lungimea între 1și 32,767 caractere (octeți).
• În cazul în care datele dintr-o coloană conţin numere, aceasta poate fi de tip caracter sau numeric.
▪ Datele numerice sunt grupate în patru categorii de date, în funcţie de modul în care acestea sunt afişate.
În figura nr. 2 sunt prezentate simbolurile asociate fiecărui tip de data precum și pictogramele asociate lor.
✓ Aceste simboluri constituie un indiciu despre modul în care pot fi folosite coloanele sau variabilele în
prelucrări.
- Numeric
- Monedă
- Dată
- Timp
Figura nr. 2 Tipuri de date și pictogramele lor
5.2. Formate de introducere / afișare date, valori lipsă și metadate
Formatele de intrare (Informat) sunt, de obicei, folosite pentru a citi într-o variabilă date din surse
externe numite fişiere flat (fişiere text, fişiere ASCII sau fişiere secvenţiale).
Formatele de intrare instruiesc aplicaţiile SAS despre modul în care trebuie să citească datele într-o
variabilă SAS. Sunt, de obicei, grupate în trei categorii:
✓ caracter
✓ numeric şi
✓ data / timp.
• Formatele de intrare au următoarea sintaxă:
- caracter: $INFORMATw.
- numerice: INFORMATw.d
- dată/timp: INFORMATw.
Toate formatele de intrare trebuie să conţină punctul zecimal (.), astfel încât să se poată face diferenţa între
un format de intrare şi o variabilă SAS.
Figura nr. 3 Formate de intrare
Formatul de afişare (Format) este folosit pentru a controla modul în care sunt afişate valorile. Formatul
de afişare nu afectează modul de stocare a valorilor. Un format de afişare (Format) este o "instrucţiune"
care se aplică unei coloane, indicând produsului SAS Enterprise Guide cum să afişeze valorile datelor
(figura nr. 4).
În SAS Enterprise Guide sunt multe funcţii care furnizează opţiuni pentru modul de manipulare a
valorilor lipsă, în scopul raportării sau analizei.
Metadatele reprezintă informaţii despre datele în sine, cum ar fi:
- dimensiunea sau
- formatul lor.
Multe formate de fişiere care memorează date sub formă tabelară includ metadate ca parte a tabelei:
- tabelele SAS
- MS Access
- dBASE
Atunci când accesează un astfel de fişier, SAS EG poate accesa metadatele pentru a determina numele
Implicit, SAS EG caută numele coloanei în primul rând al fişierului şi analizează valorile stocate în
câmpuri sau celule pentru a stabili dacă o anumită coloană trebuie memorată ca şir de caractere sau ca
număr. Dacă se stabileşte că o coloană este de tip caracter, atunci lungimea ei este setată în mod automat ca
fiind 255 (octeţi), care este numărul maxim de caractere permis de motorul de baze de date Microsoft Jet.
5.3. Date locale și date la distanță
Când utilizatorul deschide date în SAS Enterprise Guide, el trebuie să selecteze dacă dorește să le
preia din :
- computerul local,
Dacă utilizatorul efectuează click pe opțiunea My Computer, el poate parcurge structura de directoare a
calculatorului local și poate să deschidă orice tip de fișier de date pe care SAS Enterprise Guide îl poate citi.
Figura nr. 5 Surse de date în SAS Enterprise Guide
Dacă se selectează opțiunea Servers, utilizatorul va putea să caute datele pe un server. Acest server poate
să fie:
- un server local, dacă pe calculatorul local este instalat software-ul SAS, sau
- un server la distanță, dacă software-ul SAS este instalat pe un alt calculator.
Servere-le pe care le poate vedea utilizatorul depind de mediul la care acesta este conectat. În cadrul
fiecărui server există pictograme care pot fi selectate, pentru
➢ biblioteci (Libraries) și
➢ fișiere (Files)
Unele biblioteci sunt definite de SAS, iar altele de SAS Enterprise Guide. Bibliotecile conțin numai seturi
de date SAS.
Directorul Files dintr-un server permite utilizatorului să acceseze fișiere de date dintr-o structură de
director aflată pe calculatorul pe care funcționează serverul SAS.
Figura nr. 6 Biblioteci și fișiere
Deschiderea fișierelor dintr-un server se poate face și printr-un dublu click pe fișier în fereastra
Server List. Această fereastră este deschisă implicit în fereastra de resurse, în colțul din stânga jos a
spațiului de lucru. În cazul în care fereastra Server List este închisă, pentru a o deschide se
selectează opțiunea View ⇒ Server List
Dacă utilizatorul selectează SAS Folders, el poate naviga prin lista de directoare SAS la care are acces.
Directoarele SAS sunt definite în SAS Metadata Server și pot fi utilizate pentru a furniza o locație
centrală pentru stocarea proceselor, hărților de informații (information maps) și a proiectelor, astfel încât
ele să poată fi partajate cu alte aplicații SAS. Directoarele SAS pot stoca, de asemenea și conținut care
nu se regăsește în SAS Metadata Server, cum ar fi fișierele de date.
5.4. Adăugarea datelor SAS într-un proiect
• În mod implicit, tabela este deschisă în modul citire (Protect Data din Edit). În acest mod, utilizatorul
poate parcurge datele, redimensiona lățimea coloanelor, ascunde coloane și rânduri și poate copia
coloane și rânduri într-un nou fișier, dar nu poate edita datele decât dacă va trece în modul editare
(Update Mode).
• Este de remarcat faptul că atunci când se inserează date într-un proiect se creează referințe la date, dar
SAS Enterprise Guide nu realizează o nouă copie a fișierului.
• Pentru a vizualiza proprietățile unui set de date, în arborele proiectului se selectează fișierul de date,
click dreapta și apoi opțiunea Properties. Se va deschide fereastra Properties, în care se vor putea
vedea informații referitoare la proprietățile generale, cum ar fi locația fizică a datelor și data ultimei lor
modificări.
Dacă, în zona de selecție se optează pentru opțiunea Columns, se va putea vedea lista coloanelor
setului de date precum și atributele acestor coloane.
Adăugarea datelor dintr-o bibliotecă SAS
În cadrul unui proiect, pentru a adăuga date dintr-o bibliotecă SAS, se procedează astfel:
• Se selectează opțiunile File ⇒ Open.
• În fereastra Open se selectează opțiunea Servers.
Se poate ca în fereastră să fie afișate mai multe servere. Server-ul la care este conectat SAS Enterprise Guide
este marcat distinct. Se deschide prin dublu-click.
Dacă SAS Enterprise Guide nu este conectat la un server, se va efectua dublu-click pe server-ul adecvat
pentru a-l conecta și deschide.
După deschiderea server-ului se va selecta opțiunea Libraries, apoi directorul dorit (în biblioteci sunt
stocate numai seturi de date SAS) și de acolo setul de date dorit, care va fi adăugat în proiect și deschis în
fereastra principală.
5.5. Importul datelor dintr-un fișier text
Facilitatea de import de date (Import Data) permite să se creeze seturi de date SAS din fișiere text,
HTML, Microsoft Excel sau fișiere de baze de date (inclusiv Microsoft Access și alte formate
populare). Se pot specifica opțiuni pentru a controla modul în care fișierul de intrare este importat și
modul în care este salvat ca un set de date SAS. În acest scop se:
▪ Se selectează fișierul text și se specifică setul de date de ieșire – se începe procedura de import
date din meniul File. În plus, dacă se dorește adăugarea de date care sunt într-un format pe care SAS
Enterprise Guide îl poate importa, task-ul Import Data îl deschide automat.
• Implicit, SAS Enterprise Guide selectează pentru setul de date și îl stochează în prima bibliotecă
disponibilă la care are acces. Pentru acest lucru se selectează opțiunile File ⇒ Import Data și se
selectează fișierul text care va fi importat.
• Odată ce procedura Import Data a fost deschisă, în pagina Specify Data se pot observa, în zona
Output SAS data set, numele bibliotecii și al setului de date.
• În mod implicit, tabela este salvată în biblioteca Work (totuși se poate ca serverul să fie astfel setat
astfel încât, în mod implicit, datele să fie salvate în biblioteca Sasuser).
• În continuare se va efectua click pe butonul
Browse, în câmpul File name se va
introduce numele dorit pentru fișierul
importat și se va activa butonul Save.
✓ Pentru a indica sfârșitul primei coloane și începutul celei de-a doua se va efectua din nou click pe
riglă bifând poziția dorită, obținându-se astfel o linie de demarcație, procedându-se identic pentru
celelalte coloane se va efectua clic pe butonul Next pentru a specifica atributele fiecărui câmp.
▪ Se specifică atributele câmpurilor – în tabela care conține atributele câmpurilor este selectat
implicit câmpul F1.
✓ Se va efectua clic pe butonul Modify pentru a deschide fereastra Field Attributes pentru
câmpul F1.
✓ În zonele Name, Label și Type se vor introduce numele, eticheta și tipul pentru acest câmp,
apoi se va apăsa butonul OK.
Pentru selecția celorlalte câmpuri se va efectua dublu click pe numele lor (respectiv F2, F3 etc.),
procedându-se similar.
Specificarea atributelor coloanelor
Pentru a elimina din procesul de importare
preluarea unui anumit câmp se va deselecta bifa
din box-ul de control aferent câmpului respectiv.
• În final, se va apăsa butonul Next pentru a
vedea opțiunile avansate și pentru a executa
procesul de import de date.
Pregătirea datelor este activitatea cea mai importantă şi mai consumatoare de timp în orice
proiect analitic. În cadrul unei firme, deseori apar probleme / situații pentru rezolvarea cărora
este necesară o analiză ad-hoc a datelor, însă, de cele mai multe ori, acestea nu sunt în forma cerută
de procesul de analiză.
La nivelul unei firme, datele trebuie reunite din diverse surse dispersate. Aceste surse de date pot
include: date tranzacţionale (de exemplu privind facturarea şi plata), cifre demografice sau date
financiare. Ulterior, pentru a le aduce în forma de analiză, asupra acestor date trebuie să fie aplicate
diverse transformări.
Sistemele software care procesează date pot fi clasificate în două categorii principale:
- sisteme operaționale și
- sisteme pentru depozite de date.
1
Sistemele pentru depozite de date sunt proiectate pentru a furniza informații utilizatorilor, cu
facilități pentru raportare, pentru regăsirea informațiilor sau pentru depozitarea datelor.
Este de preferat ca produsul final care rezultă din procesul de pregătire a datelor să fie o singură
tabelă (care va fi folosită pentru analiză) tabelă care va fi numită în continuare tabelă de analiză
sau tabelă analitică.
Tabelă analitică
Depozit de date
În figura nr. 1 se poate observa că există două surse principale pentru datele de analiză:
- datele tranzacționale
- alte date, cum ar fi date externe, date obținute din sondaje, date ad-hoc, tabele asociative
(lookup tables), foi de calcul sau fișiere text.
2
6.1. Interogarea datelor
O interogare ("query") se poate utiliza dacă se dorește să se analizeze date care sunt localizate în
mai multe tabele sau doar o parte a datelor dintr-o tabelă. Tehnic vorbind, o interogare este o
cerere de regăsire a datelor din una sau mai multe surse de date.
Rândurile pot fi selectate pe baza uneia sau mai multor condiții. În cadrul rezultatului
interogării, rândurile pot fi ordonate pe baza valorilor din una sau mai multe coloane
(figura nr. 2).
3
• Selectarea, ordonarea şi sortarea coloanelor. După selectarea sursei sau surselor de date,
utilizatorul poate să aleagă numai acele coloane pe care dorește să le obțină în rezultate și poate
să specifice și ordinea de apariție a acestora. De asemenea, el poate să creeze și să calculeze noi
coloane precum și să înlocuiască valori în coloanele existente (figura nr. 3).
• Definirea de variabile calculate. În cadrul unei interogări pot fi create noi coloane ale căror
valori pot fi calculate pe baza valorilor din coloane deja existente.
• Joncţiunea (unirea) tabelelor cu scopul de a combina date din diverse surse. Pentru a
obține date din mai mult de o singură sursă de date, tabelele pot fi reunite, pe baza unor coloane
comune, în diferite moduri (figura nr. 4).
4
Figura nr. 4 Joncțiunea tabelelor
• Gruparea şi agregarea datelor. Datele pot fi împărțite în grupuri pe baza valorilor dintr-o
coloană. În plus, în oricare dintre coloanele unei interogări pot fi introduse funcții de agregare
(însumare) – figura nr. 5.
În contextul SAS, o interogare este o colecţie de specificaţii care ne permit să aducem datele în
forma dorită de utilizator.
În funcție de necesități, utilizatorul poate selecta între mai multe tipuri de ieșiri ale unei
interogări, și anume:
- tabela fizică (data table – opțiunea implicită)
- tabela virtuală (data view) sau
- raport (report).
5
În SAS Enterprise Guide, instrumentul care ne permite să construim specificaţiile unei interogări poartă
denumirea de Query Builder. Pornind de la aceste specificaţii, Query Builder generează cod SQL.
Interogările care au asociaţi parametri permit utilizatorului să furnizeze date de intrare pentru interogare, la
momentul execuţiei acesteia.
Query Builder se deschide având afișate, în fereastra de tabele, tabelele selectate în cadrul
interogării, oferindu-i utilizatorului și posibilitatea:
- de a adăuga la acestea noi tabele (prin intermediul opțiunii Add Tables),
- dacă se combină date din surse diferite, cu ajutorul opțiunii Join se poate specifica tipul
de joncțiune care se va utiliza (figura nr. 7).
6
În Query Builder, interogările se fac pornind de la un anumit set de date.
✓ Implicit, ele se deschid fără a avea selectată nicio coloană a tabelei.
Proprietăţile unei coloane pot fi modificate, incluzând numele (alias-ul), eticheta sau formatul.
Funcţionalităţi diferite ale Query Builder sunt oferite prin intermediul a trei tab-uri:
- Select Data,
- Filter Data şi
- Sort Data.
- fie se realizează dublu-clic pe numele coloanei din listă (figura nr. 8).
Select Data - este folosit pentru a selecta care coloane sunt incluse şi care vor fi rolurile lor în
interogare.
7
Figura nr. 7 Opțiunea Join
8
Prin intermediul opțiunii Select Data:
➢ se pot selecta, ordona sau șterge coloane din interogare
➢ se poate vizualiza codul sau rezultatele interogării, utilizând butoanele din partea
dreaptă a zonei Select Data sau pe cele din partea de sus a ecranului (figura nr. 8).
9
Crearea unei noi coloane calculate
Într-o interogare se poate insera o nouă coloană care să fie coloană calculată pe baza altor
coloane sau valori. O coloană calculată poate fi folosită pentru:
- a agrega valori
- a înlocui valori pornind de la o anumită condiție sau
- a efectua calcule.
După crearea unei coloane calculate, aceasta poate fi folosită pentru sortarea sau gruparea
rezultatelor.
Există trei modalităţi de creare a unei coloane calculate într-o interogare (Figura nr. 10):
- coloană agregată (Summarized column)
- coloană recodificată (Recoded column)
- coloană calculată (Advanced expression)
10
Coloană agregată
Există posibilitatea aplicării unei funcții de agregare pe oricare dintre coloanele interogării.
După crearea unei coloane agregate sau a unei coloane calculate care conține o funcție de
agregare, pentru ca rezultatele să aibă o semnificație, datele pot fi grupate în funcție de
valorile unei coloane. Această operație este echivalentă cu folosirea clauzei GROUP BY
într-o interogare SQL.
Implicit, atunci când rulăm o interogare, aceasta este grupată după toate coloanele pe care
trebuie să le afișeze și nu va calcula funcțiile de agregare pentru un anumit grup de valori.
11
Figura nr. 11 Gruparea rezultatelor după o anumită coloană
12
Coloană recodificată
Prin intermediul facilității de recodificare a unei coloane se permite crearea unei coloane
calculate prin recodificarea:
Dacă în cadrul opțiunii Select Data se dorește gruparea datelor, se pot utiliza facilitățile din zona
Summary pentru a realiza subseturi de date grupate pe baza unor condiții specificate de
utilizator. Se specifică valorile care se înlocuiesc. Se pot înlocui valori punctuale, domenii de valori
sau se pot specifica condiţii care vor fi transformate în clauze CASE ale limbajului SQL.
Noua coloană recodificată este automat inclusă în tab-ul Select Data. Poate fi folosită în
crearea de filtre sau pentru sortarea datelor.
13
Figura nr. 12 Noua coloană recodificată este automat inclusă în tab-ul Select Data
14
Coloană calculată
A treia opţiune permite folosirea editorului avansat de expresii pentru definirea unei noi
coloane pe baza unei formule de calcul.
15
În scopul calculului valorilor unei coloane se pot utiliza, de asemenea, și funcțiile. O funcție
preia o valoare și o transformă în altă valoare, SAS Enterprise Guide dispunând de o
multitudine de funcții predefinite.
Odată selectată o funcție, va fi afișată adiacent și o descriere a sintaxei acesteia. Multe dintre
funcții necesită un parametru, iar comentariul afișat în expresie indică tipul valorii care va
trebui utilizat.
16
Opțiunea Filter Data
Prin intermediul opțiunii Filter Data, utilizatorul poate selecta numai acele rânduri care
corespund unui anumit criteriu bazat pe valorile din anumite coloane (figura nr. 15).
Pentru a realiza acest lucru:
- fie se selectează numele coloanei și se trage în zona filtrului,
- fie se realizează dublu-clic pe numele coloanei din listă.
17
Se pot defini două tipuri de filtre: filtre simple şi filtre avansate.
Pentru un filtru simplu, trebuie selectat operatorul de comparaţie şi introduse valorile sau
valoarea de comparat. Aceste valori pot fi preluate şi din valorile câmpului respectiv stocate
în tabela SAS corespunzătoare. Dacă în câmpul Value trebuie să introducem valori
nenumerice, atunci acestea trebuie incluse între ghilimele şi trebuie să se ţină cont de faptul
că valorile sunt case-sensitive.
Pentru filtrele avansate, se pot crea expresii complexe prin intermediul unui editor de
expresii avansate. Operatorii de comparaţie disponibili includ operatori standard, dar şi
operatori avansaţi.
18
Figura nr. 16 Definirea condițiilor de filtrare
19
Combinarea filtrelor
Atunci când se creează unul sau mai multe filtre asupra datelor, se poate specifica dacă
relaţiile dintre filtre sunt de tip AND sau OR. De asemenea, pentru condiţii complexe, filtrele
pot fi grupate.
Dacă s-ar dori (ceea ce nu e cazul în exemplul de față) schimbarea operatorului, ar trebui
urmați pașii de mai jos:
20
Figura nr. 19 Vizualizarea combinației condițiilor de filtrare
21
2. Se efectuează clic pe operatorul AND dintre cele două condiții de filtrare. Prin această
operație se va deschide un meniu prin care se permite schimbarea relației dintre filtre
(figura nr. 20).
22
Opțiunea Sort Data
Pentru a sorta datele în funcție de valorile din una sau mai multe coloane se adaugă coloana
în tab-ul Sort Data, se selectează ordinea de sortare (ascendentă sau descendentă).
Când interogarea a fost finalizată, prin intermediul butonului Run ea va fi procesată. Pe ecran
(în fereastra principală) vor apărea rezultatele și în proiect va fi adăugat un element specific
interogării.
23
Figura nr. 22 Rezultatele unei interogări
Pornind de la specificațiile unei interogări, Query Builder generează cod SQL (Structured
Query Language), ceea ce înseamnă că, pentru a realiza o largă varietate de interogări de bază sau
avansate, nu este necesar ca utilizatorul să dețină cunoștințe de informatică, dar dacă utilizatorul
este familiarizat cu limbajul SQL, el poate modifica cu ușurință codul generat. De exemplu, când
se selectează anumite rânduri, prin intermediul opțiunii Filter Data, Query Builder creează o
clauză WHERE bazată pe informațiile specificate de utilizator. În figura nr. 23 este prezentat un
exemplu de cod generat (procedură SQL) de către Query Builder.
24
6.2. Setarea opțiunilor unei interogări
Meniul Options din Query Builder permite setarea opțiunilor pentru o anumită interogare
sau opțiuni implicite pentru toate interogările (figura nr. 24).
➢ Dacă s-a selectat Defaults for All Queries, pe ecran va apărea fereastra Options.
Opțiunile care vor fi setate prin intermediul acestei ferestre vor fi aplicate tuturor
interogărilor care vor fi procesate de aici înainte.
➢ Dacă se selectează Options for This Query, pe ecran se va deschide fereastra Results
Options. Opțiunile care vor fi setate prin intermediul acestei ferestre vor rescrie opțiunile
implicite care au fost setate prin intermediul ferestrei Options.
25
După ce interogarea a fost procesată, pot fi setate câteva opțiuni, prin intermediul ferestrei
Properties. Această fereastră poate fi deschisă realizând clic-dreapta pe icoana pentru
interogare din fereastra Project Tree și apoi selectând Properties.
În zona Output data din Results pot fi văzute și schimbate numele datelor de ieșire și
biblioteca unde ele vor fi salvate. În mod implicit, SAS Enterprise Guide salvează datele de
ieșire ale unei interogări în prima bibliotecă în care se poate scrie: Egtask, Sasuser și Work.
De asemenea, pot fi definite biblioteci adiționale. Se poate utiliza opțiunea Change pentru a
specifica utilizarea unei biblioteci diferite pentru a salva datele de ieșire.
În zona SAS server for this query din Server, se poate vizualiza și schimba serverul care va
fi utilizat pentru procesarea interogării. Dacă se dorește schimbarea serverului utilizat, se
efectuează clic pe lista drop-down Server și se selectează unul dintre serverele pentru care
există permisiunea de acces.
În mod implicit, SAS Enterprise Guide execută interogarea pe serverul pe care a fost
rezidentă prima tabelă inclusă în interogare.
Orice date din interogare care sunt rezidente pe alte servere sunt copiate temporar pe serverul
pe care se procesează interogarea. Deoarece este de preferat să se minimizeze volumul de
date copiate între servere, este bine ca cea mai mare tabelă să fie introdusă prima în
interogare.
26
6.3. Specificarea formatului rezultatelor unei interogări
Alegerea unui tip de rezultat înainte de rularea interogării este o garanție a faptului că
interogarea va oferi informațiile în formatul potrivit. De exemplu, dacă utilizatorul dorește să
vizualizeze rezultatele interogării într-un browser Web, el poate genera rezultatele sub forma
unui raport HTML.
Utilizatorul poate genera rezultatele interogării în mai multe formate și anume data table,
data view și report, fiecare dintre acestea oferind diverse avantaje.
În tabelul nr. 1 sunt prezentate formatele de rezultate pentru o interogare și caracteristicile lor.
27
Data view – dacă o tabelă de date (data table) stochează datele efective, o tabelă virtuală
(data view) conține numai logica necesară pentru regăsirea datelor care sunt stocate în alte
locații. Data view-urile permit citirea dinamică a datelor fără a folosi spațiul fizic de stocare
de pe disc pentru crearea unei noi tabele.
➢ Pot ascunde de utilizatori anumite coloane confidențiale, pot conține coloane calculate
fără să existe vizibilitate asupra coloanelor implicate în calcul, permițându-le, în
același timp, să vadă alte coloane;
1. În fereastra Project Tree sunt afișate seturile de date care vor fi utilizate
28
3. În Query, se realizează clic în box-ul Number of rows to display in preview results
window în care se va introduce valoarea dorită (numărul de rânduri care se dorește să
fie afișate în fereastra Preview).
Figura nr. 26 Setarea opțiunilor unei interogări pentru a crește numărul de rânduri
care sunt afișate în fereastra Preview
29
4. Se realizează clic pe lista de tip drop - down, Save query result set as și se selectează
formatul dorit (Data table, Data view sau Report – HTML, etc.). Click OK.
Figura nr. 27 Setarea opțiunilor unei interogări pentru a genera ieșiri într-un anumit
format
30
7. Joncţiunea tabelelor în cadrul unei interogări
➢ Să se calculeze o nouă coloană folosind ca intrări date din coloane stocate în tabele diferite.
Tabelele care participă la joncţiune trebuie să aibă cel puțin o coloană comună. Această
coloană trebuie să conţină valori care:
- să se potrivească exact sau
- să poată fi cu uşurinţă comparate între tabele.
O joncţiune creată între coloane ale căror valori au corespondent exact se numeşte joncțiune
internă (inner join) şi reprezintă tipul de joncţiune implicită în SAS Enterprise Guide.
Pe lângă acest tip, sunt suportate şi alte tipuri de joncţiuni, cum sunt joncţiunile externe.
Atunci când, într-o interogare, se adaugă mai mult de o tabelă, Query Builder încearcă automat să
realizeze joncţiunea între tabele, pe baza coloanelor care au același nume şi același tip.
Dacă în tabelele pe care se dorește realizarea joncțiunii nu există coloane cu același nume, dar
există coloane care conțin date de același tip, joncțiunea poate fi realizată manual (figura nr. 1).
1
Figura nr. 1 Joncțiunea după coloane cu nume diferit
Când utilizatorul încearcă să adauge o tabelă cu care Query Builder nu poate realiza în mod
automat joncțiunea, va deschide fereastra Tables and Joins. Pentru a realiza joncțiunea dintre
tabele se va executa clic-dreapta pe coloana din prima tabelă și se va selecta opțiunea Join
[column-name] with apoi, din meniu se va selecta coloana corespondentă din cealaltă tabelă.
O altă modalitate de a realiza joncțiunea este de a selecta numele coloanei din una dintre tabele,
apoi, ținând apăsat butonul stâng al mouse-ului, se va muta pointerul pe numele coloanei
corespunzătoare din cealaltă tabelă.
În tabelul nr. 1 sunt prezentate tipurile de joncțiuni posibil de realizat într-o interogare.
Zona întunecată marchează rândurile pe care le va returna ca ieșire tipul respectiv de joncțiune.
2
Tabelul nr. 1 Tipurile de joncțiuni
Tabela1 Tabela 2
Tabela 1 Tabela 2
Tabela 1 Tabela 2
Tabela 1 Tabela 2
3
8. Prelucrarea datelor și personalizarea rezultatelor
1
8.1. Caracteristici generale ale procedurilor de date
Prelucrările SAS EG generează cod SAS şi rezultate formatate. Prelucrările includ proceduri SAS
care variază de la simple liste de date, la cele mai complexe proceduri analitice.
În SAS Enterprise Guide, fereastra aferentă prelucrărilor (task-urilor) are un format standard
(figura nr. 1, astfel încât utilizatorul, dacă este familiarizat cu execuția unui task, să le poată utiliza
cu ușurință pe celelalte.
În partea stângă a fiecărei ferestre de prelucrare se găsește un panou de selecţie care se utilizează
pentru selecția grupurilor de opțiuni aferente prelucrărilor.
De asemenea, toate procedurile au o zonă de date (Data) prin intermediul căreia utilizatorul va
aloca variabilele la rolurile prelucrării.
2
Figura nr. 1 Exemplu de fereastră de prelucrare
Box-ul Variables to assign listează variabilele (coloanele) din setul de date. Pictograma alăturată
fiecărei variabile indică tipul acesteia și anume:
3
Box-ul Task roles listează modurile în care variabilele pot fi utilizate de către prelucrare.
Pentru a putea fi executată o anumită prelucrare, este necesar ca cel puțin o variabilă să fie selectată
în rolul List variables.
Pictogramele din dreptul fiecărui rol indică tipul de variabilă care poate fi alocat acelui rol.
- rolul List variables acceptă toate tipurile de variabile, dar
- rolul Total of acceptă numai variabile numerice.
Atribuirea variabilelor la roluri se realizează prin tragerea lor din lista Variables to assign în rolul
adecvat aflat în lista Task roles. Dacă unui anumit rol au fost asignate mai multe variabile, acestea
pot fi ordonate prin intermediul butoanelor cu săgeți.
Pentru anumite roluri, numărul de variabile care le pot fi asignate este limitat, caz în care limita este
indicată sub numele rolului. De asemenea, pentru fiecare prelucrare există mai multe opțiuni care,
în panelul de selecție, sunt grupate pe categorii. Multe dintre prelucrări permit specificarea de titluri
și de footnote-uri pentru rezultatele aferente lor.
Din moment ce au fost asignate variabile la roluri și au fost setate opțiunile prelucrării, SAS
Enterprise Guide generează cod SAS pe care utilizatorul îl poate vizualiza prin intermediul
butonului Preview code.
Prin utilizarea butonului Run, codul este trimis motorului SAS și executat. După execuție,
utilizatorul poate accesa datele de intrare, precum și toate ieșirile prelucrării făcând clic pe tab-urile
din zona de lucru.
Deși, când se execută prelucrarea fereastra aferentă ei se închide, selecțiile făcute sunt salvate și se
poate redeschide prelucrarea prin utilizarea butonului Modify Task din panelul de instrumente al
zonei de lucru. Dacă prelucrarea nu este deschisă în zona de lucru, ea se poate redeschide și făcând
clic-dreapta pe numele ei din zona aferentă arborelui proiectului (Project Tree) și selectând
opțiunea Modify task-name.
4
8.1.2. Exportarea rezultatelor
5
Raportul poate fi:
- exportul se poate adăuga ca un pas de export la actualul proiect SAS EG, astfel încât
raportul să fie exportat de fiecare dată când proiectul este rulat (Export as a step in project)
6
8.1.3. Includerea parametrilor în prelucrări
➢ Se pot defini parametri care să ceară utilizatorului să selecteze sau să introducă una sau mai
multe valori atunci când se execută o prelucrare, o interogare, un program sau o procedură
stocată.
La momentul execuţiei, pentru fiecare parametru se generează una sau mai multe macro-variabile.
Definirea unui parametru se poate realiza selectând din meniul View opțiunea Prompt Manager.
o Displayed text – textul pe care îl vede utilizatorul atunci când prelucrarea se execută
7
Definirea tipului și variabilelor unui parametru
8
8.1.4. Personalizarea stilului de afişare
SAS Enterprise Guide foloseşte un stil implicit pentru afişarea rezultatelor generate în
format HTML. Un stil poate fi descris ca:
Un CSS (Cascading Style Sheet) este un fişier care conţine instrucţiuni despre modul cum să se
afişeze conţinutul unui document HTML. Un CSS poate controla aproape orice aspect al formatării
unei pagini HTML, inclusiv stiluri şi font-uri ale textului, culori, margini sau imagini.
După modificarea unui stil, rezultatul nu trebuie reexecutat pentru ca stilul să fie aplicat.
9
Mai departe, utilizatorul poate personaliza stilul cu ajutorul editorului de stiluri (Style Manager).
Stilurile predefinite oferite de SAS nu pot fi modificate din editor, numai o copie a acestora poate fi
modificată.
Instrumentul Style Manager (figura nr. 5) poate fi folosit pentru a modifica stilul implicit sau
pentru a adăuga, şterge sau edita stiluri existente.
10
8.1.5. Combinarea rezultatelor unui proiect
Rapoartele compuse permit combinarea rezultatelor mai multor prelucrări din proiect într-un
singur document. Facilitatea se accesează selectând opțiunile File New Report (figura nr. 6).
Atunci când se previzualizează sau salvează documentul, SAS Enterprise Guide include rezultatele
HTML create la ultima execuţie a fiecărei prelucrări. Documentul este actualizat dinamic.
11
8.2. Generarea statisticilor Summary
- un set de date în format SAS, care poate fi exportat în Microsoft Excel - dacă se alege
opțiunea Save statistics to dataset (figura nr. 7).
12
Figura nr. 7 Rezultate Summary Statistics
13
8.2.1. Prelucrarea Summary Statistics
Prelucrarea Summary Statistics dispune de un wizard precum și de un box standard de dialog care
pot fi utilizate pentru setarea rezultatelor.
Box-ul standard de dialog poate fi accesat din meniul Task selectând opțiunea Describe și apoi
opțiunea Summary Statistics, iar wizard-ul prin intermediul opțiunilor Describe Summary
Statistics Wizard (figura nr. 8).
14
Prelucrarea Summary Statistics are următoarele roluri (figura nr. 9):
În plus, prin setarea opțională (Group variable) și intermediul butonului Advanced, sunt oferite
următoarele facilități:
Group variable – pentru fiecare grup vor fi generate statistici descriptive separate. Grupurile vor fi
determinate prin intermediul valorilor variabilelor asignate acestei facilități.
• Relative weight – se va defini o variabilă ale cărei valori vor fi utilizate pentru a calcula
medii ponderate, dispersii și sume.
• Copy Variable – variabilele asignate acestei facilități vor fi incluse ca variabile adiționale
în setul de date de ieșire.
15
16
Prin intermediul acestei prelucrări, utilizatorul poate opta pentru obținerea anumitor statistici și
rezultate (figurile nr. 10, 11).
17
O dată realizată prelucrarea Summary Statistics prin intermediul wizard-ului aferent ei, efectuând
clic-stânga pe pictograma ei din cadrul ferestrei Project Tree, și selectând opțiunea Open in
Advanced View, utilizatorul poate alege între alte câteva opțiuni avansate, și anume:
Dacă pentru rolul Classification se selectează una sau mai multe variabile, pentru specificarea
nivelului de sumarizare a datelor se poate selecta una dintre următoarele opțiuni:
• indicarea unor combinații specifice pe baza cărora vor fi sintetizate datele (Specify ways).
De exemplu, dacă se selectează trei variabile pentru clasificare, utilizatorul poate specifica toate
combinațiile, două variabile sau trei variabile prin introducerea în câmpul text a cifrelor 1, 2 sau 3.
Dacă sumarizarea se face după 0 variabile, se vor calcula statisticile pentru întreg setul de date.
Variabilele de clasificare sunt, de obicei, de tip caracter sau numerice discrete, dar pot fi și valori
numerice continue care au aplicat un format discret.
18
8.2.2. Prelucrarea Summary Tables
Prelucrarea Summary Tables afișează statisticile descriptive, pentru una sau mai multe variabile,
sub forma unui tabel tabular (figura nr. 12).
19
În cadrul acestei prelucrări, utilizatorul poate seta variabilele analizate, statisticile care vor fi
calculate, precum și forma raportului (figura nr. 13).
20
Variabilele analizate trebuie să fie întotdeauna numerice.
Variabilele de clasificare sunt, de obicei, de tip caracter sau numerice discrete, dar pot fi și valori
numerice continue care au aplicat un format discret.
21
Figura nr. 15 Selectarea variabilelor de clasificare
Specificarea totalurilor pentru coloane, rânduri și pagini se poate realiza conform figurii nr. 16.
23
Pentru îmbunătățirea aspectului tabelei rezultatelor (figura nr. 18), se poate utiliza opțiunea Table
Properties a prelucrării (prin clic-dreapta în zona aferentă fiecărui element și schimbarea
proprietăților), pentru a realiza:
• asignarea unui format de afișare specific la fiecare statistică descriptivă, în mod individual;
24
8.3. Personalizarea rezultatelor
Pentru a realiza un nou format se accesează procedura Create Format, din meniul bară, iar apoi se
selectează opțiunile Data Create Format (figura nr. 19).
25
Selectând mai departe Options se deschide fereastra din figura nr. 20, prin intermediul căreia se pot
introduce opțiunile legate de format, respectiv:
- numele formatului,
- tipul acestuia (numeric sau caracter),
- lățimea lui și
- locația în care el va fi stocat.
Câmpul Format name – Numele formatului trebuie să înceapă cu o literă sau cu caracterul
underscore și nu se poate termina cu o cifră. Pentru un set complet de reguli pentru nume se va
selecta opțiunea Help din procedura Create Format.
Opțiunea Currently assigned libraries. WORK (temporary) – Implicit există numai pe durata
unei sesiuni SAS Enterprise Guide. Când se încheie sesiunea, formatul este șters. Aceasta înseamnă
că dacă se închide sesiunea de lucru, apoi se redeschide, pentru a putea utiliza formatul, trebuie
reexecutată procedura Create Format.
26
În fereastra Define Formats (figura nr. 21), se construiește o tabelă de corespondență pentru a
asocia valorile datelor cu valorile formatate. Se definește o etichetă pentru a specifica textul care va
fi afișat în locul datelor originale.
Tipuri de coloane:
• Discrete – acceptă valori singulare, de exemplu Europa sau OK
• Range – acceptă o valoare limita-minimă, cum ar fi 100 și o valoare limită-maximă, ca 200,
pentru a defini o gamă de valori. Punctele extreme pot fi proiectate ca inclusive sau
exclusive.
Trebuie remarcat faptul că definițiile formatului sunt case-sensitive. Prin urmare, textul furnizat
prin intermediul câmpului Values al procedurii Create Format trebuie să fie identic cu textul din
coloana sau coloanele din tabela de date asupra cărora se va aplica formatul.
27
În figura nr. 22 se poate observa modul în care se definesc etichetele. În box-urile Values nu este
permisă introducerea cuvintelor cheie High și Low. Acestea se vor selecta din lista drop-down.
28
Utilizarea metodei de a specifica un format de coloană se aplică numai în cazul unei prelucrări
particulare - List Data (figura nr. 23).
Observație. Pentru a aplica formatul la o coloană dintr-un set de date SAS în mod permanent,
trebuie să se modifice proprietățile coloanei în Query Builder sau în Data Grid (modul editare), un
anumit format putând fi aplicat mai multor coloane.
29
8.3.2. Crearea de grafice
SAS Enterprise Guide oferă cinci formate diferite de ieșiri grafice care pot fi selectate prin
intermediul opțiunilor Tools Options accesate din Results Graph.
• ActiveX (generează graficul ca un control ActiveX. Acesta este formatul de ieșire implicit
care poate fi văzut în Microsoft Internet Explorer din Microsoft Windows).
• Java (generează graficul ca un applet Java. Un applet Java poate fi văzut în orice browser
Web care suportă Java).
• ActiveX image (SAS) (generează graficul ca un fișier PNG utilizând tehnologie ActiveX.
Acest format poate fi generat numai pe servere SAS pentru Windows.
• Java image (SAS) (generează graficul ca un fișier PNG utilizând tehnologie Java. Acest
format poate fi generat de orice server SAS.
Formatele de ieșire ActiveX control și Java applet sunt interactive. Din moment ce a fost generat
un grafic într-un astfel de format, prin clic-dreapta pe pictograma aferentă lui, se pot modifica tipul
graficului și multe alte opțiuni. Fiecare opțiune schimbată este reflectată numai în rezultat și nu în
selecțiile de dialog ale prelucrării, selecții care au fost făcute pentru setarea opțiunilor graficului.
Formatele de ieșire GIF, JPG, ActiveX image, Java image și EMF nu sunt interactive, adică nu se
poate schimba aspectul graficului după ce el a fost generat.
30
Figura nr. 24 Formate de ieșire pentru grafice
31
Meniul Graph include toate procedurile aferente graficelor avansate, precum și wizard-uri
(figura nr. 25).
32
Principalele tipuri de grafice sunt: bar charts, pie charts, line charts, scatter charts, area plot etc.
Pentru a realiza un grafic de tip bar chart, se pot realiza o serie de setări pentru a personaliza
rezultatele (figurile nr. 26).
33
ANALIZA MULTIDIMENSIONALĂ A DATELOR
Trăsătura comună a acestor metode este faptul că au același scop principal: reducerea
dimensiunii setului de date. Atingerea acestui obiectiv se realizează în concordanță cu anumite
criterii, care diferă de la o tehnică la alta, și anume:
➢ conservarea unei cantități cât mai mari din variabilitate, în cazul ACP,
Elementul cauzal care facilitează atingerea scopului acestor analize este prezența legăturilor
între variabile (măsurate prin corelații și covarianțe).
• pe de-o parte, de faptul că pot constitui un scop în sine, când se urmărește construirea unor
indicatori sau identificarea unor construcții latente care generează evoluția comună a unui
grup de variabile și,
• pe de altă parte, de faptul că ele fac posibilă includerea corectă a unor variabile în alte
tipuri de analize (analiză cluster, discriminantă, modele de regresie).
1
ANALIZA COMPONENTELOR PRINCIPALE
1. Considerații generale
3. Metoda geometrică
4. Proprietățile componentelor principale
1. Considerații generale
Analiza componentelor principale se poate folosi pentru orice fel de date: nominale, ordinale, de
interval sau de raport, ajustându-se în funcție de tipul acestora.
În funcţie de provenienţă, variabilele care pot face obiectul unei ACP pot lua:
➢ valori calitative obţinute în urma unor notaţii dar sunt asimilabile cu variabilele cantitative
➢ valori calitative ordinale obţinute în urma unor clasamente dar pot fi transformate în
variabile continue.
Cea mai simplă modalitate de raportare la aceste noi construcții (inițial egale ca număr cu
variabilele originale) este de a le privi drept medii ponderate ale variabilelor inițiale.
Determinarea ponderilor se face în așa fel încât noile variabile să înmagazineze, în ordine
descrescătoare, cât mai mult din informația primară a setului de date: prima variabilă să aibă
conținutul informațional cel mai mare, a doua să fie următoarea din această perspectivă, iar ultima
să fie cel mai puțin informativă. Având această distribuire descendentă a informației în noile
variabile, se poate renunța la ultimele dintre ele, contribuția lor fiind nesemnificativă.
2
Un alt rezultat important al aplicării ACP este obținerea de noi variabile necorelate între ele
pornind de la setul inițial caracterizat de grade diferite de intercorelare între seriile de date.
Așadar, analiza componentelor principale este o tehnică de analiză multidimensională care, prin
construirea de combinații liniare de variabile inițiale 𝒙𝒊 , permite rescrierea informației conținute
de acestea într-un număr identic de alte variabile 𝒛𝒊 , denumite componente principale, cu
varianță distribuită descrescător și necorelate între ele.
Aceste două proprietăți esențiale ale componentelor principale permit eliminarea suprapunerilor
informaționale caracteristice variabilelor corelate și fac posibilă trecerea la un alt spațiu de
variabile de dimensiune mai mică, în condițiile pierderii unei cantități neînsemnate de informații.
În acest fel, noul set de variabile, lipsit de redundanțe, permite o reprezentare mai clară a
contribuției fiecărei variabile la variabilitatea totală.
Întrucât varianța este o măsură a cantității de informație dintr-o variabilă, prima componentă
principală construită, cea mai informativă, are abaterea medie pătratică cea mai ridicată, iar
ultimele, varianța cea mai mică.
3
Matriceal, aceste relații pot fi transpuse în:
𝒛 = 𝑨′ ∙ 𝒙 (3)
Prezentarea matricei 𝑨 în formă transpusă se realizează pentru a putea fi mai usor identificată
semnificația coloanelor acesteia, după cum se va vedea pe parcursul expunerii.
• poate fi un scop în sine, atunci când, spre exemplu, se dorește construirea unui indicator
care să păstreze cvasiintegral cantitatea de informații din variabilele care intră în
construcția sa sau
• un pas intermediar din cadrul unei alte analize (pot fi incluse în modele de regresie, în
metodele de recunoaștere a formelor atât în analiza discriminantă, cât și în analiza cluster.
4
2. Modelul matematic al componentelor principale
Primele lucrări în care sunt descrise componentele principale aparțin lui Pearson (1901 – metoda
geometrică) și Hotelling (1933 – metoda algebrică).
𝑎1𝑖
𝑎2𝑖
unde 𝑎 (𝑖) = ( ⋮ ) este al i-lea vector coloană al matricei 𝐴.
𝑎𝑛𝑖
Așadar, pentru construirea lui 𝑧𝑖 , este nevoie de identificarea vectorului 𝒂(𝒊) care îi asigură un
nivel maxim de variabilitate.
5
➢ Întrucât multiplicarea lui 𝒂(𝒊) cu un scalar ar duce la obținerea unui nou nivel maxim, este
necesară impunerea unei condiții pentru identificare:
Impunerea acestei condiții implică de fapt considerarea unor vectori 𝒂(𝒊) de lungime unitară –
cu norma egală cu 1.
6
Pasul 2. Se impun condițiile necesare de optim:
𝜕𝐿
𝜕𝒂(𝒊)
(𝒂(𝒊) ; 𝝀𝒊 ) = 0
{ 𝜕𝐿 (9)
𝜕𝝀𝒊
(𝒂(𝒊) ; 𝝀𝒊 ) = 0
2 ∙ 𝚺 ∙ 𝒂 ( 𝒊 ) − 2 ∙ 𝝀𝒊 ∙ 𝒂 ( 𝒊 ) = 0
{ (10)
𝒂(𝒊)′ ∙ 𝒂(𝒊) − 𝟏 = 0
Deoarece Σ este o matrice pătratică, iar 𝝀𝒊 un scalar, 𝒂(𝒊) (diferit de vectorul nul) este vector
Așadar, 𝝀𝒊 este valoarea proprie asociată vectorului propriu 𝒂(𝒊) și este rădăcină a ecuației
caracteristice:
|𝚺 − 𝝀𝒊 ∙ 𝑰| = 𝒅𝒆𝒕(𝚺 − 𝝀𝒊 ∙ 𝑰) = 𝟎
(𝚺 − 𝝀𝒊 ∙ 𝑰) ∙ 𝒂(𝒊) = 𝟎 (12)
7
Totodată, 𝝀𝒊 reprezintă și varianța componentei principale 𝒛𝒊 , deoarece, pornind de la relația
𝒗𝒂𝒓(𝒛𝒊 ) = 𝝀𝒊
construiește cu ajutorul vectorului propriu asociat valorii proprii celei mai mari, 𝝀𝟏 .
Vectorii proprii 𝒂(𝒊) sunt ortogonali doi câte doi, 𝒂(𝒊)′ ∙ 𝒂(𝒋) = 𝟎 – consecință a faptului că
Prin urmare, componentele principale construite cu ajutorul lor moștenesc această proprietate:
𝒛′𝒊 ∙ 𝒛𝒋 = 𝟎 (14)
Matricea 𝑨, care are pe coloane vectorii proprii, 𝒂(𝒊) , ortogonali și de normă 1, este o matrice
ortonormală, având proprietatea că:
𝑨′ ∙ 𝑨 = 𝑨 ∙ 𝑨′ = 𝑰 și deci 𝑨′ = 𝑨−𝟏 .
𝜆1 0 ⋯ 0
0 𝜆2 ⋯ 0
Λ=( ) (15)
⋮ ⋮ ⋱ ⋮
0 0 ⋯ 𝜆𝑛
poate fi scrisă ca
𝚲 = 𝑨′ ∙ 𝚺 ∙ 𝐀 sau 𝚲 = 𝑨−𝟏 ∙ 𝚺 ∙ 𝐀 (16)
8
Pornind de la teoria vectorilor și valorilor proprii pot fi enunțate două proprietăți, importante în
contextul ACP, referitoare la relația dintre matricea Σ și valorile proprii:
➢ pe de-o parte, urma matricei Σ este egală cu suma elementelor de pe diagonala sa, deci
reprezintă varianța totală a variabilelor inițiale și determinantul ei reprezintă varianța
generalizată iar,
➢ pe de altă parte, varianța totală a componentelor principale este egală cu suma valorilor
proprii, și varianța lor generalizată este determinantul matricei Λ, deci produsul lor.
𝒏 𝒏
∑ 𝝈𝟐𝒊 = ∑ 𝝀𝒊
𝒊=𝟏 𝒊=𝟏
9
Cantitatea de informație descrisă de o componentă principală 𝒛𝒊 este egală cu raportul dintre
valoarea proprie asociată ei și varianța totală a componentelor principale sau, implicit, a
variabilelor inițiale.
𝝀𝒊 𝝀𝒊
% 𝒅𝒊𝒏 𝒗𝒂𝒓𝒊𝒂𝒏ță = ∑𝒏
= ∑𝒏 𝟐 (21)
𝒊=𝟏 𝝀𝒊 𝒊=𝟏 𝝈𝒊
Întrucât scopul ACP este ca pornind de la un număr ridicat de variabile inițiale (𝑛) să se realizeze
trecerea la un număr mai redus de componente principale (𝑝, 𝒑 < 𝒏) în condițiile unei pierderi
informaționale minime, este necesară determinarea procentului din varianță reținut de cele 𝒑
componente principale. Acesta se calculează sub forma:
Varianța generalizată este o măsură care ține cont atât de varianța individuală a caracteristicilor,
cât și de covarianțe, de legăturile existente între variabile. Ea este egală cu determinantul
matricei de varianță-covarianță:
𝑽𝑮 = 𝒅𝒆𝒕(𝚺) = |𝚺|
10
3. Metoda geometrică
Acesta se construiește prin rotirea axelor inițiale în așa fel încât variabilitatea proiecției punctelor
pe noile axe să fie distribuită descrescător – prima axă fiind cea de-a lungul căreia varianța
proiecției punctelor (scorurilor principale) înregistrează nivelul maxim – și astfel încât axele să
fie ortogonale două câte două.
Întrucât rotația axelor se realizează în așa fel încât componentele principale obținute să fie
ortogonale, matricea de varianță - covarianță a acestora este o matrice diagonală:
𝜎12 0 ⋯ 0
2 ⋯ 0
𝐂𝐎𝐕(𝒛𝒊 ) = 𝚺𝒛 = 𝑨′ ∙ 𝚺 ∙ 𝐀 = 0 𝜎2 (25)
⋮ ⋮ ⋱ ⋮
( 0 0 ⋯ 𝜎𝑛2 )
11
Teorema de descompunere spectrală spune că o matrice simetrică 𝑴 poate fi scrisă
sub forma 𝑴 = 𝑷 ∙ 𝑫 ∙ 𝑷′ , unde:
➢ 𝑫 este o matrice diagonală care conține valorile proprii ale lui 𝑀, iar
Pornind de la această teoremă, diagonalizarea unei matrice simetrice se poate realiza prin
înmulțirea acesteia cu matricea ei de vectori proprii: 𝑫 = 𝑷′ ∙ 𝑴 ∙ 𝑷.
Așadar, prin simetrie, varianțele de pe diagonala matricei Σ𝑧 sunt valorile proprii ale
matricei simetrice 𝚺,
𝜎12 0 ⋯ 0 𝜆1 0 ⋯ 0
2 ⋯ 0 0 𝜆2 ⋯ 0
𝚺𝒛 = 𝑨′ ∙ 𝚺 ∙ 𝐀 = 0 𝜎2 =( )
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
2
( 0 0 ⋯ 𝜎𝑛 ) 0 0 ⋯ 𝜆𝑛
iar matricea 𝑨′ este echivalenta lui 𝑷′ , conținând, astfel, pe linii vectorii proprii ai matricei de
varianță - covarianță a variabilelor inițiale (Rencher, 2002).
Pentru cazul a două variabile, matricea 𝑨′ cu ajutorul căreia se face rotația axelor are forma:
𝐜𝐨𝐬 𝜽 𝐬𝐢𝐧 𝜽
𝑨′ = ( ) (26)
− 𝐬𝐢𝐧 𝜽 𝐜𝐨𝐬 𝜽
𝒛𝟏 = 𝐜𝐨𝐬 𝜽 ∙ 𝒙𝟏 + 𝐬𝐢𝐧 𝜽 ∙ 𝒙𝟐
𝒛𝟐 = − 𝐬𝐢𝐧 𝜽 ∙ 𝒙𝟏 + 𝐜𝐨𝐬 𝜽 ∙ 𝒙𝟐 (27)
12
4. Proprietățile componentelor principale
Sintetizând informațiile prezentate până acum, se pot formula următoarele proprietăți ale
componentelor principale:
2. Dacă variabilele inițiale sunt distribuite după legea normală și componentele principale
vor avea aceeași distribuție;
𝑿~𝑵(𝝁, 𝚺) , 𝒁~𝑵(𝟎, 𝚲)
6. Sunt necorelate între ele (𝑪𝒐𝒗(𝒛𝒊 , 𝒛𝒋 ) = 𝟎, (∀) 𝒊 ≠ 𝒋), iar în termeni vectoriali formează
un sistem ortonormal (sunt ortogonale și au norma (lungimea) egală cu 1, adică suma
pătratelor coeficienților cu ajutorul cărora sunt construiți este egală cu 1).
Valorile pe care le iau variabilele 𝒛𝒊 pentru fiecare instanță a variabilelor inițiale (fiecare
înregistrare) poartă denumirea de scoruri principale și ele reprezintă coordonatele obiectelor în
sistemul de axe format de componentele principale.
13
5. Aplicarea analizei componentelor principale
Deși, în mod tradițional, ACP se aplică asupra matricei de covarianță a variabilelor inițiale
este comună aplicarea sa și asupra matricei coeficienților de corelație dintre acestea.
➢ Optarea pentru cea de-a doua este justificată de existența unor variabile cu unități de
măsură diferite acestea afectând covarianța și varianța, ‒ componentele obținute în acest
caz ar fi lipsite de semnificație, însă nu și coeficienții de corelație.
➢ De asemenea, utilizarea matricei de corelație este utilă atunci când unele dintre variabile au
varianțe ridicate și astfel ar fi dominante în construirea componentelor principale pe baza
matricei de covarianță.
Rezultatele ACP vor varia în funcție de matricea folosită, vectorii și valorile proprii fiind
diferite între cele două matrice. Dacă ACP se aplică asupra datelor standardizate, rezultatul
său poartă numele de componente principale normalizate.
𝟏 𝒓𝟏𝟐 ⋯ 𝒓𝟏𝒏
𝒓 𝟏 ⋯ 𝒓𝟐𝒏
𝑹 = ( 𝟐𝟏 )
⋮ ⋮ ⋱ ⋮
𝒓𝒏𝟏 𝒓𝒏𝟐 ⋯ 𝟏
𝟏
∑𝒏 (𝒙 ̅) (𝒚𝒊 − 𝒚 ̅)
𝒓𝒙𝒚 =
𝒔𝒙𝒚
= 𝒏 − 𝟏 𝒊=𝟏 𝒊 − 𝒙 =
∑𝒏𝒊=𝟏(𝒙𝒊 − 𝒙
̅) (𝒚𝒊 − 𝒚
̅)
∈ [−𝟏, 𝟏]
𝒔𝒙 ∙ 𝒔𝒚 𝒏
̅)𝟐 √∑𝒏𝒊=𝟏(𝒙𝒊 − 𝒙
̅)𝟐 √∑𝒏𝒊=𝟏(𝒚𝒊 − 𝒚 ̅)𝟐 ∙ √∑𝒏𝒊=𝟏(𝒚𝒊 − 𝒚
̅)𝟐
√∑𝒊=𝟏(𝒙𝒊 − 𝒙 ∙
𝒏−𝟏 𝒏−𝟏
1
Alegerea numărului de componente principale necesare pentru a sintetiza în mod eficient
setul de variabile, în condițiile unei pierderi minime de informații, se poate realiza în funcție
de mai multe criterii:
3. Criteriul lui Evrard (criteriul pantei sau "granulozităţii") (Scree Plot) – acest criteriu
presupune analizarea graficului construit pe baza valorilor proprii ale matricei de varianță
- covarianță Σ și identificarea unui punct de inflexiune.
2
Spre exemplu, dacă până la valoarea proprie, 𝝀𝟑 , graficul a avut o pantă lent descendentă,
dar între 𝝀𝟑 și 𝝀𝟒 coborârea este abruptă și urmată de o evoluție relativ constantă între
următoarele valori proprii, numărul de componente principale selectate va fi egal cu 3.
Explicația pentru această alegere este faptul că plusul informațional adus începând cu
componenta 4 este foarte mic, aproape nesemnificativ, în comparație cu variabilitatea
conservată de primele 3 componente.
3
6. Corelația dintre variabilele inițiale și componentele principale
De cele mai multe ori, numărul de componente principale reținut va fi egal cu numărul de
grupe de variabile puternic corelate. Reducerea dimensiunii setului de date la un spațiu
principal de mărime comparabilă cu numărul de categorii de variabile corelate este cu atât mai
plauzibilă cu cât corelațiile din interiorul grupelor sunt mai strânse și cele dintre grupe mai
slabe. Astfel, componentele principale vor fi mai puternic corelate cu clase diferite de variabile,
care vor fi mai proeminente în construcția lor.
Componentele principale sunt construcții abstracte, iar, la prima vedere, scorurile principale
(valorile pe care le iau variabilele 𝒛𝒊 ) par greu de interpretat și analizat. Însă, prin investigarea
corelațiilor dintre componentele principale și variabilele inițiale, precum și prin examinarea
coeficienților cu care variabilele inițiale intră în construcția lor, componentelor principale li se
poate atribui un sens concret.
Matricea factor
Intensitatea legăturii dintre variabilele inițiale și componentele principale poate fi ilustrată prin
intermediul matricei factor. Această matrice conține coeficienții de corelație dintre vectorii x
și z fiind utilă în interpretarea componentelor principale.
𝟏 𝟏
𝑪𝒐𝒗(𝒙,𝒛)
𝑭 = 𝑪𝒐𝒓𝒓(𝒙, 𝒛) = 𝑽𝒂𝒓(𝒙)−𝟐 ∙ 𝑪𝒐𝒗(𝒙, 𝒛) ∙ 𝑽𝒂𝒓(𝒛)−𝟐 = (28)
√𝑽𝒂𝒓(𝒙)∙√𝑽𝒂𝒓(𝒛)
iar,
′
𝑪𝒐𝒗(𝒙, 𝒛) = 𝑬 ((𝒙 − 𝑬(𝒙)) ∙ (𝒛 − 𝑬(𝒛)) ) (29)
4
Așadar,
𝒛 = 𝑨′ ∙ 𝒙 (31)
𝒙=𝑨∙𝒛 (32)
𝝀𝟏 𝟎 ⋯ 𝟎
𝟎 𝝀𝟐 ⋯ 𝟎
unde 𝑬(𝒛 ∙ 𝒛′ ) = 𝚲 = ( )
⋮ ⋮ ⋱ ⋮
𝟎 𝟎 ⋯ 𝝀𝒏
𝚲 = 𝑨′ ∙ 𝚺 ∙ 𝐀 sau 𝚲 = 𝑨−𝟏 ∙ 𝚺 ∙ 𝐀
5
iar matricea factor poate fi scrisă ca:
𝟏 𝟏 𝟏 𝟏
𝑭 = 𝑪𝒐𝒓𝒓(𝒙, 𝒛) = 𝑽𝒂𝒓(𝒙)−𝟐 ∙ 𝑨 ∙ 𝚲 ∙ 𝚲−𝟐 = 𝑽𝒂𝒓(𝒙)−𝟐 ∙ 𝑨 ∙ 𝚲𝟐 (34)
√𝝀𝒋
Elementele matricei factor, 𝒇𝒊𝒋 = 𝑪𝒐𝒓𝒓(𝒙𝒊 , 𝒛𝒋 ) = 𝒂𝒊𝒋 , coeficienții de corelație dintre
𝝈𝒊
𝟏
𝑭𝒔 = 𝑨 ∙ 𝚲𝟐 (37)
6
iar elementele sale sunt de forma 𝒇𝒊𝒋 = √𝝀𝒋 ∙ 𝒂𝒊𝒋 , suma pătratelor acestor coeficienți pe
𝟐 𝟐 𝟐
∑𝒏𝒊=𝟏(𝒇𝒊𝒋 ) = ∑𝒏𝒊=𝟏 𝝀𝒋 ∙ (𝒂𝒊𝒋 ) = 𝝀𝒋 ∙ ∑𝒏𝒊=𝟏(𝒂𝒊𝒋 ) = 𝝀𝒋 (38)
Valorile 𝒇𝒊𝒋 arată intensitatea legăturii dintre fiecare variabilă și componentele principale, iar
7
Analiza factorială
1. Considerații generale
6. Scorurile factor
1. Considerații generale
Analiza factorială (AF) are drept scop identificarea și evaluarea acelor factori de natură
neobservabilă care stau la baza evoluției comune a variabilelor și care generează manifestarea
corelațiilor dintre acestea. Acești factori latenți și nemăsurabili în mod direct se regăsesc intrinsec
în structura datelor, iar existența lor este sugerată de structura relațiilor dintre variabile.
Analiza factorială se aseamănă cu analiza componentelor principale prin faptul că ambele încearcă să
reducă și să simplifice structura setului de date. De foarte multe ori cele două tipuri de analiză sunt
confundate sau considerate a oferi aceleași rezultate. În realitate însă, singura asemănare dintre cele
două este posibilitatea de reducere a dimensiunii setului de date.
- Prin aplicarea ACP rezultă un număr de componente principale egal cu numărul de variabile
primare, prima dintre ele având cea mai mare varianță.
- În cazul AF, se obține un anumit număr de factori comuni, primul dintre ei având
interpretabilitatea cea mai ridicată.
1
Soluția ACP este unică (exceptând semnul), în schimb
Spre deosebire de ACP, care are drept obiectiv explicarea integrală a varianței, analiza factorială
urmărește să identifice indicatorii latenți cauzali pentru mișcarea variabilelor și, în acest mod, să
explice covarianțele dintre acestea.
- în cazul ACP componentele principale sunt scrise în funcție de variabilele inițiale (acestea
sunt funcții exacte, adică combinații liniare, de variabilele inițiale);
- în cazul AF factorii comuni explică variabilele primare (variabilele inițiale sunt combinații
liniare de factorii comuni plus un element de unicitate și rezidualitate).
(ii) confirmatorie – care are drept obiectiv confirmarea ipotezelor privind mărimile latente.
2
2. Modelul matematic al analizei factoriale
Factorii comuni sunt mai puțini ca număr decât variabilele inițiale, ei reprezentând factorii cauzali
nemăsurabili în mod direct, responsabili pentru covarianța manifestată în setul de date și în general
sunt prezenți în ecuațiile tuturor variabilelor. Totuși, există și posibilitatea ca unii factori comuni să
nu influențeze evoluția tuturor indicatorilor și astfel ei să nu fie prezenți în toate ecuațiile modelului.
Reducerea dimensiunii setului de date prin aplicarea analizei factoriale este posibilă deoarece între
variabilele inițiale există redundanțe informaționale ilustrate de coeficienții de corelație dintre ele.
În analiza factorială se consideră că aceste suprapuneri ale conținutului variabilelor inițiale sunt
generate de manifestarea unor factorilor cauzali abstracți, de cele mai multe ori egali ca număr cu
grupele de variabile puternic corelate.
Factorii specifici, la rândul lor construcții latente, necuantificabile în mod direct, cunoscuți și sub
numele de factori unici, sunt diferiți de la o variabilă la alta, ei reflectând elementele particulare ale
acestora.
Atât factorii comuni, cât și cei unici, pentru a avea sensul descris, nu pot fi corelați între ei. În unele
cazuri totuși, cum se va vedea în secțiunea referitoare la rotație, factorilor comuni le este permis să
devină corelați.
Pe lângă aceste două categorii de factori, în scrierea matematică a modelului apare și o componentă
reziduală (erorile) care surprinde factori de natură accidentală, erori de măsurare, fiind
nesemnificativă în explicarea variabilelor.
3
Modelul matematic poate fi scris astfel:
iar 𝒑 < 𝒏.
Având în vedere importanța scăzută a componentei reziduale, dat fiind caracterul său întâmplător,
mulți autori ignoră erorile sau le consideră parte a unicității și elimină astfel această componentă din
scrierea modelului, abordare pe care o vom urma mai departe.
𝑿−𝝁=𝑨∙𝑭+𝑼 (2)
𝑓1 𝑢1
𝑓2 𝑢2
𝐹=( ), 𝑈 = ( ⋮ ).
⋮
𝑓𝑝 𝑢𝑛
4
Coeficienții 𝑨 mai poartă și denumirea de intensități ale factorilor, iar mulțimea acestora este
cunoscută sub numele de configurație factor. Coeficienții factorilor pot fi interpretați ca fiind
ponderea cu care factorii intră în construcția variabilelor inițiale și prin analizarea acestor valori se
pot trage concluzii cu privire la natura factorilor latenți, a înțelesului care le poate fi atribuit.
𝝍𝟏 𝟎 ⋯ 𝟎
𝟎 𝝍𝟐 ⋯ 𝟎
𝒄𝒐𝒗(𝑼) = ( )= 𝚿
⋮ ⋮ ⋱ ⋮
𝟎 𝟎 ⋯ 𝝍𝒏
5
Ținând cont de aceste proprietăți, varianța variabilelor inițiale poate fi scrisă ca:
➢ 𝒉𝟐𝒊 - poartă numele de comunalitate sau varianță comună și este partea din varianță
atribuibilă factorilor comuni, iar
➢ 𝝍𝒊 - este cunoscută ca specificitate, varianță unică sau reziduală și reprezintă partea din
variabilitate neexplicată de factorii comuni, generată de elemente particulare, unice pentru
comportamentul seriei de date.
Observație. Atunci când variabilele inițiale sunt standardizate, suma dintre comunalitate și
unicitate este egală cu 1 (𝒗𝒂𝒓(𝒙𝒊 ) = 𝝈𝟐𝒊 = 𝒉𝟐𝒊 + 𝝍𝒊 = 𝟏).
𝚺 = 𝒄𝒐𝒗(𝑿) = 𝒄𝒐𝒗(𝑨 ∙ 𝑭 + 𝑼)
Σ = 𝑐𝑜𝑣(𝐴 ∙ 𝐹) + 𝑐𝑜𝑣(𝑈)
Σ = 𝐴 ∙ 𝑐𝑜𝑣(𝐹) ∙ 𝐴′ + Ψ
Σ = 𝐴 ∙ 𝐼 ∙ 𝐴′ + Ψ
𝚺 = 𝑨 ∙ 𝑨′ + 𝚿 (6)
6
În continuare, vom analiza covarianța dintre variabilele inițiale și factorii comuni. Aceasta se poate
exprima ca:
𝑐𝑜𝑣(𝑥𝑖 , 𝑓𝑗 ) = 𝑎𝑖1 𝑐𝑜𝑣(𝑓1 , 𝑓𝑗 ) + 𝑎𝑖2 𝑐𝑜𝑣(𝑓2 , 𝑓𝑗 ) + ⋯ +𝒂𝒊𝒋 𝒗𝒂𝒓(𝒇𝒋 ) + ⋯ + 𝑎𝑖𝑝 𝑐𝑜𝑣(𝑓𝑝 , 𝑓𝑗 ) + 𝑐𝑜𝑣(𝑢𝑖 , 𝑓𝑗 )
Așadar, intensitățile factorilor sunt, de fapt, covarianțele dintre aceștia și variabilele considerate, deci
matricea de covarianță dintre variabilele inițiale și factorii comuni este identică cu configurația
factor.
𝒄𝒐𝒗(𝑿, 𝑭) = 𝑨 (8)
Prin urmare, matricea coeficienților de corelație dintre variabilele inițiale și factorii comuni poate
fi scrisă astfel:
unde
✓ 𝑺 este matricea de varianță (aproximare la nivelul eșantionului pentru 𝚺) a variabilelor
inițiale, o matrice diagonală ale cărei valori sunt varianțele variabilelor inițiale.
Observație. Atunci când 𝒙𝒊 sunt standardizate, 𝑎𝑖𝑗 sunt coeficienți de corelație și astfel structura
factor este identică cu configurația factor.
7
3. Alegerea numărului de factori comuni
Există o multitudine de criterii folosite în determinarea numărului de factori comuni, eficiența lor
constituind obiectul unui număr ridicat de studii de-a lungul timpului. Dintre acestea, vor fi prezentate
doar cele mai cunoscute:
Atunci când modelul este estimat cu metoda factorului principal, întrucât suma valorilor proprii
̂ sau 𝑹 − 𝚿
ale matricei 𝑺 − 𝚿 ̂ (partea din covarianță sau corelație explicată de factorii comuni)
poate trece de 1 și apoi scădea înapoi (valorile proprii nefiind toate pozitive), se recomandă
alegerea acelui număr de componente principale pentru care suma valorilor proprii depășește
prima dată valoarea 1 (Rencher, 2002);
➢ Criteriul lui Kaiser – selectarea unui număr de factori comuni egali cu numărul de valori proprii
mai mari decât 1;
➢ Testul Bartlett – acesta presupune testarea ipotezei că toate valorile proprii sunt egale. Când
ipoteza nulă nu mai poate fi respinsă începând de la un anumit număr de factori, acela este
numărul de componente principale reținute;
➢ Minimul mediilor parțiale (minimum average partial – MAP) – este o metodă care presupune
calcularea matricei corelațiilor parțiale dintre variabile, condiționate de factorii comuni.
Se însumează pătratele elementelor aflate de o parte și de alta a diagonalei, și numărul de factori
comuni va fi cel pentru care se înregistrează minimul pătratelor corelațiilor parțiale calculate după
eliminarea influenței factorilor comuni;
➢ Analiza parallel (parallel analysis) – presupune compararea valorilor proprii din matricea
datelor reale cu valorile proprii calculate pentru o matrice generată aleator. În urma acestei
comparații se vor reține atâția factori câte valori proprii sunt mai ridicate în matricea de date reale
față de cea simulată.
8
4. Nonunicitatea soluției. Rotația axelor
Notând
𝑨 ∙ 𝑸 = 𝑨∗ (11)
și
𝑸 ′ ∙ 𝑭 = 𝑭∗ (12)
𝑿 − 𝝁 = 𝑨∗ ∙ 𝑭∗ + 𝑼 (13)
După cum am arătat la ACP, înmulțirea cu o matrice ortogonală are sensul unei rotiri a axelor.
Neidentificarea unică a soluției este, în cazul analizei factoriale, un avantaj întrucât ea permite rotirea
sistemului de axe până la identificarea unei soluții factor (𝑨𝑸) care să fie mai ușor de interpretat din
perspectiva corelațiilor cu variabilele inițiale.
- în ACP variabilele inițiale erau cele rotite pentru identificarea componentelor principale
maximizatoare de varianță, pe când
- în AF factorii comuni sunt cei care se rotesc în așa fel încât corelațiile dintre ei și variabilele
inițiale să diferențieze cât mai bine și să asigure un grad maxim de interpretabilitate. Din acest
motiv, relația dintre variabilele inițiale și factorii comuni este analizată de cele mai multe ori
din perspectiva matricei factor rotite.
9
Rotația axelor se poate face în așa fel încât:
➢ se poate opta pentru identificarea unor factori care să fie corelați (rotație oblică).
Considerarea unei noi matrice de coeficienți 𝑨∗ = 𝑨 ∙ 𝑸 nu modifică modul în care sunt explicate
covarianța și varianța variabilelor inițiale:
𝚺 = 𝑨 ∙ 𝑨′ + 𝚿 (14)
𝚺 = 𝑨 ∙ (𝑸 ∙ 𝑸′ ) ∙ 𝑨′ + 𝚿 (15)
𝚺 = 𝑨 ∙ 𝑸 ∙ (𝑨 ∙ 𝑸)′ + 𝚿 (16)
𝚺 = 𝑨∗ ∙ (𝑨∗ )′ + 𝚿 (17)
Comunalitatea nu se modifică nici ea în urma rotației axelor. La nivelul variabilei 𝑖, aceasta poate fi
scrisă:
𝒉∗𝟐 ∗𝟐 ∗𝟐 ∗𝟐
𝒊 = 𝒂𝒊𝟏 + 𝒂𝒊𝟐 + ⋯ + 𝒂𝒊𝒑
𝒉∗𝟐 ∗ ∗ ′ ′ ′ ′ ′ 𝟐
𝒊 = 𝒂𝒊 ∙ (𝒂𝒊 ) = 𝒂𝒊 ∙ 𝑸 ∙ (𝒂𝒊 ∙ 𝑸) = 𝒂𝒊 ∙ 𝑸 ∙ 𝑸 ∙ 𝒂𝒊 = 𝒂𝒊 ∙ 𝒂𝒊 = 𝒉𝒊 (18)
unde:
𝑎𝑖1
𝑎𝑖2
𝑎𝑖 = (𝑎𝑖1 𝑎𝑖2 … 𝑎𝑖𝑝 ) , 𝑎𝑖′ = ( ⋮ )
𝑎𝑖𝑝
Astfel, varianța variabilei 𝒊 este explicată în aceeași măsură de comunalitate și unicitate, indiferent
de modul de rotație al factorilor:
𝝈𝟐𝒊 = 𝒉∗𝟐 𝟐
𝒊 + 𝝍 𝒊 = 𝒉𝒊 + 𝝍 𝒊 (19)
10
Varimax este cea mai cunoscută dintre metodele ortogonale de rotație și constă în aducerea axelor
cât mai aproape de reprezentarea obiectelor, ceea ce echivalează cu găsirea unei soluții care să asigure
maximizarea – în ordine descrescătoare – a contribuției factorilor la variabilitatea totală (primul
factor să aibă aportul cel mai ridicat, iar ultimul pe cel mai scăzut).
̂ 𝟐𝒊𝒋 pe fiecare
Matematic, această procedură caută un maxim pentru suma pătratelor coeficienților 𝒂
̂.
coloană din 𝑨
Pentru cazul a două variabile, matricea 𝑴(𝜽) cu ajutorul căreia se face rotația axelor are forma:
𝒄𝒐𝒔𝜽 𝒔𝒊𝒏𝜽
𝑴(𝜽) = ( ) (20)
−𝒔𝒊𝒏𝜽 𝒄𝒐𝒔𝜽
unde 𝜽 este unghiul cu care se rotesc axele. (𝑴(𝜽) este matrice ortogonală)
Din punct de vedere geometric procedura presupune identificarea unghiului 𝜃 din matricea 𝑀(𝜃)
pentru care are loc maximizarea pe fiecare coloană a sumei pătratelor coeficienților din matricea
̂∗ = 𝑨
𝑨 ̂ ∙ 𝑴(𝜽)
Uneori, dispunerea obiectelor face ca rotația ortogonală să nu ofere relevanță factorilor în ceea ce
privește sensul lor, fapt ce poate fi corectat printr-o rotație de tip oblic. Aceasta permite axelor să
treacă mult mai aproape de puncte și, în acest mod, intensitățile asigură un plus de interpretabilitate,
însă factorii comuni devin corelați.
Pentru multitudinea de soluții factor obținute prin rotația axelor există o diferență substanțială între
rezultate. Alegerea soluției celei mai bune rămâne decizia celui care face analiza, motiv pentru care
se consideră de multe ori că există un grad ridicat de subiectivitate în analiza factorială.
11
5. Estimarea modelului de analiză factorială
Există mai multe modalități prin care poate fi estimat modelul, în cele ce urmează fiind descrise
metoda componentelor principale și cea a factorilor comuni cu o referire sintetică la adresa metodei
iterativă a factorilor comuni.
Singura asemănare dintre această metodă și estimarea componentelor principale este scrierea
coeficienților factorilor în funcție de vectorii proprii ai matricei de covarianță.
̂∙𝑨
➢ se construiește produsul 𝑨 ̂′ ,
̂ și apoi
➢ se estimează 𝚿
➢ se corectează 𝑺.
̂∙𝑨
𝑺=𝑨 ̂′ + 𝚿
̂ (21)
➢ 𝑷 este o matrice ortogonală care conține pe coloane vectorii proprii ai matricei 𝑺, iar
Cum valorile proprii ale lui 𝑺 sunt pozitive, 𝑫 poate fi scris ca 𝑫 = 𝑫𝟏/𝟐 ∙ 𝑫𝟏/𝟐 și astfel:
′
𝑺 = 𝑷 ∙ 𝑫 ∙ 𝑷′ = 𝑷 ∙ 𝑫𝟏/𝟐 ∙ 𝑫𝟏/𝟐 ∙ 𝑷′ = (𝑷 ∙ 𝑫𝟏/𝟐 )(𝑷 ∙ 𝑫𝟏/𝟐 ) = 𝚲 ∙ 𝚲′ (22)
12
Întrucât dimensiunea matricei 𝚲 este 𝑛 × 𝑛, iar dimensiunea necesară pentru identificarea matricei 𝑨
̂ de dimensiunea necesară, prin selectarea vectorilor proprii
este de 𝑛 × 𝑝 , se va construi matricea 𝚲
corespunzători celor mai mari 𝒑 valori proprii.
̂.
După ce matricea 𝑨 a fost aproximată, se determină o aproximare pentru matricea 𝚿
̂
𝜓 0 ⋯
1 0
̂ ⋯ 0
̂ = 0
𝚿
𝜓 2 , ̂ 𝒊 = 𝒔𝒊𝒊 − ∑𝒑 𝒂𝒊𝒋
𝝍 (24)
𝒋=𝟏
⋮ ⋮ ⋱ ⋮
̂
⋯ 𝜓
(0 0 𝑛)
Astfel, prin această metodă, sunt estimate doar elementele de pe diagonala matricei 𝑆, cele din afara
diagonalei neputând fi determinate.
𝒑 𝟐 𝒑 𝟐 𝒑 𝟐
𝒉𝟐𝒊 = ∑𝒋=𝟏(𝒂𝒊𝒋 ) = ∑𝒋=𝟏(√𝝀𝒋 ∙ 𝒑𝒊𝒋 ) = 𝝀𝒋 ∑𝒋=𝟏(𝒑𝒊𝒋 ) = 𝝀𝒋 (25)
𝟐
̂∙𝑨
∑𝒊,𝒋 (𝑺 − (𝑨 ̂′ + 𝚿
̂ )) ≤ 𝝀𝟐𝒑+𝟏 + ⋯ + 𝝀𝟐𝒏 (26)
Așadar, cu cât sunt mai mici valorile proprii la care s-a renunțat în factorizarea lui 𝑨, cu atât erorile
modelului vor fi mai mici.
13
Metoda factorului principal
Spre deosebire de metoda factorului comun, unde unicitatea era ignorată în factorizarea
̂
inițială a lui 𝑺, metoda factorului principal descompune direct matricea de diferențe dintre 𝑺 și 𝚿
̂ ) sau dintre 𝑹 (matricea coeficienților de corelație) și 𝚿
(𝑺 − 𝚿 ̂ (𝑹 − 𝚿
̂ ).
Selectarea ca punct de pornire a uneia dintre cele două matrice 𝑺 sau 𝑹 duce la obținerea de
rezultate diferite.
Pentru aplicarea acestei metode este nevoie de aproximarea comunalității. În cazul folosirii matricei
𝑹, comunalitatea este în mod tradițional estimată prin intermediul coeficientului de corelație multiplă
̂ 𝟐𝒊 = 𝑹𝟐𝒊 sau ca pătratul celui mai ridicat coeficient de corelație dintre 𝑥𝑖 și 𝑥𝑗 , 𝑖 ≠ 𝑗.
𝒉
𝟏
̂ 𝟐𝒊 = 𝒔𝒊𝒊 −
𝒉 = 𝒔𝒊𝒊 ∙ 𝑹𝟐𝒊
𝒔∗𝒊𝒊
unde 𝑠𝑖𝑖 este varianța variabilei 𝑥𝑖 , iar 𝑠𝑖𝑖∗ elementul 𝑖 de pe diagonala matricei 𝑆 −1 .
̂
Apoi se aplică teorema de descompunere spectrală asupra matricei 𝑺 − 𝚿 sau ̂ și
𝑹−𝚿
coeficienții pot fi scriși ca:
𝒂𝒊𝒋 = √𝝀𝒋 ∙ 𝒑𝒊𝒋 (27)
unde 𝜆𝑗 cu 𝑗 = 1, 2, … , 𝑝 sunt primele 𝑝 valori proprii, iar 𝑝𝑖 vectorii proprii asociați acestora.
Această metodă are și o variantă iterativă ‒ metoda iterativă a factorilor comuni. Pe baza vectorilor
și valorilor proprii se calculează un nou nivel al comunalității. Apoi, se aplică din nou teorema de
descompunere spectrală, se determină un nou nivel al comunalității și procedura se repetă până când
nivelul 𝜓̂𝑖 rămâne nemodificat și soluția converge.
Estimarea modelului se poate face și prin alte metode (cum ar fi metoda verosimilității maxime),
rezultatele fiind diferite atât în funcție de metoda aleasă, cât și în funcție de matricea pe care este
aplicată.
14
6. Scorurile factor
Atunci când pentru estimarea factorilor se folosește metoda componentelor principale sau metoda
factorului comun, scorile factorilor pot fi scrise în mod direct folosind vectorii și valorile proprii ale
̂∙̂
matricei 𝑨 𝑨′ (Jobson, 1992).
Cea mai simplă și cunoscută tehnică pentru calculul scorurilor este regresia (Rencher, 2002).
𝑭 = 𝑿𝒄 ∙ 𝚪 + 𝜺 (29)
unde:
𝑓1′ (𝑥1 − 𝜇1 )′ 𝜀1′
𝑓′ (𝑥 − 𝜇2 )′ 𝜀′
𝐹 = ( 2) , 𝑋𝑐 = ( 2 ), 𝜀 = ( 2 ).
⋮ ⋮ ⋮
𝑓𝑝′ (𝑥𝑛 − 𝜇𝑛 )′ 𝜀𝑝′
𝚪̂ = 𝑺−𝟏
𝑿𝒄 𝑿𝒄 ∙ 𝑺𝑿𝒄 𝑭 (31)
15
și astfel
𝚪̂ = 𝑺−𝟏 ∙ 𝑨
̂ (32)
̂ = 𝑿𝒄 ∙ 𝑺−𝟏 ∙ 𝑨
𝑭 ̂ (33)
𝚪̂ = 𝑹−𝟏 ∙ 𝑨
̂ (34)
̂ = 𝑿𝒄 ∙ 𝑹−𝟏 ∙ 𝑨
𝑭 ̂ (33)
16