Sillabus - Disciplina Analiza Datelor

ANALIZA MULTIVARIAT A DATELOR
Presupune prelucrarea concomitent a mai multor variabile.
OPERAII n procesul de analiz al datelor:
- Formularea ipotezelor cu privire la comportamentul fenomenului ce constituie obiectul studiului;

- Organizarea experimentelor necesare msurrii caracteristicilor fenomenului studiat;
- Culegerea datelor privind comportamentul fenomenului;
- Formularea concluziilor, efectuarea prediciilor i luarea deciziilor.
De regul, n analiza pe care dorim s o facem att numrul indivizilor ct i cel al variabilelor fiind
mare suntem confruntai cu o analiz multivariat.
Dispunem ns de informaii asupra celor p variabile, informaii colectate de la n indivizi. Din punct
de vedere geometric, aceste observaii pot fi reprezentate prin n puncte n spaiul p-dimensional al
variabilelor.
Dac am analiza doar dou variabile, atunci configuraia celor n puncte ar fi uor de vizualizat plan, iar
dificultatea analizei s-ar reduce foarte mult. ns numrul variabilelor urmrite este de regul mare, iar
configuraia punctelor este dificil de imaginat.
Mai precizm faptul c ntr-o prim etap a modelrii toate cele p variabile sunt tratate ca variabile
input i nu am stabilit nici o variabil scop (output).
Prin urmare, sintetiznd cele afirmate anterior, un prim obiectiv n analiza realizat ar fi acela de a
reduce controlat dimensiunea matricei (reducnd numrul de linii sau/i de coloane) i de a gsi un
numr mai mic de variabile care s explice trsturile indivizilor.
n acelai timp, n unele aplicaii se dorete att asocierea unor scoruri indivizilor, aa nct s-i
putem ordona, ct i o clasificare a acestora n clase ct mai omogene.
Metode:
Metode descriptive au scopul de a sintetiza i structura date. Acestea presupun c toate
variabilele urmrite au acelai rol n explicarea fenomenului, neprecizndu-se iniial nici o
distincie ntre ele. Totui, vom presupune c ar exista factori ascuni (lateni) comuni tuturor
variabilelor, factori pe care ncercm s-i scoatem la iveal. Acesta cuprinde:
o Analiza componentelor principale
o Analiza factorial a corespondenelor
o Tipologia
o Analiza multidimensional a asemnrilor
Metode explicative care exploreaz relaiile ntre dou subansamble de variabi le, de explicat i
explicative; Dac n matricea de date putem identifica o variabil a crei evoluie depinde de
Analiza datelor sinteze ale studentului Pagina 1 din 19
celelalte, fie conform legitii fenomenului, fie ca o constatare a unei analize anterioare, atunci
aceasta va fi numit variabil dependent sau variabil rspuns, iar variabilele care o
influeneaz vor fi numite variabilele predictor sau variabile de influen. Evident, n aceste
situaii ne-ar interesa s cuantificm, printr-o expresie matematic, legtura/legturile dintre
variabila rspuns i variabilele predictor. Ele se caracterizeaz prin faptul c, pe baza unui set de
date de nvare (antrenament), este construit un model care va fi apoi aplicat pentru a previziona
comportamentul variabilei rspuns pentru diverse situaii noi, similare celor analizate. Fac parte:
o Analiza regresional;
o Analiza varianei
o Analiza discriminant
o Analiza mrimilor unite
Sintetiznd, putem afirma c este indicat a se aplica tehnicile descriptive, nesupervizate, dup etapa
primar de explorare a datelor matricei. Ele pot fi tehnici de analiz a componentelor principale, de
analiz a factorilor sau de analiz a clasificrii. Toate au ca scop reducerea controlat a
dimensionalitii matricei iniiale. Tehnicile explicative, supervizate, se aleg dup natura variabilei
rspuns i a variabilelor predictor.
Putem ntlni urmtoarele situaii:
I) Variabila rspuns este continu i toate variabilele predictor sunt de asemenea continue; pentru a
estima dependena dorit sefolosesc tehnici de regresie (simpl sau multipl);
II) Variabila rspuns este binar, iar predictorii sunt variabile continue. n acest caz se apeleaz la
regresia logit;
III) Variabila rspuns este nominal, iar variabilele predictor sunt continue. Se va apela, n general, la
tehnici de discriminare;
IV) Variabila rspuns este continu, dar variabilele predictor sunt de tip categorial; se vor aplica tehnici
de analiz a varianei;
V) Att variabila rspuns, ct i variabilele predictor sunt de tip categorial. Vom folosi tehnici de analiz
de tip conjoint.
Scopul analizei datelor este:
- De a caracteriza unitile;
- De a spune ceea ce este specific fiecrui grup;
- De a caracteriza unitile n raport cu mai multe variabile: n funcie de variabile se
utilizeaz diferite tehnici.

!!! Atunci cnd ne alegem tehnica de analiz a datelor pe care dorim s o aplicm trebuie s avem
n vedere ceea ce urmrim n aplicaia noastr.
1. ANALIZA COMPONENTELOR PRINCIPALE (VARIABILELE SUNT CANTITATIVE)
Scopul analizei: rezumarea informaiei replasnd variabilele iniiale printr-un numr redus de noi
factori sau componente principale. Este utilizat pentru uurarea interpretrii (avem un numr restrns
de factori) i poate servi ca faz intermediar de calcul prealabil n utilizarea altor metode de anal iz
multidimensional. Studiul unui eantion poate fin considerat complet, de regul, doar dac au fost
msurate i evaluate mai multe variabile. La prima vedere, fiecare dintre variabilele msurate ar putea
prea de aceeai importan, ns innd seama de faptul c ntre unel e dintre acestea ar putea exista
legturi de dependen s -ar putea descoperi un numr mic de variabile independente ntre ele ce
explic suficient abaterile constante asupra unitilor. Deasemenea, gsirea spaiului unde vom avea
cea mai bun proiecie i reducerea dimensiunilor pe baza de algebr vectorial (fiecare variabil este
un vector).
Variabilele folosite: variabile cantitative
Numrul de componente cum se face? Ne uitm la screen plot n cte segmente se mparte i la
total variance explain (ne uitm cte valori sunt mai mari dect 1 pe coloana intial engelvalue i
stabilim cte componente facem)
Domenii de aplicare: n marketing, n medicin, studii psihologice, analiza firmelor, analiza
progresului tehnologic.
Are ca obiect descrierea sintetic a unui tabel n care unitile sunt caracterizate printr-o
multitudine de variabile cantitative.
Acest descriere trebuie s permit:
- o reducere a informaiei , variabilele descriptive sunt regrupate n cadrul unor factori sintetici,
numii componente principale.
- Poziionarea unitilor prin raportarea la componentele principale ceea ce ne permite punerea n
eviden de tipuri de uniti.
Ca urmare, ACP const n rezumarea informaiei replasnd variabilele iniiale printr-un numr redus
de noi factori sau componente principale. Aceti factori sunt combinaii liniare de variabile iniiale F j=
p
AijXi
i 1
i sunt independeni.
Specificiti de aplicare ACP:
- Structurarea variabilelor iniiale , rezultate dintr-o observare statistic ntr-un numr redus de
factori, astfel nct pierderea de informaie s fie minim.
- Selectarea dintr-un ansamblu de variabile pe cele mai importante, care intervin cel mult n
descrierea fenomenelor studiate.
- Este posibil ca factorii principali s poat fi folosii ca variabile de prelucrat n cazul altor metode,
ca de exemplu, n tipologie sau analiza regresional.
Exemplu: Un analist n afaceri este interesat s ordoneze un numr mare de fonduri mutuale asupra
crora are informaii privind evoluia lor n ultimii ani. Sunt cunoscute nivelele unor indicatori financiari
relevani, precum i o serie de rate (rapoarte) calculate pe baza acestora. Analistului i va veni foarte greu
s acorde scoruri fondurilor innd seam de un mare numr de indicatori. El va standardiza matricea
informaiilor sale i apoi va apela la tehnici ACP. Dac presupunem c primele dou componente
principale gsite vor acoperi 70% din informaia total, atunci analistul se va declara mulumit cu
acestea, iar calculul scorurilor i ordonarea fondurilor vor fi fcute n raport cu aceste componente.
ATENIE : N GENERAL, VARIABILELE SE EXPRIM N UNITI DE MSUR DIFERITE, DECI SUNT
ETEROGENE. ASTFEL, PRELUCRAREA DATELOR SUB FORM INIIAL N U SE RECOMAND, DIN ACEST
MOTIV TREBUIE CENTRATE I REDUSE .

ALGORITM
OBS! La nceput trebuie s verificm eantionul.
Fie baza de date car_sales.sav
pentru a realiza statisticile descriptive: analyse dimension reduction factor trecem toate
variabilele scale
la descriptives selectm univariate descriptives, coefficients i KMO;
- la extraction selectm corelation matrix, fixed number of factors (= nr de variabile selectate) i
scree plot;
- la score modificm display factors;
- la options selectm replace with mean i sorted by size;
- bifm ok
!!! nainte de a continua analiza, trebuie s observm ce ne indic screen plot-ul. Numrul de
segmente din care este format ne indic numrul de componente. Astfel, vom modifica la extraction
fixed number of factors cu nr de componente indicate . Modificm ns la rotation varimax
Interpretri:
# n tabelul descriptive statistics, analizm valoarea medie (n ordine descresctoare) astfel vedem
crei variabile i se acord o importan mai mare.
## n tabelul correlation matrix (este o matrice ptratic) observm dac exist corelaie ntre variabile i
unde este corelaia cea mai mare. Astfel, formulm ipoteza nul i alternativa ei:
H0 : nu exist corelaie ntre variabile
H1 : exist corelaie ntre variabile
Deasemenea, trebuie s vedem intensitatea legturii i dac e direct sau indirect.
!!! Pentru ca o matrice s fie de bun calitate este nevoie ca variabilele s fie corelate ntre ele
pentru a se obine uor reducerea dimensiunilor. Dac nu sunt corelate nu vom obine un rezultat
bun.
Corelate = grupate bine!
### n tabelul KMO (d o apreciere global a calitii analizei)

Ne uitm dac KMO >0.5atunci analiza este semnificativ.

Tot aici analizm dac exist o diferen semnificativ ntre matricea corelaiilor dintre variabile i
matricea unitate. Avem o ans apropiat de zero (sig.=0.000) de a obine aceast valoare a lui HI-ptrat
dac variabilele supuse analizei nu ar fi corelate ntre ele.
##### n tabelul communalities comunalitatea iniial a primei variabile este xxx.. comunalitatea
extras este X:::.
###### n tabelul total variance explained: lum fiecare component i observm suma ei i o mprim
la nr. de variabile i spunem c prima component furnizeaz a% din informaia total (a% l vedem
din coloana % of variance)
!!! Sunt attea component cte variabile sunt!
Suma variabilelor proprii furnizate de variabilele iniiale = suma variabilelor de pe diagonala matricei
noastre (urma matricei)
!!! Suma elementelor de pe diagonal este informaia total furnizat de variabilele iniiale.
Informaia respectiv se regsete diferit n noile componente.
#### la scree plot ne uitm la el!
### la rotated component matrix : pe baza matricei componentelor se poate observa c au fost reduse
la dimensiuni.
Trebuie s scriem ecuaia pentru fiecare component: prima var * indicele de pe prima component + a
doua variabil * indicele +i continum aa i pentru cea de -a doua component.
Continum analiza: analyse dimensuon reduction factor :

- scores save as variables;
- la rotation selectm none;
Intrm n baza de date la variable view i trebuie s apar 2 factori la final.
Mergem la gragh legacy dialogs scatter plots simple scatter define pe axa X punem
factorul 1i pe axa Y punem factorul 2; variabila model o punem la label cases by; la options
selectm display chart with case labels ok!
Pe grafic- click dreapta selectm axele i le poziionm de la valoarea 0.
Interpretm graficul obinut!

2. ANALIZA COMPONENTELOR SIMPLE (UTILIZAT PENTRU VARIABILELE CALITATIVE NOMINALE,
DAR NU SUNT NICI CELE ORDINALE EXCLUSE)
Scopul acestei analize este de a descrie legturile sau corespondenele dintre dou variabile sau dou
ansambluri de variabile, respectiv de a studia simultan liniile i coloanele unui tabel de contingen,
pentru a descrie structura liniilor n funcie de legtura lor cu coloanele sau invers, structura coloanelor n
funcie de legtura lor cu liniile tabelului analizat.
Analiza se aplic n general asupra variabilelor calitative, nominale, dar nu sunt excluse nici cele
ordinale.Punctul de pornire l reprezint tabelul de contingen, unde liniile i coloanele joac un rol
simetric. Se acord aceeai importan oricrei linii sau coloane, dac frecvenele absolute aferente sunt
diferite.
In cercetrile de marketing aceast tehnic este utilizat frecvent datorit urmatoarelor aspecte:
posibilitatea prelucrrii variabilelor calitative, deoarece se utilizeaz frecvenele absolute sau relative;
vizualizarea rezultatelor sub form de grafice, reprezentnd apropierile dintre liniile i coloanele unui
tabel de contingen; posibilitatea de a adauga variabile (stri) suplimentare dup stabilirea spaiului de
reprezentare, ceea ce va permite proiectarea unui numr suficient de variabile rezultate dintr-o anchet pe
un spaiu reprezentativ;
Din punct de vedere teoretic aceast metod este considerat ca o extensie a analizei componentelor
principale, dar ea poate constitui i o etap de trecere spre procedee mai generale de studiere a relaiilor
dintre variabilele calitative, cum sunt modelele logliniare.
Metoda este asemntoare cu analiza factorial a componentelor principale, dar intervin anumite
particulariti ce in de natura datelor, respectiv: analiza este simetric, cele dou ansambluri I (ansamblu
de profile al primei variabile) i J (ansamblu de profile al celei de-a doua variabil) joac roluri ce sunt
interschimbabile, cei doi nori de puncte vor fi studiai o singur dat (n loc de a se aplica o analiz n
componentele principale fiecrui nor de puncte n parte); proprietate specific AFC este aceea c factorii
unei analize se deduc uor din factorii obinui dintr-o alt analiz (aplicat asupra acelorai date),
utiliznd relaiile de tranziie(termen specific acestei analize).
Derularea metodei cuprinde urmtoarele etape:
- Transformarea datelor iniiale, a tabelului de contingen n tabele de frecvene condiionate, rezultnd

dou tabele, unul pentru prima variabil condiionat de a doua (profilele liniilor), altul pentru a doua
variabil condiionat de prima (profilele coloanelor);
- Calculul matricilor de varian i covarian pentru fiecare din cele dou tabele;

- Calcularea valorilor proprii, a vectorilor proprii i deducerea axelor factoriale aferente (numarul de axe
este egal cu minimum dintre numrul de stri a fiecrei variabile minus 1);
- Interpretarea rezultatelor, care const n verificarea calitii prelucrrii i n proiectarea simultan sau
separat a celor dou ansambluri de puncte I i J.
Calitate prelucrrii se verific n primul rnd prin procentul din variana explicit (aici cu semnificaie de
procent din relaiile dintre cele dou ansamble analizate) furnizat de fiecare ax i de cele reinute ca fiind
principale (acest procent trebuie s se apropie de 100%). Urmeaz verificarea calitii reprezentrii
fiecarei stri (modalitati) de variabile i a contribuiei lor la variana axelor reinute n analiz.
Sunt posibile trei tipuri de reprezentri: proiecia norului de profile linii prin raportare la axele
factoriale, ceea ce ne va permite s vedem care sunt strile variabilei Y ce sunt mai apropiate, respectiv au
profile aproape identice; proiecia norului de profile coloane prin raportare la axele factoriale, ceea ce
ne va permite s vedem care sunt strile variabilei X ce sunt mai apropiate, respectiv au profile aproape
identice; reprezentarea simultan a norului de profile linii i profile coloane pentru a aprecia apropierile
dintre linii si coloane, respectiv dintre strile celor doua variabile.
Aceast metod este frecvent utilizat n analiza datelor unui studiu de pia, unde intervin multe variabile
calitative. Ceea ce o recomand n utilizare sunt avantajele pe care le ofer, i anume:
- Prelucrarea oricrui tip de variabile;
- Vizualizarea rezultatelor sub forma unor grafice reprezentnd apropierile dintre strile a dou sau
mai multe variabile;
- Posibilitatea de adugare, dup calcularea spaiului de reprezentare, a variabilelor suplimentare,
ceea ce ne permite proiectarea tuturor variabilelor unei anchete pe acelai grafic.
!!!Foarte frecvent aceast analiz este folosit n rezolvarea problemelor de poziionare a mrcii.
ALGORITM:
Fie baza de date admitere.sav
Vizualizm baza de date i s fim ateni ca ea s fie complet!
Analyse - descriptive statistics crosstabs la rows alegem o variabil iar la column alt variabl
ordinal sau nominal.
- La statistics selectm chi-squares, contingency coefficient;
- bifm ok!

Interpretare:
Formulm ipoteza nul c nu exist asociere ntre variabile cu alternativa c exist asociere ntre
variabile.
Ne uitm n tabelul chi square test la probabilitatea de la coef lui Pearson. Dac aceasta este mai mare
dect 0.5 respingem ipoteza nul i afimm c ntre variabile exist asociere.
Analizm apoi corespondenele: analyse dimension reduction correspondence analyses rows

alegem variabila define range (min 1, max cte opiuni sunt la variabila ordinal ) - update; la
columns alegem variabila define range (1 min, cte optiuni ai la variabila ordinal- max)
update;
- la model facem la fel;
- la statistics rows and columns profiles;
- la plots selectm row and column points;
- la grafic selectm row and column points synmetrical
Interpretare:
# n tabelul crosstabulation analizm care sunt cele mai frecvente rspunsuri.
## n tabelul row profiles: ne uitm pe fiecare linie i analizm % din cele de pe linie sunt determinate de
cele de pe coloan.
### ne uitm la column profile: ne uitm pe fiecare linie i analizm % din cele de pe coloan sunt
determinate de cele de pe linie.
#### acum ne uitm la summary
#### ne uitm la overview row points: - ne uitm (i stabilim) s vedem cte coordonate sunt pe axe;
stabilim variana crei axe este mai mare; - ne uitm i analizm pentru fiecare ax unde este variana cea
mai mare (analizm pe coloan); ne uitm pe linie s vedem unde sunt cele mai mici variane (n exemplu
era faptul c companiile naionale nu sunt reprezentate bine pe nici o ax).
#### ne uitm la overview column points:
#### row and column points: analizm pct de o culoare n funcie de alt culoare.

3. ANALIZA CLUSTER IERARHIC
Analiza Cluster
Analiza Cluster se poate defini ca o clas de tehnici utilizate pentru a clasifica unitile n clase
(grupuri) relativ omogene. Astfel, unitile din interiorul unei clase trebuie s fie asemntoare
ntre ele, n timp ce unitile aparinnd unor clase diferite trebuie s fie ct mai diferite. Analiza
este utilizat pentru a identifica ntr-o mulime grupurile de elemente similare.
Prin clustering se ncearc obinerea unor grupri care sunt: semnificative (clusterele trebuie s surprind
natura structural a datelor) i utile (sumarizarea unui volum mare de date, furnizarea de explicaii) sau
ambele.
Aceast analiz este utilizat n marketing, informatic, biologie, tiine sociale, pshilogie, medicin.
Sunt dou metode de realizare a acestei analize:
- Metode iterative sau non-ierarhice cea mai cunoscut fiind metoda K-Means
- Metode ierarhice determin o descompunere ierarhizat a unei mulimi. Acestea pot fi
aglomerative (se unesc dou clustere) i divize (un cluster este mprit n dou).
Analiza cluster are propria metodologie de grupare, dar n acelai timp poate s apeleze i la alte metode,
ca de exemplu analiza componentelor principale, analiza varianei. Aceast metod, prin obiectivul su,
se aseamn cu alte metode de analiz a datelor, dar exist i diferene care justific folosirea acesteia
Pornim de la exemple: 1) vrem s tim cum anume se grupeaz oraele Romniei n funcie de cteva
variabile demografice: mortalitate infantil, natalitate, sperana de via;
2) vrem s tim ce variabile demografice au valori asemntoare pentru cazurile cu

care lucrm.
Analiza Cluster Ierarhic (variabile cantitative)
Scop: n cadrul acesteia, gruparea ncepe prin gsirea celo mai apropiate perechi de obiecte (cazuri sau
variabile), n funcie de tipul unitii de msur folosit i le combin pentru a forma un cluster. Algoritmul
continu pas cu pas, unind perechi de obiecte, perechi de clustere, sau un obiect cu un cluster, pn cnd
toate datele sunt ntr-un cluster.
Metoda se numete ierarhizare deoarece odat ce cele dou obiecte unite ntr -un cluster rmn
mpreun pn la ultimul pas. Un cluster format ntr-un stadiu anterior al analizei conine clustere
dintr-un stadiu anterior, care conine clustere dintr-un stadiu anterior i tot aa.

Tipuri de analiz cluster ierarhinc:
- aglomerativ (se pornete de la n clase = cte cazuri avem i se ajunge la o clas ce le cuprinde pe
toate anterioare ei) i
- diviziv (se pornete de la o clas i se ajunge la n clase = cte cazuri avem cuprinse n clasa de
pornire).
Cnd utilizm o astfel de metod: avem un set de date i vrem s tim cum anume se grupeaz cazurile
sau variabilele.
ALGORITM:
Stabilim ce ne propunem;
Analyse clasify - hierarhical cluster - alegem variabilele cantitative label cases cod ;
- la statistics bifm agglomeration schedule i proximity;
- la plots bifm dendogen i bifm icicle =none
Interpretare:
# analizm case processing summary analizm cte observaii sunt.
## analizm dendograma pentru a stabili nr min i nr max de clustere.
### analizm aglomeration schedule - ofer informaii cu privire la obiecte sau cazuri (fapte), fiind
combinate la fiecare faz a procesului de grupare ierarhic.
Refacem analiza: statistics range of solutions trecem nr min i nr max de clustere;

- La method bifm - ward method;
- La save dm range of solution i scriem nr. Min i nr. Max de clustere i dm save
- Ni se vor forma n baza de date un nr de (nr max de clustere - 1) variabile
- Facem statisticile descriptive pentru fiecare dintre cele noi variabile obinute analyse
descriptive frequences ok!
- Ne uitm n tabele obinute la valid percent i alegem acel ward (acea variabil nou creat) n
care diferenele sunt cele mai mici.
Analyse compare means - one way anova iar la factor punem acel ward n care am vzut c
diferenele la valid percent sunt cele mai mici.
- La opions selectm descriptive i means plot
- Ne uitm n tabelul de statistici descriptive obinut i stabilim: clusterul 1 se caracterizeaz prin...
(de ex salariu ridicat, nr de articole -mare), clusterul 2 se caracterizeaz prin ...(de ex. Salariu
mediu) i tot aa.
4. ANALIZA CLUSTER K MEANS
Tehnica i propune s mpart n observaii n K clustere, n care fiecare observaie s aparin

grupei cu cea mai apropiat medie.
Scopul acestei tenici este de a forma grupe n care unitile s fie ct mai asemntoare ntre ele, iar
grupele s se diferenieze.
Numrul de grupe este fixat de la nceput de ctre analist. Poate fi stabilit pe baza cunoaterii
populaiei, a temei analizei, a mrimii bazei de date sau poate fi sugerat de persoana care solicit analiza.
!!!Nu este recomandat un numr mare de grupe.
Validarea se bazeaz pe teste statistice. Pentru dou grupe se folosete testul T, n timp ce pentru un
numr mai mare este folosit testul F.
Ipoteza nula poate fi formulata astfel: mediile grupelor sunt egale, cu alternativa c exist cel puin
dou grupe unde mediile se difereniaz.
Interpretare:
1) Dac variabilele sunt scalare, interpretarea se face pe baza mediilor.
2) Dac variabilele sunt ordinale, interpretarea se face pe baza tabelelor de frecven.
Utilizarea tehnicii K-means cluster presupune parcurgerea urmtoarelor etape:
Formularea problemei: ncercarea de realizare a unei clasificri poate fi formulat astfel: fiind
date n uniti pentru fiecare dispunnd de nregistrri a p variabile, trebuie s se constituie grupe
de uniti astfel nct unitile dintr-o grup s semene ntr ele, dar s fie diferite de la o grup la
alta, asemnarea unitilor fiind definit plecnd de la cele p variabile.
Alegerea variabilelor active. Ca atare cea mai mare importan n aceast etap trebuie acordat
alegerii variabilelor pe baza crora se va efectua clasificarea. Este de dorit ca setul de variabile
active selectat s descrie asemnarea dintre unitai, n termeni ce sunt relevani pentru problema
studiat. Se recomand utilizarea ca variabile active a celor numerice (scale sau de interval)
sau a variabilelor ordinale. n cazul n care suntem nevoii s folosim variabile nominale,
acestea n prealabil se transform n variabile binare (dummy).
Alegerea procedurii de clasificare. Cu alocare secvenial ; Cu alocare paralel ; Cu alocare
optimal. Metoda cea mai des utilizat este cea bazat pe alocarea optimal, care urmrete
minimizarea distanei medii n grupe. Tehnicile k-means (metode neierarhice) prezint avantajul
prelucrrii populaiilor de volume mari, cu un cost rezonabil. Cele mai multe dintre aceste metode
sunt fundamentate pe algoritmi de tipul urmtor: alegerea numrului de grupe; aplicarea
procedeului de realocare ; stabilirea regulilor de oprire a procedeului de calcul.
Stabilirea numrului de grupe. n cazul acestei tehnici numrul de grupe este fixat de ctre
analist de la nceputul analizei, existnd posibilitatea modificrii acestuia dup validarea i

interpretarea grupelor. Analistul stabilete numrul de grupe fie bazndu-se pe cunoaterea
populatiei studiate, fie pe baza unor solicitri, fie lund reper alte studii pe aceeai tem.
Validarea segmentelor. Este posibil ca aceste clase care au fost stabilite anterior s nu fi fost
corect determinate. Pentru a cunoate cu exactitate acest lucru se impune o analiz relativ la
gradul de omogenitate din interiorul segmentelor i diferenele existente ntre mediile claselor.
Pentru validarea claselor se va utiliza analiza varianei fiecrei variabile active (ANOVA) i
testarea egalitii mediilor n cadrul grupelor.
Determinarea profilului grupelor. Fiecare grup constituit trebuie descris amnunit pentru a
putea identifica segmentele int i elabora strategiile specifice domeniului studiat. Determinarea
profilului claselor i interpretarea impune analiza centroizilor claselor n cazul variabilelor
numerice (scale sau interval). Centroizii reprezint valorile medii nregistrate de variabilele
pentru fiecare grup n parte. n cazul n care ntlnim variabile ordinale sau nominale n
caracterizarea grupelor ne folosim de tabele multidimensionale (bi sau tridimensionale) formate cu
frecvene absolute sau relative, unde o variabil reprezint numrul clasei, iar celelalte sunt
variabile ce au legtur cu obiectivul de studiat.
ALGORITM :
Analyse clasify- k-means- selectm variabilele la number of cluster punem un nr dorit de noi
selectm din options anova table i cluster information for each one.
Interpretare :
# ne uitm la tabelul initial cluster centers ne uitm care variabil se motific in urma iteraiilor.
Caracterizm fiecare cluster (pe vertical)
## la iteration history : stabilim dup cte iteraii se atinge nivelul de convergen.
### la cluster membership vedem unde este inclus fiecare observaie, crui cluster aparine fiecare
observaie.
!!! n cazul n care avem la un cluster un nr mic de observaii, refacem analiza alegnd un nr mai
mic de clustere.
Pentru a realiza departajarea pe clustere : analyse-crosstabs -

5. ANALIZA CLUSTER TWO STEP
Se poate utiliza att n cazul variabilelor cantitative, ct i n cazul celor ordinale .
Permite i selecia automat a numrului de cluster e.
Grupeaza observatiile n clusteri dup criteriul apropierii. Aceast procedur folosete gruparea
aglomerativ ierarhic n care cazurile individuale sunt combinate succesiv pentru a forma grupuri ale
cror centri sunt ndeprtai. Algoritmul este conceput s grupeze un numr mare de cazuri. Scaneaz
datele o dat pentru a identifica centrii i nc o dat pentru a stabili apartenena la cluster.
1) Preclusterizarea: se efectueaz analiza fiecrei instane n parte, iar pe baza criteriului distanei se
va decide dac va fi ncadrat n una din grupele deja formate sau se va crea un nou cluster; pentru
aceasta este nevoie de cluster feature tree (CF). Frunzele din arbore reprezint subclusterele finale,
iar nodurile servesc pentru clasificarea unei noi instane n subgrupa adecvat. Fiecare nod are o
anumit proprietate numit CLUSTER FEATURE, care cuprinde urmtoarele informaii: numrul
de instane; media i variana fiecrei variabile continue, respectiv categoria pentru fiecare
variabil ordinal.
Fiecare instan va parcurge n mod recursiv nodurile arborelui ncepnd de la cel rdcin pn ce va fi
clasificat ntr-unul din subclustere (nodurile frunz). Clasificarea se va realiza pe baza calculului
distanelor: dac instana se afl la o distan mai mic dect o distan -prag de unul din subclustere,
atunci aceasta se va repartiza la subclusterul respectiv; dac nu exist un subcluster n care instana poate
fi clasificat, atunci se va crea un nou nod frunz cu instana respectiv.
Dac nu exist suficient spaiu pentru a forma un nou nod frunz: instana respectiv se ncadreaz n cel
mai apropiat subcluster; subclusterul respectiv va fi divizat n alte dou grupe, pe principiul celor dou
cele mai ndeprtate instane.
Dac dimensiunea arborelui depete dimensiunea maxim permis: se va fixa o distan -prag mai mare
pentru ncadrarea n subclustere; arborele se reconstruiete - rezult c dimensiunea noului arbore va fi
mai redus, iar astfel se va permite introducerea unor noi noduri
2) Subclusterele rezultate la etapa 1 vor fi grupate utiliznd clusterizarea ierarhic. Vor fi excluse
subclusterele formate din puncte izolate. Numrul subgrupelor trebuie s fie suficient de mare
pentru a se obine rezultate de o acuratee bun i suficient de mic astfel nct s nu ncetineasc
procedura de grupare.
ALGORITM
Analyse clasify two stept cluster

in categoriale punem o variabil nominale ;
iar n celelalte continue punem variabilele scale;
punem la plots bifm within cluster i cluster pie chart;
apoi la output punem toate de la statistics;
bifm ori AIC ori BIC.
Interpretri:
# ne uitm n tabelul auto clustering la ultima coloan unde este valoarea maxim i la penultima
coloan unde sunt valorile maxime . Astfel, vedem nr. optim de grupe.
Refacem analiza
- Nu modificm nimic la setri, doar trecem la specify fixed nr optim de clustere
6. ANALIZA VARIANEI
Noiunea de dispersie sau varian a fost introdusa de statisticianul R. A. Fisher. Parametrul Dispersie
caracterizeaza de regula mpr tierea valorilor unei variabile aleatoare. Tot Fischer a folosit dispersia cu
scopul de a determina efectele unor factori, cantitativi sau calitativi, asupra unei variabile aleatoare.
Dac estimm dispersia variabilei aleatoare n dou moduri, i anume innd seama de influena factorului
i apoi nlturnd influen a factorului, prin compararea celor dou dispersii se pot obine informaii
referitoare la efectul factorului; daca prima dispersie este mai mare, atunci factorul exercit o influen
asupra variabilei aleatoare.
Analiza dispersionala sau analiza varian ei este o metod statistico-matematic de analiz calitativ, a
datelor de observaie , care depind de mai muli factori cu aciune concomitent cu scopul de a stabili
factorii eseniali i de a estima efectul lor.
n plus, faa de mijloacele de calcul a tendin ei centrale a rezultatelor experimentelor repetate, analiza
dispersional caracterizeaz mai ales variabilitatea acestora i factorii ce o determin .
Variabilitatea se poate datora existenei unor factori cu influene sistematice, a unor factori aleatori de
fluctuaie mai pronunta i, n final, factori locali, inevitabili, determinnd o fluctuaie mai mic, definit
ca fluctuaie experimental .

Analiza dispersional si propune separarea variabilitii totale n: variabilitatea datorat
factorilor sistematici, variabilitatea factorilor cu efecte aleatoare, plus o variabilitate rezidual
(diferena pna la variabilitatea total), care reprezint de fapt variabilitatea experimental. Din
aceste variabiliti se evalueaz dispersiile par iale corespunzatoare diferiilor factori, calculndu-se
semnificaia rapoartelor lor prin aplicarea testului F.
n principal, datele experimentale se grupeaz n func ie de diferite criterii i se urmresc efectele asupra
variabilitii n funcie de aceste criterii, efecte care se cuantific n raport cu variablitatea rezidual.
Analiza dispersionala este cunoscuta n aplica iile de biofarmacie si farmacocinetica sub denumirea
de ANOVA (de la Analysis of Variance).
Cea mai simpla analiza dispersionala, numita analiza dispersionala unidimensionala sau
unifactoriala (numita n literatura engleza si one-way ANOVA) sau experiment complet
aleator, experiment cu grupuri paralele, corespunde testului t de analiza a doua esantioane
independente si compara doua sau mai multe grupuri.
De exemplu, n pacienti sunt grupati n k scheme de tratament. Putem s comparm efectele a dou
medicamente administrate la mai multe grupuri de voluntari, la care se poate adauga i un grup placebo.
Voluntarii se distribuie aleator n toate grupurile. Dupa msurarea unui parametru dat, se testeaz ipoteza
nul c toate valorile parametrului testat sunt egale n populaia corespunzatoare diferitelor tratamente
testate, deci tratamentele sunt echivalente ntre ele.
n ipoteza c toate grupurile aparin aceleiai populaii, ideea testului este aceea ca variabilitatea n
interiorul grupurilor trebuie s fie de acela i ordin cu variabilitatea ntre mediile grupurilor.
n consecin, dispersia total, evaluat ca sum a ptratelor diferen elor ntre valorile individuale
i media ntregii populaii selectate SSt, este separat ntr-o parte datorit variaiei ntre grupuri
(within), sau variabilitii interioare i o parte datorit variabilitii dintre (between) grupuri:
SSt = SSw + SSb .
ALGORITM:
Analyse-general linear model univariate trecem la dependent punem variabila scale, iar la fix
factors punem variabilele nominale i ordinale.
- la model lsam aa cum este;
- la plots pe orizontal punem variabila ordinal, iar pe separate line punem variabila nominal i
d-mi add;

- la options selectm toate variabilele i bifm compare main effects, selectm descriptive
statistics i homogenity test.
7. ANALIZA REGRESIONAL: NTRE VARIABILA DEPENDENT I CELE INDEPENDENTE TREBUIE S
EXISTE CORELAIE , IAR NTRE VARIABILELE INDEPENDENTE NU TREBUIE S FIE CORELAIE
PENTRU C EXIST RISCUL UNEI REGRESII FALSE. SE REALIZEAZ NTRE DOU VARIABILE
SCALE!
Regresia este o unealt statistic aparent omniprezent, care apare n numeroase lucrri tiinifice, iar
analiza regresiei este o metod de msurare a legturii dintre dou sau mai multe fenomene.
Imaginai-v c vrei s tii care este conexiunea dintre suprafaa n metri ptrai a unei case i preul
acesteia. O regresie traseaz o astfel de legtur, n acest sens indicnd cu precizie un efect cauzal
mediu
Considerm c, ntr-un eantion de volum n s-au determinat perechile de valori (xi,yi), i=1,,n,
corespunztoare celor dou variabile pentru care dorim s studiem asocierea i relaia dintre ele.
O prim apreciere asupra distribuiei comune o vom avea dac realizm diagrama de mprtiere a
valorilor, de fapt reprezentarea ntr-un sistem de axe a punctelor avnd coordonatele x i y.
Analiza vizual a organizrii i formei norului de puncte obinut poate oferi indicii importante
asupra relaiei dintre variabile.
Datele de sondaj vor susine ipoteza asocierii ntre variabile dac forma norului de puncte se apropie de o
curb funcional. Astfel, se pot aprecia asocieri liniare, curbilinii etc. Dac n norul de puncte nu se
poate distinge o tendin, se va spune c variabilele nu sunt corelate. Pentru a sintetiza modul n care
schimbrile lui Y sunt asociate cu schimbrile lui X, metoda matematic utilizat este "metoda celor mai
mici ptrate" Linia estimat este "cea mai bun" n sensul c exprim cel mai central drum printre puncte:
linia pentru care suma ptratelor distanelor (pe vertical) dintre puncte i dreapt este minim. Distanele
sunt referite ca erori (reziduuri). Deci dreapta de regresie realizeaz valoarea minim a ptratelor erorilor,
n sensul c orice alt dreapt produce o sum de ptrate mai mare.
Diagrama de mprtiere (scatterplot dup denumirea utilizat n SPSS) presupune, uzual, c variabila
dependent este pe axa vertical (Oy) iar variabila independent este pe axa orizontal.
Termenul comun pentru dreapta estimat este acela de dreapta de regresie.

ALGORITM:
Analyse - regresion- linear

la statistics bifm R2, descriptive i durbin watson;
la plots bifm histogram si normal probability test;
8. ANALIZA DISCRIMINANT
Ex: Scopul acestei metode este de a stabili pentru fiecare firm o mrime numit scor, care s permit
estimarea strii de faliment al firmei. n cele ce urmeaz va fi prezentat pe scurt aceast metod.
n cadrul acestei metode se utilizeaz variabile scale sau binare.
Analiza discriminant este o metoda ce face parte din grupa metodelor explicative de analiz a datelor.
Ea utilizeaz o variabil de explicat (Y) i mai multe variabile explicative (X1, X2,,Xp) cantitative sau
binare.
Analiza are ca principal avantaj ca nu lucreaza cu elemente medii, generatoare de erori. Tehnica de
baza a analizei este estimarea pozitiei unui element fata de o linie care separa cel mai bine doua clase de
populatii distincte
n analiza discriminant se disting dou aspecte: a) descriptiv: se caut combinaiile liniare de variabile
care permit mprirea cel mai bine posibil n cele k categorii i dau o reprezentare grafic (ca n
analizafactorial), care ine seama cel mai bine de aceast mprire. b) decizional: un nou individ apare,
pentru care se cunosc valorile predictorilor.
Cu ajutorul metodei se pot: face estimaii asupra apartenenei unor elemente la una sau mai multe
categorii; se poate testa dac grupurile dintr-un eantion apar ntr-o singur populaie sau n mai multe.
Scop identificarea funciilor (variabilelor latente) care permit predicia apartenenei de grup.
Este util: pentru a defini profilul unei tipologii (clasificri) func ie de un set de variabile cantitative,
regrupate n factori; pentru a permite atribuirea unor noi cazuri la o clasificare predeterminat careia i pot
fi asociate funcii de discriminare.
Principiile pe baza crora funcioneaz metoda sunt o combinatie ntre ANOVA , regresie multipl i
factorial.
Analiza discriminant are trei obiective, respectiv:
S determine variabilele explicative care contribuie cel mai mult la diferenierea claselor definite
de variabila de explicat, astfel se identific ponderea influenei variabilelor explicative n variaia
variabilei de explicat construind mai multe combinaii liniare, alegnd-o pe cea mai bun.
S se construiasc un spaiu discriminant . n cazul analizei discriminante simpl (Y are dou
stri) se determin o ax discriminant Z care explic apartenena unei uniti la o clas sau alta.

n cazul analizei discriminante multipl se determin mai multe combinaii liniare independente
(axe discriminante) de variabile explicative i trebuie analizat spaiu determinat de acele axe care
separ cel mai bine unitile studiate, in clasele determinate de strile variabilei Y.
S repartizeze la o clas existent unitile ce nu au fost clasate. Respectiv, cunoscnd nivelul
variabilelor explicative i utiliznd funciile discriminante vor fi repartizate noile uniti in clasele
deja formate. Aceast se poate realiza prin dou procedee: unul determinist, care repartizeaz
unitatea la clasa pentru care distana la centroid este cea mai mic i unul probabilist, unde se
calculeaz probabiliti de apartenen la diferite clase, unitatea se aloc la clasa care are
probabilitatea cea mai mare.
ALGORITM:
Analyse- clasify- discriminant grouping variable (trebuie s fie nominal) i cele independente
trebuie s fie scale.
- la define range trecem de la 0 la nr de stri ale variabilei respective.
- n statistics bifm means, anova, boc. Fisher, unstandardized, within groups correlation;
- n clasify vom bifa all groups egual, display summary table and repalce missing with mean.
- la save vom bifa tot.
-- -- -- FINAL -- -- --

Sillabus - Disciplina Analiza Datelor

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Sillabus - Disciplina Analiza Datelor

Încărcat de

Drepturi de autor:

Formate disponibile

ANALIZA MULTIVARIAT A DATELOR

Presupune prelucrarea concomitent a mai multor variabile.

OPERAII n procesul de analiz al datelor:

- Formularea ipotezelor cu privire la comportamentul fenomenului ce constituie obiectul studiului;

Scopul analizei datelor este:

Analiza datelor sinteze ale studentului Pagina 2 din 19

1. ANALIZA COMPONENTELOR PRINCIPALE (VARIABILELE SUNT CANTITATIVE)

Variabilele folosite: variabile cantitative

Acest descriere trebuie s permit:

Specificiti de aplicare ACP:

ATENIE : N GENERAL, VARIABILELE SE EXPRIM N UNITI DE MSUR DIFERITE, DECI SUNT

MOTIV TREBUIE CENTRATE I REDUSE .

Analiza datelor sinteze ale studentului Pagina 4 din 19

H0 : nu exist corelaie ntre variabile

H1 : exist corelaie ntre variabile

Deasemenea, trebuie s vedem intensitatea legturii i dac e direct sau indirect.

### n tabelul KMO (d o apreciere global a calitii analizei)

Analiza datelor sinteze ale studentului Pagina 5 din 19

#### la scree plot ne uitm la el!

Continum analiza: analyse dimensuon reduction factor :

Analiza datelor sinteze ale studentului Pagina 6 din 19

Derularea metodei cuprinde urmtoarele etape:

- Transformarea datelor iniiale, a tabelului de contingen n tabele de frecvene condiionate, rezultnd

Analiza datelor sinteze ale studentului Pagina 7 din 19

Analiza datelor sinteze ale studentului Pagina 8 din 19

Analizm apoi corespondenele: analyse dimension reduction correspondence analyses rows

# n tabelul crosstabulation analizm care sunt cele mai frecvente rspunsuri.

#### acum ne uitm la summary

#### ne uitm la overview column points:

Analiza datelor sinteze ale studentului Pagina 9 din 19

Sunt dou metode de realizare a acestei analize:

2) vrem s tim ce variabile demografice au valori asemntoare pentru cazurile cu

Analiza Cluster Ierarhic (variabile cantitative)

Analiza datelor sinteze ale studentului Pagina 10 din 19

# analizm case processing summary analizm cte observaii sunt.

## analizm dendograma pentru a stabili nr min i nr max de clustere.

Refacem analiza: statistics range of solutions trecem nr min i nr max de clustere;

Tehnica i propune s mpart n observaii n K clustere, n care fiecare observaie s aparin

Analiza datelor sinteze ale studentului Pagina 12 din 19

## la iteration history : stabilim dup cte iteraii se atinge nivelul de convergen.

Pentru a realiza departajarea pe clustere : analyse-crosstabs -

Analiza datelor sinteze ale studentului Pagina 13 din 19

Se poate utiliza att n cazul variabilelor cantitative, ct i n cazul celor ordinale .

Permite i selecia automat a numrului de cluster e.

Analyse clasify two stept cluster

Analiza datelor sinteze ale studentului Pagina 15 din 19

Analiza datelor sinteze ale studentului Pagina 16 din 19

7. ANALIZA REGRESIONAL: NTRE VARIABILA DEPENDENT I CELE INDEPENDENTE TREBUIE S

EXISTE CORELAIE , IAR NTRE VARIABILELE INDEPENDENTE NU TREBUIE S FIE CORELAIE

Termenul comun pentru dreapta estimat este acela de dreapta de regresie.

Analiza datelor sinteze ale studentului Pagina 17 din 19

Analyse - regresion- linear

Analiza datelor sinteze ale studentului Pagina 18 din 19

Analiza datelor sinteze ale studentului Pagina 19 din 19

S-ar putea să vă placă și