Cursuri Analiza

Analiza statistică multidimensională
Analiza Cluster
Curs 2 - Octombrie 2021
Titular de curs: Prof.univ.dr.Cristina BOBOC

Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Noțiuni introductive
analiză factorială
• prima referinţă la medotele de analiză factorială a făcut-o în anul 1901 Karl Pearson
• în anul 1933 a fost integrată statisticii matematice de către Harold Hotelling
• În ceea ce privește metodele și tehnicile de analiză de tip cluster: primele lucrări datează din 1963
Sokal și Sneath și în 1967 Lance și Williams. Preocupările au crescut exponențial și s-au
diversificat foarte mult.
• Au existat două școli: franceză și americană. Benzecri, Jambu, Lebart, Morineau, Saporta sunt
printrei cei mai cunoscuți autori francezi.
• a început să fie utilizată efectiv după dezvoltarea metodelor actuale de calcul cu ajutorul
calculatoarelor
1. Datele și caracteristicile lor:
Configurarea norului
de punte în spaţiu
vizualizarea punctelor regruparea punctelor

în cel mai bun spaţiu în spaţiu
redus (ACP, ACM) (metode de clusterizare)
1. Datele și caracteristicile lor:

Tabelul de date valoarea variabilei j
pentru individul i
Utilizatorii metodelor
factoriale pleacă de la un
Vectorul linie vector coloană
tablou de măsuri, pe coloane
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate
variabilele xj
n puncte în Rp p puncte în Rn
1. Datele si caracteristicile lor:
Matricea ponderilor; Centrul de greutate
1. Datele si caracteristicile lor:
Matricea dispersie covarianță
2. Spațiul indivizilor
• Fiecare individ este un punct definit prin p coordonate, element al unui spaţiu vectorial FRp denumit
spaţiul indivizilor.
• Mulţimea de n indivizi este atunci un nor de puncte în F şi g este centrul de greutate al norului
• Metrica folosită pentru definirea distanţei dintre doi indivizi este M = D1/s2 unde D1/s 2 este matricea
diagonală a inverselor dispersiilor
• Inerția totală a norului de puncte este media ponderată a pătratelor distanțelor punctelor față de
centrul de greutate
3. Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
  n
 p2 
D=
 
 pi = 1
 i=1
 
0 pn 
• Produsul scalar a două variabile xj și xk este:
care este covarianța sjk dintre cele două variabile, dacă acestea sunt centrate
• Observație: Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Unghiul dintre două variabile centrate este:
fiind coeficientul de corelație liniară

Analiza Cluster
• Analiza cluster poate fi definită ca reprezentând o mulțime de principii, metode și algoritmi de
clasificare, având ca scop organizarea datelor sub forma unor structuri informaționale semnificative,
relevante
• Analiza cluster are ca scop căutarea și identificarea de clase, grupe sau clustere în cadrul unor
mulțimi de obiecte sau forme, astfel încât elementele care aparțin aceleiași clase să fie cât mai
asemănătoare, iar elementele care aparțin la clase diferite să fie cât mai deosebite între ele.
• Observație: Analiza cluster poate fi utilizată atât pentru clasificarea obiectelor, cât și pentru
clasificarea variabilelor care definesc obiectele.
• Două tipuri de metode de clusterizare:

• metode ierarhice, care produc şiruri de partiţii în clase din ce în ce mai mari
• metode neierarhice, care produc o partiţie într-un număr prestabilit de clase
Etapele analizei cluster

• alegerea caracteristicilor în funcție de care se va face clasificarea;
• alegerea tipului de măsură pentru evaluarea proximității dintre obiecte;
• stabilirea regulilor de formare a claselor sau clusterelor;
• construirea claselor, adică încadrarea obiectelor în clase;
• verificarea consistenței și semnificației clasificării;
• alegerea unui număr optimal de clustere, în funcție de natura problemei de clasificare și de

scopurile urmărite;
• interpretarea semnificației clusterelor

Noţiuni introductive
Caracterizarea indivizilor
• În Rp poate fi definită funcţia d, distanţă pe X cu proprietăţile:
1. d(x,y) = d(y,x)  x, y  X
2. d(x,y)  0,  x, y  X
d(x,y) = 0  x = y
3. d(x,y)  d(x,z) + d(z,y),  x, y, z  X
Distanța euclidiană
Y
Este sensibilă la scala de măsurare

Y2
Y2-Y1
Scalele mari vor domina măsura
Y1
X2-X1
Standardizați datele
X1 X2 X
D = ( X 2 − X 1) 2 + (Y 2 − Y 1) 2
Tipuri de distanţe:
• distanţa euclidiană: d ( x, y ) =  (x
i
i − yi ) 2
• este distanța „obișnuită” între două puncte, dată în coordonate carteziene de formula lui Pitagora.
• pătratul distanţei euclidiene: d ( x, y ) =  (x

i
i − yi ) 2
• este folosita atunci când dorim să acordăm o importanță sporită punctelor depărtate
• distanţa city-block (Manhattan): d ( x, y ) = x i − yi

• Este distanța dintre două puncte parcursă ca atuncii când trebuie să mergi pe străzile care ocolesc clădirile în loc să
mergi în linie dreaptă
• distanţa Cebîşev: d ( x, y ) = max xi − y i

i
• Este distanța dintre două puncte parcursă ca un rege pe tabla de sah
• Indicele de similaritate pe X este o funcţie s : X  X → R+
cu proprietăţile:
1. s(x,y) = s(y,x)  x, y  X
2. s(x,y)  0,  x, y  X
3. s(x,x)  s(x,y),  x, y  X , adică nu există un individ mai asemănător ca el însuşi.
• Indicele de disimilaritate pe X este o funcţie d : X  X → R+ cu proprietăţile:

1. d(x,y) = d(y,x)  x, y  X
2. d(x,y)  0,  x, y  X
3. d(x,x) = 0,  x  X
• O situaţie frecvent întâlnită este cea în care datele sunt prezentate în forma următoare: cei n indivizi sunt descrişi prin
prezenţa sau absenţa a r caracteristici (datele iniţiale sunt sub formă binară, variabilele sunt dichotomice). În această
situaţie, fiecare cuplu de indivizi (x,y) este caracterizat de 4 numere:
• a = numărul de caracteristici comune (pe care le posedă ambii indivizi);
• b = numărul de caracteristici posedate de primul individ din cuplu, dar nu şi de cel de-al doilea;
• c = numărul de caracteristici posedate de cel de-al doilea individ, dar nu şi de primul.
• d = numărul de caracteristici ce nu sunt posedate nici de unul, nici de celălalt individ.
• Pe baza acestor patru numere se construieşte tabelul de similaritate sau prin completare în raport cu 1, cel de
disimilaritate, utilizând diferiţi indici, ca de exemplu:
a
• indicele Jaccard:
a+b+c
2a
• indicele Czekanowski:
2a + b + c
a
• indicele Ochicii:
(a + b)(a + c)
a
• indicele Russel şi Rao:
a+b+c+d
Metode de clusterizare
METODE IERARHICE
• Fie E o mulţime.
• HP(E) se numeşte ierarhie dacă şi numai dacă:
• 1. PiP(E) aî card(Pi)=1  E şi Pi  H
• 2. A,BH  AB  A,B,
• 3. AH ,A=  Ci | Ci≠A , Ci  H Nivel
a b c d e
• Exemplu: E=a,b,c,d,e
H = , a,b c d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d,e
a,b,c,d,e
a,b,c,d,e
METODE IERARHICE
• O ierarhie se numeşte indexată dacă există o funcţie i:H→R+ astfel

încât :
• A,BH astfel încât AB  i(A)i(B)
• i(A) = nivelul pentru care pentru prima oară se găsesc agregate toate
elementele lui A
• Observaţie: Cu cât nivelul de agregare este mai mare cu atât

mulţimea este mai eterogenă
METODE IERARHICE
?
Cum definim distanța dintre
clusteri??
Preluat de pe: www.statapp.co.uk

METODE IERARHICE
Măsurarea distanței dintre clusteri
Cel mai apropiat vecin=Single Linkage

METODE IERARHICE
Cel mai departat vecin=Complete Linkage

METODE IERARHICE
Media gupului=average distance between all pairs

METODE IERARHICE
Metoda Ward – Minimizează variabilitatea din interiorul clusterului

METODE IERARHICE
• Metoda WARD: când pe spaţiul ERp este definită o distanţă euclidiană
• calitatea unei partiţii este definită prin inerţia intraclase sau cea interclase
• o partiţie bună are inerţia interclase mare sau inerţia intraclase mică
• când se trece de la o partiţie cu k+1 clase la una cu k clase, se observă că inerţia
interclase scade, pentru că cea intraclase creşte prin creşterea heterogenităţii claselor
partiţiei
• Criteriul de grupare: vor fuziona acele două clase pentru care pierderea de inerţie
interclase este minimă
• Metoda WARD introduce ca distanţă între 2 clase pierderea de inerţie interclase ce s-
ar obţine prin contopirea celor două clase.
METODE IERARHICE
• 1. Dacă:
• A şi B sunt două clase ale unei partiţii a mulţimii E
• gA şi gB sunt centrele lor de greutate
• pA şi pB sunt ponderile claselor
atunci centrul de greutate al mulţimii AB, gAB este : p A g A + pB g B
g AB =
p A + pB
p A pB 2
• 2. Distanţa dintre două clase după metoda WARD este:  ( A, B) = d (g A, gB )
p A + pB
•
• 3. Partiţia generată de algoritmul WARD este o partiţie ierarhică.
• 4. Algoritmul WARD generează o ierarhie indexată cu i(AB)= (A,B).
Analiza Cluster
Curs 3 - Octombrie 2021

EXEMPLUL 3 (SPSS) – Clusterizare Ierarhica
Fie o bază de date în care sunt observate diverse variabile economico-
sociale pentru 33 de țări. Să se grupeze țările în funcție de nivelul de
educație.
EXEMPLUL 3 (SPSS)
EXEMPLUL 3 (SPSS)
• Alegerea numărului de grupe:
• 1. Prin agglomeration schedule:
• În coloana Coefficients, vom face diferențe pornind de la ultimele doua nivele:
• 31-30= 44,198-38,144=6,054
• 30-29=38,144-32,794= 5, 350
• 29-28=32,794-28,584= 4,210
• Se observă că diferența cea mai mare este între nivelul 31 și 30. Astfel țările vor fi împărțite în 2 grupe.
• 2. Prin dendograma
• Graficul atinge ultimul nivel la valoarea 25 (in-1=25), penultimul nivel la valoarea 22 (in-2=22), etc.
• in-1-in-2= 25-22=3
• in-2-in-3=22-18=4
• in-3-in-4=18-15=3
• in-4-in-5=15-12=3
Se observă că diferența cea mai mare este 4. Astfel se recomandă împărțirea țărilor în 3 grupe.
•
ALTE METODE IERARHICE
• 1. Metoda agregării simple (distanţa saltului minimal sau Single Linkage)

• Este o metodă de clasificare ierarhică de tip ascendent, care comasează în fiecare etapă a clasificării acele două clustere
pentru care distanța dintre cei mai apropiați vecini este cea mai mică, în comparație cu alte perechi de clustere
• Măsura de similaritate folosită este: inf(A,B)=inf d(ei,ej) eiA, ejB 
• Această metodă este recomandată atunci când clasele sunt relativ omogene atât în interiorul lor cât şi în interiorul norului.
• II. Metoda agregării complete (distanţa saltului maximal sau Complete Linkage).
• Este o metodă de clasificare ierarhică de tip ascendent, care comasează în fiecar etapă a clasificării acele două clustere
pentru care distanța dintre cei mai depărtați vecini este cea mai mică, în comparație cu alte perechi de clustere
• Măsura de similaritate folosită este: sup(A,B)=sup d(ei,ej) eiA, ejB 
• Aceasta se numeşte Când metoda anterioară nu funcţionează, se poate aplica această metodă.
ALTE METODE IERARHICE
• III. Metoda agregării medii (distanța medie sau Mean Linkage)

• Este o metodă de clasificare ierarhică de tip ascendent, care comasează în fiecare etapă a clasificării acele două
clustere pentru care distanța medie dintre toate perechile formate cu obiecte din cele două clustere este cea mai
mică, în comparație cu alte perechi de clustere.
• Măsura de similaritate folosită este:
1
med(A,B)= 𝑝 ⋅ 𝑝 ෍ ෍ 𝑑(𝑒𝑖 , 𝑒𝑗 )
𝐴 𝐵 𝑒 𝑖 ∈𝐴 𝑒 𝑗 ∈𝐵
• Aceasta se numeşte distanţa medie şi este un compromis între cele două anterioare.
• Observație: Deoarece ierarhiile generate prin aceste metode pot fi foarte diferite, se recomandă
folosirea mai multor metode. Dacă partiţiile cu un număr mic de clase sunt foarte diferite între
ele, atunci este posibil ca mulţimea indivizilor să nu poată fi împărţită în clase.
Observații:
• Deoarece ierarhiile generate prin aceste metode pot fi foarte
diferite, se recomandă folosirea mai multor metode.
• Dacă partiţiile cu un număr mic de clase sunt foarte diferite între
ele, atunci este posibil ca mulţimea indivizilor să nu poată fi
împărţită în clase.
Procedurile SAS
PROC CLUSTER DATA=data METHOD=WARD CCC
OUTTREE=cluster ;
VAR var1-var7;
ID disjoint;
RUN;
PROC TREE DATA=cluster NCLUSTERS=4

OUT=hierclus (RENAME=(CLUSTER=hierarch)) NOPRINT;
ID disjoint;
RUN;
PROC SORT DATA=hierclus;

BY disjoint;
RUN;
Determinarea numărului optim de clustere
• Criteriul R square
• Este proporția varianței explicată de clusteri
• R square trebuie să fie mai mare de 0,5 pentru ca variația explicată de clusteri să fie peste 50%
• Numărul optim de clustere se obține acolo unde pierderea de omogenitate la gruparea a două clase este maximă, deci R square partial este maxim
• Criteriul Cubic Clustering Criterion – CCC
• CCC mai mare de 2 sau 3 indică grupări bune
• CCC între 0 și 2 indică posibile clustere, dar ar trebui interpretate cu prudență
• dacă toate valorile CCC sunt negative și în scădere pentru două sau mai multe clustere, distribuția este, probabil, unimodală sau coadă lungă
• valorile puternic negative ale CCC, să zicem, -30, s-ar putea datora unor valori outliers
• Criteriul Pseudo F
• descrie raportul dintre variația dintre clustere și variația din interiorul clusterului. Dacă Psuedo F scade, înseamnă că variația în interiorul clusterului
crește sau rămâne statică (numitor) sau variația dintre clustere scade (numărător).
• Numărul optim de clustere se obține atunci când acest raport nu mai înregistrează scăderi importante.
• Criteriul Pseudo T square
• Numărul optim de clustere se obține acolo unde se înregistrează cea mai brusă creștere a acestei valori analizând graficul de la dreapta la stânga
Examples
Există outliers și nu există nici o partiție a populației în clustere bine definite. Numărul recomandat de clustere este 3 sau 11.
Numărul recomandat de clustere este 3 sau 5. Examples
Care este numărul recomandat de clustere?
II. Metode de clasificare
METODE DE CLASIFICARE NEIERARHICE
• se folosesc atunci când se cunoaşte numărul de clase în care se doreşte împărţirea indivizilor
• se presupune că cei n indivizi sunt puncte într-un spaţiu euclidian inclus în Rp, distanţa dintre
indivizi fiind cea euclidiană
• scopul fiecărei clasificări este de a obţine clase cât mai omogene: variabilitatea norului de puncte,
în interiorul unei clase să fie cât mai mică
• Ideea metodei: se porneşte cu k clase aleatoare şi se schimbă indivizii între clase astfel încât:
• să se minimizeze variabilitatea în interiorul claselor (dispersia intraclase)
• să se maximizeze variabilitatea dintre clase (dispersia interclase)
II. Metode de clasificare
Cum se formează clusterii?

Metode de clasificare
• g1, ..., gk sunt centrele de greutate ale claselor C1, ..., Ck:
nj
• inerţia intraclasă este: I i =  p j d 2 ( j , g i ) i = 1, k

j =1
unde pj este ponderea individului j
k
• inerţia intraclase este: IW =  Γ i I i
i =1
unde i este ponderea clasei i

k
• inerţia interclase este: I B =  Γ i d ( g i , g )
2
i =1
unde g este centrul de greutate al întregului nor de puncte
• inerţia totală a norului de puncte: I = IW + IB

• metoda centrelor mobile (a lui Forgy)
• 1. se aleg k puncte distincte din mulţimea X, notate cu c1, c2, ..., ck
se iniţializează contorul de numărare a operaţiilor j=0
• 2. se împarte mulţimea X în k clase astfel:  
X ci = x  X d ( x, ci )  d ( x, cl ), l = 1,n, l  i , i = 1,k

• 3. se calculează centele de greutate ale partiţiei X i( j ) 
i =1, k
şi se notează cu X 
ci i =1, k
se calculează I W( j +1) inerţia intraclase a partiţiei
• 4. dacă  j  N atunci STOP

 g i i =1,k
sau
 ( j +1)
 I W − I W  
( j)
ci = g i ,  i = 1, k
altfel  şi se trece la pasul 2.
 j = j +1
• algoritmul converge rapid
• La fiecare pas este necesar calculul a n k distanţe, dintre cei n indivizi şi cele k centre de greutate. De aceea
nu este necesară memorarea tabelului cu cele n(n-1)/2 distanţe dintre cei n indivizi
• Inconvenientele metodei:
• k trebuie cunoscut apriori
• optimul este dependent de alegerea iniţială a punctelor ci 
Procedurile SAS
PROC FASTCLUS DATA=data
OUT=outfast OUTSEED=centres CLUSTER=disjoint
MAXCLUSTERS=20 DELETE=50 MAXITER=100;
VAR var1-var7;
RUN;
DELETE=50 previne formarea clusterilor cum

mai putin de 50 de indivizi
MAXCLUSTER= număr maxim de clustere

RADIUS= separarea minimă a clusterelor
EXEMPLUL 4
Utilizatorii de Internet pe Mobil
• Se grupează mai întâi datele în 20 de clusteri
EXEMPLUL 4
Utilizatorii de Internet pe Mobil
• Se realizează o clasificare ierarhică pe centrele de greutate ale celor 20 de
clusteri creați la pasul anterior
Exemple Analiza Cluster

Octombrie 2021

EXEMPLUL 1
• Pentru identificarea grupelor de tari in functie de turism si
5. % gospodarii cu acces la internet
nivelul de dezvoltare a fost realizat un studiu realizat la nivelul
6. % celor ce fac cumparaturi pe internet
tarilor europene utilizand date pentru anul 2018 de pe Eurostat.
7. % Investitii protectia mediului
Variabilele folosite au fost :
8. PIB pe locuitor
1. % calatorii munte
2. % calatorii rezervate internet-
3. Cheltuieli medii pe noapte
4. % TIC in PIB
• Prin aplicarea metodei Ward pentru datele
standardizate (metoda standard deviation) s-au
obtinut urmatoarele rezultate:
• Prin aplicarea metodei Ward pentru datele
standardizate (metoda range) s-au obtinut
urmatoarele rezultate:
Metoda Complete Linkage Metoda Average Linkage
Exemplul 1
• Prin aplicarea metodei centrelor mobile pentru datele standardizate s-au obtinut rezultatele:
Exemplul 1
Exemplul 2
• Pentru identificarea grupelor de tari in functie
de utilizarea internetului a fost realizat un
studiu la nivelul tarilor europene utilizand date
pentru anul 2018 de pe Eurostat. Variabilele
folosite au fost exprimate in procente in
populatia totala a persoanelor ce folosesc
internetul pentru : Online course
, Sending/receiving e-mails , Social
networks, Online news , Internet
banking, Educational websites/portals , Online
learning ,Selling goods or services , Travel
and accommodation services.
• Prin aplicarea metodei Ward pe date
nestandardizate s-au obtinut urmatoarele
rezultate:
Exemplul 2
Exemplul 2 Prin aplicarea metodei centrelor mobile pe date nestandardizate

s-au obtinut urmatoarele rezultate:
Analiza în componente
principale
Octombrie 2021

Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul
variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
  n
 p2 
D=
 
 pi = 1
 i=1
 
0 pn 
• Produsul scalar a două variabile xj și xk este:

n
j
x ,x k
= x' Dx =  pi xik xij
j k
acesta fiind covarianța sjk dintre cele două variabile, dacă acestea sunt centrate
i =1
• Observație:
• Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Cosinusul unghiului dintre două variabile centrate este coeficientul de corelație dintre acestea
x j , xk s jk
cos  jk = = = rjk
x j  xk s j sk
Rotirea sistemului de coordonate
• În sistemul inițial de axe punctul A are coordonatele (x1, x2). Dacă rotim axele cu un anumit unghi ,
coordonatele punctului în noul sistem de coordonate vor fi (x1*, x2 *) definite astfel:
• x1* = cos() x1 + sin() x2
• x2* = - sin() x1 + cos() x2
• Observație: Variația totală a punctelor reprezentate în sistemul de axe inițial este în totalitate conservată prin
reprezentarea grafică în noul sistem de axe.
• EXEMPLU: Sistemul de axe se rotește cu 45 de grade.

Observatie x1 x2 (x1)' (x2)'
1 7 10 12.02 2.12
2 5 11 11.31 4.24
3 10 14 16.97 2.83
4 3 5 5.66 1.41
5 5 10 10.61 3.54
media 6 10 11.31 2.83
dispersia 5.6 8.4 13 1
dispersia totala 14 14
(x1)'=cos(45) x1+ sin(45) x2
(x2)'= - sin(45) x1+ cos(45) x2

4. Vectori și valori proprii

 Definiție: Fie o matrice ARnxn. Un număr   C se numește valoare proprie a matricei A, dacă există un vector
nenul x Cn astfel încât:
Ax= x
Vectorul x0 se numește vector propriu al matricei A asociat valorii proprii  .
 Valorile proprii ale matricei A sunt zerourile polinomului caracteristic:
P( )=det( In-A)
Observație: Orice matrice A are exact n valori proprii complexe, nu neapărat distincte.
4. Vectori și valori proprii

 Exemplu:
Determinați valorile și vectorii proprii pentru matricea:
P( )=det( In-A)=0 
  
Analiza în componente principale (ACP)
I. Definire şi utilizare
• este o metodă descriptivă
• pentru vizualizarea informaţiilor conţinute într-un tablou de date cantitative
• pentru vizualizarea corelaţiilor existente între variabile
• construieşte variabile noi, artificiale şi reprezentări grafice care permit vizualizarea relaţiilor între
variabile cât şi existenţa eventuală a unor grupuri de indivizi sau grupuri de variabile
• II. În practică, se lucrează cu datele centrate şi reduse.
• Tabelul de date se transformă în Z = (zij) x ij − x j

zij =
sj
II. Principiul metodei

• ACP sintetizează variabilitatea iniţială a datelor privind cele p variabile iniţiale în câteva componente necorelate
între ele, numite componentele principale. Fiecare componentă principală este extrasă ca o combinaţie liniară
de variabile iniţiale. Metoda constă în extragerea celui mai mic număr de componente care preiau cea mai mare
parte a varianţei datelor iniţiale, adică în reducerea datelor iniţiale cu o pierdere minimă de „informaţie”.
• ACP ajută la obţinerea unei reprezentări apropiate a norului de n indivizi într-un spaţiu de dimensiune mică, prin
proiecţie
• Alegerea spaţiului de proiecţie se efectuează după criteriul următor: se caută subspaţiul de dimensiune k astfel
încât media pătratelor distanţelor între proiecţii să fie cea mai mare posibilă, deci inerţia norului proiectat pe
subspaţiul Fk să fie maximală
III. Axe principale, factori principali, componente principale
• Se caută dreapta din Rp care să treacă prin centrul de greutate şi să maximizeze inerţia norului proiectat pe dreaptă.
• Prima componentă principală extrasă este acea combinaţie liniară de variabile care preia maximul posibil din varianţa datelor iniţiale.
Cea de-a doua componentă principală preia mai puţină varianţă, şi aşa mai departe.
• Subspaţiul Fk, de dimensiune k este generat de cei k vectori proprii ai lui SM asociaţi celor mai mari k valori proprii, unde S este
matricea de covarianţă
Valorile proprii
 s 2 s12  s1n 
 1 1. Măsoară cantitatea de varianţă „explicată” de fiecare
s s 22  s 2n  componentă principală.
S= 21

    2. Descresc odată cu indexul componentei, prima
s componenta principală având valoarea proprie maximă.
 n1 s n 2  s 2n 
3. Au suma egală cu p (numărul variabilelor iniţiale).
4. Exprimă „importanţa” componentelor principale
• Dacă primele k componente principale preiau 80% sau mai mult din varianţa datelor iniţiale, atunci scopul reducerii dimensionalităţii
va fi atins.
• În cazul în care se lucrează cu un tabel de date centrat şi redus Z, asociat lui X:
• metrica folosită va fi M = I
• matricea de covarianţă a datelor centrate şi reduse va fi matricea de corelaţie R
deci factorii principali vor fi vectorii proprii succesivi ai lui R,
aranjaţi după ordinea descrescătoare a valorilor proprii:
Ru = u cu u2 = 1
• Interes practic mai au doar componentele principale calculate drept combinaţii liniare de variabilele
centrate-reduse:
c = Zu
• c este variabila cea mai legată de xj în sensul sumei pătratelor corelațiilor:
p
 r
j=1
2
( c, x j
)
ACP înlocuieşte variabilele iniţiale x1, x2, ..., xp,

care sunt corelate, prin variabile noi,
componentele principale c1, c2, ....,
combinaţii liniare ale variabilelor iniţiale xj,
necorelate între ele, de dispersie maximală şi
legate foarte mult de variabilele iniţiale xj,
în sensul păstrării informaţiei cât mai mult posibil
Exemplu de calcul
Analiza în Componente Principale
Matricea X Matricea standardizata Z
Observatie x1 x2 x3 X1std X2std X3std
1 7 10 11 0.59 0.00 1.34
2 5 11 10 -0.27 0.33 0.99 Matricea de Corelatie R Column 1 Column 2 Column 3
3 10 14 8 1.88 1.30 0.30 Column 1 1 0.840042 0.219708
4 3 5 9 -1.13 -1.63 0.65 Column 2 0.840042 1 0.080211
5 5 10 3 -0.27 0.00 -1.42 Column 3 0.219708 0.080211 1
6 7 12 5 0.59 0.65 -0.73
7 3 6 4 -1.13 -1.30 -1.08
8 5 12 7 -0.27 0.65 -0.04
Media 5.63 10.00 7.13 0.00 0.00 0.00
Abaterea medie patratica 2.33 3.07 2.90 1.00 1.00 1.00
Exemplu calcul
Componentele principale
sunt: Zu
c1 c2 c3
0.72 1.24 -0.26
0.26 0.89 0.53
2.26 -0.19 -0.40
-1.74 1.12 -0.24
-0.52 -1.34 0.02
0.68 -0.91 -0.06
-1.92 -0.62 -0.23
0.24 -0.18 0.64
Analiza în componente
principale
Octombrie 2021

Analiza în componente principale (ACP)
I. Definire şi utilizare
• este o metodă descriptivă
• pentru vizualizarea informaţiilor conţinute într-un tablou de date cantitative
• pentru vizualizarea corelaţiilor existente între variabile
• construieşte variabile noi, artificiale şi reprezentări grafice care permit vizualizarea relaţiilor între
variabile cât şi existenţa eventuală a unor grupuri de indivizi sau grupuri de variabile
• II. În practică, se lucrează cu datele centrate şi reduse.
• Tabelul de date se transformă în Z = (zij) x ij − x j

zij =
sj
II. Principiul metodei

• ACP sintetizează variabilitatea iniţială a datelor privind cele p variabile iniţiale în câteva componente necorelate
între ele, numite componentele principale. Fiecare componentă principală este extrasă ca o combinaţie liniară
de variabile iniţiale. Metoda constă în extragerea celui mai mic număr de componente care preiau cea mai mare
parte a varianţei datelor iniţiale, adică în reducerea datelor iniţiale cu o pierdere minimă de „informaţie”.
• ACP ajută la obţinerea unei reprezentări apropiate a norului de n indivizi într-un spaţiu de dimensiune mică, prin
proiecţie
• Alegerea spaţiului de proiecţie se efectuează după criteriul următor: se caută subspaţiul de dimensiune k astfel
încât media pătratelor distanţelor între proiecţii să fie cea mai mare posibilă, deci inerţia norului proiectat pe
subspaţiul Fk să fie maximală
• Se caută dreapta din Rp care să treacă prin centrul de greutate şi să maximizeze inerţia norului proiectat pe dreaptă.
• Prima componentă principală extrasă este acea combinaţie liniară de variabile care preia maximul posibil din varianţa datelor iniţiale.
Cea de-a doua componentă principală preia mai puţină varianţă, şi aşa mai departe.
• Subspaţiul Fk, de dimensiune k este generat de cei k vectori proprii ai lui SM asociaţi celor mai mari k valori proprii, unde S este
matricea de covarianţă
Valorile proprii
 s 2 s12  s1n 
 1 1. Măsoară cantitatea de varianţă „explicată” de fiecare
s s 22  s 2n  componentă principală.
S= 21

    2. Descresc odată cu indexul componentei, prima
s componenta principală având valoarea proprie maximă.
 n1 s n 2  s 2n 
3. Au suma egală cu p (numărul variabilelor iniţiale).
4. Exprimă „importanţa” componentelor principale
• Dacă primele k componente principale preiau 80% sau mai mult din varianţa datelor iniţiale, atunci scopul reducerii dimensionalităţii
va fi atins.
• În cazul în care se lucrează cu un tabel de date centrat şi redus Z, asociat lui X:
• metrica folosită va fi M = I
• matricea de covarianţă a datelor centrate şi reduse va fi matricea de corelaţie R
deci factorii principali vor fi vectorii proprii succesivi ai lui R,
aranjaţi după ordinea descrescătoare a valorilor proprii:
Ru = u cu u2 = 1
• Interes practic mai au doar componentele principale calculate drept combinaţii liniare de variabilele
centrate-reduse:
c = Zu
• c este variabila cea mai legată de xj în sensul sumei pătratelor corelațiilor:
p
 r
j=1
2
( c, x j
)
ACP înlocuieşte variabilele iniţiale x1, x2, ..., xp,

care sunt corelate, prin variabile noi,
componentele principale c1, c2, ....,
combinaţii liniare ale variabilelor iniţiale xj,
necorelate între ele, de dispersie maximală şi
legate foarte mult de variabilele iniţiale xj,
în sensul păstrării informaţiei cât mai mult posibil
Exemplu de calcul
Matricea X Matricea standardizata Z
Observatie x1 x2 x3 X1std X2std X3std
1 7 10 11 0.59 0.00 1.34
2 5 11 10 -0.27 0.33 0.99 Matricea de Corelatie R Column 1 Column 2 Column 3
3 10 14 8 1.88 1.30 0.30 Column 1 1 0.840042 0.219708
4 3 5 9 -1.13 -1.63 0.65 Column 2 0.840042 1 0.080211
5 5 10 3 -0.27 0.00 -1.42 Column 3 0.219708 0.080211 1
6 7 12 5 0.59 0.65 -0.73
7 3 6 4 -1.13 -1.30 -1.08
8 5 12 7 -0.27 0.65 -0.04
Media 5.63 10.00 7.13 0.00 0.00 0.00
Abaterea medie patratica 2.33 3.07 2.90 1.00 1.00 1.00
Exemplu calcul
Componentele principale
sunt: Zu
c1 c2 c3
0.72 1.24 -0.26
0.26 0.89 0.53
2.26 -0.19 -0.40
-1.74 1.12 -0.24
-0.52 -1.34 0.02
0.68 -0.91 -0.06
-1.92 -0.62 -0.23
0.24 -0.18 0.64
Analiza de
corespondente
Noiembrie 2021

Sumar
• I. Definire şi utilizare
• II. Analiza simplă de corespondențe
• III. Analiza de corespondențe multiplă
• IV. Interpretarea axelor factoriale

Definire și utilizare
• metodă de studiu a legăturilor existente între mai multe variabile calitative
• studiază corespondenţa între modalităţile variabilelor
• pentru 2 variabile calitative: Analiza de Corespondenţe Simplă
• pentru mai mult de două variabile calitative: Analiza de Corespondenţe Multiplă
II. Analiza de corespondenţe simplă
• se formează tabelul de asociere N= n ij ( )

i =1, m1 , j=1, m 2
• nij – numărul observaţiilor care au modalitatea i a variabilei 1 şi modalitatea j a variabilei 2
• se construiesc matricile frecvenţelor cumulate pe linii şi frecvenţelor cumulate pe coloane:
n1. 0 0 0  n.1 0 0 0 
0 n 0 0  0 n 0 0 
D1 =   D2 =  
2 . .2
0 0  0  0 0  0 
   
0 0 0 n  0 0 0 n 2

 m1.  .m
• unde m1 numărul modalităţilor primei variabile şi ni.=  n ij

j
• unde m2 numărul modalităţilor variabilei a doua şi n.j=  n ij
i
II. Analiza de corespondenţe simplă
• ACP pentru tabelul pofilelor linii

• tabelul de date: D1−1N
−1
• metrica: M= nD 2
• ponderile: D=D1/n
• ACP pentru tabelul pofilelor coloane

• tabelul de date: ND −2 1
−1
• metrica: M= 1nD
• ponderile: D=D2/n
III. Analiza de corespondenţe multiplă
• Se citesc datele şi apoi se construiesc tabelele de date disjunctive X1, X2, ..., Xp. Aceste tabele au n linii şi mk
coloane, pe fiecare linie (i) existând o singură valoare diferită de zero, pe coloana corepunzătoare modalităţii
alese de individul i.
• Apoi se construieşte tabelul lui Burt, B, un tabel de contingenţă:
X1T X1 X1T X 2  X1T X p 
 T 
X 2 X1 X T2 X 2  XT2 X p 
B= 
     
XTp X1 X Tp X 2  XTp X p 

• Matricea D este tabelul diagonal de totaluri marginale ale celor m=m1+ m2+…+mp categorii:
 D1 0 0 0
0 D2 0 0 
D =
0 0  0
 
 0 0 0 D p 
III. Analiza de corespondenţe multiplă
• Ecuaţia coordonatelor categoriilor : 1 D −1 Bu = u

1 p
• cu convenţia de normalizare : u' Du = 
np
Fie z=z1,...,zn vectorul cu n componente reprezentând coordonatele celor n indivizi pe o
axă factorială
• Ecuaţia coordonatelor indivizilor : 1 XD −1 X' z = z

p
• cu convenţia de normalizare : 1 z' z = 
n
IV. Analiza de corespondenţe. Interpretarea procentului de inerție
explicată de axe
IV. Analiza de corespondenţe: Interpretarea axelor factoriale
• Contribuţia unei modalități la formarea axei factoriale:
• calitatea reprezentării elementului, prin proiecţie pe axa factorială
• contribuţia categoriei j, de total nj, cu coordonata aj, pe axa factorială:
nj
(a j )2
np
CTR ( j) =

• Modalităţile interesante sunt cele care au o contribuţie superioară ponderii lor nj/np
• Contribuţia cumulată a lui Xi este:
m1 1 mi n j
CTR (Xi) =  CTR (j) =  (a j )2
j=1  j=1 np
• Contribuţiile indivizilor:
2
1 (z i )
CTRI(i)= 
n 
IV. Analiza de corespondenţe: Interpretarea axelor factoriale
• OBSERVAȚII:
• 1. Se recomandă evitarea diferenţelor prea mari între numărul de categorii ale variabilelor Xi
• 2. La interpretarea unei axe factoriale în funcţie de contribuţia unei modalităţi active la inerţia totală a norului
proiectat se vor clasa modalităţile în ordine descrescătoare în funcţie de contribuţia lor

IV. Analiza de corespondenţe Interpretarea axelor factoriale
• REGULI DE INTERPRETARE
• În planul Rn în norul de puncte-modalităţi, două modalităţi sunt depărtate (în sensul distanţei 2) atunci
când ele sunt foarte puţin asociate, adică ele nu au fost alese în acelaşi timp de indivizi.
• În cazul proiecţiei norului de puncte în spaţiul R2 format de axele factoriale, două modalităţi sunt foarte
apropiate atunci când ele sunt alese sau respinse în acelaşi timp de o mare parte din indivizi.
• Este posibilă reprezentarea simultană a indivizilor şi categoriilor
• Indivizii care sunt apropiaţi de anumite categorii, sunt cei care au selectat categoriile respective. Prin
această reprezentare grafică poate fi realizată o clasificare a indiviziilor şi cunoaşterea caracteristicilor
fiecărei clase. Aceasta este folositoare mai ales în cazurile în care indivizii nu sunt anonimi.
EXEMPLU
• Observarea modului de viață al șomerilor
• Variabile:
• Variabile de opinie:
• stflife: Cat de satisfacut sunteti cu viata dvs. per total ?
• stfgov: Cat de satisfacut sunteti de actualul guvern al tarii ?
• sclmeet: Cat de des socializati cu prietenii, rudele sau colegii ?
• mainact: Principala activitate in ultimele 7 zile
• Variabile socio-demografice:
• edulvla: Care este cel mai inalt nivel de educatie atins de dvs. ?
• maritala: Statutul marital legal
• regionro: Regiunea
• gndr: sex
EXEMPLU SAS
EXEMPLU SAS
EXEMPLU SAS
EXEMPLU SAS
Analiza discriminantă
Noiembrie 2021

Sumar
I. Definire
II. Axele şi variabilele discriminante
III. Funcția Fisher
IV. Reguli geometrice de atribuire
V. Metode probabiliste
VI. Estimaţii practice ale erorii de clasificare
I. Definire
• Scop: Prezicerea unei variabile calitative cu k categorii cu ajutorul a p predictori, în general numerici.
• Structura datelor: Datele constau în n observaţii repartizate în k clase descrise de p variabile

explicative.
• Aspecte:
• descriptiv: se caută combinaţiile liniare de variabile care permit împărţirea cel mai bine posibil în cele k
categorii şi dau o reprezentare grafică (ca în ACP), care ţine seama cel mai bine de această împărţire.
• decizional: un nou individ apare, pentru care se cunosc valorile predictorilor. Este vorba de a decide cărei
categorii trebuie atribuit individul respectiv. Este o problemă de clasament.
I. Definire Analiza discriminantă constă în căutarea de noi axe care separă cel mai
bine în proiecţie cele k grupuri de observaţii
I. Definire
Când datele sunt împărțite în două categorii,
noile axe sunt create astfel încât să îndeplinească două criterii:
1. Să maximizeze distanța dintre centrele de greutate
Cât mai mare
Cât mai mic
2. Să minimizeze variabilitatea în interiorul grupelor

I. Definire Când datele sunt împărțite în trei categorii noile axe sunt create astfel
încât:
1. Să maximizeze distanța dintre centrele de greutate

ale categoriilor și centrul de greutate al întregului nor
Cât mai mare
Cât mai mic
2. Să minimizeze variabilitatea în interiorul grupelor

I. Definire
Asemănări între Analiza Discriminantă și
• Ambele metode determină axe noi ordonate în ordine descrescătoare a

importanței lor
• În cazul ACP prima axă principală explică cea mai mare parte din variabilitatea datelor,
urmată de a doua componentă principală …
• In cazul AD prima axă discriminantă explică cea mai mare parte din variabilitatea categoriilor,
urmată de a doua axă discriminantă …
• Ambele metode încearcă să reducă dimensiunea spațiului inițial

I. Definire
• Fie E un nor în Rp format din n indivizi, notaţi ei.
• Acest nor este împărţit în k subnori: E1, E2, ..., Ek cu centrele de greutate g1, g2, ..., gk şi cu matricile de
varianţă V1, V2, ..., Vk.
• Fie g centrul de greutate al intregului nor de puncte şi V matricea de varianţă a întregului nor de puncte.
• Dacă cei n indivizi sunt afectaţi de ponderile p1, p2,..., pn atunci ponderile q1, q2,..., qk ale fiecărui sub-nor
sunt : q j =  p i .
ei Ei
E2  1
x
 gj =
x  p i ei
x
x x
qj i
E1
x
 k
x x  g =  qjg j
x
x  j=1
V = 1
 p i (ei − g j )(ei − g j )'
x x
x
 j q 
x
x
x x
x
 x
j i Ej
e
E3
I. Definire
• Matricea de varianţă interclase B, se defineşte ca matricea de varianţă a celor k centre de
greutate cu ponderile qj:
k
B= q
j =1
j (g j - g )(g j - g )'
• Matricea de varianţă intraclase W, se defineşte ca media matricilor Vj :

k
W =  q jV j
j=1
• Observație: În cazul general, W este inversabilă în timp ce B nu este, deoarece cele k centre de greutate sunt
într-un sub-spaţiu de dimensiune k-1 din Rp (dacă p>k-1, ceea ce se întâmplă în general), în timp ce B este de
dimensiune p.
• Varianţa totală este suma dintre media varianţelor şi varianţa mediilor, are loc relaţia următoare: V=W+B .
Ipoteză: Se presupune g=0 (adică variabilele explicative sunt centrate).
I. Definire
• Tabloul datelor de studiat este AX unde :
• A este tabloul logic asociat variabilei calitative ;
• X este matricea celor p variabile explicative.
• Atunci se demonstrează că:

• centrele de greutate g1, g2,..., gk sunt liniile matricii: (A’DA)-1(A’DX)
• matricea varianţelor interclase este: B=(X’DA)Dq-1(A’DX)
• Observație: Dacă pi=1/n formulele precedente se simplifică. Fie n1, n2,..., nk mărimea subnorilor.
 1
 B = nj  g j  g j' 1

• Atunci :  n j unde gj =  ei
1 n j Ej
 W =  n jV j

 n j
• AFD-ul constă în căutarea de noi variabile, numite variabile discriminante, corespunzătoare

direcţiilor din Rp care separă cel mai bine în proiecţie cele k grupuri de observaţii.
Axa 2
x
x Axa 1
x x
x x
x Axa 1
x x
x x x
x
Axa 2
• Se presupune Rp înzestrat cu metrica M.
• Se notează cu ‘a’ axa discriminantă şi cu ‘u’ factorul asociat axei discriminante, u=Ma. Xu va fi variabila
discriminantă
• Axa discriminantă este vectorul propriu al matricii M-1V-1BM asociat celei mai mari valori proprii.
• Axei discriminante a i se asociază factorul discriminant u astfel încât u=Ma.
• Factorul discriminant u este vectorul propriu al matricii V-1B asociat valorii proprii 1 : V-1Bu=1 u.
• Factorii discriminanţi şi variabilele discriminante Xu, sunt independente în raport cu metrica M.
• Observație: Pentru ușurința calculelor se alege M=V-1 deci:

 BV −1a = 1a
 −1
V Bu = 1u

• Observaţie: 011
• 1=1 atunci: a’MBMa=a’MVMa x
x
x x
x g1
În acest caz, în proiecţie pe a dispersiile intraclase sunt nule. Cei k nori sunt fiecare x
x
x x
x x
într-un hiperplan ortogonal pe a. g1
x x
x
Avem discriminare perfectă dacă centrele de greutate se proiectează în puncte
diferite.
x x
Grup 1
• Dacă 1=0 atunci: a’MBMa=0
x
x
x
Grup 2
x x x
x . x
În acest caz cea mai bună axă nu permite separarea centrelor de greutate gi. Este x
x
x x
g1=g2
x
x
x
cazul în care ele sunt confundate. x x x
x x x
Norii sunt concentrici şi nu este posibilă nici o separare liniară.

Grupa 1
Grupa 2
Se poate totuşi să existe o posibilitate de discriminare neliniară. x x
x
x x x x
• Dacă 0<1<1 există posibilitatea ca să existe discriminare perfectă între grupuri x x
x
x
x x
III. Funcția Fisher
• În cazul general în care n>p>k şi în care variabilele nu sunt legate prin relaţii liniare, numărul valorilor proprii diferite de
zero, deci numărul axelor discriminante, este egal cu k-1.
• În cazul în care k=2, k-1=1 deci există o singură variabilă discriminantă.

• Axa discriminantă este atunci în mod necesar dreapta care uneşte cele două centre de greutate g1 şi g2 : a=(g1-g2).
• Factorul discriminant va fi : u=V-1(g1-g2) sau u=W-1(g1-g2).
g1 g2
• Se defineşte funcţia scor a lui Fisher ca: W-1(g1-g2). g
• În general, din motive de estimare, în locul lui W-1 se ia:

 n1 + n2 − 2
 = W −1
n1 + n2
• După obţinerea celei mai bune reprezentări a celor n indivizi în k clase se poate formula o regulă de atribuire.
• Regula generală constă în calcularea distanţelor observaţiei e la cele k centre de greutate ale fiecărei clase, iar apoi la
atribuirea celei mai mici distanţe.
Pentru aceasta trebuie definită metrica care urmează a fi utilizată.
• 1. Regula Mahalanobis-Fisher: constă în utilizarea metricii W-1 (sau V-1 , ceea ce este echivalent).
d 2 (e, g i ) = (e − g i )'W −1 (e − g i )  d 2 (e, g i ) = e'W −1e + g i 'W −1 g i − 2e'W −1 g i

• Cum e’W-1e nu depinde de grupă, regula constă în a căuta:
min( g i 'W −1 g i − 2e'W −1 g i ) sau max( e'W −1 g i − g i 'W −1 g i / 2)

• Insuficienţa regulilor geometrice
Utilizarea regulilor precedente conduce la atribuiri incorecte atunci când dispersile grupelor sunt foarte
diferite între ele: nimic nu justifică atunci folosirea aceleiaşi metrici pentru grupe diferite.
g1
g2
V. Metode probabiliste
• Se presupune că există un număr finit de populaţii din care individul poate proveni şi fiecare populaţie este
caracterizată de o probabilitate de distribuţie a măsurătorilor. Individul este considerat ca o observaţie
aleatoare a acestei populaţii.
• Ideea generală pentru construirea unei proceduri de clasificare este de a minimiza probabilitatea de
misclasificare, sau şi mai exact, minimizarea efectelor negative ale misclasificării.
• Boboc C. - Metode statistice de analiză a atributelor necesare ale calităţii, Editura Meteor Press, 2007, pag. 60-66
• Anderson T.W. – An introduction to multivariate statistical analysis, Wiley, New York, 1984
VI. Estimații practice ale erorii de clasificare
1.Metoda eşantionului test
În acesată metodă se foloseşte toată informaţia eşantionului pentru definirea regulii de afectare a unui nou
individ. Această regulă este apoi testată pe acelaşi eşantion, adică fiecare individ din eşantion este atribuit
unei grupe după regula descrisă anterior.
• Estimarea erorii de clasament astfel obţinută are o deplasare optimistă deoarece regula de afectare este
testată pe indivizii care au contribuit la construcţia sa.
• Avantajul acestei metode constă în faptul că foloseşte întreaga informaţie a eşantionului.

VI. Estimații practice ale erorii de clasificare
2. Metoda validării încrucişate
• Fie E eşantionul iniţial. Card(E)=n.
• Se construiesc E1 numit eşantion de învăţare și E2 eşantion de testare astfel încât :
• E= E1 E2 E1 E2= card(E1)=card(E2)=n/2
• Regula de afectare este construită pe eşantionul de învăţare E1 şi testată pe eşantionul de testare E2, obţinând astfel eroarea de
clasificare.
• Avantajele acestei metode sunt :

• nu presupune nici o ipoteză suplimentară asupra predictorilor, care să influenţeze calitatea estimaţiei ;
• se aplică foarte bine când volumul de selecţie este mare.
• Dezvantajele acestei metode sunt :

• când eşantionul este mic este greu de împărţit în două
• nu foloseşte întreaga informaţie a eşantionului
• trebuie construită partiţia eşantionului: trebuie aleşi indivizii care vor face parte din eşantionul test şi cei care vor face parte din eşantionul de
învăţare.
O ABORDARE STRUCTURATĂ
PRIVIND ANALIZA MULTIDIMENSIONALĂ
Noiembrie 2021
REZUMAT – METODE DE ANALIZĂ MULTIDIMENSIONALĂ
Dependență Tipul relației Interdependență
analizate
Nr.Variabile Relațiile sunt
analizate între:
Mai multe variabile O variabilă
dependente într-o dependentă într-o Variabile Obiecte
singură relație Observații (modalitățile
singură relație numerice
Var. nenumerice)
Scala de măsurare a Scala de măsurare a
var.dependente var.dependente Analiza
Analiza de
Analiza Cluster corespondențe
Factorială (ACP)
simplă/multiplă
Metrică Nonmetrică Metrică Nonmetrică
Scala de ANALIZA Modelul de Analiza

regresie Discriminată
măsurare a CANONICĂ
CU VARIABILE multiplă
var.predictor DUMMY Modele de
Analiza probabilitate
Metrică Nonmetrică CONJOINT liniare (LOGIT)
Analiza de
ANALIZA
varianță
CANONICĂ
multivariată
Studiu de caz 1
• Să presupunem că cerem clienților să evalueze un restaurant în funcție de: gustul alimentelor,
temperatura alimentelor, prospețimea, timpul de așteptare, curățenia și prietenia angajaților.
• Cum ar putea analistul analiza răspunsurile clienților?
• Ce rezultat ar fi posibil să obțină acesta?
CALITATEA ALIMENTELOR: CALITATEA SERVICIILOR:

gustul, temperatura și prospețimea timpului de așteptare, curățenia
și prietenia angajaților
Studiu de caz 2
• Cum ar putea fi diferențiați și identificați inovatorii de non-inovatori în funcție de profilurile lor
demografice și psihologice?
Pentru înțelegerea diferențelor

dintre inovatori și non-inovatori
ANALIZA
DISCRIMINANTĂ
Pentru prezicerea probabilității ca

o entitate sa aparțină unei anumite clase
pe baza câtorva variabile independente metrice.
Studiu de caz 3
• Să presupunem că proprietarul unui restaurant vrea să știe care sunt motivele pentru care clienții
vin în restaurant. Datele colectate ar putea fi: percepțiile privind prețurile, calitatea alimentelor,
servirea clienților, etc.
• Cum ar putea analistul analiza răspunsurile clienților?
Identificarea grupurilor de clienți motivați

de prețurile mici
ANALIZA CLUSTER
versus cei mai puțin motivați din
considerente de preț dar motivați de
calitatea serviciilor
Studiu de caz 4
• Presupunem că preferințele de marcă ale respondenților pot fi încrucișate cu variabilele
demografice (de exemplu, sexul, categoriile de venit, ocupația) indicând numărul de persoane
care preferă în fiecare marcă și în fiecare categorie a variabilelor demografice.
Reprezentarea într-un grafic bidimensional a

mărcilor și caracteristicilor demografice:
- Mărcile percepute ca fiind similare
ANALIZA DE sunt situate aproape unul de altul.
CORESPONDENȚE -Caracteristicile distinctive ale respondenților
care preferă fiecare marcă sunt,
determinate de apropierea categoriilor
variabilelor demografice de poziția mărcii.
O ABORDARE STRUCTURATĂ PENTRU CREAREA UNEI ANALIZE
MULTIMENSIONALE
• Pas 1: Definirea problemei, obiectivelor cercetării și tehnicile multivariate ce
urmează a fi folosite
• Punctul de plecare pentru orice analiză multivariată constă în definirea problemei și a
obiectivelor analizei în termeni conceptuali înainte de a specifica orice variabile sau măsuri.
• Modelul conceptual: este o simplă reprezentare a relațiilor ce se dorește a fi studiate
• Alegerea metodei potrivite de analiză multidimensională
• Pas 2: Dezvoltarea planului de analiză

• Implementarea metodei
• Pas 3: Evaluarea ipotezelor care stau la baza metodei de analiză multidimensională

aleasă
O ABORDARE STRUCTURATĂ PENTRU CREAREA UNEI ANALIZE
MULTIMENSIONALE
• Pas 4: Estimarea modelului de analiză multidimensională și evaluarea
modelului
• Estimarea celui mai bun model
• Evaluarea calității modelului
• Pas 5: Interpretarea modelului

• Pas 6: Validarea modelului
• Poate fi generalizat la întreaga populație?
STUDIU DE CAZ 1 – Numărul doctoranzilor
Sursa: Getting Started: CORRESP Procedure – SAS
 Mai mult de 96% din

inerție este explicată de
prima dimensiune, deci
asocierea dintre cele două
variabile este în esență
unidimensională.
STUDIU DE CAZ 1
Sursa: Getting Started: CORRESP Procedure – SAS
Numărul de doctoranzi
în diferitele discipline se
schimbă în timp.
Astfel la începutul anilor
‘70 predominau
doctoratele în
matematică și inginerie
timp iar la sfîrsitul anilor ‘70
predominau doctoratele
în științele
comportamentale și ale
vieții.
STUDIU DE CAZ 2 – Satisfacția privind procesul de cumpărare
Sursa datelor: Satisf.spss
Analiza de Corespondențe Simplă
 85% din inerție este

explicată de prima și a
doua dimensiune, deci
variabile este în esență
bidimensională.
Sursa datelor: Satisf.spss Analiza de Corespondențe Simplă
Persoanele cu o părere
generală neutră despre
magazinele analizate sunt
în general persoanele cu
vârsta între 18 și 24 ani
Persoanele cu vârsta
între 50-64 ani au o
părere generală negativă
privind magazinele
analizate
Sursa datelor: Satisf.spss
Analiza de Corespondențe Multiplă

Sursa datelor: Satisf.spss Analiza de Corespondențe Multiplă
 75% din inerție este

explicată de prima și a
doua dimensiune și peste
90 de primele trei
dimensiuni. Deci
variabile poate fi privită ca
bidimensională.
STUDIU DE CAZ – Satisfacția privind procesul de cumpărare
Sursa datelor: Satisf.spss Analiza de Corespondențe Multiplă
Se iau în considerare modalitățile a căror contribuție este

mai mare de 100/numărul total de modalități (deci
100/12=0,8)
Determinați corespondentele?
STUDIU DE CAZ 4
Preţul produselor
agroalimentare
ANALIZA CANONICA
Curs 10, Decembrie 2021

FUNDAMENTE TEORETICE
 Analiza canonica este o metodă de descompunere a asocierilor între două
mulțimi de variabile, un "predictor" (variabile independente), cunoscut, şi un
"dependent“ (variabile dependente)
Observatia Variabila Variabila Variabila Variabila

independenta independenta dependenta dependenta
1 2 1 2
1 X11 X21 Y11 Y21

2 X12 X22 Y12 Y22
N X1n X2n Y1n Y2n
EXEMPLU
 Un cercetător a colectat date referitoare la 600 de tineri studenți privind:
 trei variabile psihologice: autocontrolul, auto-cunoașterea şi motivația
 patru variabile academice: teste standardizate despre nivelul în citire, scriere,
matematică și știință obţinându-se scoruri standardizate de testare
 sexul este o variabilă binară: 1 – sex feminin; 0 – sex masculin
 El este interesat de modul în care mulțimea variabilelor psihologice este

corelată cu variabilele academice şi de gen.
Analiza canonică versus regresia
multiplă
 În cazul regresiei multiple ◼ În analiza canonică, interesul
ne interesează să estimăm este de a determina numărul şi
efectul uneia sau mai natura relaţiilor independente
multor variabile dintre două mulțimi de variabile,
independente asupra unei una de variabile dependente și una
variabile dependentă de variabile independente
◼ Acest lucru este realizat, prin
utilizarea de perechi de combinaţii
liniare de variabile care sunt
necorelate (factori canonici)
Ce sunt factorii canonici?
1(U ) = U1
 Factorii canonici sunt X1
vectorii proprii ai matricei de
corelaţie corespunzătoare, şi
reprezintă segmente de linie
ortogonale ce explică
variabilitatea din interiorul fie X Y 
X 2 = U2
(U )
al lui X fie al lui Y 2

X A C
T
X2
Y C B
 2(V ) = V2
Y1
1(V ) = V1
Y2
Estimarea factorilor canonici
 Primul factor canonic este
obținut prin estimarea ce maximizează corelația
coeficienților combinațiilor dintre U1 și V1
liniare:
r (U1 ,V1 ) = max{r (U1 , V1 )}

p
U1 =  a1 j X j ,
j =1
q
V1 =  b1 jY j
j =1
Estimarea factorilor canonici
◼ Al doilea factor canonic este ce maximizează corelația dintre

obținut prin estimarea U2 și V2:
coeficienților combinațiilor
liniare:
r (U 2 ,V2 ) = max{r (U 2 ,V2 )}
p
U 2 =  a2 j X j ,
j =1
q astfel încât:
V2 =  b2 jY j
j =1 r (U1 ,U 2 ) = r (V1 ,V2 ) = 0
r (U1 ,V2 ) = r (U 2 ,V1 ) = 0
Calculul factorilor și al corelațiilor
canonice
◼ Pornind de la matricile de ◼ Valorile proprii lj sunt

corelație din interior și dintre pătratele corelațiilor între
mulțimile de variabile vom factorii canonici, adică,
determina valorile proprii din corelațiile canonice:
ecuația:
(B −1CT A −1C − l I )b = 0 li = r 2 (Ui , Vi ) = r 2 (i(U ) , i(V ) )

 Ci2
care are r soluții:
l1  l2   lr
canonice
◼ Coeficienții factorilor canonici ◼ Coeficienții factorului canonic i

ai lui Y: V1, V2 etc., sunt pentru variabilele X sunt date
intrările corespunzătoare în de elementele:
matricea corelațiilor din
interiorul mulțimii Y, B: aTi = A −1Cbi = (ai1 , , aip )
X Y
X A C q
Y CT B V1 =  b1 jY j
j =1
canonice
◼ Perechea i de factori canonici este ◼ Unde X și Y sunt vectori
dată de: standardizați (0,1). În acest fel,
putem genera scorurile factorilor
p canonici pentru fiecare observație
U1 =  a1 j X j = aTi X din multimea de date
j =1
q
V1 =  b1 jY j = bTi Y
j =1
Factori canonici standardizați
◼ Varianța lui U și V va fi influențată ◼ Pentru a genera factorii canonici

de scala adoptată pentru vectorii standardizați, se calculează
proprii a și b, dar corelațiile abaterea medie pătratică a lui Ui
canonice r(U,V) nu vor fi afectate; (Vi ) și se împart valorile aij (bij) la
abaterea medie pătratică
corespunzătoare
Rezultatul final
U1
 O mulțime de r = min(p,q) factori Cele mai mari

canonici, unul pentru mulțimea de prime corelații
variabile dependente {V}, și altul canonice
pentru mulțimea variabilelor X2
independente {U}
V1
 O mulțime de r corelații canonice C =
r(U,V) fiecare reprezentând corelația
dintre perechi de factori canonici. Corelațiile
canonice de
ordin 2
U2
V2
Teste de semnificație
◼ Întrebare: care din corelațiile

canonice sunt semnificative
statistic?  1 
V = −  N − 1.5 − ( p + q ) 
◼ Pentru testarea semnificației  2 
tuturor celor r = min(p, q)
corelații canonice bazate pe p + m
q variabile, se calculează statistica
Bartlett (V ) și se compară cu
 ln(1 + li )
valoarea tabelată a distribuției c2 i =1
cu pq grade de libertate (trebuie
sa fie mai mica decat aceasta)
li Valoarea proprie asociată
factorului canonic i
Teste de semnificație
 Testele de semnificaţie presupun că observaţiile au o distribuţie normală
multivariată
 Testele de semnificație pot fi foarte înşelătoare, pentru că corelația canonică

j în populaţie poate să nu apară ca și corelația canonică j în eşantion din
cauza erorilor de eşantionare ...
 Deci, atenție la eșantioanele de volum redus!

Interpretarea factorilor canonici
◼ Procedură: Se analizează
coeficienții standardizați ai
factorilor canonici
U1 = −.09 X 1 − 0.29 X 2 + 0.48 X 3 + 0.29 X 4
◼ Inferență: variabilele cu
coeficienți (în valoarea U1 este o variabilă a contrastelor dintre X3
absolută) mari sunt cei and X4 pe de o parte, și X2 pe de altă parte
mai importanți
Interpretarea factorilor canonici
◼ Procedură: Se analizează Factor canonic

corelațiile variabilelor originale Variablă U1 U2
cu factorii canonici (canonical
factor loadings) X1 -0.92 0.33
X2 -0.77 -0.52
◼ Inferență: variabilele cu X3 0.90 -0.20
corelații mari (în valoare
absolută) sunt cele mai X4 0.92 -0.05
importante pentru formarea
factorului canonic X4 nu este asociat cu U2
corespunzător
Modele de regresie
pentru date de tip panel
Decembrie 2021

Sumar
• Date de tip panel
• Regresia prin metoda celor mai mici pătrate grupată (POLS –
Pooled ordinary least squares)
• Modelul de regresie cu efecte fixe
• Modelul de regresie cu efecte aleatoare
• Testul Hausman
2
Structura datelor de tip panel

• Unităţi transversale aranjate într-o perioadă de timp (date longitudinale)
• Numărul de observaţii este N x T
• dimensiunea transversală (N) ar trebui să fie mai mare decât dimensiunea timpului (T)
Exemplu: 11 ţări pe 10 ani fiecare
50 de firme pe câte 4 perioade de timp
tara cod an PIB economii populatia

Albania ALB 1994 6,75179343 20,9783993 1,6
Albania ALB 1995 -11,4142038 -13,0284996 -0,2
Albania ALB 1996 -27,5896031 -75,4131012 -1,6
Albania ALB 1997 -5,69153612 -33,6716003 -1,4
Albania ALB 1998 11,1974627 -9,88263035 0,2
Algeria DZA 1994 2,29575915 27,4666996 2,5
Algeria DZA 1995 -3,72084675 36,6562004 2,4
Algeria DZA 1996 -3,55414336 32,3755989 2,4
Algeria DZA 1997 -0,79384221 27,8384991 2,3
3
Reprezentarea grafică
24 2014
2013
2012
22 2009 2011
2010
2009 2008
20 2008 2012
2010 2013 2014
2011
18
PIB
2007
16 2007
2014
2009 2012 2013
14 2010 2011
2008
12
2007
10
4 6 8 10 12 14 16 18 20
Rata somajului
Bulgaria Croatia Latvia

Notaţie generală
Numărul Timp Variabila 1 Variabila 2
unităţii Xit Yit
1 1 X11 Y11
1 … X1t Y1t
1 T X1T Y1T
… 1 Xi1 Yi1
… … Xi2 Yi2
… T Xi3 Yi3
N 1 XN1 Y31
N … XNt YNt
N T XN3 YNT
5
Avantajele structurii de tip panel

• Datele de tip panel fac posibilă estimarea relaţiilor în dinamică chiar dacă datele sunt
disponibile pentru o perioadă scurtă de timp: prin creşterea numărului observaţiilor (N x T)
• Încorporează dimensiunea timp pentru datele în secţiune transversală şi dimensiunea
spaţiu pentru serii temporale
• Eficienţă sporită a estimărilor modelelor de regresie prin mărimea eşantionului, creşterea
heterogenităţii, reducerea colinearităţii
• Capacitatea de a controla efectele individuale fixe – ceea ce este comun unui individ de-a
lungul timpului, dar care poate varia între indivizi
• Abilitatea de a modela efectele temporale fără deplasarea datorată agregării
6
Probleme privind datele de tip panel

• Termenul eroare include întotdeauna toţi factorii neobservabili care determină variabila rezultativă Y
• Termenul eroare într-un model de regresie pe date de tip panel are 3 componente:
PIBit =  0 + 1savit +  2 popit + uit

PIBit =  0 + 1savit +  2 popit +  i + t +  it
Efect neobservat specific Efect neobservat Efect neobservat specific

individului specific timpului individului şi timpului
• αi capturează impactul variabilelor neobservate constante în timp pentru un anumit individ, dar care variază
între indivizi: calitatea managementului (firma), sexul (individ), calitatea instituţiilor (ţări)
• μt capturează impactul variabilelor neobservate care afectează în acelaşi fel toţi indivizii într-o anumită perioadă
de timp, însă variază în timp: modificări de politică, rata de schimb, schimbarea valorilor în societate
• εit capturează impactul variabilelor neobservate care variază atât între indivizi cât şi în timp: norocul, starea de
bine, etc
7
Termenul eroare
uit =  i + t +  it
◼ Dacă de face o secţiune transversală (se observă N indivizi la un

moment de timp t, de exemplu t = 1995)
PIB11995 =  0 + 1sav1 1995 +  2 pop11995 + 1 + 1995 +  11995
PIBi 1995 =  0 + 1savi 1995 +  2 popi 1995 +  i + 1995 +  i 1995
PIBN 1995 =  0 + 1sav N 1995 +  2 popN 1995 +  N + 1995 +  N 1995
8
Secţiune transversală
• Există o singură observaţie pentru fiecare individ => variaţia
dintre rezultate provine de la variaţia dintre indivizi
• În acest caz nu există deosebire între efectele neobservate
specifice individului şi efectele neobservate specifice individului
şi timpului
9
Date de tip panel

• Observaţii repetate în diverse momente de timp pentru acelaşi
individ
PIB11994 =  0 + 1sav1 1994 +  2 pop11994 + 1 + 1994 +  11994
PIB11995 =  0 + 1sav1 1995 +  2 pop11995 + 1 + 1995 +  11995
PIB11996 =  0 + 1sav1 1996 +  2 pop11996 + 1 + 1996 +  11996
PIB2 1994 =  0 + 1sav2 1994 +  2 pop2 1994 +  2 + 1994 +  2 1994

PIB2 1995 =  0 + 1sav2 1995 +  2 pop2 1995 +  2 + 1995 +  2 1995
PIB2 1996 =  0 + 1sav2 1996 +  2 pop2 1996 +  2 + 1996 +  2 1996
10
Metoda celor mai mici pătrate

• Una din ipotezele metodei celor mai mici pătrate este: Cov(Xi, Ui)=0
• Se presupune că toate cele trei componente sunt independente între ele şi cu variabila X
uit =  i + t +  it
• Descompunerea termenului eroare indică faptul că una dintre presupunerile metodei celor
mai mici pătrate nu va fi respectată: "Două observaţii ale aceluiaşi individ vor fi mai
asemănătoare comparativ cu două observaţii provenind de la doi indivizi diferiţi"
Cov ( X i i )  0
11
Metoda celor mai mici pătrate grupată
(Pooled ordinary least squares)
• Este cea mai simplă abordare

• Combină într-o singură mulţime ambele dimensiuni
• Renunţă la structura temporală şi transversală
• Exemplu: Se estimează parametrii ecuaţiei de regresie liniară
gdpit =  0 + 1savit + 2 popit + it
• unde i este individul iar t este timpul
12
Metoda celor mai mici pătrate grupată
(Pooled ordinary least squares)
• Metoda celor mai mici pătrate grupată va furniza estimatori ai parametrilor constanţi fără
diferenţiere între indivizi şi timp
Cov ( X i i )  0
• Din cauza componentei efectului neobservat specific indivizilor una din ipotezele pe care
se bazează metoda celor mai mici pătrate poate fi nerespectată: .
Presupunerea că fiecare eroare în fiecare perioadă de timp, pentru fiecare persoană este
necorelată cu variabilele şi efectele pentru fiecare persoană şi de-a lungul timpului, poate
să nu fie respectată
• Structura de tip panel are dimensiunea timp, deci corelaţia dintre erori succesive poate să
conducă la violarea ipotezei privind non autocorelarea erorilor
• Estimatorii obţinuţi nu vor fi deplasaţi însă vor fi neeficienţi (informaţia cu privire la
autocorelarea erorilor poate fi folosită pentru obţinerea de estimatori mai buni)
13
Metode specifice datelor de tip panel
• permit diferenţierea comportamentului între indivizi şi în
perioade diferite de timp sub forma:
• Efectelor fixe: atunci când există corelaţie între X şi i
• Efectelor aleatoare: atunci când corelaţia între X şi i este zero
14
Model cu efecte fixe
y it = x it  + u it şi u it =  i +  it pentru i = 1,..., N ; t = 1,..., T
Ipotezele privind termenul eroare : zgomot alb (ca în regresia liniară):

- media zero a erorilor
- dispersia erorilor constantă
- non-autocorelarea erorilor
Efectul individual este un parametru fix => model cu termeni liberi individuali:
Ipotezele privind efectele individuale:  i
Ipoteză: Nu există corelaţie între efectul individual şi termenul eroare :
( )
E  i  it = 0
Dar poate exista corelaţie între efectul individual şi variabilele explicative:
( )
E xit i  0  fixed effects model
Modelul pentru o singură observaţie:
y it =  i + x it  +  it i = 1,..., N ; t = 1,..., T
Modelul pentru individul i:
 y i1   1   x i11 x iK1    1    i1 
   
    =  i +




   
  +   resp. y i = T  i + X i  +  i
 y iT  1  1 K     
     x iT x iT    K    iT 
Modelul pentru toate observaţiile:

 y1   T 0 0  1   X 1   1 
  0       
0  2  +  X2   + 2  y = DN  + X  + 
 y2  =  T
         
          ( NT 1) ( NT  N ) ( N 1) ( NT  K ) ( K 1) ( NT 1)
 yN   0 0  T  
   
N  X N   N 
Variabilă dummy pentru individul i

➔ Cum poate fi estimat acest model? 16
Estimarea folosind metoda celor mai mici pătrate cu variabile dummy:
Estimatorul lui ß este BLUE (atâta timp cât  este zgomot alb)
DAR:
➔ calcule complexe dacă N este mare
➔ dimensiunea mare a vectorului coeficienţilor poate conduce la estimări
imprecise
➔ pierdere mare a gradelor de libertate
➔ de multe ori nu suntem interesaţiˆde
LSDV toţi parametrii i dacă N este mare!
Scop: Eliminarea efectului individual, adică

➔ Transformarea prin diferenţe de ordinul I
➔ Transformarea în interiorul perioadelor de timp (toate
observaţiile se măsoară în deviaţie faţă de media în timp a fiecărui individ)
17
Transformarea în interiorul perioadelor de timp:
y it − y i. = ( x it − x i. )  + ( it −  i. ) i = 1,..., N ; t = 1,..., T

T
unde y i. = t =1
y it / T etc.
Modelul transformat: y it = x it  +  it , where

unde y it = y it − y i . etc.
Observăm că parametrii α nu mai apar în ecuaţie → aceştia sunt

consideraţi neimportanţi şi nu vor mai fi estimaţi
Prin aplicarea metodei celor mai mici pătrate clasică ecuaţiei

transformate va rezulta estimatorul obţinut prin metoda celor mai mici
pătrate cu variabile dummy (Cameron / Trivedi p. 733) numit Within
Estimator:
( )
−1
ˆW = X X X y = ˆLSDV
Estimatorul modelului cu efecte fixe pentru :

• nedeplasat
• consistent în toate cele trei cazuri (N mare & T fix, T mare & N
fix, N & T mari
• efficient
• asimptotic normal distribuit
19
Estimarea termenilor liberi individuali:
ˆ i ,W = y i − x i ˆW
Dacă modelul iniţial include o constantă , atunci este estimat efectul
compus i+  (interpretare diferită a lui i ).
Nu este posibilă identificarea efectelor individuale decât în cazul în
care se face o presupunere suplimentară, adică:
 i = 0
N
i =1
Estimatorii pentru i :
• nu sunt consistenţi pentru N mare:
➔ numărul parametrilor creşte odată cu creşterea lui N
Modele de regresie
pentru date de tip panel
Decembrie 2021

Metode specifice datelor de tip panel
• permit diferenţierea comportamentului între indivizi şi în
perioade diferite de timp sub forma:
• Efectelor fixe: atunci când există corelaţie între X şi i
• Efectelor aleatoare: atunci când corelaţia între X şi i este zero
2
y it = x it  + u it şi u it =  i +  it pentru i = 1,..., N ; t = 1,..., T

Efectul individual este un parametru fix => model cu termeni liberi individuali:
Ipotezele privind efectele individuale:  i
( )
E  i  it = 0
Dar poate exista corelaţie între efectul individual şi variabilele explicative:
( )
E xit i  0  fixed effects model
Modelul pentru o singură observaţie:
y it =  i + x it  +  it i = 1,..., N ; t = 1,..., T
Modelul pentru individul i:
 y i1   1   x i11 x iK1    1    i1 
   
    =  i +




   
  +   resp. y i = T  i + X i  +  i
 y iT  1  1 K     
     x iT x iT    K    iT 
Modelul pentru toate observaţiile:

 y1   T 0 0  1   X 1   1 
  0       
0  2  +  X2   + 2  y = DN  + X  + 
 y2  =  T
         
          ( NT 1) ( NT  N ) ( N 1) ( NT  K ) ( K 1) ( NT 1)
 yN   0 0  T  
   
N  X N   N 
Variabilă dummy pentru individul i

➔ Cum poate fi estimat acest model? 4
Estimarea folosind metoda celor mai mici pătrate cu variabile dummy:
Estimatorul lui ß este BLUE (atâta timp cât  este zgomot alb)
DAR:
➔ calcule complexe dacă N este mare
➔ dimensiunea mare a vectorului coeficienţilor poate conduce la estimări
imprecise
➔ pierdere mare a gradelor de libertate
➔ de multe ori nu suntem interesaţiˆde
LSDV toţi parametrii i dacă N este mare!
Scop: Eliminarea efectului individual, adică

➔ Transformarea prin diferenţe de ordinul I
➔ Transformarea în interiorul perioadelor de timp (toate
observaţiile se măsoară în deviaţie faţă de media în timp a fiecărui individ)
5
Transformarea în interiorul perioadelor de timp:
y it − y i. = ( x it − x i. )  + ( it −  i. ) i = 1,..., N ; t = 1,..., T

T
unde y i. = t =1
y it / T etc.
Modelul transformat: y it = x it  +  it , where

unde y it = y it − y i . etc.
Observăm că parametrii α nu mai apar în ecuaţie → aceştia sunt

consideraţi neimportanţi şi nu vor mai fi estimaţi
Prin aplicarea metodei celor mai mici pătrate clasică ecuaţiei

transformate va rezulta estimatorul obţinut prin metoda celor mai mici
pătrate cu variabile dummy (Cameron / Trivedi p. 733) numit Within
Estimator:
( )
−1
ˆW = X X X y = ˆLSDV
Estimatorul modelului cu efecte fixe pentru :

• nedeplasat
• consistent în toate cele trei cazuri (N mare & T fix, T mare & N
fix, N & T mari
• efficient
• asimptotic normal distribuit
7
Estimarea termenilor liberi individuali:
ˆ i ,W = y i − x i ˆW
Dacă modelul iniţial include o constantă , atunci este estimat efectul
compus i+  (interpretare diferită a lui i ).
Nu este posibilă identificarea efectelor individuale decât în cazul în
care se face o presupunere suplimentară, adică:
 i = 0
N
i =1
Estimatorii pentru i :
• nu sunt consistenţi pentru N mare:
➔ numărul parametrilor creşte odată cu creşterea lui N
Model cu efecte aleatoare
(*) y it =  + x it  + u it , i = 1,..., N ; t = 1,..., T şi u it =  i +  it
Ipotezele privind efectele individuale  i : distribuţia constantă de-a lungul lui i

( )
E  i  it = 0
Ipoteză: Nu există corelaţie între efectul individual şi variabilele explicative:
( )
E xit i = 0  Model
randomcu efecte
effects aleatoare
model
Cum poate fi implementat estimatorul modelului cu efecte aleatoare?
Estimator RE
Se face următoarea transformare pentru fiecare observaţie:
y it −  y i = (1 −  )  + ( x it −  x i )  + (u it −  ui ),
i = 1,..., N ; t = 1,..., T
unde 
 = 1−
 2 + T 2
(σε2 este dispersia lui ε şi σα2 este dispersia lui α)

10
• Estimarea ecuaţiei transformate se va face cu metoda celor mai mici pătrate. Acesta
este estimatorul obţinut prin metoda celor mai mici pătrate generalizată şi se numeşte
estimator RE (Random Effects).
Estimatorul BE:
➔este consistent
➔este eficient dacă modelul pentru componentele erorilor este adevărat
Estimator BE :
y it =  + x it  +  i +  it i = 1,..., N ; t = 1,..., T
Putem scrie:
y i =  + x i.  +  i +  i. i = 1,..., N (Transformarea dintre perioadele
de timp)
Se calculează estimatorul prin metoda celor mai mici pătrate pentru acest
model transformat, numit Estimator BE (Between Estimator)
Estimatorul BE:
• Este consistent, dacă efectele individuale şi X sunt necorelate
• Nu este eficient (ţine cont doar de variaţia dintre indivizi)
Estimatorul RE este o sumă ponderată a estimatorilor Within şi Between:
ˆRE = ( X M D X + X PD X ) X M D X ˆFE + ( X M D X + X PD X ) X PD X ˆBE

−1 −1
Cazuri speciale:  2
 = (1 −  )
2
 2 = 0   = 1  OLS =
T   2 +  2
T →    → 0  Within estimator
 2 = 0   = 0  Within estimator
 →  Between estimator
13
Aplicarea modelului RE
• Modelul clasic de regresie liniară:
Var ( yˆ ) Var ( y ) − Var (uˆ ) yˆ yˆ uˆuˆ
y = X  + u = X ˆ + uˆ = yˆ + uˆ R 2 = corr ( yˆ , y )2 = = = = 1−
Var ( y ) Var ( y ) yy yy
• Alte modele:
1) Modelul initial general: y it =  + x it  +  i +  it yˆ it = ˆ + x it ˆ
2) Modelul transformat Between: y i =  + x i.  +  i +  i. yˆ i = ˆ + x i. ˆ
3) Modelul transformat Within: y it − y i. = ( x it − x i. )  + ( it −  i. ) yˆ = yˆ it − yˆ i. = ( x it − x i. ) ˆ
4) Modelul transformat RE: y it −  y i. = ( x it −  x i. )  + (u it −  ui. )

Aplicarea modelului RE
Calitatea modelului

FE: R = corr ( xit − xi ) ˆW , ( yit − yi ) 
2
2
W R2 din modelul Within
R = corr  x ˆ , y 
2
2
BE i W i Potrivirea modelului Between cu estimatori FE
R = corr  x ˆ , y 
2
2
O it W it Potrivirea generală a modelului cu estimatori FE
BE: R = corr ( x − x ) ˆ BE , ( yit − yi )

2
2
W it i Potrivirea modelului Within cu estimatori BE
R = corr  x ˆ , y 
2
2
BE i BE i R2 din modelul Between
R = corr  x ˆ , y 
2
2
O it BE it Potrivirea generală a modelului cu estimatori BE
RE: R = corr ( x − x ) ˆ 
, ( yit − yi )
2
2
W it i BE Potrivirea modelului Within cu estimatori RE
R = corr  x ˆ , y 
2
2
BE i BE i Potrivirea modelului Between cu estimatori RE
R = corr  x ˆ , y 
2
2
O it BE it Potrivirea generală a modelului cu estimatori RE
Testarea pentru efecte fixe individuale
Există efecte fixe individuale?
➔ Testul F
• H0: nu există efecte fixe individuale (= modelul grupat)

1 =  2 = =N =
• H1: există efecte fixe individuale

• Testul statistic:
FT =
( RSS0 − RSS1 ) / ( N − 1)
RSS1 / ( NT − N − K )
• Regula de decizie:
Se respinge ipoteza nulă (şi deci modelul grupat) dacă FT este mai mare
decât valoarea critică (adică dacă p-value < un nivel de semnificaţie dat , în
general 0.05). 16
Testarea pentru efecte aleatoare
Există efecte aleatoare?
➔ Testul Multiplicatorului Lagrange Breusch-Pagan
• H0: nu există efecte aleatoare:  2 = 0 Modelul grupat
• H1: există efecte aleatoare  2  0

• Testul statistic:
NT  uˆ ( I N  JT ) uˆ 
 2 (1)
a
LM = 1 −  subunder
ipotezaH
H00 este U sunt rezidual-urile
2*(T − 1)  uˆuˆ  din modelul grupat
Se respinge ipoteza nulă (adică a efectelor aleatoare), dacă LM este mai mare
decât valoarea critică (sau dacă p-value < o valoare dată a nivelului de
semnificaţie , în general 0.05).
Testarea pentru efecte aleatoare versus efecte fixe
Dacă se respinge modelul grupat: Se foloseşte modelul cu efecte fixe sau aleatoare?
➔ Testul Hausman-Wu
➔ Se testează dacă efectele individuale aleatoare sunt corelate cu variabilele
explicative (FE) sau nu (RE)
Ideea generală a testului Hausman-Wu

Compară un estimator care este consistent şi eficient sub ipoteza nulă şi
inconsistent în ipoteza alternativă cu un estimator care este consistent în ambele
alternative
( )
• H0: E xit i = 0 no există corelaţie: FE consistent Estimatorii FE şi RE
RE consistent şi eficient sunt similari
( )
• H1: E xit i  0 corelatie: FE consistent Estimatorii FE şi RE
sunt diferiţi
RE inconsistent
Testarea pentru efecte aleatoare versus efecte fixe
Testul statistic:
( ) ( )
 sub
a ipoteza H0 este χ2k unde k este
HW = ˆRE − ˆFE (  RE −  FE ) ˆRE − ˆFE  ( Kde=coloane of Xcolumns in X )
−1 2
numărul number în
Se respinge ipoteza nulă dacă HW este mai mare decât valoarea critică (sau
dacă p-value < o valoare dată a nivelului de semnificaţie , în general 0.05).
EXEMPLU Model cu efecte fixe

între rata de absorbție
Ipotezele testate:
H0: nu există ef. aleatoare
Abateri mici ale valorilor
previzionate de la cele observate
SAS –
H1:există ef. aleatoare
și șomaj și PIB pe locuitor, Sign˂0,05 →
observații pentru 11 țări se respinge H0 deci există ef. aleatoare.
Fixed și 8 ani
Calitatea modelului
cu un niv.de semnif. de 0,05 dar nu și de 0.01
effects este bună

Test F pentru efecte fixe
Ipotezele testate:
H0: nu există ef. fixe indiv.
H1:există ef. fixe indiv.
Sign˂0,05 →
se respinge H0 deci există
ef. fixe indiv. semnificative
cu un niv. de semnif. de 0,01
Parametrii sunt
semnificativi cu un niv de
semnif. de cel putin 0,01
Dispersia rezidualurilor este aproximativ Repartiția rezidualurilor

constantă, deci ipoteza de aproximativ normală
homoscedasticitate este verificată
EXEMPLU
SAS – No Model cu efecte aleatoare
Ipotezele testate:
Abateri mici ale valorilor
previzionate de la cele observate
H0: nu există ef.
random între rata de absorbție
și șomaj și PIB pe locuitor,
aleatoare
effects observații pentru 11 țări

și 8 ani
H1:există ef. aleatoare
Sign˂0,05 →
se respinge H0 deci există
ef. aleatoare.
cu un niv.de semnif. de
0,05 dar nu și de 0.01
Calitatea modelului
este bună însă mai slabă decât
cea pentru modelul cu efecte fixe
Test Hausmann
Ipotezele testate:
H0: FE consistent; RE consistent şi eficient
H1: FE consistent; RE inconsistent
Sign˂0,05 →
se respinge H0 deci este
recomandat a se utiliza modelul cu efecte fixe
Parametrii sunt
semnificativi cu un niv de
semnif. de cel putin 0,01
Dispersia rezidualurilor nu este constanta Repartiția rezidualurilor

deoarece in partea centrala acesta pare nu este normală
mai mica
Abateri mari ale valorilor
Model cu efecte aleatoare previzionate de la cele observate
EXEMPLU între rata riscului de saracie
și venituri totale medii și numarul
SAS – PC-urilor. Numarul de observații

pentru 8 țări și 4 ani
Random Calitatea modelului

este slaba
effects
Ipotezele testate:
H0: FE consistent; RE consistent şi eficient
H1: FE consistent; RE inconsistent
Sign>0,05 →
se accepta H0 deci ambele
modele cu efecte fixe sau aleatoare pot fi utilizate
Parametrii nu sunt
semnificativi
Repartiția rezidualurilor
nu este normală

Cursuri Analiza

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cursuri Analiza

Încărcat de

Drepturi de autor:

Formate disponibile

Analiza statistică multidimensională

Titular de curs: Prof.univ.dr.Cristina BOBOC

• în anul 1933 a fost integrată statisticii matematice de către Harold Hotelling

1. Datele și caracteristicile lor:

vizualizarea punctelor regruparea punctelor

1. Datele și caracteristicile lor:

fiind coeficientul de corelație liniară

• Două tipuri de metode de clusterizare:

Etapele analizei cluster

• alegerea tipului de măsură pentru evaluarea proximității dintre obiecte;

• stabilirea regulilor de formare a claselor sau clusterelor;

• construirea claselor, adică încadrarea obiectelor în clase;

• verificarea consistenței și semnificației clasificării;

• alegerea unui număr optimal de clustere, în funcție de natura problemei de clasificare și de

• interpretarea semnificației clusterelor

• În Rp poate fi definită funcţia d, distanţă pe X cu proprietăţile:

Este sensibilă la scala de măsurare

• pătratul distanţei euclidiene: d ( x, y ) =  (x

• distanţa city-block (Manhattan): d ( x, y ) = x i − yi

• distanţa Cebîşev: d ( x, y ) = max xi − y i

• Indicele de disimilaritate pe X este o funcţie d : X  X → R+ cu proprietăţile:

• O ierarhie se numeşte indexată dacă există o funcţie i:H→R+ astfel

• Observaţie: Cu cât nivelul de agregare este mai mare cu atât

Preluat de pe: www.statapp.co.uk

Cel mai apropiat vecin=Single Linkage

Cel mai departat vecin=Complete Linkage

Media gupului=average distance between all pairs

Metoda Ward – Minimizează variabilitatea din interiorul clusterului

Preluat de pe: www.statapp.co.uk

Titular de curs: Prof.univ.dr.Cristina BOBOC

• 1. Metoda agregării simple (distanţa saltului minimal sau Single Linkage)

• III. Metoda agregării medii (distanța medie sau Mean Linkage)

PROC TREE DATA=cluster NCLUSTERS=4

PROC SORT DATA=hierclus;

Cum se formează clusterii?

Preluat de pe: www.statapp.co.uk

• inerţia intraclasă este: I i =  p j d 2 ( j , g i ) i = 1, k

unde i este ponderea clasei i

• inerţia totală a norului de puncte: I = IW + IB

se calculează I W( j +1) inerţia intraclase a partiţiei

• 4. dacă  j  N atunci STOP

DELETE=50 previne formarea clusterilor cum

MAXCLUSTER= număr maxim de clustere

Exemple Analiza Cluster

Titular de curs: Prof.univ.dr.Cristina BOBOC

Exemplul 2 Prin aplicarea metodei centrelor mobile pe date nestandardizate

Titular de curs: Prof.univ.dr.Cristina BOBOC

• Produsul scalar a două variabile xj și xk este:

• EXEMPLU: Sistemul de axe se rotește cu 45 de grade.

(x1)'=cos(45) x1+ sin(45) x2

(x2)'= - sin(45) x1+ cos(45) x2

4. Vectori și valori proprii

Vectorul x0 se numește vector propriu al matricei A asociat valorii proprii  .

 Valorile proprii ale matricei A sunt zerourile polinomului caracteristic:

P( )=det( In-A)

4. Vectori și valori proprii

P( )=det( In-A)=0 

• II. În practică, se lucrează cu datele centrate şi reduse.

• Tabelul de date se transformă în Z = (zij) x ij − x j

II. Principiul metodei

ACP înlocuieşte variabilele iniţiale x1, x2, ..., xp,

Titular de curs: Prof.univ.dr.Cristina BOBOC

• II. În practică, se lucrează cu datele centrate şi reduse.