Sunteți pe pagina 1din 319

Analiza statistică multidimensională

Modele de regresie
pentru date de tip panel
Decembrie 2021

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională
Metode specifice datelor de tip panel
• permit diferenţierea comportamentului între indivizi şi în
perioade diferite de timp sub forma:
• Efectelor fixe: atunci când există corelaţie între X şi i
• Efectelor aleatoare: atunci când corelaţia între X şi i este zero

2
Analiza statistică multidimensională
Model cu efecte fixe
y it = x it  + u it şi u it =  i +  it pentru i = 1,..., N ; t = 1,..., T

Ipotezele privind termenul eroare : zgomot alb (ca în regresia liniară):


- media zero a erorilor
- dispersia erorilor constantă
- non-autocorelarea erorilor
Efectul individual este un parametru fix => model cu termeni liberi individuali:
Ipotezele privind efectele individuale:  i
- media zero a erorilor
- dispersia erorilor constantă
- non-autocorelarea erorilor
Ipoteză: Nu există corelaţie între efectul individual şi termenul eroare :
( )
E  i  it = 0
Dar poate exista corelaţie între efectul individual şi variabilele explicative:
( )
E xit i  0  fixed effects model
Analiza statistică multidimensională
Model cu efecte fixe
Modelul pentru o singură observaţie:
y it =  i + x it  +  it i = 1,..., N ; t = 1,..., T
Modelul pentru individul i:
 y i1   1   x i11 x iK1    1    i1 
   
    =  i +




   
  +   resp. y i = T  i + X i  +  i
 y iT  1  1 K     
     x iT x iT    K    iT 

Modelul pentru toate observaţiile:


 y1   T 0 0  1   X 1   1 
  0       
0  2  +  X2   + 2  y = DN  + X  + 
 y2  =  T

         
          ( NT 1) ( NT  N ) ( N 1) ( NT  K ) ( K 1) ( NT 1)
 yN   0 0  T  
   
N  X N   N 

Variabilă dummy pentru individul i


➔ Cum poate fi estimat acest model? 4
Analiza statistică multidimensională
Model cu efecte fixe
Estimarea folosind metoda celor mai mici pătrate cu variabile dummy:
Estimatorul lui ß este BLUE (atâta timp cât  este zgomot alb)

DAR:
➔ calcule complexe dacă N este mare
➔ dimensiunea mare a vectorului coeficienţilor poate conduce la estimări
imprecise
➔ pierdere mare a gradelor de libertate
➔ de multe ori nu suntem interesaţiˆde
LSDV toţi parametrii i dacă N este mare!

Scop: Eliminarea efectului individual, adică


➔ Transformarea prin diferenţe de ordinul I
➔ Transformarea în interiorul perioadelor de timp (toate
observaţiile se măsoară în deviaţie faţă de media în timp a fiecărui individ)
5
Analiza statistică multidimensională
Model cu efecte fixe
Transformarea în interiorul perioadelor de timp:
y it − y i. = ( x it − x i. )  + ( it −  i. ) i = 1,..., N ; t = 1,..., T


T
unde y i. = t =1
y it / T etc.

Modelul transformat: y it = x it  +  it , where


unde y it = y it − y i . etc.

Observăm că parametrii α nu mai apar în ecuaţie → aceştia sunt


consideraţi neimportanţi şi nu vor mai fi estimaţi

Prin aplicarea metodei celor mai mici pătrate clasică ecuaţiei


transformate va rezulta estimatorul obţinut prin metoda celor mai mici
pătrate cu variabile dummy (Cameron / Trivedi p. 733) numit Within
Estimator:

( )
−1
ˆW = X X X y = ˆLSDV
Analiza statistică multidimensională
Model cu efecte fixe

Estimatorul modelului cu efecte fixe pentru :


• nedeplasat
• consistent în toate cele trei cazuri (N mare & T fix, T mare & N
fix, N & T mari
• efficient
• asimptotic normal distribuit

7
Analiza statistică multidimensională
Model cu efecte fixe
Estimarea termenilor liberi individuali:

ˆ i ,W = y i − x i ˆW
Dacă modelul iniţial include o constantă , atunci este estimat efectul
compus i+  (interpretare diferită a lui i ).
Nu este posibilă identificarea efectelor individuale decât în cazul în
care se face o presupunere suplimentară, adică:

 i = 0
N
i =1

Estimatorii pentru i :
• nu sunt consistenţi pentru N mare:
➔ numărul parametrilor creşte odată cu creşterea lui N
Analiza statistică multidimensională
Model cu efecte aleatoare
(*) y it =  + x it  + u it , i = 1,..., N ; t = 1,..., T şi u it =  i +  it
Ipotezele privind termenul eroare : zgomot alb (ca în regresia liniară):
- media zero a erorilor
- dispersia erorilor constantă
- non-autocorelarea erorilor

Ipotezele privind efectele individuale  i : distribuţia constantă de-a lungul lui i


- media zero a erorilor
- dispersia erorilor constantă
- non-autocorelarea erorilor
Ipoteză: Nu există corelaţie între efectul individual şi termenul eroare :
( )
E  i  it = 0

Ipoteză: Nu există corelaţie între efectul individual şi variabilele explicative:

( )
E xit i = 0  Model
randomcu efecte
effects aleatoare
model
Analiza statistică multidimensională
Model cu efecte aleatoare
Cum poate fi implementat estimatorul modelului cu efecte aleatoare?

Estimator RE

Se face următoarea transformare pentru fiecare observaţie:

y it −  y i = (1 −  )  + ( x it −  x i )  + (u it −  ui ),
i = 1,..., N ; t = 1,..., T

unde 
 = 1−
 2 + T 2

(σε2 este dispersia lui ε şi σα2 este dispersia lui α)


10
Analiza statistică multidimensională
Model cu efecte aleatoare
• Estimarea ecuaţiei transformate se va face cu metoda celor mai mici pătrate. Acesta
este estimatorul obţinut prin metoda celor mai mici pătrate generalizată şi se numeşte
estimator RE (Random Effects).

Estimatorul BE:
➔este consistent
➔este eficient dacă modelul pentru componentele erorilor este adevărat
Analiza statistică multidimensională
Model cu efecte aleatoare

Estimator BE :
y it =  + x it  +  i +  it i = 1,..., N ; t = 1,..., T
Putem scrie:
y i =  + x i.  +  i +  i. i = 1,..., N (Transformarea dintre perioadele
de timp)

Se calculează estimatorul prin metoda celor mai mici pătrate pentru acest
model transformat, numit Estimator BE (Between Estimator)

Estimatorul BE:
• Este consistent, dacă efectele individuale şi X sunt necorelate
• Nu este eficient (ţine cont doar de variaţia dintre indivizi)
Analiza statistică multidimensională

Model cu efecte aleatoare

Estimatorul RE este o sumă ponderată a estimatorilor Within şi Between:

ˆRE = ( X M D X + X PD X ) X M D X ˆFE + ( X M D X + X PD X ) X PD X ˆBE


−1 −1

Cazuri speciale:  2
 = (1 −  )
2
 2 = 0   = 1  OLS =
T   2 +  2
T →    → 0  Within estimator
 2 = 0   = 0  Within estimator
 →  Between estimator

13
Analiza statistică multidimensională
Aplicarea modelului RE
• Modelul clasic de regresie liniară:
Var ( yˆ ) Var ( y ) − Var (uˆ ) yˆ yˆ uˆuˆ
y = X  + u = X ˆ + uˆ = yˆ + uˆ R 2 = corr ( yˆ , y )2 = = = = 1−
Var ( y ) Var ( y ) yy yy

• Alte modele:

1) Modelul initial general: y it =  + x it  +  i +  it yˆ it = ˆ + x it ˆ

2) Modelul transformat Between: y i =  + x i.  +  i +  i. yˆ i = ˆ + x i. ˆ

3) Modelul transformat Within: y it − y i. = ( x it − x i. )  + ( it −  i. ) yˆ = yˆ it − yˆ i. = ( x it − x i. ) ˆ

4) Modelul transformat RE: y it −  y i. = ( x it −  x i. )  + (u it −  ui. )


Analiza statistică multidimensională
Aplicarea modelului RE
Calitatea modelului


FE: R = corr ( xit − xi ) ˆW , ( yit − yi ) 
2
2
W R2 din modelul Within

R = corr  x ˆ , y 
2
2
BE i W i Potrivirea modelului Between cu estimatori FE

R = corr  x ˆ , y 
2
2
O it W it Potrivirea generală a modelului cu estimatori FE

BE: R = corr ( x − x ) ˆ BE , ( yit − yi )


2
2
W it i Potrivirea modelului Within cu estimatori BE

R = corr  x ˆ , y 
2
2
BE i BE i R2 din modelul Between

R = corr  x ˆ , y 
2
2
O it BE it Potrivirea generală a modelului cu estimatori BE

RE: R = corr ( x − x ) ˆ 
, ( yit − yi )
2
2
W it i BE Potrivirea modelului Within cu estimatori RE

R = corr  x ˆ , y 
2
2
BE i BE i Potrivirea modelului Between cu estimatori RE

R = corr  x ˆ , y 
2
2
O it BE it Potrivirea generală a modelului cu estimatori RE
Analiza statistică multidimensională
Testarea pentru efecte fixe individuale
Există efecte fixe individuale?
➔ Testul F

• H0: nu există efecte fixe individuale (= modelul grupat)


1 =  2 = =N =

• H1: există efecte fixe individuale


• Testul statistic:

FT =
( RSS0 − RSS1 ) / ( N − 1)
RSS1 / ( NT − N − K )

• Regula de decizie:
Se respinge ipoteza nulă (şi deci modelul grupat) dacă FT este mai mare
decât valoarea critică (adică dacă p-value < un nivel de semnificaţie dat , în
general 0.05). 16
Analiza statistică multidimensională
Testarea pentru efecte aleatoare
Există efecte aleatoare?
➔ Testul Multiplicatorului Lagrange Breusch-Pagan

• H0: nu există efecte aleatoare:  2 = 0 Modelul grupat

• H1: există efecte aleatoare  2  0


• Testul statistic:

NT  uˆ ( I N  JT ) uˆ 
 2 (1)
a

LM = 1 −  subunder
ipotezaH
H00 este U sunt rezidual-urile
2*(T − 1)  uˆuˆ  din modelul grupat

• Regula de decizie:
Se respinge ipoteza nulă (adică a efectelor aleatoare), dacă LM este mai mare
decât valoarea critică (sau dacă p-value < o valoare dată a nivelului de
semnificaţie , în general 0.05).
Analiza statistică multidimensională
Testarea pentru efecte aleatoare versus efecte fixe
Dacă se respinge modelul grupat: Se foloseşte modelul cu efecte fixe sau aleatoare?
➔ Testul Hausman-Wu
➔ Se testează dacă efectele individuale aleatoare sunt corelate cu variabilele
explicative (FE) sau nu (RE)

Ideea generală a testului Hausman-Wu


Compară un estimator care este consistent şi eficient sub ipoteza nulă şi
inconsistent în ipoteza alternativă cu un estimator care este consistent în ambele
alternative

( )
• H0: E xit i = 0 no există corelaţie: FE consistent Estimatorii FE şi RE
RE consistent şi eficient sunt similari

( )
• H1: E xit i  0 corelatie: FE consistent Estimatorii FE şi RE
sunt diferiţi
RE inconsistent
Analiza statistică multidimensională
Testarea pentru efecte aleatoare versus efecte fixe

Testul statistic:

( ) ( )
 sub
a ipoteza H0 este χ2k unde k este
HW = ˆRE − ˆFE (  RE −  FE ) ˆRE − ˆFE  ( Kde=coloane of Xcolumns in X )
−1 2
numărul number în

• Regula de decizie:
Se respinge ipoteza nulă dacă HW este mai mare decât valoarea critică (sau
dacă p-value < o valoare dată a nivelului de semnificaţie , în general 0.05).
Analiza statistică multidimensională

EXEMPLU Model cu efecte fixe


între rata de absorbție
Ipotezele testate:
H0: nu există ef. aleatoare
Abateri mici ale valorilor
previzionate de la cele observate

SAS –
H1:există ef. aleatoare
și șomaj și PIB pe locuitor, Sign˂0,05 →
observații pentru 11 țări se respinge H0 deci există ef. aleatoare.

Fixed și 8 ani
Calitatea modelului
cu un niv.de semnif. de 0,05 dar nu și de 0.01

effects este bună


Test F pentru efecte fixe
Ipotezele testate:
H0: nu există ef. fixe indiv.
H1:există ef. fixe indiv.
Sign˂0,05 →
se respinge H0 deci există
ef. fixe indiv. semnificative
cu un niv. de semnif. de 0,01
Parametrii sunt
semnificativi cu un niv de
semnif. de cel putin 0,01

Dispersia rezidualurilor este aproximativ Repartiția rezidualurilor


constantă, deci ipoteza de aproximativ normală
homoscedasticitate este verificată
Analiza statistică multidimensională
EXEMPLU
SAS – No Model cu efecte aleatoare
Ipotezele testate:
Abateri mici ale valorilor
previzionate de la cele observate
H0: nu există ef.
random între rata de absorbție
și șomaj și PIB pe locuitor,
aleatoare

effects observații pentru 11 țări


și 8 ani
H1:există ef. aleatoare
Sign˂0,05 →
se respinge H0 deci există
ef. aleatoare.
cu un niv.de semnif. de
0,05 dar nu și de 0.01
Calitatea modelului
este bună însă mai slabă decât
cea pentru modelul cu efecte fixe

Test Hausmann
Ipotezele testate:
H0: FE consistent; RE consistent şi eficient
H1: FE consistent; RE inconsistent
Sign˂0,05 →
se respinge H0 deci este
recomandat a se utiliza modelul cu efecte fixe

Parametrii sunt
semnificativi cu un niv de
semnif. de cel putin 0,01

Dispersia rezidualurilor nu este constanta Repartiția rezidualurilor


deoarece in partea centrala acesta pare nu este normală
mai mica
Analiza statistică multidimensională
Abateri mari ale valorilor
Model cu efecte aleatoare previzionate de la cele observate
EXEMPLU între rata riscului de saracie
și venituri totale medii și numarul

SAS – PC-urilor. Numarul de observații


pentru 8 țări și 4 ani

Random Calitatea modelului


este slaba
effects
Ipotezele testate:
H0: FE consistent; RE consistent şi eficient
H1: FE consistent; RE inconsistent
Sign>0,05 →
se accepta H0 deci ambele
modele cu efecte fixe sau aleatoare pot fi utilizate

Parametrii nu sunt
semnificativi

Repartiția rezidualurilor
nu este normală
Analiza statistică multidimensională

Modele de regresie
pentru date de tip panel
Decembrie 2021

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională

Sumar
• Date de tip panel
• Regresia prin metoda celor mai mici pătrate grupată (POLS –
Pooled ordinary least squares)
• Modelul de regresie cu efecte fixe
• Modelul de regresie cu efecte aleatoare
• Testul Hausman

2
Analiza statistică multidimensională

Structura datelor de tip panel


• Unităţi transversale aranjate într-o perioadă de timp (date longitudinale)
• Numărul de observaţii este N x T
• dimensiunea transversală (N) ar trebui să fie mai mare decât dimensiunea timpului (T)
Exemplu: 11 ţări pe 10 ani fiecare
50 de firme pe câte 4 perioade de timp

tara cod an PIB economii populatia


Albania ALB 1994 6,75179343 20,9783993 1,6
Albania ALB 1995 -11,4142038 -13,0284996 -0,2
Albania ALB 1996 -27,5896031 -75,4131012 -1,6
Albania ALB 1997 -5,69153612 -33,6716003 -1,4
Albania ALB 1998 11,1974627 -9,88263035 0,2
Algeria DZA 1994 2,29575915 27,4666996 2,5
Algeria DZA 1995 -3,72084675 36,6562004 2,4
Algeria DZA 1996 -3,55414336 32,3755989 2,4
Algeria DZA 1997 -0,79384221 27,8384991 2,3

3
Analiza statistică multidimensională

Reprezentarea grafică
24 2014
2013
2012
22 2009 2011
2010
2009 2008
20 2008 2012
2010 2013 2014
2011

18
PIB

2007
16 2007
2014
2009 2012 2013
14 2010 2011
2008

12

2007
10
4 6 8 10 12 14 16 18 20
Rata somajului

Bulgaria Croatia Latvia


Analiza statistică multidimensională

Notaţie generală
Numărul Timp Variabila 1 Variabila 2
unităţii Xit Yit
1 1 X11 Y11
1 … X1t Y1t
1 T X1T Y1T
… 1 Xi1 Yi1
… … Xi2 Yi2
… T Xi3 Yi3
N 1 XN1 Y31
N … XNt YNt
N T XN3 YNT
5
Analiza statistică multidimensională

Avantajele structurii de tip panel


• Datele de tip panel fac posibilă estimarea relaţiilor în dinamică chiar dacă datele sunt
disponibile pentru o perioadă scurtă de timp: prin creşterea numărului observaţiilor (N x T)
• Încorporează dimensiunea timp pentru datele în secţiune transversală şi dimensiunea
spaţiu pentru serii temporale
• Eficienţă sporită a estimărilor modelelor de regresie prin mărimea eşantionului, creşterea
heterogenităţii, reducerea colinearităţii
• Capacitatea de a controla efectele individuale fixe – ceea ce este comun unui individ de-a
lungul timpului, dar care poate varia între indivizi
• Abilitatea de a modela efectele temporale fără deplasarea datorată agregării

6
Analiza statistică multidimensională

Probleme privind datele de tip panel


• Termenul eroare include întotdeauna toţi factorii neobservabili care determină variabila rezultativă Y
• Termenul eroare într-un model de regresie pe date de tip panel are 3 componente:

PIBit =  0 + 1savit +  2 popit + uit


PIBit =  0 + 1savit +  2 popit +  i + t +  it

Efect neobservat specific Efect neobservat Efect neobservat specific


individului specific timpului individului şi timpului

• αi capturează impactul variabilelor neobservate constante în timp pentru un anumit individ, dar care variază
între indivizi: calitatea managementului (firma), sexul (individ), calitatea instituţiilor (ţări)
• μt capturează impactul variabilelor neobservate care afectează în acelaşi fel toţi indivizii într-o anumită perioadă
de timp, însă variază în timp: modificări de politică, rata de schimb, schimbarea valorilor în societate
• εit capturează impactul variabilelor neobservate care variază atât între indivizi cât şi în timp: norocul, starea de
bine, etc
7
Analiza statistică multidimensională

Termenul eroare
uit =  i + t +  it

◼ Dacă de face o secţiune transversală (se observă N indivizi la un


moment de timp t, de exemplu t = 1995)

PIB11995 =  0 + 1sav1 1995 +  2 pop11995 + 1 + 1995 +  11995

PIBi 1995 =  0 + 1savi 1995 +  2 popi 1995 +  i + 1995 +  i 1995

PIBN 1995 =  0 + 1sav N 1995 +  2 popN 1995 +  N + 1995 +  N 1995

8
Analiza statistică multidimensională

Secţiune transversală
• Există o singură observaţie pentru fiecare individ => variaţia
dintre rezultate provine de la variaţia dintre indivizi
• În acest caz nu există deosebire între efectele neobservate
specifice individului şi efectele neobservate specifice individului
şi timpului

9
Analiza statistică multidimensională

Date de tip panel


• Observaţii repetate în diverse momente de timp pentru acelaşi
individ
PIB11994 =  0 + 1sav1 1994 +  2 pop11994 + 1 + 1994 +  11994
PIB11995 =  0 + 1sav1 1995 +  2 pop11995 + 1 + 1995 +  11995
PIB11996 =  0 + 1sav1 1996 +  2 pop11996 + 1 + 1996 +  11996

PIB2 1994 =  0 + 1sav2 1994 +  2 pop2 1994 +  2 + 1994 +  2 1994


PIB2 1995 =  0 + 1sav2 1995 +  2 pop2 1995 +  2 + 1995 +  2 1995
PIB2 1996 =  0 + 1sav2 1996 +  2 pop2 1996 +  2 + 1996 +  2 1996
10
Analiza statistică multidimensională

Metoda celor mai mici pătrate


• Una din ipotezele metodei celor mai mici pătrate este: Cov(Xi, Ui)=0
• Se presupune că toate cele trei componente sunt independente între ele şi cu variabila X

uit =  i + t +  it

• Descompunerea termenului eroare indică faptul că una dintre presupunerile metodei celor
mai mici pătrate nu va fi respectată: "Două observaţii ale aceluiaşi individ vor fi mai
asemănătoare comparativ cu două observaţii provenind de la doi indivizi diferiţi"

Cov ( X i i )  0

11
Analiza statistică multidimensională
Metoda celor mai mici pătrate grupată
(Pooled ordinary least squares)

• Este cea mai simplă abordare


• Combină într-o singură mulţime ambele dimensiuni
• Renunţă la structura temporală şi transversală

• Exemplu: Se estimează parametrii ecuaţiei de regresie liniară

gdpit =  0 + 1savit + 2 popit + it

• unde i este individul iar t este timpul

12
Analiza statistică multidimensională
Metoda celor mai mici pătrate grupată
(Pooled ordinary least squares)

• Metoda celor mai mici pătrate grupată va furniza estimatori ai parametrilor constanţi fără
diferenţiere între indivizi şi timp
Cov ( X i i )  0

• Din cauza componentei efectului neobservat specific indivizilor una din ipotezele pe care
se bazează metoda celor mai mici pătrate poate fi nerespectată: .
Presupunerea că fiecare eroare în fiecare perioadă de timp, pentru fiecare persoană este
necorelată cu variabilele şi efectele pentru fiecare persoană şi de-a lungul timpului, poate
să nu fie respectată
• Structura de tip panel are dimensiunea timp, deci corelaţia dintre erori succesive poate să
conducă la violarea ipotezei privind non autocorelarea erorilor
• Estimatorii obţinuţi nu vor fi deplasaţi însă vor fi neeficienţi (informaţia cu privire la
autocorelarea erorilor poate fi folosită pentru obţinerea de estimatori mai buni)
13
Analiza statistică multidimensională
Metode specifice datelor de tip panel
• permit diferenţierea comportamentului între indivizi şi în
perioade diferite de timp sub forma:
• Efectelor fixe: atunci când există corelaţie între X şi i
• Efectelor aleatoare: atunci când corelaţia între X şi i este zero

14
Analiza statistică multidimensională
Model cu efecte fixe
y it = x it  + u it şi u it =  i +  it pentru i = 1,..., N ; t = 1,..., T

Ipotezele privind termenul eroare : zgomot alb (ca în regresia liniară):


- media zero a erorilor
- dispersia erorilor constantă
- non-autocorelarea erorilor
Efectul individual este un parametru fix => model cu termeni liberi individuali:
Ipotezele privind efectele individuale:  i
- media zero a erorilor
- dispersia erorilor constantă
- non-autocorelarea erorilor
Ipoteză: Nu există corelaţie între efectul individual şi termenul eroare :
( )
E  i  it = 0
Dar poate exista corelaţie între efectul individual şi variabilele explicative:
( )
E xit i  0  fixed effects model
Analiza statistică multidimensională
Model cu efecte fixe
Modelul pentru o singură observaţie:
y it =  i + x it  +  it i = 1,..., N ; t = 1,..., T
Modelul pentru individul i:
 y i1   1   x i11 x iK1    1    i1 
   
    =  i +




   
  +   resp. y i = T  i + X i  +  i
 y iT  1  1 K     
     x iT x iT    K    iT 

Modelul pentru toate observaţiile:


 y1   T 0 0  1   X 1   1 
  0       
0  2  +  X2   + 2  y = DN  + X  + 
 y2  =  T

         
          ( NT 1) ( NT  N ) ( N 1) ( NT  K ) ( K 1) ( NT 1)
 yN   0 0  T  
   
N  X N   N 

Variabilă dummy pentru individul i


➔ Cum poate fi estimat acest model? 16
Analiza statistică multidimensională
Model cu efecte fixe
Estimarea folosind metoda celor mai mici pătrate cu variabile dummy:
Estimatorul lui ß este BLUE (atâta timp cât  este zgomot alb)

DAR:
➔ calcule complexe dacă N este mare
➔ dimensiunea mare a vectorului coeficienţilor poate conduce la estimări
imprecise
➔ pierdere mare a gradelor de libertate
➔ de multe ori nu suntem interesaţiˆde
LSDV toţi parametrii i dacă N este mare!

Scop: Eliminarea efectului individual, adică


➔ Transformarea prin diferenţe de ordinul I
➔ Transformarea în interiorul perioadelor de timp (toate
observaţiile se măsoară în deviaţie faţă de media în timp a fiecărui individ)
17
Analiza statistică multidimensională
Model cu efecte fixe
Transformarea în interiorul perioadelor de timp:
y it − y i. = ( x it − x i. )  + ( it −  i. ) i = 1,..., N ; t = 1,..., T


T
unde y i. = t =1
y it / T etc.

Modelul transformat: y it = x it  +  it , where


unde y it = y it − y i . etc.

Observăm că parametrii α nu mai apar în ecuaţie → aceştia sunt


consideraţi neimportanţi şi nu vor mai fi estimaţi

Prin aplicarea metodei celor mai mici pătrate clasică ecuaţiei


transformate va rezulta estimatorul obţinut prin metoda celor mai mici
pătrate cu variabile dummy (Cameron / Trivedi p. 733) numit Within
Estimator:

( )
−1
ˆW = X X X y = ˆLSDV
Analiza statistică multidimensională
Model cu efecte fixe

Estimatorul modelului cu efecte fixe pentru :


• nedeplasat
• consistent în toate cele trei cazuri (N mare & T fix, T mare & N
fix, N & T mari
• efficient
• asimptotic normal distribuit

19
Analiza statistică multidimensională
Model cu efecte fixe
Estimarea termenilor liberi individuali:

ˆ i ,W = y i − x i ˆW
Dacă modelul iniţial include o constantă , atunci este estimat efectul
compus i+  (interpretare diferită a lui i ).
Nu este posibilă identificarea efectelor individuale decât în cazul în
care se face o presupunere suplimentară, adică:

 i = 0
N
i =1

Estimatorii pentru i :
• nu sunt consistenţi pentru N mare:
➔ numărul parametrilor creşte odată cu creşterea lui N
Analiza statistică multidimensională
ANALIZA CANONICA

Curs 10, Decembrie 2021


Titular de curs: Prof.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
FUNDAMENTE TEORETICE
 Analiza canonica este o metodă de descompunere a asocierilor între două
mulțimi de variabile, un "predictor" (variabile independente), cunoscut, şi un
"dependent“ (variabile dependente)

Observatia Variabila Variabila Variabila Variabila


independenta independenta dependenta dependenta
1 2 1 2

1 X11 X21 Y11 Y21


2 X12 X22 Y12 Y22
N X1n X2n Y1n Y2n
EXEMPLU
 Un cercetător a colectat date referitoare la 600 de tineri studenți privind:
 trei variabile psihologice: autocontrolul, auto-cunoașterea şi motivația
 patru variabile academice: teste standardizate despre nivelul în citire, scriere,
matematică și știință obţinându-se scoruri standardizate de testare
 sexul este o variabilă binară: 1 – sex feminin; 0 – sex masculin

 El este interesat de modul în care mulțimea variabilelor psihologice este


corelată cu variabilele academice şi de gen.
Analiza canonică versus regresia
multiplă
 În cazul regresiei multiple ◼ În analiza canonică, interesul
ne interesează să estimăm este de a determina numărul şi
efectul uneia sau mai natura relaţiilor independente
multor variabile dintre două mulțimi de variabile,
independente asupra unei una de variabile dependente și una
variabile dependentă de variabile independente
◼ Acest lucru este realizat, prin
utilizarea de perechi de combinaţii
liniare de variabile care sunt
necorelate (factori canonici)
Ce sunt factorii canonici?
1(U ) = U1
 Factorii canonici sunt X1
vectorii proprii ai matricei de
corelaţie corespunzătoare, şi
reprezintă segmente de linie
ortogonale ce explică
variabilitatea din interiorul fie X Y 
X 2 = U2
(U )

al lui X fie al lui Y 2


X A C
T
X2
Y C B
 2(V ) = V2

Y1
1(V ) = V1
Y2
Estimarea factorilor canonici
 Primul factor canonic este
obținut prin estimarea ce maximizează corelația
coeficienților combinațiilor dintre U1 și V1
liniare:

r (U1 ,V1 ) = max{r (U1 , V1 )}


p
U1 =  a1 j X j ,
j =1
q
V1 =  b1 jY j
j =1
Estimarea factorilor canonici

◼ Al doilea factor canonic este ce maximizează corelația dintre


obținut prin estimarea U2 și V2:
coeficienților combinațiilor
liniare:
r (U 2 ,V2 ) = max{r (U 2 ,V2 )}
p
U 2 =  a2 j X j ,
j =1
q astfel încât:
V2 =  b2 jY j
j =1 r (U1 ,U 2 ) = r (V1 ,V2 ) = 0
r (U1 ,V2 ) = r (U 2 ,V1 ) = 0
Calculul factorilor și al corelațiilor
canonice

◼ Pornind de la matricile de ◼ Valorile proprii lj sunt


corelație din interior și dintre pătratele corelațiilor între
mulțimile de variabile vom factorii canonici, adică,
determina valorile proprii din corelațiile canonice:
ecuația:

(B −1CT A −1C − l I )b = 0 li = r 2 (Ui , Vi ) = r 2 (i(U ) , i(V ) )


 Ci2
care are r soluții:

l1  l2   lr
Calculul factorilor și al corelațiilor
canonice

◼ Coeficienții factorilor canonici ◼ Coeficienții factorului canonic i


ai lui Y: V1, V2 etc., sunt pentru variabilele X sunt date
intrările corespunzătoare în de elementele:
matricea corelațiilor din
interiorul mulțimii Y, B: aTi = A −1Cbi = (ai1 , , aip )
X Y
X A C q
Y CT B V1 =  b1 jY j
j =1
Calculul factorilor și al corelațiilor
canonice
◼ Perechea i de factori canonici este ◼ Unde X și Y sunt vectori
dată de: standardizați (0,1). În acest fel,
putem genera scorurile factorilor
p canonici pentru fiecare observație
U1 =  a1 j X j = aTi X din multimea de date
j =1
q
V1 =  b1 jY j = bTi Y
j =1
Factori canonici standardizați

◼ Varianța lui U și V va fi influențată ◼ Pentru a genera factorii canonici


de scala adoptată pentru vectorii standardizați, se calculează
proprii a și b, dar corelațiile abaterea medie pătratică a lui Ui
canonice r(U,V) nu vor fi afectate; (Vi ) și se împart valorile aij (bij) la
abaterea medie pătratică
corespunzătoare
Rezultatul final
U1

 O mulțime de r = min(p,q) factori Cele mai mari


canonici, unul pentru mulțimea de prime corelații
variabile dependente {V}, și altul canonice
pentru mulțimea variabilelor X2
independente {U}
V1
 O mulțime de r corelații canonice C =
r(U,V) fiecare reprezentând corelația
dintre perechi de factori canonici. Corelațiile
canonice de
ordin 2

U2

V2
Teste de semnificație

◼ Întrebare: care din corelațiile


canonice sunt semnificative
statistic?  1 
V = −  N − 1.5 − ( p + q ) 
◼ Pentru testarea semnificației  2 
tuturor celor r = min(p, q)
corelații canonice bazate pe p + m
q variabile, se calculează statistica
Bartlett (V ) și se compară cu
 ln(1 + li )
valoarea tabelată a distribuției c2 i =1
cu pq grade de libertate (trebuie
sa fie mai mica decat aceasta)
li Valoarea proprie asociată
factorului canonic i
Teste de semnificație
 Testele de semnificaţie presupun că observaţiile au o distribuţie normală
multivariată

 Testele de semnificație pot fi foarte înşelătoare, pentru că corelația canonică


j în populaţie poate să nu apară ca și corelația canonică j în eşantion din
cauza erorilor de eşantionare ...

 Deci, atenție la eșantioanele de volum redus!


Interpretarea factorilor canonici

◼ Procedură: Se analizează
coeficienții standardizați ai
factorilor canonici
U1 = −.09 X 1 − 0.29 X 2 + 0.48 X 3 + 0.29 X 4

◼ Inferență: variabilele cu
coeficienți (în valoarea U1 este o variabilă a contrastelor dintre X3
absolută) mari sunt cei and X4 pe de o parte, și X2 pe de altă parte
mai importanți
Interpretarea factorilor canonici

◼ Procedură: Se analizează Factor canonic


corelațiile variabilelor originale Variablă U1 U2
cu factorii canonici (canonical
factor loadings) X1 -0.92 0.33
X2 -0.77 -0.52
◼ Inferență: variabilele cu X3 0.90 -0.20
corelații mari (în valoare
absolută) sunt cele mai X4 0.92 -0.05
importante pentru formarea
factorului canonic X4 nu este asociat cu U2
corespunzător
Analiza statistică multidimensională

Analiza statistică multidimensională

O ABORDARE STRUCTURATĂ
PRIVIND ANALIZA MULTIDIMENSIONALĂ
Noiembrie 2021
Titular de curs: Prof.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională
REZUMAT – METODE DE ANALIZĂ MULTIDIMENSIONALĂ
Dependență Tipul relației Interdependență
analizate
Nr.Variabile Relațiile sunt
analizate între:
Mai multe variabile O variabilă
dependente într-o dependentă într-o Variabile Obiecte
singură relație Observații (modalitățile
singură relație numerice
Var. nenumerice)
Scala de măsurare a Scala de măsurare a
var.dependente var.dependente Analiza
Analiza de
Analiza Cluster corespondențe
Factorială (ACP)
simplă/multiplă

Metrică Nonmetrică Metrică Nonmetrică

Scala de ANALIZA Modelul de Analiza


regresie Discriminată
măsurare a CANONICĂ
CU VARIABILE multiplă
var.predictor DUMMY Modele de
Analiza probabilitate
Metrică Nonmetrică CONJOINT liniare (LOGIT)

Analiza de
ANALIZA
varianță
CANONICĂ
multivariată
Analiza statistică multidimensională

Studiu de caz 1
• Să presupunem că cerem clienților să evalueze un restaurant în funcție de: gustul alimentelor,
temperatura alimentelor, prospețimea, timpul de așteptare, curățenia și prietenia angajaților.

• Cum ar putea analistul analiza răspunsurile clienților?

• Ce rezultat ar fi posibil să obțină acesta?

CALITATEA ALIMENTELOR: CALITATEA SERVICIILOR:


gustul, temperatura și prospețimea timpului de așteptare, curățenia
și prietenia angajaților
Analiza statistică multidimensională

Studiu de caz 2
• Cum ar putea fi diferențiați și identificați inovatorii de non-inovatori în funcție de profilurile lor
demografice și psihologice?

Pentru înțelegerea diferențelor


dintre inovatori și non-inovatori

ANALIZA
DISCRIMINANTĂ

Pentru prezicerea probabilității ca


o entitate sa aparțină unei anumite clase
pe baza câtorva variabile independente metrice.
Analiza statistică multidimensională

Studiu de caz 3
• Să presupunem că proprietarul unui restaurant vrea să știe care sunt motivele pentru care clienții
vin în restaurant. Datele colectate ar putea fi: percepțiile privind prețurile, calitatea alimentelor,
servirea clienților, etc.
• Cum ar putea analistul analiza răspunsurile clienților?

Identificarea grupurilor de clienți motivați


de prețurile mici
ANALIZA CLUSTER
versus cei mai puțin motivați din
considerente de preț dar motivați de
calitatea serviciilor
Analiza statistică multidimensională

Studiu de caz 4
• Presupunem că preferințele de marcă ale respondenților pot fi încrucișate cu variabilele
demografice (de exemplu, sexul, categoriile de venit, ocupația) indicând numărul de persoane
care preferă în fiecare marcă și în fiecare categorie a variabilelor demografice.

Reprezentarea într-un grafic bidimensional a


mărcilor și caracteristicilor demografice:
- Mărcile percepute ca fiind similare
ANALIZA DE sunt situate aproape unul de altul.
CORESPONDENȚE -Caracteristicile distinctive ale respondenților
care preferă fiecare marcă sunt,
determinate de apropierea categoriilor
variabilelor demografice de poziția mărcii.
Analiza statistică multidimensională
O ABORDARE STRUCTURATĂ PENTRU CREAREA UNEI ANALIZE
MULTIMENSIONALE
• Pas 1: Definirea problemei, obiectivelor cercetării și tehnicile multivariate ce
urmează a fi folosite
• Punctul de plecare pentru orice analiză multivariată constă în definirea problemei și a
obiectivelor analizei în termeni conceptuali înainte de a specifica orice variabile sau măsuri.
• Modelul conceptual: este o simplă reprezentare a relațiilor ce se dorește a fi studiate
• Alegerea metodei potrivite de analiză multidimensională

• Pas 2: Dezvoltarea planului de analiză


• Implementarea metodei

• Pas 3: Evaluarea ipotezelor care stau la baza metodei de analiză multidimensională


aleasă
Analiza statistică multidimensională
O ABORDARE STRUCTURATĂ PENTRU CREAREA UNEI ANALIZE
MULTIMENSIONALE
• Pas 4: Estimarea modelului de analiză multidimensională și evaluarea
modelului
• Estimarea celui mai bun model
• Evaluarea calității modelului

• Pas 5: Interpretarea modelului


• Pas 6: Validarea modelului
• Poate fi generalizat la întreaga populație?
Analiza statistică multidimensională
STUDIU DE CAZ 1 – Numărul doctoranzilor
Sursa: Getting Started: CORRESP Procedure – SAS

 Mai mult de 96% din


inerție este explicată de
prima dimensiune, deci
asocierea dintre cele două
variabile este în esență
unidimensională.
Analiza statistică multidimensională
STUDIU DE CAZ 1
Sursa: Getting Started: CORRESP Procedure – SAS

Numărul de doctoranzi
în diferitele discipline se
schimbă în timp.
Astfel la începutul anilor
‘70 predominau
doctoratele în
matematică și inginerie
timp iar la sfîrsitul anilor ‘70
predominau doctoratele
în științele
comportamentale și ale
vieții.
Analiza statistică multidimensională
STUDIU DE CAZ 2 – Satisfacția privind procesul de cumpărare
Sursa datelor: Satisf.spss

Analiza de Corespondențe Simplă

 85% din inerție este


explicată de prima și a
doua dimensiune, deci
asocierea dintre cele două
variabile este în esență
bidimensională.
Analiza statistică multidimensională
STUDIU DE CAZ 2 – Satisfacția privind procesul de cumpărare
Sursa datelor: Satisf.spss Analiza de Corespondențe Simplă
Persoanele cu o părere
generală neutră despre
magazinele analizate sunt
în general persoanele cu
vârsta între 18 și 24 ani

Persoanele cu vârsta
între 50-64 ani au o
părere generală negativă
privind magazinele
analizate
Analiza statistică multidimensională
STUDIU DE CAZ 3 – Satisfacția privind procesul de cumpărare
Sursa datelor: Satisf.spss

Analiza de Corespondențe Multiplă


Analiza statistică multidimensională
STUDIU DE CAZ 3 – Satisfacția privind procesul de cumpărare
Sursa datelor: Satisf.spss Analiza de Corespondențe Multiplă

 75% din inerție este


explicată de prima și a
doua dimensiune și peste
90 de primele trei
dimensiuni. Deci
asocierea dintre cele două
variabile poate fi privită ca
bidimensională.
Analiza statistică multidimensională
STUDIU DE CAZ – Satisfacția privind procesul de cumpărare
Sursa datelor: Satisf.spss Analiza de Corespondențe Multiplă

Se iau în considerare modalitățile a căror contribuție este


mai mare de 100/numărul total de modalități (deci
100/12=0,8)
Analiza statistică multidimensională

Determinați corespondentele?
Analiza statistică multidimensională

STUDIU DE CAZ 4
Preţul produselor
agroalimentare
Analiza statistică multidimensională

Analiza discriminantă
Noiembrie 2021

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională

Sumar
I. Definire
II. Axele şi variabilele discriminante
III. Funcția Fisher
IV. Reguli geometrice de atribuire
V. Metode probabiliste
VI. Estimaţii practice ale erorii de clasificare
Analiza statistică multidimensională

I. Definire
• Scop: Prezicerea unei variabile calitative cu k categorii cu ajutorul a p predictori, în general numerici.

• Structura datelor: Datele constau în n observaţii repartizate în k clase descrise de p variabile


explicative.

• Aspecte:
• descriptiv: se caută combinaţiile liniare de variabile care permit împărţirea cel mai bine posibil în cele k
categorii şi dau o reprezentare grafică (ca în ACP), care ţine seama cel mai bine de această împărţire.

• decizional: un nou individ apare, pentru care se cunosc valorile predictorilor. Este vorba de a decide cărei
categorii trebuie atribuit individul respectiv. Este o problemă de clasament.
Analiza statistică multidimensională

I. Definire Analiza discriminantă constă în căutarea de noi axe care separă cel mai
bine în proiecţie cele k grupuri de observaţii
Analiza statistică multidimensională

I. Definire
Când datele sunt împărțite în două categorii,
noile axe sunt create astfel încât să îndeplinească două criterii:

1. Să maximizeze distanța dintre centrele de greutate

Cât mai mare

Cât mai mic

2. Să minimizeze variabilitatea în interiorul grupelor


Analiza statistică multidimensională
I. Definire Când datele sunt împărțite în trei categorii noile axe sunt create astfel
încât:

1. Să maximizeze distanța dintre centrele de greutate


ale categoriilor și centrul de greutate al întregului nor

Cât mai mare

Cât mai mic

2. Să minimizeze variabilitatea în interiorul grupelor


Analiza statistică multidimensională
I. Definire
Asemănări între Analiza Discriminantă și
Analiza în Componente Principale

• Ambele metode determină axe noi ordonate în ordine descrescătoare a


importanței lor
• În cazul ACP prima axă principală explică cea mai mare parte din variabilitatea datelor,
urmată de a doua componentă principală …
• In cazul AD prima axă discriminantă explică cea mai mare parte din variabilitatea categoriilor,
urmată de a doua axă discriminantă …

• Ambele metode încearcă să reducă dimensiunea spațiului inițial


Analiza statistică multidimensională

I. Definire
• Fie E un nor în Rp format din n indivizi, notaţi ei.
• Acest nor este împărţit în k subnori: E1, E2, ..., Ek cu centrele de greutate g1, g2, ..., gk şi cu matricile de
varianţă V1, V2, ..., Vk.
• Fie g centrul de greutate al intregului nor de puncte şi V matricea de varianţă a întregului nor de puncte.
• Dacă cei n indivizi sunt afectaţi de ponderile p1, p2,..., pn atunci ponderile q1, q2,..., qk ale fiecărui sub-nor
sunt : q j =  p i .
ei Ei
E2  1
x
 gj =
x  p i ei
x

x x
qj i
E1
x
 k
x x  g =  qjg j
x
x  j=1
V = 1
 p i (ei − g j )(ei − g j )'
x x
x
 j q 
x

x
x x
x
 x
j i Ej
e
E3
Analiza statistică multidimensională
I. Definire
• Matricea de varianţă interclase B, se defineşte ca matricea de varianţă a celor k centre de
greutate cu ponderile qj:
k
B= q
j =1
j (g j - g )(g j - g )'

• Matricea de varianţă intraclase W, se defineşte ca media matricilor Vj :


k
W =  q jV j
j=1

• Observație: În cazul general, W este inversabilă în timp ce B nu este, deoarece cele k centre de greutate sunt
într-un sub-spaţiu de dimensiune k-1 din Rp (dacă p>k-1, ceea ce se întâmplă în general), în timp ce B este de
dimensiune p.

• Varianţa totală este suma dintre media varianţelor şi varianţa mediilor, are loc relaţia următoare: V=W+B .
Ipoteză: Se presupune g=0 (adică variabilele explicative sunt centrate).
Analiza statistică multidimensională

I. Definire
• Tabloul datelor de studiat este AX unde :
• A este tabloul logic asociat variabilei calitative ;
• X este matricea celor p variabile explicative.

• Atunci se demonstrează că:


• centrele de greutate g1, g2,..., gk sunt liniile matricii: (A’DA)-1(A’DX)
• matricea varianţelor interclase este: B=(X’DA)Dq-1(A’DX)

• Observație: Dacă pi=1/n formulele precedente se simplifică. Fie n1, n2,..., nk mărimea subnorilor.

 1
 B = nj  g j  g j' 1

• Atunci :  n j unde gj =  ei
1 n j Ej
 W =  n jV j

 n j
Analiza statistică multidimensională
II. Axele şi variabilele discriminante

• AFD-ul constă în căutarea de noi variabile, numite variabile discriminante, corespunzătoare


direcţiilor din Rp care separă cel mai bine în proiecţie cele k grupuri de observaţii.

Axa 2

x
x Axa 1
x x
x x
x Axa 1
x x

x x x
x

Axa 2
Analiza statistică multidimensională
II. Axele şi variabilele discriminante
• Se presupune Rp înzestrat cu metrica M.

• Se notează cu ‘a’ axa discriminantă şi cu ‘u’ factorul asociat axei discriminante, u=Ma. Xu va fi variabila
discriminantă
• Axa discriminantă este vectorul propriu al matricii M-1V-1BM asociat celei mai mari valori proprii.
• Axei discriminante a i se asociază factorul discriminant u astfel încât u=Ma.
• Factorul discriminant u este vectorul propriu al matricii V-1B asociat valorii proprii 1 : V-1Bu=1 u.

• Factorii discriminanţi şi variabilele discriminante Xu, sunt independente în raport cu metrica M.

• Observație: Pentru ușurința calculelor se alege M=V-1 deci:


 BV −1a = 1a
 −1
V Bu = 1u

Analiza statistică multidimensională
II. Axele şi variabilele discriminante
• Observaţie: 011
• 1=1 atunci: a’MBMa=a’MVMa x
x
x x
x g1
În acest caz, în proiecţie pe a dispersiile intraclase sunt nule. Cei k nori sunt fiecare x
x
x x
x x
într-un hiperplan ortogonal pe a. g1
x x
x
Avem discriminare perfectă dacă centrele de greutate se proiectează în puncte
diferite.
x x
Grup 1
• Dacă 1=0 atunci: a’MBMa=0
x
x
x
Grup 2
x x x
x . x
În acest caz cea mai bună axă nu permite separarea centrelor de greutate gi. Este x
x
x x
g1=g2
x
x
x
cazul în care ele sunt confundate. x x x
x x x

Norii sunt concentrici şi nu este posibilă nici o separare liniară.


Grupa 1
Grupa 2
Se poate totuşi să existe o posibilitate de discriminare neliniară. x x
x
x x x x
• Dacă 0<1<1 există posibilitatea ca să existe discriminare perfectă între grupuri x x
x
x
x x
Analiza statistică multidimensională
III. Funcția Fisher
• În cazul general în care n>p>k şi în care variabilele nu sunt legate prin relaţii liniare, numărul valorilor proprii diferite de
zero, deci numărul axelor discriminante, este egal cu k-1.

• În cazul în care k=2, k-1=1 deci există o singură variabilă discriminantă.


• Axa discriminantă este atunci în mod necesar dreapta care uneşte cele două centre de greutate g1 şi g2 : a=(g1-g2).
• Factorul discriminant va fi : u=V-1(g1-g2) sau u=W-1(g1-g2).

g1 g2
• Se defineşte funcţia scor a lui Fisher ca: W-1(g1-g2). g

• În general, din motive de estimare, în locul lui W-1 se ia:


 n1 + n2 − 2
 = W −1
n1 + n2
Analiza statistică multidimensională
IV. Reguli geometrice de atribuire
• După obţinerea celei mai bune reprezentări a celor n indivizi în k clase se poate formula o regulă de atribuire.
• Regula generală constă în calcularea distanţelor observaţiei e la cele k centre de greutate ale fiecărei clase, iar apoi la
atribuirea celei mai mici distanţe.
Pentru aceasta trebuie definită metrica care urmează a fi utilizată.
• 1. Regula Mahalanobis-Fisher: constă în utilizarea metricii W-1 (sau V-1 , ceea ce este echivalent).

d 2 (e, g i ) = (e − g i )'W −1 (e − g i )  d 2 (e, g i ) = e'W −1e + g i 'W −1 g i − 2e'W −1 g i


• Cum e’W-1e nu depinde de grupă, regula constă în a căuta:

min( g i 'W −1 g i − 2e'W −1 g i ) sau max( e'W −1 g i − g i 'W −1 g i / 2)


Analiza statistică multidimensională
IV. Reguli geometrice de atribuire
• Insuficienţa regulilor geometrice
Utilizarea regulilor precedente conduce la atribuiri incorecte atunci când dispersile grupelor sunt foarte
diferite între ele: nimic nu justifică atunci folosirea aceleiaşi metrici pentru grupe diferite.

g1

g2
Analiza statistică multidimensională
V. Metode probabiliste
• Se presupune că există un număr finit de populaţii din care individul poate proveni şi fiecare populaţie este
caracterizată de o probabilitate de distribuţie a măsurătorilor. Individul este considerat ca o observaţie
aleatoare a acestei populaţii.

• Ideea generală pentru construirea unei proceduri de clasificare este de a minimiza probabilitatea de
misclasificare, sau şi mai exact, minimizarea efectelor negative ale misclasificării.

• Boboc C. - Metode statistice de analiză a atributelor necesare ale calităţii, Editura Meteor Press, 2007, pag. 60-66

• Anderson T.W. – An introduction to multivariate statistical analysis, Wiley, New York, 1984
Analiza statistică multidimensională
VI. Estimații practice ale erorii de clasificare
1.Metoda eşantionului test
În acesată metodă se foloseşte toată informaţia eşantionului pentru definirea regulii de afectare a unui nou
individ. Această regulă este apoi testată pe acelaşi eşantion, adică fiecare individ din eşantion este atribuit
unei grupe după regula descrisă anterior.

• Estimarea erorii de clasament astfel obţinută are o deplasare optimistă deoarece regula de afectare este
testată pe indivizii care au contribuit la construcţia sa.

• Avantajul acestei metode constă în faptul că foloseşte întreaga informaţie a eşantionului.


Analiza statistică multidimensională
VI. Estimații practice ale erorii de clasificare
2. Metoda validării încrucişate
• Fie E eşantionul iniţial. Card(E)=n.
• Se construiesc E1 numit eşantion de învăţare și E2 eşantion de testare astfel încât :
• E= E1 E2 E1 E2= card(E1)=card(E2)=n/2

• Regula de afectare este construită pe eşantionul de învăţare E1 şi testată pe eşantionul de testare E2, obţinând astfel eroarea de
clasificare.

• Avantajele acestei metode sunt :


• nu presupune nici o ipoteză suplimentară asupra predictorilor, care să influenţeze calitatea estimaţiei ;
• se aplică foarte bine când volumul de selecţie este mare.

• Dezvantajele acestei metode sunt :


• când eşantionul este mic este greu de împărţit în două
• nu foloseşte întreaga informaţie a eşantionului
• trebuie construită partiţia eşantionului: trebuie aleşi indivizii care vor face parte din eşantionul test şi cei care vor face parte din eşantionul de
învăţare.
Analiza statistică multidimensională

Analiza de
corespondente
Noiembrie 2021

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională

Sumar
• I. Definire şi utilizare

• II. Analiza simplă de corespondențe

• III. Analiza de corespondențe multiplă

• IV. Interpretarea axelor factoriale


Analiza statistică multidimensională

Definire și utilizare
• metodă de studiu a legăturilor existente între mai multe variabile calitative
• studiază corespondenţa între modalităţile variabilelor
• pentru 2 variabile calitative: Analiza de Corespondenţe Simplă
• pentru mai mult de două variabile calitative: Analiza de Corespondenţe Multiplă
Analiza statistică multidimensională
II. Analiza de corespondenţe simplă

• se formează tabelul de asociere N= n ij ( )


i =1, m1 , j=1, m 2
• nij – numărul observaţiilor care au modalitatea i a variabilei 1 şi modalitatea j a variabilei 2
• se construiesc matricile frecvenţelor cumulate pe linii şi frecvenţelor cumulate pe coloane:
n1. 0 0 0  n.1 0 0 0 
0 n 0 0  0 n 0 0 
D1 =   D2 =  
2 . .2
0 0  0  0 0  0 
   
0 0 0 n  0 0 0 n 2

 m1.  .m

• unde m1 numărul modalităţilor primei variabile şi ni.=  n ij


j
• unde m2 numărul modalităţilor variabilei a doua şi n.j=  n ij
i
Analiza statistică multidimensională
II. Analiza de corespondenţe simplă

• ACP pentru tabelul pofilelor linii


• tabelul de date: D1−1N
−1
• metrica: M= nD 2
• ponderile: D=D1/n

• ACP pentru tabelul pofilelor coloane


• tabelul de date: ND −2 1
−1
• metrica: M= 1nD
• ponderile: D=D2/n
Analiza statistică multidimensională
III. Analiza de corespondenţe multiplă
• Se citesc datele şi apoi se construiesc tabelele de date disjunctive X1, X2, ..., Xp. Aceste tabele au n linii şi mk
coloane, pe fiecare linie (i) existând o singură valoare diferită de zero, pe coloana corepunzătoare modalităţii
alese de individul i.
• Apoi se construieşte tabelul lui Burt, B, un tabel de contingenţă:
X1T X1 X1T X 2  X1T X p 
 T 
X 2 X1 X T2 X 2  XT2 X p 
B= 
     
XTp X1 X Tp X 2  XTp X p 

• Matricea D este tabelul diagonal de totaluri marginale ale celor m=m1+ m2+…+mp categorii:
 D1 0 0 0
0 D2 0 0 
D =
0 0  0
 
 0 0 0 D p 
Analiza statistică multidimensională
III. Analiza de corespondenţe multiplă

• Ecuaţia coordonatelor categoriilor : 1 D −1 Bu = u


1 p
• cu convenţia de normalizare : u' Du = 
np
Fie z=z1,...,zn vectorul cu n componente reprezentând coordonatele celor n indivizi pe o
axă factorială

• Ecuaţia coordonatelor indivizilor : 1 XD −1 X' z = z


p
• cu convenţia de normalizare : 1 z' z = 
n
Analiza statistică multidimensională
IV. Analiza de corespondenţe. Interpretarea procentului de inerție
explicată de axe
Analiza statistică multidimensională
IV. Analiza de corespondenţe: Interpretarea axelor factoriale
• Contribuţia unei modalități la formarea axei factoriale:
• calitatea reprezentării elementului, prin proiecţie pe axa factorială
• contribuţia categoriei j, de total nj, cu coordonata aj, pe axa factorială:
nj
(a j )2
np
CTR ( j) =

• Modalităţile interesante sunt cele care au o contribuţie superioară ponderii lor nj/np

• Contribuţia cumulată a lui Xi este:

m1 1 mi n j
CTR (Xi) =  CTR (j) =  (a j )2
j=1  j=1 np

• Contribuţiile indivizilor:
2
1 (z i )
CTRI(i)= 
n 
Analiza statistică multidimensională
IV. Analiza de corespondenţe: Interpretarea axelor factoriale

• OBSERVAȚII:

• 1. Se recomandă evitarea diferenţelor prea mari între numărul de categorii ale variabilelor Xi

• 2. La interpretarea unei axe factoriale în funcţie de contribuţia unei modalităţi active la inerţia totală a norului

proiectat se vor clasa modalităţile în ordine descrescătoare în funcţie de contribuţia lor


Analiza statistică multidimensională
IV. Analiza de corespondenţe Interpretarea axelor factoriale

• REGULI DE INTERPRETARE

• În planul Rn în norul de puncte-modalităţi, două modalităţi sunt depărtate (în sensul distanţei 2) atunci
când ele sunt foarte puţin asociate, adică ele nu au fost alese în acelaşi timp de indivizi.

• În cazul proiecţiei norului de puncte în spaţiul R2 format de axele factoriale, două modalităţi sunt foarte
apropiate atunci când ele sunt alese sau respinse în acelaşi timp de o mare parte din indivizi.

• Este posibilă reprezentarea simultană a indivizilor şi categoriilor

• Indivizii care sunt apropiaţi de anumite categorii, sunt cei care au selectat categoriile respective. Prin
această reprezentare grafică poate fi realizată o clasificare a indiviziilor şi cunoaşterea caracteristicilor
fiecărei clase. Aceasta este folositoare mai ales în cazurile în care indivizii nu sunt anonimi.
Analiza statistică multidimensională

EXEMPLU
• Observarea modului de viață al șomerilor

• Variabile:
• Variabile de opinie:
• stflife: Cat de satisfacut sunteti cu viata dvs. per total ?
• stfgov: Cat de satisfacut sunteti de actualul guvern al tarii ?
• sclmeet: Cat de des socializati cu prietenii, rudele sau colegii ?
• mainact: Principala activitate in ultimele 7 zile

• Variabile socio-demografice:
• edulvla: Care este cel mai inalt nivel de educatie atins de dvs. ?
• maritala: Statutul marital legal
• regionro: Regiunea
• gndr: sex
Analiza statistică multidimensională

EXEMPLU SAS
Analiza statistică multidimensională

EXEMPLU SAS
Analiza statistică multidimensională

EXEMPLU SAS
Analiza statistică multidimensională

EXEMPLU SAS
Analiza statistică multidimensională

Analiza în componente
principale
Octombrie 2021

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională
Analiza în componente principale (ACP)
I. Definire şi utilizare
• este o metodă descriptivă
• pentru vizualizarea informaţiilor conţinute într-un tablou de date cantitative
• pentru vizualizarea corelaţiilor existente între variabile
• construieşte variabile noi, artificiale şi reprezentări grafice care permit vizualizarea relaţiilor între
variabile cât şi existenţa eventuală a unor grupuri de indivizi sau grupuri de variabile

• II. În practică, se lucrează cu datele centrate şi reduse.

• Tabelul de date se transformă în Z = (zij) x ij − x j


zij =
sj
Analiza statistică multidimensională

II. Principiul metodei


• ACP sintetizează variabilitatea iniţială a datelor privind cele p variabile iniţiale în câteva componente necorelate
între ele, numite componentele principale. Fiecare componentă principală este extrasă ca o combinaţie liniară
de variabile iniţiale. Metoda constă în extragerea celui mai mic număr de componente care preiau cea mai mare
parte a varianţei datelor iniţiale, adică în reducerea datelor iniţiale cu o pierdere minimă de „informaţie”.

• ACP ajută la obţinerea unei reprezentări apropiate a norului de n indivizi într-un spaţiu de dimensiune mică, prin
proiecţie

• Alegerea spaţiului de proiecţie se efectuează după criteriul următor: se caută subspaţiul de dimensiune k astfel
încât media pătratelor distanţelor între proiecţii să fie cea mai mare posibilă, deci inerţia norului proiectat pe
subspaţiul Fk să fie maximală
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• Se caută dreapta din Rp care să treacă prin centrul de greutate şi să maximizeze inerţia norului proiectat pe dreaptă.
• Prima componentă principală extrasă este acea combinaţie liniară de variabile care preia maximul posibil din varianţa datelor iniţiale.
Cea de-a doua componentă principală preia mai puţină varianţă, şi aşa mai departe.

• Subspaţiul Fk, de dimensiune k este generat de cei k vectori proprii ai lui SM asociaţi celor mai mari k valori proprii, unde S este
matricea de covarianţă

Valorile proprii
 s 2 s12  s1n 
 1 1. Măsoară cantitatea de varianţă „explicată” de fiecare
s s 22  s 2n  componentă principală.
S= 21

    2. Descresc odată cu indexul componentei, prima
s componenta principală având valoarea proprie maximă.
 n1 s n 2  s 2n 
3. Au suma egală cu p (numărul variabilelor iniţiale).
4. Exprimă „importanţa” componentelor principale

• Dacă primele k componente principale preiau 80% sau mai mult din varianţa datelor iniţiale, atunci scopul reducerii dimensionalităţii
va fi atins.
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• În cazul în care se lucrează cu un tabel de date centrat şi redus Z, asociat lui X:
• metrica folosită va fi M = I
• matricea de covarianţă a datelor centrate şi reduse va fi matricea de corelaţie R
deci factorii principali vor fi vectorii proprii succesivi ai lui R,
aranjaţi după ordinea descrescătoare a valorilor proprii:

Ru = u cu u2 = 1
• Interes practic mai au doar componentele principale calculate drept combinaţii liniare de variabilele
centrate-reduse:
c = Zu
• c este variabila cea mai legată de xj în sensul sumei pătratelor corelațiilor:
p

 r
j=1
2
( c, x j
)
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale

ACP înlocuieşte variabilele iniţiale x1, x2, ..., xp,


care sunt corelate, prin variabile noi,
componentele principale c1, c2, ....,
combinaţii liniare ale variabilelor iniţiale xj,
necorelate între ele, de dispersie maximală şi
legate foarte mult de variabilele iniţiale xj,
în sensul păstrării informaţiei cât mai mult posibil
Analiza statistică multidimensională
Exemplu de calcul
Analiza în Componente Principale
Matricea X Matricea standardizata Z
Observatie x1 x2 x3 X1std X2std X3std
1 7 10 11 0.59 0.00 1.34
2 5 11 10 -0.27 0.33 0.99 Matricea de Corelatie R Column 1 Column 2 Column 3
3 10 14 8 1.88 1.30 0.30 Column 1 1 0.840042 0.219708
4 3 5 9 -1.13 -1.63 0.65 Column 2 0.840042 1 0.080211
5 5 10 3 -0.27 0.00 -1.42 Column 3 0.219708 0.080211 1
6 7 12 5 0.59 0.65 -0.73
7 3 6 4 -1.13 -1.30 -1.08
8 5 12 7 -0.27 0.65 -0.04
Media 5.63 10.00 7.13 0.00 0.00 0.00
Abaterea medie patratica 2.33 3.07 2.90 1.00 1.00 1.00
Analiza statistică multidimensională
Exemplu calcul
Analiza în Componente Principale

Componentele principale
sunt: Zu

c1 c2 c3
0.72 1.24 -0.26
0.26 0.89 0.53
2.26 -0.19 -0.40
-1.74 1.12 -0.24
-0.52 -1.34 0.02
0.68 -0.91 -0.06
-1.92 -0.62 -0.23
0.24 -0.18 0.64
Analiza statistică multidimensională
IV. Interpretarea rezultatelor

1. Calitatea reprezentărilor pe planurile principale 

• ACP: o reprezentare a indivizilor într-un spaţiu de dimensiune mai mică decât


p  problema este de a aprecia pierderea informaţiei survenite şi de a şti câţi
factori trebuie reţinuţi
• Calitatea reprezentării pe un plan de dimensiune k:
(1+2+...+k)/ (1+2+...+p)
    

◼ Aprecierea procentului de inerţie trebuie să facă să intervină numărul de variabile iniţiale. Un


procent de 10% nu are aceeaşi semnificaţie pe un tabel de 20 de variabile ca pe un tabel de 100 de
variabile.

◼ Când se lucrează pe date centrate reduse, se reţin componentele principale corespunzătoare


valorilor proprii superioare lui 1.
Analiza statistică multidimensională
c 

IV. Interpretarea rezultatelor r(xj,c2) .xj

2. Corelaţii între componente şi variabilele iniţiale r(xj,c1) c

Pentru a da o semnficaţie unei componente principale, c, se


calculează coeficienţii de corelaţie liniară r(c,xj) şi reţinându-se
cei mai mari în valoare absolută
r(c,xj)=1/2uj
Nu se vor lua în consideraţie punctele care
nu sunt apropiate de circumferinţă c2

Contribuţia variabilei j la axa k: x2


x6
r 2 (c k , x j ) x3
CTRV( j, k) = = (ukj ) 2 x4
k x5 c1
x1
Proporția explicată de factorii principali din
variația unei variabile (Communality):
coeficientul de determinate R2
Analiza statistică multidimensională
IV. Interpretarea rezultatelor

3. Reprezentarea indivizilor
c1 este foarte corelată cu o variabilă xj ~ indivizii care au o coordonată puternică pozitivă pe axa 1 sunt
caracterizaţi printr-o valoare a lui xj net superioară mediei

1
Contribuţia individului i la componenta ck : CTRI(i,k) = p i c k2i
k

• Când ponderile sunt toate egale cu 1/n, contribuţiile nu aduc mai multe informaţii decât coordonatele

• Nu este de dorit ca un individ să aibă o contribuţie excesivă (mai mare ca ponderea pi a individului) pentru că
acesta ar fi un factor de instabilitate
Analiza statistică multidimensională
V. Folosirea variabilelor și indivizilor suplimentari
• Înglobarea indivizilor ilustrativi şi variabilelor pasive într-un ACP se realizează astfel:
• pentru indivizii ilustrativi, este suficient a calcula:
c j = x ilustr  u j
• pentru variabilele pasive, trebuie distins intre variabilele pasive continue şi variabilele pasive discrete :
• dacă variabila este continuă calculăm r(cj,y), y fiind variabila pasivă.
• dacă variabila este discretă atunci calculăm: r(c j , y k )

unde yk este centrul de greutate pentru indivizii din categoria k.


Analiza statistică multidimensională

V. Rotirea axelor
 Logica analizei componentelor principale se bazează pe ideea fundamentală că se pot face anumite transformări
asupra observațiilor inițiale, care să determine maximizarea varianței individuale pentru anumite variabile și
minimizarea varianței pentru alte variabile prin construirea unor noi fariabile, numite componente principale.

 Transformările care asigură maximizarea varianțelor individuale ale unor variabile sunt reprezentate de
transformările de coordonate corespunzătoare efectuării unor rotații ortogonale ale axelor originale.

 Dacă vom considera că în sistemul inițial de axe punctul reprezentat de cea de-a t-a observație are coordonatele
(xt1, xt2) atunci rotația axelor cu un anumit unghi () va determina o modificare a coordonatelor acestui punct,
respectiv a valorilor celor două observații astfel:
Analiza statistică multidimensională

Procedura VARCLUS SAS


• Este utilizată pentru reducerea numărului de variabile

• Se pornește cu toate variabilele intr-un cluster. Pentru acestea se aplica ACP pentru a împărți grupa
în doua subgrupe de variabile.

• Dacă a doua valoare proprie este mai mare decât punctul de referință stabilit (în general 0,7) atunci
clusterul inițial este împărțit in două.

• Procedeul se repetă până când a doua valoare proprie este mai mică decât valoarea de referință.
Analiza statistică multidimensională

Exemplul 1
In tabelul de mai jos avem informatii din anul 2008 despre 92 de tari cu privire la rata mortalitatii, rata
natalitatii, rata fertilitatii, cheltuielile publice pentru educatie, acces la facilitati sanitare, speranta de viata, acces
la surse de apa, cheltuielile publice pentru sanatate si forta de munca de sex feminin. Dorim sa vizualizam
relatiile intre variabilele precizate mai sus.
Analiza statistică multidimensională

Exemplul 1
Analiza statistică multidimensională

Exemplul 1
Analiza statistică multidimensională

Exemplul 1
Analiza statistică multidimensională

Exemplu 2
Pentru 50 de angajati s-au inregistrat date referitoare la:
- varsta
- venit
- numar salariati din intreprindere
- timpul de acasa la servici
- de cate ori pe luna lucrati mai mult de doua ore noaptea?
Analizati interdependentele intre aceste variabile si posibilele grupuri de indivizi utilizand ACP.
Analiza statistică multidimensională

Exemplul 2
Analiza statistică multidimensională

Analiza în componente
principale
Octombrie 2021

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională

Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul
variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
  n
 p2 
D=
 
 pi = 1
 i=1
 
0 pn 

• Produsul scalar a două variabile xj și xk este:


n
j
x ,x k
= x' Dx =  pi xik xij
j k
acesta fiind covarianța sjk dintre cele două variabile, dacă acestea sunt centrate
i =1

• Observație:
• Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Cosinusul unghiului dintre două variabile centrate este coeficientul de corelație dintre acestea
x j , xk s jk
cos  jk = = = rjk
x j  xk s j sk
Analiza statistică multidimensională
Rotirea sistemului de coordonate
• În sistemul inițial de axe punctul A are coordonatele (x1, x2). Dacă rotim axele cu un anumit unghi ,
coordonatele punctului în noul sistem de coordonate vor fi (x1*, x2 *) definite astfel:
• x1* = cos() x1 + sin() x2
• x2* = - sin() x1 + cos() x2

• Observație: Variația totală a punctelor reprezentate în sistemul de axe inițial este în totalitate conservată prin
reprezentarea grafică în noul sistem de axe.

• EXEMPLU: Sistemul de axe se rotește cu 45 de grade.


Observatie x1 x2 (x1)' (x2)'
1 7 10 12.02 2.12
2 5 11 11.31 4.24
3 10 14 16.97 2.83
4 3 5 5.66 1.41
5 5 10 10.61 3.54
media 6 10 11.31 2.83
dispersia 5.6 8.4 13 1
dispersia totala 14 14

(x1)'=cos(45) x1+ sin(45) x2

(x2)'= - sin(45) x1+ cos(45) x2


Analiza statistică multidimensională

4. Vectori și valori proprii


 Definiție: Fie o matrice ARnxn. Un număr   C se numește valoare proprie a matricei A, dacă există un vector
nenul x Cn astfel încât:

Ax= x

Vectorul x0 se numește vector propriu al matricei A asociat valorii proprii  .

 Valorile proprii ale matricei A sunt zerourile polinomului caracteristic:

P( )=det( In-A)

Observație: Orice matrice A are exact n valori proprii complexe, nu neapărat distincte.
Analiza statistică multidimensională

4. Vectori și valori proprii


 Exemplu:
Determinați valorile și vectorii proprii pentru matricea:

P( )=det( In-A)=0 

  
Analiza statistică multidimensională
Analiza în componente principale (ACP)
I. Definire şi utilizare
• este o metodă descriptivă
• pentru vizualizarea informaţiilor conţinute într-un tablou de date cantitative
• pentru vizualizarea corelaţiilor existente între variabile
• construieşte variabile noi, artificiale şi reprezentări grafice care permit vizualizarea relaţiilor între
variabile cât şi existenţa eventuală a unor grupuri de indivizi sau grupuri de variabile

• II. În practică, se lucrează cu datele centrate şi reduse.

• Tabelul de date se transformă în Z = (zij) x ij − x j


zij =
sj
Analiza statistică multidimensională

II. Principiul metodei


• ACP sintetizează variabilitatea iniţială a datelor privind cele p variabile iniţiale în câteva componente necorelate
între ele, numite componentele principale. Fiecare componentă principală este extrasă ca o combinaţie liniară
de variabile iniţiale. Metoda constă în extragerea celui mai mic număr de componente care preiau cea mai mare
parte a varianţei datelor iniţiale, adică în reducerea datelor iniţiale cu o pierdere minimă de „informaţie”.

• ACP ajută la obţinerea unei reprezentări apropiate a norului de n indivizi într-un spaţiu de dimensiune mică, prin
proiecţie

• Alegerea spaţiului de proiecţie se efectuează după criteriul următor: se caută subspaţiul de dimensiune k astfel
încât media pătratelor distanţelor între proiecţii să fie cea mai mare posibilă, deci inerţia norului proiectat pe
subspaţiul Fk să fie maximală
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• Se caută dreapta din Rp care să treacă prin centrul de greutate şi să maximizeze inerţia norului proiectat pe dreaptă.
• Prima componentă principală extrasă este acea combinaţie liniară de variabile care preia maximul posibil din varianţa datelor iniţiale.
Cea de-a doua componentă principală preia mai puţină varianţă, şi aşa mai departe.

• Subspaţiul Fk, de dimensiune k este generat de cei k vectori proprii ai lui SM asociaţi celor mai mari k valori proprii, unde S este
matricea de covarianţă

Valorile proprii
 s 2 s12  s1n 
 1 1. Măsoară cantitatea de varianţă „explicată” de fiecare
s s 22  s 2n  componentă principală.
S= 21

    2. Descresc odată cu indexul componentei, prima
s componenta principală având valoarea proprie maximă.
 n1 s n 2  s 2n 
3. Au suma egală cu p (numărul variabilelor iniţiale).
4. Exprimă „importanţa” componentelor principale

• Dacă primele k componente principale preiau 80% sau mai mult din varianţa datelor iniţiale, atunci scopul reducerii dimensionalităţii
va fi atins.
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• În cazul în care se lucrează cu un tabel de date centrat şi redus Z, asociat lui X:
• metrica folosită va fi M = I
• matricea de covarianţă a datelor centrate şi reduse va fi matricea de corelaţie R
deci factorii principali vor fi vectorii proprii succesivi ai lui R,
aranjaţi după ordinea descrescătoare a valorilor proprii:

Ru = u cu u2 = 1
• Interes practic mai au doar componentele principale calculate drept combinaţii liniare de variabilele
centrate-reduse:
c = Zu
• c este variabila cea mai legată de xj în sensul sumei pătratelor corelațiilor:
p

 r
j=1
2
( c, x j
)
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale

ACP înlocuieşte variabilele iniţiale x1, x2, ..., xp,


care sunt corelate, prin variabile noi,
componentele principale c1, c2, ....,
combinaţii liniare ale variabilelor iniţiale xj,
necorelate între ele, de dispersie maximală şi
legate foarte mult de variabilele iniţiale xj,
în sensul păstrării informaţiei cât mai mult posibil
Analiza statistică multidimensională
Exemplu de calcul
Analiza în Componente Principale
Matricea X Matricea standardizata Z
Observatie x1 x2 x3 X1std X2std X3std
1 7 10 11 0.59 0.00 1.34
2 5 11 10 -0.27 0.33 0.99 Matricea de Corelatie R Column 1 Column 2 Column 3
3 10 14 8 1.88 1.30 0.30 Column 1 1 0.840042 0.219708
4 3 5 9 -1.13 -1.63 0.65 Column 2 0.840042 1 0.080211
5 5 10 3 -0.27 0.00 -1.42 Column 3 0.219708 0.080211 1
6 7 12 5 0.59 0.65 -0.73
7 3 6 4 -1.13 -1.30 -1.08
8 5 12 7 -0.27 0.65 -0.04
Media 5.63 10.00 7.13 0.00 0.00 0.00
Abaterea medie patratica 2.33 3.07 2.90 1.00 1.00 1.00
Analiza statistică multidimensională
Exemplu calcul
Analiza în Componente Principale

Componentele principale
sunt: Zu

c1 c2 c3
0.72 1.24 -0.26
0.26 0.89 0.53
2.26 -0.19 -0.40
-1.74 1.12 -0.24
-0.52 -1.34 0.02
0.68 -0.91 -0.06
-1.92 -0.62 -0.23
0.24 -0.18 0.64
Analiza statistică multidimensională

Exemple Analiza Cluster


Octombrie 2021

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională

EXEMPLUL 1
• Pentru identificarea grupelor de tari in functie de turism si
5. % gospodarii cu acces la internet
nivelul de dezvoltare a fost realizat un studiu realizat la nivelul
6. % celor ce fac cumparaturi pe internet
tarilor europene utilizand date pentru anul 2018 de pe Eurostat.
7. % Investitii protectia mediului
Variabilele folosite au fost :
8. PIB pe locuitor
1. % calatorii munte
2. % calatorii rezervate internet-
3. Cheltuieli medii pe noapte
4. % TIC in PIB
Analiza statistică multidimensională
• Prin aplicarea metodei Ward pentru datele
standardizate (metoda standard deviation) s-au
obtinut urmatoarele rezultate:
Analiza statistică multidimensională
Analiza statistică multidimensională
• Prin aplicarea metodei Ward pentru datele
standardizate (metoda range) s-au obtinut
urmatoarele rezultate:
Analiza statistică multidimensională
Metoda Complete Linkage Metoda Average Linkage
Analiza statistică multidimensională

Exemplul 1
• Prin aplicarea metodei centrelor mobile pentru datele standardizate s-au obtinut rezultatele:
Analiza statistică multidimensională

Exemplul 1
Analiza statistică multidimensională

Exemplul 2
• Pentru identificarea grupelor de tari in functie
de utilizarea internetului a fost realizat un
studiu la nivelul tarilor europene utilizand date
pentru anul 2018 de pe Eurostat. Variabilele
folosite au fost exprimate in procente in
populatia totala a persoanelor ce folosesc
internetul pentru : Online course
, Sending/receiving e-mails , Social
networks, Online news , Internet
banking, Educational websites/portals , Online
learning ,Selling goods or services , Travel
and accommodation services.
• Prin aplicarea metodei Ward pe date
nestandardizate s-au obtinut urmatoarele
rezultate:
Analiza statistică multidimensională

Exemplul 2
Analiza statistică multidimensională

Exemplul 2 Prin aplicarea metodei centrelor mobile pe date nestandardizate


s-au obtinut urmatoarele rezultate:
Analiza statistică multidimensională

Analiza Cluster
Curs 3 - Octombrie 2021

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
EXEMPLUL 3 (SPSS) – Clusterizare Ierarhica
Fie o bază de date în care sunt observate diverse variabile economico-
sociale pentru 33 de țări. Să se grupeze țările în funcție de nivelul de
educație.
EXEMPLUL 3 (SPSS)
EXEMPLUL 3 (SPSS)
• Alegerea numărului de grupe:
• 1. Prin agglomeration schedule:
• În coloana Coefficients, vom face diferențe pornind de la ultimele doua nivele:
• 31-30= 44,198-38,144=6,054
• 30-29=38,144-32,794= 5, 350
• 29-28=32,794-28,584= 4,210

• Se observă că diferența cea mai mare este între nivelul 31 și 30. Astfel țările vor fi împărțite în 2 grupe.

• 2. Prin dendograma
• Graficul atinge ultimul nivel la valoarea 25 (in-1=25), penultimul nivel la valoarea 22 (in-2=22), etc.
• in-1-in-2= 25-22=3
• in-2-in-3=22-18=4
• in-3-in-4=18-15=3
• in-4-in-5=15-12=3

Se observă că diferența cea mai mare este 4. Astfel se recomandă împărțirea țărilor în 3 grupe.


Analiza statistică multidimensională
Metode de clusterizare
ALTE METODE IERARHICE

• 1. Metoda agregării simple (distanţa saltului minimal sau Single Linkage)


• Este o metodă de clasificare ierarhică de tip ascendent, care comasează în fiecare etapă a clasificării acele două clustere
pentru care distanța dintre cei mai apropiați vecini este cea mai mică, în comparație cu alte perechi de clustere
• Măsura de similaritate folosită este: inf(A,B)=inf d(ei,ej) eiA, ejB 
• Această metodă este recomandată atunci când clasele sunt relativ omogene atât în interiorul lor cât şi în interiorul norului.

• II. Metoda agregării complete (distanţa saltului maximal sau Complete Linkage).
• Este o metodă de clasificare ierarhică de tip ascendent, care comasează în fiecar etapă a clasificării acele două clustere
pentru care distanța dintre cei mai depărtați vecini este cea mai mică, în comparație cu alte perechi de clustere
• Măsura de similaritate folosită este: sup(A,B)=sup d(ei,ej) eiA, ejB 
• Aceasta se numeşte Când metoda anterioară nu funcţionează, se poate aplica această metodă.
Analiza statistică multidimensională
Metode de clusterizare
ALTE METODE IERARHICE

• III. Metoda agregării medii (distanța medie sau Mean Linkage)


• Este o metodă de clasificare ierarhică de tip ascendent, care comasează în fiecare etapă a clasificării acele două
clustere pentru care distanța medie dintre toate perechile formate cu obiecte din cele două clustere este cea mai
mică, în comparație cu alte perechi de clustere.
• Măsura de similaritate folosită este:
1
med(A,B)= 𝑝 ⋅ 𝑝 ෍ ෍ 𝑑(𝑒𝑖 , 𝑒𝑗 )
𝐴 𝐵 𝑒 𝑖 ∈𝐴 𝑒 𝑗 ∈𝐵

• Aceasta se numeşte distanţa medie şi este un compromis între cele două anterioare.

• Observație: Deoarece ierarhiile generate prin aceste metode pot fi foarte diferite, se recomandă
folosirea mai multor metode. Dacă partiţiile cu un număr mic de clase sunt foarte diferite între
ele, atunci este posibil ca mulţimea indivizilor să nu poată fi împărţită în clase.
Analiza statistică multidimensională

Observații:
• Deoarece ierarhiile generate prin aceste metode pot fi foarte
diferite, se recomandă folosirea mai multor metode.
• Dacă partiţiile cu un număr mic de clase sunt foarte diferite între
ele, atunci este posibil ca mulţimea indivizilor să nu poată fi
împărţită în clase.
Analiza statistică multidimensională

Procedurile SAS
PROC CLUSTER DATA=data METHOD=WARD CCC
OUTTREE=cluster ;
VAR var1-var7;
ID disjoint;
RUN;

PROC TREE DATA=cluster NCLUSTERS=4


OUT=hierclus (RENAME=(CLUSTER=hierarch)) NOPRINT;
ID disjoint;
RUN;

PROC SORT DATA=hierclus;


BY disjoint;
RUN;
Analiza statistică multidimensională
Determinarea numărului optim de clustere
• Criteriul R square
• Este proporția varianței explicată de clusteri
• R square trebuie să fie mai mare de 0,5 pentru ca variația explicată de clusteri să fie peste 50%
• Numărul optim de clustere se obține acolo unde pierderea de omogenitate la gruparea a două clase este maximă, deci R square partial este maxim
• Criteriul Cubic Clustering Criterion – CCC
• CCC mai mare de 2 sau 3 indică grupări bune
• CCC între 0 și 2 indică posibile clustere, dar ar trebui interpretate cu prudență
• dacă toate valorile CCC sunt negative și în scădere pentru două sau mai multe clustere, distribuția este, probabil, unimodală sau coadă lungă
• valorile puternic negative ale CCC, să zicem, -30, s-ar putea datora unor valori outliers
• Criteriul Pseudo F
• descrie raportul dintre variația dintre clustere și variația din interiorul clusterului. Dacă Psuedo F scade, înseamnă că variația în interiorul clusterului
crește sau rămâne statică (numitor) sau variația dintre clustere scade (numărător).
• Numărul optim de clustere se obține atunci când acest raport nu mai înregistrează scăderi importante.
• Criteriul Pseudo T square
• Numărul optim de clustere se obține acolo unde se înregistrează cea mai brusă creștere a acestei valori analizând graficul de la dreapta la stânga
Analiza statistică multidimensională

Examples
Există outliers și nu există nici o partiție a populației în clustere bine definite. Numărul recomandat de clustere este 3 sau 11.
Analiza statistică multidimensională
Numărul recomandat de clustere este 3 sau 5. Examples
Care este numărul recomandat de clustere?
Analiza statistică multidimensională
II. Metode de clasificare
METODE DE CLASIFICARE NEIERARHICE
• se folosesc atunci când se cunoaşte numărul de clase în care se doreşte împărţirea indivizilor
• se presupune că cei n indivizi sunt puncte într-un spaţiu euclidian inclus în Rp, distanţa dintre
indivizi fiind cea euclidiană
• scopul fiecărei clasificări este de a obţine clase cât mai omogene: variabilitatea norului de puncte,
în interiorul unei clase să fie cât mai mică
• Ideea metodei: se porneşte cu k clase aleatoare şi se schimbă indivizii între clase astfel încât:
• să se minimizeze variabilitatea în interiorul claselor (dispersia intraclase)
• să se maximizeze variabilitatea dintre clase (dispersia interclase)
Analiza statistică multidimensională
II. Metode de clasificare
METODE DE CLASIFICARE NEIERARHICE

Cum se formează clusterii?

Preluat de pe: www.statapp.co.uk


Analiza statistică multidimensională
Metode de clasificare
METODE DE CLASIFICARE NEIERARHICE
• g1, ..., gk sunt centrele de greutate ale claselor C1, ..., Ck:
nj

• inerţia intraclasă este: I i =  p j d 2 ( j , g i ) i = 1, k


j =1
unde pj este ponderea individului j
k
• inerţia intraclase este: IW =  Γ i I i
i =1

unde i este ponderea clasei i


k
• inerţia interclase este: I B =  Γ i d ( g i , g )
2

i =1
unde g este centrul de greutate al întregului nor de puncte

• inerţia totală a norului de puncte: I = IW + IB


Analiza statistică multidimensională
Metode de clasificare
METODE DE CLASIFICARE NEIERARHICE
• metoda centrelor mobile (a lui Forgy)
• 1. se aleg k puncte distincte din mulţimea X, notate cu c1, c2, ..., ck
se iniţializează contorul de numărare a operaţiilor j=0
• 2. se împarte mulţimea X în k clase astfel:  
X ci = x  X d ( x, ci )  d ( x, cl ), l = 1,n, l  i , i = 1,k


• 3. se calculează centele de greutate ale partiţiei X i( j ) 
i =1, k
şi se notează cu X 
ci i =1, k

se calculează I W( j +1) inerţia intraclase a partiţiei

• 4. dacă  j  N atunci STOP


 g i i =1,k
sau
 ( j +1)
 I W − I W  
( j)

ci = g i ,  i = 1, k
altfel  şi se trece la pasul 2.
 j = j +1
Analiza statistică multidimensională
Metode de clasificare
METODE DE CLASIFICARE NEIERARHICE
• algoritmul converge rapid
• La fiecare pas este necesar calculul a n k distanţe, dintre cei n indivizi şi cele k centre de greutate. De aceea
nu este necesară memorarea tabelului cu cele n(n-1)/2 distanţe dintre cei n indivizi
• Inconvenientele metodei:
• k trebuie cunoscut apriori
• optimul este dependent de alegerea iniţială a punctelor ci 
Procedurile SAS
PROC FASTCLUS DATA=data
OUT=outfast OUTSEED=centres CLUSTER=disjoint
MAXCLUSTERS=20 DELETE=50 MAXITER=100;
VAR var1-var7;
RUN;

DELETE=50 previne formarea clusterilor cum


mai putin de 50 de indivizi

MAXCLUSTER= număr maxim de clustere


RADIUS= separarea minimă a clusterelor
EXEMPLUL 4
Utilizatorii de Internet pe Mobil
• Se grupează mai întâi datele în 20 de clusteri
EXEMPLUL 4
Utilizatorii de Internet pe Mobil
• Se realizează o clasificare ierarhică pe centrele de greutate ale celor 20 de
clusteri creați la pasul anterior
Analiza statistică multidimensională

Analiza Cluster
Curs 2 - Octombrie 2021

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională

Noțiuni introductive
analiză factorială
Analiza statistică multidimensională

• prima referinţă la medotele de analiză factorială a făcut-o în anul 1901 Karl Pearson

• în anul 1933 a fost integrată statisticii matematice de către Harold Hotelling

• În ceea ce privește metodele și tehnicile de analiză de tip cluster: primele lucrări datează din 1963
Sokal și Sneath și în 1967 Lance și Williams. Preocupările au crescut exponențial și s-au
diversificat foarte mult.

• Au existat două școli: franceză și americană. Benzecri, Jambu, Lebart, Morineau, Saporta sunt
printrei cei mai cunoscuți autori francezi.

• a început să fie utilizată efectiv după dezvoltarea metodelor actuale de calcul cu ajutorul
calculatoarelor
Analiza statistică multidimensională

1. Datele și caracteristicile lor:

Configurarea norului
de punte în spaţiu

vizualizarea punctelor regruparea punctelor


în cel mai bun spaţiu în spaţiu
redus (ACP, ACM) (metode de clusterizare)
Analiza statistică multidimensională

1. Datele și caracteristicile lor:


Tabelul de date valoarea variabilei j
pentru individul i

Utilizatorii metodelor
factoriale pleacă de la un
Vectorul linie vector coloană
tablou de măsuri, pe coloane
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate
variabilele xj

n puncte în Rp p puncte în Rn
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea ponderilor; Centrul de greutate
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea dispersie covarianță
Analiza statistică multidimensională
Analiza statistică multidimensională
Analiza statistică multidimensională

2. Spațiul indivizilor
• Fiecare individ este un punct definit prin p coordonate, element al unui spaţiu vectorial FRp denumit
spaţiul indivizilor.

• Mulţimea de n indivizi este atunci un nor de puncte în F şi g este centrul de greutate al norului

• Metrica folosită pentru definirea distanţei dintre doi indivizi este M = D1/s2 unde D1/s 2 este matricea
diagonală a inverselor dispersiilor

• Inerția totală a norului de puncte este media ponderată a pătratelor distanțelor punctelor față de
centrul de greutate
Analiza statistică multidimensională

3. Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.

p1 0
  n
 p2 
D=
 
 pi = 1
 i=1
 
0 pn 
• Produsul scalar a două variabile xj și xk este:

care este covarianța sjk dintre cele două variabile, dacă acestea sunt centrate

• Observație: Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Unghiul dintre două variabile centrate este:

fiind coeficientul de corelație liniară


Analiza statistică multidimensională

Analiza Cluster
• Analiza cluster poate fi definită ca reprezentând o mulțime de principii, metode și algoritmi de
clasificare, având ca scop organizarea datelor sub forma unor structuri informaționale semnificative,
relevante

• Analiza cluster are ca scop căutarea și identificarea de clase, grupe sau clustere în cadrul unor
mulțimi de obiecte sau forme, astfel încât elementele care aparțin aceleiași clase să fie cât mai
asemănătoare, iar elementele care aparțin la clase diferite să fie cât mai deosebite între ele.

• Observație: Analiza cluster poate fi utilizată atât pentru clasificarea obiectelor, cât și pentru
clasificarea variabilelor care definesc obiectele.

• Două tipuri de metode de clusterizare:


• metode ierarhice, care produc şiruri de partiţii în clase din ce în ce mai mari
• metode neierarhice, care produc o partiţie într-un număr prestabilit de clase
Analiza statistică multidimensională

Etapele analizei cluster


• alegerea caracteristicilor în funcție de care se va face clasificarea;

• alegerea tipului de măsură pentru evaluarea proximității dintre obiecte;

• stabilirea regulilor de formare a claselor sau clusterelor;

• construirea claselor, adică încadrarea obiectelor în clase;

• verificarea consistenței și semnificației clasificării;

• alegerea unui număr optimal de clustere, în funcție de natura problemei de clasificare și de


scopurile urmărite;

• interpretarea semnificației clusterelor


Analiza statistică multidimensională

Noţiuni introductive
Caracterizarea indivizilor

• În Rp poate fi definită funcţia d, distanţă pe X cu proprietăţile:

1. d(x,y) = d(y,x)  x, y  X
2. d(x,y)  0,  x, y  X
d(x,y) = 0  x = y
3. d(x,y)  d(x,z) + d(z,y),  x, y, z  X
Analiza statistică multidimensională

Distanța euclidiană
Y

Este sensibilă la scala de măsurare


Y2

Y2-Y1
Scalele mari vor domina măsura
Y1

X2-X1
Standardizați datele
X1 X2 X

D = ( X 2 − X 1) 2 + (Y 2 − Y 1) 2
Analiza statistică multidimensională
Noţiuni introductive
Caracterizarea indivizilor
Tipuri de distanţe:
• distanţa euclidiană: d ( x, y ) =  (x
i
i − yi ) 2

• este distanța „obișnuită” între două puncte, dată în coordonate carteziene de formula lui Pitagora.

• pătratul distanţei euclidiene: d ( x, y ) =  (x


i
i − yi ) 2
• este folosita atunci când dorim să acordăm o importanță sporită punctelor depărtate

• distanţa city-block (Manhattan): d ( x, y ) = x i − yi


• Este distanța dintre două puncte parcursă ca atuncii când trebuie să mergi pe străzile care ocolesc clădirile în loc să
mergi în linie dreaptă

• distanţa Cebîşev: d ( x, y ) = max xi − y i


i
• Este distanța dintre două puncte parcursă ca un rege pe tabla de sah
Analiza statistică multidimensională
Noţiuni introductive
Caracterizarea indivizilor
• Indicele de similaritate pe X este o funcţie s : X  X → R+
cu proprietăţile:

1. s(x,y) = s(y,x)  x, y  X
2. s(x,y)  0,  x, y  X
3. s(x,x)  s(x,y),  x, y  X , adică nu există un individ mai asemănător ca el însuşi.

• Indicele de disimilaritate pe X este o funcţie d : X  X → R+ cu proprietăţile:


1. d(x,y) = d(y,x)  x, y  X
2. d(x,y)  0,  x, y  X
3. d(x,x) = 0,  x  X
Analiza statistică multidimensională
Noţiuni introductive
Caracterizarea indivizilor
• O situaţie frecvent întâlnită este cea în care datele sunt prezentate în forma următoare: cei n indivizi sunt descrişi prin
prezenţa sau absenţa a r caracteristici (datele iniţiale sunt sub formă binară, variabilele sunt dichotomice). În această
situaţie, fiecare cuplu de indivizi (x,y) este caracterizat de 4 numere:
• a = numărul de caracteristici comune (pe care le posedă ambii indivizi);
• b = numărul de caracteristici posedate de primul individ din cuplu, dar nu şi de cel de-al doilea;
• c = numărul de caracteristici posedate de cel de-al doilea individ, dar nu şi de primul.
• d = numărul de caracteristici ce nu sunt posedate nici de unul, nici de celălalt individ.

• Pe baza acestor patru numere se construieşte tabelul de similaritate sau prin completare în raport cu 1, cel de
disimilaritate, utilizând diferiţi indici, ca de exemplu:
a
• indicele Jaccard:
a+b+c
2a
• indicele Czekanowski:
2a + b + c
a
• indicele Ochicii:
(a + b)(a + c)
a
• indicele Russel şi Rao:
a+b+c+d
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
• Fie E o mulţime.
• HP(E) se numeşte ierarhie dacă şi numai dacă:
• 1. PiP(E) aî card(Pi)=1  E şi Pi  H
• 2. A,BH  AB  A,B,
• 3. AH ,A=  Ci | Ci≠A , Ci  H Nivel
a b c d e
• Exemplu: E=a,b,c,d,e
H = , a,b c d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d,e
a,b,c,d,e
a,b,c,d,e
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE

• O ierarhie se numeşte indexată dacă există o funcţie i:H→R+ astfel


încât :
• A,BH astfel încât AB  i(A)i(B)
• i(A) = nivelul pentru care pentru prima oară se găsesc agregate toate
elementele lui A

• Observaţie: Cu cât nivelul de agregare este mai mare cu atât


mulţimea este mai eterogenă
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE

?
Cum definim distanța dintre
clusteri??

Preluat de pe: www.statapp.co.uk


Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
Măsurarea distanței dintre clusteri

Cel mai apropiat vecin=Single Linkage


Preluat de pe: www.statapp.co.uk
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
Măsurarea distanței dintre clusteri

Cel mai departat vecin=Complete Linkage


Preluat de pe: www.statapp.co.uk
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
Măsurarea distanței dintre clusteri

Media gupului=average distance between all pairs


Preluat de pe: www.statapp.co.uk
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
Măsurarea distanței dintre clusteri

Metoda Ward – Minimizează variabilitatea din interiorul clusterului

Preluat de pe: www.statapp.co.uk


Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
• Metoda WARD: când pe spaţiul ERp este definită o distanţă euclidiană
• calitatea unei partiţii este definită prin inerţia intraclase sau cea interclase
• o partiţie bună are inerţia interclase mare sau inerţia intraclase mică
• când se trece de la o partiţie cu k+1 clase la una cu k clase, se observă că inerţia
interclase scade, pentru că cea intraclase creşte prin creşterea heterogenităţii claselor
partiţiei
• Criteriul de grupare: vor fuziona acele două clase pentru care pierderea de inerţie
interclase este minimă
• Metoda WARD introduce ca distanţă între 2 clase pierderea de inerţie interclase ce s-
ar obţine prin contopirea celor două clase.
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
• 1. Dacă:
• A şi B sunt două clase ale unei partiţii a mulţimii E
• gA şi gB sunt centrele lor de greutate
• pA şi pB sunt ponderile claselor
atunci centrul de greutate al mulţimii AB, gAB este : p A g A + pB g B
g AB =
p A + pB

p A pB 2
• 2. Distanţa dintre două clase după metoda WARD este:  ( A, B) = d (g A, gB )
p A + pB


• 3. Partiţia generată de algoritmul WARD este o partiţie ierarhică.
• 4. Algoritmul WARD generează o ierarhie indexată cu i(AB)= (A,B).
Analiza statistică multidimensională

Analiza statistică
multidimensională
Curs 1 - Octombrie 2021

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională

I. Prezentare curs
Analiza statistică multidimensională
Conținutul cursului
• I. Introducere: notiuni elementare, norul de indivizi şi de variabile.

• II. Analiza cluster: Domenii de aplicare; Descrierea metodei de clsterizare


ierarhica.Interpretare arborii de clasificare; Descrierea metodei de clusterizare
neierarhica; Interpretarea clusterilor; Complementaritate cu metodele anterioare

• III. Analiza componentelor principale: Domenii de aplicare. Descrierea metodei.


Interpretare geometrica. Analiza norului de indivizi. Analiza norului de puncte variabile.

• IV. Analiza factoriala a corespondentelor multipla: Notiuni si definitii. Domenii de


aplicare. Descrierea metodei. Variabilele suplimentare. Interpretarea reprezentarilor
simultane.

• V. Analiza discriminanta si legatura cu alte metode: Descrierea metodei de analiza


discriminata. Interpretarea rezultatelor; Analiza discriminanta si analiza componentelor
principale

• VI. Modelul de regresie: Regresia multipla si legatura cu alte medote de analiza


multidimensionala; Regresia pentru date de tip panel
Analiza statistică multidimensională
Bibliografie
• Titluri bibliografice în română
• Andrei T. (2003) - Statistica si Econometrie, Ed. Economica
• Boboc C. (2007), Analiza statistica multidimensionala, Meteor Press
• Saporta G., Stefanescu V.(1996), Analiza datelor & informatica, Ed. Economica, Bucuresti.
• Spircu L., Spircu T., Calciu M.(1994), Analiza datelor de marketing, Ed. ALL, Bucuresti

• Titluri bibliografice în limbi străine


• Richard Johnson, Dean Wichern (2014) - Applied Multivariate Statistical Analysis (Classic Version), 6th Edition, Pearson Education Limited
• Theodore W. Anderson (2003) - An Introduction to Multivariate Statistical Analysis 3rd Edition, Whiley

• Bouroche J–M, Saporta G. (1980), “L’analyse des données”, Presses Universitaires de France, Paris

• Lebart L., Morineau A., Piron M. (1997): Statistique exploratoire multidimensionnelle, Dunod
Analiza statistică multidimensională
Structura notei finale
• Examen final scris: 60% din nota finală

• Prezență și activitate seminar: 15% din nota finală


• Evaluarea capacității de înțelegere și aplicare a tehnicilor de analiză a datelor specifice unei baze de date în SAS - testare seminar 10%
• Prezente – 5%

• Proiect: 25% din nota finală


• Evaluarea capacității de a parcurge corect o metodologie de analiză a datelor
• 2-3 membri în echipă
• De realizat o analiză in SAS pe o bază de date reală
• Veti fi evaluati pentru proiectul scris dar si pentru prezentarea acestuia
Analiza statistică multidimensională

Analiza multidimensionala
Definire
Analiza statistică multidimensională
Analiza statistică multidimensională
Modelarea multidimensională
• Susține interogarea ad-hoc a analistului de business

• Datele sunt organizate de teme majore: clienţii, produse, vanzari, …

• Subiect = fapte + dimensiuni


• Colectează date relevante cu privire la un subiect
• Exemplu: vânzări

• Sintetizează o vedere unică de evenimente care urmează să fie analizate


• Exemplu: vânzări (nr, produs, perioada, magazin)

• Detalii pe diverse dimensiuni


• Exemplu: Produse (IDprod, descriere, culoare, dimensiune, ...)
Magazine (IDMAG numele, oraşul, ţara dept,)
Perioade (IDper, an, trimestru, lună, zi)
Analiza statistică multidimensională

Ce este analiza multidimensională?


• Analiza statistică multidimensională urmărește utilizarea celor mai adecvate metode statistico-
matematice pentru:
• Obținerea de reprezentări grafice sintetice

• Reducerea dimensiunii pentru comprimarea sau rezumarea datelor

• Cercetarea și reprezentarea tipologiilor de observații

• Estimații și inferență statistică a datelor


Analiza statistică multidimensională

Metode de analiză multidimensională


• Metode de învățare nesupervizate:
• Analiza în componente principale
• Analiza de corespondențe simplă și multiplă
• Analiza canonica
• Analiza cluster
• Metode de învățare supervizate și de previziune
• Analiza discriminantă
• Regresia logistică
• Regresia multiplă
• Analiza de regresie pentru date de tip panel
• Modele cu ecuații structurale
Analiza statistică multidimensională
Rafinarea datelor

• Datele înregistrate obținute prin măsurarea, pe o scală corespunzătoare și nesupuse


proiectului de transformare sau de prelucrare se numesc date de intrare, date
primare, date totale sau date originale.

• Datele pot fi influențate de:


• factori accidentali care conduc la date aberante;
• factori structurali ce afectează comparabilitatea lor

• Pentru asigurarea consistenței, relevanței și comparabilității datelor este necesară


rafinarea sau purificarea datelor primare
Analiza statistică multidimensională
Rafinarea datelor

• se realizează în general prin:


• recalcularea datelor după metodologii care au ieșire date comparabile;

• interpolare sau completarea datelor omise;

• extrapolarea: completarea datelor omise la capetele seriilor de timp;

• ajustarea datelor, netezirea datelor: pentru eliminarea perturbațiilor sau


zgomotelor (perturbațiile aleatoare sunt denumite și zgomote albe) și
obținerea datelor care exprimă tendința (trendul).
Analiza statistică multidimensională
Transformarea datelor
• se realizează prin operații de prelucrare primară asupra datelor primare: centrare și standardizare sau logaritmare

• Valori reale (xi), sunt mărimi concrete, pozitive, exprimate în unităţi de măsură specifice naturii fenomenului X. Vectorul valorilor lui X poate
fi definit prin 2 parametri:
n

• Media arimetică (M(x)):


x i
x i 1

 x  x   x 
n n n
2
2
i i x
• Abaterea medie pătratică:  x   x2  i 1 unde:  x2  D 2 x   i 1
 dispersia
n n

• Valori centrate xi*  xi  x

• Media: x *
 M x  
* x *
i

 x i x 0
i
n n
 x   x 
2 2
*
 x* x
• Dispersia: D x     D 2 x 
2 * i i

n n
Analiza statistică multidimensională
Transformarea datelor
xi  x
• Valori centrate şi normate: xi** 
x
 xi  x 
   x 
 1
 x
• Media: x **
 M x  
x **
**
i
  x   x
i

0
n n n
2
 x  x
  i  12  x 
2
x
x    x 2
**
 M (x ) ** i
 x2
 
• Dispersia: x 
 x  2 1
2 ** i
D
n n n x

• Valori logaritmate: ln( xi )

• Media: ln( x )  M ln( x )  


 ln( x i )

ln(  xi ) 1
 ln(  xi )  ln( MG ( xi ))
n
i i
n n
2
  
  x 
  ln  i 1
2
 1
 
  ln( xi )  ln(  xi ) n 
   ( x )n  ?
  i 
• Dispersia: D 2 ln( xi )        D 2 xi 
n n
Analiza statistică multidimensională

Noțiuni introductive
analiză factorială
Analiza statistică multidimensională

• prima referinţă la medotele de analiză factorială a făcut-o în anul 1901 Karl Pearson

• în anul 1933 a fost integrată statisticii matematice de către Harold Hotelling

• În ceea ce privește metodele și tehnicile de analiză de tip cluster: primele lucrări datează din 1963
Sokal și Sneath și în 1967 Lance și Williams. Preocupările au crescut exponențial și s-au
diversificat foarte mult.

• Au existat două școli: franceză și americană. Benzecri, Jambu, Lebart, Morineau, Saporta sunt
printrei cei mai cunoscuți autori francezi.

• a început să fie utilizată efectiv după dezvoltarea metodelor actuale de calcul cu ajutorul
calculatoarelor
Analiza statistică multidimensională

1. Datele și caracteristicile lor:

Configurarea norului
de punte în spaţiu

vizualizarea punctelor regruparea punctelor


în cel mai bun spaţiu în spaţiu
redus (ACP, ACM) (metode de clusterizare)
Analiza statistică multidimensională

1. Datele și caracteristicile lor:


Tabelul de date valoarea variabilei j
pentru individul i

Utilizatorii metodelor
factoriale pleacă de la un
Vectorul linie vector coloană
tablou de măsuri, pe coloane
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate
variabilele xj

n puncte în Rp p puncte în Rn
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea ponderilor; Centrul de greutate
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea dispersie covarianță
Analiza statistică multidimensională
Analiza statistică multidimensională
Analiza statistică multidimensională

2. Spațiul indivizilor
• Fiecare individ este un punct definit prin p coordonate, element al unui spaţiu vectorial FRp denumit
spaţiul indivizilor.

• Mulţimea de n indivizi este atunci un nor de puncte în F şi g este centrul de greutate al norului

• Metrica folosită pentru definirea distanţei dintre doi indivizi este M = D1/s2 unde D1/s 2 este matricea
diagonală a inverselor dispersiilor

• Inerția totală a norului de puncte este media ponderată a pătratelor distanțelor punctelor față de
centrul de greutate
Analiza statistică multidimensională

3. Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.

p1 0
  n
 p2 
D
 
 pi  1
 i=1
 
0 pn 

• Produsul scalar a două variabile xj și xk este:

care este covarianța sjk dintre cele două variabile, dacă acestea sunt centrate

• Observație: Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Unghiul dintre două variabile centrate este:

fiind coeficientul de corelație liniară


Seminar ianuarie 2022

RECAPITULARE

(probleme de calcul)
Prof. coordonator: Prof.univ.dr. Cristina Boboc

1. Presupunem că se dorește gruparea a 7 observații utilizând algoritmul Ward. După primul pas,
clusterele formate sunt următoarele: (2,2); (4,4), {(5,5); (6,6)}; (0,4); (4,0); (9,9). Care este nivelul
de agregare la acest pas ? Dar distanța dintre punctul (4,4) și grupa {(5,5); (6,6)} ?
2. Presupunem că se dorește gruparea a 7 observații în 3 clustere utilizând algoritmul centrelor mobile.
După prima iterație, clusterele formate sunt următoarele: C1: {(2,2), (4,4), (6,6)}; C2: {(0,4),
(4,0)}; C3: {(5,5), (9,9)}. Continuați algoritmul cu a doua iterație, identificând noile clase formate.
3. Fie două variabile x1 și x2 standardizate al căror coeficient de corelație este 0,96. Determinați
valoarea proprie asociată primei componente principale. Informația din variabilele inițiale x 1 și x2
este bine explicată de informația din această primă componentă principală?
4. De recapitulat si problemele de calcul rezolvate in seminariile 3 si 4.

REZOLVARE

2. Pentru clusterul C1: {(2,2), (4,4), (6,6)} centrul de greutate este :

GC1=(4,4)

Pentru clusterul C2: {(0,4), (4,0)} centrul de greutate este :

GC2=(2,2)

Pentru clusterul C3: {(5,5), (9,9)} centrul de greutate este :

GC3=(7,7)

Pentru a determina in ce clusteri se afla indivizii, vom calcula:

d(i, GC1), d(i, GC2) si d(i, GC3) se va alege clusterul pentru care se obtine distanta minima

(2,2): d((2,2), (4,4))=√8 d((2,2), (2,2))=0 d((2,2), (7,7))=√50 → min=0, deci (2,2)𝐶2
(4,4): d((4,4), (4,4))=0 d((4,4), (2,2))= √8 d((4,4), (7,7))=√18 → min=0, deci (4,4)𝐶1

(4,0): d((4,0), (4,4))=4 d((4,0), (2,2))= √𝟖 d((4,0), (7,7))=√58 → min=√8, deci (4,0)𝐶2

(0,4): d((0,4), (4,4))=4 d((0,4), (2,2))= √𝟖 d((0,4), (7,7))=√58 → min=√8, deci (0,4)𝐶2

(5,5): d((5,5), (4,4))= √2 d((5,5), (2,2))= √18 d((5,5), (7,7))=√8 → min=√2, deci (5,5)𝐶1

(6,6): d((6,6), (4,4))= √8 d((6,6), (2,2))= √32 d((6,6), (7,7))=√𝟐 → min=√2, deci (6,6)𝐶3

(9,9): d((9,9), (4,4))= √50 d((9,9), (2,2))= √98 d((9,9), (7,7))=√𝟖 → min=√2, deci (9,9)𝐶3

Clasele noi formate sunt :

C1: {(4,4), (5,5)}

C1: {(2,2), (4,0), (0,4)}

C1: {(6,6), (9,9)}

3. Matricea de corelatie este:

1 0.96
𝑅=( )
0.96 1

Factorii principali vor fi vectorii proprii succesivi ai lui R, aranjați după ordinea descrescătoare a valorilor
proprii ale matricei R. Valoarea proprie asociată primei componente principale este cea mai mare valoare
proprie asociată matricei R:

Ru = u

𝜆 − 1 −0.96
P( )=det( In-R)= | |=( 𝜆 − 1)2 − 0.962 = ( 𝜆 − 1.96) (𝜆 − 0.04) =0
−0.96 𝜆 − 1

Deci 𝜆1=1.96 și 𝜆2=0.04

Variantia explicate de prima componenta principală este :

𝜆1 1.96
𝜆1+𝜆2
= 2
= 98% deci prima componentă principală explică 98% din variabilitatea totală.

Deci informația din variabilele inițiale x1 și x2 este bine explicată de informația din această primă
componentă principală.
Seminar decembrie 2020

Modele de regresie pentru date de tip panel1


Prof. coordonator: Prof.univ.dr. Cristina Boboc

Introducere
In cele ce urmeaza vom folosi date de tip panel pentru regiunile Romaniei ca sa analizam relatia
dintre rata criminalitatii, rata somajului, rata infractionalitatii, rata divortului, populatia scolara si
emigrantii pentru perioada 1991-2016.
Fisierul pe care il alegem este model panel.xlsx, din folderul MDA 2020 de pe SAS. Astfel,
apasand dublu-click pe acest fisier si executand comanda RUN, va aparea baza de date cu care vom
lucra. In aceasta de baza de date sunt 208 observatii si 8 variabile.

nr. de observatii
nr. de variabile

SCOPUL: De cine este influentata rata criminalitatii in Romania?

Partea teoretica
Prin date de tip panel intelegem acele observatii repetate in diverse momente de timp pentru
acelasi individ.
Avantajele acestei structuri de tip panel sunt:
• Estimarea relatiilor in dinamica chiar daca datele sunt disponibile pentru o perioada scurta de
timp;
• Incorporarea dimensiunii timp (pentru datele in sectiune transversala) si dimensiuniii spatiu
(pentru serii temporale);
• Capacitatea de a controla efectele individuale fixe (ceea ce este comun unui individ de-a
lungul timpului, dar care poate varia intre indivizi);
• Eficienta sporita a estimarilor modelelor de regresie.
Numarul de observatii va fi: N x T, unde N este dimensiunea transversala, iar T dimensiunea
timpului.
Metodele specifice datelor de tip panel sunt:
1. Efectele fixe: Testul F.
2. Efectele aleatoare:

1
Materialul a fost pregatit cu ajutorul studentei TOANCHINA IOANA, An 3 Promortia 2019-2020
Testul Multiplicatorului Lagrange Breusch-Pagan
Daca se respinge modelul grupat, vom folosi testul Hausman-Wu pentru a vedea daca folosim
modelul cu efecte fixe sau cel cu efecte aleatoare.

Date rezultate si interpretarea lor


Deoarece analiza se va face asupra variabilei rata criminalitatii, ea se va stabili ca variabila
dependenta.
In SAS vom parcurge urmatoarele comenzi:
Tasks and Utilities → Tasks → Econometrics → Panel Data Models

• DATA:
o DATA: In sectiunea Data vom importa baza de date, WORK.IMPORT. o PANEL
STRUCTURE: La panel structure stabilim care variabila va fi sectiunea transversala (Cross-
sectional ID). In cazul nostru este A. Deasemenea, punem si dimensiunea temporala (Time
ID), in acest caz Ani. o ROLES: In aceasta sectiune selectam care este variabila dependenta
si celalalte variabile care intra in componenta analizei. Astfel, la Dependent variable
selectam: Rata criminalitatii, iar la Continuous variables avem Rata somajului, Rata
divortului si Emigranti. Populatia scolara nu este inclusa in analiza noastra, deoarece
numarului populatiei scolare depinde de numarul de populatie din fiecare regiune.

1
• MODEL:
o MODEL: Vom alege de la Model type: linear. La Model Effects lasam main effects model
bifat, iar la Model Settings avem urmatoarele comenzi: Fixed effects la Linear model,
Oneway la Fixed Effects Type si bifam Display the fixed effects.

• OPTIONS:
o STATISTICS: La Display statistics vom alege Default and additional statistics si
bifam Correlations of the parameter estimates. Tot in aceasta sectiune selectam One-way
Breusch-Pagan test de la Test for Random Effects.
o PLOTS: Pentru Select plots to display vom alege Selected plots si Display as Panel
of plots, bifand astfel toate cele de la Diagnostic Plots.

2
Dupa toate aceste comenzi, apasam tasta RUN.

INTERPRETARE
Numarul de sectiuni analizate

Numarul de momente de timp

In acest model avem 8 regiuni analizate pe 26 momente de timp.


In tabelul Fit Statistics stabilim care este calitatea modelului. Astfel:
• Daca R2 < 0.3, atunci calitatea modelului este proasta.
• Daca 0.3 < R2 < 0.5, atunci calitatea modelului este buna.
• Daca R2 > 0.5, atunci calitatea modelului este foarta buna.

Calitatea modelului nostru este buna.

Pentru a vedea daca modelul nostru are efecte fixe sau nu, ne uitam in tabelul F Test for No
Fixed Effects, unde ipotezele testate sunt urmatoarele:
3
H0: nu exista efecte fixe individuale (a1= a2= ... = aN = a)
H1: exista efecte fixe individuale ( a1≠ a2 ≠ ... ≠ aN )

Regula de decizie: Se respinge ipoteza nula, adica modelul grupat, daca Pr > F este mai mare
decat 0.05.
Modelul nostru are Pr > F = 0.0003. Cum
Pr > F < 0.05, putem spune ca ipoteza nula,
H0, se respinge, deci exista efecte fixe
individuale semnificative.

Urmatorul tabel din SAS, Breusch Pagan Test forRandom Effects (One Way), ne arata daca
in model exista efecte aleatoare. Astfel, ipotezele testului Breusch Pagan sunt:

H0: nu exista efecte aleatoare (σa2 = 0)


H1: exista efecte aleatoare (σa2 > 0)

Regula de decizie: Se respinge ipoteza nula, adica modelul grupat, daca Pr > m este mai mare
decat 0.05.
Modelul nostru are Pr > m = 0.0001. Cum Pr >
m < 0.05, putem spune ca ipoteza nula, H0, se
respinge, deci exista efecte aleatoare.

Dupa testarea efectelor, avem urmatorul tabel care evidentiaza parametrii analizati, numit
Parameter Estimates. Se vor afisa 7 regiuni analizate, interceptul (acest coeficient arata nivelul mediu
al variabilei dependente la nivelul esantionului, daca nivelul variabilelor independente ar fi egal cu 0
unitati) si variabilele independente. Prin intermediul acestui tabel, putem observa ce parametri sunt
sau nu sunt semnificativi in analiza noastra.

4
Numarul de grade de libertate Rata somajului si
Rata divortului
influenteaza in
Regiunile mod semnificativ
variabila
dependenta,
deoarece Pr > |t|
Interceptul Pr > |t| = 0.1280.
Rezulta ca,
variabila
Emigranti nu
Variabilele
influenteaza in
independente
mod

Parametrii semnificativi sunt: CS2, CS3, CS6, CS7, Rata somajului, Rata divortului. Ecuatia de
regresie estimata a acestui model pentru fiecare regiune este urmatoarea:

𝐶𝑆1 : 𝑦̂𝑡 = 5.4232 − 55.9897 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡
𝐶𝑆2 : 𝑦̂𝑡 = 5.4232 − 82.763 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡

𝐶𝑆3 : 𝑦̂𝑡= 5.4232 − 83.024 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡
𝐶𝑆4 : 𝑦̂𝑡= 5.4232 + 9.511 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡
𝐶𝑆5 : 𝑦̂𝑡 = 5.4232 − 46.564 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡
𝐶𝑆6 : 𝑦̂𝑡 = 5.4232 − 92.674 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡
𝐶𝑆7 : 𝑦̂𝑡= 5.4232 − 54.096 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡

Iar ecuatie de regresie estimata a acestui model pentru general este:


𝑦̂𝑖𝑡 = 5.4232 − 55.9897 ∗ d ∗ CS1 − 82.763 ∗ d ∗ CS2 − 83.024 ∗ d ∗ CS3 + 9.511 ∗ d ∗ CS4 − 46.564 ∗ d ∗
CS5 − 92.674 ∗ d ∗ CS6 − 54.096 ∗ d ∗ CS7 + 24.642 ∗ Rata somajului𝑖𝑡 + 111.40 ∗ Rata divortului𝑖𝑡 +
0.0059 ∗ Emigranti𝑖𝑡

1, daca i = CSj, j = 1,7


unde, d={
0, daca i ≠ CSj, j = 1,7

5
Interpretarea graficelor

Dispersia
rezidualurilor
este aproximativ Abateri mici
constanta, cu ale valorilor
mici modificari previzionate
la final. de la cele
observate.

Se poate observa din cele 4 grafice ca exista abateri mici ale valorilor previzionate de la cele
observate, in partea de final (graficele 2 si 3). In primul grafic, dispersia rezidualurilor este aproximativ
constanta, ceea ce duce la verificarea ipotezei de homoscedasticitate. In ultimul grafic se poate observa
repartitia aproximativ normala a rezidualurilor.

Daca se respinge modelul grupat, ca sa aflam ce model folosim, intre modelul cu efecte fixe
sau modelul cu efecte aleatoare, mergem din nou in SAS si in sectiunea MODEL, la Linear model:
selectam Random Effects. Dam comanda RUN si vom avea:

Calitatea modelului este mai slaba decat la modelul


precedent, avand R2 = 0.36.

Cum Pr > m = 0.5466, ceea ce inseamna ca


Pr>m > 0.5, se accepta ipoteza nula, H0, adica
putem aplica atat RE, cat si FE.

Ipotezele testului Hausman sunt:

H0: nu exista corelatie: FE consistent, RE consistent si eficient (E(xijai ) = 0) H1:


exista efecte aleatoare: FE constistent, RE inconsistent (E(xijai ) ≠ 0)

6
Regula de decizie: Se respinge ipoteza nula, daca Pr > m este mai mic decat 0.05.
Din nou vedem care dintre variabilele independente sunt semnificative, acest lucru
evidentiindu-se in tabelul Parameter Estimates.

Parametri semnificativi

Pr > |t| = 0.1359 care este mai


mare decat 0.05, ceea ce
inseamna ca aceasta variabila nu
influenteaza semnificativ Rata

Parametrii semnificativi sunt: Rata somajului si Rata divortului. Ecuatia


de regresie estimata a acestui model este urmatoarea:
𝑦̂𝑖𝑡 = −22.216 + 24.359 ∗ Rata somajului𝑖𝑡 + 97.491 ∗ Rata divortului𝑖𝑡 + 0.0056 ∗ Emigranti𝑖𝑡

Interpretarea graficelor

Dispersia
rezidualurilor este
aproximativ
constanta, cu mici
modificari la
final. Abateri mici
ale valorilor
previzionate
de la cele
observate.

In cazul graficelor, avem aceleasi observatii ca si in cazul modelului cu efecte fixe.


Daca ambele modele sunt bune, atunci vom lua modelul care are coeficientul de corelatie mai
mare. In cazul nostru pentru primul model aveam R2=0.45, iar pentru cel de-al doilea model era:
R2=0.36. Astfel, vom lua modelul cu efecte fixe (FE).
Diferenta dintre valoarea Interceptului de la modelul FE si valoarea acestui coeficient de la
modelul RE este atat de mare, deoarece in cazul modelului FE Interceptul intervine pentru fiecare
regiune observata, apoi de translateaza. In acest caz, valoarea coeficientului de la FE este mult mai
buna ca cea de la RE.

7
Daca in loc de ONE-WAY selectam, in comenzile SAS, TWO-WAYS din sectiunea
MODEL, Fixed Effects type, vom avea ca rezultate un coeficient de corelatie R2=0.8903, in cazul
modelului Fixed Effects (FE), ceea ce inseamna ca modelul acesta are o calitate mult mai buna ca
celelalte doua efectuate anterior, iar un coeficient de corelatie cu valoarea R2=0.0716, pentru modelul
Random Effects (RE). In acest caz, calitatea este extrem de slaba, iar din grafice ne reiese ca repartitia
rezidualurilor nu este normala.

Model cu efecte fixe Model cu efecte aleatoare

Grafice pentru modelul RE cu TWO-WAYS

8
Seminar 10 – decembrie 2021
Analiza Canonică1
Prof. coordonator: Prof.univ.dr. Cristina Boboc

Problema:

Un cercetător a colectat date despre trei variabile psihologice, patru variabile academice (scoruri

standardizate la teste) și gen pentru 600 de studenti. El este interesat de modul în care setul de variabile

psihologice se corelează cu variabilele academice și de gen. În special, cercetătorul este interesat de

câte dimensiuni sunt necesare pentru a înțelege asocierea dintre cele două seturi de variabile.

Fisierul de date folosit este ”Date analiza canonica.xls”, cu 600 de observații pentru opt variabile.

Variabilele psihologice sunt Auto-control, Auto-cunoaștere și motivația. Variabilele academice sunt

scoruri standardizate ale testelor la citire, scriere, matematică și știință. În plus, variabila Sex este o

variabilă binară (1-sex femini, 0- sex masculin). Cercetătorul este interesat de relația dintre variabilele

psihologice și variabilele academice, având în vedere și genul. Analiza corelației canonice își propune

să găsească perechi de combinații liniare ale fiecărui grup de variabile care sunt foarte corelate. Aceste

combinații liniare sunt numite variate canonice. Fiecare variabilă canonică este ortogonală cu celelalte

variante canonice, cu excepția celei cu care corelația sa a fost maximizată. Numărul posibil de astfel de

perechi este limitat la numărul de variabile din cel mai mic grup. În exemplul nostru, există trei variabile

psihologice și mai mult de trei variabile academice. Astfel, o analiză a corelației canonice asupra acestor

seturi de variabile va genera trei perechi de variabile canonice.

Statisticile descriptive indică faptul că nu există valori lipsă în date și datele sunt măsurate pe scale

diferite. Putem continua cu analiza corelației canonice fără griji privind lipsa datelor, dar ținând cont de

faptul că variabilele noastre diferă mult ca scară de măsurare.

1Materialul a fost pregatit folosind ca sursa de documentare: https://stats.idre.ucla.edu/spss/output/canonical-correlation-


analysis/?fbclid=IwAR3yE_nUmbVw151Eyg16jeeW58DxNs2IESGp8txzdRppL8K3t5Rgdcr9Qhw
In SAS pentru realizarea analizei canonica vor fi urmați urmatorii pasi:

În urma aplicării Analizei canonice se obtin următoarele rezultate privind corelațiile canonice:
În primul rând se vor folosi mai multe teste pentru testarea ipotezei:

H0: Corelațiile canonice sunt zero (nu există o relație liniară între cele două grupuri de variabile
specificate)
H1: Există corelații canonice diferite de zero (există o relație liniară între cele două grupuri de
variabile specificate)

Pillaiˈs Trace
Urma lui Pillai este suma pătratelor corelațiilor canonice:
0,4462 + 0,1532 + 0,0222 = 0,223

Hotteling Trace
Acest test este foarte asemănător testului precedent fiind calculate ca suma rapoartelor dintre pătratul
corelațiilor canonice si 1- acest pătrat:
0,4462/(1- 0,4462)+ 0,1532/(1- 0,1532) + 0,0222/(1- 0,0222) = 0,273

Wilks Lambda
Este un test ce se calculează folosind tot pătratul corelațiilor canonice, însă produsul valorilor (1-
patratul corelatiilor canonice) :
(1- 0,4462)(1- 0,1532) (1- 0,0222) = 0,78

Roy's Greatest Root


Acest test se calculează pe baza valorilor proprii și este cea mai mare valoare proprie. Acest test se
comporta altfel decât celelalte teste. În cazul în care primele trei teste nu sunt semnificative statistic și
testul Roy este semnificativ, atunci nu există legătură semnificativă statistic între cele două grupe de
variabile. Deci valoarea avestui teste este 0,2488.
În concluzie pentru o probabilitate de garantare a rezultatelor de 95%, primele două perechi de
componente canonice sunt reprezentative, exprimând corelații semnificative între cele două grupuri de
variabile.
In continuare vom interpreta componentele canonice:

Canonical Correlation Analysis

Raw Canonical Coefficients for the VAR Variables

V1 V2 V3

Motivatia motivatia 1.2511013864 -2.637012596 1.0961360622

auto-control auto-control 1.2508359695 0.7666349905 -0.497634584

auto-cunoastere auto-cunoastere -0.237143778 0.8435502079 1.2055711124

Raw Canonical Coefficients for the WITH Variables

W1 W2 W3

Citire citire 0.0440757576 -0.001582584 0.0886789942

Scriere scriere 0.055140884 -0.09062003 -0.096082999

matematica matematica 0.0195601429 -0.002484713 0.0874448947

Stiinte stiinte -0.003958367 0.1240480242 -0.088684621

Coeficienții canonici bruți sunt utilizați pentru a genera variabilele canonice. Ei sunt interpretați
într-o manieră analogă interpretării coeficienților de regresie. De exemplu pentru o creștere cu
o unitate a variabilei Autocontrol variabila canonică V1 va crește cu 1,25 cand toate celelalte
variabile rămân constante. Prima componentă canonică V1 este determinată de Motivație și
Auto-control iar a doua componentă canonică este determinată de Motivație și Auto-
cunoaștere.
In cazul celui de-al doilea grup de variabile, pentru variabila Citire, o creștere cu o unitate a
acestei variabile duce la o creștere de 0,0441 a primei variabile canonice a setului W atunci
când toate celelalte variabile sunt menținute constante. Prima componentă canonică W1 este
determinată de Citire, Scriere și Matematică iar a doua componentă canonică este determinată
de Stiinte.

Canonical Structure
Correlations Between the VAR Variables and Their Canonical Variables

V1 V2 V3

motivatia motivatia 0.5856 -0.6056 0.5389

auto-control auto-control 0.9142 0.3939 -0.0958

auto-cunoastere auto-cunoastere 0.0999 0.4220 0.9011

Correlations Between the WITH Variables and Their Canonical Variables

W1 W2 W3

citire citire 0.8802 0.2458 0.2726

scriere scriere 0.9101 -0.2207 -0.3403

matematica matematica 0.8002 0.1894 0.2818

stiinte stiinte 0.6932 0.6763 -0.2399

Correlations Between the VAR Variables and the Canonical Variables of the WITH Variables

W1 W2 W3

motivatia motivatia 0.2614 -0.0927 0.0121

auto-control auto-control 0.4081 0.0603 -0.0021

auto-cunoastere auto-cunoastere 0.0446 0.0646 0.0202

Correlations Between the WITH Variables and the Canonical Variables of the VAR Variables

V1 V2 V3

citire citire 0.3929 0.0376 0.0061

scriere scriere 0.4063 -0.0338 -0.0076

matematica matematica 0.3572 0.0290 0.0063

stiinte stiinte 0.3094 0.1035 -0.0054

În ceea ce privește corelațiile canonice, se observă că W1 este mediu corelată cu autocontrolul și motivația. Deci rezultatele
la Citire, Scriere și matematică sunt determinate de variabilele Motivație și Autocontrol.

Variabila W2 este invers si slab corelată cu Motivația.Deci rezultatele la citire vor fi determinate de nivelul de motivație.
Seminar 9 – noiembrie 2021
Analiza discriminantă1
Prof. coordonator: Prof.univ.dr. Cristina Boboc

Fie o baza de date cu informatii privind stilul de viață Date_seminar_8.sav contine informații privind 62
de variabile pentru 271 de observatii.

Identificați cine contribuie la starea de bine a respondenților din timpul săptămânii ?

Variabila care se dorește a fi previzionată este variabila binară:

Do you feel refreshed weekdays? Cu variantele de raspuns Yes(1) si No(0).

Predictorii alesi a-i include în analiză din cele 62 de variabile sunt:

1. Numar de ore de somn in weekend (ore_somn_weekend)


2. Numar de ore de somn pe saptamana (ore_somn_sapt)
3. Numar de tigari (cigsgp3)
4. Varsta (varsta)
5. Alcool (alchohol)
6. Cofeina (caffeine)
7. Stres (nivel_stres)
8. Conditie fizica (fitrate)
9. Statutul marital (marital)

1. TRANSFORMAREA VARIBILELOR

În cazul variabilei ”Numărul de țigări fumate” - cigsgp3 se observă că cei ce nu fumează nu au completat
această variabilă. Pentru a putea folisi aceasta variabilă în analiză voi recodifica această variabilă astfel
incat toate valorile missing să fie înlocuite cu zero, deci sa fie specificat faptul că respondentul nu a fumat
nici o tigară. Pentru recodificare se va folosi Task-ul Recode Values.

1
Materialul a fost pregatit cu ajutorul studentelor : Ivan Petruta si Stan Alexandru, An 3 Promortia
2019-2020

DATA - WORK.IMPORT (baza de date pentru care dorim sa aplicam care metoda)
Variable to recode - alegem varibila pentru care vrem sa modificam valuarea
Recoded variable name - alegem numele noii variabile
Creem un nou set de date pe care le denumim work.newtable

In sectiunea VALUES punem la Old value 1 si la New value 0 mai apoi modificam in
CODE(edit).
Si rulam noul program scris.
Vom observa crearea unei noi baze de date care contine toate cele 62 de variabile plus variabila
nou creata.

2. ANALIZA DISCRIMINANTĂ

Prin urmare vom aplica metoda analizei discriminante pe noul set de date creat unde o sa
avem si variabila nou tigari_pe zi.

Dupa ce verificam tot setul de date si obtinem un rezultat optim pentru analiza discriminanta
urmatorul pas este:
DATA – WORK.NEWTABLE (baza de date nou creata)
*Group variable – refreshd (variabila de interes )
*Quantitative variables – cele 9 variabile introduse in analiza

METHODS
Classification criterion method – Parametric
Discriminant function – Linear
Canonical analysis – Plot first two canonical variates
VALIDATION
Perform cross validation – Display misclassified observations
STATISTICS
Posterior probability error-rate estimates
Simple descriptive statistics
Classification results
Selection method
– alegem metoda Stepwise selection

Rulam metoda (RUN).

3. INTERPRETAREA REZULTATELOR

Results : Discriminant Analysis

1. Variabilele care au influență semnificativă asupra stării de bine a respondenților


din timpul săptămânii (Pr >F) < 0.05

Din cele 9 variabile incluse în analiză, semnificative pentru împărțirea în cele două grupe doar 4
au o valoarea p-value sub 0,05. Deci, doar nivelul stresului din ultima luna, statutul marital,
numărul de ore de somn pe noapte din timpul săptămânii și numărul de ore de somn pe noapte din
weekend sunt semnificative pentru clasificare.

2. Câți indivizi sunt bine identificati ?

1-0.3359 = 0.6641 => 66.41% sunt bine clasificati per total.


Din cei ce se simt bine în timpul săptămânii 42% sunt bine identificati iar dintre cei ce nu se simt
bine în timpul săptămânii 81.48% sunt bine identificați. Deci variabilele exmplicative contribuie
mai bine la identificarea celor ce nu se simt bine în timpul săptămânii.
Cei ce nu se simt bine în timpul săptămânii, au un nivel de stress mai ridicat, dorm mai mult in
weekend si mai putin in timpul săptămânii si sunt necasatoriti.

Daca nu as fi aplicat analiza discriminantă, procentul celor ce nu se simt bine în timpul săptămânii
este de 61.8%, deci daca i-as considera pe toti ca nu sunt bine, atunci as gasi acest procent de
61,8% corect. În cazul în care folosesc Analiza discriminantă voi identifica corect 66.41%, în una
din cele două categorii, reușind să identific corect si 42% dintre cei ce se simt bine. Totuși modelul
nu este performant.
Din analiza proiectiei observatiilor pe planul determinat de primele două axe discriminante se
observă că cele două grupe de indivizi nu sunt foarte bine separate, ceea ce mă conduce la aceeași
idee că modelul nu este performant. Pentru obținerea unui model mai bun, ar trebui să alegem noi
variabile în analiză care să ne aducă informații suplimentare.
Seminar 8 – noiembrie 2021
Analiza de corespondente multiple – ACM
Prof. coordonator: Prof.univ.dr. Cristina Boboc

DATELE
Se lucrează pe o bază de date preluată din European Social Survey (ESS data,
https://www.europeansocialsurvey.org/).

Fișierul este date-acm 1.sav si se gaseste in folderul MDA2020 din SAS.

Această bază de date contine 2146 de observații și 33 de variabile. Marea majoritate a


variabilelor sunt calitative.

Scopul analizei este de a observa asocierea dintre activitățile desfășurate de indivizi și


comportamentul/părerile acestora.

Pentru această analiză au fost selectate urmatoarele variabile din baza de date:
Variabile de opinie:

➔ stflife : Cat de satisfacut sunteti cu viata dvs. per total ?


➔ stfgov : Cat de satisfacut sunteti de actualul guvern al tarii ?
➔ sclmeet : Cat de des socializati cu prietenii, rudele sau colegii ?
➔ mainact : Principala activitate in ultimele 7 zile
Variabile socio-demografice:

➔ edulvla : Care este cel mai inalt nivel de educatie atins de dvs. ?
➔ maritala : Statutul marital legal
➔ regionro : Regiunea
➔ gndr : sex

ANALIZA TABELELOR DE FRECVENȚE

În primul rând vor fi determinate frecvențele variabilelor:


Rezultatele obtinute sunt:

În fiecare tabel de frecvențe trebuie să verificăm dacă există categorii cu frecvente relative de
sub 2%. În cazul în care vom avea astfel de categori va trebui să transformăm variabilele
respective, si prin gruparea categoriilor să obținem frecvente relative de peste 2%.

1. stflife : Cat de satisfacut sunteti cu viata dvs. per total ?

În cazul acestei variabile observăm că nici una din categorii nu are o frecvență de sub
2%, deci poate fi inclusă în analiză fără a o transforma.
2. stfgov : Cat de satisfacut sunteti de actualul guvern al tarii ?

În cazul aceste variabile observăm că ultimele 2 categorii au frecvente mici de sub 2% ( 9 si


„Extremely satisfied”) . Prin cumularea ultimelor 2 categorii vom obtine o frecvență relativă de
peste 2%.
3. sclmeet : Cat de des socializati cu prietenii, rudele sau colegii ?

În cazul acestei variabile observăm că nici una din categorii nu are o frecvență de sub 2%, deci
poate fi inclusă în analiză fără a o transforma.
4. mainact : Principala activitate in ultimele 7 zile

În cazul aceste variabile observăm că există două categorii au frecvente mici de sub 2%:

- ”Șomer, nu caut activ loc de muncă” ce poate fi grupată cu categoria ”Șomer, în căutare
activă a unui loc de muncă”, rezultănd o categorie: ”Șomer” cu frecvență de peste 2%.
- ”Serviciu militar sau în sprijilul comunității” care poate fi inclusă în categoria ”Altele”
5. edulvla : Care este cel mai inalt nivel de educatie atins de dvs. ?

În cazul acestei variabile observăm că nici una din categorii nu are o frecvență de sub
2%, deci poate fi inclusă în analiză fără a o transforma.
6. maritala : Statutul marital legal

În cazul aceste variabile observăm că există trei categorii au frecvente mici de sub 2%. Acestea
pot fi eliminate din analiza.
7. regionro : Regiunea

În cazul acestei variabile observăm că nici una din categorii nu are o frecvență de sub
2%, deci poate fi inclusă în analiză fără a o transforma.
8. gndr : sex

În cazul acestei variabile observăm că nici una din categorii nu are o frecvență de sub
2%, deci poate fi inclusă în analiză fără a o transforma.
TRANSFORMAREA VARIABILELOR

1. Transformarea variabilei stfgov : Cat de satisfacut sunteti de actualul guvern al tarii ?

Categoria10 va fi inclusă în categoria 9.


Pentru aceasta nouă variabilă obținem frecvente peste 2% pentru toate categoriile reluând taskul
Characterize Data:

Pentru aceasta variabilă transformată toate categoriile au o frecvență relativă de peste 2%.

2. Crearea unei noi baze de date doar cu variabilele de interes si din care eliminam
categoriile cu o frecventa relativa de sub 2%.
In acest scop vom crea un mic program in SAS astfel:

Si vom scrie programul:


Apoi Rulam programul (RUN) si obtinem noua baza de date.

Pentru aceasta nouă baza de date vom verifica daca toate variabilele sunt bine create reluând
taskul Characterize Data:

Se observă noua bază de date conține 2053 observații si pentru nici o categorie a nici unei
variabile, nu mai obținem frecvențe relative de sub 2%.
ANALIZA DE CORESPONDENȚE MULTIPLE

Pentru identificarea asocierii activității desfășurate de indivizi și comportamentului acestora se dorește


identificarea asocierii între variabilele analizate. În acest scop va fi aplicată Analiza de corespondente
multiple.

Deoarece variabila gen are doar două categorii, toate celelalte variabile înregistrând peste 4 variante de
răspuns, aceasta va fi eliminată din analiză, nefiind recomandată introducerea in analiză a unor variabile
cu diferențe foarte mari între numărul de variante de răspuns ale acestora.
Apoi rulăm analiza si obtinem rezultatele:

1. Tabelul BURT

Acest tabel poate ajuta la rafinarea concluziilor analizei. De exemplu, pot să analizez una din
liniile unui tabel de contingență astfel:

- Persoanele ce socializează în fiecare zi cu prietenii/rudele sunt și extrem de satisfăcute de


viața lor per total.
2. Tabelul profilelor coloane

In acest tabel sunt calculate totalurile marginale pe coloane și poate ajuta la rafinarea concluziilor
analizei.

3. Inerția ajustată Benzecri

Se observă că primele două componente principale explică 71% din inerția totală a norului de
puncte. Dacă analizăm și schimbarea pantei de descreștere a acesteia, observăm că aceasta se
schimbă pentru trei componente. Deci, pot fi păstrate trei componente principale pentru o mai
bună explicare a inerției norului de puncte.
4. Contribuția parțială a categoriilor la primele trei dimensiuni și calitatea
reprezentării pe aceste componente

Deci interpretarea categoriilor variabilelor analizate și asocierii dintre acestea se va face doar
pentru cele reprezentate bine în proiecție pe primele trei dimensiuni, si anume:

- Persoanele foarte puțin satisfăcute de guvernul actual


- Cei ce socializează zilnic
- Cei ce socializează mai puțin de o dată pe lună
- Cei ce nu socializează niciodată
- Cei ce socializează de câteva ori pe săptămână
- Pensionarii
- Persoanele aflate încă în educație
- Cei ce desfășoară o muncă plătită
- Cei ce au mai puțin decât studii gimnaziale
- Ce ce au educație universitară
- Cei căsătoriți
- Cei ce nu au fost niciodată căsătoriți
- Văduvi
- Persoanele din zona București Ilfov
- Persoanele din zona Centrului țării

5. Reprezentarea grafică a proiecției categoriilor variabilelor observate pe primele trei


dimensiuni

In Cadranul 1 se observă că pensionarii sunt extrem de nesatisfăcuți cu viața lor per total.
În cadranul 2 se observă că persoanele aflate în educație socializează în fiecare zi. De asemenea
cei ce socializează de câteva ori pe săptămână sunt extrem de satisfăcuți cu viața lor per total.
În cadranul 3 se observă că cei ce au studii universitare desfășoară și o muncă plătită.
În cadranul 4 persoanele căsătorite socializează o data pe lună.
Seminar 7 – noiembrie 2021
Analiza în Componente Principale și Analiza de Tip Cluster1
Prof. coordonator: Prof.univ.dr. Cristina Boboc

DATELE
Se lucrează pe o bază de date referitoare la caracteristicile mai multor marci de tutoturisme.

Fișierul este CARS.xlsx si se gaseste in folderul MDA2020 din SAS.

Această bază de date contine 428 de observații și 15 variabile. Cele 15 variabile sunt referitoare la
modelul autoturismului și caracteristicile tehnice ale acestora. Deoarece datele au unități de măsură
diferite, ale sunt standardizate inainte de a fi incluse in analiză.

1
Materialul a fost pregatit cu ajutorul studentelor : Bundă Andreea-Nicoleta, Minoiu Maria-Magdalena,
An 3 Promortia 2019-2020
Dorim sa vizualizam relatiile intre variabilele precizate mai sus si eventuala existenta a unor grupuri
de variabile, drept pentru care vom aplica analiza in componente principale, construind variabile
artificiale.

STANDARDIZAREA DATELOR
Primul pas este standardizarea datelor, deoarece nu avem aceeași scală de măsurare (unitate de
măsură):
În SAS se găsește la Task and Utilities -> Data -> Standardize Data

La DATA vom adăuga toate variabilele, apoi la OPTIONS vom alege ca metodă de standardizare „Range’’.

Datele standardizate vor fi salvate intr-o nouă bază de date: work.Stdize.


ANALIZA ÎN COMPONENTE PRINCIPALE (ACP)
După ce am standardizat datele și avem aceeași unitate de măsură, aplicăm ACP (Analiza în Componente
Principale):

Task and Utilities -> Multivariate Analysis -> Principal Component Analysis

La DATA introducem toate variabilele .

La OPTIONS vom selecta Default and additional plots și vom bifa toate căsuțele de mai jos, apoi la
Options (din josul imaginii) vom pune Model la ID variablesfor score plots
Tabelul de corelații

Pentru a decide dacă prin Analiza în Componente Principale vom obtine rezultate bune, va fi analizat în
primul rand tabelul corelațiilor.

În ce caz este indicat să folosim ACP? Vom obține niște componente semnificative? (Correlation Matrix)

Dacă există coeficienți mari sau medii (corelații semnificative), se recomandă a fi folosită APC pentru
reducerea dimensiunii spațiului date si pentru vizualizarea datelor.
Din analiza tabelului de corelatie intre variabilele analizate, observam ca exista variabile puternic
corelate pozitiv, de exemplu variabilele INVOICE și MSRP (0,99) , dar si variabile puternic corelate
negativ, de exemplu MPG_City cu Engine Size (-0,7179) sau variabile slab corelate sau chiar necorelate
intre ele, ca de exemplu MSRP cu Wheelbase (0,1517).

In concluzie putem afirma ca ACP este utila in interpretarea legaturilor dintre variabilele analizate.

Variatia explicata de model

Pentru a decide câte componente principale este indicat a fi păstrate se păstrează ne vom uita în
matricea cu valori proprii ( Eigenvalues of the Correlation Matrix)

Valorile proprii

1. Măsoară cantitatea de varianţă


„explicată” de fiecare componentă
principală.
2. Descresc odată cu indexul
componentei, prima componenta
principală având valoarea proprie
maximă.
Valorile propii trebuie să fie > 1. Astfel, din tabel reiese ca ar trebui
să împărțim în 2 componente. Prima valoare din tabel ( 8,35) 3. Au suma egală cu p (numărul
explică 8 variabile și ceva (practic 8 variabile le înlocuiesc cu una=> variabilelor iniţiale).
o reducere a dimensiunii spațiului foarte mare). Cea de a 2-a 4. Exprimă „importanţa”
valoare (0,99 aproximativ 1) va inlocui o variabilă din analiză. componentelor principale

Vom pastra în analiză primele două componente principale.

De asemenea, ne vom uita cât la sută din variabilitate este explicată de componentele selectate.
(Proportion). Proporția se calculează lambda 1 (prima valoare proprie) împărțită la numărul de valorilor
proprii. (În cazul nostru, împărțim 8,35 la 10), deci 83,5% din variabilitate este păstrată prin proiecție pe
prima axă principală.

83,5%: 80% deci poate fi păstrată si doar o componentă principală. (Conform teoriei „Dacă primele k
componente principale preiau 80% sau mai mult din varianţa datelor iniţiale, atunci scopul reducerii
dimensionalităţii va fi atins.’’).

Prin proiecție pe planul determinat de primele două axe principale este explicată 93,57% din
variabilitatea totală.

O altă metodă prin care putem afla în câte componente vom împărți este să ne uităm la Scree Plot.
Conform Scree plot-ului, vom păstra primele 2
componente deoarece panta se schimbă la valoarea 2.

Concluzie: În continuare bentru o mai bună reprezentare a datelor vom păstra primele 2 componente
principale.

Interpretarea componentelor principale

De cine e determinată prima componentă? Unde ne uităm ca să interpretăm factorii?

Ne vom uita în tabelul Eigenvectors.

Primul factor de cine este determinat?


Ne uităm pe coloana PRIN 1 la valorile mai mari ( pozitive și negative)

Pozitive:

Engine Size =0,329

Cylinders =0,333  Aceste 6 variabile determină prima componentă în sens pozitiv.

Weight =0,334

Horsepower =0,336

Wheelbase = 0,327

Length = 0,332

• Prima componentă este determintă de variabilele care țin de caracteristicile mașinii (cilindri,
mărimea motorului, greutatea, caii putere) în sens pozitiv.

PRIN 2 de cine este determinată?

Ne uităm pe cea de a 2-a coloană la valorile mai mari ( pozitive și negative)

Pozitive:

MGP_City = 0,611
 A doua componentă este determinată în sens pozitiv de variabilele
MGP_Highway = 0,532 referitoare la consum.

Negativ:
 A doua componentă este determinată în sens negativ de variabilele
MSRP = -0,338
referitoare la preț.
Invoice = -0,342 

• A doua componentă este determinată de variabilele referitoare la preț (MSRP și Invoice) în sens
negativ și de variabilele care țin de consumul mașinii (MGP_City si MGP_Highway) în sens negativ.
Reprezentare grafică

Pentru a vedea cum sunt reprezentate grafic cele 10 variabile și legăturile dintre acestea (identificarea
de grupuri de variabile) ne vom uita pe graficul Component Pattern.

Ce putem spune în privința corelației dintre variabile? Cine cu cine se corelează și cum este?

Consumurile (MGP_City și MGP_Highway) sunt corelate între ele în sens pozitiv..

Invoice și MSRP sunt corelate între ele în sens pozitiv.


Reprezentarea grafică a indivizilor

Vom schimba nivelul de predicție din 95% în 99% pentru a avea o mai mare claritate.

Ne întoarcem în Sas Studio și apasăm pe fereastra OPTIONS, schimbăm nivelul de predicție, apoi dăm
din nou RUN și ne uităm la noul grafic.
(Putem oberva mai jos că schimbând nivelul de predicție, s-a mărit si cercul elipsei => numărul de
outlieri s-a micșorat)

După cum se poate observa în graficele anterioare, valorile din afara elipsei (Insight 2dr, Prius 4dr, Civic
Hybrid 4dr) au valori mari ale MPG deci vor avea valori foarte mici ale consumului.

De asemenea, în direcția opusă se află 911 GT2 2dr, SL55 AMG 2dr care au valori foarte mici ale MPG
deci au consumul foarte ridicat dar au și valori ale variabilelor de performantă a masinii foarte mari. Deci
sunt mașini foarte puternice cu consum foarte mare de carburant.
REPREZENTAREA GRAFICA A REZULTATELOR OBTINUTE DIN ANALIZA ÎN
COMPONENTE PRINCIPALE SI ANALIZA CLUSTER

Dacă dorim să reprezentăm graphic proiecția indivizilor pe planurile principale marcând și clusterul din
care fiecare observație face parte), clusteri obtinuți prin analiza cluster (vezi seminarul 6 pentru
clusterizarea observatiilor), vor aplica incă odata ACP astfel.

Task and Utilities- > Multivariate Analysis -> Principal Component Analysis

DATA: La DATA vom pune WORK.FASTCLUS_SCORES (obținut la K-Means Clustering) și introducem toate
variabilele până la Length inclusiv.

OPTIONS: Selectăm Default additional plots și bifăm toate căsuțele.


Apoi în partea dreaptă apăsăm pe EDIT.

Se va deschide o nouă fereastră unde vom tasta : id cluster; ( după Length; apăsam tasta ENTER și apoi

tastăm id cluster;) și apoi apăsăm pe butonul de RUN.

Și observăm la Component Scores 95% Prediction Ellipse că cei mai mulți outlieri sunt din grupa/
clusterul 3.
--
Seminar 6 – noiembrie 2021
Analiza de Tip Cluster1
Prof. coordonator: Prof.univ.dr. Cristina Boboc

DATELE
Se lucrează pe o bază de date referitoare la caracteristicile mai multor marci de tutoturisme.

Fișierul este CARS.xlsx si se gaseste in folderul MDA2020 din SAS.

Această bază de date contine 428 de observații și 15 variabile. Cele 15 variabile sunt referitoare la
modelul autoturismului și caracteristicile tehnice ale acestora. Deoarece datele au unități de măsură
diferite, ale sunt standardizate inainte de a fi incluse in analiză.

1
Materialul a fost pregatit cu ajutorul studentelor : Bundă Andreea-Nicoleta, Minoiu Maria-Magdalena,
An 3 Promortia 2019-2020
Dorim sa vizualizam eventuala existenta a unor grupuri de autoturisme.

STANDARDIZAREA DATELOR
Primul pas este standardizarea datelor, deoarece nu avem aceeași scală de măsurare (unitate de
măsură):

În SAS se găsește la Task and Utilities -> Data -> Standardize Data
La DATA vom adăuga toate variabilele, apoi la OPTIONS vom alege ca metodă de standardizare „Range’’.

Datele standardizate vor fi salvate intr-o nouă bază de date: work.Stdize.


CLUSTER OBSERVATIONS

-CLUSTERIZAREA AUTOTURISMELOR-

Ținând cont de faptul că avem peste 100 de observații (428 de obervații) nu vom putea construi direct o
dendograma.

Task and Utilities -> Cluster Analysis ->Cluster Observations

DATA: vom alege RATIO, vom adăuga toate variabilele și vom apune Model la ADDITIONAL ROLES ->
Identify observations in clusters
OPTIONS: vom alege RANGE ca metodă de standardizare

Dacă folosim RANGE la metoda de


standardizare nu mai trebuie să bifăm
căsuța pentru omiterea outlierilor.

Dendograma se găsește la PLOTS->


SELECTED PLOTS și se bifează în cazul
în care aceasta nu este.

*în cazul nostru dendograma nu va fi


afișată deoarece avem peste 100 de
Cum vom alege numărul de grupe în cazul în care ne observații.
lipsește dendograma?
Ne vom uita la finalul tabelului : Cluster History

Trebuie să avem grupele cât mai diferite. În momentul în care le punem împreună să pierdem cât mai
mult din omogenitate.

Din ultima coloană, unde avem evidențiate valorile lui R-Square, vom afla numărul de grupe. Ultima linie
ne spune că toate variabilele sunt întru-un singur cluster.

Căutăm ca R-Square >0,5 , diferența de la un nivel la altul să fie cât mai mare și Semipartial R- Square să
fie cât mai mare.

• Când avem variabilele împărțite în 2 clustere, R-Square=0.405 <0,5 => Nu avem diferențe
semnificative între clustere și trecem la următoarea linie ( cea de deasupra ).
• Când avem variabilele împărțite în 3 clustere, R-Square=0,570 >0,5 => Posibil să fi găsit soluția,
dar pentru a fi siguri vom face diferențele dintre valorile lui R-Square.

R-Square-ul asociat clusterului 2 - R-Square-ul asociat clusterului 1 = 0,405 – 0,000 = 0,405

R-Square-ul asociat clusterului 3 - R-Square-ul asociat clusterului 2 =0,570 – 0,405 = 0,165

R-Square-ul asociat clusterului 4 - R-Square-ul asociat clusterului 3 =0,639 – 0.570 = 0,069

R-Square-ul asociat clusterului 5 - R-Square-ul asociat clusterului 4 =0,674 – 0,639 = 0,035

R-Square-ul asociat clusterului 6 - R-Square-ul asociat clusterului 5 =0,702 – 0,674 = 0,028


Cea mai mare diferență este între R-Square-ul asociat clusterului 2 și R-Square-ul asociat clusterului 1,
dar R-Square-ul asociat clusterului 2 este 0,405 < 0,5 => trecem la următoarea cea mai bună diferență
care este 0,165 ( între R-Square-ul asociat clusterului 3 și R-Square-ul asociat clusterului 2) => vom
împărți variabilele în 3 clustere/grupe.

La Semipartial R-Square ne uităm la pierderea de omogenitate. Când trec de la 2 grupe la o grupă,


pierderea de omogenitate/ de inerție este imensă (0,4047- 40% din omogenitate), apoi dacă trec de la 3
grupe la 2 grupe pierdem 16% (0,1654) din omogenitate.

Dacă ne-am uita doar la pierderea de inerție am rămâne pe 2 grupe (40%), dar nu putem pentru că R-
Square (0,405) < 0,5. Astfel, cea mai mare pierdere de omogenitate unde R-Square(0,570) >0,5 este
0,692 ( dacă trec de la 4 grupe la 3 grupe) => vom împărți variabilele în 3 clustere/grupe.

K-MEANS CLUSTERING
Pentru a vedea mai multe informații despre împărțirea în 3 grupe a autoturismelor, vom folosi K-
Means Clustering.

Task and Utilities -> Cluster Analysis -> K-Means Clustering

DATA : Selectăm toate variabilele exact ca la pașii anteriori.


OPTIONS: La clusters vom alege 3 ( deoarece am aflat mai devreme că vom împărți în 3 grupe) și vom
bifa Maximum number of iterations și vom alege 10 sau 20 în funcție de ce avem la rezultat sub tabelul
Iteration History.

Apoi la Statistics vom alege Selected statistics și bifăm „List cluster assignments for observations’’
pentru a vedea cărui cluster aparține fiecare observație ( am ales să vedem în ce cluster se află fiecare
model de mașină, alegând Model la Identify observations)

OUTPUT: Am bifat căsuța „Create cluster assignment data set’’ deoarece dacă dorim apoi să facem din
nou ACP-ul, dar de data acesta cu folosind clusterele create la acest pas. ( putem vedea simultan cum
obținem rezulatele de la ACP cu clusterizare)
În tabelul Cluster Summary vedem câte observații are fiecare cluster:

• Clusterul 1 are 199 de autoturisme


• Clusterul 2 are 138 de autoturisme
• Clusterul 3 are 91 de autoturisme

În tabelul Cluster Listing vedem de ce cluster aprține fiecare model. De exemplu, modelul A4 1.8T 4dr
(observația 8) este în clusterul 2.

Pentru a vedea care sunt variabilele care îmi diferențiază cel mai mult grupele ne vom uita în tabelul
Statistics for Variables și vom căuta variabilele care au valoarea lui R-Square cea mai mare (R-Square
>0.5).
R-Square >0.5 => factorul de grupare este semnificativ în variabilitate( R-Square ne spune în ce proporție
este variabila independentă determinată de variabila dependentă și cât de diferite sunt grupele
respective).

Cu cât R-Square este mai mare, cu atât variabila ascociată acelui R-Square contribuie mai mult la
diferențierea între clustere. În cazul nostru, variabilele: Cylinders (0.856), Engine Size (0.797),
Horsepower (0.646), Weight (0.598) și MPG_City (0.501) sunt cele care diferențiază cele 3 grupe de
autoturisme.

Pentru a caracteriza fiecare cluster ne vom uita în tabelul Cluster Means la variabilele care au R-Square
> 0.5:

• Clusterul 1 cuprinde autoturismele medii din punct de vedere al mărimii motorului, al cilindrilor,
al puterii și al greutății, dar cu un consum mediu în oraș. ( linia galbenă din tabelul de mai jos are
valori medii, mai puțin MPG_City)

• Clusterul 2 cuprinde autoturismele cu cea mai mică mărime a motorului, cu cei mai puțini
cilindri, cu cea mai mică putere și cu cea mai mică greutate, dar cu un consum mare în oraș .
(linia albastra din tabel are cele mai mici valori, cu excepția MPG_City-ului)

• Clusterul 3 cuprinde autoturismele cu cea mai mare mărime a motorului, cu cei mai mulți
cilindri, cu cei mai mulți cai putere și cu cea mai mare greutate, dar cu un consum mic în oraș.
(linia roșie din tabel are cele mai mari valori, mai puțin MPG_City)
Seminar 5 – octombrie 2021
Analiza de tip Cluster1
Prof. coordonator: Prof.univ.dr. Cristina Boboc

Fie o baza de date cu informatii privind caracteristicile mai multor specii de flori. Sa se realizeze o
grupare a acestora in clustere omogene. Baaza de date folosita este: specii_flori.xls.

Proceduri SAS

Datele: aplicam analiza de tip cluster pe baza de date specii_flori.xls

→ deschiderea bazei de date

1
Materialul a fost pregatit cu ajutorul studentelor : Ivan Petruta si Stan Alexandru, An 3 Promortia
2019-2020
→ rularea bazei de date (Run)

→ baza de date specii_flori.xls este importata cu numele WORK.IMPORT


OBSERVATII:

Rezultatul obtinut arata ca baza de date este formata din 6 variabile si 150 de observatii .

I. Metoda Ward

Se va folosi metoda de clasificare ierarhica a lui Ward. Acaesta metoda ma va ajuta sa identific si
numarul de clustere in care este cel mai bine a se imparti observatiile.

Metoda SAS : Cluster Observations


DATA – WORK.IMPORT (baza de date pe care dorim sa aplicam metoda (specii_flori.xls) pe care am
rulat-o in prealabil).

ROLES- Ratio (pentru ca variabilele introduse sunt numerice).

*Ratio variables- introducem variabilele pe care vrem sa le grupam .

ADDITIONAL ROLES –Identify observations in clusters – introducem variabila dupa care vrem sa
grupam.


METHODS-Standardization-Ratio Variables – Standardization Method- avem 2 optiuni:

1. Range (atunci cand nu cunoastem observatiile din baza de date sau stim ca exista OUTLIER)

2. Standard deviation (atunci cand cunoastem datele si stim ca nu exista OUTLIER si repartitia
este aproximativ normala)

Dissimilarity Measure- Euclidean

Clustering- Ward minimum variance

(Explicatie: Metoda WARD introduce ca distanţă între 2 clase pierderea de inerţie interclase ce sar obţine
prin contopirea celor două clase.
Metoda Ward – Minimizează variabilitatea din interiorul clusterului.

*Nu trebuie sa bifam nimic

→ rulam (Run)
RESULTS: CLUSTER OBSERVATIONS

Cluster History- returneaza numarul de clustere (grupe)

INTERPRETAREA REZULTATELOR:

Pentru a avea omogenitate in cadrul grupelor R-Square trebuie sa aiba o valoarea mai mare de 0.5. In
cazul nostru se observa ca sunt necesare doua grupe (number of cluster = 2) pentru a avea diferenta
semnificativa intre grupe (R-Square =0.705).
Semipartial R-Square imi arata diferenta de pierdere de inertie de la un nivel la altul de agregare (de la k
la k-1 grupe). Unde se observa o diferenta mai mare inseamna ca acolo ar fi bine sa ma opresc cu
agregarea clusterelor.

In cazul nostru Semipartial R-Square = 0.1207.

OBSERVATIE:

In sectiunea Options la PLOTS este bifat Default plots si automat este bifata Dendogram adica arborele
de clasificare, insa daca baza de date este mult prea mare arborele nu este afisat (daca sunt mai mult de
100 de observatii).
II. Metoda K-Means Clustering

Determina care dintre variabilele incluse in analiza are cea mai mare influenta asupra grupelor si imparte
populatia intr-un numar prestabilit de clustere .

OBSERVATIE:

Pentru a realiza K-Means Clustering se recomanda ca in prealabil sa se ruleze metoda Cluster


Observations pentru a determina numarul de clustere (grupe) in care se impart variabilele .

→ →

DATA – WORK.IMPORT (baza de date pe care dorim sa aplicam metoda (specii_flori.xls) pe care am
rulat-o in prealabil).
ROLES – Variables to use in clustering- adaugam variabilele folosite in analiza .

METHODS – Standardization – RANGE (default)

Clustering - Maximum number of clusters ( numarul de grupe (clustere ) in care se impart variabilele,
in cazul nostru atunci cand am aplicat Cluster Observations am observant ca exista omogenitate in cazul
grupelor de la 2 clustere in sus deci numarul maxim de clustere este 2 ).

Maximum number of iterations (numarul maxim de iteratii, in general sunt suficiente 10 iteratii ).
OUTPUT DATA SETS – Create cluster assignment data set (creem un nou set de data numit
work.Fastclus_scores)

→ rulam (Run)

INTERPRETAREA REZULTATELOR

Results: K-Means Clustering

Cluster Summary – impartirea in clustere a variabilelor.

Statistics for Variables- arata care variabile influenteaza cel mai mult gruparea in clustere.
Din tabelul Statistics for Variables reiese faptul ca variabila care influenteaza cel mai mult gruparea pe
clustere este PETAL LENGTH, R-Square> 0.7, urmata de PETAL WIDTH, unde de asemenea R-
Square>0.7. R-Square măsoară cât de diferite sunt clusterele formate unele de altele în funcție de
variabila respectivă.

In analiza intra si SEPAL LENGTH deoarece R-Square>0,5 . (R-Square = 0.5148).

SEPAL WIDTH nu intra in analiza deoarece R-Square nu este mai mare de 0.5 .

Pentru a caracteriza cele doua clustere ne uitam in tabelul Cluster Means si analizam variabilele care au
R-Square >0.5 .

In clusterul 1 observam ca se regasesc speciile de flori care au valori mici pentru fiecare dintre variabilele
care intra in analiza (exceptand latimea sepalei care este mai mare decat in clusterul 2), iar in clusterul 2
sunt speciile care au valorile mari pentru fiecare dintre variabile (cu exceptia latimei sepalei care este mai
mica decat in clusterul 1).

Astfel putem afirma ca putem imparti speciile de flori in 2 grupe , flori mici cu petale si sepale scurte si
petale usoare si flori mari cu petale si sepale lungi si petale grele.
Seminar 4 – exemplu numeric
Saptamana 4 - octombrie 2021
Metode de clusterizare

Fie 4 indivizi pentru care se măsoară înălţimea, coeficientul de inteligenţă, greutatea, codificate pe o scală
de la 1 la 10 obţinând cuplurile de rezultate:
(1,7,3); (2,9,4); (7,1,5); (10,3,7)
Realizați o împărțire a acestor indivizi în 2 clase folosind metoda centrelor mobile.

Etapa 1:

j=0

Pas 1:
Fie punctele inițiale c1=i1 şi c2=i2

Se calculează distanţele punctelor la c1 şi la c2

Tabelul distanţelor euclidiene:

i1 i2 i3 i4
i1 0 2,45 8,72 13,93
i2 2,45 0 9,49 10,44

i3 8,72 9,49 0 4,12

i4 13,93 10,44 4,12 0

Se determina minimele distanțelor punctelor la c1 și c2.


Clasele formate sunt :
X1={i1;i3} şi
X2={i2;i4}
Centrele de greutate ale celor două clase sunt:
g1=(4;4;4); g2=(6;6;5,5)
Inerțiile celor două clase sunt:
I1=1/4 [d2(i1;g1)+d2(i3;g1)]=9,5
I2=1/4 [d2(i2;g2)+d2(i4;g2)]=13,625
Interția din interiorul claselor este:
Iw= 1/2[I1+I2]=11,5625 pentru prima iteraţie

Etapa 2 : j=1
Pas 1:
Considerăm c1=g1 şi c2=g2
Se calculează distanţele punctelor la g1 şi la g2

d (i1 , g1 ) = (1 − 4) 2 + (7 − 4) 2 + (3 − 4) 2 = 4,36 d (i1 , g 2 ) = (1 − 6) 2 + (7 − 6) 2 + (3 − 5,5) 2 = 5,68

d (i 2 , g1 ) = (2 − 4) 2 + (9 − 4) 2 + (4 − 4) 2 = 5,385 d (i 2 , g 2 ) = (2 − 6) 2 + (9 − 6) 2 + (4 − 5,5) 2 = 5,22

d (i3 , g1 ) = (7 − 4) 2 + (1 − 4) 2 + (5 − 4) 2 = 4,36 d (i3 , g 2 ) = (7 − 6) 2 + (1 − 6) 2 + (5 − 5,5) 2 = 5,12

d (i 4 , g1 ) = (10 − 4) 2 + (7 − 4) 2 + (3 − 4) 2 = 6,78 d (i 4 , g 2 ) = (10 − 6) 2 + (7 − 6) 2 + (3 − 5,5) 2 = 4,82

Se determina minimele distanțelor punctelor la g1 și g2.

Pas 2: Clasele formate sunt :


X1={i1;i3} şi
X2={i2;i4}

Pas 3:
g1=(4;4;4);
g2=(6;6;5,5);
I1=1/4 [d2(i1;g1)+d2(i3;g1)]=9,5;
I2=1/4 [ d2(i2;g2)+d2(i4;g2)]=13,625
Iw= 1/2[I1+I2]=11,5625 pentru a doua iteraţie

IW(1) − IW( 0) = 0  
Pas 4: deci STOP
Clusterele sunt: X1={i1;i3} şi X2={i2;i4}
Seminar 3 - AMD
Octombrie 2021
Problema 1.

Fie 4 indivizi pentru care se măsoară înălţimea, coeficientul de inteligenţă, greutatea, codificate pe o scală de
la 1 la 10 obţinând cuplurile de rezultate: (1,7,3); (2,9,4); (7,1,5); (10,3,7).

1. Determinati tabelul distanțelor euclidiene dintre indivizi luați doi câte doi.
2. Care este centrul de greutate al clusterului format din primul și al doilea individ.
3. Care este distanța Single Linkage, Mean Linkage sau Complete Linkage dintre individul 1 si
clusterul determinat de indivizii 2,3 si 4.
4. Determinați arborele de clasificare folosind algoritmul Ward.

Rezolvare

1. Distanţele euclidiene dintre aceste puncte se calculează astfel:

d (i1, i2 ) = (1 − 2)2 + (7 − 9)2 + (3 − 4)2 = 2,45

Tabelul distanţelor euclidiene este:

i1 i2 i3 i4

i1 0 2,45 8,72 13,93

i2 2,45 0 9,49 10,44

i3 8,72 9,49 0 4,12

i4 13,93 10,44 4,12 0

2. Centrul de greutate al clusterului format din primii doi indivizi este:


g=((1+2)/2;(7+9)/2;(3+4)/2)=(1,5;8;3,5)

3. Distanța Single Linkage


inf(A={i1}, B={i2, i3, i4})=inf d(ei,ej) ei{i1}, ej{i2, i3, i4}  =2,45

Distanța Complete Linkage


sup(A={i1}, B={i2, i3, i4})=sup d(ei,ej) ei{i1}, ej{i2, i3, i4}  =13,93
Distanța Mean Linkage
1 1
mean(A={i1}, B={i2, i3, i4})= 𝑝 ∑𝑒𝑖 ∈𝐴 ∑𝑒𝑗∈𝐵 𝑑(𝑒𝑖 , 𝑒𝑗 ) = (2.45 + 8.72 + 13.93) =8.36
𝐴 ⋅𝑝𝐵 1⋅3

Distanța Ward
𝑝𝐴 𝑝𝐵 2
𝛿(A = {i1}, B = {i2, i3, i4}) = 𝑑 (𝑔𝐴 , 𝑔𝐵 )
𝑝𝐴 + 𝑝𝐵

gA=(1,7,3)

gB=((2+7+10)/3;(9+1+3)/3;(4+5+7)/3)=(6,33; 4,33; 5,33)

1∗3 3
𝛿 Ward= [(1 − 6.33)2 + (7 − 4.33)2 + (3 − 5.33)2 ] = [28.4 + 7.13 + 5.43] = 30.71
1+3 4

4. Metoda Ward

Pas 1 Calculul distantelor dintre clase folosind algoritmul Ward :

p A pB 2
 ( A, B) = d (g A, gB )
p A + pB

La prima iteratie toate clase au un singur element, deci ponderile sunt egale cu ¼ pentru toate clasele.
11
⋅ 1
𝛿(𝑖1 , 𝑖2 ) = 14 41 𝑑 2 (𝑖1 , 𝑖2 ) = 8 (1 + 4 + 1) = 0.75
+
4 4

Tabelul distantelor dintre clase conform algoritmului Ward:

i1 i2 i3 i4

i1 0 0.75 9.5 14,125

i2 0,75 0 11,25 13,675

i3 9.5 11,25 0 2,125

i4 14,125 13.675 2,125 0

Min=0.75
Pas 2 In acest pas, avem o clasa cu doua elemente (i1, i2) ce va avea ponderea 2/4=1/2 si restul cu cate un
element cu ponderea ¼.

gi1i2 = 1 / 2(1 + 2;7 + 9;3 + 4) = (1,5; 8; 3,5)


2 / 4 1 / 4 2 2
 ((i1 , i2 ); i3 ) = d ( gi1i2 ; i3 ) = (30,25 + 49 + 2,25)
2 / 4 +1/ 4 3 4

Tabelul distantelor dintre clase conform algoritmului Ward:

(i1;i2) i3 i4

(i1;i2) 0 13,58 18,25

i3 13,58 0 2,125

i4 18,25 2,125 0

Pas 3 Continuam algoritmul, clasele avand fiecare dine le cate 2 elemente.

gi3i4 = (8,5; 2; 6)
2 / 42 / 4 2 1
 ((i1 , i2 ); (i3 , i4 )) = d ( gi1i2 ; gi3i4 ) = (49 + 36 + 6,25)
2/ 4+ 2/ 4 4

Tabelul distantelor dintre clase conform algoritmului Ward:

(i1;i2) (i3;i4)

(i1;i2) 0 22,81

(i3;i4) 22,81 0

Arborele de clasificare

0.75
Seminar 2 - AMD
Octombrie 2021
Se lucrează pe o bază de date referitoare la utilizatorii de internet pe mobil.

Fișierul este utilizatori internet pe mobil.xlsx si se gaseste in folderul MDA2020 din SAS.

Această bază de date contine 3044 de observații și 6 variabile.

Pentru a importa această bază de date în SAS Studio va trebui sa rulați programul de import, astfel:

RUN

Baza de date creată în libraria WORK

Fisierul excel importat Zona rezultatelor

Toate task-urile cu care vom lucra pe parcursul acestui semestru sunt incluse în Task and Utilities.

In acest seminar vor fi aplicate diverse task-uri pe Date:


Cele mai importante proceduri/task-uri ce pot fi realizate pentru analiza bazei de date sunt:

Se selecteaza Baza de date creată


1. Characterize Data
din libraria WORK

Se selecteaza variabilele

pe care dorim sa le caracterizam

Se selecteaza variabilele categoriale

pe care dorim sa le caracterizam

Se selecteaza indicatorii si graficele

ce se doreste a fi realizate pentru variabilele

numerice si cele categoriale


Exista posibilitatea sa selectam si o variabila de grupare, in cazul in care se doreste ca rezultatele sa fie
furnizate pe grupe (tabelele de frecvente, indicatorii medii si ai variabilitatii, si graficele).

Pentru rezultate va rog sa va uitati pe prezentarea video.


Analiza statistică multidimensională

Analiza statistică
multidimensională
Seminar 1 - Octombrie 2021

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională

Sumar
• Organizare Seminar
• Inscriere curs SAS Studio
• Recapitulare – Masurarea intensitatii legaturii intre variabile
Analiza statistică multidimensională
Înregistrare în
SAS on Demand for Academics
• Vă invit să vă înscrieți în cursul meu SAS OnDemand for Academics: Analiza Multidimensionala astfel:
• Creați-vă un cont pentru SAS OnDemand for Academics. Pentru înregistrare vizitați pagina https://odamid.oda.sas.com și
apăsați pe Register for an account.
• După înregistrare, vă rog să vă Logați cu contul dvs la: https://odamid.oda.sas.com
• Căutați linkul Enroll in a course în Enrollments din partea de jos a paginii. Faceți clic pe acest link pentru a începe
înscrierea.
• Introduceți codul cursului: 4695cb0e-f1b6-4728-86b8-20a3209cf4cd
• Trimiteți formularul.
• Confirmați că acesta este cursul corect și apoi faceți clic pe buton pentru a termina înscrierea.

• Plănuiesc să predau folosind următorul software: SAS Studio


• Am încărcat date pe care să le folosim în cursul nostru.
• Pentru accesarea datelor folositi urmatoarea instructiune de tip LIBNAME sau FILENAME:
FILENAME REFFILE '/home/cristinaboboc1/my_content/MDA 2020/file_name'
Analiza statistică multidimensională

RECAPITULARE

MĂSURAREA INTENSITĂŢII LEGĂTURII ÎNTRE VARIABILE


Analiza statistică multidimensională
MĂSURAREA INTENSITĂŢII LEGĂTURII
VARIABILE CANTITATIVE
• Coeficientul de corelaţie liniară a lui Pearson
n xi y i   x i  y i

r   1,1
n xi2  ( x i ) n
2
 y i2  ( y i ) 2

• r=1 - există o legătură perfectă directă între x şi y
• r=-1 - există o legătură perfectă inversă între x şi y
• r=0 - nu există legătură între x şi y

• Testarea existenţei legăturii liniare între x şi y


• Ipotezele: H0: variabilele x şi y nu sunt corelate HA: variabilele x şi y sunt corelate

• t  r n2 ~ T
n 2
1 r2
•t  t ;n  2  se respinge H0
• t  t ;n  2  se acceptă H0
Analiza statistică multidimensională
MĂSURAREA INTENSITĂŢII LEGĂTURII
VARIABILE CANTITATIVE
• Exemplu: Pentru 10 companii s-a înregistrat circulaţia mărfurilor şi profitul obţinut. Să se
specifice dacă există o corelaţie între cele două variabile.

CA 30 25,5 6,7 45,2 10,5 16,7 20,5 21,4 8,3 70,5


Profit 3 2,8 1,1 5,3 0,6 2,1 2,1 2,4 0,9 7,1

Descriptive Statistics

Mean Std. Deviation N r=0,987>0 


profit 2.7400 2.03372 10 corelaţie puternică pozitivă
CA 25.5300 19.51313 10
între CA şi profit
Correlations

profit Pears on Correlation


profit CA
corelaţie între CA şi profit
1 .987**
Sig. (2-tailed) .000 semnificativă statistic
N 10 10
CA Pears on Correlation .987** 1
Sig. (2-tailed) .000
N 10 10
**. Correlation is s ignificant at the 0.01 level
Analiza statistică multidimensională
MĂSURAREA INTENSITĂŢII LEGĂTURII
VARIABILE ORDINALE
• Coeficientul de corelaţie a rangurilor al lui Sperman
• se calculează rangurile variabilei x şi ale variabilei y şi se determină diferenţa dintre
ranguri: di = rang xi – rang yi
6 d i2
• coeficientul lui Spearman: Rs  1 
n(n  1)
2

• r=1 - există o legătură perfectă directă între x şi y


• r=-1 - există o legătură perfectă inversă între x şi y
• r=0 - nu există legătură între x şi y
• Testarea existenţei legăturii între x şi y
• Ipotezele: H0: variabilele x şi y nu sunt corelate HA: variabilele x şi y sunt corelate

• R  n  1R s ~ N(0,1)
• R  z/2  se respinge H0
• R < z/2  se acceptă H0
Analiza statistică multidimensională
MĂSURAREA INTENSITĂŢII LEGĂTURII
VARIABILE ORDINALE
• Rezultatele obţinute în urma unui sondaj în care companii Americane şi Europene au fost rugate
să ordoneze departamentele în funcţie de importanţa lor au fost:
Departament America Europa

Cercetare-dezvoltare 4 2
Producie 2 4
Reclamă şi publicitate 3 1
Strategii promoţionale 7 6
Ambalaje 8 7
Salarizare 5 8
Infrastructură 6 5
Contabilitate 1 3

Correlations
r=0,667>0 
America Europa corelaţie de intensitate medie
Spearman's rho America Correlation Coefficient 1.000 .667
pozitivă între rezultatele companiilor
Sig. (2-tailed) . .071 corelaţie semnificativă statistic
Americane şi cele Europene
N 8 8 cu o probabilitate de 92%
Europa Correlation Coefficient .667 1.000
Sig. (2-tailed) .071 .
N 8 8
Analiza statistică multidimensională
MĂSURAREA INTENSITĂŢII LEGĂTURII
VARIABILE NOMINALE
• Coeficientul de contingenţă
• ni,j – nr. de unităţi cu varianta i a variabilei x şi varianta j a variabilei y
• ni. - nr. de unităţi cu varianta i a variabilei x; n.j – nr. de unităţi cu varianta j a variabilei y
• n – nr. total de unităţi
2
 n n 
 n ij  i. . j 
• s r   2
2     n  ~ 2 C
n i. n . j r 1s 1 2 n
j1 i 1
n între variabile
• C=0  nu există asociere
• Testarea existenţei asocierii între x şi y: testul 2
• Ipotezele: H0: variabilele x şi y nu sunt corelate HA: variabilele x şi y sunt corelate
• Dacă  se respinge H0
   2 ;r 1s1
2
• Dacă  se acceptă H0
 2   2 ;r 1s1
Analiza statistică multidimensională
MĂSURAREA INTENSITĂŢII LEGĂTURII
VARIABILE NOMINALE
• Exemplu: Se efectuează un sondaj pentru a vedea dacă este vreo legătură între frecvenţa cu care o
familie pleacă din localitatea de reşedinţă pentru recreere şi tipul de locuinţă
o dată pe lună o dată la trei luni o dată la 6 luni o dată pe an
Apartament 10 11 8 9
Casă 16 9 13 11
Fără locuinţă proprietate personală 12 9 14 9

Chi-Square Tests

Asymp. Sig.
Value df (2-s ided)
2.517 a
Pears on Chi-Square
Likelihood Ratio
6 .867
nu se poate spune că există o asociere
2.474 6 .871
Linear-by-Linear
.021 1 .885
semnificativă statistic între cele două variabile
Ass ociation
N of Valid Cas es 131
a. 0 cells (.0%) have expected count less than 5. The
minimum expected count is 8.41.

Symmetric Measures

C=0,137 
asocierea între cele două variabile este slabă
Value Approx. Sig.
Nominal by Nominal Contingency Coefficient .137 .867
N of Valid Cas es 131
a. Not as s uming the null hypothes is.

S-ar putea să vă placă și