Documente Academic
Documente Profesional
Documente Cultură
Modele de regresie
pentru date de tip panel
Decembrie 2021
2
Analiza statistică multidimensională
Model cu efecte fixe
y it = x it + u it şi u it = i + it pentru i = 1,..., N ; t = 1,..., T
( NT 1) ( NT N ) ( N 1) ( NT K ) ( K 1) ( NT 1)
yN 0 0 T
N X N N
DAR:
➔ calcule complexe dacă N este mare
➔ dimensiunea mare a vectorului coeficienţilor poate conduce la estimări
imprecise
➔ pierdere mare a gradelor de libertate
➔ de multe ori nu suntem interesaţiˆde
LSDV toţi parametrii i dacă N este mare!
T
unde y i. = t =1
y it / T etc.
( )
−1
ˆW = X X X y = ˆLSDV
Analiza statistică multidimensională
Model cu efecte fixe
7
Analiza statistică multidimensională
Model cu efecte fixe
Estimarea termenilor liberi individuali:
ˆ i ,W = y i − x i ˆW
Dacă modelul iniţial include o constantă , atunci este estimat efectul
compus i+ (interpretare diferită a lui i ).
Nu este posibilă identificarea efectelor individuale decât în cazul în
care se face o presupunere suplimentară, adică:
i = 0
N
i =1
Estimatorii pentru i :
• nu sunt consistenţi pentru N mare:
➔ numărul parametrilor creşte odată cu creşterea lui N
Analiza statistică multidimensională
Model cu efecte aleatoare
(*) y it = + x it + u it , i = 1,..., N ; t = 1,..., T şi u it = i + it
Ipotezele privind termenul eroare : zgomot alb (ca în regresia liniară):
- media zero a erorilor
- dispersia erorilor constantă
- non-autocorelarea erorilor
( )
E xit i = 0 Model
randomcu efecte
effects aleatoare
model
Analiza statistică multidimensională
Model cu efecte aleatoare
Cum poate fi implementat estimatorul modelului cu efecte aleatoare?
Estimator RE
y it − y i = (1 − ) + ( x it − x i ) + (u it − ui ),
i = 1,..., N ; t = 1,..., T
unde
= 1−
2 + T 2
Estimatorul BE:
➔este consistent
➔este eficient dacă modelul pentru componentele erorilor este adevărat
Analiza statistică multidimensională
Model cu efecte aleatoare
Estimator BE :
y it = + x it + i + it i = 1,..., N ; t = 1,..., T
Putem scrie:
y i = + x i. + i + i. i = 1,..., N (Transformarea dintre perioadele
de timp)
Se calculează estimatorul prin metoda celor mai mici pătrate pentru acest
model transformat, numit Estimator BE (Between Estimator)
Estimatorul BE:
• Este consistent, dacă efectele individuale şi X sunt necorelate
• Nu este eficient (ţine cont doar de variaţia dintre indivizi)
Analiza statistică multidimensională
Cazuri speciale: 2
= (1 − )
2
2 = 0 = 1 OLS =
T 2 + 2
T → → 0 Within estimator
2 = 0 = 0 Within estimator
→ Between estimator
13
Analiza statistică multidimensională
Aplicarea modelului RE
• Modelul clasic de regresie liniară:
Var ( yˆ ) Var ( y ) − Var (uˆ ) yˆ yˆ uˆuˆ
y = X + u = X ˆ + uˆ = yˆ + uˆ R 2 = corr ( yˆ , y )2 = = = = 1−
Var ( y ) Var ( y ) yy yy
• Alte modele:
FE: R = corr ( xit − xi ) ˆW , ( yit − yi )
2
2
W R2 din modelul Within
R = corr x ˆ , y
2
2
BE i W i Potrivirea modelului Between cu estimatori FE
R = corr x ˆ , y
2
2
O it W it Potrivirea generală a modelului cu estimatori FE
R = corr x ˆ , y
2
2
BE i BE i R2 din modelul Between
R = corr x ˆ , y
2
2
O it BE it Potrivirea generală a modelului cu estimatori BE
RE: R = corr ( x − x ) ˆ
, ( yit − yi )
2
2
W it i BE Potrivirea modelului Within cu estimatori RE
R = corr x ˆ , y
2
2
BE i BE i Potrivirea modelului Between cu estimatori RE
R = corr x ˆ , y
2
2
O it BE it Potrivirea generală a modelului cu estimatori RE
Analiza statistică multidimensională
Testarea pentru efecte fixe individuale
Există efecte fixe individuale?
➔ Testul F
FT =
( RSS0 − RSS1 ) / ( N − 1)
RSS1 / ( NT − N − K )
• Regula de decizie:
Se respinge ipoteza nulă (şi deci modelul grupat) dacă FT este mai mare
decât valoarea critică (adică dacă p-value < un nivel de semnificaţie dat , în
general 0.05). 16
Analiza statistică multidimensională
Testarea pentru efecte aleatoare
Există efecte aleatoare?
➔ Testul Multiplicatorului Lagrange Breusch-Pagan
NT uˆ ( I N JT ) uˆ
2 (1)
a
LM = 1 − subunder
ipotezaH
H00 este U sunt rezidual-urile
2*(T − 1) uˆuˆ din modelul grupat
• Regula de decizie:
Se respinge ipoteza nulă (adică a efectelor aleatoare), dacă LM este mai mare
decât valoarea critică (sau dacă p-value < o valoare dată a nivelului de
semnificaţie , în general 0.05).
Analiza statistică multidimensională
Testarea pentru efecte aleatoare versus efecte fixe
Dacă se respinge modelul grupat: Se foloseşte modelul cu efecte fixe sau aleatoare?
➔ Testul Hausman-Wu
➔ Se testează dacă efectele individuale aleatoare sunt corelate cu variabilele
explicative (FE) sau nu (RE)
( )
• H0: E xit i = 0 no există corelaţie: FE consistent Estimatorii FE şi RE
RE consistent şi eficient sunt similari
( )
• H1: E xit i 0 corelatie: FE consistent Estimatorii FE şi RE
sunt diferiţi
RE inconsistent
Analiza statistică multidimensională
Testarea pentru efecte aleatoare versus efecte fixe
Testul statistic:
( ) ( )
sub
a ipoteza H0 este χ2k unde k este
HW = ˆRE − ˆFE ( RE − FE ) ˆRE − ˆFE ( Kde=coloane of Xcolumns in X )
−1 2
numărul number în
• Regula de decizie:
Se respinge ipoteza nulă dacă HW este mai mare decât valoarea critică (sau
dacă p-value < o valoare dată a nivelului de semnificaţie , în general 0.05).
Analiza statistică multidimensională
SAS –
H1:există ef. aleatoare
și șomaj și PIB pe locuitor, Sign˂0,05 →
observații pentru 11 țări se respinge H0 deci există ef. aleatoare.
Fixed și 8 ani
Calitatea modelului
cu un niv.de semnif. de 0,05 dar nu și de 0.01
Test Hausmann
Ipotezele testate:
H0: FE consistent; RE consistent şi eficient
H1: FE consistent; RE inconsistent
Sign˂0,05 →
se respinge H0 deci este
recomandat a se utiliza modelul cu efecte fixe
Parametrii sunt
semnificativi cu un niv de
semnif. de cel putin 0,01
Parametrii nu sunt
semnificativi
Repartiția rezidualurilor
nu este normală
Analiza statistică multidimensională
Modele de regresie
pentru date de tip panel
Decembrie 2021
Sumar
• Date de tip panel
• Regresia prin metoda celor mai mici pătrate grupată (POLS –
Pooled ordinary least squares)
• Modelul de regresie cu efecte fixe
• Modelul de regresie cu efecte aleatoare
• Testul Hausman
2
Analiza statistică multidimensională
3
Analiza statistică multidimensională
Reprezentarea grafică
24 2014
2013
2012
22 2009 2011
2010
2009 2008
20 2008 2012
2010 2013 2014
2011
18
PIB
2007
16 2007
2014
2009 2012 2013
14 2010 2011
2008
12
2007
10
4 6 8 10 12 14 16 18 20
Rata somajului
Notaţie generală
Numărul Timp Variabila 1 Variabila 2
unităţii Xit Yit
1 1 X11 Y11
1 … X1t Y1t
1 T X1T Y1T
… 1 Xi1 Yi1
… … Xi2 Yi2
… T Xi3 Yi3
N 1 XN1 Y31
N … XNt YNt
N T XN3 YNT
5
Analiza statistică multidimensională
6
Analiza statistică multidimensională
• αi capturează impactul variabilelor neobservate constante în timp pentru un anumit individ, dar care variază
între indivizi: calitatea managementului (firma), sexul (individ), calitatea instituţiilor (ţări)
• μt capturează impactul variabilelor neobservate care afectează în acelaşi fel toţi indivizii într-o anumită perioadă
de timp, însă variază în timp: modificări de politică, rata de schimb, schimbarea valorilor în societate
• εit capturează impactul variabilelor neobservate care variază atât între indivizi cât şi în timp: norocul, starea de
bine, etc
7
Analiza statistică multidimensională
Termenul eroare
uit = i + t + it
8
Analiza statistică multidimensională
Secţiune transversală
• Există o singură observaţie pentru fiecare individ => variaţia
dintre rezultate provine de la variaţia dintre indivizi
• În acest caz nu există deosebire între efectele neobservate
specifice individului şi efectele neobservate specifice individului
şi timpului
9
Analiza statistică multidimensională
uit = i + t + it
• Descompunerea termenului eroare indică faptul că una dintre presupunerile metodei celor
mai mici pătrate nu va fi respectată: "Două observaţii ale aceluiaşi individ vor fi mai
asemănătoare comparativ cu două observaţii provenind de la doi indivizi diferiţi"
Cov ( X i i ) 0
11
Analiza statistică multidimensională
Metoda celor mai mici pătrate grupată
(Pooled ordinary least squares)
12
Analiza statistică multidimensională
Metoda celor mai mici pătrate grupată
(Pooled ordinary least squares)
• Metoda celor mai mici pătrate grupată va furniza estimatori ai parametrilor constanţi fără
diferenţiere între indivizi şi timp
Cov ( X i i ) 0
• Din cauza componentei efectului neobservat specific indivizilor una din ipotezele pe care
se bazează metoda celor mai mici pătrate poate fi nerespectată: .
Presupunerea că fiecare eroare în fiecare perioadă de timp, pentru fiecare persoană este
necorelată cu variabilele şi efectele pentru fiecare persoană şi de-a lungul timpului, poate
să nu fie respectată
• Structura de tip panel are dimensiunea timp, deci corelaţia dintre erori succesive poate să
conducă la violarea ipotezei privind non autocorelarea erorilor
• Estimatorii obţinuţi nu vor fi deplasaţi însă vor fi neeficienţi (informaţia cu privire la
autocorelarea erorilor poate fi folosită pentru obţinerea de estimatori mai buni)
13
Analiza statistică multidimensională
Metode specifice datelor de tip panel
• permit diferenţierea comportamentului între indivizi şi în
perioade diferite de timp sub forma:
• Efectelor fixe: atunci când există corelaţie între X şi i
• Efectelor aleatoare: atunci când corelaţia între X şi i este zero
14
Analiza statistică multidimensională
Model cu efecte fixe
y it = x it + u it şi u it = i + it pentru i = 1,..., N ; t = 1,..., T
( NT 1) ( NT N ) ( N 1) ( NT K ) ( K 1) ( NT 1)
yN 0 0 T
N X N N
DAR:
➔ calcule complexe dacă N este mare
➔ dimensiunea mare a vectorului coeficienţilor poate conduce la estimări
imprecise
➔ pierdere mare a gradelor de libertate
➔ de multe ori nu suntem interesaţiˆde
LSDV toţi parametrii i dacă N este mare!
T
unde y i. = t =1
y it / T etc.
( )
−1
ˆW = X X X y = ˆLSDV
Analiza statistică multidimensională
Model cu efecte fixe
19
Analiza statistică multidimensională
Model cu efecte fixe
Estimarea termenilor liberi individuali:
ˆ i ,W = y i − x i ˆW
Dacă modelul iniţial include o constantă , atunci este estimat efectul
compus i+ (interpretare diferită a lui i ).
Nu este posibilă identificarea efectelor individuale decât în cazul în
care se face o presupunere suplimentară, adică:
i = 0
N
i =1
Estimatorii pentru i :
• nu sunt consistenţi pentru N mare:
➔ numărul parametrilor creşte odată cu creşterea lui N
Analiza statistică multidimensională
ANALIZA CANONICA
Y1
1(V ) = V1
Y2
Estimarea factorilor canonici
Primul factor canonic este
obținut prin estimarea ce maximizează corelația
coeficienților combinațiilor dintre U1 și V1
liniare:
l1 l2 lr
Calculul factorilor și al corelațiilor
canonice
U2
V2
Teste de semnificație
◼ Procedură: Se analizează
coeficienții standardizați ai
factorilor canonici
U1 = −.09 X 1 − 0.29 X 2 + 0.48 X 3 + 0.29 X 4
◼ Inferență: variabilele cu
coeficienți (în valoarea U1 este o variabilă a contrastelor dintre X3
absolută) mari sunt cei and X4 pe de o parte, și X2 pe de altă parte
mai importanți
Interpretarea factorilor canonici
O ABORDARE STRUCTURATĂ
PRIVIND ANALIZA MULTIDIMENSIONALĂ
Noiembrie 2021
Titular de curs: Prof.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională
REZUMAT – METODE DE ANALIZĂ MULTIDIMENSIONALĂ
Dependență Tipul relației Interdependență
analizate
Nr.Variabile Relațiile sunt
analizate între:
Mai multe variabile O variabilă
dependente într-o dependentă într-o Variabile Obiecte
singură relație Observații (modalitățile
singură relație numerice
Var. nenumerice)
Scala de măsurare a Scala de măsurare a
var.dependente var.dependente Analiza
Analiza de
Analiza Cluster corespondențe
Factorială (ACP)
simplă/multiplă
Analiza de
ANALIZA
varianță
CANONICĂ
multivariată
Analiza statistică multidimensională
Studiu de caz 1
• Să presupunem că cerem clienților să evalueze un restaurant în funcție de: gustul alimentelor,
temperatura alimentelor, prospețimea, timpul de așteptare, curățenia și prietenia angajaților.
Studiu de caz 2
• Cum ar putea fi diferențiați și identificați inovatorii de non-inovatori în funcție de profilurile lor
demografice și psihologice?
ANALIZA
DISCRIMINANTĂ
Studiu de caz 3
• Să presupunem că proprietarul unui restaurant vrea să știe care sunt motivele pentru care clienții
vin în restaurant. Datele colectate ar putea fi: percepțiile privind prețurile, calitatea alimentelor,
servirea clienților, etc.
• Cum ar putea analistul analiza răspunsurile clienților?
Studiu de caz 4
• Presupunem că preferințele de marcă ale respondenților pot fi încrucișate cu variabilele
demografice (de exemplu, sexul, categoriile de venit, ocupația) indicând numărul de persoane
care preferă în fiecare marcă și în fiecare categorie a variabilelor demografice.
Numărul de doctoranzi
în diferitele discipline se
schimbă în timp.
Astfel la începutul anilor
‘70 predominau
doctoratele în
matematică și inginerie
timp iar la sfîrsitul anilor ‘70
predominau doctoratele
în științele
comportamentale și ale
vieții.
Analiza statistică multidimensională
STUDIU DE CAZ 2 – Satisfacția privind procesul de cumpărare
Sursa datelor: Satisf.spss
Persoanele cu vârsta
între 50-64 ani au o
părere generală negativă
privind magazinele
analizate
Analiza statistică multidimensională
STUDIU DE CAZ 3 – Satisfacția privind procesul de cumpărare
Sursa datelor: Satisf.spss
Determinați corespondentele?
Analiza statistică multidimensională
STUDIU DE CAZ 4
Preţul produselor
agroalimentare
Analiza statistică multidimensională
Analiza discriminantă
Noiembrie 2021
Sumar
I. Definire
II. Axele şi variabilele discriminante
III. Funcția Fisher
IV. Reguli geometrice de atribuire
V. Metode probabiliste
VI. Estimaţii practice ale erorii de clasificare
Analiza statistică multidimensională
I. Definire
• Scop: Prezicerea unei variabile calitative cu k categorii cu ajutorul a p predictori, în general numerici.
• Aspecte:
• descriptiv: se caută combinaţiile liniare de variabile care permit împărţirea cel mai bine posibil în cele k
categorii şi dau o reprezentare grafică (ca în ACP), care ţine seama cel mai bine de această împărţire.
• decizional: un nou individ apare, pentru care se cunosc valorile predictorilor. Este vorba de a decide cărei
categorii trebuie atribuit individul respectiv. Este o problemă de clasament.
Analiza statistică multidimensională
I. Definire Analiza discriminantă constă în căutarea de noi axe care separă cel mai
bine în proiecţie cele k grupuri de observaţii
Analiza statistică multidimensională
I. Definire
Când datele sunt împărțite în două categorii,
noile axe sunt create astfel încât să îndeplinească două criterii:
I. Definire
• Fie E un nor în Rp format din n indivizi, notaţi ei.
• Acest nor este împărţit în k subnori: E1, E2, ..., Ek cu centrele de greutate g1, g2, ..., gk şi cu matricile de
varianţă V1, V2, ..., Vk.
• Fie g centrul de greutate al intregului nor de puncte şi V matricea de varianţă a întregului nor de puncte.
• Dacă cei n indivizi sunt afectaţi de ponderile p1, p2,..., pn atunci ponderile q1, q2,..., qk ale fiecărui sub-nor
sunt : q j = p i .
ei Ei
E2 1
x
gj =
x p i ei
x
x x
qj i
E1
x
k
x x g = qjg j
x
x j=1
V = 1
p i (ei − g j )(ei − g j )'
x x
x
j q
x
x
x x
x
x
j i Ej
e
E3
Analiza statistică multidimensională
I. Definire
• Matricea de varianţă interclase B, se defineşte ca matricea de varianţă a celor k centre de
greutate cu ponderile qj:
k
B= q
j =1
j (g j - g )(g j - g )'
• Observație: În cazul general, W este inversabilă în timp ce B nu este, deoarece cele k centre de greutate sunt
într-un sub-spaţiu de dimensiune k-1 din Rp (dacă p>k-1, ceea ce se întâmplă în general), în timp ce B este de
dimensiune p.
• Varianţa totală este suma dintre media varianţelor şi varianţa mediilor, are loc relaţia următoare: V=W+B .
Ipoteză: Se presupune g=0 (adică variabilele explicative sunt centrate).
Analiza statistică multidimensională
I. Definire
• Tabloul datelor de studiat este AX unde :
• A este tabloul logic asociat variabilei calitative ;
• X este matricea celor p variabile explicative.
• Observație: Dacă pi=1/n formulele precedente se simplifică. Fie n1, n2,..., nk mărimea subnorilor.
1
B = nj g j g j' 1
• Atunci : n j unde gj = ei
1 n j Ej
W = n jV j
n j
Analiza statistică multidimensională
II. Axele şi variabilele discriminante
Axa 2
x
x Axa 1
x x
x x
x Axa 1
x x
x x x
x
Axa 2
Analiza statistică multidimensională
II. Axele şi variabilele discriminante
• Se presupune Rp înzestrat cu metrica M.
• Se notează cu ‘a’ axa discriminantă şi cu ‘u’ factorul asociat axei discriminante, u=Ma. Xu va fi variabila
discriminantă
• Axa discriminantă este vectorul propriu al matricii M-1V-1BM asociat celei mai mari valori proprii.
• Axei discriminante a i se asociază factorul discriminant u astfel încât u=Ma.
• Factorul discriminant u este vectorul propriu al matricii V-1B asociat valorii proprii 1 : V-1Bu=1 u.
BV −1a = 1a
−1
V Bu = 1u
Analiza statistică multidimensională
II. Axele şi variabilele discriminante
• Observaţie: 011
• 1=1 atunci: a’MBMa=a’MVMa x
x
x x
x g1
În acest caz, în proiecţie pe a dispersiile intraclase sunt nule. Cei k nori sunt fiecare x
x
x x
x x
într-un hiperplan ortogonal pe a. g1
x x
x
Avem discriminare perfectă dacă centrele de greutate se proiectează în puncte
diferite.
x x
Grup 1
• Dacă 1=0 atunci: a’MBMa=0
x
x
x
Grup 2
x x x
x . x
În acest caz cea mai bună axă nu permite separarea centrelor de greutate gi. Este x
x
x x
g1=g2
x
x
x
cazul în care ele sunt confundate. x x x
x x x
g1 g2
• Se defineşte funcţia scor a lui Fisher ca: W-1(g1-g2). g
g1
g2
Analiza statistică multidimensională
V. Metode probabiliste
• Se presupune că există un număr finit de populaţii din care individul poate proveni şi fiecare populaţie este
caracterizată de o probabilitate de distribuţie a măsurătorilor. Individul este considerat ca o observaţie
aleatoare a acestei populaţii.
• Ideea generală pentru construirea unei proceduri de clasificare este de a minimiza probabilitatea de
misclasificare, sau şi mai exact, minimizarea efectelor negative ale misclasificării.
• Boboc C. - Metode statistice de analiză a atributelor necesare ale calităţii, Editura Meteor Press, 2007, pag. 60-66
• Anderson T.W. – An introduction to multivariate statistical analysis, Wiley, New York, 1984
Analiza statistică multidimensională
VI. Estimații practice ale erorii de clasificare
1.Metoda eşantionului test
În acesată metodă se foloseşte toată informaţia eşantionului pentru definirea regulii de afectare a unui nou
individ. Această regulă este apoi testată pe acelaşi eşantion, adică fiecare individ din eşantion este atribuit
unei grupe după regula descrisă anterior.
• Estimarea erorii de clasament astfel obţinută are o deplasare optimistă deoarece regula de afectare este
testată pe indivizii care au contribuit la construcţia sa.
• Regula de afectare este construită pe eşantionul de învăţare E1 şi testată pe eşantionul de testare E2, obţinând astfel eroarea de
clasificare.
Analiza de
corespondente
Noiembrie 2021
Sumar
• I. Definire şi utilizare
Definire și utilizare
• metodă de studiu a legăturilor existente între mai multe variabile calitative
• studiază corespondenţa între modalităţile variabilelor
• pentru 2 variabile calitative: Analiza de Corespondenţe Simplă
• pentru mai mult de două variabile calitative: Analiza de Corespondenţe Multiplă
Analiza statistică multidimensională
II. Analiza de corespondenţe simplă
• Matricea D este tabelul diagonal de totaluri marginale ale celor m=m1+ m2+…+mp categorii:
D1 0 0 0
0 D2 0 0
D =
0 0 0
0 0 0 D p
Analiza statistică multidimensională
III. Analiza de corespondenţe multiplă
m1 1 mi n j
CTR (Xi) = CTR (j) = (a j )2
j=1 j=1 np
• Contribuţiile indivizilor:
2
1 (z i )
CTRI(i)=
n
Analiza statistică multidimensională
IV. Analiza de corespondenţe: Interpretarea axelor factoriale
• OBSERVAȚII:
• 1. Se recomandă evitarea diferenţelor prea mari între numărul de categorii ale variabilelor Xi
• 2. La interpretarea unei axe factoriale în funcţie de contribuţia unei modalităţi active la inerţia totală a norului
• REGULI DE INTERPRETARE
• În planul Rn în norul de puncte-modalităţi, două modalităţi sunt depărtate (în sensul distanţei 2) atunci
când ele sunt foarte puţin asociate, adică ele nu au fost alese în acelaşi timp de indivizi.
• În cazul proiecţiei norului de puncte în spaţiul R2 format de axele factoriale, două modalităţi sunt foarte
apropiate atunci când ele sunt alese sau respinse în acelaşi timp de o mare parte din indivizi.
• Indivizii care sunt apropiaţi de anumite categorii, sunt cei care au selectat categoriile respective. Prin
această reprezentare grafică poate fi realizată o clasificare a indiviziilor şi cunoaşterea caracteristicilor
fiecărei clase. Aceasta este folositoare mai ales în cazurile în care indivizii nu sunt anonimi.
Analiza statistică multidimensională
EXEMPLU
• Observarea modului de viață al șomerilor
• Variabile:
• Variabile de opinie:
• stflife: Cat de satisfacut sunteti cu viata dvs. per total ?
• stfgov: Cat de satisfacut sunteti de actualul guvern al tarii ?
• sclmeet: Cat de des socializati cu prietenii, rudele sau colegii ?
• mainact: Principala activitate in ultimele 7 zile
• Variabile socio-demografice:
• edulvla: Care este cel mai inalt nivel de educatie atins de dvs. ?
• maritala: Statutul marital legal
• regionro: Regiunea
• gndr: sex
Analiza statistică multidimensională
EXEMPLU SAS
Analiza statistică multidimensională
EXEMPLU SAS
Analiza statistică multidimensională
EXEMPLU SAS
Analiza statistică multidimensională
EXEMPLU SAS
Analiza statistică multidimensională
Analiza în componente
principale
Octombrie 2021
• ACP ajută la obţinerea unei reprezentări apropiate a norului de n indivizi într-un spaţiu de dimensiune mică, prin
proiecţie
• Alegerea spaţiului de proiecţie se efectuează după criteriul următor: se caută subspaţiul de dimensiune k astfel
încât media pătratelor distanţelor între proiecţii să fie cea mai mare posibilă, deci inerţia norului proiectat pe
subspaţiul Fk să fie maximală
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• Se caută dreapta din Rp care să treacă prin centrul de greutate şi să maximizeze inerţia norului proiectat pe dreaptă.
• Prima componentă principală extrasă este acea combinaţie liniară de variabile care preia maximul posibil din varianţa datelor iniţiale.
Cea de-a doua componentă principală preia mai puţină varianţă, şi aşa mai departe.
• Subspaţiul Fk, de dimensiune k este generat de cei k vectori proprii ai lui SM asociaţi celor mai mari k valori proprii, unde S este
matricea de covarianţă
Valorile proprii
s 2 s12 s1n
1 1. Măsoară cantitatea de varianţă „explicată” de fiecare
s s 22 s 2n componentă principală.
S= 21
2. Descresc odată cu indexul componentei, prima
s componenta principală având valoarea proprie maximă.
n1 s n 2 s 2n
3. Au suma egală cu p (numărul variabilelor iniţiale).
4. Exprimă „importanţa” componentelor principale
• Dacă primele k componente principale preiau 80% sau mai mult din varianţa datelor iniţiale, atunci scopul reducerii dimensionalităţii
va fi atins.
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• În cazul în care se lucrează cu un tabel de date centrat şi redus Z, asociat lui X:
• metrica folosită va fi M = I
• matricea de covarianţă a datelor centrate şi reduse va fi matricea de corelaţie R
deci factorii principali vor fi vectorii proprii succesivi ai lui R,
aranjaţi după ordinea descrescătoare a valorilor proprii:
Ru = u cu u2 = 1
• Interes practic mai au doar componentele principale calculate drept combinaţii liniare de variabilele
centrate-reduse:
c = Zu
• c este variabila cea mai legată de xj în sensul sumei pătratelor corelațiilor:
p
r
j=1
2
( c, x j
)
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Componentele principale
sunt: Zu
c1 c2 c3
0.72 1.24 -0.26
0.26 0.89 0.53
2.26 -0.19 -0.40
-1.74 1.12 -0.24
-0.52 -1.34 0.02
0.68 -0.91 -0.06
-1.92 -0.62 -0.23
0.24 -0.18 0.64
Analiza statistică multidimensională
IV. Interpretarea rezultatelor
3. Reprezentarea indivizilor
c1 este foarte corelată cu o variabilă xj ~ indivizii care au o coordonată puternică pozitivă pe axa 1 sunt
caracterizaţi printr-o valoare a lui xj net superioară mediei
1
Contribuţia individului i la componenta ck : CTRI(i,k) = p i c k2i
k
• Când ponderile sunt toate egale cu 1/n, contribuţiile nu aduc mai multe informaţii decât coordonatele
• Nu este de dorit ca un individ să aibă o contribuţie excesivă (mai mare ca ponderea pi a individului) pentru că
acesta ar fi un factor de instabilitate
Analiza statistică multidimensională
V. Folosirea variabilelor și indivizilor suplimentari
• Înglobarea indivizilor ilustrativi şi variabilelor pasive într-un ACP se realizează astfel:
• pentru indivizii ilustrativi, este suficient a calcula:
c j = x ilustr u j
• pentru variabilele pasive, trebuie distins intre variabilele pasive continue şi variabilele pasive discrete :
• dacă variabila este continuă calculăm r(cj,y), y fiind variabila pasivă.
• dacă variabila este discretă atunci calculăm: r(c j , y k )
V. Rotirea axelor
Logica analizei componentelor principale se bazează pe ideea fundamentală că se pot face anumite transformări
asupra observațiilor inițiale, care să determine maximizarea varianței individuale pentru anumite variabile și
minimizarea varianței pentru alte variabile prin construirea unor noi fariabile, numite componente principale.
Transformările care asigură maximizarea varianțelor individuale ale unor variabile sunt reprezentate de
transformările de coordonate corespunzătoare efectuării unor rotații ortogonale ale axelor originale.
Dacă vom considera că în sistemul inițial de axe punctul reprezentat de cea de-a t-a observație are coordonatele
(xt1, xt2) atunci rotația axelor cu un anumit unghi () va determina o modificare a coordonatelor acestui punct,
respectiv a valorilor celor două observații astfel:
Analiza statistică multidimensională
• Se pornește cu toate variabilele intr-un cluster. Pentru acestea se aplica ACP pentru a împărți grupa
în doua subgrupe de variabile.
• Dacă a doua valoare proprie este mai mare decât punctul de referință stabilit (în general 0,7) atunci
clusterul inițial este împărțit in două.
• Procedeul se repetă până când a doua valoare proprie este mai mică decât valoarea de referință.
Analiza statistică multidimensională
Exemplul 1
In tabelul de mai jos avem informatii din anul 2008 despre 92 de tari cu privire la rata mortalitatii, rata
natalitatii, rata fertilitatii, cheltuielile publice pentru educatie, acces la facilitati sanitare, speranta de viata, acces
la surse de apa, cheltuielile publice pentru sanatate si forta de munca de sex feminin. Dorim sa vizualizam
relatiile intre variabilele precizate mai sus.
Analiza statistică multidimensională
Exemplul 1
Analiza statistică multidimensională
Exemplul 1
Analiza statistică multidimensională
Exemplul 1
Analiza statistică multidimensională
Exemplu 2
Pentru 50 de angajati s-au inregistrat date referitoare la:
- varsta
- venit
- numar salariati din intreprindere
- timpul de acasa la servici
- de cate ori pe luna lucrati mai mult de doua ore noaptea?
Analizati interdependentele intre aceste variabile si posibilele grupuri de indivizi utilizand ACP.
Analiza statistică multidimensională
Exemplul 2
Analiza statistică multidimensională
Analiza în componente
principale
Octombrie 2021
Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul
variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
n
p2
D=
pi = 1
i=1
0 pn
• Observație:
• Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Cosinusul unghiului dintre două variabile centrate este coeficientul de corelație dintre acestea
x j , xk s jk
cos jk = = = rjk
x j xk s j sk
Analiza statistică multidimensională
Rotirea sistemului de coordonate
• În sistemul inițial de axe punctul A are coordonatele (x1, x2). Dacă rotim axele cu un anumit unghi ,
coordonatele punctului în noul sistem de coordonate vor fi (x1*, x2 *) definite astfel:
• x1* = cos() x1 + sin() x2
• x2* = - sin() x1 + cos() x2
• Observație: Variația totală a punctelor reprezentate în sistemul de axe inițial este în totalitate conservată prin
reprezentarea grafică în noul sistem de axe.
Ax= x
Observație: Orice matrice A are exact n valori proprii complexe, nu neapărat distincte.
Analiza statistică multidimensională
Analiza statistică multidimensională
Analiza în componente principale (ACP)
I. Definire şi utilizare
• este o metodă descriptivă
• pentru vizualizarea informaţiilor conţinute într-un tablou de date cantitative
• pentru vizualizarea corelaţiilor existente între variabile
• construieşte variabile noi, artificiale şi reprezentări grafice care permit vizualizarea relaţiilor între
variabile cât şi existenţa eventuală a unor grupuri de indivizi sau grupuri de variabile
• ACP ajută la obţinerea unei reprezentări apropiate a norului de n indivizi într-un spaţiu de dimensiune mică, prin
proiecţie
• Alegerea spaţiului de proiecţie se efectuează după criteriul următor: se caută subspaţiul de dimensiune k astfel
încât media pătratelor distanţelor între proiecţii să fie cea mai mare posibilă, deci inerţia norului proiectat pe
subspaţiul Fk să fie maximală
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• Se caută dreapta din Rp care să treacă prin centrul de greutate şi să maximizeze inerţia norului proiectat pe dreaptă.
• Prima componentă principală extrasă este acea combinaţie liniară de variabile care preia maximul posibil din varianţa datelor iniţiale.
Cea de-a doua componentă principală preia mai puţină varianţă, şi aşa mai departe.
• Subspaţiul Fk, de dimensiune k este generat de cei k vectori proprii ai lui SM asociaţi celor mai mari k valori proprii, unde S este
matricea de covarianţă
Valorile proprii
s 2 s12 s1n
1 1. Măsoară cantitatea de varianţă „explicată” de fiecare
s s 22 s 2n componentă principală.
S= 21
2. Descresc odată cu indexul componentei, prima
s componenta principală având valoarea proprie maximă.
n1 s n 2 s 2n
3. Au suma egală cu p (numărul variabilelor iniţiale).
4. Exprimă „importanţa” componentelor principale
• Dacă primele k componente principale preiau 80% sau mai mult din varianţa datelor iniţiale, atunci scopul reducerii dimensionalităţii
va fi atins.
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• În cazul în care se lucrează cu un tabel de date centrat şi redus Z, asociat lui X:
• metrica folosită va fi M = I
• matricea de covarianţă a datelor centrate şi reduse va fi matricea de corelaţie R
deci factorii principali vor fi vectorii proprii succesivi ai lui R,
aranjaţi după ordinea descrescătoare a valorilor proprii:
Ru = u cu u2 = 1
• Interes practic mai au doar componentele principale calculate drept combinaţii liniare de variabilele
centrate-reduse:
c = Zu
• c este variabila cea mai legată de xj în sensul sumei pătratelor corelațiilor:
p
r
j=1
2
( c, x j
)
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Componentele principale
sunt: Zu
c1 c2 c3
0.72 1.24 -0.26
0.26 0.89 0.53
2.26 -0.19 -0.40
-1.74 1.12 -0.24
-0.52 -1.34 0.02
0.68 -0.91 -0.06
-1.92 -0.62 -0.23
0.24 -0.18 0.64
Analiza statistică multidimensională
EXEMPLUL 1
• Pentru identificarea grupelor de tari in functie de turism si
5. % gospodarii cu acces la internet
nivelul de dezvoltare a fost realizat un studiu realizat la nivelul
6. % celor ce fac cumparaturi pe internet
tarilor europene utilizand date pentru anul 2018 de pe Eurostat.
7. % Investitii protectia mediului
Variabilele folosite au fost :
8. PIB pe locuitor
1. % calatorii munte
2. % calatorii rezervate internet-
3. Cheltuieli medii pe noapte
4. % TIC in PIB
Analiza statistică multidimensională
• Prin aplicarea metodei Ward pentru datele
standardizate (metoda standard deviation) s-au
obtinut urmatoarele rezultate:
Analiza statistică multidimensională
Analiza statistică multidimensională
• Prin aplicarea metodei Ward pentru datele
standardizate (metoda range) s-au obtinut
urmatoarele rezultate:
Analiza statistică multidimensională
Metoda Complete Linkage Metoda Average Linkage
Analiza statistică multidimensională
Exemplul 1
• Prin aplicarea metodei centrelor mobile pentru datele standardizate s-au obtinut rezultatele:
Analiza statistică multidimensională
Exemplul 1
Analiza statistică multidimensională
Exemplul 2
• Pentru identificarea grupelor de tari in functie
de utilizarea internetului a fost realizat un
studiu la nivelul tarilor europene utilizand date
pentru anul 2018 de pe Eurostat. Variabilele
folosite au fost exprimate in procente in
populatia totala a persoanelor ce folosesc
internetul pentru : Online course
, Sending/receiving e-mails , Social
networks, Online news , Internet
banking, Educational websites/portals , Online
learning ,Selling goods or services , Travel
and accommodation services.
• Prin aplicarea metodei Ward pe date
nestandardizate s-au obtinut urmatoarele
rezultate:
Analiza statistică multidimensională
Exemplul 2
Analiza statistică multidimensională
Analiza Cluster
Curs 3 - Octombrie 2021
• Se observă că diferența cea mai mare este între nivelul 31 și 30. Astfel țările vor fi împărțite în 2 grupe.
• 2. Prin dendograma
• Graficul atinge ultimul nivel la valoarea 25 (in-1=25), penultimul nivel la valoarea 22 (in-2=22), etc.
• in-1-in-2= 25-22=3
• in-2-in-3=22-18=4
• in-3-in-4=18-15=3
• in-4-in-5=15-12=3
Se observă că diferența cea mai mare este 4. Astfel se recomandă împărțirea țărilor în 3 grupe.
•
Analiza statistică multidimensională
Metode de clusterizare
ALTE METODE IERARHICE
• II. Metoda agregării complete (distanţa saltului maximal sau Complete Linkage).
• Este o metodă de clasificare ierarhică de tip ascendent, care comasează în fiecar etapă a clasificării acele două clustere
pentru care distanța dintre cei mai depărtați vecini este cea mai mică, în comparație cu alte perechi de clustere
• Măsura de similaritate folosită este: sup(A,B)=sup d(ei,ej) eiA, ejB
• Aceasta se numeşte Când metoda anterioară nu funcţionează, se poate aplica această metodă.
Analiza statistică multidimensională
Metode de clusterizare
ALTE METODE IERARHICE
• Aceasta se numeşte distanţa medie şi este un compromis între cele două anterioare.
• Observație: Deoarece ierarhiile generate prin aceste metode pot fi foarte diferite, se recomandă
folosirea mai multor metode. Dacă partiţiile cu un număr mic de clase sunt foarte diferite între
ele, atunci este posibil ca mulţimea indivizilor să nu poată fi împărţită în clase.
Analiza statistică multidimensională
Observații:
• Deoarece ierarhiile generate prin aceste metode pot fi foarte
diferite, se recomandă folosirea mai multor metode.
• Dacă partiţiile cu un număr mic de clase sunt foarte diferite între
ele, atunci este posibil ca mulţimea indivizilor să nu poată fi
împărţită în clase.
Analiza statistică multidimensională
Procedurile SAS
PROC CLUSTER DATA=data METHOD=WARD CCC
OUTTREE=cluster ;
VAR var1-var7;
ID disjoint;
RUN;
Examples
Există outliers și nu există nici o partiție a populației în clustere bine definite. Numărul recomandat de clustere este 3 sau 11.
Analiza statistică multidimensională
Numărul recomandat de clustere este 3 sau 5. Examples
Care este numărul recomandat de clustere?
Analiza statistică multidimensională
II. Metode de clasificare
METODE DE CLASIFICARE NEIERARHICE
• se folosesc atunci când se cunoaşte numărul de clase în care se doreşte împărţirea indivizilor
• se presupune că cei n indivizi sunt puncte într-un spaţiu euclidian inclus în Rp, distanţa dintre
indivizi fiind cea euclidiană
• scopul fiecărei clasificări este de a obţine clase cât mai omogene: variabilitatea norului de puncte,
în interiorul unei clase să fie cât mai mică
• Ideea metodei: se porneşte cu k clase aleatoare şi se schimbă indivizii între clase astfel încât:
• să se minimizeze variabilitatea în interiorul claselor (dispersia intraclase)
• să se maximizeze variabilitatea dintre clase (dispersia interclase)
Analiza statistică multidimensională
II. Metode de clasificare
METODE DE CLASIFICARE NEIERARHICE
i =1
unde g este centrul de greutate al întregului nor de puncte
• 3. se calculează centele de greutate ale partiţiei X i( j )
i =1, k
şi se notează cu X
ci i =1, k
ci = g i , i = 1, k
altfel şi se trece la pasul 2.
j = j +1
Analiza statistică multidimensională
Metode de clasificare
METODE DE CLASIFICARE NEIERARHICE
• algoritmul converge rapid
• La fiecare pas este necesar calculul a n k distanţe, dintre cei n indivizi şi cele k centre de greutate. De aceea
nu este necesară memorarea tabelului cu cele n(n-1)/2 distanţe dintre cei n indivizi
• Inconvenientele metodei:
• k trebuie cunoscut apriori
• optimul este dependent de alegerea iniţială a punctelor ci
Procedurile SAS
PROC FASTCLUS DATA=data
OUT=outfast OUTSEED=centres CLUSTER=disjoint
MAXCLUSTERS=20 DELETE=50 MAXITER=100;
VAR var1-var7;
RUN;
Analiza Cluster
Curs 2 - Octombrie 2021
Noțiuni introductive
analiză factorială
Analiza statistică multidimensională
• prima referinţă la medotele de analiză factorială a făcut-o în anul 1901 Karl Pearson
• În ceea ce privește metodele și tehnicile de analiză de tip cluster: primele lucrări datează din 1963
Sokal și Sneath și în 1967 Lance și Williams. Preocupările au crescut exponențial și s-au
diversificat foarte mult.
• Au existat două școli: franceză și americană. Benzecri, Jambu, Lebart, Morineau, Saporta sunt
printrei cei mai cunoscuți autori francezi.
• a început să fie utilizată efectiv după dezvoltarea metodelor actuale de calcul cu ajutorul
calculatoarelor
Analiza statistică multidimensională
Configurarea norului
de punte în spaţiu
Utilizatorii metodelor
factoriale pleacă de la un
Vectorul linie vector coloană
tablou de măsuri, pe coloane
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate
variabilele xj
n puncte în Rp p puncte în Rn
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea ponderilor; Centrul de greutate
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea dispersie covarianță
Analiza statistică multidimensională
Analiza statistică multidimensională
Analiza statistică multidimensională
2. Spațiul indivizilor
• Fiecare individ este un punct definit prin p coordonate, element al unui spaţiu vectorial FRp denumit
spaţiul indivizilor.
• Mulţimea de n indivizi este atunci un nor de puncte în F şi g este centrul de greutate al norului
• Metrica folosită pentru definirea distanţei dintre doi indivizi este M = D1/s2 unde D1/s 2 este matricea
diagonală a inverselor dispersiilor
• Inerția totală a norului de puncte este media ponderată a pătratelor distanțelor punctelor față de
centrul de greutate
Analiza statistică multidimensională
3. Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
n
p2
D=
pi = 1
i=1
0 pn
• Produsul scalar a două variabile xj și xk este:
care este covarianța sjk dintre cele două variabile, dacă acestea sunt centrate
• Observație: Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Unghiul dintre două variabile centrate este:
Analiza Cluster
• Analiza cluster poate fi definită ca reprezentând o mulțime de principii, metode și algoritmi de
clasificare, având ca scop organizarea datelor sub forma unor structuri informaționale semnificative,
relevante
• Analiza cluster are ca scop căutarea și identificarea de clase, grupe sau clustere în cadrul unor
mulțimi de obiecte sau forme, astfel încât elementele care aparțin aceleiași clase să fie cât mai
asemănătoare, iar elementele care aparțin la clase diferite să fie cât mai deosebite între ele.
• Observație: Analiza cluster poate fi utilizată atât pentru clasificarea obiectelor, cât și pentru
clasificarea variabilelor care definesc obiectele.
Noţiuni introductive
Caracterizarea indivizilor
1. d(x,y) = d(y,x) x, y X
2. d(x,y) 0, x, y X
d(x,y) = 0 x = y
3. d(x,y) d(x,z) + d(z,y), x, y, z X
Analiza statistică multidimensională
Distanța euclidiană
Y
Y2-Y1
Scalele mari vor domina măsura
Y1
X2-X1
Standardizați datele
X1 X2 X
D = ( X 2 − X 1) 2 + (Y 2 − Y 1) 2
Analiza statistică multidimensională
Noţiuni introductive
Caracterizarea indivizilor
Tipuri de distanţe:
• distanţa euclidiană: d ( x, y ) = (x
i
i − yi ) 2
• este distanța „obișnuită” între două puncte, dată în coordonate carteziene de formula lui Pitagora.
1. s(x,y) = s(y,x) x, y X
2. s(x,y) 0, x, y X
3. s(x,x) s(x,y), x, y X , adică nu există un individ mai asemănător ca el însuşi.
• Pe baza acestor patru numere se construieşte tabelul de similaritate sau prin completare în raport cu 1, cel de
disimilaritate, utilizând diferiţi indici, ca de exemplu:
a
• indicele Jaccard:
a+b+c
2a
• indicele Czekanowski:
2a + b + c
a
• indicele Ochicii:
(a + b)(a + c)
a
• indicele Russel şi Rao:
a+b+c+d
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
• Fie E o mulţime.
• HP(E) se numeşte ierarhie dacă şi numai dacă:
• 1. PiP(E) aî card(Pi)=1 E şi Pi H
• 2. A,BH AB A,B,
• 3. AH ,A= Ci | Ci≠A , Ci H Nivel
a b c d e
• Exemplu: E=a,b,c,d,e
H = , a,b c d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d,e
a,b,c,d,e
a,b,c,d,e
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
?
Cum definim distanța dintre
clusteri??
p A pB 2
• 2. Distanţa dintre două clase după metoda WARD este: ( A, B) = d (g A, gB )
p A + pB
•
• 3. Partiţia generată de algoritmul WARD este o partiţie ierarhică.
• 4. Algoritmul WARD generează o ierarhie indexată cu i(AB)= (A,B).
Analiza statistică multidimensională
Analiza statistică
multidimensională
Curs 1 - Octombrie 2021
I. Prezentare curs
Analiza statistică multidimensională
Conținutul cursului
• I. Introducere: notiuni elementare, norul de indivizi şi de variabile.
• Bouroche J–M, Saporta G. (1980), “L’analyse des données”, Presses Universitaires de France, Paris
• Lebart L., Morineau A., Piron M. (1997): Statistique exploratoire multidimensionnelle, Dunod
Analiza statistică multidimensională
Structura notei finale
• Examen final scris: 60% din nota finală
Analiza multidimensionala
Definire
Analiza statistică multidimensională
Analiza statistică multidimensională
Modelarea multidimensională
• Susține interogarea ad-hoc a analistului de business
• Valori reale (xi), sunt mărimi concrete, pozitive, exprimate în unităţi de măsură specifice naturii fenomenului X. Vectorul valorilor lui X poate
fi definit prin 2 parametri:
n
x x x
n n n
2
2
i i x
• Abaterea medie pătratică: x x2 i 1 unde: x2 D 2 x i 1
dispersia
n n
• Media: x *
M x
* x *
i
x i x 0
i
n n
x x
2 2
*
x* x
• Dispersia: D x D 2 x
2 * i i
n n
Analiza statistică multidimensională
Transformarea datelor
xi x
• Valori centrate şi normate: xi**
x
xi x
x
1
x
• Media: x **
M x
x **
**
i
x x
i
0
n n n
2
x x
i 12 x
2
x
x x 2
**
M (x ) ** i
x2
• Dispersia: x
x 2 1
2 ** i
D
n n n x
Noțiuni introductive
analiză factorială
Analiza statistică multidimensională
• prima referinţă la medotele de analiză factorială a făcut-o în anul 1901 Karl Pearson
• În ceea ce privește metodele și tehnicile de analiză de tip cluster: primele lucrări datează din 1963
Sokal și Sneath și în 1967 Lance și Williams. Preocupările au crescut exponențial și s-au
diversificat foarte mult.
• Au existat două școli: franceză și americană. Benzecri, Jambu, Lebart, Morineau, Saporta sunt
printrei cei mai cunoscuți autori francezi.
• a început să fie utilizată efectiv după dezvoltarea metodelor actuale de calcul cu ajutorul
calculatoarelor
Analiza statistică multidimensională
Configurarea norului
de punte în spaţiu
Utilizatorii metodelor
factoriale pleacă de la un
Vectorul linie vector coloană
tablou de măsuri, pe coloane
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate
variabilele xj
n puncte în Rp p puncte în Rn
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea ponderilor; Centrul de greutate
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea dispersie covarianță
Analiza statistică multidimensională
Analiza statistică multidimensională
Analiza statistică multidimensională
2. Spațiul indivizilor
• Fiecare individ este un punct definit prin p coordonate, element al unui spaţiu vectorial FRp denumit
spaţiul indivizilor.
• Mulţimea de n indivizi este atunci un nor de puncte în F şi g este centrul de greutate al norului
• Metrica folosită pentru definirea distanţei dintre doi indivizi este M = D1/s2 unde D1/s 2 este matricea
diagonală a inverselor dispersiilor
• Inerția totală a norului de puncte este media ponderată a pătratelor distanțelor punctelor față de
centrul de greutate
Analiza statistică multidimensională
3. Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
n
p2
D
pi 1
i=1
0 pn
care este covarianța sjk dintre cele două variabile, dacă acestea sunt centrate
• Observație: Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Unghiul dintre două variabile centrate este:
RECAPITULARE
(probleme de calcul)
Prof. coordonator: Prof.univ.dr. Cristina Boboc
1. Presupunem că se dorește gruparea a 7 observații utilizând algoritmul Ward. După primul pas,
clusterele formate sunt următoarele: (2,2); (4,4), {(5,5); (6,6)}; (0,4); (4,0); (9,9). Care este nivelul
de agregare la acest pas ? Dar distanța dintre punctul (4,4) și grupa {(5,5); (6,6)} ?
2. Presupunem că se dorește gruparea a 7 observații în 3 clustere utilizând algoritmul centrelor mobile.
După prima iterație, clusterele formate sunt următoarele: C1: {(2,2), (4,4), (6,6)}; C2: {(0,4),
(4,0)}; C3: {(5,5), (9,9)}. Continuați algoritmul cu a doua iterație, identificând noile clase formate.
3. Fie două variabile x1 și x2 standardizate al căror coeficient de corelație este 0,96. Determinați
valoarea proprie asociată primei componente principale. Informația din variabilele inițiale x 1 și x2
este bine explicată de informația din această primă componentă principală?
4. De recapitulat si problemele de calcul rezolvate in seminariile 3 si 4.
REZOLVARE
GC1=(4,4)
GC2=(2,2)
GC3=(7,7)
d(i, GC1), d(i, GC2) si d(i, GC3) se va alege clusterul pentru care se obtine distanta minima
(2,2): d((2,2), (4,4))=√8 d((2,2), (2,2))=0 d((2,2), (7,7))=√50 → min=0, deci (2,2)𝐶2
(4,4): d((4,4), (4,4))=0 d((4,4), (2,2))= √8 d((4,4), (7,7))=√18 → min=0, deci (4,4)𝐶1
(4,0): d((4,0), (4,4))=4 d((4,0), (2,2))= √𝟖 d((4,0), (7,7))=√58 → min=√8, deci (4,0)𝐶2
(0,4): d((0,4), (4,4))=4 d((0,4), (2,2))= √𝟖 d((0,4), (7,7))=√58 → min=√8, deci (0,4)𝐶2
(5,5): d((5,5), (4,4))= √2 d((5,5), (2,2))= √18 d((5,5), (7,7))=√8 → min=√2, deci (5,5)𝐶1
(6,6): d((6,6), (4,4))= √8 d((6,6), (2,2))= √32 d((6,6), (7,7))=√𝟐 → min=√2, deci (6,6)𝐶3
(9,9): d((9,9), (4,4))= √50 d((9,9), (2,2))= √98 d((9,9), (7,7))=√𝟖 → min=√2, deci (9,9)𝐶3
1 0.96
𝑅=( )
0.96 1
Factorii principali vor fi vectorii proprii succesivi ai lui R, aranjați după ordinea descrescătoare a valorilor
proprii ale matricei R. Valoarea proprie asociată primei componente principale este cea mai mare valoare
proprie asociată matricei R:
Ru = u
𝜆 − 1 −0.96
P( )=det( In-R)= | |=( 𝜆 − 1)2 − 0.962 = ( 𝜆 − 1.96) (𝜆 − 0.04) =0
−0.96 𝜆 − 1
𝜆1 1.96
𝜆1+𝜆2
= 2
= 98% deci prima componentă principală explică 98% din variabilitatea totală.
Deci informația din variabilele inițiale x1 și x2 este bine explicată de informația din această primă
componentă principală.
Seminar decembrie 2020
Introducere
In cele ce urmeaza vom folosi date de tip panel pentru regiunile Romaniei ca sa analizam relatia
dintre rata criminalitatii, rata somajului, rata infractionalitatii, rata divortului, populatia scolara si
emigrantii pentru perioada 1991-2016.
Fisierul pe care il alegem este model panel.xlsx, din folderul MDA 2020 de pe SAS. Astfel,
apasand dublu-click pe acest fisier si executand comanda RUN, va aparea baza de date cu care vom
lucra. In aceasta de baza de date sunt 208 observatii si 8 variabile.
nr. de observatii
nr. de variabile
Partea teoretica
Prin date de tip panel intelegem acele observatii repetate in diverse momente de timp pentru
acelasi individ.
Avantajele acestei structuri de tip panel sunt:
• Estimarea relatiilor in dinamica chiar daca datele sunt disponibile pentru o perioada scurta de
timp;
• Incorporarea dimensiunii timp (pentru datele in sectiune transversala) si dimensiuniii spatiu
(pentru serii temporale);
• Capacitatea de a controla efectele individuale fixe (ceea ce este comun unui individ de-a
lungul timpului, dar care poate varia intre indivizi);
• Eficienta sporita a estimarilor modelelor de regresie.
Numarul de observatii va fi: N x T, unde N este dimensiunea transversala, iar T dimensiunea
timpului.
Metodele specifice datelor de tip panel sunt:
1. Efectele fixe: Testul F.
2. Efectele aleatoare:
1
Materialul a fost pregatit cu ajutorul studentei TOANCHINA IOANA, An 3 Promortia 2019-2020
Testul Multiplicatorului Lagrange Breusch-Pagan
Daca se respinge modelul grupat, vom folosi testul Hausman-Wu pentru a vedea daca folosim
modelul cu efecte fixe sau cel cu efecte aleatoare.
• DATA:
o DATA: In sectiunea Data vom importa baza de date, WORK.IMPORT. o PANEL
STRUCTURE: La panel structure stabilim care variabila va fi sectiunea transversala (Cross-
sectional ID). In cazul nostru este A. Deasemenea, punem si dimensiunea temporala (Time
ID), in acest caz Ani. o ROLES: In aceasta sectiune selectam care este variabila dependenta
si celalalte variabile care intra in componenta analizei. Astfel, la Dependent variable
selectam: Rata criminalitatii, iar la Continuous variables avem Rata somajului, Rata
divortului si Emigranti. Populatia scolara nu este inclusa in analiza noastra, deoarece
numarului populatiei scolare depinde de numarul de populatie din fiecare regiune.
1
• MODEL:
o MODEL: Vom alege de la Model type: linear. La Model Effects lasam main effects model
bifat, iar la Model Settings avem urmatoarele comenzi: Fixed effects la Linear model,
Oneway la Fixed Effects Type si bifam Display the fixed effects.
• OPTIONS:
o STATISTICS: La Display statistics vom alege Default and additional statistics si
bifam Correlations of the parameter estimates. Tot in aceasta sectiune selectam One-way
Breusch-Pagan test de la Test for Random Effects.
o PLOTS: Pentru Select plots to display vom alege Selected plots si Display as Panel
of plots, bifand astfel toate cele de la Diagnostic Plots.
2
Dupa toate aceste comenzi, apasam tasta RUN.
INTERPRETARE
Numarul de sectiuni analizate
Pentru a vedea daca modelul nostru are efecte fixe sau nu, ne uitam in tabelul F Test for No
Fixed Effects, unde ipotezele testate sunt urmatoarele:
3
H0: nu exista efecte fixe individuale (a1= a2= ... = aN = a)
H1: exista efecte fixe individuale ( a1≠ a2 ≠ ... ≠ aN )
Regula de decizie: Se respinge ipoteza nula, adica modelul grupat, daca Pr > F este mai mare
decat 0.05.
Modelul nostru are Pr > F = 0.0003. Cum
Pr > F < 0.05, putem spune ca ipoteza nula,
H0, se respinge, deci exista efecte fixe
individuale semnificative.
Urmatorul tabel din SAS, Breusch Pagan Test forRandom Effects (One Way), ne arata daca
in model exista efecte aleatoare. Astfel, ipotezele testului Breusch Pagan sunt:
Regula de decizie: Se respinge ipoteza nula, adica modelul grupat, daca Pr > m este mai mare
decat 0.05.
Modelul nostru are Pr > m = 0.0001. Cum Pr >
m < 0.05, putem spune ca ipoteza nula, H0, se
respinge, deci exista efecte aleatoare.
Dupa testarea efectelor, avem urmatorul tabel care evidentiaza parametrii analizati, numit
Parameter Estimates. Se vor afisa 7 regiuni analizate, interceptul (acest coeficient arata nivelul mediu
al variabilei dependente la nivelul esantionului, daca nivelul variabilelor independente ar fi egal cu 0
unitati) si variabilele independente. Prin intermediul acestui tabel, putem observa ce parametri sunt
sau nu sunt semnificativi in analiza noastra.
4
Numarul de grade de libertate Rata somajului si
Rata divortului
influenteaza in
Regiunile mod semnificativ
variabila
dependenta,
deoarece Pr > |t|
Interceptul Pr > |t| = 0.1280.
Rezulta ca,
variabila
Emigranti nu
Variabilele
influenteaza in
independente
mod
Parametrii semnificativi sunt: CS2, CS3, CS6, CS7, Rata somajului, Rata divortului. Ecuatia de
regresie estimata a acestui model pentru fiecare regiune este urmatoarea:
𝐶𝑆1 : 𝑦̂𝑡 = 5.4232 − 55.9897 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡
𝐶𝑆2 : 𝑦̂𝑡 = 5.4232 − 82.763 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡
𝐶𝑆3 : 𝑦̂𝑡= 5.4232 − 83.024 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡
𝐶𝑆4 : 𝑦̂𝑡= 5.4232 + 9.511 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡
𝐶𝑆5 : 𝑦̂𝑡 = 5.4232 − 46.564 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡
𝐶𝑆6 : 𝑦̂𝑡 = 5.4232 − 92.674 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡
𝐶𝑆7 : 𝑦̂𝑡= 5.4232 − 54.096 + 24.642 ∗ Rata somajului𝑡 + 111.40 ∗ Rata divortului𝑡 + 0.0059 ∗ Emigranti𝑡
5
Interpretarea graficelor
Dispersia
rezidualurilor
este aproximativ Abateri mici
constanta, cu ale valorilor
mici modificari previzionate
la final. de la cele
observate.
Se poate observa din cele 4 grafice ca exista abateri mici ale valorilor previzionate de la cele
observate, in partea de final (graficele 2 si 3). In primul grafic, dispersia rezidualurilor este aproximativ
constanta, ceea ce duce la verificarea ipotezei de homoscedasticitate. In ultimul grafic se poate observa
repartitia aproximativ normala a rezidualurilor.
Daca se respinge modelul grupat, ca sa aflam ce model folosim, intre modelul cu efecte fixe
sau modelul cu efecte aleatoare, mergem din nou in SAS si in sectiunea MODEL, la Linear model:
selectam Random Effects. Dam comanda RUN si vom avea:
6
Regula de decizie: Se respinge ipoteza nula, daca Pr > m este mai mic decat 0.05.
Din nou vedem care dintre variabilele independente sunt semnificative, acest lucru
evidentiindu-se in tabelul Parameter Estimates.
Parametri semnificativi
Interpretarea graficelor
Dispersia
rezidualurilor este
aproximativ
constanta, cu mici
modificari la
final. Abateri mici
ale valorilor
previzionate
de la cele
observate.
7
Daca in loc de ONE-WAY selectam, in comenzile SAS, TWO-WAYS din sectiunea
MODEL, Fixed Effects type, vom avea ca rezultate un coeficient de corelatie R2=0.8903, in cazul
modelului Fixed Effects (FE), ceea ce inseamna ca modelul acesta are o calitate mult mai buna ca
celelalte doua efectuate anterior, iar un coeficient de corelatie cu valoarea R2=0.0716, pentru modelul
Random Effects (RE). In acest caz, calitatea este extrem de slaba, iar din grafice ne reiese ca repartitia
rezidualurilor nu este normala.
8
Seminar 10 – decembrie 2021
Analiza Canonică1
Prof. coordonator: Prof.univ.dr. Cristina Boboc
Problema:
Un cercetător a colectat date despre trei variabile psihologice, patru variabile academice (scoruri
standardizate la teste) și gen pentru 600 de studenti. El este interesat de modul în care setul de variabile
câte dimensiuni sunt necesare pentru a înțelege asocierea dintre cele două seturi de variabile.
Fisierul de date folosit este ”Date analiza canonica.xls”, cu 600 de observații pentru opt variabile.
scoruri standardizate ale testelor la citire, scriere, matematică și știință. În plus, variabila Sex este o
variabilă binară (1-sex femini, 0- sex masculin). Cercetătorul este interesat de relația dintre variabilele
psihologice și variabilele academice, având în vedere și genul. Analiza corelației canonice își propune
să găsească perechi de combinații liniare ale fiecărui grup de variabile care sunt foarte corelate. Aceste
combinații liniare sunt numite variate canonice. Fiecare variabilă canonică este ortogonală cu celelalte
variante canonice, cu excepția celei cu care corelația sa a fost maximizată. Numărul posibil de astfel de
perechi este limitat la numărul de variabile din cel mai mic grup. În exemplul nostru, există trei variabile
psihologice și mai mult de trei variabile academice. Astfel, o analiză a corelației canonice asupra acestor
Statisticile descriptive indică faptul că nu există valori lipsă în date și datele sunt măsurate pe scale
diferite. Putem continua cu analiza corelației canonice fără griji privind lipsa datelor, dar ținând cont de
În urma aplicării Analizei canonice se obtin următoarele rezultate privind corelațiile canonice:
În primul rând se vor folosi mai multe teste pentru testarea ipotezei:
H0: Corelațiile canonice sunt zero (nu există o relație liniară între cele două grupuri de variabile
specificate)
H1: Există corelații canonice diferite de zero (există o relație liniară între cele două grupuri de
variabile specificate)
Pillaiˈs Trace
Urma lui Pillai este suma pătratelor corelațiilor canonice:
0,4462 + 0,1532 + 0,0222 = 0,223
Hotteling Trace
Acest test este foarte asemănător testului precedent fiind calculate ca suma rapoartelor dintre pătratul
corelațiilor canonice si 1- acest pătrat:
0,4462/(1- 0,4462)+ 0,1532/(1- 0,1532) + 0,0222/(1- 0,0222) = 0,273
Wilks Lambda
Este un test ce se calculează folosind tot pătratul corelațiilor canonice, însă produsul valorilor (1-
patratul corelatiilor canonice) :
(1- 0,4462)(1- 0,1532) (1- 0,0222) = 0,78
V1 V2 V3
W1 W2 W3
Coeficienții canonici bruți sunt utilizați pentru a genera variabilele canonice. Ei sunt interpretați
într-o manieră analogă interpretării coeficienților de regresie. De exemplu pentru o creștere cu
o unitate a variabilei Autocontrol variabila canonică V1 va crește cu 1,25 cand toate celelalte
variabile rămân constante. Prima componentă canonică V1 este determinată de Motivație și
Auto-control iar a doua componentă canonică este determinată de Motivație și Auto-
cunoaștere.
In cazul celui de-al doilea grup de variabile, pentru variabila Citire, o creștere cu o unitate a
acestei variabile duce la o creștere de 0,0441 a primei variabile canonice a setului W atunci
când toate celelalte variabile sunt menținute constante. Prima componentă canonică W1 este
determinată de Citire, Scriere și Matematică iar a doua componentă canonică este determinată
de Stiinte.
Canonical Structure
Correlations Between the VAR Variables and Their Canonical Variables
V1 V2 V3
W1 W2 W3
Correlations Between the VAR Variables and the Canonical Variables of the WITH Variables
W1 W2 W3
Correlations Between the WITH Variables and the Canonical Variables of the VAR Variables
V1 V2 V3
În ceea ce privește corelațiile canonice, se observă că W1 este mediu corelată cu autocontrolul și motivația. Deci rezultatele
la Citire, Scriere și matematică sunt determinate de variabilele Motivație și Autocontrol.
Variabila W2 este invers si slab corelată cu Motivația.Deci rezultatele la citire vor fi determinate de nivelul de motivație.
Seminar 9 – noiembrie 2021
Analiza discriminantă1
Prof. coordonator: Prof.univ.dr. Cristina Boboc
Fie o baza de date cu informatii privind stilul de viață Date_seminar_8.sav contine informații privind 62
de variabile pentru 271 de observatii.
1. TRANSFORMAREA VARIBILELOR
În cazul variabilei ”Numărul de țigări fumate” - cigsgp3 se observă că cei ce nu fumează nu au completat
această variabilă. Pentru a putea folisi aceasta variabilă în analiză voi recodifica această variabilă astfel
incat toate valorile missing să fie înlocuite cu zero, deci sa fie specificat faptul că respondentul nu a fumat
nici o tigară. Pentru recodificare se va folosi Task-ul Recode Values.
1
Materialul a fost pregatit cu ajutorul studentelor : Ivan Petruta si Stan Alexandru, An 3 Promortia
2019-2020
→
DATA - WORK.IMPORT (baza de date pentru care dorim sa aplicam care metoda)
Variable to recode - alegem varibila pentru care vrem sa modificam valuarea
Recoded variable name - alegem numele noii variabile
Creem un nou set de date pe care le denumim work.newtable
In sectiunea VALUES punem la Old value 1 si la New value 0 mai apoi modificam in
CODE(edit).
Si rulam noul program scris.
Vom observa crearea unei noi baze de date care contine toate cele 62 de variabile plus variabila
nou creata.
2. ANALIZA DISCRIMINANTĂ
Prin urmare vom aplica metoda analizei discriminante pe noul set de date creat unde o sa
avem si variabila nou tigari_pe zi.
Dupa ce verificam tot setul de date si obtinem un rezultat optim pentru analiza discriminanta
urmatorul pas este:
DATA – WORK.NEWTABLE (baza de date nou creata)
*Group variable – refreshd (variabila de interes )
*Quantitative variables – cele 9 variabile introduse in analiza
METHODS
Classification criterion method – Parametric
Discriminant function – Linear
Canonical analysis – Plot first two canonical variates
VALIDATION
Perform cross validation – Display misclassified observations
STATISTICS
Posterior probability error-rate estimates
Simple descriptive statistics
Classification results
Selection method
– alegem metoda Stepwise selection
3. INTERPRETAREA REZULTATELOR
Din cele 9 variabile incluse în analiză, semnificative pentru împărțirea în cele două grupe doar 4
au o valoarea p-value sub 0,05. Deci, doar nivelul stresului din ultima luna, statutul marital,
numărul de ore de somn pe noapte din timpul săptămânii și numărul de ore de somn pe noapte din
weekend sunt semnificative pentru clasificare.
Daca nu as fi aplicat analiza discriminantă, procentul celor ce nu se simt bine în timpul săptămânii
este de 61.8%, deci daca i-as considera pe toti ca nu sunt bine, atunci as gasi acest procent de
61,8% corect. În cazul în care folosesc Analiza discriminantă voi identifica corect 66.41%, în una
din cele două categorii, reușind să identific corect si 42% dintre cei ce se simt bine. Totuși modelul
nu este performant.
Din analiza proiectiei observatiilor pe planul determinat de primele două axe discriminante se
observă că cele două grupe de indivizi nu sunt foarte bine separate, ceea ce mă conduce la aceeași
idee că modelul nu este performant. Pentru obținerea unui model mai bun, ar trebui să alegem noi
variabile în analiză care să ne aducă informații suplimentare.
Seminar 8 – noiembrie 2021
Analiza de corespondente multiple – ACM
Prof. coordonator: Prof.univ.dr. Cristina Boboc
DATELE
Se lucrează pe o bază de date preluată din European Social Survey (ESS data,
https://www.europeansocialsurvey.org/).
Pentru această analiză au fost selectate urmatoarele variabile din baza de date:
Variabile de opinie:
➔ edulvla : Care este cel mai inalt nivel de educatie atins de dvs. ?
➔ maritala : Statutul marital legal
➔ regionro : Regiunea
➔ gndr : sex
În fiecare tabel de frecvențe trebuie să verificăm dacă există categorii cu frecvente relative de
sub 2%. În cazul în care vom avea astfel de categori va trebui să transformăm variabilele
respective, si prin gruparea categoriilor să obținem frecvente relative de peste 2%.
În cazul acestei variabile observăm că nici una din categorii nu are o frecvență de sub
2%, deci poate fi inclusă în analiză fără a o transforma.
2. stfgov : Cat de satisfacut sunteti de actualul guvern al tarii ?
În cazul acestei variabile observăm că nici una din categorii nu are o frecvență de sub 2%, deci
poate fi inclusă în analiză fără a o transforma.
4. mainact : Principala activitate in ultimele 7 zile
În cazul aceste variabile observăm că există două categorii au frecvente mici de sub 2%:
- ”Șomer, nu caut activ loc de muncă” ce poate fi grupată cu categoria ”Șomer, în căutare
activă a unui loc de muncă”, rezultănd o categorie: ”Șomer” cu frecvență de peste 2%.
- ”Serviciu militar sau în sprijilul comunității” care poate fi inclusă în categoria ”Altele”
5. edulvla : Care este cel mai inalt nivel de educatie atins de dvs. ?
În cazul acestei variabile observăm că nici una din categorii nu are o frecvență de sub
2%, deci poate fi inclusă în analiză fără a o transforma.
6. maritala : Statutul marital legal
În cazul aceste variabile observăm că există trei categorii au frecvente mici de sub 2%. Acestea
pot fi eliminate din analiza.
7. regionro : Regiunea
În cazul acestei variabile observăm că nici una din categorii nu are o frecvență de sub
2%, deci poate fi inclusă în analiză fără a o transforma.
8. gndr : sex
În cazul acestei variabile observăm că nici una din categorii nu are o frecvență de sub
2%, deci poate fi inclusă în analiză fără a o transforma.
TRANSFORMAREA VARIABILELOR
Pentru aceasta variabilă transformată toate categoriile au o frecvență relativă de peste 2%.
2. Crearea unei noi baze de date doar cu variabilele de interes si din care eliminam
categoriile cu o frecventa relativa de sub 2%.
In acest scop vom crea un mic program in SAS astfel:
Pentru aceasta nouă baza de date vom verifica daca toate variabilele sunt bine create reluând
taskul Characterize Data:
Se observă noua bază de date conține 2053 observații si pentru nici o categorie a nici unei
variabile, nu mai obținem frecvențe relative de sub 2%.
ANALIZA DE CORESPONDENȚE MULTIPLE
Deoarece variabila gen are doar două categorii, toate celelalte variabile înregistrând peste 4 variante de
răspuns, aceasta va fi eliminată din analiză, nefiind recomandată introducerea in analiză a unor variabile
cu diferențe foarte mari între numărul de variante de răspuns ale acestora.
Apoi rulăm analiza si obtinem rezultatele:
1. Tabelul BURT
Acest tabel poate ajuta la rafinarea concluziilor analizei. De exemplu, pot să analizez una din
liniile unui tabel de contingență astfel:
In acest tabel sunt calculate totalurile marginale pe coloane și poate ajuta la rafinarea concluziilor
analizei.
Se observă că primele două componente principale explică 71% din inerția totală a norului de
puncte. Dacă analizăm și schimbarea pantei de descreștere a acesteia, observăm că aceasta se
schimbă pentru trei componente. Deci, pot fi păstrate trei componente principale pentru o mai
bună explicare a inerției norului de puncte.
4. Contribuția parțială a categoriilor la primele trei dimensiuni și calitatea
reprezentării pe aceste componente
Deci interpretarea categoriilor variabilelor analizate și asocierii dintre acestea se va face doar
pentru cele reprezentate bine în proiecție pe primele trei dimensiuni, si anume:
In Cadranul 1 se observă că pensionarii sunt extrem de nesatisfăcuți cu viața lor per total.
În cadranul 2 se observă că persoanele aflate în educație socializează în fiecare zi. De asemenea
cei ce socializează de câteva ori pe săptămână sunt extrem de satisfăcuți cu viața lor per total.
În cadranul 3 se observă că cei ce au studii universitare desfășoară și o muncă plătită.
În cadranul 4 persoanele căsătorite socializează o data pe lună.
Seminar 7 – noiembrie 2021
Analiza în Componente Principale și Analiza de Tip Cluster1
Prof. coordonator: Prof.univ.dr. Cristina Boboc
DATELE
Se lucrează pe o bază de date referitoare la caracteristicile mai multor marci de tutoturisme.
Această bază de date contine 428 de observații și 15 variabile. Cele 15 variabile sunt referitoare la
modelul autoturismului și caracteristicile tehnice ale acestora. Deoarece datele au unități de măsură
diferite, ale sunt standardizate inainte de a fi incluse in analiză.
1
Materialul a fost pregatit cu ajutorul studentelor : Bundă Andreea-Nicoleta, Minoiu Maria-Magdalena,
An 3 Promortia 2019-2020
Dorim sa vizualizam relatiile intre variabilele precizate mai sus si eventuala existenta a unor grupuri
de variabile, drept pentru care vom aplica analiza in componente principale, construind variabile
artificiale.
STANDARDIZAREA DATELOR
Primul pas este standardizarea datelor, deoarece nu avem aceeași scală de măsurare (unitate de
măsură):
În SAS se găsește la Task and Utilities -> Data -> Standardize Data
La DATA vom adăuga toate variabilele, apoi la OPTIONS vom alege ca metodă de standardizare „Range’’.
Task and Utilities -> Multivariate Analysis -> Principal Component Analysis
La OPTIONS vom selecta Default and additional plots și vom bifa toate căsuțele de mai jos, apoi la
Options (din josul imaginii) vom pune Model la ID variablesfor score plots
Tabelul de corelații
Pentru a decide dacă prin Analiza în Componente Principale vom obtine rezultate bune, va fi analizat în
primul rand tabelul corelațiilor.
În ce caz este indicat să folosim ACP? Vom obține niște componente semnificative? (Correlation Matrix)
Dacă există coeficienți mari sau medii (corelații semnificative), se recomandă a fi folosită APC pentru
reducerea dimensiunii spațiului date si pentru vizualizarea datelor.
Din analiza tabelului de corelatie intre variabilele analizate, observam ca exista variabile puternic
corelate pozitiv, de exemplu variabilele INVOICE și MSRP (0,99) , dar si variabile puternic corelate
negativ, de exemplu MPG_City cu Engine Size (-0,7179) sau variabile slab corelate sau chiar necorelate
intre ele, ca de exemplu MSRP cu Wheelbase (0,1517).
In concluzie putem afirma ca ACP este utila in interpretarea legaturilor dintre variabilele analizate.
Pentru a decide câte componente principale este indicat a fi păstrate se păstrează ne vom uita în
matricea cu valori proprii ( Eigenvalues of the Correlation Matrix)
Valorile proprii
De asemenea, ne vom uita cât la sută din variabilitate este explicată de componentele selectate.
(Proportion). Proporția se calculează lambda 1 (prima valoare proprie) împărțită la numărul de valorilor
proprii. (În cazul nostru, împărțim 8,35 la 10), deci 83,5% din variabilitate este păstrată prin proiecție pe
prima axă principală.
83,5%: 80% deci poate fi păstrată si doar o componentă principală. (Conform teoriei „Dacă primele k
componente principale preiau 80% sau mai mult din varianţa datelor iniţiale, atunci scopul reducerii
dimensionalităţii va fi atins.’’).
Prin proiecție pe planul determinat de primele două axe principale este explicată 93,57% din
variabilitatea totală.
O altă metodă prin care putem afla în câte componente vom împărți este să ne uităm la Scree Plot.
Conform Scree plot-ului, vom păstra primele 2
componente deoarece panta se schimbă la valoarea 2.
Concluzie: În continuare bentru o mai bună reprezentare a datelor vom păstra primele 2 componente
principale.
Pozitive:
Weight =0,334
Horsepower =0,336
Wheelbase = 0,327
Length = 0,332
• Prima componentă este determintă de variabilele care țin de caracteristicile mașinii (cilindri,
mărimea motorului, greutatea, caii putere) în sens pozitiv.
Pozitive:
MGP_City = 0,611
A doua componentă este determinată în sens pozitiv de variabilele
MGP_Highway = 0,532 referitoare la consum.
Negativ:
A doua componentă este determinată în sens negativ de variabilele
MSRP = -0,338
referitoare la preț.
Invoice = -0,342
• A doua componentă este determinată de variabilele referitoare la preț (MSRP și Invoice) în sens
negativ și de variabilele care țin de consumul mașinii (MGP_City si MGP_Highway) în sens negativ.
Reprezentare grafică
Pentru a vedea cum sunt reprezentate grafic cele 10 variabile și legăturile dintre acestea (identificarea
de grupuri de variabile) ne vom uita pe graficul Component Pattern.
Ce putem spune în privința corelației dintre variabile? Cine cu cine se corelează și cum este?
Vom schimba nivelul de predicție din 95% în 99% pentru a avea o mai mare claritate.
Ne întoarcem în Sas Studio și apasăm pe fereastra OPTIONS, schimbăm nivelul de predicție, apoi dăm
din nou RUN și ne uităm la noul grafic.
(Putem oberva mai jos că schimbând nivelul de predicție, s-a mărit si cercul elipsei => numărul de
outlieri s-a micșorat)
După cum se poate observa în graficele anterioare, valorile din afara elipsei (Insight 2dr, Prius 4dr, Civic
Hybrid 4dr) au valori mari ale MPG deci vor avea valori foarte mici ale consumului.
De asemenea, în direcția opusă se află 911 GT2 2dr, SL55 AMG 2dr care au valori foarte mici ale MPG
deci au consumul foarte ridicat dar au și valori ale variabilelor de performantă a masinii foarte mari. Deci
sunt mașini foarte puternice cu consum foarte mare de carburant.
REPREZENTAREA GRAFICA A REZULTATELOR OBTINUTE DIN ANALIZA ÎN
COMPONENTE PRINCIPALE SI ANALIZA CLUSTER
Dacă dorim să reprezentăm graphic proiecția indivizilor pe planurile principale marcând și clusterul din
care fiecare observație face parte), clusteri obtinuți prin analiza cluster (vezi seminarul 6 pentru
clusterizarea observatiilor), vor aplica incă odata ACP astfel.
Task and Utilities- > Multivariate Analysis -> Principal Component Analysis
DATA: La DATA vom pune WORK.FASTCLUS_SCORES (obținut la K-Means Clustering) și introducem toate
variabilele până la Length inclusiv.
Se va deschide o nouă fereastră unde vom tasta : id cluster; ( după Length; apăsam tasta ENTER și apoi
Și observăm la Component Scores 95% Prediction Ellipse că cei mai mulți outlieri sunt din grupa/
clusterul 3.
--
Seminar 6 – noiembrie 2021
Analiza de Tip Cluster1
Prof. coordonator: Prof.univ.dr. Cristina Boboc
DATELE
Se lucrează pe o bază de date referitoare la caracteristicile mai multor marci de tutoturisme.
Această bază de date contine 428 de observații și 15 variabile. Cele 15 variabile sunt referitoare la
modelul autoturismului și caracteristicile tehnice ale acestora. Deoarece datele au unități de măsură
diferite, ale sunt standardizate inainte de a fi incluse in analiză.
1
Materialul a fost pregatit cu ajutorul studentelor : Bundă Andreea-Nicoleta, Minoiu Maria-Magdalena,
An 3 Promortia 2019-2020
Dorim sa vizualizam eventuala existenta a unor grupuri de autoturisme.
STANDARDIZAREA DATELOR
Primul pas este standardizarea datelor, deoarece nu avem aceeași scală de măsurare (unitate de
măsură):
În SAS se găsește la Task and Utilities -> Data -> Standardize Data
La DATA vom adăuga toate variabilele, apoi la OPTIONS vom alege ca metodă de standardizare „Range’’.
-CLUSTERIZAREA AUTOTURISMELOR-
Ținând cont de faptul că avem peste 100 de observații (428 de obervații) nu vom putea construi direct o
dendograma.
DATA: vom alege RATIO, vom adăuga toate variabilele și vom apune Model la ADDITIONAL ROLES ->
Identify observations in clusters
OPTIONS: vom alege RANGE ca metodă de standardizare
Trebuie să avem grupele cât mai diferite. În momentul în care le punem împreună să pierdem cât mai
mult din omogenitate.
Din ultima coloană, unde avem evidențiate valorile lui R-Square, vom afla numărul de grupe. Ultima linie
ne spune că toate variabilele sunt întru-un singur cluster.
Căutăm ca R-Square >0,5 , diferența de la un nivel la altul să fie cât mai mare și Semipartial R- Square să
fie cât mai mare.
• Când avem variabilele împărțite în 2 clustere, R-Square=0.405 <0,5 => Nu avem diferențe
semnificative între clustere și trecem la următoarea linie ( cea de deasupra ).
• Când avem variabilele împărțite în 3 clustere, R-Square=0,570 >0,5 => Posibil să fi găsit soluția,
dar pentru a fi siguri vom face diferențele dintre valorile lui R-Square.
Dacă ne-am uita doar la pierderea de inerție am rămâne pe 2 grupe (40%), dar nu putem pentru că R-
Square (0,405) < 0,5. Astfel, cea mai mare pierdere de omogenitate unde R-Square(0,570) >0,5 este
0,692 ( dacă trec de la 4 grupe la 3 grupe) => vom împărți variabilele în 3 clustere/grupe.
K-MEANS CLUSTERING
Pentru a vedea mai multe informații despre împărțirea în 3 grupe a autoturismelor, vom folosi K-
Means Clustering.
Apoi la Statistics vom alege Selected statistics și bifăm „List cluster assignments for observations’’
pentru a vedea cărui cluster aparține fiecare observație ( am ales să vedem în ce cluster se află fiecare
model de mașină, alegând Model la Identify observations)
OUTPUT: Am bifat căsuța „Create cluster assignment data set’’ deoarece dacă dorim apoi să facem din
nou ACP-ul, dar de data acesta cu folosind clusterele create la acest pas. ( putem vedea simultan cum
obținem rezulatele de la ACP cu clusterizare)
În tabelul Cluster Summary vedem câte observații are fiecare cluster:
În tabelul Cluster Listing vedem de ce cluster aprține fiecare model. De exemplu, modelul A4 1.8T 4dr
(observația 8) este în clusterul 2.
Pentru a vedea care sunt variabilele care îmi diferențiază cel mai mult grupele ne vom uita în tabelul
Statistics for Variables și vom căuta variabilele care au valoarea lui R-Square cea mai mare (R-Square
>0.5).
R-Square >0.5 => factorul de grupare este semnificativ în variabilitate( R-Square ne spune în ce proporție
este variabila independentă determinată de variabila dependentă și cât de diferite sunt grupele
respective).
Cu cât R-Square este mai mare, cu atât variabila ascociată acelui R-Square contribuie mai mult la
diferențierea între clustere. În cazul nostru, variabilele: Cylinders (0.856), Engine Size (0.797),
Horsepower (0.646), Weight (0.598) și MPG_City (0.501) sunt cele care diferențiază cele 3 grupe de
autoturisme.
Pentru a caracteriza fiecare cluster ne vom uita în tabelul Cluster Means la variabilele care au R-Square
> 0.5:
• Clusterul 1 cuprinde autoturismele medii din punct de vedere al mărimii motorului, al cilindrilor,
al puterii și al greutății, dar cu un consum mediu în oraș. ( linia galbenă din tabelul de mai jos are
valori medii, mai puțin MPG_City)
• Clusterul 2 cuprinde autoturismele cu cea mai mică mărime a motorului, cu cei mai puțini
cilindri, cu cea mai mică putere și cu cea mai mică greutate, dar cu un consum mare în oraș .
(linia albastra din tabel are cele mai mici valori, cu excepția MPG_City-ului)
• Clusterul 3 cuprinde autoturismele cu cea mai mare mărime a motorului, cu cei mai mulți
cilindri, cu cei mai mulți cai putere și cu cea mai mare greutate, dar cu un consum mic în oraș.
(linia roșie din tabel are cele mai mari valori, mai puțin MPG_City)
Seminar 5 – octombrie 2021
Analiza de tip Cluster1
Prof. coordonator: Prof.univ.dr. Cristina Boboc
Fie o baza de date cu informatii privind caracteristicile mai multor specii de flori. Sa se realizeze o
grupare a acestora in clustere omogene. Baaza de date folosita este: specii_flori.xls.
Proceduri SAS
1
Materialul a fost pregatit cu ajutorul studentelor : Ivan Petruta si Stan Alexandru, An 3 Promortia
2019-2020
→ rularea bazei de date (Run)
Rezultatul obtinut arata ca baza de date este formata din 6 variabile si 150 de observatii .
I. Metoda Ward
Se va folosi metoda de clasificare ierarhica a lui Ward. Acaesta metoda ma va ajuta sa identific si
numarul de clustere in care este cel mai bine a se imparti observatiile.
→
DATA – WORK.IMPORT (baza de date pe care dorim sa aplicam metoda (specii_flori.xls) pe care am
rulat-o in prealabil).
ADDITIONAL ROLES –Identify observations in clusters – introducem variabila dupa care vrem sa
grupam.
→
METHODS-Standardization-Ratio Variables – Standardization Method- avem 2 optiuni:
1. Range (atunci cand nu cunoastem observatiile din baza de date sau stim ca exista OUTLIER)
2. Standard deviation (atunci cand cunoastem datele si stim ca nu exista OUTLIER si repartitia
este aproximativ normala)
(Explicatie: Metoda WARD introduce ca distanţă între 2 clase pierderea de inerţie interclase ce sar obţine
prin contopirea celor două clase.
Metoda Ward – Minimizează variabilitatea din interiorul clusterului.
→ rulam (Run)
RESULTS: CLUSTER OBSERVATIONS
INTERPRETAREA REZULTATELOR:
Pentru a avea omogenitate in cadrul grupelor R-Square trebuie sa aiba o valoarea mai mare de 0.5. In
cazul nostru se observa ca sunt necesare doua grupe (number of cluster = 2) pentru a avea diferenta
semnificativa intre grupe (R-Square =0.705).
Semipartial R-Square imi arata diferenta de pierdere de inertie de la un nivel la altul de agregare (de la k
la k-1 grupe). Unde se observa o diferenta mai mare inseamna ca acolo ar fi bine sa ma opresc cu
agregarea clusterelor.
OBSERVATIE:
In sectiunea Options la PLOTS este bifat Default plots si automat este bifata Dendogram adica arborele
de clasificare, insa daca baza de date este mult prea mare arborele nu este afisat (daca sunt mai mult de
100 de observatii).
II. Metoda K-Means Clustering
Determina care dintre variabilele incluse in analiza are cea mai mare influenta asupra grupelor si imparte
populatia intr-un numar prestabilit de clustere .
OBSERVATIE:
→ →
DATA – WORK.IMPORT (baza de date pe care dorim sa aplicam metoda (specii_flori.xls) pe care am
rulat-o in prealabil).
ROLES – Variables to use in clustering- adaugam variabilele folosite in analiza .
Clustering - Maximum number of clusters ( numarul de grupe (clustere ) in care se impart variabilele,
in cazul nostru atunci cand am aplicat Cluster Observations am observant ca exista omogenitate in cazul
grupelor de la 2 clustere in sus deci numarul maxim de clustere este 2 ).
Maximum number of iterations (numarul maxim de iteratii, in general sunt suficiente 10 iteratii ).
OUTPUT DATA SETS – Create cluster assignment data set (creem un nou set de data numit
work.Fastclus_scores)
→ rulam (Run)
INTERPRETAREA REZULTATELOR
Statistics for Variables- arata care variabile influenteaza cel mai mult gruparea in clustere.
Din tabelul Statistics for Variables reiese faptul ca variabila care influenteaza cel mai mult gruparea pe
clustere este PETAL LENGTH, R-Square> 0.7, urmata de PETAL WIDTH, unde de asemenea R-
Square>0.7. R-Square măsoară cât de diferite sunt clusterele formate unele de altele în funcție de
variabila respectivă.
SEPAL WIDTH nu intra in analiza deoarece R-Square nu este mai mare de 0.5 .
Pentru a caracteriza cele doua clustere ne uitam in tabelul Cluster Means si analizam variabilele care au
R-Square >0.5 .
In clusterul 1 observam ca se regasesc speciile de flori care au valori mici pentru fiecare dintre variabilele
care intra in analiza (exceptand latimea sepalei care este mai mare decat in clusterul 2), iar in clusterul 2
sunt speciile care au valorile mari pentru fiecare dintre variabile (cu exceptia latimei sepalei care este mai
mica decat in clusterul 1).
Astfel putem afirma ca putem imparti speciile de flori in 2 grupe , flori mici cu petale si sepale scurte si
petale usoare si flori mari cu petale si sepale lungi si petale grele.
Seminar 4 – exemplu numeric
Saptamana 4 - octombrie 2021
Metode de clusterizare
Fie 4 indivizi pentru care se măsoară înălţimea, coeficientul de inteligenţă, greutatea, codificate pe o scală
de la 1 la 10 obţinând cuplurile de rezultate:
(1,7,3); (2,9,4); (7,1,5); (10,3,7)
Realizați o împărțire a acestor indivizi în 2 clase folosind metoda centrelor mobile.
Etapa 1:
j=0
Pas 1:
Fie punctele inițiale c1=i1 şi c2=i2
i1 i2 i3 i4
i1 0 2,45 8,72 13,93
i2 2,45 0 9,49 10,44
Etapa 2 : j=1
Pas 1:
Considerăm c1=g1 şi c2=g2
Se calculează distanţele punctelor la g1 şi la g2
Pas 3:
g1=(4;4;4);
g2=(6;6;5,5);
I1=1/4 [d2(i1;g1)+d2(i3;g1)]=9,5;
I2=1/4 [ d2(i2;g2)+d2(i4;g2)]=13,625
Iw= 1/2[I1+I2]=11,5625 pentru a doua iteraţie
IW(1) − IW( 0) = 0
Pas 4: deci STOP
Clusterele sunt: X1={i1;i3} şi X2={i2;i4}
Seminar 3 - AMD
Octombrie 2021
Problema 1.
Fie 4 indivizi pentru care se măsoară înălţimea, coeficientul de inteligenţă, greutatea, codificate pe o scală de
la 1 la 10 obţinând cuplurile de rezultate: (1,7,3); (2,9,4); (7,1,5); (10,3,7).
1. Determinati tabelul distanțelor euclidiene dintre indivizi luați doi câte doi.
2. Care este centrul de greutate al clusterului format din primul și al doilea individ.
3. Care este distanța Single Linkage, Mean Linkage sau Complete Linkage dintre individul 1 si
clusterul determinat de indivizii 2,3 si 4.
4. Determinați arborele de clasificare folosind algoritmul Ward.
Rezolvare
i1 i2 i3 i4
Distanța Ward
𝑝𝐴 𝑝𝐵 2
𝛿(A = {i1}, B = {i2, i3, i4}) = 𝑑 (𝑔𝐴 , 𝑔𝐵 )
𝑝𝐴 + 𝑝𝐵
gA=(1,7,3)
1∗3 3
𝛿 Ward= [(1 − 6.33)2 + (7 − 4.33)2 + (3 − 5.33)2 ] = [28.4 + 7.13 + 5.43] = 30.71
1+3 4
4. Metoda Ward
p A pB 2
( A, B) = d (g A, gB )
p A + pB
La prima iteratie toate clase au un singur element, deci ponderile sunt egale cu ¼ pentru toate clasele.
11
⋅ 1
𝛿(𝑖1 , 𝑖2 ) = 14 41 𝑑 2 (𝑖1 , 𝑖2 ) = 8 (1 + 4 + 1) = 0.75
+
4 4
i1 i2 i3 i4
Min=0.75
Pas 2 In acest pas, avem o clasa cu doua elemente (i1, i2) ce va avea ponderea 2/4=1/2 si restul cu cate un
element cu ponderea ¼.
(i1;i2) i3 i4
i3 13,58 0 2,125
i4 18,25 2,125 0
gi3i4 = (8,5; 2; 6)
2 / 42 / 4 2 1
((i1 , i2 ); (i3 , i4 )) = d ( gi1i2 ; gi3i4 ) = (49 + 36 + 6,25)
2/ 4+ 2/ 4 4
(i1;i2) (i3;i4)
(i1;i2) 0 22,81
(i3;i4) 22,81 0
Arborele de clasificare
0.75
Seminar 2 - AMD
Octombrie 2021
Se lucrează pe o bază de date referitoare la utilizatorii de internet pe mobil.
Fișierul este utilizatori internet pe mobil.xlsx si se gaseste in folderul MDA2020 din SAS.
Pentru a importa această bază de date în SAS Studio va trebui sa rulați programul de import, astfel:
RUN
Toate task-urile cu care vom lucra pe parcursul acestui semestru sunt incluse în Task and Utilities.
Se selecteaza variabilele
Analiza statistică
multidimensională
Seminar 1 - Octombrie 2021
Sumar
• Organizare Seminar
• Inscriere curs SAS Studio
• Recapitulare – Masurarea intensitatii legaturii intre variabile
Analiza statistică multidimensională
Înregistrare în
SAS on Demand for Academics
• Vă invit să vă înscrieți în cursul meu SAS OnDemand for Academics: Analiza Multidimensionala astfel:
• Creați-vă un cont pentru SAS OnDemand for Academics. Pentru înregistrare vizitați pagina https://odamid.oda.sas.com și
apăsați pe Register for an account.
• După înregistrare, vă rog să vă Logați cu contul dvs la: https://odamid.oda.sas.com
• Căutați linkul Enroll in a course în Enrollments din partea de jos a paginii. Faceți clic pe acest link pentru a începe
înscrierea.
• Introduceți codul cursului: 4695cb0e-f1b6-4728-86b8-20a3209cf4cd
• Trimiteți formularul.
• Confirmați că acesta este cursul corect și apoi faceți clic pe buton pentru a termina înscrierea.
RECAPITULARE
• t r n2 ~ T
n 2
1 r2
•t t ;n 2 se respinge H0
• t t ;n 2 se acceptă H0
Analiza statistică multidimensională
MĂSURAREA INTENSITĂŢII LEGĂTURII
VARIABILE CANTITATIVE
• Exemplu: Pentru 10 companii s-a înregistrat circulaţia mărfurilor şi profitul obţinut. Să se
specifice dacă există o corelaţie între cele două variabile.
Descriptive Statistics
• R n 1R s ~ N(0,1)
• R z/2 se respinge H0
• R < z/2 se acceptă H0
Analiza statistică multidimensională
MĂSURAREA INTENSITĂŢII LEGĂTURII
VARIABILE ORDINALE
• Rezultatele obţinute în urma unui sondaj în care companii Americane şi Europene au fost rugate
să ordoneze departamentele în funcţie de importanţa lor au fost:
Departament America Europa
Cercetare-dezvoltare 4 2
Producie 2 4
Reclamă şi publicitate 3 1
Strategii promoţionale 7 6
Ambalaje 8 7
Salarizare 5 8
Infrastructură 6 5
Contabilitate 1 3
Correlations
r=0,667>0
America Europa corelaţie de intensitate medie
Spearman's rho America Correlation Coefficient 1.000 .667
pozitivă între rezultatele companiilor
Sig. (2-tailed) . .071 corelaţie semnificativă statistic
Americane şi cele Europene
N 8 8 cu o probabilitate de 92%
Europa Correlation Coefficient .667 1.000
Sig. (2-tailed) .071 .
N 8 8
Analiza statistică multidimensională
MĂSURAREA INTENSITĂŢII LEGĂTURII
VARIABILE NOMINALE
• Coeficientul de contingenţă
• ni,j – nr. de unităţi cu varianta i a variabilei x şi varianta j a variabilei y
• ni. - nr. de unităţi cu varianta i a variabilei x; n.j – nr. de unităţi cu varianta j a variabilei y
• n – nr. total de unităţi
2
n n
n ij i. . j
• s r 2
2 n ~ 2 C
n i. n . j r 1s 1 2 n
j1 i 1
n între variabile
• C=0 nu există asociere
• Testarea existenţei asocierii între x şi y: testul 2
• Ipotezele: H0: variabilele x şi y nu sunt corelate HA: variabilele x şi y sunt corelate
• Dacă se respinge H0
2 ;r 1s1
2
• Dacă se acceptă H0
2 2 ;r 1s1
Analiza statistică multidimensională
MĂSURAREA INTENSITĂŢII LEGĂTURII
VARIABILE NOMINALE
• Exemplu: Se efectuează un sondaj pentru a vedea dacă este vreo legătură între frecvenţa cu care o
familie pleacă din localitatea de reşedinţă pentru recreere şi tipul de locuinţă
o dată pe lună o dată la trei luni o dată la 6 luni o dată pe an
Apartament 10 11 8 9
Casă 16 9 13 11
Fără locuinţă proprietate personală 12 9 14 9
Chi-Square Tests
Asymp. Sig.
Value df (2-s ided)
2.517 a
Pears on Chi-Square
Likelihood Ratio
6 .867
nu se poate spune că există o asociere
2.474 6 .871
Linear-by-Linear
.021 1 .885
semnificativă statistic între cele două variabile
Ass ociation
N of Valid Cas es 131
a. 0 cells (.0%) have expected count less than 5. The
minimum expected count is 8.41.
Symmetric Measures
C=0,137
asocierea între cele două variabile este slabă
Value Approx. Sig.
Nominal by Nominal Contingency Coefficient .137 .867
N of Valid Cas es 131
a. Not as s uming the null hypothes is.