Documente Academic
Documente Profesional
Documente Cultură
Analiza Cluster
Curs 2 - Octombrie 2021
Noțiuni introductive
analiză factorială
Analiza statistică multidimensională
• prima referinţă la medotele de analiză factorială a făcut-o în anul 1901 Karl Pearson
• În ceea ce privește metodele și tehnicile de analiză de tip cluster: primele lucrări datează din 1963
Sokal și Sneath și în 1967 Lance și Williams. Preocupările au crescut exponențial și s-au
diversificat foarte mult.
• Au existat două școli: franceză și americană. Benzecri, Jambu, Lebart, Morineau, Saporta sunt
printrei cei mai cunoscuți autori francezi.
• a început să fie utilizată efectiv după dezvoltarea metodelor actuale de calcul cu ajutorul
calculatoarelor
Analiza statistică multidimensională
Configurarea norului
de punte în spaţiu
Utilizatorii metodelor
factoriale pleacă de la un
Vectorul linie vector coloană
tablou de măsuri, pe coloane
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate
variabilele xj
n puncte în Rp p puncte în Rn
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea ponderilor; Centrul de greutate
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea dispersie covarianță
Analiza statistică multidimensională
Analiza statistică multidimensională
Analiza statistică multidimensională
2. Spațiul indivizilor
• Fiecare individ este un punct definit prin p coordonate, element al unui spaţiu vectorial FRp denumit
spaţiul indivizilor.
• Mulţimea de n indivizi este atunci un nor de puncte în F şi g este centrul de greutate al norului
• Metrica folosită pentru definirea distanţei dintre doi indivizi este M = D1/s2 unde D1/s 2 este matricea
diagonală a inverselor dispersiilor
• Inerția totală a norului de puncte este media ponderată a pătratelor distanțelor punctelor față de
centrul de greutate
Analiza statistică multidimensională
3. Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
n
p2
D=
pi = 1
i=1
0 pn
• Produsul scalar a două variabile xj și xk este:
care este covarianța sjk dintre cele două variabile, dacă acestea sunt centrate
• Observație: Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Unghiul dintre două variabile centrate este:
Analiza Cluster
• Analiza cluster poate fi definită ca reprezentând o mulțime de principii, metode și algoritmi de
clasificare, având ca scop organizarea datelor sub forma unor structuri informaționale semnificative,
relevante
• Analiza cluster are ca scop căutarea și identificarea de clase, grupe sau clustere în cadrul unor
mulțimi de obiecte sau forme, astfel încât elementele care aparțin aceleiași clase să fie cât mai
asemănătoare, iar elementele care aparțin la clase diferite să fie cât mai deosebite între ele.
• Observație: Analiza cluster poate fi utilizată atât pentru clasificarea obiectelor, cât și pentru
clasificarea variabilelor care definesc obiectele.
Noţiuni introductive
Caracterizarea indivizilor
1. d(x,y) = d(y,x) x, y X
2. d(x,y) 0, x, y X
d(x,y) = 0 x = y
3. d(x,y) d(x,z) + d(z,y), x, y, z X
Analiza statistică multidimensională
Distanța euclidiană
Y
Y2-Y1
Scalele mari vor domina măsura
Y1
X2-X1
Standardizați datele
X1 X2 X
D = ( X 2 − X 1) 2 + (Y 2 − Y 1) 2
Analiza statistică multidimensională
Noţiuni introductive
Caracterizarea indivizilor
Tipuri de distanţe:
• distanţa euclidiană: d ( x, y ) = (x
i
i − yi ) 2
• este distanța „obișnuită” între două puncte, dată în coordonate carteziene de formula lui Pitagora.
1. s(x,y) = s(y,x) x, y X
2. s(x,y) 0, x, y X
3. s(x,x) s(x,y), x, y X , adică nu există un individ mai asemănător ca el însuşi.
• Pe baza acestor patru numere se construieşte tabelul de similaritate sau prin completare în raport cu 1, cel de
disimilaritate, utilizând diferiţi indici, ca de exemplu:
a
• indicele Jaccard:
a+b+c
2a
• indicele Czekanowski:
2a + b + c
a
• indicele Ochicii:
(a + b)(a + c)
a
• indicele Russel şi Rao:
a+b+c+d
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
• Fie E o mulţime.
• HP(E) se numeşte ierarhie dacă şi numai dacă:
• 1. PiP(E) aî card(Pi)=1 E şi Pi H
• 2. A,BH AB A,B,
• 3. AH ,A= Ci | Ci≠A , Ci H Nivel
a b c d e
• Exemplu: E=a,b,c,d,e
H = , a,b c d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d,e
a,b,c,d,e
a,b,c,d,e
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
?
Cum definim distanța dintre
clusteri??
p A pB 2
• 2. Distanţa dintre două clase după metoda WARD este: ( A, B) = d (g A, gB )
p A + pB
•
• 3. Partiţia generată de algoritmul WARD este o partiţie ierarhică.
• 4. Algoritmul WARD generează o ierarhie indexată cu i(AB)= (A,B).
Analiza statistică multidimensională
Analiza Cluster
Curs 3 - Octombrie 2021
• Se observă că diferența cea mai mare este între nivelul 31 și 30. Astfel țările vor fi împărțite în 2 grupe.
• 2. Prin dendograma
• Graficul atinge ultimul nivel la valoarea 25 (in-1=25), penultimul nivel la valoarea 22 (in-2=22), etc.
• in-1-in-2= 25-22=3
• in-2-in-3=22-18=4
• in-3-in-4=18-15=3
• in-4-in-5=15-12=3
Se observă că diferența cea mai mare este 4. Astfel se recomandă împărțirea țărilor în 3 grupe.
•
Analiza statistică multidimensională
Metode de clusterizare
ALTE METODE IERARHICE
• II. Metoda agregării complete (distanţa saltului maximal sau Complete Linkage).
• Este o metodă de clasificare ierarhică de tip ascendent, care comasează în fiecar etapă a clasificării acele două clustere
pentru care distanța dintre cei mai depărtați vecini este cea mai mică, în comparație cu alte perechi de clustere
• Măsura de similaritate folosită este: sup(A,B)=sup d(ei,ej) eiA, ejB
• Aceasta se numeşte Când metoda anterioară nu funcţionează, se poate aplica această metodă.
Analiza statistică multidimensională
Metode de clusterizare
ALTE METODE IERARHICE
• Aceasta se numeşte distanţa medie şi este un compromis între cele două anterioare.
• Observație: Deoarece ierarhiile generate prin aceste metode pot fi foarte diferite, se recomandă
folosirea mai multor metode. Dacă partiţiile cu un număr mic de clase sunt foarte diferite între
ele, atunci este posibil ca mulţimea indivizilor să nu poată fi împărţită în clase.
Analiza statistică multidimensională
Observații:
• Deoarece ierarhiile generate prin aceste metode pot fi foarte
diferite, se recomandă folosirea mai multor metode.
• Dacă partiţiile cu un număr mic de clase sunt foarte diferite între
ele, atunci este posibil ca mulţimea indivizilor să nu poată fi
împărţită în clase.
Analiza statistică multidimensională
Procedurile SAS
PROC CLUSTER DATA=data METHOD=WARD CCC
OUTTREE=cluster ;
VAR var1-var7;
ID disjoint;
RUN;
Examples
Există outliers și nu există nici o partiție a populației în clustere bine definite. Numărul recomandat de clustere este 3 sau 11.
Analiza statistică multidimensională
Numărul recomandat de clustere este 3 sau 5. Examples
Care este numărul recomandat de clustere?
Analiza statistică multidimensională
II. Metode de clasificare
METODE DE CLASIFICARE NEIERARHICE
• se folosesc atunci când se cunoaşte numărul de clase în care se doreşte împărţirea indivizilor
• se presupune că cei n indivizi sunt puncte într-un spaţiu euclidian inclus în Rp, distanţa dintre
indivizi fiind cea euclidiană
• scopul fiecărei clasificări este de a obţine clase cât mai omogene: variabilitatea norului de puncte,
în interiorul unei clase să fie cât mai mică
• Ideea metodei: se porneşte cu k clase aleatoare şi se schimbă indivizii între clase astfel încât:
• să se minimizeze variabilitatea în interiorul claselor (dispersia intraclase)
• să se maximizeze variabilitatea dintre clase (dispersia interclase)
Analiza statistică multidimensională
II. Metode de clasificare
METODE DE CLASIFICARE NEIERARHICE
i =1
unde g este centrul de greutate al întregului nor de puncte
• 3. se calculează centele de greutate ale partiţiei X i( j )
i =1, k
şi se notează cu X
ci i =1, k
ci = g i , i = 1, k
altfel şi se trece la pasul 2.
j = j +1
Analiza statistică multidimensională
Metode de clasificare
METODE DE CLASIFICARE NEIERARHICE
• algoritmul converge rapid
• La fiecare pas este necesar calculul a n k distanţe, dintre cei n indivizi şi cele k centre de greutate. De aceea
nu este necesară memorarea tabelului cu cele n(n-1)/2 distanţe dintre cei n indivizi
• Inconvenientele metodei:
• k trebuie cunoscut apriori
• optimul este dependent de alegerea iniţială a punctelor ci
Procedurile SAS
PROC FASTCLUS DATA=data
OUT=outfast OUTSEED=centres CLUSTER=disjoint
MAXCLUSTERS=20 DELETE=50 MAXITER=100;
VAR var1-var7;
RUN;
EXEMPLUL 1
• Pentru identificarea grupelor de tari in functie de turism si
5. % gospodarii cu acces la internet
nivelul de dezvoltare a fost realizat un studiu realizat la nivelul
6. % celor ce fac cumparaturi pe internet
tarilor europene utilizand date pentru anul 2018 de pe Eurostat.
7. % Investitii protectia mediului
Variabilele folosite au fost :
8. PIB pe locuitor
1. % calatorii munte
2. % calatorii rezervate internet-
3. Cheltuieli medii pe noapte
4. % TIC in PIB
Analiza statistică multidimensională
• Prin aplicarea metodei Ward pentru datele
standardizate (metoda standard deviation) s-au
obtinut urmatoarele rezultate:
Analiza statistică multidimensională
Analiza statistică multidimensională
• Prin aplicarea metodei Ward pentru datele
standardizate (metoda range) s-au obtinut
urmatoarele rezultate:
Analiza statistică multidimensională
Metoda Complete Linkage Metoda Average Linkage
Analiza statistică multidimensională
Exemplul 1
• Prin aplicarea metodei centrelor mobile pentru datele standardizate s-au obtinut rezultatele:
Analiza statistică multidimensională
Exemplul 1
Analiza statistică multidimensională
Exemplul 2
• Pentru identificarea grupelor de tari in functie
de utilizarea internetului a fost realizat un
studiu la nivelul tarilor europene utilizand date
pentru anul 2018 de pe Eurostat. Variabilele
folosite au fost exprimate in procente in
populatia totala a persoanelor ce folosesc
internetul pentru : Online course
, Sending/receiving e-mails , Social
networks, Online news , Internet
banking, Educational websites/portals , Online
learning ,Selling goods or services , Travel
and accommodation services.
• Prin aplicarea metodei Ward pe date
nestandardizate s-au obtinut urmatoarele
rezultate:
Analiza statistică multidimensională
Exemplul 2
Analiza statistică multidimensională
Analiza în componente
principale
Octombrie 2021
Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul
variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
n
p2
D=
pi = 1
i=1
0 pn
• Observație:
• Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Cosinusul unghiului dintre două variabile centrate este coeficientul de corelație dintre acestea
x j , xk s jk
cos jk = = = rjk
x j xk s j sk
Analiza statistică multidimensională
Rotirea sistemului de coordonate
• În sistemul inițial de axe punctul A are coordonatele (x1, x2). Dacă rotim axele cu un anumit unghi ,
coordonatele punctului în noul sistem de coordonate vor fi (x1*, x2 *) definite astfel:
• x1* = cos() x1 + sin() x2
• x2* = - sin() x1 + cos() x2
• Observație: Variația totală a punctelor reprezentate în sistemul de axe inițial este în totalitate conservată prin
reprezentarea grafică în noul sistem de axe.
Ax= x
Observație: Orice matrice A are exact n valori proprii complexe, nu neapărat distincte.
Analiza statistică multidimensională
Analiza statistică multidimensională
Analiza în componente principale (ACP)
I. Definire şi utilizare
• este o metodă descriptivă
• pentru vizualizarea informaţiilor conţinute într-un tablou de date cantitative
• pentru vizualizarea corelaţiilor existente între variabile
• construieşte variabile noi, artificiale şi reprezentări grafice care permit vizualizarea relaţiilor între
variabile cât şi existenţa eventuală a unor grupuri de indivizi sau grupuri de variabile
• ACP ajută la obţinerea unei reprezentări apropiate a norului de n indivizi într-un spaţiu de dimensiune mică, prin
proiecţie
• Alegerea spaţiului de proiecţie se efectuează după criteriul următor: se caută subspaţiul de dimensiune k astfel
încât media pătratelor distanţelor între proiecţii să fie cea mai mare posibilă, deci inerţia norului proiectat pe
subspaţiul Fk să fie maximală
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• Se caută dreapta din Rp care să treacă prin centrul de greutate şi să maximizeze inerţia norului proiectat pe dreaptă.
• Prima componentă principală extrasă este acea combinaţie liniară de variabile care preia maximul posibil din varianţa datelor iniţiale.
Cea de-a doua componentă principală preia mai puţină varianţă, şi aşa mai departe.
• Subspaţiul Fk, de dimensiune k este generat de cei k vectori proprii ai lui SM asociaţi celor mai mari k valori proprii, unde S este
matricea de covarianţă
Valorile proprii
s 2 s12 s1n
1 1. Măsoară cantitatea de varianţă „explicată” de fiecare
s s 22 s 2n componentă principală.
S= 21
2. Descresc odată cu indexul componentei, prima
s componenta principală având valoarea proprie maximă.
n1 s n 2 s 2n
3. Au suma egală cu p (numărul variabilelor iniţiale).
4. Exprimă „importanţa” componentelor principale
• Dacă primele k componente principale preiau 80% sau mai mult din varianţa datelor iniţiale, atunci scopul reducerii dimensionalităţii
va fi atins.
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• În cazul în care se lucrează cu un tabel de date centrat şi redus Z, asociat lui X:
• metrica folosită va fi M = I
• matricea de covarianţă a datelor centrate şi reduse va fi matricea de corelaţie R
deci factorii principali vor fi vectorii proprii succesivi ai lui R,
aranjaţi după ordinea descrescătoare a valorilor proprii:
Ru = u cu u2 = 1
• Interes practic mai au doar componentele principale calculate drept combinaţii liniare de variabilele
centrate-reduse:
c = Zu
• c este variabila cea mai legată de xj în sensul sumei pătratelor corelațiilor:
p
r
j=1
2
( c, x j
)
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Componentele principale
sunt: Zu
c1 c2 c3
0.72 1.24 -0.26
0.26 0.89 0.53
2.26 -0.19 -0.40
-1.74 1.12 -0.24
-0.52 -1.34 0.02
0.68 -0.91 -0.06
-1.92 -0.62 -0.23
0.24 -0.18 0.64
Analiza statistică multidimensională
Analiza în componente
principale
Octombrie 2021
• ACP ajută la obţinerea unei reprezentări apropiate a norului de n indivizi într-un spaţiu de dimensiune mică, prin
proiecţie
• Alegerea spaţiului de proiecţie se efectuează după criteriul următor: se caută subspaţiul de dimensiune k astfel
încât media pătratelor distanţelor între proiecţii să fie cea mai mare posibilă, deci inerţia norului proiectat pe
subspaţiul Fk să fie maximală
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• Se caută dreapta din Rp care să treacă prin centrul de greutate şi să maximizeze inerţia norului proiectat pe dreaptă.
• Prima componentă principală extrasă este acea combinaţie liniară de variabile care preia maximul posibil din varianţa datelor iniţiale.
Cea de-a doua componentă principală preia mai puţină varianţă, şi aşa mai departe.
• Subspaţiul Fk, de dimensiune k este generat de cei k vectori proprii ai lui SM asociaţi celor mai mari k valori proprii, unde S este
matricea de covarianţă
Valorile proprii
s 2 s12 s1n
1 1. Măsoară cantitatea de varianţă „explicată” de fiecare
s s 22 s 2n componentă principală.
S= 21
2. Descresc odată cu indexul componentei, prima
s componenta principală având valoarea proprie maximă.
n1 s n 2 s 2n
3. Au suma egală cu p (numărul variabilelor iniţiale).
4. Exprimă „importanţa” componentelor principale
• Dacă primele k componente principale preiau 80% sau mai mult din varianţa datelor iniţiale, atunci scopul reducerii dimensionalităţii
va fi atins.
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
• În cazul în care se lucrează cu un tabel de date centrat şi redus Z, asociat lui X:
• metrica folosită va fi M = I
• matricea de covarianţă a datelor centrate şi reduse va fi matricea de corelaţie R
deci factorii principali vor fi vectorii proprii succesivi ai lui R,
aranjaţi după ordinea descrescătoare a valorilor proprii:
Ru = u cu u2 = 1
• Interes practic mai au doar componentele principale calculate drept combinaţii liniare de variabilele
centrate-reduse:
c = Zu
• c este variabila cea mai legată de xj în sensul sumei pătratelor corelațiilor:
p
r
j=1
2
( c, x j
)
Analiza statistică multidimensională
III. Axe principale, factori principali, componente principale
Componentele principale
sunt: Zu
c1 c2 c3
0.72 1.24 -0.26
0.26 0.89 0.53
2.26 -0.19 -0.40
-1.74 1.12 -0.24
-0.52 -1.34 0.02
0.68 -0.91 -0.06
-1.92 -0.62 -0.23
0.24 -0.18 0.64
Analiza statistică multidimensională
Analiza de
corespondente
Noiembrie 2021
Sumar
• I. Definire şi utilizare
Definire și utilizare
• metodă de studiu a legăturilor existente între mai multe variabile calitative
• studiază corespondenţa între modalităţile variabilelor
• pentru 2 variabile calitative: Analiza de Corespondenţe Simplă
• pentru mai mult de două variabile calitative: Analiza de Corespondenţe Multiplă
Analiza statistică multidimensională
II. Analiza de corespondenţe simplă
• Matricea D este tabelul diagonal de totaluri marginale ale celor m=m1+ m2+…+mp categorii:
D1 0 0 0
0 D2 0 0
D =
0 0 0
0 0 0 D p
Analiza statistică multidimensională
III. Analiza de corespondenţe multiplă
m1 1 mi n j
CTR (Xi) = CTR (j) = (a j )2
j=1 j=1 np
• Contribuţiile indivizilor:
2
1 (z i )
CTRI(i)=
n
Analiza statistică multidimensională
IV. Analiza de corespondenţe: Interpretarea axelor factoriale
• OBSERVAȚII:
• 1. Se recomandă evitarea diferenţelor prea mari între numărul de categorii ale variabilelor Xi
• 2. La interpretarea unei axe factoriale în funcţie de contribuţia unei modalităţi active la inerţia totală a norului
• REGULI DE INTERPRETARE
• În planul Rn în norul de puncte-modalităţi, două modalităţi sunt depărtate (în sensul distanţei 2) atunci
când ele sunt foarte puţin asociate, adică ele nu au fost alese în acelaşi timp de indivizi.
• În cazul proiecţiei norului de puncte în spaţiul R2 format de axele factoriale, două modalităţi sunt foarte
apropiate atunci când ele sunt alese sau respinse în acelaşi timp de o mare parte din indivizi.
• Indivizii care sunt apropiaţi de anumite categorii, sunt cei care au selectat categoriile respective. Prin
această reprezentare grafică poate fi realizată o clasificare a indiviziilor şi cunoaşterea caracteristicilor
fiecărei clase. Aceasta este folositoare mai ales în cazurile în care indivizii nu sunt anonimi.
Analiza statistică multidimensională
EXEMPLU
• Observarea modului de viață al șomerilor
• Variabile:
• Variabile de opinie:
• stflife: Cat de satisfacut sunteti cu viata dvs. per total ?
• stfgov: Cat de satisfacut sunteti de actualul guvern al tarii ?
• sclmeet: Cat de des socializati cu prietenii, rudele sau colegii ?
• mainact: Principala activitate in ultimele 7 zile
• Variabile socio-demografice:
• edulvla: Care este cel mai inalt nivel de educatie atins de dvs. ?
• maritala: Statutul marital legal
• regionro: Regiunea
• gndr: sex
Analiza statistică multidimensională
EXEMPLU SAS
Analiza statistică multidimensională
EXEMPLU SAS
Analiza statistică multidimensională
EXEMPLU SAS
Analiza statistică multidimensională
EXEMPLU SAS
Analiza statistică multidimensională
Analiza discriminantă
Noiembrie 2021
Sumar
I. Definire
II. Axele şi variabilele discriminante
III. Funcția Fisher
IV. Reguli geometrice de atribuire
V. Metode probabiliste
VI. Estimaţii practice ale erorii de clasificare
Analiza statistică multidimensională
I. Definire
• Scop: Prezicerea unei variabile calitative cu k categorii cu ajutorul a p predictori, în general numerici.
• Aspecte:
• descriptiv: se caută combinaţiile liniare de variabile care permit împărţirea cel mai bine posibil în cele k
categorii şi dau o reprezentare grafică (ca în ACP), care ţine seama cel mai bine de această împărţire.
• decizional: un nou individ apare, pentru care se cunosc valorile predictorilor. Este vorba de a decide cărei
categorii trebuie atribuit individul respectiv. Este o problemă de clasament.
Analiza statistică multidimensională
I. Definire Analiza discriminantă constă în căutarea de noi axe care separă cel mai
bine în proiecţie cele k grupuri de observaţii
Analiza statistică multidimensională
I. Definire
Când datele sunt împărțite în două categorii,
noile axe sunt create astfel încât să îndeplinească două criterii:
I. Definire
• Fie E un nor în Rp format din n indivizi, notaţi ei.
• Acest nor este împărţit în k subnori: E1, E2, ..., Ek cu centrele de greutate g1, g2, ..., gk şi cu matricile de
varianţă V1, V2, ..., Vk.
• Fie g centrul de greutate al intregului nor de puncte şi V matricea de varianţă a întregului nor de puncte.
• Dacă cei n indivizi sunt afectaţi de ponderile p1, p2,..., pn atunci ponderile q1, q2,..., qk ale fiecărui sub-nor
sunt : q j = p i .
ei Ei
E2 1
x
gj =
x p i ei
x
x x
qj i
E1
x
k
x x g = qjg j
x
x j=1
V = 1
p i (ei − g j )(ei − g j )'
x x
x
j q
x
x
x x
x
x
j i Ej
e
E3
Analiza statistică multidimensională
I. Definire
• Matricea de varianţă interclase B, se defineşte ca matricea de varianţă a celor k centre de
greutate cu ponderile qj:
k
B= q
j =1
j (g j - g )(g j - g )'
• Observație: În cazul general, W este inversabilă în timp ce B nu este, deoarece cele k centre de greutate sunt
într-un sub-spaţiu de dimensiune k-1 din Rp (dacă p>k-1, ceea ce se întâmplă în general), în timp ce B este de
dimensiune p.
• Varianţa totală este suma dintre media varianţelor şi varianţa mediilor, are loc relaţia următoare: V=W+B .
Ipoteză: Se presupune g=0 (adică variabilele explicative sunt centrate).
Analiza statistică multidimensională
I. Definire
• Tabloul datelor de studiat este AX unde :
• A este tabloul logic asociat variabilei calitative ;
• X este matricea celor p variabile explicative.
• Observație: Dacă pi=1/n formulele precedente se simplifică. Fie n1, n2,..., nk mărimea subnorilor.
1
B = nj g j g j' 1
• Atunci : n j unde gj = ei
1 n j Ej
W = n jV j
n j
Analiza statistică multidimensională
II. Axele şi variabilele discriminante
Axa 2
x
x Axa 1
x x
x x
x Axa 1
x x
x x x
x
Axa 2
Analiza statistică multidimensională
II. Axele şi variabilele discriminante
• Se presupune Rp înzestrat cu metrica M.
• Se notează cu ‘a’ axa discriminantă şi cu ‘u’ factorul asociat axei discriminante, u=Ma. Xu va fi variabila
discriminantă
• Axa discriminantă este vectorul propriu al matricii M-1V-1BM asociat celei mai mari valori proprii.
• Axei discriminante a i se asociază factorul discriminant u astfel încât u=Ma.
• Factorul discriminant u este vectorul propriu al matricii V-1B asociat valorii proprii 1 : V-1Bu=1 u.
BV −1a = 1a
−1
V Bu = 1u
Analiza statistică multidimensională
II. Axele şi variabilele discriminante
• Observaţie: 011
• 1=1 atunci: a’MBMa=a’MVMa x
x
x x
x g1
În acest caz, în proiecţie pe a dispersiile intraclase sunt nule. Cei k nori sunt fiecare x
x
x x
x x
într-un hiperplan ortogonal pe a. g1
x x
x
Avem discriminare perfectă dacă centrele de greutate se proiectează în puncte
diferite.
x x
Grup 1
• Dacă 1=0 atunci: a’MBMa=0
x
x
x
Grup 2
x x x
x . x
În acest caz cea mai bună axă nu permite separarea centrelor de greutate gi. Este x
x
x x
g1=g2
x
x
x
cazul în care ele sunt confundate. x x x
x x x
g1 g2
• Se defineşte funcţia scor a lui Fisher ca: W-1(g1-g2). g
g1
g2
Analiza statistică multidimensională
V. Metode probabiliste
• Se presupune că există un număr finit de populaţii din care individul poate proveni şi fiecare populaţie este
caracterizată de o probabilitate de distribuţie a măsurătorilor. Individul este considerat ca o observaţie
aleatoare a acestei populaţii.
• Ideea generală pentru construirea unei proceduri de clasificare este de a minimiza probabilitatea de
misclasificare, sau şi mai exact, minimizarea efectelor negative ale misclasificării.
• Boboc C. - Metode statistice de analiză a atributelor necesare ale calităţii, Editura Meteor Press, 2007, pag. 60-66
• Anderson T.W. – An introduction to multivariate statistical analysis, Wiley, New York, 1984
Analiza statistică multidimensională
VI. Estimații practice ale erorii de clasificare
1.Metoda eşantionului test
În acesată metodă se foloseşte toată informaţia eşantionului pentru definirea regulii de afectare a unui nou
individ. Această regulă este apoi testată pe acelaşi eşantion, adică fiecare individ din eşantion este atribuit
unei grupe după regula descrisă anterior.
• Estimarea erorii de clasament astfel obţinută are o deplasare optimistă deoarece regula de afectare este
testată pe indivizii care au contribuit la construcţia sa.
• Regula de afectare este construită pe eşantionul de învăţare E1 şi testată pe eşantionul de testare E2, obţinând astfel eroarea de
clasificare.
O ABORDARE STRUCTURATĂ
PRIVIND ANALIZA MULTIDIMENSIONALĂ
Noiembrie 2021
Titular de curs: Prof.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională
REZUMAT – METODE DE ANALIZĂ MULTIDIMENSIONALĂ
Dependență Tipul relației Interdependență
analizate
Nr.Variabile Relațiile sunt
analizate între:
Mai multe variabile O variabilă
dependente într-o dependentă într-o Variabile Obiecte
singură relație Observații (modalitățile
singură relație numerice
Var. nenumerice)
Scala de măsurare a Scala de măsurare a
var.dependente var.dependente Analiza
Analiza de
Analiza Cluster corespondențe
Factorială (ACP)
simplă/multiplă
Analiza de
ANALIZA
varianță
CANONICĂ
multivariată
Analiza statistică multidimensională
Studiu de caz 1
• Să presupunem că cerem clienților să evalueze un restaurant în funcție de: gustul alimentelor,
temperatura alimentelor, prospețimea, timpul de așteptare, curățenia și prietenia angajaților.
Studiu de caz 2
• Cum ar putea fi diferențiați și identificați inovatorii de non-inovatori în funcție de profilurile lor
demografice și psihologice?
ANALIZA
DISCRIMINANTĂ
Studiu de caz 3
• Să presupunem că proprietarul unui restaurant vrea să știe care sunt motivele pentru care clienții
vin în restaurant. Datele colectate ar putea fi: percepțiile privind prețurile, calitatea alimentelor,
servirea clienților, etc.
• Cum ar putea analistul analiza răspunsurile clienților?
Studiu de caz 4
• Presupunem că preferințele de marcă ale respondenților pot fi încrucișate cu variabilele
demografice (de exemplu, sexul, categoriile de venit, ocupația) indicând numărul de persoane
care preferă în fiecare marcă și în fiecare categorie a variabilelor demografice.
Numărul de doctoranzi
în diferitele discipline se
schimbă în timp.
Astfel la începutul anilor
‘70 predominau
doctoratele în
matematică și inginerie
timp iar la sfîrsitul anilor ‘70
predominau doctoratele
în științele
comportamentale și ale
vieții.
Analiza statistică multidimensională
STUDIU DE CAZ 2 – Satisfacția privind procesul de cumpărare
Sursa datelor: Satisf.spss
Persoanele cu vârsta
între 50-64 ani au o
părere generală negativă
privind magazinele
analizate
Analiza statistică multidimensională
STUDIU DE CAZ 3 – Satisfacția privind procesul de cumpărare
Sursa datelor: Satisf.spss
Determinați corespondentele?
Analiza statistică multidimensională
STUDIU DE CAZ 4
Preţul produselor
agroalimentare
Analiza statistică multidimensională
ANALIZA CANONICA
Y1
1(V ) = V1
Y2
Estimarea factorilor canonici
Primul factor canonic este
obținut prin estimarea ce maximizează corelația
coeficienților combinațiilor dintre U1 și V1
liniare:
l1 l2 lr
Calculul factorilor și al corelațiilor
canonice
U2
V2
Teste de semnificație
◼ Procedură: Se analizează
coeficienții standardizați ai
factorilor canonici
U1 = −.09 X 1 − 0.29 X 2 + 0.48 X 3 + 0.29 X 4
◼ Inferență: variabilele cu
coeficienți (în valoarea U1 este o variabilă a contrastelor dintre X3
absolută) mari sunt cei and X4 pe de o parte, și X2 pe de altă parte
mai importanți
Interpretarea factorilor canonici
Modele de regresie
pentru date de tip panel
Decembrie 2021
Sumar
• Date de tip panel
• Regresia prin metoda celor mai mici pătrate grupată (POLS –
Pooled ordinary least squares)
• Modelul de regresie cu efecte fixe
• Modelul de regresie cu efecte aleatoare
• Testul Hausman
2
Analiza statistică multidimensională
3
Analiza statistică multidimensională
Reprezentarea grafică
24 2014
2013
2012
22 2009 2011
2010
2009 2008
20 2008 2012
2010 2013 2014
2011
18
PIB
2007
16 2007
2014
2009 2012 2013
14 2010 2011
2008
12
2007
10
4 6 8 10 12 14 16 18 20
Rata somajului
Notaţie generală
Numărul Timp Variabila 1 Variabila 2
unităţii Xit Yit
1 1 X11 Y11
1 … X1t Y1t
1 T X1T Y1T
… 1 Xi1 Yi1
… … Xi2 Yi2
… T Xi3 Yi3
N 1 XN1 Y31
N … XNt YNt
N T XN3 YNT
5
Analiza statistică multidimensională
6
Analiza statistică multidimensională
• αi capturează impactul variabilelor neobservate constante în timp pentru un anumit individ, dar care variază
între indivizi: calitatea managementului (firma), sexul (individ), calitatea instituţiilor (ţări)
• μt capturează impactul variabilelor neobservate care afectează în acelaşi fel toţi indivizii într-o anumită perioadă
de timp, însă variază în timp: modificări de politică, rata de schimb, schimbarea valorilor în societate
• εit capturează impactul variabilelor neobservate care variază atât între indivizi cât şi în timp: norocul, starea de
bine, etc
7
Analiza statistică multidimensională
Termenul eroare
uit = i + t + it
8
Analiza statistică multidimensională
Secţiune transversală
• Există o singură observaţie pentru fiecare individ => variaţia
dintre rezultate provine de la variaţia dintre indivizi
• În acest caz nu există deosebire între efectele neobservate
specifice individului şi efectele neobservate specifice individului
şi timpului
9
Analiza statistică multidimensională
uit = i + t + it
• Descompunerea termenului eroare indică faptul că una dintre presupunerile metodei celor
mai mici pătrate nu va fi respectată: "Două observaţii ale aceluiaşi individ vor fi mai
asemănătoare comparativ cu două observaţii provenind de la doi indivizi diferiţi"
Cov ( X i i ) 0
11
Analiza statistică multidimensională
Metoda celor mai mici pătrate grupată
(Pooled ordinary least squares)
12
Analiza statistică multidimensională
Metoda celor mai mici pătrate grupată
(Pooled ordinary least squares)
• Metoda celor mai mici pătrate grupată va furniza estimatori ai parametrilor constanţi fără
diferenţiere între indivizi şi timp
Cov ( X i i ) 0
• Din cauza componentei efectului neobservat specific indivizilor una din ipotezele pe care
se bazează metoda celor mai mici pătrate poate fi nerespectată: .
Presupunerea că fiecare eroare în fiecare perioadă de timp, pentru fiecare persoană este
necorelată cu variabilele şi efectele pentru fiecare persoană şi de-a lungul timpului, poate
să nu fie respectată
• Structura de tip panel are dimensiunea timp, deci corelaţia dintre erori succesive poate să
conducă la violarea ipotezei privind non autocorelarea erorilor
• Estimatorii obţinuţi nu vor fi deplasaţi însă vor fi neeficienţi (informaţia cu privire la
autocorelarea erorilor poate fi folosită pentru obţinerea de estimatori mai buni)
13
Analiza statistică multidimensională
Metode specifice datelor de tip panel
• permit diferenţierea comportamentului între indivizi şi în
perioade diferite de timp sub forma:
• Efectelor fixe: atunci când există corelaţie între X şi i
• Efectelor aleatoare: atunci când corelaţia între X şi i este zero
14
Analiza statistică multidimensională
Model cu efecte fixe
y it = x it + u it şi u it = i + it pentru i = 1,..., N ; t = 1,..., T
( NT 1) ( NT N ) ( N 1) ( NT K ) ( K 1) ( NT 1)
yN 0 0 T
N X N N
DAR:
➔ calcule complexe dacă N este mare
➔ dimensiunea mare a vectorului coeficienţilor poate conduce la estimări
imprecise
➔ pierdere mare a gradelor de libertate
➔ de multe ori nu suntem interesaţiˆde
LSDV toţi parametrii i dacă N este mare!
T
unde y i. = t =1
y it / T etc.
( )
−1
ˆW = X X X y = ˆLSDV
Analiza statistică multidimensională
Model cu efecte fixe
19
Analiza statistică multidimensională
Model cu efecte fixe
Estimarea termenilor liberi individuali:
ˆ i ,W = y i − x i ˆW
Dacă modelul iniţial include o constantă , atunci este estimat efectul
compus i+ (interpretare diferită a lui i ).
Nu este posibilă identificarea efectelor individuale decât în cazul în
care se face o presupunere suplimentară, adică:
i = 0
N
i =1
Estimatorii pentru i :
• nu sunt consistenţi pentru N mare:
➔ numărul parametrilor creşte odată cu creşterea lui N
Analiza statistică multidimensională
Modele de regresie
pentru date de tip panel
Decembrie 2021
2
Analiza statistică multidimensională
Model cu efecte fixe
y it = x it + u it şi u it = i + it pentru i = 1,..., N ; t = 1,..., T
( NT 1) ( NT N ) ( N 1) ( NT K ) ( K 1) ( NT 1)
yN 0 0 T
N X N N
DAR:
➔ calcule complexe dacă N este mare
➔ dimensiunea mare a vectorului coeficienţilor poate conduce la estimări
imprecise
➔ pierdere mare a gradelor de libertate
➔ de multe ori nu suntem interesaţiˆde
LSDV toţi parametrii i dacă N este mare!
T
unde y i. = t =1
y it / T etc.
( )
−1
ˆW = X X X y = ˆLSDV
Analiza statistică multidimensională
Model cu efecte fixe
7
Analiza statistică multidimensională
Model cu efecte fixe
Estimarea termenilor liberi individuali:
ˆ i ,W = y i − x i ˆW
Dacă modelul iniţial include o constantă , atunci este estimat efectul
compus i+ (interpretare diferită a lui i ).
Nu este posibilă identificarea efectelor individuale decât în cazul în
care se face o presupunere suplimentară, adică:
i = 0
N
i =1
Estimatorii pentru i :
• nu sunt consistenţi pentru N mare:
➔ numărul parametrilor creşte odată cu creşterea lui N
Analiza statistică multidimensională
Model cu efecte aleatoare
(*) y it = + x it + u it , i = 1,..., N ; t = 1,..., T şi u it = i + it
Ipotezele privind termenul eroare : zgomot alb (ca în regresia liniară):
- media zero a erorilor
- dispersia erorilor constantă
- non-autocorelarea erorilor
( )
E xit i = 0 Model
randomcu efecte
effects aleatoare
model
Analiza statistică multidimensională
Model cu efecte aleatoare
Cum poate fi implementat estimatorul modelului cu efecte aleatoare?
Estimator RE
y it − y i = (1 − ) + ( x it − x i ) + (u it − ui ),
i = 1,..., N ; t = 1,..., T
unde
= 1−
2 + T 2
Estimatorul BE:
➔este consistent
➔este eficient dacă modelul pentru componentele erorilor este adevărat
Analiza statistică multidimensională
Model cu efecte aleatoare
Estimator BE :
y it = + x it + i + it i = 1,..., N ; t = 1,..., T
Putem scrie:
y i = + x i. + i + i. i = 1,..., N (Transformarea dintre perioadele
de timp)
Se calculează estimatorul prin metoda celor mai mici pătrate pentru acest
model transformat, numit Estimator BE (Between Estimator)
Estimatorul BE:
• Este consistent, dacă efectele individuale şi X sunt necorelate
• Nu este eficient (ţine cont doar de variaţia dintre indivizi)
Analiza statistică multidimensională
Cazuri speciale: 2
= (1 − )
2
2 = 0 = 1 OLS =
T 2 + 2
T → → 0 Within estimator
2 = 0 = 0 Within estimator
→ Between estimator
13
Analiza statistică multidimensională
Aplicarea modelului RE
• Modelul clasic de regresie liniară:
Var ( yˆ ) Var ( y ) − Var (uˆ ) yˆ yˆ uˆuˆ
y = X + u = X ˆ + uˆ = yˆ + uˆ R 2 = corr ( yˆ , y )2 = = = = 1−
Var ( y ) Var ( y ) yy yy
• Alte modele:
FE: R = corr ( xit − xi ) ˆW , ( yit − yi )
2
2
W R2 din modelul Within
R = corr x ˆ , y
2
2
BE i W i Potrivirea modelului Between cu estimatori FE
R = corr x ˆ , y
2
2
O it W it Potrivirea generală a modelului cu estimatori FE
R = corr x ˆ , y
2
2
BE i BE i R2 din modelul Between
R = corr x ˆ , y
2
2
O it BE it Potrivirea generală a modelului cu estimatori BE
RE: R = corr ( x − x ) ˆ
, ( yit − yi )
2
2
W it i BE Potrivirea modelului Within cu estimatori RE
R = corr x ˆ , y
2
2
BE i BE i Potrivirea modelului Between cu estimatori RE
R = corr x ˆ , y
2
2
O it BE it Potrivirea generală a modelului cu estimatori RE
Analiza statistică multidimensională
Testarea pentru efecte fixe individuale
Există efecte fixe individuale?
➔ Testul F
FT =
( RSS0 − RSS1 ) / ( N − 1)
RSS1 / ( NT − N − K )
• Regula de decizie:
Se respinge ipoteza nulă (şi deci modelul grupat) dacă FT este mai mare
decât valoarea critică (adică dacă p-value < un nivel de semnificaţie dat , în
general 0.05). 16
Analiza statistică multidimensională
Testarea pentru efecte aleatoare
Există efecte aleatoare?
➔ Testul Multiplicatorului Lagrange Breusch-Pagan
NT uˆ ( I N JT ) uˆ
2 (1)
a
LM = 1 − subunder
ipotezaH
H00 este U sunt rezidual-urile
2*(T − 1) uˆuˆ din modelul grupat
• Regula de decizie:
Se respinge ipoteza nulă (adică a efectelor aleatoare), dacă LM este mai mare
decât valoarea critică (sau dacă p-value < o valoare dată a nivelului de
semnificaţie , în general 0.05).
Analiza statistică multidimensională
Testarea pentru efecte aleatoare versus efecte fixe
Dacă se respinge modelul grupat: Se foloseşte modelul cu efecte fixe sau aleatoare?
➔ Testul Hausman-Wu
➔ Se testează dacă efectele individuale aleatoare sunt corelate cu variabilele
explicative (FE) sau nu (RE)
( )
• H0: E xit i = 0 no există corelaţie: FE consistent Estimatorii FE şi RE
RE consistent şi eficient sunt similari
( )
• H1: E xit i 0 corelatie: FE consistent Estimatorii FE şi RE
sunt diferiţi
RE inconsistent
Analiza statistică multidimensională
Testarea pentru efecte aleatoare versus efecte fixe
Testul statistic:
( ) ( )
sub
a ipoteza H0 este χ2k unde k este
HW = ˆRE − ˆFE ( RE − FE ) ˆRE − ˆFE ( Kde=coloane of Xcolumns in X )
−1 2
numărul number în
• Regula de decizie:
Se respinge ipoteza nulă dacă HW este mai mare decât valoarea critică (sau
dacă p-value < o valoare dată a nivelului de semnificaţie , în general 0.05).
Analiza statistică multidimensională
SAS –
H1:există ef. aleatoare
și șomaj și PIB pe locuitor, Sign˂0,05 →
observații pentru 11 țări se respinge H0 deci există ef. aleatoare.
Fixed și 8 ani
Calitatea modelului
cu un niv.de semnif. de 0,05 dar nu și de 0.01
Test Hausmann
Ipotezele testate:
H0: FE consistent; RE consistent şi eficient
H1: FE consistent; RE inconsistent
Sign˂0,05 →
se respinge H0 deci este
recomandat a se utiliza modelul cu efecte fixe
Parametrii sunt
semnificativi cu un niv de
semnif. de cel putin 0,01
Parametrii nu sunt
semnificativi
Repartiția rezidualurilor
nu este normală