Sunteți pe pagina 1din 134

Statistică în cercetare

22.01.2016
Prof. univ. dr. Liliana Duguleană
ldugul@unitbv.ro
ldugul@gmail.com
Topici ale cursului
Statistică în cercetare
Curs 1 din 4.12.2015 – STATISTICĂ DESCRIPTIVĂ ȘI INFERENȚIALĂ
⁻ Cercetarea statistică
⁻ Concepte bază, gruparea datelor, serii statistice, tabele, grafice
⁻ Rezumatul statistic
⁻ Sondajul statistic
⁻ Teste statistice

Curs 2 din 11.12.2015 – DINAMICA FENOMENELOR ȘI CORELAȚII


⁻ Serii cronologice (de timp, dinamice)
⁻ Indicatori nominali și indicatori reali
⁻ Analiza legăturilor între fenomene (analiza corelațiilor)
⁻ Analize mixte – serii cronologice și teritoriale

Curs 3 din 22.01.2016 – METODE DE ANALIZĂ MULTIVARIATĂ


⁻ Analiza în Componente Principale (ACP)
⁻ Analiza tipologică – Analiza cluster (clasificarea)
⁻ Metoda segmentării
⁻ Comparaţie între tipologie şi segmentare
⁻ Metoda regresiei multiple
Analizele multivariate
După obiectivele analizate

Reducere, simplificare, sinteză Explicare, identificare

Metode descriptive Metode explicative


Toate variabilele sunt analizate Variabilele sunt separate în două grupe:
împreună. variabile de explicat şi explicative.

Natura variabilelor Natura variabilelor de explicat

Nominale Ordinale Metrice Nominale Ordinale Metrice

Analiza Analiza Analiza în Analiza Analiza mă- Analiza de


corespon- similarită- componente discrimi- rimilor regresie
denţelor ţilor principale nantă corelate multiplă
-conjoint
Data Mining
• Obiectivul = descoperirea unor relații între date, identificarea unor
structuri ascunse, a unui tipar (“pattern”)
• Algoritmi de căutare în baze mari de date – analize multivariate
• Ex:
– analiza vânzărilor de produse “fără legatură”, vândute
împreună.
– detectarea tranzactiilor frauduloase cu carti de credit,
– scaderea performanțelor într-o rețea,
– identificarea datelor anormale (erori de introducere a datelor)
etc.
Metodele descriptive –
metodele factoriale de analiză
multivariată

- Analiza în componente principale


- Analiza cluster (clasificarea)
- Segmentarea
ANALIZA ÎN COMPONENTE PRINCIPALE

• simplificarea unui tabel de date brute, trecând


de la un număr mare de variabile, la un număr
mai mic de noi variabile sintetice, obţinute prin
gruparea variabilelor iniţiale;
• structurarea şi interpretarea datelor, cu ajutorul
noilor variabile - componente "ascunse" - care
simplifică interpretarea datelor puţin lizibile,
prima dată.
Caracteristicile autocamioanelor ROMAN
Tip Am Lun Lat Sup Îne Înîn Vol Gre Sar Viteza Cap Mot Rez E
7110 F 3 6,4 2,3 9,4 2,6 2,6 6,2 7,1 2,99 107 3920 110 140 0
7115 F 3 6,4 2,3 9,4 2,6 2,6 6,2 7,1 2,99 96 3920 115 140 2
7120 F 3 6,4 2,3 9,6 2,6 2,6 6,5 7,1 2,97 113 5491 120 140 0
8140 FA 3,6 7,2 2,4 10,6 2,8 2,7 8,5 8,5 2,2 82 6595 140 220 0
12133FA 3,5 6,4 2,5 10,5 3,0 3 8,4 12,1 6,52 83 5491 133 140 0
12133 F 3,5 6,7 2,5 10,7 2,9 2,8 8,6 12,1 6,95 83 5491 133 140 0
13133 F 4 7,5 2,5 13,0 2,9 2,1 11,0 13 7,05 86 5491 133 140 0
13215 FAEG 3,8 7,6 2,5 10,3 2,8 2,8 8,4 13,5 5 97 10344 215 220 0
15215 DFAEG 4,4 7,9 2,5 10,4 2,9 2,8 9,6 15,6 5 84 10344 215 600 0
15230 DFAEM 3,1 7,9 2,5 10,4 2,9 2,8 9,6 15,6 5,2 84 6600 230 600 1
16230 FA 4,5 8,8 2,5 13,4 2,8 2,7 , 15,5 6,76 88 10344 233 220 0
16250 FL 5,2 9,1 2,5 , 2,9 , , 16 9,34 114 7640 250 415 2
19265 FS 3,5 5,9 2,5 14,6 3,0 3 , 19 7,3 105 10344 265 220 0
19300 FLS 3,5 5,8 2,5 , 3,0 2,9 , 19 7,4 116 8700 300 415 2
21320 VFAEG 3,1 9,2 2,5 10,2 2,8 2,8 10,2 20,8 7,3 80 9726 320 840 1
21410 VFAEG 3 9,1 2,5 10,2 2,9 2,9 10,2 20,5 7 95 11910 408 840 2
26265 DF 5,2 9,8 2,5 17,0 2,9 2,9 13,6 26 17,2 100 10344 265 220 0
26265 DFS 3,5 6,4 2,5 , 2,9 2,9 , 26 17 100 10344 265 220 0
26300 DFK 4,2 6,6 2,5 , 3,4 , , 26 13,6 75 8700 300 300 2
26360 DF 4,5 9 2,5 , 3,1 3,0 , 26 16,5 85 9726 360 420 2
26425 DFS 4,6 6,8 2,5 , 3,2 3,1 , 26,5 14 107 14600 425 775 1
33320 DFA 4,5 9,2 2,5 , 2,8 2,7 , 33 21,5 94 9726 320 300 1
Simplificarea variabilelor
• Se trece de la un ansamblu de k variabile la un ansamblu de p noi
variabile, cu următoarele trei caracteristici fundamentale:
– p este mult mai mic decât k;
– cele p noi variabile sunt combinări liniare a celor k variabile
iniţiale şi contribuie fiecare cu o parte descrescătoare la
explicarea varianţei datelor. Ele se numesc componente
principale şi fiecare componentă Pi este de următoarea formă:
Pi = a1V1 + a2V2 + a3V3 + ... + akVk ,
unde a1, a2, a3, ..., ak sunt coeficienţi de ponderare a
variabilelor iniţiale; aceşti coeficienţi sunt calculaţi pentru a
restitui maxim de varianţă conţinută în tabelul de date iniţiale,
iar V1, V2, V3, ..., Vk sunt variabilele de plecare (în principiu
centrate şi reduse)
– cele p componente principale sunt independente între ele
(necorelate).
Identificarea componentelor
• Se ţine seama de clasificările variabilelor:
– după natura lor:
– variabile cantitative
– variabile calitative

– după funcţia lor în analiză:


– variabile active
– variabile ilustrative (pasive).

• Variabilele active participă la determinarea spaţiului


factorial. Variabilele active trebuie să fie de aceeaşi
natură, ceea ce condiţionează metodele de analiză:
– analiza componentelor principale, pentru variabilele
cantitative,
– analiza corespondenţelor, pentru variabilele calitative.
Identificarea componentelor
• un ansamblu de variabile numerice sub forma unui tabel
de n indivizi şi p variabile cantitative active, presupune că
fiecare individ "i" se consideră ca un punct ei al unui
spaţiu cu p dimensiuni de coordonate xi1, xi2, …, xip. Acest
spaţiu al indivizilor se notează cu E.

• Variabilele sunt exprimate în unităţi de măsură diferite şi


nu se poate calcula în mod direct distanţa dintre indivizi.
Inconvenientul unităţilor de măsură se elimină prin
exprimarea variabilelor în abateri normale normate
(standardizate), prin centrarea faţă de medie şi
reducerea prin abaterile lor standard.
Identificarea componentelor
• Dacă sj este abaterea standard a variabilei j,
pătratul distanţei dintre indivizii i şi i este:
1 2 3…j…p
p ( xij  xij ) 2

d (i, i )  
2
1
j 1 sj 2
• Corelaţiile dintre variabile, exprimate în …
matricea simetrică R, a coeficienţilor de i xij
corelaţie, vor determina proiecţiile pe axele …
factoriale. n
• Variabilele sunt vectori de câte n valori şi se
pot considera ca vectori ai unui spaţiu n  1 r12 ... r1 p 
dimensional, notat F. Lungimea unui vector r 1 ... r2 p 
în acest spaţiu se defineşte prin: R  21 
n
 ... ... ... ... 
x 2
 
rn1 rn 2 ... 1 
i
X  i 1

n
Identificarea componentelor
• Variabilele sunt centrate şi reduse, lungimile lor sunt egale cu 1; extremităţile
lor sunt situate pe o sferă de rază 1 a spaţiului F. Cosinusul unghiului format de
două variabile, în acest spaţiu, este egal cu r.
• Observaţiile se prezintă sub forma a doi nori de puncte:
– norul celor "n" indivizi în spaţiul E
– norul celor "p" variabile în spaţiul F.
• Studiul formei norului de indivizi permite diferenţierea acestora în grupe de
indivizi, după răspunsurile lor la ansamblul de variabile active.
• Forma norului de variabile descrie ansamblul corelaţiilor dintre ele. Utilizarea a
mai mult de trei dimensiuni îngreunează înţelegerea spaţiilor.
• Reprezentarea variabilelor este mai bogată în informaţie şi mai complexă.
– Pentru un individ se asociază un singur obiect matematic, un punct din E.
– O variabilă este mai întâi o listă de n valori - un vector din F, dar este de asemenea o
axă (direcţie) a spaţiului indivizilor, pe care aceştia se proiectează.
– Coordonatele indivizilor pe această axă sunt valorile variabilei.
• Proiecţiile celor n indivizi ei, pe o axă oarecare  a spaţiului E, constituie o nouă
variabilă, care este o combinaţie liniară a celor p variabile iniţiale. Ansamblul
celor p coeficienţi care descriu noua variabilă, se numeşte factorul asociat
variabilei.
Analiza componentelor principale (ACP)
Trei moduri de prezentare, în funcţie de contribuţiile în timp la dezvoltarea ei:
• K. Pearson (1901) a considerat inerţia ca fiind criteriul de identificare a
componentelor principale.
Inerţia totală este suma varianţelor celor p variabile. În cazul datelor centrate şi
reduse, inerţia totală este egală cu p. Se proiectează norul de puncte al indivizilor
pe un subspaţiu de dimensiune fixă, trecând prin origine (punctul mediu, centrul
de greutate, ale cărui coordonate sunt mediile fiecărei variabile). Subspaţiile
optimale verifică proprietatea imbricării: subspaţiul optimal de dimensiune k
conţine subspaţiul optimal de dimensiune k-1 etc., ceea ce permite căutarea unei
suite de axe ortogonale numite axe principale ale norului de puncte.
• Căutarea variabilor care maximizează criteriile de dipersie sau de corelaţie.
Harold Hoteling - căutarea combinaţiilor liniare de varianţă maximă a celor p
variabile iniţiale. Suma pătratelor coeficienţilor acestor combinaţii liniare este 1.
Vectorii care cuprind cei p coeficienţi ai combinaţiilor liniare, sunt factorii
principali, sunt vectorii proprii ai matricei de corelaţie R, (descrescător după
valorile lor proprii). Aceste combinaţii se numesc componente principale. Suma
primelor k valori proprii este egală cu inerţia norului proiectat pe subspaţiul de
dimensiune k.
• De la p variabile cantitative, se caută noi variabile notate ck , necorelate între ele,
cât mai corelate cu cele p variabile iniţiale în sensul că:
max j
rc2k ,x j .
ANALIZA ÎN COMPONENTE PRINCIPALE (ACP) - etape
Indiferent de prezentarea utilizată, ACP este o metodă factorială prin care se
construiesc noi variabile, ca fiind combinaţii liniare ale celor p variabile
iniţiale, necorelate între ele şi de varianţă maximă.
Etapele analizei sunt:
1. identificarea observaţiilor "aberante" (indivizi cu valori extreme, care
afectează valoarea medie; nonrăspunsurile);
2. centrarea şi reducerea observaţiilor iniţiale - necesară datorită eterogenităţii
unităţilor de măsură;
3. calculul unei matrici de corelaţii între variabilele iniţiale;
4. calculul combinaţiilor liniare - rezultatul este un tabel cu varianţele fiecărei
componente principale şi gradul de determinaţie al fiecăreia;
5. alegerea componentelor principale - două criterii, curent utilizate:
• se reţin acele componente care au valoarea proprie > 1, (criteriul lui
Kaiser), pentru că aduc mai multe informaţii decât variabilele iniţiale
(centrate şi reduse);
• graficul-test, care reprezintă varianţele componentelor principale; se
aleg acele componente ale căror puncte corespunzătoare nu se
situează pe o dreaptă cu care se pot uni celelalte. Numărul
componentelor de reţinut poate fi diferit faţă de cel ales prin criteriul
anterior, dar acest ultim criteriu se consideră mai eficient.
ACP - structurarea şi interpretarea
6. interpretarea componentelor principale - este facilitată de graficul cercul
corelaţiilor (care este proiecţia sferei unitate F, pe un plan delimitat de c1 şi c2 -
două componente principale în spaţiul F), ale căror coordonate reprezintă
coeficienţii de corelaţie ai variabilelor iniţiale cu componentele considerate două
câte două, rck ,x j .
7. vizualizarea indivizilor pe componentele principale, graficul indivizilor; se
reprezintă coordonatele indivizilor; se vizualizează astfel poziţia fiecăruia faţă de
componentele alese.

componenta 2
puternic
   

slab     puternic
   componenta 1
  

slab

Vizualizarea indivizilor faţă de componentele principale


Autocamioanele comerciale
• pot fi clasificate, după masa totală, în:
- tonaj mai mic de 3,5 tone,
- între 3,5 - 6 tone,
- 6 - 10 tone,
- 10 - 14 tone,
- 14 - 19 tone,
- 19 - 26 tone şi
- mai mare de 26 tone.
• se observă inexistenţa producţiei de autocamioane din clasele 3,5
- 6 tone şi mai mici de 3,5 tone.
• ACP presupune folosirea în prealabil a procedurii Replacing
missing Values… pentru a completa datele care lipsesc din tabel;
automat se creează alte variabile pentru cele declarate cu valori
lipsă. Aceste noi variabile, împreună cu celelalte se declară în lista
variabilelor pentru ACP.
Valorile proprii - depistează patru factori
Scree Plot
7

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14

Com ponent Number

rezultatele furnizate de produsul SPSS


Stabilirea componentelor
Total Variance Explained rezultatele furnizate de produsul SPSS
Initial Extraction Sums of Squared Rotation Sums of Squared
Eigenvalues Loadings Loadings
Compo Total % of Cumulative % Total % of Cumulative % Total % of Cumulative %
nent Variance Variance Variance
1 6,197 44,264 44,264 6,197 44,264 44,264 4,294 30,670 30,670
2 2,175 15,535 59,799 2,175 15,535 59,799 4,078 29,129 59,799
3 1,390 9,930 69,729
4 1,224 8,739 78,468
… … … …
Component
1 2 Prima componentă este a performanţelor
AMP ,132 ,763 tehnice reuneşte efectele caracteristicilor:
LUNGIME ,242 ,536 capacitatea motorului (0,92), mărimea
LATIME ,477 ,662 rezervorului (0,80), capacitatea cilindrică (0,72) şi
INALT_NE ,582 ,385 într-o măsură mai slabă greutatea totală (0,68),
GREUTATE ,682 ,601 înălţimea încărcăturii (0,68) şi îndeplinirea
INCARCATURA ,450 ,648
normelor Euro (0,66).
VITEZA ,037 -,170
Componenta a doua a performanţelor
MOTOR ,922 ,309
REZERVOR ,805 -,535 (utilităţii) economice cuprinde caracteristicile:
EURO ,669 -,234 suprafaţa de încărcare a platformei (0,86),
SMEAN(SUPRAFAT) -,115 ,863 volumul de încărcare al acesteia (0,83) şi
SMEAN(VOLUM_PL) ,197 ,834 ampatamentul (0,76) şi într-o măsură mai mică
SMEAN(CAP_CIL) ,720 ,460 lăţimea (0,66) şi sarcina utilă (0,64).
SMEAN(INALT_IN) ,684 ,090
Graficul corelaţiilor - analiza 1
Component Plot in Rotated Space
1,0
suprafat volum_pl
amp
latime
incarcat
greutate
lungime
,5 cap_cil
inalt_ne
motor

inalt_in

0,0 rezervor
viteza
euro
Component 2

-,5

-1,0
-1,0 -,5 0,0 ,5 1,0

Component 1
Graficul indivizilor faţă de componentele principale - analiza 1
3 26265

2
REGR factor score 2 for analysis 1

13133
16230 33320
1
19256_S 26360
26265_S
15215 16250 26300
26425_S
12133
0 12133_A13215 21320
8140 15230
19300_S 21410

-1
7120
7110
7115
-2
-2 -1 0 1 2

REGR factor score 1 for analysis 1


Concluziile – analiza 1
• Tipurile de tonaj < 10 tone, în special cele de 7 tone,
pentru care există cerere din partea IMM, sunt
necorespunzătoare, iar pentru cele de tonaj mare, cererea
este scăzută, în condiţiile economiei actuale.
• Adăugând în analiză variabila preţ, şi considerând tot
primii doi factori, procentul de varianţă explicată este
acelaşi, de 60%, preţul fiind slab corelat cu cele două
componente.
• Influenţa preţului constă în schimbarea ordinii
componentelor:
– componenta a 2-a, a dimensiunilor de încărcare, devine prima,
pentru că preţul influenţează criteriul utilităţii economice, iar
prima componentă, devine a doua.
Rezultate ale SPSS pentru analiza a 2-a
Component
1 2
Adăugând în analiză variabila
PRET ,624 ,485 preţ, şi considerând tot primii doi
AMP ,776 ,119 factori, procentul de varianţă
LUNG ,547 ,228 explicată este acelaşi, de 60%,
LAT ,675 ,463 preţul fiind slab corelat cu cele două
GREUT ,624 ,671 componente.
SARCINA ,661 ,436 Influenţa preţului constă în
VITEZA -,184 ,037
schimbarea ordinii componentelor:
CAP ,478 ,711
- componenta a 2-a, a dimensiunilor
MOTOR ,327 ,913
REZ -,031 ,806
de încărcare, devine prima, pentru
EURO -,221 ,672 că preţul influenţează criteriul utilităţii
SMEAN(SUPRAF) ,837 -,142 economice,
SMEAN(INALT_NE) ,384 ,569 - iar prima componentă, devine a
SMEAN(VOLUM) ,826 ,172 doua.
SMEAN(INALT_IN) ,085 ,675
Graficul corelaţiilor - analiza a 2-a
Component Plot in Rotated
1,0 Space motor
rez
inalt_in cap
euro greut
inalt_ne
pretlat
,5 sarcina

lung
volum
amp
viteza
0,0
supraf
Component 2

-,5

-1,0
-1,0 -,5 0,0 ,5 1,0

Component 1
Graficul indivizilor - analiza a 2-a
2 21410 26425_S

26360
REGR factor score 2 for analysis 2

21320
19300_S 26300
1
33320
15230 16256
26265_S
15215
0 19256_S
13215
12133_A
7115 16230 26265
12133
8140
-1 7120
7110

13133
-2
-2 -1 0 1 2 3

REGR factor score 1 for analysis 2


Concluzii
• Efectuarea unui studiu de conjunctură:
– Analiza înmatriculărilor de autovehicule noi produse de S.C. ROMAN S.A.
și a înmatriculărilor de importuri noi şi vechi, pentru perioada 1992-1997
a condus la concluzia scăderii continue și accentuate a vânzărilor.
– Analiza parcului existent pe două grupe mari de tonaje, sub 6 tone şi
peste 6 tone greutate totală, arată tendinţa clară de creştere a primei
grupe şi de scădere a celei de a doua, peste 6 tone.
• Dezvoltarea IMM, restructurarea întreprinderilor mari,
nerentabile, întreaga situaţie economică de tranziţie, orientează
componenţa parcului de autovehicule utilitare spre tonajele
mici.
• Toată gama de fabricaţie ROMAN era peste 6 tone;
– se impunea introducere unui produs nou de tonaj mic
– găsirea unor parteneri străini, care să investească în retehnologizarea S.C.
ROMAN S.A.
Un exemplu – nereusit!
• A se vedea fisierul an1.pdf
Graficul de tip stea – caracterizarea multidimensională
a unui individ
Importance of Rural Areas and the Regional Profiles of EU Member States, Bulletin
of Transilvania University of Brasov, vol. 8 (57) No.2 – 2015, Series V - Economic
Sciences, p. 415-424, http://webbut.unitbv.ro/Bulletin/Series%20V/BILETIN%20I/49_Polgar-Duguleana.pdf

• La nivelul NUTS3 se aplică tipologia urban/rural, pe baza


ponderii populației care trăiește în spațiul rural și în
aglomerările urbane.
– Regiuni rurale - cu cel puțin 50% din populație în mediul rural;
– Regiuni intermediare - cu cel puțin 50% din populație în zonele urbane;
– Regiuni urbane – cu cel puțin 80% din populație trăind în zonele
urbane.
• Romania are:
– 42 unități teritoriale NUTS3: 41 județe și București.
– La nivel NUTS2 are 8 regiuni administrative, grupate în
– 4 macro-regiuni la nivel NUTS 1.
• tipologia urban/rural - NUTS3:
– 25 județe predominant rurale, 15 județe – reguni intermediate și 2
regiuni predominant urbane.
Rotated Component Matrixa
Valorile proprii
Component
1 2
urban_empl ,941 -,316
urban_pop ,919 -,373
urban_GVA ,918 -,153
interm_empl -,907 -,413
interm_pop -,903 -,423
interm_GVA -,865 -,379
urban_reg ,736 -,521
interm_reg -,732 -,634
rural_empl -,027 ,992
rural_pop -,037 ,989
rural_GVA -,052 ,965
rural_ter ,105 ,962

Extraction Method: Principal Component Analysis.


Rotation Method: Varimax with Kaiser Normalization.a
a. Rotation converged in 3 iterations.

Total Variance Explained


Component Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %
1 6,197 51,644 51,644 6,197 51,644 51,644 6,053 50,444 50,444
2 5,106 42,548 94,192 5,106 42,548 94,192 5,250 43,747 94,192
3 ,313 2,610 96,802
4 ,244 2,037 98,838
5 ,094 ,783 99,621
6 ......
Extraction Method: Principal Component Analysis.
Cercul corelațiilor cu principalele
componente:
Total Variance Explained
Component Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative
1 5,155 51,551 51,551 5,155 51,551 51,551 5,030 50,301 50,301
2 4,446 44,465 96,016 4,446 44,465 96,016 4,572 45,716 96,016
3 ,247 2,468 98,484
4 ,099 ,988 99,473
5 ,034 ,339 99,812
6 ,014 ,139 99,951
7 ,003 ,035 99,986
8 ,001 ,014 100,000
9 2,237E-6 2,237E-5 100,000
10 6,650E-7 6,650E-6 100,000
Extraction Method: Principal Component Analysis.
Pozițiile țărilor UE după profilul lor regional
în 2010
Exemplu de utilizare a analizelor
multivariate descriptive și explicative

Analiza și previziunea climatului social European


http://webbut.unitbv.ro/Bulletin/Series%20V/BULETIN%20I%20PDF/24_Duguleana_L.pdf
Structura lucrării
• Percepții ale populației Europene privind climatul
social, în perioada 2009-2013
• Abordarea multidimensională a climatului social în
Uniunea Europeană, în 2012
• Caracterizarea climatului social European, in 2013
• Modelarea econometrică a indexului general al
climatului social in Uniunea Europeană
• Previziunea climatului social în Uniunea Europeană
în 2014 și următorii cinci ani
• Concluzii
Percepții ale populației UE privind climatul social,
în perioada 2009-2013
Eurobarometer : 2009-2013, Question 1: Satisfaction Question 2: Judgement
15 aspecte în 3 direcții: with the life you lead of current situation in
14 areas
– Viața personală,
– Situația națională, Very satisfied 10 Very good 10

– Protecția socială și
Fairly satisfied 3,33 Rather good 3,33
incluziunea.
Not very
SCI – pentru fiecare țară, satisfied -3,33 Rather bad -3,33
pentru EU27 până în 2012, Not at all
pentru EU28 în 2013. satisfied -10 Very bad -10
Not Not
Don't know scored Don't know scored

Scales for the Eurobarometers’ questionnaire


Evoluția indicelui general al climatului social în
țările UE, în perioada 2009-2013

Evolution of Overall Social Climate Index for EU 27


countries, during 2009-2013
2009 2010 2011 2012 2013
0
-0,1
-0,2
-0,3
-0,4
-0,5
-0,6
-0,7 -0,6
-0,8 -0,7 -0,7
-0,9 -0,8
-1 -0,9
Evolution of some aspects of Overall Social Climate Index
for EU 27 countries, during 2009-2013
2009 2010 2011 2012 2013
4
3
2
1
0
-1
-2
-3
-4
-5
overall your life in general
personal job situation financial situation of household
cost of living in their country economic situation in their country
employment in their country administration in their country
Abordarea multidimensională a climatului social
în UE, în 2012
• Human Development Index (HDI),
• GDP per capita ($2011 PPP) (GDP_c),
• education index (ed_idx),
• health index (hlth_idx),
• unemployment rate (%) (unempl),
• Harmonized Consumer Price Index (2005=100%) (HCPI),
• people at risk of poverty or social exclusion (% of total
population) (pov_risk),
• Gini coefficient (Gini),
• people living in households with very low work intensity (% of
total population) (low_work),
• total employment rate (%) (empl_rate),
• severely materially deprived people (% of total population)
(sev_deprive),
• early leavers from education (%) (leave_ed).
(1) Principal Component Analysis (PCA) , R2  69%
(2) Principal Component Analysis (PCA), R2 87%
(3) PCA, R2 89%
1st component = socio-economic human development (53%)
2nd component = labour (employment vs. unemployment) (36%)
Caracterizarea climatului social European, in 2013
1st component = socio-economic human development (53%)
2nd component = labour (employment vs. unemployment) (37%) R2 90%

Rotated Component Matrixa


Component
1 2
HDI ,874 ,349
hlth_idx ,956 ,006
unempl -,012 -,919
HCPI -,955 -,093
empl_rate ,242 ,899
Extraction Method: Principal
Component Analysis.
Rotation Method: Varimax with
Kaiser Normalization.

a. Rotation converged in 3 iterations.


Modelarea econometrică a indexului general
al climatului social in Uniunea Europeană
• Percepțiile popoarelor din UE în 2012, exprimate prin indexul general al climatului
social (Overall Social Climate Index - OSCI) – y și factorii de influență în 2012:
– HDI (x1),
– unemployment rate (x2),
– HCPI (2005=100%) (x3),
– people at risk of poverty or social exclusion (%) (x4),
– Gini coefficient (x5),
– people living in households with very low work intensity (%) (x6),
– total employment rate (%) (x7),
– early leavers from education (%) (x8),
– Corruption Perception Index (CPI) (x9).
• CPI, din 2002, o valoare între 0 și 10. Din 2012 metodologia a fost schimbată și CPI se calculează pe o
scală de la 0 – 100; o valoare mai mare însemnând o percpție mai bună a populației pentru un nivel mai
redus al corupției.
Modelul econometric pentru OSCI
în 2012

(t Student ratio)(-4.19) (-3.84) (6.68)


R2 = 81.54%
x2 = unemployment rate in 2012
x9 = CPI in 2012
Modelul econometric pentru OSCI, în 2013
• Variabila y - OSCI în 2013 și variabilele independente în 2013:
– HDI (x1),
– education index (x2),
– health index (x3),
– unemployment rate (%) (x4),
– HCPI (2005 = 100%) (x5),
– total employment rate (%) (x6),
– coefficient of human inequality (x7),
– income inequality (income quintile share ratio) (%) (x8),
– CPI (x9).

(t Student ratio) (-4.59) (-4.62) (7.30)


R2=85.42%
Se observă că:
• Deși variabiele exogene diferă, modelele econometrice pentru fiecare an, au avut
aceleași variabile semnificative care au influențat OSCI: rata șomajului și CPI.
• Nu există diferențe semnificative între cele două modele.
• Semnul negativ al coeficientului ratei șomajului arată că la creșterea cu 1%, OSCI
scade în medie cu 0.17 puncte. Semnul pozitiv al coeficientului variabilei CPI,
arată că la creșterea sa cu fiecare punct, OSCI crește în medie cu 0.1 puncte.
Semnul negativ al intercept-ului arată nivelul mediu al actualelor percepții
negative ale OSCI, fără considerarea influenței celor două variabile menționate și
considerate: rata șomajului și CPI.
• Valorile calculate (ajustate) ale OSCI la nivelul UE au fost obținute folosind rata
șomajului de 10.4% în 2012 și 10.8% în 2013 și valoarea medie a indicilor CPI ale
UE pentru cele 27 de țări în 2012 și 28 de țări în 2013.

Anii Modelele econometrice Valori OSCI


ajustate,
2012 -0.780 -0.8

2013 -0.866 -0.9


Previziunea climatului social în UE în 2014 și
pentru următorii cinci ani

• CPI va fi păstrat la același nivel, din 2013


• Previziunea ratei șomajului în funcție de:
– Investiții în sectoarele instituționale, ca % în PIB:
• Formarea brută de capital fix (GFCF) ca % în PIB, pentru
guvern și
• pentru afaceri
• pentru zona Euro (17 țări)
S-a dovedit a fi semnificativă pentru explicarea variației ratelor
șomajului în UE, în perioada 2000-2012.
Scenariul pesimist: , R2 = 78.4%
Scenariul optimist : media % în PIB pentru Inv. Guv. între 2000-2007

Adjusting and forecasting Government investments


3
in EU Euro area
2,8
2,6
2,4
(% of GDP)

2,2
2
1,8
1,6
1,4
1,2
1
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018

Gov inv pess.G.inv opt.G.inv Years


Scenariul pesimist : , R2 =91.5%
Scenariul optimist : media % în PIB - inv. Business între 2000-2008

Adjusting and forecasting business investments, in EU Euro Area


13

12

11
(% of GDP)

10

6
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
Buss inv pess.B.inv opt.B.inv Years
Scenariul pesimist și optimist al previziunilor ratei
șomajului în EU, R2 =94.6%

Adjusting and forecasting the unemployment rate in EU


16

14

12

10
(%)

0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
unempl_rate pess.unemp opt.unemp Years
Cele două scenarii ale OSCI pe termen scurt și mediu

Anii Rata șomajului (%) CPI

Optimistă Pesimistă Optimist Pesimist


2012 10.3 10.3 63.67 -0.8 -0.8

2013 10.34 10.8 63.71 -0.8 -0.9

2014 10.33 13.8 63.71 -0.8 -1.4

2015 10.33 16.4 63.71 -0.8 -1.8

2016 10.32 19.6 63.71 -0.8 -2.4

2017 10.31 23.5 63.71 -0.8 -3.1

2018 10.31 28.2 63.71 -0.8 -3.9


OSCI în 2012 și 2013, au validat deja
scenariul pesimist!

Forecasting the evolution of Overall Social Climate


Index in European Union
2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
0

-1 -0,7 -0,7 -0,6 -0,8 -0,9 -0,8 -0,8 -0,8 -0,8 -0,8
-2 -1,4
-1,8
-3 -2,4
-3,1
-4
-3,9
-5
opt. SCI pess. SCI
Concluzii (1)
• Comportamentul uman se schimbă încet - SCI în țările
UE, în perioada 2009-2013. Valorile extreme ale SCI au
fost între -0.6 în 2011 și -0.9 în 2013, arătând mai
degrabă o percepție negativă (“rather bad”) a situației
curente în țările lor și nu foarte satisfăcuți (rather ”not
very satisfied”) cu situația personală.
• Situația națională este în general mai slab evaluată,
decât situația personală.
• Analiza poziției țărilor în funcție de unii indicatori ce
caracterizează SCI, determină 2 componente principale:
– Dezvoltarea socio-economică și
– Piața forțeide muncă.
Concluzii (2)
• Modelele econometrice ale SCI în 2012 și 2013 în funcție de rata
șomajului și CPI, principali factori de influență ai percepțiilor
populației Europene cu privire la climatul social. Valorile
teoretice obținute au fost egale cu cele din Eurobarometru.
• Componenta ocupare/șomaj este cea care diferențiază
dezvoltare socio-economică între țările UE. Această idee a fost
cu succes demonstrată de rezultatele modelării econometrice
ale SCI. Pentru previziunea SCI, este suficient să se previzioneze
rata șomajului, pentru că CPI rămâne constant, în situația cea
mai nefavorabilă.
Concluzii (3)
• Factorii de influență ai ratei șomajului în fiecare țară UE sunt:
investițiile făcute de guvern și cele în mediul de afaceri.
Folosind metodele econometrice au fost obținute valorile
viitoare ale investițiilor viitoare ale guvernului și ale mediului
de afaceri, ca ponderi în PIB, oferind două scenarii: unul
pesimist și altul optimist.
• Previziunea SCI folosește valorile viitoare ale ratei șomajului
și ale CPI existent în 2013, pentru a oferi cele două scenarii.
• Concluzia acetei lucrări:
Climatul social în țările UE depinde de politicile naționale ale
pieței muncii și de politicile investiționale atât la nivel național
cât și la nivelul UE.
Analiza tipologică – Analiza cluster
(clasificarea)
Scopul utilizării metodei
• Analiza cluster este o metodă modernă de analiză a
datelor, utilizată în cazul unui eşantion complex, când
nu se poate determina un comportament caracteristic,
global, pe baza datelor sale.
• Se recurge la metode de reducere a numărului de
variabile şi regrupare prin asocierea cât mai naturală a
unităţilor statistice într-un număr cât mai mic posibil
de elemente ale eşantionului. Această grupare conduce
la obţinerea unor clase de elemente numite „clustere”.
Metodele analizei cluster
Diferă între ele, în funcţie de:

• tipul de entitate considerat în analiză:


• unele metode se referă la gruparea datelor,
• altele la gruparea variabilelor, iar
• altele la date şi variabile;
Cea mai mare parte a metodelor de clasificare sunt concepute pentru
clasificarea indivizilor.

• structura rezultatului final al analizei depinde de tipul


metodelor de clasificare:
• metode ierarhice, care dau o succesiune de partiţii dispuse
ierarhic.
• metode neierarhice, care furnizează o unică subdiviziune în
clustere mutual exclusive,
Descrierea metodei
Această familie de metode are un dublu obiectiv:
• construirea unor grupuri de indivizi, pe baza unor variabile stabilite
a priori;
• construirea grupurilor astfel încât:
• indivizii care aparţin aceluiaşi grup să semene cel mai mult
posibil,
• grupurile să fie pe cât posibil diferite unele de altele.
Scopul acestor metode este de a descoperi structuri ascunse de
ansamblul indivizilor. Structurile sunt grupuri sau ierarhii de
grupuri imbricate, care există în mod real, dar rareori se dă un
sens precis acestei noţiuni.
Metodele de analiză tipologică se bazează pe distanţele dintre
indivizi, care pot fi: oameni, mărci, produse, ţări etc. Datele de
intrare se prezintă sub forma unui tabel al distanţelor. Alegerea
metodei de calcul face parte integrantă din analiză. Calculele se
adaptează la toate tipurile de date: metrice, ordinale şi
nominale.
Rezultatul clasificării
• Dendograma = un arbore ierarhic, care reprezintă grafic
relaţiile de cuprindere ale grupurilor, iar indivizii sunt
plasaţi la extremitatea inferioară a ramurilor arborelui.
Dacă arborele este dispus pe verticală, în partea stângă
se poate schiţa pe o axă verticală, măsura lărgimii
grupelor, unele în raport cu altele. Distanţa între grupe,
care se consideră ca o medie a distanţelor între indivizii
unui grup şi cei ai altui grup, se poate citi pe această axă.
Pe arborele ierarhic se poate stabili distanţa dintre doi
indivizi oarecare, considerând valoarea nodului cel mai
mic, care acoperă cei doi indivizi consideraţi.
Etapele analizei
1. alegerea criteriilor de clasificare - depinde de obiectivul
studiului, de eterogenitatea dintre indivizi; se evită
variabilele cu varianţă mică;
2. calculul unei distanţe - este diferit, în funcţie de natura
variabilelor. Indicatorii de distanţă între grupuri permit
reperarea variabilelor care au cea mai bună contribuţie
la clasificare.
3. constituirea grupurilor presupune alegerea algoritmului
de clasificare.
4. interpretarea grupelor
5. validarea grupelor
Indici de proximitate
• exprimă similaritatea sau disimilaritatea existentă
între doi indivizi, luând în considerare toate
variabilele active care îi caracterizează pe aceştia.
În funcţie de natura variabilelor există mai mulţi
indici de proximitate.
Indici de proximitate pentru variabile
cantitative
• se consideră orice distanţă: p

- distanţa Euclidiană: d ij   ik , unde:


( x
k 1
 x jk ) 2

dij = distanţa între individul i şi individul j


p = numărul de variabile
xik= valoarea variabilei xk pentru individul i
xjk= valoarea variabilei xk pentru individul j
(distanţa generalizată a lui Mahalanobis)
- distanţa rectangulară sau distanţa Manhattan,
p
ponderată: d  w x x ij k 1
k ik jk

unde wk este ponderea acordată caracteristicii xk


- distanţa Chebyshev:
d ij  max wk xik  x jk
k
unde wk este ponderea acordată caracteristicii xk
Indici de proximitate pentru variabile
nominale
• indice de (di)similaritate al lui Jaccard (când datele din matricea
observărilor reprezintă valori booleene ale unor variabile calitative nominale):
sij = similaritatea între indivizii i şi j
a
sij  , unde: a = numărul de perechi de modalităţi comune, număr
ac de coincidenţe pentru indivizii i şi j,
c = numărul de perechi de modalităţi diferite, număr
de noncoincidenţe, pentru indivizii i şi j

• coeficientul de asociere - arată proporţia coincidenţelor pozitive în numărul


total de observări:
a = numărul de perechi de modalităţi comune, număr de
a coincidenţe pozitive, în cazul existenţei caracteristicii la
sij  ambii indivizi i şi j,
abc b = numărul de perechi de modalităţi comune, număr de
coincidenţe negative, în cazul absenţei caracteristicii la
ambii indivizi i şi j,
c = numărul de perechi de modalităţi diferite, număr de
noncoincidenţe, pentru indivizii i şi j
Indici de proximitate pentru variabile
nominale
• distanţa 2: Datele nominale sunt prezentate prin matricea frecvenţelor, în care
un element fik reprezintă frecvenţa de apariţie a caracteristicii xk la individul i. Această
matrice se transformă într-o matrice a probabilităţilor

f ik ni . p
P=(pik), unde pik 
n
, unde n  
. f ik
i 1 k 1

O linie i în această matrice P reprezintă profilul individului i. Compararea profilului unui


individ i cu profilul altui individ j, înseamnă a măsura similaritatea între cei doi indivizi,
prin profilele lor, şi se poate folosi distanţa 2 ( ): d ij2
2
p
1  pik p jk 
 d 
2 2 
 p
 . 
p j 
ij
k 1 pk  i
• distanţa lui Jambu:
2
p  pik p jk  p p
p j   p jk
1 n
d ij2      pk   pik pi   pik
pik  p jk  p p j 
k 1  i i 1 k 1 k 1
Indici de proximitate pentru variabilele
calitative ordinale
• Fiecare individ i determină un număr de p ranguri medii, elementul rgik reprezentând
rangul acordat de individul i caracteristicii k.
Se obţine matricea R = (rgik).
Compararea indivizilor se realizează pe baza liniilor, calculând distanţa dintre acestea prin:
distanţa euclidiană, distanţa rectangulară, dar cel mai des prin coeficientul de
corelaţie a rangurilor al lui Spearman ():
6d ij2
  1
p( p 2  1) , unde dij este distanţa euclidiană între liniile i şi j.
Cu cât valoarea acestui coeficient este mai apropiată de 1, cu atât asemănarea între
indivizii i şi j este mai mare.
Indicatorii de proximitate între clase
sau grupuri de indivizi
Sunt distanţe calculate după unul din următoarele procedee:

• metoda celor mai apropiaţi vecini - distanţa între două grupuri


se consideră distanţa între elementele, aparţinând la grupuri
diferite, cele mai apropiate. Dezavantajul acestei metode este
ignorarea valorilor extreme, ceea ce conduce la obţinerea de
grupuri eterogene.

• metoda celor mai depărtaţi vecini - distanţa între două grupuri


se consideră distanţa între elementele, aparţinând la grupuri
diferite, cele mai depărtate.

• metoda înlănţuirii medii - constă în evaluarea distanţei între


două grupuri pornind de la "centrele" lor. Această metodă este
logică, dar calculele suplimentare pe care le necesită, indică să
se utilizează celelalte două metode.
Constituirea grupurilor
Presupune alegerea algoritmului de clasificare – există 2 tipuri de abordări:

• Metode ierarhice, care se divid în două tipuri:


• ascendente
• descendente

• Metode neierarhice (nodale), care sunt:


• metoda a “k” medii sau a centrelor mobile
• metoda norilor dinamici
Metode ierarhice de constituire a
grupurilor – algoritmi de clasificare
• Ascendente (bottom-up), care pornesc de jos,
în construirea arborelui prin aglomerarea
indivizilor cei mai apropiaţi, apoi reiterând
procesul pe grupurile obţinute;

• Descendente (top-down), care pornesc de sus


prin descompunerea ansamblului în
subdiviziuni succesive.
Metode ierarhice ascendente
• În metodele aglomerative elementare se porneşte de la situaţia
în care fiecare individ formează un grup.
• Primul pas constă în formarea unui grup cu cei doi indivizi cei
mai apropiaţi, adică aceia care au distanţa cea mai mică între ei.
• Al doilea pas este recalcularea distanţelor între grupul nou
format şi restul indivizilor sau grupurilor, obţinându-se o nouă
matrice a distanţelor redusă cu o linie şi o coloană.
• Se reiterează cele două etape alternativ, până când toate
grupurile fuzionează pentru a forma un singur ansamblu, cel de
plecare.
• Agregarea a doi indivizi sau a două grupuri se reprezintă prin
unirea celor două ramuri corespondente ale arborelui ierarhic,
înălţimea la care se face această joncţiune fiind proporţională
cu valoarea distanţei între cei doi indivizi sau cele două grupuri.
Metode ierarhice ascendente
O altă metodă ierarhică ascendentă este cea a "vecinului mediu“.
Constă în a adăuga un individ la un grup pe baza mediei
distanţelor dintre acest individ şi restul care formează grupul.
Dacă există deja mai multe grupuri, se consideră cea mai mică
dintre aceste distanţe medii.
Metoda lui Ward (1963), numită şi "metoda momentului de
ordinul 2", se bazează pe generalizarea multidimensională a
ecuaţiei specifice analizei varianţei.
Aceasta presupune că observările sunt repartizate în prealabil,
într-un număr de grupe. Ecuaţia specifică analizei varianţei arată
că varianţa totală (SST) este suma dintre varianţa reziduală
(SSR), determinată de factori necunoscuţi, întâmplători şi
varianţa explicată, factorială (SSE), determinată de factorul
esenţial, cel de grupare: SST = SSR + SSE.
Metoda lui Ward (1)
• SST, inerţia totală, este suma pătratelor abaterilor valorilor
observate de la media lor generală;
• SSR, inerţia intra-grupe, este suma pătratelor abaterilor valorilor
observate faţă de mediile fiecărei grupe, iar
• SSE, inerţia inter-grupe, este suma pătratelor abaterilor mediilor
grupelor faţă de media generală.
Dacă x este singura variabilă observată, ecuaţia este:
p r p r

 j
( x
j 1
 x )   ij i  i
2
( x  x )  (
i 1 j 1
x  x ) 22
ni
i 1
x – este media generală,
x i – este media grupului i,
xij - este valoarea x observată pentru al j-a individ, situat în grupul i,
i = 1, r , unde r este numărul de grupe, iar
ni - este volumul fiecărei grupe i.
Metoda lui Ward (2)
În cazul mai multor variabile, se înlocuiesc mediile cu centrele de greutate: zi pentru
grupe şi z, centrul de greutate general şi sumele pătratelor abaterilor cu sumele
pătratelor distanţelor între observări şi centrele de greutate, ecuaţia analizei varianţei
p r p r
devenind:
d
j 1
2
( x j , z )  d ( x ij , zi )   ni d ( zi , z )
2

i 1 j 1 i 1
2

Existenţa grupurilor în ansamblul de indivizi studiaţi, înseamnă existenţa unei inerţii


inter-grupe puternică şi intra-grupe slabă. Coeficientul de determinaţie arată ce
proporţie din inerţia totală este explicată de criteriul de clasificare.
“Metoda momentului de ordinul doi” constă în agregări succesive. Se examinează
inerţia când fuzionează două clase p şi p , într-o etapă oarecare a algoritmului.

 i p p  i p  i p p p
d 2
(
ip p
x , z )  d 2
( x ,
ip
z )  d 2
( x , z ) 
ip
n d 2
( z , z )  n p d 2
( z p , z )

La dreapta semnului egal, primii doi termeni reprezintă inerţia intra-grupe pentru cele
două grupe p şi p, iar ultimii doi termeni reprezintă inerţia inter-grupe.
Dacă cele două grupe se unesc formând o singură grupă, această expresie a
varianţei devine parte integrantă a inerţiei intra-grupe, în locul primilor doi termeni
care contribuie la inerţia intra-grupe înainte de fuzionare.
Astfel noua inerţie intra-grupe este mai mare decât suma inerţiilor intra-grupe înainte
de agregare, cu cantitatea: D 2 ( p, p)  n d 2 (z , z )  n d 2 (z , z)
p p p p
Metoda lui Ward (3)
• Principiul metodei momentului de ordinul doi este de a alege ca
pereche de grupe de agregat, aceea care minimizează inerţia
intra-grupe (arată omogenitatea).
• Inconvenientele acestei metode sunt:
– nivelul nodurilor ierarhiei obţinute reprezintă o creştere a
inerţiei proporţională cu pătratul distanţelor, producând o
alungire excesivă a arborelui în sus, şi o tasare a nivelelor spre
baza acestuia considerându-le ca fiind mai omogene decât sunt
în realitate;
– slaba capacitate de a detecta indivizii izolaţi, sau grupurile mai
retrase.
Metode neierarhice (1)
• Se aleg a priori indivizii care servesc ca modele pentru regruparea altor indivizi.
• Se fixează a priori un număr de grupe, reprezentate fiecare printr-un individ-tip.
• Ansamblul celorlalţi indivizi este afectat acestor grupe, după variabile şi criterii,
care toate vizează minimizarea inerţiei intra-clase (în interiorul grupelor) şi
maximizarea inerţiei inter-clase (între grupuri).

Metoda a “k” medii (a centrelor mobile) constă


în specificarea iniţial a k grupe şi k indivizi (puncte) de pornire.

• Prima etapă constă în afectarea fiecărui individ la unul din aceste


puncte de plecare, în funcţie de apropierea lor.

• Se calculează apoi centroidul (punctul mediu, centrul de gravitate)


fiecărei grupe şi indivizii sunt reafectaţi aceluia, faţă de care au
devenit cei mai apropiaţi.

• Se repetă până când nu mai există nici o reafectare.


Metode neierarhice (2)
Metoda norilor dinamici, este o generalizare
a metodei precedente.

Algoritmul începe cu k nuclee în loc de k puncte.


Un nucleu este un ansamblu de indivizi, care,
dacă sunt bine aleşi, sunt mai reprezentativi
pentru un grup, decât centroidul său.
Celelalte faze sunt similare cu cele ale metodei
descrise anterior, cu deosebirea că se identifică
un nou nucleu în loc de a calcula centroidul.
Metode ierarhice - Metode neierarhice
• Algoritmii neierarhici sunt mai eficienţi ca timp
şi capacitate de calcul, decât cei ierarhici.

• Când se lucrează cu eşantioane mari, se


recomandă să se utilizeze un algoritm ierarhic
pe o mică parte a eşantionului, selectată
aleator, şi de a utiliza soluţia identificată, cele k
centre de plecare, pe totalitatea eşantionului,
prin metode neierarhice.
Interpretarea grupelor
Constă în:
– alegerea numărului de grupe şi
– descrierea grupurilor identificate.

• Alegerea numărului de grupe, are sens numai când se


utilizează algoritmii ierarhici. Analiza trebuie să determine
numărul de grupe care se reţin, adică etapa la care se va opri
acest proces, care începe cu contopirea succesivă a n grupe
(indivizi), pentru a forma un singur grup.
Un criteriu este saltul mare al distanţelor calculate ca fiind
distanţe medii ale grupurilor; se reţine ca soluţie, situaţia
precedentă acestui salt.

• Descrierea grupurilor se face cu ajutorul variabilelor de


clasificare, eventual indicatori suplimentari, obţinându-se un
profil sorto-tipo-dimensional, de comportament, de atitudine
sau socio-demografic, al indivizilor care compun diferitele
grupuri.
Validarea grupelor
Se realizează:
• prin existenţa reală a acestui "decupaj" natural al “populaţiei”
studiate;
• compararea soluţiilor aplicării aceluiaşi algoritm, pe fiecare
jumătate, obţinută prin separarea aleatoare a unui eşantion;
respingerea clasificării în caz de divergenţe accentuate;
• dacă distribuţiile variabilelor de clasificare pe grupe, se suprapun,
tipologia nu este eficientă;
• analiza discriminantă; criteriile de clasificare sunt variabile
independente, iar apartenenţa indivizilor la grupuri formează
variabila dependentă.

Se poate obţine o partiţie prin tăierea ramurilor unui


arbore ierarhic, la un anumit nivel şi păstrarea din
acest arbore numai a grupurilor determinate de
partea inferioară a arborelui, cea situată sub nivelul
fixat.
Arborele ierarhic şi trunchierea sa
70-
- N11
60-
-
50- N10
-
40-
- N9
30-
-
20- N8
- N7
10-
-
0-

i1 i2 i3 i4 i5 i6

Indivizii: i1, i2, i3, i4, i5 şi i6 sunt plasaţi la extremitatea inferioară a ramurilor arborelui, iar
nodurile sunt numerotate în continuare: N7, N8, N9, N10 şi N11. Trunchierea arborelui la
nivelul aproximativ 45, a determinat apariţia a trei clase: i1, i2, i3, i4, i5, i6.
Rezumat: Analiza cluster – metodă de clasificare

• Metodele analizei cluster diferă între ele, în funcţie de:


– tipul de entitate considerat în analiză:
– gruparea datelor,
– gruparea variabilelor,
– gruparea datelor şi variabilelor;
– structura rezultatului final al analizei:
– metode neierarhice,
– metode ierarhice
• Algoritmii de clasificare pot fi:
– descendenţi (top-down)
– ascendenţi sau agregativi (bottom-up)
• Clusterele prezintă caracteristicile:
– elementele fiecărei clase sunt cât se poate de omogene,
– clasele sunt cât se poate de diferite între ele.
Initial Cluster Centers Final Cluster Centers
Cluster Cluster
1 2 1 2
rural_terr 2.10 82.40 31.49 65.18
interm_reg 53.80 7.70 46.77 27.77
urb_reg 44.10 9.90 21.74 7.03

Importance of Rural Areas and


the Regional Profiles of EU
Member States, Bulletin of
Transilvania University of
Brasov, vol. 8 (57) No.2 – 2015,
Series V - Economic Sciences, p.
415-424,
http://webbut.unitbv.ro/Bulletin/
Series%20V/BILETIN%20I/49_Polg
ar-Duguleana.pdf
Concluzii
• Rezultatul final al acestor metode de clasificare se prezintă sub forma unei
partiţii, căci o ierarhie pe sute sau mii de indivizi, ar fi inexploatabilă.
• Chiar dacă obţinerea unei partiţii este scopul, rezultatul ar fi destul de modest
dacă nu ar fi îmbunătăţit de calcule complementare, mai ales acelea care
descriu contribuţiile variabilelor la clasele partiţiei obţinute.

• Când se doreşte gruparea variabilelor, noţiunea de distanţă între două variabile


ridică probleme delicate datorită naturii variabilelor.
– Similaritatea între variabilele se analizează diferit pentru variabilele numerice şi
calitative.
– Pentru variabilele numerice, coeficientul de corelaţie liniară este r, indicele natural
şi un indice de disimilaritate este 1 – r, care reprezintă o distanţă euclidiană.
– Pentru variabilele calitative, problema esenţială este aceea că mărimile de legătură
nu sunt comparabile, decât pentru un număr egal de categorii sau de grade de
libertate ale cuplului de variabile.

• În general, analizele descriptive preced analizele explicative, pentru a defini în


contextul problemei, atât variabila explicată cât şi variabilele explicative.
Exemplu

STUDIUL REGIUNILOR DIN ROMÂNIA, FOLOSIND ANALIZA CLUSTER

- descrie algoritmii ierarhici ai analizei cluster

- aplicaţia practică are ca scop obţinerea unor grupe ale


regiunile din România, pe baza performanţelor
economico-sociale, la nivelul anului 2002.
Matricea distanţelor

• N unităţi statistice sau indivizi, observări pentru m caracteristici


(variabile), problema clasificării lor în k grupuri distincte.
• Calculul distanţelor între cele N puncte conduce la obţinerea a 2N
distanţe
• Standardizarea observărilor

( xik  x k )
N N

 xik  ik
( x  x ) 2
yik 
xk    k
i 2 i 1
k
N N

ik
m
d ik   ik kj
( y  y ) 2 d ik  0 ik
j 1
• Matricea distanţelor
 0 
d 0 
 21 
D   d 31 . 0 . .
 
 . . . . .
d N 1 dN2 . d NN 1 0
• se alege valoarea minimă între doi indivizi, care vor forma prima
clasă
• se calculează valorea medie a variabilelor pentru elementele
grupului
• se construieşte o nouă matrice a distanţelor
• se reia procedura, prin căutarea distanţei minime din noua
matrice a distanţelor ş.a.m.d.
3. Studiu de caz pentru regiunile din România

• Regiunile: NE, SE, S, SV, V, NV, C, BUC


– Suprafaţa (km2)
– Nr. oraşe
– Densitate (loc/km2)
– Urban (%)
– Rata şomaj (%)
– Cheltuieli populatie (lei/luna/pers)
– Forţa de muncă (mii persoane)
Valorile standardizate ale observărilor

regiuni VARIABILELE
1 2 3 4 5 6 7
NE 3.11 2.42 2.19 1.65 3.85 1.47 4.07
SE 3.02 2.49 2.14 2.53 3.04 2.48 2.56
S 2.90 3.22 2.18 1.53 2.59 1.42 3.52
SV 2.45 2.42 2.14 1.77 3.13 3.03 1.90
V 2.69 2.78 2.10 2.88 2.59 2.34 1.27
NV 2.88 2.64 2.14 2.25 1.74 2.13 2.93
C 2.87 3.73 2.13 2.76 2.54 2.55 2.43
BUC. 0.08 0.30 4.97 4.63 0.52 4.58 1.30
Matricea distanţelor euclidiene (1)
MATRICEA DISTANTELOR

NE SE S SV V NV C BUC
.
NE 0.00 2.18 1.61 2.84 3.46 2.58 2.93 7.66
SE 2.18 0.00 1.95 1.28 1.48 1.44 1.37 6.18
S 1.61 1.95 0.00 2.54 2.83 1.57 2.07 7.29
SV 2.84 1.28 2.54 0.00 1.61 2.06 1.93 5.99
V 3.46 1.48 2.83 1.61 0.00 1.99 1.53 5.80
NV 2.58 1.44 1.57 2.06 1.99 0.00 1.59 6.09
C 2.93 1.37 2.07 1.93 1.53 1.59 0.00 6.38
BUC. 7.66 6.18 7.29 5.99 5.80 6.09 6.38 0.00
Noua matrice a valorilor standardizate
Regiuni VARIABILELE

1 2 3 4 5 6 7

NE 3.11 2.42 2.19 1.65 3.85 1.47 4.07


A1 2.73 2.45 2.14 2.15 3.08 2.75 2.23
S 2.90 3.22 2.18 1.53 2.59 1.42 3.52
V 2.69 2.78 2.10 2.88 2.59 2.34 1.27
NV 2.88 2.64 2.14 2.25 1.74 2.13 2.93
C 2.87 3.73 2.13 2.76 2.54 2.55 2.43
BUC. 0.08 0.30 4.97 4.63 0.52 4.58 1.30
Noua matrice a distanţelor (2)
MATRICEA DISTANTELOR
NE A1 S V NV C BUC.
NE 0
A1 2.45 0
S 1.61 2.17 0
V 3.46 1.41 2.83 0
NV 2.58 1.66 1.57 1.99 0
C 2.93 1.55 2.07 1.53 1.59 0
BUC. 7.66 6.05 7.29 5.80 6.09 6.38 0
Succesiunea formării grupurilor

• A1={SV, SE}
• A2={SV, SE, V}
• A3={SV, SE, V, C}
• A4={SV, SE, V, C, NV}
• B1={S, NE}
• A5={SV, SE, V, C, NV, B1}=
={SV, SE, V, C, NV, S, NE}
• A6={SV, SE, V, C, NV, S, NE, BUC}.
Concluzii

• Se pot identifica 2 clase distincte:


• regiunile SE, SV, V, NV, C formează un grup
• regiunile NE şi S, un alt grup.
• Analiza poate fi completată cu analiza
factorială pentru a reţine numai acei indicatori
economico-sociali care sunt importanţi în
studiul performanţelor economice ale
regiunilor.
Analiza cluster în SPSS

• Identifica grupuri relativ omogene de cazuri


(sau variabile) pe baza caracteristicilor selectate,
folosind un algoritm care incepe cu fiecare caz
(sau variabila) intr-un cluster separat şi combină
clusterele până se ajunge la unul singur.
• Se pot utiliza variabilele observate sau o
varietate de transformări standardizate.
• Se pot genera mărimi de distanţă sau de
similaritate prin “Proximities procedure”
Analiza cluster în SPSS - exemple

• Se pot identifica grupuri de spectacole de televiziune


care atrag audienţe similare în fiecare grup!
• Se pot grupa spectacolele (cazurile) în grupuri
omogene pe baza caracteristicilor spectatorilor.
Astfel se pot identifica segmente de telespectatori,
asupra cărora se vor îndrepta acţiuni specifice de
marketing.
• Se pot grupa cazuri (în grupuri omogene) astfel încât
acestea sunt comparabile; pot fi selectate pentru a
testa diferite strategii de marketing.
Analiza cluster în SPSS - Output
• Statistics.
• Agglomeration schedule, distance (or
similarity) matrix,
• Cluster membership for a single solution or a
range of solutions.
• Plots: Dendrograms and Icicle plots.
Dendograma

******HIERARCHICAL CLUSTER ANALYSIS******

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

CASE 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

SE 2 -+-+
SV 4 -+ +---+
V 5 ---+ +-----+
C 7 ---+ I I
S 3 ---+---+ +-----------------------------------+
NV 6 ---+ I I
NE 1 -------------+ I
BUC. 8 -------------------------------------------------+
*******************HIERARCHICAL CLUSTER ANALYSIS***********
********

Dendrogram using Centroid Method

Rescaled Distance Cluster Combine

CASE 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

SE 2 ─┐
SV 4 ─┤
V 5 ─┤
C 7 ─┼─┐
NV 6 ─┘ ├───┐
S 3 ───┘ ├───────────────────┐
NE 1 ───────┘ │
BUC 8 ───────────────────────────┘
Metoda segmentării
Metoda segmentării
• presupune, în principal identificarea utilizatorilor
unui produs plecând de la o serie de caracteristici
calitative: sex, vârstă, categorie socio-profesională,
venit mediu etc.;
• separarea lor în segmente, cât mai diferite între ele.
• Variabila explicată (dependentă) poate fi cantitativă
sau calitativă, iar variabilele explicative sunt
întotdeauna calitative şi se mai numesc variabile de
segmentare sau predictori.
Arborele de segmentare
• Rezultatul acestei tehnici speciale de tip explicativ, îl
constituie arborele de segmentare, care prezintă
grafic, partiţionarea progresivă a populaţiei iniţiale
eterogene, în clase omogene, subpopulaţii,
segmente, cât mai diferite între ele.

• Segmentarea împarte mulţimea consumatorilor în


grupuri, numite segmente sau tipuri, a căror
caracteristici sunt asemănătoare.
Etapele procedurii de segmentare
Se construiesc tabele de contingenţă pentru toate variabilele explicative.
Etapele procedurii de segmentare sunt:
- segmentarea fiecărui tabel de contingenţă, după criteriul de
segmentare ales, şi alegerea acelei variabile, care realizează cea mai
bună separare;
- pentru fiecare din segmentele obţinute în etapa anterioară, se
elaborează tabelele de contingenţă pentru variabilele predictori
rămase; se segmentează şi se alege în raport cu criteriul de
segmentare, cea mai bună variabilă predictor;
- procedura se continuă pentru fiecare segment şi pentru predictorii
rămaşi;
- criteriile de oprire sunt:
• când efectivul unui segment ajunge sub un nivel fixat;
• când diferenţa dintre segmente nu mai este suficient de
importantă;
• când se termină lista de variabile explicative.
Criterii de segmentare - Criteriul Belson
Criteriul Belson este cel mai cunoscut; presupune aflarea acelei
partiţii A sau B care maximizează expresia:
m
N i  N  A m N i  N B
D   N iA   N iB  , unde
i 1 N i 1 N
A, B sunt segmente
N.A şi N.B - volumul segmentului A, respectiv B;
N - volumul populaţiei sau a cazurilor observate;
Ni. - volumul pe modalităţi ale variabilei explicate.
Formula poate fi extinsă în cazul mai multor segmente (numărul de
segmente este egal cu numărul modalităţilor variabilei predictor).
Criterii de segmentare - Criteriul 2
• Criteriul 2 - presupune calculul distanţei 2, alegându-
se ca variabilă de segmentare variabila explicativă care
maximizează expresia:

D  
m n
n
ij n 
* 2
ij
, unde i = 1, 2, ... , m
i 1 j 1 nij*

m - număr de modalităţi ale variabilei explicate


j = 1, 2, ... , n, număr de modalităţi ale variabilei explicative
(număr segmente)
nij - frecvenţele pentru varianta i la segmentul j
nij*- frecvenţele teoretice ale varianţei i la segmentul j.
Structura unui eșantion
de consumatori pe grupe de vârstă
Opinia Grupe de vârstă Total
sub 30 ani 30 - 50 peste 50
Favorabilă 65 55 40 160

Nefavorabilă 115 35 40 190

Total 180 90 80 350

% op. favorabilă 36% 61% 50% 46%


Frecvențe teoretice

Opinia Grupe de vârstă Total


sub 30 ani 30 - 50 peste 50
Favorabilă 82 41 37 160
Nefavorabilă 98 49 43 190
Total 180 90 80 350

% op. favorabilă 46% 46% 46% 46%


Calculul criteriului 2
Opinia Grupe de vârstă Total
sub 30 ani 30 - 50 peste 50
Favorabilă 3.63 4.67 0.32 8.6198
Nefavorabilă 3.06 3.93 0.27 7.2588
Total 15.879

H0: 2* < 2 teoretic Vârsta nu influentează semnificativ formarea opiniei.

H1: 2* > 2 teoretic Vârsta influentează semnificativ formarea opiniei.

2 teoretic, =5%, 2 grd. lib. = 5.9915


Concluzie: 2* > 2 teoretic Se acceptă H1, deci vârsta influentează semnificativ
formarea opiniei despre acel produs
Comparaţie între tipologie şi
segmentare
Analiza tipologică (cluster)
• Tipologia sau clasificarea este căutarea într-o
populaţie, a structurii latente, adică descoperirea
grupurilor, care trebuie să fie cât mai puţine şi
omogene, pe cât posibil.
• Conceptul de omogenitate presupune, pentru fiecare
grup, existenţa unei relaţii între elementele sale.
Criteriul, unul singur (sau un set continuu de criterii),
care defineşte această relaţie este necunoscut şi
trebuie descoperit în acelaşi timp cu grupurile, numite
şi tipuri.
Segmentarea
• Segmentarea presupune existenţa a două seturi de criterii, în
interiorul universului studiat:
– criteriile de interes, care generează proprietatea de "a fi
explicat" (variabila explicată, dependentă, endogenă),
– criteriile de indexare (variabile de segmentare), care sunt în mod
necesar discontinue, cunoscute (mediu, sex, vârstă, poziţie
socială, statut matrimonial, religie, etc.),
• şi presupune o căutare a legii corespondenţei între cele două seturi
de criterii.
În urma segmentării vor rezulta două feluri de segmente:
- grupul de segmente de interes (interesante), cele care pot fi
considerate că posedă proprietatea de "a fi explicate" sau grupul
celor care formează proprietatea numită "explicativă", și
- grupul segmentelor neinteresante, care se consideră cele care nu
posedă proprietatea de "a fi explicate".
Deosebirile segmentare - tipologie
Grupuri după criterii multiple
TIPURI SEGMENTE
Grupuri generate printr-o Grupuri generate printr-o
relaţie de vecinătate bazat proprietate compusă, definită
pe un concept de distanţă printr-o expresie logică de
multidimensională. proprietăţi simple.

Caracter relativ Caracter absolut


Comparație între segmentare şi tipologie
TIPOLOGIA SEGMENTAREA

individ atipic

• tipurile se suprapun şi nu acoperă • segmentele nu se suprapun şi cuprind


întreaga populaţie întreaga populaţie
• criteriile generatoare sunt continue • criteriile generatoare sunt discontinue
• criteriile sunt, în general, de interes • criteriile sunt, în general, de reperaj
• un tip este o compunere de indivizi • un segment este o compunere de
izolaţi clase de indivizi, definite apriori
• tipul are graniţe flexibile • un segment are graniţe stricte
MODELUL REGRESIEI SIMPLE ŞI
MULTIPLE

- metodă explicativă de analiză a


datelor
(prezentată în cursul din 11.12.2015,
Analiza legăturilor între fenomene – modelarea corelațiilor)
Modelarea percepțiilor consumatorilor pe piața electricității în UE
Duguleana C., Duguleana L., Energy efficiency and performance indicators of European electricity market,
Bulletin of Transilvania University of Brasov • vol. 8 (57) No.1 – 2015, Series V - Economic Sciences, p. 195-206,
http://webbut.unitbv.ro/Bulletin/Series%20V/BULETIN%20I%20PDF/23_Duguleana_C.pdf

Overall Life Satisfaction Index (OLSI) în loc de nMPI


R2=21.7%, P=95%

R2=54.03%, P=90%

R2=60.4%, P=95%

= the annual dynamic rate of electricity consumption of


households during 2005-2012, for each country.
MULTUMESC!

S-ar putea să vă placă și