Sunteți pe pagina 1din 8

ASE București

Facultatea de Cibernetică, Statistică și Informatică Economică

Analiza în componente principale a stării de


fericire a populației Europei în anul 2017
Vochescu Ancuța-Roxana

grupa 1076, seria B informatică

prof. Vințe Claudiu


Raportul fericirii mondiale - analiza în componente
principale

Raportul fericirii mondiale este un sondaj de referință al stării fericirii globale.


Primul raport a fost publicat în 2012, al doilea în 2013, al treilea în 2015 și al patrulea în
actualizarea din 2016. Fericirea Mondială 2017, care numără 155 de țări prin nivelul lor de
fericire, a fost lansată la Națiunile Unite la un eveniment care sărbătorește Ziua Internațională
a Fericirii pe 20 martie. Raportul continuă să obțină recunoașterea globală, deoarece
guvernele, organizațiile și societatea civilă utilizează tot mai mult indicatori de fericire pentru
a-și informa deciziile. Experți în domeniu - economie, psihologie, analiză de sondaj, statistici
naționale, sănătate, politică publică și altele - descriu modul în care măsurătorile de bunăstare
pot fi utilizate în mod eficient pentru a evalua progresul națiunilor. Rapoartele revizuiesc
starea de fericire din lumea de astăzi și arată modul în care noua știință a fericirii explică
variațiile personale și naționale ale fericirii.

Conţinut
Scorurile și clasamentele pentru fericire utilizează date din Gallup World Poll. Scorurile se
bazează pe răspunsurile la întrebarea principală referitoare la evaluarea vieții. Această
întrebare, cunoscută sub numele de scara Cantril, solicită respondenților să se gândească la o
scară cu cea mai bună viață posibilă pentru ei fiind o viață de 10 și cea mai gravă posibilă
fiind 0 și să-și evalueze propriile vieți curente pe acea scară. Scorurile provin din eșantioane
reprezentative la nivel național pentru anii 2013-2016 și utilizează greutățile Gallup pentru a
face estimările reprezentative. Coloanele după scorul de fericire estimează măsura în care
fiecare dintre cei șase factori - producția economică, sprijinul social, speranța de viață,
libertatea, absența corupției și generozitatea - contribuie la creșterea evaluărilor vieții în
fiecare țară decât la Dystopia țară ipotetică care are valori egale cu cele mai scăzute medii
naționale din lume pentru fiecare dintre cei șase factori. Ele nu au nici un impact asupra
punctajului total raportat pentru fiecare țară, dar explică de ce unele țări sunt mai înalte decât
altele.

1. Descrierea datelor

Prezentul studiu realizează o analiză în componente principale a stării de fericire a


populației Europei la nivelul anului 2017. Fericirea populației este descrisă cu ajutorul a 6
indicatori prezentați în tabelul 1, indicatori aflați în raportul publicat pe kaggle.com.1
Datele prelucrate sunt preluate dintr-un fișier de tip csv anexat, date.csv. Am selectat
pentru a analiza țările Europei, 26 de țări regăsite în acest studiu. (Tabel 1 - Date)
Pentru fiecare țară următoarele coloane au fost introduse (în modelul prezentat în
această lucrare): PIB pe cap de locuitor, Familia, Speranța de viață, Libertatea, Generozitatea,
Corupția guvernului (Încrederea). Acestea descriu măsura în care acești factori contribuie la
evaluarea fericirii din fiecare țară.

1
https://www.kaggle.com/unsdsn/world-happiness

2
Tabel 1 - Date

2. Motivare alegere analiza în componente principale

Analiza în componente principale (ACP) este cea mai utilizată metodă de analiză a
datelor. A fost propusă de Hotteling în 1938, dar necesitând numeroase şi laborioase calcule
s-a impus în practică abia începând cu anii 70 odată cu apariţia calculatoarelor. ACP
sintetizează informaţia conţinută în tabelele de date cantitative de mari dimensiuni.
Colectivitatea statistică studiată este descrisă printr-un număr mare de variabile. Studiul
colectivităţii printr-un număr mare de variabile este greu de realizat. ACP determină un număr
mai mic de variabile noi, numite componente principale, care concentrează informaţia ,
esenţialul, la nivelul colectivităţii studiate. Componentele principale sunt construite sub formă
de combinaţie liniară de variabile iniţiale, care concentrează o cât mai mare parte de
informaţie , şi sunt caracterizate de o mare variabilitate. Astfel, prima componentă principală
preia maximul din varianţa variabilelor originale, a doua componentă preia maximu l de
varianţă rămasă după eliminarea primei componente şamd

3. Analiza variabilității datelor

3
O primă imagine asupra variabilității este dată de matricea de corelații dintre
variabilele observate. Corelațiile puternice sunt cele care indică variabile intre care există
legătură, deci aduc redundanță informațională în setul de date. Aceste variabile sunt cele din
care se vor construi componentele principale. În figura 1 este prezentată corelograma
variabilelor observate. Din analiza graficului rezultă că PIB pe cap de locuitor și Speranța de
viață generează cele mai mari corelații, deci aceste variabile vor contribui cel mai mult la
constituirea componentelor principale.
Rezultatele modelului pornesc de la calculul vectorilor și valorilor proprii. În tabelul 2
este prezentată varianța componentelor principale, individual, cumulat și procentual. Conform
criteriilor Cattell și Kaiser sunt semnificative primele 5 componente, aspect scos în evidență și
de graficul distribuției varianței este prezentat în Figură 1
Se observă ca pentru a recupera o cantitate cat mai mare de informație din datele
inițiale avem nevoie de primele cinici componente principale.Acestea corespund valorilor
proprii cele mai mari,valori proprii peste 1,iar aceste valori reprezinta variantele
corespunzatoare celor două componente reținute . Utilizand cinci componente
principale,cantitatea de informație total recuperată este de 97.4% din informația ințilă,asa cum
se observă în coloana Proc.Cumulat.Varianta.Dintre cele cinci componente principale ,prima
acopera 67% din varianta finala, a doua componentă 12%, a treia 8%, cea de-a patra 5,8% și a
cincea componentă 4,2%.
Pentru a stabili numarul de component principale necesare se mai poate folosi si
metoda grafica. În Figură 2 - Plot varianta și cu ajutroul Criteriului Cattell se poate observa că
avem nevoie de cinci componente principale.

Criteriul lui Kaiser


Este un criteriu aplicabil doar în cazul în care variabilele cauzale sunt standardizate.
Apare ca firesc în această situație ca noile variabile, componentele principale, să fie
considerate importante, semnificative, în măsura în care cumulează mai multă varianță decât o
oarecare variabilă. Criteriul lui Kaiser recomandă reținerea acelor componente principale care
au varianță mai mare decât 1.
4
Criteriul Cattell
Acest criteriu se poate aplica în variantă grafică sau analitică. În varianta grafică se
detectează, începând cu a treia valoare proprie, primul cot (unghi mai mare decât 180°). Se
rețin doar valorile proprii de până în acel loc, inclusiv.

Figură 1

Prima componentă principală este mult mai semnificativă decât celelalte două, acoperind
aproximativ 67% din variabilitate, în timp ce a doua acoepră 12%.

Figură 2 - Plot varianta

5
4. Calculul corelațiilor dintre variabilele observate și componentele principale

În Tabel 2 sunt prezentate aceste corelații pentru cea mai semnificativă componentă
principală. Aceste corelații sunt cele mai importante în încercarea de a eticheta componentele
principale, "eticheta" asociată fiind legată de ceea ce au în comun variabilele puternic corelate
cu componenta respectivă.
Astfel, se poate observa că prima componentă principală este puternic corelată cu PIB
per capita, încrederea acordată guvernului libertatea,familia, speranța de viață, dar și
generozitatea. Cu alte cuvinte prima componentă principală poate fi asociată cu conditiile
economice din țara respectivă. Componenta 2 este legată în principal de speranța de viață.
Componenta 2 putem spune că este o componentă care ține de durata vieții. Corelațiile din
Tabel 2sunt prezentate grafic prin cercul corelațiilor (pentru primele două componente Figură
3 Cercul corelatiilor). Componenta 3 este legată în maare parte despre familie și o puntem
eticheta ca stabilitatea și condițiile din familie.
Tabel 2

6
Figură 3 Cercul corelatiilor

5. Calculul scorurilor
Scorurile sunt proiecțiile normalizate ale țărilor în axele principale (axele
componentelor principale).
Pot fi observate valorile relativ mari pentru țările Moldova, România, Rusia, Ungaria,
Grecia, Lituania și mici pentru Luxemburg, Elveția etc. Valorile mari pe axa componentei 1
înseamnă valori mici pentru PIB pe cap de locuitor,încrderea în guvern și importanța libertășii
deoarece sunt puternic, dar invers corelate cu componenta 1. În județul Luxemburg, Elveția și
altele apropiate situația este inversă.

7
În Moldova se înregistrează rate mari ale speranței de viața, ceea ce reprezintă
componenta 2. La poul opus este Grecia cu o rată foarte mică a speranței de viață. România se
află undeva la mijloc împreună cu Finlanda, Norvegia, Germania etc.

6. Concluzii
Pe baza analizei efectuate asupra celor 26 de țări ,și asupra celor 6 factori de influență
am putut sa concluzionăm care sunt cele mai dezvoltate tari si ce caracteristici are fiecare.În
cadrul analizei efectuate pe acest eșantion s-a putut observa că unele variabile erau puternic
corelate între ele astfel încat nu aduceau un plus de informație.
În concluzie,analiza componentelor principale ne-a permis să realizam o sintetizare
informaționala și să caracterizăm un șir de observații .Astfel,am putut realiza comparții între
observații.