Sunteți pe pagina 1din 17

Academia de Studii Economice București

Facultatea de Cibernetică, Statistică și Informatică Economică

Proiect Analiza Datelor

Barangă Victor

Cazacu Andrei-Daniel

Grupa 1057

1
Cuprins:

Descrierea datelor ....................................................... 3


2.Statistici descriptive ................................................. 4
3.Analiza Componentelor Principale ........................ 9

2
1. Descrierea datelor

Pentru această analiză am considerat un set de date ce conține indicatori privind nivelul de trai la nivelul
țărilor din Uniunea Europeană în anul 2016. Aceștia prevăd valorile ce au fost înregistrate după analizarea
următorilor factori: speranța de viață (SE), numărul de persoane foarte afectate financiar (SMDP), rata natalitatii
(RN), rata mortalitatii (RM), compensarea salariatilor (CS), consumul de bunuri si servicii (CBS), indicele de
poluare (IP), diferența de ocupare a forței de muncă între femei și bărbați (GEG), numarul de emigranti (NE),
numarul de imigranti (NI), rata somajului (RS), rata criminalitatii (RC).

Descriere variabile:

 SV: Speranta de viata ce reprezinta un indicator al efectelor de trai ale populatiei.


 SMDP: Indică numărul persoanelor (în mii de persoane) cu deficiențe severe din punct de vedere material,
care au condiții de viață severe constrânse de lipsa resurselor. Ei se confruntă cu cel puțin 4 din cele 9
probleme de deprivare: nu-și pot permite i) să plătească chirii sau facturile de utilitate, ii) să păstreze o
temperatură optimă în locuință, iii) să se confrunte cu cheltuieli neprevăzute, iv) să mănânce în fiecare a
doua zi carne, pește sau echivalent proteic, v) o vacanță săptămânală departe de casă, vi) o mașină, vii) o
mașină de spălat viii) un televizor color sau ix) un telefon. SMDP este un indicator ce caracterizeaza direct
nivelul de trai al populatiei.
 RN: Rata natalitatii calculata ca fiind: (natalitatea/populatia totala)*1000. RN reprezinta un indicator al
efectelor de trai ale populatiei.
 RM: Rata mortalitatii calculata ca fiind: (mortalitate/populatia totala)*1000. RM reprezinta un indicator
al efectelor de trai ale populatiei.
 CS: Compensarea salariaților este definită ca remunerația totală (în milioane euro), în numerar sau în
natură, plătibilă de un angajator unui angajat în schimbul muncii efectuate de acesta din urmă. De
asemenea, aceasta include și contribuțiile sociale plătite de angajator. CS este un indicator ce
caracterizeaza direct nivelul de trai al populatiei.
 CBS: Consumul de bunuri si servicii arata care au fost cheltuielile medii de consum pe adult la nivelul
unui an de zile. Cheltuielile au fost exprimate in moneda euro. CBS este un indicator ce caracterizeaza
direct nivelul de trai al populatiei.
 IP: Indicele de poluare arata procentul de poluarea, mizerie sau alte probleme de mediu cu care se
confrunta statul respectiv si este un indicator ce caracterizeaza direct nivelul de trai al populatiei.
 GEG: Diferența de ocupare a forței de muncă între femei și bărbați este definită ca diferența dintre ratele
de ocupare a fortei de munca a bărbaților și femeilor în vârstă de 20-64 ani. Rata de ocupare a forței de
muncă este calculată prin împărțirea numărului de persoane cu vârsta cuprinsă între 20 și 64 de ani în
raport cu populația totală a aceluiași grup de vârstă. Indicatorul se bazează pe ancheta forței de muncă din
UE. GEG este un indicator ce caracterizeaza direct nivelul de trai al populatiei.
 NE: numarul de emigranti este un indicator ce caracterizeaza direct nivelul de trai al populatiei.
 NI: numarul de imigranti este un indicator ce caracterizeaza direct nivelul de trai al populatiei.
3
 RS: Rata somajului este un indicator ce caracterizeaza direct nivelul de trai al populatiei.
 RC: Indica procentul de crime, violență sau vandalism petrecute in respectiva tara si este un indicator ce
caracterizeaza direct nivelul de trai al populatiei.

2.Statistici descriptive

În urma unei generări în programul R Studio, se observă că valoarea minimă a numarului


de persoane afectate financiar a fost de 10 persoane, valoare intalnita in Luxembourg, iar
numarul maxim de 8878 persoane, valoare atribuita Ungariei. Prima cuartilă ne arată că 25%
dintre valori se afla sub 187 persoane, mediana faptul că 50% au fost sub 1691, iar a treia
cuartilă că 75% s-au situat sub 2863.

In cazul CBS putem observa ca valoarea minimă a consumului de bunuri si servicii


a fost de 3447 euro/an, valoare intalnita in Romania, iar numarul maxim de 38424
euro/an, valoare atribuita Luxembourg-ului. Prima cuartilă ne arată că 25% dintre
valori se afla sub 6587 euro/an, mediana faptul că 50% au fost sub 15054 euro/an, iar
a treia cuartilă că 75% s-au situat sub 22669 euro/an.

De asemenea, am calculat și abaterea standard, care ne arată că valorile se abat cu 8737,546 față de
medie. Cu ajutorul mediei si abaterii standard, am calculat coeficientul de variație, acesta fiind egal cu 0.5803
(58,03%). De aici, putem deduce faptul ca seria este omogenă, iar media și mediana sunt reprezentative.

Datele ce caracterizează consumul de


bunuri și servicii, măsurate în Euro/An, prezintă o
asimetrie la dreapta (0.5014066), având o aplatizare
platicurtică (-0.4159265).

Figura 1 - Histograma CBS

4
Figura 2 - Histograma NE

Datele ce caracterizează numărul de emigranți prezintă o asimetrie puternică la dreapta, skewness fiind egal
cu 1.187614, având o aplatizare platicurtică, kurtosis fiind egal cu -0.113767.

Figura 3 - Histograma RN

Rata natalității prezintă o ușoară asimetrie la dreapta (skewness= 0.7545456), în timp ce aplatizarea este una
platicurtică (kurtosis = 1.06636).

5
Figura 4 - Histograma SV

Speranța de viață la nivelul celor 28 de țări prezintă o asimetrie la stânga, coeficientul fiind egal cu
-0.7225751, în timp ce aplatizarea este platicurtică, coeficientul fiind -1.07965.

Figura 5 - Boxplot GEG

Boxplot-ul ce caracterizează Gender Employment Gap prezintă un singur outlier, acesta fiind înregistrat în
statul Malta.

6
Figura 6 - Boxplot IP

Indicele de poluare prezintă, de asemenea, un singur outlier înregistrat în același stat (Malta).

Figura 7 - Boxplot RC

Rata criminalității prezintă un singur outlier, acesta fiind înregistrat în Bulgaria.

7
Figura 8 - Boxplot SMDP

Persoanele cu cele mai multe deficiențe financiare, conform boxplot-ului prezentat mai sus, se regăsesc
în Ungaria.

Figura 9 - Boxplot RS

Boxplot-ul ce caracterizează rata șomajului prezintă doi outlieri, aceștia fiind înregistrati în Grecia și Spania.

8
3.Analiza Componentelor Principale

Analiza componentelor principale (ACP), este o procedură statistică care folosește transformarea ortogonală
pentru a converti un set de observații cu variabile posibil corelate într-un set de valori cu variabile liniar necorelate,
numite componente principale. Această transformare este definită în așa fel încât, prima componentă principală are cea
mai mare varianță posibilă și fiecare componentă care urmează preia cea mai mare varianță posibilă cu condiția ca
aceasta să fie ortogonală cu componentele precedente. Scopul principal al aplicării este reducerea dimensionalității
setului de date.

Figura 10 - Pairs

În Figura 10, se pot observa legăturile dintre variabile.

9
Figura 11 – Matricea de corelație

Matricea de corelație ne arată intensitatea legăturilor dintre variabile. Astfel, se poate observa că între
numărul de imigranți și compensarea salariaților există o legătură directă foarte puternică. De asemenea, o legătură
puternică se regăsește și între speranța de viață și consumul de bunuri și servicii (Euro/An). O legătură indirectă
puternică se poate observa între rata mortalității și consumul de bunuri și servicii (Euro/An). Între rata șomajului și
numărul de imigranți există o corelație indirectă slabă. De asemenea, există o corelație indirectă medie între rata
natalității și indicele de poluare.

Deoarece am standardizat datele, matricea de corelație va fi identică cu matricea de covarianță.

Figura 12 – Valori proprii

În Figura 12, se pot observa valorile proprii ale fiecărei componente.

Figura 13 – Importanța fiecărei componente principale

În urma aplicării ACP, se poate observa că primele patru componente rețin 77,98% din informația totală
(29,62% în prima componentă, 23,38% în cea de-a doua, 13,86% în cea de-a treia si 11,1% în ultima componentă), o
cantitate suficientă pentru a considera că întregul set de observații poate fi rezumat print aceste patru componente
principale conform criteriului procentului de acoperire. De asemenea, vom aplica criteriul lui Kaiser, care presupune că

10
o componentă principală este aleasă dacă are valoarea proprie>1. Aplicând, vom avea λ1=1,88, λ2=1,67, λ3=1,28,
λ4=1,15. care au valorile peste 1, concluzia fiind aceeași.

Din câte se poate observa în figura 13, cele 12 variabile explică 100% din variația totală, primele patru
componente explicând 77,98% din varianța totală, suficient pentru a stabili reținerea a 4 componente principale în
continuarea analizei.

Prin intermediul componentelor principale se asigură conservarea variabilității din spațiul cauzal inițial, adică se
asigură conservarea integrală a varianței totale și varianței generalizate a variabilelor originale. Varianța totală poate fi
calculată ca sumă a elementelor de pe diagonala principală a matricii de covarianță sau ca sumă a valorilor proprii.

Figura 14 – Screeplot

11
Alegerea a patru componente principale este justificată și de Screeplot (graficul valorilor
proprii), care indică scăderea bruscă a valorilor proprii după cea de-a patra componentă.

Următorul pas este de a identifica loadings-ul componentelor. Aceștia ne indică cât din variația dintr-o
componentă este explicată de către o anumită variabilă. Cu cât este mai mare loadings-ul componentei, cu atât mai
importantă este variabila pentru componentă. Dacă variabilele dintr-o componentă sunt pozitiv corelate între ele, atunci
valoarea din loadings va fi pozitivă; analog pentru variabilele negativ corelative între ele dintr-o componentă. Ridicând o
observație din loadings la pătrat putem determina cât % din varianța componentei este determinată de acea variabilă.

Figura 15.1 – Loadings (Valori proprii)

Figura 15.2 – Loadings (Valori proprii complete)

12
Ecuatiile matematice:
W1 = 0,33*SV + 0,20*SMPD + 0,042*RN – 0,22*RM + 0,48*CS + 0,31*CBS + 0,065*IP + 0,077*GEG + 0,43*NE
+0,47*NI – 0,012*RS + 0,25*RC;

W2 = -0,35*SV + 0,42*SMDP – 0,36*RN + 0,46*RM + 0,11*CS – 0,40*CBS + 0,25*IP + 0,17*GEG + 0,20*NE +


0,16*NI + 0,019*RS + 0,13*RC;

W3 = 0,32*SV + 0.02*SMPD – 0,34*RN – 0,28*RM – 0,20*CS + 0,07*CBS + 0,43*IP + 0,58*GEG – 0,15*NE –


0,16*NI + 0,29*RS – 0,034*RC;

W4 = 0,14*SV + 0,041*SMPD – 0.30*RN + 0,038*RM + 0,03*CS – 0,061*CBS – 0,38*IP – 0,24*GEG + 0,21*NE +


0,059*NI + 0,7*RS – 0,38*RC;

Figura 15.2 – Loadings (Valori proprii complete)

Figura 15.3 – Valorile standardizate

W(Cehia) = 0,33*0,49 + 0,20*(-0,48) + 0,042*0,53 – 0,22*(-0,24) + 0,48*(-0,10) + 0,31*1,1 + 0,065*0,25 +


0,077*(-0,43) + 0,43*(-0,073) +0,47*(-0,13) – 0,012*(-0,20) + 0,25*0,52;

13
Figura 15 – Scoruri

Valoarea scorului pentru o componentă, vom lua ca exemplu prima componentă, este distanța de la
origine de-a lungul direcției primei componente, până la punctul unde acea observație se termină de proiectat pe
vectorul de direcție. Scorul se calculează ca:

𝑆𝑐𝑜𝑟𝑖𝑘=Σ𝑆𝑖𝑗𝐿𝑗𝑘

Unde:

 Sij este valoarea standardizată a observației i pe variabila j


 Ljk este loading-ul variabilei j pe componenta k

Figura 16.1 – Matricea de corelatie intre componentele principale

14
Figura 16.2 – Matricea de corelatie intre componentele principale

În figurile 16.1 și 16.2 se poate observa cum componentele principale sunt necorelate între ele conform
teoriei.

15
Figura 17 – Biplot
În figura 17, biplotul este folosit pentru a identifica corelațiile dintre variabilele originale și
componentele principale. Cu cât un vector corespunzător unei variabile originale are o lungime mai mare și o
direcție paralelă cu una din axele componentelor principale, cu atât acea variabile este mai corelată cu
componenta principală respectivă.

Figura 18 – Matricea factor

Matricea factor din figura 18 ne ajută prin analiza valorilor elementelor ei, în identificarea unei serii de
partiții sau clustere pe mulțimea variabilelor. Acestea, asociate cu anumite componente principale, pot conduce la
stabilirea unor semnificații pentru acele componente. Analiza elementelor matricii factor poate permite identificarea
acelor variabile originale care sunt reprezentate prin intermediul unei anumite componente principale. Identificându-le,
se creează posibilități de atribuire a unei semnificații concrete pentru fiecare componentă principală. Valorile matricii
factor reprezintă corelația între componentele principale și variabilele inițiale.

16
Bibliografie:

https://ec.europa.eu/eurostat/data/database

http://www.rasfoiesc.com/legal/administratie/demografie/INDICATORII-NIVELULUI-DE-TRAI-
22.php

17

S-ar putea să vă placă și