Documente Academic
Documente Profesional
Documente Cultură
Barangă Victor
Cazacu Andrei-Daniel
Grupa 1057
1
Cuprins:
2
1. Descrierea datelor
Pentru această analiză am considerat un set de date ce conține indicatori privind nivelul de trai la nivelul
țărilor din Uniunea Europeană în anul 2016. Aceștia prevăd valorile ce au fost înregistrate după analizarea
următorilor factori: speranța de viață (SE), numărul de persoane foarte afectate financiar (SMDP), rata natalitatii
(RN), rata mortalitatii (RM), compensarea salariatilor (CS), consumul de bunuri si servicii (CBS), indicele de
poluare (IP), diferența de ocupare a forței de muncă între femei și bărbați (GEG), numarul de emigranti (NE),
numarul de imigranti (NI), rata somajului (RS), rata criminalitatii (RC).
Descriere variabile:
2.Statistici descriptive
De asemenea, am calculat și abaterea standard, care ne arată că valorile se abat cu 8737,546 față de
medie. Cu ajutorul mediei si abaterii standard, am calculat coeficientul de variație, acesta fiind egal cu 0.5803
(58,03%). De aici, putem deduce faptul ca seria este omogenă, iar media și mediana sunt reprezentative.
4
Figura 2 - Histograma NE
Datele ce caracterizează numărul de emigranți prezintă o asimetrie puternică la dreapta, skewness fiind egal
cu 1.187614, având o aplatizare platicurtică, kurtosis fiind egal cu -0.113767.
Figura 3 - Histograma RN
Rata natalității prezintă o ușoară asimetrie la dreapta (skewness= 0.7545456), în timp ce aplatizarea este una
platicurtică (kurtosis = 1.06636).
5
Figura 4 - Histograma SV
Speranța de viață la nivelul celor 28 de țări prezintă o asimetrie la stânga, coeficientul fiind egal cu
-0.7225751, în timp ce aplatizarea este platicurtică, coeficientul fiind -1.07965.
Boxplot-ul ce caracterizează Gender Employment Gap prezintă un singur outlier, acesta fiind înregistrat în
statul Malta.
6
Figura 6 - Boxplot IP
Indicele de poluare prezintă, de asemenea, un singur outlier înregistrat în același stat (Malta).
Figura 7 - Boxplot RC
7
Figura 8 - Boxplot SMDP
Persoanele cu cele mai multe deficiențe financiare, conform boxplot-ului prezentat mai sus, se regăsesc
în Ungaria.
Figura 9 - Boxplot RS
Boxplot-ul ce caracterizează rata șomajului prezintă doi outlieri, aceștia fiind înregistrati în Grecia și Spania.
8
3.Analiza Componentelor Principale
Analiza componentelor principale (ACP), este o procedură statistică care folosește transformarea ortogonală
pentru a converti un set de observații cu variabile posibil corelate într-un set de valori cu variabile liniar necorelate,
numite componente principale. Această transformare este definită în așa fel încât, prima componentă principală are cea
mai mare varianță posibilă și fiecare componentă care urmează preia cea mai mare varianță posibilă cu condiția ca
aceasta să fie ortogonală cu componentele precedente. Scopul principal al aplicării este reducerea dimensionalității
setului de date.
Figura 10 - Pairs
9
Figura 11 – Matricea de corelație
Matricea de corelație ne arată intensitatea legăturilor dintre variabile. Astfel, se poate observa că între
numărul de imigranți și compensarea salariaților există o legătură directă foarte puternică. De asemenea, o legătură
puternică se regăsește și între speranța de viață și consumul de bunuri și servicii (Euro/An). O legătură indirectă
puternică se poate observa între rata mortalității și consumul de bunuri și servicii (Euro/An). Între rata șomajului și
numărul de imigranți există o corelație indirectă slabă. De asemenea, există o corelație indirectă medie între rata
natalității și indicele de poluare.
În urma aplicării ACP, se poate observa că primele patru componente rețin 77,98% din informația totală
(29,62% în prima componentă, 23,38% în cea de-a doua, 13,86% în cea de-a treia si 11,1% în ultima componentă), o
cantitate suficientă pentru a considera că întregul set de observații poate fi rezumat print aceste patru componente
principale conform criteriului procentului de acoperire. De asemenea, vom aplica criteriul lui Kaiser, care presupune că
10
o componentă principală este aleasă dacă are valoarea proprie>1. Aplicând, vom avea λ1=1,88, λ2=1,67, λ3=1,28,
λ4=1,15. care au valorile peste 1, concluzia fiind aceeași.
Din câte se poate observa în figura 13, cele 12 variabile explică 100% din variația totală, primele patru
componente explicând 77,98% din varianța totală, suficient pentru a stabili reținerea a 4 componente principale în
continuarea analizei.
Prin intermediul componentelor principale se asigură conservarea variabilității din spațiul cauzal inițial, adică se
asigură conservarea integrală a varianței totale și varianței generalizate a variabilelor originale. Varianța totală poate fi
calculată ca sumă a elementelor de pe diagonala principală a matricii de covarianță sau ca sumă a valorilor proprii.
Figura 14 – Screeplot
11
Alegerea a patru componente principale este justificată și de Screeplot (graficul valorilor
proprii), care indică scăderea bruscă a valorilor proprii după cea de-a patra componentă.
Următorul pas este de a identifica loadings-ul componentelor. Aceștia ne indică cât din variația dintr-o
componentă este explicată de către o anumită variabilă. Cu cât este mai mare loadings-ul componentei, cu atât mai
importantă este variabila pentru componentă. Dacă variabilele dintr-o componentă sunt pozitiv corelate între ele, atunci
valoarea din loadings va fi pozitivă; analog pentru variabilele negativ corelative între ele dintr-o componentă. Ridicând o
observație din loadings la pătrat putem determina cât % din varianța componentei este determinată de acea variabilă.
12
Ecuatiile matematice:
W1 = 0,33*SV + 0,20*SMPD + 0,042*RN – 0,22*RM + 0,48*CS + 0,31*CBS + 0,065*IP + 0,077*GEG + 0,43*NE
+0,47*NI – 0,012*RS + 0,25*RC;
13
Figura 15 – Scoruri
Valoarea scorului pentru o componentă, vom lua ca exemplu prima componentă, este distanța de la
origine de-a lungul direcției primei componente, până la punctul unde acea observație se termină de proiectat pe
vectorul de direcție. Scorul se calculează ca:
𝑆𝑐𝑜𝑟𝑖𝑘=Σ𝑆𝑖𝑗𝐿𝑗𝑘
Unde:
14
Figura 16.2 – Matricea de corelatie intre componentele principale
În figurile 16.1 și 16.2 se poate observa cum componentele principale sunt necorelate între ele conform
teoriei.
15
Figura 17 – Biplot
În figura 17, biplotul este folosit pentru a identifica corelațiile dintre variabilele originale și
componentele principale. Cu cât un vector corespunzător unei variabile originale are o lungime mai mare și o
direcție paralelă cu una din axele componentelor principale, cu atât acea variabile este mai corelată cu
componenta principală respectivă.
Matricea factor din figura 18 ne ajută prin analiza valorilor elementelor ei, în identificarea unei serii de
partiții sau clustere pe mulțimea variabilelor. Acestea, asociate cu anumite componente principale, pot conduce la
stabilirea unor semnificații pentru acele componente. Analiza elementelor matricii factor poate permite identificarea
acelor variabile originale care sunt reprezentate prin intermediul unei anumite componente principale. Identificându-le,
se creează posibilități de atribuire a unei semnificații concrete pentru fiecare componentă principală. Valorile matricii
factor reprezintă corelația între componentele principale și variabilele inițiale.
16
Bibliografie:
https://ec.europa.eu/eurostat/data/database
http://www.rasfoiesc.com/legal/administratie/demografie/INDICATORII-NIVELULUI-DE-TRAI-
22.php
17