Documente Academic
Documente Profesional
Documente Cultură
2021
Contents
Introducere. Obiectiv ........................................................................................................................ 2
Prezentarea datelor.Motivația alegerilor .......................................................................................... 2
Analiza distribuției variabilelor ........................................................................................................ 4
1.Statistici descriptive ................................................................................................................... 4
2.Valori minime. Valori maxime .................................................................................................. 7
3.Forma distribuțiilor. Gradul de aplatizare ................................................................................. 9
Concluzie .................................................................................................................................... 15
Analiza Componentelor Principale ................................................................................................ 16
Identificarea loadings-ului componentelor ................................................................................. 21
Forma matematică a componentelor: ......................................................................................... 22
Contribuțiile variabilelor la varianțele componentelor ............................................................... 35
Anexe ............................................................................................................................................. 37
Bibliografie ................................................................................................................................. 37
Tabele și figuri ............................................................................................................................ 37
Codul R ....................................................................................................................................... 38
Date înainte de eliminare outlieri ............................................................................................... 47
Date după eliminare outlieri ....................................................................................................... 48
Introducere. Obiectiv
Datele au fost extrase de pe platforma WordBank, fiind corespunzătoare anului 2017. În analiză,
am extras observații pentru 174 de țări, cum ar fi Africa, Angola, Bulgaria, Finlanda, România și
multe altele. Indicatorii prezentați sunt următorii: Numărul femeilor care aduc contribuții
familiei, Numărul femeilor angajate în domeniul agriculturii, Numărul femeilor angajate în
industrie, Numărul femeilor angajate în servicii, Numărul femeilor angajate de la varsta de 15
ani, Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani, Speranța de
viață la naștere a femeilor, Rata de ocupare a funcțiilor în Parlament a femeilor, Numărul
femeilor devenite propriile angajate, Numărul femeilor neangajate cu varsta între 15-24 de ani,
Numărul femeilor angajate pe un post vulnerabil.
Figură 1 Setul de date nestandardizat
*am afișat doar primele 30 de tări din 174, întrucât este un set mare de date
Analiza distribuției variabilelor
Trebuie specificat faptul că în cod s-au folosit următoarele notații pentru indicatorii analizați:
Cod Denumire Indicator
V1 Numărul femeilor care aduc contribuții familiei(%)
V2 Numărul femeilor angajate în domeniul agriculturii(%)
V3 Numărul femeilor angajate în industrie(%)
V4 Numărul femeilor angajate în servicii(%)
V5 Numărul femeilor angajate de la varsta de 15 ani(%)
V6 Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani(%)
V7 Speranța de viață la naștere a femeilor(ani)
V8 Rata de ocupare a funcțiilor în Parlament a femeilor(%)
V9 Numărul femeilor devenite propriile angajate(%)
V10 Numărul femeilor neangajate cu varsta între 15-24 de ani(%)
V11 Numărul femeilor angajate pe un post vulnerabil(%)
Tabel 1 Codurile variabilelor
Inițial, am verificat dacă există valori lipsă în setul de date. În urma rulării comenzii, s-a observat
că setul de date este complet.
1.Statistici descriptive
Quartila 1 este de 0.99, ceea ce înseamnă că 25% din Numărul femeilor care aduc contribuții
familiei este mai mic de 0.99, iar 75% din Numărul femeilor care aduc contribuții familiei este mai
mare de 0.99. Mediana este de 6.72, ceea ce înseamnă că 50% din valorile Numărul femeilor care
aduc contribuții familiei sunt mai mici de 6.72, iar 50% din valorile Numărul femeilor care aduc
contribuții familiei sunt mai mari de 6.72. Quartila 3 este de 21.5, ceea ce înseamnă că 75% din
valorile Numărului femeilor care aduc contribuții familiei sunt mai mici de 21.5, iar 25% din
valorile Numărului femeilor care aduc contribuții familiei sunt mai mari de 21.5.
În medie, valorile Numărului femeilor care aduc contribuții familiei au fost de 12.6. Valorile se
abat cu 14.36 de la medie. Această abatere este relativ mare, în comparație cu media, așadar este
considerabilă.
Un procent de 25% din Numărul femeilor angajate în domeniul agriculturii este sub 3.7, iar 75%
din valoarea Numărului femeilor angajate în domeniul agriculturii este peste 3.7. Un procent de
50% din valoarea Numărului femeilor angajate în domeniul agriculturii este peste 14.94, iar 50%
din valoarea Numărului femeilor angajate în domeniul agriculturii este sub 14.94. Un procent de
75% din valoarea Numărului femeilor angajate în domeniul agriculturii este sub 41.19, iar 25%
din valoarea Numărului femeilor angajate în domeniul agriculturii este peste 41.19.
Valoarea medie a Numărului femeilor angajate în domeniul agriculturii a fost de 24.26.
Abaterea standard de la medie este de 24.81. Aceasta este mai mare decat valoarea medie, așadar
este de luat în considerare.
Quartila 1 este de 7.12, ceea ce înseamnă că 25% din valorile Numărului femeilor angajate în
industrie sunt sub 7.12, iar 75% din valorile Numărului femeilor angajate în industrie sunt peste
de 7.12. Mediana este de 9.89, ceea ce înseamnă că 50% din valorile Numărului femeilor angajate
în industrie sunt sub 9.89, iar 50% din valorile Numărului femeilor angajate în industrie sunt peste
9.89. Quartila 3 este de 15.35, ceea ce înseamnă că 75% din valorile Numărului femeilor angajate
în industrie sunt sub 15.35, iar 25% din valorile Numărului femeilor angajate în industrie sunt
peste 15.35.
În medie, valorile Numărului femeilor angajate în industrie au fost de 11.37. Valorile se abat cu
6.09 de la medie. Comparativ cu media, care este 11.37, valoare este considerabilă.
25% din valorile Numărului femeilor angajate în servicii sunt mai mici de 46.06, iar 75% din
valorile Numărului femeilor angajate în servicii sunt mai mari de 46.06, conform quartilei 1. 50%
din valorile Numărului femeilor angajate în servicii sunt mai mici de 72.32, iar 50% din valorile
Numărului femeilor angajate în servicii sunt mai mari de 72.32, conform medianei. 75% din
valorile Numărului femeilor angajate în servicii sunt mai mici de 85.56, iar 25% din valorile
Numărului femeilor angajate în servicii sunt mai mari de 85.56, conform quartilei 3.
În medie, valorile Numărului femeilor angajate în servicii au fost de 64.36. Valorile prezintă o
abatere mică de la medie, și anume 23.91.
Un procent de 25% din Numărul femeilor angajate de la varsta de 15 ani este sub 41.95, iar 75%
din Numărul femeilor angajate de la varsta de 15 ani sunt peste 41.95. Mediana este de 49.02, ceea
ce înseamnă că 50% din Numărul femeilor angajate de la varsta de 15 ani sunt sub 49.02, iar 50%
din Numărul femeilor angajate de la varsta de 15 ani sunt peste 49.02. Quartila 3 este de 57.06,
ceea ce înseamnă că 75% din Numărul femeilor angajate de la varsta de 15 ani sunt sub 57.06, iar
25% din Numărul femeilor angajate de la varsta de 15 ani sunt peste 57.06.
În medie, Numărul femeilor angajate de la varsta de 15 ani au fost de 48.31. Abaterea standard
de la medie este de 14.28, așadar nu este de luat în considerare.
25% din Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani sunt mai
mici de 45.66, iar 75% din Rata de participare la forța de muncă a femeilor începând cu varsta de
15 ani sunt mai mari de 45.66, conform quartilei 1. Valoarea medianei este de 53.04, ceea ce
înseamnă că 50% din Rata de participare la forța de muncă a femeilor începând cu varsta de 15
ani sunt mai mici de 53.04, iar 50% din Rata de participare la forța de muncă a femeilor începând
cu varsta de 15 ani sunt mai mari de 53.04. Quartila 3 este de 60.77, ceea ce înseamnă că 75% din
Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani sunt mai mici de
60.77, iar 25% din Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani
sunt mai mari de 60.77.
În medie, Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani au fost
de 52.27. Abaterea standard este de 14, ceea ce conduce în a afirma că valorile setului de date nu
prezintă abateri mari de la medie.
Quartila 1 este de 67.91, ceea ce înseamnă că 25% din Speranța de viață la naștere a femeilor
sunt mai mici de 67.91, iar 75% din Speranța de viață la naștere a femeilor sunt mai mari de 67.91.
50% din Speranța de viață la naștere a femeilor sunt mai mici de 76.75, iar 50% din Speranța de
viață la naștere a femeilor sunt mai mari de 76.75. Quartila 3 este de 80.28, ceea ce înseamnă că
75% din Speranța de viață la naștere a femeilor sunt mai mici de 80.28, iar 25% din Speranța de
viață la naștere a femeilor sunt mai mari de 80.28.
Valoarea medie a Speranței de viață la naștere a femeilor a fost de 74.56 în anul 2017. Valorile
se abat de la medie cu 7.74, așadar nu este de luat în considerare.
Un procent de 25% din Rata de ocupare a funcțiilor în Parlament a femeilor este sub 13.96, iar
75% din valoarea Ratei de ocupare a funcțiilor în Parlament a femeilor este peste 13.96. Un
procent de 50% din valoarea Ratei de ocupare a funcțiilor în Parlament a femeilor este peste 20.63,
iar 50% din valoarea Ratei de ocupare a funcțiilor în Parlament a femeilor este sub 20.63. Un
procent de 75% din valoarea Ratei de ocupare a funcțiilor în Parlament a femeilor este sub 29.27,
iar 25% din valoarea Ratei de ocupare a funcțiilor în Parlament a femeilor este peste 29.27.
Valoarea medie a Ratei de ocupare a funcțiilor în Parlament a femeilor a fost de 21.93. Abaterea
standard de la medie este de 10.78. Aceasta reprezintă jumătate din valoarea medie, așadar este de
luat în considerare.
Quartila 1 este de 12.5, ceea ce înseamnă că 25% din valorile Numărului femeilor devenite
propriile angajate sunt sub 12.5, iar 75% din valorile Numărului femeilor devenite propriile
angajate sunt peste de 12.5. Mediana este de 35.8, ceea ce înseamnă că 50% din valorile Numărului
femeilor devenite propriile angajate sunt sub 35.8, iar 50% din valorile Numărului femeilor
devenite propriile angajate sunt peste 35.8. Quartila 3 este de 71.89, ceea ce înseamnă că 75% din
valorile Numărului femeilor devenite propriile angajate sunt sub 71.89, iar 25% din valorile
Numărului femeilor devenite propriile angajate sunt peste 71.89.
În medie, valorile Numărului femeilor devenite propriile angajate au fost de 42.05. Valorile se
abat cu 30.61 de la medie. Comparativ cu media, care este 42.05, valoarea este considerabilă.
25% din valorile Numărului femeilor neangajate cu varsta între 15-24 de ani sunt mai mici de
8.75, iar 75% din valorile Numărului femeilor neangajate cu varsta între 15-24 de ani sunt mai
mari de 8.75, conform quartilei 1. 50% din valorile Numărului femeilor neangajate cu varsta între
15-24 de ani sunt mai mici de 14.56, iar 50% din valorile Numărului femeilor neangajate cu varsta
între 15-24 de ani sunt mai mari de 14.56, conform medianei. 75% din valorile Numărului femeilor
neangajate cu varsta între 15-24 de ani sunt mai mici de 25.29, iar 25% din valorile Numărului
femeilor neangajate cu varsta între 15-24 de ani sunt mai mari de 25.29, conform quartilei 3.
În medie, valorile Numărului femeilor neangajate cu varsta între 15-24 de ani au fost de 18.57.
Valorile prezintă o abatere considerabilă de la medie, și anume 13.06.
Un procent de 25% din Numărul femeilor angajate pe un post vulnerabil este sub 9.76, iar 75%
din Numărul femeilor angajate pe un post vulnerabil sunt peste 9.76. Mediana este de 34.89, ceea
ce înseamnă că 50% din Numărul femeilor angajate pe un post vulnerabil sunt sub 34.89, iar 50%
din Numărul femeilor angajate pe un post vulnerabil sunt peste 34.89. Quartila 3 este de 70.93,
ceea ce înseamnă că 75% din Numărul femeilor angajate pe un post vulnerabil sunt sub 70.93, iar
25% din Numărul femeilor angajate pe un post vulnerabil sunt peste 70.93.
În medie, Numărul femeilor angajate pe un post vulnerabil au fost de 40.43. Abaterea standard
de la medie este de 31.07, așadar este de luat în considerare.
Numărul femeilor angajate în domeniul agriculturii atinge cea mai mică valoare pentru Emiratele
Arabe și Qatar, și anume 0.01.
Maximul este reprezentat de valoarea 93.87, corespunzătoare țării Burundi.
Somalia are cea mai mică valoare a Numărului femeilor angajate în industrie, și anume 0.8. La
polul opus, valoarea maximă a Numărului femeilor angajate în industrie a fost de 27.23, pentru Sri
Lanka.
Minimul din Numărul femeilor angajate în servicii este înregistrat de Burundi, cu valoare de 5.2.
Maximul din Numărul femeilor angajate în servicii a fost înregistrat de Arabia Saudită, cu
valoare de 97.63.
Cea mai mică valoare a Numărului femeilor angajate de la varsta de 15 ani a fost de 10.84.
Valoarea corespunde Iordaniei.
Cea mai mare valoare a Numărului femeilor angajate de la varsta de 15 ani a fost de 81.89.
Valoarea a fost înregistrată de Madagascar.
Minimul din Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani a
fost de 14.27. Valoarea corespunde Iordaniei.
Maximul din Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani a
fost de 83.35, pentru Madagascar.
Cea mai mică valoare a Speranței de viață la naștere a femeilor a fost de 54.35, în Republica
Centrală Africană.
Cea mai mare valoare a Speranței de viață la naștere a femeilor a fost de 87.26, înregistrată în
Japonia.
Rata de ocupare a funcțiilor în Parlament a femeilor atinge cea mai mică valoare pentru Vanuatu
și Papua Noua Guineer, și anume 0.
Maximul este reprezentat de valoarea 53.08, corespunzătoare Boliviei.
Qatar are cea mai mică valoare a Numărului femeilor devenite propriile angajate, și anume 0.4.
La polul opus, valoarea maximă a Numărului femeilor angajate în industrie a fost de 98.12 pentru
Nigeria.
Minimul din Numărul femeilor neangajate cu varsta între 15-24 de ani este înregistrat de Nigeria,
cu valoare de 0.37.
Maximul din Numărul femeilor neangajate cu varsta între 15-24 de ani a fost înregistrat de
Africa de Sud, cu valoare de 58.92.
Minimul din Numărul femeilor angajate pe un post vulnerabil este înregistrat de Kuwait, cu valoare
de 0.03.
Maximul din Numărul femeilor angajate pe un post vulnerabil a fost înregistrat de Nigeria, cu
valoare de 97.88.
Coeficientul de asimetrie al Numărului femeilor angajate în industrie este de 0.55, așadar seria
este asimetrică la dreapta, deoarece coeficientul este mai mare decât 0. Trebuie menționat faptul
că predomină valorile mai mici decât media.. De asemenea, forma distribuției este platicurtică,
tinde să fie mezocurtică, întrucât coeficientul de aplatizare este de 2.68.
Graficul boxplot indică ușoara asimetrie la dreapta. Totodată, setul de date nu prezintă outlieri.
Seria Numărul femeilor angajate în servicii este asimetrică la stânga cu un coeficient de -0.53,
predominând valorile mai mari decât media. De asemenea, forma distribuției este platicurtică, tinde
să fie mezocurtică, întrucât coeficientul de aplatizare este de 2.05.
În urma analizei graficului boxplot, se observă că seria este asimetrică la stânga. Totodată, setul
de date nu prezintă outlieri
Figură 4 Histogramele setului de date (V5,V6,V7,V8)
Seria Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani este
asimetrică la stânga cu un coeficient de -0.46, predominând valorile mai mari decât media. De
asemenea, forma distribuției este leptocurtică, întrucât coeficientul de aplatizare este de 3.4.
În urma analizei graficului boxplot, se observă că seria este asimetrică la stânga. Din cauza
prelucrării în Excel, graficul prezintă outlieri.
Seria Speranța de viață la naștere a femeilor este asimetrică la stânga cu un coeficient de -0.54,
predominând valorile mai mari decât media. De asemenea, forma distribuției este platicutică,
întrucât coeficientul de aplatizare este de 2.27.
În urma analizei graficului boxplot, se observă că seria este asimetrică la stânga.
Concluzie
Proporția 0.5006 0.2024 0.0985 0.0827 0.0491 0.0316 0.0241 0.0100 0.0004 0.00003 0.000000001
Varianței 886 600 8717 6037 2958 9266 8261 5833 077332 29786 496551
Proporția 0.5006 0.7031 0.8017 0.8844 0.9336 0.9653 0.9895 0.9995 0.9999 0.9999 1.000000000
Cumulată 886 486 3575 9612 2569 1835 0096 5929 670199 999985
Analiza Componentelor Principale a fost realizată pe date standardizate. Întrucât datele sunt
standardizate, matricea de corelație este aceeași cu matricea de covarianță, așadar am ales să lucrez
doar pe matricea de corelație.
Componentele care au reieșit în urma rulării comenzii princomp reprezintă variabile nou create
ca și combinație liniară de cele inițiale. Pentru fiecare, este prezentată abaterea standard, proporția
variației și proporția variației cumulate. Proporția variației arată cât la sută din informația totală
este preluată de fiecare componentă principală. Astfel, Componenta 1 prezintă o abatere de la
medie de 2,34. Aceasta preia 50,06%, o cantitate suficientă pentru a considera că întregul set de
observații poate fi rezumat prin aceasta componenta principala conform criteriului procentului
de acoperire. De asemenea, vom aplica criteriul lui Kaiser, care presupune că o componentă
principală este aleasă dacă are valoarea proprie>1. A doua componentă preia următoarea cea mai
mare cantitate de informație, iar acest lucru era de așteptat, deoarece Numărul femeilor angajate în
domeniul agriculturii era cea mai mare variabilă. A doua componentă are o abatere mai mică în
comparație cu prima, de 1,49. Procentul de informație preluat de cele două componente este unul
foarte mare, și anume 70,31%. Treptat se observă cum abaterile standard scad, și odată cu ele și
cantitatea de informație preluată. De exemplu, ultima componentă, Numărul femeilor angajate pe
un post vulnerabil, preia cea mai nesemnificativă cantitate de informație, și anume 0,00000015%.
Așadar, am putut observa cum primele două componente preiau cea mai mare cantitate de
informație din date. Astfel, se justifică reducerea dimensionalității, care ar ușura analiza
informațiilor.
Valoare proprie
Comp. 1 5.507575
Comp. 2 2.227059
Comp. 3 1.084459
Comp. 4 0.910364
Comp. 5 0.5404253
Comp. 6 0.3486192
Comp. 7 0.2660087
Comp. 8 0.1106416
Comp. 9 0.004485066
Comp. 10 0.0003627646
Comp. 11 0.00000001646206
Tabel 6 Valorile proprii asociate
Valorile proprii au fost identificate prin calcularea varianței fiecărei componente. Gradul de
împrăștiere al valorilor componentei 1 față de media lor este de 5,5, deoarece varianța este de 5,5.
În ceea ce privește componenta 2, gradul de împrăștiere al valorilor față de media lor este 2,22,
iar pentru componenta 3, gradul de împrăștiere al valorilor față de media lor este 1,08. Așadar,
valoarea proprie a primei componente este 3.74. Valoarea proprie a celei de-a doua componente
este 1.83, iar cea a componentei a treia este 1,08. Se observă că pe măsură ce ne îndepărtăm de
primele două componente valorile proprii scad. Componentele 9, 10 și 11 au valorile de 0.004,
0.0003, respectiv 0000000016.. Totodată, fiecărei valori proprii îi este asociat un vector propriu,
prezentat în Figura 12. Aceștia au valori atât negative, cât și pozitive.
Matricea factor din figura 12 ne ajută prin analiza valorilor elementelor ei, în identificarea unei
serii de partiții sau clustere pe mulțimea variabilelor. Acestea, asociate cu anumite componente
principale, pot conduce la stabilirea unor semnificații pentru acele componente. Analiza
elementelor matricii factor poate permite identificarea acelor variabile originale care sunt
reprezentate prin intermediul unei anumite componente principale. Identificându-le, se creează
posibilități de atribuire a unei semnificații concrete pentru fiecare componentă principală.
Valorile matricii factor reprezintă corelația între componentele principale și variabilele inițiale.
=0.35*1.3+0.4*1.55-0.09*(-1.02)-0.39*(-1.36)+0.19*0.91+0.17*0.97-0.35*(-1.18)-
0.04*0.63+0.41*1.2-0.19*(-0.35)+0.41*1.2
=3.4733
W2 =0.13*V1+0.09*V2+0.16*V3-0.14*V4-0.58*V5-0.56*V6-0.18*V7-0.29*V8+0.1*V9-
0.39*V10+0.1*V11
=0.13*0.41+0.09*0.52+0.16*0.15-0.14*(-0.57)-0.58*0.15-0.56*0.11-0.18*(-2.08)-
0.29*(-0.62)+0.1*1.5-0.39*(-0.49)+0.1*1.5
=1.1006
W3 = 0.06*V1-0.1*V2+0.84*V3-0.11*V4+0.08*V5-0.01*V6+0.18*V7-0.27*V8+0.02*V9-
0.4*V10+0.02*V11
=0.06*0.1-0.1*1.33+0.84*(-1.7)-0.11*(-0.94)+0.08*1.55-0.01*1.7+0.18*(-1.46)-
0.27*0.79+0.02*1.47-0.4*(-0.18)+0.02*1.41
=-1.6911
.
Valoarea scorului este distanța de la origine de-a lungul direcției unei componente, până
la punctul unde acea observație se termină de proiectat pe vectorul de direcție. Scorul se calculează
ca:
𝑆𝑐𝑜𝑟𝑖𝑘=Σ𝑆𝑖𝑗𝐿𝑗𝑘
Unde:
În figura 18 se poate observa cum componentele principale sunt necorelate între ele conform
teoriei.
Criteriul pantei-realizam o taietura in grafic astfel incat in dreapta, panta sa fie aproape de 0
*criteriul de alegere al datelor: realizam o taietura in grafic intre a 6a si a 7a valoare proprie, primul intreg
inainte de paralela la Oy, deci alegem componenta 6 (W6)
Figură 20 1
Graficul scree plot este vital în analiza componentelor principale, întrucât ne ajută să reducem
dimensionaliatea setului de date prin identificarea acelor componente care ar trebui înlăturate.
Analizându-l, se poate observa modul în care descresc valorile proprii, fiind puțin abruptă de la
componenta 1, până la componenta 5, după care se stabilizează. Dacă realizăm o tăietura imaginară
asupra graficului, se observă că deasupra acesteia ar rămâne componentele 1,2,3,4,5,6. Mai mult,
pentru verificare și pentru respectarea preciziei în alegerea componentelor care ne oferă un maxim
de informație, se folosește criteriul lui Kaiser. Acest criteriu indică faptul că se păstrează atâtea
componente câte valori proprii peste 1 avem. Se poate aplica în această situație, deoarece datele
sunt standardizate. În cazul nostru, valorile proprii peste 1 corespund primelor trei componente,
fiind 5.507575, 2.227059 Și 1.084459.
Figură 12 Matricea factor plot
În Figura 21. am realizat matricea factor, văzând corelația celor 3 componente care extrag
cel mai mare procent al informației împreună cu variabilele alese. V1, V2, V9, V11 se corelează
puternic, direct, cu prima componentă. Așadar, prima componentă preia un volum mare de
informație din Numărul femeilor care aduc contribuții familiei, Numărul femeilor angajate în
domeniul agriculturii, Numărul femeilor devenite propriile angajate, respectiv Numărul femeilor
angajate pe un post vulnerabil. A doua și a treia componentă preiau un volum mare de informație
din V10 (Numărul femeilor neangajate cu varsta între 15-24 de ani), respectiv din V3 (Numărul
femeilor angajate în industrie). În schimb, V4 și V7 se corelează puternic, dar invers cu prima
componentă, iar V5 și V6 cu a doua.
Figură 13 Cercul corelațiilor W1-W2
Figure 2 GGplot 2
Figure 3 GGplot 3
Figure 6. evidențiază cele 174 de țări în urma aplicării principiului analizei componentelor
principale.
În urma păstrării celor trei componente, am rulat comanda summary. Se observă că informațiile
au rămas aceleași în ceea ce privește abatarea standard și proporția variației. Cele trei componente
preiau împreună 80.17% din informație. Al doilea output initulat Individuals se referă la entitățile
analizate, iar al treilea, Variables, la variabile. Pentru Dim. 1 avem coeficientul de corelație între
variabilele originale și componenta 1, pe Dim. 2 avem coeficientul de corelație între variabilele
originale și componenta 2, iar pe Dim. 3 avem coeficientul de corelație între variabilele originale
și componenta 3.
Figure 7 Outputul comenzii summary după păstrarea celor două componente principale
=0.683*100/(0.683+0.874+0.047+0.836+0.199+0.167+0.671+0.009+0.914+0.191+0.917)=12.40015~
12.401=ctr V1
Contribuția lui V2 la varianța componentei W2 este egală cu:
=0.038*100/(0.038+0.019+0.053+0.04+0.739+0.702+0.075+0.184+0.022+0.331+0.024)=1.706331~1.711
=ctr V2
=0.004*100/(0.004+0.01+0.763+0.014+0.008+0+0.035+0.08+0+0.169+0)=0.369344~0.372=ctrV3
Anexe
Bibliografie
o Sursa datelor: https://data.worldbank.org/topic/gender
o Seminar Analiza Datelor – Zamfir Ionela Cătălina
o Curs Analiza Datelor – Stancu Stelian
Tabele și figuri
Tabel 1 Codurile variabilelor ......................................................................................................................... 4
Tabel 2 Statistici descriptive .......................................................................................................................... 5
Tabel 3 Valori minime. Valori maxime .......................................................................................................... 7
Tabel 4 Coeficientul de asimetrie, Abaterea standard, Coeficientul de aplatizare....................................... 9
Tabel 5 Sinteza rezultatelor ......................................................................................................................... 19
Tabel 6 Valorile proprii asociate .................................................................................................................. 20
Codul R
setwd("C:/Users/bianc/Desktop/AD")
dir()
part1<-read.table("Date_finale.txt",header=TRUE,sep="\t")
View(as.matrix(part1))
library(moments)
#Matricea standardizata
part1s<-scale(part1[,2:12],center=TRUE,scale=TRUE)
View(part1s)
#Matricea de covarianta
part1_cov<-round(cov(part1s),2)
View(part1_cov)
lipsa<-is.na(part1)
View(lipsa)
#Statistici descriptive
stat<-summary(part1[,2:12])
stat
attach(part1)
#SL.FAM.WORK.FE.ZS
skewness(V1) #1.224243
kurtosis(V1) #3.6733
sd(V1) #14.3650
#SL.AGR.EMPL.FE.ZS
skewness(V2) #0.8615
kurtosis(V2)#2.5010
sd(V2)#24.8117
#SL.IND.EMPL.FE.ZS
skewness(V3) #0.555
kurtosis(V3)#2.685
sd(V3)#6.099
#SL.SRV.EMPL.FE.ZS
skewness(V4) #-0.5319
kurtosis(V4)#2.0553
sd(V4)#23.9102
#SL.EMP.TOTL.SP.FE.ZS
skewness(V5) #-0.3036
kurtosis(V5)#3.3
sd(V5)#14.2862
#SL.TLF.CACT.FE.ZS
skewness(V6) #-0.4664
kurtosis(V6)#3.4054
sd(V6)#14.0071
#SP.DYN.LE00.FE.IN
skewness(V7) #-0.5426
kurtosis(V7)#2.2770
sd(V7)#7.7456
#SG.GEN.PARL.ZS
skewness(V8) #0.3275
kurtosis(V8)#2.6301
sd(V8)#10.7821
#SL.EMP.SELF.FE.ZS
skewness(V9) #0.3613
kurtosis(V9)#1.6836
sd(V9)#30.6137
#SL.UEM.1524.FE.ZS
skewness(V10) #0.9706
kurtosis(V10)#3.1592
sd(V10)#13.0663
#SL.EMP.VULN.FE.ZS
skewness(V11) #0.3666
kurtosis(V11)#1.6732
sd(V11)#31.0784
#Histograme
windows()
par(mfrow=c(2,2))
hist(V1, col=32, main="Histograma V1-Numărul femeilor care aduc contribuții familiei ")
windows()
par(mfrow=c(2,2))
windows()
par(mfrow=c(1,3))
hist(V10, col=709, main="Histograma V10-Numărul femeilor neangajate cu varsta între 15-24 de ani")
#Boxplot uri
windows()
par(mfrow=c(2,2))
windows()
par(mfrow=c(2,2))
par(mfrow=c(1,3))
#Matricea de corelatie
corel<-round(cor(part1[,2:12]),2)
View(corel)
corel
install.packages("Hmisc")
install.packages("PerformanceAnalytics")
install.packages("corrplot")
library(corrplot)
library(Hmisc)
library(PerformanceAnalytics)
c<-rcorr(as.matrix(part1[,2:12]))
windows()
pca<-princomp(part1s, cor=TRUE)
pca
summary(pca)
windows()
plot(pca, type="l",main="Scree plot") #Vom pastra primele doua componente. Acest fapt reiese si prin
aplicarea criteriului
#lui Kaiser
#Criteriul pantei-realizam o taietura in grafic astfel incat in dreapta panta sa fie aproape de 0
#criteriul de alegere al datelor-crit pantelor realizam o taietura in grafic intre a 6a si a 7a valoare proprie,
primul intreg inainte de paralela la Oy, deci a=4
windows()
plot(pca,
type='l',
main="scree plot")
abline(v=6.5,lwd=3,col="green")
abline(h=0.3,lwd=3,col="red")
pca$loadings
scor<-pca$scores
scor
var(scor[,1])
var(scor[,2])
var(scor[,3])
var(scor[,4])
var(scor[,5])
var(scor[,6])
var(scor[,7])
var(scor[,8])
var(scor[,9])
var(scor[,10])
var(scor[,11])
View(cor(scor))
#Matricea factor
s<-summary(pca)
p<-pca$loadings
p[,1:11]
mfac<-cor(part1[,2:12], scor[,1:3])
View(mfac)
library(corrplot)
windows()
corrplot(mfac,method="square")
library(PerformanceAnalytics)
windows()
chart.Correlation(part1[,2:12],histogram=TRUE,pch=19)
#Cercul corelatiilor
windows()
dev.new()
val<-seq(0,2*pi,length=100)
abline(h=0)
abline(v=0)
text(mfac[,1], mfac[,2],rownames(mfac),col="red",cex=0.7)
windows()
dev.new()
abline(h=0)
abline(v=0)
text(mfac[,2], mfac[,3],rownames(mfac),col="red",cex=0.7)
windows()
dev.new()
abline(h=0)
abline(v=0)
text(mfac[,1], mfac[,3],rownames(mfac),col="red",cex=0.7)
windows()
install.packages("FactoMineR")
library(FactoMineR)
windows()
pca1<-PCA(part1s)
windows()
plot(pca1)
summary(pca1)
c2=data.frame(c)
windows()
dev.new()
text(c2[,1],c2[,2],labels=rownames(c2),col="red",pos=3,cex=0.7)
windows()
dev.new()
text(c2[,2],c2[,3],labels=rownames(c2),col="red",pos=3,cex=0.7)
windows()
dev.new()
text(c2[,1],c2[,3],labels=rownames(c2),col="red",pos=3,cex=0.7)
install.packages("ggplot2")
library(ggplot2)
windows()
ggplot(c2,aes(x=c2[,1],y=c2[,2])) +
geom_point(shape=16,size=4,col="red") + geom_text(label=rownames(c2),vjust=0,hjust=0,size=4)
windows()
ggplot(c2,aes(x=c2[,1],y=c2[,3])) +
geom_point(shape=16,size=4,col="red") + geom_text(label=rownames(c2),vjust=0,hjust=0,size=4)
windows()
ggplot(c2,aes(x=c2[,2],y=c2[,3])) +
geom_point(shape=16,size=4,col="red") + geom_text(label=rownames(c2),vjust=0,hjust=0,size=4)
windows()
windows()
install.packages("FactoMineR")
library(FactoMineR)
cp<-PCA(part1s)
cp
windows()
plot(cp)
summary(cp,nbelements=Inf)
Date înainte de eliminare outlieri
Date după eliminare outlieri