Sunteți pe pagina 1din 49

Facultatea de Cibernetică, Statistică și Informatică Economică

Academia de Studii Economice din București


Specializarea: Cibernetică Economică

Analiza Componentelor Principale privind statutul femeilor în


societate

PROFESOR COORDONATOR: ZAMFIR IONELA CĂTĂLINA

STUDENT: PÎRVU BIANCA-DANIELA


GRUPA 1076
SERIA B

2021
Contents
Introducere. Obiectiv ........................................................................................................................ 2
Prezentarea datelor.Motivația alegerilor .......................................................................................... 2
Analiza distribuției variabilelor ........................................................................................................ 4
1.Statistici descriptive ................................................................................................................... 4
2.Valori minime. Valori maxime .................................................................................................. 7
3.Forma distribuțiilor. Gradul de aplatizare ................................................................................. 9
Concluzie .................................................................................................................................... 15
Analiza Componentelor Principale ................................................................................................ 16
Identificarea loadings-ului componentelor ................................................................................. 21
Forma matematică a componentelor: ......................................................................................... 22
Contribuțiile variabilelor la varianțele componentelor ............................................................... 35
Anexe ............................................................................................................................................. 37
Bibliografie ................................................................................................................................. 37
Tabele și figuri ............................................................................................................................ 37
Codul R ....................................................................................................................................... 38
Date înainte de eliminare outlieri ............................................................................................... 47
Date după eliminare outlieri ....................................................................................................... 48
Introducere. Obiectiv

Proiectul intitulat ,,Analiza Componentelor Principale privind statutul femeilor în societate”


urmărește analiza datelor cu privire la cele 174 de țări selectate după eliminarea outlierilor în Excel.
În acest sens, am selectat 11 indicatori de pe platforma WorldBank, precum: Numărul femeilor
care aduc contribuții familiei, Numărul femeilor angajate în domeniul agriculturii, Numărul
femeilor angajate în industrie, Numărul femeilor angajate în servicii, Numărul femeilor angajate
de la varsta de 15 ani, Rata de participare la forța de muncă a femeilor începând cu varsta de 15
ani, Speranța de viață la naștere a femeilor, Rata de ocupare a funcțiilor în Parlament a femeilor,
Numărul femeilor devenite propriile angajate, Numărul femeilor neangajate cu varsta între 15-24
de ani, Numărul femeilor angajate pe un post vulnerabil. Astfel, respectând Analiza
Componentelor Principale, se va urmări reducerea dimensionalității datelor, eliminarea
suprapunerii informaționale, precum și facilitarea vizualizării obiectelor analizate.

Prezentarea datelor.Motivația alegerilor

Datele au fost extrase de pe platforma WordBank, fiind corespunzătoare anului 2017. În analiză,
am extras observații pentru 174 de țări, cum ar fi Africa, Angola, Bulgaria, Finlanda, România și
multe altele. Indicatorii prezentați sunt următorii: Numărul femeilor care aduc contribuții
familiei, Numărul femeilor angajate în domeniul agriculturii, Numărul femeilor angajate în
industrie, Numărul femeilor angajate în servicii, Numărul femeilor angajate de la varsta de 15
ani, Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani, Speranța de
viață la naștere a femeilor, Rata de ocupare a funcțiilor în Parlament a femeilor, Numărul
femeilor devenite propriile angajate, Numărul femeilor neangajate cu varsta între 15-24 de ani,
Numărul femeilor angajate pe un post vulnerabil.
Figură 1 Setul de date nestandardizat

*am afișat doar primele 30 de tări din 174, întrucât este un set mare de date
Analiza distribuției variabilelor
Trebuie specificat faptul că în cod s-au folosit următoarele notații pentru indicatorii analizați:
Cod Denumire Indicator
V1 Numărul femeilor care aduc contribuții familiei(%)
V2 Numărul femeilor angajate în domeniul agriculturii(%)
V3 Numărul femeilor angajate în industrie(%)
V4 Numărul femeilor angajate în servicii(%)
V5 Numărul femeilor angajate de la varsta de 15 ani(%)
V6 Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani(%)
V7 Speranța de viață la naștere a femeilor(ani)
V8 Rata de ocupare a funcțiilor în Parlament a femeilor(%)
V9 Numărul femeilor devenite propriile angajate(%)
V10 Numărul femeilor neangajate cu varsta între 15-24 de ani(%)
V11 Numărul femeilor angajate pe un post vulnerabil(%)
Tabel 1 Codurile variabilelor

Inițial, am verificat dacă există valori lipsă în setul de date. În urma rulării comenzii, s-a observat
că setul de date este complet.

1.Statistici descriptive

Folosind comanda summary, am obținut statisticile descriptive privind indicatorii analizați.


Aceștia sunt prezentați în Tabelul 2.
Denumirea variabilei Medie Abatere Quartila Quartila Quartila
standard 1 2 3
Numărul femeilor care aduc 12.60 14.36 0.99 6.72 21.50
contribuții familiei
Numărul femeilor angajate în 24.26 24.81 3.70 14.94 41.19
domeniul agriculturii
Numărul femeilor angajate în 11.37 6.09 7.12 9.89 15.35
industrie
Numărul femeilor angajate în 64.36 23.91 46.06 72.32 85.56
servicii
Numărul femeilor angajate de la 48.31 14.28 41.95 49.02 57.06
varsta de 15 ani
Rata de participare la forța de 52.27 14 45.66 53.04 60.77
muncă a femeilor începând cu
varsta de 15 ani
Speranța de viață la naștere a 74.56 7.74 67.91 76.75 80.28
femeilor
Rata de ocupare a funcțiilor în 21.93 10.78 13.96 20.63 29.27
Parlament a femeilor
Numărul femeilor devenite 42.05 30.61 12.5 35.8 71.89
propriile angajate
Numărul femeilor neangajate cu 18.57 13.06 8.75 14.56 25.29
varsta între 15-24 de ani
Numărul femeilor angajate pe un 40.43 31.07 9.76 34.89 70.93
post vulnerabil
Tabel 2 Statistici descriptive

Quartila 1 este de 0.99, ceea ce înseamnă că 25% din Numărul femeilor care aduc contribuții
familiei este mai mic de 0.99, iar 75% din Numărul femeilor care aduc contribuții familiei este mai
mare de 0.99. Mediana este de 6.72, ceea ce înseamnă că 50% din valorile Numărul femeilor care
aduc contribuții familiei sunt mai mici de 6.72, iar 50% din valorile Numărul femeilor care aduc
contribuții familiei sunt mai mari de 6.72. Quartila 3 este de 21.5, ceea ce înseamnă că 75% din
valorile Numărului femeilor care aduc contribuții familiei sunt mai mici de 21.5, iar 25% din
valorile Numărului femeilor care aduc contribuții familiei sunt mai mari de 21.5.
În medie, valorile Numărului femeilor care aduc contribuții familiei au fost de 12.6. Valorile se
abat cu 14.36 de la medie. Această abatere este relativ mare, în comparație cu media, așadar este
considerabilă.

Un procent de 25% din Numărul femeilor angajate în domeniul agriculturii este sub 3.7, iar 75%
din valoarea Numărului femeilor angajate în domeniul agriculturii este peste 3.7. Un procent de
50% din valoarea Numărului femeilor angajate în domeniul agriculturii este peste 14.94, iar 50%
din valoarea Numărului femeilor angajate în domeniul agriculturii este sub 14.94. Un procent de
75% din valoarea Numărului femeilor angajate în domeniul agriculturii este sub 41.19, iar 25%
din valoarea Numărului femeilor angajate în domeniul agriculturii este peste 41.19.
Valoarea medie a Numărului femeilor angajate în domeniul agriculturii a fost de 24.26.
Abaterea standard de la medie este de 24.81. Aceasta este mai mare decat valoarea medie, așadar
este de luat în considerare.

Quartila 1 este de 7.12, ceea ce înseamnă că 25% din valorile Numărului femeilor angajate în
industrie sunt sub 7.12, iar 75% din valorile Numărului femeilor angajate în industrie sunt peste
de 7.12. Mediana este de 9.89, ceea ce înseamnă că 50% din valorile Numărului femeilor angajate
în industrie sunt sub 9.89, iar 50% din valorile Numărului femeilor angajate în industrie sunt peste
9.89. Quartila 3 este de 15.35, ceea ce înseamnă că 75% din valorile Numărului femeilor angajate
în industrie sunt sub 15.35, iar 25% din valorile Numărului femeilor angajate în industrie sunt
peste 15.35.
În medie, valorile Numărului femeilor angajate în industrie au fost de 11.37. Valorile se abat cu
6.09 de la medie. Comparativ cu media, care este 11.37, valoare este considerabilă.

25% din valorile Numărului femeilor angajate în servicii sunt mai mici de 46.06, iar 75% din
valorile Numărului femeilor angajate în servicii sunt mai mari de 46.06, conform quartilei 1. 50%
din valorile Numărului femeilor angajate în servicii sunt mai mici de 72.32, iar 50% din valorile
Numărului femeilor angajate în servicii sunt mai mari de 72.32, conform medianei. 75% din
valorile Numărului femeilor angajate în servicii sunt mai mici de 85.56, iar 25% din valorile
Numărului femeilor angajate în servicii sunt mai mari de 85.56, conform quartilei 3.
În medie, valorile Numărului femeilor angajate în servicii au fost de 64.36. Valorile prezintă o
abatere mică de la medie, și anume 23.91.
Un procent de 25% din Numărul femeilor angajate de la varsta de 15 ani este sub 41.95, iar 75%
din Numărul femeilor angajate de la varsta de 15 ani sunt peste 41.95. Mediana este de 49.02, ceea
ce înseamnă că 50% din Numărul femeilor angajate de la varsta de 15 ani sunt sub 49.02, iar 50%
din Numărul femeilor angajate de la varsta de 15 ani sunt peste 49.02. Quartila 3 este de 57.06,
ceea ce înseamnă că 75% din Numărul femeilor angajate de la varsta de 15 ani sunt sub 57.06, iar
25% din Numărul femeilor angajate de la varsta de 15 ani sunt peste 57.06.
În medie, Numărul femeilor angajate de la varsta de 15 ani au fost de 48.31. Abaterea standard
de la medie este de 14.28, așadar nu este de luat în considerare.

25% din Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani sunt mai
mici de 45.66, iar 75% din Rata de participare la forța de muncă a femeilor începând cu varsta de
15 ani sunt mai mari de 45.66, conform quartilei 1. Valoarea medianei este de 53.04, ceea ce
înseamnă că 50% din Rata de participare la forța de muncă a femeilor începând cu varsta de 15
ani sunt mai mici de 53.04, iar 50% din Rata de participare la forța de muncă a femeilor începând
cu varsta de 15 ani sunt mai mari de 53.04. Quartila 3 este de 60.77, ceea ce înseamnă că 75% din
Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani sunt mai mici de
60.77, iar 25% din Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani
sunt mai mari de 60.77.
În medie, Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani au fost
de 52.27. Abaterea standard este de 14, ceea ce conduce în a afirma că valorile setului de date nu
prezintă abateri mari de la medie.

Quartila 1 este de 67.91, ceea ce înseamnă că 25% din Speranța de viață la naștere a femeilor
sunt mai mici de 67.91, iar 75% din Speranța de viață la naștere a femeilor sunt mai mari de 67.91.
50% din Speranța de viață la naștere a femeilor sunt mai mici de 76.75, iar 50% din Speranța de
viață la naștere a femeilor sunt mai mari de 76.75. Quartila 3 este de 80.28, ceea ce înseamnă că
75% din Speranța de viață la naștere a femeilor sunt mai mici de 80.28, iar 25% din Speranța de
viață la naștere a femeilor sunt mai mari de 80.28.
Valoarea medie a Speranței de viață la naștere a femeilor a fost de 74.56 în anul 2017. Valorile
se abat de la medie cu 7.74, așadar nu este de luat în considerare.

Un procent de 25% din Rata de ocupare a funcțiilor în Parlament a femeilor este sub 13.96, iar
75% din valoarea Ratei de ocupare a funcțiilor în Parlament a femeilor este peste 13.96. Un
procent de 50% din valoarea Ratei de ocupare a funcțiilor în Parlament a femeilor este peste 20.63,
iar 50% din valoarea Ratei de ocupare a funcțiilor în Parlament a femeilor este sub 20.63. Un
procent de 75% din valoarea Ratei de ocupare a funcțiilor în Parlament a femeilor este sub 29.27,
iar 25% din valoarea Ratei de ocupare a funcțiilor în Parlament a femeilor este peste 29.27.
Valoarea medie a Ratei de ocupare a funcțiilor în Parlament a femeilor a fost de 21.93. Abaterea
standard de la medie este de 10.78. Aceasta reprezintă jumătate din valoarea medie, așadar este de
luat în considerare.

Quartila 1 este de 12.5, ceea ce înseamnă că 25% din valorile Numărului femeilor devenite
propriile angajate sunt sub 12.5, iar 75% din valorile Numărului femeilor devenite propriile
angajate sunt peste de 12.5. Mediana este de 35.8, ceea ce înseamnă că 50% din valorile Numărului
femeilor devenite propriile angajate sunt sub 35.8, iar 50% din valorile Numărului femeilor
devenite propriile angajate sunt peste 35.8. Quartila 3 este de 71.89, ceea ce înseamnă că 75% din
valorile Numărului femeilor devenite propriile angajate sunt sub 71.89, iar 25% din valorile
Numărului femeilor devenite propriile angajate sunt peste 71.89.
În medie, valorile Numărului femeilor devenite propriile angajate au fost de 42.05. Valorile se
abat cu 30.61 de la medie. Comparativ cu media, care este 42.05, valoarea este considerabilă.

25% din valorile Numărului femeilor neangajate cu varsta între 15-24 de ani sunt mai mici de
8.75, iar 75% din valorile Numărului femeilor neangajate cu varsta între 15-24 de ani sunt mai
mari de 8.75, conform quartilei 1. 50% din valorile Numărului femeilor neangajate cu varsta între
15-24 de ani sunt mai mici de 14.56, iar 50% din valorile Numărului femeilor neangajate cu varsta
între 15-24 de ani sunt mai mari de 14.56, conform medianei. 75% din valorile Numărului femeilor
neangajate cu varsta între 15-24 de ani sunt mai mici de 25.29, iar 25% din valorile Numărului
femeilor neangajate cu varsta între 15-24 de ani sunt mai mari de 25.29, conform quartilei 3.
În medie, valorile Numărului femeilor neangajate cu varsta între 15-24 de ani au fost de 18.57.
Valorile prezintă o abatere considerabilă de la medie, și anume 13.06.

Un procent de 25% din Numărul femeilor angajate pe un post vulnerabil este sub 9.76, iar 75%
din Numărul femeilor angajate pe un post vulnerabil sunt peste 9.76. Mediana este de 34.89, ceea
ce înseamnă că 50% din Numărul femeilor angajate pe un post vulnerabil sunt sub 34.89, iar 50%
din Numărul femeilor angajate pe un post vulnerabil sunt peste 34.89. Quartila 3 este de 70.93,
ceea ce înseamnă că 75% din Numărul femeilor angajate pe un post vulnerabil sunt sub 70.93, iar
25% din Numărul femeilor angajate pe un post vulnerabil sunt peste 70.93.
În medie, Numărul femeilor angajate pe un post vulnerabil au fost de 40.43. Abaterea standard
de la medie este de 31.07, așadar este de luat în considerare.

2.Valori minime. Valori maxime

Denumirea variabilei Valoare Minimă Valoare Maximă


Numărul femeilor care aduc contribuții familiei 0.01 57.25
Numărul femeilor angajate în domeniul agriculturii 0.01 93.87
Numărul femeilor angajate în industrie 0.8 27.23
Numărul femeilor angajate în servicii 5.2 97.63
Numărul femeilor angajate de la varsta de 15 ani 10.84 81.89
Rata de participare la forța de muncă a femeilor începând cu 14.27 83.35
varsta de 15 ani
Speranța de viață la naștere a femeilor 54.35 87.26
Rata de ocupare a funcțiilor în Parlament a femeilor 0 53.08
Numărul femeilor devenite propriile angajate 0.4 98.12
Numărul femeilor neangajate cu varsta între 15-24 de ani 0.37 58.92
Numărul femeilor angajate pe un post vulnerabil 0.03 97.88
Tabel 3 Valori minime. Valori maxime
Cea mai mică valoare a Numărului femeilor care aduc contribuții familiei a fost de 0.01, pentru
Kuwait și Qatar.
Cea mai mare valoare a Numărului femeilor care aduc contribuții familiei a fost de 57.25, pentru
Madagascar.

Numărul femeilor angajate în domeniul agriculturii atinge cea mai mică valoare pentru Emiratele
Arabe și Qatar, și anume 0.01.
Maximul este reprezentat de valoarea 93.87, corespunzătoare țării Burundi.

Somalia are cea mai mică valoare a Numărului femeilor angajate în industrie, și anume 0.8. La
polul opus, valoarea maximă a Numărului femeilor angajate în industrie a fost de 27.23, pentru Sri
Lanka.

Minimul din Numărul femeilor angajate în servicii este înregistrat de Burundi, cu valoare de 5.2.
Maximul din Numărul femeilor angajate în servicii a fost înregistrat de Arabia Saudită, cu
valoare de 97.63.

Cea mai mică valoare a Numărului femeilor angajate de la varsta de 15 ani a fost de 10.84.
Valoarea corespunde Iordaniei.
Cea mai mare valoare a Numărului femeilor angajate de la varsta de 15 ani a fost de 81.89.
Valoarea a fost înregistrată de Madagascar.

Minimul din Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani a
fost de 14.27. Valoarea corespunde Iordaniei.
Maximul din Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani a
fost de 83.35, pentru Madagascar.

Cea mai mică valoare a Speranței de viață la naștere a femeilor a fost de 54.35, în Republica
Centrală Africană.
Cea mai mare valoare a Speranței de viață la naștere a femeilor a fost de 87.26, înregistrată în
Japonia.

Rata de ocupare a funcțiilor în Parlament a femeilor atinge cea mai mică valoare pentru Vanuatu
și Papua Noua Guineer, și anume 0.
Maximul este reprezentat de valoarea 53.08, corespunzătoare Boliviei.

Qatar are cea mai mică valoare a Numărului femeilor devenite propriile angajate, și anume 0.4.
La polul opus, valoarea maximă a Numărului femeilor angajate în industrie a fost de 98.12 pentru
Nigeria.

Minimul din Numărul femeilor neangajate cu varsta între 15-24 de ani este înregistrat de Nigeria,
cu valoare de 0.37.
Maximul din Numărul femeilor neangajate cu varsta între 15-24 de ani a fost înregistrat de
Africa de Sud, cu valoare de 58.92.
Minimul din Numărul femeilor angajate pe un post vulnerabil este înregistrat de Kuwait, cu valoare
de 0.03.
Maximul din Numărul femeilor angajate pe un post vulnerabil a fost înregistrat de Nigeria, cu
valoare de 97.88.

3.Forma distribuțiilor. Gradul de aplatizare

Denumirea variabilei Coeficient de Abatere Coeficient de


asimetrie standard aplatizare
Numărul femeilor care aduc contribuții 1.22 14.36 3.67
familiei
Numărul femeilor angajate în domeniul 0.86 24.81 2.5
agriculturii
Numărul femeilor angajate în industrie 0.55 6.09 2.68
Numărul femeilor angajate în servicii -0.53 23.91 2.05
Numărul femeilor angajate de la varsta de 15 -0.3 14.28 3.3
ani
Rata de participare la forța de muncă a -0.46 14 3.4
femeilor începând cu varsta de 15 ani
Speranța de viață la naștere a femeilor -0.54 7.74 2.27
Rata de ocupare a funcțiilor în Parlament a 0.32 10.78 2.63
femeilor
Numărul femeilor devenite propriile angajate 0.36 30.61 1.68
Numărul femeilor neangajate cu varsta între 0.97 13.06 3.15
15-24 de ani
Numărul femeilor angajate pe un post 0.36 31.07 1.67
vulnerabil
Tabel 4 Coeficientul de asimetrie, Abaterea standard, Coeficientul de aplatizare
Figură 2 Histogramele setului de date (V1,V2,V3,V4)

Figură 3 Graficul boxplot(V1,V2,V3,V4)


În urma analizei coeficientului de asimetrie asupra Numărului femeilor care aduc contribuții
familiei, care are valoarea 1.22, se observă că seria este asimetrică la dreapta, prezentând valori
mai mici decât media. De asemenea, forma distribuției este leptocurtică, întrucât coeficientul de
aplatizare este de 3.67. Acest fapt se deduce si observând histograma aferentă din Figura2..
Analizând graficul boxplot al acestei variabile, este confirmată asimetria la dreapta. Se cunoaște
faptul că Kuwait și Qatar, respectiv Madagascar, dețin valoarea minimă, respectiv maximă din setul
de date.

Analizând coeficientul de asimetrie al Numărului femeilor angajate în domeniul agriculturii,


care are valoarea 0.86, se observă că seria este ușor asimetrică la dreapta, prezentând valori mai
mici decât media. De asemenea, forma distribuției este platicurtică, întrucât coeficientul de
aplatizare este de 2.5.
Conform graficului boxplot, seria este asimetrică la dreapta. De altfel, se cunoaște faptul că
Qatar, respectiv Burundi, dețin valoarea minimă, respectiv maximă din setul de date.

Coeficientul de asimetrie al Numărului femeilor angajate în industrie este de 0.55, așadar seria
este asimetrică la dreapta, deoarece coeficientul este mai mare decât 0. Trebuie menționat faptul
că predomină valorile mai mici decât media.. De asemenea, forma distribuției este platicurtică,
tinde să fie mezocurtică, întrucât coeficientul de aplatizare este de 2.68.
Graficul boxplot indică ușoara asimetrie la dreapta. Totodată, setul de date nu prezintă outlieri.

Seria Numărul femeilor angajate în servicii este asimetrică la stânga cu un coeficient de -0.53,
predominând valorile mai mari decât media. De asemenea, forma distribuției este platicurtică, tinde
să fie mezocurtică, întrucât coeficientul de aplatizare este de 2.05.
În urma analizei graficului boxplot, se observă că seria este asimetrică la stânga. Totodată, setul
de date nu prezintă outlieri
Figură 4 Histogramele setului de date (V5,V6,V7,V8)

Figură 5 Graficul boxplot (V1,V2,V3,V4)


Seria Numărul femeilor angajate de la varsta de 15 ani este asimetrică la stânga cu un
coeficient de -0.3, predominând valorile mai mari decât media. De asemenea, forma distribuției
este leptocurtică, întrucât coeficientul de aplatizare este de 3.3.
În urma analizei graficului boxplot, se observă că seria este asimetrică la stânga. Din cauza
prelucrării în Excel, graficul prezintă outlieri.

Seria Rata de participare la forța de muncă a femeilor începând cu varsta de 15 ani este
asimetrică la stânga cu un coeficient de -0.46, predominând valorile mai mari decât media. De
asemenea, forma distribuției este leptocurtică, întrucât coeficientul de aplatizare este de 3.4.
În urma analizei graficului boxplot, se observă că seria este asimetrică la stânga. Din cauza
prelucrării în Excel, graficul prezintă outlieri.

Seria Speranța de viață la naștere a femeilor este asimetrică la stânga cu un coeficient de -0.54,
predominând valorile mai mari decât media. De asemenea, forma distribuției este platicutică,
întrucât coeficientul de aplatizare este de 2.27.
În urma analizei graficului boxplot, se observă că seria este asimetrică la stânga.

Coeficientul de asimetrie al Ratei de ocupare a funcțiilor în Parlament a femeilor este de 0.32,


așadar seria este asimetrică la dreapta, deoarece coeficientul este mai mare decât 0. Trebuie
menționat faptul că predomină valorile mai mici decât media.. De asemenea, forma distribuției este
platicurtică, tinde să fie mezocurtică, întrucât coeficientul de aplatizare este de 2.63.
Graficul boxplot indică ușoara asimetrie la dreapta. Din cauza prelucrării în Excel, graficul
prezintă outlieri.
Figură 7 Histogramele setului de date (V9,V10,V11)

Figură 6 Graficul boxplot (V9,V10,V11)


Coeficientul de asimetrie al Numărului femeilor devenite propriile angajate este de 0.36, așadar
seria este ușor asimetrică la dreapta, predominând valorile mai mici decât media. De asemenea,
forma distribuției este platicurtică, întrucât coeficientul de aplatizare este de 1.68.
Graficul boxplot confirmă asimetria la dreapta. Nu avem outlieri.

Conform coeficientului de asimetrie al Numărului femeilor neangajate cu varsta între 15-24 de


ani, care are valoarea 0.97, seria este asimetrică la dreapta, predominând valorile mai mici decât
media. De asemenea, forma distribuției este leptocurtică, tinde să fie mezocurtică, întrucât
coeficientul de aplatizare este de 3.15, foarte aproape de 3.
În urma analizei graficului boxplot, este confirmată asimetria la dreapta. Din cauza prelucrării
în Excel, graficul prezintă outlieri.

Analizând coeficientul de asimetrie al Numărului femeilor angajate pe un post vulnerabil, care


are valoarea 0.36, se observă că seria este ușor asimetrică la dreapta, predominând valorile mai
mici decât media.. De asemenea, forma distribuției este platicurtică, întrucât coeficientul de
aplatizare este de 1.67. Așadar, predomină frecvențele mici de apariție ale valorilor.
Analizând graficul boxplot, se observă că setul de date nu prezintă outlieri, precum și că seria
este asimetrică la dreapta.

Concluzie

În concluzie, în urma analizei asupra statisticilor descriptive, precum și a formei distribuțiilor,


s-a observat faptul că:
• Nigeria, Kuwait, Qatar și Madagascar sunt țările care se deosebesc cel mai mult de valorile
celorlalte țări din analiza indicatorilor, prezentând fie valori foarte mari, fie valori foarte
mici comparativ cu restul datelor.
• Cele mai multe serii sunt asimetrice la dreapta, predominând valorile mai mici decât media.
Acest lucru poate fi pozitiv sau negativ în funcție de indicatorul analizat.
• În setul de date nu au fost identificate abateri semnificative de la medie, cu excepția
indicatorilor Numărul femeilor care aduc contribuții familiei, Rata de ocupare a funcțiilor
în Parlament a femeilor, Numărul femeilor neangajate cu varsta între 15-24 de ani,
Numărul femeilor neangajate cu varsta între 15-24 de ani, Numărul femeilor angajate pe
un post vulnerabil, Numărul femeilor angajate în domeniul agriculturii, unde abaterea
standard este jumătate din medie sau peste.
Analiza Componentelor Principale

Analiza componentelor principale (ACP), este o procedură statistică care folosește


transformarea ortogonală pentru a converti un set de observații cu variabile posibil corelate într-un
set de valori cu variabile liniar necorelate, numite componente principale. Această transformare
este definită în așa fel încât, prima componentă principală are cea mai mare varianță posibilă și
fiecare componentă care urmează preia cea mai mare varianță posibilă cu condiția ca aceasta să fie
ortogonală cu componentele precedente. Scopul principal al aplicării este reducerea
dimensionalității setului de date.

Figură 8 Chart Correlation pentru datele nestandardizate


Inițial, am analizat matricea de corelație, pentru a vedea dacă analiza componentelor principale
se justifică.

Figură 9 Matricea de corelație

Figură 10 Matricea de corelație plot


Conform matricei de corelație, cea mai intensă legătură, pozitivă, este între Numărul femeilor
angajate de la varsta de 15 ani și Rata de participare la forța de muncă a femeilor începând cu
varsta de 15 ani, având valoarea de 0,98. Totodată, aceeași legătură pozitivă, puternică există și
între Numărul femeilor devenite propriile angajate și Numărul femeilor angajate pe un post
vulnerabil, cu un coeficient de corelație de 1, dar și între Numărul femeilor devenite propriile
angajate, Numărul femeilor angajate pe un post vulnerabil și Numărul femeilor care aduc
contribuții familiei și Numărul femeilor angajate în domeniul agriculturii . Se observă faptul că
variabila Numărul femeilor angajate în servicii se corelează negativ cu alte 4 variabile, Numărul
femeilor care aduc contribuții familiei (-0,79), Numărul femeilor angajate în domeniul agriculturii
(-0,97), Numărul femeilor devenite propriile angajate (-0,86) și Numărul femeilor angajate pe un
post vulnerabil (-0.86) și faptul că variabila Speranța de viață la naștere a femeilor se corelează
negativ cu alte 2 variabile, Numărul femeilor devenite propriile angajate (-0,84) și Numărul
femeilor angajate pe un post vulnerabil (-0,84) .

Figură 11 . Probabilitățile p-value asociate matricei de corelație

Figura 11 arată probabilitatea p-value asociată coeficientului de corelație. Probabilitatea p-value


indică probabilitatea de a greși atunci când resping ipoteza nulă, în condițiile în care ea este
adevărată. De exemplu, între Numărul femeilor angajate în industrie și Numărul femeilor
neangajate cu varsta între 15-24 de ani probabilitatea are valoarea de 0.9317. Această valoare
foarte mare indică faptul că avem șanse foarte mari să greșim, depășind nivelul de semnificație de
0.01. Între Numărul femeilor angajate în domeniul agriculturii și Numărul femeilor angajate în
industrie, probabilitatea este de 0.0004, mult mai mică decât nivelul de semnificație de 0.01, deci
resping ipoteza nulă și accept alternativa, coeficientul de corelație fiind semnificativ din punct de
vedere statistic.
Așadar, în urma observării matricei de corelație, există multe corelații puternice și câteva slabe,
deci se justifică Analiza Componentelor Principale.
Comp.1 Comp. 2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 Comp.9 Comp.10 Comp.11
Abaterea 2.3468 1.4923 1.0413 0.9541 0.7351 0.5904 0.5157 0.3326 0.0669 0.0190 0.0001
Standard 222979 335654 735696 299846 362676 398416 602985 283548 706317 463802 283046

Proporția 0.5006 0.2024 0.0985 0.0827 0.0491 0.0316 0.0241 0.0100 0.0004 0.00003 0.000000001
Varianței 886 600 8717 6037 2958 9266 8261 5833 077332 29786 496551

Proporția 0.5006 0.7031 0.8017 0.8844 0.9336 0.9653 0.9895 0.9995 0.9999 0.9999 1.000000000
Cumulată 886 486 3575 9612 2569 1835 0096 5929 670199 999985

Tabel 5 Sinteza rezultatelor

Analiza Componentelor Principale a fost realizată pe date standardizate. Întrucât datele sunt
standardizate, matricea de corelație este aceeași cu matricea de covarianță, așadar am ales să lucrez
doar pe matricea de corelație.
Componentele care au reieșit în urma rulării comenzii princomp reprezintă variabile nou create
ca și combinație liniară de cele inițiale. Pentru fiecare, este prezentată abaterea standard, proporția
variației și proporția variației cumulate. Proporția variației arată cât la sută din informația totală
este preluată de fiecare componentă principală. Astfel, Componenta 1 prezintă o abatere de la
medie de 2,34. Aceasta preia 50,06%, o cantitate suficientă pentru a considera că întregul set de
observații poate fi rezumat prin aceasta componenta principala conform criteriului procentului
de acoperire. De asemenea, vom aplica criteriul lui Kaiser, care presupune că o componentă
principală este aleasă dacă are valoarea proprie>1. A doua componentă preia următoarea cea mai
mare cantitate de informație, iar acest lucru era de așteptat, deoarece Numărul femeilor angajate în
domeniul agriculturii era cea mai mare variabilă. A doua componentă are o abatere mai mică în
comparație cu prima, de 1,49. Procentul de informație preluat de cele două componente este unul
foarte mare, și anume 70,31%. Treptat se observă cum abaterile standard scad, și odată cu ele și
cantitatea de informație preluată. De exemplu, ultima componentă, Numărul femeilor angajate pe
un post vulnerabil, preia cea mai nesemnificativă cantitate de informație, și anume 0,00000015%.
Așadar, am putut observa cum primele două componente preiau cea mai mare cantitate de
informație din date. Astfel, se justifică reducerea dimensionalității, care ar ușura analiza
informațiilor.
Valoare proprie
Comp. 1 5.507575
Comp. 2 2.227059
Comp. 3 1.084459
Comp. 4 0.910364
Comp. 5 0.5404253
Comp. 6 0.3486192
Comp. 7 0.2660087
Comp. 8 0.1106416
Comp. 9 0.004485066
Comp. 10 0.0003627646
Comp. 11 0.00000001646206
Tabel 6 Valorile proprii asociate

Valorile proprii au fost identificate prin calcularea varianței fiecărei componente. Gradul de
împrăștiere al valorilor componentei 1 față de media lor este de 5,5, deoarece varianța este de 5,5.
În ceea ce privește componenta 2, gradul de împrăștiere al valorilor față de media lor este 2,22,
iar pentru componenta 3, gradul de împrăștiere al valorilor față de media lor este 1,08. Așadar,
valoarea proprie a primei componente este 3.74. Valoarea proprie a celei de-a doua componente
este 1.83, iar cea a componentei a treia este 1,08. Se observă că pe măsură ce ne îndepărtăm de
primele două componente valorile proprii scad. Componentele 9, 10 și 11 au valorile de 0.004,
0.0003, respectiv 0000000016.. Totodată, fiecărei valori proprii îi este asociat un vector propriu,
prezentat în Figura 12. Aceștia au valori atât negative, cât și pozitive.

Figură 12 Vectorii proprii asociați

Matricea factor din figura 12 ne ajută prin analiza valorilor elementelor ei, în identificarea unei
serii de partiții sau clustere pe mulțimea variabilelor. Acestea, asociate cu anumite componente
principale, pot conduce la stabilirea unor semnificații pentru acele componente. Analiza
elementelor matricii factor poate permite identificarea acelor variabile originale care sunt
reprezentate prin intermediul unei anumite componente principale. Identificându-le, se creează
posibilități de atribuire a unei semnificații concrete pentru fiecare componentă principală.
Valorile matricii factor reprezintă corelația între componentele principale și variabilele inițiale.

Identificarea loadings-ului componentelor


Aceștia ne indică cât din variația dintr-o componentă este explicată de către o anumită
variabilă. Cu cât este mai mare loadings-ul componentei, cu atât mai importantă este variabila
pentru componentă. Dacă variabilele dintr-o componentă sunt pozitiv corelate între ele, atunci
valoarea din loadings va fi pozitivă; analog pentru variabilele negativ corelative între ele dintr-o
componentă. Ridicând o observație din loadings la pătrat putem determina cât % din varianța
componentei este determinată de acea variabilă.

Figură 13 Sinteza rezultatelor

Figură 14 Loadings (Valori proprii complete)


Figură 15 Date standardizate

Forma matematică a componentelor:


W1 =0.35*V1+0.4*V2-0.09*V3-0.39*V4+0.19*V5+0.17*V6-0.35*V7-0.04*V8+0.41*V9-
0.19*V10+0.41*V11

=0.35*1.3+0.4*1.55-0.09*(-1.02)-0.39*(-1.36)+0.19*0.91+0.17*0.97-0.35*(-1.18)-
0.04*0.63+0.41*1.2-0.19*(-0.35)+0.41*1.2

=3.4733
W2 =0.13*V1+0.09*V2+0.16*V3-0.14*V4-0.58*V5-0.56*V6-0.18*V7-0.29*V8+0.1*V9-
0.39*V10+0.1*V11

=0.13*0.41+0.09*0.52+0.16*0.15-0.14*(-0.57)-0.58*0.15-0.56*0.11-0.18*(-2.08)-
0.29*(-0.62)+0.1*1.5-0.39*(-0.49)+0.1*1.5

=1.1006

W3 = 0.06*V1-0.1*V2+0.84*V3-0.11*V4+0.08*V5-0.01*V6+0.18*V7-0.27*V8+0.02*V9-
0.4*V10+0.02*V11

=0.06*0.1-0.1*1.33+0.84*(-1.7)-0.11*(-0.94)+0.08*1.55-0.01*1.7+0.18*(-1.46)-
0.27*0.79+0.02*1.47-0.4*(-0.18)+0.02*1.41

=-1.6911
.

Figură 16 Scoruri pentru primele 3 componente

Valoarea scorului este distanța de la origine de-a lungul direcției unei componente, până
la punctul unde acea observație se termină de proiectat pe vectorul de direcție. Scorul se calculează
ca:

𝑆𝑐𝑜𝑟𝑖𝑘=Σ𝑆𝑖𝑗𝐿𝑗𝑘

Unde:

• Sij este valoarea standardizată a observației i pe variabila j


• Ljk este loading-ul variabilei j pe componenta k
Cu ajutorul comenzii scores, am obținut noua matrice a componentelor principale.
Elementele nu sunt corelate între ele, deoarece coeficientul de corelație este foarte mic,anume
extrem de apropiat de 0.

Figură 17 Corelația scorurilor

În figura 18 se poate observa cum componentele principale sunt necorelate între ele conform
teoriei.

Figură 18 Matricea factor


Figură 19 Screeplot

Criteriul pantei-realizam o taietura in grafic astfel incat in dreapta, panta sa fie aproape de 0

*criteriul de alegere al datelor: realizam o taietura in grafic intre a 6a si a 7a valoare proprie, primul intreg
inainte de paralela la Oy, deci alegem componenta 6 (W6)

Figură 20 1
Graficul scree plot este vital în analiza componentelor principale, întrucât ne ajută să reducem
dimensionaliatea setului de date prin identificarea acelor componente care ar trebui înlăturate.
Analizându-l, se poate observa modul în care descresc valorile proprii, fiind puțin abruptă de la
componenta 1, până la componenta 5, după care se stabilizează. Dacă realizăm o tăietura imaginară
asupra graficului, se observă că deasupra acesteia ar rămâne componentele 1,2,3,4,5,6. Mai mult,
pentru verificare și pentru respectarea preciziei în alegerea componentelor care ne oferă un maxim
de informație, se folosește criteriul lui Kaiser. Acest criteriu indică faptul că se păstrează atâtea
componente câte valori proprii peste 1 avem. Se poate aplica în această situație, deoarece datele
sunt standardizate. În cazul nostru, valorile proprii peste 1 corespund primelor trei componente,
fiind 5.507575, 2.227059 Și 1.084459.
Figură 12 Matricea factor plot

În Figura 21. am realizat matricea factor, văzând corelația celor 3 componente care extrag
cel mai mare procent al informației împreună cu variabilele alese. V1, V2, V9, V11 se corelează
puternic, direct, cu prima componentă. Așadar, prima componentă preia un volum mare de
informație din Numărul femeilor care aduc contribuții familiei, Numărul femeilor angajate în
domeniul agriculturii, Numărul femeilor devenite propriile angajate, respectiv Numărul femeilor
angajate pe un post vulnerabil. A doua și a treia componentă preiau un volum mare de informație
din V10 (Numărul femeilor neangajate cu varsta între 15-24 de ani), respectiv din V3 (Numărul
femeilor angajate în industrie). În schimb, V4 și V7 se corelează puternic, dar invers cu prima
componentă, iar V5 și V6 cu a doua.
Figură 13 Cercul corelațiilor W1-W2

Figură 14 Cercul corelațiilor W2-W3


Figură 15 Cercul corelațiilor W1-W3
Continuând analiza componentelor principale,
am realizat cercul corelațiilor. Acesta reflectă corelațiile dintre variabile și componente, sintetizând
informația din matricea factor. Se observă că indicatorii 4.5,6,7,8 sunt poziționați cel mai jos, având
un coeficient de corelație mare în raport cu prima componentă și relativ mic în raport cu cea de-a
doua componentă. Indicatorii 1,2,3,9,10,11 se situează imediat deasupra abscisei, având un
coeficient de corelație mare cu prima componentă și mic cu cea de-a doua.

Figură 25 plot W1-W2

Figură 26 plot W2-W3


Figură 16 plot W1-W3

Am denumit astfel componentele:


Componenta 1: W1- populație feminină independentă
Componenta 2: W2- populația activă feminină majoră
Componenta 3: W3- populația activă in domeniul industriei
Figure 1 GGplot 1

Figure 2 GGplot 2
Figure 3 GGplot 3

Figure 5 Biplot 1 Figure 4.2 Biplot 2


În figurile 1 și 2, biplotul este folosit pentru a identifica corelațiile dintre variabilele originale și
componentele principale. Cu cât un vector corespunzător unei variabile originale are o lungime
mai mare și o direcție paralelă cu una din axele componentelor principale, cu atât acea variabile
este mai corelată cu componenta principală respectivă.

Figure 6 PCA Individuals

Figure 6. evidențiază cele 174 de țări în urma aplicării principiului analizei componentelor
principale.
În urma păstrării celor trei componente, am rulat comanda summary. Se observă că informațiile
au rămas aceleași în ceea ce privește abatarea standard și proporția variației. Cele trei componente
preiau împreună 80.17% din informație. Al doilea output initulat Individuals se referă la entitățile
analizate, iar al treilea, Variables, la variabile. Pentru Dim. 1 avem coeficientul de corelație între
variabilele originale și componenta 1, pe Dim. 2 avem coeficientul de corelație între variabilele
originale și componenta 2, iar pe Dim. 3 avem coeficientul de corelație între variabilele originale
și componenta 3.

Figure 7 Outputul comenzii summary după păstrarea celor două componente principale

Contribuțiile variabilelor la varianțele componentelor

Contribuția lui V1 la varianța componentei W1 este egală cu:

=0.683*100/(0.683+0.874+0.047+0.836+0.199+0.167+0.671+0.009+0.914+0.191+0.917)=12.40015~
12.401=ctr V1
Contribuția lui V2 la varianța componentei W2 este egală cu:

=0.038*100/(0.038+0.019+0.053+0.04+0.739+0.702+0.075+0.184+0.022+0.331+0.024)=1.706331~1.711
=ctr V2

Contribuția lui V3 la varianța componentei W3 este egală cu:

=0.004*100/(0.004+0.01+0.763+0.014+0.008+0+0.035+0.08+0+0.169+0)=0.369344~0.372=ctrV3
Anexe

Bibliografie
o Sursa datelor: https://data.worldbank.org/topic/gender
o Seminar Analiza Datelor – Zamfir Ionela Cătălina
o Curs Analiza Datelor – Stancu Stelian

Tabele și figuri
Tabel 1 Codurile variabilelor ......................................................................................................................... 4
Tabel 2 Statistici descriptive .......................................................................................................................... 5
Tabel 3 Valori minime. Valori maxime .......................................................................................................... 7
Tabel 4 Coeficientul de asimetrie, Abaterea standard, Coeficientul de aplatizare....................................... 9
Tabel 5 Sinteza rezultatelor ......................................................................................................................... 19
Tabel 6 Valorile proprii asociate .................................................................................................................. 20

Figură 1 Setul de date nestandardizat........................................................................................................... 3


Figură 2 Histogramele setului de date (V1,V2,V3,V4) ................................................................................. 10
Figură 3 Graficul boxplot(V1,V2,V3,V4)....................................................................................................... 10
Figură 4 Histogramele setului de date (V5,V6,V7,V8) ................................................................................. 12
Figură 5 Graficul boxplot (V1,V2,V3,V4) ...................................................................................................... 12
Figură 6 Graficul boxplot (V9,V10,V11) ....................................................................................................... 14
Figură 7 Histogramele setului de date (V9,V10,V11) .................................................................................. 14
Figură 8 Chart Correlation pentru datele nestandardizate ......................................................................... 16
Figură 9 Matricea de corelație .................................................................................................................... 17
Figură 10 Matricea de corelație plot ........................................................................................................... 17
Figură 11 . Probabilitățile p-value asociate matricei de corelație ............................................................... 18
Figură 21 Matricea factor plot..................................................................................................................... 28
Figură 22 Cercul corelațiilor W1-W2 ........................................................................................................... 29
Figură 23 Cercul corelațiilor W2-W3 ........................................................................................................... 29
Figură 24 Cercul corelațiilor W1-W3 ........................................................................................................... 29
Figură 27 plot W1-W3 ................................................................................................................................. 31

Figure 1 GGplot 1......................................................................................................................................... 32


Figure 2 GGplot 2......................................................................................................................................... 32
Figure 3 GGplot 3......................................................................................................................................... 33
Figure 4.2 Biplot 2 ....................................................................................................................................... 33
Figure 5 Biplot 1........................................................................................................................................... 33
Figure 6 PCA Individuals .............................................................................................................................. 34
Figure 7 Outputul comenzii summary după păstrarea celor două componente principale ....................... 35

Codul R
setwd("C:/Users/bianc/Desktop/AD")

dir()

part1<-read.table("Date_finale.txt",header=TRUE,sep="\t")

View(as.matrix(part1))

library(moments)

#Matricea standardizata

part1s<-scale(part1[,2:12],center=TRUE,scale=TRUE)

View(part1s)

#Matricea de covarianta

part1_cov<-round(cov(part1s),2)

View(part1_cov)

#Verificam daca avem valori lipsa in setul de date

lipsa<-is.na(part1)

View(lipsa)

#Statistici descriptive

stat<-summary(part1[,2:12])

stat

attach(part1)

#SL.FAM.WORK.FE.ZS
skewness(V1) #1.224243

kurtosis(V1) #3.6733

sd(V1) #14.3650

#SL.AGR.EMPL.FE.ZS

skewness(V2) #0.8615

kurtosis(V2)#2.5010

sd(V2)#24.8117

#SL.IND.EMPL.FE.ZS

skewness(V3) #0.555

kurtosis(V3)#2.685

sd(V3)#6.099

#SL.SRV.EMPL.FE.ZS

skewness(V4) #-0.5319

kurtosis(V4)#2.0553

sd(V4)#23.9102

#SL.EMP.TOTL.SP.FE.ZS

skewness(V5) #-0.3036

kurtosis(V5)#3.3

sd(V5)#14.2862

#SL.TLF.CACT.FE.ZS

skewness(V6) #-0.4664

kurtosis(V6)#3.4054

sd(V6)#14.0071

#SP.DYN.LE00.FE.IN

skewness(V7) #-0.5426

kurtosis(V7)#2.2770
sd(V7)#7.7456

#SG.GEN.PARL.ZS

skewness(V8) #0.3275

kurtosis(V8)#2.6301

sd(V8)#10.7821

#SL.EMP.SELF.FE.ZS

skewness(V9) #0.3613

kurtosis(V9)#1.6836

sd(V9)#30.6137

#SL.UEM.1524.FE.ZS

skewness(V10) #0.9706

kurtosis(V10)#3.1592

sd(V10)#13.0663

#SL.EMP.VULN.FE.ZS

skewness(V11) #0.3666

kurtosis(V11)#1.6732

sd(V11)#31.0784

#Histograme

windows()

par(mfrow=c(2,2))

hist(V1, col=32, main="Histograma V1-Numărul femeilor care aduc contribuții familiei ")

hist(V2, col=23, main="Histograma V2-Numărul femeilor angajate în domeniul agriculturii ")

hist(V3, col=2, main="Histograma V3-Numărul femeilor angajate în industrie ")

hist(V4, col=158, main="Histograma V4-Numărul femeilor angajate în servicii ")

windows()

par(mfrow=c(2,2))

hist(V5, col=190, main="Histograma V5-Numărul femeilor angajate de la varsta de 15 ani")

hist(V6, col=100, main="Histograma V6-Rata de participare la forța de muncă a femeilor începând cu


varsta de 15 ani")
hist(V7, col=15, main="Histograma V7-Speranța de viață la naștere a femeilor")

hist(V8, col="red", main="Histograma V8-Rata de ocupare a funcțiilor în Parlament a femeilor")

windows()

par(mfrow=c(1,3))

hist(V9, col=246, main="Histograma V9-Numărul femeilor devenite propriile angajate")

hist(V10, col=709, main="Histograma V10-Numărul femeilor neangajate cu varsta între 15-24 de ani")

hist(V11, col=314, main="Histograma V11-Numărul femeilor angajate pe un post vulnerabil")

#Boxplot uri

windows()

par(mfrow=c(2,2))

boxplot(V1, col=32, main="Graficul Boxplot al V1")

#identify(rep(1, length(V1)), V1, labels = seq_along(V1))

boxplot(V2, col=23, main="Graficul Boxplot al V2")

#identify(rep(1, length(V2)), V2, labels = seq_along(V2))

boxplot(V3, col=2, main="Graficul Boxplot al V3")

#identify(rep(1, length(V3)), V3, labels = seq_along(V3))

boxplot(V4, col=158, main="Graficul Boxplot al V4")

#identify(rep(1, length(V4)), V4, labels = seq_along(V4))

windows()

par(mfrow=c(2,2))

boxplot(V5, col=190, main="Graficul Boxplot al V5")

#identify(rep(1, length(V5)), V5, labels = seq_along(V5))

boxplot(V6, col=100, main="Graficul Boxplot al V6")

#identify(rep(1, length(V6)), V6, labels = seq_along(V6))

boxplot(V7, col=15, main="Graficul Boxplot al V7")

#identify(rep(1, length(V7)), V7, labels = seq_along(V7))

boxplot(V8, col="red", main="Graficul Boxplot al V8")

#identify(rep(1, length(V8)), V8, labels = seq_along(V8))


windows()

par(mfrow=c(1,3))

boxplot(V9, col=246, main="Graficul Boxplot al Impozitelor Curente")

#identify(rep(1, length(V9)), V9, labels = seq_along(V9))

boxplot(V10, col=709, main="Graficul Boxplot al Contributiilor Sociale Nete")

#identify(rep(1, length(V10)), V10, labels = seq_along(V10))

boxplot(V11, col=314, main="Graficul Boxplot al Impozitelor pe Productie si Importuri")

#identify(rep(1, length(V11)), V11, labels = seq_along(V11))

#ANALIZA COMPONENTELOR PRINCIPALE

#Matricea de corelatie

corel<-round(cor(part1[,2:12]),2)

View(corel)

corel

install.packages("Hmisc")

install.packages("PerformanceAnalytics")

install.packages("corrplot")

library(corrplot)

library(Hmisc)

library(PerformanceAnalytics)

c<-rcorr(as.matrix(part1[,2:12]))

windows()

corrplot(c$r, type="upper", p.mat=c$P, sig.level=0.01, insig="p-value")

pca<-princomp(part1s, cor=TRUE)

pca

summary(pca)

#Valori proprii si vectori proprii


eigen(cor(part1s))

windows()

plot(pca, type="l",main="Scree plot") #Vom pastra primele doua componente. Acest fapt reiese si prin
aplicarea criteriului

#lui Kaiser

#Criteriul pantei-realizam o taietura in grafic astfel incat in dreapta panta sa fie aproape de 0

#criteriul de alegere al datelor-crit pantelor realizam o taietura in grafic intre a 6a si a 7a valoare proprie,
primul intreg inainte de paralela la Oy, deci a=4

windows()

plot(pca,

type='l',

main="scree plot")

abline(v=6.5,lwd=3,col="green")

abline(h=0.3,lwd=3,col="red")

pca$loadings

#Vom construi noua matrice a componentelor principale

scor<-pca$scores

scor

#Varianta primelor doua coloane

var(scor[,1])

var(scor[,2])

var(scor[,3])

var(scor[,4])

var(scor[,5])

var(scor[,6])

var(scor[,7])

var(scor[,8])

var(scor[,9])

var(scor[,10])
var(scor[,11])

View(cor(scor))

#Matricea factor

s<-summary(pca)

p<-pca$loadings

p[,1:11]

mfac<-cor(part1[,2:12], scor[,1:3])

View(mfac)

library(corrplot)

windows()

corrplot(mfac,method="square")

library(PerformanceAnalytics)

windows()

chart.Correlation(part1[,2:12],histogram=TRUE,pch=19)

#Cercul corelatiilor

windows()

dev.new()

val<-seq(0,2*pi,length=100)

plot(cos(val), sin(val), type="l",col="blue",xlab="W1",ylab="W2")

abline(h=0)

abline(v=0)

text(mfac[,1], mfac[,2],rownames(mfac),col="red",cex=0.7)

windows()

dev.new()

plot(cos(val), sin(val), type="l",col="blue",xlab="W2",ylab="W3")

abline(h=0)

abline(v=0)

text(mfac[,2], mfac[,3],rownames(mfac),col="red",cex=0.7)
windows()

dev.new()

plot(cos(val), sin(val), type="l",col="blue",xlab="W1",ylab="W3")

abline(h=0)

abline(v=0)

text(mfac[,1], mfac[,3],rownames(mfac),col="red",cex=0.7)

#Reprezint tarile intr-un nou spatiu

windows()

plot(scor[,1], scor[,2], xlab="v1", ylab="v2")

text(scor[,1], scor[,2], labels=rownames(part1), pos=3)

install.packages("FactoMineR")

library(FactoMineR)

windows()

pca1<-PCA(part1s)

windows()

plot(pca1)

summary(pca1)

c<-pca$scores[,1:3] #primele 3 componente principale

c2=data.frame(c)

windows()

dev.new()

plot(c2[,1],c2[,2],main="Plot componente - W1 si W2",xlab="W1",ylab="W2")

text(c2[,1],c2[,2],labels=rownames(c2),col="red",pos=3,cex=0.7)

windows()

dev.new()

plot(c2[,2],c2[,3],main="Plot componente - W2 si W3",xlab="W2",ylab="W3")

text(c2[,2],c2[,3],labels=rownames(c2),col="red",pos=3,cex=0.7)
windows()

dev.new()

plot(c2[,1],c2[,3],main="Plot componente - W1 si W3",xlab="W1",ylab="W3")

text(c2[,1],c2[,3],labels=rownames(c2),col="red",pos=3,cex=0.7)

install.packages("ggplot2")

library(ggplot2)

windows()

ggplot(c2,aes(x=c2[,1],y=c2[,2])) +

geom_point(shape=16,size=4,col="red") + geom_text(label=rownames(c2),vjust=0,hjust=0,size=4)

windows()

ggplot(c2,aes(x=c2[,1],y=c2[,3])) +

geom_point(shape=16,size=4,col="red") + geom_text(label=rownames(c2),vjust=0,hjust=0,size=4)

windows()

ggplot(c2,aes(x=c2[,2],y=c2[,3])) +

geom_point(shape=16,size=4,col="red") + geom_text(label=rownames(c2),vjust=0,hjust=0,size=4)

windows()

biplot(c2[,1:2], pca$loadings[,1:2], cex=c(0.6,0.9))

windows()

biplot(c2[,2:3], pca$loadings[,2:3], cex=c(0.6,0.9))

install.packages("FactoMineR")

library(FactoMineR)

cp<-PCA(part1s)

cp

windows()

plot(cp)

summary(cp,nbelements=Inf)
Date înainte de eliminare outlieri
Date după eliminare outlieri

S-ar putea să vă placă și