Sunteți pe pagina 1din 28

Facultatea de Cibernetică, Statistică și Informatică

Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Analiza Factorială

Profesor coordonator: Zamfir Ionela Cătălina

Student: Pîrvu Bianca-Daniela


Grupa 1076
Seria B
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Cuprins
Introducere .............................................................................................................................................. 3
Statistici descriptive ................................................................................................................................ 5
Forma distribuțiilor. Gradul de aplatizare ............................................................................................... 7
Analiza Factorială.................................................................................................................................. 11
Testul Bartlett (Sfericitate) ................................................................................................................ 12
Indicele Kayser – Meyer – Olkin ....................................................................................................... 12
Concluzie ............................................................................................................................................... 21
Bibliografie ........................................................................................................................................ 22
Anexe ..................................................................................................................................................... 23
Cod R ................................................................................................................................................. 24
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Introducere
Datele folosite în Analiza factorială au fost extrase de pe platforma Eurostat, fiind
corespunzătoare anului 2017. În analiză, am extras observații pentru 30 dintre cele mai
importante state membre ale Uniunii Europene, cum ar fi Germania, Spania, Danemarca,
Finlanda sau Belgia. După prelucrarea datelor în Excel au rămas indicatorii următori:
Producția Publică Generală, Impozite Curente pe Venit și Avere, Venituri Totale ale
Administrației Publice, Beneficii Sociale Plătite de Administrația Publică, Încasări din
Impozite și Contribuții, Garanții Guvernamentale, Cheltuieli Publice Totale. Trebuie
menționat faptul că datele prezentate sunt exprimate ca procent din Produsul Intern Brut.

Țara V1 V2 V3 V4 V5 V6 V7
Belgium 18,3 16,8 51,2 17,2 47,3 10,91 52,2
Bulgaria 16,7 5,9 36,1 11,5 29,5 0,47 35,2
Czech Republic 19,4 7,7 40,4 11,8 35,4 0,27 38,8
Denmark 27,1 30 53 16,4 46,5 9,89 51,9
Germany 14,4 12,9 45,2 15,5 40,5 14,28 43,9
Estonia 21,5 7,4 39,9 11,7 33,0 1,51 40,2
Ireland 11,8 10,4 25,7 7,7 23,5 1,91 26,1
Greece 20,9 10,2 48,8 19,3 41,8 6,13 48
Spain 18 10,2 37,9 15,3 34,5 7,74 41
France 21,3 12,9 53,9 19,8 48,4 5,19 56,5
Croatia 21,2 6,3 45,7 13,3 37,8 2,58 45
Italy 18,2 14,6 46,6 19,9 42,4 2,42 48,9
Cyprus 18,1 9,6 39,9 13,6 34,0 9,37 38,1
Latvia 20,2 8,6 37,5 10,4 31,4 1,46 38
Lithuania 17 5,4 33,8 11 29,8 0,89 33,3
Luxembourg 15,2 15,4 44,4 15,5 40,3 12,85 42,9
Hungary 21,4 7,4 44,5 12,2 38,4 8,11 46,5
Malta 20 14,1 40,5 9,6 33,4 14,07 36,5
Netherlands 17,4 12,8 43,7 10,9 39,2 3,69 42,6
Austria 19,8 13 48,4 18,3 42,4 20,46 49,1
Poland 18,1 7,4 39,6 15,1 35,1 7,14 41,2
Portugal 19,3 10,2 42,9 16,7 36,9 5,62 45,9
Romania 16,4 6,1 30,5 10,8 25,8 2,23 33,4
Slovenia 20,2 7,4 43,1 14,9 36,8 9,62 43,1
Slovakia 18,7 7,1 39,4 13,5 33,2 0,03 40,4
Finland 26,9 16,6 53,2 19 43,4 28,05 53,7
Sweden 26 18,7 50,5 12,9 44,9 10,52 49,1
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

United Kingdom 18,3 14,3 39,1 13 35,4 8,33 40,9


Iceland 26,1 19,2 43,4 6,8 38,9 5,65 41,9
Norway 25,5 15,5 54,4 14,9 28,5 17,80 50
Table 1 Set de date

Cod Denumire variabilă


V1 Producția Publică Generală
V2 Impozite pe Venit și Avere
V3 Venituri Publice Totale
V4 Beneficii Sociale Plătite de Administrația Publică
V5 Încasări din Impozite și Contribuții
V6 Garanții Guvernamentale
V7 Cheltuieli Publice Totale
Table 2 Denumiri variabile

Producția Publică Generală, constă în toate producția creată de către instituțiile


guvernamentale, precum unitățile din subsectoarele administrației centrale, ale administrației
de stat, ale administrației locale sau ale fondurilor de securitate socială. Această categorie
include trei tipuri de producție: producția de piață, producția pentru uzul final propriu și
producția necomercială.
Impozitele Curente pe Venit și Avere reprezintă a doua variabilă selectată. Acestea
acoperă toate plățile obligatorii și nerecuperabile, în numerar sau în natură, percepute periodic
de către administrația publică și de restul lumii cu privire la venitul și bogăția unităților
instituționale, precum și anumite impozite periodice care nu sunt evaluate nici pentru venitul
respectiv, nici pentru avere.
Veniturile Totale ale Administrației Publice se găsesc în setul de date sub forma celei de-
a treia variabile. Acestea constituie toate veniturile pe care un Guvern le primește. În mod
oficial, venitul total reprezintă ansamblul tuturor tranzacțiilor înregistrate în cadrul resurselor,
inclusiv subvențiile încasate în conturile curente și transferurile de capital încasate înregistrate
în contul de capital.
Beneficiile Sociale Plătite de Administrația Publică reprezintă a patra variabilă din analiza
efectuată. Acest indicator constituie transferurile către gospodării, în numerar sau în natură,
destinate să le scutească de sarcina financiară a unui număr de riscuri sau nevoi (boală,
invaliditate, accident de muncă, vârstă înaintată, supraviețuitori în urma unor calamități,
maternitate, familie, promovarea ocupării forței de muncă, șomaj, locuință, educație).
Încasările din Impozite și Contribuții, a cincea variabilă a setului de date,
reprezintă încasările și plățile efectuate în numerar pe o perioadă definită de timp acestea fiind
legate de un proiect specific (bilanț, contract, credit) - sinonim cu fluxul de trezorerie.
A șasea variabilă, Garanțiile Guvernamentale, reprezintă angajamentul asumat în numele
și în contul statului de către Guvern, prin Ministerul Economiei și Finanțelor, sau de către
unitățile administrativ-teritoriale, prin autoritățile administrației publice locale, în calitate de
garant, de a plăti la scadență obligațiile neonorate ale garantatului, în condițiile legii.
A șaptea variabilă, Cheltuielile Totale ale Administrației Publice, este definită prin
referirea la o listă a categoriilor următoare: consum intermediar, formare brută de capital,
compensații pentru angajați, alte impozite pe producție, subvenții, venituri din proprietăți
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

datorate, impozite curente asupra veniturilor, prestații sociale altele decât transferurile sociale
în natură, transferuri sociale în natură – producție pe piață cumpărată, alte transferuri curente,
ajustări pentru modificarea drepturilor la pensie, transferuri de capital și achiziții minus cedările
de active nefinanciare neproduse.

Statistici descriptive
Folosind comanda summary, am obținut statisticile descriptive privind indicatorii analizați.
Aceștia sunt prezentați în Tabelul 3.

Denumirea variabilei Medi Abatere Quartila Quartila Quartila


e standard 1 2 3
Producția Publică Generală 19.78 3.67 18.02 19.35 21.27
Impozite pe Venit și Avere 11.80 5.29 7.40 10.30 14.53
Venituri Totale ale 43.11 6.91 39.45 43.25 47.95
Administrației Publice
Beneficii Sociale Plătite de 13.95 3.46 11.55 13.55 16.18
Administrația Publică
Încasările din Impozite și 36.95 6.91 33.25 36.85 41.48
Contribuții
Garanțiile Guvernamentale 7.64 6.79 2.27 6.63 10.36
Cheltuielile Totale ale 43.14 3.46 39.15 42.75 48.67
Administrației Publice
Table 3 Statistici descriptive

Quartila 1 este de 18.02, ceea ce înseamnă că 25% din Producția Publică Generală este mai
mică de 18.02, iar 75% din Producția Publică Generală este mai mare de 18.02. Mediana este
de 19.35, ceea ce înseamnă că 50% din valorile Producției Publice Generale sunt mai mici de
19.35, iar 50% din valorile Producției Publice Generale sunt mai mari de 19.35. Quartila 3 este
de 21.27, ceea ce înseamnă că 75% din valorile Producției Publice Generale sunt mai mici de
21.27, iar 25% din valorile Producției Publice Generale sunt mai mari de 21.27.
În medie, valorile Producției Publice Generale au fost de 19.78. Valorile se abat cu 3.67 de
la medie. Această abatere este relativ mică, în comparație cu media, așadar nu este
considerabilă.

Un procent de 25% din valoarea Impozitelor Curente pe Venit și Avere este sub 7.40, iar 75%
din valoarea Impozitelor Curente pe Venit și Avere este peste 7.40. Un procent de 50% din
valoarea
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Impozitelor Curente pe Venit și Avere este peste 10.30, iar 50% din valoarea Impozitelor
Curente pe Venit și Avere este sub 10.30. Un procent de 75% din valoarea Impozitelor Curente
pe Venit și Avere este peste 14.53, iar 25% din valoarea Impozitelor Curente pe Venit și Avere
este sub 14.53.
Valoarea medie a Impozitelor Curente pe Venit și Avere a fost de 11.80. Abaterea standard
de la medie este de 5.29. Aceasta este aproape jumătate din valoarea medie, așadar este de luat
în considerare.

Un procent de 25% din Veniturile Totale ale Administrației Publice este sub 39.45, iar 75%
din Veniturile Totale ale Administrației Publice sunt peste 39.45. Mediana este de 43.25, ceea
ce înseamnă că 50% din Veniturile Totale ale Administrației Publice sunt sub 43.25, iar 50%
din Veniturile Totale ale Administrației Publice sunt peste 43.25. Quartila 3 este de 47.95, ceea
ce înseamnă că 75% din Veniturile Totale ale Administrației Publice sunt sub 49.75, iar 25%
din Venituri Totale ale Administrației Publice sunt peste 49.75.
În medie, Veniturile Totale ale Administrației Publice au fost de 43.11. Abaterea standard de
la medie este de 4.32, așadar nu este de luat în considerare.

25% din Cheltuielile Totale ale Administrației Publice sunt mai mici de 39.15, iar 75% din
Cheltuielile Totale ale Administrației Publice sunt mai mari de 39.15, conform quartilei 1.
Valoarea medianei este de 42.75, ceea ce înseamnă că 50% din Cheltuielile Totale ale
Administrației Publice sunt mai mici de 42.75, iar 50% din Cheltuielile Totale ale
Administrației Publice sunt mai mari de 42.75. Quartila 3 este de 48.67, ceea ce înseamnă că
75% din Cheltuielile Totale ale Administrației Publice sunt mai mici de 48.67, iar 25% din
Cheltuielile Totale ale Administrației Publice sunt mai mari de 48.67.
În medie, Cheltuielile Totale ale Administrației Publice au fost de 43.14. Abaterea standard
este de 6.79, ceea ce conduce în a afirma că valorile setului de date nu prezintă abateri mari de
la medie.

Quartila 1 este de 11.55, ceea ce înseamnă că 25% din Beneficii Sociale Plătite de Administrația
Publică sunt mai mici de 11.55, iar 75% din Beneficiile Sociale Plătite de Administrația Publică
sunt mai mari de 11.55. 50% din Beneficiile Sociale Plătite de Administrația Publică sunt mai
mici de 13.55, iar 50% din Beneficii Sociale Plătite de Administrația Publică sunt mai mari de
13.55. Quartila 3 este de 16.18, ceea ce înseamnă că 75% din Beneficiile Sociale Plătite de
Administrația Publică sunt mai mici de 16.18, iar 25% din Beneficiile Sociale Plătite de
Administrația Publică sunt mai mari de 16.18.
Valoarea medie a Beneficiilor Sociale Plătite de Administrația Publică a fost de 13.95 în anul
2017. Valorile se abat de la medie cu 3.46, așadar diferența nu este mare.

Quartila 1 este de 33.25, ceea ce înseamnă că 25% din Încasările din Impozite și Contribuții
sunt mai mici de 33.25, iar 75% din Încasările din Impozite și Contribuții sunt mai mari de
33.25. 50% din Încasările din Impozite și Contribuții sunt mai mici de 36.85, iar 50% din
Încasările din Impozite și Contribuții sunt mai mari de 36.85. Quartila 3 este de 41.48, ceea ce
înseamnă că 75% din Încasările din Impozite și Contribuții sunt mai mici de 41.48, iar 25% din
Încasările din Impozite și Contribuții sunt mai mari de 41.48.
Valoarea medie a Încasările din Impozite și Contribuții a fost de 36.95 în anul 2017. Valorile
se abat de la medie cu 6.91, așadar diferența nu este considerabila.
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Quartila 1 este de 2.27, ceea ce înseamnă că 25% din Garanțiile Guvernamentale sunt mai mici
de 2.27, iar 75% din Garanțiile Guvernamentale sunt mai mari de 2.27. 50% din Garanțiile
Guvernamentale sunt mai mici de 6.63, iar 50% din Garanțiile Guvernamentale sunt mai mari
de 6.63. Quartila 3 este de 10.36, ceea ce înseamnă că 75% din Garanțiile Guvernamentale sunt
mai mici de 10.36, iar 25% din Garanțiile Guvernamentale sunt mai mari de 10.36.
Valoarea medie a Garanțiile Guvernamentale a fost de 7.64 în anul 2017. Valorile se abat de
la medie cu 6.79, așadar este considerabila.

25% din Cheltuielile Totale ale Administrației Publice sunt mai mici de 39.15, iar 75% din
Cheltuielile Totale ale Administrației Publice sunt mai mari de 39.15, conform quartilei 1.
Valoarea medianei este de 42.75, ceea ce înseamnă că 50% din Cheltuielile Totale ale
Administrației Publice sunt mai mici de 42.75, iar 50% din Cheltuielile Totale ale
Administrației Publice sunt mai mari de 42.75. Quartila 3 este de 48.67, ceea ce înseamnă că
75% din Cheltuielile Totale ale Administrației Publice sunt mai mici de 48.67, iar 25% din
Cheltuielile Totale ale Administrației Publice sunt mai mari de 48.67.
În medie, Cheltuielile Totale ale Administrației Publice au fost de 43.14. Abaterea standard
este de 6.79, ceea ce conduce în a afirma că valorile setului de date nu prezintă abateri mari de
la medie.

Forma distribuțiilor. Gradul de aplatizare

Denumirea variabilei Coeficient de Abatere Coeficient de


asimetrie standard aplatizare
Producția Publică Generală 0.39 3.67 2.98
Impozite Curente pe Venit și 1.36 5.29 5.63
Avere
Venituri Totale ale -0.69 4.32 2.85
Administrației Publice
Beneficii Sociale Plătite de 0.74 2.89 4.07
Administrația Publică
Încasări din Impozite și -0.31 6.91 2.95
Contribuții
Garanții Guvernamentale -0.21 6.79 2.91
Cheltuielile Totale ale -0.006 3.46 2.35
Administrației Publice
Table 4 Coeficientul de asimetrie, Abaterea standard, Coeficientul de aplatizare
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Figure 2 Histogramele setului de date

Figure 1 Graficul boxplot


Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

În urma analizei coeficientului de asimetrie asupra Producției Publice Generale, care are
valoarea 0.39, se observă că seria este ușor asimetrică la dreapta, prezentând valori mai mici
decât media. De asemenea, forma distribuției este aproximativ mezocurtică, întrucât
coeficientul de aplatizare este de 2.98, foarte apropiat de 3. Acest fapt se deduce si observând
histograma.
Analizând graficul boxplot al acestei variabile, este confirmată asimetria la dreapta. De
asemenea, outlierii prezenți sunt țările Irlanda, Danemarca și Finlanda. Se cunoaște faptul că
Irlanda, respectiv Danemarca, dețin valoarea minimă, respectiv maximă din setul de date.

Analizând coeficientul de asimetrie al Impozitelor pe Venit și Avere, care are valoarea 1.36,
se observă că seria este asimetrică la dreapta, prezentând valori mai mici decât media. De
asemenea, forma distribuției este leptocurtică, întrucât coeficientul de aplatizare este de 5.63.
Analizând histograma., se poate afirma că predomină frecvențele mari de apariție a valorilor
mici.
Conform graficului boxplot, seria este asimetrică la dreapta. De asemenea, singura țară care
este outlier este Danemarca. De altfel, aceasta prezintă valoarea maximă din datele
corespunzătoare acestui indicator.
Coeficientul de asimetrie al Veniturilor Totale este de -0.69, așadar seria este asimetrică la
stânga, predominând valorile mai mari decât media. De asemenea, forma distribuției tinde să
fie mezocurtică, întrucât coeficientul de aplatizare este de 2.85.
Analizând coeficientul de asimetrie al Beneficiilor Sociale, care are valoarea 0,74, se observă
că seria este ușor asimetrică la dreapta, predominând valorile mai mari decât media, deoarece
coeficientul de asimetrie Pearson este de 0,74. De asemenea, forma distribuției este leptocurtică,
întrucât coeficientul de aplatizare este de 4,07. Așadar, predomină frecvențele mari de apariție
ale valorilor.
Analizând graficul boxplot, se observă că setul de date nu prezintă outlieri, precum și că
seria este asimetrică la dreapta.

Figure 3 Histograme
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Figure 4 Grafic boxplot

Conform coeficientului de asimetrie al Încasărilor din Impozite şi Contribuţii, care are valoarea
-0.31, seria este ușor asimetrică la stânga, predominând valorile mai mari decât media. De
asemenea, forma distribuției tinde să fie mezocurtică, întrucât coeficientul de aplatizare este de
2.95.
În urma analizei graficului boxplot, este confirmată ușoara asimetrie la stânga. De asemenea,
se observă faptul că setul de date nu prezintă outlieri.
Conform coeficientului de asimetrie al Garanţiilor Guvernamentale, care are valoarea -0.21,
seria este ușor asimetrică la stânga, predominând valorile mai mari decât media. De asemenea,
forma distribuției tinde să fie mezocurtică, întrucât coeficientul de aplatizare este de 2.91.
În urma analizei graficului boxplot, este confirmată ușoara asimetrie la stânga. De asemenea,
se observă faptul că setul de date nu prezintă outlieri.
Conform coeficientului de asimetrie al Cheltuielilor Totale, care are valoarea -0.006, seria
este asimetrică la stânga, predominând valorile mai mari decât media. De asemenea, forma
distribuției tinde să fie platicurtică, întrucât coeficientul de aplatizare este de 2.35.
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

În urma analizei graficului boxplot, este confirmată ușoara asimetrie la stânga. De asemenea,
se observă faptul că setul de date nu prezintă outlieri.

Analiza Factorială

Asupra setului de date ce conține date asupra finanțelor publice ale principalelor țări din
Uniunea Europeană, s-a aplicat Analiza Factorială. Scopul este să vedem contribuția acelui
factor latent ales la toate variabilele analizate. Totodată, ne interesează să obținem Q, acele
ponderi specifice factorului latent. În cadrul proiectului, s-au folosit testul Bartlett
(sfericitate), precum și statistica KMO, pentru a extrage factorul latent căutat, și anume
creșterea economică. Totodată, în cadrul analizei factoriale, s-a folosit metoda verosimilității
maxime, fără rotație și cu rotație –varimax, precum și metoda axelor principale, atât fără
rotație, cât și cu rotație – varimax.

V1 V2 V3 V4 V5 V6 V7
V1 1.00 0.53 0.68 0.17 0.43 0.38 0.62
V2 0.53 1.00 0.60 0.24 0.59 0.48 0.54
V3 0.68 0.60 1.00 0.67 0.81 0.58 0.96
V4 0.17 0.24 0.67 1.00 0.65 0.43 0.77
V5 0.43 0.59 0.81 0.65 1.00 0.38 0.85
V6 0.38 0.48 0.58 0.43 0.38 1.00 0.52
V7 0.62 0.54 0.96 0.77 0.85 0.52 1.00
Table 5 Matricea de corelație
Conform Table 5. Matricea de corelație, cea mai intensă legătură, pozitivă, este între
Cheltuielile Totale ale Administrației Publice și Veniturile Totale ale Administrației Publice,
având valoarea de 0,96. Totodată, legătură pozitivă, puternică există și între Cheltuielile
Totale ale Administrației Publice și Încasări din Impozite și Contribuții, cu un coeficient de
corelație de 0,85.
O legătură slabă există între Încasări din Impozite și Contribuții și Garanții Guvernamentale,
având un coeficient de corelație de 0,38. Legătura este pozitivă, dar slabă între Garanțiile
Guvernamentale și producția Publică Generală, cu o valoare de 0,38. Între Garanțiile
Guvernamentale și Cheltuielile Publice Totale există o legătură medie, corelația fiind de 0,53.
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Figure 5 Matricea de corelație și pragurile semnificative

Totodată, în Figura 5. Matricea de corelație și pragurile semnificative se observă că există


variabile pentru care coeficientul de corelație nu este semnificativ statistic, cum ar fi
Impozitele pe Venit și Avere și Beneficiile Sociale Plătite de Administrația Publică sau
Beneficiile Sociale Plătite de Administrația Publică și Garanțiile Guvernamentale.

Testul Bartlett (Sfericitate)

Ipotezele acestui test sunt următoarele:


𝐻0 : 𝑐𝑜𝑟𝑒𝑙𝑎ț𝑖𝑖 𝑛𝑢𝑙𝑒 î𝑛𝑡𝑟𝑒 𝑣𝑎𝑟𝑎𝑖𝑏𝑖𝑙𝑒 (𝑛𝑢 𝑠𝑒 𝑗𝑢𝑠𝑡𝑖𝑓𝑖𝑐ă 𝑎𝑛𝑎𝑙𝑖𝑧𝑎)
𝐻1 : 𝑒𝑥𝑖𝑠𝑡ă 𝑐𝑒𝑙 𝑝𝑢ț𝑖𝑛 𝑢𝑛 𝑓𝑎𝑐𝑡𝑜𝑟 𝑐𝑜𝑚𝑢𝑛

În urma analizei testului Bartlett, aplicat matricei de corelație, s-a observat faptul că
statistica Chi2 este de 32.67. Totodată, valoarea p-value este de 0. O valoare a p-value atât de
mică permite respingerea ipotezei nule și acceptarea ipotezei alternative, care presupune
existența a cel puțin unui factor comun. În acest caz, se poate continua Analiza Factorială.

Indicele Kayser – Meyer – Olkin

Statistica KMO este de 0.75679. Aceasta se încadrează în intervalul 0.7 - 0.8, așadar se
poate afirma că setul de date prezintă o factorabilitate medie.
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Figure 6 Screeplot
Cu ajutorul funcţiei fa.parallel(govs[,1:7]) am identificat numărul de factori (1) și numărul de
componente(1)

Tehnica scree plot implică trasarea unei linii drepte prin valorile
proprii reprezentate, începând cu cea mai mare. Ultimul punct care cade pe
această linie reprezintă ultimul factor care se extrage, în ideea că, dincolo de
acesta, cantitatea de varianță suplimentară explicată nu are sens a fi luată în
calcul.

Figure 7 Analiza paralela


Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

O metodă mai bună de evaluare a scree plot-ului este în cadrul unei


analize paralele. În plus, față de trasarea valorilor proprii din analiza
factorială (indiferent dacă se bazează pe extracția axei principale sau a
componentelor principale), o analiză paralelă implică generarea de matrici
de corelație aleatorii și după analizarea factorilor acestora, se compară
valorile proprii rezultate cu valorile proprii ale datelor observate.
Fiecare punct de pe linia albastră care se află deasupra liniei de date
simulate corespunzătoare este un factor sau o componentă de extras.

Scopul analizei este de a identifica acel factor latent, creșterea economică, care reiese din
analiza indicatorilor macroeconomici prezentați. Inițial, am ales metoda verosimilității
maxime, fără rotație, pentru a determina factorul latent. Căutând un singur factor, în codul din
R, am precizat faptul că numărul factorilor va fi 1 (nfactors=1). Astfel, am obținut loadingsul
pentru factorul ascuns căutat sau matricea Q. h2 reprezintă valoarea factorului latent pentru
fiecare variabilă, ridicată la pătrat, în timp ce u2 reprezintă unicitatea. Totodată, se observa că
suma dintre h și u reprezintă comunalitatea. În analiza factorială, ne interesează partea de
unicitate și de comunalitate.

PA1 h2 u2 com
V1 0.61 0.37 0.6339 1
V2 0.63 0.39 0.6030 1
V3 1.00 1.00 0.0047 1
V4 0.66 0.44 0.5595 1
V5 0.84 0.71 0.2899 1
V6 0.58 0.34 0.6649 1
V7 0.99 0.98 0.0159 1
Table 6 Metoda PA, fără rotație
În cazul procedurii pa, aplicate fără rotație, se observă tot existența unui singur factor
latent. Pentru fiecare, este prezentată valoarea în raport cu o variabilă, unicitatea și
comunalitatea. Comparativ cu output-ul anterior, se observă faptul că procentul de informație
preluat a scăzut cu câteva unități. De exemplu, pentru prima varaibilă, valoarea este de 0.61.
Ultima variabilă nu mai are maximul de influență, ci are 0.99. Pentru variabila a cincea,
valoarea a scăzut de la 0.86 la 0.84.

PA1
Variabilă Valoare
V1 0.605
V2 0.628
V3 0.998
V4 0.664
V5 0.843
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

V6 0.579
V7 0.992
Table 7 Loadings

PA1
SS loadings 4.225
Proportion Var 0.604
Table 8 Loadings

Figure 8 Diagrama informației extrase

Diagrama din figură arată că există un singur factor latent. Acesta extrage informație din
toate cele 7 variabile. Cea mai multă informație este extrasă din variabila a treia și variabila a
șaptea. Comparativ, o cantitate medie este extrasă din prima varaibilă, a doua și a șasea.

PA1 h2 u2 com
V1 0.61 0.37 0.6339 1
V2 0.63 0.39 0.6060 1
V3 1.00 1.00 0.0044 1
V4 0.66 0.44 0.5596 1
V5 0.84 0.71 0.2900 1
V6 0.58 0.34 0.6649 1
V7 0.99 0.98 0.0160 1
Table 9 Metoda PA, cu rotație
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Aplicând metoda pa, cu rotație varimax, rezultatele diferă de alocuri, extrem de puțin,
outputul fiind în general același. Așadar, factorul latent creștere economică este explicat de
toate cele 7 variabile.

PA1
Variabilă Valoare
V1 0.605
V2 0.628
V3 0.998
V4 0.664
V5 0.843
V6 0.579
V7 0.992
Table 10 Loadings

ML1
SS loadings 4.225
Proportion Var 0.604
Table 11 Loadings
h2 =>Comunalitatea este acea parte a varianţei unei variabile indicator,
care exprimă variabilitatea indusă de influenţa factorilor comuni
u2=> Unicitatea este acea parte a varianţei unei variabile indicator, care
exprimă variabilitatea indusă de influenţa factorului unic şi care nu poate fi
explicată prin intermediul factorilor comuni.
com=> indicele Hoffman de complexitate- FORMULA:(sum(ai^2))^2/(sum(ai^4)), unde
ai=loading-ul factorului

Exemple de calcul matematic ai cativa indici Hoffman:

Equation 1 exemplu matematic


V1: (0.605^2)^2/(0.605^4)=1
V2: (0.628^2)^2/(0.628^4)=1
V3: (0.998^2)^2/(0.998^4)=1
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

ML1 h2 u2 com
V1 0.63 0.39 0.608 1
V2 0.55 0.30 0.697 1
V3 0.96 0.93 0.071 1
V4 0.77 0.60 0.405 1
V5 0.86 0.74 0.263 1
V6 0.53 0.28 0.721 1
V7 1.00 1.00 0.005 1
Table 12 Metoda verosimilității maxime, fără rotație

ML1
Variabilă Valoare
V1 0.626
V2 0.550
V3 0.964
V4 0.771
V5 0.859
V6 0.528
V7 0.998
Table 13 Loadings

ML1
SS loadings 4.230
Proportion Var 0.604
Table 14 Loadings

Se observă faptul că variația factorului latent găsit este explicată de prima variabilă, Producția
Publică Generală, cu 0.626. A doua variabilă, Impozitele pe Venit și Avere, contribuie la
variația factorului latent în cea mai mică măsură, cu 0.550. Factorul este explicat într-o
măsură foarte mare de variabila a treia și a șaptea, care reprezintă Veniturile Publice Totale și
Cheltuielile Publice Totale, cu valorile de 0.964, respectiv 0.998. O influență mai mică,
comparativ cu celelalte variabile, o au Garanțiile Guvernamentale, cu valoarea de 0.528.
Beneficiile Sociale Plătite de Administrația Publică explică variația factorului latent cu 0.771.
Proporția variației explicată de variabile este de 60,4%, procentul fiind semnificativ.
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Figure 9 Diagrama informației extrase

În diagrama din figura se observă prezența unui singur factor comun, care preia informație
din toate cele 7 variabile. Maximul de informație este preluat din variabila 3, respectiv din
variabila 7. Acestea reprezintă Veniturile Publice Totale, respectiv Cheltuielile Publice
Totale. O cantitate medie de informație este preluată din Producția Publică Generală și din
Impozitele pe Venit și Avere, cea mai mică cantitate comparativ cu celellate variabile fiind
preluată din Garanțiile Guvernamnetale.

ML1 h2 u2 com
V1 0.63 0.39 0.608 1
V2 0.55 0.30 0.697 1
V3 0.96 0.93 0.071 1
V4 0.77 0.60 0.405 1
V5 0.86 0.74 0.263 1
V6 0.53 0.28 0.721 1
V7 1.00 1.00 0.005 1
Table 15 Metoda verosimilității maxime, cu rotație

Aplicând metoda verosimilității maxime, cu rotire varimax, rezultate nu se modifică. Se


observă existența aceluiași factor latent unic, iar output-ul este același, ca în cazul aplicării
procedurii fără rotație. Așadar, prima variantă obținută a fost cea mai bună.
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

ML1
Variabilă Valoare
V1 0.626
V2 0.550
V3 0.964
V4 0.771
V5 0.859
V6 0.528
V7 0.998
Table 16 Loadings

ML1
SS loadings 4.23
Proportion Var 0.60
Table 17 Loadings
ss loadings : ajuta la determinarea variantei factorilor, un factor "merita" pastrat daca este >1
proportion var: proportia de varianta explicata de fiecare factor
Loadingsurile nu s-au modificat, rămânând la aceleași valori.

Figure 10 Diagrama informației extrase

Din diagramă se observă câtă informație extrage factorul latent din fiecare variabilă.

Loadingsurile nu s-au schimbat, rămânând aceleași.


Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Figure 11 corrplot ML1 Figure 12 corrplot PA1

Figure 13 plot factori2

*Acesta arată observaţiile iniţiale în noul plan factorial


Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Concluzie
În urma aplicării analizei factoriale asupra setului de date, s-a observat existența unui
singur factor latent, creșterea economică, explicat în cea mai mare măsură de variabilele
Cheltuieli ale Administrației Publice și Venituri ale Administrației Publice. Asupra setului de
date cu 30 de observații și 7 variabile s-a aplicat testul Bartlett și statistica KMO, acestea
conducându-ne în testarea analizei factoriale, care s-ar preta sau nu asupra datelor. Aflând că
aceasta se pretează, am încercat două metode, metoda verosimilității maxime și pa, cu rotație
și fără. Astfel, s-a observat influența covârșitoare a Cheltuielilor ale Administrației Publice și
Veniturilor Publice Totale asupra factorului latent creștere economică. De altfel, este cunoscut
faptul că veniturile și cheltuielile influențează într-o mare măsură creșterea economică.
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Bibliografie

o Sursa datelor: Anual Government Finance Statistics – Statistici Anuale ale Finanțelor Publice
www.ec.europa.eu/eurostat/data/database?node_code=prc_hicp_ctrb
o Seminar Analiza Datelor – Prof. Zamfir Ionela Cătalina
o Curs Analiza Datelor –Prof. Stancu Stelian
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Anexe

Figure 1 Graficul boxplot ......................................................................................................................... 8


Figure 2 Histogramele setului de date .................................................................................................... 8
Figure 3 Histograme ................................................................................................................................ 9
Figure 4 Grafic boxplot .......................................................................................................................... 10
Figure 5 Matricea de corelație și pragurile semnificative ..................................................................... 12
Figure 6 Screeplot.................................................................................................................................. 13
Figure 7 Analiza paralela ....................................................................................................................... 13
Figure 8 Diagrama informației extrase .................................................................................................. 15
Figure 9 Diagrama informației extrase .................................................................................................. 18
Figure 10 Diagrama informației extrase ................................................................................................ 19
Figure 11 corrplot ML1 .......................................................................................................................... 20
Figure 12 corrplot PA1........................................................................................................................... 20
Figure 13 plot factori2 ........................................................................................................................... 20

Table 1 Set de date .................................................................................................................................. 4


Table 2 Denumiri variabile...................................................................................................................... 4
Table 3 Statistici descriptive ................................................................................................................... 5
Table 4 Coeficientul de asimetrie, Abaterea standard, Coeficientul de aplatizare .................................. 7
Table 5 Matricea de corelație ................................................................................................................ 11
Table 6 Metoda PA, fără rotație ............................................................................................................ 14
Table 7 Loadings ................................................................................................................................... 15
Table 8 Loadings ................................................................................................................................... 15
Table 9 Metoda PA, cu rotație............................................................................................................... 15
Table 10 Loadings ................................................................................................................................. 16
Table 11 Loadings ................................................................................................................................. 16
Table 12 Metoda verosimilității maxime, fără rotație ........................................................................... 17
Table 13 Loadings ................................................................................................................................. 17
Table 14 Loadings ................................................................................................................................. 17
Table 15 Metoda verosimilității maxime, cu rotație............................................................................. 18
Table 16 Loadings ................................................................................................................................. 19
Table 17 Loadings ................................................................................................................................. 19

Equation 1 exemplu matematic ............................................................................................................. 16


Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

Cod R

gov<-read.table( "DateFaza2.txt", sep="\t", dec=",", header=TRUE, row.names=1)


attach(gov)
detach(gov)
library(moments)

View(as.matrix(gov))
#Matrice standardizata
govs<-scale(gov, center=TRUE, scale=TRUE)

#Matricea de covarianta
cova<-round(cov(govs),2)

stat<-summary(gov)
stat
attach(gov)
#Producția Publică Generală
skewness(V1)
kurtosis(V1)
sd(V1)

#Impozite pe Venit si Avere


skewness(V2)
kurtosis(V2)
sd(V2)

#Venituri Totale ale Administrației Publice


skewness(V3)
kurtosis(V3)
sd(V3)

#Beneficii Sociale Plătite de Administrația Publică


skewness(V4)
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

kurtosis(V4)
sd(V4)

#Încasările din Impozite și Contribuții


skewness(V5)
kurtosis(V5)
sd(V5)

#Garanțiile Guvernamentale
skewness(V6)
kurtosis(V6)
sd(V6)

#Cheltuielile Totale ale Administrației Publice


skewness(V7)
kurtosis(V7)
sd(V7)

attach(gov)
#Histograme
par(mfrow=c(1,4))
hist(V1, col="red", main="Histograma Productiei Publice Generale")
hist(V2, col="purple", main="Histograma Impozitelor Curente")
hist(V3, col="green", main="Histograma Veniturilor totale")
hist(V4, col="magenta", main="Histograma Beneficiilor Sociale")
par(mfrow=c(1,3))
windows()
par(mfrow=c(2,1))
hist(V5, col="yellow", main="Histograma Incasarilor din imp")
hist(V6, col="blue", main="Histograma Garantiilor Guvernamentale")
hist(V7, col="pink", main="Histograma Cheltuielilor totale ")

library(corrplot)
#Grafic Boxplot
par(mfrow=c(1,4))
boxplot(V1, col=32, main="Graficul Boxplot al Productiei Publice Generale")

boxplot(V2, col=23, main="Graficul Boxplot al Impozitelor Curente")

boxplot(V3, col=2, main="Graficul Boxplot al Veniturilor totale")

boxplot(V4, col=10, main="Graficul Boxplot al Beneficiilor Sociale")

windows()
par(mfrow=c(3,1))
boxplot(V5, col=190, main="Graficul Boxplot al Incasarilor din imp")
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

boxplot(V6, col=100, main="Graficul Boxplot al Garantiilor Guvernamentale")

boxplot(V7, col=15, main="Graficul Boxplot al Cheltuielilor Totale")

library(rela)
library(psych)

#Testul de sfericitate
cor<-cor(govs)
View(cor)
install.packages("Hmisc")
library(Hmisc)
install.packages("PerformanceAnalytics")
library(PerformanceAnalytics)
install.packages("corrplot")
library(corrplot)
co<-rcorr(as.matrix(govs))
co
corrplot(co$r, type="upper", p.mat=co$P, sig.level=0.01, insig="p-value")

#cortest.bartlett(cor)

#KMO
R=cor(govs)
invR <- solve(R) #inversa matricei de corel
A <- matrix(1,nrow(invR),ncol(invR)) #matr coef de corel partiala
for (i in 1:nrow(invR)){ #cream o matrice cu 1 peste tot, folosind met 3 pt a calc coef de corel
partiala
for (j in (i+1):ncol(invR)){
A[i,j] <- invR[i,j]/sqrt(invR[i,i]*invR[j,j]) #nr de col=nr de linii
A[j,i] <- A[i,j]
}
}
colnames(A) <- colnames(govs) #dam nume pt linii si coloane
rownames(A) <- colnames(govs)
round(A,3)
View(round(A,3))
kmo.num <- sum(R^2) - sum(diag(R^2)) #numaratorul
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

kmo.denom <- kmo.num + (sum(A^2) - sum(diag(A^2))) #numitor #i diferit de j inseamna


coef de corel partiala in afara de diagonala principala
kmo <- kmo.num/kmo.denom
kmo #0.7567 factorabilitate medie

functie_Bartlett<-function(date){
R<-cor(date)
p<-ncol(date) #nr col
n<-nrow(date) #nr de observatii
chi2<- -((n-1)-((2*p)+5)/6 ) * log(det(R))
df<-(p*(p-1)/2) #grade de libertate
crit<-qchisq(.95,df)
p<-pchisq(chi2,df,lower.tail=F) #p-value
cat("Bartlett's test of sphericity: X2(",df,")=",chi2,", p=",
round(p,6),sep="" )
}
functie_Bartlett(govs) #bartlett=192.36
qchisq(0.05,21,lower.tail=F) #acceptam H1 pt ca 32.67<192.36
#df=21=7*6/2

#Metoda Versomilitatii Maxime


library(rela)
rez <- paf(as.matrix(govs))
rez$KMO
rez$Bartlett
#da, putem folosi datele
install.packages('GPArotation')
library(GPArotation)
library(psych)
windows()
fa.parallel(govs[,1:7])

windows()
scree(govs[,1:7])
factori1 <- fa(govs,nfactors=1, rotate="none",fm="pa") #nu am rotit axele, am folosit
fm="pa" principal axes
print(factori1$loadings,cutoff=0.4) #afisam doar valorile care nu sunt in intervalul -0.4 si 0.4
factori1 <- fa(govs,nfactors=1, rotate="Varimax",fm="pa")#rotate="Varimax"->rotatie
ortogonala a axelor
print(factori1$loadings,cutoff=0.4)
#ss loadings : ajuta la det variantei factorilor, un factor "merita" pastrat daca e>1
# proportion var:proportia de varianta explicata de fiecare factor
#cumulative var: varianta explicata in total de cei 5 factori

windows()
Facultatea de Cibernetică, Statistică și Informatică
Economică
Academia de Studii Economice din București
Specializarea: Cibernetică Economică

fa.diagram(factori1)
library(corrplot)
windows()
corrplot(factori1$loadings, method = "circle")
factori1

#de la PA2 PANA LA PA4 avem val pt loadings


#h^2 comunalitatea 20% explicata de varianta factorilor comuni
#u^2 unicitatea
#com=indicele Hoffman de complexitate FORMULA:(sum(ai^2))^2/(sum(ai^4)) unde
ai=loading ul factorului i

#ex indicele de complexitate pt A1 este: 1.5


round((0.605^2)^2/(0.605^4),1)=1

factori2 <- fa(govs,nfactors=1, rotate="none",fm="ml")


print(factori2$loadings,cutoff=0.4)
factori2 <- fa(govs,nfactors=1, rotate="Varimax",fm="ml")
print(factori2$loadings,cutoff=0.3)

windows()
fa.diagram(factori2)

windows()
corrplot(factori2$loadings, method = "circle")
factori2

windows()
plot(factori2$scores[,1],factori2$scores[,1])

S-ar putea să vă placă și