Sunteți pe pagina 1din 7

Academia de Studii Economice București

Facultatea de Cibernetică, Statistică și Informatică Economică

Proiect
Analiza datelor

David Andreea-Valentina
Gr.1068, Seria Info A
Analiza în componenete principale

Proiectul realizeaza o analiza in componente principale a progresului tehnologic pentru


20 de tari cu nivel mediu de dezvoltare. Datele prelucrate sunt preluate dintr-un fisier de tip csv
(„Date.csv”).
Analiza în Componente Principale permite abordarea caracterului multidimensional a
datelor/ variabilelor ce caracterizează un individ.
Principiul fundamental al acestei metode este de a extrage cel mai mic număr de
componente care să recupereze cât mai mult din informaţia totală conţinută în datele originale,
aceste noi componente exprimând atribute noi ale indivizilor şi construite astfel încât să fie
necorelate între ele, fiecare din aceste noi variabile fiind o combinaţie liniară de variabile
originale.

Variabilele observate:

 Alfabetizare - Gradul de alfabetizare a adultilor de peste 15 an;


• Linii_telefonice - Numatul de linii de telefonice la 1000 de persoane;
• Abonati_tel_mobil - numarul de telefoane mobile la 1000 de persoan;
• Utilizatori_internet - numarul utilizatorilor de internet la 1000 de persoane;
• Cercetatori - numar de cercetatori la milionul de locuitori;
• Consum_energie - consumul de energie pe cap de locuitor(%) din totalul de energie
consumata;
• PIB - miliarde $;
• Indicele saracie - indicele de saracie umana, valoare procentuala;
• Populatie_urbana - % din totalul populatie;
• Numar_angajati - numarul de angajati (mii).
Valori initiale:

Calcul indicatori de centrare si imprastiere


Calcul vectori si valori proprii
Vectori proprii:

Valori proprii:
Mai jos este prezentata varianta componentelor principale individual, cumulat si
procentual. Primele 4 componente sunt semnificative. Prima componenta este mai
semnificativa decat celelalte 3.
Varianta Procent Varianta Cumulata Procent Varianta

Conform tabelului, sunt semnificative primele patru componente, aspect scos în


evidență și de graficul de mai jos:
Pentru a realiza scopul propus de Analiza in componente principale, se calculeaza mai
intai matricea corelatiilor variabilelor, o matrice patratica dedimensiune 10x10 in cazul de fata.

Alfabetizare Linii_telefonice Abonati_tel_mobil Utilizatori_internet Cercetatori Consum_energie PIB Indice_saracie Pop_urbana Nr_angajati
Alfabetizare 1.00 0.32 0.46 0.28 0.00 0.15 0.19 -0.16 0.14 0.16
Linii_telefonice 0.32 1.00 0.32 0.63 0.64 0.48 0.15 0.12 0.43 0.43
Abonati_tel_mobil 0.46 0.32 1.00 0.45 0.12 0.10 -0.10 -0.01 0.04 0.01
Utilizatori_internet 0.28 0.63 0.45 1.00 0.26 0.17 -0.06 0.54 0.07 0.07
Cercetatori 0.00 0.64 0.12 0.26 1.00 0.28 0.28 0.02 0.27 0.27
Consum_energie 0.15 0.48 0.10 0.17 0.28 1.00 -0.17 0.32 0.99 0.98
PIB 0.19 0.15 -0.10 0.06 0.28 -0.17 1.00 -0.33 -0.15 -0.03
Indice_saracie -0.16 0.12 -0.01 0.54 0.02 0.32 -0.33 1.00 0.23 0.19
Pop_urbana 0.14 0.43 0.04 0.07 0.27 0.99 -0.15 0.23 1.00 0.99
Nr_angajati 0.16 0.43 0.01 0.07 0.27 0.98 -0.03 0.19 0.99 1.00

Din matricea de corelatie se observa faptul ca cea mai puternica legatura este intre
variabilele Populatie urbana si Consum de energie (0.99).
Pentru a putea analiza corelatiile dintre variabile, se construieste corelograma:

Se observa ca Numarul angajatilor, Populatia urbana, Numarul de cercetatori si Liniile


telefonice generează cele mai mari corelații, deci aceste variabile vor contribui cel mai mult la
constituirea componentelor principale. Corelațiile puternice sunt cele care indică variabile intre
care există legătură, deci aduc redundanță informațională în setul de date. Aceste variabile sunt
cele din care se vor construi componentele principale.