Documente Academic
Documente Profesional
Documente Cultură
3.1.1. Introducere
Simplă
(2 variabile)
Date multivariate Analiza de
(tipuri de date) Date calitative corespondență
Multiplă
(mai mult
Analiza factorială de 2
simplă variabile)
Date mixte (2 variabile)
Analiza factorială
multiplă(mai mult
de 2 variabile)
18
În continuare, în toate abordările, vom folosi acest set de date suplu, pentru a permite și
calculul de mână al pașilor de abordare, permițând astfel compararea datelor obținute cu
cele din mediul R.
Capitolul 3. Analiza în componente principale, utilizând mediul R 3
9 120 19 18 800
10 40 31 14 200
Pentru a studia variația fiecărei variabile, putem calcula:
- fie varianța/dispersia la nivelul fiecărei variabile:
# Calculul varianței la nivelul fiecărei variabile
apply(productia, 2, var)
munca capital pamant productie
1090.00000 52.66667 14.66667 36978.88889
- fie abaterea standard la nivelul fiecărei variabile:
# Calculul abaterii standard la nivelul fiecărei variabile
apply(productia, 2, sd)
munca capital pamant productie
33.015148 7.257180 3.829708 192.298957
- orice valoare lipsă din date trebuie eliminată sau estimată;
Pentru a elimina orice valoare lipsă, care ar putea fi prezentă în date,
se apelează la comanda R:
productia <- na.omit(productia)
datele trebuie a fi standardizate19(scalate) pentru a putea face
-
variabilele comparabile. Pentru standardizarea datelor se va folosi
funcția scale(). Se vor normaliza datele, utilizând metoda de
normalizare min-max.
Scriptul R pentru scalarea datelor, utilizând metoda min-max, este după
cum urmează:
max = apply(productia, 2 , max)
min = apply(productia, 2 , min)
productia_scalata=as.data.frame(scale(productia,center=min,
scale=max-min))
productia_scalata
munca capital pamant productie
1 0.6 0.4761905 0.00000000 0.3333333
2 0.8 0.0000000 0.33333333 0.6666667
3 0.4 0.9523810 0.33333333 0.1666667
4 0.0 0.2380952 0.08333333 0.0000000
5 0.2 0.3809524 0.58333333 0.4333333
6 0.9 0.1904762 0.33333333 0.6666667
7 0.5 0.6666667 0.16666667 0.5000000
8 0.7 0.9047619 1.00000000 0.6166667
9 1.0 0.4285714 0.83333333 1.0000000
10 0.2 1.0000000 0.50000000 0.0000000
Standardizarea fiecărei variabile, va rezolva această problemă.
# Crearea unui nou dataframe cu variabilele centrate
productia_centrata <- apply(productia, 2, scale)
productia_centrata
munca capital pamant productie
[1,] 0.21202389 -0.1377946 -1.3055824 -0.32761488
[2,] 0.81780642 -1.5157402 -0.2611165 0.71243236
[3,] -0.39375865 1.2401511 -0.2611165 -0.84763850
[4,] -1.60532371 -0.8267674 -1.0444659 -1.36766212
[5,] -0.99954118 -0.4133837 0.5222330 -0.01560071
[6,] 1.12069769 -0.9645619 -0.2611165 0.71243236
19
De regulă, standardizarea constă în transformarea variabilelor astfel încât acestea să aibă
media zero și abaterea standard unu(adică o distribuție normală a datelor).
4 Data Science în mediul R - teorie şi aplicaţii
6 Data Science în mediul R - teorie şi aplicaţii
20
Reprezentările grafice din acest capitol sunt obținute din prelucrări proprii ale autorului,
utilizând mediul R.
Capitolul 3. Analiza în componente principale, utilizând mediul R 7
8 Data Science în mediul R - teorie şi aplicaţii
get_pca_ind(pca_rezultate), get_pca_var(pca_rezultate):
extrage rezultatele pentru indivizi/obsrevații și respectiv pentru variabile/
caracteristici.
fviz_pca_ind(pca_rezultate), fviz_pca_var(pca_rezultate):
vizualizează rezultatele pentru indivizi și respectiv pentru variabile;
fviz_pca_biplot(pca_rezultate): realizează o reprezentare grafică a
indivizilor și respectiv a variabilelor.
În secțiunile următoare, vor fi ilustrate fiecare dintre aceste funcții.
10 Data Science în mediul R - teorie şi aplicaţii
21
Această funcție o numește matricea de rotație, deoarece atunci când înmulțim matricea X
cu pca_rezultat$rotation, se obțin coordonatele datelor din sistemul rotativ de
coordonate, iar aceste coordonate sunt de fapt scorurile componentelor principale.
Capitolul 3. Analiza în componente principale, utilizând mediul R 11
12 Data Science în mediul R - teorie şi aplicaţii
14 Data Science în mediul R - teorie şi aplicaţii
fviz_screeplot(pca_rezultate)
Analize suplimentare: