Documente Academic
Documente Profesional
Documente Cultură
unde E este o matrice rezidual, cu termeni suficient de mici astfel nct cele np valori
din X s fie reconstituite suficient de bine din cele q(n+p) valori ale vectorilor u i
v, =1,,q.
Problema se va rezolva cu ajutorul reprezentrilor geometrice.
Tabloul X poate fi privit drept mulimea coordonatelor pentru
n puncte n spaiul cu p dimensiuni, R p (fiecare linie a tabloului este un
punct n acest spaiu), sau
p puncte n spaiul cu n dimensiuni, R n (fiecare coloan a tabloului este
un punct n acest spaiu).
Ambele spaii, R p i R n, se consider dotate cu metrica euclidian uzual.
Intre vectorii proprii din cele dou spaii exist astfel relaiile
1
1
(*)
u =
X v , v =
Xu
X u u = v u .
=1
=1
u u
Cum
=1
transpusa sa, adic este matricea unitate, se obine reconstituirea tabloului iniial prin
p
X = v u'
=1
X X * = v u' .
=1
q =
=1
=1
numit rata de inerie (msoar partea din variana norului explicat de subspaiul cu q
dimensiuni). Se poate verifica i
q = xij*
i, j
ij
i, j
Analize particulare
Atunci cnd nu este vorba strict de o aproximare numeric i ne ncadrm n
analiza statistic, dispunem de informaii suplimentare asupra naturii datelor.
Considerarea acestor informaii conduce la transformri prealabile ale datelor
iniiale, astfel nct aplicarea metodei generale la datele transformate permite
interpretri mai adecvate structurii datelor.
Se obin astfel analize factoriale particulare, cele mai importante sunt
enumerate n continuare:
Analiza n componente principale,
Analiza n componente principale normate,
Analiza rangurilor,
Analiza corespondenelor.
Ideea de baz care st la baza tuturor acestor analize este aceea c
un tabel de valori poate produce (prin liniile, respectiv coloanele sale)
reprezentri sub forma norilor de puncte n dou spaii,
ajustrile punctelor din cele dou spaii sunt legate prin relaii simple,
interpretabile.
Z = a1 x1 + a2 x2 + K + a p x p
a
i =1
2
i
Analiza n R p
Cele n puncte ale acestui spaiu sunt indivizi (observaii) i se dorete o
reprezentare a apropierilor dintre aceste puncte ntr-un spaiu de dimensiune mai
mic. Prin transformrile prealabile are loc o translaie a norului de puncte ntr-un
reper avnd ca origine centrul de greutate al norului.
In ACPN se modific i scala pe fiecare ax.
Analiza n R n
Cele p puncte sunt aici variabilele, transformrile prealabile au ns o
interpretare diferit:
transformarea din ACP este o proiecie paralel cu prima bisectoare
Astfel, n cazul n=2 (neimportant din punct de vedere statistic, dar permite o
vizualizare corect), un punct variabil este supus transformrii:
n i =1
Distana dintre dou puncte este dat de
d 2 ( j ,0) =
d 2 ( j , k ) = 2 2cor ( j , k )
Rezult atunci
X = Z Aj + U
unde Unp este matricea reziduurilor.
Se poate arta atunci c primele j componente principale sunt acele variabile
necorelate care constituie cele mai bune variabile predictor (printr-un model liniar) ale
variabilelor observate.
Criteriul este tot al celor mai mici ptrate
min uij2
i
1 + ... + p
Acesta nu poate constitui un criteriu pentru numrul de factori reinui, ntruct
raportul crete o dat cu numrul factorilor (ajungnd la 1). Un prim criteriu poate fi
acela al reinerii acelor valori proprii care depesc media, adic
1
i >
(1 + ... + p )
p
criteriul implicit n SPSS, cu observaia c n ACPN criteriul devine identic cu
criteriul Kaizer.
Criteriul Kaiser
Se rein doar componentele principale corespunznd valorilor proprii mai mari
dect 1. Se aplic de regul n ACPN.
Reprezentri grafice
In ACP/ACPN datele iniiale se refer la n observaii asupra a p variabile, care
pot fi interpretate ca
n puncte-indivizi (observaii) n R p,
p puncte-variabile n R n.
Reinerea unui numr de axe factoriale echivaleaz cu determinarea unui
subspaiu n care datele iniiale pot fi regsite cu suficient acuratee. Examinarea
structurii norilor de puncte din subspaiile respective se realizeaz prin metode
grafice, reprezentnd punctele prin proiecii pe un numr suficient de plane factoriale.
Astfel, pentru a putea nelege structura unui nor de puncte n R 3 este nevoie
de proiecia lor pe dou plane (xOy i xOz, de exemplu). Interpretrile difer totui
dup cum este vorba de variabile sau de observaii.
Variabile
Prin metoda numeric utilizat, coordonatele punctelor variabile sunt mai mici
de 1, punctele fiind pe sfera unitate. Cum distanele dintre puncte sunt invers
proporionale cu corelaiile dintre variabilele corespunztoare, gruprile de puncte
indic grupuri de variabile corelate.
Pentru eliminarea erorilor de perspectiv, aprecierea corect apare doar dup
analiza proiecii-lor pe mai multe planuri factoriale (= nr.de factori 1). Variabilele
apropiate de o ax sunt corelate cu acea component principal, se poate considera c
axa respectiv este o combinaie a variabilelor apropiate de ea.
Observaii
Reprezentarea punctelor-observaii prezint de asemenea gruprile de
observaii, fr a mai fi pe sfera unitate.
Prima ax factorial este, uzual, factorul de talie, separnd de-a lungul ei
observaiile mici de cel mari. A doua ax factorial este factorul de form. care
nuaneaz diferen-ele efectuate de primul factor.
Dac observaiile aparin la grupuri de interes, evidenierea claselor (ca n
figur) poate oferi informaii utile prin configuraiile vizibile. Concluziile sunt
justificate doar dup utilizarea unui numr suficient de proiecii.
B. Instrumente SPSS
Dialogul Factor Analysis
Pentru a aplica analiza factorial, prin natura metodei, trebuie ca ntre
variabile s existe corelaii suficient de mari pentru a avea sens problema reducerii
Descriptives
n grupul Statistics se poate cere afiarea statisticilor elementare (media,
abaterea standard etc.). Selectarea Initial solution afieaz comunalitile iniiale,
valorile proprii etc.
Extraction
Din lista Method se poate fixa metoda de analiz factorial. Pentru analiza n
componente principale sau componente principale normate se va selecta Principal
components. n acest caz, tipul analizei este dat de selecia din grupul Analyze:
correlation matrix pentru ACPN sau covariance matrix pentru ACP.
Rotation
Rotaia reperului axelor factoriale pentru a prinde un unghi de vedere mai
bun se poate selecta n dialogul Rotation. Ca metode sunt disponibile: varimax (se
minimizeaz numrul de variabile cu ncrcri mari pe fiecare factor, ceea ce
simplific interpretarea factorilor), direct oblimin (rotaie oblic), quartimax
(minimizeaz numrul de factori necesari explicrii fiecrei variabile), equamax
(combinaie ntre metodele varimax i quartimax) i promax (rotaie oblic n care se
admit factori corelai).
Pentru soluia obinut n urma rotaiei se poate cere soluia sau diagramele
ncrcrilor pentru primii doi (dac nu s-au extras cel puin trei factori) sau trei
factori. i pentru procesul de rotaie se poate preciza numrul maxim de iteraii n
Maximum Iterations for Convergence.
Scores
Se poate cere salvarea ca noi variabile a scorurilor factoriale finale, fiecare
factor producnd o variabil. Cu alte cuvinte coordonatele cazurilor n reperul
factorial sau transformri ale acestora.
Se poate preciza metoda de calcul a scorurilor: regression (scorurile produse
au media zero i o dispersie egal cu ptratul corelaiei multiple ntre scorurile
factoriale estimate i coordonatele factoriale adevrate), Bartlett (scorurile produse au
media zero i este minimizat suma ptratelor factorilor reinui) sau Anderson-Rubin
(scorurile au media zero, abatere standard unitar i sunt necorelate).
Options
Se precizeaz modul de tratare a valorilor lips ca i modul de afiare a
matricelor, de exemplu se pot omite coeficienii care sunt n valoare absolut sub un
anumit prag.
Component
1
2
3
4
5
6
7
Initial Eigenvalues
% of
Cumulative
Total
Variance
%
3.313
47.327
47.327
2.616
37.369
84.696
.575
8.209
92.905
.240
3.427
96.332
.134
1.921
98.252
9.E-02
1.221
99.473
4.E-02
.527
100.000
Eigenvalue
1.0
.5
0.0
1
Component Number
COLOR
AROMA
REPUTAT
TASTE
COST
ALCOHOL
SIZE
Component
1
2
.760
-.576
.736
-.614
-.735
-.071
.710
-.646
.550
.734
.632
.699
.667
.675
a. 2 components extracted.
Structura mai util pentru interpretare este, totui, cea obinut dup rotirea
factorilor, care ofer o "viziune" mai bun. Matricea de ncrcare este afiat i dup
ce s-au rotit factorii, interpretarea fiind cea dat mai sus.
TASTE
AROMA
COLOR
SIZE
ALCOHOL
COST
REPUTAT
Component
1
2
.960
-.028
.958 1.E-02
.952 6.E-02
7.E-02
.947
2.E-02
.942
-.061
.916
-.512
-.533
C. Lucrarea practic
1) Un studiu din 1979 a urmrit n diferite ri europene modul de ncadrare a forei
de munc n diferite ramuri industriale. Datele sunt sub form de procentaje i se
gsesc n fiierul www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Variabilele
sunt Country numele rii, Agr procentajul de muncitori din agrucultur, Min
procentajul de muncitori din minerit, Man procentajul de muncitori din
industria prelucrtoare, PS procentajul de muncitori din industria energetic,
Con procentajul de muncitori din construcii, SI procentajul de muncitori din
servicii, Fin procentajul de muncitori din finane, SPS procentajul de
muncitori din servicii sociale, TC procentajul de muncitori din transporturi i
comunicaii.
a) S se realizeze o analiz n componente principale.
b) S se deduc grupurile principale de state omogene ca structur a muncii.
2) Datele
necesare
acestul
exerciiu
sunt
la
adresa
web
www.infoiasi.ro/~val/statistica/boston.sav.
Datele au fost utilizate i n lucrarea 8 n scopul prognozei preului de vnzare a
unei case din regiunea Boston n funcie de caracteristici diverse ale locuinei i
ale localizrii ei. Reamintim c variabilele sunt, n ordine, CRIM rata
criminalitii, ZN proporia teritoriului zonat n loturi de peste 25,000 sq.ft.,
INDUS proporia terirorial a zonei industriale, CHAS indicator de nvecinare
cu rul din zon (= 1 da, 0 nu), NOX concentraia de oxizi nitrici, RM numrul
mediu de camere, AGE proporia de locuine construite nainte de 1940 i
ocupate de proprietar, DIS distana ponderat la cinci centre productive din
Boston, RAD indicele de accesibilitate la reeaua de autostrzi, TAX rata de
impozit (procent la 10000$), PTRATIO raportul copii-profesori n zon, B
1000(Bk0.63)2 unde Bk este procentajul populaiei de culoare n zon, LSTAT
procentajul populaiei srace, MEDV valoarea medie a caselor (n mii de dolari).
a) S se realizeze o analiz n componente principale a variabilelor dintre care
s-au exclus CHAS i MEDV.
b) S se analizeze dac apar diferene n rezultate atunci cnd se consider
separat grupurile definite de CHAS.