Sunteți pe pagina 1din 15

ANALIZA COMPONENTELOR PRINCIPALE (clasica, reducerea

dimensiunilor) - Proiectia unitatilor pe un spatiu redus dimensional

- Analiză eficientă atunci când avem multe variabile scalare într-o bază de date, iar
variabilele respective se diferențiază prin unitate de măsură
- Ia toate variabilele scalare și le reduce dimensiunea

Analyze -> Dimension Reduction -> Factor

Variables: (TOATE VARIABILELE SCALARE)


- Capacitate cilindrica
- Putere
- Viteza maxima
- Masa totala
- Cuplul maxim
- Numar kilometri
- Emisii dioxid de carbon
- Consum mediu
- Lungimea masina
- Capacitatea portbagajului
- Volumul rezervorului
- Acceleratie 0-100
- Numarul Proprietar
- Vechimea
Descriptives
-> Statistics
 Univariate descriptives
 Initial solutions
-> Correlation Matrix
 Coefficients
 KMO and Bartletts tsts of sphericity

Extraction
Method -> Principal components
Analyze -> Correlation matrix, Display -> Unrotate factor solution + Scree plot
Extract -> Based on Eigenvalue (eigen value greater than: 1)
Maximum iterations for Convergence: 25
Options
Missing Values -> Exclude cases listwise
Coeffiecient Display Format -> Sorted by size

Vechimea medie a mașinilor din această bază de date este de 7,87 de ani, cu o abatere de
2,41, iar în baza de date se regăsesc 400 de observații.
Matricea de corelație indică pe diagonală valoarea 1, deasupra și sub aceasta valorile fiind
simetrice. Coeficienții de corelație trebuie să fie cât mai mari (>0.5), pentru că dacă două
variabile se corelează înseamnă că ele, în acea împachetare, se vor asocia.

Pentru KMO sau testul de sfericitate formulăm ipoteza nulă H0: La nivelul datelor nu exista
corelație între variabile și ipoteza alternativă H1: La nivelul datelor exista corelație între
variabile. Această statistică variază între 0 și 1, iar cu cât e mai aproape de 1, cu atât vom
avea corelații mai consistente între variabile, în cazul nostru fiind 0,863, așadar corelațiile
sunt consistente. Din punct de vedere probabilistic, aproximată spre hi pătrat avem o valoare
de 7087,151. Probabilitatea de acceptare a H0 este 0 (Sig = 0,000), așadar acceptăm ipoteza
alternativă H1.
Am introdus 14 variabile, iar pornind de la matricea de corelație, s-au creat vectori proprii
(din coloana Total) a căror sumă este egală cu suma elementelor de pe diagonala matricii.
Cantitate de informație adusă de componenta 1 este dată de raportul dintre valoarea proprie și
suma valorilor (7,950/14*100 = 56,78). Procentul din informație cumulat din aproape în
aprape pentru vectorul 3 este calculat ca suma primelor trei procente ale varianței
(56,788+14,546+8,666 = 80,000)

Aceeași informație este redată și în graficul de mai jos, unde observăm că sunt foarte
importante componentele 1 și 2 și importantă cea de-a 3-a, datorită deciziei de a păstra valori
mai mari decât 1.
Pentru o acuratețe mai mare, reveim în meniu, iar în secțiunea extraction vom introduce cifra
2, care indică numărul factorilor care să fie extrași.

De asemenea, aducem modificări și în secțiunea Rotation după cum se poate observa și în


captura de mai jos:

Schimbările apar la nivelul componentei Matrix, unde observăm coeficienții de corelație


dintre variabilele inițiale și componentele reținute. Fiind ordonate descrescător, până la
variabila care indică consumul mediu se merge pe componenta 1, iar în continuarea tabelului
pe componenta 2.
Pe baza informațiilor de la componenta Matrix au fost reprezentate variabilele inițiale prin
intermediul celor două dimensiuni.

Componenta 1 vine cu informația legată de aspectele tehnice: rezervor, portbagaj, greutate,


capacitate, lungime, cuplu, putere, viteză (corelație pozitivă) și accelerație (corelație
negativă), iar componenta 2 se referă la vechime, proprietari, kilometraj și emisii. Inițial
valorile pentru consum au fost de 0,568, 0,417, iar după rotație am ajuns la 0,589 cu 0,387.
Consumul fiind între cele două componente, vom încercare un alt fel de rotație.
Valoarea pentru consum de data aceasta ne indică o înclinare spre componenta 1 (0,583).
O altă opțiune de rotație pentru a vedea dacă se modifică înclinarea, se poate vedea în
continuare:

Observăm o îmbunătățire la nivelul valorilor pentru consum, însă diferența nu este una mare,
raportat la valorile trecute pe care le-am obținut. Așadar vom păstra totuși ultima variantă de
rotație.
Pentru a ajunge la rezultate finale mai clare, modificăm ca ultima valoare afișată să fie mai
mare de 42:

Și salvăm ca variabile și coeficienții prin care se leagă variabilele inițiale de commponente.

După efectuarea acestor modificări observăm că este mult mai evident cărei dimensiuni
aparțin variabilele alese. Acum este clar că în cazul dimensiunii 1 se încadrează aspectele
tehnice, inclusiv consumul mediu, iar în cazul celei de-a doua dimensiuni le avem pe cele
care țin de vechime.

Mai apoi, dacă ne raportăm la tabelul Component Score Coefficient Matrix, putem evalua
componenta 1 = 0,121*capacitate cilindrică + 0,120*putere + 0,105*viteza maxima +
0,119*masa totala a masinii + 0,117* cuplul maxim al motorului + 0,021*numar kilometri +
0,06*emisii CO2 + ... + (-0,038)*vechimea

Cu ajutorul noilor variabile create, regăsite în partea de jos a bazei de date, putem să
prezentăm datele într-un mod mai simplificat, după cum urmează
Graphs -> Legacy Dialogs -> Scatter/ Dot -> Simple Scatter -> Define
Y Axis: vechime_2023
X Axis: ethnic_2023
Set Markers by: Marca
Afișăm axele:

Conform graficului de mai jos, observăm că se formează 4 cadrane. În cadranul 1, se regăsesc


mașinile cu o vechime mică și o performanță tehnică ridicată, în cadranul 2 sunt acele mașini
care au și vechimea și performanța tehnică ridicată, cadranul 3 prezintă mărcile de autoturism
care au o vechime și o performanță tehnică redusă, iar în ultimul cadran, cel de-al patrulea,
sunt mașinile cu o vechime ridicată și cu o performanță tehnică redusă.
Concluzionând, cu cât cât mașinile, sunt poziționate mai în dreapta, cu atât performează mai
bine tehnic. În stânga, în schimb, sunt mașinile mai slabe tehnic. La mijloc, sunt pe medie și
nu prezintă foarte mare interes. Iar cu cât sunt mai sus, cu atât sunt mai vechi, iar în partea de
jos, sunt mașinile mai noi.
Continuăm cu o regresie liniară.
Analyze -> Regression -> Linear
Dependent: Pret
Independents: tehnic2023, vechime2023
Statistics: Estimates, Model fit, R squared change

Plots: Histogram, Normal probability plot

Options: Use probability of F, Entry: .05, Removal: .10, Include constant in equation,
Exclude cases listwise
Avem un R de 0,872 și un R pătrat cu o valoare de 0,761, ceea ce înseamnă că 76% din
variația prețului este explicată prin cele două variabile sintetice.

Ambele variabile sunt semnificative, cât și constanta întrucât valoarea pentru Sig este egală
cu 0,000.
În cazul distribuției rezidurilor observăm o asimetrie pozitivă, deși ar trebui să fie normală,
însă această problemă se află în strânsă legătură cu distribuția inițială a variabilei preț, unde
ar putea exista aspecte care necesită remediere.

Dacă mergem mai departe și ne uităm la coeficientul lui Pearson.


Din acest tabel reiese că variabilele obținute au proprietatea de a fi necorelate, cu alte cuvinte,
covarianța dintre ele este 0. Însemnând totodată că s-a putut crea o funcție de regresie
suficient de reprezentativă cu predictori necorelați.

S-ar putea să vă placă și