Documente Academic
Documente Profesional
Documente Cultură
- Analiză eficientă atunci când avem multe variabile scalare într-o bază de date, iar
variabilele respective se diferențiază prin unitate de măsură
- Ia toate variabilele scalare și le reduce dimensiunea
Extraction
Method -> Principal components
Analyze -> Correlation matrix, Display -> Unrotate factor solution + Scree plot
Extract -> Based on Eigenvalue (eigen value greater than: 1)
Maximum iterations for Convergence: 25
Options
Missing Values -> Exclude cases listwise
Coeffiecient Display Format -> Sorted by size
Vechimea medie a mașinilor din această bază de date este de 7,87 de ani, cu o abatere de
2,41, iar în baza de date se regăsesc 400 de observații.
Matricea de corelație indică pe diagonală valoarea 1, deasupra și sub aceasta valorile fiind
simetrice. Coeficienții de corelație trebuie să fie cât mai mari (>0.5), pentru că dacă două
variabile se corelează înseamnă că ele, în acea împachetare, se vor asocia.
Pentru KMO sau testul de sfericitate formulăm ipoteza nulă H0: La nivelul datelor nu exista
corelație între variabile și ipoteza alternativă H1: La nivelul datelor exista corelație între
variabile. Această statistică variază între 0 și 1, iar cu cât e mai aproape de 1, cu atât vom
avea corelații mai consistente între variabile, în cazul nostru fiind 0,863, așadar corelațiile
sunt consistente. Din punct de vedere probabilistic, aproximată spre hi pătrat avem o valoare
de 7087,151. Probabilitatea de acceptare a H0 este 0 (Sig = 0,000), așadar acceptăm ipoteza
alternativă H1.
Am introdus 14 variabile, iar pornind de la matricea de corelație, s-au creat vectori proprii
(din coloana Total) a căror sumă este egală cu suma elementelor de pe diagonala matricii.
Cantitate de informație adusă de componenta 1 este dată de raportul dintre valoarea proprie și
suma valorilor (7,950/14*100 = 56,78). Procentul din informație cumulat din aproape în
aprape pentru vectorul 3 este calculat ca suma primelor trei procente ale varianței
(56,788+14,546+8,666 = 80,000)
Aceeași informație este redată și în graficul de mai jos, unde observăm că sunt foarte
importante componentele 1 și 2 și importantă cea de-a 3-a, datorită deciziei de a păstra valori
mai mari decât 1.
Pentru o acuratețe mai mare, reveim în meniu, iar în secțiunea extraction vom introduce cifra
2, care indică numărul factorilor care să fie extrași.
Observăm o îmbunătățire la nivelul valorilor pentru consum, însă diferența nu este una mare,
raportat la valorile trecute pe care le-am obținut. Așadar vom păstra totuși ultima variantă de
rotație.
Pentru a ajunge la rezultate finale mai clare, modificăm ca ultima valoare afișată să fie mai
mare de 42:
După efectuarea acestor modificări observăm că este mult mai evident cărei dimensiuni
aparțin variabilele alese. Acum este clar că în cazul dimensiunii 1 se încadrează aspectele
tehnice, inclusiv consumul mediu, iar în cazul celei de-a doua dimensiuni le avem pe cele
care țin de vechime.
Mai apoi, dacă ne raportăm la tabelul Component Score Coefficient Matrix, putem evalua
componenta 1 = 0,121*capacitate cilindrică + 0,120*putere + 0,105*viteza maxima +
0,119*masa totala a masinii + 0,117* cuplul maxim al motorului + 0,021*numar kilometri +
0,06*emisii CO2 + ... + (-0,038)*vechimea
Cu ajutorul noilor variabile create, regăsite în partea de jos a bazei de date, putem să
prezentăm datele într-un mod mai simplificat, după cum urmează
Graphs -> Legacy Dialogs -> Scatter/ Dot -> Simple Scatter -> Define
Y Axis: vechime_2023
X Axis: ethnic_2023
Set Markers by: Marca
Afișăm axele:
Options: Use probability of F, Entry: .05, Removal: .10, Include constant in equation,
Exclude cases listwise
Avem un R de 0,872 și un R pătrat cu o valoare de 0,761, ceea ce înseamnă că 76% din
variația prețului este explicată prin cele două variabile sintetice.
Ambele variabile sunt semnificative, cât și constanta întrucât valoarea pentru Sig este egală
cu 0,000.
În cazul distribuției rezidurilor observăm o asimetrie pozitivă, deși ar trebui să fie normală,
însă această problemă se află în strânsă legătură cu distribuția inițială a variabilei preț, unde
ar putea exista aspecte care necesită remediere.