Documente Academic
Documente Profesional
Documente Cultură
Marian Popa
Direcii de evaluare
1. 2. 3. 4. 5. 6. Corectitudinea datelor Valorile excesive Valorile lips Normalitatea distribuiei Liniaritatea Homoscedasticitatea
introducere
Calitatea analizei i calitatea concluziilor depind de calitatea datelor Toate procedurile statistice presupun ntrunirea unor condiii
Dac nu sunt respectate, concluziile sunt viciate
1. Corectitudinea datelor
Valorile unei variabile sunt corecte atunci cnd nu s-au produs erori la introducerea de la tastatur sau la preluarea lor dintr-o alt surs
n faza de recoltare
acurateea modelului de investigare calitatea instrumentelor de evaluare rigoarea procedurii de aplicare
1. Corectitudinea datelor
Valorile unei variabile sunt valide atunci cnd exprim ceea ce ne ateptm s exprime
Codificarea corect a rspunsurilor
1=DA; 2=NU/1=NU. 2=DA 1=dezacord total; 2=dezacord parial; 3=nici acord/nici dezacord; 4=acord parial; 5=acord total
Erori de eantionare
Subieci care fac parte din alt populaie
Efectele pozitive
scot n eviden situaii semnificative din perspectiva obiectivului cercetrii atrag atenia asupra unor aspecte care ies din limitele ipotezei iniiale
Detectarea univariat
Metodele grafice
Histogram stem-and-leaf box-plot
Metode numerice
Transformarea n valori z
N=80: z 2.5 sau mai mare. eantioane mai mari z 3, dar nu mai mult de 4
Detectarea univariat
Testul Grubb
Metodele anterioare nu sunt aplicabile pe eantioane mici valorile transformate n z nu pot fi mai mari dect (N-1)/N
Detectarea bivariat
Outlier bivariat
Detectarea multivariat
Abaterea excesiv prin raportare la un numr mare de variabile O valoare poate fi neobinuit n raport cu unele variabile, dar obinuit n raport cu altele Diagnosticul de valoare excesiv trebuie pus n raport cu toate dimensiunile simultan
Eliminarea valorilor excesive Efectuarea analizelor i raportarea rezultatelor CU i FR ele Transformarea tuturor valorilor Trunchierea
Valori lips
Imposibilitatea recoltrii lor Refuzul subiecilor Rezultate din calcule cu variabile care au valori lips Trebuie sa ascund valori cu aceeai semnificaie cu valorile valide
Decesul subiecilor? Non-rspunsuri legitime?
Valori lips nealeatorii Valori lips complet aleatorii Valori lips aleatorii
Cazuri
pn la 10%, poate fi tolerat, dar dincolo de acest procent cazul respectiv ar trebui eliminat
Variabile
cele care au cel puin 15% din valori lips sunt candidate la eliminarea valorilor cele cu procente mai mari de att (20-30%) ar putea face obiectul remedierii valorilor lips
Limita de sus poate urca pn la 133,5 Cea mai apropiat valoare este 125
114+1.5x13=133.5
114
101-1.5x13=81.5
4. Normalitatea distribuiei
simetrie boltire
Normalitatea multivariat
Toate variabilele i toate combinaiile liniare dintre ele sunt normale Este parial verificat prin verificarea normalitii univariate
Non-normalitatea univariat ncalc cert normalitatea multivariat
Explore (Statistics-Descriptives-Explore)
Explore
Testul Kolmogorov-Smirnov
Tests of normality
,8
,5
,3
0,0 0,0
,3
,5
,8
1,0
10
200 100 0
300
Beginning Salar y
0 0, 00 80 0,0 00 75 00,0 0 70 00,0 0 65 0,0 00 60 0,0 00 55 0,0 00 50 0,0 00 45 0,0 00 40 00,0 0 0 3 5 0 0, 0 30 0,0 00 25 00,0 0 20 00,0 0 15 0,0 00
Soluii de transformare
transformarea situaia recomandat
x3 x2 x
ridicarea la puterea a asimetrie negativ treia ridicarea la ptrat radical de ordin 2 radical de ordin trei logaritmare asimetrie negativ simetrie asimetrie pozitiv asimetrie pozitiv asimetrie pozitiv
x
3
log(x)
Transform-Compute (SQRT)
80
60
40
140
120
100
20
SQR_SALB
0 0, 2 8 ,0 0 2 7 0 ,0 2 6 0 ,0 2 5 0 ,0 2 4 0 ,0 2 3 0 ,0 22 0 0, 2 1 ,0 0 2 0 0 ,0 1 9 0 ,0 1 8 0 ,0 1 7 0 ,0 1 6 0 ,0 15 0 0, 1 4 ,0 0 1 3 0 ,0 1 2 0 ,0 1 1 0 ,0 1 0 ,0 90
Histogram
60
50
40
30
20
Frequency
10 0
, -2 , -2 , -1 , -1 -,5 0, ,5 0 1, 00 1, 2, 2, 3, 00 50 00 50 00 50 00 50 00 0
Normalitatea multivariat
Toate variabilele i toate combinaiile liniare dintre ele sunt normale Este parial verificat prin verificarea normalitii univariate
Non-normalitatea univariat ncalc cert normalitatea multivariat
5. Liniaritatea
msura n care graficul variaiei valorilor a dou variabile se apropie de o linie dreapt
variabile individuale (nivelul anxietii, timpul de reacie, etc.) combinaii ale mai multor variabile (un scor compozit rezultat din adiionarea mai multor scale ale unui test)
valorile reziduale standardizate sunt raportate grafic la valorile rezultate din predicie
Non-linearitatea... plasarea valorilor reziduale pe o curb n jurul liniei orizontale a valorilor de predicie. relaie de tip liniar... plasarea valorilor reziduale in jurul liniei de predicie, dup un model aleator
Statistics-Regression-Linear
Scatterplot
Regression Stan dardized Predicted Value
Soluii alternative
Testarea diferenelor la un nivel alfa mai mic dect 0,05 (0,02 sau 0,01)
Homoscedasticitate
Heteroscedasticitate
heterodasticitate
variana n jurul liniei de regresie este aceeai pentru toate valorile variabilei predictor?
Concluzii
Statistica multivariat este mai pretenioas sub aspectul respectrii condiiilor impuse de diverse proceduri Analiza preliminar a datelor i pregtirea lor sunt decisive pentru utilizarea corect a procedurilor statistice.