Sunteți pe pagina 1din 43

Analiza preliminar a datelor statistice

Marian Popa

Direcii de evaluare
1. 2. 3. 4. 5. 6. Corectitudinea datelor Valorile excesive Valorile lips Normalitatea distribuiei Liniaritatea Homoscedasticitatea

introducere
Calitatea analizei i calitatea concluziilor depind de calitatea datelor Toate procedurile statistice presupun ntrunirea unor condiii
Dac nu sunt respectate, concluziile sunt viciate

Analiza exploratorie a datelor (EDA)


J.W. Tukey (1915-2000)
nelegerea ct mai exact a datelor cercetrii (tendina central, mprtierea, forma distribuiei); detectarea eventualelor erori. descoperirea unor structuri ascunse ale datelor; identificarea variabilelor importante; detectarea valorilor excesive; verificarea respectrii condiiilor impuse de diferite proceduri infereniale

1. Corectitudinea datelor
Valorile unei variabile sunt corecte atunci cnd nu s-au produs erori la introducerea de la tastatur sau la preluarea lor dintr-o alt surs
n faza de recoltare
acurateea modelului de investigare calitatea instrumentelor de evaluare rigoarea procedurii de aplicare

n faza de constituire a bazei de date


atenie, organizare, motivare... verificarea corectitudinii nainte de prelucrare
listarea valorilor (Analyze/Report/Case Summaries-SummarizeCase Summaries) analiza de frecvene (Statistics-Descriptive StatisticsFrequencies)

1. Corectitudinea datelor
Valorile unei variabile sunt valide atunci cnd exprim ceea ce ne ateptm s exprime
Codificarea corect a rspunsurilor
1=DA; 2=NU/1=NU. 2=DA 1=dezacord total; 2=dezacord parial; 3=nici acord/nici dezacord; 4=acord parial; 5=acord total

Transform/Compute Profilul rspunsurilor


Angajare neserioas a subiecilor
1-2-1-2-1-2-

Atenie la scalele de minciun

2. Valorile excesive (marginale i extreme)


Valorile neobinuite ale unei distribuiei excesive, extreme sau marginale outliers, n englez Valori extreme Valori cu influen (influential cases)

Surse ale valorilor extreme

Erori umane n colectarea i introducerea datelor


de exemplu: 422 n loc de 42)

Valori raportate intenionat greit


Atitudinea subiecilor

Valori care exprim alt realitate


Timpi mari de reacie, datorit unor factori distractori

Erori de eantionare
Subieci care fac parte din alt populaie

Valori care fac parte din variaia normal


Salariul efilor

Impactul valorilor excesive


Efectele negative
distorsioneaz indicatorii distribuiilor amplificarea variabilitii i, deci, a erorii standard
diminuarea preciziei estimrii parametrilor reduce puterii testelor statistice

Efectele pozitive
scot n eviden situaii semnificative din perspectiva obiectivului cercetrii atrag atenia asupra unor aspecte care ies din limitele ipotezei iniiale

Detecia valorilor excesive


a) La nivel univariat b) La nivel bivariat c) La nivel multivariat

Detectarea univariat
Metodele grafice
Histogram stem-and-leaf box-plot

Metode numerice
Transformarea n valori z
N=80: z 2.5 sau mai mare. eantioane mai mari z 3, dar nu mai mult de 4

Teorema Cebiev (1-1/k2)


75% 89% k=2 k=3

Detectarea univariat
Testul Grubb
Metodele anterioare nu sunt aplicabile pe eantioane mici valorile transformate n z nu pot fi mai mari dect (N-1)/N

Detectarea bivariat

Outlier bivariat

Detectarea multivariat
Abaterea excesiv prin raportare la un numr mare de variabile O valoare poate fi neobinuit n raport cu unele variabile, dar obinuit n raport cu altele Diagnosticul de valoare excesiv trebuie pus n raport cu toate dimensiunile simultan

Scatter-plot trivariat Metode numerice


Variabile dummy SUM SD Se transform n scoruri z valori z sunt mai mari de 3 sau 4 sunt excesive multivariate indicele D al lui Cook (Cook's D statistic) indicele D2 al lui Mahalanobis

Tratarea valorilor excesive multivariate


Depinde de natura lor
Erori? eliminare Valori valide?... eliminare sau transformare Ambele au avantaje i dezavantaje

Eliminarea valorilor excesive Efectuarea analizelor i raportarea rezultatelor CU i FR ele Transformarea tuturor valorilor Trunchierea

Valori lips
Imposibilitatea recoltrii lor Refuzul subiecilor Rezultate din calcule cu variabile care au valori lips Trebuie sa ascund valori cu aceeai semnificaie cu valorile valide
Decesul subiecilor? Non-rspunsuri legitime?

Natura valorilor lips


Rubin (1976)
a fundamentat analiza modern a valorilor lips inferena statistic se bazeaz pe presupunerea distribuiei aleatoare, neafectate de erori (bias) acest lucru implic faptul c eventualele valori lips au, la rndul lor, un caracter aleatoriu
nu sunt determinate de un factor care le determin n mod sistematic

Valori lips nealeatorii Valori lips complet aleatorii Valori lips aleatorii

Impactul valorilor lips


Eliminarea lor reducerea eantionului reducerea puterii Dac nu sunt aleatorii, afecteaz concluziile cercetrii n context multivariat, efectul se multiplic

Analiza valorilor lips


SPSS
System missing values User defined missing values

SPSS Missing Value Analysis


Descrie modelul datelor lips: n ce variabile sunt localizate; ct de multe sunt; n ce msur anumite perechi de variabile tind s aib valori lips la mai multe cazuri; dac sunt aleatorii. Estimeaz mediile, abaterile standard, covarianele i corelaiile pentru diferite metode de tratare a valorilor lips. nlocuiete valorile lips cu alte valori, utiliznd metode avansate.

Analiza valorilor lips


Soluii bivariate Se creeaz o variabil dummy
0, pentru subiecii care nu au rspuns 1 pentru cei care au rspuns

Se aplic testul t al diferenei dintre medii


O valoare semnificativ a testului: valorile lips apar n legtur cu variabilele testate O valoare nesemnificativ a testului respinge ipoteza unei astfel de legturi

Tratarea valorilor lips


Eliminarea valorii
casewise deletion pairwise deletion permite exploatarea la maximum a informaiei disponibile

Eliminarea ntregii variabile


listwise deletion Reducere a numrului de cazuri analizate produce o estimare neafectat de erori a parametrilor

Cazuri
pn la 10%, poate fi tolerat, dar dincolo de acest procent cazul respectiv ar trebui eliminat

Variabile
cele care au cel puin 15% din valori lips sunt candidate la eliminarea valorilor cele cu procente mai mari de att (20-30%) ar putea face obiectul remedierii valorilor lips

Tratarea valorilor lips


Transformarea / nlocuirea
Transform/Replace

142 valoare extrem 135 valoare extrem

Limita de sus poate urca pn la 133,5 Cea mai apropiat valoare este 125

114+1.5x13=133.5

114

Percentila 75 (114) Mediana (Q2) H=114-101=13 Percentila 25 (101)


101 Limita de jos este 81.5 Trasm la 86

101-1.5x13=81.5

4. Normalitatea distribuiei
simetrie boltire

Distribuie relativ normal

Distribuie asimetric pozitiv i leptokurtic

Ct de important este normalitatea?


Cu att mai important cu ct volumul eantionului este mai mic Mai puin important pentru eantioane care se apropie sau depesc 100 subieci Mai important pentru testele de corelaie Mai puin important pentru diferenele dintre medii
Mediile grupurilor se raporteaz la distribuia de eantionare Teorema Limitei Centrale

Normalitatea multivariat
Toate variabilele i toate combinaiile liniare dintre ele sunt normale Este parial verificat prin verificarea normalitii univariate
Non-normalitatea univariat ncalc cert normalitatea multivariat

Explore (Statistics-Descriptives-Explore)

Statistic Skewness Kurtosis 1,711 4,519

Std. Error ,333 ,656

Explore
Testul Kolmogorov-Smirnov

Tests of normality

Kolmogorov-Smirnov Statistic Score ,140 df 51 Sig. ,014

Shapiro-Wilk Statistic ,862 df 51 Sig. ,000

semnificativ pentru p<0.0005 se respinge ipoteza de normalitate a distribuiei,

Procedura P-P plot


(Graphs-P-P plots)
Reprezint relaia dintre proporia cumulativ a distribuiei i proporia cumulativ pentru un numr de diferite distribuii teoretice, inclusiv pentru cea normal Dac distribuia cercetat se suprapune peste linia dreapt a distribuiei teoretice, sau nu se abate grav de la aceasta, atunci putem aprecia c variabila investigat este normal.
Expected Cum Prob

Normal P-P Plot of Score


1,0

,8

,5

,3

0,0 0,0

,3

,5

,8

1,0

Observed Cum Prob

Normalizarea distribuiei (Employee data.sav)

10
200 100 0

300

Beginning Salar y

0 0, 00 80 0,0 00 75 00,0 0 70 00,0 0 65 0,0 00 60 0,0 00 55 0,0 00 50 0,0 00 45 0,0 00 40 00,0 0 0 3 5 0 0, 0 30 0,0 00 25 00,0 0 20 00,0 0 15 0,0 00

Soluii de transformare
transformarea situaia recomandat

x3 x2 x

ridicarea la puterea a asimetrie negativ treia ridicarea la ptrat radical de ordin 2 radical de ordin trei logaritmare asimetrie negativ simetrie asimetrie pozitiv asimetrie pozitiv asimetrie pozitiv

x
3

log(x)

Transform-Compute (SQRT)

80

60

40

140

120

100

20

SQR_SALB

0 0, 2 8 ,0 0 2 7 0 ,0 2 6 0 ,0 2 5 0 ,0 2 4 0 ,0 2 3 0 ,0 22 0 0, 2 1 ,0 0 2 0 0 ,0 1 9 0 ,0 1 8 0 ,0 1 7 0 ,0 1 6 0 ,0 15 0 0, 1 4 ,0 0 1 3 0 ,0 1 2 0 ,0 1 1 0 ,0 1 0 ,0 90

Histogram
60

50

40

Statistic Skewness Kurtosis ,024 -,115

Std. Error ,112 ,224

30

20

Frequency

10 0
, -2 , -2 , -1 , -1 -,5 0, ,5 0 1, 00 1, 2, 2, 3, 00 50 00 50 00 50 00 50 00 0

NORMAL of SA LBEGIN using BLOM

Normalitatea multivariat
Toate variabilele i toate combinaiile liniare dintre ele sunt normale Este parial verificat prin verificarea normalitii univariate
Non-normalitatea univariat ncalc cert normalitatea multivariat

Observaii cu privire la normalizare


Poate fi foarte util, dar se face pe seama reducerii mai puternice a distanelor dintre valorile de la extremitatea distribuiilor comparativ cu distanele dintre valorile din partea central a distribuiilor (elasticitate) Afecteaz semnificaia valorilor Trebuie fcut cu grij i numai cnd este necesar Atenie la valoarea minim!
skewness original Square Root Log(10) Inverse 1.58 1.58 1.58 Min=1 Min=2 0.93 0.44 0.12 1.11 0.72 0.18 Min=3 1.21 0.88 0.39 Min=5 1.31 1.07 0.67 Min=10 Min=100 1.42 1.27 1.00 1.56 1.54 1.50

5. Liniaritatea
msura n care graficul variaiei valorilor a dou variabile se apropie de o linie dreapt
variabile individuale (nivelul anxietii, timpul de reacie, etc.) combinaii ale mai multor variabile (un scor compozit rezultat din adiionarea mai multor scale ale unui test)

Dou variabile puternic corelate nu sunt utile n aceeai analiz


Dect dac este analizat structura variabilelor (analiza factorial, SEM, Path Analysis) Variabile cu r=0,70 sau mai mult nu vor fi de regul incluse n aceeai analiz (analiza de regresie, de exemplu)

Corelaia nsi este afectat de particulariti ale datelor

Metode de investigare a liniaritii


analiza rezidual
scoruri a cror variaie nu este explicat prin modelul liniar

valorile reziduale standardizate sunt raportate grafic la valorile rezultate din predicie
Non-linearitatea... plasarea valorilor reziduale pe o curb n jurul liniei orizontale a valorilor de predicie. relaie de tip liniar... plasarea valorilor reziduale in jurul liniei de predicie, dup un model aleator

Statistics-Regression-Linear

Scatterplot
Regression Stan dardized Predicted Value

Dependent Variable: Beginning S alary


6 5 4 3 2 1 0 -1 -2 -6 -4 -2 0 2 4 6 8

Regression Sta ndardized Residual

6. Omogenitatea varianei (homoscedasticitate)


variana valorilor VD pentru fiecare din valorile VI este egal
Homoscedasticitate

nclcarea acestei condiii


Heteroscedasticitate

ANOVA rezist la nclcarea acestei condiii dac


Grupurile sunt suficient de mari Grupurile sunt egale ca numr (nu difer grav)
Raportul dintre grupul cel mai mare si cel mai mic nu depete 4/1 Raportul dintre variana cea mai mare i cea mai mic nu depete 10/1 (Fidell & Tabachnick, 2003)

Soluii alternative
Testarea diferenelor la un nivel alfa mai mic dect 0,05 (0,02 sau 0,01)

Heteroscedasticitatea trebuie raportat!

medii egale variane egale

medii diferite varian egal

medii egale variane diferite

medii diferite varian diferite

Homoscedasticitate

Heteroscedasticitate

heterodasticitate

variana n jurul liniei de regresie este aceeai pentru toate valorile variabilei predictor?

Concluzii
Statistica multivariat este mai pretenioas sub aspectul respectrii condiiilor impuse de diverse proceduri Analiza preliminar a datelor i pregtirea lor sunt decisive pentru utilizarea corect a procedurilor statistice.

S-ar putea să vă placă și