Sunteți pe pagina 1din 45

Analiza preliminar a datelor - verificarea condiiilor Marian Popa

Direcii de evaluare

1. 2. 3. 4. 5. 6.

Corectitudinea datelor Valorile excesive Valorile lips

Normalitatea distribuiei
Liniaritatea Homoscedasticitatea

introducere

Calitatea analizei i calitatea concluziilor depind de


calitatea datelor

Toate procedurile statistice presupun ntrunirea unor


condiii (presupuneri) teoretice

De ce este important respectarea condiiilor?

Pentru corectitudinea concluziilor



Exemplu: absena studenilor la curs

nclcarea condiiilor teoretice afecteaz rata erorilor


statistice
de tip I

?... (ce nseamn)

de tip II
?... (ce nseamn?)

Analiza exploratorie a datelor (EDA)


J.W. Tukey (1915-2000) nelegerea ct mai exact a datelor
cercetrii (tendina central, mprtierea, forma distribuiei);

detectarea eventualelor erori. descoperirea unor structuri ascunse ale


datelor;

identificarea variabilelor importante; detectarea valorilor excesive; verificarea respectrii condiiilor impuse
de diferite proceduri infereniale
5

1. Corectitudinea datelor
Valorile unei variabile sunt corecte atunci cnd nu s-au
produs erori la introducerea de la tastatur sau la preluarea lor dintr-o alt surs

n faza de recoltare

acurateea modelului de investigare

calitatea instrumentelor de evaluare


rigoarea procedurii de aplicare

n faza de constituire a bazei de date



atenie, organizare, motivare...
verificarea corectitudinii nainte de prelucrare

listarea valorilor (Analyze/Report/Case Summaries-SummarizeCase Summaries)

analiza de frecvene (Statistics-Descriptive Statistics-Frequencies) 6

1. Corectitudinea datelor
Valorile unei variabile sunt valide atunci cnd exprim ceea
ce ne ateptm s exprime

Codificarea corect a rspunsurilor

1=DA; 2=NU/1=NU. 2=DA

1=dezacord total; 2=dezacord parial; 3=nici acord/nici dezacord; 4=acord parial; 5=acord total

Transform/Compute
Profilul rspunsurilor

Angajare neserioas a subiecilor

1-2-1-2-1-2-
Atenie la scalele de minciun
7

2. Valorile excesive (marginale i extreme)

Valorile neobinuite ale unei distribuiei


excesive, extreme sau marginale outliers, n englez

Valori extreme
Valori cu influen (influential cases)

Surse ale valorilor extreme

Erori umane n colectarea i introducerea datelor

de exemplu: 422 n loc de 42)

Valori raportate intenionat greit

Atitudinea subiecilor

Valori care exprim alt realitate


Timpi mari de reacie, datorit unor factori distractori

Erori de eantionare
Subieci care fac parte din alt populaie

Valori care fac parte din variaia normal

Salariul efilor
9

Impactul valorilor excesive


Efectele negative

distorsioneaz indicatorii distribuiilor

amplificarea variabilitii i, deci, a erorii standard

diminuarea preciziei estimrii parametrilor reduce puterea testelor statistice

Efectele pozitive

scot n eviden situaii semnificative din perspectiva obiectivului cercetrii atrag atenia asupra unor aspecte care ies din limitele ipotezei iniiale
10

Detecia valorilor excesive

a) b) c)

La nivel univariat La nivel bivariat


La nivel multivariat

11

Detectarea univariat
Metodele grafice


Histogram
stem-and-leaf box-plot

Metode numerice
Transformarea n valori z

N=80: z 2.5 sau mai mare.


eantioane mai mari z 3, dar nu mai mult de 4 75% k=2 89% k=3
12

Teorema Cebiev (1-1/k2)

142 valoare extrem 135 valoare extrem

Limita de sus poate urca pn la 133,5 Cea mai apropiat valoare este 125

114+1.5x13=133.5

114

Percentila 75 (114)

Mediana (Q2) H=114-101=13


Percentila 25 (101)
101

Limita de jos este 81.5 Trasm la 86

101-1.5x13=81.5

13

Detectarea univariat

Testul Grubb

Metodele anterioare nu sunt aplicabile pe eantioane mici valorile transformate n z nu pot fi mai mari dect (N-1)/N

14

Detectarea bivariat

Outlier bivariat

15

Detectarea multivariat

Abaterea excesiv prin raportare la un numr mare de variabile

O valoare poate fi neobinuit n raport cu unele variabile, dar obinuit n raport cu altele Diagnosticul de valoare excesiv trebuie pus n raport cu toate dimensiunile simultan

Scatter-plot trivariat Metode numerice

Variabile dummy

SUM SD valori z mai mari de 3 sau 4 sunt excesive multivariate

Se transform n scoruri z

indicele D al lui Cook (Cook's D statistic)


indicele D2 al lui Mahalanobis
16

17

Tratarea valorilor excesive multivariate

Depinde de natura lor



Erori? eliminare

Valori valide?... eliminare sau transformare


Ambele au avantaje i dezavantaje

Eliminarea valorilor excesive Efectuarea analizelor i raportarea rezultatelor CU i FR


ele

Transformarea tuturor valorilor Trunchierea


18

Valori lips
Imposibilitatea recoltrii lor Refuzul subiecilor Rezultate din calcule cu variabile care au valori lips Trebuie sa ascund valori cu aceeai semnificaie cu
valorile valide

Decesul subiecilor? Non-rspunsuri legitime?

19

Natura valorilor lips


Rubin (1976)

a fundamentat analiza modern a valorilor lips
inferena statistic se bazeaz pe presupunerea distribuiei aleatoare, neafectate de erori (bias) acest lucru implic faptul c eventualele valori lips au, la rndul lor, un caracter aleatoriu

nu sunt determinate de un factor care le determin n mod sistematic

Valori lips nealeatorii Valori lips complet aleatorii Valori lips aleatorii
20

Impactul valorilor lips

Eliminarea: reducerea eantionului reducerea puterii Dac nu sunt aleatorii, afecteaz concluziile cercetrii n context multivariat, efectul se multiplic

21

Analiza valorilor lips


SPSS


System missing values
User defined missing values

SPSS Missing Value Analysis


Descrie modelul datelor lips: n ce variabile sunt localizate; ct de multe sunt; n ce msur anumite perechi de variabile tind s aib valori lips la mai multe cazuri; dac sunt aleatorii.
Estimeaz mediile, abaterile standard, covarianele i corelaiile pentru diferite metode de tratare a valorilor lips. nlocuiete valorile lips cu alte valori, utiliznd metode avansate.
22

Analiza valorilor lips


Soluii bivariate Se creeaz o variabil dummy

0, pentru subiecii care nu au rspuns

1 pentru cei care au rspuns

Se aplic testul t al diferenei dintre medii


O valoare semnificativ a testului: valorile lips apar n legtur cu variabilele testate O valoare nesemnificativ a testului respinge ipoteza unei astfel de legturi

23

Tratarea valorilor lips

Eliminarea valorii

casewise deletion

pairwise deletion
permite exploatarea la maximum a informaiei disponibile listwise deletion Reducere a numrului de cazuri analizate produce o estimare neafectat de erori a parametrilor pn la 10%, poate fi tolerat, dar dincolo de acest procent cazul respectiv ar trebui eliminat cele care au cel puin 15% din valori lips sunt candidate la eliminarea valorilor cele cu procente mai mari de att (20-30%) ar putea face obiectul remedierii valorilor lips 24

Eliminarea ntregii variabile

Cazuri

Variabile

Tratarea valorilor lips


Transformarea / nlocuirea

Transform/Replace

25

4. Normalitatea distribuiei
simetrie boltire

26

Distribuie relativ normal

Distribuie asimetric pozitiv i leptokurtic

27

Ct de important este normalitatea?

Cu att mai important cu ct volumul eantionului


Mai puin important pentru eantioane care se
este mai mic

Mai important pentru testele de corelaie Mai puin important pentru diferenele dintre
medii

apropie sau depesc 100 subieci

Mediile grupurilor se raporteaz la distribuia de


eantionare

Teorema Limitei Centrale


28

Normalitatea multivariat

Toate variabilele i toate combinaiile liniare


dintre ele sunt normale

Este parial verificat prin verificarea normalitii


univariate Non-normalitatea univariat ncalc cert normalitatea multivariat

29

Explore (Statistics-Descriptives-Explore)

Statistic

Std. Error

Skewness
Kurtosis

1,711
4,519

,333
,656
30

Explore
Testul Kolmogorov-Smirnov

Tests of normality

Kolmogorov-Smirnov Statistic Score ,140 df 51 Sig. ,014

Shapiro-Wilk Statistic ,862 df 51 Sig. ,000

semnificativ pentru p<0.0005 se respinge ipoteza de normalitate a distribuiei,


31

Procedura P-P plot


(Graphs-P-P plots)
Normal P-P Plot of Score

Relaia dintre proporia cumulativ


a distribuiei i proporia cumulativ pentru un numr de diferite distribuii teoretice, inclusiv pentru cea normal
Expected Cum Prob

1,0

,8

Dac distribuia cercetat se suprapune peste linia dreapt a distribuiei teoretice, sau nu se abate grav de la aceasta, atunci putem aprecia c variabila investigat este normal.

,5

,3

0,0 0,0

,3

,5

,8

1,0

Observed Cum Prob


32

Normalizarea distribuiei (Employee data.sav)

10

300

200

100

Beginning Salar y

0 0, 00 80 0,0 00 75 0,0 00 70 0,0 00 65 0,0 00 60 0,0 00 55 0,0 00 50 0,0 00 45 0,0 00 40 0,0 00 0 35 00, 0 30 0,0 00 25 0,0 00 20 0,0 00 15 0,0 00

33

Soluii de transformare
transformarea situaia recomandat

x3

ridicarea la puterea a asimetrie negativ treia

x2 x

ridicarea la ptrat
-

asimetrie negativ
simetrie

x
3

radical de ordin 2 radical de ordin trei logaritmare

asimetrie pozitiv asimetrie pozitiv asimetrie pozitiv


34

x
log(x)

Transform-Compute (SQRT)

80

60

40

140

120

100

20

SQR_SALB

0 0, 2 8 ,0 0 2 7 0 ,0 2 6 0 ,0 2 5 0 ,0 2 4 0 ,0 2 3 0 ,0 2 2 0 ,0 2 1 ,0 0 2 0 0 ,0 1 9 0 ,0 1 8 0 ,0 1 7 0 ,0 1 6 0 ,0 1 5 0 ,0 1 4 ,0 0 1 3 0 ,0 1 2 0 ,0 1 1 ,0 0 10 ,0 90

35

Histogram
60 50

40

30

Statistic
Skewness ,024 -,115 Kurtosis

Std. Error
,112 ,224

20

Frequency

10 0

NORMAL of SA LBEGIN using BLOM

, -2

, -2

, -1

, -1

0 ,5 00 0, 0 -,5 00

1, 00

1,

2, 00

2,

3,

50

50

00

50

00

50

36

Normalitatea multivariat

Toate variabilele i toate combinaiile liniare


dintre ele sunt normale

Este parial verificat prin verificarea


normalitii univariate Non-normalitatea univariat ncalc cert normalitatea
multivariat

37

Observaii cu privire la normalizare


Poate fi foarte util, dar se face pe seama reducerii mai puternice a distanelor dintre
valorile de la extremitatea distribuiilor comparativ cu distanele dintre valorile din partea central a distribuiilor (elasticitate)

Afecteaz semnificaia valorilor Trebuie fcut cu grij i numai cnd este necesar Atenie la valoarea minim!
skewness original

Min=1 Min=2 Min=3 Min=5 Min=10 0.93


0.44 0.12

Min=10 0

Square Root Log(10)


Inverse

1.58
1.58 1.58

1.11
0.72 0.18

1.21
0.88 0.39

1.31
1.07 0.67

1.42
1.27 1.00

1.56
1.54 1.50
38

5. Liniaritatea

msura n care graficul variaiei valorilor a dou


variabile se apropie de o linie dreapt

variabile individuale (nivelul anxietii, timpul de reacie, etc.)


combinaii ale mai multor variabile (un scor compozit rezultat din adiionarea mai multor scale ale unui test)

Dou variabile puternic corelate nu sunt utile n


aceeai analiz

Dect dac este analizat structura variabilelor (analiza factorial, SEM, Path Analysis) Variabile cu r=0,70 sau mai mult nu vor fi de regul incluse n aceeai analiz (analiza de regresie, de exemplu)
39

Corelaia nsi este afectat de particulariti ale datelor

Metode de investigare a liniaritii

analiza rezidual
scoruri a cror variaie nu este explicat prin modelul
liniar

valorile reziduale standardizate sunt raportate


grafic la valorile rezultate din predicie

Non-linearitatea... plasarea valorilor reziduale pe o curb n jurul liniei orizontale a valorilor de predicie. relaie de tip liniar... plasarea valorilor reziduale in jurul liniei de predicie, dup un model aleator
40

Statistics-Regression-Linear

Scatterplot
Regression Stan dardized Predicted Value
6 5 4 3 2 1 0 -1 -2 -6 -4 -2 0 2 4

Dependent Variable: Beginning S alar

41
6

Regression Sta ndardized Residual

6.) Omogenitatea varianei (homoscedasticitate)


variana valorilor VD pentru fiecare din valorile VI este egal

Homoscedasticitate Heteroscedasticitate Grupurile sunt suficient de mari

nclcarea acestei condiii ANOVA rezist la nclcarea acestei condiii dac

Grupurile sunt egale ca numr (nu difer grav)

Raportul dintre grupul cel mai mare si cel mai mic nu depete 4/1

Raportul dintre variana cea mai mare i cea mai mic nu depete 10/1 (Fidell & Tabachnick, 2003)

Soluii alternative

Testarea diferenelor la un nivel alfa mai mic dect 0,05 (0,02 sau 0,01)

Heteroscedasticitatea trebuie raportat!


42

medii egale

medii diferite
varian egal

medii egale

medii diferite

variane egale

variane diferite

varian diferite
43

Homoscedasticitate

Heteroscedasticitate

heterodasticitate

variana n jurul liniei de


regresie este aceeai pentru toate valorile variabilei predictor?

44

Concluzii

Statistica multivariat este mai pretenioas sub aspectul


respectrii condiiilor impuse de diverse proceduri

Analiza preliminar a datelor i pregtirea lor sunt


decisive pentru utilizarea corect a procedurilor statistice.

45