Sunteți pe pagina 1din 47

Analiza preliminar a datelor

- verificarea condiiilor Marian Popa


2013

Direcii de evaluare

1.
2.
3.
4.
5.
6.

Corectitudinea datelor
Valorile excesive

Valorile lips
Normalitatea distribuiei

Liniaritatea
Homoscedasticitatea
2

introducere

Calitatea analizei i calitatea concluziilor


depind de calitatea datelor

Toate procedurile statistice presupun


ntrunirea unor condiii (presupuneri)
teoretice

De ce este important respectarea condiiilor?

Pentru corectitudinea concluziilor


Exemplu

nclcarea condiiilor teoretice afecteaz


rata erorilor statistice

de tip I
?...

de tip II
?...
4

Analiza exploratorie a datelor (EDA)


J.W. Tukey (1915-2000)
nelegerea ct mai exact a datelor
cercetrii (tendina central,
mprtierea, forma distribuiei);

detectarea eventualelor erori.


descoperirea unor structuri ascunse ale
datelor;

identificarea variabilelor importante;


detectarea valorilor excesive;
verificarea respectrii condiiilor impuse
de diferite proceduri infereniale

1. Corectitudinea datelor
Valorile unei variabile sunt corecte atunci cnd nu s-au
produs erori la introducerea de la tastatur sau la preluarea
lor dintr-o alt surs

n faza de recoltare

acurateea modelului de investigare


calitatea instrumentelor de evaluare

rigoarea procedurii de aplicare

n faza de constituire a bazei de date

atenie, organizare, motivare...

verificarea corectitudinii nainte de prelucrare

listarea valorilor (Analyze/Report/Case Summaries-SummarizeCase Summaries)

analiza de frecvene (Statistics-Descriptive Statistics-Frequencies) 6

1. Corectitudinea datelor
Valorile unei variabile sunt valide atunci cnd exprim ceea
ce ne ateptm s exprime

Codificarea corect a rspunsurilor

1=DA; 2=NU/1=NU. 2=DA


1=dezacord total; 2=dezacord parial; 3=nici acord/nici dezacord;
4=acord parial; 5=acord total

Transform/Compute
Profilul rspunsurilor

Angajare neserioas a subiecilor

1-2-1-2-1-2-

Atenie la scalele de minciun


7

2. Valorile excesive
(marginale i extreme)

Valorile neobinuite ale unei distribuiei


excesive, extreme sau marginale
outliers, n englez

Valori extreme
Valori cu influen (influential cases)

Surse ale valorilor extreme

Erori umane n colectarea i introducerea datelor

Valori raportate intenionat greit

Valori care exprim alt realitate

Erori de eantionare

Valori care fac parte din variaia normal

de exemplu: 422 n loc de 42)

Atitudinea subiecilor
Timpi mari de reacie, datorit unor factori distractori
Subieci care fac parte din alt populaie

Salariul efilor
9

Impactul valorilor excesive


Efectele negative

distorsioneaz indicatorii distribuiilor


amplificarea variabilitii i, deci, a erorii standard

diminuarea preciziei estimrii parametrilor


reduce puterea testelor statistice

Efectele pozitive

scot n eviden situaii semnificative din perspectiva obiectivului


cercetrii
atrag atenia asupra unor aspecte care ies din limitele ipotezei
iniiale
10

Detecia valorilor excesive

a)La nivel univariat


b)La nivel bivariat
c) La nivel multivariat

11

Detectarea univariat
Metodele grafice

Histogram

stem-and-leaf
box-plot

Metode numerice

Transformarea n valori z

N=80: z 2.5 sau mai mare.


eantioane mai mari z 3, dar nu mai mult de 4

Teorema Cebiev (1-1/k2)

75% k=2
89% k=3
12

Leys et al (2013)

Utilizarea mediei pentru detecia valorilor excesive este greit:

Presupune normalitatea distribuiei (incluznd outliers)


Outliers modific valoarea mediei

Nu funcioneaz corect pe eantioane mici

Soluie alternativ: abaterea absolut de la median (apud Hampel,


apud Gauss)

Mediana nu este afectat de outliers

13

Procedura SPSS
COMPUTE
ABS(V1-MedV1)

MAD=1.48*MedV2=5.1891
Criterii de decizie outliers (Miller, 1991)

MedV1=7

Mediana 3*MAD (foarte conservator)


Mediana 2.5*MAD (moderat conservator)

Mediana 2*MAD (puin conservator)

MedV2=3.5
14

142 valoare extrem

Limita de sus poate urca pn la 133,5


Cea mai apropiat valoare este 125

135 valoare extrem

114+1.5x13=133.5

114

Percentila 75 (114)

Mediana
(Q2)
H=114-101=13
Percentila 25 (101)
101
Limita de jos este 81.5
Trasm la 86

101-1.5x13=81.5

15

Detectarea univariat

Testul Grubb

Metodele anterioare nu sunt


aplicabile pe eantioane mici

valorile transformate n z nu
pot fi mai mari dect (N-1)/N

16

Detectarea bivariat

Outlier
bivariat

17

Detectarea multivariat

Abaterea excesiv prin raportare la un numr mare de variabile


O valoare poate fi neobinuit n raport cu unele variabile, dar
obinuit n raport cu altele
Diagnosticul de valoare excesiv trebuie pus n raport cu toate
dimensiunile simultan

Scatter-plot trivariat
Metode numerice

Variabile dummy

SD

Se transform n scoruri z

SUM

valori z mai mari de 3 sau 4 sunt excesive multivariate

indicele D al lui Cook (Cook's D statistic)


indicele D2 al lui Mahalanobis

18

19

Tratarea valorilor excesive multivariate

Depinde de natura lor

Erori? eliminare
Valori valide?... eliminare sau transformare
Ambele au avantaje i dezavantaje

Eliminarea valorilor excesive


Efectuarea analizelor i raportarea rezultatelor CU i FR
ele

Transformarea tuturor valorilor


Trunchierea
20

Valori lips

Imposibilitatea recoltrii lor


Refuzul subiecilor
Rezultate din calcule cu variabile care au valori
lips

Trebuie sa ascund valori cu aceeai semnificaie


cu valorile valide

Decesul subiecilor?
Non-rspunsuri legitime?
21

Natura valorilor lips


Rubin (1976)

a fundamentat analiza modern a valorilor lips


inferena statistic se bazeaz pe presupunerea distribuiei
aleatoare, neafectate de erori (bias)
acest lucru implic faptul c eventualele valori lips au, la rndul lor,
un caracter aleatoriu

nu sunt determinate de un factor care le determin n mod sistematic

Valori lips nealeatorii


Valori lips complet aleatorii
Valori lips aleatorii
22

Impactul valorilor lips

Eliminarea: reducerea eantionului


reducerea puterii

Dac nu sunt aleatorii, afecteaz concluziile


cercetrii

n context multivariat, efectul se multiplic


23

SPSS

Analiza valorilor lips

System missing values


User defined missing values

SPSS Missing Value Analysis


Descrie modelul datelor lips: n ce variabile sunt
localizate; ct de multe sunt; n ce msur anumite
perechi de variabile tind s aib valori lips la mai multe
cazuri; dac sunt aleatorii.

Estimeaz mediile, abaterile standard, covarianele i


corelaiile pentru diferite metode de tratare a valorilor
lips.

nlocuiete valorile lips cu alte valori, utiliznd metode 24


avansate.

Analiza valorilor lips

Soluii bivariate
Se creeaz o variabil dummy
0, pentru subiecii care nu au rspuns
1 pentru cei care au rspuns

Se aplic testul t al diferenei dintre medii


O valoare semnificativ a testului: valorile lips apar n
legtur cu variabilele testate

O valoare nesemnificativ a testului respinge ipoteza unei


astfel de legturi
25

Tratarea valorilor lips

Eliminarea valorii

permite exploatarea la maximum a informaiei disponibile


listwise deletion

Reducere a numrului de cazuri analizate


produce o estimare neafectat de erori a parametrilor

Cazuri

pairwise deletion

Eliminarea ntregii variabile

casewise deletion

pn la 10%, poate fi tolerat, dar dincolo de acest procent cazul respectiv ar


trebui eliminat

Variabile

cele care au cel puin 15% din valori lips sunt candidate la eliminarea valorilor

cele cu procente mai mari de att (20-30%) ar putea face obiectul remedierii
valorilor lips
26

Tratarea valorilor lips


Transformarea / nlocuirea

Transform/Replace

27

4. Normalitatea distribuiei
simetrie

boltire

28

Distribuie relativ normal

Distribuie asimetric pozitiv i leptokurtic

29

Ct de important este normalitatea?

Cu att mai important cu ct volumul eantionului


este mai mic

Mai puin important pentru eantioane care se


apropie sau depesc 100 subieci

Mai important pentru testele de corelaie


Mai puin important pentru diferenele dintre
medii

Mediile grupurilor se raporteaz la distribuia de


eantionare

Teorema Limitei Centrale


30

Normalitatea multivariat

Toate variabilele i toate combinaiile liniare


dintre ele sunt normale

Este parial verificat prin verificarea normalitii


univariate
Non-normalitatea univariat ncalc cert normalitatea multivariat

31

Explore (Statistics-Descriptives-Explore)

Statistic

Std. Error

Skewness

1,711

,333

Kurtosis

4,519

,656
32

Explore
Testul Kolmogorov-Smirnov

Tests of normality

Kolmogorov-Smirnov

Score

Shapiro-Wilk

Statistic

df

Sig.

Statistic

df

Sig.

,140

51

,014

,862

51

,000

semnificativ pentru p<0.0005


se respinge ipoteza de normalitate a
distribuiei,
33

Procedura P-P plot


(Graphs-P-P plots)
Normal P-P Plot of Score

Relaia dintre proporia cumulativ


a distribuiei i proporia cumulativ
pentru un numr de diferite distribuii
teoretice, inclusiv pentru cea normal
Expected Cum Prob

Dac distribuia cercetat se


suprapune peste linia dreapt a
distribuiei teoretice, sau nu se abate
grav de la aceasta, atunci putem
aprecia c variabila investigat este
normal.

1,0

,8

,5

,3

0,0
0,0

,3

,5

1,0

,8

Observed Cum Prob


34

Normalizarea distribuiei
(Employee data.sav)
300

200

100

10 15 20 25 30 35 40 45 50 55 60 65 70 75 80
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Beginning Salar y

35

Soluii de transformare
transformarea

x3
x2
x

situaia recomandat

ridicarea la puterea a
asimetrie negativ
treia
ridicarea la ptrat
-

asimetrie negativ
simetrie

radical de ordin 2

asimetrie pozitiv

radical de ordin trei

asimetrie pozitiv

log(x)

logaritmare

asimetrie pozitiv

36

Transform-Compute (SQRT)
140

120

100

80

60

40

20
0

90 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0 0 ,0

SQR_SALB

37

Histogram
60

50

40

Statistic

Std. Error

Skewness

,024

,112

Kurtosis

-,115

,224

30

Frequency

20

10
0

-2
,

50

-2
,

00

-1
,

50

-1 ,0 ,5
0 0

0,

0 0 ,5 0

1,

00

1,

50

2,

00

NORMAL of SA LBEGIN using BLOM

2,

3
5 0 ,0 0

38

Normalitatea multivariat

Toate variabilele i toate combinaiile liniare


dintre ele sunt normale

Este parial verificat prin verificarea


normalitii univariate

Non-normalitatea univariat ncalc cert normalitatea


multivariat

39

Observaii cu privire la normalizare


Poate fi foarte util, dar
se face pe seama reducerii mai puternice a distanelor dintre
valorile de la extremitatea distribuiilor comparativ cu
distanele dintre valorile din partea central a distribuiilor
(elasticitate)

Afecteaz semnificaia valorilor


Trebuie fcut cu grij i numai cnd este necesar
Atenie la valoarea minim!
skewness
original
Square
Root
Log(10)
Inverse

Min=1 Min=2 Min=3 Min=5 Min=10

Min=10
0

1.58

0.93

1.11

1.21

1.31

1.42

1.56

1.58

0.44

0.72

0.88

1.07

1.27

1.54

1.58

0.12

0.18

0.39

0.67

1.00

1.50

40

5. Liniaritatea

msura n care graficul variaiei valorilor a dou


variabile se apropie de o linie dreapt

variabile individuale (nivelul anxietii, timpul de reacie, etc.)

combinaii ale mai multor variabile (un scor compozit rezultat din
adiionarea mai multor scale ale unui test)

Dou variabile puternic corelate nu sunt utile n


aceeai analiz

Dect dac este analizat structura variabilelor (analiza factorial,


SEM, Path Analysis)
Variabile cu r=0,70 sau mai mult nu vor fi de regul incluse n aceeai
analiz (analiza de regresie, de exemplu)

Corelaia nsi este afectat de particulariti ale datelor


41

Metode de investigare a liniaritii

analiza rezidual
scoruri a cror variaie nu este explicat prin modelul
liniar

valorile reziduale standardizate sunt raportate


grafic la valorile rezultate din predicie

Non-linearitatea... plasarea valorilor reziduale pe o curb n jurul


liniei orizontale a valorilor de predicie.

relaie de tip liniar... plasarea valorilor reziduale in jurul liniei de


predicie, dup un model aleator
42

Statistics-Regression-Linear

Regression Stan dardized Predicted Value

Scatterplot

Dependent Variable: Beginning S alar


6
5
4
3
2
1
0
-1
-2
-6

-4

-2

Regression Sta ndardized Residual

43
6

6.) Omogenitatea varianei


(homoscedasticitate)

variana valorilor VD pentru fiecare din valorile VI este egal

Homoscedasticitate

nclcarea acestei condiii

Heteroscedasticitate

ANOVA rezist la nclcarea acestei condiii dac

Grupurile sunt suficient de mari


Grupurile sunt egale ca numr (nu difer grav)

Raportul dintre grupul cel mai mare si cel mai mic nu depete 4/1

Raportul dintre variana cea mai mare i cea mai mic nu depete 10/1 (Fidell &
Tabachnick, 2003)

Soluii alternative

Testarea diferenelor la un nivel alfa mai mic dect 0,05 (0,02 sau 0,01)

Heteroscedasticitatea trebuie raportat!


44

medii egale

medii diferite

medii egale

medii diferite

variane egale

varian egal

variane diferite

varian diferite

Homoscedasticitate

Heteroscedasticitate

45

heterodasticitate

variana n jurul liniei de


regresie este aceeai pentru
toate valorile variabilei
predictor?

46

Concluzii

Statistica multivariat este mai pretenioas sub


aspectul respectrii condiiilor impuse de diverse
proceduri

Analiza preliminar a datelor i pregtirea lor


sunt decisive pentru utilizarea corect a
procedurilor statistice.

47

S-ar putea să vă placă și