Documente Academic
Documente Profesional
Documente Cultură
Valorile extreme reprezintă valori excesive, neobişnuit de mari sau de mici faţă de
celelalte valori ale unei distribuţii. Identificarea lor este necesară pentru a se evita
efectul pe care îl au asupra valorilor tendinţei centrale, în primul rând asupra mediei.
Una dintre metodele de identificare este analiza grafică de tip Box-and-Whisker-
Plot (pe scurt Box-Plot), elaborată de Tukey.
În esenţă, reprezentarea box-plot (vezi imaginea de mai jos) este constituită dintr-o
casetă (dreptunghi), a cărui limită inferioară este plasată în dreptul percentilei 25,
limita superioară fiind plasată în dreptul percentilei 75. Cu alte cuvinte, caseta
cuprinde 50% dintre valorile unei distribuţii. Distanţa dintre valorile limită ale casetei
se numeşte H.
Linia din interiorul casetei marchează valoarea mediană (Me)
„Mustăţile” care pornesc de la limita superioară şi inferioară a casetei, au o lungime
maximă egală cu 1.5 H. În acel punct se plasează ultima valoare „legitimă” a
distribuţiei. Orice valoare mai mică sau mai mare de acestea, sunt definite ca
extreme (Outliers)
Pentru a exemplifica modul de creare a reprezentării box-plot vom utiliza distribuţia
scorurilor QI prezentată anterior, la care am adăugat două valori suplimentare (135 şi
142), alese intenţionat pentru a fi mai mari decât restul valorilor.
101 94 87 117 115 116 91 113 96 105 135
92 107 118 114 98 112 101 114 107 109 142
97 109 124 102 118 113 116 106 108 89
106 108 115 92 97 102 108 102 109 114
107 104 110 101 101 121 125 86 109 123
Pentru a face reprezentarea box-plot facem mai întâi tabela de frecvenţe simple, cu
scopul calculării percentilelor. Tabelul de frecvenţe alăturat cuprinde valorile
ordonate ale distribuţiei, între de la valoarea cea mai mică (86) şi se cea mai mare
(142). Pe coloana frc% se află frecvenţele cumulate procentuale (percentilele).
Pentru box plot identificăm percentilele 25 şi 75. Ele corespund valorilor 101 (este
valoarea cea mai apropiată de 25 pe coloana frc%) şi, respectiv, 114. Am obţinut
astfel, limita inferioară şi superioară a casetei. Mediana (percentila 50) corespunde
valorii 108 (frc%=53.8, prin aproximare). Diferenţa dintre valorile corespunzătoare
percentilelor 25 şi 75 este 13 (114-101). Astfel putem determina limitele
prelungirilor superioară şi inferioară ale casetei care sunt: 114+13*1.5=128
(aproximare) pentru prelungirea superioară şi, respectiv 101-13*1,5=83
(aproximare) pentru cea de jos. Am obţinut astfel toate valorile necesare trasării box
plotului.
Punerea în evidenţă a unor valori extreme ridică problema modului lor de tratare a acestor
valori. În acest scop, trebuie să avem în vedere două aspecte: 1. Stabilirea naturii
valorilor extreme, care pot fi:
a. erori de înregistrare (tastare);
b. erori de măsurare;
c. rezultate influenţate de anomalii ale condiţiilor experimentale;
d. eşantionul a fost extras dintr-o populaţie asimetrică;
. valorile respective fac parte din altă populaţie de valori;
f. eşantion prea mic, ceea ce face ca apariţia unui „caz neobişnuit” sa fie mai
probabilă.
2. Tratarea lor pe una din căile posibile:
a. eliminare (dacă sunt erori necorectabile);
b. corectare (dacă este posibil);
c. utilizarea mediei 5%trim, adică a mediei care nu ţine cont de 5% din
numărul valorilor de la fiecare din cele două extremităţi ale distribuţiei.
d. transformare (dacă datele sunt corecte şi, totuşi, dorim să evităm efectul
lor asupra indicatorilor sintetici). Există diverse metode de transformare:
extragerea radicalului din toate valorile distribuţiei, logaritmarea
distribuţiei, etc.2
Analiza valorilor extreme reprezintă unul dintre obiectivele principale a fazei preliminare
de analiză a datelor. Prezenţa lor este de natură să aibă efecte majore asupra rezultatelor,
fapt care trebuie luat în considerare la alegerea procedurilor statistice inferenţiale.
Amplitudinea absolută este dată de diferenţa dintre valoarea maximă şi valoarea minimă
a unei distribuţii
R=Xmax-Xmin (formula 2.3)
Utilitatea ei este dată de faptul că ne indică în mod absolut plaja de valori între care se
întinde distribuţia.
Principalul dezavantaj constă în faptul că poate fi influenţată de o singură valoare aflată la
extremitatea distribuţiei.
Amplitudinea relativă
Distanţa dintre o valoare anumită şi media distribuţiei se numeşte abaterea valorii (Xi-m).
Dacă am dori să calculăm abaterea medie a unei distribuţii nu ne-ar rămâne decât să
însumăm abaterile individuale ale fiecărei valori şi să le împărţim la numărul acestora.
Din păcate, media abaterilor într-o distribuţie este întotdeauna egală cu zero (vezi
proprietăţile mediei). Acest fapt poate fi descris cu formula
∑(Xi-m)/N = 0
unde Xi sunt valorile distribuţiei, m este media iar N, numărul de valori, şi poate fi pus în
evidenţă practic, astfel:
X Xi – m
5 (5 – 4.5) = .5
8 (8 – 4.5) = 3.5
3 (3 – 4.5) = -1.5
2 (2 – 4.5) = -2.5
5 (5 – 4.5) = .5
4 (4 – 4.5) = -.5
ΣX = 27 Σ(Xi-m) = 0
N=6
m = 4.5
Aşa cum se observă în coloana „Xi–m”, diferenţele individuale însumate produc Σ(Xi-m)
= 0. Acest lucru este valabil pentru orice fel de distribuţie şi este una dintre proprietăţile
importante ale mediei.
Pentru a elimina acest inconvenient putem să luăm abaterile individuale în valoare
absolută (fără semn).
X (Xi – m)
5 (5 – 4.5) = .5
8 (8 – 4.5) = 3.5
3 (3 – 4.5) = 1.5
2 (2 – 4.5) = 2.5
5 (5 – 4.5) = .5
4 (4 – 4.5) = .5
ΣX = 27 Σ|Xi-m| = 9
N=6
m = 4.5
4
În continuare ne vom raporta la media eşantionului. Se subînţelege că, pentru cazul unei
populaţii, media va fi scrisă cu litera µ (miu).
Ca urmare, formula abaterii medii (d) poate fi scrisă astfel:
Dispersia (varianţa)
Notaţii uzuale:
s2 (când se calculează pentru eşantion)
σ2 (când se calculează pentru întreaga populaţie) Pentru a elimina inconvenientul
abaterilor de la medie de a avea suma egală cu zero, se operează ridicarea la pătrat a
abaterilor valorilor individuale5.
X (Xi – m) (Xi – m) 2
5 (5 – 4.5) = .5 .25
8 (8 – 4.5) = 3.5 12.25
3 (3 – 4.5) = -1.5 2.25
2 (2 – 4.5) = -2.5 6.25
5 (5 – 4.5) = .5 .25
4 (4 – 4.5) = -.5 .25
Coeficientul de variaţie
Notaţii uzuale:
• s (pentru eşantioane)
• δ (pentru populaţie)
• SD (Standard Deviation, în standardul APA )
• ab.std.
Abaterea standard se obţine prin extragerea radicalului din expresia abaterii medii
pătratice (dispersiei).
> Abaterea standard este cea mai utilizată pentru scale de măsurare
interval/raport. Realizează cea mai bună combinaţie între calitatea estimării şi
posibilitatea de a fundamenta inferenţe statistice.
> Amplitudinea este un indicator nesigur şi care nici nu poate fi calculat în cazul
scalelor nominale
> Pe distribuţii cu valori nedeterminate sau cu intervale deschise, se alege abaterea
interquartilă (semi-interquartilă).
Expresia grafică a distribuţiilor poate fi descrisă sub două aspecte esenţiale: simetria şi
boltirea. O distribuţie este simetrică atunci când valorile acesteia se împart în mod egal de
o parte şi de alta a valorilor tendinţei centrale. Se numesc asimetrice (skewed) distribuţiile
ale căror valori se concentrează fie în zona valorilor mici (spre stânga) fie în zona
valorilor mari (spre dreapta)
Figurile de mai sus arată cum se plasează cei trei indicatori ai tendinţei centrale în funcţie
de simetria distribuţiei:
> În cazul distribuţiilor (perfect) simetrice, Mo, Me şi m se plasează pe aceeaşi
valoare
> În cazul distribuţiilor asimetrice cei trei indicatori au poziţii diferite (vezi
figura).
> Mediana se plasează întotdeauna între mod şi medie. Din acest motiv,
mediana este cea mai reprezentativă valoare pentru distribuţiile asimetrice
> Media este afectată de valorile extreme, cu atât mai mult cu cât acestea sunt
mai puternic deviate. Ca urmare, în cazul distribuţiilor puternic asimetrice,
media nu este un indicator veridic al tendinţei centrale.
Desigur, o curbă poate fi în acelaşi timp şi asimetrică şi boltită excesiv, chiar dacă imaginea de
mai sus ilustrează boltirea pe curbe simetrice.
Indicatorul numeric al boltirii (kurtosis) are o plajă de variaţie în jurul valorii zero (care
înseamnă boltire medie, „normală”, mezocurtică). Indicele de boltire pozitivă indică o curbă
„înaltă” (leptocurtică), iar indicele de boltire negativă, o curbă „aplatizată” (platicurtică). La fel
ca şi în cazul indicelui de oblicitate (skewness), cu cât acesta este mai îndepărtat de valorile +1/-
1, avem de a face cu distribuţii cu abatere accentuată de la boltirea „normală”.
Calcularea indicatorilor de simetrie şi de boltire reprezintă modalităţi importante de apreciere a
caracteristicilor unei distribuţii. Aceştia trebuie luaţi în considerare ori de câte ori utilizarea
procedurilor statistice inferenţiale reclamă anumite caracteristici ale distribuţiilor.