Sunteți pe pagina 1din 16

STATISTICI DESCRIPTIVE Indicatori numerici ai distribuiilor statistice Lect. univ. dr.

Gheorghe Perea Aa cum am vzut, analiza de frecvene este o metod util pentru punerea n valoare a unor caracteristici ale distribuiilor statistice. Cu toate acestea, ea este tributar necesitii de a manipula ntreaga cantitate de date, toate valorile unei distribuii (fie ele i grupate). Pentru a elimina acest neajuns sunt utilizai aa numiii indicatori sintetici. Acetia sunt descriptori numerici care condenseaz ntr-o valoare unic o anumit caracteristic a unei ntregi distribuii de valori. Principalele avantaje pe care le ofer sunt concentrarea semnificaiei i uurina utilizrii. n acelai timp, ns, trebuie s avem n vedere c, prin natura lor sintetic, fiecare indicator pierde o anumit cantitate de informaie care ine de alte caracteristici, pe care nu le surprinde. Tipuri de indicatori sintetici: Trei sunt caracteristicile distribuiilor care sunt evaluate cu ajutorul indicatorilor sintetici: tendina central, variabilitatea (mprtierea, diversitatea), forma distribuiei. Pentru fiecare din aceste caracteristici se utilizeaz anumii indicatori specifici: - Indicatori ai tendinei centrale. Acetia sunt valori tipice, reprezentative, care descriu distribuia n ntregul ei; - Indicatori ai variabilitii. Sunt valori care descriu caracteristica de mprtiere a distribuiei. O distribuie care conine aceeai valoare, ori de cte ori s-ar repeta ea, are o variabilitate zero. - Indicatori ai formei distribuiei. Sunt valori care se refer la forma curbei de reprezentare grafic a distribuiei, prin comparaie cu o curb normal (oblicitate, aplatizare) Indicatorii tendinei centrale MODUL (Mo) Modul este expresia cea mai direct a valorii tipice (reprezentative). n cazul unei distribuii simple, este valoarea cu frecvena cea mai mare de apariie. n cazul unei distribuii de frecvene grupate, este clasa de interval cu frecvena cea mai mare de apariie. Modul se afl prin alctuirea tabelei de frecvene (simple sau grupate) i este valoarea creia i corespunde frecvena absolut cea mai ridicat. Distribuiile pot avea un singur mod (unimodale), dou moduri (bimodale) sau mai multe (multimodale) Exemplu: n seria de valori 5,8,3,2,5,4, Mo=5 (apare de cele mai multe ori)

MEDIANA (Me) Mediana este valoarea din mijlocul unei distribuii, adic aceea care are 50% dintre valori deasupra ei i 50% dintre valori dedesubtul ei. Cu alte cuvinte, mediana este, n acelai timp, percentila 50. Mediana se gsete prin alctuirea tabelei de frecvene, n coloana frecvenelor relative procentuale cumulate, i corespunde valorii de 50%. n cazul distribuiilor cu numr impar de valori, Me este chiar valoarea respectiv. n cazul distribuiilor pare, Me se calculeaz ca medie a celor dou valori din mijlocul distribuiei. Exemplu: n seria de valori 5,8,3,2,5,4, ordonat cresctor (2,3,4,5,5,8), Me=4,5 (ca medie a valorilor 4 i 5 aflate n mijlocul unei distribuii pare). Dac distribuia noastr ar fi avut 5 valori (fr 2, de exemplu), Me=5. MEDIA ARITMETIC (m) Media este raportul dintre suma valorilor distribuiei i numrul acestora. Notaiile uzuale pentru medie sunt: o (miu), atunci cnd este media ntregii populaii de referin o m, atunci cnd se calculeaz pentru un eantion (cazul cel mai frecvent) Calcularea mediei pentru o distribuie simpl de frecvene se face prin adunarea valorilor i mprirea la numrul lor o Exemplu: Pentru distribuia 5,8,3,2,5,4

Calcularea mediei pentru o distribuie de frecvene grupate se face prin suma produsului dintre fiecare valoare i frecvena ei, care apoi se mparte la suma frecvenelor (numrul valorilor). Exemplu: Pentru distribuia: 5,8,3,3,3,2,4,2,3,5,4

NOT: n expresia de mai sus: X este variabila. X se nelege ca Sum de la X1 la XN (numrul valorilor) f este frecvena . f se nelege ca Sum de la f1 la fk (unde k numrul grupelor de frecven) Proprietile mediei aritmetice o Adugarea\scderea unei constante la fiecare valoare a distribuiei, mrete\scade media cu acea valoare. o nmulirea\mprirea fiecrei valori a distribuiei cu o constant, multiplic\divide media cu acea constant. o Suma abaterii valorilor de la medie este ntotdeauna egal cu zero. o Suma ptratului abaterilor de la medie va fi ntotdeauna mai mic dect suma ptratelor abaterilor n raport cu oricare alt punct al distribuiei . n final, prezentm un exemplu ilustrativ de calcul al modului, medianei i mediei pe o distribuie X de N=15 valori.N=15

1 60

2 45

3 22

4 20

5 16

6 16

7 16

8 15

9 14

10 14

11 14

12 12

13 12

14 12

15 12

Media=20

Mediana =15

Modul = 12 (valoarea cea mai frecvent)

X/N=300/15

(N+1)/2 =8

Valorile de mai sus arat ct de diferit poate fi uneori imaginea pe care o prezint cei trei indicatori cu privire la tendina central a unei distribuii, n ciuda faptului c fiecare dintre ei se refer la tendina central. Valori nedeterminate i clase deschise Valorile nedeterminate sunt acele valori a cror mrime nu decurge din procesul de msurare, n acelai mod n care rezult oricare valoare a seriei (Exemplu: La testul de asociere verbal, dac subiectul depete, s zicem 10 sec., se nregistreaz valoarea 10, fr a se atepta, la infinit (?), un rspuns). Categorii deschise sunt acele categorii de valori care au una dintre limite liber (Exemplu: Cte igri fumezi zilnic? Se poate nregistra numrul igrilor ca atare, dar ultima valoare este 30 sau mai mult). n ambele situaii de mai sus, utilizarea mediei este nesigur (i incorect). Indicatorul recomandabil este mediana. Tabloul de mai jos prezint, n mod sintetic avantajele i dezavantajele specifice indicatorilor tendinei centrale:
AVANTAJE -Uor de calculat (nesemnificativ n prezent); - Poate fi utilizat pentru orice tip de scal; - Este singurul indicator pentru scale nominale; Corespunde unui scor real al distribuiei; - Poate fi utilizat pe scale ordinale i de interval\raport; - Poate fi utilizat i pe distribuii de frecven cu clase deschise sau scoruri nedeterminate la marginile distribuiei; DEZAVANTAJE - n general, nesigur, mai ales n cazul eantioanelor mici, cnd se poate modifica dramatic la o modificare minor a unei valori; - Poate fi greit interpretat. Se identific total cu un scor anume, fr a spune nimic despre celelalte valori; - Nu poate fi utilizat n statistici infereniale;

MODUL

MEDIANA

MEDIA

- Poate s nu corespund unei valori reale (N par); - Nu reflect valorile distribuiei (un scor extrem se poate modifica, fr a afecta Me); - Este mai puin sigur n extrapolarea de la eantion la populaie; - Greu de utilizat n statistici avansate. - Reflect valorile - De obicei nu corespunde unei valori ntregii distribuii; reale; -Are multe proprieti - Nu este tocmai adecvat pentru scale statistice ordinale; dezirabile; - Conduce la interpretri greite pe - Adecvat pentru distribuii utilizare n statistici asimetrice; avansate; - Poate fi puternic afectat de scorurile extreme;

Valori extreme (excesive) ale distribuiei Valorile extreme reprezint valori excesive, neobinuit de mari sau de mici fa de celelalte valori ale unei distribuii. Identificarea lor este necesar pentru a se evita efectul pe care l au asupra valorilor tendinei centrale, n primul rnd asupra mediei. Una dintre metodele de identificare este analiza grafic de tip Box-andWhisker-Plot (pe scurt Box-Plot), elaborat de Tukey. n esen, reprezentarea box-plot (vezi imaginea de mai jos) este constituit dintr-o caset (dreptunghi), a crui limit inferioar este plasat n dreptul percentilei 25, limita superioar fiind plasat n dreptul percentilei 75. Cu alte cuvinte, caseta cuprinde 50% dintre valorile unei distribuii. Distana dintre valorile limit ale casetei se numete H. Linia din interiorul casetei marcheaz valoarea median (Me) Mustile care pornesc de la limita superioar i inferioar a casetei, au o lungime maxim egal cu 1.5 H. n acel punct se plaseaz ultima valoare legitim a distribuiei. Orice valoare mai mic sau mai mare de acestea, sunt definite ca extreme (Outliers) Pentru a exemplifica modul de creare a reprezentrii box-plot vom utiliza distribuia scorurilor QI prezentat anterior, la care am adugat dou valori suplimentare (135 i 142), alese intenionat pentru a fi mai mari dect restul valorilor. 101 92 97 106 107 94 107 109 108 104 87 118 124 115 110 117 114 102 92 101 115 98 118 97 101 116 112 113 102 121 91 101 116 108 125 113 114 106 102 86 96 107 108 109 109 105 109 89 114 123 135 142

Pentru a face reprezentarea box-plot facem mai nti tabela de frecvene simple, cu scopul calculrii percentilelor. Tabelul de frecvene alturat cuprinde valorile ordonate ale distribuiei, de la valoarea cea mai mic (86) i se cea mai mare (142). Pe coloana frc% se afl frecvenele cumulate procentuale (percentilele). Pentru box plot identificm percentilele 25 i 75. Ele corespund valorilor 101 (este valoarea cea mai apropiat de 25 pe coloana frc%) i, respectiv, 114. Am obinut astfel, limita inferioar i superioar a casetei. Mediana (percentila 50) corespunde valorii 108 (frc%=53.8, prin aproximare). Diferena dintre valorile corespunztoare percentilelor 25 i 75 este 13 (114-101). Astfel putem determina limitele prelungirilor superioar i inferioar ale casetei care sunt: 114+13*1.5=128 (aproximare) pentru prelungirea superioar i, respectiv 101-13*1,5=83 (aproximare) pentru cea de jos. Am obinut astfel toate valorile necesare trasrii box plotului. Imaginea de mai jos prezint tabelul distribuiei i box-plot-ul corespunztor1:

Tratarea valorilor extreme Punerea n eviden a unor valori extreme ridic problema modului lor de tratare a acestor valori. n acest scop, trebuie s avem n vedere dou aspecte: 1. Stabilirea naturii valorilor extreme, care pot fi: a. erori de nregistrare (tastare); b. erori de msurare; c. rezultate influenate de anomalii ale condiiilor experimentale; d. eantionul a fost extras dintr-o populaie asimetric;
1

n mod normal, reprezentarea boxplot se construiete independent de tabelul de frecvene. Dac le-am asociat, am fcut-o doar cu scop didactic, pentru a pune mai clar n eviden mecanismul de elaborare.

e. valorile respective fac parte din alt populaie de valori; f. eantion prea mic, ceea ce face ca apariia unui caz neobinuit sa fie mai probabil. 2. Tratarea lor pe una din cile posibile: a. eliminare (dac sunt erori necorectabile); b. corectare (dac este posibil); c. utilizarea mediei 5%trim, adic a mediei care nu ine cont de 5% din numrul valorilor de la fiecare din cele dou extremiti ale distribuiei. d. transformare (dac datele sunt corecte i, totui, dorim s evitm efectul lor asupra indicatorilor sintetici). Exist diverse metode de transformare: extragerea radicalului din toate valorile distribuiei, logaritmarea distribuiei, etc.2 Analiza valorilor extreme reprezint unul dintre obiectivele principale a fazei preliminare de analiz a datelor. Prezena lor este de natur s aib efecte majore asupra rezultatelor, fapt care trebuie luat n considerare la alegerea procedurilor statistice infereniale. Indicatori sintetici ai mprtierii Indicatorii tendinei centrale se refer la ceea ce face ca valorile s se asemene, la caracteristica comun a valorilor unei distribuii. Indicatorii mprtierii, de care vom vorbi n continuare, se refer la caracteristica de variabilitate, care descrie diferenele existente ntre valori. n cazul tendinei centrale este scoas n eviden caracteristica valorilor unei distribuii de a se asemna unele cu altele, asemnare surprins de indicatorii tendinei centrale. n cazul mprtierii, se urmrete descrierea tendinei valorilor de a se deosebi una de alta, de a se sustrage unei tendine centrale prin ndeprtarea de aceasta. De exemplu, o distribuie de tipul 2,2,2,2,2,2,2 este, evident, mult mai omogen (mai puin variabil) dect o distribuie de genul 1,2,3,4,5,6,7. De fapt, prima dintre cele dou serii de valori nu prezint nici o variaie, toate valorile fiind identice unele cu celelalte. ntr-o serie de valori identice, reprezentativitatea unui indicator al tendinei centrale este absolut (Mo=Me=m=Xi, unde Xi este fiecare dintre valorile distribuiei). Acesta este un caz extrem i improbabil. ntr-o distribuie real fiecare valoare are individualitatea ei. Cu ct valorile difer mai mult una de alta, cu att variabilitatea distribuiei este mai mare. O definiie echivalent, care este mai uor de tradus n operaii matematice, privete variabilitatea ca msura n care valorile difer fa de medie. S ne imaginm urmtoarea situaie: Un psiholog clinician vrea s vad efectul unei metode de cretere a ncrederii n sine pe un lot de subieci. n acest scop, el evalueaz ncrederea n sine nainte i dup edinele de psihoterapie. Distribuia valorilor este reprezentat n imaginea alturat: 2 Aceste metode vor fi discutate cu ocazia aplicaiilor SPSS.

Aa cum se observ, valorile ncrederii msurate nainte de cura psihoterapeutic au o medie de 30 i o mprtiere (neomogenitate) mai mare, n timp ce valorile de dup tratament prezint o medie de 40 i o mprtiere mai mic, (sunt mai omogene). Acest fapt sugereaz c tratamentul psihoterapeutic a avut efect3. Imaginea scoate n eviden i faptul c n distribuiile mai omogene media este mai reprezentativ dect n distribuiile mai puin omogene. Pentru evaluarea mprtierii distribuiilor statistice se utilizeaz mai muli indicatori. Distingem dou categorii de indicatori ai mprtierii: elementari i sintetici. Principala caracteristic a indicatorilor elementari este aceea c surprind mprtierea distribuiei prin distana dintre doar dou valori ale acesteia. Amplitudinea absolut (R de la Range) Amplitudinea absolut este dat de diferena dintre valoarea maxim i valoarea minim a unei distribuii R=Xmax-Xmin (formula 2.3) Utilitatea ei este dat de faptul c ne indic n mod absolut plaja de valori ntre care se ntinde distribuia. Principalul dezavantaj const n faptul c poate fi influenat de o singur valoare aflat la extremitatea distribuiei. Amplitudinea relativ Amplitudinea relativ este dat de raportul procentual dintre amplitudinea absolut i media distribuiei: R R% = *100 (formula 2.4) m Este util atunci cnd cunoatem plaja teoretic de variaie a distribuiei, putnd astfel s facem o comparaie cu plaja real, obinut prin formula de mai sus. Din cauz c amplitudinea utilizeaz doar cele dou valori extreme ale distribuiei, este un indicator imprecis al variabilitii: Exemple:

i-------' ------Distribuia A are o amplitudine mai mare dar i Amplitudinile distribuiilor A i B sunt o variabilitate mai mare dect distribuia B ovariabilitate mai
3

--------------------------------------

identice, dar distribuia A are

Vom vedea mai departe c aceast afirmaie nu este dect o ipotez, pn la verificarea ei statistic.

Abaterea quartil (cvartil, intercvartil) (RQ) Quartilele (Q) sunt percentilele care mpart distribuia n patru segmente egale. Ele sunt: Q1 (percentila 25); Q2 (percentila 50, sau Me); Q3 (percentila 75). Abaterea quartil este dat de diferena dintre valoarea corespunztoare quartilei 3 i valoarea corespunztoare quartilei 1 RQ = Q3 - Q1 (formula 2.5) Nota bene: Se poate observa c este chiar distana dintre limita superioar i cea inferioar a casetei Box-Plot (valoarea H) Abaterea semi-interquartil (RSQ): Abaterea semi-interquartil semnific distana unui scor tipic fa de amplitudinea ntregii distribuii. Se calculeaz ca media diferenei dintre quartila 3 i quartila 1.

ntr-o distribuie perfect simetric RSQ=Q2=Me RSQ nu este afectat de valorile aberante fiind considerat, din acest motiv, un indicator robust al mprtierii O imagine de ansamblu a tipurilor de indicatori elementari ai mprtierii ne este dat de figura de mai jos, unde am figurat prin puncte o distribuie oarecare de 31 de valori posibile.

Aa cum am precizat, acest tip de indicatori ilustreaz mprtierea prin distana dintre dou puncte ale unei distribuii. Unul dintre avantajele lor este acela al uurinei de calcul. Pe de alt parte, tocmai pentru c iau n seam doar dou dintre valorile distribuiei, sunt vulnerabili i nesiguri. Utilitatea lor este n general limitat dar sunt singurii care pot fi folosii atunci cnd indicatorii sintetici (de care vom vorbi n continuare), nu pot fi calculai. Un alt dezavantaj al acestora este dificultatea de a fi utilizai n procedurile statistice avansate. Spre deosebire de indicatorii elementari, indicatorii sintetici surprind mprtierea unei distribuii prin luarea n considerarea abaterii fiecrei valori de la un anumit indicator al tendinei centrale. Cel mai uzual indicator de referin pentru mprtiere este

media. Aceasta pentru c, aa cum ne amintim, media are avantajul de a fi o concentrare a tuturor valorilor unei distribuii. Abaterea medie (d de la deviaie medie)4 Distana dintre o valoare anumit i media distribuiei se numete abaterea valorii (Xi-m). Dac am dori s calculm abaterea medie a unei distribuii nu ne-ar rmne dect s nsumm abaterile individuale ale fiecrei valori i s le mprim la numrul acestora. Din pcate, media abaterilor ntr-o distribuie este ntotdeauna egal cu zero (vezi proprietile mediei). Acest fapt poate fi descris cu formula (Xi-m)/N = 0 unde Xi sunt valorile distribuiei, m este media iar N, numrul de valori, i poate fi pus n eviden practic, astfel: X 5 8 3 2 5 4 X = 27 N=6 m = 4.5 Xi m (5 4.5) = .5 (8 4.5) = 3.5 (3 4.5) = -1.5 (2 4.5) = -2.5 (5 4.5) = .5 (4 4.5) = -.5 (Xi-m) = 0

Aa cum se observ n coloana Xim, diferenele individuale nsumate produc (Xi-m) = 0. Acest lucru este valabil pentru orice fel de distribuie i este una dintre proprietile importante ale mediei. Pentru a elimina acest inconvenient putem s lum abaterile individuale n valoare absolut (fr semn). X 5 8 3 2 5 4 X = 27 N=6 m = 4.5
4

(Xi m) (5 4.5) = .5 (8 4.5) = 3.5 (3 4.5) = 1.5 (2 4.5) = 2.5 (5 4.5) = .5 (4 4.5) = .5 |Xi-m| = 9

n continuare ne vom raporta la media eantionului. Se subnelege c, pentru cazul unei populaii, media va fi scris cu litera (miu).

Ca urmare, formula abaterii medii (d) poate fi scris astfel:

Pentru cazul frecvenelor grupate, formula devine:

Abaterea medie este uor de neles i are semnificaia de medie a distanelor ntre fiecare scor i media distribuiei. Din pcate, nici ea nu este potrivit cu statisticile avansate Dispersia (variana) Notaii uzuale: s (cnd se calculeaz pentru eantion) 2 (cnd se calculeaz pentru ntreaga populaie) Pentru a elimina inconvenientul abaterilor de la medie de a avea suma egal cu zero, se opereaz ridicarea la ptrat a abaterilor valorilor individuale5.
2

X 5 8 3 2 5 4

(Xi m) (5 4.5) = .5 (8 4.5) = 3.5 (3 4.5) = -1.5 (2 4.5) = -2.5 (5 4.5) = .5 (4 4.5) = -.5

(Xi m) 2 .25 12.25 2.25 6.25 .25 .25 (X-m)2 = 21.5

X = 27 (Xi-m) = 0 N=6 m = 4.5

Dac nsumm abaterile ridicate la ptrat (ptratice) i le mprim la numrul valorilor, obinem dispersia (numit i varian sau abatere medie ptratic)

Abaterea standard Not: Formula conine la numitor o anumit inexactitate care va fi discutat mai departe (vezi formula 2.11) Notaii uzuale:

s (pentru eantioane) (pentru populaie) SD (Standard Deviation, n standardul APA ) ab.std.

Abaterea standard se obine prin extragerea radicalului din expresia abaterii medii ptratice (dispersiei).

ab.std.

Abaterea standard se obine prin extragerea radicalului din expresia abaterii medii ptratice (dispersiei).

NOT: Formula conine o inexactitate la numitor care va fi discutat mai departe (vezi formula 2.12) Pe datele din tabelul de mai sus Operaiile succesive efectuate mai sus, ridicarea la ptrat i extragerea radicalului, nu trebuie vzute ca operaii artificiale, gratuite. Aceste operaii nu se refer la valorile distribuiei ci la abaterile de la medie, ceea ce conduce la rezultate diferite care exprim, ntr-o alt form, aceeai caracteristic de mprtiere a valorilor originale. Corecia indicatorilor mprtierii calculai pentru eantioane Formulele 2.9 i 2.10 au la numitor valoarea N (volumul eantionului). Fr a intra n detalii, vom spune c valorile astfel calculate, ale dispersiei i abaterii standard, pentru un eantion, conin o imprecizie (bias) care conduce la subestimarea mprtierii la nivelul populaiei. Chiar dac lum n considerare un numr mare de eantioane, extrase succesiv dintr-o anumit populaie, indicatorii mprtierii vor fi mai mici dect mprtierea la nivelul ntregii populaii. Corecia se face prin utilizarea la numitor a expresiei N-1. n acest mod, cu ct eantionul este mai mic, cu att indicatorul respectiv al mprtierii va fi influenat mai mult de expresia de la numitor. Expresia N-1 poart numele de grade de libertate. Pentru a-i nelege semnificaia, este bine s ne gndim la faptul c, ntr-o distribuie de 3 valori (de exemplu: 1,3,8) media este 4, iar abaterile de la medie sunt 3, -1, 4. Suma lor este zero. Ca urmare, este suficient s cunoatem cel puin dou din cele trei valori pentru a o afla pe a treia. Altfel spus, doar dou valori sunt libere s se modifice, a treia (ultima) fiind determinat de acestea. Formulele corecte devin:

Formulele iniiale, de definiie, rmn corecte pentru situaia n care se urmrete doar descrierea caracteristicii de mprtiere pentru eantionul respectiv. Atunci cnd se urmrete ns extrapolarea acestei valori la nivelul populaiei, utilizarea formulei corectate este absolut necesar. Este evident c diferena dintre valoarea corectat i cea necorectat a variabilitii este cu att mai mare cu ct eantionul este mai mic, ponderea numitorului asupra rezultatului fiind astfel mai mare. Cu ct N este mai mare, rezultatul formulei este mai puin afectat de diferena de o unitate a numitorului. Programele de prelucrri statistice utilizeaz pentru calculul celor doi indicatori doar formulele corectate.

Proprietile abaterii standard Abaterea standard este, aa cum vom vedea, indicatorul principal al mprtierii utilizat n diverse proceduri statistice avansate. Pentru a-i justifica modul de utilizare n diverse formule, trebuie s reinem cteva proprieti fundamentale ale abaterii standard: 1. Dac se adaug/scade o constant la fiecare valoare a unei distribuii, abaterea standard nu este afectat

2. Dac se multiplic/divide fiecare valoare a unei distribuii ci o constant, abaterea standard se multiplic/divide cu aceea constant.

3. Abaterea standard fa de medie este mai mic dect abaterea standard fa de orice alt valoare a unei distribuii

Coeficientul de variaie Abaterea medie i abaterea standard se exprim n unitile de msur ale variabilei de referin. De exemplu, pentru o distribuie de timpi de reacie, exprimai n sutimi de secund, s=2.14 nseamn c mprtierea standard este de 2.14 sutimi de secund. Dac acelai eantion face i un test de coordonare a micrilor, evaluat n numr de ieiri din traseu a cror abatere standard este s=20.94, nu putem compara omogenitatea celor dou serii de valori. Adic, nu putem spune dac eantionul este mai omogen sau mai puin omogen din perspectiva uneia dintre cele dou performane. Dintre soluiile posibile pentru eliminarea acestui neajuns, cea mai des utilizat este coeficientul de variaie (variabilitate), notat cu cv (sau v), propus de Pearson. Se calculeaz ca raport ntre abaterea standard i medie. Poate fi exprimat i procentual conform formulei de mai jos:

Valoarea acestui coeficient exprim un raport procentual dintre abaterea standard i medie. Cu ct este mai mare, cu att putem spune c media este mai puin reprezentativ pentru distribuia respectiv, dat fiind ponderea ridicat a mprtierii. Utilizarea coeficientului de variaie este limitat la valorile msurate pe scale de raport, cu origine natural 0. n cazul a dou variabile a cror origine este diferit una de alta, diferenele dintre valori (abaterea standard) rmn aceleai, dar media se schimb, fapt care face ca raportul exprimat n formul s fie modificat, iar comparaia a doi coeficieni de variaie, lipsit de relevan. n plus, pe o scal de interval cu valori negative se poate ajunge la medie egal cu 0, ceea ce face formula inaplicabil. Utilitatea coeficientului de variaie vine de la faptul c valoarea sa nu mai este legat de unitatea de msur. Diferena dintre dou valori cv poate fi interpretat ca diferen de mprtiere a celor dou variabile, chiar dac msoar lucruri diferite. Sunt propuse anumite limite de interpretare a acestui indicator, astfel: . dac cv<15%, mprtierea este mic i, deci, media este reprezentativ . dac cv este cuprins ntre 15%-30%, mprtierea este mijlocie i media este suficient de reprezentativ . Dac cv este mai mare de 30%, mprtierea este mare i media are o reprezentativitate redus. Calcularea coeficientului de variaie a unei distribuii, nainte de integrarea ei n proceduri statistice infereniale, este o metod util de verificare a msurii n care media, pe care se bazeaz de cele mai multe ori procedurile infereniale, este legitim. Alegerea indicatorului mprtierii > Abaterea standard este cea mai utilizat pentru scale de msurare interval/raport. Realizeaz cea mai bun combinaie ntre calitatea estimrii i posibilitatea de a fundamenta inferene statistice.

Amplitudinea este un indicator nesigur i care nici nu poate fi calculat n cazul scalelor nominale > Pe distribuii cu valori nedeterminate sau cu intervale deschise, se alege abaterea interquartil (semi-interquartil).
>

Indicatori ai formei distribuiei Expresia grafic a distribuiilor poate fi descris sub dou aspecte eseniale: simetria i boltirea. O distribuie este simetric atunci cnd valorile acesteia se mpart n mod egal de o parte i de alta a valorilor tendinei centrale. Se numesc asimetrice (skewed) distribuiile ale cror valori se concentreaz fie n zona valorilor mici (spre stnga) fie n zona valorilor mari (spre dreapta)

Figurile de mai sus arat cum se plaseaz cei trei indicatori ai tendinei centrale n funcie de simetria distribuiei: > n cazul distribuiilor (perfect) simetrice, Mo, Me i m se plaseaz pe aceeai valoare > n cazul distribuiilor asimetrice cei trei indicatori au poziii diferite (vezi figura). > Mediana se plaseaz ntotdeauna ntre mod i medie. Din acest motiv, mediana este cea mai reprezentativ valoare pentru distribuiile asimetrice > Media este afectat de valorile extreme, cu att mai mult cu ct acestea sunt mai puternic deviate. Ca urmare, n cazul distribuiilor puternic asimetrice, media nu este un indicator veridic al tendinei centrale. Descrierea numeric a caracteristicii de simetrie/asimetrie se face cu ajutorul unui indicator statistic specific, numit indicator de asimetrie sau de oblicitate (skewness, n limba englez). Nu vom prezenta aici formula sa de calcul, destul de complicat, el urmnd a fi obinut uor cu ajutorul programelor specializate. Vom face ns cteva precizri cu privire la domeniul de variaie i semnificaia acestui indicator. Pentru o curb absolut simetric, indicele de oblicitate (skewness) are valoarea 0 (zero), primind valori pozitive pentru curbele asimetric pozitive i valori negative pentru cele

asimetric negative. Ca reper general de apreciere, recomandat de cei mai muli autori, un indice de oblicitate a crui valoare depete +1/-1 semnaleaz o asimetrie pronunat a distribuiei. Caracteristica de boltire (kurtosis, n terminologia englez) indic gradul de extindere pe vertical a curbelor de distribuie. n termeni generali, sub aspectul boltirii, curbele pot fi de trei categorii: Leptokurtice, cu majoritatea valorilor distribuite n zona mediei (au o form nalt i subire) Mezokurtice, cu o prezen moderat a valorilor n zona mediei Platikurtice, cu valori medii relativ puine i o form aplatizat

Desigur, o curb poate fi n acelai timp i asimetric i boltit excesiv, chiar dac imaginea de mai sus ilustreaz boltirea pe curbe simetrice. Indicatorul numeric al boltirii (kurtosis) are o plaj de variaie n jurul valorii zero (care nseamn boltire medie, normal, mezocurtic). Indicele de boltire pozitiv indic o curb nalt (leptocurtic), iar indicele de boltire negativ, o curb aplatizat (platicurtic). La fel ca i n cazul indicelui de oblicitate (skewness), cu ct acesta este mai ndeprtat de valorile +1/-1, avem de a face cu distribuii cu abatere accentuat de la boltirea normal. Calcularea indicatorilor de simetrie i de boltire reprezint modaliti importante de apreciere a caracteristicilor unei distribuii. Acetia trebuie luai n considerare ori de cte ori utilizarea procedurilor statistice infereniale reclam anumite caracteristici ale distribuiilor. Rezumat

Un indicator statistic concentreaz ntr-o singur valoare o anumit caracteristic a distribuiei. Statisticile descriptive sintetice sunt reprezentate de: o indicatorii tendinei centrale (modul, mediana, media) o indicatorii mprtierii sau variabilitii (amplitudine, abatere interquartil, abaterea medie, dispersia, abaterea standard) o indicatorii formei distribuiei (simetrie i boltire). Cei mai frecvent utilizai indicatori statistici sunt media i abaterea standard

Exerciii 1. Un psihoterapeut dorete s verifice eficiena unei noi metode pentru reducerea tendinelor de tip fobic. n acest scop selecteaz aleatoriu, dintr-un grup de pacienicu tendine fobice, dou grupuri, A i B. Cu grupul A, utilizeaz o metod terapeutic clasic, iar cu grupul B, metoda nou. La finalul terapiei aplic un chestionar de evaluare a tendinelor fobice, obinnd urmtoarele scoruri: Grupul A: 79, 75, 98, 81, 82, 70, 60, 82, 77, 81, 81, 87, 88, 94, 79, 92, 77, 70, 74, 71 Grupul B: 73, 84, 76, 70, 69, 76, 46, 81, 92, 66, 87, 81, 78, 45, 67, 73, 88, 79, 95, 86 a) Calculai media i abaterea standard i indicele de variabilitate pentru fiecare grup. Discutai comparativ aceste valori. b) Construii graficul box-plot pentru cele dou grupuri i discutai diferenele de aspect pe care le constatai. 2. Ce indicator al tendinei centrale poate fi utilizat pentru a descrie fiecare dintre urmtoarele distribuii ipotetice (motivai fiecare alegere): a) Frecvena cardiac pentru un grup de subieci aflai naintea unei edine de aerobic (msurat n bti pe minut) b) Preferina religioas a unui eantion de participani la o conferin internaional c) Evaluarea motivaiei pentru zbor a unui grup de candidai piloi, apreciat ca una dintre urmtoarele valori; (1) foarte slab; (2) slab; (3) medie; (4) bun; (5) foarte bun d) Venitul anual al angajailor unei societi (n lei) e) Tipurile de fobii diagnosticate pentru un grup de pacieni f) Timpul consumat cu rezolvarea unor probleme de tip cognitiv (msurat n secunde) g) nlimea n centimetri a unui grup de baschetbaliti 3) Care dintre indicatorii mprtierii (amplitudine, abatere interquartil, abatere standard) ar trebui alei pentru fiecare dintre urmtoarele situaii: a) Distribuia este puternic asimetric, avnd cteva valori extreme ntr-o singur direcie a curbei b) Intenionai s utilizai proceduri statistice avansate (de exemplu, s emitei aprecieri asupra populaiei pe baza datelor de eantion ) c) Vrei s tii ntinderea maxim a unei distribuii d) Vrei ca fiecare valoare a distribuiei s fie luat n considerare e) Valoarea cea mai mare a distribuiei este mai mult de 10 ntrebri pregtitoare pentru evaluarea parial 1. Pe ce scal de msurare se exprim culoarea ochilor? 2. Frecvena relativ cumulat se mai numete i... 3. Dac abaterea standard a unei distribuii este 4, care este dispersia? 4. Pe ce scal se exprim atitudinea fa de statistic msurat pe o scal continu de la 1 (absolut antipatic) la 10 (absolut simpatic)? 5. Daca toate valorile unei distribuii sunt mrite cu aceeai valoare, media distribuiei... 6. Dac toata valorile unei distribuii sunt mprite la o valoare, abaterea standard a distribuiei... Not: Toate ntrebrile vor cere rspunsuri scurte. Se va acorda maxim un minut pentru fiecare ntrebare.

S-ar putea să vă placă și