Documente Academic
Documente Profesional
Documente Cultură
Acest capitol este unul hotarâtor în ce priveste importanta sa în economia întelegerii statisticii
descriptive, dar si în ce priveste manipularea formulelor matematice din statistica inferentiala.
În cadrul parametrilor tendintei centrale sunt incluse acele procedee care ofera o valoare
reprezentativa (centrala) pentru sirul de date masurat. Exista trei estimatori care pot fi utilizati
în acest sens: media, mediana si modul.
În cadrul parametrilor variantei sunt incluse procedeele care ne arata în ce masura datele sunt
omogene sau nu, masurând împrastierea lor si implicit diferentierile care exista în interiorul
sirului de date. Vor fi abordati în acest capitol urmatorii indicatori ai variantei: amplitudinea,
abaterea standard si dispersia.
Media este un indicator care caracterizeaza un esantion (o populatie) din punctul de vedere al
unei caracteristici studiate. Exista mai multe notari pentru medie: M si x barat reprezinta
media unui esantion, iar (miu) este media unei populatii.
Media se calculeaza simplu, adunând toate valorile dintr-un sir de date si împartind totalul la
numarul de date:
M=X/N
M = (4+8+6+7+9+11+9+9+12+7) / 10 = 82 / 10 = 8,2.
În cazul în care sirul de date este prezentat într-un tabel de frecvente vom aplica o alta
formula:
Unde: fi reprezinta frecventa grupata, iar xi centrul intervalului. Iata si un exemplu cu date
grupate:
fi = 47 xi*fi= 797
Caracteristicile mediei:
Mediana
Mediana este acel parametru care prin pozitia sa, se afla în mijlocul seriei de date. Ea
reprezinta punctul central al seriei, deoarece la stânga si la dreapta ei se situeaza câte 50% din
totalitatea datelor. Mediana coincide cu media în cazul unei distributii teoretice normale si se
îndeparteaza mult de aceasta daca distributia este asimetrica.
Pentru a calcula mediana în cazul distributiei simple a datelor exista doua situatii:
b. când n este par sunt adunate valorile din centrul seriei si se împart la doi.
Este necesar mai întâi aranjarea datelor sirului într-o ordine fie crescatoare, fie descrescatoare:
Astfel, X devine (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). În acest caz
vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorba de locurile 5 si 6.
Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9. Pentru a calcula mediana adunam
cele doua valori gasite si împartim rezultatul la doi.
Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de noua numere (4,
6, 7, 7, 8, 9, 9, 9, 11). În acest caz, locul medianei este stabilit dupa formula data (n+1) / 2, în
acest caz cinci. Mediana este valoarea care se gaseste pe pozitia din mijlocul sirului ordonat
de date (pozitia 5 în cazul de fata). Consultând sirul de date observam ca mediana ar fi 8. În
cazul în care sirul de date este prezentat într-un tabel de frecvente vom aplica formula:
Vom calcula mediana pentru aceleasi date pe care le-am utilizat în calculul mediei pentru
distributii grupate.
N = 47
Pentru a aplica formula de calcul a medianei mai trebuie efectuati câtiva pasi:
1. Stabilirea punctului deasupra si dedesubtul caruia se situeaza câte 50% din cazuri
(n+1)/2. În problema de fata vom avea (47+1)/2=24;
2. Stabilirea intervalului care contine mediana. Se cauta în coloana frecventelor cumulate
intervalul care corespunde locului medianei (24 pentru problema data). Astfel se
observa ca pozitia 24 din sirul de date este ocupata de o valoare cuprinsa în intervalul
15-17;
3. Se stabileste limita inferioara a intervalului care cuprinde mediana (14,5) cât si
frecventa datelor sale (9);
4. Se stabileste valoarea lui N/2 (23,5)
5. Se calculeaza frecventele cumulate, care preced clasa care contine mediana si se
obtine 15;
6. Se calculeaza marimea intervalului (j=3) pentru ca putem întâlni valorile 15,16 si 17 si
pentru ca diferenta dintre limita mixima si cea minima a intervalului ce contine
mediana este 3 (17,5 -14,5).
Caracteristicile medianei:
tine seama de toate cazurile, dar nu este afectata de cazurile (valorile) extreme;
necesita ordonarea sirului de date.
Modul
Modul este parametrul care corespunde celei mai mari frecvente, adica este valoarea cea mai
frecvent întâlnita.
Astfel, pentru sirurile de date simple modul se afla cautând valoarea cel mai des întâlnita.
Pentru sirul dat drept exemplu: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7).
Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa ca valoarea cea
mai întâlnita este 9 (apare de trei ori).
Pentru date grupate, se cauta intervalul care are cea mai mare frecventa. În cazul nostru, acest
interval este 18-20 în interiorul caruia se afla 10 valori.
Valoarea modala este egala cu valoarea gasita în centrul acestui interval, în cazul de fata Mo =
19.
Caracteristicile modului:
Tinând cont de aceste caracteristici, media este recomandata în cazul variabilelor numerice
care îndeplinesc conditiile parametrice (distributie normala, omogenitate s.a.). Mediana se
recomanda pentru cazurile în care nu sunt îndeplinite conditiile parametrice (distributii
asimetrice, etrogenitate crescuta etc) si în cazul variabilelor de tip ordinal. Modul este utilizat
mai rar pentru date numerice, fiind însa foarte util în cazul variabilelor de tip categorial (date
calitative, nominale), deoarece nu putem calcula ceilalti parametrii centrali.
Este un parametru care arata distanta dintre valoarea minima si valoarea maxima din cadrul
unui sir de date:
A = (Xmax – Xmin)
Abaterea standard
Este cea mai cunoscuta si utilizata masura a variabilitatii datelor. Trebuie sa distingem trei
tipuri de notatii diferite, utilizate în situatii variate care vor fi descrise în tabelul urmator.
Atât cât si S sunt abateri standard a unor date (prima fiind un parametru al populatiei, iar
cea de a doua a unui esantion.
Pentru a concretiza formulele prezentate mai sus vom calcula S pentru urmatorul sir de date.
X = (4, 6, 7, 9, 8, 5, 8, 3, 10, 6)
( X) la patrat = 4356.
Pentru a calcula este necesar sa se cunoasca media populatiei ( ) si / sau un numar mare de
date (x).
În acelasi mod se poate calcula si sigma, doar M fiind înlocuit de (media populatiei).
M = 16,96 fi = 47 =1855,84
Ca urmare S = radical din (1855,84 / 47) = 6,28
Estimarea abaterii standard a populatiei din care face parte esantionul cu ajutorul lui s (atentie
s mic în aceasta situatie) este un element foarte important. Se cunoaste ca exista diferente mici
între media si dispersia unei populatii si media si dispersia unui esantion din cadrul populatiei
respective. Rareori este posibil sa calculam parametrii pentru o populatie întreaga ori pentru
un esantion foarte mare. De aceea, în anumite situatii se obisnuieste sa se calculeze un
estimator a lui sigma, estimator notat cu s mic.
Se observa va s se apropie foarte mult de calculul lui S, existând doar o singura diferenta la
numitor: (n-1) în cazul lui s si n în cazul lui S. Se obisnuieste pentru esantioane mai mici de
30 de subiecti sa se realizeze o corectie in calcularea abaterii standard utilizand tocmai aceast
estimator.
Iata un exemplu de calcul al estimatarii abaterii standard a unei populatii pornind de la un sir
de date strânse de la un esantion.
X X²
13 169
11 121
15 225
12 144
11 121
12 144
X=74 X²=924
Daca datele ar fi fost organizate pe frecvente:
X f X*f X² * f
11 2 22 242
12 2 24 288
13 1 13 169
14 0 0 0
15 1 15 225
OBSERVATII:
Amplitudinea este de obicei de doua pâna la cinci, sase ori mai mare decât abaterea standard.
În acest mod veti putea depista greselile mari în calculul abaterii standard.
Dispersia
Nu este foarte utila în statistica descriptiva, fiind însa foarte importanta în statistica
inferentiala. Dispersia este patratul abaterii standard. Chair si notatiile pentru dispersie sunt
² pentru dispersia populatiei, S² pentru dispersia esantionului si s² pentru dispersia
esantionului utilizata pentru estimarea dispersiei populatiei.
Formulele dispersiei pentru aceste situatii sunt aceleasi cu cele pentru abaterea standard dar se
elimina radicalul.
OBSERVATIE:
Dispersia mai este denumita si media patratica (MS) fiind utilizata de asemenea în calcularea
lui F din tehnicile ANOVA si ANCOVA.
Coeficientul de variabilitate
Este utilizat în scopul stabilirii gradului de omogenitate a unui esantion si se obtine prin
raportarea abaterii standard la media esantionului. Rezultatul obtinut se raporteaza apoi în
procente.
V = (2,7/11,4)*100 = 23,68%
a. daca coeficientul este cuprins între 0 si 15%, înseamna ca împrastierea datelor este
foarte mica, iar media este reprezentativa, deoarece esantionul masurat este omogen;
b. daca valoarea lui este între 15 si 30%, împrastierea datelor este mijlocie, media fiind
înca suficient de reprezentativa;
c. daca coeficientul depaseste 30%, media aritmetica nu este reprezentativa pentru
esantionul în cauza, fiind recomandata utilizarea medianei din cauza lipsei de
omogenitate a grupului.
OBSERVATIE: Acest coeficient este aplicabil doar în cazul variabilelor masurate pe scala de
raport, cu origine naturala zero. Ca urmare formula are mai mica aplicare în psihologie si
psihopedagogie unde majoritatea instrumentelor de evaluare sunt de tip interval.
Exista situatii destul de frecvente când media nu corespunde cu mediana. Daca ele ar coincide
am vorbi despre o distributie complet simetrica, specifica unei distributii normale teoretice.
Vorbim despre o asimetrie pozitiva în situatia în care media este mai mare decât mediana, caz
în care indicele de asimetrie ia valori pozitive si apare o distributie a datelor spre stânga. O
formula simpla de calcul a oblicitatii este:
Unde: m este media; n este numarul de subiecti; iar S este abaterea standard a esantionului.
Boltirea (în engleza kurtosis – "cocoasa") se refera la înaltimea curbei, comparativ cu cea
normala. Se vorbeste astfel de distributii leptocurtice (cu cocoasa înalta) si platicurtice (mai
aplatizate). Valorile pozitive indica distributii "înalte", leptocurtice, iar cele negative
distributii "plate", platicurtice. Pentru a fi considerata normala, o distributie trebuie sa nu
depaseasca ±1,96. Indicatorul se obtine cu ajutorul formulei:
Unde: m este media; n este numarul de subiecti; iar S este abaterea standard.
Cotele standardizate z
Pentru a afla raspunsul la aceste întrebari se calculeaza cota z, care este standardizata si
permite comparatia dintre date pe baza valorii mediei si abaterii standard. De notat ca se pot
face comparatii si între probe diferite, de exemplu se compara un rezultat 32 la testul de
agresivitate cu un rezultat 18 la un test de sociabilitate).
Formula de calcul a lui z este:
Sa presupunem ca pentru agresivitate avem M=29, iar S=6 pentru un anumit esantion.
Convertirea unui rezultat în cote z ne arata pozitia valorii obtinute în distributia datelor pentru
caracteristica masurata din cadrul esantionului.
De obicei cotele z sunt cuprinse între –3,5 si 3,5. De remarcat ca 1 z este egal cu 1 S (o
abatere standard). Cota z=0 arata ca valoarea gasita este egala cu media (într-o distributie
normala).
Revenind la exemplul dat, un z=0,5 este un rezultat situat deasupra mediei (însa tot în limita
rezultatelor medii).
Daca ar trebui sa compar cu rezultatul unui alt subiect B, z= -1,8 am putea spune ca rezultatul
obtinut de subiectul A este mai bun decât cel al lui B.
Într-o distributie normala, aproximativ 68% din datele unui esantion sunt cuprinse între –1 si
+1 sigma (adica între –1 si +1z). De asemenea 95% din date sunt cuprinse între –2 si +2
sigma (-2 si +2 z), iar 99% din date sunt cuprinse între –3 si +3 sigma (-3 si +3 z).
Cotele standardizate T
Deoarece cotele z sunt exprimate în zecimale si au numere pozitive si negative, nu este asa de
usor de lucrat cu ele, drept urmare sunt propuse alte standardizari dintre care vom aminti aici
cotele T.
Aceata propune media de 50 si abaterea standard de 10. Aceasta masura elimina neajunsurile
si face ca toate punctajele sa fie pozitive si distribuite pe o scala de la 20 la 80 în cea mai mare
parte a cazurilor (peste 99% din cazuri).
Prin acest nou sistem de punctare putem echivala usor anumite valori ale lui z. Astfel, un z=1
înseamna un T de 60 în timp ce un z= -1,5 corespunde unei cote T de 35.
Cotele standardizate z au un alt mare avantaj. Prin intermediul lor putem stabili locul pe care-l
ocupa un individ (exprimat în procente sau ierarhii). Este necesar sa consultam tabelul de
distributie normala a lui z prezentat anexa, în conditiile în care variabilele sunt distribuite
normal.
Astfel daca o persoana a obtinut un z=0,10 înseamna ca: aproximativ 46,02% dintre subiectii
populatiei respective ar obtine rezulate mai bune, în timp ce 53,98% ar obtine rezultate
inferioare lui. În schimb o valoare z de 1,30 ar putea fi apreciata ca un rezultat foarte bun în
conditiile în care, doar 9,68% dintre subiecti ar obtine rezultate mai mari, iar 90,32% ar obtine
scoruri mai mici.
Staninele
Cuvântul deriva din limba engleza din "standard" si "nine"(noua), deoarece exista noua unitati
standard de punctaj. Media scalei de stanine este 5, iar abaterea standard de 2. Procentajul de
distributie a celor noua stanine este:
PROBLEME
b)10 7 11 10 12 14 7
c)
Xi f
4 2
5 4
6 5
7 3
d)
Xi f
2-4 2
5-7 5
9-11 5
11-13 1
2. Stabiliti valoarea modului pentru datele de la problema 1
3. Numiti parametrul central reprezentativ pentru datele categoriale:
1-3 2 16-18 9
4-6 4 19-21 7
7-9 6 22-24 6
10-12 8 25-27 4
13-15 10 28-30 2
c. Calculati amplitudinea pentru valorile sirului:
9.Cu cât este egala valoarea mediei si abaterii standard dupa transformarea datelor
brute în cote standardizate z si t.
X = (12, 16, 14, 20, 8, 19, 15, 18, 16, 21, 14, 14, 13, 18, 21, 24, 8, 10, 12, 16, 14, 17, 18, 19,
19, 15, 11, 12, 10, 9, 23, 13, 21, 16, 17, 14, 15, 14, 15, 18, 19, 14, 20, 22, 6, 19, 18, 20, 17, 16,
18, 14, 12, 10, 25, 17, 18, 16, 14, 15, 15, 13, 12, 15).