Documente Academic
Documente Profesional
Documente Cultură
rezumat
Curs introductiv in
STATISTICA si PROBABILITATI
Capitolul 3:
Masuri ale tendinţei centrale, variabilitaţii si poziţiei
Textul cursului (tradus si adaptat) din:
Elementary Statistics, Johnson/Kuby ITP Publishers ISBN 0534356761
B. Burt Gerstman, StatPrimer: Statistics for Public Health Practice. www.sjsu.edu/faculty/gerstman/StatPrimer
Una dintre caracteristicile importante ale unei distribuţii este centrul si localizarea acestuia. Masurile care
surprind si evalueaza din punct de vedere cantitativ aceasta caracteristica a centrului se numesc masuri
ale tendinţei centrale. Masurile tendinţei centrale sunt: media (aritmetica), mediana, si modul.
O alta caracteristica importanta a unei distribuţii este legata de raspandirea (imprastierea) datelor.
Masurile care surprind si evalueaza din punct de vedere cantitativ aceasta caracteristica a variabilitaţii se
numesc masuri ale variabilitatii si dispersiei. Cele mai utilizate sunt: domeniul de variaţie, varianţa si
abaterea (deviaţia) standard.
In fine, o caracteristica importanta a distribuţiei este forma (conturul) acesteia. Doua masuri surprind ceea
ce este relevant pentru forma unei distribuţii: (1) cat de deformata este (“skewness”) inţelegand prin asta
cat de alungita este una dintre cozile laterale in raport cu cealalta faţa de axul de simetrie al distribuţiei, si
(2) cat de aplatizata (“kurtosis”) este, inţelegand prin asta cat de inalt este varful distribuţiei in raport cu
baza distribuţiei.
Masurile tendinţei centrale si variabilitaţii sunt adesea combinate cu masuri ale poziţiei (cele mai
utilizate fiind sferturile si procentele). O masura sintetica a distribuţiei des utilizata este cea a rezumatului
in 5-puncte, si anume: valoarea minima a domeniului de variaţie, mediana primei jumataţi, mediana
intregului esantion, mediana celei de-a doua jumataţi si valoarea maxima a domeniului de variaţie.
Media
Media este media aritmetica a setului de date.
Media populaţiei (pronuntat “miu”) este:
1
Introducere in STATISTICA si PROBABILITATI
rezumat
Cand valorile pentru intreaga populaţie nu sunt disponibile, lucram asupra esantionului.
Media esantionului este denotata x (“x bar”):
unde x reprezinta suma tuturor valorilor din esantion si n reprezinta dimensiunea esantionului.
Interpretarea mediei: media reprezinta centrul gravitational al distribuţiei. Acesta este punctul in
care se balanseaza distribuţia. Media nu spune nimic despre imprastierea valorilor sau distribuţie.
Mediana
Mediana este un alt tip de medie. Mediana este valoarea care este mai mare decat valorile din prima
jumatate a unui set de valori ordonat (crescator) sau mai mica decat valorile din cea de-a doua jumatate
a setului de valori ordonat. Spunem ca mediana este valoarea care se gaseste pe pozitia din mijloc a unui
set de valori ordonat astfel incat sunt tot atatea pozitii cu valori la dreapta si la stanga pozitiei din mijloc
(indifferent ca atat pe pozitiile de la dreapta sau de la stanga sa valorile se pot repeta).
37 33 33 32 29 28 28 23 22 22 22
21 21 21 20 20 19 19 18 18 18 18
16 15 14 14 14 12 12 9 6
Sursa: Tabel 1 acces online la url: http://onlinestatbook.com/2/summarizing_distributions/measures.html
Modul
Modul este valoarea care apare cel mai frecvent intr-un set de date.
De exemplu, in setul de date {4, 7, 7, 7, 8, 8, 9}, modul este 7, deoarece 7 apare mai frecvent decat
oricare alta valoarea din set. Cand fiecare valoare a setului de date apare o singura data, datele nu au
mod. De exemplu, setul de date {5, 11, 21, 24, 27, 28, 30, 42, 50, 52} nu are mod. Cand seturile de
date sunt mici sau moderate, modul nu este foarte util.
2
Introducere in STATISTICA si PROBABILITATI
rezumat
Domeniul (range): Diferenta de valoare dintre elementul cu cea mai mare valoare (H) si elementul cu
cea mai mica valoare din setul de date. Alte masuri ale dispersiei se bazeaza pe aceasta masura.
domeniul =H – L
Varianţa
Varianţa unei populaţii (²) este media sumei patratelor:
Interpretare: Deoarece varianţa este exprimata in unitati patratice, este foarte rar interpretata direct.
In schimb, este luata in considerare radacina patrata a varianţei care se numeste abaterea standard
(standard deviation).
Abaterea Standard
Abaterea (deviaţia) standard a unei populaţii () este radacina patrata a varianţei unei populaţii:
Pentru setul de date de mai sus (N = 2, ²= 1), deviaţia standard este = 1 = 1.
Abaterea (deviaţia) standard a esantionului (s) este radacina patrata a varianţei unui esantion:
3
Introducere in STATISTICA si PROBABILITATI
rezumat
Dar cum interpretam o deviaţie standard ? Un mod de a interpreta o singura deviaţie standard este de a
indica procentul de date care cad in cadrul unui numar specificat de deviaţii standard ale mediei.
Exista doua reguli care se aplica acestei abordari:
Prima regula pentru interpretarea deviaţiilor standard se aplica distribuţiilor normale si se numeste
Pentru distribuţii care nu sunt normale, se aplica regula Chebyshev, care spune:
• Cel putin 75% dintre valori se afla sub 2 deviaţii standard de la medie
• Cel putin sapte optimi-din-opt se afla sub 3 deviaţii standard de la medie
Procentajele: valori ale variabilei care impart setul ordonat de date in 100 de subseturi egale; fiecare
set are 99 percentile. Cel de-al k-lea percentile, Pk , este un numar astfel incat cel mult k% din date
sunt mai mici in valoare decat Pk si cel mult (100 -k)% sunt mai mari.
4
Introducere in STATISTICA si PROBABILITATI
rezumat
Coefficient-z (z-score)
Masura denumita coefficient-z este poziţia unei valori particulare a lui x pe care o are relativ la medie,
masurata in abateri standard:
unde: x = valoarea particulara a unei variabile continui, = media (populatie), = abaterea standard
(populatie)
5
Introducere in STATISTICA si PROBABILITATI
rezumat
Dictionar de termeni
Masurile tendintei centrale:
Masurile variabilitatii si imprastierii datelor:
Masuri ale pozitiei:
Media aritmetica:
Mediana:
Mod:
Domeniul:
Varianţa
Abaterea standard:
Coefficient-z:
Rezumat in 5-puncte: