Sunteți pe pagina 1din 6

Introducere in STATISTICA si PROBABILITATI

rezumat

Curs introductiv in
STATISTICA si PROBABILITATI
Capitolul 3:
Masuri ale tendinţei centrale, variabilitaţii si poziţiei
Textul cursului (tradus si adaptat) din:
Elementary Statistics, Johnson/Kuby ITP Publishers ISBN 0534356761
B. Burt Gerstman, StatPrimer: Statistics for Public Health Practice. www.sjsu.edu/faculty/gerstman/StatPrimer

3.1 Masuri ale tendinţei centrale


Statistica descriptiva se bazeaza pe un set de caracteristici ale unei distribuţii de date care pot fi descrise
cu ajutorul unor “masuri”: ele sunt de obicei cuprinse in rezumatul statistic al unei distribuţii.

Una dintre caracteristicile importante ale unei distribuţii este centrul si localizarea acestuia. Masurile care
surprind si evalueaza din punct de vedere cantitativ aceasta caracteristica a centrului se numesc masuri
ale tendinţei centrale. Masurile tendinţei centrale sunt: media (aritmetica), mediana, si modul.

O alta caracteristica importanta a unei distribuţii este legata de raspandirea (imprastierea) datelor.
Masurile care surprind si evalueaza din punct de vedere cantitativ aceasta caracteristica a variabilitaţii se
numesc masuri ale variabilitatii si dispersiei. Cele mai utilizate sunt: domeniul de variaţie, varianţa si
abaterea (deviaţia) standard.

In fine, o caracteristica importanta a distribuţiei este forma (conturul) acesteia. Doua masuri surprind ceea
ce este relevant pentru forma unei distribuţii: (1) cat de deformata este (“skewness”) inţelegand prin asta
cat de alungita este una dintre cozile laterale in raport cu cealalta faţa de axul de simetrie al distribuţiei, si
(2) cat de aplatizata (“kurtosis”) este, inţelegand prin asta cat de inalt este varful distribuţiei in raport cu
baza distribuţiei.

Masurile tendinţei centrale si variabilitaţii sunt adesea combinate cu masuri ale poziţiei (cele mai
utilizate fiind sferturile si procentele). O masura sintetica a distribuţiei des utilizata este cea a rezumatului
in 5-puncte, si anume: valoarea minima a domeniului de variaţie, mediana primei jumataţi, mediana
intregului esantion, mediana celei de-a doua jumataţi si valoarea maxima a domeniului de variaţie.

Media
Media este media aritmetica a setului de date.
Media populaţiei (pronuntat “miu”) este:

unde x reprezinta suma tuturor valorilor.

1
Introducere in STATISTICA si PROBABILITATI
rezumat

Cand valorile pentru intreaga populaţie nu sunt disponibile, lucram asupra esantionului.
Media esantionului este denotata x (“x bar”):

unde x reprezinta suma tuturor valorilor din esantion si n reprezinta dimensiunea esantionului.

Interpretarea mediei: media reprezinta centrul gravitational al distribuţiei. Acesta este punctul in
care se balanseaza distribuţia. Media nu spune nimic despre imprastierea valorilor sau distribuţie.

Mediana
Mediana este un alt tip de medie. Mediana este valoarea care este mai mare decat valorile din prima
jumatate a unui set de valori ordonat (crescator) sau mai mica decat valorile din cea de-a doua jumatate
a setului de valori ordonat. Spunem ca mediana este valoarea care se gaseste pe pozitia din mijloc a unui
set de valori ordonat astfel incat sunt tot atatea pozitii cu valori la dreapta si la stanga pozitiei din mijloc
(indifferent ca atat pe pozitiile de la dreapta sau de la stanga sa valorile se pot repeta).

Exemplu de set de valori ordonat:

37 33 33 32 29 28 28 23 22 22 22
21 21 21 20 20 19 19 18 18 18 18
16 15 14 14 14 12 12 9 6
Sursa: Tabel 1 acces online la url: http://onlinestatbook.com/2/summarizing_distributions/measures.html

Mediana are o adancime (depth) data de:

Modul
Modul este valoarea care apare cel mai frecvent intr-un set de date.
De exemplu, in setul de date {4, 7, 7, 7, 8, 8, 9}, modul este 7, deoarece 7 apare mai frecvent decat
oricare alta valoarea din set. Cand fiecare valoare a setului de date apare o singura data, datele nu au
mod. De exemplu, setul de date {5, 11, 21, 24, 27, 28, 30, 42, 50, 52} nu are mod. Cand seturile de
date sunt mici sau moderate, modul nu este foarte util.

Comparatie intre Medie, Mediana, si Mod


Media, mediana, si modul sunt echivalente cand distribuţia este unimodala si simetrica. Totusi, in
cazul asimetriei, mediana este aproximativ o treime din distanta intre medie si mod:
Media, mediana, si modul ofera diferite avantaje si dezavantaje. Media ofera avantajele familiaritatii si
eficientei si in inferente. Totusi media este puternic influentata de asimetrie si outsideri. In aceste

2
Introducere in STATISTICA si PROBABILITATI
rezumat

circumstante, mediana este o cuantificare mult mai „stabila“ a centrului distribuţiei.


Un exemplu des citat al acestui dezavantaj este la considerarea salariilor angajatilor, cand salariul
directorilor bine platiti impinge venitul mediu catre o valoare inalta inselatoare. Un alt exemplu este
pretul mediu al caselor (in care casele cu pret inalt muta datele in directie pozitiva). In astfel de
circumstante, mediana are mai putine sanse sa fie gresit interpretata si este de aceea preferata ca
masura a poziţiei centrale.

3.2 Masuri ale Variabilitaţii


Masurile tendinţei centrale singure nu pot caracteriza complet un set de date. Doua seturi de date
foarte diferite pot avea masuri similare ale tendinţei centrale. Masurile dispersiei sunt utilizate pentru a
descrie imprastierea datelor sau variabilitatea unei distribuţii.
Masurile dispersiei sunt: domeniul, varianţa si abaterea standard.

Domeniul (range): Diferenta de valoare dintre elementul cu cea mai mare valoare (H) si elementul cu
cea mai mica valoare din setul de date. Alte masuri ale dispersiei se bazeaza pe aceasta masura.

domeniul =H – L

Abaterea de la medie: deviaţia de la medie este diferenta dintre valoarea elementului x si


valoarea mediei aritmetice a setului de date, x .

Varianţa
Varianţa unei populaţii (²) este media sumei patratelor:

Presupunand ca setul nostru de date reprezinta o populaţie intreaga, ² = 2/2 = 1.


Varianţa esantionului (s² ) este:

Interpretare: Deoarece varianţa este exprimata in unitati patratice, este foarte rar interpretata direct.
In schimb, este luata in considerare radacina patrata a varianţei care se numeste abaterea standard
(standard deviation).
Abaterea Standard
Abaterea (deviaţia) standard a unei populaţii () este radacina patrata a varianţei unei populaţii:

Pentru setul de date de mai sus (N = 2, ²= 1), deviaţia standard este  = 1 = 1.
Abaterea (deviaţia) standard a esantionului (s) este radacina patrata a varianţei unui esantion:

3
Introducere in STATISTICA si PROBABILITATI
rezumat

Dar cum interpretam o deviaţie standard ? Un mod de a interpreta o singura deviaţie standard este de a
indica procentul de date care cad in cadrul unui numar specificat de deviaţii standard ale mediei.
Exista doua reguli care se aplica acestei abordari:
Prima regula pentru interpretarea deviaţiilor standard se aplica distribuţiilor normale si se numeste

Regula Empirica: Daca o variabila este normal distribuita:


1. Aproximativ 68% dintre observaţii se afla in limita a 1 abateri standard de la medie.
2. Aproximativ 95% dintre observaţii se afla in limita a 2 abateri standard de la medie.
3. Aproximativ 99.7% dintre observaţii se afla in limita a 3 abateri standard de la medie.
Cand exista aceast caz ?
• 68% din valori se afla sub 1 deviaţie standard a mediei. Aceste limite sunt  ± 
• 95% din valori se afla sub 2 deviaţii standard ale mediei. Aceste limite sunt  ± .
• Aproape toate valorile se afla sub 3 deviaţii standard ale mediei. Aceste limite sunt  ± 

Pentru distribuţii care nu sunt normale, se aplica regula Chebyshev, care spune:
• Cel putin 75% dintre valori se afla sub 2 deviaţii standard de la medie
• Cel putin sapte optimi-din-opt se afla sub 3 deviaţii standard de la medie

Interpretarea si intelegerea abaterii standard:


• Abaterea standard este o masura a variabilitatii sau dispersiei.
• Teorema lui Chebyshev se aplica oricarei distribuţii.
• Regula Empirica: se aplica unei variabile care este normal distribuita.

3.3 Masuri ale poziţiei


• Masurile poziţiei sunt utilizate pentru a descrie locatia relativa a unei observaţii.
• Sferturile (quartiles) si procentajele (percentiles) sunt cele mai utilizate masuri ale poziţiei.
• O masura aditionala a tendinţei centrale, midquartile, este definit utilizand quartile-le.
• Sferturile sunt o parte a rezumatului in 5 puncte.
Sferturi: valori ale variabilei care imparte setul ordonat de date in quartile; fiecare set ordonat de date
are 3 quartile:
1. primul sfert, Q1 , este un numar astfel incat cel mult 25% din date sunt mai mici in valoare decat Q1
si cel mult 75% sunt mai mari.
2. Al doilea sfert este mediana.
3. Al treilea sfert, Q3 , este un numar astfel incat cel mult 75% din date sunt mai mici in valoare decat
Q3 si cel mult 25% sunt mai mari.

Procentajele: valori ale variabilei care impart setul ordonat de date in 100 de subseturi egale; fiecare
set are 99 percentile. Cel de-al k-lea percentile, Pk , este un numar astfel incat cel mult k% din date
sunt mai mici in valoare decat Pk si cel mult (100 -k)% sunt mai mari.

4
Introducere in STATISTICA si PROBABILITATI
rezumat

Rezumatul in 5-puncte (“box-plot”) al unei distribuţii este dat de:


Q0 = Minimum
Q1 = Primul sfert (mediana primei jumatati)
Q2 = Mediana intregului set de date
Q3 = Sfertul de varf (mediana celei de-a doua jumatati)
Q4 = Maximum

Coefficient-z (z-score)
Masura denumita coefficient-z este poziţia unei valori particulare a lui x pe care o are relativ la medie,
masurata in abateri standard:

unde: x = valoarea particulara a unei variabile continui,  = media (populatie),  = abaterea standard
(populatie)

5
Introducere in STATISTICA si PROBABILITATI
rezumat

Dictionar de termeni
Masurile tendintei centrale:
Masurile variabilitatii si imprastierii datelor:
Masuri ale pozitiei:
Media aritmetica:
Mediana:
Mod:
Domeniul:
Varianţa
Abaterea standard:
Coefficient-z:
Rezumat in 5-puncte:

S-ar putea să vă placă și