Sunteți pe pagina 1din 3

Introducere in STATISTICA si PROBABILITATI

rezumat

Curs introductiv n
STATISTIC i PROBABILITI

Capitolul 3:
Msuri ale tendinţei centrale, variabilitţii i poziţiei
Textul original:
Elementary Statistics, Johnson/Kuby ITP Publishers ISBN 0534356761
B. Burt Gerstman, StatPrimer: Statistics for Public Health Practice.
www.sjsu.edu/faculty/gerstman/StatPrimer
Traducere si adaptare: dr. Camelia F. Voinea
Versiune-rezumat 1.5, 2009-2010

3.1 Msuri ale tendinţei centrale


Media
Media este media aritmetica a setului de date.
Media populaţiei (pronuntat “miu”) este:
x 1
x
i
μ  i
N N
unde x reprezinta suma tuturor valorilor.
Cand valorile pentru intreaga populaţie nu sunt disponibile, lucram asupra esantionului.

Media esantionului este denotata x (“x bar”):


n

x i
1 n
x i 1

n
  xi
n i 1

unde x reprezinta suma tuturor valorilor din esantion si n reprezinta dimensiunea esantionului.

Interpretarea mediei: media reprezinta centrul gravitational al distribuţiei. Acesta este punctul in
care se balanseaza distribuţia. Media nu spune nimic despre imprastierea valorilor sau distribuţie.

Mediana
Mediana este un alt tip de medie. Mediana este valoarea care este mai mare decat sau egala cu
jumatate din valorile din setul de date. Pentru a determina mediana, datele sunt ordonate ascendent
(vector ordonat).
n 1
Mediana are o adancime (depth) data de:
2

Modul
Modul este valoarea care apare cel mai frecvent intr-un set de date.
De exemplu, in setul de date {4, 7, 7, 7, 8, 8, 9}, modul este 7, deoarece 7 apare mai frecvent decat
oricare alta valoarea din set. Cand fiecare valoare a setului de date apare o singura data, datele nu au

Pagina 1
Introducere in STATISTICA si PROBABILITATI
rezumat

mod. De exemplu, setul de date {5, 11, 21, 24, 27, 28, 30, 42, 50, 52} nu are mod. Cand seturile de
date sunt mici sau moderate, modul nu este foarte util.

Comparaţie ntre Medie, Median i Mod


Media, mediana, si modul sunt echivalente cand distribuţia este unimodala si simetrica. Totusi, in
cazul asimetriei, mediana este aproximativ o treime din distanta intre medie si mod. Media, mediana,
si modul ofera diferite avantaje si dezavantaje. Media ofera avantajele familiaritatii si eficientei si in
inferente. Totusi media este puternic influentata de asimetrie si outsideri. In aceste circumstante,
mediana este o cuantificare mult mai „stabila“ a centrului distribuţiei.

3.2 Msuri ale variabilitţii


Masurile tendinţei centrale singure nu pot caracteriza complet un set de date. Doua seturi de date
foarte diferite pot avea masuri similare ale tendinţei centrale. Masurile dispersiei sunt utilizate pentru a
descrie imprastierea datelor sau variabilitatea unei distribuţii.
Masurile dispersiei sunt: domeniul, varianţa si abaterea standard.

Domeniul
Diferenta de valoare dintre elementul cu cea mai mare valoare (H) si elementul cu cea mai mica
valoare din setul de date. Alte masuri ale dispersiei se bazeaza pe aceasta masura.

domeniul =H – L
Abaterea de la medie
Deviaţia de la medie, x  x , este diferenta dintre valoarea elementului x si valoarea mediei aritmetice
a setului de date, x .

Varianţa
SS
Varianţa unei populaţii (²) este media sumei patratelor:  
2

N
Presupunand ca setul nostru de date reprezinta o populaţie intreaga, ² = 2/2 = 1.
SS
Varianţa esantionului ( s 2 ) este: s 
2

 n  1
Interpretare: Deoarece varianţa este exprimata in unitati patratice, este foarte rar interpretata direct.
In schimb, este luata in considerare radacina patrata a varianţei care se numeste abaterea standard
(standard deviation).

Abaterea Standard
Abaterea standard a unei populaţii () este radacina patrata a varianţei unei populaţii:
SS
σ  σ2 
N
Pentru setul de date de mai sus (N = 2, ²= 1), deviaţia standard este = 1 = 1.

Deviaţia standard a esantionului (s) este radacina patrata a varianţei unui esantion:
SS
s  s2 
n 1

Dar cum interpretam o deviaţie standard ? Un mod de a interpreta o singura deviaţie standard este de a
indica procentul de date care cad in cadrul unui numar specificat de deviaţii standard ale mediei.
Exista doua reguli care se aplica acestei abordari:

Pagina 2
Introducere in STATISTICA si PROBABILITATI
rezumat

Prima regula pentru interpretarea deviaţiilor standard se aplica distribuţiilor normale si se numeste
Regula Empirica: Daca o variabila este normal distribuita:
1. Aproximativ 68% dintre observaţii se afla in limita a 1 abateri standard de la medie.
2. Aproximativ 95% dintre observaţii se afla in limita a 2 abateri standard de la medie.
3. Aproximativ 99.7% dintre observaţii se afla in limita a 3 abateri standard de la medie.
Cand exista aceast caz ?
• 68% din valori se afla sub 1 deviaţie standard a mediei. Aceste limite sunt  ± 
• 95% din valori se afla sub 2 deviaţii standard ale mediei. Aceste limite sunt  ± .
• Aproape toate valorile se afla sub 3 deviaţii standard ale mediei. Aceste limite sunt  ± 
Pentru distribuţii care nu sunt normale, se aplica
Regula Chebyshev se aplica pentru distribuţii care nu sunt normale astfel:
• Cel putin 75% dintre valori se afla sub 2 deviaţii standard de la medie
• Cel putin sapte optimi-din-opt se afla sub 3 deviaţii standard de la medie
Interpretarea si intelegerea abaterii standard:
• Abaterea standard este o masura a variabilitatii sau dispersiei.
• Teorema lui Chebyshev se aplica oricarei distribuţii.
• Regula Empirica: se aplica unei variabile care este normal distribuita.

3.3 Msuri ale poziţiei


• Masurile poziţiei sunt utilizate pentru a descrie locatia relativa a unei observaţii.
• Sferturile (quartiles) si procentajele (percentiles) sunt cele mai utilizate masuri ale poziţiei.
• O masura aditionala a tendinţei centrale, midquartile, este definit utilizand quartile-le.
• Sferturile sunt o parte a rezumatului in 5 puncte.

Sferturi: valori ale variabilei care imparte setul ordonat de date in quartile; fiecare set ordonat de date
are 3 quartile:
1. primul sfert, Q1 , este un numar astfel incat cel mult 25% din date sunt mai mici in valoare decat Q1
si cel mult 75% sunt mai mari.
2. Al doilea sfert este mediana.
3. Al treilea sfert, Q3 , este un numar astfel incat cel mult 75% din date sunt mai mici in valoare decat
Q3 si cel mult 25% sunt mai mari.
Procentajele: valori ale variabilei care impart setul ordonat de date in 100 de subseturi egale; fiecare
set are 99 percentile. Cel de-al k-lea percentile, Pk , este un numar astfel incat cel mult k% din date
sunt mai mici in valoare decat Pk si cel mult (100 -k)% sunt mai mari.
Rezumatul in 5-puncte al unei distribuţii este dat de:

Q0 = Minimum
Q1 = Primul sfert
Q2 = Mediana
Q3 = Sfertul de varf
Q4 = Maximum

Pagina 3

S-ar putea să vă placă și