Sunteți pe pagina 1din 7

CSCSDCSDCDWEEWCEWCWECWECVDFSVDFV

INDICATORII STATISTICI AI VARIABILITĂŢII

AŞA CUM AM VĂZUT ÎN CURSUL PRECEDENT


ORICARE DINTRE
CSCSDCSDCDWEEWCEWCWECWECVDFSVDFV

INDICATORII STATISTICI AI VARIABILITĂŢII

AŞA CUM AM VĂZUT ÎN CURSUL PRECEDENT


ORICARE DINTRE
CSCSDCSDCDWEEWCEWCWECWECVDFSVDFV

INDICATORII STATISTICI AI VARIABILITĂŢII


AŞA CUM AM VĂZUT ÎN CURSUL PRECEDENT
ORICARE DINTRE
CSCSDCSDCDWEEWCEWCWECWECVDFSVDFV

INDICATORII STATISTICI AI VARIABILITĂŢII

Aşa cum am văzut în cursul precedent oricare dintre indicatorii învăţaţi (medie, mediană sau
modul) ne oferă informaţii importante asupra populaţiilor statistice din cre provin datele. Acest
lucru, însă, nu este suficient. Pentru a justifica această afirmaţie să considerăm scorurile (număr
de puncte cuprinse între 1 şi 30) obţinute la aceeaşi disciplină, de două grupuri de studenţi şi să
presupunem că acestea sunt cele prezentate în tabelul 1.
Tabel 1
Grupul 2

DWEEWCEWCWECWECVDFSVD
FV

INDICATORII STATISTICI AI
VARIABILITĂŢII

Aşa cum am văzut în cursul precedent oricare dintre


indicatorii învăţaţi (medie, mediană sau modul) ne oferă
informaţii importante asupra populaţiilor statistice din cre
provin datele. Acest lucru, însă, nu este suficient. Pentru a
justifica această afirmaţie să considerăm scorurile (număr
de puncte cuprinse între 1 şi 30) obţinute la aceeaşi
disciplină, de două grupuri de studenţi şi să presupunem că
acestea sunt cele prezentate în tabelul 1.
Tabel 1
Grupul1
25 17
20 16
15 15
10 14
5 13
Calculând mediile scorurilor pentru cele două grupuri, obţinem X́ 1 =15şi X́ 2 =15. Concluzia ar fi
că cele două grupuri au acelaşi nivel de cunoştinţe. Totuşi,valorile mediilor nu ne spun nimic
despre repartiţia scorurilor care au condus la aceste medii egale. Practic ne interesează şi gradul
de variabilitate al scorurilor din fiecare grup. Pentru a estima gradul de variabiltate al unei serii
de scoruri se pot utiliza indicatorii cum ar fi : amplitudinea, abaterea (deviaţia) standard ,
intervalul interquartilic dispersia (sau varianţa).

Amplitudinea

Să considerăm şirul de scoruri x 1 , x 2 , ⋯ , x n. Amplitudinea sau întinderea domeniului se


defineşte ca diferenţa dintre cea mai mare şi cea mai mică valoare a seriei de scoruri. Dacă
utilizăm notaţiile Scmax pentru cel mai mare scor şi Scmin pentru cel mai mic scor atunci
formula de calcul a amplitudinii este
Amplitudinea=Scmax−Scmin,
unde, Scmax=max( x 1 , x 2 , ⋯ , x n ), iar Scmin=min (x1 , x2 , ⋯ , x n).

Exemplu. Fie şirul de scoruri 10, 7, 5, 8,. Deoarece cel mai mic scor este Scmin=5 , iar cel mai
mare este Scmax=10, valoarea amplitudinii este :

Amplitudinea=10−5=5

După cum se poate observa amplitudinea se calculează foarte uşor şi oferă o informaţie rapidă
asupra gradului de variabilitate al scorurilor analizate. Datorită acestor calităţi, amplitudinea este
utilizată mai ales în domeniul controlului de calitate a producţiei de piese.

Revenind la scorurile in tabelul 1 se constată imediat că cele două amplitudini pentru grupul 1 şi
grupul 2 au valorile A 1=20 şi respectiv A 2=4. Aceste valori arată că , deşi au aceeaşi medie,
variabilitatea (]ntinderea domeniului de împrăştiere al scorurilor este considerabil mai mare în
grupul 1 faţă de grupul 2, adică al doilea grup este mai omogen decât primul.

Abaterea Standard

Abaterea standard este cel mai utilizat indicator al variabilităţii, deoarece reflectă foarte fidel
variabilitatea datelor şi oferă oferă informaţii utile despre proporţiile din date, atunci când
repartiţia este cunoscută. În funcţie de scopul evaluării variabilităţii, notaţia utilizată tradiţional
este:
 σ (se citeşte sigma), atunci când ne referim la măsura variabilităţii întregii populaţii
cercetate;
 S, atunci când ne referim la măsura variabilităţii unei selecţii( eşantion ) din populaţia
statistică pe care o cercetăm;
 s, atunci când ne referim la măsura variabilităţii unei selecţii ca la un estimator a lui σ .

Observaţie. În mod analog, în cazul mediei se utilizează notaţiile:


 μ, (se citeşte miu) atunci când ne referim la media scorurilor întregii populaţii
 m sau X́ , atunci când ne referim la media scorurilor unei selecţii( eşantion ) din populaţia
statistică pe care o cercetăm
.
Formulele corespunzătoare de calcul sunt după cum urmează:
 Pentru o populaţie statistică reprezentată prin n scoruri x 1 , x 2 , ⋯ , x n , abaterea standard σ
se calculează cu formula

 x
Pentru o selecţie (eşantion) 1 2 , x , ⋯
σ=
, x
√n
∑ (x¿ ¿i−μ)2
i=1
¿
(1)

N de volum (număr de scoruri) N al unei populaţii

statistice de interes, abaterea standard S se calculează printr-o formulă asemănătoare:


n

N
S=
√ ∑ ( x ¿¿ i− X́ N )2
i=1
N
¿
, (2)

unde
∑ x i şi se numeşte medie de selecţie;
X́ N = i=1
N
 Estimatorul s se calculeazătot pe baza unei selecţii x 1 , x 2 , ⋯ , x N cu formula:
n

s=
√ ∑ ( x ¿ ¿ i− X́)2
i=1
N−1
¿
(3)

Observaţii

 Spre deosebire de indicatorul amplitudine, care utilizează pentru calcul doar două scoruri
(cel mai mic şi cel mai mare scor), formula de calcul a abaterii standard utilizează toate
scorurile analizate. Această simplă observaţie explică în parte încrederea pe care analiştii
de date o acordă acestui indicator;
 Deoarece indicatorii medie ( μ ¿ şi abatere standard (σ ) se referă la întreaga populaţie
cercetată, ei au valori fixe, specifice acelei populaţii statistice şi sunt consideraţi
parametri. Spre deosebire de aceştia indicatorii X́ N S şi s sunt statistici (adică funcţii care
depind de selecţia (eşantionul) ales de cercetător şi deci au un comportament aleator;
 De foarte multe ori este dificil sau chiar imposibil să calculăm indicatori, specifici ai
populaţiei cercetate cum ar fi media μ sau abaterea standard σ . De exempu, volumul
datelor poate fi extrem mare, sau greu de obţinut din motive de resurse de timp,
financiare etc. În acest caz se pot folosi indicatori bazaţi pe selecţie după cum
urmează:
 X́ N pentru estimarea parametrului μ,
 S şi s, pentru estimarea parametrului σ ;
 Unii estimatori au proprietatea că media valorilor lor este exact valoarea necunoscută a
parametrului pe care-l estimează. Aceşti estimatori se numesc nedeplasaţi şi sunt
consideraţi mai „buni” într-un anumit sens decât ceilalţi numiţi estimatori deplasaţi;
 Estimatorul X́ N este un estimator nedeplasat pentru μ, estimatorul s este un estimator
nedeplasat pentru σ , iar S este estimator deplasat pentruσ
 Matematic afirmaţiile anterioare se scriu astfel: M ( X́ N ) =μ, M ( s )=σ , M ( S ≠ ) σ
unde prin M ( x ) se înţelege media lui x;
 Formula (1) se poate scrie echivalent sub forma
n 2

σ=
√ n

∑x −
i=1
n
2
i
(∑ )
i=1

n
xi

şi în mod analog se deduc formele echivalente pentru formulele (2) şi (3)

Exemplu . Să presupunem că la problema din Exemplu 1 , din Cursul 6 adăugăm cerinţa să se


obţină şi valoarea indicatorului abatere standard σ . Datele aferente acestei probleme sunt
reproduse în tabelul 1 de mai jos. Se observă că avem n=10, iar media notelor este μ=6.7.

Tabelul 1
Note 7 5 9 4 6 5 8 10 4 9
Deviaţie 0.3 -1.7 2.3 -2.7 -0.7 -1.7 1.3 3.3 -2.7 2.3

Deoarece avem calculate deja deviaţiile, este convenabil să folosim formula (1) pentru calculul
abaterii standard σ . În acest scop completăm datele din tabelul 1 cu valorile pătratelor deviaţiilor
şi obţinem tabelul 2.
Tabelul 2
Note 7 5 9 4 6 5 8 10 4 9
xi
Deviaţii 0.3 -1.7 2.3 -2.7 -0.7 -1.7 1.3 3.3 -2.7 2.3
( x ¿¿ i−μ)¿
Deviaţii 0.09 2.89 5.29 7.29 0.49 2.89 1.69 10.89 7.29 5.29
la pătrat
( x ¿¿ i−μ)2 ¿

n
Aşadar, ∑ (x ¿¿ i−μ)2 =¿ 0.09+¿ ¿ ¿2.89+5.29+7.29+049+2.89+1.69+10.89+7.29+5.29=44.1şi
i=1

deci

44.1
σ=
√ 10
=√ 4.41=2.1

Dispersia

Dispersia sau varianţa se notează prin σ 2 şi se defineşte ca fiind pătratul abaterii standard. Este
un indicator mai puţin utilizat în Statisica descriptivă, însă foarte important în Statistica
inferenţială şi Analiza Dispersională. Estimatorii uzuali ai dispersiei σ 2 sunt S2 şi s2

Intervalul interquartilic

Pentru a înţelege acest indicator trebuie mai întâi să ştim ce este quartila. Quartile sunt valorile
care împart numărul de scoruri analizate în 4 părţi egale. Cu alte cuvinte pentru orice serie de
scoruri definim quartilele ca fiind trei valori, notate tradiţional Q1, Q2 şi Q3, ( Q1,<Q2 <Q3)
care împart numărul de scoruri astfel încât:
 25% din scoruri au valori mai mici decât Q1;
 Între Q1 şi Q2 se află 25% din scoruri;
 Între Q2 şi Q3 se află 25% din scoruri;
 25% din scoruri au valori mai mari decât Q3.
Observaţii
 Quartila Q2 este coincide mediana seriei;
 Quartilele se determină folosind aceleaşi modalităţi de calcul ca şi în cazul medianei.

Intervalul interquartilic este mărimea intervalului care cuprinde cele 50% de scoruri aflate între
quartila Q1 şi quartila Q3. Aşadar formula sa de calcul este :
IQR=Q 3−Q1,
unde notaţia IQR vine de la InterQuartilic Range , adică Interval Interquqrtilic.
Exemplu . Considerăm seria de scoruri ordonată: 2, 3, 6, 9, 10, 14, 20, 27, 31, 40, 49. Se
observă uşor că avem următoarele valori: Q1=6, Q2=14, Q3=31.

Utilitatea intervalul interquartilic ca estimator al variaţiei seriei de scoruri este pusă în evidenţă
în construcţia aşa numitelor box-ploturi. Box-ploturile sunt instrumente statistice grafice,
inventate de statisticianul american John Tukey în 1977, care permit comparaţia grafică rapidă a
două repartiţii.

S-ar putea să vă placă și