Sunteți pe pagina 1din 7

14 STATISTICĂ DESCRIPTIVĂ (II)

Noţiuni prezentate:
Statistică descriptivă
 Distribuţia de frecvenţă, realizarea histogramei ,
 Curba Gauss-Laplace.

Distribuţia de frecvenţă, histograma


Metodele descriptive de extragere a informaţiilor din date constau în
calculul indicatorilor statistici, crearea tabelelor de frecvenţe (absolute,
relative, cumulate) şi prezentarea grafică sub formă de diagrame. Distribuţia
de frecvenţă este definita de aceste tabele a frecvenţelor. Reprezentarea
grafică este practic histograma.
Histograma este un caz special de diagramă, care reprezintă folosind
coloane (forma verticală) sau bare (forma orizontală) frecvenţele de apariţie
a grupelor (sau claselor) definite pe variabila de interes (introdusă de Karl
Pearson 1895). Într-o histogramă suprafaţa coloanei trebuie să fie egală (cel
puţin proporţională, păstrând ponderea pe fiecare grupă) cu frecvenţa pe
clasa respectivă (absolută sau relativă de obicei, mai rar cumulată). Aceasta
deoarece histograma reprezintă o aproximare a densităţii de probabilitate. De
obicei intervalele de grupare (pe axa XX’) au aceeaşi dimensiune şi astfel se
poate reprezenta înălţimea coloanei egală cu frecvenţa absolută sau relativă.
Practic avem o formă grafică cu ajutorul căreia ne facem o primă impresie
vizuală asupra distribuţiei datelor [9, 11, 12, 13].
Intervalele vor fi consecutive şi nu se vor suprapune. Suprafaţa totală
va fi astfel egală cu 1 pentru lucru cu frecvenţe relative respectiv egală cu
volumul eşantionului pentru cazul utilizării frecvenţelor absolute (pentru un
coeficient de proporţie egal cu 1).
Numărul de intervale notat k, în care se împarte variabila continuă
studiată, se poate determina cu formulele următoare:
Formula Sturges : k  1  log 2 n , unde n este volumul eșantionului.
3.5  
Formula Scott: k  , unde σ este deviația standard.
n1 / 3
Formula de calcul H.B. Mann şi A. Wald pentru n > 100:
1
1 5
k  4    n  1 .
4 

Bibliografie | 1
Din rezultatele obţinute se ia partea întreagă. Nu există o metodă
optimă de determinare a numărului de intervale şi implicit a dimensiunii
unui interval. Ca idee generală numărul acestora nu trebuie să fie mai mic ca
15 şi nici mai mare ca 30.

Crearea histogramei în Microsoft Excel 2010.


Se alege din grupul de comenzi Data , Data Analysis / Histogram:
Tabelul conţine valori categoriale cât şi numerice de tip continuu.
Structura datelor este: Sex (M, F), Vârsta (numeric), Glicemia
(numeric), Asigurat CAS (T,F).
Comanda funcţionează doar pentru valori numerice – prin urmare,
lângă coloanele Sex, respectiv Asigurat CAS mai adăugăm două coloane cu
acelaşi nume, în care codificăm categoriile, dar folosind numere: pentru
variabila SEX: masculin = 1, feminin = 2; pentru variabila Asigurat CAS: T =
1, F = 0.
Se introduce şirul de celule pentru
care dorim să calculăm distribuţia
de frecvenţe.

Se introduc
introducevalorile
şirul dedistincte,
celule pentru
ordonate
care dorimcrescător, pentru
să calculăm care se
distribuţia
calculează distribuţia de frecvenţe.
de frecvenţe.

Se introduc
Se bifează atunci
valorilecând prima
distincte,
ordonate
celulă dincrescător,
coloana pentru
/ şirul selectat
care se
calculează distribuţia de frecvenţe.
conţine numele variabilei pentru
care se realizează analiza.

bifează atunci
Se specifică când
poziţia prima
în foaia de
celulăcurentă
lucru din coloana
unde/dorim
şirul selectat
să se
conţinerezultatele.
afişeze numele variabilei pentru
care se realizează analiza.
Se specifică
Eventual, poziţia înse
rezultatele foaia
potdeafişa
lucru
pe curentă
o foaie unde separată,
de lucru dorim să secu
afişeze rezultatele.
numele ales de noi, în acelaşi
registru de calcul.

Se indică tipul de distribuţie de frecvenţe care se doreşte:Eventual, rezultatele se pot afişa


- Dacă nu se bifează nimic: se realizează distribuţia pe o foaie de lucruce
de frecvenţe separată,
conţine cu
numele
frecvenţele absolute pentru categoriile specificate (fig. 14-2);ales de noi, în acelaşi
- Pareto: tabelul distribuţiei de frecvenţe se afişează registru de calcul.
în ordinea descrescătoare a
frecvenţelor calculate, şi nu a categoriilor specificate în „Bin Range” (fig. 14-3).
- Cumulative Percentage: tabelul va conţine şi frecvenţele procentuale cumulate (fig.
14-4).
- Chart Output: se realizează şi graficul de tip Histogramă corespunzător (fig. 14-5).

Figura 14-1. Crearea histogramei – opțiuni


Se indică tipul de distribuţie de frecvenţe care se doreşte:
- Dacă nu se bifează nimic: se realizează distribuţia de frecvenţe ce conţine
2 | Bibliografie
frecvenţele absolute pentru categoriile specificate (fig. 2);
- Pareto: tabelul distribuţiei de frecvenţe se afişează în ordinea descrescătoare a
frecvenţelor calculate, şi nu a categoriilor specificate în „Bin Range” (fig. 3).
Pentru a calcula distribuţia de frecvenţe, trebuie specificate în mod
obligatoriu două informaţii:
- Şirul de celule care conţine valorile efective ale variabilei pentru care
dorim să realizăm distribuţia (Input Range);
- O coloană auxiliară de valori (Bin Range) ce conţine valorile distincte
din şirul iniţial, aşezate în ordine crescătoare, pentru care se
realizează distribuţia de frecvenţe (în cazul variabilelor calitative,
acestea reprezintă de fapt categoriile urmărite, aşezate ordonat – ex.1,
2 pentru variabila SEX, iar în cazul variabilelor cantitative reprezintă
limitele inferioară şi superioară ale intervalelor de clasă).

Figura 14-2. Distribuţia de frecvenţe pentru variabila SEX

Figura 14-3. Distribuţia de frecvenţe pentru variabila SEX – opţiunea „Pareto


(sorted histogram)”

Figura 14-4. Distribuţia de frecvenţe pentru variabila SEX – opţiunea „Cumulative


percentage”

Figura 14-5. Distribuţia de frecvenţe pentru variabila SEX – opţiunea „Chart


Output”
Bibliografie | 3
La specificarea intervalelor de clasă pentru care
se doreşte realizarea unei distribuţii de frecvenţe
se indică limitele inferioare şi superioare ale
acestora, urmând ca intervalele să fie
interpretate sub forma: <= 110, (110, 115], (115,
120], … (140, 145].
Figura 14-6. Pentru variabila SEX am realizat distribuţia de frecvenţe fără opţiuni
suplimentare

Pentru variabila Glicemie – mom. 0 am realizat distribuţia de frecvenţe cu


opţiunea „Pareto (sorted histogram)”.

Figura 14-7. Distribuţia de frecvenţe pentru variabila Vârstă, cu opţiunea


„Cumulative percentage”

Distribuţia Gauss-Laplace
Este utilizată pentru descrierea densității de probabilitate a unei variabile
aleatoare de tip continuu. Este caracterizată de centrarea datelor în jurul
mediei (ce coincide cu mediana şi cu valoarea modală) [9, 11, 12, 13].
  x   2
1
Formula densităţii de probabilitate: f ( x)  e 2 2
, pentru
  2 
x    ,    .

4 | Bibliografie
Se notează simbolic N(, 2) sau N(x, , 2) arătând astfel dependența de
medie  şi dispersie 2.
Funcţia de repartiţie se calculează cu formula:
x x   x   2
1
F ( x)   f ( x) dx    2 
 e 2 2
dx
  .
Repartiţia normală redusă se obţine prin schimbarea de variabilă
x
z . Astfel aceasta va avea media 0 şi dispersia 1. Densitatea de

z2
1
probabilitate devine f ( z)  e 2
iar funcţia de repartiţie
2 
z  x2
1
F ( z)   2 
e 2
. dx
 [9, 11]
Graficele densităţii de probabilitate şi a funcţiei de repartiţie pentru
repartiţia normală redusă sunt prezentate mai jos.

Figura 14-8. Densitatea de probabilitate. Figura 14-9. Funcţia de repartiţie (este


suprafaţa densităţii de probabilitate).

În Excel avem funcţii implementate pentru calculul atât a densităţii


de probabilitate, a funcţiei de repartiţie cât şi pentru calculul inversei celei
din urmă – prezentate în tabelul următor.

Observaţie
Dacă cunoaştem media şi dispersia unei repartiţii normale notate µ1
respectiv σ1 şi dorim să determinăm probabilitatea pe un subinterval [a,b],
atunci vom folosi diferenţa probabilităţilor: NORMDIST(b, µ1, σ1,1)-
NORMDIST(a, µ1, σ1,1).
Mai jos este un exemplu prezentat grafic.

Bibliografie | 5
Tabelul 14-1. Funcţii pentru distribuţia Gauss Laplace

Funcţii pentru calculul valorilor unei distribuţii Gauss-Laplace


NORMDIST(x, µ, σ,0) sau
  x   2 NORM.DIST(x, µ, σ,0)
1
f ( x)   e 2
2
Ultimul parametru poate fi 0
  2  (FALSE) sau 1(TRUE). Valoarea 0
Densitatea de probabilitate implică calculul densităţii de
probabilitate.
NORMDIST(x, µ, σ, 1) sau
NORM.DIST(x, µ, σ, 1)
x  x 
2
x Diferă ultima valoare (ce este
1

F ( x)  f ( x) dx  
 e 2 dx 1) faţă de formula anterioară,
2

   2    astfel se calculează
Funcţia de repartiţie probabilitatea deci suprafaţa
densităţii de repartiţie
(cumulativ).
z2
1
f ( z)  e 2
Pentru µ=0 şi σ=1:
2  NORMDIST(z, 0, 1,0) sau
Densitatea de probabilitate – repartiţie normala NORM.S.DIST(z, 0)
redusă sau standardizată.
z  x2
1 Pentru µ=0 şi σ=1:
F ( z)  
 2 
e 2
dx NORMDIST(z, 0, 1,1)
Dar există şi funcţiile dedicate:
Funcţia de probabilitate – repartiţie redusă sau NORMSDIST(z) sau
NORM.S.DIST(z, 1)
standardizată.
NORMINV(probabilitate, µ, σ),
x  Inv( F ( x))  g ( prob.cumulata,  ,  ) sau
Calculul inversei deci determinarea abscisei NORM.INV(probabilitate, µ, σ)
corespunzătoare. Este vorba despre
probabilitatea cumulată.
z  Inv( F ( z ))  g ( prob.cumulata) NORMSINV(probabilitate) sau
Calculăm abscisa corespunzătoare unei distribuţii NORM.S.INV(probabilitate)
reduse (standardizate). Este inversa funcţiei de Este acelaşi lucru cu:
repartiţie. NORMINV(probabilitate, 0,1)

6 | Bibliografie
=NORMDIST(B4,B1,B2,1)

=NORMDIST(B4,B1,B2,1)

=NORMDIST(B7,B1,B2,1)

=NORMDIST(B6,B1,B2,1)
Probabilitatea (suprafaţa) obţinută prin
diferenţa celor două valori calculate.

Probabilitatea (suprafaţa) obţinută prin


diferenţa celor două valori calculate.

Figura 14- 10. Calculul probabilităţii pe intervalul 75-100 pentru o distribuţie


normală de medie 90 şi deviaţie standard 12.

EXERCIŢII
Fișierul Excel conține coloanele de lucru: Vârstă, Înălţime, Greutate,
IMC, Talia.
1. Realizaţi tabelul cu distribuţia de frecvenţă şi reprezentaţi grafic
histograma pentru frecvenţele absolute dar şi cumulate pentru
coloanele Vârstă, Înălţime, Greutate, IMC, Talia. Pentru vârstă veţi alege
dimensiunea intervalul pentru crearea claselor de 5 ani, pentru
înălţime de 4 cm, pentru greutate 5 kg, pentru IMC 2.5 Kg/m 2, pentru
talie 4 cm.
2. Care este probabilitatea de a avea o persoană cu IMC-ul peste
30Kg/m2 ? (veţi calcula mai întâi media si deviaţia standard apoi veţi
aproxima distribuţia cu forma normală , Gauss-Laplace).
3. Care este probabilitatea, în ideea aproximării cu o distribuţie normală,
de a obţine conform datelor din tabel, persoane cu înălțimea mai mică
de 150 cm. Comparaţi frecvenţa relativă calculată din eşantion cu
probabilitatea obţinută prin aproximarea Gauss-Laplace. Comentaţi
rezultatele.
4. Determinaţi cu probabilitate de 0.95 simetrică faţă de medie intervalul
de grupare al datelor pentru greutate.

Bibliografie | 7

S-ar putea să vă placă și