Documente Academic
Documente Profesional
Documente Cultură
STATISTICA DESCRIPTIVA
Reprezinta prima etapa a demersului statistic, pornind de la observarea empirica a
unei mase de fenomene singulare, concretizata prin strangerea datelor de baza. Dupa ce
sunt grupate in formele acceptabile ale unor repartitii empirice si sunt reprezentate in
tabele si grafice, prin calcularea unor parametri, se deduc principalele directii de
variabilitate ale diferitelor lor caractere. In acest stadiu se calculeaza valorile relative,
precum si valorile medii, dispersia, abaterile si alte valori tipice, urmand ca in stadiul
urmator sa se aprofundeze legaturile dintre fenomene, prin asociere, regresie si corelatii
simple sau multiple, ca si prin serii cronologice [3].
Statistica descriptiva se bazeaza pe statistica matematica, cu care are multe
corespondente: populatie - spatiu de evenimente elementare; frecventa - probabilitate;
repartitii empirice - repartitii teoretice; variabila statistica - variabila aleatoare; medie
statistica - medie a unei variabile aleatoare. Insa legatura dintre ele se bazeaza pe
conceptul de probabilitate. Ca prima etapa a demersului statistic, statistica descriptiva are
ca notiune de baza repartitia (empirica) de frecvente, la care se evidentiaza indicatori ce
caracterizeaza forma repartitiei de frecvente, tendinta centrala, imprastierea, precum si
regresia si corelatia. Precizam ca orice studiu, bazat pe date empirice, trebuie sa se
delimiteze in timp si spatiu, astfel incat caracteristicile studiate sa fie bine precizate, iar
populatia sau colectivitatea statistica analizata sa fie bine delimitata. De exemplu:
populatia unui judet, hemoglobina si hematocritul, multimea bolnavilor internati
etc.Colectivitatea statistica este reprezentata de totalitatea elementelor care au
caracteristici comune si care formeaza obiectul analizei statistice. Unitatea statistica (de
observare) este reprezentata de fiecare element component al colectivitatii statistice,
supus observarii cu caracteristicile sale. Unitati statistice pot fi: persoana, familia,
nascutul viu, gravida, casatoria, dispensarul etc. Caracteristica sau variabila este una din
insusirile prin care se manifesta unitatea de observare, fiind comuna unitatilor unei
populatii, retinuta in investigatii. Odata delimitata colectivitatea statistica si unitatea de
observare cu caracteristicile sale, se trece la culegerea datelor. De observat ca si etapa
culegerii datelor face parte din ansamblul coerent de activitati avand ca scop
demonstrarea ipotezei de lucru. Avand in vedere caracteristicile retinute in studiu si pe
baza carora s-au cules datele statistice, acestea se ordoneaza in raport cu una sau mai
multe caracteristici, dupa un anumit principiu, formand o serie statistica sau repartitie
statistica. Daca sirul de valori arata schimbarea frecventelor unei caracteristici in raport
cu variatia unei alte caracteristici, se obtine o repartitie de frecvente. Se stabilesc reguli
generale, aplicabile oricarui tip de repartitie sau specifice fiecarui tip de repartitie in
parte, potrivit scopului practic sau teoretic propus. Astfel, se stabilesc repartitii in raport
cu una sau mai multe caracteristici, dupa o gradatie naturala sau conventionala in clase
diferite, clase care trebuie sa fie exhaustive - adica sa acopere toate situatiile particulare si
sa fie incompatibile, adica sa se excluda reciproc si, mai ales, clasele sa fie omogene.
Seriile statistice de repartitie trebuie sa fie constituite pe baza unor reguli prestabilite si cu
minim de pierdere de informatie. Numarul de observatii corespunzator fiecarei clase din
repartitia statistica se numeste frecventa. Daca frecventa se raporteaza proportional, in
raport cu totalul, frecventa este relativa; frecventele relative se pot cumula. Repartitia de
frecvente organizeaza unitatile populatiei in raport cu o variabila cantitativa sau
calitativa, dupa clase egale si omogene, de obicei in ordinea descrescatoare a
frecventelor.
Variabilele cantitative sunt acele insusiri ale unitatilor de observare care pot fi exprimate
printr-o unitate de masura (g, ore, cm). Variabilele calitative sunt insusirile care nu se
exprima prin unitati de masura, ci prin atribute (gravitate, culoare etc). Frecventa sta la
baza judecatilor statistice in cazul variabilelor calitative. In cazul variabilelor cantitative
cu un numar restrans de valori, repartitia grupeaza unitatile statistice pentru fiecare
valoare observata in clase discrete (numere intregi), iar repartitia se scrie astfel:
X X2 Xn
X 1
f1 f2 fn
Pentru o gama larga de valori (numere reale) ale variabilei, repartitia pe clase de valori
(intervale) imparte domeniul de variatie in clase consecutive (continue) si egale, de tip
interval, iar repartitia se poate scrie astfel:
x 0 x x 1 x 1 x x 2 x n -1 x x n
X
f1 f2 fn
Intr-o repartitie de frecventa, frecventele se pot utiliza ca ponderi, iar frecventele relative
care se mai numesc coeficienti de ponderare sunt:
f f
f i' i i
fi n
PREZENTAREA DATELOR STATISTICE
Tinand cont de cele de mai sus, se face prin tabele, care pot fi de mai multe feluri:
1. 1. simple - prezentand repartitia unitatilor statistice dupa o singura
caracteristica;
2. 2. cu dubla intrare - prezentand repartitii combinate dupa doua
caracteristici
- - pe doua nivele (de tip "2 x 2")
- - pe mai multe nivele sau variante (de tip "r x k") ;
2. 3. tabele de asociatie - dupa mai multe caracteristici.
Reprezentarea grafica a seriilor de repartitie se impune de la sine, reprezentarea se face,
de regula, in sistemul de axe ortogonale, pe o scara aritmetica (naturala) sau (semi)
logaritmica.
Situatiile comparative se prezinta prin diagrame "in benzi" sau "coloane", proportionale
cu frecventele. Diagramele dc structura (dreptunghice sau circulare) prezinta suprafete
proportionale cu frecventele relative care structureaza populatia dupa o anumita
caracteristica. Repartitia frecventelor pe clase de valori se prezinta de regula printr-un
grafic numit "histograma", format dintr-o succesiune de dreptunghiuri verticale alaturate,
avand suprafetele proportionale cu frecventele pe clase. Suprafata inchisa de linia in scara
ce margineste "histograma" si de axa abciselor este proportionala cu suma frecventelor
care este intreaga colectivitate statistica. Odata construita histograma, linia franta care
uneste perpendicularele, proportionale cu frecventele, ridicate din centrele intervalelor de
clasa de pe axa abciselor, constituie "poligonul de frecvente", marginind o suprafata
echivalenta cu cea a histogramei. Exemplul cel mai cunoscut de histograma (inversata)
este "piramida varstelor", utilizata in demografie.
Se mai utilizeaza si alte tipuri de grafice, ori diagrame (cumulative), precum si
histograme (diagrame temporale). De observat, in aceasta etapa, ca atunci cand intervalul
de clasa este suficient de mic (de fapt se micsoreaza continuu), iar numarul de observatii
(unitati de observatie) este foarte mare, histograma sau poligonul de frecvente tind catre o
curba continua, astfel ca se inlocuieste conturul histogramei (poligonului) cu o curba lina,
care delimiteaza o arie totala egala cu cea a histogramei (poligonului). "Netezirea" curbei
presupune caracterul continuu al variabilei reprezentate. Curba frecventelor unei populatii
infinit de mare este limita catre ar tinde histograma (poligonul de frecvente), obtinuta pe
populatii cu volum restrans si reprezinta repartitia ideala sau teoretica si deci supusa
intamplarii, nealterate de jocul intamplarii, totodata legea (functia) de frecventa. De
observat, ca prin "curba de frecventa" se pune in evidenta "forma" repartitiei, data de
functia respectiva. Statistica matematica studiaza aceste functii teoretice. Deocamdata, in
etapa discriptiva, putem calcula diversi indicatori ai repartitiilor de frecventa care sa
evidentieze, pe baza caracteristicii studiate, gradul de grupare sau imprastiere a unitatilor
de observare.
INDICATORI DE TENDINTA CENTRALA
x
x i
x1 x 2 x n
n n (1. 1)
dar mai ales media aritmetica ponderata (cu frecvente) :
x
x fi i
x 1f 1 x 2 f 2 x n f n f f f
x 1 1 x 2 2 x n n x 1f 1' x 2 f 2' x n f n'
f i n n n n
(1. 2)
caracterizeaza global colectivitatea (restransa) studiata.Media poate fi definta si ca
valoarea fata de care suma abaterilor variantelor caracteristicii din seria de variatie este
nula. Ea se exprima printr-o valoare calculata, nu observata, si are aceeasi unitate de
masura cu cea a variabilei studiate (g, cm, zile etc.).Pentru caracterizarea seriilor de
variatie, media aritmetica ponderata este un indicator sintetic important, la a carui
calculare contribuie toate valorile seriei statistice, fiind influentata de valorile "aberante".
Proprietatile sale permit generalizarea rezultatelor la nivelul populatiei (colectivitatii)
generale, cum vom vedea.Exista si alte tipuri de medie: media geometrica, media
cronologica, media armonica s. a.Un alt indicator de tendinta centrala este si mediana
care imparte seria de variatie in doua jumatati egale si care este o valoare observata -
cand seria are un numar impar de variante sau calculata - cand seria are un numar par de
variante:
x x i 1
Me i
2
Mediana nu este influentata de valorile "aberante" ale seriei, astfel ca, daca se
inregistreaza valori aberante mari, "tipicul" seriei de variatie este mai bine evidentiat prin
mediana decat prin medie.Aceasta proprietate a medianei este folosita la stabilirea
dozelor letale, cand in timpul experimentelor de laborator, unele animale mor la doze
mici, iar altele sunt foarte rezistente. Prezenta unui singur animal "atipic" poate influenta
puternic media, dar nu si mediana, care se foloseste ca "doza letala 50" (DL50), adica
doza care omoara 50% din animalele de experienta. Mediana se poate calcula si grafic,
aflandu-se la intersectia curbelor frecventelor cumulate ascendent si descendent.
Alti indicatori de pozitie pot fi: cuartilele (care impart seria in patru parti egale), decilele
si centilele.Un alt indicator de tendinta centrala este modul definit ca valoarea (variantei)
cu numarul cel mai mare de aparitii, deci cu frecventa maxima. Modul poate oferi
indicatii asupra omogenitatii seriei de variatie (unimodale, bimodale, plurimodale).
Fenomenele biologicc se caracterizeaza mai ales prin "variabilitate", prin diferentieri,
astfel incat nu exista doi indivizi riguros asemanatori din toate punctele de vedere. De
aceea, cand se determina marimea unei caracteristici pentru o multime de indivizi, se
obtine un sir de valori diferite si care nu pot fi anticipate cu exactitate. Valorile
inregistrate difera mai mult sau mai putin de medie, astfel ca nu se poate anticipa cu
exactitate greutatea unui copil la nastere sau nivelul glicemiei la o persoana bolnava, de
exemplu.
Variabilitatea este cea care determina "imprastierea" sau "dispersia" valorilor in jurul
marimilor considerate tipice pentru seria statistica, cum sunt indicatori de tendinta
centrala sau de grupare: media, mediana, modul.
INDICATORI DE DISPERSIE
xi - valorile variabilei x;
x - media aritmetica (ponderata) ;
fi – frecventele;
Operatiunea de ridicare la patrat este necesara pentru evitarea reducerii abaterilor (in plus
sau in minus) fata de medie, iar prin operatiunea inversa, extragandu-se radicalul, se
obtine un nou indicator de dispersie: abaterea standard (abaterea medie patratica).
Abaterea standard sau deviatia tip reprezinta radacina patrata din varianta (dispersie) :
2 (3)
Acest indicator are avantajul de a permite exprimarea dispersiei prin aceeasi unitate de
masura cu a caracteristicii (cm, g, etc.). Pentru facilitarea compararilor este calculat
coeficientul de variatie (CV%), exprimat in procente, ca fiind raportul dintre abaterea
standard si valoarea medie a seriei.
CV % x 100
x (4)
Coeficientul de variatie nu are unitate de masura, care a disparut prin raportarea abaterii
la medie. Acest fapt permite folosirea indicatorului la compararea a doua sau mai multe
serii de variatie, indiferent de ordinul de marime al variabilelor si de unitatile lor de
masura. Se considera ca un coeficient de variatie sub 10% indica o dispersie mica, adica
faptul ca seria este omogena, iar un coeficient intre 10% si 20%, ori de peste 30%, indica
dispersii mijlocii, ori mari. Se accepta faptul ca media este cu atat mai putin
reprezentativa pentru serie, cu cat acesta are o dispersie mai mare. In cazul
caracteristicilor calitative. nu pot fi efectuate masuratori, dar se pot acorda scoruri, pentru
diferitele variante, uneori se poate inregistra numai prezenta sau absenta caracterului
cercetat. De exemplu, pentru o serie de 10 noi-nascuti, caracteristica sex se inregistreaza
prin cele doua variante posibile, impartind suma variantelor respective la numarul
cazurilor, astfel ca se respecta conditiile de calcul ale mediei. Daca din 10 nou nascuti, 6
sunt de sex masculin, "media" prezentei sexului masculin va fi x = 0,6, iar "media"
prezentei sexului feminin va fi x = 0,4. Acesti indicatori, descrisi ca "medii" se numesc
proportii, notandu-se cu p sau q. Proportia este definita ca raportul dintre numarul
cazurilor in care o varianta a caracteristicii a fost constatata si numarul total de
evenimente observate. Atunci:
m
p
n ,
unde: p = proportia caracteristicii;
m = nr. de cazuri in care s-a constatat caracteristica;
n = nr. de evenimente observate.
In cazul caracteristicilor alternative (de exemplu, sexul) avem p + q = 1, deoarece:
(m/n) + (n-m)/n = n/n = 1 Pentru caracteristici cu mai multe alternative suma proportiilor
va fi de asemenea egala cu 1.
Prin analogie cu caracteristicile cantitative, se poate calcula un indicator de varianta, cu
formula: 2 = p•(1 - p) = p•q, unde p = 1 – q. Cand o varianta este mai des intalnita,
exista un plus de omogenitate, iar dispersia scade. La extrem, daca una din proportii este
egala cu zero, varianta devine si ea egala cu zero, indicand prezenta unei singure stari,
adica omogenitatea fenomenului: daca p = 0, 1 - p = 1 si 2 = 0 • 1 = 0. De mentionat ca o
caracteristica calitativa alternativa are dispersia maxima cand cele doua proportii sunt
egale p = q, deci 2 = p • p = p2. Pentru caracteristici calitative nealternative se pot calcula
tot atatia indicatori de dispersie cate stari sunt posibile, astfel:
12 p1 1 p1
22 p 2 1 p 2
2n p n 1 p n