Sunteți pe pagina 1din 47

Catedra de medicină socială și management „Nicolae Testemițanu”

INTRODUCERE ÎN BIOSTATISTICĂ ȘI
METODOLOGIA CERCETĂRII ȘTIINȚIFICE. TIPURI
DE VARIABILE. SCALE DE MĂSURARE.
REPREZENTAREA GRAFICĂ A DATELOR.

Galina Obreja, conferențiar universitar


Olga Penina, conferențiar universitar
1
CUPRINS
1. Colectivitatea (populație) statistică;
2. Eșantionul statistic;
3. Unitatea statistică;
4. Variabila statistică;
5. Indicatorul statistic;
6. Parametrul statistic;
7. Clasificarea variabilelor statistice:
– cantitative (continue, discrete);
– calitative (alternative, nealternative).
8. Scalele de măsurare a datelor statistice:
– scala nominală;
– scala ordinală;
– scala de interval;
– scala de raport.
9. Rezumarea datelor și ilustrarea grafică a rezultatelor – tabelul și figura:
– pentru variabilele calitative;
– pentru variabilele cantitative.
10. Distribuția de frecvențe:
– pentru variabilele calitative;
– pentru variabilele cantitative.
2
11. Frecvența relativă. Frecvența cumulată. Frecvența relativă cumulată pentru datele calitative și cantitative.
BIOSTATISTICA. CONCEPTE PRINCIPALE

3
STATISTICA

 Statistica este știința despre colectarea, organizarea, analiza


și interpretarea datelor.

 Conceptele statisticii pot fi aplicate în diferite domenii, cum


ar fi economia, psihologia, agricultura ș.a.

 Conceptul „biostatistica” se aplică în cazul biologiei și a


științelor de sănătate.
4
UTILIZAREA STATISTICILOR EȘANTIONULUI PENTRU
ESTIMAREA PARAMETRILOR POPULAȚIEI

Populația Eșantionul
Colectarea
datelor

Descrierea
Formularea
eșantionului
concluziilor

Inferența
Parametri statistică Indicatori
statistici statistici
(parametri) (statistici)

5
POPULAȚIE, EȘANTION, UNITATE DE OBSERVAȚIE
 O populație (colectivitate statistică generală) reprezintă universul despre care
cercetătorul dorește să facă concluzii.
De exemplu: toate femeile de vârstă fertilă (15-49 de ani) care trăiesc în Republica
Moldova.

 Eșantionul (colectivitate statistică parțială) reprezintă o submulțime extrasă


dintr-o populație mai mare, partea care este de fapt observată sau studiată.
De exemplu: un eșantion de 1000 de femei de vârstă fertilă (15-49 de ani) care trăiesc
în Republica Moldova.

 Unitate de observație este persoana sau obiectul pe care se fac măsurătorile.


Denumită și caz, subiect (în cazul unei persoane).
De exemplu: o femeie de vârstă fertilă (15-49 de ani) care trăiește în Republica
Moldova.
6
POPULAȚIA ȘI EȘANTIONUL EXTRAS DIN POPULAȚIE

Populația Eșantionul
O unitate de observație sau un
element: persoana (cazul, subiectul)
sau obiectele pe care se fac
măsurătorile.

Numărul de unități de observație


n=5 dintr-o populație se notează cu N, iar
numărul de unități de observație
dintr-un eșantion cu n.

N = 28

7
EȘANTIONUL

 Eșantionul TREBUIE să reprezinte populația ca un tot întreg (eșantionul trebuie să fie


REPREZENTATIV).
 Un eșantion este reprezentativ dacă se aseamănă foarte mult cu populația din care a
fost extras.
– elementele unui eșantion trebuie să fie selectate aleatoriu;
– eșantionul trebuie să fie de dimensiuni (mărime) adecvate.
 Eșantioanele nereprezentative pot cauza probleme grave.
 Există diferite tipuri de eșantionare.
Câteva exemple:
– Eșantionare aleatorie simplă: selectarea cazurilor dintr-o populație într-o manieră care să
asigure că fiecare element al populației are șanse egale de a fi selectat într-un eșantion.
– Eșantionare aleatorie stratificată: populația este mai întâi împărțită în grupuri interne sau
straturi relativ omogene, din care apoi sunt extrase eșantioane aleatorii.
VARIABILA

 Colectarea datelor reprezintă colectarea informației de la unitățile de


observație (cazuri individuale) pentru anumite variabile.
 O variabilă este o caracteristică măsurată (observată) a unei unități de
observație.
De exemplu: venitul, sexul, vârsta, înălțimea, greutatea, tensiunea arterială etc.
 Valoarea observată este valoarea reală a unei variabile pentru una dintre
unitățile de observație.
 Prin date se subînțeleg valorile variabilelor; datele constau din numere ale
măsurătorilor sau numărători ale eșantionului.
De exemplu: înregistrarea temperaturii pacienților (măsurătoare) sau
numărul pacienților cu temperatura mai mare de 37°C (numărătoare).
PARAMETRU ȘI STATISTIC

 Parametru (parametru statistic): valoarea sau valorile derivate din datele


(specifice) unei populații.
De exemplu: masa corporală medie a tuturor femeilor de vârstă fertilă (15-49 de
ani) din Republica Moldova.

 Statistic(i) (indicator statistic): valoarea sau valorile derivate din datele


(referitoare la/specifice) eșantionului.
De exemplu: masa corporală medie într-un eșantion de 1000 de femei de vârstă
fertilă (15-49 de ani) din Republica Moldova.
Unitatea de observație Eșantionul Populația
(un element)

Variabila

Exemple:
- vârsta
- masa corporală
- pulsul
- statutul de fumător
SIMBOLURI

Indicatori statistici Parametri statistici


Concepte statistice
(simboluri romane) (simboluri grecești)
Media 𝑋ത µ
Abaterea standard S σ
Varianța S² σ²
Mărimea n N
Coeficientul de corelație r ρ

12
Unitatea de Un eșantion de 10
observație: studentul studenți
VARIABILE
Culoarea Statutul de Nota la
ID Sexul Talia (cm)
ochilor fumător anatomie
Studentul 1 M negri da 8 160
Studentul 2 M verzi nu 8 165
Studentul 3 M verzi nu 7 170
Studentul 4 M albaștri nu 6 175
Studentul 5 F albaștri da 5 150
Studentul 6 F căprui da 5 145
Studentul 7 F negri da 4 170
Studentul 8 M albaștri nu 10 165
Studentul 9 F verzi nu 9 160
Studentul 10 F negri da 6 185

Statistic(i): înălțimea medie/nota medie la anatomie O valoare


pentru 10 studenți /% nefumătorilor.
STATISTICA DESCRIPTIVĂ ȘI INFERENȚIALĂ (1)

 Statistica descriptivă descrie, organizează sau rezumă datele.


De exemplu: tensiunea arterială medie într-un eșantion de 100 de pacienți.

 Statistica inferențială este statistica folosită pentru a face concluzii


(inferențe) despre populație în baza informației colectate dintr-un eșantion
selectat aleatoriu din acea populație.
Statistica inferențială se utilizează pentru a determina dacă un fenomen observat
într-un eșantion reprezintă un fenomen real în populația din care a fost extras
eșantionul și implică estimarea și testarea ipotezei.
STATISTICA DESCRIPTIVĂ ȘI INFERENȚIALĂ (2)

Eșantionare
Parametrii Statisticii
Eșantionul
µ : media 𝑋ത - media
populației eșantionului
Statistica
σ : deviația Populația s – deviația
standard etc. inferențială standard etc.
Indicatorii
statistici
Probabilitatea

15
TIPURI DE VARIABILE

16
TIPURILE DE VARIABILE (1)

1. Variabila calitativă descrie o calitate a persoanei sau a obiectului studiat. Se


mai numește și variabilă categorială deoarece datele se încadrează în
categorii sau clase. Numerele sunt adesea folosite pentru a reprezenta aceste
categorii. Dar aceste numere servesc doar ca etichete, nu ca valori numerice.
De exemplu: genul: 1 = „masculin”, 2 = „feminin” (1 nu este mai mare sau mai mic
decât 2); culoarea ochilor; naționalitatea; grupa sanguină; diagnosticul etc.

2. Variabila cantitativă sau numerică măsoară cantitatea de ceva. Valorile


atribuite sunt ordonate, iar ordonarea are sens.
De exemplu: „talia” (valorile mai mari ale acestei variabile indică o talie mai mare);
pulsul, numărul de țigarete fumate, tensiunea arterială, numărul de copii, colesterolul seric etc.
TIPURILE DE VARIABILE (2)

1. Calitative sau categoriale

a) Alternative (dihotomice, binare, binomiale) sunt variabilele care au


doar două categorii.
De exemplu: „Da și Nu”; „masculin și feminin" ; „urban și rural”

b) Non-alternative sunt variabilele care au mai mult de două categorii.


De exemplu: grupa sanguină, stadiile bolii, naționalitatea etc.
TIPURILE DE VARIABILE (3)

2. Cantitative sau numerice

a) Variabile discrete sunt variabilele care iau numai numere întregi, nu


sunt posibile valori intermediare.
De exemplu: pulsul, numărul de pacienți, cazurile noi de boală, numărul de
internări într-un spital, numărul factorilor de risc etc.
b) Variabile continue sunt variabilele care iau orice valoare pe un
continuum. Datele continue includ adesea zecimale sau fracții de
numere.
De exemplu: înălțimea, greutatea, colesterolul seric, vârsta, temperatura, durata
de supraviețuire etc.
SCALE DE MĂSURARE

20
SCALELE DE MĂSURARE

Calitative sau categoriale


• nominală
• ordinală Mnemonic:
Cantitative sau numerice „NOIR”
• de interval
• de raport
De ce este important tipul de variabilă?

Metodele utilizate pentru prezentarea,


rezumarea și analiza datelor depind de tipul
variabilelor: categoriale sau numerice.
SCALA NOMINALĂ

Datele analizate pe scala nominală sunt date calitative.


Datele sunt clasificate în diferite categorii sau grupuri calitative.
Ordinea dintre categorii NU are sens. Cu alte cuvinte, categoriile
pot fi enumerate în orice ordine fără a afecta relația dintre ele.
Când există doar două categorii posibile, variabila este uneori
numită dihotomică sau binară.
Exemple de date analizate pe scala nominală

 Exemple de variabile nominale:


– sexul (masculin, feminin)
– culoarea ochilor (albaștri, verzi, negri, căprui)
– rezultatul intervenției chirurgicale (decedat, viu)
– grupa sanguină (A, B, AB, O)
– rezultatele tratamentului medical
– prezența unor posibili factori de risc.
SCALA ORDINALĂ

 Datele analizate pe scala ordinală, ca și datele nominale, sunt date


calitative și se clasifică în diferite categorii.

 Scala ordinală permite ordonarea (ierarhizarea) datelor de la mic la


mare, de la simplu la complex. Spre deosebire de scala nominală, scala
ordinală permite stabilirea unei relații de ordine între date.

 Cu toate acestea, nu există informații despre distanța cantitativă dintre


categorii, adică, distanța (intervalul) dintre categorii nu poate fi
precizată; nu se poate spune cu cât un nivel ierarhic este superior sau
inferior altuia și nici de câte ori.
Exemple de date analizate pe scala ordinală

 Severitatea unei leziuni (1 = letală; 2 = gravă; 3 = moderată; 4 = ușoară).

Diferența dintre o leziune mortală (scorul = 1) și o leziune gravă (scorul = 2)


nu este neapărat aceeași (sau egală) cu diferența dintre o leziune moderată
(scorul = 3) și una minoră (ușoară) (scorul = 4).

 Stadiul cancerului (stadiul I, II, III, IV)


 Nivelul de educație (primară, secundară, colegiu, universitară,
postuniversitară)
 Scorul Apgar pentru descrierea maturității nou-născuților (de la 0 la 10)
 Nivelul de satisfacție (foarte nemulțumit, nemulțumit, neutru, mulțumit,
foarte mulțumit)
 Nota studenților.
SCALA DE INTERVAL

 Datele analizate pe scala de interval sunt date cantitative


(numerice) și, ca și datele ordinale, pot fi plasate într-o anumită
ordine care permite comparația dintre date.
 În plus, scala de interval are intervale constante, egale, între
elemente.
 Scala de interval nu are însă un zero absolut (adică zero nu
înseamnă absența adevărată a ceva), de aceea acest nivel de
măsurare nu permite multiplicarea sau divizarea valorilor. Noi
putem răspunde la întrebarea „cu cât este mai mare”, dar nu și la
întrebarea „de câte ori”.
Exemple de date analizate pe scala de interval

Temperatura în grade Celsius. Diferența dintre


100°C și 90°C este egală cu diferența dintre 50°C și
40°C. Cu toate acestea, 100°C nu este de două ori
mai fierbinte decât 50°C, deoarece 0°C nu indică o
absență completă a căldurii.
SCALA DE RAPORT
 Scala de raport are toate caracteristicile scalei de interval, la care se adaugă existența unui zero
absolut, fapt ce ne permite să răspundem la întrebarea „de câte ori”.
 Raportul dintre doua puncte ale scalei după care unitățile sunt clasificate are semnificație, indiferent
de unitatea de măsură utilizată în stabilirea scalei.
 Pe scala de raport numerele oferă nu numai informații asupra ordinii de rang a obiectelor (și a
mărimii relative a diferențelor) ci si despre relațiile rapoartelor.

Exemple de variabile analizate pe scala de raport:


greutatea (50 kg, 100 kg, 150 kg, etc.)
pulsul (bătăi pe minut)
tensiunea arterială (mmHg)
vârsta

Deoarece există un zero absolut, este corect să spunem că o frecvență a pulsului de 120 de bătăi/min este
de două ori mai rapidă decât o frecvență a pulsului de 60 de bătăi/min.
TIPURILE DE VARIABILE (sumar)

Calitative (categoriale): descriu calitatea persoanei

Nealternative Culoarea ochilor


Genul Alternative
Nivelul de educație
Prezența factorilor (dihotomice, binare)
Stadiile cancerului
de risc

Cantitative (numerice): măsoară cantitatea a ceva


Frecvența pulsului Continue Temperatura corpului
Discrete
Numărul de țigarete Talia
Numărul de copii Tensiunea arterială
Scalele de măsurare (sumar)

Variabile Scalele de măsurare Exemple


Nominală Culoarea ochilor
Calitative
(categoriale) Ordinală Nivelul de educație

de Interval Temperatura corpului


Cantitative
(numerice) de Raport Frecvența pulsului

„NOIR”
ORDINEA IERARHICĂ A DATELOR

Aceste niveluri de măsurare pot fi plasate în ordine ierarhică.

De raport: raportul are sens pentru că


există un zero absolut.
De raport

De De interval: distanța are sens, raportul nu


interval
are sens pentru că nu există un zero
Ordinală absolut.

Ordinală: ordinea/ordonarea are sens,


Nominală distanța nu are sens.

Nominală: ordinea nu are sens.


DISTRIBUȚII DE FRECVENȚE. FORMA DISTRIBUȚIEI.
REPREZENTAREA GRAFICĂ A DATELOR
Un set de date neorganizate este greu de
înțeles.
O primă modalitate simplă de organizare a
datelor este să se enumere toate valorile
posibile ale unei variabile, ordonat de la cea
mai mică valoare la cea mai mare,
înregistrând frecvența (ƒ) cu care apare
fiecare valoare.

Aceasta formează o distribuție de


frecvențe.
 Distribuție: o colecție de valori dintr-un eșantion pentru o singură variabilă.
De obicei, aceste valori sunt aranjate în ordine crescătoare, de la cea mai mică
la cea mai mare.

 Frecvența (f): cât de des/de câte ori apare o valoare într-o distribuție.
DISTRIBUȚII DE FRECVENȚE GRUPATE
ALE NIVELURILOR DE COLESTEROL SERIC
 Datele pot fi gestionate mai ușor prin LA 200 DE BĂRBAȚI
crearea unei distribuții de frecvențe
grupate.

 Valorile individuale sunt grupate (între 7


și 20 de grupuri sunt de obicei adecvate).

 Fiecare grup de valori are un interval de


clasă egal.

 În acest exemplu, există 10 grupuri cu un


interval de clasă de 10 (de la 161 la 170,
de la 171 la 180 și așa mai departe).
Exemple de tabele cu distribuții de frecvențe pentru date
categoriale și numerice
SET DE DATE STATISTICE

37
FRECVENȚA RELATIVĂ, FRECVENȚA CUMULATĂ

 Frecvența relativă este măsura în care proporția sau


procentul de valori ale datelor se încadrează într-o
anumită clasă / raportul dintre frecvența absolută și suma
frecvențelor absolute.

 Frecventa cumulata pentru o categorie este suma tuturor


frecventelor anterioare plus frecventa curenta.

38
DISTRIBUȚIE DE FRECVENȚE

Date cantitative Date calitative


Frecvența
Numărul dinților Frecvența, Frecvența Frecvența
cumulată, Frecvența, Frecvența
naturali abs. relativă, % Genul cumulată,
% abs. relativă, %
%
15 1 10,0 10,0
16 1 10,0 20,0
Bărbați 6 60,0 60,0
17 2 20,0 40,0
18 3 30,0 70,0
Femei 4 40,0 100,0
20 2 20,0 90,0
22 1 10,0 100,0
Total 10 100,0 100,0
Total 10 100,0 100,0

39
Selectarea tipului de reprezentare grafică
depinde de tipul de date

Nominală Diagrama de structură în cerc


sau
digrama cu coloane/bare Mnemonic :
Ordinală Diagrama de structură în cerc
sau
“NOIR”
digrama cu coloane/bare
Numerică (de interval sau de Diagrama liniară,
raport) histograma,
poligonul frecvențelor,
corelograma

De ce este important tipul de variabilă?

Metodele utilizate pentru prezentarea, rezumarea și


analiza datelor depind de tipul de variabilă:
categorială sau numerică.
HISTOGRAMA

Frecvența, f
 Histograma descrie o
distribuție de frecvențe
pentru date numerice
(discrete sau continue).
 Pe axa X sunt plasate
intervalele de clasă, iar pe axa
Y, frecvențele.
 Fără goluri între bare.
 Oferă o idee despre forma Colesterolul seric, mg/dl

distribuției de frecvențe.
Histograma distribuției de frecvențe grupate a
nivelurilor de colesterol seric la 200 de bărbați
POLIGONUL FRECVENȚELOR
Frecvența, f
 Poligonul frecvențelor este,
de asemenea, utilizat pentru
a prezenta distribuția de
frecvențe pentru datele
numerice.
 Sunt utilizate aceleași două
axe ca și pentru histogramă.
 Punctele din mijlocul
Colesterolul seric, mg/dl

fiecărui interval de clasă Poligonul frecvențelor de distribuție a


sunt unite prin linii drepte. nivelurilor de colesterol seric la 200 de bărbați
HISTOGRAMA ȘI POLIGONUL FRECVENȚELOR

Frecvența, f

Histograma și poligonul
frecvențelor pot fi ușor
suprapuse pentru
comparare.
Serum cholesterol, mg/dl

Histograma și poligonul frecvențelor distribuției


nivelurilor de colesterol seric la 200 de bărbați
CORELOGRAMA

Corelograma ilustrează
relația dintre două
variabile numerice (de
interval sau de raport).
DIAGRAMA CU BARE

 Diagramele cu bare sunt


folosite pentru a prezenta date
categoriale (nominale sau
ordinale).
 Fiecare dreptunghi de pe grafic
este separat clar de celelalte
printr-un spațiu.
Diagrama cu bare a nivelurilor medii de colesterol
seric la 100 de bărbați și 100 de femei
DIAGRAMA DE STRUCTURĂ ÎN CERC

Structura mortalității, Republica Moldova,


2016, % (OMS)
Diagrama de structură în 6

cerc este folosită pentru a 4


Boli cardiovasculare

prezenta date categoriale 13


Cancere
(date nominale sau
ordinale). 1
2 Boli respiratorii cronice

59 Diabet
15

Alte boli netransmisibile

46
OBIECTIVE
1. Colectivitatea (populație) statistică;
2. Eșantionul statistic;
3. Unitatea statistică;
4. Variabila statistică;
5. Indicatorul statistic;
6. Parametrul statistic;
7. Clasificarea variabilelor statistice:
– cantitative (continue, discrete);
– calitative (alternative, nealternative).
8. Scalele de măsurare a datelor statistice:
– scala nominală;
– scala ordinală;
– scala de interval;
– scala de raport.
9. Rezumarea datelor și ilustrarea grafică a rezultatelor – tabelul și figura:
– pentru variabilele calitative;
– pentru variabilele cantitative.
10. Distribuția de frecvențe:
– pentru variabilele calitative;
– pentru variabilele cantitative.
47
11. Frecvența relativă. Frecvența cumulată. Frecvența relativă cumulată pentru datele calitative și cantitative.

S-ar putea să vă placă și