Sunteți pe pagina 1din 45

TIPURI DE VARIABILE

SINTETIZAREA DATELOR
“Unelte”

Vom învăţa prin acest curs să folosim două


excelente instrumente pentru profesia pe care o veţi
practica, familiarizându-ne cu biostatistica, prin
intermediul calculatorului.
INDUCŢIE

Inferenţă Statistică

TEORII
OBSERVAŢII
GENERALE

Predicţie Statistică

DEDUCŢIE
“În a few minutes
a computer can make
a mistake so great that
it would have taken
many man many
months to equal it.”
Bill Gates
BIOSTATISTICĂ INTUITIVĂ

 Curs orientat către înţelegerea conceptelor şi a


demersului logic statistic, fără a fi bazat pe formule
matematice (Motulsky H., Glantz S.), în ideea
dezvoltării capacităţii de utilizare a softurilor statistice
STATISTICĂ DESCRIPTIVĂ

 Tipuri de variabile
 Sintetizarea datelor
TIPURI DE VARIABILE

Limbaj medical – Limbaj statistic


“Do you speak the language?”
Temă: Să identificaţi tipul fiecărei variabile din Setul Minim de Date la
nivel de Pacient (SMDP) din Foaia de Observaţie Clinică Generală
(FOCG)
 Variabila se defineşte ca o cantitate observabilă sau un o
caracteristică, un atribut care variază de la un membru la
altul al unei populaţii luate în studiu. De exemplu, dacă
măsurăm greutatea fiecărui elev dintr-o clasă vom avea o
serie de numere care vor varia de la un elev la altul.

 Variabilă versus constantă: Spre deosebire de variabilă,


constanta reprezintă un număr specific care rămâne acelaşi
indiferent de condiţii. De exemplu, punctul de îngheţare al
apei este acelaşi în orice condiţii, şi anume 0ºC.
Limbaj medical – Limbaj statistic

Problema de studiat: S-a schimbat standardul morfologic la


copiii din România în urma impactului socio-economic al
perioadei de tranziţie (schimbarea stilului de viaţă,
deschiderea către o piaţă liberă, pătrunderea produselor
alimentare de tip occidental, modificări ale modelului familial,
securităţii sociale, politicilor medicale) ?
Limbaj medical – Limbaj statistic

Problema de studiat: Spitalul in care suntem angajaţi işi


propune să ofere servicii de e-health/e-sănătate marţienilor.
Suntem trimişi să culegem informaţii în acest scop, şi începem
prin a studia înălţimea marţienilor.

?
Definirea problemei

Sursa:National Geographic August 2004


Metoda de lucru

Să presupunem că din mergem pe marte şi începem prin a


măsura înălţimea (caracteristica sau variabila) tuturor
marţienilor obţinând următoarele valori (variantele
variabilei):

129,144,122,130,135,130,135,121,127,121,128,128,123,138,12
9,140,122,
32,129,135,132,132,143136,142,138,147,140,142,149,143,130,
126,129,127,140,130,134,136,149,138,142,138,142,143,14012
5,126,128,139,132,129,137,139,122,123,128,124,130,133,119,1
15,137,126,122,130,135,125,128135,126,128,113,130,123,123,
123,128,135,122,132,120,131,117,130,128,129,132,139,139,12
9,140132,139,135,126,129,133,141.
Dacă încerc să fac o scară a frecvenţei valorilor obţinute,
şi pun unul sub altul marţienii cu aceeaşi înălţime (rotunjind
cifrele), obţin o anumită formă, (ca cea din slide-ul următor),
care reprezintă felul în care se distribuie (distribuţia) înălţimile
marţienilor (distribuţie de frecvenţă a înălţimilor).

Se observă că majoriatea au o înălţime între 124cm şi


138cm, şi că foarte puţini au sub 117cm sau peste 145cm.
Dacă încerc să desenez o linie care să delimiteze limita
superioară a acestei forme, obţin o linie curbă care seamănă
foarte mult cu un clopot.

Majoritatea marţienilor au o înălţime aflată mai aproape de


medie (132cm), de centru, decât la distanţă faţă de ea, şi un
număr aproximativ egal de persoane sunt mai înalte sau mai
scunde faţă de medie, înălţimile se împrăştie simetric în jurul
mediei.
f

124 cm 138 cm
Medie =
132 cm
117 cm 145 cm
Marţieni şi
Venusieni

Medie

Cât de mult variază înălţimile în fiecare populaţie (marţieni şi


venusieni) se exprimă în forma mai largă sau mai îngustă a
clopotului, deci am putea să o cuantificăm atât prin mărimea
suprafeţei de sub clopot (varianţă), cât şi prin distanţa de la medie
la fiecare variabilă (deviaţia standard). Două populaţii “normale”
(baze de date) pot avea aceeaşi medie dar deviaţii standard diferite
(distanţa de la medie la marginea clopotului). Cu cât SD este mai
mare, cu atât mai mare este variabilitatea (datele sunt mai
“răspândite”, mai “împrăştiate”).
“PARAMETRII” -
CARACTERISTICI
Simbol în
POPULAŢIE
volumul N
media μ
deviaţia standard σ
Cum am putea folosi un limbaj numeric, sintetic, pentru
toată informaţia pe care am adunat-o?
Cu alte cuvinte, cum calculăm parametrii statistici ai
distribuţiei pe care o avem? Întreaga muncă pe care am
depus-o poate fi sintetizată prin cei 3 parametri statistici care
definesc orice distribuţie normală de variabilă.

Volumul Media Deviaţia Standard a


populaţiei ? populaţiei, cm populaţiei, cm
200 132 7
INDICATOR DE TENDINŢĂ CENTRALĂ

 Media : suma tuturor valorilor (notate cu X)


dintr-o distribuţie divizată cu numărul acestor
valori (notate cu N).
μ=ΣX/N
Media
 Suma tuturor valorilor dintr-o distribuţie de frecvenţă
divizată cu numărul acestor valori
 Ex.: 5 persoane de sex masculin incluse într-un studiu privind
medicamentele antihipertensive au vârstele: 52, 55, 56. 58, 59 ; suma
acestora este 280; prin divizarea cu 5 obţinem media de vîrstă a grupului
de 56 de ani.

 Este foarte sensibilă la valorile extreme, deci nu este un


parametru care să poată caracteriza distribuţiile asimetrice
 Ex.: dacă în exemplul de mai sus ar exista un al şaselea pacient cu vârsta
de 92 de ani, atunci media de vârstă ar fi de 62 de ani, deşi un singir
bărbat est peste 60 de ani; în aceste condiţii mediana ar fi de preferat ca
„punct de mijloc”.

 Rezistă cel mai bine fluctuaţiilor dintre diferite eşantioane


(eşantioane reprezentative repetate ale aceleiaşi populaţii tind să
aibă medii foarte similare , ceea ce se numeşte teorema limitei
centrale (calcul SE).
A

Poziţia
parametrilor
50% sub medie

f
B

Medie
Mediană
Mod
22
Distribuţie asimetrică pozitivă

Mod Mediană Medie

23
Distribuţie asimetrică negativă

Medie Mediană Mod

24
Relaţia dintre măsurile tendinţei
centrale depinde de forma distribuţiei

 Dacă modul = mediana = media atunci distribuţia


este unimodală şi simetrică, deci normală
 Dacă modul < mediana < media atunci distribuţia
este uşor asimetrică spre stânga
 Dacă modul > mediana > media atunci distribuţia
este uşor asimetrică spre dreapta
 Dacă modul > media > mediana atunci distribuţia
este puternic asimetrică spre dreapta
 Dacă modul < media < mediana atunci distribuţia
este puternic asimetrică spre stânga
Mediana
 Împarte distribuţia de frecvenţă în două atunci când toate
variabilele sunt listate în ordine: jumătate la stânga ei,
jumătate la dreapta ei
 În cazul unui număr impar de variabile, mediana se
calculează ca medie a celor două variabile centrale
 în ex. de mai sus, vîrsta mediană a primilor 5 pacienţi
din studiu este de 56 deani, având aceeaşi valoare ca şi
media; în cazul în care luăm în considerare primii 6
pacienţi, există două vârste „centrale”: 56 şi 58 de ani.
Mediana reprezintă media aritmetică a acestora, adică 57
de ani.
 Nu este influenţată de valorile extreme, fiind foarte utilă ca
măsură centrală a distribuţiilor de frecvenţă asimetrice
 Coincide cu percentila 50
Mod
 valoarea care apare cu cea mai mare frecvenţă
(distribuţie unimodală)
 dacă apar două variabile cu cea mai mare frecvenţă,
distribuţia se numeşte bimodală ( o distribuţie
bimodală sugerează faptul că două populaţii sunt
amestecate, aşa încât ne putem gândi la împărtirea
acestei populaţii în 2 subpopulaţii unimodale care să fie
analizate prin intermediul testelor pentru distribuţii
normale)
 dacă mai mult de 2 variabile apar cu cea mai mare
frecvenţă, distribuţia se numeşte multimodală
 este total neinfluenţat de valorile extreme ale
distribuţiei
A

Poziţia
parametrilor
50% sub medie

f
B

Medie
Mediană
Mod
28
Distribuţie Bimodală

Mod Medie Mod


Mediană
29
Exemple

Ex: Precizaţi care este mediana şi care este modul


pentru următorul set de date:
3,3,9,5,4,0,6,3,4,0,3,3,3,4,4,5,6,9
0,0,3,3,3,3,3,3,4,4,4,4,5,5,6,6,9,9,
Ex: precizaţi care este modul pentru eşantionul de 23
de pacienţi cu următoarele grupe sangvine:
GRUPA SANGVINĂ FRECVENŢA
(NUMĂR DE PACIENŢI)
A 5
B 5
AB 3
O 10
INDICATOR DE TENDINŢĂ CENTRALĂ

 Media
 Mediană
 Mod
Avantaje Dezavantaje

Media -calculată pe baza tuturor -distorsionată de valorile extreme, deci


variabilelor nu este un parametru care să poată
-definit şi deci mangerizat caracteriza distribuţiile asimetrice
matematic - distorsionată de distribuţie asimetrică
-distribuţia eşantionului a variabilelor
cunoscută
-rezistă cel mai bine fluctuaţiilor
dintre diferite eşantioane
Mediana -nedistorsionată de valorile -ignoră majoritatea informaţiei
extreme, fiind foarte utilă ca - într-o oarecare măsură, slabă
măsură centrală a distribuţie de eşantinare
distribuţiilor de frecvenţă - nedefinit matematic
asimetrice
-nedistorsionată de distribuţie
asimetrică a variabilelor
Modul - uşor de calculat -ignoră majoritatea informaţiei
- util pentru datele nominale - slabă stabilitate de eşantionare
- nedefinit matematic
INDICATORI DE DISPERSIE

Oferă informaţii despre extinderea,


împrăştierea datelor:

 Amplitudine
 Deviaţie standard
 Varianţă
 Coeficient de variaţie
AMPLITUDINEA

 diferenţa dintre valoarea maximă (Xmax) şi


minimă (Xmin) din serie:
A = Xmax – Xmin

 dezavantaj: se bazează doar pe valorile


extreme ale seriei
 nu oferă nici o informaţie despre cât de
aglomerate sunt datele între extreme
VARIANŢA

 media ponderată a abaterilor pătratice dintre


valorile observate şi media lor
k

 (x  x)
i 1
i
2
 fi
 x2  k

f
i 1
i
DEVIAŢIA STANDARD

 distanţa fiecărui punct faţă de centrul seriei,


abatere care poate fi în sens pozitiv, cât şi în
sens negativ

x    2
x
Distribuţia Normală

Datele sunt distribuite similar în stânga şi în dreapta


mediei, aşa încât distribuţia este simetrică

Are formă de clopot

Depinde de doi parametri:


 μ = media (populaţiei)
 σ = deviaţia standard (a populaţiei)
A

Poziţia
parametrilor
50% sub medie

f
B

Medie
Mediană
Mod
38
Această formă de distribuţie apare atât de des, încât matematicienii au
numit-o distribuţie normală sau gaussiană.
Ex.: dacă AV a unei populaţii este normal distribuită, cu o medie de 70 şi
o DS de 5, atunci putem spune că 68.3% din populaţie are o AV cuprinsă
între 65 şi 75, 95,5% din populaţie are o AV cuprinsă între 60 şi 80 şi
99.7% din populaţie are o AV cuprinsă între 55 şi 85 (teorema limită
centrală)
Medie

1 sd 1 sd 1 sd 1 sd 1 sd 1 sd

68.3%
95,5%
99.7% 39
Coeficientul de variaţie (CV%)

 un indicator procentual al raportului dintre


deviaţia standard şi media caracteristicii
studiate:
 Gradul de omogenitate al seriei relativ la
pragurile capacităţii vitale:

CV% ≤ 10% Serie omogenă cu dispersie mică


10% < CV% ≤ 20% Serie relative omogenă
20% < CV% ≤ 30% Serie relative eterogenă
30% < CV% Serie eterogenă
INDICATORI DE LOCALIZARE

QUANTILE – impartirea in “n” intervale

 CAZURI PARTICULARE
 MEDIANA n = 2
 QUARTILE n = 4
 DECILE n = 10
 CENTILE n = 100
 PROMILE n = 1000
 Calcul: dupa ordonare!

From Primer of Biostatistics by Stanton A Glantz


Măsuri ale Avantaje Dezavantaje
împrăştierii

Amplitudinea - uşor de determinat - utilizează numai două valori


- este distorsionată de valorile
extreme
- tinde să crească odată cu creşterea
volumului eşantionului

Varianţa - utilizează toate valorile - unitatea de măsură este pătratul


- este definită matematic unităţii seriei de date
- este sensibilă la valorile extreme
- nu este un parametru care să poată
caracteriza distribuţiile asimetrice

Deviaţia - are avantajele varianţei - sensibilă la valorile extreme


Standard - unitatea de măsură este - - nu este un parametru care să
aceeaşi cu a seriei de date poată caracteriza distribuţiile
- este uşor de interpretat asimetrice
N-ar fi mai bine totuşi să pot
măsura un număr mai mic
de copii, iar rezultatele să le
pot generaliza la întreaga
populaţie? Acest lucru se
cheamă eşantionaj statistic.

Eşantionul pe baza căruia


reuşim să generalizăm
rezultatele la nivelul întregii
populaţii, poartă numele de
eşantion reprezentativ.
Multumesc pentru atenţia acordată!