Sunteți pe pagina 1din 32

CURS BIOSTATISTICĂ

Facultatea de Inginerie Medicală


Departamentul - Bioinginerie și
Biotehnologii
Universitatea Politehnica București
Ciclul de studii- MASTER
Curs 3

Statistica descriptiva
Statistică descriptivă

• Analiza experimentalã a unei mãrimi, fenomen, constã în efectuarea a


numeroase mãsurãtori şi înregistrarea rezultatelor obţinute.
• Mulţimea elementelor luate în studiu poartã denumirea de populaţie
statisticã, colectivitatea statisticã, sau lot. Submultimi ale acesteia sunt:
grup, esantion, selectie.
• Un element al populaţiei statistice se numeşte unitate statisticã, individ
statistic, subiect.
• In functie de numãrul indivizilor statistici populaţia statisticã poate fi finitã
sau infinitã.
• O populaţie poate fi omogenã dacã elementele componente sunt de acelaşi
tip, sau neomogenã la care elementele componente sunt de tipuri diferite.
• Metodele statistice se aplica doar populatiilor omogene;
• In continuare noi vom considera grup(e) / esantioan(e) cu un anumit volum
de date( in general mic <100), urmand ca la studiile statistice sa se lucreze
cu volume mari de date
• Vom aprofunda cele definite aici in cadrul laboratorului
Reluam cateva din aspectele prezentate in cursul anterior.

• Proprietatea comunã tuturor unitãţilor statistice provenite dintr-o populaţie omogenã


poartã denumirea de caracteristicã, sau variabilã.O populaţie poate avea una sau
mai multe caracteristici. Ele sunt notate de obicei cu litera mare.
• Caracteristicile pot fi:
• - cantitative- exprimate prin valori numerice
• - calitative- exprimate prin atribute ca bun - defect; satisfãcãtor- nesatisfãcãtor etc.
• Caracteristicile cantitative pot fi
• - discrete
• - numerele care le reprezintã aparţin mulţimii numerelor întregi sau raţionale
(numãrul de piese defecte dintr-un lot)
• - continue- dacã într-un interval se poate obţine orice valoare realã pentru
caracteristicã.
• Datele experimentele pot fi culese printr-o cercetare:
• - completã,în cazul mãsurãrii caracteristicii fiecãrui individ statistic
• - selectivã,în cazul mãsurãrii caracteristicilor pentru un anumit numãr de indivizi
• statistici care formeazã un eşantion sau o selecţie. Valoarea numericã a unei
caracteristici cantitative referitoare la o unitate statisticã se numeşte valoare
observatã.Totalitatea valorilor observate formeazã datele experimentale.
Statistica descriptiva
Descrie datele dintr-un esantion !

• Masurarea tendintei • Masurarea dispersiei


centrale 1. Intervalul (range)
1. Media aritmetica 2. Deviatia standard (SD)
2. Mediana 3. Eroarea standard (SE)
3. Modalul 4. Percentilele si IQR
4. Media geometrica 5. Coeficientul de variatie
5. Media armonica
Media
• Media aritmetica
1. m = ∑ xi / n; i = 1,n ( se noteaza m pentru un esantion si cu μ pentru o
populatie)
2. Se utilizeaza numai pentru valori normal distribuite (simetrice)
3. Este sensibila la valori extreme
4. Nu se foloseste pentru valori ordinale, datorita naturii arbitrare a scalei
ordinale
• Media geometrica si media armonica
1. Mg = n√(x1x2x3…xn) → log Mg = (1/n)* ∑log xi; i = 1,n
2. Se utilizeaza numai cu date masurate pe o scala logaritmica
3. Scala logaritmica poate fi folosita la uniformizarea datelor
4. Media armonica este utilizata mai rar ( ex: in economie indicele mediu
armonic al preturilor): Mh= n/(∑ 1/ xi), i = 1,n
5. Relatia intre medii este: Mh<Mg<m
Mediana (“punctul de mijloc”)

• M = jumatatea distantei intre 2 medii (media a 2 valori


medii pentru un numar dat de observatii)
• Se utilizeaza cand datele nu sunt simetrice (neuniform
distribuite)
1. Ex.1: 5 pacienti cu varstele : 42, 44, 46, 48, 49; media =
45.8, mediana = 46
2. Ex.2: 6 pacienti cu varstele : 42, 44, 46, 48, 49, 90; media
= 53, mediana = 47
Relatia dintre medie si mediana

• m = M → date simetric repartizate (distribuite normal)


• m > M → date non-simetrice micsorate la dreapta (“subtiate”)
• m < M → date non-simetrice micsorate la stanga
Forma curbei de frecventa

• Repartiţia datelor poate fi caracterizată şi după forma curbei


de frecvenţă care poate fi simetrică sau asimetrică, turtită sau
ascuţită. Caracterizarea formei curbei poate fi apreciată
orientativ prin apreciera aspectului curbei sau în mod riguros
cu ajutorul unor indicatori statistici care vor fi descrisi in acest
capitol.
• Se foloseste adeseori termenul distributie, dar sensul acestui
termen este mult mai complex si va fi prezentat pe larg in ziua
urmatoare
• Vom prezenta si noi doar aspecte de tip vizual ce tin de
distributia (curba) normala, atat cat ne este folositor pentru
intelegerea celor prezentate in acest curs.
Exemple

Evolutia raportului CD4/CD8 pentru pacienti cu m elanom st 1

5
valori raport
4

0
1 2 3 4 5 6 7 8 9 10

pacienti
Media si mediana

Distributie
normala

Distributie Distributie la
la stanga dreapta
Dominanta( mode)

• Cea mai frecventa aparitie a unui eveniment (valoarea care apare cel mai
frecvent intr-un set de date)
• Se utilizeaza in special cand distributia este bimodala (care arata o
populatie neomogena)

80% 75% Varsta pacientilor cu astm bronisc


70%
450
Numar de pacienti

60%
400

Numar pacienti
50% 350
40% 300
30%
250
20% 200
20% 150
10% 4% 100
1% 50
0% 0
Caprui Negri Verzi Albastri
1

10
da

da

da

da

da

da

da

da

da
Culoarea ochilor

da
ca

ca

ca

ca

ca

ca

ca

ca

ca

ca
De

De

De

De

De

De

De

De

De

De
Distributie unimodala Distributie bimodala
Deviatia (abaterea) standard

• Deviatia standard (SD – standard deviation sau standard deviation


of mean)arata imprastierea fata de medie a valorilor unei multimi
de numere( date):


• Abaterea standard de sondaj (SSD) este un estimator al abaterii
standard a populaţiei, bazat pe un eşantion aleator. Ca statistică,
măsoară gradul de împrăştiere a eşantionului în jurul mediei de
sondaj.
• Se utilizeaza numai pentru valori uniform distribuite (simetrice)
• SSD - notata σ = √[∑(xi-μ)2/(n-1)], μ - media
• μ+/-σ include 68.2% din valori
• μ+/-2σ include 95.4% din valori
• μ+/-3σ include 99.7% din valori
• Eroarea standard : SE = SD/√n
• Varianta (variance) = SD2
Curba Gauss (curba ce reflecta distributia
normala ) (Wikipedia )
Eroarea standard si limitele de incredere

• Este bazata pe un esantion al populatiei si este o estimatie a


deviatiei standard a masuratorilor pentru populatie.
• Este o masura a acuratetei mediei esantionului ca o estimatie
a mediei populatiei.
• Este raportul dintre deviatia standard si radical de ordinul 2
din volumul esantionului.
• Este folosita pentru a construi limitele de incredere in jurul
mediei esantionului.
• Este folosita la testul t.
• SEM=SD/√n unde n=nr. de obs. in esantion
Intervalul (range)

• Intervalul reprezinta de fapt masura unui interval asa cum stim noi de la
matematica adica: diferenta intre cea mai mare si cea mica observatie : x
є [a, b]; range = b-a; b > a; a,b є R

• Coeficientul de variatie masoara imprastierea relativa a datelor si se


aplica in testele de laborator si in procedurile de control ale calitatii: CV =
(SD/μ)100, unde SD este deviatia(abaterea) standard si μ (media)

• Coeficientul de variaţie permite compararea unor serii statistice din punct


de vedere al deviaţiei standard. Un coeficient de variaţie mai mic indică o
grupare mai bună în jurul valorii medii.
In exemplul 1, coeficientul de variaţie pentru setul de date D1 este CV1 =
0,00006. În exemplul 2, avem coeficientul de variaţie CV2 = 0,001229, mai
mare cu două ordine de mărime decât CV1, ceea ce indică o răspândire mult
mai mare în jurul valorii medii.
Intervalul de incredere (confidence level)-
(prezentare generala)

• Reprezinta un interval ce defineste un nivel maxim si


unul minim, numit nivel de incredere cu o anumita
probabilitate asociata
• El este utilizat impreuna cu valoarea mediei sau RR
(risk ratio), OR (odds ratio)
• CI =m ± t SE; t – coeficientul de incredere (valoarea
critica pentru distributia tip t), m – media
esantionului, SE – eroarea standard
• CI - 90%, 95% (cel mai frecvent), 99%
• Cu cat esantionul este mai mare cu atat CI este mai
mic
In analiza statistica descriptiva apar doi coeficienti utili in analiza distributiei unei serii de
date : Skewness si Kurtosis

• Skewness - este folosit in analiza distributiei unei serii de date pentru a indica deviatia
distributiei empirice in raport cu o distributie simetrica in jurul mediei.
Interpretare:
• Skewness > 0 - distributia este inclinata spre stanga, avand mai multe valori extreme
spre dreapta.
• Skewness < 0 - distributia este inclinata spre dreapta, avand mai multe valori
extreme spre stanga.
• Skewness = 0 - media = mediana, distributia este simetrica in jurul mediei.

Kurtosis - este folosit in analiza distributiei unei serii de date pentru a indica gradul de
aplatizare sau de ascutire a unei distributii.
Interpretare:
• Kurtosis > 3 – curba este mai ascutita decat o distibutie normala; avand mai multe
valori concentrate in jurul mediei si cozi mai groase ceeea ce inseamna probabilitati
ridicate pentru valorile extreme. (distributie leptokurtica)
• Kurtosis < 3 –curba este mai plata decat o distibutie normal avand valori dispersate
pe un interval mai mare in jurul mediei. Probabilitatea pentru valori extreme este mai
mica decat in cazul unei distributii normale. (distributie platikurtica)
• Kurtosis = 3 - exemplu distributia normala.( distributie mezokurtica)
Exemple de analiza statistica descriptiva

Kurtosis < 3, Skewness < 0 Kurtosis < 3, Skewness > 0


90
Valori CD3 pentru pacienti cu melanom st 1

80

90
70
80

70 60

60
50
Valori CD3

50

40 40

30
30
20

10 20

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 10

Pacienti
0
0 5 10 15 20 25 30 35 40
Alte exemple
Alte exemple

Evolutia raportului CD4/CD8 pentru pacienti cu m elanom st 1

5
valori raport

0
1 2 3 4 5 6 7 8 9 10

pacienti

Kurtosis < 3, Skewness > 0


Exemple
Cum utilizam cele prezentate pentru a determina
tendinta centrala

• Media este utilizata pentru date numerice si distributia


simetrica a datelor
• Mediana este utilizata pentru date ordinale si distributii
non-simetrice
• Modalul este utilizat pentru distributii bimodale
• Media geometrica este utilizata pentru observatii
masurate pe o scala logaritmica
Quantilele (generalizare a medianei), percentilele , IQR

• Quantilele impart seria de date in r grupe ale caror efe ctive sunt egale. In
general se utilizeaza quartilele ce impart volumul de date in patru parti
egale. Mediana este quantila de ordin 2. Mai exista decile, centile, utilizate
dupa necesitati.
• Percentila de ordin p a unei serii numerice (observate) este cel mai mic
număr astfel încât cel puţin p% dintre numere nu sunt mai mari decât el.
• Percentila este data de procentul (%) de distributie mai mic decat un
numar particular (k);
• Este folosita pentru a compara o valoare individuala cu un set de norme (o
norma);
• IQR (interquartile range) – contine 50% din observatii
• IQR este data de diferenta percentila 75 – percentila 25
• IQR contine mediana
10

Modalitati de utilizare a quartilelor

Frequency
6

Mean =12,2
0 Std. Dev. =7,
0 10 20 30 40 149
Normal Q-Q Plot of CD3 Normal Q-Q Plot of CD8 N =41
CD16
85 40

80
Expected Normal Value

Expected Normal Value


30
Normal Q-Q Plot of CD16
75
30
70
20

Expected Normal Value


65 20

60 10
10
55
50 60 70 80 10 20 30 40

Observed Value Observed Value 0

-10
0 10 20 30

Observed Value

Programul SPSS ofera posibilitatea reprezentarii Q-Q plot( utilizand quartilele) pentru verificarea
normalitatii . Prin aceasta procedura se compara datele observate (reprezentate cu cerculet) cu datele
pe care ar trebui sa le avem ( reppezentate prin linie dreapta) daca distributia noastra ar urma
perfect distributia normala, cu aceeasi medie si aceiasi abatere standard. Daca distributia datelor este
normala, atunci graficul trebuie sa arate o tendinta liniara.
Cum se utilizeaza cele prezentate in masuratorile
pentru dispersie (imprastiere)
• SD se foloseste impreuna cu media pentru valori simetrice
(normal distribuite)
• Percentilele si IQR sunt folosite :
1. impreuna cu mediana pentru valori non-simetrice
2. impreuna cu media pentru a compara o valoare individuala cu un set de
norme
• IQR este folosit pentru a evidentia tendinta centrala a 50% din
date indiferent de distributie
• Intervalul (range) este folosit pentru valori numerice pentru a
evidentia valorile extreme
• Coeficientul de variatie este folosit cand se intentioneaza
compararea distributiei numerice masurate pe scale diferite
Teorema limitei centrale

• Distributia mediei este aproximativ normala


daca marimea esantionului este suficient de
mare (n = 30), indiferent de distributia
valorilor masuratorilor initiale
In concluzie

Categorii de indicatori analizati pana acum:


• Indicatori ai tendintei centrale-valori tipice, reprezentative, care descriu
distributia in intregul ei: modul, mediana, media (aritmetica, geometrica, armonica);

• Indicatori ai imprăstierii– descriu caracteristica de imprăstiere a valorilor distributiei:


Interval, SD,SE,quantile, percentile, IQR, coeficient de variatie;

• Indicatori ai formei distributiei– se referă la forma curbei de reprezentare grafică


a distributiei;
Avantajele indicatorilor tendintei centrale

MODUL
- Usor de calculat (nesemnificativ in prezent);
- Poate fi utilizat pentru orice tip de scală;
- Este singurul indicator pentru scale nominale;-
- Corespunde unui scor real al distributiei;
-Poate fi utilizată pe scale ordinale si de interval\raport;

MEDIANA
-Poate fi utilizată si pe distributii de frecventă cu clase deschise sau
scoruri nedeterminate la marginile distributiei;

MEDIA
- Reflectă valorile intregii distributii;
- Are multe proprietăti statistice dezirabile;
- Adecvată pentru utilizare in statistici avansate;
Dezavantajele indicatorilor tendintei centrale

MODUL
- in general, nesigur, mai ales in cazul esantioanelor mici,cand se poate
modifica dramatic la o modificare minoră a unei valori;
- Poate fi gresit interpretat. Se identifică total cu un scor anume, fără a spune
nimic despre celelalte valori;
- Nu poate fi utilizat in statistici inferentiale;
-Poate să nu corespundă unei valori reale (N par);

MEDIANA
- Poate să nu corespundă unei valori reale (N par);
- Nu reflectă valorile distributiei (un scor extrem se poate
modifica, fără a afecta Me);
- Este mai putin sigură in extrapolarea de la esantion la
populatie;
-Greu de utilizat in statistici avansate

MEDIA
- De obicei nu corespunde unei valori reale;
- Nu este tocmai adecvată pentru scale ordinale;
- Conduce la interpretări gresite pe distributii asimetrice
- Poate fi puternic afectată de scorurile extreme;

S-ar putea să vă placă și