Sunteți pe pagina 1din 50

Tipuri de date, frecvene,

distribuii

Coninutul acestui curs:


Tipuri de date
Distribuii de frecven

Histograme i alte reprezentri grafice


Simetrie i asimetrie, mediana i alte
cuantilele, media, amplitudinea,
dispersia, abaterea standard

Tipuri de date

Datele calitative (variabil categorial, variabil de


clasificare sau atribut) apar atunci cnd indivizii pot
aparine unor (fi clasificai n) clase separate.
Ex: diagnosticul, sexul, decedat/viu

Datele cantitative sunt numerice i sunt obinute fie


prin numrare fie sunt rezultatul unei msurtori.
Dac valorile sunt numere ntregi (obinute prin
numrare) atunci aceste date se numesc discrete.
Ex: nr de episoade de ulcer

Dac sunt valorile sunt obinute prin msurtori


atunci ele pot fi orice valoare dintr-un interval i n
acest caz se numesc continue.
Ex: presiunea sngelui, colesterolul seric

Tipuri de date
Populaie - nr mare de indivizi
- caracter dinamic
- este bine definit la un moment de timp dat
Eantion este parte mic i reprezentativ din
populaie (se poate extrage suficient informaie pentru
a se face inferene asupra caracteristicilor studiate la
nivelul populaiei)
Variabilele sunt caliti sau cantiti care pot s aib
valori diferite de la un membru al unui grup (eantion) la
altul.
O statistic este o formul a crei valoare se obine cu
ajutorul datelor dintr-un eantion.

Distribuii de frecvene
Sursa de referin pentru pacienii dintr-un studiu
psihoterapeutic referitor la consilierea durerii lombare
(Frost et al., 2004)

Sursa de referin (consilierul) este o variabil calitativ.


Frost H, Lamb SE, Doll HA, Carver PT, Stewart-Brown S. (2004) Randomised controlled trial of physiotherapy compared with advice
for low back pain. British Medical Journal 329, 708-711.

Distribuii de frecvene
Sursa de referin pentru pacienii
psihotarapeutic (Frost et al., 2004)

dintr-un

studiu

Frecven = numrul de persoane care aparin unei anumite


categorii.
Frecven relativ (frecven proporional) = proporia
persoanelor care aparin unei anumite categorii.
Frecvena relativ pentru medicii generaliti este de 256/285 =
0.898 sau 89.8%.

Distribuii de frecvene
Sursa de referin pentru pacienii dintr-un studiu
psihotarapeutic (Frost et al., 2004)

Frecven = numrul de persoane care aparin unei anumite

categorii.
Frecven relativ (frecven proporional) = proporia
persoanelor care aparin unei anumite categorii.
Distribuie de frecven = muimea valorilor frecvenelor pentru
toate categoriile posibile.

Categorii ordonate
Mobilitatea pacienilor recrutai n studiul VenUS I
(Nelson et al., 2004)
Imobilitate

Nelson EA, Iglesias CP, Cullum N, Torgerson DJ. (2004) Randomized clinical trial of four-layer and short-stretch compression
bandages for venous leg ulcers (VenUS I). British Journal of Surgery 91, 1292-1299.

Categorii ordonate
Mobilitatea pacienilor recrutai n studiul VenUS I
(Nelson et al., 2004)
Imobilitate
1
2
3

Frecvena cumulat pentru o valoare = nr de indivizi cu


valori mai mici sau egale cu aceast valoare.
Frecvena cumulat relativ pentru o valoare = proporia
de indivizi din eantion cu valori mai mici sau egale cu
aceast valoare.

Variabile cantitative discrete


Numrul de episoade de ulcer venos dup debut la
pacienii din studiul VenUS I (Nelson et al., 2004)

Variabile cantitative discrete


Numrul de episoade de ulcer venos dup debut la
pacienii din studiul VenUS I (Nelson et al., 2004)

Se poate numra de cte ori apare fiecare valoare


pentru a obine distribuia de frecven.

Variabile continue
Colesterolul seric (mmol/L) msurat pe un eantion de 86
pacieni cu accident vascular cerebral (Markus et al., 1995).

Markus HS, Barley J, Lunt R, Bland JM, Jeffery S, Carter ND, Brown MM. (1995) Angiotensin-converting enzyme gene deletion
polymorphism: a new risk factor for lacunar stroke but not carotid atheroma. Stroke 26, 1329-33.

Variabile continue
Colesterolul seric (mmol/L) msurat pe un eantion de 86
pacieni cu accident vascular cerebral (Markus et al., 1995).

Exist mai multe valori apar doar o singur dat iar numrul
de apariii al unei valori nu ajut n acest caz.

Variabile continue
Colesterolul seric (mmol/L) msurat pe un eantion de 86
pacieni cu accident vascular cerebral (Markus et al., 1995).

Se mparte scala (plaja de valori) n intervale (clase) adic 3.0 4.0, 4.0 - 5.0, i aa mai departe.
Se numr persoanele din fiecare interval.

Variabile continue
Intervalele (clasele) nu trebuie s se suprapun
(trebuie s se decid ce interval va conine punctul de
frontier).
Se obinuiete se pun limita inferioar n intervalul la
care ne referim iar limita superioar n intervalul
urmtor.
Astfel, intervalul care ncepe de la 3.0 i se termin la
4.0, conine 3.0 dar nu conine 4.0.
Putem scrie aceasta ca 3.0 sau 3.0 4.0 sau
3.0 3.999.

Variabile continue
Colesterolul seric (mmol/L):

Variabile continue
Distribuia de frecven a colesterolul seric (mmol/L):

Depinde de alegerea limii intervalului (?mare, ?mic).


Forma distribuiei este foarte important.
Prezentarea grafic a acestei distribuii este histograma.

Histograme i alte grafice pentru frecven


Histograma = diagram n care fiecare interval este
reprezentat pe ax de o bar dreptunghiular a crui
nlime este direct proporional cu frecvena sau nr de
observaii (proporia.. ) care se afl n intervalul considerat.

Frecvena

Frecvena relativ

Oy:

Ox:

Colesterolul seric (mmol/L)

Nr de apariii!

Colesterolul seric (mmol/L)

Proporii!

Histograme i alte grafice pentru frecven

Frecvena

Frecvena

Histograma colesterorului seric, scala de frecvene:

Colesterolul seric (mmol/L)

Colesterolul seric (mmol/L)

Diferite puncte de plecare (limita inferioar a primului


interval) i lungimi de interval, form oarecum diferit!
Echilibrat!

Grosolan!

Histograme i alte grafice pentru frecven

Colesterolul seric (mmol/L)

Densitate de frecven

Frecvena

Histograma colesterorului seric, scala de frecven i de


densitate de frecven

Colesterolul seric (mmol/L)

n acest caz aria de sub histogram reprezint frecvena.


Densitatea de frecven este nr de observaii pe unitatea de variabil.
Pentru 3.75 - 4.25 mmol/L, densitatea de frecven este de 4 observaii
pe mmol/L. Limea intervalului = 0.5, frecvena = 4 0.5 =2.

Histograme i alte grafice pentru frecven

Densitate de frecven

Densitate de frecven relativ

Histograma colesterorului seric, scala de densitate de


frecven i densitate de frecven relativ

Colesterolul seric (mmol/L)

Colesterolul seric (mmol/L)

Dac se reprezint grafic densitatea de frecven relativ


(proporia de observaii pe unitatea de variabil) atunci aria
histogramei va fi 1.0.

Histograme i alte grafice pentru frecven


Distribuie
neregulat!
Frecven

Densitatea de frecven ne permite netezirea histogramelor.


Pe scala frecvenelor, unificarea
intervalelor produce o impresie
greit.
Combinarea
ultimelor 3
intervale!
Impresie
eronat!

Presiunea sistolic a sngelui (mm Hg)

Densitate de frecven

Frecven

Presiunea sistolic a sngelui (mm Hg)

Form corect
a distribuiei

Presiunea sistolic a sngelui (mm Hg)

Histograme i alte grafice pentru frecven

Frecvena

Pentru o variabil discret dreptunghiurile (barele) pot


fi separate:

Numrul de episoade de ulcer venos

Aceasta subliniaz discretitudinea.

Poligonul frecvenelor:
unirea vrfurile barelor
din histogram

Frecvena relativ

Histograme i alte grafice pentru frecven

Util n reprezentarea a
mai
mult
de
o
distribuie pe aceleai
axe!

Frecvena relativ

Colesterolul seric (mmol/L)


Sntoi

Pacieni cu
accident vascular

Colesterolul seric (mmol/L)

Histograme i alte grafice pentru frecven


Pentru o variabil calitativ se poate folosi diagrama
circular sau diagrama cu dreptunghiuri orizontale
(bare):

Forma distribuiilor de frecven


Modul este valoarea cea mai frecvent ntlnit n
distribuie.
Cozile sunt locuri sunt extreme ale distribuiei unde
observaiile sunt, de obicei, rare.
Distribuia unimodal este distribuia cu un singur modul.

Frecvena

Modul

Coada
inferioar

Coada
superioar

Interval (clasa) modal()


Colesterolul seric (mmol/L)

Forma distribuiilor de frecven


Modul este valoarea cea mai frecvent ntlnit n
distribuie.
Cozile sunt locuri sunt extreme ale distribuiei unde
observaiile sunt, de obicei, rare.
Distribuia unimodal este distribuia cu un singur modul.

Frecvena

O singur
populaie!

Numrul de episoade de ulcer venos

Forma distribuiilor de frecven

Frecvena

Modul este valoarea cea mai frecvent ntlnit n


distribuie.
Cozile sunt locuri sunt extreme ale distribuiei unde
observaiile sunt, de obicei, rare.
Distribuia bimodal este distribuia cu dou module.
Modul
Tensiunea arterial
sistolic la 251 pacieni
Modul
admii la o unitate de
terapie intensiv (77
diagnostice).

Presiunea sistolic a sngelui (mm Hg)


Valori normale

n acest caz avem dou


populaii!

Forma distribuiilor de frecven


Prile histogramei aflate n apropierea extremelor se
numesc cozi ale distribuiei.

Frecvena

Dac coada din dreapta este de lungime similar cu


cea din stnga, se spune c distribuia este simetric.

nlimea pentru 222 de


femei admise n studiul
VenUS I.
nlimea (cm)

Forma distribuiilor de frecven


Prile histogramei aflate n apropierea extremelor se
numesc cozi ale distribuiei.

Frecvena

Frecvena

Dac coada din dreapta este mai lung dect coada


din stnga atunci distribuia este asimetric la
dreapta sau pozitiv asimetric.

Colesterolul seric (mmol/L)

+
Numrul de episoade de ulcer venos

Forma distribuiilor de frecven


Prile histogramei aflate n apropierea extremelor se
numesc cozi ale distribuiei.

Frecvena

Dac coada din stnga este mai lung dect coada din
dreapta atunci distribuia este asimetric la stnga
sau negativ asimetric.
Vrsta gestational
(sarcinii) n
momentul naterii.

Vrsta sarcinii (sptmni)

Forma distribuiilor de frecven


Majoritatea datelor
distribuii unimodale!

medicale

au

Majoritatea datelor medicale urmeaz


o distribuie fie simetric fie pozitiv
asimetric!

Sintetizarea datelor cantitative:


mediane i cuantile
Cuantilele = valori care mpart distribuia astfel nct
exist o anumit proporie de observaii care se afl
la stnga cuantilei.
Mediana = valoarea central a distribuiei astfel nct
jumtate dintre observaii sunt mai mici sau egale
dect valoarea ei i jumtate sunt mai mari sau egale
cu aceasta.
Pentru datele referitoare la colesterol mediana este
6.15 i se afl ntre observaiile a 43-a i a 44-a.
Dac avem un numr impar de observaii, mediana
este valoarea central iar pentru un numr par de
observaii, mediana este media aritmetic a celor
dou valori centrale.

Sintetizarea datelor cantitative:


mediane i cuartile

Frecvena

Cuartilele sunt valori (trei!) care mpart distribuia n patru


pri egale. Cea de-a doua cuartil este mediana.
Prima cuartil este valoare care delimiteaz primul sfert de
distribuie (las 25% din observaii la stnga ei), iar cea de-a
treia cuartil delimiteaz primele trei sferturi de distribuie
(las la stnga ei 75% din observaii).
!! cuartila este un punct
de diviziune, nu reprezint
aria de sub grafic.
Prima
A treia
cuartil
cuartil
Mediana
Colesterolul seric (mmol/L)

Sintetizarea datelor cantitative:


mediane i cuartile
Putem mpri distribuia n 100 de pri egale adic
n centile sau percentile.
Astfel putem vorbim de punctul care delimiteaz
20% din observaii ca fiind centila 20 sau a 20-a
percentil.
Astfel mediana este centila 50, prima cuartila este
centila 25, iar cea de-a treia cuartil este centila 75.

Sintetizarea datelor cantitative:


media
Media artimetic, de obicei ntlnit sub denumirea
simpl de medie, se obine prin nsumarea valorilor
tuturor observaiilor i apoi prin mprirea sumei la
numrul lor.
Media este adesea notat cu o bar micu asezat
deasupra simbolului variabilei, adic x .
Media eantinului are proprieti matematice mult mai
utile dect mediana i din acest motiv este folosit
adesea n metodele de comparaie pe care le vom
descrie mai trziu.
Mediana este o statistic descriptiv foarte util ns nu
este prea des utilizat.

Sintetizarea datelor:
mediana, media i asimetria
Media colesterolului = 6.34, mediana colesterolului = 6.15
Media nlimii = 162.2, mediana nlimii = 162. 6
Media episoadelor de ulcer = 3.4, mediana episoadelor = 2
Dac distribuia este simetric media i mediana au aproximativ
aceeai valoare, iar n cazul unei distribuii asimetrice media i
mediana sunt de obicei diferite.
Dac distribuia este asimetric la dreapta, la fel ca n cazul
colesterolui seric, valoarea mediei va fi de obicei mai mare dect
cea a valoarea medianei, iar n cazul n care este asimetric la
stnga valoarea medianei va fi de obicei mai mare dect valoarea
mediei.
Acest lucru se datoreaz faptului c valorile din coada distribuiei
afecteaz media i nu mediana.

Sintetizarea datelor:
mediana, media i asimetria
Frecvena

Asimetrie spre
dreapta!

Media
Mediana

Colesterolul seric (mmol/L)

Prin creterea valorii celor mai mari observaii, valoarea


mediei va crete i ea.
Mediana nu este, ns, afectat!

Sintetizarea datelor cantitative:


variabilitatea
Media i mediana sunt msuri de tendin central care
ncearc s determine poziia de mijloc din distribuie.
Este necesar, de asemenea, i o msur pentru
mprtiere, dispersie sau variabilitate a datelor din
distribuiei.
Amplitudinea este diferena dintre cea mai mare i cea mai
mic valoare. Aceasta este o msur util din punct de
vedere descriptiv, dar are dou dezavantaje. n primul rnd,
depinde doar de valorile extreme care pot varia foarte mult
de la un eantion la altul. n al doilea rnd, depinde i de
mrimea eantionului. Dac eantionul este mai mare
extremele sunt susceptibile de a fi departe una de cealalt.

Sintetizarea datelor cantitative:


variabilitatea
Amplitudinea depinde i de mrimea eantionului.
Dac eantionul este mai mare extremele sunt
susceptibile de a fi departe una de cealalt.

Putem rezolva aceast problem prin utilizarea


amplitudinii intercuartile (interquartile range sau
IQR) adic diferena dintre prima i a treia cuartil.

Sintetizarea datelor cantitative:


variabilitatea
n analiza datelor, amplitudinea obinuit i
amplitudinea intercuartil nu sunt suficiente. n
locul acestora vom folosi alte dou msuri ale
variabilitii i anume dispersia sau variana i
abaterea standard.
Aceste msuri arat ct de deprtate sunt observaiile
de centrul distribuiei.
Variana sau dispersia este media aritmetic a
ptratelor diferenelor dintre observaii i media lor.
Abaterea standard (SD = standard deviation) este
rdcina ptrat din varian sau dispersie.

Sintetizarea datelor cantitative:


variana sau dispersia
Variana sau dispersia este media aritmetic a
ptratelor diferenelor dintre observaii i media lor.
n cazul unei singure observaii, variana sau dispersia
nu se poate calcula. Media este chiar observaia nsi
iar diferena este nul. Sunt necesare cel puin dou
observaii.
Suma ptratelor diferenelor fa de medie este
proporional cu numrul observaiilor minus unu,
valoare cunoscut sub numele de grade de libertate.
Variana este estimat ca fiind suma ptratelor
diferenelor fa de medie mprit prin gradele de
libertate.

Sintetizarea datelor cantitative:


variana sau dispersia
nlime: variana = 49.7 cm2
Colesterol: variana = 1.96 mmol/L2
Episoadele de ulcer: variana = 42.3 episoade2
Vrsta gestaional: variana = 5.24 sptmni2
Variana se bazeaz pe ptratul valorilor observaiilor i
astfel unitile de msur pentru varian sunt
exprimate n unitile de msur iniiale la ptrat.
Aceasta face lucrurile dificil de interpretat!

Sintetizarea datelor cantitative:


abaterea standard
Variana se calculeaz cu ajutorul ptratelor valorilor
observaiilor. Aceasta nseamn c nu avem aceleai
uniti de msur ca i observaiile.
Prin extragerea rdcinii ptrate vom avea aceleai
uniti de msur ca i observaiile sau ca media.
Rdcina ptrat a varianei este cunoscut sub
numele de abatere standard (SD sau s) i, de obicei, se
noteaz cu s.
nlime: s = 49.7 = 49.7 cm
Colesterol: s = 1.96 = 1.40 mmol/L
Episoadele de ulcer: s = 42.3 = 6.5 episoade

Sintetizarea datelor cantitative:


abaterea standard
nlimea: s = 49.7 = 49.7 cm
Frecvena

Distribuie simetric!
media= 162.2
mediana= 162. 6
(m-2s, m+2s):
(148.1, 176.3)

Media+2s
Media-2s
Media
Media-s
Media+s
nlimea (cm)

!!Majoritatea observaiilor (aproximativ 2/3 65%) se afl


la o SD fa de medie. Aproape toate se ncadreaz n
aproximativ 2xSD fa de medie (aproximativ 95%).

Sintetizarea datelor cantitative:


abaterea standard
Frecvena

Colesterol: s = 1.96 = 1.40 mmol/L

Media+2s
Media-2s
Media
Media+s
Media-s

Distribuie aproape
simetric!
media= 6.34
mediana= 6.15
4,5 valori n afara
intervalului
(m-2s, m+2s)

Colesterolul seric (mmol/L)

Majoritatea observaiilor (aproximativ 2/358%) se afl la o SD


fa de medie. Aproape toate se ncadreaz n aproximativ 2xSD
fa de medie (aproximativ 95%) iar cele din afar se pot afla
toate spre unul din capetele distribuiei.

Sintetizarea datelor cantitative:


abaterea standard
Frecvena

Durata ulcerului venos: s = 189.3 = 13.8 luni

Media-2s
Media+2s
Media
Media+s
Media-s

Durata ulcerului (luni)

Distribuie foarte
asimetric!
Asimetrie spre dreapta!
(pozitiv asimetric)
media= 9.4
mediana= 3
7% valori mai mari dect
m+2s!

Majoritatea observaiilor (aproximativ 2/3 87%) se afl la o SD


fa de medie. Aproape toate se ncadreaz n aproximativ 2xSD
fa de medie (aproximativ 95%) iar cele din afar se pot afla
toate spre unul din capetele distribuiei.

Sintetizarea datelor cantitative:


abaterea standard
Frecvena

Vrsta sarcinii: s = 5.242 = 2.29 sptmni

Media-2s Media Media+2s


Media+s
Media-s

Distribuie asimetric!
Asimetrie spre stnga!
(negativ asimetric)
media= 38.5
mediana= 39
2 valori din 1749 (0.1%)
mai mari dect m+2s!
62 valori din 1749 (3.5%)
mai mici dect m-2s!

Vrsta sarcinii (sptmni)

Majoritatea observaiilor (aproximativ 2/3) se afl la o SD fa de


medie. Aproape toate se ncadreaz n aproximativ 2xSD fa de
medie (aproximativ 95%) iar cele din afar se pot afla toate spre
unul din capetele distribuiei.

Sintetizarea datelor cantitative:


depistarea asimetriei
Dac media este mai mic dect dou abateri standard,
atunci media minus dou abateri standard este o valoare
negativ.
Cum nici o variabil nu poate lua valori negative, acesta ne
spune c distribuia trebuie s fie pozitiv asimetric.
Dac media sau mediana sunt apropiate ca valori de una
din limitele amplitudinii sau amplitudinii intercuartile,
atunci aceasta ne ofer o indicaie asupra asimetriei
distribuiei. n cazul n care este media sau mediana sunt
apropiate de limita inferioar distribuia va fi pozitiv
asimetric, iar n cazul n care se afl n apropiere de limita
superioar distribuia va fi negativ asimetric.

Sintetizarea datelor cantitative:


depistarea asimetriei
Durata ulcerului:
mediana = 3.0, media = 9.4, SD = 14.0,
aplitudinea = 0 la 75, IQR = 1 la 10 (pozitiv asimetric)

Varsta sarcinii:
mediana = 39, media = 38.5, SD = 2.29,
aplitudinea = 21 la 44, IQR = 38 la 40 (negativ asimetric)

Regula empiric merge doar unidirecional, adic


media poate s depeasc dou abateri standard i
distribuia poate fi totui asimetric.

S-ar putea să vă placă și