Sunteți pe pagina 1din 73

Tipuri de date, frecvene,

distribuii, eantionare
Coninutul acestui curs:
Tipuri de date
Distribuii de frecven
Histograme i alte reprezentri grafice
Simetrie i asimetrie, mediana i alte
cuantilele, media, amplitudinea, dispersia,
abaterea standard
Distribuia normal
Eantionare i distribuii de eantionare
Tipuri de date
Datele calitative apar atunci cnd indivizii pot aparine
unor (fi clasificai n) clase separate.
Ex: diagnosticul, sexul, mort/viu.
O variabil calitativ este cunoscut i sub numele de
variabil categorial, variabil de clasificare sau atribut.
Datele cantitative sunt numerice i sunt obinute fie prin
numrare fie sunt rezultatul unei msurtori.
Dac valorile sunt numere ntregi (obinute prin numrare)
atunci aceste date se numesc discrete.
Ex: nr de membrii ai unei familii.
Dac sunt valorile sunt obinute prin msurtori atunci ele
pot fi orice valoare dintr-un interval i n acest caz se
numesc continue.
Ex: nlimea, greutatea, presiunea sngelui, colesterolul
seric.
Tipuri de date
Populaie - nr mare de indivizi
- caracter dinamic
- este bine definit la un moment de timp dat
Eantion este parte mic din populaie (se poate
extrage suficient informaie pentru a se face inferene
asupra caracteristicilor studiate la nivelul populaiei)
Variabilele sunt caliti sau cantiti care pot s aib
valori diferite de la un membru al unui grup (eantion) la
altul.
O statistic este o formul a crei valoare se obine cu
ajutorul datelor dintr-un eantion.
Distribuii de frecvene
Sursa de referin pentru pacienii dintr-un studiu
psihoterapeutic referitor la consilierea durerii lombare
(Frost et al., 2004)
Sursa de referin (consilierul) este o variabil calitativ.
Categorii valorile variabilei calitative.
Frost H, Lamb SE, Doll HA, Carver PT, Stewart-Brown S. (2004) Randomised controlled trial of physiotherapy compared with advice
for low back pain. British Medical Journal 329, 708-711.
Distribuii de frecvene
Sursa de referin pentru pacienii dintr-un studiu
psihotarapeutic (Frost et al., 2004)
Numrul de persoane care aparin unei anumite categorii se
numete frecven a aceastei categorii. Proporia
persoanelor care aparin unei anumite categorii se numete
frecven relativ sau frecven proporional.
Frecvena relativ pentru medicii generaliti este de
256/285 = 0.898 sau 89.8%.
Distribuii de frecvene
Sursa de referin pentru pacienii dintr-un studiu
psihotarapeutic (Frost et al., 2004)
Numrul de persoane care aparin unei anumite categorii se
numete frecven a aceastei categorii. Proporia
persoanelor care aparin unei anumite categorii se numete
frecven relativ sau frecven proporional.
Muimea valorilor frecvenelor pentru toate categoriile
posibile se numete distribuie de frecven a variabilei.
Categorii ordonate
Mobilitatea pacienilor recrutai n studiul VenUS I
(Nelson et al., 2004)
Categorii ordonate: Mers liber (1) < Mers cu dificultate (2)
Mers cu dificultate (2) < Imobil (3)
Variabil calitativ (una din variabilele studiate!)
Imobilitate
Nelson EA, Iglesias CP, Cullum N, Torgerson DJ. (2004) Randomized clinical trial of four-layer and short-stretch compression
bandages for venous leg ulcers (VenUS I). British Journal of Surgery 91, 1292-1299.
Categorii ordonate
Mobilitatea pacienilor recrutai n studiul VenUS I
(Nelson et al., 2004)
Frecvena cumulat pentru o valoare a unei variabile
reprezint numrul de indivizi cu valori mai mici sau egale
cu aceast valoare. Frecvena cumulat relativ pentru o
valoare este proporia de indivizi din eantion cu valori mai
mici sau egale cu aceast valoare.
1
2
3
Imobilitate
Variabile cantitative discrete
Numrul de episoade de ulcer venos dup debut la
pacienii din studiul VenUS I (Nelson et al., 2004)
Variabila cantitativ
(alt variabila din studiu)
Valori ale variabilei
! Numrare
! Nu exist fraciuni
Variabile cantitative discrete
Numrul de episoade de ulcer venos dup debut la
pacienii din studiul VenUS I (Nelson et al., 2004)
Se poate numra de cte ori apare fiecare valoare
pentru a obine distribuia de frecven.
Variabile continue
Colesterolul seric (mmol/L) msurat pe un eantion de 86
pacieni cu accident vascular cerebral (Markus et al., 1995).
Variabil obinut prin
msurare!
86 valori!
Markus HS, Barley J, Lunt R, Bland JM, Jeffery S, Carter ND, Brown MM. (1995) Angiotensin-converting enzyme gene deletion
polymorphism: a new risk factor for lacunar stroke but not carotid atheroma. Stroke 26, 1329-33.
Variabile continue
Colesterolul seric (mmol/L) msurat pe un eantion de 86
pacieni cu accident vascular cerebral (Markus et al., 1995).
Exist mai multe valori apar doar o singur dat iar numrul
de apariii al unei valori nu ajut n acest caz.
Variabil obinut prin
msurare!
86 valori!
Distribuie de frecven
dificil de construit!
=> prelucrare a datelor
Variabile continue
Colesterolul seric (mmol/L) msurat pe un eantion de 86
pacieni cu accident vascular cerebral (Markus et al., 1995).
Se mparte scala (plaja de valori: 3.7 10.4) colesterolului seric n
intervale (clase) adic 3.0 - 4.0, 4.0 - 5.0, i aa mai departe.
Se numr nr de persoane cu colesterol seric din fiecare interval.
Variabil obinut prin
msurare!
86 valori!
Distribuie de frecven
dificil de construit!
=> intervale
Variabile continue
Intervalele (clasele) nu trebuie s se suprapun astfel
ca trebuie s se decid ce interval va conine punctul de
frontier pentru a se evita numrarea unei valori de
dou ori.
Se obinuiete se pun limita inferioar n intervalul la
care ne referim iar limita superioar n intervalul
urmtor.
Astfel, intervalul care ncepe de la 3.0 i se termin la
4.0, conine 3.0 dar nu conine 4.0.
Putem scrie aceasta ca 3.0 sau 3.0 4.0 sau
3.0 3.999.
Variabile continue
Colesterolul seric (mmol/L):
Variabile continue
Distribuia de frecven a colesterolul seric (mmol/L):
Depinde de alegerea limii intervalului (?mare, ?mic).
Forma distribuiei este foarte important.
Prezentarea grafic a acestei distribuii.
Nu este unic!
Histograme i alte grafice pentru frecven
Modalitatea cea mai utilizat n descrierea unei distribuii de
frecven este histograma.
Ea este o diagram n care fiecare interval este reprezentat pe
ax de o bar dreptunghiular a crui nlime este direct
proporional cu frecvena sau numrul de observaii care se afl
n intervalul considerat.
Colesterolul seric (mmol/L) Colesterolul seric (mmol/L)
Ox:
Oy:
F
r
e
c
v
e
n

a
r
e
l
a
t
i
v

F
r
e
c
v
e
n

a
Nr de apariii!
Proporii!
Comparare a distribuiilor
diferite ca nr de observaii!
Histograme i alte grafice pentru frecven
Histograma colesterorului seric, scala de frecvene:
Diferite puncte de plecare (limita inferioar a primului
interval) i lungimi de interval, form oarecum diferit
Colesterolul seric (mmol/L)
Colesterolul seric (mmol/L)
Echilibrat!
Mai clar!
Grosolan!
Intervale mici: Fluctuaii aleatoare!
Forme diferite!
Aceleai date!
F
r
e
c
v
e
n

a
F
r
e
c
v
e
n

a
Histograme i alte grafice pentru frecven
Histograma colesterorului seric, scala de frecven i de
densitate de frecven
n acest caz aria de sub histogram reprezint frecvena.
Densitatea de frecven este nr de observaii pe unitatea de variabil.
Pentru 3.75 - 4.25 mmol/L, densitatea de frecven este de 4 observaii
pe mmol/L. Limea intervalului = 0.5, frecvena = 4 0.5 =2.
Colesterolul seric (mmol/L)
Colesterolul seric (mmol/L)
F
r
e
c
v
e
n

a
D
e
n
s
i
t
a
t
e

d
e

f
r
e
c
v
e
n

Histograme i alte grafice pentru frecven


Histograma colesterorului seric, scala de densitate de
frecven i densitate de frecven relativ
Dac se reprezint grafic densitatea de frecven relativ
(proporia de observaii pe unitatea de variabil) atunci aria
histogramei va fi 1.0.
Colesterolul seric (mmol/L)
Colesterolul seric (mmol/L)
D
e
n
s
i
t
a
t
e

d
e

f
r
e
c
v
e
n

D
e
n
s
i
t
a
t
e

d
e

f
r
e
c
v
e
n


r
e
l
a
t
i
v

Histograme i alte grafice pentru frecven


Densitatea de frecven ne per-
mite netezirea histogramelor.
Pe scala frecvenelor, unificarea
intervalelor produce o impresie
greit.
Distribuia
este destul de
neregulat!
Combinarea
ultimelor 3
intervale!
Impresie
eronat!
Form corect
a distribuiei
Presiunea sistolic a sngelui (mm Hg) Presiunea sistolic a sngelui (mm Hg)
Presiunea sistolic a sngelui (mm Hg)
D
e
n
s
i
t
a
t
e

d
e

f
r
e
c
v
e
n

F
r
e
c
v
e
n

F
r
e
c
v
e
n

Histograme i alte grafice pentru frecven


Pentru o variabil discret dreptunghiurile (barele) pot
fi separate:
Aceasta subliniaz discretitudinea.
Numrul de episoade de ulcer venos
F
r
e
c
v
e
n

a
Histograme i alte grafice pentru frecven
Poligonul frecvenelor:
unirea vrfurile barelor
din histogram
Util n reprezentarea a
mai mult de o
distribuie pe aceleai
axe!
Colesterolul seric (mmol/L)
Colesterolul seric (mmol/L)
Sntoi
Pacieni cu
accident vascular
F
r
e
c
v
e
n

a
r
e
l
a
t
i
v

F
r
e
c
v
e
n

a
r
e
l
a
t
i
v

Histograme i alte grafice pentru frecven


Pentru o variabil calitativ se poate folosi diagrama
circular:
Frecvena
relativ!
Histograme i alte grafice pentru frecven
Pentru o variabil calitativ se poate folosi diagrama cu
dreptunghiuri orizontale(bare):
Frecvena!
Forma distribuiilor de frecven
Modul este valoarea cea mai frecvent ntlnit n
distribuie.
Cozile sunt locuri sunt extreme ale distribuiei unde
observaiile sunt, de obicei, rare.
Distribuia unimodal este distribuia cu un singur modul.
Colesterolul seric (mmol/L)
Modul
F
r
e
c
v
e
n

a
Coada
inferioar
Coada
superioar
Interval (clasa) modal()
Forma distribuiilor de frecven
Modul este valoarea cea mai frecvent ntlnit n
distribuie.
Cozile sunt locuri sunt extreme ale distribuiei unde
observaiile sunt, de obicei, rare.
Distribuia unimodal este distribuia cu un singur modul.
O singur
populaie!
Numrul de episoade de ulcer venos
F
r
e
c
v
e
n

a
Forma distribuiilor de frecven
Modul este valoarea cea mai frecvent ntlnit n
distribuie.
Cozile sunt locuri sunt extreme ale distribuiei unde
observaiile sunt, de obicei, rare.
Distribuia bimodal este distribuia cu dou module.
Tensiunea arterial
sistolic la 251 pacieni
admii la o unitate de
terapie intensiv.
n acest caz avem dou
populaii!
Modul
Modul
Valori normale
Presiunea sistolic a sngelui (mm Hg)
F
r
e
c
v
e
n

a
Forma distribuiilor de frecven
Prile histogramei aflate n apropierea extremelor se
numesc cozi ale distribuiei.
Dac coada din dreapta este de lungime similar cu
cea din stnga, se spune c distribuia este simetric.
nlimea pentru 222 de
femei admise n studiul
VenUS I.
F
r
e
c
v
e
n

a
nlimea (cm)
Forma distribuiilor de frecven
Prile histogramei aflate n apropierea extremelor se
numesc cozi ale distribuiei.
Dac coada din dreapta este mai lung dect coada
din stnga atunci distribuia este asimetric la
dreapta sau pozitiv asimetric.
F
r
e
c
v
e
n

a
F
r
e
c
v
e
n

a
Numrul de episoade de ulcer venos
Colesterolul seric (mmol/L)
Forma distribuiilor de frecven
Prile histogramei aflate n apropierea extremelor se
numesc cozi ale distribuiei.
Dac coada din stnga este mai lung dect coada din
dreapta atunci distribuia este asimetric la stnga
sau negativ asimetric.
Vrsta gestational
(sarcinii) n
momentul naterii
F
r
e
c
v
e
n

a
Vrsta sarcinii (sptmni)
Forma distribuiilor de frecven
Majoritatea datelor medicale au
distribuii unimodale!
Majoritatea datelor medicale urmeaz
o distribuie fie simetric fie pozitiv
asimetric!
Sintetizarea datelor cantitative:
mediane i cuantile
Cuantilele sunt valori care mpart distribuia astfel
nct exist o anumit proporie de observaii care se
afl la stnga cuantilei.
Mediana este valoarea central a distribuiei astfel
nct jumtate dintre observaii sunt mai mici sau
egale dect valoarea ei i jumtate sunt mai mari sau
egale cu aceasta.
Pentru datele referitoare la colesterol mediana este
6.15 i se afl ntre observaiile a 43-a i a 44-a.
Dac avem un numr impar de observaii, mediana
este valoarea central iar pentru un numr par de
observaii, mediana este media aritmetic a celor
dou valori centrale.
Sintetizarea datelor cantitative:
mediane i cuartile
Cuartilele sunt valori (n nr de trei) care mpart distribuia n
patru pri egale. Cea de-a doua cuartil este mediana.
Prima cuartil este valoare care delimiteaz primul sfert de
distribuie (las 25% din observaii la stnga ei), iar cea de-a
treia cuartil delimiteaz primele trei sferturi de distribuie
(las la stnga ei 75% din observaii).
!! cuartila este un punct
de diviziune, nu reprezint
aria de sub grafic.
Adesea acest termen este
folosit abuziv.
F
r
e
c
v
e
n

a
Colesterolul seric (mmol/L)
Mediana
Prima
cuartil
A treia
cuartil
Sintetizarea datelor cantitative:
mediane i cuartile
Putem mpri distribuia n 100 de pri egale adic
n centile sau percentile.
Astfel putem vorbim de punctul care delimiteaz
20% din observaii ca fiind centila 20 sau a 20-a
percentil.
Astfel mediana este centila 50, prima cuartila este
centila 25, iar cea de-a treia cuartil este centila 75.
Sintetizarea datelor cantitative:
media
Media artimetic, de obicei ntlnit sub denumirea
simpl de medie, se obine prin nsumarea valorilor
tuturor observaiilor i apoi prin mprirea sumei la
numrul lor.
Media este adesea notat cu o bar micu asezat
deasupra simbolului variabilei, adic .
Media eantinului are proprieti matematice mult mai
utile dect mediana i din acest motiv este folosit
adesea n metodele de comparaie pe care le vom
descrie mai trziu.
Mediana este o statistic descriptiv foarte util ns nu
este prea des utilizat.
x
Sintetizarea datelor:
mediana, media i asimetria
Media colesterolului = 6.34, mediana colesterolului = 6.15
Media nlimii = 162.2, mediana nlimii = 162. 6
Media episoadelor de ulcer = 3.4, mediana episoadelor = 2
Dac distribuia este simetric media i mediana au aproximativ
aceeai valoare, iar n cazul unei distribuii asimetrice media i
mediana sunt de obicei diferite.
Dac distribuia este asimetric la dreapta, la fel ca n cazul
colesterolui seric, valoarea mediei va fi de obicei mai mare dect
cea a valoarea medianei, iar n cazul n care este asimetric la
stnga valoarea medianei va fi de obicei mai mare dect valoarea
mediei.
Acest lucru se datoreaz faptului c valorile din coada distribuiei
afecteaz media i nu mediana.
Sintetizarea datelor:
mediana, media i asimetria
Prin creterea valorii celor mai mari observaii, valoarea
mediei va crete i ea.
Mediana nu este, ns, afectat!
F
r
e
c
v
e
n

a
Colesterolul seric (mmol/L)
Mediana
Media
Asimetrie spre
dreapta!
Sintetizarea datelor cantitative:
variabilitatea
Media i mediana sunt msuri de tendin central care
ncearc s determine poziia de mijloc din distribuie.
Este necesar, de asemenea, i o msur pentru
mprtiere, dispersie sau variabilitate a datelor din
distribuiei.
Amplitudinea este diferena dintre cea mai mare i cea mai
mic valoare. Aceasta este o msur util din punct de
vedere descriptiv, dar are dou dezavantaje. n primul rnd,
depinde doar de valorile extreme care pot varia foarte mult
de la un eantion la altul. n al doilea rnd, depinde i de
mrimea eantionului. Dac eantionul este mai mare
extremele sunt susceptibile de a fi departe una de cealalt.
Sintetizarea datelor cantitative:
variabilitatea
Amplitudinea depinde i de mrimea eantionului.
Dac eantionul este mai mare extremele sunt
susceptibile de a fi departe una de cealalt.
Putem rezolva aceast problem prin utilizarea
amplitudinii intercuartile (interquartile range sau
IQR) adic diferena dintre prima i a treia cuartil.
Sintetizarea datelor cantitative:
variabilitatea
n analiza datelor, amplitudinea obinuit i
amplitudinea intercuartil nu sunt suficiente. n
locul acestora vom folosi alte dou msuri ale
variabilitii i anume dispersia sau variana i
abaterea standard.
Aceste msuri arat ct de deprtate sunt observaiile
de centrul distribuiei.
Variana sau dispersia este media aritmetic a
ptratelor diferenelor dintre observaii i media lor.
Abaterea standard (SD = standard deviation) este
rdcina ptrat din varian sau dispersie.
Sintetizarea datelor cantitative:
variana sau dispersia
Variana sau dispersia este media aritmetic a
ptratelor diferenelor dintre observaii i media lor.
n cazul unei singure observaii, variana sau dispersia
nu se poate calcula. Media este chiar observaia nsi
iar diferena este nul. Sunt necesare cel puin dou
observaii.
Suma ptratelor diferenelor fa de medie este
proporional cu numrul observaiilor minus unu,
valoare cunoscut sub numele de grade de libertate.
Variana este estimat ca fiind suma ptratelor
diferenelor fa de medie mprit prin gradele de
libertate.
Sintetizarea datelor cantitative:
variana sau dispersia
nlime: variana = 49.7 cm
2
Colesterol: variana = 1.96 mmol/L
2
Episoadele de ulcer: variana = 42.3 episoade
2
Vrsta gestaional: variana = 5.24 sptmni
2
Variana se bazeaz pe ptratul valorilor observaiilor i
astfel unitile de msur pentru varian sunt
exprimate n unitile de msur iniiale la ptrat.
Aceasta face lucrurile dificil de interpretat!
Sintetizarea datelor cantitative:
abaterea standard
Variana se calculeaz cu ajutorul ptratelor valorilor
observaiilor. Aceasta nseamn c nu avem aceleai
uniti de msur ca i observaiile.
Prin extragerea rdcinii ptrate vom avea aceleai
uniti de msur ca i observaiile sau ca media.
Rdcina ptrat a varianei este cunoscut sub
numele de abatere standard (SD sau s) i, de obicei, se
noteaz cu s.
nlime: s = = 49.7 cm
Colesterol: s = = 1.40 mmol/L
Episoadele de ulcer: s = = 6.5 episoade
7 49.
96 1.
3 42.
Sintetizarea datelor cantitative:
abaterea standard
nlimea: s = = 49.7 cm
!!Majoritatea observaiilor (aproximativ 2/3) se afl la o SD
fa de medie. Aproape toate se ncadreaz n aproximativ
2xSD fa de medie (aproximativ 95%).
7 49.
F
r
e
c
v
e
n

a
nlimea (cm)
Media
Media+s Media-s
Media+2s Media-2s
Distribuie simetric!
media= 162.2
mediana= 162. 6
(m-2s, m+2s):
(148.1, 176.3)
Centila 97.5: 177.8
Centila 2.5: 148.6
65%
Sintetizarea datelor cantitative:
abaterea standard
Colesterol: s = = 1.40 mmol/L
Majoritatea observaiilor (aproximativ 2/3) se afl la o SD fa de
medie. Aproape toate se ncadreaz n aproximativ 2xSD fa de
medie (aproximativ 95%) iar cele din afar se pot afla toate spre
una din capetele distribuiei.
96 1.
F
r
e
c
v
e
n

a
Colesterolul seric (mmol/L)
Media
Media+s Media-s
Media+2s Media-2s
Distribuie aproape
simetric!
media= 6.34
mediana= 6.15
4,5 valori n afara
intervalului
(m-2s, m+2s)
58%
Sintetizarea datelor cantitative:
abaterea standard
Durata ulcerului venos: s = = 13.8 luni
Majoritatea observaiilor (aproximativ 2/3) se afl la o SD fa de
medie. Aproape toate se ncadreaz n aproximativ 2xSD fa de
medie (aproximativ 95%) iar cele din afar se pot afla toate spre
una din capetele distribuiei.
3 189.
F
r
e
c
v
e
n

a
Durata ulcerului (luni)
Media
Media+s Media-s
Media+2s Media-2s
Distribuie foarte
asimetric!
Asimetrie spre dreapta!
(pozitiv asimetric)
media= 9.4
mediana= 3
7% valori mai mari dect
m+2s!
87%
Sintetizarea datelor cantitative:
abaterea standard
Vrsta sarcinii: s = = 2.29 sptmni
Majoritatea observaiilor (aproximativ 2/3) se afl la o SD fa de
medie. Aproape toate se ncadreaz n aproximativ 2xSD fa de
medie (aproximativ 95%) iar cele din afar se pot afla toate spre
una din capetele distribuiei.
242 5.
F
r
e
c
v
e
n

a
Vrsta sarcinii (sptmni)
Media
Media+s Media-s
Media+2s Media-2s
Distribuie asimetric!
Asimetrie spre stnga!
(negativ asimetric)
media= 38.5
mediana= 39
2 valori din 1749 (0.1%)
mai mari dect m+2s!
62 valori din 1749 (3.5%)
mai mici dect m-2s!
Sintetizarea datelor cantitative:
depistarea asimetriei
Dac media este mai mic dect dou abateri standard,
atunci media minus dou abateri standard este o valoare
negativ.
Cum nici o variabil nu poate lua valori negative, acesta ne
spune c distribuia trebuie s fie pozitiv asimetric.
Dac media sau mediana sunt apropiate ca valori de una
din limitele amplitudinii sau amplitudinii intercuartile,
atunci aceasta ne ofer o indicaie asupra asimetriei
distribuiei. n cazul n care este media sau mediana sunt
apropiate de limita inferioar distribuia va fi pozitiv
asimetric, iar n cazul n care se afl n apropiere de limita
superioar distribuia va fi negativ asimetric.
Sintetizarea datelor cantitative:
depistarea asimetriei
Durata ulcerului:
mediana = 3.0, media = 9.4, SD = 14.0,
aplitudinea = 0 la 75, IQR = 1 la 10 (pozitiv asimetric)
Varsta sarcinii:
mediana = 39, media = 38.5, SD = 2.29,
aplitudinea = 21 la 44, IQR = 38 la 40 (negativ asimetric)
Dac media este mai mic dect dou abateri standard, atunci media
minus dou abateri standard este o valoare negativ.
Cum nici o variabil nu poate lua valori negative, acesta ne spune c
distribuia trebuie s fie pozitiv asimetric.
Aceast regul empiric merge doar unidirecional, adic
media poate s depeasc dou abateri standard i
distribuia poate fi totui pozitiv asimetric.
Distribuia normal
Multe metode statistice sunt valabile numai dac se poate
presupune c datele urmeaz o distribuie de un anumit tip
i anume distribuia normal. Aceasta este o distribuie
continu, simetric i unimodal descris printr-o ecuaie
matematic complex.
Greutatea la natere (g)
D
e
n
s
i
t
a
t
e

d
e

f
r
e
c
v
e
n

r
e
l
a
t
i
v

1603 nateri de tip


singleton cu vrsta
sarcinii la natere mai
mare 37 sptmni
Distribuia normal!
Form de clopot
Distribuia normal
Multe metode statistice sunt valabile numai dac se poate
presupune c datele urmeaz o distribuie de un anumit tip
i anume distribuia normal. Aceasta este o distribuie
continu, simetric i unimodal descris printr-o ecuaie
matematic complex.
nlimea (g)
D
e
n
s
i
t
a
t
e

d
e

f
r
e
c
v
e
n

r
e
l
a
t
i
v

Distribuia normal!
nlimi ale femeilor
cu ulcere venoase n
studiul VenUS I.
Distribuia normal
Media = 3384 g
Variana = 201164 g
2
SD = 449 g
Media = 162.2 cm
Variana = 49.7 cm
2
SD = 7.1 cm
nlimea (g)
D
e
n
s
i
t
a
t
e

d
e

f
r
e
c
v
e
n

r
e
l
a
t
i
v

D
e
n
s
i
t
a
t
e

d
e

f
r
e
c
v
e
n

r
e
l
a
t
i
v

Greutatea la natere (g)


Curbe normale diferite!
Exist o familie a distribuiilor normale!
Distribuia normal
Distribuia normal i nu este doar o distribuie ci o
ntreag familie de distribuii!
Un anumit membru al acestei familii este definit prin
dou numere numite parametri.
Parametrul este un termen matematic adic un numr
care definete un membru al unei anumite clase.
Parametrii distribuiei normale sunt media () i
variana (o
2
).
Cele dou numere identific membrul familiei
distribuiei normale.
Distribuia normal
Parametrii distribuiei normale sunt media i variana.
Cele dou numere identific membrul familiei distribuiei
normale.
Membrul familiei cu
media () = 0 i
variana (o
2
) = 1
se numete
distribuia normal
standard.
D
e
n
s
i
t
a
t
e

d
e

f
r
e
c
v
e
n

r
e
l
a
t
i
v

Variabil normal
Distribuia normal
Parametrii distribuiei normale sunt media i variana.
Cele dou numere identific membrul familiei distribuiei
normale.
Membrul familiei cu
media () = 0 i
variana (o
2
) = 1
se numete
distribuia normal
standard.
Densitatea de frecven
relativ (densitate de
probabilitate) este dat de:
D
e
n
s
i
t
a
t
e

d
e

f
r
e
c
v
e
n

r
e
l
a
t
i
v

Variabil normal
( )
2
2
2
2
1
) (
o

t o

=
x
e x f
Distribuia normal
Parametrii distribuiei normale sunt media i variana.
Cele dou numere identific membrul familiei
distribuiei normale.
Distribuiile sunt
aceleai n termenii
abaterii standard fa
de medie!
D
e
n
s
i
t
a
t
e

d
e

f
r
e
c
v
e
n

r
e
l
a
t
i
v

Variabil normal
Distribuia normal
Distribuia normal este important din dou motive:
1. Multe variabile naturale sunt foarte apropiate sau
destul de apropiate de aceast distribuie ceea ce
ne permite utilizarea n analiza lor a metodelor
statistice care cer distribuia normal.
2. Chiar i atunci cnd avem o variabil care nu
urmeaz o distribuie normal, dac am extrage mai
multe eantioane de observaii, mediile calculate n
aceste eantioane urmeaz o distribuie normal
(teorema limit central).
Distribuia normal
Nu exist nici o formul simpl care s lege variabila de aria
de sub curb.
Astfel nu putem gsi o formul pentru a calcula frecvena
ntre dou valori alese ale variabilei i nici valoarea n cazul
n care s-ar depi un anumit procent de observaii.
Au dezvoltat mai multe metode numerice de calcul pentru
aceasta cu o precizie acceptabil folosite n obinerea de
tabele extinse de valorile distribuiei normale.
Software-ul statistic (i nu numai!) are implementate
metodele numerice de calcul a frecvenelor pentru
distribuia normal dar i pentru alte distribuii cunoscute.
Distribuia normal
Valori importante din tabela distribuiei normale:
1. Estimm c 68% din observaii se afl n intervalul de o
abatere standard de o parte i de alta a mediei
2. Estimm c 95% din observaii s afl n intervalul de
1.96 abateri standard de o parte i de alta a mediei
3. Estimm c 99.7% din observaii s afl n intervalul de
3 abateri standard de o parte i de alta a mediei
Regula celor 3 o!
Aceste afirmaii sunt adevrate pentru orice distribuie
normal indiferent de medie, varian sau abatere
standard.
Eantionare
Cele mai multe date de cercetare provin de la subieci pe
care i vedem ca formnd un eantion prelevat dintr-o
populaie mai mare.
Eantioanele ne spun ceva referitor la populaia din care
sunt extrase.
Exemplu:
Mostr de snge (eantion) pentru estimarea concentraia de
glucoz.
O pictur de snge reprezin sngele din ntregul corp.
Obinem trei valori ale msurtorilor: 6.0, 5.9, i 5.8.
Care dintre acestea este corect?
Rspuns: nici una - valorile sunt toate estimrile de aceeai
cantitate.
Nu tim dac vreuna dintre ele este cea adevrat!
Eantionare
Cele mai multe date de cercetare provin de la subieci pe
care i vedem ca formnd un eantion prelevat dintr-o
populaie mai mare.
Eantioanele ne spun ceva referitor la populaia din care
sunt extrase.
Exemplu:
Trei studii pentru compararea bandajul de compresie multistrat
elastic cu cel inelastic pentru ulcer venos .
Se obin urmtoarele diferene: 13%, 25% i 20% la pacieni cu
vindecare complet n favoarea bandajului elastic (Fletcher et al,
1997)
Toate estimrile n avantajul bandajului elastic!
Exist o variabilitate aleatorie natural ntre eantioane!
Fletcher A, Nicky Cullum N, Sheldon TA. (1997) A systematic review of compression treatment for venous leg ulcers. British
Medical Journal 315, 576-580.
Eantionare
Estimrile care se pot obine din toate eantioanele
posibile extrase n acelai mod dintr-o populaie au o
distribuie.
Aceast distribuie poart numele de distribuie de
eantionare.
Distribuii de eantionare
Exemplu: Un zar obinuit cu 6 fee.
Prin aruncarea zarului se va obine un scor care va juca
rolul msurtorilor originale care ar putea fi fcute.
Prin aruncarea unui zar se obine unul dintre cele ase
numere: 1, 2, 3, 4, 5, sau 6.
Obinerea fiecarui numr este posibil n aceeai
proporie i anume de 1/6.
Distribuii de eantionare
Proporiile aruncrilor care reprezint fiecare rezultat
posibil, toate fiind egale cu 1/6 sau 0.167.
P
r
o
p
o
r

i
a

a
r
u
n
c

r
i
l
o
r
Scorul obinut prin aruncarea unui singur zar
Distribuia rezultatelor
obinute prin aruncare
unui singur zar!
Media=(1+2+3+4+5+6)/6
Media=3.5
SD=[(1-3.5)
2
+(2-3.5)
2
+
+(3-3.5)
2
] +(4-3.5)
2
+
+(5-3.5)
2
]/6=1.71
Media=3.5 SD=1.71
Distribuii de eantionare
Proporiile aruncrilor care reprezint fiecare rezultat
posibil, toate fiind egale cu 1/6 sau 0.167.
P
r
o
p
o
r

i
a

a
r
u
n
c

r
i
l
o
r
Scorul obinut prin aruncarea unui singur zar
Distribuia rezultatelor
obinute prin aruncare
unui singur zar!
Media=(1+2+3+4+5+6)/6
Media=3.5
Media=3.5 SD=1.71
Valoare pe care ne
ateptm s o obinem
n cazul a mai multor
aruncri!
Distribuii de eantionare
Exemplu: Un zar obinuit cu 6 fee.
Prin aruncarea zarului se va obine un scor care va juca rolul
msurtorilor originale care ar putea fi fcute.
Prin aruncarea unui zar se obine unul dintre cele ase
numere: 1, 2, 3, 4, 5, sau 6.
Obinerea fiecarui numr este posibil n aceeai proporie
i anume de 1/6.
Acum, s presupunem c suntem n situaia de a nu
cunoate media valorilor.
Vom considera un eantion de aruncri pentru dou zaruri
care ne va permite estimarea mediei.
Distribuii de eantionare
S considerm dou zaruri aruncate simultan i calculm media
celor dou valori obinute pentru estimarea medie a populaiei
tuturor valorilor obinute prin aruncarea de dou zaruri.
Media este de 3.5, la fel ca n primul caz, ns abaterea standard
nu este aceeai. Ea este 1.21, o valoare mai mic dect 1.71
obinut pentru un singur zar.
P
r
o
p
o
r

i
a

a
r
u
n
c

r
i
l
o
r
Media scorurilor obinute prin aruncarea a dou zaruri
Media=3.5 SD=1.21
Zar1: 6 fee, Zar2: 6 fee
66=36 rezultate posibile.
Media=1 ,(1,1),
prop=1/36=0.0277
Media=1.5, (1,2), (2,1),
prop=2/36=0.0555
Media=2, (1,3), (3,1), (2,2),
prop=3/36=0.0833

Distribuii de eantionare
Cu ct crete numrul de zaruri aruncate simultan cu att va
fi mai precis media eantionului n estimarea mediei
populaiei.
P
r
o
p
o
r

i
a

a
r
u
n
c

r
i
l
o
r
Media scorurilor obinute prin aruncarea unui singur zar
Media=3.5 SD=1.71 Media=3.5 SD=1.21
Media=3.5 SD=0.85 Media=3.5 SD=0.70
Media scorurilor obinute prin aruncarea a dou zaruri
Media scorurilor obinute prin aruncarea a patru zaruri Media scorurilor obinute prin aruncarea a ase zaruri
P
r
o
p
o
r

i
a

a
r
u
n
c

r
i
l
o
r
P
r
o
p
o
r

i
a

a
r
u
n
c

r
i
l
o
r
P
r
o
p
o
r

i
a

a
r
u
n
c

r
i
l
o
r
Estimare proast! Estimare mai bun!
Distribuii de eantionare
Observaii (generale):
1. Media distribuiei este ntotdeauna acelai i anume
3.5. Cnd am facut mai multe observaii i am calculat
media lor am obinut aceeai medie ca n cazul
distribuiei unei observaii simple.
2. Distribuiile au variabilitate mult mai mic cnd
numrul de zaruri aruncate crete. Avem mult mai
multe proporii mici de aruncri productoare de medii
apropiate de 1.0 sau 6.0 i abaterile standard devin mai
mici mai mici.
3. Forma distribuiilor se schimb cnd numrul de zaruri
aruncate simultan crete. Ea tinde s devin similar
curbei distribuiei normale.
Distribuii de eantionare
Distribuiile avnd suprapuse curbe care fac parte din familia
distribuiei normale cu aceeai medie iar abaterea standard este
cea calculat pentru distribuia zarurilor.
Media scorurilor obinute prin aruncarea unui singur zar Media scorurilor obinute prin aruncarea a dou zaruri
Media scorurilor obinute prin aruncarea a patru zaruri Media scorurilor obinute prin aruncarea a ase zaruri
Media=3.5 SD=1.71 Media=3.5 SD=1.21
Media=3.5 SD=0.85 Media=3.5 SD=0.70
P
r
o
p
o
r

i
a

a
r
u
n
c

r
i
l
o
r
P
r
o
p
o
r

i
a

a
r
u
n
c

r
i
l
o
r
P
r
o
p
o
r

i
a

a
r
u
n
c

r
i
l
o
r
P
r
o
p
o
r

i
a

a
r
u
n
c

r
i
l
o
r
Distribuii de eantionare
Pentru aproape toate observaiile pe care le putem face, dac se
consider un eantion format din cteva observaii i se
calculeaz media acestora, indiferent de distribuia populaiei
din care a fost extras eantionul:
1. Mediile acestor eantioane au o distribuie care are aceeai
medie ca media populaiei din care au fost extrase.
2. Distribuia mediilor acestor eantioane are o abatere
standard mai mic dect abaterea standard a populaiei din
care au fost extrase, i cu ct eantioanele au dimensiune
mai mare cu att abaterea standard ale mediilor
eantioanelor va fi mai mic.
3. Forma distribuiei mediilor eantioanelor se apropie de
forma distribuiei normale cnd dimensiunea eantioanelor
crete.
Orice statistic calculat pentru un eantion, precum media,
proporia, mediana sau abaterea standard, are o distribuie de
eantionare.