An1Curs4 2006

Cursul 4.
Elemente de biostatistica
Sa ne imaginam ca studiem un numar de indivizi ai unei populatii, de exemplu studentii

din anul I, Facultatea de Medicina. (De ce? Poate din motive sociale, politice, economice,
medicale, ...) Putem lua în considerare, din multitudinea de caracteristici posibile, doar
câteva: înaltimea, greutatea, culoarea parului, numarul de membri ai familiei, nivelul
cunostintelor de anatomie, nivelul de inteligenta. Exprimând aceste caracteristici prin
variabile (unele numerice, altele nu), admitem ca prin masurare sau evaluare vom obtine
seturi de date care „umplu” tabele de date. Întrebarile esentiale care se pun de obicei sunt
urmatoarele:
– cum putem sa descriem „sintetic” datele pe care le- am obtinut?

– cum putem sa transmitem altora informatiile pertinente despre ansamblul indivizilor,
fara însa a le transmite toate datele obtinute?
La acest gen de întrebari statistica poate da un raspuns. Dar, pentru a întelege

justificarile metodelor statisticii si a le interpreta corect rezultatele, va trebui sa ne
familiarizam cu câteva distributii teoretice, dintre care cele normale sunt cele mai
cunoscute.
Continutul acestui curs este urmatorul:
4.1. Distributii continue .....................................................................................................116
4.2. Distributii normale (Gauss)........................................................................................120
4.3. Populatii si esantioane, caracteristici si variabile ....................................................128
4.4. Reprezentari grafice ....................................................................................................132
4.5. Statistici descriptive. Centrarea unei variabile numerice.......................................135
4.6. Statistici descriptive. Deviatia în jurul centrului .....................................................137
4.7. Statistici descriptive pentru variabile calitative.......................................................141
4.8. Covarianta si corelatia ................................................................................................142
115
4.1. Distributii continue
În toate consideratiile anterioare au fost abordate numai distributii pentru care

variabilele aleatoare asociate lor au valori discrete, fie în numar finit – ca în cazul
distributiilor binomiale b (n , p ) , fie numarabile – cazul distributiilor Poisson Po (λ ) .
Acestea sunt cunoscute ca distributii discrete. În cele ce urmeaza vom considera distributii
pentru care variabilele aleatoare asociate sunt capabile sa ia valori întrun do meniu continuu
(interval) de pe axa reala. Acestea sunt cunoscute ca distributii continue .
Evident, valorile unei asemenea variabile aleatoare/distributii apar ca rezultate ale unor
masuratori (de lungimi, greutati, durate de timp, temperaturi, concentratii etc.).
Întro figura din lectia anterioara au fost reprezentate, întro forma asemanatoare
histogramelor, distributiile binomiale b(15, 0.25) si b(25, 0.2). În ambele cazuri valorile
posibile ale lui k au fost plasate pe abscisa, echidistant între valoarea minima 0 si cea
maxima n (= 15, respectiv 25) Pe ordonata se „masoara” valorile probabilitatilor
P (b ( n, p ) = k ) . Ne dam seama ca, atunci când n „creste” nemarginit, pastrând aceeasi
„lungime” pentru intervalul [0, n], segmentele verticale tind sa fo rmeze un „domeniu
continuu” ca în figura de mai jos. Curba care delimiteaza acest domeniu, în partea
superioara, este graficul unei „densitati de probabilitate”. Ca sa fim mai precisi, sa definim
o densitate de probabilitate ca fiind o functie reala continua f asa încât:
1) are valori pozitive:
f ( x) ≥ 0 pentru orice x ∈ R , si
2) aria delimitata de graficul ei si de axa absciselor este 1, adica:
∞
∫− ∞ f ( x) dx = 1 .
116
De fapt, aria delimitata de graficul functiei, de axa absciselor si de numerele reale a si b,
arie data de expresia ∫ ab f ( x) dx , este legata de o distributie/ variabila aleatoare continua X
prin relatia:
P (a < X ≤ b ) = ∫ ab f ( x) d x .
Sa facem observatia ca pentru o distributie discreta este posibil sa- i „listam” toate
valorile. Din contra, este imposibil sa listam toate valorile unei distributii continue. (Se stie
din teoria multimilor ca este imposibil sa „listam” toate „punctele” unui interval.)
Este important sa observam ca valoarea f (x) a unei functii densitate de
probabilitate nu este o probabilitate .
Totusi, relatia urmatoare stabileste o legatura cu probabilitatile evenimentelor:
P ( X ≤ c) = ∫−c∞ f ( x) d x .
Pentru o distributie continua, având asociata variabila aleatoare X, se defineste prin

formule adecvate media si varianta. Anume:
E ( X ) = ∫−∞
∞
xf ( x) d x , si
Var( X ) = E (( X − E ( X )) 2 ) .
Nu este deloc obligatoriu ca graficul functiei densitate de probabilitate (asociata unei

distributii continue) sa fie o curba „continua”. Ceea ce conteaza este faptul ca „aria de sub
curba” sa fie egala cu 1.
Distributiile continue pot fi descrise si prin asa- numita functie de distributie, care nu
este altceva decât o functie reala
F : R → [0, 1]
117
definita astfel
F ( x) = P( X ≤ x) = ∫−∞x f ( z) dz .
Ne dam seama cu usurinta ca F este o functie crescatoare si ca densitatea de

probabilitate f se poate obtine din functia de distributie conform relatiei:
f ( x) = F ' ( x) .
(pentru punctele x în care functia de distributie F este derivabila).
În figura de mai jos este prezentat graficul unei functii de distributie.
Ca exemplu evident, sa consideram functia al carei grafic este „curba” din figura de mai
jos. Functia este constanta pe portiuni, mai precis f ( x) = 1 pentru x ∈ [0 , 1] , în rest
f ( x ) = 0 . Distributia continua a carei densitate de probabilitate este aceasta functie poarta
numele de distributia uniforma. Variabila aleatoare asociata va fi notata cu U.
Sa facem observatia ca, pentru orice a , b ∈ [0, 1]
P (a < U ≤ b) = ∫ ab dx = b − a ,
ceea ce înseamna ca probabilitatea ca variabila U sa ia valori între a si b este exact

„lungimea” intervalului [ a, b ] .
„Sortii de izbânda” ca variabila U sa ia valori în doua intervale de lungimi egale sunt

astfel egali, ceea ce justifica numele de „uniforma”.
118
Un calcul rapid ne ajuta sa obtinem media si apoi varianta distributiei uniforme. Anume:
1
E (U ) = ∫ 01 xdx =
2
(ceea ce nu este deloc surprinzator), apoi:
.
1 1 1
Var(U ) = ∫ 0 ( x − ) 2 dx =
2 12
Distributiile discrete pot fi asimilate distributiilor continue. Într- adevar, daca
x1 < x 2 < ... < x n < ...
este secventa de valori a variabilei aleatoare discrete X (asociata distributiei discrete),

atunci distributia discreta este descrisa perfect de histograma sa. Graficul frecventelor
(relative) cumulate nu este altceva decât o reprezentare a functiei de distributie. Pentru un
numar x din intervalul ( x k , x k +1 ) , este evident ca
F ( x) = P ( X ≤ x) = P ( X ≤ xk ) = F ( xk )
ceea ce explica aspectul „în trepte” al functiei de distributie (vezi exemplul din figura de
mai jos).
De multe ori, data o distributie discreta si una continua, ne punem întrebarea daca ele
sunt „apropiate” sau nu, cu alte cuvinte daca una dintre ele „o reprezinta” pe cealalta. De
raspunsul la aceasta întrebare poate depinde o decizie importanta. Raspunsul „da” este
întotdeauna subiectiv. Statistica ne permite sa evaluam riscul atasat deciziei.
119
4.2. Distributii normale (Gauss)
În multe rationamente teoretice distributiile normale (Gaussiene) joaca roluri

importante. O distributie normala, determinata de parametrii µ si σ 2 > 0 , notata cu
N(µ, σ 2 ) , este caracterizata prin densitatea de probabilitate:
1  ( x − µ) 2 
f ( x) = exp  − .
σ 2π  2σ 2 
 
Graficul acestei functii este în forma de clopot – fiind cunoscut sub numele de „clopot al
lui Gauss” – simetric în raport cu „linia verticala” x = µ .
Dupa ce se calculeaza câteva integrale, se obtin urmatoarele rezultate:
E ( N(µ, σ 2 )) = µ
si
Var( N (µ, σ 2 )) = σ 2 ,
formule care ne ofera o interpretare evidenta pentru cei doi parametri. Despre parametrul µ
se spune ca este media teoretica, iar despre σ 2 se spune ca este varianta teoretica.
Aceasta din urma este patratul deviatiei standard teoretice σ > 0 a distributiei N(µ, σ 2 ) .
Astfel ca nu este deloc surprinzator ca „întinderea clopotului” depinde de marimea lui σ (a
se vedea figura de mai jos pentru câteva exemple).
Graficul functiei Graficul functiei densitate a

densitate a distributiei distributiei pentru µ = 0 , σ = 1
normale pentru
µ = 0 , σ = 0. 25
2 Graficul functiei densitate a distri-
butiei pentru µ = 2 , σ 2 = 4
axa valorilor variabilei
Evident, variabila aleatoare asociata unei distributii normale ar putea lua ca valoare
orice numar real. Totusi, „probabilitatea valorilor” scade pe masura ce ele se departeaza de
media teoretica µ .
120
Este imposibil sa se completeze tabele de valori pentru toate distributiile normale.
Urmatorul rezultat a fost folosit intens în trecut pentru a efectua calcule în legatura cu
distributiile normale. Daca X este o distributie de tipul N(µ, σ 2 ) , atunci distributia
1
Z= ( X − µ)
σ
este de tipul N(0 , 1) . Mai mult,
 x −µ
P ( X ≤ x) = P  Z ≤ 
 σ 
iar aceasta ne permite sa folosim datele ce se afla în tabelul asa- numitei distributii
normale standard N (0 , 1) .
Totusi, folosirea tabelelor este astazi depasita, iar softul general permite efectuarea cu
usurinta a oricarui calcul în legatura cu distributiile normale. De exemplu, în Excel exista
doua functii, numite NORMDIST si NORMINV, care depind de parametrii µ si σ .
Caseta de dialog a primei este prezent ata în figura de mai jos. Pentru a calcula valorile în
modul clasic, adica în legatura cu distributiile normale standard, exista doua functii
suplimentare, usor de utilizat, numite NORMSDIST si NORMSINV.
Exercitiu. Identificati tipul si rolul celui de-al patrulea argument al functiei

NORMDIST din Excel.
O densitate de probabilitate de tip „clopot Gauss” – ce corespunde unei distributii

continue – este ideala, ea nu poate aparea în legatura cu o populatie naturala. Totusi,
importanta distributiilor normale este motivata de urmatoarele:
121
a) modeleaza „bine” numeroase variabile numerice „care apar în practica” în legatura
cu populatii „mari”, cum ar fi înaltimea, greutatea, coeficientul de inteligenta al
oamenilor, dar si diametrul celulelor bacteriilor sau erorile de masurare;
b) aproximeaza „bine” multe alte distributii, cum sunt cele binomiale;
c) constituie fundamentul inferentei statistice, întrucât reprezinta distributia estimarilor

parametrului unei populatii, estimarile fiind obtinute din toate esantioanele
posibile.
Sa ilustram ultima motivatie prin urmatorul exemplu. Sa presupunem ca populatia

noastra are un numar de 25 de indivizi, carora le cunoastem talia (datele sunt în tabelul
urmator).
Individul Talia Individul Talia
1 0.1 14 0.7
2 0.1 15 0.3
3 0.3 16 0.1
4 0.1 17 0.1
5 0.5 18 0.9
6 0.1 19 0.3
7 0.1 20 0.1
8 0.3 21 0.7
9 0.3 22 0.1
10 0.9 23 0.7
11 0.7 24 0.3
12 0.1 25 0.3
13 0.3 Total 8.5
8.5
Talia medie este µ = = 0.34 , iar distributia indivizilor este prezentata în figura de mai
25
jos. Se observa ca este o distributie asimetrica (în jurul mediei).
Cum s-ar putea estima aceasta medie µ , masurând doar indivizii unui esantion „mic”
(format din doar 4 indivizi)? Evident, prin media aritmetica:
122
x1 + x2 + x3 + x4
m=
4
unde x i este talia individului i din esantion.
Avem însa posibilitatea de a alege foarte multe esantioane de câte 4 indivizi, mai precis
se pot alege
25 ⋅ 24 ⋅ 23 ⋅ 22
4
C 25 = = 12650 esantioane
1⋅ 2 ⋅ 3 ⋅ 4
Sa le luam unul dupa altul, si sa calculam pentru fiecare în parte media aritmetica:
Esantionul nr. Indivizii ce-l compun Taliile corespunzatoare Media taliilor
1 1, 2, 3, 4 0.1, 0.1, 0.3, 0.1 0.15
2 1, 2, 3, 5 0.1, 0.1, 0.3, 0.5 0.25
… … … …
12650 22, 23, 24, 25 0.1, 0.7, 0.3, 0.3 0.35
Evident, nu se pune problema listarii tuturor celor 12650 esantioane posibile. Totusi,
folosind un soft de calculator, putem programa cu usurinta obtinerea tuturor celor 12650
medii de esantion. Distributia lor este prezentata în figura alaturata.
Se poate observa ca „histograma” este mai bine aproximata de o Gaussiana.
Sa retinem o idee fundamentala: atunci când avem de-a face cu o populatie mare de
valori numerice, a carei distributie are media µ (necunoscuta!), mediile de esantion
formeaza o noua populatie de numere, care este distribuita (aproximativ) normal cu aceeasi
medie µ .
În mod traditional se considera ca distributii normale cuantifica erorile involuntare ce

apar în masuratorile lungimilor sau greutatilor (maselor). În aceste situatii, daca µ
reprezinta valoarea masurata, atunci σ va reprezenta eroarea de masurare. Distributii
123
normale exprima de asemenea asa- numitul „zgomot” ce afecteaza transmisia datelor pe
liniile de comunicatie.
În general, despre curba Gaussiana asociata distributiei normale N(µ, σ 2 ) este de retinut
ca:
a) Mediana, adica valoarea Me care separa populatia (infinita) în doua parti „de marimi
egale”, coincide cu media teoretica µ ;
b) Între abscisele µ − σ si µ + σ (care sunt situate la „distanta” σ fata de media µ , aria
de sub graficul functiei densitate este 0.683. Aceasta înseamna ca 68.3% dintre indivizii
unei populatii normale sunt situati între µ − σ si µ + σ ;
c) Între abscisele µ − 2σ si µ + 2 σ (care sunt situate la „distanta” 2 σ fata de media µ ,
aria de sub graficul functiei densitate este 0.955. Aceasta înseamna ca peste 95% dintre
indivizii unei populatii normale sunt situati între µ − 2σ si µ + 2 σ ;
d) Practic, întreaga arie de sub grafic (de fapt 99.5%) se afla între abscisele µ − 3σ si
µ + 3σ . Acesta fapt conduce la asa-numita „regula a celor sase sigma” (cunoscuta sub acest
nume de catre cei ce iau decizii): presupunând ca populatia este distribuita normal, deviatia
ei standard este estimata la 1/6 din diferenta dintre valoarea maxima si cea minima, valori
ce sunt obtinute dintr- un esantion „suficient de mare”.
În particular, ne vom astepta ca 68.3% (adica ceva mai mult de 2/3) dintre oameni sa
aiba un IQ între 84 si 116, si doar unul din 500 sa aiba IQ- ul peste 148. (Se stie ca IQ este
distribuit normal cu media 100 si varianta 256.)
Se practica aproximarea unor distributii binomiale b (n , p ) prin distributii no rmale, mai

ales atunci când numarul n de încercari este „mare”. Este obligatoriu însa sa fim precauti,
întrucât distributia binomiala este de regula asimetrica.
De fapt, distributiile binomiale b (n , p ) sunt simetrice doar pentru p = 0 .5 , iar asimetria

creste pe masura ce „probabilitatea succesului” p se departeaza de 0.5. Se accepta ca
aproximarea binomiala b (n, p) prin normala N(µ, σ 2 ) este „buna” doar în cazurile în care
n ⋅ p ≥ 5 si n ⋅ (1 − p ) ≥ 5 , iar în aceste cazuri parametrii distributiei normale se obtin prin
identificarea mediilor si variantelor: µ = n ⋅ p , σ 2 = n ⋅ p ⋅ (1 − p) .
124
Ca motivatie pentru asemenea aproximari este nevoia de aprecieri rapide asupra efectelor unor
decizii pe care le luam. Ca exemplu, sa consideram cazul unei alegeri pentru un organism de
conducere format din 20 de membri, care vor fi alesi de catre o adunare formata din 100 de
delegati.
Decizia care a fost luata este urmatoarea: fiecare delegat va vota selectând 20 de nume de pe
buletinul de vot ce contine toate cele 100 de nume, iar comisia de validare va declara ca fiind alesi
acei delegati ce totalizeaza cel putin 51 de voturi „pentru”.
Ce efect are o asemenea decizie? Ce sanse exista ca sa se aleaga organismul de conducere în
urma votului?
În ipoteza ca fiecare delegat alege la întâmplare 20 de nume de pe buletinul de vot,
„probabilitatea succesului” pentru un candidat va fi de 20

100
= 0 .2 . Presupunând ca niciunul dintre
cele 100 de buletine nu este invalidat, numarul de voturi obtinute de catre un candidat (oarecare)
este dat de variabila aleatoare asociata distributiei binomiale b (100 , 0.2) .
S-o aproximam cu distributia normala N (20 , 16 ) , întrucât µ = n ⋅ p = 100 ⋅ 0 . 2 = 20 si
σ 2 = n ⋅ p ⋅ (1 − p ) = 20 ⋅ 0.8 = 16 de unde σ = 4 . Cunoscând datele anterioare despre distributiile

normale, putem evalua rapid ca 99.5% dintre rezultatele obtinute de catre candidati se vor situa
între µ − 3σ = 20 − 3 ⋅ 4 = 8 si µ + 3σ = 20 + 3 ⋅ 4 = 32 iar sansele ca vreun candidat sa fie ales cu
cel putin 51 de voturi favorabile sunt practic nule. Fara crearea de coalitii premergatoare votului,
alegerile pentru organismul de conducere pot continua la nesfârsit.
(O solutie de iesire din impas ar fi sa se acorde fiecarui delegat dreptul de a alege nu 20, ci 40
de nume de pe buletinul de vot. În aceasta situatie p = 0 .4 , µ = 40 , σ 2 = 40 ⋅ 0.6 = 24 , adica
σ ≈ 5 . De data aceasta ar fi 2% sanse ca numarul de voturi obtinute de un candidat sa fie mai mare
decât µ + 2 σ = 40 + 10 = 50 . Ne putem astepta la alegerea în organul de conducere a cel putin 2
delegati înca din primul tur.)
Întrun anume sens, o curba Gaussiana exprima distributia indivizilor din populatia
„infinita” a numerelor reale, în raport cu anumite puncte speciale de pe axa absciselor.
125
Sa presupunem ca dispunem de o functie care, pentru orice numar pozitiv z, calculeaza
aria de sub grafic, la stânga lui z – a se vedea figura de mai sus. (O asemenea functie este
NORMSDIST, atunci când Cumulative = TRUE, în Excel .)
Atunci P (Z > z) este aria de sub grafic, la dreapta abscisei z, cu alte cuvinte:
P ( Z > z ) = 1 − P( Z ≤ z ) .
Daca z este negativ, atunci – z este pozitiv. Întrucât graficul este simetric fata de origine,
concludem ca:
P (Z < z ) = P ( Z > − z ) = 1 − P (Z ≤ − z ) .
De asemenea,
P ( z ' < Z ≤ z ) = P (Z ≤ z) − P( Z ≤ z ' ) .
Ca exemplu, pentru z =1 .96 obtinem P ( Z ≤ 1 .96 ) = 0 .975 = 97 .5 % ; din formulele de mai sus
rezulta P ( Z > 1.96 ) = 2.5 % si P ( Z < −1.96 ) = 2.5% !
Câteodata suntem interesati în pozitionarea (relativa) a unui individ ce face parte dintr-o
populatie distribuita normal. Ca exemplu, stim ca un individ a obtinut scorul 68 la o
competitie. Numarul 68 nu ne spune nimic despre clasarea acelui individ; la fel de bine ar
putea fi apropiat de minim, de mediana, de maxim. Performanta reala nu este deloc
evidenta!
O procedura uzuala pentru descrierea performantei reale consta în indicarea scorului

standard (cunoscut si ca scorul Z). Acest scor exprima „cât de multa deviatie standard se
afla sub rezultat”. Scorul Z se calculeaza cu usurinta odata ce sunt cunoscuti parametrii
populatiei, anume se scade media µ a populatiei din rezultatul x, apoi se împarte diferenta
x − µ la deviatia standard :
x−µ
z= .
σ
În practica µ si σ sunt estimate din datele pe care le avem la dispozitie. De exemplu,

daca rezultatul 68 a fost obtinut de o persoana la un test IQ (pentru care se presupune ca
µ = 100 si σ = 16 , atunci scorul Z are valoarea –2, ce corespunde unei performante scazute!
126
Distributia normala ne ajuta sa definim ceea ce poate însemna „individ normal” al unei
populatii. În teoria calitatii, indivizii care au scoruri Z între –2 si +2 sunt etichetati ca
„standard”, iar cei care au scoruri Z între –3 si +3 sunt etichetati ca „normali”.
Sa observam ca, prin standardizare , o valoare a unei distributii normale arbitrare este
înlocuita printr-o valoare a distributiei normale standard N(0, 1) . Sa retinem ca prin
standardizare putem compara scorurile (indivizilor) din diversele populatii.
Familia distributiilor normale prezinta o importanta deosebita si datorita unor rezultate

utilizate în teoria esantionarii. Vom reveni ulterior asupra acestei teorii.
Exercitii. 1) Admitem ca înaltimea unui barbat adult este distribuita normal cu µ = 175
si σ = 7 (cm). Care este probabilitatea ca un barbat adult sa fie mai înalt de 185 cm, stiind
ca este mai înalt de 180 cm?
Asemenea aprecieri implica evaluarea unor probabilitati conditionate. Mai precis,

notând cu H înaltimea unui barbat adult – considerata ca variabila aleatoare cu distributia
N (175, 49 ) – vom evalua folosind NORMDIST din Excel :
P ( H > 185 ) 1 − NORMDIST(185 ,175 ,7 , True ) 0 .0766

P ( H > 185 | H > 180 ) = = = = 0 .322 .
P ( H > 180 ) 1 − NORMDIST(180 ,175 ,7 , True ) 0 .2375
2) Admitând ca numarul de leucocite pe unitatea de volum de sânge diluat, evaluat la

microscop, este distribuit Poisson cu media λ = 100 , care este probabilitatea ca sa fie
observat un numar de cel mult 90?
Evident, putem face apel la functia POISSON din Excel , formula
=POISSON(90,100,True)
oferindu-ne rezultatul dorit. Sa adoptam însa o alta cale, anume prin aproximarea
distributiei Poisson Po (λ ) cu una normala N(µ, σ 2 ) . Determinarea parametrilor se va face

prin egalarea mediilor distributiilor
µ = λ = 100
respectiv a variantelor distributiilor σ2 = λ = 100 . În urma aproximarii, probabilitatea

dorita va putea fi obtinuta si prin formula:
=NORMDIST(90,100,10,True)
127
4.3. Populatii si esantioane, caracteristici si variabile
Statistica este o stiinta care se ocupa cu tratamentul datelor obtinute din grupuri „mici”
de indivizi si extinderea rezultatelor la populatii „mari”.
Principala caracteristica a proceselor biologice este variabilitatea. Aceasta variabilite
determina un anumit grad de incertitudine. Statistica ne permite sa stabilim „legi” în care
sa tinem seama de incertitudine.
Biostatistica este acel domeniu particular al stiintelor în care metodele specifice

statisticii sunt aplicate problemelor biologice (inclusiv medicale), în particular diverselor
fenomene si procese care afecteaza calitatea fizica si mentala a oamenilor.
Biostatistica, fiind o ramura a statisticii, ne permite sa dam raspuns la întrebari cum sunt
urmatoarele:
a. Care valori sunt normale pentru un anumit proces biologic?

b. Cât de mult riscam atunci când alegem un anumit tratament?
c. Este oare mai bun noul tratament decât cel clasic?
Cuvântul populatie are, în limbajul de zi cu zi, un înteles evident. De obicei, atunci când
ne referim la o populatie, consideram implicit ca numarul indivizilor ei este mare; aceasta
nu exclude însa multe situatii, cum este cea din exemplul formal „populatia pacientilor dr.
Ionescu ce sufera de cardiopatie ischemica”, în care este clar ca acest numar nu este prea
mare. Se subîntelege ca o populatie are caracter dinamic (adica numarul indivizilor ei
variaza în timp). Totusi, se presupune ca la un moment particular de timp – sau întrun
interval de timp bine definit – populatia este bine definita.
Fiecare individ al unei populatii îsi are identitatea sa proprie, iar indivizii prezinta o
anumita variabilitate. Atunci când studiem o populatie se iau în considerare doar anumite
atribute „importante” ale indivizilor; aceste atribute poarta numele de caracteristici.
De obicei studiile efectuate asupra indivizilor unei populatii sunt costisitoare si de

durata; câteodata ele au ca efect chiar distrugerea indivizilor „studiati”. Este de neconceput
sa poata fi studiati chiar toti indivizii unei populatii „mari”. Ratiunea esantionarii este
limpede: prin efectuarea de studii asupra unei parti relativ „mici” din populatie – parte care
este numita esantion – sa strângem suficienta informatie care sa ne permita sa inferam la
nivelul întregii populatii asupra caracteristicilor studiate.
128
Numarul indivizilor din esantionul ales este numit volumul esantionului si este notat de
obicei, atunci când ne referim la un esantion potential (esantionul nu a fost precizat) prin
litera n.
Unele caracteristici – cum ar fi greutatea unui pacient diagnosticat cu tuberculoza,

înaltimea sa, sau inteligenta unui student – sunt masurate si exprimate prin numere. Alte
caracteristici – cum ar fi sexul sau categoria de vârsta – nu sunt masurate, ci sunt
identificate prin apartenenta la un grup. Caracteristica „culoare” a obiectelor ar putea fi
masurata (exprimata prin lungimea de unda), însa de obicei este identificata prin
apartenenta la grupurile „rosu”, „portocaliu”, „galben” etc.
Atunci când încercam sa comparam sau sa clasificam indivizi, sa stabilim legaturi între
caracteristicile lor, aceste caracteristici sunt reprezentate prin variabile. Pentru a reprezenta
o caracteristica printr-o singura variabila va trebui sa introducem o scara, ceea ce
înseamna:
1. Sa definim spatiul observabil, adica multimea tuturor valorilor posibile;
2. Sa definim o structura pe spatiul observabil, si
3. Sa admitem ca putem asocia fiecarui individ câte o (singura) valoare din spatiul
observabil.
Pentru a preciza ideile, sa consideram câteva exemple. Caracteristica „înaltime” a

pacientilor este reprezintata evident printr-o variabila, deoarece consideram în mod intuitiv
ca valorile sunt numere reale (cu alte cuvinte spatiul observabil este R iar acest spatiu are o
structura foarte bogata: operatii arit metice, ordonare totala etc.). Este clar ca daca ne
alegem o unitate de masura (metrul, centimetrul, …) atunci pentru fiecare pacient vom
putea sa obtinem – e drept, cu o usoara cheltuiala de timp – o unica valoare a înaltimii sale.
Numerele obtinute sunt reale, prin urmare le putem ordona între ele, de asemenea le putea
aduna, scadea, etc. O asemenea variabila este numita variabila numerica .
Aceeasi caracteristica „înaltime” ar putea fi reprezentata de o variabila de cu totul alt tip.

Spatiul observabil este acum format doar din etichetele „foarte scund”, „scund”, „mediu”,
„înalt” si „foarte înalt”. Nu mai este necesara o masurare precisa a pacientilor, le vom
putea „aprecia vizual” înaltimea. Asemenea etichete nu pot fi adunate sau scazute, este
definita doar ordonarea între ele. De data aceasta avem un exemplu de variabila ordinala.
129
Câteodata o caracteristica este exprimata printr-o variabila de decizie (sau variabila
binara ) ce ia doar doua valori „admis”/„respins” (respectiv „da”/„nu” etc.).
O alta situatie ce trebuie scoasa în evidenta este cea a caracteristicii „inteligenta” a unui
student, care poate fi exprimata printr- un ansamblu de variabile.
Asadar, o caracteristica studiata ar putea fi reprezentata, direct sau indirect, prin mai
multe variabile .
Atunci când avem de-a face cu un esantion „mare” (adica are un numar „mare"de
indivizi), de obicei variabilele numerice sunt înlocuite prin variabile calitative, ordinale
(care reprezinta aceeasi caracteristica). Mai precis, datele numerice sunt grupate întrun
numar „mic” de clase. De exemplu, se utilizeaza foarte adesea clase de vârsta sau clase de
înaltime.
Numarul K de clase este ales în strânsa dependenta de problema studiata si nu exista

definit vreun „algoritm” de stabilire a sa. Un numar prea mic de clase are dezavantajul ca
„ascunde” particularitatile claselor; din contra, un numar mare de clase face dificila
reprezentarea grafica a rezultatelor. (Se recomanda reprezentarea grafica a rezultatelor
datorita perceptiei mai rapide pe cale vizuala a informatiei.) Se poate face recomandarea de
a se forma între 8 si 20 de clase.
Sa luam de exemplu clasele de vârsta ale pacientilor, considerând ca studiem un

esantion de indivizi diagnosticati cu o anumita maladie. Pare natural sa grupam vârstele lor
în clase – delimitate subiectiv dupa cum urmeaza C1 = „0-4 ani”, C2 = „5-9 ani”,
C3 = „10-14 ani” si asa mai departe.
Observam ca toate clasele descrise anterior au aceeasi „lungime”, anume 5 ani. Aceasta
este recomandat, dar nu este obligatoriu!
În cazul în care fie indivizii sunt grupati natural în clase, fie datele colectate au fost
grupate în clase, putem calcula frecvente. Pentru o clasa de date, frecventa absoluta este
numarul indivizilor pentru care datele apartin acelei clase. Frecventa relativa se
calculeaza prin împartirea frecventei absolute la numarul total al indivizilor din esantion.
Uneori se folosesc si asa- numitele frecvente cumulate .
130
Frecventele variabilelor (nu numai cu valori numerice) se obtin cu usurinta în Excel prin
intermediul functiei FREQUENCY(). Aceasta functie are doua argumente:
1. Domeniul în care au fost plasate valorile variabilelor (data array);
2. Domeniul – în general pe o coloana – în care se trec valorile de separare, în ordine

crescatoare (bins array).
Rezultatele aplicarii acestei functii sunt plasate întrun domeniu ce are o celula în plus
fata de domeniul valorilor de separare. În aceasta celula suplimentara va fi afisat numarul
valorilor ce depasesc cea mai mare valoare de separare.
Un exemplu de folosire a functiei FREQUENCY în Excel , în figura urmatoare
si rezultatul aplicarii, dupa extindere:
131
4.4. Reprezentari grafice
Adeseori o reprezentare grafica, interpretata vizual, poate fi extrem de eficienta pentru

prezentarea unor date sau rezultate. Sa consideram, de exemplu, cazurile de infarct
înregistrate întrun oras mare, grupate dupa zilele saptamânii:
Ziua saptamânii Frecventa absoluta a cazurilor de infarct

Luni 4
Marti 4
Miercuri 7
Joi 3
Vineri 6
Sâmbata 4
Duminica 8
TOTAL 36
O inspectare vizuala a numerelo r din tabel nu este la fel de eficienta ca examinarea
vizuala a unei diagrame cu bare sau a unei rozete. Iar reprezentarea datelor întro diagrama
cu bare sau de tip rozeta este o operatiune usoara, implementata în orice soft statistic sau de
calcul tabelar. În figurile de mai jos diagrama cu bare a fost obtinua cu Excel , diagrama de
tip histograma a fost obtinuta cu Statistica, iar diagramele de tip rozeta au fost obtinute cu
Excel si EpiInfo.
132
În tabel, în diagrama cu bare, în histograma si în rozete este prezentata aceeasi
informatie. Probabil ca suntem de acord cu totii ca informatia reprezentata grafic este mai
usor de „înteles”. (O mica corectie: în diagrama de tip histograma este reprezentata o curba
suplimentara, care însa este inutila în cazul nostru. Vom aborda ulterior interpretarea
acestei curbe.)
Se poate observa, în cele doua rozete, ca prezentarea rezultatelor depinde de softul
folosit, existând unele diferente (datorate rotunjirilor). Exista si deosebiri în modul în care
trebuie int roduse datele. Doar în Excel putem pleca de la tabelul de mai sus. În general se
pleaca de la datele primare „caz dupa caz”.
Atât tabelele de frecvente, cât si diagramele sunt adecvate pentru „afisarea” variabilelor
care au un numar „mic” de valori. Asemenea reprezentari – tabelare sau diagramatice – nu
sunt deloc potrivite pentru variabilele care au un numar mare de valori numerice (asa cum
este cazul greutatii pacientilor exprimata în grame). Evident, în asemenea situatii se
practica gruparea valorilor în câteva intervale de valori, iar abia apoi rezultatele gruparii
sunt prezentate în histograme.
De exemplu, sa presupunem ca am cântarit 240 de indivizi (a caror înaltime este de 1.65

m) si am obtinut rezultate care au fost grupate în 16 intervale (grupuri, clase), anume:
C 1 = „41-45 kg” — 5 cazuri;

C 2= „46-50 kg” — 10 cazuri;
C 3 = „51-55 kg” — 20 cazuri;
C 4 = „56-60 kg” — 36 cazuri;
...
C 15 = „111-115 kg” — 0 cazuri;
C 16= „116-120 kg” — 1 caz.
Folosind Excel , Statistica si EpiInfo, din aceste date se obtin histogramele urmatoare:
133
Sa remarcam ca întro histograma clasele sunt intervale de numere reale, iar întro
diagrama cu bare clasele sunt reprezentate prin etichete (labels).
Reprezentarea grafica a datelor ar putea fi folositoare si pentru identificarea datelor

eronate sau a valorilor aberante (outliers). Aceste valori aberante, de orice fel ar fi,
distorsioneaza serios rezultatele analizelor statistice.
Atunci când se construieste o diagrama de tip histograma, pe axa orizontala se

marcheaza punctele de separare între clase si, pentru fiecare clasa, se ridica pe verticala un
dreptunghi cu înaltimea proportionala cu frecventa (fie absoluta, fie relativa) clasei.
Dreptunghiurile sunt de „latimi” egale. Întro histograma veritabila aria tuturor
dreptunghiurilor este 1.)
Sa încheiem aceasta sectiune subliniind ca reprezentarile grafice sunt folosite pentru

accelerarea transferului de informatie de la om la om. Acest transfer bazându-se însa pe
perceptia vizuala, toate „iluziile optice” pot fi folosite pentru a induce o perceptie eronata
asupra unor date. Trebuie sa fim atenti la corectitudinea tipului de diagrama, la falsificarea
datelor prezentate, la modificarea nejustificata a scarilor de masurare, si nu în ultimul rând
la adecvarea textele titlur ilor, etichetelor si legendelor de pe diagrama.
134
4.5. Statistici descriptive. Centrarea unei variabile numerice
Sa consideram ca, întrun studiu efectuat asupra unei populatii mari, suntem interesati în
a studia o anumita caracteristica reprezentata printr-o variabila numerica. Dupa ce am ales
un esantion – sa zicem de n indivizi – si am facut masuratorile necesare, vom dispune de
numerele reale x1 , x2 ,..., xn . Aceste numere sunt reprezentate prin puncte pe axa reala (a se
vedea figura urmatoare) iar intuitia ne spune ca acestea sunt distribuite „echilibrat” în jurul
unui „centru”.
Pare evident cum putem obtine acest centru m: vom calcula media aritmetica a
numerelor (adica însumam numerele, apoi împartim suma la numarul total n al indivizilor
din esantion):
x1 + x2 + ... + x n
m=
n
Sa profitam de ocazie pentru a introduce al doilea înteles al cuvântului „statistica”, si

anume urmatorul: un numar calculat folosind datele obtinute dintr-un esantion. Formula de
mai sus ofera un prim exemplu de statistica.
În formula de mai sus toate marimile masurate sunt tratate în mod „echitabil” (niciuna
nu este tratata altfel decât celelalte). Mai mult, rezultatul este exprimat în aceleasi unitati
de masura ca si valorile masurate.
Aparitia – nu neaparat din eroare! – unei valori aberante (outlier) influenteaza pozitia
mediei aritmetice, totusi nu prea mult – a se vedea figura.
Functii care calculeaza „instantaneu” media aritmetica sunt implementate în orice soft
statistic sau de calcul tabelar. De exemplu, în Excel aceasta functie este numita
AVERAGE() si are un singur argument, anume domeniul în care au fost plasate datele
numerice. Însa, în orice soft statistic media aritmetica este afisata împreuna cu alte statistici
elementare, care sunt considerate „strict necesare pentru analiza”.
135
De exemplu, Statistica, în modulul sau Basic Statistics/Tables contine o comanda
Detailed Descriptive Statistics . Ca un alt exemplu, softul biostatistic EpiInfo 2004 are un
modul numit Analysis; aici se întâlneste comanda Means , împreuna cu alte comenzi,
grupate în grupul Statistics .
În practica media aritmetica nu este singura statistica utilizata pentru a indica „centrul”
datelor. În cazul în care datele sunt ordonate, ca de exemplu astfel:
x1 ≤ x2 ≤ ... ≤ xn
poate fi fo losita si mediana pentru a indica „centrul”. Mediana (Me) este „punctul” ce
divide valorile în doua parti egale.
În situatia în care toate valorile xi sunt distincte, iar n = 2m + 1 (adica numarul datelor
este impar), mediana Me coincide cu valoarea xm+1 care este situata exact în „mijloc”;
atunci când n = 2m (numarul datelor este par), mediana Me este media aritmetica a celor
doua valori, xm si xm +1, situate în mijloc.
În unele situatii, pentru a indica „centrul” mediei aritmetice si medianei îi este preferat
modul. Pentru date categoriale (nenumerice), modul Mo este o statistica definita ca acea
valoare ce are frecventa maxima. Pentru date numeric e, modul Mo, ca „centru” al datelor,
este dat de formula:
Mo = 3 × Me − 2 × m .
136
4.6. Statistici descriptive. Deviatia în jurul centrului
Adeseori evaluarea împrastierii datelor în jurul centrului, eventual o masura a acestei

împrastieri, este la fel de importanta ca si aflarea „centrului”. Multe dintre statisticile care
exprima împrastierea sunt definite plecând de la notiunea de „deviatie”, ele diferind între
ele doar prin întelesul pe care-l acordam acestui termen.
O prima statistica, evidenta, este amplitudinea, notata cu A, si care este definita ca

diferenta între valorile maxima si minima ale seriei de date:
A = xmax − xmin .
Amplitudinea ne informeaza asupra lungimii intervalului de variatie (în cazul unor date
numerice); are dezavantajul ca depinde doar de doua dintre valorile seriei, si nu ne
informeaza deloc asupra modului în care datele sunt împrastiate între extreme.
Din contra, deviatia medie (abaterea medie) depinde „echitabil” de toate valorile seriei
de date. Aceasta statistica presupune ca a fost calculata anterior media m a seriei. Definitia
precisa este urmatoarea: deviatia medie este media aritmetica a abaterilor valorilor fata de
media lor, abateri luate în valoare absoluta:
∑ | xk − m |
E= .
n
Din punct de vedere matematic aceasta formula nu este potrivita (functia modul nefiind
derivabila). Acesta este motivul principal pentru înlocuirea sa cu urmatoarea statistica,
numita varianta seriei de date:
∑ ( x k − m)
2
V= .
n
Pentru a întelege justificarea formulei urmatoare, sa ne imaginam ca valorile x1 , x 2 ,..., x n

sunt variabile aleatoare distribuite normal, independente între ele, toate având aceeasi
medie teoretica µ si aceeasi varianta teoretica σ2 :
xk = N(µ, σ2 ) , E ( x k ) = µ , Var( xk ) = σ 2 .
x1 + x2 + ... + x n
În aceste conditii, m = va fi o variabila aleatoare normala, având aceeasi
n
medie teoretica µ , dar varianta mai mica Var(m) = σ .

2
n
137
De asemenea, V va fi o variabila aleatoare. Prin calcul se obtine urmatorul rezultat:
n −1 2
E (V ) = σ .
n
Observam ca media lui V nu coincide, asa cum ne-am fi asteptat, cu varianta teoretica
σ 2 ! Avem de-a face cu un asa- numit fenomen „de depla sare” (bias). Daca însa consideram
expresia
∑ ( x k − m)
2
W =
n −1
atunci media E (W ) coincide cu varianta teoretica σ 2 , adica este „nedeplasata” (unbiased ).
De aceea estimarea lui σ se face de obicei prin abaterea standard, definita mai jos.
Deviatia medie este exprimata în aceeasi unitate de masura ca si valorile seriei de date,
însa acest lucru nu mai este valabil pentru varianta (nici pentru W). Daca dorim o statistica
ale carei valori sa fie exprimate în aceeasi unitate de masura ca si valorile seriei, care sa
depinda „echitabil” de toate valorile, simultan sa aiba si proprietati matematice bune,
atunci formula urmatoare satisface toate aceste conditii. Formula ne da asa- numita deviatie
standard (sau abatere standard) a seriei de date:
∑ ( x k − m)
2
s= .
n −1
(la numitor apare numarul valorilor din seria de date, diminuat cu 1).
Formula de mai sus pentru s necesita foarte multe calcule; evident, ele sunt
implementate în soft. Astfel aplicatia Excel d ispune de functia STDEV() al carui unic
argument este, la fel ca în cazul functiei AVERAGE(), domeniul în care a fost plasata seria
de date. În Excel avem la dispozitie multe alte functii statistice, ca de exemplu MEDIAN(),
cu folosire evidenta. Statistica ne ofera, în modulul Basic Statistics/Tables, comanda
Detailed Descriptive Statistics . Ca rezultat al ei se afiseaza media Mean, deviatia standard
Std.Dev., valorile minima si maxima (vezi figura urmatoare).
138
Comanda Means (împreuna cu altele,
grupate în grupul Statistics) din modulul
Analysis al aplicatiei EpiInfo ofera multe
rezultate, incluzând media aritmetica,
mediana, varianta, deviatia standard (a se
vedea figura alaturata).
Sa rezumam cele de mai sus: daca

dispunem de o serie de date numerice, pentru
a le evalua centrul si împrastierea în jurul
centrului putem folosi urmatoarele statistici:
— Media aritmetica m;
— Mediana Me;
— Modul Mo;
— Amplitudinea A;
— Abaterea medie (deviatia medie) E;
— Varianta V;
— Abaterea standard (deviatia standard) s.
(Terminologia dubla în limba româna este cauzata de adoptarea recenta a termenilor din
engleza.)
Lista anterioara nu este deloc exhaustiva; în practica sunt des utilizate si alte statistici:
— Cuartilele q1 (prima, de 25%) si q 3 (a treia, de 75%). Acestea sunt numerele care,

împreuna cu mediana Me = q 2 (considerata ca a doua cuartila) divid datele seriei în patru
parti (de volume )egale;
— Asimetria (skewness), care exprima evident lipsa de simetrie a seriei de date în jurul
„centrului”.
Sa încheiem aceasta trecere în revista prin prezentarea unui tip special de diagrama,
cunoscuta ca box-and-whisker plot, des folosita în reprezentarea grafica a datelor medicale.
Întro astfel de diagrama:
139
— o linie transversala sau un asterisc indica „centrul”;
— un dreptunghi indica variabilitatea în jurul centrului; acest dreptunghi (box )
a) fie contine 50% din datele seriei, anume cele aflate între cuartilele q1 si q 3 ;
b) fie contine datele seriei aflate între m − 2s si m + 2 s .
— linii (whiskers) extind dreptunghiul în ambele directii; aceste linii indica domeniul de
variatie (excluzându-se eventualele valori aberante, care sunt marcate special).
Un exemplu de trei box-and-whisker plots realizate cu Statistica este prezentat în figura

de mai jos. Ele arata distributii destul de dezechilibrate pentru valorile tuturor celor trei
variabile GLIC_08, GLIC_14, GLIC_20.
140
4.7. Statistici descriptive pentru variabile calitative
În cazul variabilelor cantitative datele sunt numerice, prin urmare putem calcula media
lor – prin operatii aritmetice de adunare si împartire – sau abaterea standard (pentru care
calculele sunt ceva mai comple xe). În cazul variabilelor calitative însa, valorile sunt
etichete, iar operatiile aritmetice nu sunt definite!
Am putea înlocui etichetele prin numere – de exemplu am putea recodifica eticheta

„admis” prin 1 iar eticheta „respins” prin 0 – si apoi sa facem calculele cu aceste numere;
dar, evident, nu avem nicio justificare în a face asa ceva.
Data o variabila calitativa, am putea fixa o valoare particulara a ei si apoi, pentru fiecare
individ din esantion, am putea nota prezenta respectiv absenta acestei valori. Prezenta este
notata de obicei prin 1, iar absenta prin 0. Daca prezenta valorii este constatata la a indivizi
ai esantionului, prin raportare vom obtine imediat frecventa relativa a acestei valori:
a
f = .
n
Pentru valoarea aleasa, acest raport joaca acelasi rol pe care- l joaca media aritmetica în
cazul variabilelor cantitative. (De fapt, este media unor valori ce pot fi doar 1 sau 0.) Prin
urmare este o statistica de „centrare”.
Împrastierea este evaluata, în aceasta situatie, prin asa- numita varianta a valorii alese,
definita prin:
V = f (1 − f )
sau prin deviatia standard a valorii:

s= f (1 − f ) .
(Este vorba de fapt de formulele obisnuite, prezentate în paragraful anterior, adaptate

pentru valorile xk = 0 sau 1.)
Adevarata statistica „de centrare” pentru întreaga serie de date (asadar pentru ansamblul
valorilor etichete) este, în acest caz, modul, care nu este altceva decât eticheta/etichetele
având frecventa maxima.
141
4.8. Covarianta si corelatia
Rare sunt studiile efectuate asupra unei populatii în care suntem interesati în a studia
doar o anumita caracteristica (reprezentata printr-o variabila).
Sa consideram printr-un exemplu cazul cel mai simplu, cel în care studiem doua
caracteristici: se înregistreaza, pentru fiecare nou nascut, vârsta mamei (în ani) si greutatea
noului nascut (în grame). Oare exista vreo legatura între aceste doua variabile? Si daca da,
oare putem exprima aceasta legatura printr-o formula liniara? La prima vedere se pare ca
raspunsurile la aceste întrebari sunt fie „da”, fie „nu”. Însa modul binar de a raspunde la
întrebari nu este specific statisticii! În cadrul statisticii se dau raspunsuri diversificate, de
exemplu exprimate printr-un numar ce exp rima intensitatea legaturii între cele doua
variabile (?). Iar fiecare persoana ar putea sa-l interpreteze, dupa cum doreste, ca un „da”
sau un „nu”!
Una dintre posibilitatile de a da asemenea raspunsuri consta în folosirea coeficientului
de corelatie (Pearson), al carui calcul se bazeaza pe calculul covariantei.
În practica, atunci când studiem legatura între doua variabile numerice, începem prin a
alege un esantion, apoi înregistram datele provenite din masuratorile efectuate asupra
indivizilor; datele rezultate sunt prezentate fie întrun tabel:
Individul Valorile variabilei X Valorile variabilei Y

1 x1 y1
2 x2 y2
... ... ...
k xk yk
... ... ...
n xn yn
fie ca un „nor” de n puncte în plan (a se

vedea figura alaturata).
142
În cazul în care (avem impresia ca) punctele sunt aliniate, ne exprimam spunând ca
exista o corelatie liniara între variabilele X si Y.
Sa notam cu m X respectiv mY mediile celor doua serii de date. Covarianta între cele
doua serii de date se calculeaza cu formula
∑ (x
1
C= k − m X )( y k − mY ) .
n
(Se observa ca atunci când seria de date Y coincide cu seria de date X, expresia
covariantei C devine expresia variantei V.)
Corelatia (liniara) între cele doua serii de date este definita prin asa- numitul coeficient
de corelatie Pearson:
∑ ( xi − m X )( y i − mY )
rX ,Y = .
∑ ( x i − m X ) 2 ⋅ ∑ ( y i − mY ) 2
Acest numar este între –1 si 1. În cazurile extreme (adica atunci când numarul rX ,Y este
apropiat fie de –1, fie de 1) avem de-a face cu o puternica legatura liniara între seriile de
date, pe care o putem extrapola (asumându- ne riscuri!) la o legatura liniara:
Y = αX + β
între variabile.
Sa facem observatia ca formula de calcul a coeficientului de corelatie Pearson poate fi

rescrisa în felul urmator:
C
rX ,Y =
s X sY
unde s X respectiv sY sunt abaterile standard ale celor doua serii de date. Calculul destul
de dificil al numarului rX ,Y este efectuat în Excel prin intermediul functiei CORREL().
Aceasta functie are doua argumente care sunt, evident, domeniile în care am depus cele
doua serii de date.
Ca un caz concret, sa presupunem ca pentru 10 indivizi – alesi în esantion – au fost

masurate temperatura axilara (în °C) si pulsul (în numar de oscilatii/minut), obtinându- se
rezultatele din tabelul urmator:
143
k Pulsul xk Temperatur a axilara yk
1 75 38.2
2 80 37.5
3 70 36.5
4 90 38.3
5 75 37.1
6 85 38.0
7 80 37.6
8 90 38.5
9 100 39.4
10 95 38.9
Prin calcul (cu functia CORREL() din Excel ) obtinem (vezi figura de mai jos):
rX ,Y = 0.911885 ≈ 0.912
care ne indica o legatura liniara puternica între puls si temperatura axilara.
Coeficientul de corelatie Pearson poate fi calculat doar daca dispunem de date numerice.
Sa consideram acum ca valorile variabilelor X si Y nu pot fi obtinute prin masuratori;
dimpotriva , ele sunt numere de ordine, asa cum ar fi, de exemplu, rangurile acordate
concurentilor de catre doi arbitri. Coeficientul de corelatie Pearson, chiar daca este
calculabil, nu ofera o interpretare adecvata a „concordantei” între evaluarile arbitrilor. În
situatii de acest fel se va calcula, cu formula
2
∑ dk
ro = 1 −
N ( N 2 − 1)
în care d k este diferenta rangurilor obtinute de concurentul k , asa-numitul coeficient de
corelatie Spearman.
144
Bibliografie
1. P. Armitage, G. Berry, Statistical Met hods in Medical Research. Blackwell,

1987
2. P. Degoulet, M. Fieschi, Introduction to Clinical Informatics. Springer

Verlag, 1999
3. Andrei Dumitru Iacobas, Biostatistica Medicala. Bucura Mond, 1997
4. Paul G. Hoel, Introduction to Mathematical Statistics. J. Wiley & Sons, 1971
5. D. V. Lindley, Introduction to Probability and Statistics from a Bayesian

Viewpoint. Part 1. Probability. Cambridge Univ. Press, 1969
6. Donald H. Sanders, François Allard, Les Statistiques. Une Approche

Nouvelle. McGraw Hill, 1992
7. Peter Whittle, Probability. J. Wiley & Sons, 1970
145

An1Curs4 2006

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

An1Curs4 2006

Încărcat de

Drepturi de autor:

Formate disponibile

Cursul 4.

Sa ne imaginam ca studiem un numar de indivizi ai unei populatii, de exemplu studentii

– cum putem sa descriem „sintetic” datele pe care le- am obtinut?

La acest gen de întrebari statistica poate da un raspuns. Dar, pentru a întelege

Continutul acestui curs este urmatorul:

4.1. Distributii continue .....................................................................................................116

4.2. Distributii normale (Gauss)........................................................................................120

4.3. Populatii si esantioane, caracteristici si variabile ....................................................128

4.4. Reprezentari grafice ....................................................................................................132

4.5. Statistici descriptive. Centrarea unei variabile numerice.......................................135

4.6. Statistici descriptive. Deviatia în jurul centrului .....................................................137

4.7. Statistici descriptive pentru variabile calitative.......................................................141

4.8. Covarianta si corelatia ................................................................................................142

În toate consideratiile anterioare au fost abordate numai distributii pentru care

1) are valori pozitive:

2) aria delimitata de graficul ei si de axa absciselor este 1, adica:

arie data de expresia ∫ ab f ( x) dx , este legata de o distributie/ variabila aleatoare continua X

Este important sa observam ca valoarea f (x) a unei functii densitate de

probabilitate nu este o probabilitate .

Totusi, relatia urmatoare stabileste o legatura cu probabilitatile evenimentelor:

Pentru o distributie continua, având asociata variabila aleatoare X, se defineste prin

Nu este deloc obligatoriu ca graficul functiei densitate de probabilitate (asociata unei

Ne dam seama cu usurinta ca F este o functie crescatoare si ca densitatea de

(pentru punctele x în care functia de distributie F este derivabila).

În figura de mai jos este prezentat graficul unei functii de distributie.

f ( x ) = 0 . Distributia continua a carei densitate de probabilitate este aceasta functie poarta

numele de distributia uniforma. Variabila aleatoare asociata va fi notata cu U.

Sa facem observatia ca, pentru orice a , b ∈ [0, 1]

ceea ce înseamna ca probabilitatea ca variabila U sa ia valori între a si b este exact

„Sortii de izbânda” ca variabila U sa ia valori în doua intervale de lungimi egale sunt

(ceea ce nu este deloc surprinzator), apoi:

Distributiile discrete pot fi asimilate distributiilor continue. Într- adevar, daca

x1 < x 2 < ... < x n < ...

este secventa de valori a variabilei aleatoare discrete X (asociata distributiei discrete),

În multe rationamente teoretice distributiile normale (Gaussiene) joaca roluri

N(µ, σ 2 ) , este caracterizata prin densitatea de probabilitate:

Dupa ce se calculeaza câteva integrale, se obtin urmatoarele rezultate:

Graficul functiei Graficul functiei densitate a

axa valorilor variabilei

distributiile normale. Daca X este o distributie de tipul N(µ, σ 2 ) , atunci distributia

este de tipul N(0 , 1) . Mai mult,

Exercitiu. Identificati tipul si rolul celui de-al patrulea argument al functiei

O densitate de probabilitate de tip „clopot Gauss” – ce corespunde unei distributii

b) aproximeaza „bine” multe alte distributii, cum sunt cele binomiale;

c) constituie fundamentul inferentei statistice, întrucât reprezinta distributia estimarilor

Sa ilustram ultima motivatie prin urmatorul exemplu. Sa presupunem ca populatia

unde x i este talia individului i din esantion.

Se poate observa ca „histograma” este mai bine aproximata de o Gaussiana.

În mod traditional se considera ca distributii normale cuantifica erorile involuntare ce

reprezinta valoarea masurata, atunci σ va reprezenta eroarea de masurare. Distributii

b) Între abscisele µ − σ si µ + σ (care sunt situate la „distanta” σ fata de media µ , aria

c) Între abscisele µ − 2σ si µ + 2 σ (care sunt situate la „distanta” 2 σ fata de media µ ,

Se practica aproximarea unor distributii binomiale b (n , p ) prin distributii no rmale, mai

De fapt, distributiile binomiale b (n , p ) sunt simetrice doar pentru p = 0 .5 , iar asimetria

n ⋅ p ≥ 5 si n ⋅ (1 − p ) ≥ 5 , iar în aceste cazuri parametrii distributiei normale se obtin prin

identificarea mediilor si variantelor: µ = n ⋅ p , σ 2 = n ⋅ p ⋅ (1 − p) .

„probabilitatea succesului” pentru un candidat va fi de 20

σ 2 = n ⋅ p ⋅ (1 − p ) = 20 ⋅ 0.8 = 16 de unde σ = 4 . Cunoscând datele anterioare despre distributiile

de nume de pe buletinul de vot. În aceasta situatie p = 0 .4 , µ = 40 , σ 2 = 40 ⋅ 0.6 = 24 , adica

P ( z ' < Z ≤ z ) = P (Z ≤ z) − P( Z ≤ z ' ) .

O procedura uzuala pentru descrierea performantei reale consta în indicarea scorului

În practica µ si σ sunt estimate din datele pe care le avem la dispozitie. De exemplu,

Familia distributiilor normale prezinta o importanta deosebita si datorita unor rezultate