Sunteți pe pagina 1din 34

Partea I

Noțiuni teoretice de Biostatistică

1 Introducere în Biostatistică
1.1 Obiectul de studiu, metoda şi scopul biostatisticii

Biostatistica este o ramură a statisticii, specializată în studiul ştiinţelor biologice. Ca ştiinţă,


biostatistica are un obiect de studiu propriu, o metodă particulară şi un scop bine precizat.

Obiectul de studiu al biostatisticii este reprezentat de variaţia curentă-continuă, în timp, în


spaţiu şi din punct de vedere calitativ a fenomenelor de tip stochastic din domeniul ştiinţelor
vieţii.

Metoda biostatisticii este definită ca un ansamblu de principii metodologice, procedee şi


tehnici care permit producerea informaţiei statistice, pe baza colectării, prelucrării şi analizei
datelor statistice, precum şi fundamentarea deciziilor privind starea şi variabilitatea
colectivităţilor statistice, în timp, în spaţiu şi din punct de vedere calitativ.

Scopul biostatisticii este cunoaşterea fenomenelor de masă, caracterizate prin variabilitate şi


produse sub semnul incertitudinii. Se urmăreşte atât elaborarea informaţiei statistice necesare
fundamentării deciziilor asupra colectivităţilor statistice, cât şi descoperirea legilor de
variabilitate a fenomenelor biologice care se produc şi evoluează sub semnul incertitudinii.
După aprecierea lui A. Piatier [18], statistica (în particular, biostatistica) nu permite să se
afirme certitudinea, ci să se cerceteze limitele de incertitudine.

1.2 Demersul statistic

Demersul statistic reprezintă totalitatea acţiunilor concrete care se desfăşoară de la iniţierea


unei cercetări statistice şi până la finalizarea ei. Proiectarea unui demers statistic se referă la:
- stabilirea problematicii de cercetare
- observarea statistică
- prelucrarea şi analiza datelor
- interpretarea datelor şi fundamentarea deciziilor asupra fenomenelor reale.
Stabilirea problematicii de cercetare implică:
- identificarea problemei de cercetare
- documentarea teoretico-ştiinţifică şi practică asupra investigaţiilor similare
- identificarea variabilelor
- definirea ipotezelor
- specificarea scopului cercetării
- alegerea metodelor de cercetare, determinarea volumului eşantionului (în cazul
cercetării parţiale)
- elaborarea planului cercetării.

Observarea statistică vizează înregistrarea datelor care determină autenticitatea informaţiei


statistice. În funcţie de caz, sunt vizate aspecte legate de timpul şi locul observării, de
specificarea echipamentelor şi a instrumentelor de măsurare, cât şi măsuri organizatorice care
urmăresc asigurarea unei logistici cât mai bune pentru desfăşurarea observării statistice.

Prelucrarea şi analiza datelor (pe baza cărora se obţin informaţii statistice) presupun:
- sistematizarea (organizarea) datelor colectate prin procedee de centralizare şi grupare
statistice
- prezentarea datelor statistice prin procedee tabelare şi grafice
- calcularea indicatorilor derivaţi (indicatorii tendinţei centrale, ai dispersiei, ai formei
de repartiţie, ai variaţiei în timp şi spaţiu etc.)
- testarea ipotezelor statistice cu ajutorul testelor parametrice şi neparametrice, de
exemplu măsurarea influenţei factorilor asupra variaţiei fenomenelor, utilizând
procedeul ANOVA
- măsurarea gradului de intensitate a legăturii statistice între variabile, folosind procedeul
corelaţiei
- aproximarea modelelor de regresie şi de trend, folosind procedeul ajustării statistice
- estimarea parametrilor şi verificarea ipotezelor statistice prin procedee inferenţiale etc.

Interpretarea datelor şi fundamentarea deciziilor asupra fenomenelor reale evidenţiază


rezultatele cercetării şi, eventual, sugestii pentru alte studii.

Ca disciplină ştiinţifică, statistica poate fi divizată în statistica descriptivă şi statistica


inferenţială. Statistica descriptivă vizează culegerea, organizarea, rezumarea şi prezentarea
datelor, iar statistica inferenţială (bazată pe deducţiile statistice) este fundamentată pe
formularea de concluzii despre un set de date de bază atunci când a fost cercetată numai o parte
din acel set.

1.3 Sistematizarea datelor

Sistematizarea datelor presupune cunoaşterea unor noţiuni fundamentale de statistică pe care


vi le prezentăm în continuare.
Observaţie: orice valoare sau măsură observată a unui subiect.

Variabilă aleatoare: caracteristica ce este măsurată sau observată. Adesea este definită prin
majuscule (X, Y etc.).

Variabile cantitative (de tip interval şi de tip raport): variabile care pot fi măsurate numeric
(de exemplu greutatea, înălţimea).

Variabile calitative (categoriale şi ordinale): variabile ale căror modalităţi de reprezentare sunt
exprimate atributiv, în cuvinte (de exemplu, sexul, naţionalitatea, calificarea profesională).

Variabilă aleatoare discretă: variabilă care are un număr de valori posibile finit sau infinit,
dar care poate fi numărat.

Variabilă aleatoare continuă: variabilă care poate avea numai o valoare dintr-un anumit
domeniu.

Populaţie: ansamblul tuturor subiecţilor posibili de interes pentru o anumită problemă. Dacă
populaţia este finită, numărul total de observaţii este N numit volumul populaţiei.
Eşantion aleatoriu: un eşantion în care fiecare subset de dimensiune n al populaţiei are aceeaşi
posibilitate (probabilitate egală) de a fi selectat.

Eşantion: submulţime a populaţiei. Datorită limitărilor de timp, cost etc., de obicei nu putem
cerceta întreaga populaţie. De aceea luăm o probă de dimensiunea n (n observaţii) şi calculăm
statistici descriptive despre datele din eşantion, pe care le folosim pentru a formula concluzii
despre populaţie.

Parametru: o caracteristică a populaţiei. Notat prin litere greceşti, şi de obicei necunoscut.

Statistică: Caracteristică (calculaţie) a eşantionului, care este folosită pentru estimarea


parametrilor populaţiei.

O clasificare a variabilelor statistice poate fi vizualizată în Tabelul 1.1.

Tabelul 1.1 Clasificarea variabilelor statistice


Tip de variabile Caracteristică definitorie Exemplu
Discrete Variabila ia valori numărabile. Numărul de animale într-
Se exprimă, de regulă, în numere un lot.
întregi, nonnegative.
Nominale Clasele distincte nu au o ordine O plantă are sau nu are o
sau rang predeterminat. boală.
Ordinale Clasele distincte au un rang Plantele bolnave sunt
predeterminat clasificate după severitatea
bolii.
Continue Observaţiile pot lua orice Salariul în lei.
valoare pe o scară continuă.
Interval Scală definită de diferenţele Temperatura,valoarea I.Q.
dintre observaţii. Zero este un
punct arbitrar.
Raport Diferenţele de scală reprezintă Procent din populaţia
relaţii adevărate. Zero reprezintă rurală,venitul mediu pe
absenţa completă a atributului. familie.

1.4 Prezentarea datelor


Prezentarea datelor este modalitatea prin care se fac cunoscute datele culese, sub formă de
tabele de frecvenţă şi grafice statistice, cu scopul de a facilita formarea unei imagini globale
despre obiectul de studiu.

1.4.1 Tabel de frecvenţă


Tabelul de frecvenţă este un mod tabelar de prezentare a datelor. Tabelul este alcătuit din valori
ale variabilelor aleatoare (posibil grupate) după:
- Frecvenţă (f): numărul de apariţii pentru o valoare;
- Frecvenţa cumulată (cf): numărul de observaţii mai mic sau egal cu acea valoare;
- Frecvenţa relativă (rf): proporţia de observaţii raportată la valoare (rf=f/n);
- Frecvenţa cumulativă relativă (rcf): proporţia de observaţii mai mică sau egală cu acea
valoare (rcf=cf/n).
Pentru variabilele discrete cu multe valori, sau pentru variabilele continue, valorile sunt grupate
în clase.
Lăţimea unei clase este raportul dintre amplitudine (diferenţa dintre valoarea maximă şi cea
minimă din şirul de valori) şi numărul de clase.
Observaţie: În general, clasele trebuie să fie de aceeaşi lăţime.
Prea puţine clase = se pierd detalii.
Prea multe clase = se creează confuzie.

1.4.2 Trasare tip Tulpină-şi-frunză


Aceasta este o procedură grafică în care datele efective sunt păstrate. ”Tulpina” este
determinată de prima (primele) cifră (cifre) din observaţie, date grupate adesea în clase.
”Frunzele” sunt cifrele care urmează. De obicei frunzele sunt separate de tulpină printr-o linie.

1.4.3 Histograma
Histograma (vezi Figura 1.1) este un mod grafic de prezentare a datelor. Valorile variabilei se
află pe axa orizontală, iar frecvenţa absolută sau frecvenţa relativă se află pe axa verticală.
Deasupra fiecărei valori (sau interval de clasă) se află un dreptunghi de înălţime egală cu
frecvenţa absolută sau frecvenţa relativă a acelei valori sau clase. Dreptunghiurile sunt alăturate
unul de altul.
Histograma nu numai că ne oferă o idee despre felul în care arată datele, dar este şi o estimare
a modului în care arată adevărata populaţie. Suprafaţa dreptunghiurilor este proporţională cu
frecvenţa relativă în Figura 1.1.

Figura 1.1 Distribuţia după Vârstă a subiecţilor

1.4.4 Poligonul frecvenţelor


Acesta este foarte asemănător unei histograme în care legăm punctul de mijloc al vârfului
dreptunghiurilor cu o linie.
1.4.5 Grafice pentru variabilele calitative
Grafic cu bare: bare desenate cu lungimea proporţională cu numărul de observaţii din fiecare
categorie.
Grafic„plăcintă”: triunghiurile „plăcintei” sunt proporţionale cu frecvenţa categoriei
respective.
Pictogramă: grafice în care fiecare simbol reprezintă un număr de răspunsuri.

1.5 Probabilităţi
Probabilitatea ca ceva să se întâmple este modul de a reprezenta posibilitatea de apariţie a ceva.
Orice observaţie este rezultatul producerii sau efectuarea unui experiment. Orice experiment
are un set de rezultate posibile denumit spaţiul eşantionului S. Un eveniment este un subset al
spaţiului eşantionului S, adică mai multe rezultate. Spunem că evenimentul se întâmplă dacă
apare orice rezultat în cadrul acelui eveniment.
Vorbim despre probabilităţi sau posibilităţi. Acest lucru este notat cu P (eveniment) şi se citeşte
„probabilitatea acelui eveniment”.

Să presupunem că într-un experiment avem un număr de N rezultate posibile la fel de probabile


şi care se exclud reciproc. Să presupunem că s dintre acestea duc la apariţia unui anumit
eveniment, E. Probabilitatea evenimentului este:
s
P( E ) = .
N
Analog,
N −s s
P( E ') = = 1 − = 1 − P( E )
N N
unde E este evenimentul complementar (toate rezultatele care nu duc la apariţia evenimentului).
'

1.5.1 Proprietăţile probabilităţilor


Din definiţie, putem vedea că pentru orice eveniment E, dacă p=P(E), atunci:
0  p  1.
Dacă p=0, atunci evenimentul nu se poate produce, iar p=1 înseamnă că evenimentul se
produce în mod sigur.

Complement
Pentru orice eveniment E definim complementul ca mulţimea tuturor rezultatelor posibile care
nu sunt conţinute în E. Complementul este notat cu E', EC sau E .
Ştim că P( E ') = 1 − P ( E ) .
Regula generală de adunare

Notaţii
 : reuniunea a două mulţimi – asociată cuvântului ”sau”;
 : intersecţia a două mulţimi – asociată cuvântului ”şi”.
Pentru orice evenimente A şi B, P( A sau B) = P( A) + P( B) − P( A − B)
i.e. P( A  B) = P( A) + P( B) − P( A  B)
Evenimentele se exclud reciproc dacă nu au rezultate comune (dacă nu se suprapun). Dacă
evenimentele A şi B se exclud reciproc, atunci P(A şi B)=0. Astfel, pentru evenimentele care
se exclud reciproc:
P(A sau B) = P(A) + P(B).

Probabilitatea condiţionată
Probabilitatea condiţionată este probabilitatea ca evenimentul A să se întâmple, cu condiţia ca
evenimentul B să se producă. Acest lucru se notează cu P(A/B). Simbolul „/” este asociat
expresiei ”cu condiţia”:
P( A şi B)
P( A / B) = .
P( B)
Adesea, probabilitatea condiţionată este uşor de măsurat. Uneori poate fi folosită pentru
calcularea probabilităţii P(A şi B).
P( A şi B) = P( B)  P( A / B) = P( A)  P( B / A)
Independenţa
Dacă două evenimente sunt independente, apariţia unuia nu afectează probabilitatea de apariţie
a celuilalt.
Dacă A şi B sunt evenimente independente, P(A/B) = P(A).
(Notă. Pe de altă parte, dacă A şi B sunt evenimente care se exclud reciproc, atunci P(A/B) =
0.)
Astfel, pentru evenimente independente, P(A şi B) = P(A) P(B).
Teorema lui Bayes
Această teoremă este un mod de a obţine P(B/A) din P(A/B) folosind regulile probabilităţii
condiţionate şi a probabilităţii reunite.
P( A şi B) = P( B)  P( A / B) = P( A)  P( B / A)
Folosind aceasta putem rezolva pentru P(B/A) şi obţine teorema lui Bayes.
P( A / B)  P( B)
P( B / A) = .
P( A)
2 Indicatori statistici descriptivi. Distribuţii statistice

2.1 Statistica eşantioanelor

2.1.1 Măsuri ale locaţiei


Acestea sunt uneori denumite măsuri ale tendinţei centrale şi sunt calculate folosind datele din
eşantion care arată unde este centrat setul de date.

1. Media eşantionului X (media aritmetică a n observaţii):


n

X 1 + X 2 + ... + X n 
Xi
X= = i =1
.
n n
Aceasta estimează media populaţiei,  , care este media populaţiei din care s-a prelevat
eşantionul.

2. Mediana eşantionului

Mediana unui set de date este o valoare în aşa fel încât există un număr egal de observaţii
deasupra şi sub mediană.
Pentru a calcula mediana, aranjaţi datele după ordinea de mărime, de obicei de la mic la mare.
Poziţia medianei este (n+1)/2.
Dacă n este impar, mediana este valoarea de ”mijloc”.
Dacă n este par, mediana este media celor două valori de ”mijloc”.
Mediana este adeseori folosită pentru a exprima valoarea ”tipică” a unui set de date. Aceasta
din cauză că mediana este influenţată mai puţin de valorile extreme din setul de date decât de
medie. Din această cauză este denumită statistică mai ”robustă”.

3. Modulul eşantionului

Valoarea care apare cel mai des în date. Este cel mai folositor pentru variabilele care au puţine
valori.

2.1.2 Măsuri ale dispersiei


Măsurile dispersiei sunt numere calculate din setul de date care arată dispersia, împrăştierea
sau variabilitatea datelor. Acestea sunt definite astfel încât un număr mai mare arată o
variabilitate mai mare.

1. Amplitudinea
Distanţa dintre valoarea cea mai mică şi cea mai mare din setul de date. Această măsură nu
foloseşte toate datele şi de aceea poate fi influenţată foarte mult de o singură valoare extremă
din setul de date.

2. Varianţa (dispersia) eşantionului s2.


Aceasta este pătratul abaterii medii de la medie. Această măsură foloseşte toate datele din set.
( X )
n 2
i −X
s2 = i =1
(forma de definiţie)
n −1
Pentru a calcula varianţa eşantionului, este mai uşor să folosim forma de calcul.
n

X
2
i
2
− nX
s2 = i =1
(forma de calcul)
n −1
S2 estimează varianţa populaţiei,  2 . Folosind (n-1) la numitor face ca estimarea să fie mai
bună (estimare nedeviată).

3. Deviaţia standard a eşantionului S

Aceasta este rădăcina pătrată a lui s2. Întrucât varianţa este în unităţi pătratice, deviaţia standard
a eşantionului va avea aceeaşi unitate de măsură ca şi datele. S poate fi considerat ca o deviaţie
”medie” de la medie.
S = S2
Cu cât deviaţia standard sau varianţa este mai mare, cu atât mai împrăştiat este setul de date, şi
la fel de lungi sunt unităţile de măsurat.

4. Coeficientul de variaţie

Dacă vrem să comparăm două seturi de date care au unităţi de măsură diferite, nu putem folosi
s sau s 2 . Ne trebuie ceva care să nu aibă unitate. Putem folosi coeficientul de variaţie (CV).
100  s
CV =
X
Acesta reprezintă variaţia raportată la dimensiunea mediei.

2.1.3 Box plot (grafic cutie)


Cuartile – valori care împart datele în sferturi.
Cuartila superioară (UQ) are 75% din date mai mici decât ea.
Cuartila de mijloc (MQ) are 50% din date sub ea şi este denumită mediană.
Cuartila inferioară (LQ) are 25% din date mai mici decât ea.

2.2 Distribuţia probabilităţilor

Fiecare variabilă aleatoare are o distribuţie de probabilitate care indică valorile luate de
variabila aleatoare precum şi probabilităţile corespunzătoare.

2.2.1 Distribuţii discrete

Distribuţia probabilităţii pentru o variabilă aleatoare discretă conţine valorile luate numai de
variabila aleatoare, împreună cu probabilitatea corespondentă a fiecărei valori.
Definim funcţia de probabilitate f(x) ca fiind o funcţie a lui X, care atunci când este evaluată
pentru orice valoare a lui X, rezultatul este probabilitatea ca X să fie egal cu acea valoare.
Astfel,
f ( x) = P( X = x) .
Proprietăţi
1. 0  f ( x)  1, pentru orice x.
2.  f ( x) = 1
În general, putem fi interesaţi de P( X  x) , probabilitatea cumulativă. Aceasta se numeşte
funcţia de distribuţie cumulativă, sau cdf, notată cu F(x). Astfel,
F ( x) = P( X  x) .
Parametrii populaţiei

Media populaţiei, notată cu µ sau E(x), este definită ca fiind:


 = E( X ) =  xf ( x) .
Varianţa populaţiei, notată cu  2 , sau Var(X), este definită ca fiind:
 2 = Var ( X ) =  ( x −  )2 f ( x) .
Un mod mai uşor de calcul este sub forma
 2 = Var ( X ) = E ( X 2 ) −  2 , unde E ( X 2 ) =  x 2 f ( x ) .
Notă: µ este estimat de X , iar  2 este estimat de s 2 .

Deviaţia standard a populaţiei este:


 = 2 .
Distribuţia binomială
Aceasta se aplică situaţiilor când socotim numărul de ”succese” din n încercări. Pentru a aplica
această distribuţie trebuie să respectăm următoarele:
1. Fiecare încercare trebuie să aibă două rezultate posibile, succes sau eşec. Aceasta se numeşte
„încercare Bernoulli”.
2. Probabilitatea de succes a fiecărei încercări individuale este constantă pentru fiecare
încercare, fiind notată cu p. P(succes) = p; P(eşec) = (1-p) = q.
3. Încercările sunt independente.
4. Numărul de încercari, n, este fixat.
Variabila aleatoare de interes este X, numărul de succese în n încercări. Funcţia de
probabilitate pentru distribuţia binomială este:
n
f ( x) =   p x (1 − p) n − x , x = 0,1, 2,..., n .
 p
Notaţia X~B(n,p) arată că X are o distribuţie binomială cu doi parametri, n şi p.
Există tabele care dau F(x) pentru distribuţia binomială. Acestea sunt denumite tabele binomial
cumulative. Aceste tabele indică probabilitatea de a fi mai mică sau egală cu o valoare x, care
de obicei este citită pe coloana din stânga a tabelului. Valorile lui n şi p sunt citite în partea de
sus a tabelelor.
Distribuţia Poisson
Aceasta este o altă distribuţie discretă. Are două utilizări importante:
1. Să determine probabilităţile numărului de apariţii ale unui fenomen la un anumit interval.
2. Este o aproximare a distribuţiei binomiale.
În general, funcţia de probabilitate pentru distribuţia Poisson este:
e−   x
f ( x) = , x = 0,1, 2,...,  .
x!
 este media distribuţiei, sau media numărului de apariţii per interval. Există tabele care indică
F(x) pentru distribuţia Poisson. Aceste tabele dau probabilitatea de a fi mai mică sau egală cu
o valoare x, pentru diferite valori ale lui  .
Dacă n este mare, probabilităţile binomiale sunt greu de calculat. Dacă p este mic, putem obţine
aproximări bune ale probabilităţilor folosind distribuţia Poisson, unde  = np .

2.2.2 Distribuţii continue

Variabilele aleatoare continue pot lua orice valoare din domeniu. Astfel, există un număr infinit
de valori. Drept rezultat, probabilitatea oricărei valori este zero. Trebuie să vorbim despre
probabilităţi ca fiind definite în intervale.
Pentru a face acest lucru, să definim funcţia de densitate a probabilităţii, pdf. Aceasta este
notată şi cu f(x). Ea ne indică înălţimea curbei frecvenţei.
Observaţie : f ( x )  0 pentru orice x.

Aria de sub curba dintre oricare două puncte a şi b este probabilitatea ca variabila aleatoare să
ia o valoare între a şi b (cu alte cuvinte, probabilitatea ca variabila aleatoare să cadă în intervalul
dintre a şi b, care este notat (a,b)).
Să ne amintim că pentru datele discrete, f(x) este o funcţie de probabilitate, unde funcţia
generează direct probabilităţile prin simpla evaluare a funcţiei pentru valorile lui X.
În cazul continuu, f(x) este o funcţie de densitate a probabilităţii şi ne indică înălţimea curbei.
Suprafaţa totală de sub curbă este 1.
F(x) este tot cdf, ceea ce denotă probabilităţile cumulate.
F (a) = P( x  a) ,
P(a  x  b) = P( x  a) − P( x  b) = F (a) − F (b) .

Distribuţia normală (sau distribuţia gaussiană)

Distribuţia normală este cea mai des folosită distribuţie în statistică. Există două motive
principale pentru aceasta:
1. Multe seturi de date reale sunt distribuite aproximativ normal.
2. Teorema limitei centrale.
În acest caz pdf este:

( x− )
1
f ( x) = e 2 , −  x  + .
2

2

Media distribuţiei normale este  , iar varianţa este  2 . Forma curbei frecvenţei este complet
specificată de aceşti doi parametri,  şi  . Dacă variabila aleatoare X urmează o distribuţie
normală cu media  şi varianţa  , scriem X N (  ,  2 ) .Curba frecvenţei are forma unui
clopot (unimodală) şi este simetrică în jurul mediei  .

Regulă empirică:
Circa 68% din date vor fi între  −  şi  +  .
Circa 95% din date vor fi între  − 2 şi  + 2 .
Circa 99% din date vor fi între  − 3 şi  + 3 .
Distribuţia normală standard (sau unitatea normală) este o distribuţie normală cu  = 0 şi
 = 1 . Aceasta este de obicei notată cu Z, unde Z~N(0,1).

Probabilităţile distribuţiilor normale standard sunt suprafeţele de sub curbele Z (i.e. curba
normală standard). Aceste valori ale lui F(z) sunt date în tabelele probabilităţilor cumulate
pentru distribuţia normală standard. Aceste tabele indică valorile lui P( z  c) , pentru valori ale
lui c între -3,8 şi 3,8. Pentru orice valoare a lui c, citim numărul întreg şi prima zecimală din
marginea tabelului, a doua zecimală din partea de sus a tabelului şi probabilitatea cumulată
corespunzătoare din corpul tabelului.
Dacă ni se dă probabilitatea, putem găsi punctul corespunzător.
Să presupunem că avem o distribuţie normală care nu este o normală standard. Avem
X N (  ,  2 ) . Vrem să găsim probabilităţile pentru X. Pentru a face acest lucru, utilizăm
normala standard, adică standardizăm.
Dacă X N (  ,  2 ) , atunci
X −
Z= N (0,1) ,

şi
 X − c−   c− 
P( X  c) = P    = PZ 
 
.
    
Observaţie. X =  +  Z este denumită eroarea standard a lui X .
Distribuţia normală este considerată ca bază pentru statistica inferenţială clasică deoarece
utilizarea rezultatelor cercetărilor prin sondaj pornesc de la ipoteza că eşantioanele observate
provin din populaţii distribuite normal.
Teorema limitei centrale
Pentru un n suficient de mare, distribuţia de eşantionare a lui X va fi aproximativ normală
pentru orice distribuţie de bază.
 2 
X N  ,  .
 n 
3 Intervale de încredere

Datele obţinute în studiul statistic sunt, în general, rezultatul observării unui eşantion
extras dintr-o populaţie. Foarte rar cercetarea statistică este exhaustivă (pe întreaga populaţie).
Procesul statistic care vizează formularea de concluzii despre o populaţie pe baza
informaţiilor despre eşantion se numeşte inferenţă statistică sau deducţie statistică şi este
structurat în două componente:
1. Estimarea (include intervalele de încredere) unde estimăm parametrii populaţiei
2. Testarea ipotezei – unde testăm faptul că un parametru al populaţiei este egal cu o anumită
valoare specifică.
Pentru a avea o deducţie corespunzătoare, populaţia eşantionată (populaţia din care se
extrage eşantionul) trebuie să fie aceeaşi ca populaţia ţintă (populaţia despre care se formulează
concluziile).

3.1 Estimarea statistică

Rezultatele observate pe un eşantion sunt generalizate (extrapolate) la nivelul populaţiei


prin estimare statistică, adică se află valoarea unui parametru al unei populaţii pe baza datelor
înregistrate la nivelul unui eşantion extras din această populaţie.
În procesul estimării, un parametru reprezintă o mărime fixă reală, dar necunoscută
(care trebuie estimată) a unei populaţii. Parametrul se notează printr-o literă din alfabetul
grecesc şi se determină pe baza unei funcţii (medie, varianţă etc.) a caracteristicii observate la
nivelul populaţiei. De exemplu, notăm cu  media populaţiei şi cu  2 varianţa populaţiei. În
general, considerăm parametrul  .
Un estimator este o variabilă care urmează o lege de probabilitate şi este utilizat pentru
a estima un parametru al populaţiei. În general,  este un estimator al parametrului  .
Estimarea se poate efectua fie sub formă de estimare punctuală, fie sub formă de
estimare prin interval de încredere.

Cea mai simplă formă de estimare este un estimat punctual, un singur număr (statistic)
calculat din datele de eşantion care estimează un parametru al populaţiei. Acesta reprezintă o
valoare a estimatorului  al parametrului  . De exemplu, X (media de eşantionare) este un
estimat punctual al lui  , iar s 2 (varianţa de eşantionare) este un estimat punctual al lui  2 .
Aşadar, media şi varianţa sunt numite diferit pentru cele două tipuri de colectivităţi
(populaţia şi eşantionul): parametri pentru populaţie şi estimate pentru eşantion.Atât
parametrii, cât şi estimatele sunt valori reale, calculate pe baza datelor observate la nivelul unei
populaţii, respectiv la nivelul unui eşantion. Tabelul 3.1 indică notaţiile utilizate în procesul de
estimare statistică.

Tabelul 3.1 Notaţii utilizate în procesul de estimare statistică


Parametri Estimatori Estimate
(valori) (variabile) (valori)
Media   X
Varianţa  2
2 s2
Proporţia p p f
O problemă evidentă cu estimatele punctuale este aceea că pentru datele continue are
loc relaţia P ( estimatul punctual =  ) = 0 . Ca alternativă, putem folosi estimarea
intervalelor, unde estimăm un parametru prin intermediul unui interval generat de datele din
eşantion. Aceste intervale pot fi construite în aşa fel încât să avem o încredere (probabilitate)
cunoscută care înconjură parametrul. Acestea sunt denumite intervale de încredere, sau IC.
În estimarea unui parametru  prin interval de încredere, primii paşi sunt:
- obţinerea estimaţiei punctuale prin observarea unui eşantion
- definirea limitelor de încredere ale intervalului, care include cu o anumită
probabilitate valoarea parametrului  , pentru un coeficient de încredere dat.

A defini un interval de încredere înseamnă a calcula limitele de încredere, Li =  − 


(limita inferioară) şi Ls =  +  (limita superioară), care acoperă valoarea parametrului  ,
pentru un coeficient de încredere P(Li ≤ θ ≤ Ls) =1 – α, adică:
IC = [ −  ; +  ] .
Riscul ca intervalul să nu conţină valoarea căutată a parametrului este notat cu α.
Se notează cu  valoarea erorii limită care se calculează ca produs între coeficientul
de încredere al unei legi de distribuţie a unui estimator şi eroarea medie de reprezentativitate
a acestuia.
Estimarea parametrului  se realizează pe baza estimatorului  (variabilă aleatoare),
ceea ce necesită cunoaşterea legii de distribuţie a estimatorului.

3.2 Distribuţii de eşantionare


O distribuţie de eşantionare este distribuţia unui estimator (variabilă aleatoare).
Din populaţia de bază de volum N, de parametri µ (media populaţiei) şi  2 (varianţa
populaţiei), extragem k eşantioane de volum n. Pe baza fiecărui eşantion, putem determina un
estimator ce estimează unul dintre parametrii populaţiei. De exemplu, dacă estimatorul este
media de eşantionare, atunci ne referim la distribuţia mediei de eşantionare.
Fiecare eşantion are media xi , varianţa s 2 i şi proporţia f i . Pe ansamblul celor k
eşantioane se obţin variabilele:
 : ( x1 , x2 ,..., xk );
 2 : ( 12,  22 ,...,  k2 );
unde:
 - media de eşantionare;
 2 - varianţa de eşantionare.

3.3 Intervalul de încredere pentru media populaţiei 

Media populaţiei  se poate estima punctual prin media X obţinută la nivelul unui
eşantion. Estimatorul lui  este media de eşantionare  , a cărei distribuţie se fundamentează
pe Teorema limitei centrale.
Distribuţia mediei de eşantionare este caracterizată prin:
1.  urmează întotdeauna o lege normală sau aproximativ normală, de medie  şi varianţă
 2  , respectiv  ~ N ( ,  2 ) ;
2. media distribuţiei mediei de eşantionare este egală cu media populaţiei;
3. varianţa mediei de eşantionare  2  este egală cu varianţa populaţiei  2 împărţită la volumul
eşantionului n.
Există două situaţii pentru estimarea mediei prin intervale de încredere:
- cazul când se cunoaşte varianţa
- cazul când nu se cunoaşte varianţa.

3.3.1 Cazul când  2 este cunoscut


 2 
Ştim că estimatorul  prezintă o lege normală  N   ,  , dacă n este suficient
 n 
de mare sau dacă populaţia de bază este normală; sub formă redusă legea devine
 −
~ N (0,1) . Intervalul de încredere se construieşte cu ajutorul variabilei centrate reduse
/ n
Z:
 −
Z= .
/ n
Intervalul de încredere pentru  , atunci când  2 este cunoscut, se defineşte prin:
   
 X − Z   , X + Z   .
 1−  n 1−  n 
  2  2 

Acest interval poate fi scris ca: X  Z  .
1−  n
 2


Notă: Z  este adesea denumit coeficient de încredere, iar este eroarea standard.
1−  n
 2
Oricând estimatorul urmează o distribuţie normală (sau aproximativ normală),
intervalul de încredere va fi de forma: Estimat ±[(coeficient de încredere)(eroarea standard)].

3.3.2 Cazul când  2 este necunoscut

Un caz mai practic este atunci când dorim un interval de încredere pentru  atunci
când  este necunoscut. Procedeul constă în înlocuirea lui  cu s.
2

X −
Se poate arăta că urmează o distribuţie t cu n-1 grade de libertate, df. Distribuţia
s
n
t este simetrică faţă de 0 şi are forma unui clopot, având părţile terminale ceva mai ”grase”
decât curba normală standard. Forma exactă a distribuţiei t depinde de gradele sale de libertate.
Definim t( df ),c ca fiind punctul de pe curba t( df ) cu suprafaţa c sub ea. Aceste valori apar în
tabelul percentilelor pentru distribuţia t.
Intervalul de încredere pentru  atunci când  2 este necunoscut are expresia:
s
X t   .
( n −1)1−  n
 2
3.4 Intervalul de încredere pentru varianţa (dispersia) populaţiei  2

Folosim estimatul s 2 , pe baza datelor unui eşantion, pentru a estima varianţa populaţiei  2 .
Distribuţia de eşantionare a estimatorului lui  2 nu este normală. Pentru a defini un interval
de încredere, vom folosi distribuţia chi-pătrat ( (2df ) ). Distribuţia (2df ) depinde de parametrul
său df. Observăm că  2 nu este simetric, iar distribuţia  2 folosită în intervalul de încredere
pentru  2 are n-1 grade de libertate.
Definim  (2df ),c ca fiind punctul de-a lungul curbei (2df ) care are suprafaţa c sub aceasta. Aceste
valori se găsesc în tabelul cu percentile al distribuţiei chi-pătrat.
Intervalul de încredere pentru  2 este:
 
 (n − 1) s 2 (n − 1) s 2 
 2 , 2 .
  ( n −1),1−    ( n −1), 
  2 2 

Intervalul de încredere pentru  este obţinut prin extragerea rădăcinii pătrate din capetele
intervalului de încredere pentru  2 .

Alte situaţii pentru definirea intervalelor de încredere

3.5 Intervalul de încredere pentru diferenţa a două medii

3.5.1 Distribuţia diferenţei dintre două medii

Avem două populaţii: prima are media µ1 şi varianţa  12 , iar a doua are media µ2 şi varianţa  22
. Luăm eşantioane de dimensiunea n1 şi n2 şi calculăm X 1 − X 2 care estimează (µ1- µ2).
Procedăm astfel pentru toate eşantioanele posibile de dimensiune n 1 şi n2 pentru fiecare
populaţie. Colectând X 1 − X 2 de la fiecare, formăm distribuţia de eşantionare a lui X 1 − X 2 .
Această distribuţie are următoarele caracteristici:
1. Media
( X 1 − X 2 ) = 1 − 2 .
2. Varianţa, dacă cele două populaţii sunt independente
 12  22
(2
X1−X 2 ) (
= Var X 1 − X 2 =
+
n1 n 2
. )
3. Eroarea standard a diferenţei dintre mediile eşantioanelor
 12  22
(X 1−X 2 )
= + .
n1 n2
Cu datele „în pereche”ne uităm din nou la distribuţia de eşantionare a lui X 1 − X 2 . În acest
caz, distribuţia prezintă:
1. Media d = 1 − 2 .
( ) ( )
2. Varianţa  d2 = Var X 1 + Var X 2 − 2Cov X 1 , X 2 . ( )
3.5.2 Varianţele sunt cunoscute şi diferite
.
Ne propunem să estimăm (µ1- µ2). Estimatul punctual este X 1 − X 2 .
Intervalul de încredere pentru (µ1- µ2) în acest caz este de forma:
 12  22
(X 1 )
− X2  Z
1−

n1
+
n2
.
2

3.5.3 Varianţele sunt necunoscute, presupuse a fi egale

Presupunem că  12 =  22 , aşadat s12 = s22 estimează aceeaşi cantitate. Atunci, un estimat mai bun
ar fi estimatul grupat al varianţelor:
( n − 1) s12 + ( n2 − 1) s22 .
s 2p = 1
n1 + n2 − 2
Estimatul grupat al varianţelor este o medie ponderată a varianţelor.
Intervalul de încredere pentru (µ1- µ2) în această situaţie este:
1 1 
(X 1 )
− X2  t 
( n1 + n2 − 2),1− 
s 2p  +  .
 2  n1 n 2 

3.5.4 Varianţele sunt necunoscute, presupuse a fi diferite

Un interval aproximativ de încredere pentru (µ1- µ2) este:

( )
s2 s2
X1 − X2  t    1 + 2 ,
 ,1−  n n2
 2 1

unde
2
 s12 s22 
 + 
 =  12
n n2 
2
.
 s12   s22 
   
 n1  +  n 2 
n1 − 1 n2 − 1

3.6 Intervalul de încredere pentru raportul a două varianţe

Folosim estimatele s12 şi s22 pentru a estima  12 şi  22 . Pentru a compara  12 şi  22 , ne uităm la


 12 s12
raportul lor şi nu la diferenţa lor. Un estimat punctual pentru raportul este . Distribuţia
 22 s22
de eşantionare de aici este distribuţia F. Aceasta are doi parametri care sunt două grade de
libertate, df1 şi df2, unde df1 este numărătorul lui df, iar df2 este numitorul lui df.
Definim F( df 1, df 2), c ca fiind punctul de-a lungul curbei F(df1, df2) care are suprafaţa c sub
aceasta. Aceste valori se găsesc în tabelul cu percentile ale distribuţiei F.
 12
Pentru a obţine un interval de încredere pentru , folosim o distribuţie F cu df1 = (n1-1) şi
 22
df2 = (n2-1).
 12
Un interval de încredere pentru este:
 22
 
 s12 1 s12 1 
 2  , 2
 .
 s2 F( n1 −1, n2 −1),1−   s2 F( n1 −1, n2 −1), 
  2 2 
4 Testarea ipotezelor statistice. Teste de semnificaţie

4.1 Testarea ipotezei

Testarea ipotezei (testarea statistică) este un procedeu care permite testarea unuia/mai multor
parametri ai unei populaţii sau testarea distribuţiei unei populaţii. Acest procedeu se va realiza
pe baza datelor de eşantionare, deducţia (concluzia) aplicându-se populaţiei.
O ipoteză statistică este o afirmaţie despre unul/mai mulţi parametri ai populaţiei sau despre
legea de distribuţie a populaţiei.

În fiecare testare de ipoteză se formulează:


1. Ipoteza nulă, notată cu H 0 (ipoteza pe care dorim să o testăm). Aceasta este în general o
afirmaţie conform căreia parametrii unei populaţii sunt egali cu o anumită valoare, sau se
presupune că doi parametri sunt egali.
2. Ipoteza alternativă, notată cu H1 sau cu H A (ipoteza pe care dorim să o testăm în opoziţie
cu ipoteza nulă). Aceasta este o afirmaţie care, într-un anumit fel, contrazice ipoteza nulă.
Ipoteza alternativă este cea pe care, de fapt, dorim să o dovedim ca fiind adevărată.

Pentru ipoteza nulă H 0 :  = 10 , putem avea una dintre următoarele situaţii:


H1 :   10 (1)
H1 :   10 (2)
H1 :   10 (3).
Observaţie. Egalitatea apare mereu în ipoteza nulă. Ipoteza altervativă se alege în funcţie de
ceea ce dorim să probăm:   10,   10,   10.

Testele de ipoteză pot avea o singură parte (one-tailed) sau două părţi (two-tailed).
Un test cu două părţi are o ipoteză alternativă care conţine semnul „  ” (expresia 1 de mai
sus). În acest test se poate detecta o diferenţă în orice sens faţă de valoarea din ipoteză a
parametrului.

O ipoteză cu o singură parte are o ipoteză alternativă care conţine „<” sau „>” (expresiile 2 şi
3), ceea ce permite probarea parametrului într-o singură direcţie . Sunt considerate teste cu o
H 0 :   10 H 0 :   10
singură parte şi testele de forma: sau
H1 :   10 H1 :   10.
Observaţie. Pentru o ipoteză alternativă cu „<”, ipoteza nulă este adesea interpretată ca „≥”.
Analog, pentru o ipoteză alternativă cu „>”, ipoteza nulă este adesea interpretată ca „≤”.

4.2 Erori de testare

Orice testare de ipoteză poate avea unul din următoarele două rezultate posibile:
1. Respingerea Ho şi formularea concluziei că alternativa este adevărată. Adică, respingem H o
în favoarea lui H1.
2. Eşuarea de a respinge Ho şi concluzionarea că nu sunt suficiente dovezi statistice pentru H 1.
În acest caz, unii ar spune că Ho poate fi adevărată. Nu spunem că acceptăm Ho .
Eroarea este definită ca o diferenţă între o valoare adevărată şi o valoare observată. În contextul
testării unei ipoteze pot apărea erori de acceptare sau de respingere pe nedrept a unei ipoteze,
numite erori de tipul I şi erori de tipul II.
O eroare de tipul I apare atunci când se respinge o ipoteză nulă, dar în realitate aceasta este
adevărată. Se notează cu α probabilitatea unei erori de tipul I:
α = P(eroare de tipul I) = P(se respinge Ho / Ho adevărată).
În acest caz, α este denumit nivel (prag) de semnificaţie; α trebuie întotdeauna specificat
înainte de testare. Semnificaţia înseamnă că la repetarea experimentului există o probabilitate
1- α să se obţină aceleaşi rezultate, dovadă că rezultatele nu sunt afectate de factori de mediu
particulari condiţiilor de experimentare.
O eroare de tipul II apare atunci când se ia decizia de a nu se respinge ipoteza nulă, dar în
realitate aceasta este falsă. Se defineşte β ca fiind probabilitatea unei erori de tipul II:
β = P(eroare de tipul II) = P(se respinge Ho / Ho fals).
O sintetizare a tipurilor de erori este prezentată în tabelul 4.1

Tabelul 4.1 Tipuri de erori


Decizie În realitate
Ipoteza nulă e adevărată Ipoteza nulă e falsă
Respingem ipoteza nulă Eroare de tipul I Corect
Nu respingem poteza Corect Eroare de tipul II
nulă

4.3 Demersul testării unei ipoteze statistice

Demersul testării unei ipoteze statistice vizează parcurgerea unor etape, după cum urmează:
1. Se formulează ipotezele (în funcţie de problemă)
2. Se alege un test statistic
3. Se alege un nivel de semnificaţie α pentru test. Valorile obişnuite sunt 0,01; 0,05 şi 0,10
4. Se stabilesc regulile de decizie, definind zona de respingere a ipotezei Ho
5. Se calculează valoarea statisticii testului, pe baza datelor obţinute prin sondaj
6. Se compară valoarea calculată a statisticii testului cu valoarea teoretică (interpretarea
semnificaţiei statistice), apoi se formulează concluzia în contextul problemei.

Interpretarea semnificaţiei statistice


În practică, valoarea pragului de semnificaţie este aproape întotdeauna setată 0.05 (o valoare
arbitrară care a fost adoptată pe scară largă), iar concluziile problemei sunt elaborate pe baza
analizei valorii p (cel mai mic nivel de semnificaţie la care poate fi respinsă ipoteza nulă). O
interpretare a semnificaţiei statistice pentru pragul 0.05 este oferită în tabelul 4.2.

Tabelul 4.2 Interpretarea semnificaţiei statistice


P (value) Interpretare Decizie
Nesemnificativ Nu se respinge H0
p>0.05
(statistic)
Semnificativ Se respinge H0
p<0.05
(statistic)
Relevanţa rezultatelor nu depinde doar de atingerea nivelului de semnificaţie statistică, ci şi de
mărimea eşantionului. În principiu, aceste două mărimi contribuie împreună la fundamentarea
concluziilor.

Observaţie. Cea mai mare parte a programelor software raportează valorile p pentru Z cu două
părţi sau testul-t. Pentru un test cu două părţi, se compară valoarea p raportată cu nivelul de
semnificaţie α. Pentru un test cu o singură parte, se împarte valoarea p a rezultatului la 2 înainte
de a compara cu α.

4.4 Tipuri de teste

Pot fi aplicate două tipuri de teste (parametrice şi neparametrice) în funcţie de ipotezele


formulate, de tipul variabilei/variabilelor, de volumul populaţiei/populaţiilor etc.

4.4.1 Teste parametrice


Testele parametrice sunt aplicate atunci când este cunoscută forma parametrică a distribuţiei
populaţiei considerate, adică a legii de distribuţie. Cel mai cunoscut test este testul t – testul
Student, propus de Gosset în 1908 (Student fiind pseudonimul matematicianului englez
Gosset). Acest test este folosit pentru diverse situaţii, de exemplu:
- compararea mediei unei populaţii cu o valoare fixă
- compararea mediilor a două populaţii care urmează o distribuţie normală
- testarea valorii unui coeficient de regresie
- testarea valorii coeficientului de corelaţie etc.
Alte teste parametrice des utilizate sunt testele Z, F,  2 etc.

1. Testarea mediei
Pentru testarea mediei sunt utilizate două tipuri de teste: testul Z şi testul t.

Testarea mediei cu o valoare specificată pentru eşantioane de volum mare (n≥30), când  2
este cunoscut.
Se aplică Testul-Z unde suntem interesaţi să testăm pe H 0 :  = 0 faţă de H1 :   0 şi cu  2
cunoscut. Estimăm  folosind X . Să ne aducem aminte că:
 2 
X N  0 ,  .
 n 
 2 
Dacă H0 este adevărată, atunci  = 0 . Astfel, X N  0 ,  sub H0.
 n 
X − 0
Atunci, Z 0 = N (0,1) sub H0.

n
Z0 este statistica de test pentru testul Z. Aceasta este valoarea, calculată din date, care este
folosită pentru a determina rezultatul testului. Toate testele de ipoteză au o statistică a testului
determinată de tipul testului.
Există un punct astfel încât H0 este respinsă dacă Z0 depăşeşte acel punct. Este posibil ca Z0 să
depăşească acest punct chiar dacă H0 este adevărată. Probabilitatea pentru acest lucru este
suprafaţa de sub acest punct, sub curba N(0,1). Aşadar:

P (Z0 depăşeşte punctul/H0 este adevărat) = P (respinge H0/H0 este adevărat) = P( eroare de
tipul I) = α.

Atunci punctul este Z1− . Pentru H 0 :  = 0 vs H1 :   0 , respingem H 0 dacă Z 0  Z1− .


Aceasta este cunoscută ca zona de respingere (sau zona critică) şi cuprinde valorile statisticii
testului pentru care respingem H0.
Pentru H 0 :  = 0 vs H1 :   0 , respingem H 0 dacă Z 0  Z1− .
Pentru H 0 :  = 0 vs H1 :   0 , respingem H 0 dacă Z0  Z  −Z1− .
Pentru H 0 :  = 0 vs H1 :   0 , respingem H 0 dacă Z 0  Z  .
1−
2

Testarea mediei cu o valoare specificată pentru eşantioane de volum mare (n≥30), când  2
este necunoscut.
O problemă evidentă cu testul Z constă în presupunerea că  2 este cunoscut. În practică,
această informaţie este disponibilă rareori sau deloc. Şi cu toate acestea dorim să putem testa
H 0 :  = 0 faţă de o alternativă. Un procedeu mai practic este de a aplica un test-t care poate
fi folosit atunci când varianţa populaţiei este necunoscută. Statistica testului are aceeaşi formă
cu cea a testului-Z, dar deviaţia standard a populaţiei,  , este înlocuită de estimarea sa, deviaţia
standard a eşantionului, s. Acum, statistica testului este:
X − 0
t0 = tn −1 sub H 0 .
s
n
Pentru H1 :   0 , respingem H 0 dacă t0  t( n −1),1− .
Pentru H1 :   0 , respingem H 0 dacă t0  −t( n −1),1− .
Pentru H1 :   0 , respingem H 0 dacă t0  t  .
( n −1),1−
2

2. Testarea diferenţei dintre două medii


- Două populaţii independente
Vrem să testăm H 0 : 1 − 2 =  , unde  este un număr, de obicei zero. Alternativele pot fi
după cum urmează.
H1 : 1 − 2   (1)
H1 : 1 − 2   (2)
H1 : 1 − 2   (3).
Observaţie. Cazurile 1, 2 şi 3 se aplică atunci când luăm eşantioane din două populaţii
independente.
Cazul 1. Varianţele populaţiei sunt cunoscute
Statistica testului este
Z0 =
(X 1 − X2 − ) N (0,1) .
 12  22
+
n1 n2
Pentru H1 : 1 − 2   , respingem H 0 dacă Z 0  Z1− .
Pentru H1 : 1 − 2   , respingem H 0 dacă Z0  Z .
Pentru H1 : 1 − 2   , respingem H 0 dacă Z 0  Z  .
1−
2

Cazul 2: Varianţele populaţiei sunt necunoscute, dar presupuse a fi egale


Acesta este testul-t al grupării. Din nou, definim estimatul grupat al varianţelor:
( n − 1) s12 + ( n2 − 1) s22 .
s 2p = 1
n1 + n2 − 2
Statistica testului este

t0 =
(
X1 − X2 − ) t( n1 + n2 − 2) în ipoteza H 0 .
 1 1 
s 2p  + 
 n1 n 2 
Pentru H1 : 1 − 2   , respingem H 0 dacă t0  t( n1 +n2 −2),1− .
Pentru H1 : 1 − 2   , respingem H 0 dacă t0  −t( n1 +n2 −2),1− .
Pentru H1 : 1 − 2   , respingem H 0 dacă t0  t  .
( n1 + n2 − 2 ),1−
2

Cazul 3: Varianţele populaţiei sunt necunoscute şi nu sunt presupuse a fi egale


Statistica testului este

t0 =
(
X1 − X2 − )t( ) în ipoteza H 0 ,
 1 1 
s 2p  + 
 n1 n 2 
unde gradele de libertate, v, sunt aşa cum au fost definite mai sus, în cazul secţiunii despre
intervalele de încredere.

- Două populaţii care nu sunt independente


Cele trei cazuri anterioare s-au referit la două populaţii independente. Să presupunem că acesta
nu este cazul, şi că există o împerechere logică între observaţii în cele două populaţii.
Putem (dar nu e neapărat necesar) să facem un test-t independent cu două eşantioane. Vrem
totuşi să testăm H 0 : 1 − 2 =  faţă de o altă alternativă.
Fie n numărul de observaţii pereche. Pentru fiecare pereche se calculează diferenţa d i . Se
realizează un test-t obişnuit cu un eşantion, pentru aceste diferenţe. Statistica testului este
d −
t0 = ,
sd
n
unde d este media diferenţelor, iar sd este deviaţia standard a diferenţelor.

3. Testarea unei varianţe


Testele statistice referitoare la varianţa unei populaţii cu distribuţie normală vizează testul  2
.
Vrem să testăm ipoteza H 0 :  2 =  02 faţă de o altă alternativă, unde  02 este o constantă.
Statistica testului este:
(n − 1) s 2
 02 =  (2n −1) în ipoteza H 0 .
02

Pentru H1 :  2   02 respingem H 0 dacă 02  (2n−1),(1− ) .


Pentru H1 :  2   02 respingem H 0 dacă 02  (2n−1), .
Pentru H1 :  2   02 respingem H 0 dacă  02   2  
sau  02   2  .
( n −1),1−  ( n −1),
 2 2

4. Testarea a două varianţe


Testarea a două varianţe este fundamentată pe testul F.
Vrem să testăm H 0 :  12 =  22 faţă de o altă alternativă. Statistica testului este:
s12
F0 = F  .
s22 ( n1 −1, n2 −1), 1−
2

Pentru H1 :  12   22 respingem H 0 dacă F0  F( n1 −1, n2 −1), 1− .


Pentru H1 :  12   22 respingem H 0 dacă F0  F( n1 −1, n2 −1),  .
Pentru H1 :  12   22 respingem H 0 dacă F0  F  sau F0  F  .
( n1 −1, n2 −1), 1− ( n1 −1, n2 −1),
2 2

5. Testarea unei proporţii


Ne propunem să testăm că o proporţie din populaţie, p, este egală cu o anumită valoare, p0 .
Avem ipoteza nulă H 0 : p = p0 faţă de o altă alternativă. Estimăm p cu expresia:
X
p= ,
n
unde X este numărul de succese din n observaţii.
Un test aproximativ pe un eşantion mare foloseşte statistica testului:
p − p0
Z0 = N (0,1) în ipoteza H 0 .
p0 (1 − p0 )
n
Folosim domeniul de respingere al testul Z uzual.

Observaţie. Ca şi în cazul intervalelor de încredere, acest test funcţionează cel mai bine dacă
np>5 şi n(1-p)>5.

Un test exact poate fi efectuat pentru eşantioane mici, unde valoarea p a testului poate fi
calculată direct folosind distribuţia binomială.

6. Testarea diferenţei a două proporţii


X1
Vrem să testăm H 0 : p1 − p2 = 0 faţă de o alternativă. Estimăm p1 prin p1 = , iar p2 prin
n1
X2
p2 = .
n2
X + X2
Fie p = 1 .
n1 + n2
Statistica testului este:
p1 − p2
Z0 = N (0,1) în ipoteza H 0 .
1 1
p(1 − p)  + 
 n1 n2 
Din nou, folosim regiunea obişnuită de respingere pentru testul-Z.

4.4.2 Testele neparametrice

Testele neparametrice presupun testarea ipotezelor statistice fără a cere specificarea formei
parametrice a distribuţiei populaţiilor. Cele mai cunoscute teste neparametrice sunt:
- testul Wilcoxon (1945), folosit pentru a verifica, pe baza datelor de sondaj, dacă există
diferenţe semnificative între două populaţii
- testul Mann-Whitney (1947), folosit pentru verificarea existenţei egalităţii între două
populaţii
- testul Kolmogorov-Smirnov (1933), care vizează testarea identităţii a două legi de
distribuţie etc.

Dacă rezultatele experimentelor nu se încadrează într-o distribuţie normală sau volumul


eşantioanelor extrase din populaţia statistică este mic, este indicată recurgerea la un test de
semnificaţie neparametric. Astfel de teste fac obiectul unei ramuri a statisticii numită şi
statistica ordinei care studiază sistemele de valori observate ale variabilelor aleatoare, din
punctul de vedere al relaţiilor de ordine. Un mare avantaj al acestor metode îl constituie faptul
că rezultatele ce se obţin nu depind de natura repartiţiei variabilei aleatoare studiate. Ele se
numesc neparametrice deoarece verificarea unei ipoteze nu este legată de parametrul unei
anumite repartiţii.

Testul Wilcoxon este unul dintre cele mai utilizate teste de semnificaţie neparametrice, extrem
de util mai ales în cazul eşantioanelor dependente (date pereche – paired data), în contextul în
care s-a demonstrat faptul că distribuţia de frecvenţă nu este gaussiană.
Aplicarea lui la studiul a două eşantioane, pentru a verifica dacă acestea diferă semnificativ sau
nu (şi, în ultimă instanţă dacă provin sau nu din aceeaşi populaţie statistică), presupune
parcurgerea următorilor paşi:

- Se aşează valorile n (n = n1 + n2) în ordine crescătoare, în condiţiile în care se face


abstracţie de eşantioanele din care provin. Se atribuie apoi fiecărei valori un rang de
ordine crescătoare începând cu 1. Dacă există valori egale, acestora li se atribuie ranguri
egale cu media aritmetică a rangurilor pe care le-ar fi avut dacă aceste valori ar fi fost
distincte.
- Se formează un tabel în care se specifică, în ordine crescătoare, valorile obţinute la
fiecare eşantion şi se reţine, notând cu S, una din cele două sume.

Folosind tabelul, se procedează astfel: dacă S este situat în afara intervalului din tabel, care se
găseşte la intersecţia coloanei (n1) şi a liniei (n2) se poate afirma că, la pragul de semnificaţie
α=0,05 (sau altfel spus p = 0,05), cele două eşantioane diferă semnificativ. În caz contrar este
justificat să se afirme că cele două eşantioane nu diferă semnificativ statistic.

Testul chi-pătrat de potrivire sau ajustare


Să presupunem că avem un eşantion cu n subiecţi. Rezultatele sunt situate în una din categoriile
”succes” sau ”eşec”. Fie:
X = numărul de succese
(n - X) = numărul de eşecuri.
Frecvenţele observate sunt notate Oi, i=1,2., O1= X şi O2=(n-X).
Putem calcula frecvenţa aşteptată, Ei, sub H 0 : p = p0 pentru fiecare categorie. Sub H0, dacă p0
este probabilitatea unui succes, atunci numărul aşteptat de succese este E1 = np0 . Numărul
aşteptat de eşecuri este E2 = n(1 − p0 ) . Statistica testului este:
( Oi − Ei )
2
2
 =
2
0 −  (1)
2
în ipoteza H 0 .
i =1 Ei
Pentru H1 : p  p0 respingem H 0 dacă 02  (1),
2
.

Observaţie. Acest test trebuie aplicat numai dacă E1  5 şi E2  5 .

Se poate arăta că pentru testul-Z al H 0 : p = p0 . Statistica testului Z 0 , atunci când este ridicată
la pătrat, este egală cu statistica testului  02 .
Putem extinde acest test la cazul cu un număr de k rezultate posibile. Putem presupune valori
ale p1, p2,…pk, unde  pi = 1 . Aplicăm testul în acelaşi fel folosind frecvenţele observate şi
cele aşteptate, Ei şi Oi. Statistica testului va fi:
( Oi − Ei )
2
k
 =
2
0 −  (2k −1) în ipoteza H 0 .
i =1 Ei
5 Analiza varianţei (ANOVA)

5.1 Definirea contextului

Procesele biologice se pot afla, la un moment dat, sub influenţa unuia sau mai multor factori
(variabile independente), cu acţiune concomitentă. Pentru a evidenţia în ce măsură unul sau
mai mulţi factori (sau chiar o combinaţie a acestora) influenţează în mod esenţial o
caracteristică rezultativă (dependentă) se utilizează analiza dispersională (analiza varianţei)
ANOVA.

Uneori prin analiza dispersională trebuie să fie verificată dependenţa variabilei rezultative (z)
de factorul (factorii) de grupare, ea putând fi considerată, în acest caz, ca o metodă auxiliară,
utilizată înainte şi după aplicarea metodelor corelaţiei şi regresiei statistice. Dacă, însă, trebuie
verificată independenţa variabilei rezultative de o variabilă de sistematizare a datelor, atunci
analiza dispersională poate fi considerată ca o metodă independentă, ce conduce la concluzii
de sine stătătoare.

În funcţie de numărul factorilor (unul singur, doi sau mai mulţi) care influenţează variaţia
caracteristicii rezultative, avem modele de analiză dispersională unifactorială, bifactorială sau
multifactorilă.

Principiul matematic al analizei dispersionale se bazează pe gruparea datelor observate după


unul sau mai multe criterii şi scoaterea în evidenţă a efectelor obţinute în funcţie de influenţa
particulară a criteriilor după care au fost grupate observaţiile. Testarea are loc prin compararea
dispersiilor cauzate de factorii variabili, cu dispersia cauzată de factorii întâmplători care
acţionează asupra procesului studiat.

Avem k≥3 populaţii sau grupuri. Adesea, acestea sunt rezultatul aplicării a k tratamente
diferite. Ca urmare, putem întâlni termenii ”grup de tratament”.
Prin ANOVA se compară mediile acestor k grupuri (pentru a se observa efectele celor k
tratamente). Notăm cu 1 ,  2 ,...,  k mediile celor k grupuri.
Ne propunem să testăm: H 0 : 1 =  2 = ... =  k vs. H 1 : cel puţin o medie  i este diferită (în
raport cu toate celelalte medii).

Presupunem că:
- cele k populaţii sunt distribuite normal;
- cele k populaţii au varianţe egale  12 =  22 = ... =  k2 (omogenitatea varianţelor).

Folosim ANOVA şi un tabel ANOVA pentru a testa ipoteza de mai sus.


Pentru fiecare populaţie, considerăm ni eşantioane de observaţie astfel încât:
n = n1 + n2 + ... + nk =  ni .
Observaţie. Dacă putem avea control asupra eşantionării, alegem eşantioane de dimensiune
egală.
5.2 SS (Sums of Squares)

Se calculează:
1. SSWITHIN, SSERROR (SSEROARE sau SSRESIDUAL) - măsoară variabilitatea din interiorul
fiecărui grup
k
SSWITHIN =  ( ni − 1) si2 ,
i =1

unde s este varianţa eşantionului din grupul de ordin i.


2
i

Gradele de libertate asociate lui SS WITHIN sunt:


dfWITHIN = n − k .

2. SSBETWEEN, SSAMONG, SSMODEL sau SSTRT - măsoară variabilitatea între grupuri

( )
k
SS BETWEEN =  ni Yi. − Y... ,
2

i =1

unde Yi. este media eşantionului în grupul de ordin i, iar Y... este media eşantioanelor tuturor
celor n observaţii.

Gradele de libertate asociate lui SSBETWEEN sunt:


df BETWEEN = k − 1 .
3. SSTOTAL = SSBETWEEN + SSWITHIN.

5.3 MS (Mean Squares)

Pătratele medii (Mean Squares), MS, sunt date de următoarele expresii:


1. MSWITHIN = SSWITHIN / dfWITHIN.
MS WITHIN estimează varianţa,  2 .
2. MSBETWEEN = SSBETWEEN / dfBETWEEN.

Pentru a testa ipoteza nulă H 0 : 1 = 2 = ... = k folosim statistica testului:


Fo=MS BETWEEN/MS WITHIN.
Respingem H 0 dacă F0  F( k −1, n−k ), 1− .
O sintetizare a analizei de varianţă este oferită în tabelul 5.1

Tabelul 5.1 Analiza varianţei ANOVA


SOURCE df SS MS F
BETWEEN k -1 SS BETWEEN MSBETWEEN Fo
WITHIN n–k SSWITHIN MSWITHIN
TOTAL n-1 SSTOTAL
Pentru a face acest lucru avem nevoie de două variabile.
1. Variabila de răspuns sau variabila dependentă, Y.
2. O variabilă care defineşte grupurile sau tratamentele (variabilă de clasificare).

Proceduri de comparaţie multiplă

Acestea sunt folosite pentru a vedea unde sunt diferenţele dacă respingem
H 0 : 1 = 2 = ... = k .
Există mai multe asemenea proceduri, algoritmul acestora fiind similar. Privim la toate
comparaţiile pereche posibile, cu unele restricţii. Acest lucru se face în aşa fel încât nivelul
total de semnificaţie (probabilitatea de a face cel puţin o eroare de tipul I) se menţine.

Dacă sunt efectuate toate comparaţiile pereche posibile, fiecare la nivelul de semnificaţie α,
nivelul total de semnificaţie este mult mai mare decât α (adică nivelul de semnificaţie este
„umflat”). Ca urmare, să folosim toate testele-t cu două eşantioane posibile, nu este un
procedeu bun. Avem nevoie de proceduri care ”protejează” sau menţin un nivel total de
semnificaţie. Asemenea proceduri sunt Scheffe, Tuckey, Bonferroni, Student-Newman-Keuls,
Duncan.

Unele din procedurile de mai sus sunt mai conservatoare decât altele (au tendinţa de a găsi mai
puţine diferenţe semnificative). Testele enumerate sunt date în ordinea descrescătoare a
conservatorismului. Un test conservativ are tendinţa de a proteja mai bine nivelul total de
semnificaţie. În timp ce testul Scheffe găseşte mai puţine diferenţe, testul Duncan găseşte mai
multe diferenţe, dar există dezbateri asupra a cât de bine păstrează nivelul total de semnificaţie.

În general, procedurile sunt realizate după cum urmează:

1. Se listează mediile în ordine crescătoare.


2. Se compară cea mai mare cu cea mai mică (diferenţele medii k). Dacă acest lucru nu este
semnificativ, trasăm o linie sub valori şi ne oprim. Dacă este semnificativ, trecem la punctul
următor.
3. Se compară cea mai mare cu a penultima cea mai mică, şi cea mai mică cu a doua ca mărime
(diferenţele medii k-1). Trasăm o linie dacă se descoperă o diferenţă nesemnificativă.
4. Se continuă până ce se ajunge la diferenţa celor două medii (comparaţii „umăr-la-umăr”).
Nu se compară două medii care sunt deja unite printr-o linie.

Analiza varianţei se efectuează pentru o ipoteză nulă,


(H0): nu există diferenţe între mediile populaţiilor, care va trebui respinsă pentru a se
confirma ipoteza alternativă

(Ha): cel puţin două dintre mediile diferă între ele (adică cel puţin două dintre populaţii
diferă prin medii).

Ca de obicei în problemele de testare de ipoteze, admitem pentru moment că ipoteza nulă ar fi


adevărată, şi deducem consecinţe logice ale ei.
6 Analiza legăturilor funcţionale dintre fenomene:
corelaţia şi regresia

În acest capitol vom studia legăturile statistice cu ajutorul analizei de corelaţie şi


regresie.
O legătură statistică apare atunci când modificarea unei variabile este rezultatul
conjugat al influenţei mai multor variabile, influenţă manifestată în medie, pe ansamblul
subiecţilor unei populaţii.
Un demers statistic care vizează analiza legăturii statistice dintre fenomene se reduce
la analiza de corelaţie şi regresie implicând următoarele aspecte:
1. Identificarea existenţei legăturii statistice (prin analiza logică).
2. Stabilirea gradului de intensitate a legăturii statistice (prin analiza de corelaţie).
3. Determinarea formei legăturii statistice (prin analiza de regresie).

Verificarea condiţiei de normalitate a distribuţiei variabilelor implicate este necesară a se


efectua înainte de a trece la realizarea efectivă a analizei de corelaţie şi regresie, pentru a
fundamenta alegerea procedeului de alegere a modelului de regresie.

6.1 Analiza de corelaţie

Fie două variabile aleatoare numerice, X şi Y, între care presupunem că există o


legătură statistică. Măsurarea intensităţii relaţiei dintre aceste două variabile presupune analiza
de corelaţie.
Corelaţia poate fi exprimată prin coeficientul de corelaţie.
Coeficientul de corelaţie (coeficientul Pearson), notat  , reprezintă o măsură a
intensităţii legăturii liniare dintre variabile:
COV ( X , Y )
= ,
 X  Y
unde σx şi σY reprezintă abaterile standard pentru X şi respectiv Y, iar COV(X,Y) este

covarianţa.
Valorile coeficientului de corelaţie sunt cuprinse între -1 şi 1 ( −1    1 ).
Sensul relaţiei dintre variabile este dat de semnul lui  :
- Corelaţia negativă (  <0) indică faptul că valori mari ale lui X tind să corespundă unor
valori mici ale lui Y (respectiv, valori mici ale lui X tind să corespundă unor valori mari
ale lui Y).
- Corelaţia pozitivă (  >0) arată că valori mari ale lui X tind să fie asociate unor valori
mari ale lui Y (respectiv, valori mici ale lui X tind să fie asociate unor valori mici ale
lui Y).
Valoarea lui  aproape de -1 sau 1 arată o relaţie liniară puternică, în timp ce valoarea
lui  aproape de 0 arată că nu există o relaţie liniară.
Colton (1974) sugerează următoarele reguli empirice referitoare la interpretarea
coeficientului de corelaţie:
1. un coeficient de corelaţie de la -0,25 la 0,25 înseamnă o corelaţie slabă sau
nulă,
2. un coeficient de corelaţie de la 0,25 la 0,50 (sau de la-0,50 la -0,25) înseamnă
un grad de asociere acceptabil
3. un coeficient de corelaţie de la 0,5 la 0,75 (sau de la -0,75 la -0,5) înseamnă o
corelaţie moderată spre bună
4. un coeficient de corelaţie mai mare decât 0,75 (sau mai mic decât -0,75)
înseamnă o foarte bună asociere sau corelaţie.
La nivelul unui eşantion se determină coeficientul de corelaţie empiric r propus de K.
Pearson, care reprezintă o estimaţie pentru parametrul populaţiei  . Valorile lui r pot fi
cuprinse de asemenea între -1 şi 1, i.e. −1  r  1 .

Observaţie. Corelaţia nu implică legătura de cauzalitate!

6.2 Analiza de regresie

Regresia este folosită pentru a modela (explica) şi/sau prezice valoarea unei variabile
aleatoare (variabilă dependentă), notată de obicei cu Y. Pentru a prezice Y, utilizăm una sau
mai multe variabile independente sau factori X1, X2,..., Xn.

Legăturile care apar între variabile se pot clasifica din mai multe puncte de vedere:

1. După numărul variabilelor corelate


- regresie simplă (exprimă variaţia variabilei dependente Y în funcţie de o singură
variabilă factorială X)
- regresie multiplă (exprimă variaţia variabilei dependente Y în funcţie de variaţia
simultană a mai multor variabile factoriale X1, X2,..., Xn).

2. După forma legăturii


- regresie liniară
- regresie neliniară (curbilinie).

6.2.1 Regresia liniară simplă

Regresia liniară simplă (RLS) este regresia care foloseşte numai o variabilă independentă, X.
Un model de RLS este de forma:
Y = 0 + 1 X +  (dreapta de regresie), unde
 0 şi 1 sunt constantele necunoscute numite coeficienţi de regresie;
 0 este interceptul;
1 este panta;
 este termen de eroare (variabilă aleatoare).
Presupunem că  N ( 0,  2 ) .Variabilele X şi Y respectă condiţia de normalitate. Problema
analizei de regresie se reduce la calcularea (estimarea) parametrilor modelului  0 şi 1 .
Estimaţii acestor parametri se notează 0 şi respectiv, 1 .

Pentru a estima  0 şi 1 , pe baza datelor unui eşantion obţinem n perechi de date ( X i , Yi ) ,


i = 1, 2,..., n , apoi reprezentăm grafic aceste puncte. Se observă o dreaptă care exprimă cel mai
bine relaţia între variabile.

Această dreaptă, cu interceptul 0 şi panta 1 , se numeşte dreapta estimată de regresie sau


ecuaţia de predicţie şi are expresia:
Y = 0 + 1 X .
Pentru orice Xi dat avem valoarea observată Yi şi valoarea prezisă Y i care verifică ecuaţia de
(
predicţie Yi = 0 + 1 X i . Definim reziduurile ca fiind ei = Yi − Y i . )
Există mai multe metode pentru a descoperi ”cea mai bună dreaptă”. De departe cea mai
folosită este metoda celor mai mici pătrate (MCMMP) care minimizează suma pătratelor
reziduurilor:
n

e
i =1
2
i .

Rezolvarea problemei de minim pentru MCMMP conduce la obţinerea estimaţilor  0 şi 1


care se înlocuiesc în ecuaţia de predicţie.

Coeficientul de determinare R2
Coeficientul de determinare măsoară proporţia de variabilitate din setul de observaţii, care este
explicată de ecuaţia de predicţie. Acesta arată cât de bine modelul propus aproximează datele.
Valorile sale sunt cuprinse între 0 şi 1:
0  R2  1

Coeficientul de determinare este definit de expresia:


SS REGRESIE
R2 = , unde
SSTOTAL
n
SSTOTAL =  (Yi − E (Y ) ) reprezintă suma pătratelor abaterilor lui Y faţă de medie,
2

i =1

( )
n
SS EROARE =  Yi − Yi
2
reprezintă suma pătratelor valorilor reziduale,
i =1
SS MODEL = SS REGRESIE = SSTOTAL − SS EROARE măsoară variabilitatea explicată de model.

Estimarea prin interval de încredere a parametrilor βo şi β1


Valorile  0 şi 1 reprezintă valori de sondaj, calculate la nivelul unui eşantion. Estimarea
parametrilor βo şi β1 se realizează prin intervale de încredere pentru β0 şi β1 care se obţin
folosind forma generală :
(estimat) ± ((coeficient de încredere)(eroarea standard)).
Intervalul de încredere pentru βo este: 0  t  
( n − 2), 1− 
( eroarea standard a lui  ) .
0
 2

Intervalul de încredere pentru pentru β1 este: 1  t  


( n − 2), 1− 
( eroarea standard a lui  )
1
 2
.

Analiza de regresie oferă posibilitatea şi pentru predicţia unei valori medii a lui Y la un anumit
X. De asemenea, regresia permite obţinerea unui interval de predicţie pentru o valoare
individuală a lui Y la un anumit X.

6.2.2 Regresia liniară multiplă

Un model de regresie liniară multiplă (cu două sau mai multe variabile factoriale) este de
forma:
Y =  + 1 X1 + 2 X 2 + ... n X n + .

6.2.3 Regresia neliniară

Atunci cînd nu este confirmată o regresie liniară, trecerea la o analiză de regresie neliniară
(curbilinie) se justifică fie pentru o mai bună predicţie a variabilei dependente pe baza
cunoaşterii valorii variabilei independente, fie pentru reducerea mai eficientă a erorii
experimentale.
Ajustarea curbei necesită o alegere anticipată a unui model adecvat.

Pe lângă verificarea vizuală a potrivirii curbei de regresie cu punctele trasate pe baza datelor
observate, verificarea existenţei între variabile se realizează cu ajutorul coeficientului de
determinare, cu valori între 0 şi 1.
Există nenumărate variante pentru alegerea modelului de regresie neliniară, de exemplu:
Exponenţială: y = b  eax +  ;
Putere: y = b  x a +  ;
Logaritmică: y = a  ln x + b +  ;
Polinomială: Y =  0 + 1 X +  2 X 2 + ... +  k X K +  , unde k este gradul polinomului.
Nu se recomandă utilizarea regresiei polinomiale de grad mai mare decât patru pentru că fie
interpretarea este dificilă, fie se poate produce fenomenul de overfitting.

Deşi sunt neliniare, anumite modele pot fi transformate în modele liniare. De exemplu,
modelele exponenţial şi putere sunt liniarizabile prin logaritmare:
Exponenţială: ln Y = ln b + aX +  ;
Putere: ln Y = ln b + a ln X +  .
Prin substituţiile y ' = ln y; x ' = ln x; b ' = ln b , obţinem următoarele regresii neliniare:
Exponenţială: y ' = b '+ ax ;
Putere: y ' = b '+ ax ' ;
Logaritmică: y = b + ax ' .

Modelul exponenţial poate fi utilizat atunci când:


- creşterea variabilei dependente Y este accelerată pe măsură ce variabila independentă
X creşte, sau
- descreşterea lui Y se atenuează în timp ce are loc creşterea variabilei X.

În concluzie, analiza de corelaţie şi regresie are un rol major în realizarea de predicţii, pe baza
cărora se consolidează procesul decizional.

S-ar putea să vă placă și