Documente Academic
Documente Profesional
Documente Cultură
1 Introducere în Biostatistică
1.1 Obiectul de studiu, metoda şi scopul biostatisticii
Prelucrarea şi analiza datelor (pe baza cărora se obţin informaţii statistice) presupun:
- sistematizarea (organizarea) datelor colectate prin procedee de centralizare şi grupare
statistice
- prezentarea datelor statistice prin procedee tabelare şi grafice
- calcularea indicatorilor derivaţi (indicatorii tendinţei centrale, ai dispersiei, ai formei
de repartiţie, ai variaţiei în timp şi spaţiu etc.)
- testarea ipotezelor statistice cu ajutorul testelor parametrice şi neparametrice, de
exemplu măsurarea influenţei factorilor asupra variaţiei fenomenelor, utilizând
procedeul ANOVA
- măsurarea gradului de intensitate a legăturii statistice între variabile, folosind procedeul
corelaţiei
- aproximarea modelelor de regresie şi de trend, folosind procedeul ajustării statistice
- estimarea parametrilor şi verificarea ipotezelor statistice prin procedee inferenţiale etc.
Variabilă aleatoare: caracteristica ce este măsurată sau observată. Adesea este definită prin
majuscule (X, Y etc.).
Variabile cantitative (de tip interval şi de tip raport): variabile care pot fi măsurate numeric
(de exemplu greutatea, înălţimea).
Variabile calitative (categoriale şi ordinale): variabile ale căror modalităţi de reprezentare sunt
exprimate atributiv, în cuvinte (de exemplu, sexul, naţionalitatea, calificarea profesională).
Variabilă aleatoare discretă: variabilă care are un număr de valori posibile finit sau infinit,
dar care poate fi numărat.
Variabilă aleatoare continuă: variabilă care poate avea numai o valoare dintr-un anumit
domeniu.
Populaţie: ansamblul tuturor subiecţilor posibili de interes pentru o anumită problemă. Dacă
populaţia este finită, numărul total de observaţii este N numit volumul populaţiei.
Eşantion aleatoriu: un eşantion în care fiecare subset de dimensiune n al populaţiei are aceeaşi
posibilitate (probabilitate egală) de a fi selectat.
Eşantion: submulţime a populaţiei. Datorită limitărilor de timp, cost etc., de obicei nu putem
cerceta întreaga populaţie. De aceea luăm o probă de dimensiunea n (n observaţii) şi calculăm
statistici descriptive despre datele din eşantion, pe care le folosim pentru a formula concluzii
despre populaţie.
1.4.3 Histograma
Histograma (vezi Figura 1.1) este un mod grafic de prezentare a datelor. Valorile variabilei se
află pe axa orizontală, iar frecvenţa absolută sau frecvenţa relativă se află pe axa verticală.
Deasupra fiecărei valori (sau interval de clasă) se află un dreptunghi de înălţime egală cu
frecvenţa absolută sau frecvenţa relativă a acelei valori sau clase. Dreptunghiurile sunt alăturate
unul de altul.
Histograma nu numai că ne oferă o idee despre felul în care arată datele, dar este şi o estimare
a modului în care arată adevărata populaţie. Suprafaţa dreptunghiurilor este proporţională cu
frecvenţa relativă în Figura 1.1.
1.5 Probabilităţi
Probabilitatea ca ceva să se întâmple este modul de a reprezenta posibilitatea de apariţie a ceva.
Orice observaţie este rezultatul producerii sau efectuarea unui experiment. Orice experiment
are un set de rezultate posibile denumit spaţiul eşantionului S. Un eveniment este un subset al
spaţiului eşantionului S, adică mai multe rezultate. Spunem că evenimentul se întâmplă dacă
apare orice rezultat în cadrul acelui eveniment.
Vorbim despre probabilităţi sau posibilităţi. Acest lucru este notat cu P (eveniment) şi se citeşte
„probabilitatea acelui eveniment”.
Complement
Pentru orice eveniment E definim complementul ca mulţimea tuturor rezultatelor posibile care
nu sunt conţinute în E. Complementul este notat cu E', EC sau E .
Ştim că P( E ') = 1 − P ( E ) .
Regula generală de adunare
Notaţii
: reuniunea a două mulţimi – asociată cuvântului ”sau”;
: intersecţia a două mulţimi – asociată cuvântului ”şi”.
Pentru orice evenimente A şi B, P( A sau B) = P( A) + P( B) − P( A − B)
i.e. P( A B) = P( A) + P( B) − P( A B)
Evenimentele se exclud reciproc dacă nu au rezultate comune (dacă nu se suprapun). Dacă
evenimentele A şi B se exclud reciproc, atunci P(A şi B)=0. Astfel, pentru evenimentele care
se exclud reciproc:
P(A sau B) = P(A) + P(B).
Probabilitatea condiţionată
Probabilitatea condiţionată este probabilitatea ca evenimentul A să se întâmple, cu condiţia ca
evenimentul B să se producă. Acest lucru se notează cu P(A/B). Simbolul „/” este asociat
expresiei ”cu condiţia”:
P( A şi B)
P( A / B) = .
P( B)
Adesea, probabilitatea condiţionată este uşor de măsurat. Uneori poate fi folosită pentru
calcularea probabilităţii P(A şi B).
P( A şi B) = P( B) P( A / B) = P( A) P( B / A)
Independenţa
Dacă două evenimente sunt independente, apariţia unuia nu afectează probabilitatea de apariţie
a celuilalt.
Dacă A şi B sunt evenimente independente, P(A/B) = P(A).
(Notă. Pe de altă parte, dacă A şi B sunt evenimente care se exclud reciproc, atunci P(A/B) =
0.)
Astfel, pentru evenimente independente, P(A şi B) = P(A) P(B).
Teorema lui Bayes
Această teoremă este un mod de a obţine P(B/A) din P(A/B) folosind regulile probabilităţii
condiţionate şi a probabilităţii reunite.
P( A şi B) = P( B) P( A / B) = P( A) P( B / A)
Folosind aceasta putem rezolva pentru P(B/A) şi obţine teorema lui Bayes.
P( A / B) P( B)
P( B / A) = .
P( A)
2 Indicatori statistici descriptivi. Distribuţii statistice
X 1 + X 2 + ... + X n
Xi
X= = i =1
.
n n
Aceasta estimează media populaţiei, , care este media populaţiei din care s-a prelevat
eşantionul.
2. Mediana eşantionului
Mediana unui set de date este o valoare în aşa fel încât există un număr egal de observaţii
deasupra şi sub mediană.
Pentru a calcula mediana, aranjaţi datele după ordinea de mărime, de obicei de la mic la mare.
Poziţia medianei este (n+1)/2.
Dacă n este impar, mediana este valoarea de ”mijloc”.
Dacă n este par, mediana este media celor două valori de ”mijloc”.
Mediana este adeseori folosită pentru a exprima valoarea ”tipică” a unui set de date. Aceasta
din cauză că mediana este influenţată mai puţin de valorile extreme din setul de date decât de
medie. Din această cauză este denumită statistică mai ”robustă”.
3. Modulul eşantionului
Valoarea care apare cel mai des în date. Este cel mai folositor pentru variabilele care au puţine
valori.
1. Amplitudinea
Distanţa dintre valoarea cea mai mică şi cea mai mare din setul de date. Această măsură nu
foloseşte toate datele şi de aceea poate fi influenţată foarte mult de o singură valoare extremă
din setul de date.
X
2
i
2
− nX
s2 = i =1
(forma de calcul)
n −1
S2 estimează varianţa populaţiei, 2 . Folosind (n-1) la numitor face ca estimarea să fie mai
bună (estimare nedeviată).
Aceasta este rădăcina pătrată a lui s2. Întrucât varianţa este în unităţi pătratice, deviaţia standard
a eşantionului va avea aceeaşi unitate de măsură ca şi datele. S poate fi considerat ca o deviaţie
”medie” de la medie.
S = S2
Cu cât deviaţia standard sau varianţa este mai mare, cu atât mai împrăştiat este setul de date, şi
la fel de lungi sunt unităţile de măsurat.
4. Coeficientul de variaţie
Dacă vrem să comparăm două seturi de date care au unităţi de măsură diferite, nu putem folosi
s sau s 2 . Ne trebuie ceva care să nu aibă unitate. Putem folosi coeficientul de variaţie (CV).
100 s
CV =
X
Acesta reprezintă variaţia raportată la dimensiunea mediei.
Fiecare variabilă aleatoare are o distribuţie de probabilitate care indică valorile luate de
variabila aleatoare precum şi probabilităţile corespunzătoare.
Distribuţia probabilităţii pentru o variabilă aleatoare discretă conţine valorile luate numai de
variabila aleatoare, împreună cu probabilitatea corespondentă a fiecărei valori.
Definim funcţia de probabilitate f(x) ca fiind o funcţie a lui X, care atunci când este evaluată
pentru orice valoare a lui X, rezultatul este probabilitatea ca X să fie egal cu acea valoare.
Astfel,
f ( x) = P( X = x) .
Proprietăţi
1. 0 f ( x) 1, pentru orice x.
2. f ( x) = 1
În general, putem fi interesaţi de P( X x) , probabilitatea cumulativă. Aceasta se numeşte
funcţia de distribuţie cumulativă, sau cdf, notată cu F(x). Astfel,
F ( x) = P( X x) .
Parametrii populaţiei
Variabilele aleatoare continue pot lua orice valoare din domeniu. Astfel, există un număr infinit
de valori. Drept rezultat, probabilitatea oricărei valori este zero. Trebuie să vorbim despre
probabilităţi ca fiind definite în intervale.
Pentru a face acest lucru, să definim funcţia de densitate a probabilităţii, pdf. Aceasta este
notată şi cu f(x). Ea ne indică înălţimea curbei frecvenţei.
Observaţie : f ( x ) 0 pentru orice x.
Aria de sub curba dintre oricare două puncte a şi b este probabilitatea ca variabila aleatoare să
ia o valoare între a şi b (cu alte cuvinte, probabilitatea ca variabila aleatoare să cadă în intervalul
dintre a şi b, care este notat (a,b)).
Să ne amintim că pentru datele discrete, f(x) este o funcţie de probabilitate, unde funcţia
generează direct probabilităţile prin simpla evaluare a funcţiei pentru valorile lui X.
În cazul continuu, f(x) este o funcţie de densitate a probabilităţii şi ne indică înălţimea curbei.
Suprafaţa totală de sub curbă este 1.
F(x) este tot cdf, ceea ce denotă probabilităţile cumulate.
F (a) = P( x a) ,
P(a x b) = P( x a) − P( x b) = F (a) − F (b) .
Distribuţia normală este cea mai des folosită distribuţie în statistică. Există două motive
principale pentru aceasta:
1. Multe seturi de date reale sunt distribuite aproximativ normal.
2. Teorema limitei centrale.
În acest caz pdf este:
−
( x− )
1
f ( x) = e 2 , − x + .
2
2
Media distribuţiei normale este , iar varianţa este 2 . Forma curbei frecvenţei este complet
specificată de aceşti doi parametri, şi . Dacă variabila aleatoare X urmează o distribuţie
normală cu media şi varianţa , scriem X N ( , 2 ) .Curba frecvenţei are forma unui
clopot (unimodală) şi este simetrică în jurul mediei .
Regulă empirică:
Circa 68% din date vor fi între − şi + .
Circa 95% din date vor fi între − 2 şi + 2 .
Circa 99% din date vor fi între − 3 şi + 3 .
Distribuţia normală standard (sau unitatea normală) este o distribuţie normală cu = 0 şi
= 1 . Aceasta este de obicei notată cu Z, unde Z~N(0,1).
Probabilităţile distribuţiilor normale standard sunt suprafeţele de sub curbele Z (i.e. curba
normală standard). Aceste valori ale lui F(z) sunt date în tabelele probabilităţilor cumulate
pentru distribuţia normală standard. Aceste tabele indică valorile lui P( z c) , pentru valori ale
lui c între -3,8 şi 3,8. Pentru orice valoare a lui c, citim numărul întreg şi prima zecimală din
marginea tabelului, a doua zecimală din partea de sus a tabelului şi probabilitatea cumulată
corespunzătoare din corpul tabelului.
Dacă ni se dă probabilitatea, putem găsi punctul corespunzător.
Să presupunem că avem o distribuţie normală care nu este o normală standard. Avem
X N ( , 2 ) . Vrem să găsim probabilităţile pentru X. Pentru a face acest lucru, utilizăm
normala standard, adică standardizăm.
Dacă X N ( , 2 ) , atunci
X −
Z= N (0,1) ,
şi
X − c− c−
P( X c) = P = PZ
.
Observaţie. X = + Z este denumită eroarea standard a lui X .
Distribuţia normală este considerată ca bază pentru statistica inferenţială clasică deoarece
utilizarea rezultatelor cercetărilor prin sondaj pornesc de la ipoteza că eşantioanele observate
provin din populaţii distribuite normal.
Teorema limitei centrale
Pentru un n suficient de mare, distribuţia de eşantionare a lui X va fi aproximativ normală
pentru orice distribuţie de bază.
2
X N , .
n
3 Intervale de încredere
Datele obţinute în studiul statistic sunt, în general, rezultatul observării unui eşantion
extras dintr-o populaţie. Foarte rar cercetarea statistică este exhaustivă (pe întreaga populaţie).
Procesul statistic care vizează formularea de concluzii despre o populaţie pe baza
informaţiilor despre eşantion se numeşte inferenţă statistică sau deducţie statistică şi este
structurat în două componente:
1. Estimarea (include intervalele de încredere) unde estimăm parametrii populaţiei
2. Testarea ipotezei – unde testăm faptul că un parametru al populaţiei este egal cu o anumită
valoare specifică.
Pentru a avea o deducţie corespunzătoare, populaţia eşantionată (populaţia din care se
extrage eşantionul) trebuie să fie aceeaşi ca populaţia ţintă (populaţia despre care se formulează
concluziile).
Cea mai simplă formă de estimare este un estimat punctual, un singur număr (statistic)
calculat din datele de eşantion care estimează un parametru al populaţiei. Acesta reprezintă o
valoare a estimatorului al parametrului . De exemplu, X (media de eşantionare) este un
estimat punctual al lui , iar s 2 (varianţa de eşantionare) este un estimat punctual al lui 2 .
Aşadar, media şi varianţa sunt numite diferit pentru cele două tipuri de colectivităţi
(populaţia şi eşantionul): parametri pentru populaţie şi estimate pentru eşantion.Atât
parametrii, cât şi estimatele sunt valori reale, calculate pe baza datelor observate la nivelul unei
populaţii, respectiv la nivelul unui eşantion. Tabelul 3.1 indică notaţiile utilizate în procesul de
estimare statistică.
Media populaţiei se poate estima punctual prin media X obţinută la nivelul unui
eşantion. Estimatorul lui este media de eşantionare , a cărei distribuţie se fundamentează
pe Teorema limitei centrale.
Distribuţia mediei de eşantionare este caracterizată prin:
1. urmează întotdeauna o lege normală sau aproximativ normală, de medie şi varianţă
2 , respectiv ~ N ( , 2 ) ;
2. media distribuţiei mediei de eşantionare este egală cu media populaţiei;
3. varianţa mediei de eşantionare 2 este egală cu varianţa populaţiei 2 împărţită la volumul
eşantionului n.
Există două situaţii pentru estimarea mediei prin intervale de încredere:
- cazul când se cunoaşte varianţa
- cazul când nu se cunoaşte varianţa.
Notă: Z este adesea denumit coeficient de încredere, iar este eroarea standard.
1− n
2
Oricând estimatorul urmează o distribuţie normală (sau aproximativ normală),
intervalul de încredere va fi de forma: Estimat ±[(coeficient de încredere)(eroarea standard)].
Un caz mai practic este atunci când dorim un interval de încredere pentru atunci
când este necunoscut. Procedeul constă în înlocuirea lui cu s.
2
X −
Se poate arăta că urmează o distribuţie t cu n-1 grade de libertate, df. Distribuţia
s
n
t este simetrică faţă de 0 şi are forma unui clopot, având părţile terminale ceva mai ”grase”
decât curba normală standard. Forma exactă a distribuţiei t depinde de gradele sale de libertate.
Definim t( df ),c ca fiind punctul de pe curba t( df ) cu suprafaţa c sub ea. Aceste valori apar în
tabelul percentilelor pentru distribuţia t.
Intervalul de încredere pentru atunci când 2 este necunoscut are expresia:
s
X t .
( n −1)1− n
2
3.4 Intervalul de încredere pentru varianţa (dispersia) populaţiei 2
Folosim estimatul s 2 , pe baza datelor unui eşantion, pentru a estima varianţa populaţiei 2 .
Distribuţia de eşantionare a estimatorului lui 2 nu este normală. Pentru a defini un interval
de încredere, vom folosi distribuţia chi-pătrat ( (2df ) ). Distribuţia (2df ) depinde de parametrul
său df. Observăm că 2 nu este simetric, iar distribuţia 2 folosită în intervalul de încredere
pentru 2 are n-1 grade de libertate.
Definim (2df ),c ca fiind punctul de-a lungul curbei (2df ) care are suprafaţa c sub aceasta. Aceste
valori se găsesc în tabelul cu percentile al distribuţiei chi-pătrat.
Intervalul de încredere pentru 2 este:
(n − 1) s 2 (n − 1) s 2
2 , 2 .
( n −1),1− ( n −1),
2 2
Intervalul de încredere pentru este obţinut prin extragerea rădăcinii pătrate din capetele
intervalului de încredere pentru 2 .
Avem două populaţii: prima are media µ1 şi varianţa 12 , iar a doua are media µ2 şi varianţa 22
. Luăm eşantioane de dimensiunea n1 şi n2 şi calculăm X 1 − X 2 care estimează (µ1- µ2).
Procedăm astfel pentru toate eşantioanele posibile de dimensiune n 1 şi n2 pentru fiecare
populaţie. Colectând X 1 − X 2 de la fiecare, formăm distribuţia de eşantionare a lui X 1 − X 2 .
Această distribuţie are următoarele caracteristici:
1. Media
( X 1 − X 2 ) = 1 − 2 .
2. Varianţa, dacă cele două populaţii sunt independente
12 22
(2
X1−X 2 ) (
= Var X 1 − X 2 =
+
n1 n 2
. )
3. Eroarea standard a diferenţei dintre mediile eşantioanelor
12 22
(X 1−X 2 )
= + .
n1 n2
Cu datele „în pereche”ne uităm din nou la distribuţia de eşantionare a lui X 1 − X 2 . În acest
caz, distribuţia prezintă:
1. Media d = 1 − 2 .
( ) ( )
2. Varianţa d2 = Var X 1 + Var X 2 − 2Cov X 1 , X 2 . ( )
3.5.2 Varianţele sunt cunoscute şi diferite
.
Ne propunem să estimăm (µ1- µ2). Estimatul punctual este X 1 − X 2 .
Intervalul de încredere pentru (µ1- µ2) în acest caz este de forma:
12 22
(X 1 )
− X2 Z
1−
n1
+
n2
.
2
Presupunem că 12 = 22 , aşadat s12 = s22 estimează aceeaşi cantitate. Atunci, un estimat mai bun
ar fi estimatul grupat al varianţelor:
( n − 1) s12 + ( n2 − 1) s22 .
s 2p = 1
n1 + n2 − 2
Estimatul grupat al varianţelor este o medie ponderată a varianţelor.
Intervalul de încredere pentru (µ1- µ2) în această situaţie este:
1 1
(X 1 )
− X2 t
( n1 + n2 − 2),1−
s 2p + .
2 n1 n 2
( )
s2 s2
X1 − X2 t 1 + 2 ,
,1− n n2
2 1
unde
2
s12 s22
+
= 12
n n2
2
.
s12 s22
n1 + n 2
n1 − 1 n2 − 1
Testarea ipotezei (testarea statistică) este un procedeu care permite testarea unuia/mai multor
parametri ai unei populaţii sau testarea distribuţiei unei populaţii. Acest procedeu se va realiza
pe baza datelor de eşantionare, deducţia (concluzia) aplicându-se populaţiei.
O ipoteză statistică este o afirmaţie despre unul/mai mulţi parametri ai populaţiei sau despre
legea de distribuţie a populaţiei.
Testele de ipoteză pot avea o singură parte (one-tailed) sau două părţi (two-tailed).
Un test cu două părţi are o ipoteză alternativă care conţine semnul „ ” (expresia 1 de mai
sus). În acest test se poate detecta o diferenţă în orice sens faţă de valoarea din ipoteză a
parametrului.
O ipoteză cu o singură parte are o ipoteză alternativă care conţine „<” sau „>” (expresiile 2 şi
3), ceea ce permite probarea parametrului într-o singură direcţie . Sunt considerate teste cu o
H 0 : 10 H 0 : 10
singură parte şi testele de forma: sau
H1 : 10 H1 : 10.
Observaţie. Pentru o ipoteză alternativă cu „<”, ipoteza nulă este adesea interpretată ca „≥”.
Analog, pentru o ipoteză alternativă cu „>”, ipoteza nulă este adesea interpretată ca „≤”.
Orice testare de ipoteză poate avea unul din următoarele două rezultate posibile:
1. Respingerea Ho şi formularea concluziei că alternativa este adevărată. Adică, respingem H o
în favoarea lui H1.
2. Eşuarea de a respinge Ho şi concluzionarea că nu sunt suficiente dovezi statistice pentru H 1.
În acest caz, unii ar spune că Ho poate fi adevărată. Nu spunem că acceptăm Ho .
Eroarea este definită ca o diferenţă între o valoare adevărată şi o valoare observată. În contextul
testării unei ipoteze pot apărea erori de acceptare sau de respingere pe nedrept a unei ipoteze,
numite erori de tipul I şi erori de tipul II.
O eroare de tipul I apare atunci când se respinge o ipoteză nulă, dar în realitate aceasta este
adevărată. Se notează cu α probabilitatea unei erori de tipul I:
α = P(eroare de tipul I) = P(se respinge Ho / Ho adevărată).
În acest caz, α este denumit nivel (prag) de semnificaţie; α trebuie întotdeauna specificat
înainte de testare. Semnificaţia înseamnă că la repetarea experimentului există o probabilitate
1- α să se obţină aceleaşi rezultate, dovadă că rezultatele nu sunt afectate de factori de mediu
particulari condiţiilor de experimentare.
O eroare de tipul II apare atunci când se ia decizia de a nu se respinge ipoteza nulă, dar în
realitate aceasta este falsă. Se defineşte β ca fiind probabilitatea unei erori de tipul II:
β = P(eroare de tipul II) = P(se respinge Ho / Ho fals).
O sintetizare a tipurilor de erori este prezentată în tabelul 4.1
Demersul testării unei ipoteze statistice vizează parcurgerea unor etape, după cum urmează:
1. Se formulează ipotezele (în funcţie de problemă)
2. Se alege un test statistic
3. Se alege un nivel de semnificaţie α pentru test. Valorile obişnuite sunt 0,01; 0,05 şi 0,10
4. Se stabilesc regulile de decizie, definind zona de respingere a ipotezei Ho
5. Se calculează valoarea statisticii testului, pe baza datelor obţinute prin sondaj
6. Se compară valoarea calculată a statisticii testului cu valoarea teoretică (interpretarea
semnificaţiei statistice), apoi se formulează concluzia în contextul problemei.
Observaţie. Cea mai mare parte a programelor software raportează valorile p pentru Z cu două
părţi sau testul-t. Pentru un test cu două părţi, se compară valoarea p raportată cu nivelul de
semnificaţie α. Pentru un test cu o singură parte, se împarte valoarea p a rezultatului la 2 înainte
de a compara cu α.
1. Testarea mediei
Pentru testarea mediei sunt utilizate două tipuri de teste: testul Z şi testul t.
Testarea mediei cu o valoare specificată pentru eşantioane de volum mare (n≥30), când 2
este cunoscut.
Se aplică Testul-Z unde suntem interesaţi să testăm pe H 0 : = 0 faţă de H1 : 0 şi cu 2
cunoscut. Estimăm folosind X . Să ne aducem aminte că:
2
X N 0 , .
n
2
Dacă H0 este adevărată, atunci = 0 . Astfel, X N 0 , sub H0.
n
X − 0
Atunci, Z 0 = N (0,1) sub H0.
n
Z0 este statistica de test pentru testul Z. Aceasta este valoarea, calculată din date, care este
folosită pentru a determina rezultatul testului. Toate testele de ipoteză au o statistică a testului
determinată de tipul testului.
Există un punct astfel încât H0 este respinsă dacă Z0 depăşeşte acel punct. Este posibil ca Z0 să
depăşească acest punct chiar dacă H0 este adevărată. Probabilitatea pentru acest lucru este
suprafaţa de sub acest punct, sub curba N(0,1). Aşadar:
P (Z0 depăşeşte punctul/H0 este adevărat) = P (respinge H0/H0 este adevărat) = P( eroare de
tipul I) = α.
Testarea mediei cu o valoare specificată pentru eşantioane de volum mare (n≥30), când 2
este necunoscut.
O problemă evidentă cu testul Z constă în presupunerea că 2 este cunoscut. În practică,
această informaţie este disponibilă rareori sau deloc. Şi cu toate acestea dorim să putem testa
H 0 : = 0 faţă de o alternativă. Un procedeu mai practic este de a aplica un test-t care poate
fi folosit atunci când varianţa populaţiei este necunoscută. Statistica testului are aceeaşi formă
cu cea a testului-Z, dar deviaţia standard a populaţiei, , este înlocuită de estimarea sa, deviaţia
standard a eşantionului, s. Acum, statistica testului este:
X − 0
t0 = tn −1 sub H 0 .
s
n
Pentru H1 : 0 , respingem H 0 dacă t0 t( n −1),1− .
Pentru H1 : 0 , respingem H 0 dacă t0 −t( n −1),1− .
Pentru H1 : 0 , respingem H 0 dacă t0 t .
( n −1),1−
2
t0 =
(
X1 − X2 − ) t( n1 + n2 − 2) în ipoteza H 0 .
1 1
s 2p +
n1 n 2
Pentru H1 : 1 − 2 , respingem H 0 dacă t0 t( n1 +n2 −2),1− .
Pentru H1 : 1 − 2 , respingem H 0 dacă t0 −t( n1 +n2 −2),1− .
Pentru H1 : 1 − 2 , respingem H 0 dacă t0 t .
( n1 + n2 − 2 ),1−
2
t0 =
(
X1 − X2 − )t( ) în ipoteza H 0 ,
1 1
s 2p +
n1 n 2
unde gradele de libertate, v, sunt aşa cum au fost definite mai sus, în cazul secţiunii despre
intervalele de încredere.
Observaţie. Ca şi în cazul intervalelor de încredere, acest test funcţionează cel mai bine dacă
np>5 şi n(1-p)>5.
Un test exact poate fi efectuat pentru eşantioane mici, unde valoarea p a testului poate fi
calculată direct folosind distribuţia binomială.
Testele neparametrice presupun testarea ipotezelor statistice fără a cere specificarea formei
parametrice a distribuţiei populaţiilor. Cele mai cunoscute teste neparametrice sunt:
- testul Wilcoxon (1945), folosit pentru a verifica, pe baza datelor de sondaj, dacă există
diferenţe semnificative între două populaţii
- testul Mann-Whitney (1947), folosit pentru verificarea existenţei egalităţii între două
populaţii
- testul Kolmogorov-Smirnov (1933), care vizează testarea identităţii a două legi de
distribuţie etc.
Testul Wilcoxon este unul dintre cele mai utilizate teste de semnificaţie neparametrice, extrem
de util mai ales în cazul eşantioanelor dependente (date pereche – paired data), în contextul în
care s-a demonstrat faptul că distribuţia de frecvenţă nu este gaussiană.
Aplicarea lui la studiul a două eşantioane, pentru a verifica dacă acestea diferă semnificativ sau
nu (şi, în ultimă instanţă dacă provin sau nu din aceeaşi populaţie statistică), presupune
parcurgerea următorilor paşi:
Folosind tabelul, se procedează astfel: dacă S este situat în afara intervalului din tabel, care se
găseşte la intersecţia coloanei (n1) şi a liniei (n2) se poate afirma că, la pragul de semnificaţie
α=0,05 (sau altfel spus p = 0,05), cele două eşantioane diferă semnificativ. În caz contrar este
justificat să se afirme că cele două eşantioane nu diferă semnificativ statistic.
Se poate arăta că pentru testul-Z al H 0 : p = p0 . Statistica testului Z 0 , atunci când este ridicată
la pătrat, este egală cu statistica testului 02 .
Putem extinde acest test la cazul cu un număr de k rezultate posibile. Putem presupune valori
ale p1, p2,…pk, unde pi = 1 . Aplicăm testul în acelaşi fel folosind frecvenţele observate şi
cele aşteptate, Ei şi Oi. Statistica testului va fi:
( Oi − Ei )
2
k
=
2
0 − (2k −1) în ipoteza H 0 .
i =1 Ei
5 Analiza varianţei (ANOVA)
Procesele biologice se pot afla, la un moment dat, sub influenţa unuia sau mai multor factori
(variabile independente), cu acţiune concomitentă. Pentru a evidenţia în ce măsură unul sau
mai mulţi factori (sau chiar o combinaţie a acestora) influenţează în mod esenţial o
caracteristică rezultativă (dependentă) se utilizează analiza dispersională (analiza varianţei)
ANOVA.
Uneori prin analiza dispersională trebuie să fie verificată dependenţa variabilei rezultative (z)
de factorul (factorii) de grupare, ea putând fi considerată, în acest caz, ca o metodă auxiliară,
utilizată înainte şi după aplicarea metodelor corelaţiei şi regresiei statistice. Dacă, însă, trebuie
verificată independenţa variabilei rezultative de o variabilă de sistematizare a datelor, atunci
analiza dispersională poate fi considerată ca o metodă independentă, ce conduce la concluzii
de sine stătătoare.
În funcţie de numărul factorilor (unul singur, doi sau mai mulţi) care influenţează variaţia
caracteristicii rezultative, avem modele de analiză dispersională unifactorială, bifactorială sau
multifactorilă.
Avem k≥3 populaţii sau grupuri. Adesea, acestea sunt rezultatul aplicării a k tratamente
diferite. Ca urmare, putem întâlni termenii ”grup de tratament”.
Prin ANOVA se compară mediile acestor k grupuri (pentru a se observa efectele celor k
tratamente). Notăm cu 1 , 2 ,..., k mediile celor k grupuri.
Ne propunem să testăm: H 0 : 1 = 2 = ... = k vs. H 1 : cel puţin o medie i este diferită (în
raport cu toate celelalte medii).
Presupunem că:
- cele k populaţii sunt distribuite normal;
- cele k populaţii au varianţe egale 12 = 22 = ... = k2 (omogenitatea varianţelor).
Se calculează:
1. SSWITHIN, SSERROR (SSEROARE sau SSRESIDUAL) - măsoară variabilitatea din interiorul
fiecărui grup
k
SSWITHIN = ( ni − 1) si2 ,
i =1
( )
k
SS BETWEEN = ni Yi. − Y... ,
2
i =1
unde Yi. este media eşantionului în grupul de ordin i, iar Y... este media eşantioanelor tuturor
celor n observaţii.
Acestea sunt folosite pentru a vedea unde sunt diferenţele dacă respingem
H 0 : 1 = 2 = ... = k .
Există mai multe asemenea proceduri, algoritmul acestora fiind similar. Privim la toate
comparaţiile pereche posibile, cu unele restricţii. Acest lucru se face în aşa fel încât nivelul
total de semnificaţie (probabilitatea de a face cel puţin o eroare de tipul I) se menţine.
Dacă sunt efectuate toate comparaţiile pereche posibile, fiecare la nivelul de semnificaţie α,
nivelul total de semnificaţie este mult mai mare decât α (adică nivelul de semnificaţie este
„umflat”). Ca urmare, să folosim toate testele-t cu două eşantioane posibile, nu este un
procedeu bun. Avem nevoie de proceduri care ”protejează” sau menţin un nivel total de
semnificaţie. Asemenea proceduri sunt Scheffe, Tuckey, Bonferroni, Student-Newman-Keuls,
Duncan.
Unele din procedurile de mai sus sunt mai conservatoare decât altele (au tendinţa de a găsi mai
puţine diferenţe semnificative). Testele enumerate sunt date în ordinea descrescătoare a
conservatorismului. Un test conservativ are tendinţa de a proteja mai bine nivelul total de
semnificaţie. În timp ce testul Scheffe găseşte mai puţine diferenţe, testul Duncan găseşte mai
multe diferenţe, dar există dezbateri asupra a cât de bine păstrează nivelul total de semnificaţie.
(Ha): cel puţin două dintre mediile diferă între ele (adică cel puţin două dintre populaţii
diferă prin medii).
covarianţa.
Valorile coeficientului de corelaţie sunt cuprinse între -1 şi 1 ( −1 1 ).
Sensul relaţiei dintre variabile este dat de semnul lui :
- Corelaţia negativă ( <0) indică faptul că valori mari ale lui X tind să corespundă unor
valori mici ale lui Y (respectiv, valori mici ale lui X tind să corespundă unor valori mari
ale lui Y).
- Corelaţia pozitivă ( >0) arată că valori mari ale lui X tind să fie asociate unor valori
mari ale lui Y (respectiv, valori mici ale lui X tind să fie asociate unor valori mici ale
lui Y).
Valoarea lui aproape de -1 sau 1 arată o relaţie liniară puternică, în timp ce valoarea
lui aproape de 0 arată că nu există o relaţie liniară.
Colton (1974) sugerează următoarele reguli empirice referitoare la interpretarea
coeficientului de corelaţie:
1. un coeficient de corelaţie de la -0,25 la 0,25 înseamnă o corelaţie slabă sau
nulă,
2. un coeficient de corelaţie de la 0,25 la 0,50 (sau de la-0,50 la -0,25) înseamnă
un grad de asociere acceptabil
3. un coeficient de corelaţie de la 0,5 la 0,75 (sau de la -0,75 la -0,5) înseamnă o
corelaţie moderată spre bună
4. un coeficient de corelaţie mai mare decât 0,75 (sau mai mic decât -0,75)
înseamnă o foarte bună asociere sau corelaţie.
La nivelul unui eşantion se determină coeficientul de corelaţie empiric r propus de K.
Pearson, care reprezintă o estimaţie pentru parametrul populaţiei . Valorile lui r pot fi
cuprinse de asemenea între -1 şi 1, i.e. −1 r 1 .
Regresia este folosită pentru a modela (explica) şi/sau prezice valoarea unei variabile
aleatoare (variabilă dependentă), notată de obicei cu Y. Pentru a prezice Y, utilizăm una sau
mai multe variabile independente sau factori X1, X2,..., Xn.
Legăturile care apar între variabile se pot clasifica din mai multe puncte de vedere:
Regresia liniară simplă (RLS) este regresia care foloseşte numai o variabilă independentă, X.
Un model de RLS este de forma:
Y = 0 + 1 X + (dreapta de regresie), unde
0 şi 1 sunt constantele necunoscute numite coeficienţi de regresie;
0 este interceptul;
1 este panta;
este termen de eroare (variabilă aleatoare).
Presupunem că N ( 0, 2 ) .Variabilele X şi Y respectă condiţia de normalitate. Problema
analizei de regresie se reduce la calcularea (estimarea) parametrilor modelului 0 şi 1 .
Estimaţii acestor parametri se notează 0 şi respectiv, 1 .
e
i =1
2
i .
Coeficientul de determinare R2
Coeficientul de determinare măsoară proporţia de variabilitate din setul de observaţii, care este
explicată de ecuaţia de predicţie. Acesta arată cât de bine modelul propus aproximează datele.
Valorile sale sunt cuprinse între 0 şi 1:
0 R2 1
i =1
( )
n
SS EROARE = Yi − Yi
2
reprezintă suma pătratelor valorilor reziduale,
i =1
SS MODEL = SS REGRESIE = SSTOTAL − SS EROARE măsoară variabilitatea explicată de model.
Analiza de regresie oferă posibilitatea şi pentru predicţia unei valori medii a lui Y la un anumit
X. De asemenea, regresia permite obţinerea unui interval de predicţie pentru o valoare
individuală a lui Y la un anumit X.
Un model de regresie liniară multiplă (cu două sau mai multe variabile factoriale) este de
forma:
Y = + 1 X1 + 2 X 2 + ... n X n + .
Atunci cînd nu este confirmată o regresie liniară, trecerea la o analiză de regresie neliniară
(curbilinie) se justifică fie pentru o mai bună predicţie a variabilei dependente pe baza
cunoaşterii valorii variabilei independente, fie pentru reducerea mai eficientă a erorii
experimentale.
Ajustarea curbei necesită o alegere anticipată a unui model adecvat.
Pe lângă verificarea vizuală a potrivirii curbei de regresie cu punctele trasate pe baza datelor
observate, verificarea existenţei între variabile se realizează cu ajutorul coeficientului de
determinare, cu valori între 0 şi 1.
Există nenumărate variante pentru alegerea modelului de regresie neliniară, de exemplu:
Exponenţială: y = b eax + ;
Putere: y = b x a + ;
Logaritmică: y = a ln x + b + ;
Polinomială: Y = 0 + 1 X + 2 X 2 + ... + k X K + , unde k este gradul polinomului.
Nu se recomandă utilizarea regresiei polinomiale de grad mai mare decât patru pentru că fie
interpretarea este dificilă, fie se poate produce fenomenul de overfitting.
Deşi sunt neliniare, anumite modele pot fi transformate în modele liniare. De exemplu,
modelele exponenţial şi putere sunt liniarizabile prin logaritmare:
Exponenţială: ln Y = ln b + aX + ;
Putere: ln Y = ln b + a ln X + .
Prin substituţiile y ' = ln y; x ' = ln x; b ' = ln b , obţinem următoarele regresii neliniare:
Exponenţială: y ' = b '+ ax ;
Putere: y ' = b '+ ax ' ;
Logaritmică: y = b + ax ' .
În concluzie, analiza de corelaţie şi regresie are un rol major în realizarea de predicţii, pe baza
cărora se consolidează procesul decizional.