Sunteți pe pagina 1din 29

Biostatistica și metodologia

cercetării științifice
Teste parametrice și non-parametrice
Eroarea standard a valorilor medii
• Cu alte cuvine, în cazul valorilor medii, pentru a stabili
exactitatea cu care s-au făcut o serie de măsurători, trebuie
să se calculeze abaterea medie a valorilor medii obţinute.
• Această abatere se numeşte eroare standard, notată cu ES,
şi se obţine prin formulele următoare:
• ES = ± s /n pentru n ≥ 120
• ES = ± s /n-1 pentru n ≤ 120 .
unde: ES - eroarea standard;
σ - abaterea medie pătratică (deviația standard);
n - volumul eşantionului (numărul frecvențelor);
n-1 – numărul gradelor de libertate.
Gradele de libertate reprezintă numărul de cazuri observate,
din care se scade o unitate. Această operaţie se face cu
scopul apropierii abaterii reale a valorilor (în eşantion) de cea
teoretică (în colectivitatea generală).
Eroarea standard a valorilor relative
Când se testează certitudinea valorilor empirice se stabilește cu
cât a greșit cercetătorul calculând indicatorii relativi într-o
cercetare parțială față de rezultatele pe care le-ar fi obținut într-o
cercetare integrală:
• Ep = ±√ (p x q) / n, pentru n ≥ 120
• Ep = ±√ (p x q) / (n-1) , pentru n ≤ 120,
unde: Ep – eroarea indicatorului relativ;
p – indicatorul relativ (probabilitatea);
q - diferenţa dintre înmulţitorul, faţă de care s-a calculat
indicele (100, 1000, 10000 etc.) şi valoarea indicatorului
(contraprobabilitatea);
n - numărul de cazuri luate în observaţie,
n-1 – numărul gradelor de libertate.
Eroarea standard procentuală. Eroare limită.
Eroarea maximă admisă se notează cu litera grecească – D
(delta) și se obține prin înmulțirea valorii testului de semnificație
(t) cu valoarea erorii standard (ES):
D= t*ES
unde: D - eroarea maximă admisă, t - testul de seminifiație, ES-
eroarea standard.
Valoarea erorii maxime admise nu trebuie să fie mai mare de 1,
atunci lucrăm cu valori absolute, sau de 1% - valori procentuale.
Pornind de la formula D= t*ES, putem stabili volumul sau mărimea
eșantionului pe care, efectuând cercetarea, să putem asigura
rezultatele cu un prag de semnificație de 0.05 (5%), 0,01 (1%)
sau 0.001 (0.1%). Cum se procedează? În formula înlocuim
eroarea standard după formula atât în cazul valorilor medii și a
valorilor procentuale, formula devine:
D = ± t*(s /n) sau D = ± t* ( p*q/n)
n= t* s/ D sau n= (t* p*q)/ D, sau n va fi în ambele cazuri egal
cu pătratul expresiilor din formulele anterioare.
Intervalul de siguranţă (intervalul de incredere)
Intervalul valoric, determinat cu ajutorul erorii standard,
în care se estimează pentru a se afla media absolută,
se numeşte interval de siguranţă sau de încredere
statistică.
În acest interval, ţinând cont de legea distribuţiei
normale, determinat de media eşantionului ±eroarea
standard, media absolută se va găsi cu o probabilitate
egală cu 68,26%:
(M – ES) > IÎ < (M + ES)= 68,26% sau
(p – ES) > IÎ < (p + ES)= 68,26%
Intervalul de încredere (IÎ)
Concluzie: Media aritimetică (valoare absolută ) se poate găsi :
• în intervalul Ma ± ES, cu probabilitatea de 68,26%;
• în intervalul Ma ± 2ES, cu probabilitatea de 95,45%;
• în intervalul Ma ± 3ES, cu probabilitatea de 99,73%.
La fel şi pentru valorile relative Intervalele Ma ± ESm şi P ± Esp
se numesc interval de încredere (IÎ) (sau regiuni de acceptare) a
mediei sau indicatorului relativ, iar limitele lor se numesc limite
de încredere:
(Ma - ESm) > IÎ < (Ma+ESm)
(P - ESp) > IÎ < (P + ESp)
Peste limita de încredere deja se vorbește de intervalul de
respingere.
Unei probabilități de 95% sau 99% (0.95 sau 0.99) denumită nivel
de încredere (de semnificație), îi corespunde un coeficient de
încredere cu valoare critică, notată cu “t”.
Pragul de semnificaţie („p”)
Contraprobabilitatea sau probabilitatea că mediile de eşantion să
depăşească limita maximă şi minimă ale intervalului de încredere,
situându-se în afară lor, se numește prag de semnificație.
În cazul în care intervalul de încredere (siguranță) este determinat
de M ± ES, contraprobabilitatea (pragul de semnificație) se
obține scăzând din 100% valoarea probabilității:
q= 100%- 68,26% = 31,74 %
Dacă dorim ca valoarea contraprobabilității, a posibilității de a
greși, să fie mai mică, atunci trebuie să mărim intervalul de
siguranță.
Mărimea intervalului de siguranță depinde de faptul dacă adăugăm
și scădem din valoarea mediei, valoarea erorii standard o singură
dată, de două ori sau de trei ori. Cu cât dorim să lucrăm mai
precis, să greșim mai puțin, cu atât intervalul de siguranță crește.
Multiplul erorii standard 1,2 sau 3, care determină mărimea
intervalului de siguranță, se numește test de siguranță, și se
notează cu “t”.
Testul de semnificație
• La o probabilitate de 68.26% și un prag de semnificație de 31.74% valoarea
lui t =1;
• La o probabilitate de 95.45% și un prag de semnificație de 4.55% valoarea lui
t =2;
• La o probabilitate de 99.73% și un prag de semnificație de 0.27% valoarea lui
t =3.
În medicină și biologie pragurile de semnificație 31.74%, 4.55%
și 0.27%, corespunzând valorilor lui t=1, 2 sau 3 nu se prea
folosesc, în schimb, rezultatele se garantează cu pragurile de
semnificație de 0,05 (5%), 0,01 (1%) și 0,001 (0.1%).
Pe bază de calcule s-a stabilit că pentru aceste pragurile de
semnificație valorile corespunzătoare ale lui “t” sunt:
• pragul de semnificație 5%, valoarea lui t =1.96, iar intervalul de siguranță
va fi Ma ± 1.96ES;
• pragul de semnificație 1% valoarea lui t = 2.58, iar intervalul de siguranță
va fi Ma ± 2.58ES;
• pragurul de semnificație 0.1% valoarea lui t =3.59 , iar intervalul de
siguranță va fi Ma ± 3.59ES.
Testul de semnificație
Valorile lui “t” rămân nemodificate, dacă se lucrează pe
eșantioane cu un volum mai mare de 120 de cazuri. Dacă se
lucrează pe eșantioane cu un volum mai mic de 120 de cazuri,
valoarea testului de semnificație se modifică și se ia din tabelul
testului t, această valoare o găsim în cărțile de statistică:
Testul t-Student

Gradele de libertate reprezintă numărul de cazuri observate, din


care se scade o unitate.
Testul de semnificație
Anumite teste statistice ţin cont de modul în care eşantioanele
studiate sunt dependente sau nu unul de celălalt, existând fie
versiuni speciale ale testului pentru date pereche/nepereche
(cum este cazul testului “t”), fie testul este recomandat pentru
date nepereche – testul Mann-Whitney, respectiv date pereche
–testul Wilcoxon.
Una din probleme este determinarea modului de grupare a
datelor. Datele sunt de tip „pereche” în cazurile următoare:
• este măsurată o variabilă înainte şi după o intervenţie asupra
aceluiaşi subiect;
• se efectuează un experiment de laborator de mai multe ori, prin
determinări paralele ale preparatului studiat şi ale controlului;
• selecţia cazurilor a fost efectuată prin metoda perechilor pe baza
unor anumite criterii cum ar fi vârsta, rasa sau gravitatea bolii etc;
• sunt măsuraţi anumiţi parametrii în cazul gemenilor sau a unor
perechi de genul părinte/copil etc.
Tehnici parametrice și neparametrice de
comparație între grupuri
• Dacă rezultatele obţinute se includ în distribuţia normală şi dacă
între cele două eşantioane nu există altă diferenţă semnificativă
(diferenţe de vârstă, sex, masă corporală etc.) în afară de
factorul aplicat se consideră că abaterile standard ale celor două
loturi nu diferă semnificativ. În acest caz semnificaţia statistică a
diferenţei mediilor se poate testa cu ajutorul mai multor teste
parametrice, dintre care cel mai folosit este testul „t” Student.

• Dacă rezultatele nu se încadrează într-o distribuţie normală sau


nu poate fi testată normalitatea distribuţiei datelor obţinute,
datorită eşantionului mic, este indicat să se aplice un test
neparametric, cele mai des utilizate fiind testul Wilcoxon,
respectiv testul U Mann-Whitney.
Testul de semnificație
• Testele parametrice pot fi utilizate pentru testarea
semnificaţiei datelor, obţinute de la variabile
cantitative ( testul „t, testul „F, testul „U”) sau
calitative (χ2 ).
• Testele de semnificaţie pentru datele cantitative
compară mediile în funcţie de posibilităţile de eroare.
Ipoteza nulă în acest caz presupune că nu există
diferenţe între mediile comparate. Calculele, de
regulă, se efectuează pentru un prag de semnificaţie
= 0,05.
Tehnici prametrice și neparametrice
Tehnicile statistice parametrice (testul t Student )și
altele) pleacă de la o serie de condiții privind simetria
și omogenitatea distribuției datelor. Când acestea nu
sunt îndeplinite sunt utilizate tehnicile neparametrice
denumite și tehnici statistice independente de
distribuție a datelor.
Tehnici neparametrice de comparație între 2 grupuri
sunt:
• Tehnica lui X ² (hi pătrat);
• Testul “U” a lui Mann-Whitney (echivalentul testului
parametric “t” independent);
• Testul Wilcoxon al rangurilor pereche (echivalent
ANOVA masuratori repetate ori “t” dependent);
Testul t-Student – variante
A fost propus de Gosset pentru eşantioane mici. În analiza
semnificaţiei diferenţei dintre medii ia în considerare variaţia şi
ponderea cazurilor de observaţie în funcţie de numărul
acestora.
Există 3 variante ale testului testul „t-Student”:
• Testul t-Student pentru date “pereche” (eşantioane dependente);
• Testul „t” pentru date “nepereche” (eşantioane independente) cu
dispersii egale (exemplificat);
• Testul „t” pentru date “nepereche” (eşantioane independente) cu
dispersii inegale (diferite);
Aceste teste diferă prin modul în care se calculează valoarea
coeficientului “t”.
Pentru eşantioane mici există diferenţe între testul „t” şi celelalte
teste de semnificaţie parametrice, dar începând de la n > 15
cifrele testului „t” se apropie de 2, ceea ce corespunde cu
distribuţia normală.
Testul t-Student
În cadrul eşantionării, am discutat şi am definit testul "t" am spus
că testul "t" este multiplul erorii standard şi că cu ajutorul lui
stabilim mărimea intervalului de siguranţă. Acest test "t" a cărui
valoare - în cazul în care lucrăm pe eşantioane cu un număr mai
mic de 120 frecvenţe - o luăm din tabela testului "t", se numeşte
"t tabelar". Dar valoarea lui "t" o mai putem obţine şi prin calcul
după formula:
t =D/ sD
acest "t", obţinut raportând valoarea diferenţei (D) la eroarea sa
(sD), se numeşte "t calculat".
În cazul în care dorim să apreciem semnificaţia sau lipsa de
semnificaţie a diferenţei dintre două valori medii sau două
probabilităţi, obţinute pe eşantioane, procedăm în felul următor:
calculăm valoarea lui "t", raportând diferenţa dintre cele două
medii la eroarea sa.
Testul t-Student
unde: t - testul de semnificaţie; D - diferenţa dintre valorile medii sau
procentuale; σD = eroarea diferenţei; x1 şi x2 - valorile medii comparate; p1 şi
p2 - valorile relative comparate; ES1 şi ES2 - eroarea standard, corespunzător
fiecărei valori.
Stabilim apoi valoarea lui "t tabelar“ astfel: dacă numărul
frecvenţelor celor două eşantioane >120 atunci valoarea lui "t
tabelar" =1,96 pentru p = 0,05 (5%); 2,58 pentru p = 0,01 (1%)
sau 3,29 pentru p = 0,001 (0,1%). Dacă numărul însumat de
frecvenţe <120 de frecvenţe, atunci valoarea lui "t tabelar" o
citim în tabela testului “t”” în gradul de libertate dat de numărul
însumat de frecvenţe minus 2: (n1+n2)-2.
Deci, dacă valoarea lui "t calculat" >"t tabelar“, atunci diferenţa
între cele două valori medii sau între cele două probabilităţi este
semnificativă din punct de vedere statistic.
Dacă din contra, valoarea lui "t calculat“<"t tabelar", atunci
diferenţa dintre cele două medii sau dintre cele două
probabilităţi, este nesemnificativă din punct de vedere statistic.
Testul t-Student
Exemplu: Pe două eşantioane extrase din două colectivităţi diferite s-
au măsurat valorile TA sistolice şi am găsit pentru primul eşantion
alcătuit din 120 persoane o medie M1 =140,5 mm Hg şi o eroare
standard egală cu ES1=±0,57 mm Hg iar pentru al doilea eşantion
alcătuit dintr-un număr de 160 de persoane am găsit o medie a TA
sistolice M2=154,5 mm Hg şi o eroare standard ES2=1,2. Stabilind
diferenţa dintre medii obţinem:
|M1-M2|=|140,5-154,5| = 14 mm Hg,
iar

Diferenţa dintre cele două medii de eşantion fiind egală cu 14, iar
eroarea diferenţei înmulţită cu 1,96*2 care pentru un risc α (coeficient
tabelar) de 5% şi D=14 mm Hg > 1,96 *σD -înseamnă că diferenţa
este semnificativă din punct de vedere statistic. Dacă diferenţa dintre
cele două medii a celor două eşantioane ar fi fost mai mică decât
valoarea 1,96*σD atunci diferenţa ar fi fost nesemnificativă statistic,
ambele eşantioane provenind din colectivităţi cu condiţii
asemănătoare.
De calculat:
Exemplu: Pe două eşantioane, extrase din două colectivităţi cu
condiţii asemănătoare (aceiaşi factori de mediu fizic, acelaşi
mediu de alimentaţie, aceleaşi condiţii de muncă, acelaşi nivel
cultural-sanitar etc.), se stabileşte media dinţilor absenţi şi se
găseşte că la primul eşantion, de 250 persoane (e1) media (Me1)
este de 5,5 dinţi absenţi, cu o eroare standard de ± 0,7 iar la al
doilea eşantion (e2), de 200 de persoane, media Me2 a dinţilor
absenţi este de 6,2, iar eroarea standard de ± 0,2.

Rezolvare: Diferenţa între medii este:


D = Me2 – Me1, D = 6,2 – 5,5 = 0,7 dinţi absenţi.

dinţi absenţi. Diferenţa dintre medii (0,7) fiind mai mică decât valoarea
diferenţei (σD = 0,72), înseamnă că între cele două medii nu există o
diferenţă semnificativă din punct de vedere statistic.
Teste neparametrice. Testul Χ ²
Când avem de comparat între ele, valori absolute sau distribuţii de
frecvenţe, folosim testul Χ ² (chi pătrat) al lui Pearson.
Testul Χ ² se obţine însumând rapoartele dintre pătratul
diferenţelor stabilite între frecvenţele colectivităţii generale
(frecvenţele teoretice) şi frecvenţele observate, şi frecvenţele
colectivităţii generale.
Se aplică atunci când rezultatele sunt clasificate în funcție de gen,
vârstă, nivel de pregătire, grupuri de tratament sau orice alta
măsură nominala. Proba furnizează un test statistic asupra
semnificației discrepanței dintre rezultatele observate și
așteptate.
Formula lui Χ ²:

unde: FO = frecvența observată; FT =frecvența probabilă


(teoretică, așteptată).
Testul Χ ²
• Valoarea lui χ ² obținută pe baza formulei de mai sus se numește
valoarea lui “χ ² calculat”.
• Pentru a vedea dacă între distribuții este diferență semnificativă,
se compară χ ² calculat cu χ ² tabelar. Valoarea lui χ ² tabelar se
citește în tabelul testului χ ², ţinând seama de gradul de libertate
şi de pragul de semnificaţie cu care vrem să garantăm
semnificaţia sau lipsa de semnificaţie dintre cele două distribuţii
de frecvenţe. Gradului de libertate se calculează prin următorul
produs:
GL = ( Nr. Rândurilor tab. – 1) x (Nr. Coloanelor tab. - 1 ).

Dacă:
• χ ² calculat > χ ² tabelar - diferența semnificativă statistică.
• χ ² calculat < χ ² tabelar - diferența nesemnificativă statistică.
Testul Χ ²
Testul Χ ²
Testul Χ ²
Exemplu: Examinând întreaga populaţie adultă a unei colectivităţi
de 1337 locuitori sub aspectul valorilor tensiunii arteriale sistolice
şi a unui eşantion de 120 de persoane, presupunem că, obţinem
următoarele distribuţii de frecvenţe pe grupe de valori ale
tensiunii arteriale sistolice:
Testul Χ ²
Lăsând la o parte prima coloană a valorilor variabilei tensiunii
arteriale sistolice şi primul rând cu denumirea coloanelor, tabelul
nostru conţine 7 rânduri şi două coloane, deci valoarea lui χ ²
tabelară o vom citi din tabelul χ ² la gradul de libertate:
GL = (nr. de rânduri – 1) x (nr. de coloane – 1)=(7-1) x (2-1 )=6.
• Valoarea tabelară (din tabel) a lui χ ² pentru
GL = 6 şi un risc α = 5% este de 12,6.
• Pentru un risc α = 1% este de 18,5 şi pentru un risc α = 1‰ este
de 22,5.
• La o probabilitate de 91 %, χ ² calculat se obţine:
Testul Χ ²
• Deci valoarea lui χ ² calculat (1108,8) este mult mai mare decât
valorile găsite în tabelul χ ² pentru oricare din cele trei riscuri
asumate (5%, 1%, 0,1%), deci diferenţa între cele două
distribuţii de frecvenţe teoretice şi observate este semnificativă
din punct de vedere statistic, denotând că în cadrul eşantionului
există condiţii diferite (factori de mediu, alimentari, de muncă
etc.) care au determinat această diferenţă, faţă de cele din
colectivitatea generală.
• Dacă valoarea lui χ ² calculat ar fi fost mai mică decât valoarea
lui χ ² tabelar atunci diferenţa între cele două distribuţii de
frecvenţe ar fi fost nesemnificativă din punct de vedere statistic,
eşantionul provenind din aceeaşi colectivitate generală,
reflectând condiţiile acesteia.
De calculat:
Exemplu: Dacă am stabili, că pe teritoriul unui spital populaţia
adultă de 39.620 locuitori, se va distribui în raport cu dinţii extraşi
ca în tabelul de mai jos (coloana FT), iar examinarea unui
eşantion de 5.500 persoane adulte va evidenţia distribuţia din
coloana FO. De calculat χ ² , de citit din tabelul de valori
valoarea lui χ ² tabelar și de efectuat analiza.

Tabelul pentru calcul va fi, cu excepția primei coloane, coloana variantelor, şi a primului
rând, cu denumirea coloanelor. Tabelul în final va avea 6 rânduri şi 2 coloane, deci
valoarea lui χ ² tabelar trebuie citită din tabelul testului χ ² la gradul de libertate 5.

S-ar putea să vă placă și