Documente Academic
Documente Profesional
Documente Cultură
Biostatistica MG - LP 5 PDF
Biostatistica MG - LP 5 PDF
S folosii foaia de calcul Excel pentru a executa calculele necesare gsirii intervalelor de ncredere
S efectuai teste statistice parametrice cu ajutorul pachetului Excel
1. Intervale de ncredere
n cele de mai jos, sunt prezentate metode de calcul a intervalelor de ncredere n Excel.
Media unui eantion pe care l avem la dispoziie este doar o aproximare a mediei populaiei din care
provine eantionul, adic este doar o aproximare a realitii, pe care nu o cunoatem i pe care de altfel, nu
o s o cunoatem niciodat. Intervalul de ncredere este o aproximare n plus i n minus a acestei medii
necunoscute.
Intervalele de incredere se calculeaz pornind de la media de eantionare i deviaia standard de eantionare,
care se obin folosind funciile EXCEL, Average i Stdev.
Formula: Intervalul de incredere de 95% pentru estimarea mediei m a populaiei se calculeaz cu formula:
X t95% * , sau cu formula X t95%*StErr
n
unde:
X = media eantionului,
= deviaia standard a eantionului
1
Laboratorul al V-lea
a. Calculul intervalului de ncredere cnd datele nu sunt nregistrate deja. S presupunem c n urma
aplicrii unor teste de inteligen verbal, au fost obinute mai multe scoruri, ale unor indivizi dintr-un lot de
studiu.
Lotul de 40 de indivizi este alctuit din ofieri de resurse umane ai unor firme i studiul urmrete s
stabileasc cu o aproximaie ct mai bun nivelul de inteligen verbal al indivizilor ce ocup astfel de
posturi. Lotul a fost extras aleator din populaia format din ofierii de resurse umane ai firmelor de
distribuie a medicamentelor care opereaz pe teritoriul Romniei. Aceast populaie, o vom numi populaie
de referin.
Scorul maxim posibil este 48. Scorurile sunt nregistrate pe hrtie. Pentru calculul intervalului de ncredere al
scorului mediu, prima operaie este introducerea scorurilor ntr-o foaie de lucru Excel. Vom ncerca de fapt
s calculm dintr-o dat ambele intervale de ncredere importante, cel de 95% i cel de 99%.
nregistrai, ca n figura de mai jos, pe coloana A, numerotarea de la 1 la 40, iar pe coloana B scorurile. n
imagine nu se vd dect primele 16 scoruri. Vei nregistra toate cele 40 de scoruri, care sunt:
44 42 37 43 36 47 29 46 42 36 34 36 35 28 30 35 34 37 34 27 36 45 42 37
38 41 40 30 34 32 37 31 36 38 36 41 37 36 35 36
Apoi, la D3, D4 i aa mai departe, pn la D16, scriei textele pe care le vedei n figur, care sunt texte
explicative. Apoi, se fac calculele. La E3, se calculeaz media cu formula =Average(b2:b41). La E4, vei
calcula deviaia standard cu formula =Stdev(b2:b41). La E5, vei calcula eroarea standard cu formula
=E4/SQRT(40).
La E6 i la E7, depunei valorile lui t95%, care ne trebuie la calculul intervalului de ncredere de 95%, i a lui
t99%, care ne trebuie la calcului intervalului de ncredere de 99%. Aceste valori le luai din tabelul distribuiei
Student, de pe linia corespunztoare la 40 de grade de libertate. Normal, trebuia s folosim 39 de grade de
libertate, (n-1, numrul de valori minus 1] dar n tabel se observ c nu sunt prevzute astfel de valori,
deoarece diferenele sunt prea mici i nu mai conteaz prea mult n calcule.
La E10 i E11 se calculeaz limitele inferior i superioar ale intervalului de ncredere de 95%, iar la E15 i
E16, limitele intervalului de ncredere de 99%, cu formulele urmtoare:
2
Laboratorul al V-lea
La E10, formula =E3-E6*E5 (adic media, minus produsul dintre t95% i eroarea standard)
La E11, formula =E3+E6*E5 (adic media, plus produsul dintre t95% i eroarea standard)
La E15, formula =E3-E7*E5 (adic media, minus produsul dintre t99% i eroarea standard)
La E16, formula =E3+E7*E5 (adic media, plus produsul dintre t99% i eroarea standard)
Dac ai introdus exact valorile i calculele au fost fcute corect, intervalul de ncredere de 95% va fi ntre
35,21 i 38,29, iar intervalul de ncredere de 99% va fi ntre 34,69 i 38,81.
Interpretarea pe care o dm acestor rezultate este urmtoarea: avem o siguran de 95% c media populaiei
de referin este ntre 35,21 i 38,29. Este o aproximare destul de bun. Referitor la intervalul de 99%,
interpretarea este: avem o siguran de 99% c media populaiei de referin este ntre 34,69 i 38,81.
Aceasta este o aproximare ceva mai puin bun, aa cum ne ateptam. Din teorie se tie c intervalele de 95%
sunt mai mici (mai nguste, sau mai scurte), iar cele de 99% mai mari (mai largi).
b. Calculul intervalului de ncredere cnd datele nu sunt nregistrate deja
n tabelul HepRen, sunt nregsitrate printre altele i diametrele lobilor prehepatic i cardiohepatic ai ficatului,
la pacienii cu diferite afeciuni hepatice. Cele dou coloane pe care sunt nregistrate cele dou dimensiuni
sunt coloanele R i S, i au numele DPrehep1 i respectiv, DCrdHep1. Lotul este extras aleator din
populaia celor cu afeciuni hepatice din judeul Dolj (o vom numi populaie de referin). Ne propunem s
determinm intervalul de ncredere de 95% pentru diametrele ambilor lobi la lotul din tabel. n total lotul are
280 de pacieni.
Deschidei tabelul HepRen.xls. Vom merge cu cursorul de mouse n celula Q282 i vom scrie Media, n
Q283 vom scrie Deviaia standard, n Q284, scriem Eroarea standard. La Q285 vom scrie t95%, iar la Q287
i Q288 vom scrie Limita inferioar i respectiv, Limita superioar.
La R282, se calculeaz media cu formula =Average(r2:r280). La R283, vei calcula deviaia standard cu
formula =Stdev(r2:r280). La R284, vei calcula eroarea standard cu formula =R283/SQRT(279).
La R285, depunei valoarea lui t95%, care ne trebuie la calculul intervalului de ncredere de 95%. Aceast
valoare o luai din tabelul distribuiei Student, de pe linia corespunztoare la Mai mare i este 1,96. deci
scriei acest numr la R285.
3
Laboratorul al V-lea
n fereastra care apare, i pe care o vedei n figura din stnga, executai urmtoarele:
n caseta de dialog Variable 1 Range, scriei A1:A12, n caseta Variable 2 Range, scriei B1:B15.
Apoi, bifai caseta de validare Labels i butonul de opiune Output Range, iar n caseta corespunztoare,
scriei D2.
4
Laboratorul al V-lea
Pe linia Mean, sunt afiate cele dou medii. Un laborant d media 12,16, iar cellalt 12,44, deci valori medii
sensibil apropiate.
Pe linia Variance, sunt afiate dispersiile, primul avnd dispersia 0,06, iar cellalt 0,11, deci puin diferite,
primul d valori mai constante, al doilea mai mprtiate.
Rezultatul p, al testului se afl la linia pe care programul a scris P(T<t) two-tail, i este 0,0252, adic 2,52%
Avnd n vedere regula de respingere a ipotezei de nul atunci cnd p este sub 5%, vom spune c ntre mediile
msurtorilor celor doi laborani este o diferen semnificativ. Laborantul al doilea are tendina de a furniza
valori superioare celor furnizate de primul.
Acest test se poate aplica dac nu se tie despre cei doi laborani ct de dispersate sunt valorile furnizate de
ei. Astfel, unul din ei ar putea furniza valori centrate n jurul mediei mai strns, adic cu dispersie mic (sau
abatere standard mic). n acest caz concret, s-a vzut c al doilea d pe lng o medie uor crescut, i o
dispersie mai mare a valorilor.
Dac vei fi pui n situaia s raportai rezultatul unui astfel de test, pe lng valoarea rezultatului p i a
interretrii lui, trebuie raportate mediile i deviaiile standard la cele dou loturi. Programul nu furnizeaz
ns deviaia standard, astfel c va trebui s o calculai. Acest lucru se face simplu. Mergei de exemplu n
celula E16 i scriei formula =sqrt(E5), iar n F16 scriei =sqrt(F5). Apoi raportarea rezultatului testului poate
fi fcut preciznd la ambele loturi mediile, deviaiile standard, rezultatul p, precum i interpretarea acestuia.
B) Testul pentru dispersii egale. Dac din studii anterioare sau din alte surse de informaie se tie c cei doi
laborani (sau cele dou laboratoare), dau msurtori care au dispersii egale (deoarece folosesc aparate de
aceeai precizie, de exemplu), se poate face testul t Student pentru dou eantioane n cazul dispersiilor egale
Refacei testul ca la punctul a, i n locul alegerii t-test: Two Sample Assuming Unequal Variances,
alegei t-test Two Sample Assuming Equal Variances
n ferestra care apare, completai ca la punctul a. Observai c rezultatele sunt dispuse ntr-un tabel
asemntor, totui, sunt unele diferene.
5
Laboratorul al V-lea
Rezultatul p, este puin mai mare, dar diferena ntre cele dou medii este tot semnificativ, deoarece
valoarea lui p este tot sub 5%.
n practic, bineneles c trebuie dinainte stabilit care din cele dou variante va fi cea corect i va fi
folosit numai acea variant. De aceea, sau se afl din literatura de specialitate n ce caz suntem, sau
trebuie dinainte calculate dispersiile pentru cele dou serii de valori i, cnd se suspecteaz c este o
diferen semnificativ, se prefer varianta t-test: Two Sample Assuming Unequal Variances, iar dac
suntem suficient de siguri c diferena ntre dispersiile celor dou serii de valori este ntmpltoare, putem
efectua varianta t-test Two Sample Assuming Equal Variances.
De fapt, chiar cnd avem impresia c varianele difer semnificativ, numai un test statistic poate decide
acest lucru suficient de sigur. Excel pune la dispoziia utilizatorului testul F de comparare a dispersiilor ca
test care s ne ajute n a decide care din cele dou variante de mai sus este mai bine s o folosim. (Vezi mai
jos, Testul F de comparare a dispersiilor). n plus, nu trebuie s se uite c acest test se aplic numai n
ipoteza c valorile furnizate de laborani sunt distribuite normal.
C). Testul t pentru msurtori pereche
Pentru a exemplifica modul de folosire a acestui test s revenim la exemplul cu cei doi laborani.
Putem face compararea ntre laborani i n alt fel: lum 14 probe diferite, i trimitem din fiecare prob,
cte o mostr la fiecare din cei doi laborani. Acum ar trebui ca la mostrele din proba 1 ei s dea acelai
rezultat, la mostrele din proba 2 s dea tot acelai rezultat, dar nu acelai cu rezultatul de la proba 1, etc.
Totui, ei nu vor da rezultate chiar identice ntre ele, din cauza erorilor. n acest caz, trebuie efectuat pentru
compararea mediilor testul t Student pentru msurtori pereche.
Introducei datele pe care le vedei n imaginea de mai sus pe coloanele A i B, apoi se execut secvena
Tools Data Analysis, iar din fereastra care apare, se alege opiunea: t-test: Paired Two Sample for
Means. Completai ca n figura de mai sus, apoi apsai butonul OK.
Rezultatele sunt listate n figura de mai sus fiind asemntoare celor de la celelalte teste t.
Rezultatul p al testului este p=0,143, sau p=14,3%. Respectnd regula de decizie de la acest tip de test,
ipoteza de nul nu se respinge, datele furnizate de cei doi laborani nu au medii care s difere semnificativ.
6
Laboratorul al V-lea
3. Testul ANOVA
Este un test care testeaz dintr-o dat medii mai multor loturi. Aceasta nseamn c avem mai mult de dou
loturi, pe care am fcut msurtori i am obinut tot attea serii de valori. n practic, acesta este cazul atunci
cnd cele 3 sau mai multe loturi sunt supuse la tratamente diferite, i se urmrete s se stabileasc dac
efectele tratamentului sunt diferite la unul sau altul din loturi.
De exemplu, pentru a stabili eficacitatea unui pansament gastric folosit n tratamentul ulcerului, la diferite
tipuri de ulcer, se folosesc trei loturi de pacieni, fiecare lot cuprinznd pacieni care au aceeai form de
ulcer (s le notm cu A, B i C). Se msoar la fiecare pacient numrul de zile de tratament necesar pentru
vindecare complet, iar cele trei serii de valori care se obin trebuie supuse unui test statistic de comparare a
mediilor pentru a stabili dac eventualele diferene de medie (a duratei tratamentului) sunt semnificative.
Evident, pentru a aputea aplica testul, este nevoie ca loturile s fie mari, deoarece la loturi mici, numrul de
zile de tratament nefiind distribuit Gauss, testul ANOVA nu poate fi aplicat.
Testul ANOVA, face compararea celor trei medii dintr-o dat. Dac nu gsesc diferene semnificative,
tratamentul folosit nu poate fi considerat ca fiind mai eficace la una dintre formele de ulcer (A, sau B sau C).
Dac ns testul gsete diferene semnificative, nseamn c pansamentul este mai eficace la una din
formele de ulcer i mai puin eficace la altele, sau este mai eficace la dou din cele trei forme i mai puin
eficace la cea de-a treia. Nu se poate stabili sigur n care din cele dou situaii de mai sus suntem. Oricum n
acest caz, este nevoie ca studiul statistic s fie continuat prin aplicarea unor teste de comparare a dou loturi.
Se pune ntrebarea de ce nu se folosesc de la nceput teste care compar mediile loturilor cte dou odat.
Cauzele sunt dou:
Dac testul ANOVA d un rezultat nesemnificativ, atunci comparrile cte dou sunt inutile.
Dac numrul de loturi este mai mare, trebuie fcute foarte multe teste de comparare cte dou.
Pentru fiecare test Student de comparare, se face alt studiu clinic, pe alte loturi. De exemplu pentru 6
loturi, trebuie fcute 15 comparri luate cte dou.
Pentru a efectua un exemplu, deschidei tabelul OBEZ. Pe coloanele D i M sunt nscrise localitatea i
respectiv greutatea fiecruia din cei 510 subieci nregistrai n tabel. Transferai cele dou coloane pe o alt
foaie de calcul, astfel:
Inserai o nou foaie de calcul folosind secvena Insert->Worksheet. Se va deschide o nou
foaie de calcul, goal
Revenii pe foaia Obez, cu un clic pe numele ei, n partea stnga-jos a ecranului
Executai clic pe litera C, care este numele coloanei a treia (Localitate). Coloana va fi selectat
Executai clic pe butonul dreapta de mouse i alegei din meniul care se deschide, Copy
Executai clic pe numele foii de calcul goale, n partea din stnga jos a ecranului
Executai clic pe litera A, numele primei coloane a foii goale
Executai clic pe butonul drept de mouse i alegei din meniu comanda Paste. Coloana
Localitate a fost copiat
Executai clic pe numele foii Obez
Executai clic pe litera L, care este numele coloanei a 12-a (Greutate). Coloana va fi selectat
Executai clic pe butonul dreapta de mouse i alegei din meniul care se deschide, Copy
Executai clic pe numele noii foi de calcul, n partea din stnga jos a ecranului
Executai clic pe litera B, numele celei de-a doua coloane a foii
Executai clic pe butonul drept de mouse i alegei din meniu comanda Paste. Coloana Greutate
a fost copiat
Executai clic n orice celul de pe coloana A sau B
Cu secvena Data->Sort, sortai dup localitate
7
Laboratorul al V-lea
Scriei pe coloanele D, E i F, numele celor trei localiti din care provin subiecii, aa cum vedei n figur.
Apoi, copiai greutile subiecilor din Argetoaia pe coloana D, cele ale celor din Bistre pe coloana E iar ale
celor din Vrvor pe coloana F.
Apoi executai secvena Tools Data Analysis i alegei din fereastra care apare testul ANOVA, care este
primul din list. Apoi apsai OK.
8
Laboratorul al V-lea
Rezultatul pe baza cruia se ia decizia este P-value, care se observ c este 0,000124.
Interpretare: ipoteza de nul se respinge, exist cel puin o diferena ntre mediile greutii la subiecii din
cele trei comune care este foarte nalt semnificativ. Urmrind valorile medii, se observ ce subiecii din
comuna Vrvor au greutatea mai mare.
Dac este nevoie s raportai rezultatul acestui test, vei preciza mediile de greutate la fiecare din cele trei
categorii, deviaiile standard pe care le calculai prin extragerea radicalului din dispersii, valoarea lui p,
precum i interpretarea acestuia.
9
Laboratorul al V-lea
Ferestra care a aprut (vezi figura de sus), se completeaz aa cum vedei c s-a completat pe figur, dup
care se apas butonul OK. Efectul este apariia tabelului din figura de mai sus (dreapta), n care observai c
au fost listate ncepnd de la D1, aa cum s-a cerut la pasul anterior, mediile, dispersiile, numrul de valori
din serii (Observations), i alte cteva informaii.
Rezultatul testului se culege ca P(F<=f) onetail, are valoarea 0,1624, adic p=16,24%. (Atenie, n imagine
coloanele au fost ajustate, valorile sunt afiate cu 4 zecimale, adic s-a folosit secvena Format Cells
Number i s-a ales 4 zecimale). Valoarea de pe coloana G nu a fost furnizat de program ci este adugat
ulterior, pentru a pune n eviden locul i valoarea rezultatului p.
Folosind metoda de interpretare a rezultatului unui test statistic, deducem c, deoarece p este peste 5%,
ipoteza de nul nu se respinge (diferena dintre dispersiile celor dou loturi este nesemnificativ). De
exemplu, dac trebuie s comparm i mediile celor dou loturi, putem folosi testul t, varianta t-test Two
Sample Assuming Equal Variances. Dac diferena ar fi fost semnificativ, adic rezultatul p ar fi fost sub
5%, eram obligai pentru compararea mediilor celor dou loturi s folosim varianta t-test: Two Sample
Assuming Unequal Variances.
10
Laboratorul al V-lea
Indicaie. Se introduc datele din tabelul de mai sus ntr-o foaie Excel, pe coloanele A, B, C i D de la liniile 1
la 23. Pentru 1 i 2 se folosete testul t-Student eantioane cu dispersie inegal, iar pentru 3 i 4 se folosete
testul t-Student msurtori pereche.
De fiecare dat, trebuie avut grij s se precizeze corect intervalele de pe foaia Excel unde se gsesc valorile
necesare testului. De exemplu, la punctul 1, valorile se gsesc n intervalele C2:C14 i C15:C23. La punctul
3, intervalele sunt C2:C14 i D2:D14.
4. Dou laboratoare primesc 10 i respectiv 12 mostre din acelai material la care trebuie s determine
concentraia unei substane. Concentraia real a substanei este de 43%. Ele dau urmtoarele rezultate: L1:
43.5, 42.8, 43.5, 42.6, 44.1, 42.3, 42.5, 43.4, 44.2, 43.1, iar L2: 43.6, 42.7, 43.4, 42.5, 44.2, 42.4, 42.4, 43.5,
44.3, 43.2, 43.8, 44.2. Stabilii cu ajutorul unui test statistic dac exist o diferen semnificativ ntre
mediile obinute de cele dou laboratoare.
5. Calculai intervalul de 99% pentru tensiunea pacienilor din tabelul CARDIO (TAMAXI), lund t99%=2.30
6. Fie seria de numere: 32.1, 33.2, 34.4, 33.1, 35.7, 32.9, 36.5, 31.4, 33.9, 33.7, 34.4, 33.7, 35.4, 34.8, 35.3,
valorile fiind extrase dintr-o populaie cu distribuie Gauss. S se calculeze media, deviaia standard i
coeficientul de variaie al seriei. S se calculeze intervalul de ncredere de 95% i intervalul de ncredere de
99%. Cum interpretai cele dou intervale?
7. Fie seriile de numere:
X: 32.1, 33.2, 34.4, 33.1, 35.7, 32.9, 36.5, 31.4, 33.9, 33.7, 34.4, 33.7, 35.4, 34.8, 35.3, 33.7, 33.8, 33.4.
Y: 33.2, 34.2, 35.5, 33.7, 35.2, 33.1, 37.1, 31.3, 33.7, 34.7, 35.4, 34.8, 35.3, 34.5, 35.7, 34.6, 34.7, 34.8, 34.6,
35.6, 36.7, 36.4.
S se calculeze mediile, deviaiile standard i coeficienii de variaie pentru cele dou serii. Care din cele
dou serii este mai mprtiat? Dac cele dou serii de valori sunt extrase din populaii cu distribuie Gauss,
s se calculeze pentru fiecare intervalul de ncredere de 95% i s se deduc dac pot proveni din populaii cu
medii egale.
11