Cursul IV

Biostatistică - Cursul al IV-lea
EŞANTIONARE – INTERVALE DE ÎNCREDERE
1. Eşantion
Indicatorii statistici calculaţi pentru un eşantion anume sunt simple aproximări pentru parametrii reali ai
populaţiei din care provine eşantionul. De exemplu, coeficientul mediu de inteligenţă calculat la un eşantion
de studenţi, este o aproximare foarte proastă a coeficientului mediu de inteligenţă al întregii populaţii,
deoarece un eşantion de studenţi nu este reprezentativ pentru întreaga populaţie. În schimb, coeficientul
mediu de inteligenţă calculat la un eşantion mare de indivizi aleşi la întâmplare din populaţie, va fi
probabil o aproximare mai bună a coeficientului mediu de inteligenţă al întregii populaţii.
Se pune în mod natural problema de a stabili câtă încredere se poate avea în aceste aproximări, sau cât de
precise sunt ele. Să încercăm să precizăm condiţiile pe care trebuie să le avem îndeplinite pentru ca gradul de
siguranţă în concluziile pe care le tragem despre o populaţie pe baza rezultatelor obţinute pe un eşantion, să
fie cât mai mare. Înainte de a preciza aceste condiţii, să stabilim de ce aprecierea acestei precizii de
aproximare este importantă.
Deci, să plecăm de la faptul că avem media şi deviaţia standard calculate pentru un anumit parametru pe un
eşantion. Dacă modul în care a fost ales eşantionul ne dă posibilitatea să afirmăm că acestea sunt bune
aproximări ale mediei şi deviaţiei standard pentru întreaga populaţie, atunci acesta este de fapt singurul lucru
pe care ne putem baza, în afara, eventual, a unor medii sau deviaţii date în literatura de specialiate. De
exemplu, dacă pe un eşantion bine ales, vom obţine coeficientul mediu de inteligenţă 101,5 şi o deviaţie
standard de 14,4, aceasta ne îndreptăţeşte să spunem că media populaţiei este aproximativ 101,5 , iar deviaţia
standard aproximativ 14,4. Media reală a întregii populaţii şi deviaţia standard a întregii populaţii ne sunt
chiar necunoscute de multe ori.
În acest curs ne vom pune problema de a stabili cât de bune sunt aproximaţiile de acest gen. Vom încerca să
stabilim cât de aproape de realitate este media aproximativă, obţinută luând în calcul doar indivizii
eşantionului ales.
Uneori, din surse bibliografice avem informaţii despre media unei întregi populaţii, dar în cazul în care nu
avem astfel de date din surse bibliografice, sau când datele din mai multe surse nu concordă, atunci media
întregii populaţii nu ne va fi de fapt cunoscută decât prin aproximările obţinute pe eşantioane. De fapt,
sursele bibliografice nu ne dau nici ele decât tot aproximări foarte bune ale adevăratei medii sau deviaţii
standard, obţinute tot pe nişte eşantioane extrase din populaţia respectivă.
Pentru o discuţie ceva mai exactă, să introducem câţiva termeni: vom numi eşantion sau lot, o submulţime a
unei populaţii statistice. Extrapolarea, sau generalizarea unor rezultate obţinute prin măsurători pe un
eşantion la întreaga populaţie o vom numi inferenţă. De exemplu, dacă coeficientul mediu de inteligenţă pe
un eşantion reprezentativ este 101,5, putem, în anumite condiţii foarte precise, să facem afirmaţia
generalizatoare, sau inferenţa, că media coeficientului de inteligenţă al populaţiei este de este 101,5.
În cele ce urmează, vor fi expuse unele tehnici de inferenţă care pleacă de la ideia că eşantioanele pe care se
lucrează îndeplinesc nişte condiţii destul de naturale, fireşti, dar obligatorii întrucât toate concluziile care se
trag sunt condiţionate de ele. Vom enumera în continuare câteva din aceste condiţii:
a) Volumul
Vom numi volum al unui eşantion, numărul de indivizi din acel eşantion. Evident că măsurători efectuate
pe un individ dintr-o populaţie, sau pe câţiva indivizi, nu ne pot oferi o imagine veridică a rezultatelor care s-
ar obţine dacă s-ar putea măsura întreaga populaţie. Se pune întrebarea, câţi indivizi trebuie măsuraţi, astfel
încât să avem un minim de siguranţă asupra rezultatelor obţinute? Răspunsul la această întrebare nu există.
Nimeni nu ne poate spune acest număr, să-i zicem, minimal de măsurători.
1
O afirmaţie care ţine mai mult de un fel de folclor statistic, spune că nu se poate face statistică cu mai puţin
de 30 de măsurători. În realitate acest număr depinde foarte mult de populaţia asupra căreia se lucrează. O
afecţiune foarte răspândită ca diabetul zaharat, care dă o populaţie foarte numeroasă la nivelul unei ţări să
zicem, de câteva zeci de mii de cazuri, nu poate fi studiată pornind de la eşantioane de 30 - 40 de indivizi, ci
în mod necesar, de cel puţin câteva sute sau mii. Din contră, o maladie rară care abia dacă strânge câteva zeci
de indivizi la nivelul unei ţări, pune problema găsirii la un moment dat a câtorva indivizi şi nicidecum a
câtorva zeci. De altfel, statistica a demonstrat că în realitate numărul de indivizi din eşantion este doar cel
care dă siguranţă inferenţei, un volum prea mic al eşantionului, ducând pur şi simplu la rezultate
nesemnificative, aşa cum se va vedea. Cu cât mai multe înregistrări, cu atât mai sigure inferenţele pe care le
facem.
b) Reprezentativitatea. Este condiţia care se poate rezuma la cerinţa ca eşantionul pe baza căruia se fac
inferenţe despre populaţie să reflecte particularităţile populaţiei din care provine. Eşantionul trebuie să
reflecte, particularităţile de sex, vârstă, mediu de provenienţă, rasă, uneori chiar nivel de cultură sau zona
geografică şi altele, ale populaţiei din care este extras.
Astfel, în cazul unei maladii cu incidenţă crescută în rândul femeilor, cum este Lupus Eritematos Sistemis, nu
se pot lua eşantioane în care proporţia de bărbaţi şi femei este aceiaşi ci eşantioane care să aibă cam aceiaşi
proporţie de femei şi bărbaţi ca şi populaţia. Acesta este un exemplu legat numai de repartiţia pe sexe, dar în
practică, trebuie să se ţină seama de toate celelalte particulatităţi ale populaţiei.
În concluzie, vom spune că un eşantion este reprezentativ dacă reflectă la scară mică toate, sau cât de
multe posibil, particularităţi ale populaţiei din care provine.
c) Aleatorizarea sau randomizarea. Este o condiţie legată de precedenta şi presupune că alegerea

indivizilor din eşantion trebuie făcută la întâmplare căci numai astfel pot fi eliminate unele tendinţe
subiective ale celui care face alegerea şi care, oricât ar dori, nu se poate sustrage tuturor pericolelor de a
alege indivizii din eşantion după nişte criterii pe care de cele mai multe ori nici nu le bănuieşte dar ele ar
putea exista.
Pentru aleatorizare se pot folosi tabele de numere aleatorii si extragaerea se face conform acestor numere.
Uneori, în studiile epidemiologice, se folosesc liste de indivizi din populaţie furnizate de oficialităţi sau alte
organizaţii care deţin astfel de liste, chiar şi cărţi de telefon uneori, şi din aceste liste se extrag aleator,
indivizii unui eşantion.
Sunt cazuri speciale în care alegerea indivizilor din eşantion trebuie să se facă nu aleator ci după criterii
anume, dar acestea au fost verificate de-a lungul timpului şi au un suport ştiinţific bine întemeiat. Pentru a
înlătura orice suspiciune de alegere subiectivă, se preferă totdeauna alegerea întâmplătoare.
O menţiune specială merită cazul în care înregistrările provin de fapt din baze de date construite şi
completate în timpul actului medical la un cabinet de specialitate, într-o clinică, etc, caz în care, evident că
nu avem posibilitatea de a controla modul în care pacienţii se prezintă la medic. Acestea nu reprezintă
eşantioane randomizate. Studiile clinice de valoare nu se realizează folosind eşantioane alese dintre
pacienţii care se prezintă la un cabinet sau într-o clinică, ci se aleg eşantioane cu respectarea unor condiţii de
includere foarte stricte.
d. Independenţa măsurătorilor. Orice calcul statistic facem cu datele pe care le avem la dispoziţie
presupune apriori că ele sunt independente una de alta. În medicină această cerinţă este de obicei îndeplinită
în mod automat şi anume, atunci când datele reprezintă valorile aceluiaşi parametru măsurat la mai mulţi
pacienţi, deoarece valoarea obţinută pentru pacientul nr.1 este independentă de valoarea obţiunută pentru
pacientul nr.2 şi ambele sunt independente de valorile pe care le obţinem la ceilalţi pacienţi.
Sunt însă cazuri în care un pacient care a fost internat de mai multe ori şi parametrul urmărit este măsurat de
fiecare dată, valorile obţinute nu sunt neapărat independente unele de altele.
De exemplu, dacă ne interesează valorile legate de funcţia hepatică, la pacienţi cu ciroză hepatică, atunci, la
reinternări, măsurarea unui parametru care nu este direct legat de funcţia hepatică nu dă valori independente.
Tensiunea sistolică ar putea fi chiar aceeaşi la un hepatic, la câteva reinternări şi reînregistrarea ei de fiecare
dată, va arăta o tendinţă de a fi constantă, care este artificială.
2
2. Eşantionare
Şi acum să trecem la modalităţile prin care se realizează inferenţa statistică. De la început trebuie precizat că
un rol central îl joacă distribuţia Gauss care de fapt nu este o distribuţie ca oricare alta ci, datorită
proprietăţilor ei naturale, în special simetria, are un statut oarecum privilegiat. Pentru a ne da seama de acest
lucru, să presupunem că ne aflăm în faţa unei populaţii cu un număr foarte mare de indivizi, ceea ce, din
punct de vedere statistic se denumeşte ca “practic infinită”.
Să presupunem pentru simplitate că media populaţiei respective în ceea ce priveşte un anumit parametru este
m iar deviaţia standard este s, valori care sunt de obicei necunoscute, iar distribuţia variabilei respective este
normală. Să mai presupunem că, să aproximăm media m a populaţiei prin medii obţinute pe eşantioane de
volum n, adică eşantioane cu n indivizi.
Putem chiar să ne imaginăm ce se întâmplă dacă luăm foarte multe astfel de eşantioane, poate chiar pe toate.
Vom obţine foarte multe medii aproximative, aproximaţii care sunt, multe dintre ele mai departe de
adevărata medie, altele mai apropiate.
Vom numi aceste medii aproximative, medii de eşantionare de volum n. Se naşte astfel o serie statistică, a
acestor medii, care are o importanţă deosebită, deoarece are anumite proprietăţi pe care le vom descrie în
continuare, care ne vor ajuta în a estima cât de bune sunt aproximările prin medii de eşantionare.
Fie seria statistică Mn: m1, m2, m3.........., seria acestor medii de eşantionare de volum n. Se poate demonstra
că:
 media seriei statistice Mn este aceeaşi cu a populaţiei, adică m.
 deviaţia standard a seriei Mn este , adică mai mică decât a populaţiei, care este s.
 distribuţia seriei Mn este Gauss.

Afirmaţiile de mai sus s-ar traduce în termenii exemplului cu media coeficientului de inteligenţă aşa cum
este descris mai jos.
Media coeficientului de inteligenţă într-o populaţie este, sa zicem, 100, iar deviaţia standard 15, dar noi nu
ştim aceste valori. O serie de cercetători, dorind să o aproximeze, iau fiecare câte un eşantion, şi calculează
coeficientul de inteligenţă mediu, fiecare la eşantionul pe care şi l-a ales.
Să mai presupunem că toţi cercetătorii iau eşantioane de volum egal, adică cu acelaşi număr de indivizi, de
exemplu, 144. Ei vor obţine aproximaţii mai bune sau mai proaste, căci mai joacă şi întâmplarea rolul ei,
unele vor da o medie de eşantionare sub 100, altele peste 100, etc.
Dacă am lua TOATE eşantioanele de câte 144 de indivizi, fiecare eşantion ne dă câte o medie aproximativă a
coeficientului de inteligenţă de 100 al populaţiei. Media tuturor acestor aproximaţii va fi TOT 100!!! Cum
aceste aproximaţii sunt unele mai mici, unele mai mari, unele sub media reală, altele peste, ele au şi o
deviaţie standard.
Deviaţia standard va fi , ceea ce ne spune că aproximaţiile ar fi destul de

bune, dacă se abat de la medie cu o deviaţie standard aşa de mică, de 1,25. În plus, aceste aproximaţii se
distribuie Gauss, ca şi coeficientul de inteligenţă, care se distribuie tot Gauss.
Pentru ce este bună o astfel de teorie? Ajută să ne dăm seama cât de bune sunt aproximaţiile. De exemplu,
aproximaţiile pe aşantioane de 144 de indivizi, sunt, cum se vede de mai sus, destul de bune. Pe eşantioane
de 400 de indivizi, aproximarea care se obţine are o deviaţie standard de ,
deci aceste aproximaţii vor fi probabil mai bune.
În figura 1 sunt reprezentate histogramele corespunzătoare cazurilor când luăm foarte multe medii pe loturi
de câte 2 sau 3 sau 4, până la 100 (2, 3, 4, 9, 16, 25, 36, 100). Se observă toate cele trei afirmaţii punctate
mai sus.
3
Figura 1 Prima histogramă este executată pe seria statistică a mediilor pe loturi de câte doi indivizi extraşi dintr-o
populaţie de 10000 de indivizi. A doua histogramă pe seria mediilor pe loturi de câte 3, extrase din aceeaşi populaţie.
Apoi pe loturi de 4, 9, 16, 25, 36 şi 100 de indivizi. S-e observă tot mai accentuat tendinţa de scădere a dispersiei, pe
măsură ce creşte volumul loturilor.
În figura 2, se poate observa aceiaşi ideie din figura 1, pentru cazul când populaţia de bază nu este o
populaţie cu repartiţia Gauss ci una extrem de asimetrică. Se observă totuşi că şi în acest caz, pe măsura
creşterii volumului loturilor, histogramele sunt tot mai simetrice.
4
Figura 2 Prima histogramă este executată pe seria statistică a mediilor pe loturi de câte doi indivizi extraşi dintr-o
populaţie de 10000 de indiviz foarte asimetric repartizatăi. A doua histogramă pe seria mediilor pe loturi de câte 4,
extrase din aceeaşi populaţie. Apoi pe loturi de 6, 10, 20, 40, 100 de indivizi. S-e observă tot mai accentuat tendinţa
de scădere a dispersiei, pe măsură ce creşte volumul loturilor.
Să observăm că deviaţia standard a distribuţiei mediilor de eşantionare, care se mai numeşte “eroare
standard”, este un indicator important care după cum se vede şi se va vedea mai jos este tocmai cel care ne
ajută să apreciem precizia sau siguranţa de calcul a mediei pe care o estimăm.
Bineînţeles că mediile obţinute pe eşantioane de volum n vor fi de obicei, cu atât mai aproape de realitate cu
cât n este mai mare. Acest aspect nu trebuie neapărat demonstrat căci are un suport intuitiv evident: o
aproximare a mediei unei populaţii este în principiu, cu atât mai bună cu cât eşantionul extras este
mai numeros.
Acest lucru ne spune că dacă reprezentăm curba Gauss a mediilor de eşantionare, ea va fi cu atât mai
“strânsă“ în jurul mediei reale, cu cât eşantioanele sunt de volum mai mare, deoarece este mai puţin probabil
să avem medii foarte îndepărtate de media reală.
5
Pe când folosirea de eşantioane restrânse ca acelea formate din doar doi sau trei indivizi poate duce la medii
foarte departe de cea reală, mediile obţinute pe eşantioane mai numeroase vor fi în general mult mai
apropiate de media reală.
s
De altfel, formula s n  , ne spune tocmai acest lucru, căci se vede că o creştere a lui n conduce la un
n
numitor mare şi deci la o abatere standard mică.
Această distribuţie, a mediilor de eşantionare, ne oferă posibilitatea de a estima siguranţa cu care este
aproximată media din chiar forma ei. O distribuţie a mediilor de eşantionare foarte strânsă arată în genereal
precizii bune. Dar o distribuţie “strânsă”, înseamnă o eroare standard mică.
Eşantionarea este un proces cu încărcătură pur statistică, el punând la încercare fondul de gândire
probabilistă pe care fiecare îl avem prin educaţie, fără să fi învăţat neapărat probabilităţi sau statistică.
Gândirea comună, sau uzuală, ne spune că este natural ca măsurători multe să ne conducă la o precizie
mai bună. Există totuşi multe limite ale gândirii comune care ne pot arunca în capcane greu de ocolit.
Judecăţile de mai sus sunt valabile ca afirmaţii statistice şi nu absolute. Am fi de exemplu tentaţi să afirmăm
că media de eşantionare obţinută pe un eşantion de volum mai mare este totdeauna mai precisă decât media
de eşantionare obţinută pe un eşantion de volum mai mic, ceea ce nu este adevărat. Adevărată este doar
afirmaţia:
Este mai probabil ca o medie de eşantionare pe un eşantion de volum mai mare să fie
mai precisă decât una obţinută pe un eşantion de volum mai mic.
Este posibil ca, prin jocul întâmplării, o medie obţinută pe un eşantion mai mare să fie mai departe de media
reală decât o medie obţinută pe un eşantion mai mic. Numai că această situaţie este mai puţin probabilă, cu
atât mai puţin probabilă cu cât diferenţa de volum între cele două eşantioane este mai mare.
3. Intervale de încredere
Definiţie. Estimarea unui parametru printr-o valoare numerică este aşa cum s-a văzut supusă unor erori
inerente. Nu există metodă perfectă de a măsura ceva şi ca urmare, orice înregistrare de date se face cu erori
care se datorează în primul rând procesului de măsurare. Iar în medicină, mai intervine şi variabilitatea
naturală, un acelaşi parametru fiind diferit de la individ la individ şi chiar, la un acelaşi individ, dacă
măsurăm la două momente de timp difeite. De aceea, o metodă comodă de a estima media unui parametru
este aproximarea ei dacă este posibil, printr-un interval în care se află adevărata medie a acelui
parametru.
Din păcate, nu este posibil să găsim în general un interval finit în care să fim absolut siguri că se află
valoarea medie a parametrului de estimat. Acest lucru este posibil de exemplu atunci când avem informaţii
apriorice despre parametrul respectiv, de exemplu când este sigur că valoarea lui este în intervalul unitate,
sau, cum este cazul coeficientului de corelaţie (vezi cursul VII), valoarea lui este cuprinsă în intervalul [-1,
1].
Tot ceea ce se poate face este să găsim un interval în care valoarea medie a parametrului pe care îl estimăm
să se afle nu sigur, ci numai cu o probabilitate dinainte fixată. Dacă fixăm nivelul de siguranţă
(probabilitatea) la o valoare suficientă, de exemplu 95% sau 99%, ne putem declara mulţumiţi.
Pentru a înţelege mai bine cele expuse mai jos, este bine să gândim în termenii exemplului cu coeficientul de
inteligenţă: avem de estimat parametrul care se numeşte media coeficientului de inteligenţă al unei
populaţii şi avem la îndemână doar un eşantion, pe care am calculat numai o medie de eşantionare care o
aproximează pe cea reală, necunoscută.
DEFINIŢIE: Vom numi interval de încredere de siguranţă α% (95%, 99%, etc), un intreval de
numere în care suntem α% siguri că se află adevărata valoare a parametrului pe care îl estimăm.
Dacă un parametru este repartizat Gauss, cu media m şi abaterea standard s, atunci media de eşantionare ,
obţinută pe un aşantion de n indivizi, respectă formula următoare:
6
Această formulă se traduce astfel în limbajul obişnuit: Există o probabiltate de aproximativ 95% ca media
reală (necunoscută) m să fie cuprinsă în intervalul de la la .
Sau, altfel spus: adevărata medie m, necunoscută, se află cu o probabilitate de 95%, adică aproape
sigur, în intervalul format prin adunarea şi scăderea din media de eşantionare , a unei valori egale
cu 1,96 . În practică, deoarece s este necunoscut, se pune în locul lui, deviaţia standard de eşanationare
adică cea calculată folosind eşantionul de n indivizi. Această deviaţie standard, care a fost notată în cursul
întâi cu , este doar o aproximare a deviaţiei standard a populaţiei, pe care am norat-o cu s. Se demonstrează
că în acest caz, trebuie să ne referim la repartiţia Student şi să luăm în locul a 1,96 erori standard stânga
dreapta, un număr de erori standard dat de , unde n este volumul lotului, iar se ia din tabelele
distribuţiei Student (vezi laborator).
Formula de calcul pentru intervalul de încredere de 95% este deci:
În general, pentru calculul intervalului de încredere de siguranţă α%, formula este:
Exemplu de calcul: Media de eşantionare pentru o serie statistică în care am măsurat latenţa semnalului pe
nervul optic, este 112,2 ms iar abaterea standard este 12,5 ms. Volumul eşantionului este de 156 de indivizi.
Să se calculeze intervalul de încredere de 95%.
Eroarea standard este
În tabele statistice, corespunzător la 155 grade de libertate se găseşte

Deci limitele inferioară şi superioară pentru intervalul de încredere sunt:
Deci, intervalul de încredere este:
Putem afirma cu o siguranţă de 95% că media reală, pe care nu o cunoaştem este în acest interval.
Un interval de încredere este totdeauna centrat pe media de eşantionare, lucru care este normal, el fiind
obţinut prin adăugarea şi scăderea din media de eşantionare a aceleiaşi cantităţi tαErr. Deci dacă suntem
întrebaţi unde este media de eşantionare în raport cu limitele unui interval de încredere al ei, spunem simplu
că este la mijloc.
Ceea ce ne interesează însă, este unde se află media reală în raport cu intervalul de incredere asociat, sau
care o estimează, pentru că de fapt chiar acesta este scopul pentru care construim intervale de încredere, ca să
estimăm media reală.
După definiţia intervalului de încredere, media reală se află α% sigur (95% sigur, 99% sigur, etc), între
limitele intervalului de încredere. De obicei suntem tentaţi să spunem că este la mijloc, ceea ce nu este
adevărat. Media reală, poate fi oriunde în interiorul intervalului de încredere, aşa cum poate să fie
chiar şi în afara lui, cu o probabilitate foarte mică. Nu este corect să spunem nici măcar că este mai
7
probabil să se afle la mijlocul sau în jurul mijlocului intervalului de încredere. Ea se află oriunde în intervalul
de încredere, la fel de probabil spre mijloc sau spre capete.
Estimarea unei proporţii
Atunci când urmărim estimarea proporţiei de indivizi dintr-o populaţie care au o anumită calitate care ne
interesează (pozitivi), faţă de ceilalţi indivizi ai populaţiei care nu au calitatea respectivă (negativi), trebuie
extras aleator un eşantion de volum n şi numărate cazurile care au calitatea ce ne interesează. Să zicem că din
cei n indivizi aleşi în eşantion, X, un număr mai mic decât n sunt pozitivi.
Variabila aleatoare care estimează proporţia căutată este , obţinut ca raport între pozitivi şi total. Deci:
Variabila aleatoare obţinută ca raportul dintre numărul indivizilor pozitivi şi numărul total de indivizi din
eşantion, va lua valori care aproximează mai mult sau mai puţin bine valoarea adevărată a proporţiei, pe care
nu o cunoaştem şi care este p. Valorile lui , dacă s-ar reface calculele pe toate eşantioanele de n indivizi,
se distribuie astfel încât:
- Media lui (calculată din valorile care s-ar obţine) este p, adevărata proporţie.
- Dispersia lui este
Deci aproximatele se distribuie în jurul adevăratei proporţii şi pe măsură ce vom mări numărul de
observaţii n, adică volumul eşantionului, împrăştierea valorilor aproximative în jurul adevăratei proporţii
tinde să scadă. Mai mult, pentru valori suficient de mari ale lui n, , este distribuită aproximativ normal.
Deci se pot construi intervale de încredere pentru .
Precizia de calcul, sau de aproximare, este dată de intervalul de încredere al procentului obţinut. Acesta este
dat de formula:
Exemplu: dacă folosim un lot de 100 de indivizi, şi găsim 13 afectaţi, procentul p, are valoarea de 0,13, sau
13%. Intervalul lui de încredere este:
Adică, procentul real se află aproape sigur în intervalul de la 0,0642, la 0,1958, sau între 6,4% şi 19,58%.
Este o aproximare destul de slabă, limitele fiind destul de îndepărtate. Studiile multicentrice, ajung uneori la
zeci de mii de indivizi, şi, de exemplu, dacă lotul ar fi avut 40000 de indivizi, aceleaşi calcule ar fi dus la
următorul interval:
Adică, procentul real se află aproape sigur în intervalul de la 0,1267, la 0,1333, sau între 12,67% şi 13,33%.
Aceasta este o precizie foarte bună, greu de atins în practică.
Estimarea indicelui OR
Pentru a calcula un interval de încredere al lui OR, avem nevoie de deviaţia standard a sa, sau de dispersie.
Dispersia coeficientului OR este dată de formula:
8
Unde a, b, c, d sunt cele patru numere înscrise în cele patru celule ale tabelului de incidenţă. Se observă că
două tabele pot avea aceeaşi valoare pentru OR, dar pot avea dispersii foarte diferite în funcţie de valorile a,
b, c, d, pe care le conţin în cele patru celule.
Formula de calcul a intervalului de încredere de 95% este:
Deci, din cele patru numere ale unui tabel de incidenţă (numerele a, b, c, d) se poate calcula OR aşa cum s-a
vazut în cursul al doilea, apoi , apoi intervalul de încredere.
De exemplu, pentru tabelul 1, de mai jos, vom avea: OR = (43*18) / (86*34) = 0,264
Tabelul 1. Clasificarea a 181 de pacienţi după tipul de tratament aplicat (T 1 sau T2)
şi după evoluţia bolii (pozitivă sau negativă) (Tabelul TT)
Tratament
T1 T2 Total
Evoluţie Pozitivă 43 86 129
Negativă 34 18 52
Total 77 104 181
Vom obţine o valoare a deviaţiei standard  egală cu 0,091. Intervalul de încredere de siguranţa 95% al lui
OR va fi atunci:
Adică, . Este un iterval de încredere semnificativ, deoarece nu conţine numărul 1.

Acest fapt arată că între tratament şi evoluţia pacienţilor, există o legătură.
Pentru tabelul 2, de mai jos, vom avea: OR = (23*14)/(23*14) = 1
Adică, . Deoarece intervalul conţine numărul 1, este nesemnificativ, ceea ce ne spune

că între prezenţa bolii şi consumul de piure de cartofi nu este o dependenţă.
Tabelul 2. Clasificarea a 74 de subiecţi după criteriul prezenţei sau absenţei bolii şi după criteriul
consumului de piure de cartofi (Cazul Oswego, tabelul TOP)
Potato (Cartofi)
DA NU Total
DA 23 23 46
Bolnavi NU 14 14 28
Total 37 37 74
Aceste intervale de încredere nu trebuie calculate de medic, sau matematician, ele sunt în general
implementate în toate programele de statistică şi sunt furnizate în mod automat ca şi valorile indicatorilor OR
sau RR sau mediei, deviaţiei standard, etc.
4. Chestiuni de examen:
9
1. Pe un eşantion de 64 probe identice, un laborator a dat media concentraţiei compusului activ de 18mg/100ml, iar
deviaţia standard a valorilor din seria de 64 rezultate a fost de 2mg/100ml. Din tabele, . Intervalul de
încredere al mediei este în acest caz:
A. corect
B.
C.
D.
2. Intervalul de încredere pentru media calculată pe o serie de valori are interpretarea:
A. Adevărata medie, cea care se aproximează, este aproape sigur în intervalul de încredere
B. Media de eşantionare, este aproape sigur în intervalul de încredere
C. Adevărata mediană, cea care se aproximează, este aproape sigur în intervalul de încredere
D. Este un interval în care de află aproape toate valorile din seria de valori
3. Intervalul de încredere de 95% pentru coeficientul de inteligenţă al unui lot selecţionat de 1000 de economişti este
[114,7 ; 129,7]. Aceasta înseamnă că:
A. Media coeficientului de inteligenţă al populaţiei economiştilor este aproape sigur în acest interval
B. Media de eşantionare este aproape sigur în acest interval
C. Media coeficientului de inteligenţă al populaţiei economiştilor este sigur în acest interval
D. Media de eşantionare este sigur în acest interval
4. Valoarea lui OR, calculat pentru un tabel de incidenţă 2x2, este 2,4, iar intervalul de încredere este de la 0,8 la 4,9. În
acest caz:
A. Valoarea lui OR este semnificativă
B. Valoarea lui OR este nesemnificativă
C. Nu putem decide dacă valoarea lui OR este sau nu semnificativă
5. Pentru a găsio aproximare a mediei de greutate la studenţii UMF, doi studenţi aleg câte un eşantion extras aleator de
40 şi respectiv 60 de subiecţi, şi calculează media de greutate, fiecare la eşantionul său. În acest caz:
A. Media pe lotul de 40 de subiecţi va fi sigur mai paroape de realitate
B. Media pe lotul de 60 de subiecţi va fi sigur mai paroape de realitate
C. Media pe lotul de 60 de subiecţi va fi probabil mai paroape de realitate
D. Oricare din cele două medii obţinute poate fi mai aproape de realitate
6. Pentru a estima greutatea medie a studenţilor UMF, un student alege ca eşantion primii 100 de studenţi ai UMF din
lista alfabetică.
A. Eşantionul este nereprezentativ, deoarece extragerea nu s-a făcut aleator
B. Eşantionul este reprezantativ, deoarece ordinea alfabetică este aleatorie din punctul de vedere al greutăţii
C. Eşantionul este prea mic
D. Eşantionul este prea mare
7. Următoaree condiţii sunt binevenite sau necesare pentru ca un eşantion să fie reprezentativ:
A. Să fie alcătuit din subiecţi aleşi aleator din populaţie
B. Să fie cât mai voluminos
C. Să fie reprezentativ
8. Media calculată pe un eşantion de 100 de subiecţi este totdeauna mai apropiată de media reală decât cea calculată pe
un eşantion de 60 de subiecţi, deoarece:
A. Eşantion mai mare, înseamnă totdeauna o precizie mai bună
B. Eşantion mai mic, înseamnă totdeauna o precizie mai slabă
C. Media pe eşantionul de 100, este mai probabil să fie mai apropiată de media reală
9. Dacă dintr-o populaţie extragem în mod repetat eşantioane foarte mari şi la fiecare eşantion calculăm media, mediile
astfel obţinute vor fi:
A. Distribuite apropiat de o distribuţie Gauss
B. Distribuite foarte diferit de o distribuţie Gauss
C. Distribuţie Gauss
10. Intervalul de încredere de 99% are ca diferenţe faţă de cel de 95%, următoarele:
A. Intervalul de 99% este mai larg decât cel de 95%
B. Intervalul de 95% este mai larg decât cel de 99%
C. Intervalul de 99% şi cel de 95% sunt la fel de largi
D. Nu putem şti dinainte care din cele două intervale este mai larg
10

Cursul IV

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cursul IV

Încărcat de

Drepturi de autor:

Formate disponibile

Biostatistică - Cursul al IV-lea

EŞANTIONARE – INTERVALE DE ÎNCREDERE

c) Aleatorizarea sau randomizarea. Este o condiţie legată de precedenta şi presupune că alegerea

 distribuţia seriei Mn este Gauss.

Deviaţia standard va fi , ceea ce ne spune că aproximaţiile ar fi destul de

În general, pentru calculul intervalului de încredere de siguranţă α%, formula este:

Eroarea standard este

În tabele statistice, corespunzător la 155 grade de libertate se găseşte

Deci, intervalul de încredere este:

- Dispersia lui este

Adică, . Este un iterval de încredere semnificativ, deoarece nu conţine numărul 1.

Adică, . Deoarece intervalul conţine numărul 1, este nesemnificativ, ceea ce ne spune

S-ar putea să vă placă și