Documente Academic
Documente Profesional
Documente Cultură
curs 2 _ 3 _ 4 / anul II
Media aritmetică_1:
În cazul în care sirul de date este prezentat într-un tabel de frecvente vom aplica o alta
formula:
M ( X ) =( ∑ fi * xi ) / ∑ fi Unde: fi reprezinta frecventa grupata, iar xi centrul intervalului.
Iata si un exemplu cu date grupate:
27-29 28 2 56
Astfel M = 797 / 47 = 16,96
24-26 25 4 100
21-23 22 6 132
Caracteristicile mediei:
18-20 19 10 190
• tine seama de toate cazurile si
15-17 16 9 144 este afectata de valorile lor;
12-14 13 5 65 • poate fi calculata fara ordonarea
9-11 10 5 50 prealabila a datelor.
6-8 7 3 21
3-5 4 2 8
Mediana _ 1:
Mediana este acel parametru care prin pozitia sa, se afla în mijlocul seriei de date.
Pentru a calcula mediana în cazul distributiei simple a datelor exista doua situatii:
• când n este impar locul medianei se stabileste astfel: loc mediana = (n+1) / 2
• când n este par sunt adunate valorile din centrul seriei si se împart la doi.
Fie sirul de date utilizat si pentru calcularea mediei: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)
Este necesar mai întâi aranjarea datelor sirului într-o ordine fie crescatoare, fie descrescatoare:
• Astfel, X devine (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). În acest caz
vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorba de locurile 5 si 6.
Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9. Pentru a calcula mediana
adunam cele doua valori gasite si împartim rezultatul la doi.
• Astfel, Md = (8+9) / 2 = 8,5
Mediana _ 2:
Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de noua
numere (4, 6, 7, 7, 8, 9, 9, 9, 11). În acest caz, locul medianei este stabilit dupa
formula data (n+1) / 2, în acest caz cinci. Mediana este valoarea care se gaseste pe
pozitia din mijlocul sirului ordonat de date (pozitia 5 în cazul de fata).
Consultând sirul de date observam ca mediana ar fi 8.
În cazul în care sirul de date este prezentat într-un tabel de frecvente vom aplica
formula:
Caracteristicile medianei:
• tine seama de toate cazurile, dar nu este afectata de cazurile
(valorile) extreme;
• necesita ordonarea sirului de date.
Modulul:
Este valoarea care are frecvenţa cea mai mare din setul de observaţii.
Astfel, pentru sirurile de date simple modul se afla cautând valoarea cel mai des întâlnita. Pentru
sirul dat drept exemplu: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7).
Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa ca valoarea cea
mai întâlnita este 9 (apare de trei ori).
Ca urmare modul pentru acest sir este: Mo = 9
Pentru date grupate, se cauta intervalul care are cea mai mare frecventa. În cazul nostru, acest
interval este 18-20 în interiorul caruia se afla 10 valori.
Valoarea modala este egala cu valoarea gasita în centrul acestui interval, în cazul de fata Mo =
19.
Intervalul Frecventa Intervalul (i) Frecventa
(i) (f) (f)
30-32 (31) 1 15-17 (16) 9
27-29 (28) 2 12-14 (13) 5
24-26 (25) 4 9-11 (10) 5
21-23 (22) 6 6-8 (9) 3
18-20 (19) 10 3-5 (4) 2
Caracteristicile modului:
CA CB
4000 8000
6000 8000
8000 9000
10000 10000
12000 11000
14000 12000
16000 12000
XA 10000 XB 10000
O măsură utilă de caracterizare a împrăştierii este range-ul(amplitudinea), definit
ca diferenţa între cea mai mică şi cea mai mare valoare a seriei.
n 2
( xi x)
i 1
n 1
2
e.s.
n n
Ex: Valorile variaţiei într-un set de observatii sunt prezentate în tabelul:
( xi x)
i 1
n 1
2
e.s.
n n
7.96 7.96
e.s. 2 . 510
10 3.316
Unde: m este media; n este numarul de subiecti; iar S este abaterea standard.
Nr Varsta(rezultate) Deviatia absoluta de la medie Patratul deviatiei Column1 (x-m)^4
1 68 13,45454545 181,0247934 32769,97582
2 65 10,45454545 109,2975207 11945,94802
3 59 4,454545455 19,84297521 393,7436651
4 59 4,454545455 19,84297521 393,7436651
5 57 2,454545455 6,024793388 36,29813537
6 52 -2,545454545 6,479338843 41,98183184
7 49 -5,545454545 30,75206612 945,6895704
8 48 -6,545454545 42,84297521 1835,520525
9 48 -6,545454545 42,84297521 1835,520525
10 48 -6,545454545 42,84297521 1835,520525
11 47 -7,545454545 56,9338843 3241,467181
Total 600 558,7272727 55275,40947
Boltirea 1,609820616
curs 3 / anul II
Rezultatul unei experiente aleatoare se numeste proba.
1. Frecventa
Daca repetam o experienta de n ori in conditii identice si obtinem de a
ori evenimentul A, atunci numarul
fn = a/n
poarta numele de frecventa. Numarul a poate varia de la 0 la n inclusiv.
Evenimente egal posibile. Fie A si B doua evenimente referitoare la
aceeasi experienta. Daca din motive de perfecta simetrie, putem afirma
ca ambele evenimente au aceeasi sansa de a fi realizate, spunem ca
evenimentele sunt egal posibile.
2. Probabilitate
Definitie. Pobabilitatea unui eveniment este egala cu raportul dintre
numarul cazurilor egal posibile care realizeaza evenimentul si numarul
cazurilor egal posibile.
Asadar, vom spune ca probabilitatea evenimentului A este egala cu
raportul dintre numarul m al cazurilor favorabile realizarii evenimentului A
si numarul n al cazurilor egal posibile. Vom scrie
Exemplu.
Concepte de bază
• Evenimente compatibile: evenimente care se pot realiza simultan:
• A = {TAS < 140 mmHg}
• B = {TAD < 90 mmHg}
• Evenimente incompatibile: evenimente care nu se pot realiza simultan:
• A = {TAS < 140 mmHg}
• B = {140 ≤ TAS < 200 mmHg}
• Evenimentul A implică evenimentul B dacă evenimentul B se produce ori de
câte ori se produce evenimentul A:
• Simbol A inclus in B
• A = {TBC}
• B = {testul la tuberculină pozitiv}
Probabilităţi condiţionate
• Probabilităţi condiţionate:
• Fie A şi B două evenimente
• Prin probabilitatea condiţionată a lui A de către B (simbol: Pr(A|B))
se înţelege probabilitatea de a se realiza evenimentul A dacă în prealabil
s-a realizat evenimentul B
Test + 15 12
Test - 25 18
Fie:
A={tbc+}
B={test+}
• În acest caz:
Operaţii cu evenimente
• REUNIUNEA (SAU):
• A reunit cu B - se produce cel puţin unul dintre evenimentele A sau B
• INTERSECŢIA (ŞI):
• A∩B - evenimentele A şi B se produc simultan
• NEGAREA:
• nonA
Reguli de probabilitate
Ex.1
A = {TAS mamă > 140 mmHg}, Pr(A) = 0,25
B = {TAS tată > 140 mmHg}, Pr(B) = 0,15
Care este probabilitatea ca într-o familie să avem un părinte hipertensiv?
Pr(A reunit cu B) = 0,25 + 0,15 – 0 = 0,40
Ex. 2
Într-o cafenea există 20 de persoane; la 10 le place ceaiul, la alţi 10 cafeaua şi la
2 le place şi ceaiul şi cafeaua.
Care este probabilitatea de a extrage la întâmplare din populaţie o persoană
căreia să-i placă ceaiul sau cafeaua?
Pr(ceai reunit cu cafea) = Pr(ceai) + Pr(cafea) - Pr(ceai∩cafea) = 0,50 + 0,50 –
0,10 = 0,90
Reguli de înmulţire a probabilităţilor
Ex. 3
• A = {TAS mamă > 140 mmHg}, Pr(A) = 0,10
• B = {TAS tată > 140 mmHg}, Pr(B) = 0,20
• Pr(A∩B) = 0,05
• Evenimentele A Şi B sunt dependente sau independente?
Pr(A∩B) = Pr(A)·Pr(B) – evenimente independente
0,05 ≠ 0,10·0,20 → evenimente dependente
Probabilităţi în tabelul de contingenţă
Disease total
Disease+
Test+ AP FP =AP+FP
Test- FN AN =FN+AN
total =AP+FN =FP+AN =n
Acurateţea =(AP+AN)/n
Valoarea predictivă pozitivă =AP/(AP+FP)
Valoarea predictivă pozitivă =AN/(AN+FN)
In situațiile menționate, s-a apelat la testul exact al lui Fisher, pentru a avea
o precizie mai mare a rezultatelor statistice.
Cazul cel mai simplu de tabel de incidenţă este tabelul 2x2. Un astfel de tabel
centralizează date referitoare la două caracteristici care au câte două posibilităţi. De
exemplu, dacă din 260 de pacienţi diabetici se constată că 86 au făcut retinopatie,
dintre care 29 au şi nefropatie, iar din restul fără retinopatie, 2 au nefropatie, atunci
aceste date pot fi sintetizate astfel:
+ - total
retinopatie + 29 57 86
- 2 172 174
Tabelul 5. Clasificarea a 74 de subiecţi după criteriul prezenţei sau absenţei bolii şi după criteriul
consumului de piure de cartofi (Cazul Oswego, tabelul TOP)
Aceste tabele sunt foarte utile în medicină deoarece, în ciuda informaţiei sărace pe
care o conţin, (doar patru numere, în esenţă, cele patru numere din căsuţele
evidenţiate cu text îngroşat în fiecare dintre tabele), posibilităţile de a aprecia o
dependenţă între clasificările pe orizontală şi verticală sunt destul de bine studiate în
acest moment.
În cele două tabele de mai sus, factorii de clasificare sunt Retinopatie, Nefropatie
şi respectiv, Bolnavi şi Cartofi. Retinopatie, este aici criteriu de clasificare în sensul
că pacienţii sunt împărţiţi după acest criteriu în tabel cu “+” şi “-“. Îl numim criteriu
orizontal spre deosebire de Nefropatie care este numit criteriu vertical, pentru
uşurinţa expunerii. La fel, în al doilea tabel, Bolnavi şi Cartofi, simbolizează faptul
că indivizii cuprinşi în tabel sunt sau nu sunt bolnavi şi respectiv au consumat sau nu
au consumat piuré de cartofi.
În, tabelul TOV, se prezintă o situaţie diferită, căci se observă că din cei 46 de bolnavi
43 au consumat îngheţată de vanilie iar marea majoritate a celor care sunt sănătoşi nu
au consumat. Mai putem privi situaţia şi astfel: din 54 indivizi care au consumat
îngheţată, 43 s-au îmbolnăvit, iar din cei 21 care nu au consumat, 18 nu s-au
îmbolnăvit. Altfel spus,
• 43/54=0,796=79,6% este procentul îmbolnăvirilor la cei care au consumat şi
• 3/21=0,142=14,2%, procentul îmbolnăvirilor la cei care nu au consumat acest
aliment.
Este destul de clar că între consumul de îngheţată de vanilie şi îmbolnăviri este o
dependenţă.
Din analiza exemplelor de mai sus se vede că în fond se poate judeca fiecare situaţie
care apare într-un mod asemănător, judecând de la caz la caz dacă există sau nu o
dependenţă între criteriile de clasificare pe orizontală şi pe verticală.
Dacă am judeca mereu ca mai sus am fi puşi des în situaţia de a nu putea lua o decizie
suficient de obiectivă.
Dar dacă cele două procente sunt 79,6% şi 62,4% ce concluzie tragem? Căci dacă am
spune că avem o dependenţă din cauza diferenţei dintre procente, oricine poate replica
că această diferenţă este întâmplătoare, mai ales dacă numărul de pacienţi pe care l-
am luat în calcul a fost relativ mic. De aceea este nevoie de criterii mai obiective de
apreciere a situaţiilor cu care ne putem confrunta în astfel de studii.
Trebuie reţinut din cele discutate:
• Uneori se constată prin simplă inspecţie sau din calcule foarte simple o tendinţă de
dependenţă între factorul de clasificare pe orizontală şi cel de clasificare pe verticală.
• Decizia dacă există sau nu o dependenţă este de natură subiectivă, deoarece,
pentru moment, nu avem un criteriu clar prin care să putem decide aceasta.
În cele ce urmează, să încercăm să generalizăm situaţiile de mai sus, presupunând
că, de obicei avem de a face cu:
1). Un factor activ (consumul unui aliment, al unui medicament, aplicarea unui
anumit tip de tratament, etc) şi putem clasifica indivizii în două categorii din punctul
de vedere al acestui factor (de obicei ele fiind simbolizate prin Da/Nu, +/-, Yes/No)
2). Un factor pasiv (rezultat al celui activ) care clasifică indivizii tot în două categorii
(Bolnav/Sănătos, Da/Nu, +/-).
Să notăm cu
• Poz+ numărul indivizilor asupra cărora acţionează factorul activ şi rezultatul este
pozitiv
• Neg+ numărul indivizilor asupra cărora acţionează factorul activ şi rezultatul este
negativ
• Poz- numărul indivizilor asupra cărora nu acţionează factorul activ şi rezultatul este
pozitiv
• Neg- numărul indivizilor asupra cărora nu acţionează factorul activ şi rezultatul este
negativ
curs 4 / anul II
Această situaţie se poate centraliza într-un tabel ca tabelul 7, care este foarte
asemănător cu cele care au fost date ca exemplu mai sus:
Tabelul 7. Tabel general de incidenţă 2x2 (TG)
Este o măsură a legăturii între o boală şi prezenţa unui factor de risc, presupus a
influenţa apariţia bolii. Deoarece se măsoară în funcţie de riscul la cei expuşi şi
riscul la cei neexpuşi, trebuie ştiut ce înseamnă aceste două riscuri.
Riscul Relativ, este raportul dintre riscul la cei expuşi, şi riscul la cei neexpuşi.
În tabelul de mai jos, riscul relativ este 24/1,8=13,3
Boala
"+" prezentă "-"absentă Total
Factor de Expuşi"+" 50 150 200 Tabelul 10
risc
Neexpuşi"-" 40 1960 2000
Total 90 2110 2200
În tabelul de mai sus, cotele de îmbolnăviri sunt: la cei expuşi 50/150, adică de 1 la
3, iar la neexpuşi de 40/1960, adică de 1 la 49.
Raportul celor două cote, adică Odds Ratio, este raportul dintre 1/3 şi 1/49, adică
49/3=16.3
Boala
"+" prezentă "-"absentă Total
Factor de Expuşi"+" a b a+b
Tabelul 11
risc
Neexpuşi"-" c d c+d
Total a+c b+d N=a+b+c+
d
Formulele sunt:
• Cota de îmbolnăviri la expuşi a / b
• Cota de îmbolnăviri la neexpuşi c / d
• Odds Ratio OR = (a * d) / (b * c)
Interpretare:
Valori mult sub 1 arată tot o corelaţie, dar în acest caz, expunerea este
considerată un factor de PROTECŢIE.
7. Teste clinice şi aprecierea calităţii lor
Alte cazuri în care este utilă folosirea tabelelor 2x2, sunt cele în care se evaluează
calitatea unui test clinic la care pacienţii sunt supuşi. Un test clinic, este o
metodă de a decide dacă un pacient este pozitiv sau negativ în ce priveşte
existenţa unui simptom, a unei afecţiuni, a unui risc, etc.
Deci, un astfel de test trebuie să ofere posibilitatea de a alege pacienţii care
prezintă sau nu un simptom, o afecţiune, un semn sau altă caracteristică
necesară în procesul diagnosticării.
• Vom numi pozitivi, pacienţii care în urma testului au un rezultat pozitiv, adică
testul indică prezenţa afecţiunii, indiferent dacă în realitate afecţiunea este sau
nu prezentă la pacientul respectiv
• Vom numi negativi, pacienţii care în urma testului au un rezultat negativ,
indiferent dacă în realitate au sau nu prezentă afecţiunea respectivă.
Un test care se aplică pacienţilor este o metodă care trebuie să aibă mai multe
calităţi, între care, vom enumera două:
• Un procent cât mai mare dintre pacienţii care sunt în realitate pozitivi, ar trebui
să apară în urma testului ca fiind pozitivi
• Un procent cât mai mare dintre pacienţii care sunt în realitate negativi, ar trebui
să apară în urma testului ca fiind negativi
Ideal ar fi ca toţi pacienţii să fie diagnosticaţi de test corect, dar acesta este un
ideal care este foarte greu de atins chiar cu aparatură perfecţionată. Totdeauna
există cazuri care sunt extrem de greu de încadrat sigur într-o categorie sau alta.
In urma aplicării unui test la mai mulţi pacienţi, se vor întâlni cazuri de pacienţi
care, fie în realitate sunt pozitivi, iar în urma efectuării testului apar ca negativi, fie
invers.
Faptul că un pacient este în una dintre cele două categorii se stabileşte cu ajutorul
aşa-numitului test sigur sau test de aur (engl: golden test). Acest test este un
test care a fost deja verificat ca fiind extrem de precis şi dă o rată de erori minimă.
• După criteriul testului clinic studiat sunt tot două categorii: Pozitivi şi
Negativi.
Deci, fiecare din pacienţi, va aparţine uneia din următoarele patru clase, care
rezultă în urma combinării în toate modurile posibile a celor patru categorii de
mai sus:
• Real Pozitivi, pacienţii care în realitate sunt Bolnavi iar în urma testului sunt
Pozitivi.
• Fals Negativi, pacienţii care în realitate sunt Bolnavi iar în urma testului sunt
Negativi. Constituie erori pentru test.
• Fals Pozitivi, pacienţii care în realitate sunt Sănătoşi iar în urma testului sunt
Pozitivi. Constituie celălalt tip de eroare a unui test.
• Real Negativi, pacienţii care în realitate sunt Sănătoşi iar în urma testului sunt
Negativi.
După ce se stabileşte la fiecare pacient cărei clase aparţine, din cele patru
enumerate mai sus, se realizează un tabel 2x2 ca în tabelul 12
Tabelul 12. Clasificarea unor subiecţi după faptul că sunt sau că nu sunt bolnavi (testul sigur) şi după rezultatul pe care îl obţin
la un test de diagnosticare pe care dorim să îl evaluăm calitativ. (Tabelul TGT)
Vom defini aceste rapoarte procentuale şi vom studia modul cum le folosim în
aprecierea calităţii testului. Aceste procente arată calitatea unui test clinic în sensul
că testul este cu atât mai valoros cu cât ele au valori mai mari, mai apropiate de
100%. În plus, vor fi definite mai jos şi două rapoarte procentuale care exprimă
erorile unui test. Este clar că procentele care exprimă erorile trebuie să fie cât mai
mici pentru ca testul să fie valoros.
• Sensibilitatea (Sn) unui test este raportul dintre numărul pacienţilor bolnavi,
diagnosticaţi ca pozitivi şi numărul total de bolnavi. Sn = B+ / B
• Specificitatea (Sp) unui test este raportul dintre numărul pacienţilor sănătoşi,
diagnosticaţi ca negativi şi numărul total de sănătoşi. Sn = S- / S
• Rata fals pozitivă (RFP), este raportul dintre numărul pacienţilor sănătoşi
diagnosticaţi greşit ca pozitivi şi numărul pacienţilor sănătoşi. RFP = S+ / S
∙ Rata fals negativă (RFN), este raportul dintre numărul pacienţilor bolnavi
diagnosticaţi greşit ca negativi şi numărul pacienţilor bolnavi. RFN = B- / B
Ca exemplu, să urmărim situaţia din tabelul 13
Tabelul 13 Clasificarea a 109 femei după tipul de naştere (prematură sau normală) şi după lungimea colului uterin ca test
de decizie a riscului de naştere prematură. Se observă că din 41 de naşteri premature, 33 au colul sub 26mm iar din 68 de
naşteri normale, 53 au colul peste 26, deci limita de 26mm a lungimii colului uterin este un criteriu de decizie al riscului de
naştere prematură
Naştere
Prematură Normală Total
Lungime <26 mm 33 15 48
col
>26mm 8 53 61
Total 41 68 109
Aria este 0,950 deci modelul este excelent, lucru pe care-l putem observa și din
analiza valoarii p = 0,000 (Asymptotic Sig). Ultimele 2 rubrici ale tablelului ne dau
marginile intervalului de încredere.