Documente Academic
Documente Profesional
Documente Cultură
Calcularea Esantionului Curs PDF
Calcularea Esantionului Curs PDF
Nota de curs
Chisinau, 2015
1
Autori:
Responsabil editor:
Recenzenti:
E-mail : sanatatepub@usmf.md
2
Testarea matematica a formulelor de calcul al
esantionului reprezentativ
Cuprins
Introducere…….....................................................................................................................(4)
Capitolul I. Date generale.......................................................................................................(5)
Capitolul II. Deductia matematica a formulelor de baza pentru calcularea volumului
esantionului reprezentativ........................................................................................................(6)
2.1 Prezentarea formulelor mai des utilizate in biostatistica ......................................(6)
2.2 Deductia matematica a formulelor de calcul a esantionului reprezentativ ….......(7)
2.2.1 Deductia formulei lui Cochran................................................................(9)
2.2.2 Deductia formulei lui Muresan.............................................................(10)
Capitolul III. Confirmarea matematica a veridicitatii valorii de 384 unitati statistice a
volumului esantionului reprezentativ....................................................................................(12)
3.1 Criterii de independenta fata de incidenta fenomenului cercetat.........................(13)
3.2 Criterii de independenta fata de volumul totalitatii statistice .............................(14)
Concluzii...............................................................................................................................(17)
Bibliografie...........................................................................................................................(18)
3
Introducere
Actualitatea temei:
In ultimul timp specialistii in biostatistica tot mai des se confrunta cu situatia cand
cercetatorii stiintifici de diferite specialitati intalnesc dificultati in calcularea corecta a
volumului esantionului reprezentativ, ceea ce in continuare duce la comiterea unor erori in
studierea si calcularea indicatorilor statistici, emiterea ipotezelor false, concluzii incorecte si
recomandari neargumentate. Mai tragica este situatia atunci cand cercetatorul, consultind un
specialist in biostatistica la finele studiului, depisteaza ca s-a comis o eroare clara la etapa
initiala a studiului , prin calculul incorect al volumului esantionului reprezentativ, astfel, in
zadar irosind energie, timp, sanatate si resurse financiare.
Scopul:
Testarea matematica a formulelor de calcul al esantionului reprezentativ si
evidentierea avantajelor si dezavantajelor acestor formule, cit si confirmarea matematica a
veridicitatii valorii de 384 unitati statistice a esantionului reprezentativ.
Obiective
1) Review al literaturii de specialitate referitor la formulele de calcul al volumului
esantionului reprezentativ;
2) Deductia matematica a formulelor de baza pentru calcularea volumului esantionului
reprezentativ
3) Avantajele si dezavantajele formulelor de calcul a esantionului reprezentativ ;
4) Confirmarea matematica a veridicitatii valorii de 384 unitati statistice a esantionului
reprezentativ.
Materiale si metode :
Materialele didactice utilizate in aceasta recomandare metodica includ sursele
bibliografice unde sunt descrise si utilizate formulele de baza pentru calcularea volumului
esantionului reprezentativ: formula lui Cochran William Gemmell, formula lui Taro Yamane
si formula recomandata de Petru Muresan.
Metodele :
istorica – evolutia si utilizarea in timp a formulelor de calcul a volumului esantionului
reprezentativ;
biostatistica –metoda care studiaza fenomenele din natura legate de dinamica
proceselor biologice si utilizeaza in calcule formulele mentionate anterior;
matematica - utilizarea formulelor matematice:
-alcatuirea unei functii;
-deductia formulelor de calcul a volumului esantionului reprezentativ.
Importanta stiintifica:
Efectuarea unei cercetari stiintifice care presupune calculul volumului esantionului
reprezentativ necesita o implicare substantiala de timp, energie si desigur resurse financiare.
4
Astfel de studii decurg in mai multe etape, si comiterea erorilor, mai ales la inceputul
cercetarii, are consecinte grave.Acesta recomandare metodica ofera posibilitatea
cercetatorilor stiintifici, studentilor, managerilor, cadrului profesoral de a intelege si utiliza in
cercetari diferite formule de calcul a esantionului reprezentativ, tinand cont de avantajele si
dezanvatajele lor.Acest studiu ofera cercetatorilor si cifra de 384 unitati statistice luate in
studiu, in cazul totalitatilor statistice mai mari de 100 000 unitati, sau atunci cand nu se
cunoaste volumul totalitatii statistice.
Valoarea aplicativa:
Metodologia propusa si aplicată in aceasta recomandare metodica poate servi în
calitate de material didactic pentru instruirea universitară şi postuniversitară a cadrelor
medicale, inclusiv pentru perfecţionarea programelor de studii destinate studenţilor,
rezidenţilor, masteranzilor,doctorantilor si conducătorilor instituţiilor medicale. Rezultatele
studiului sunt folosite in cadrul Catedrei Medicina Sociala si Management “Nicolae
Testemitanu”.
Cuvinte cheie: esantion(n) , totalitate statistica (N) , incidenta fenomenului (p) , lipsa
fenomenului (q), coeficientul testului de semnificatie (t), eroarea maxima admisa (∆).
CAPITOLUL I
DATE GENERALE
De-a lungul istoriei sale biostatistica a incadrat nume care au contribuit esential la
dezvoltarea acesteia. Pentru prima data formula de calcul a volumului esantionului
reprezentativ a fost elucidata de catre Cochran William Gemmell (1909-1980). Nascut in
Scotia, Cochran castiga o bursa si isi continua studiile la Universitatea din Cambridge,
facultatea de “Matematica, matematica aplicata si statistica”. Activitatea profesionala si-a
desfasurat-o in Statele Unite ale Americii, ca profesor la mai multe universitati, inclusiv
Harvard. Dedicatia pentru statistica si-a manifestat-o prin mai multe lucrari stiintifice de talie
internationala si carti redactate. In una din ele, „Sampling Techniques”, prezentata in mai
multe editii in perioada anilor 1953-1963, releva formula pentru calcularea volumului
esantionului reprezentativ specifica pentru totalitati statistice mari si bazata pe
particularitatile acesteia.[1]
Formula lui Cochran este preluata si promovata in spatiul URSS de catre igienistii
A.M.Merkov in „Санитарная статистика (пособие для врачей)” aparuta in 1974 si de catre
A.F.Serenko si V.V Ermakova in “Социальная гигиена и организация здравоохранения”
din 1984.
Ilustrul statistician sovietic A. M. Merkov a fost unul dintre primii care a observat
potentialul aplicarii statisticii in practica medicala. Inca la mijlocul secolului trecut el spunea
ca bazele statisticii, precum si principiile lor de aplicare, trebuie sa fie cunoscute tuturor
specialistilor medicali, pentru ca, in acest fel, ei sa fie capabili sa conduca o cercetare
stiintifica, sa analizeze datele statistice si sa le interpreteze in mod corect. Concluziile
5
formulate in acest fel urmau sa formeze o harta a directiilor dinamicii morbiditatii populatiei,
in baza careia urmau a fi aplicate masuri profilactice. Totusi, el a observat ca in ciuda faptului
ca erau publicate un sir de lucrari despre utilitatea statisticii in practica sanitara, majoritatea
cadrelor medicale nu puteau sa aplice metodele statistice asupra datelor obtinute in practica
lor de zi cu zi. Contributia lui majora in domeniul sanitariei sovietice a fost elaborarea cartii
“Санитарная статистика (пособие для врачей)”, care prezinta o metodologie explicita de
aplicare a tehnicilor statistice in practica medicala si sanitara.[10]
Ideea de a aplica principiile statistice in practica sanitara a fost preluata si de alti
specialisti sovietici, dintre care s-a evidentiat A.F. Serenko. In editia a II-a a cartii
“Социальная гигиена и организация здравоохранения” el descrie metodologia statistica
ca o componenta indispensabila a studiilor epidemiologice. Eforturile lui au fost concentrate
spre cresterea unui sir de generatii de cadre medicale capabile a aplica metodologia statistica
in practica medicala. Acesta a contribuit la dezvoltarea cu pasi mari a igienei in tot spatiul
sovietic[11].
Un alt mare nume in istoria biostatisticii este Taro-Yamane (1923- 1979). In
monografia sa „Statistics: An Introductory Analysis” 1967, alaturi de alte elemente statistice
prezinta o alta formula de calcul a volumului esantionului reprezentativ bazata pe totalitatea
statistica.[7,13]
E imbucurator faptul ca printre cei mai ilustri savanti in istoria biostatisticii mondiale
un loc insemnat il ocupa un nume romanesc- medicul Petru Muresan (1916-2006) care timp
de 30 de ani a condus „Centrul de Calcul şi Statistică Sanitara”, a organizat sistemul naţional
de statistică de sănătate, numeroase anchete de profil, anchetele stării de sănătate a populaţiei
din România pe eşantioane cu reprezentativitate naţională, vizând circa 100 boli cronice.
[3, 4].
In 1989 P. Muresan a editat monografia „Manual de metode matematice în analiza
stării de sănătate” , unde recomanda utilizarea formulei de calcul a esantionului
reprezentativ, tinand cont atat de particularitatile totalitatii statistice (p,q),cat si volumul
acesteia (N) . [4]
CAPITOLUL II
DEDUCTIA MATEMATICA A FORMULELOR DE BAZA PENTRU
CALCULAREA VOLUMULUI ESANTIONULUI REPREZENTATIV
2.1 Prezentarea formulelor mai des utilizate in biostatistica
In ultimii ani tot mai multe studii utilizeaza metoda randomizata de control a
rezultatelor. S-au efectuat studii asupra veridicitatii acestei metode si s-a observat ca deciziile
incorecte asupra ipotezei nule, in marea lor parte, se datoreaza unui volum insuficient al
esantionului[9, 13].
6
Am luat in consideratie formulele cele mai des utilizate in biostatistica in calcularea
volumului esantionului reprezentativ.
Cochran, W. G in manualul sau propune urmatoarea formula:
𝑡 2 ∗𝑝(1−𝑝)
𝑛= ;
∆2
unde n – volumul esantionului reprezentativ; t – coeficientul testului de
semnificatie; p – incidenta fenomenului; ∆ - eroarea maxim admisa.[1]
O alta formula este cea a lui Taro-Yamane, care nu tine cont de incidenta fenomenului
si lipsa acestuia , ci numai de volumul totalitatii statistice (N) si eroarea maxim admisa:
𝑁
𝑛= ;
1+𝑁∗∆2
unde n – volumul esantionului reprezentativ, N – totalitatea statistica, ∆ - eroarea
maxim admisa. [8]
7
Pentru a demonstra ca media este reprezentativa se calculeaza si se analizeaza
devierea standard. Devierea standard (SD) reprezinta variatia totala a unei caracteristici
studiate induse de cauze atit esentiale, cat si intamplatoare, astfel permite sa apreciem gradul
de omogenitate a variabilelor din seria de variatie.
𝑑2 (𝑀𝑒 −𝑥 𝑖 )2
SD= ± 𝜎 2 =± =±
𝑛 𝑛
8
Eroarea standard a mediei ( 𝐸𝑠 ) se calculeaza in baza indicatorilor obtinuti la analiza
statistica a esantionului, adica depinde de seria de variatie obtinuta in cadrul esantionului,
deci este o caracteristica a acestuia.
Coeficientul testului de semnificatie ( t ) depinde de valoarea nivelului de semnificatie
α, iar legatura dintre acestea este data de curba distributiei normale Gauss-Laplace. In
general, fiecarui nivel de semnificatie α ii corespunde o anumita valoarea a coeficientului
testului de semnificatie t. In studiile stiintifice, valoarea maxima acceptata a lui α (adica
numarul relativ al valorilor nereprezentative) este 5%, ceea ce, pentru un esantion cu un
numar mai mare de 120 de unitati statistice, corespunde unui coeficient t = 1.96, precum este
prezentat in figura de mai jos (fig.2). [5, 6, 7, 9]
Pentru variabile cantitative (valori medii) Pentru variabile calitative (indicatori relativi)
eroarea standard ( 𝐸𝑠 ) are urmatoarea eroarea standard ( 𝐸𝑠 ) are urmatoarea
formula: formula:
𝜎2 𝑝(1−𝑝)
𝐸𝑠 = ± , 𝐸𝑠 = ± ,
𝑛 𝑛
9
Substituind in formula de mai sus obtinem:
𝜎2 𝑝 1−𝑝
∆= 𝑡 ∗ 𝐸𝑠 = 𝑡 ∗ ± ∆= 𝑡 ∗ 𝐸𝑠 = 𝑡 ∗ (± )
𝑛 𝑛
10
Eroarea standard in formula lui Cochran este caracteristica esantionului si
independenta de volumul totalitatii statistice din care acesta a fost extras. Pentru a obtine o
eroare standard care ia in consideratie si volumul totalitatii statistice se aplica factorul de
corectie pentru populatii finite (FPC – finite population correction) [2].
𝑁−𝑛
𝐹𝑃𝐶 = , unde N –volumul totalitatii statistice, n - volumul esantionului.
𝑁−1
𝑝(1 − 𝑝) 𝑁−𝑛
𝐸𝑠 = ± ∗
𝑛 𝑁−1
𝑝(1 − 𝑝) 𝑁−𝑛
∆= 𝑡 ∗ 𝐸𝑠 = 𝑡 ∗ ± ∗
𝑛 𝑁−1
11
Rezolvare. Asa cum este dat volumul totalitatii statistice ( 𝑁 = 20 000 ) si incidenta
fenomenului ( 10%, adica 𝑝 = 0.1 ) pentru aflarea volumului esantionului folosim formula
lui Muresan:
1.962 ∗0.1∗0.9∗20 000
𝑛 = 20 000∗0.05 2 +1.96∗0.1∗0.9 = 137,34 ≈ 137 de unitati.
Mai jos vom demonstra ca formula lui Muresan poate fi considerata o continuare a
formulei lui Cochran. Daca corectam formula lui Cochran in functie de volumul totalitatii
statistice obtinem formula lui Muresan [15]:
𝑡 2 ∗𝑝(1−𝑝)
𝑛∗𝑁 ∗𝑁 ∆2 ∗ 𝑡 2 ∗ 𝑝 1 − 𝑝 ∗ 𝑁 𝑡2 ∗ 𝑝 1 − 𝑝 ∗ 𝑁
′ ∆2
𝑛 = = 𝑡 2 ∗𝑝(1−𝑝)
= 2 2 2
= 2
𝑛+𝑁 + 𝑁 ∆ ∗ [ 𝑡 ∗ 𝑝 1 − 𝑝 + ∆ ∗ 𝑁] 𝑡 ∗ 𝑝 1 − 𝑝 + ∆2 ∗ 𝑁
∆2
CAPITOLUL III
CONFIRMAREA MATEMATICA A VERIDICITATII VALORII DE 384
UNITATI STATISTICE A VOLUMULUI ESANTIONULUI
REPREZENTATIV
In cele ce urmeaza vom demonstra ca exista o valoare a esantionului care este
reprezentativa pentru toate conditiile si orice situatie.
Trebuie sa mentionam ca cu cit volumul esantionului este mai mare cu atit precizia
datelor obtinute este mai mare. Noi, insa, cautam acea valoare minima a esantionului care
satisface conditiile de precizie, adica criteriile de reprezentativitate propuse : 𝛼 ≤ 0.05 ,
∆≤ 0.05.
12
Chiar si la cerinte egale (α si Δ constante), orice volum al esantionului poate fi
reprezentativ , fie el 10 unitati, 50 , 100 sau 500. Totul depinde de caracteristicele totalitatii
statistice: volumul acesteia si frecventa fenomenului cercetat.
Astfel, pentru a demonstra ca volumul minim al esantionului reprezentativ este de fapt
o valoare constanta trebuie sa demonstram independenta sa de cele 2 variabile determinante :
volumul totalitatii statistice (N) si incidenta fenomenului cercetat (p).
3.1 Criterii de independenta fata de incidenta fenomenului cercetat
13
1.962 ∗0.2∗0.8
𝑛= = 245.86 ≈ 246 de unitati
0.05 2
Numarul 246 < 384, ceea ce confirma ca un esantion format din 384 de unitati nu doar este
reprezentativ, ci va oferi si date mult mai precise.
Exemplul 2
La testarea unui medicament nou s-a observat efectele vizate ale acestuia sau
manifestat in 60% din cazuri. Aflati volumul reprezentativ al esantionului pentru studierea
acestui fenomen. Confirmati sau infirmati reprezentativitatea valorii de 384 unitati.
Rezolvare. Folosind formula lui Cochran aflam volumul reprezentativ al esantionului in
functie de incidenta fenomenului pentru criteriile minime de reprezentativitate:
1.962 ∗0.6∗0.4
𝑛= = 368.79 ≈ 369 de unitati
0.05 2
Numarul 369 < 384, ceea demonstreaza si in acest caz ca un esantion format din 384 de
unitati este deasemenea reprezentativ.
14
Tab.1.Volumele calculate ale esantionului reprezentativ
15
Rezolvare. Asa cum este dat volumul totalitatii statistice pentru aflarea volumului
esantionului este mai rezonabil sa folosim formula lui Muresan:
1.962 ∗0.1∗0.9∗10000
𝑛 = 10000 ∗0.05 2 +1.96∗0.1∗0.9 = 63,28 ≈ 63 de unitati.
Numarul 63<384, ceea ce inseamna ca un esantion de 384 unitati cu atit mai mult este
reprezentativ in acest caz.
Exemplul 2
Intr-o localitate cu o populatie de 200 000 se realizeaza un studiu asupra unei boli a
carei incidente nu se cunoaste. Care este esantionul minim reprezentativ pentru realizarea
unui studiu in acest caz? Este volumul esantionului de 384 de cazuri reprezentativ in acest
caz?
Rezolvare. Asa cum este dat volumul totalitatii statistice, dar nu se cunoaste incidenta bolii,
se foloseste formula lui Muresan cu valoarea 𝑝 = 0.5:
1.962 ∗0.5∗0.5∗200000
𝑛 = 200000 ∗0.05 2 +1.96∗0.5∗0.5 = 383.78 ≈ 384 de unitati
16
Concluzii
1. Prin testarea matematica, am demonstrat ca formulele de baza folosite in biostatistica
pentru calcularea volumului esantionului reprezentativ sunt veridice, rezultind una din
alta, si pot fi folosite prioritar in dependenta de particularitatile obiectului de studiu.
2. Cind cunoastem incidenta fenomenului in totalitatea statistica, dar nu cunoastem
volumul ei, e rezonabil sa folosim formula lui Cochran.
3. Cind cunoastem volumul totalitatii statistice, si acesta este mai mic de 100 000
unitati, e rezonabil sa folosim formula recomandata de P. Muresan. In cazul in care nu
se cunoate incidenta fenomenului cercetat se foloseste valoarea 𝑝 = 0.5.
4. Este important ca cercetatorul sa cunoasca in prealabil datele bibliografice ale
literaturii de specialitate privind incidenta fenomenului studiat prin calcularea unei
valori mai mici a volumului esantionului reprezentativ, pentru a optimiza cheltuielile
de timp si resurse intr-un studiu stiintific.
5. Asa cum cerintele internationale pentru un studiu stiintific denota un nivel de
semnificatie 𝛼 ≤ 0.05 si o eroare maxim admisa ∆≤ 0.05, in cazul in care nu se
cunoaste atat incidenta fenomenului cat si volumul totalitatii statistice incluse, in
studiu e rezonabil a folosi un volum al esantionului de 384 de unitati, care este
reprezentativ pentru oricare totalitati statistice conform rigorilor mentionate.
17
Bibliografie
1. Cochran W. G. Sampling Techniques, New York: John Wiley and Sons, 1963
2. Isserlis L. "On the value of a mean as calculated from a sample". Journal of the Royal
Statistical Society (Blackwell Publishing) 81 (1): 75–81
3. Muresan P. Statistica medico-sanitara, 1959
4. Muresan P.Manual de metode matematice în analiza stării de sănătate, 1989
5. Sullivan L. M. Essentials of Biostatistics in Public Health, 2011
6. Tintiuc D., Grosu Iu. Sanatate publica si management. Chisinau, 2007
7. Tintiuc D. Biostatistica si metodologia cercetarii stiintifice. Chisinau, 2011
8. Yamane T. Statistics: An Introductory Analysis. New York: Harper and Row, 1967
9. Всемирная Организация Здравоохранения, “Обучение медицинской
статистики”, 1989
10. Meрков A.M., Поляков Л.E.. Санитарная статистика (пособие для врачей) , 1974
11. Серенко A.Ф., Eрмакова В.В. „Социальная гигиена и организация
здравоохранения”, 1984
12. http://www.seap.usv.ro/~valentinh/capitol%203.pdf
13. http://www.marketingsondaje.ro/04determinare_volum.php
14. http://ro.wikipedia.org/wiki/Legea_numerelor_mari
15. http://www.amstat.org/about/statisticiansinhistory/index.cfm?fuseaction=biosinfo&Bi
oID=21
16. http://courses.wcupa.edu/rbove/Berenson/10th%20ed%20CD-
ROM%20topics/section7_3.pdf
18