Documente Academic
Documente Profesional
Documente Cultură
Statistica A4
Statistica A4
Last (1988) defineşte statistica ca ştiinţa recoltării şi analizării datelor care sunt supuse
variaţiei randomizate.
Apărută din necesitatea cunoaşterii realităţii sub diversitatea aspectelor sale de
manifestare, statistica urmăreşte exprimarea din punct de vedere cantitativ a fenomenelor şi
proceselor de interes, utilizând pentru aceasta metode de descriere numerică, alături de analiza
calitativă a fenomenelor studiate.
Cercetarea statistică are ca obiect de studiu populaţiile (colectivităţi statistice) iar la
nivelul acestora, anumite caracteristici de interes (numite şi variabile) care se observă şi
măsoară la nivel de individ (unitate statistică).
Utilizarea metodelor statistice în medicină se datorează faptului că medicină, prin
introducerea tehnologiilor înalte, a devenit o ştiinţă cantitativă ce permite măsurarea,
cuantificarea şi compararea fenomenelor iar pe de altă parte analiza fenomenelor de interes
medical nu se poate realiza prin studiul întregii populaţii (populaţii exhaustive) ci pe eşantioane
reprezentative fiind necesare tehnicile de inferenţă statistică în scopul generalizării rezultatelor.
1
10. Caracteristicile cantitative discontinue (discrete) sunt reprezentate de acele
însuşiri care pot fi exprimate numai sub forma numerelor întregi;
11. Variabila statistică este caracteristica ce prezintă proprietatea de a varia în timp şi
spaţiu condiţionată de factorii care acţionează asupra populaţiei aflate în studiu;
12. Varianta (xi) este valoarea concretă sub care este înregistrată o caracteristică;
13. Frecvenţă (fi ~ nf) este numărul de repetiţii sub care se înregistrează aceeaşi
variantă;
14. Seria statistică (repartiţia statistică) reprezintă şirul de valori numerice ale unei
caracteristici, ordonate după un anumit criteriu, funcţie de şirul valorilor altei
caracteristici. Repartiţiile statistice sunt definite cu ajutorul legilor de repartiţie (ex.
legea distribuţiei normale);
15. Parametrul statistic este valoarea reprezentativă dedusă dintr-un calcul numeric
aplicat unei repartiţii statistice (media, dispersia, etc.);
16. Indicatorul statistic este mărimea statistică cu ajutorul căruia se poate caracteriza
un fenomen de interes medical sub raportul structurilor interdependenţelor sau
modificărilor în timp sau spaţiu.
17. Indicele statistic este valoarea numerică relativă ce rezultă din compararea
valorilor unui indicator statistic , fie la momente diferite, fie în spaţii diferite sau pentru
categorii diferit constituite în raport cu o caracteristică oarecare
Pentru că, din motive obiective, studiul nu se poate realiza ,de regulă, la nivelul întregii
populaţii, statistica a dezvoltat teoria (şi metodele) selecţiei (a eşantionajului).
Caracteristicile de interes pentru cercetarea unui fenomen la nivelul unei populaţii, numite
şi variabile, sunt definite cu ajutorul teoriei scalării în vederea măsurării şi înregistrării lor.
Calitatea prelucrării datelor înregistrate, deci şi a rezultatelor obţinute depinde de modul
cum au fost selectate metodele scalării variabilelor şi a selecţiei eşantioanelor.
2
mărimea populaţiei de referinţă;
gradul de variaţie a populaţiei de referinţă;
forma de organizare a populaţiei studiate;
importanţa cercetării efectuate care generează nivelul de probabilitate.
Ca o regulă generală, dacă se stabileşte apriori un prag de semnificaţie a (Pv), se
impune ca abaterile dintre media populaţiei de referinţă şi media eşantioanelor (care se pot
genera) să respecte inegalitatea:
(m - x) £ a
unde "a" reprezintă eroarea limită admisă (absolută sau relativă) există mai multe tehnici de
stabilire a volumului optim (minim) a eşantionului.
t2pq
n=
t2pq
Dx2 +
N
unde:
- p = probabilitatea de apariţie a primei forme de manifestare;
- q = probabilitatea de manifestare a celeilalte forme de manifestare.
n = N / 1 + er2 N.
4. Dacă se cunoaşte abaterea medie pătratică se poate utiliza formula propusă de Mills:
3
V = dispersia relativă, egală cu abaterea medie pătratică împărţită la numărul de cazuri.
7. Similare cu tabele de mai sus sunt tabelele lui Fliess care permit cunoaşterea
volumului eşantionului reprezentativ în vederea acceptării sau respingerii ipotezei zero.
1. nealeatoare sau prin "alegere raţională"; sunt mai puţin costisitoare, sunt mai practice
dar sunt mult mai puţin exacte.
Tipuri de eşantioane.
4
4.Eşantionarea cu probabilităţi inegale. Acest tip de eşantionaj se utilizează atunci
când unităţile populaţiei, în raport cu una sau mai multe caracteristici, au valori ce diferă
semnificativ, iar aplicarea eşantionării cu probabilităţi egale duce la o eficienţă scăzută a
estimaţiilor făcute.
5. Eşantionarea pe "grappe" (pe cuiburi), se utilizează când dispersia teritorială a
populaţiei de investigat este prea mare sau când lipseşte o bază de sondaj.
Se caracterizează prin faptul că nu se mai extrag unităţi independente ci grupuri de
unităţi eterogene (pachete; grappe, cuiburi) din populaţiile care sunt organizate sub forma unei
ierarhii.
Este recomandat ca mărimea cuibului să fie cât mai mică, numărul cuiburilor mici cât mai
mare iar eterogenitatea cuiburilor să fie cât mai mare.
6. Eşantionarea în mai multe trepte (multistadial).
Este o metodă de eşantionare care se desfăşoară în mai multe etape succesive şi se
aplică tot pentru o populaţie organizată ierarhic, pe mai multe niveluri. practic se constituie pentru
fiecare nivel una sau mai multe baze de sondaj, cuprinzând unităţile elementare de nivelul
imediat următor.
7. Eşantionarea în mai multe faze (multifazic) este o generalizare a eşantionării
stratificate (tipice) şi se utilizează din următoarele considerente:
- creşterea operativităţii şi reducerea cheltuielilor;
- de la o fază la alta se reduce numărul unităţilor din eşantion cu creşterea
corespunzătoare a obiectivelor pe care le propune cercetarea;
- se pot cuantifica non-răspunsurile.
continue, când pot lua orice valoare numerică, inclusiv fracţiuni zecimale; (talia,
greutatea, T.A.);
5
discontinue (discrete), când valorile iau forma numai a numerelor întregi.
In practică o variabila poate fi exprimată atât sub formă cantitativă cât şi calitativă dar
trebuie specificat că trecerea de la exprimarea cantitativă continuă de pe o scală de raport printr-
o exprimare calitativă pe scală calitativă se face cu pierdere de informaţie.
Tabelarea informaţiilor se realizează prin aşezarea lor sub forma tabelelor (alcătuite din
rânduri şi coloane, cuprinzând celule).
Tipuri de tabele:
- simple;
- enumerative;
- dinamice;
- cronologice;
- de grupare (pentru o singură caracteristică)
- combinate (pentru două caracteristici);
- de corelaţie (două sau mai multe caracteristici legate cauzal).
6
I.4.3. Caracterizarea sintetică, statistică a fenomenului studiat la nivel de eşantion.
7
3. varianţa; este valoarea calculată care exprimă media aritmetică a pătratului
abaterilor dintre valorile observate şi media lor aritmetică:
Sx = + \/ Sx2
S
S.E. =
n
Nu se utilizează pentru a sumariza variabilitatea în cadrul eşantionului, ci exprimă nivelul
la care pot varia indicatorii de tendinţă centrală în eşantioanele extrase din aceiaşi populaţie.
Sp2 = p(1-p) = pq
2. deviaţia standard:
Sp = pq
Interpretare:
Cu o probabilitate de 95%, valorile din populaţia generală se vor regăsi între limitele
superioară şi inferioară a intervalului de încredere astfel calculat.
8
Inferenţă statistică. Testarea ipotezei (decizia statistică).
Sunt testele care determină cât de probabil este ca diferenţele observate între date
(populaţie, eşantioane, loturi) să fie datorate în întregime erorilor sau întâmplării.
Ipoteza nulă (zero) afirmă că orice diferenţă observată se datorează în întregime erorilor
de eşantionaj (întâmplării).
Valoarea P (Pv) reprezintă probabilitatea ca diferenţe cel puţin la fel de mari ca cele
constatate în datele observate să se datoreze în întregime (vor surveni) ca urmare a întâmplării.
Cercetătorul stabileşte o valoare a lui P ( de obicei nu mai mică de 95%) care reprezintă
valoarea predeterminată a lui Pv care reprezintă nivelul de semnificaţie a testului.
Analiza se face prin modul în care Pv calculat se poziţionează faţă de Pv predeterminat.
Dacă valoarea calculată a lui Pv este sub nivelul de semnificaţie, ipoteza zero se
respinge, adică este improbabil (dar nu imposibil) ca diferenţele observate să se datoreze doar
întâmplării (diferenţe cel puţin la fel de mari se pot găsi doar într-o populaţie mică de eşantioane
din totalul posibil de eşantioane care se pot extrage din populaţia de bază).
Rezultă că valorile estimate pot caracteriza populaţia de bază (la un anumit nivel de
semnificaţie).
Se pot alege şi alte nivele de semnificaţie a testului pentru care ipoteza zero să fie
respinsă (99% - 0.01; mai rar 90% - 0.1)
Pentru calcularea valorii P se utilizează testele "Z". Acestea permit calcularea valorii P pe
baza caracteristicilor populaţiei de bază şi a caracteristicilor observate în eşantion:
Xm = media eşantionului:
m = media cunoscută în populaţia de bază (generală);
s = deviaţia standard cunoscută în populaţia generală;
n = dimensiunea eşantionului.
Z = Xm - m / (s / \/n)
Valorii lui "z" i se asociază, tabelar, o valoare a lui P care reprezintă tocmai valoarea lui P
calculat.
Statistic semnificativ (semnificativ statistic sau rezultat semnificativ statistic)
înseamnă acel rezultat care a dus la respingerea ipotezei zero, adică diferenţa dintre două
grupuri este semnificativă statistic.
Valoarea lui P (valoarea testului) este influenţată de :
- puterea asocierii;
- dimensiunea eşantionului.
Adică o valoare mic a lui P poate să corespundă unei puteri mici de asociere şi o
diferenţă între două grupuri poate să nu aibă semnificaţie statistică dacă dimensiunea
eşantionului nu este suficient de mare.
Este important de subliniat că ipoteza zero nu este niciodată adevărată sau falsă, ci
ea este acceptată sau respinsă la un nivel de semnificaţie
Un alt grup de test utilizate în acelaşi scop sunt testele "t". aceste se aplică de obicei la
eşantioanele de volum mic.
Acestea, testează dacă media populaţiei este egală cu o valoare predeterminată, atunci
când deviaţia standard a populaţiei nu este cunoscută ( se cunoaşte numai deviaţia standard a
eşantionului):
t = Xm -m / s \/n.
Se utilizează pentru:
- a testa dacă două eşantioane independente sunt statistic diferite; (eşantioane extrase
din aceiaşi populaţie sau din două populaţii cu aceiaşi varianţă)
- situaţia când deviaţia standard a populaţiei nu este cunoscută şi este estimată pe baza
deviaţiei standard a eşantionului.
- testarea regresiei liniare;
9
- testarea semnificaţiei coeficientului de corelaţie.
Acest tip de test examinează ipoteza zero, pentru variabilele de tip categoric care sunt
trecute în tabelul de contingenţă "2x2"(care deja a mai fost prezentat.).
Formula de calcul cel mai frecvent utilizată este:
2.Testele de corelaţie
10
2. Coeficientul Spearman.
3. Coeficientul Kendall (de corelaţie rang-ordin)
3. Testele de regresie
Regresia reprezintă stabilirea unui model matematic care să exprime (şi grafic) relaţia
dintre două variabile sau o variabilă dependentă şi mai multe variabile independente.
Cel mai utilizat model este cel de regresie liniară în care modelul matematic este ecuaţia
unei linii drepte care se adaptează cel mai bine la datele disponibile.
Alte modele de analiză matematică:
- regresia polinomiala;
- regresia logistică;
- hazardurile proporţionale.
Punerea în aplicare a tuturor acestor metode statistice este foarte mult uşurată, în
prezent de tehnica de calcul foarte puternică , care se sprijină şi pe softuri performante şi
adaptate cum ar fi EPI.INFO. 5.0, SPSS, etc.
Importantă este respectarea metodologiei cercetării şi interpretarea rezultatelor obţinute
prin prelucrarea electronică.
11