Documente Academic
Documente Profesional
Documente Cultură
MEDICALA
SI
METODOLOGIE A CERCETARII
MEDICALE
modulul 2
MODULUL 2.
1. Statistica descriptiva si inferentiala:generalitati
2. Etapa de prelucrare primara a datelor. Gruparea datelor. Scale de masura
3. Prezentarea tabelara si grafica a relatiilor dintre date. Analize de
relationare
4. Indicatori statistici agregati: ai tendintei centrale, ai dispersiei si de
pozitionare pe un grafic a datelor statistice colectate
5. Estimarea tipurilor de “distributie” a datelor colectate
6. Notiuni de analiza datelor si de alegere a testelor statistice dupa tipul
variabilei analizate
7. Testele statistice si relatiile dintre variabile : analize de asociere,
corelatia, diferentele
8. Validarea rezultatelor si a Testarii ipotezelor prin calculul p value
(“semnificatia statistica”)
9. Estimari si CI .Elemente de statistica inferentiala
I. Statistica descriptiva
Se mai numeste si “prelucrarea bruta”, organizarea sau prelucrarea datelor (=variabilelor): ETAPE
1. Clasificarea datelor si calculul frecventei lor de aparitie(%):organizarea lor pe “categorii de
variabile si «Tabele de frecvente», fiecarei variabile, fiecarui grup/esantion, separat.
2. Ordonarea valorilor prin «scalare» (aranjarea datelor colectate in ordine «crescatoare», pe
«scari(=scale-eng) de valori» si organizarea pe diverse“clase”de valori)
3. Prezentarea “vizuala” a datelor (variabilelor inregistrate/colectate),prezentate pe fiecare grup de
studiu (minim grup“martor” si “de studiu”) : prin tabele si grafice
4. Calculul parametrilor/indicilor statistici “agregati”: indici de tendinta centrala (medii) si de
dispersie
5. Analiza de relationare a datelor colectate (a diverselor variabile colectate grupurilor cuprinse in
studiul respectiv).
Scop: valideaza prezenta unei «relationari» (in matematica=asociere) intre grupele de date (variabile)
colectate din studiu. Aceasta este presupusa de la inceputul studiului prin insasi IPOTEZA STIINTIFICA a
acestuia poate fi confirmata printr o valoare p=>0.05 (5%) obtinuta prin aplicarea TS (situatie care ne va
sugera ca intre variabilele colectate nu este o legatura intamplatoare ci una «esentiala», dar care necesita
ulterior si o explicatie teoretica adecvata!)
Calcul: pentru variabilele colectate la cele doua (minim) grupuri studiate,softul furnizeaza indicatorii
agregati necesari TS (Ts sunt corespunzatoare categoriei de variabila analizata). Cu TS adecvate se
genereaza, ulterior p value (p value se calculeaza unitar, dupa caz: variabilelor din grupul respective=
intragrup, sau intre grupuri. In functie de categoria variabilelor si tipul de legatura presupus a apararea
intre variabile: iti;izam TS pt diferente sau asociere)
Indicatori statistici utilizati: nr de subiecti si frecventa (%) pentru date variabile calitative si respectiv
“mediile”(=media, mediana, modul) si SD -la date variabile cantitative(“numere”) etc.
TS utilizate sunt : asocieri (intragrup) Hi2 pentru variabile calitative si t Stdent/ANOVA pentru cele
cantitative, diferente intergrupuri: t Student si Anova (cantitative)
II Statistica inferentiala
6. Testarea ipotezelor H0 si H1, realizata prin aplicarea TS
(=testelor statistice) si a calcularii p-value
7. Estimarile unor parametrii epidemiologici ai populatiei de
referinta, pornind de la valorile acestora in esantion, cu CI 95%
1. Clasificarea si crearea “Tabelelor de date”, calculul
distributiei frecventei datelor, scalarea…
De ce? ..pentru simplificarea matematica a operatiunilor ulterioare!
A. Scala nominala:
Pe aceasta scala se pot aranja/ordona doar variabile nominale
(inclusiv cele dicothomice=binare =cele in care “efectul” masurat nu
poate lua decat doua valori, gen: “da/nu”, “au /nu au efectul
urmarit”). Datele corespunzatoare variabilelor de tip “calitativ”
(“categorical” -eng.), sunt reprezentate de frecvente (nr de
cazuri)/procente/proportii/rate
Pentru analiza asocierii lor utilizam TS de asociere HI2.
Daca dorim analiza cu TS de corelatie/regresie(predictiva),
aceste date necesita a fi transformate in prealabil in “variabile
dummy”, (numai asa putem sa le utilizam in analizele de
corelatie sau regresie)!
Transformarea este posibila si necesara si la variabilele
dihotomice, (vor fi transformate in “valori” de 0 si 1).
B. Scala ordinala
◼ Folosita pt variabilele calitative ordinale, intre care
exista o ordine inerenta rank (= o pozitie
diferita, clara) intre categoriile de date
◼ datele sunt clasificate unele fata de altele la
genul “ mai mult” sau “mai mare”
eng=Rank ordered scale .
◼ Variabile utilizate si ordonate in aceasta scara :
clasificari, stadializari ale bolii
(vindecat/stationar/agravat),TNM, Apgar,
premii, clase de scolarizare/de venituri/statut
marital etc
◼ Datele masurate sunt sunt reprezentate bine si
de mediana valorilor observate
◼ Pentru analiza cu TS, aceste date necesita a fi
transformate in “variabile dummy”, numai
asa putem sa le utilizam in analize de corelatie
sau regresie!
◼ Raspunsul 0 va forma categoria”clasa datelorde referinta”,
de regula aleasa cea mai frecventa/importanta
◼ Ulterior se va forma un nr de” k-1” de “noi clase de
variabile dummy” , codate tip 0/1,
(0=lipsa.1=prezenta)
◼ k este nr categoriilor/claselor de raspuns care vor
aparea. F. A. Sava 2011
C. Scala numerica
Folosita doar pentru variabile numerice, cantitative, (cu date numarabile, ce masoara
“cantitatea” a “ceva”) care pot fi :
◼ doar numere intregi (discrete) “ratio” : ex. Nr. Nasteri, nr de operatii, nr factori de
risc, varsta in ani, scoruri QOL/depresie/anxietate etc etc
◼ numere/valori continui/ ”interval” (fractionate,”cu virgula”): ex. Greutate,
inaltime, orice alte valori numerice de “laborator”…
◼ Atentie la interpretarea particulara: TIMP, TEMPERATURA si
COORDONATE GEOGRAFICE (lat. Long.)
◼ Aceste date pot fi transformate in date nominale dihotomice (=codate apoi ca
“frecvente” de aparitie a cazurilor “cu efect/fara efect prezent”, “cu valori
peste/sub…”), printr o clasificare/transformare adecvata, clar definite la inceputul
studiului! Ulterior acestea pot fi analizate corect cu tabele de contingenta (hi2)
ATENTIE: Diversele categorii de variabile
genereaza scari diferite, cu proprietati matematice
diferite!
Acestea determina major TS de analiza folosite!
Variabilele se pot transforma:
SCOP: se castiga noi proprietati matematice
care fac posibile analize cu TS diferite!
3. MODALITATI DE PREZENTARE VIZUALA A DATELOR COLECTATE
Desenele din statistica se numesc grafice. Acestea sunt modalitati imagistice de reprezentare a datelor,
fiind cu atât mai sugestive si mai utile cu cât numarul de date colectate creste.
Ce rol are prezentarea grafica?
…este utilă in prezentarea unui set de date, permite înţelegerea facilă si rapida a
caracteristicilor/”legaturilor” statistice intre evenimentele/variabilele studiate, reprezinta o
“descriere vizuala" a esantionului prin variabilele sale si poate fi făcută grafic sau prin indicatori!
“semnificativ
statistic-
p<=0.05”?
Pentru a caracteriza dpdv statistic valoarea unui numar mare de rezultate
(=date=variabile) este necesar a li se calcula acestora anumite marimi
matematice intermediare, purtatoare de informatie statistica numite
«INDICATORI STATISTICI AGREGATI»:
I.Indicatorii
statistici agregati
ai variabilelor calitative:
frecventele, procentaje, proportiile, rate, rapoarte
◼ Frecventele indivizilor, proportiile si procentajele ilustreaza si
sumarizeaza cel mai bine datele variabilelor calitative (nominale
si ordinale)
◼ Ratele: descriu bine nr. de evenimente aparute intr o perioada
data (ratele/frecventa evenimentelor).
◼ Rapoartele: Relatia dintre doua variabile calitative-nominale este
descrisa in functie de designul studiului clinic ales si prin
“rapoarte”=ratio, de genul:
◼ “raportul riscurilor” (RR=risc ratio, in studii de cohorta)
◼ “raportul cotelor” (OR=odds ratio, in studii caz martor)
II. Indicatorii statistici agregati ai variabilelor cantitative:
Informatia statistica a variabilelor CANTITATIVE poate fi “codata” prin trei tipuri de parametri
matematico-statistici, acestia fiind purtatorii “intermediari” de informatie statistica ai acestor
variabile. Ei sunt calculati automat de software-ul de statistica
Coeficientul de variatie, CV
Masoara imprastierea relativa (=omogenitatea) a datelor. Este utilizat si cand se compara date
asezate pe scale diferite de masura (adica variabile de categorii diferite!). Aceste valori trebuie
ajustate inainte de a face comparatii.
Calcul:
CV= SD/media x 100%
Unde
CV este raportul dintre deviaţia standard a unei serii de date şi media aritmetică a seriei respective de date.
CV se utilizeaza in laboratoare si in procedurile de control a calitatii, se exprima in %
INTERPRETARE:
CV>+/-15% , datele au o distributie heterogena;
CV<+/-15% , datele au o distributie omogena
…..cu cât omogenitatea este mai mică ,o “medie” aleasa ca indicator agregat al esantionului analizat este
mai puţin reprezentativă!
3.) Indicatori de localizare a
dispersiei pe un grafic
Analizare PAIRED= utilizate in studii imperecheate , adica sunt acele studii care ofera analizei date ce
provin din măsurători repetate pe aceiasi pacienti ( gen “inainte” si “dupa..”) sau pe un esantion/eşantioane,
cu date împerecheate.
Singura “imperechere perfecta” se realizeaza cand “imperechem” datele pacientului “cu el insusi”(adica avem
comparatii ale datelor la fiecare pacient, masurate “inainte si dupa” o interventie) ...adica la studii in care
valorile variabilei respective “se masoara de doua ori la acelasi subiect”, adica “inainte de interventie…”-“dupa”
aplicarea interventiei (tratament/expunere/procedura!) …cu alte cuvinte, masuram “ceva” (o
variabila/valoare) de doua ori , la acelasi subiect (la unul sau mai multe esantioane de
subiecti).
◼ Primul pas pentru a determina daca valoarea lui hi2 (anterior calculata ) pentru un tabel de
asociere dat, sugereaza sau nu o asociere statistic semnificativa intre variabilele studiate, consta
in a gasi linia/randul care corespunde gradelor de libertate ale tabelului de asociere
analizat in “Tabelul cu Valori critice pentru hi-patrat”
◼ Calcul clasic/tabelar: cele sase valori ale lui hi2 gasite din fiecare linie ale “Tabelului cu Valori
critice pentru hi-patrat”sunt valori hi-patrat carora le corespunde cate o valoare a lui p , indicata in
capul de tabel al coloanelor respective (Sus). Vom cauta in lungul liniei/randului pentru a
gasi locul unde ar “cadea” valoarea noastra anterior calculata a lui hi2. Daca nu
“cadem” pe o valoare exacta al lui Hi2 , vom considera (tot in randul respectiv din
tabel) ca valoare “valabila” numarul din stanga locului cel mai apropiat de unde ar
“cadea” valoarea lui hi2 calculata de TS.
◼ Ulterior ne vom deplasa vizual in sus, la varful coloanei, unde vom gasi/citi valoarea
probabilitatii p “asociata”/corespunzatoare valorii noastre calculate a lui hi2.
◼ La alegerea valorii p vom tine cont si de “directionalitatea” ipotezei statistice a
studiului : two-tailed (bidirectionala) sau one-tailed (unidirectionala)
◼ Nivel de semnificatie p pentru un test
directional
◼ .10 .05 .025 .01 .005 .0005
Deci r este un indicator numeric al intensitatii si al directiei oricarui model de asociere care exista intre valorile unei
variabile cu valorile altei variabile
REMARCA:
Ts de analiza a “diferentelor dintre medii” (t Student si F-ANOVA) sunt folosite in
algoritmul din ANALIZA DE REGRESIE MULTIPLA , a mai multor categorii de
variabile (de regula numerice si provenite din INTERIORUL unui esantion), atunci
cand una din variabilele-de obicei cea „dependenta/efect”, este calitativa-nominala
iar celelalte variabile numerice, de obicei variabile „independente/cauze”, sunt de
categorie cantitativa- interval .
Testul Student ”t” si F-ANOVA:
◼ Cu testult putem compara marimile a doua grupuri
de variabile cantitative (prin intermediul compararii
“mediilor” acestora), daca au distributie normala
◼ Distributia asimetrica (anormala): va trebui folosit
un alt test: testul Mc Neamar, testul exact Ficher,
testul Man-Whitney, etc.
◼ In functie de tipul de studiere al esantioanelor:
a. daca cercetam doua esantioane diferite de
subiecti (studiere independenta”/unpaired)
=Independent Samples/unpaired- t Test
b. in cazul studierii acelorasi subiecti (un grup) in
mod “imperecheat”, dar la momente diferite
de timp ( gen „inainte” si „dupa”…)
=Paired Sample -t Test.
df
Nivele de semnificatie p pentru testul nedirectionat (two-tailed)
0.20 0.10 0.05 0.02 0.01 0.001
ajutorul t :
1 3.078 314 12.706 31.821 63.657 63619
2 1.886 2.920 4.303 965 9.925 31.689
3 1.638 2.353 3.182 4.541 5.841 12.941
4 1.533 2.132 2.776 3.747 4.604 8.610 ◼ Valoarea t obtinuta din calcule,
5
6
1.476
1.440
2.015
1.943
2.571
2.447
3.365
3.143
4.032 859
3.707 5.959
genereaza ulterior (prin
7 1.415 1.895 2.365 2.998 3.499 5.405 determinare tabelara, identica
8 1.397 1.860 2.306 2.896 3.355 5.041 celorlalte TS), valoarea lui p .
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.587 ◼ Atentie la directionalitatea ipotezei
11 1.363 1.796 2.201 2.718 3.106 4.437
12 1.356 1.782 2.179 2.681 3.055 4.318 ◼ Vom prezenta in tabele de date valorile
13 1.350 1.771 2.160 2.650 3.012 4.221 “mediilor” variabilelor studiate pentru
14 1.345 1.761 2.145 2.624 2.977 4.140
15 1.341 1.753 2.131 2.602 2.947 4.073 fiecare esantion in parte.
16
17
1.337
1.333
1.746
1.740
2.120
2.110
2.583
2.567
2.921
2.898
4.015
3.965
◼ Astfel acestea vor fi prezentate in
18 1.330 1.734 2.101 2.552 2.878 3.922 capitolul Rezultate, inclusiv valoarea
19
20
1.328
1.325
1.729
1.725
2.093
2.086
2.539
2.528
2.861
2.845
3.883
3.850
lui t, gradul de libertate (df) si valoarea
21 1.323 1.721 2.080 2.518 2.831 3.819 probabilitatii p asociate.
22 1.321 1.717 2.074 2.508 2.819 3.792
23 1.319 1.714 2.069 2.500 2.807 3.767
24
25
1.318
1.316
1.711
1.708
2.064
2.060
2.492
2.485
2.797
2.787
3.745
3.725
ATENTIE:
26 1.315 1.706 2.056 2.479 2.779 3.707 se recomanda a se raporta atat analizele
27 1.314 1.703 2.052 2.473 2.771 3.690
28 1.313 1.701 2.048 2.467 2.763 3.674 statistice care au permis respingerea H0 (
29 1.311 1.699 2.045 2.462 2.756 3.659 adica TS soldate cu p “semnificativ
30
40
1.310
1.303
1.697
1.684
2.042
2.021
2.457
2.423
2.750
2.704
3.646
3.551
statistic”) dar si rezultatele TS care au
60 1.296 1.671 2.000 2.390 2.660 3.460 validat-o!
1.282 1.645 1.960 2.326 2.576 3.291
◼ Folosirea sa in studii care cauta evaluarea eficacitatii diferitelor
interventii chirurgicale (in RCT). Aici cautam sa aflam daca o metoda
de interventie este in mod real mai buna decat alta pentru obtinerea
Aplicare calcul t
◼
rezultatelor dorite.
Testul t este ideal pentru a fi folosit in situatii in care avem de comparat in RCT:
doua grupuri (interventia A/interventia B) si deci valorile unei variabile
independente de tip nominal, cu o variabila dependenta (efectul, boala,
decesul, comportamentul, atitudinea, valoarea sau orice altceva) pe care
speram sa o gasim afectata, si care este cuantificata ca variabila
cantitativa-(interval sau raport)
◼ Esantioanele mari sunt rar disponibile, in special in situatii clinice,
testul t este potrivit si pentru cercetarile care folosesc un numar mic de
cazuri (de exemplu, un total de doar 20 sau 30 de cazuri).
◼ Esantioanele analizate cu TS Student “t” nu trebuie neaparat sa
contina un numar egal de cazuri (ne referim la cele numarate la finalul
studiului). Pentru ca si in cercetarile planificate cu mare grija, de
exemplu cele asupra eficacitatii unui tratament, exista oameni care
renunta inainte ca studiul sa fie terminat (abandon,pierderi),aceasta
conduce la o situatie in care exista mai multe cazuri intr-un grup decat
in altul. Discrepanta finala dintre dimensiunea celor doua grupuri este
automat controlata prin formula testului t.
analizămultivariabilă
VIII. Validarea rezultatelor obtinute prin calculul p si CI
◼ In finalul oricarei cercetari (studiu clinic), in urma aplicarii analizei statistice asupra
rezultatelor clinice/stiintifice obtinute din comparatii, generam doua valori matematico-
statistice:
P value si Intervalul de incredere (CI 95%)al unui
parametru epidemiologic
◼ Utilizarea acestora ne foloseste pentru a sti daca rezultatele stiintifice obtinute din studiul
nostru sunt valabile/valide si dpdv statistic (adica nu se datoreaza norocului),
◼ pentru a putea fi folosite in procesul de testare a ipotezelor (=“judecarea”ipotezei
statistice H0 - pe cale de consecinta aflarea raspunsului/concluziei la H1/ ipoteza
stiintifica/de studiu)
◼ ulterioara posibila generalizare/extrapolare/aplicare a rezultatelor clinic la intreaga
populatie a pacientilor cu afectiunile respective, ca “legitati/concluzii clinice valide”
◼ estimari ale unor parametrii epidemiologici pentru populatia din care a fost extras
esantionul studiat, cu CI 95%,
Nu trebuie confundata semnificatia statistica cu cea clinica.
CRITICA
diferenţele/deosebirile depistate ca statistic «semnificative» pot sa nu fie si
semnificative dpdv clinic, si diferenţele clinic importante pot sa nu fie
totdeauna statistic semnificative!!!
P value :
◼ Prin conventie, in cercetarea medicala, sa hotarat ca de la un anumit nivel “prag” de
probabilitate p, se indica faptul ca relatiile intre fenomenele sau efectele studiate sunt
semnificative statistic, adica rezultatele lor obtinute nu se datoreaza
intamplarii! Aceasta valoare “prag” minima a fost aleasa p=<0,05 , si a fost stabilita
arbitrar, prin conventie.
◼ p=<0,05 este valoarea prag, ce apartine unui interval de rezultate acceptate a fi
intamplatoare, numit “alfa” (=eroarea alfa de maxim 5% din totalul posibil de 100%
al rezultatelor unei cercetari), valoare p de la care rezultatele unui test statistic nu mai
prezinta siguranta realitatii.
◼ La cel mult o proportie de 5% de rezultate “obtinute intamplator”, inca se consideră că
probabilitatea apariţiei fenomenului studiat doar prin “sansa” este mult prea
mica si deci nesemnificativa pentru a explica si influenta rezultatul unui experiment!!
◼ Concluzie: cu cat p este mai mic (p=<0,05) gradul de certitudine al nostru (legat
de veridicitatea rezultatului cercetarii/studiului nostru) este mai mare (creste),
permitandu-ne excluderea efectului intamplarii/sansei/norocului (efect ce ar fi putut
influenta rezultatele studiului!!!)
IX. ESTIMARI (statistica inferentiala)
Exemplu : cu ajutorul TS adecvate si p value (utilizând proprietăţile “distribuţiei normale” si calculul statistic al z sau t) se
poate estima intervalul CI95% in care ne “ateptam” sa se încadreze (=cu o anumita probabilitate, cel mai frecvent anterior
aleasa de 95%) media valorilor anumitor parametri ( de regula ai acelei variabile urmarite) in populaţia al carei esantion l am
analizat (facem o predictie!).
Nu uitati:
Unul din scopurile de baza a statisticii este de a utiliza un esantion pentru a
analiza o caracteristica a sa (“ceva”), ca ulterior sa putem estima evolutia
acesteia la nivelul intregii populatiei generale (adica a populatiei din care a
provenit acel esantion cercetat)
Procesul de estimare si estimarile (predictiile) formeaza baza statisticii
inferentiale.
Intervalul de incredere “CI”:
1. “Predictia” de aparitie in populatia de referinta a valorilor unui anumit parametru al unei
variabile calculat la un esantion, este reprezentata prin generarea CI95% al valorilor acelui
parametru.
2. Inferenta statistica, prin analiza rezultatelor CI95% generat respectivului parametru ne permite
sau nu generalizarea ulterioara a concluziilor obtinute pornind «de la esantion, la populatia
generala/de referinta/din care a fost extras esantionul analizat»
3. CI este un interval de valori ai unui parametru,un interval ESTIMAT , in care se poate regasi
un parametru (initial calculat unui esantion) si in cadrul populatiei generale (din care a fost extras
esantionul), cu o anumită “probabilitate “ (in general aleasa dinainte a fi de minim 95% sigura!).
4. CI este deci o estimare, spunandu ne cam cat de mult ar putea sa varieze aceasta valoare a acelui
parametru (obtinuta initial pentru un esantion), in populatia totala (din care a provenit/a fost extras
esantionul), daca cercetarea esantioanelor s ar repeta insa fara a mai fi nevoit sa masoare/inregistreze
datele/variabilele la toti subiectii acesteia -este practic imposibil si nefezabil economic!! .
5. CI “completeaza” valoarea de interpretare statistica oferita de p. Intervalul de incredere CI ne da in
plus (spre deosebire de p ) si informatii asupra puterii statistice a studiului, mai ales cand rezultatele studiului
sunt “negative”(negative=adica nu permit “validarea” ipotezei de studiu enuntata initial de autorului
studiului=H1,prin obtinerea unui p nesemnificativ statistic).
6. Generalizarea concluziilor noastre pornind de la esantion la populatia de referinta (“anterior
“validate” statistic prin procesul de “testare a ipotezelor”) este scopul final al tuturor studiilor clinice.
Ulterior, generalizarea descoperirilor se aplica in practica medicala cotidiana, generand progres!
Cu cat studiul are un nr mai mic de subiecti (sub 30), limitele CI obtinut prin calcul (“marginile”sale) vor fi mai indepartate,
aratand ca si rezultatele obtinute din studiul acestui esantion (mic) sunt imprecise si deci mai putin valabile, mai putin
“extrapolabile” unei populatii generale (rezultatele ne arata in acest caz ca nu putem sa ne permitem a face estimari si
generalizari pe baza lor!!).Concluzie: Nu se recomanda esantioane mai mici de 30 subiecti!
Interpretarea CI: este diferita pentru diferitele tipuri de studii clinic, fiind
corespunzatoare parametrilor epidemiologici specifici acestora.