Sunteți pe pagina 1din 69

NOTIUNI GENERALE DE STATISTICA

MEDICALA
SI
METODOLOGIE A CERCETARII
MEDICALE

modulul 2
MODULUL 2.
1. Statistica descriptiva si inferentiala:generalitati
2. Etapa de prelucrare primara a datelor. Gruparea datelor. Scale de masura
3. Prezentarea tabelara si grafica a relatiilor dintre date. Analize de
relationare
4. Indicatori statistici agregati: ai tendintei centrale, ai dispersiei si de
pozitionare pe un grafic a datelor statistice colectate
5. Estimarea tipurilor de “distributie” a datelor colectate
6. Notiuni de analiza datelor si de alegere a testelor statistice dupa tipul
variabilei analizate
7. Testele statistice si relatiile dintre variabile : analize de asociere,
corelatia, diferentele
8. Validarea rezultatelor si a Testarii ipotezelor prin calculul p value
(“semnificatia statistica”)
9. Estimari si CI .Elemente de statistica inferentiala
I. Statistica descriptiva
Se mai numeste si “prelucrarea bruta”, organizarea sau prelucrarea datelor (=variabilelor): ETAPE
1. Clasificarea datelor si calculul frecventei lor de aparitie(%):organizarea lor pe “categorii de
variabile si «Tabele de frecvente», fiecarei variabile, fiecarui grup/esantion, separat.
2. Ordonarea valorilor prin «scalare» (aranjarea datelor colectate in ordine «crescatoare», pe
«scari(=scale-eng) de valori» si organizarea pe diverse“clase”de valori)
3. Prezentarea “vizuala” a datelor (variabilelor inregistrate/colectate),prezentate pe fiecare grup de
studiu (minim grup“martor” si “de studiu”) : prin tabele si grafice
4. Calculul parametrilor/indicilor statistici “agregati”: indici de tendinta centrala (medii) si de
dispersie
5. Analiza de relationare a datelor colectate (a diverselor variabile colectate grupurilor cuprinse in
studiul respectiv).
Scop: valideaza prezenta unei «relationari» (in matematica=asociere) intre grupele de date (variabile)
colectate din studiu. Aceasta este presupusa de la inceputul studiului prin insasi IPOTEZA STIINTIFICA a
acestuia poate fi confirmata printr o valoare p=>0.05 (5%) obtinuta prin aplicarea TS (situatie care ne va
sugera ca intre variabilele colectate nu este o legatura intamplatoare ci una «esentiala», dar care necesita
ulterior si o explicatie teoretica adecvata!)
Calcul: pentru variabilele colectate la cele doua (minim) grupuri studiate,softul furnizeaza indicatorii
agregati necesari TS (Ts sunt corespunzatoare categoriei de variabila analizata). Cu TS adecvate se
genereaza, ulterior p value (p value se calculeaza unitar, dupa caz: variabilelor din grupul respective=
intragrup, sau intre grupuri. In functie de categoria variabilelor si tipul de legatura presupus a apararea
intre variabile: iti;izam TS pt diferente sau asociere)
Indicatori statistici utilizati: nr de subiecti si frecventa (%) pentru date variabile calitative si respectiv
“mediile”(=media, mediana, modul) si SD -la date variabile cantitative(“numere”) etc.
TS utilizate sunt : asocieri (intragrup) Hi2 pentru variabile calitative si t Stdent/ANOVA pentru cele
cantitative, diferente intergrupuri: t Student si Anova (cantitative)
II Statistica inferentiala
6. Testarea ipotezelor H0 si H1, realizata prin aplicarea TS
(=testelor statistice) si a calcularii p-value
7. Estimarile unor parametrii epidemiologici ai populatiei de
referinta, pornind de la valorile acestora in esantion, cu CI 95%
1. Clasificarea si crearea “Tabelelor de date”, calculul
distributiei frecventei datelor, scalarea…
De ce? ..pentru simplificarea matematica a operatiunilor ulterioare!

◼ Datele variabilelor pot fi prezentate fie simplu, fie grupat.


Pentru aceasta este necesara o ierarhizare initiala a valorilor
în functie de marimea lor.
◼ Datele brute colectate se claseaza prin ordonare in tabele de
date
◼ Se va calcula si o distributie simpla a frecventei datelor:
◼ Se cauta valorile extreme din sirul de date (valoarea cea mai mare si cea mai mica);
◼ Se scriu toate valorile cuprinse între cele doua extreme într-o ordine descendenta pe o coloana;
◼ Se numara de câte ori apare fiecare valoare în sirul de date;
◼ Se trece apoi în tabel, frecventa de aparitie a fiecarui numar.

◼ Denominare: constituie gruparea datelor in clase de date sau clase


de valori ale datelor/variabilelor (pentru diminuarea numarului
lor)
◼ Se recomanda 5 la 20 clase, cu aceeasi largime (largimea=diferenta intre rezultatul cel mai
mic al unei clase si rezultatul cel mai mic al clasei urmatoare). Se prefera multiplii de nr.
Impare gen 5.10,15..
◼ Se pot calcula claselor: distributia frecventei absolute si relative in
% (=frecventa de aparitie a datelor)
2. Gruparea datelor variabilelor =ordonarea pe diverse
“SCALE”(=SCARI de masurare):

◼ Reprezinta o ordonare a valorilor variabilelor “de la mic la mare” cu


stabilirea ulterioara a “frecventei” lor de aparitie…
◼ O face automat, software-ul!
◼ Scara de masura a variabilei are importanta pentru modul in
care informatia/datele/variabilele obtinute sunt
sumarizate (ordonate, grupate) si ulterior prezentate grafic
◼ Variabilele de categorii diferite au (evident) diverse
scari/scale de ordonare proprii (in functie de categoria din
care fac parte)
◼ Precizia masuratorii si a asezarii pe scara determina ulterior
acuratetea analizei statistice cu TS specifice.
Scalarea sau “aranjarea pe scari de valori”, se face automat dupa tipul
variabilei masurate: exista trei scale (scari) de masura utilizate mai frecvent pt
fiecare tip principal de variabile: nominala, ordinala si numerica

A. Scala nominala:
Pe aceasta scala se pot aranja/ordona doar variabile nominale
(inclusiv cele dicothomice=binare =cele in care “efectul” masurat nu
poate lua decat doua valori, gen: “da/nu”, “au /nu au efectul
urmarit”). Datele corespunzatoare variabilelor de tip “calitativ”
(“categorical” -eng.), sunt reprezentate de frecvente (nr de
cazuri)/procente/proportii/rate
Pentru analiza asocierii lor utilizam TS de asociere HI2.
Daca dorim analiza cu TS de corelatie/regresie(predictiva),
aceste date necesita a fi transformate in prealabil in “variabile
dummy”, (numai asa putem sa le utilizam in analizele de
corelatie sau regresie)!
Transformarea este posibila si necesara si la variabilele
dihotomice, (vor fi transformate in “valori” de 0 si 1).
B. Scala ordinala
◼ Folosita pt variabilele calitative ordinale, intre care
exista o ordine inerenta rank (= o pozitie
diferita, clara) intre categoriile de date
◼ datele sunt clasificate unele fata de altele la
genul “ mai mult” sau “mai mare”
eng=Rank ordered scale .
◼ Variabile utilizate si ordonate in aceasta scara :
clasificari, stadializari ale bolii
(vindecat/stationar/agravat),TNM, Apgar,
premii, clase de scolarizare/de venituri/statut
marital etc
◼ Datele masurate sunt sunt reprezentate bine si
de mediana valorilor observate
◼ Pentru analiza cu TS, aceste date necesita a fi
transformate in “variabile dummy”, numai
asa putem sa le utilizam in analize de corelatie
sau regresie!
◼ Raspunsul 0 va forma categoria”clasa datelorde referinta”,
de regula aleasa cea mai frecventa/importanta
◼ Ulterior se va forma un nr de” k-1” de “noi clase de
variabile dummy” , codate tip 0/1,
(0=lipsa.1=prezenta)
◼ k este nr categoriilor/claselor de raspuns care vor
aparea. F. A. Sava 2011
C. Scala numerica
Folosita doar pentru variabile numerice, cantitative, (cu date numarabile, ce masoara
“cantitatea” a “ceva”) care pot fi :
◼ doar numere intregi (discrete) “ratio” : ex. Nr. Nasteri, nr de operatii, nr factori de
risc, varsta in ani, scoruri QOL/depresie/anxietate etc etc
◼ numere/valori continui/ ”interval” (fractionate,”cu virgula”): ex. Greutate,
inaltime, orice alte valori numerice de “laborator”…
◼ Atentie la interpretarea particulara: TIMP, TEMPERATURA si
COORDONATE GEOGRAFICE (lat. Long.)
◼ Aceste date pot fi transformate in date nominale dihotomice (=codate apoi ca
“frecvente” de aparitie a cazurilor “cu efect/fara efect prezent”, “cu valori
peste/sub…”), printr o clasificare/transformare adecvata, clar definite la inceputul
studiului! Ulterior acestea pot fi analizate corect cu tabele de contingenta (hi2)
ATENTIE: Diversele categorii de variabile
genereaza scari diferite, cu proprietati matematice
diferite!
Acestea determina major TS de analiza folosite!
Variabilele se pot transforma:
SCOP: se castiga noi proprietati matematice
care fac posibile analize cu TS diferite!
3. MODALITATI DE PREZENTARE VIZUALA A DATELOR COLECTATE
Desenele din statistica se numesc grafice. Acestea sunt modalitati imagistice de reprezentare a datelor,
fiind cu atât mai sugestive si mai utile cu cât numarul de date colectate creste.
Ce rol are prezentarea grafica?
…este utilă in prezentarea unui set de date, permite înţelegerea facilă si rapida a
caracteristicilor/”legaturilor” statistice intre evenimentele/variabilele studiate, reprezinta o
“descriere vizuala" a esantionului prin variabilele sale si poate fi făcută grafic sau prin indicatori!

◼ Ce si cum le “ilustram”grafic? Valorile VARIABILELOR COLECTATE , organizate pe


esantioane.grupuri de studiu, sunt prezentate in TABELE si GRAFICE….
◼ Putem ilustra si “indicatorii statistici agregati “specifici:
◼ pentru variabile calitative prin calcularea si ilustrarea grafica a nr./%. frecventei/incidentei de
aparitie:
cu tabele de frecvenţe ( contin nr. observaţiilor , ordonate“pe categorii”)

◼ cu grafice: bare, pie- rozeta, s.a.
◼ in locul dispersiei uneori se prefera si prezentarea grafica a “modul-ui” (pt.
“variabila/categoria” gasita ca cea mai frecventă) sau a medianei valorilor (variabilelor
ordinale)
◼ pentru variabile cantitative prin calcularea si ilustrarea lor grafica, (dupa caz):
◼ numar N a variabilelor
◼ indicilor de măsura a “tendinţei centrale” (media, mediana, modul etc)
◼ indicilor de măsura a “dispersiei”(deviaţia standard= SD sau SEM)
◼ Se ilustreaza pozitia pe grafic a distribuţiei (normala/anormala) a datelor colectate
Unde le ilustram? DOAR IN CAPITOLUL DE “REZULTATE”!
TABELELE:
Reguli generale de alcătuire a unui tabel

◼ • fiecare tabel trebuie să conţină un titlu de prezentare, clar şi


concis
◼ • încadrarea tabelelor într-o lucrare se face pe baza unui număr de
identificare
◼ • titlul urmează după numărul de identificare, aceste informaţii
putând fi scrise deasupra
sa, mai aproape de tabel decât restul textului
◼ • dacă sunt necesare explicaţii sau note suplimentare, acestea vor fi
încorporate imediat
sub titlu sau la subsolul tabelului ori chiar în corpul tabelului
◼ • liniile şi coloanele tabelului vor fi aranjate în ordine logică pentru
a facilita efectuarea de comparaţii
◼ • când avem tabele lungi ale căror coloane conţin multe date, este
indicat să grupăm datele câte 5 sau 10, lăsând între ele un spaţiu
mai mare pentru a se evita astfel comiterea de confuzii şi erori în
urmărirea datelor
◼ • dacă numerele din tabel conţin mai mult de 3 cifre se va proceda
la gruparea lor câte 3
◼ • dacă tabelul conţine date ce nu sunt culese de autor, se va
specifica sursa de provenienţă a acestora
◼ • capetele liniilor şi coloanelor tabelului este bine să conţină
informaţii care, împreună cu cele din titlu să permită cititorului
înţelegerea tabelului fără a face apel la textul lucrării.
◼ Tabelele se pot transforma usor in grafice!
GRAFICELE:
Reguli generale de alcătuire a unui grafic:
◼ va fi elaborat astfel încât să permită citirea lui de la stânga la dreapta (pe axa orizontală
ordonarea datelor se face de la stg. spre dr., iar pe cea verticală de jos în sus)
◼ fiecare grafic va fi numerotat şi va purta un titlu corespunzător, redactat în partea de
jos, sub el
◼ să fie just întocmit, încât să redea exact şi totodată sugestiv problemele observate, să
aibă intervalele prevăzute cu valorile respective.
◼ graficul să fie clar, fără prea multe elemente, pentru a nu fi nevoie de explicaţii.
◼ să aibă o legendă, care să explice diferitele elemente ale problemei prezentate şi
intensitatea lor
◼ să fie prezentate în grafic cifrele relative sau absolute, care să exprime valorile
elementelor problemei; dacă acest lucru nu este posibil din lipsă de spaţiu şi pe grafic,
acesta va fi însoţit şi de tabelul statistic respectiv.
Histogramele si poligoanele de frecventa ilustreaza corect distributia
variabilelor numerice!
Histograme:
◼ reprezentată prin dreptunghiuri, care au baze egale, corespunzătoare intervalelor egale
de pe abscisă, dar înălţimile variabile, corespunzătoare frecvenţelor, de exemplu:
populaţia judeţului pe grupe de vârstă.
◼ Segmentele sunt alăturate, intervalele de pe abscisă fiind considerate date continue.
◼ frecvenţa datelor pentru fiecare categorie este descrisă după axa y, iar lăţimea fiecărui
segment sau dreptunghi reprezintă intervalul fiecărei categorii.
◼ diferenţa fundamentală faţă de o diagramă cu coloane (bar chart) constă în faptul că în diagrama cu
coloane există un spaţiu între dreptunghiuri, iar ordinea în care ele sunt prezentate este lipsită de
importanţă.
◼ în cazul reprezentării populaţiei pe sexe şi grupe de vârstă se utilizează o histograma
particulara denumită “piramida populaţiei”.
Poligonul de frecvenţă:
◼ Prin unirea mijloacelor marginilor superioare ale fiecarui dreptunghi al histogramei reprezentative a unei
serii de frecvente se obtine o linie franta, numita poligonul frecventelor seriei de valori
corespunzatoare, si care indica cum variaza frecventa de-a lungul multimii valorilor seriei
◼ Poligonul de frecventa are aceeasi semnificatie cu marginea superioara a histogramei.
◼ este o reprezentare a distribuţiei categoriilor de date ordonate şi continue, asemănător cu histograma.
◼ axa x reprezintă categoriile de date, iar axa y frecvenţa datelor pe fiecare categorie.
◼ frecvenţa este marcată faţă de punctul mediu al fiecărei categorii, apoi se trage o linie ce uneste
toate aceste puncte marcate.
◼ înălţimile corespunzătoare distribuţiei cantitative de pe axa y se ridică perpendicular pe abscisă,
pornind de la mijlocul intervalului de pe abscisă.
◼ Este mai folositor decât histograma deoarece în acest tip de grafic pot fi punctate cu uşurinţă mai multe
distribuţii
NOTIUNI DE BAZA:
◼ Analiza “bivariata”: cand doua variabile sunt analizate simultan, vorbim de o analiza statistica descriptiva
bi-variata;
◼ Analiza multi-variata=”analiza multi-variabile”
◼ Notiunile nivelul probabilitatii, p si nivelul de semnificatie precum si notatiile lor semantice corespunzatoare
sunt absolut echivalente dpdv statistic cu p value.
◼ Enuntarea de ipoteze statistice bidirectionale este mai corecta/recomandata (pt ca ele sunt “mai prudente dpdv
stiintific”, fiind mai vagi realistic, dar si mai “exigente dpdv statistic”)

◼ Analiza de“Relationare” dintre doua grupuri independente de variabile genereaza p value si se


descrie ca/poate fi:
I. relatie de co-varianta
◼ Descrierea “covariatiei se poate face prin procedeele de TS gen analiza bivariata:

1. Teste de analiza a asocierii/tabele de contingenta (intre variabile calitative)


2. Corelatie : prin reprezentare grafica (norul de puncte/scatterplot) si matematica ,
cu ajutorul TS de corelatie (intre variabile cantitative din INTERIORUL unui
esantion)
II. relatie de independenta
◼ Descrierea “independentei” se face prin TS de analiza bivariate, tip:

Teste de analiza a diferentelor (intre grupe de variabile cantitative analizate independent)


4.“ANALIZA DE RELATIONARE” A DATELOR/VARIABILELOR DIN
GRUPURILE/ESANTIOANELE STUDIATE INDEPENDENT:
Pentru o cercetare valida stiintific e necesar a verifica aspectul de “relationare” a datelor
colectate (ca rezultat al cercetarii) de la fiecare dintre grupurile studiate.
Cum?..prin calculul si analiza p-value, (corespunzator principalele categorii de variabile
colectate –p e obtinut cu ajutorul unor TS adecvate, aplicate categoriilor de date/variabile
analizate).
Astfel se va raspunde la intrebarea “SUNT/NU SUNT “RELATII CE NECESITA
TEORII EXPLICATIVE” INTRE DATELE OBTINUTE?”: daca p- value obtinut este
“semnificativ statistic- p<=0.05” raspunsul este DA, probabil sunt relatii (mai mult decat
intamplatoare) intre date, si ele necesita o explicatie teoretica adecvata, oferita in capitolul
DISCUTII)

“semnificativ
statistic-
p<=0.05”?
Pentru a caracteriza dpdv statistic valoarea unui numar mare de rezultate
(=date=variabile) este necesar a li se calcula acestora anumite marimi
matematice intermediare, purtatoare de informatie statistica numite
«INDICATORI STATISTICI AGREGATI»:

I.Indicatorii
statistici agregati
ai variabilelor calitative:
frecventele, procentaje, proportiile, rate, rapoarte
◼ Frecventele indivizilor, proportiile si procentajele ilustreaza si
sumarizeaza cel mai bine datele variabilelor calitative (nominale
si ordinale)
◼ Ratele: descriu bine nr. de evenimente aparute intr o perioada
data (ratele/frecventa evenimentelor).
◼ Rapoartele: Relatia dintre doua variabile calitative-nominale este
descrisa in functie de designul studiului clinic ales si prin
“rapoarte”=ratio, de genul:
◼ “raportul riscurilor” (RR=risc ratio, in studii de cohorta)
◼ “raportul cotelor” (OR=odds ratio, in studii caz martor)
II. Indicatorii statistici agregati ai variabilelor cantitative:

Informatia statistica a variabilelor CANTITATIVE poate fi “codata” prin trei tipuri de parametri
matematico-statistici, acestia fiind purtatorii “intermediari” de informatie statistica ai acestor
variabile. Ei sunt calculati automat de software-ul de statistica

1.) indicatori ai tendintei centrala a valorilor variabilelor cantitative=”mediile”


Carcterizeaza centrul distributiei datelor/variabilelor. Acestia “localizează” -într-un fel
oarecare- “mijlocul” setului de date colectat (media aritmetica, mediana, modul, media
geometrica etc.) = si sunt denumiti generic “MEDII”!

2.) indicatori de dispersie a valorilor variabilelor cantitative,


Caracterizeaza “imprastierea” datelor unei variabile cantitative in jurul valorii
sale “de mijloc” (in jurul mediei): intervalul, SD/SEM, varianta, coef.de variatie, etc

3.) indicatori de localizare pe un grafic a distributiei variabilelor cantitative,


Quantilele: qvartile, qvintile, percentilele, interquartilele etc
1. Indicatorii statistici de masurare “ai tendintei
centrale“=“MEDIILE”
Sunt numiti generic “medii”Ce fac?...sunt valori ce localizează într-un fel oarecare “mijlocul” setului de date numerice masurate.
Media aritmetica: Media aritmetică este suma valorilor dintr-o serie
împărţită la numărul valorilor din serie si masoara mijlocul distributiei unei
caracteristici/variabile numerice (X barat),…este media aritmetica a observatiilor
ex. în şirul 3, 4, 4, 5, 6, 8 media este 5

Mediana: Md, masoara mijlocul distributiei unei


caracteristici/variabile ordinale sau numerice . Observatiile trebuie in
prealabil ordonate pe o scara …Apoi se aleg si se calculeaza media a
doua valori de mijloc.
Modul: este valoarea care apare cel mai frecvent intr o
seie de observatii. Ex. În şirul 3, 4, 4, 5, 6, 8 modul este 4

Media geometrica: este folosita la date masurate pe o


scala logaritmica
2. Indicatorii statistici de masurare “ai dispersiei”
intervalul, SD/SEM, varianta,
Ce fac acesti indici ? Descriu “răspândirea”(=dispersia) unei serii de valori
de variabile, in jurul valorii sale “medii”
Intervalul/range:
◼ arata diferenta de dispersie dintre cea mai mare si cea mai mica valoare a unei
variabile
SD: deviatia standard= CEA MAI IMPORTANTA!
Indica/masoara cat de departe se afla valoarea unei variabile fata de valoarea medie a
unui set de date in care se afla. SD descrie cel mai bine distributia datelor colectate in jurul
valoriilor lor “medii”
◼ SD (sigma), ca si media (miu), se calculeaza numai variabilelor cantitative
numerice!
◼ Matematic SD este rădăcina pătrată a dispersiei (=variantei)
De ce? S a observat experimental (pe un graphic) ca totdeauna, minim 75 %
din observatii/valori ale variabilelor “cad”/se regasesc ca imprastiere/dispersie,
undeva in intervalul de valori [Media -2SD si Media+2SD]
Dar daca in plus distributia datelor studiate are o catacteristica
“normala” (=tip curba Gauss), atunci 95% din observatii/valori
“cad”/se regasesc (au dispersia) in intervalul de valori
[Media -2SD si Media+2SD]=“proprietatile distributiei normale”
◼ SD ne arată gradul de omogenitate a unei colectivităţi, (un SD mare,
exprimând o omogenitate mai slabă, iar o SD mică, cu atât datele/grupul e mai
omogen!)
◼ SD este necesara in calculul ES (erorii standard) si SEM (ES a mediei),
folosita ulterior la calcularea valorii unui CI95% (Statistica inferentiala =estimari)
Varianţa (=dispersia)
◼ este suma deviaţiilor faţă de medie, ridicate la pătrat şi
împărţită la numărul valorilor din esantion minus 1.
◼ principala aplicaţie a varianţei este în calcularea deviaţiei
standard SD

Coeficientul de variatie, CV
Masoara imprastierea relativa (=omogenitatea) a datelor. Este utilizat si cand se compara date
asezate pe scale diferite de masura (adica variabile de categorii diferite!). Aceste valori trebuie
ajustate inainte de a face comparatii.
Calcul:
CV= SD/media x 100%
Unde
CV este raportul dintre deviaţia standard a unei serii de date şi media aritmetică a seriei respective de date.
CV se utilizeaza in laboratoare si in procedurile de control a calitatii, se exprima in %
INTERPRETARE:
CV>+/-15% , datele au o distributie heterogena;
CV<+/-15% , datele au o distributie omogena
…..cu cât omogenitatea este mai mică ,o “medie” aleasa ca indicator agregat al esantionului analizat este
mai puţin reprezentativă!
3.) Indicatori de localizare a
dispersiei pe un grafic

Modalitati de localizare grafica a dispersiei :


1. Pe baza MEDIEI : localizare cu SD
2. Pe baza QUANTILELOR: impartire
proportionala grafica a datelor dispersiei

Exista 3 tipuri speciale de quantile:


Qvartile, Qvintile si Percentilele
◼ Qvartila: datele sunt impartite in 4 sferturi
◼ Qvintila: datele sunt impartite in 5 sectiuni
◼ Percentila (=P=1%) împarte valorile
distribuţiei în 100 de părţi egale, de 1%
◼ Percentila 50 (=P 50=50%) are valoare
statistica asemeni medianei ( si este
valoarea distributiei situate in “mijloc”, la
50%)
◼ Se folosesc asemenea si
“intervalele“/sectoarele=inter-quartilele
(=Q) :
◼ P25=Q1 (= cuprind valori ale distributiei
intre 1-25%),
◼ P50=Q2, (25-50%),
◼ P75=Q3.(=50-75%)
◼ Percentila reprezinta localizarea
grafica de 1% a procentajul unei
distributii calculate
◼ Ne permit sa aratam “pozitia” acelei
distributii, (intr un tabel de distributii
date) fata de totalul 100%.
◼ Sunt folosite doar cu date continui!
◼ Percentila 50 este si mediana seriei
◼ “Pozitia” acelei valori a distributiei
poate fi “egala/ mai mica/mai mare”
decat o anumita valoare
denumita/aleasa ca valoare
standard(de creferinta) =norma.
◼ Utilizate aproape exclusiv in
interpretarea graficelor de crestere fizica
standard (ex: in graficul de greutatea
al copilului)
◼ Setul de date situate intre a 25 si a75
percentila ( sau intre 1 a si a 3 a
quartila) se numeste si interval
interqartila

Image by Lecturio. License: CC BY-NC-SA 4.0


III. Estimarea formelor de “distributie” a datelor
colectate (a variabilelor).
Forma de distributie statistica a datelor unei variabile
studiate poate fi normala (sau simetrica, sub forma grafica
de “clopot” Gauss ) sau anormala (asimetrica, deviata la
stg/dr, “skewed”).
Importanta:
Alegerea testelor statistice de analiza ulterioara se va face in
functie de tipurile de variabile studiate si de forma (grafica)
de distributie a valorilor lor estimata (in jurul valorii lor
medii)!
“Tipul /forma grafica de Distributie” se determina cu
software ul!
FORMA DE DISTRIBUTIE A
VALORILOR/DATELOR:
“Normala” sau “anormala”?
Forma distributiei se poate determina:

a. calculand media si mediana grupurilor:


◼ daca ele sunt “identice”, se vor suprapune grafic la
ambele grupuri, deci este vorba de o distributie “normala”
◼ daca nu sunt identice valoric:distributie anormala. Daca
media <mediana: distributia variabilei respective este
asimetrica, deviata“la stanga”, daca media>mediana :
distributia este asimetrica, deviata“la dreapta”

b. reprezentand si calculand valorile mediei si


ale SD (la variabile cantitative):
Distributie normala: daca SD grupurilor nu difera “mai
mult de dublu”, intre grupurile de variabile analizate,
Distributie anormala :daca valoarea mediei-2 SD
contine cifra 0

c. grafic, prin histograma pe care vizual o verificam


daca are sau nu forma simetrica de “clopot”
d. Folosirea TS de determinare a distributiei datelor:
Kolmogorov-Smirnov (la loturi cu nr subiecti >50)
Shapiro-Wilk (nr<50)
De retinut, ca exista o relatie stransa intre nr. de subiecti ai unui
esantion si tipul de distributie al datelor si TS utilizate!
“Teoria Limitei Centrale”
…atunci cand avem cazuri putine in studiu (n<30)
distributia anormala (asimetrica, non-gausiana) este
frecvent intalnita.
Deci, deducem ca in functie de marimea
propusa a esantionului studiat (=nr. de
cazuri), se recomanda a utiliza in analiza sa
statistica ulterioara, TS dedicate uneia din
urmatoarele tipuri de distributii ideale
(“normala” si “anormala”), respectiv:
◼ TS pt distributii “normale”
parametrice (si care utilizeaza pt.
comparatii modelul statistic de
distributia Z) in studii >30
subiecti/lot)
◼ TS pt distributii
“anormale”/nonparametrice (si care
utilizeaza pt. comparatii modelul
statistic al distributiei t ), in studii
<30 subiecti/lot)

CONCLUZIE PRACTICA: pt a putea folosi


TS parametrice (dedicate datelor cu distributie
NORMALA), se recomanda ca nr. MINIM de
subiecti/pacienti din FIECARE dintre loturile
supuse studiului (inclusiv martor) sa nu fie mai
mic de 30. Altfel nu este ETIC!
IV. Testele Statistice:
Ce este un test statistic (=TS) si la ce foloseste?
Este o metodă stiintifica de luare a unei decizii (pe baze matematico-probabilistice) care, in urma analizarii
“legaturilor” dintre variabilele rezultate intr-o cercetare, ne genereaza o probabilitate p-value ce ne va ajuta
ulterior la validarea (confirmarea) sau invalidarea (cu un anumit grad de siguranţă/incredere, de regula ales
anterior la 95%) a ipotezei stiintifice cercetate in studiul respectiv.
In matematica relatia dintre doua variabile se descrie printr o FUNCTIE (ex: relatia dintre varsta si frecv
max cardiaca=F(X)=frecv max, unde x=varsta si F =fecv cardiaca). Deci TS lucreaza cu functii
matematice!
Procesul de luare a unei decizii de acceptare/neacceptare privind o ipoteza, utilizand rezultatele TS (cu p-
value), se numeste “TESTAREA IPOTEZEI”. Ipotezele unui studiu sunt: H1 (=IPOTEZA
STIINTIFICA=IPOTEZA ALTERNATIVA) si H0 (=IPOTEZA STATISTICA=IPOTEZA NULA).
TS judeca doar pe H0, consecinta acestei judecati determina daca (pe cale de consecinta )
acceptam sau nu pe H1 (ipoteza propusa de cercetator)!
Ipoteza stiintifica a studiului H1, e anterior (“aprioric”) sugerata si generata in mintea cercetatorului de
presupusul comportament al variabilelor/datelor ce urmeaza a fi analizate in studiul respectiv (prin
presupuneri personale “rezonabile” si/sau existenta de teorii si studii descriptive anterioare pe acest
subiect)! H0 este construita ulterior, imaginar, ca fiind opusa H1 (“in oglinda”).
Cu ajutorul TS si valorii p se judeca H0: un p semnificativ statistic respinge H0 (si “accepta” pe H1)
…deci raspunsul final il obtinem prin calculul lui p value, calcul realizat cu ajutorul TS!
V. “Locul” si “rolul” analizei statistice intr-un studiu clinic:
◼ Analiza statistica (prin intermediul TS) a variabilelor dintr-un studiu ne permite sa
analizam “legaturi” intre variabilele colectate de la esantioanele studiate, (pentru ca in
statistica “orice este legat de orice”, chiar daca acest lucru nu este foarte “vizibil”)!
◼ Astfel, prin TS adecvate, se determina -in functie de tipul de variabila analizata, fie stabilirea
prezentei ASOCIERILOR (intre variabile calitative dihotomice), sau prezenta de
DIFERENTE (de regula depistate din analiza “mediilor” la variabilele numerice).
CORELATIILE indica si gradul de corespondenţă, “de potrivire”, dintre 2 seturi de
măsurători/variabile, permitand si o “PREDICTIE” (=REGRESIE) a “comportamentului”
acestora (una in functie de alta/altele).
◼ Exista doua mari grupe de TS: TS parametrice (folosite pentru analiza
datelor/variabilelor cu distributie normala) si TS non-parametrice (pentru variabilele
cu distributie anormala)
◼ Cu TS vom determina rolul sansei in cadrul aparitiei acestor “legaturi”, prin calcularea p-
value, (vom determina prezenta/absenta “semnificatiei statistice” cu pragul p=<0.05).
◼ Rezultatele acestor analize statistice ( reprezentate de p value) vor fi folosite ulterior in
procesul de “testare a ipotezelor”, unde, prin intermediul interpretarii lui p-value, ne vor
servi” ca ARGUMENTE ale validarii/invalidarii H0 si indirect, pe cale de consecinta asupra
acceptarii sau nu a ipotezei stiitifice a studiului H1 (H1=ipoteza “personala”a
cercetatorului=ipoteza alternativa=Ha).
◼ O valoare de “semnificativ statistic” a p-value obtinut (adica un p=< 0.05), respinge pe Ho si
pe cale de consecinta accepta pe H1 (H1 fiind de regula “ipoteza cercetatorului”, adica cea
propusa in studiul analizat!)
◼ Ipoteza stiintifica H1 poate fi uni sau bidirectionala
◼ H0 (=nula) este creata/imaginata de cercetator ca fiind “contrara” H1 si reprezentand cealalta
“extrema” a posibilelor rezultate ale unui studiu.
VI. Alegerea testelor de analiza statistica a datelor:

Factorii care sunt determinanti pentru alegerea tipului de


analiza statistica (TS utilizate) sunt :

1. Categoria variabilei analizate : pt. ca determina implicit scara folosita pentru


ordonarea datelor “culese”….
2. Forma de distributie a datelor variabilelor analizate: datele pot avea fie o
distributie “simetrica=normala=gaussiana” sau frecvent “asimetrica=deviata”,ce
modifica in consecinta parametrii de dispersie a datelor colectate. Nr. de cazuri
din esantion influenteaza major forma de distributie a datelor!!!
3. Numarul de cazuri si nr. de esantioane comparate ( date de la 2 esantioane
sau >2 esantioane). Atentie, cel mai simplu studiu independent are MINIM 2
grupuri: “grup martor” si “grup de studiu”. Exceptia: studiul pe grup unic, cu
“imperecherea” analizei datelor la aceiasi subiecti, date colectate gen “inante si
dupa” o interventie/tratament
4. Tipul de analiza utilizata in studiu clinic: in studii cu esantioane independente:
analiza independenta (separata, individuala la fiecare grup) a variabilelor
esantioanelor (=neinperechiata) sau analiza datelor in studii cu un singur
esantion, “pe valori masurate imperechiat, inregistrate aceluiasi subiect”,
date colectate gen “inante si dupa” o interventie/tratament
Alegerea testelor statistice se face dupa: categoria variabilei analizate, dupa forma
distributiei valorilor sale (normala sau anormala), nr. de esantioane (grupuri) si tipul
cercetarii (pe esantioane independente sau imperechiate):

Pentru analiza variabilelor cantitative se aplica teste


statistice parametrice si non-parametrice, in functie de
“distributia”datelor acestora.

▪ Pentru analiza variabilelor cantitative cu distributie normala , se aplica teste parametrice :

1. Testul t (Student): folosit in studii cu doua esantioane


2. Testul F ( factorial /AN.O.VA) : folosit in studii cu peste 3 esantioane

Exceptie: Variabila cantitativa cu aparenta distributie normala, dar cu dispersie (reprezentata


de deviatia standard SD) mult diferita intre grupurile comparate (SD diferite la loturi,dar SD
>2 SD. Pt ca acest lucru indica de fapt o distributie anormala!!!). Aici se utilizeaza teste non-
parametrice!
Atentie: deci verificati totdeauna si valorile SD ale grupurilor,pt stabilirea tipului de
distributie…
◼ Pentru analiza variabilelor cantitative cu distributia
anormala si pentru variabilele calitative-ordinale,
folosim Testele non-parametrice :
◼ pentru comparatia a doua grupuri folosim testul
Mann/Withney U
◼ pentru comparatia a peste 3 grupuri, testul Kruscall/Wallis.

◼ Variabilele calitative-nominale si “dihotomice”


utilizeaza pentru compararea frecventelor/proportiilor lor:
◼ Hi-patrat (hi2)/table de contingenta/teste de asociere,
◼ variantele Hi2: Yeats sau Fisher (la N sub 50 cazuri).
In concluzie, alegem un test nonparametric
in urmatoarele situatii…

◼ Variabila cercetata este calitativa-ordinala cu distributie


anormala

◼ Variabila cercetata este cantitativa cu distributie anormala

◼ Variabila cercetata este cantitativa cu distributie “normala”,


dar cu dispersie -reprezentata prin deviatia standard SD
mult diferita la fiecare din grupurile comparate.
Practic: daca grupurile de variabile au valori SD diferite, (=adica au valori
SD diferite si“difera” /depasesc -una fata de alta- cu mai mult de “doua” SD)
acesta este un semn de distributie anormala! Acest lucru cere TS non
parametrice
Regula: la analiza de variabile cantitative (numere) totdeauna apreciati si
valoarea SD, nu numai forma distributiei! (de regula software-ul va
semnalizeaza!)
Alegerea TS dupa tipul de design din studiu:
Esantioanele sunt analizate independent (“separate”), sau sunt analizate
“imperecheat”?
Analiza imperecheata a esantioanelor implica folosirea variantelor de TS
“paired”

Analizare PAIRED= utilizate in studii imperecheate , adica sunt acele studii care ofera analizei date ce
provin din măsurători repetate pe aceiasi pacienti ( gen “inainte” si “dupa..”) sau pe un esantion/eşantioane,
cu date împerecheate.
Singura “imperechere perfecta” se realizeaza cand “imperechem” datele pacientului “cu el insusi”(adica avem
comparatii ale datelor la fiecare pacient, masurate “inainte si dupa” o interventie) ...adica la studii in care
valorile variabilei respective “se masoara de doua ori la acelasi subiect”, adica “inainte de interventie…”-“dupa”
aplicarea interventiei (tratament/expunere/procedura!) …cu alte cuvinte, masuram “ceva” (o
variabila/valoare) de doua ori , la acelasi subiect (la unul sau mai multe esantioane de
subiecti).

Analizare UNPAIRED=INDEPENDENT (SEPARATA), utilizata in (restul) studiilor


in care se fac comparatii intre variabile similare dar masurate la pacienti diferiti, provenind din grupuri diferite, pe
minim doua esantioane diferite (“lot cazuri/cu boala” si “lot de control/lot martor”)
◼ Dacă datele/ variabilele obtinute provin din esantioane analizate
neîmperecheat=unpaired, inseamna ca datele provin de fapt de la
eşantioane diferite, deci independente. In acest caz vom folosi
testele statistice “obisnuite”, anterior mentionate, conform
categoriei de variabila studiata!

◼ Cand variabilele urmarite sunt studiate in mod “imperecheat”,


folosim teste statistice “imperecheate “(teste paired), parametrice
sau nonparametrice

Pentru variabile/datele studiate imperecheat=“paired” , se vor


utiliza variantele “împerecheate” ale TS dedicate acestor tipuri
de variabile, adica:
◼ In locul testului t: testul t împerecheat (t-paired);
◼ In locul testului Mann-Whitney U: testul Wilcoxon;
◼ In locul ANOVA: ANOVA pentru măsurători repetate.
VII. TIPURI PRINCIPALE DE TESTE STATISTICE
ATENTIE: Determinarea practica a p-value se face fie modern, cu ajutorul software-ului specializat
sau in mod classic cu Tabele statistice (calcul statistic tabelar)

1. Teste ce analizeaza variabile CALITATIVE

A. Teste de analiza a “ASOCIERII”/Hi2/ Fisher, Yeats/Tabele de


Contingenta
◼ Este modul de analiza a legaturii dintre doua variabile calitative nominale, de
regula dihotomice,
◼ Este efectuata prin TS de analiza a asocierii=tabelele de
asociere=contingenta=tabele hi2, rezultand calcularea indicatorului hi2.
Acesta este folosit ulterior in tabele specializate pt calculul lui p value.
◼ Calculul p value cu ajutorul Hi2 se poate face: automat (cu software) sau
classic (“calcul tabular/tabelar”)
◼ „Asocierea” incearca sa determine daca exista o legatura adevarata intre doua
variabile calitative, examinand in ce masura valorile specifice unei variabile
sunt asociate cu valorile specifice ale celei de a doua variabile, (si intr-un grad
de probabilitate suficient de mare,anterior stabilit de 95%, ca aceasta sa nu fie
doar efectul erorii de esantionare=noroc. Deci pt un “p=<5%” 0.05).
◼ Testele de asociere sunt folosite cand dorim sa stim daca aceste tipuri de
“legaturi” sunt suficient de puternice si consistente, pentru a elimina rolul
sansei/ intamplarea.
TS de analiza a asocierii “Hi2”:
=TS tabele de asociere”=tabele Hi-patrat= tabele de contingenta=tabele de “frecvente”

◼ Tabelul de contingenta este generat de software si e utilizat in comparatia a doua


variabile calitative nominale dihotomice (=„variabile cu doar doua tipuri posibile de
valori”): gen tip de tratament (individual/grup) si absenta/prezenta efectului asteptat
asupra pacientului, da/nu.
◼ Exemplu: in aceste studii pacientii “difera” dichotomizat, fie dupa tipul de tratament (pe
care “l-au primit”/”nu l au primit” -aici tratamentul=variabila independenta=cauza) sau
rezultatele studiului pot varia datorita “prezentei”/”absentei” efectului, (aici
efectul=boala=variabila dependenta).
◼ Tabelul de contingenta cel mai simplu (cu doua variabile calitative nominale
dihotomice) identifica cele patru “celule/casute”din tabel cu literele a, b, c si d.
Exemplu: vezi in studii de cohorta, caz martor, RCT
◼ Categoriile variabilelor nominale din tabelul de asociere pot fi puse in orice ordine,
deoarece ele fiind de nivel nominal, nu exista o ordonare dupa rang sau alte diferente
cantitative.
◼ Matematic, este posibil sa folosim analiza tabelelor de asociere si cu variabile calitative de
nivel ordinar. Dar atentie, valorile lor, in aceste cazuri, sunt tratate fara sa se tina cont de diferentele
cantitative pe care le reflecta (deci “nu ca si numerele”), ci ca si cum ele ar reprezenta doar diferente
calitative.( vor fi codate 0 si 1)
◼ Tabelele de asociere prezinta/ilustreaza de obicei frecventele (nr. pacienti), pentru
variabila independenta (=tratamentul) si pentru cea dependenta (=efectul
masurat=boala).
◼ Se recomanda ca in toate tabelele, variabila dependenta/efectul sa fie dispusa pe
coloane, iar variabila independenta sa fie dispusa pe linii.
Calculul indicatorului hi2
◼ Cu ajutorul TS Hi2/Fisher se generaza valoarea lui hi2 ➔ apoi vom calcula ulterior p
(evtl si CI95% al parametrului/indicatorului agregat respective droit a fi estimat pt
populatie)
◼ hi-patrat este afectat de marimea tabelului de asociere pe baza caruia este calculat!
“Marimea tabelului “ se refera aici la numarul mare de coloane si de linii (care genereaza
numarul total de “celule”) din tabel. Cu cat tabelul este mai mare, cu atat este mai probabil
sa avem o valoare mai mare al lui hi2. Aceasta reiese evident din faptul ca valoarea hi-patrat
este suma cifrelor derivate din fiecare dintre celule. Cu cat sunt mai multe celule intr-un
tabel, cu atat vor fi mai multe cifre care adunate, si vor creste valoarea lui hi-
patrat.Dimensiunea tabelului este exprimata in termeni matematici de „grade de
libertate”.
Numarul de grade de libertate df pentru un tabel de asociere Hi2 este egal cu “numarul de linii
minus unu, inmultit cu numarul de coloanelor minus unu”.
df = (r-1) (c-1)
unde:
df = grade de libertate (=degreeds freedom)
r = numarul de linii (=rows)
c = numarul de coloane (=columns)
◼ Deci toate tabelele de asociere formate din doua linii si doua coloane (au doar patru
celule: a.b.c.d) si au gradul 1 unu de libertate (frecvente in studii cu doua grupe tip RCT, Cohorte,
caz martor)
Determinarea tabelara a p-value cu ajutorul valorii calculate a
lui Hi 2

◼ Primul pas pentru a determina daca valoarea lui hi2 (anterior calculata ) pentru un tabel de
asociere dat, sugereaza sau nu o asociere statistic semnificativa intre variabilele studiate, consta
in a gasi linia/randul care corespunde gradelor de libertate ale tabelului de asociere
analizat in “Tabelul cu Valori critice pentru hi-patrat”
◼ Calcul clasic/tabelar: cele sase valori ale lui hi2 gasite din fiecare linie ale “Tabelului cu Valori
critice pentru hi-patrat”sunt valori hi-patrat carora le corespunde cate o valoare a lui p , indicata in
capul de tabel al coloanelor respective (Sus). Vom cauta in lungul liniei/randului pentru a
gasi locul unde ar “cadea” valoarea noastra anterior calculata a lui hi2. Daca nu
“cadem” pe o valoare exacta al lui Hi2 , vom considera (tot in randul respectiv din
tabel) ca valoare “valabila” numarul din stanga locului cel mai apropiat de unde ar
“cadea” valoarea lui hi2 calculata de TS.
◼ Ulterior ne vom deplasa vizual in sus, la varful coloanei, unde vom gasi/citi valoarea
probabilitatii p “asociata”/corespunzatoare valorii noastre calculate a lui hi2.
◼ La alegerea valorii p vom tine cont si de “directionalitatea” ipotezei statistice a
studiului : two-tailed (bidirectionala) sau one-tailed (unidirectionala)
◼ Nivel de semnificatie p pentru un test
directional
◼ .10 .05 .025 .01 .005 .0005

◼ Nivel de semnificatie p pentru un test Determinarea tabelara a p-value cu Hi2:


nedirectional


df
1
.20
1.64
.10
2.71
.05
3.84
.02
5.41
.01
6.64
.001
10.83
….dupa ce calculam hi2 cu TS, alegem din Tabelul
◼ 2 3.22 60 5.99 7.82 9.21 13.82 cu Valori critice pentru hi-patrat”totdeauna numarul


3
4
64
5.99
6.25
7.78
7.82
9.49
9.84
11.67
11.34
13.28
16.27
18.46
din stanga locului cel mai apropiat de unde ar
◼ 5 7.29 9.24 11.07 13.39 15.09 20.52 “cadea” / “s-ar potrivi”valoarea hi2 calculata de soft.


6
7
8.56
9.80
10.64
12.02
12.59
107
15.03
16.62
16.81
18.48
22.46
232
Apoi ne deplasam in capul randului si aflam p value!
◼ 8 11.03 13.36 15.51 18.17 20.09 26.12
◼ 9 12.24 168 16.92 19.68 21.67 27.88 Exemplul practic: daca valoarea calculata pentru hi-patrat este de 8,2,
◼ 10 13.44 15.99 18.31 21.16 23.21 29.59
◼ 11 163 17.28 19.68 22.62 272 31.26 pentru un tabel de contingenta cu un grad de libertate, vom proceda:
◼ 12 15.81 18.55 21.03 205 26.22 32.91 ◼ Pentru hi-patrat de 8,2; cautam cele doua valori HI2 apropiate
13 16.98 19.81 22.36 25.47 27.69 353

◼ 14 18.15 21.06 23.68 26.87 29.14 36.12
din prima linie a Tabelului (pt ca Df=1) intre care se “regaseste”
◼ 15 19.31 22.31 25.00 28.26 30.58 37.70 aceasta valoare calculata. Valoarea noastra hi-patrat, 8,2 este deci
◼ 16 20.46 23.54 26.30 29.63 32.00 39.29 “localizata” intre valorile critice de 6,64 si 10,83 din tabel.
◼ 17 21.62 277 27.59 31.00 33.41 40.75 Ulterior ne vom deplasa vizual in sus, la varful coloanei,


18
19
22.76
23.90
25.99
27.20
28.87
30.14
32.35
33.69
380
36.19
42.31
43.82
unde vom gasi/citi valoarea probabilitatii p
◼ 20 25.04 28.41 31.41 35.02 37.57 45.32 “asociata”/corespunzatoare valorii noastre hi2:
◼ 21 26.17 29.62 32.67 36.34 38.93 46.80 ◼ Daca ipoteza noastra a fost unidirectionala, (adica pacientii care
◼ 22 27.30 30.81 33.92 37.66 40.29 48.27 primesc tratamentul X au o rata mai inalta de succes decat pacientii
◼ 23 28.43 32.01 35.17 38.97 41.64 49.73 care primesc tratamentul Y), observam ca rezulta un p value despre
◼ 24 29.55 33.20 36.42 40.27 42.98 51.1 care putem spune ca respinge ipoteza nula,deoarece exista o
◼ 25 30.68 338 37.65 41.57 431 52.62 probabilitate de doar 0,005 de a face o eroare de tipul I (doar de “5
◼ 26 31.80 35.56 38.88 42.86 45.64 505 dintr-o mie”). Pe scurt, ipoteza noastra directionala Ha, poate fi
26 31.80 35.56 38.88 42.86 45.64 505

considerata ca valida, (pentru ca acum are suport statistic, deoarece
◼ 27 32.91 36.74 40.11 414 46.96 55.48
◼ 28 303 37.92 41.34 45.42 48.28 56.89
p=0,005 este mult mai mic decat conventionalul p=0,05).
◼ 29 35.14 39.09 42.69 46.69 49.59 58.30 ◼ Daca ipoteza noastra ar fi fost nedirectionala (=bidirectionala),
◼ 30 36.25 40.26 43.77 47.96 50.89 59.70 putem inca a considera ca avem suport statistic si pentru ea, pentru ca
◼ 32 38.47 42.59 46.19 50.49 53.49 62.49 probabilitatea p corespunzatoare obtinuta este in continuare tot mai
◼ 34 40.68 490 48.60 53.00 56.06 65.25 mica decat 0,01, (si care este mai mica decat valoarea conventionala de
◼ 36 42.88 47.21 51.00 55.49 58.62 67.99 p=0,05).
◼ 38 45.08 49.51 53.38 57.97 61.16 70.70
◼ 40 47.27 51.81 55.76 60.44 63.69 73.40 ◼ Sa tinem minte ca trebuie sa folosim in tabel totdeauna
◼ 44 51.64 56.37 60.48 65.34 68.71 78.75 “valoarea” din stanga valorii calculate a lui hi-patrat pentru a
48 55.99 60.91 65.17 70.20 73.68 804

◼ 52 60.33 65.42 69.83 75.02 78.62 89.27 determina corect nivelul probabilitatii p !.
◼ 56 666 69.92 747 79.82 83.51 946
◼ 60 68.97 740 79.08 858 88.38 99.61
Prezentarea si comunicarea practica a rezultatelor statistice
ale unei analize de asociere cu Hi2

◼ In primul rand, vom genera in soft tabelul de asociere


Hi2/tabelul cu frecventele variabilelor observate,
◼ Calculam/precizam gradele de libertate (df),
◼ Obtinem hi2 si “plasam” valoarea obtinuta in Tabelul
de valori critice hi-patrat si determinam ulterior
probabilitatea p pt ca rezultatul sa se datoreze
intamplarii. P obtinuta va fi prezentata in text “ca
asociata” valorii noastre Hi2, la sfarsitul oricarui tabel
de asociere.
◼ Atentie, cele doua notiuni nivelul probabilitatii p si
nivelul de semnificatie precum si notatiile lor
corespunzatoare gen ***sign sunt absolut
echivalente statistic cu p value.

Exemplu: cele trei elemente ale unei analize de


asociere vor fi prezentate in lucrari astfel:

2 = 8,2; df =1 ; p < 0,005


B. Teste de analiza a CORELATIEI
Relatia de “corelatie” este tot o forma a asocierii, ce apare numai la compararea a doua
variabile cantitative (numerice) analizate in interiorul unui esantion
TS de corelatie sunt utilizate cand testam asocierea prin
comparare a doua variabile cantitative din acelasi
grup/esantion, presupunand ca una este influentata de
cealalta (Y este variabila dependenta si X cea
independenta). Se analizeaza doua aspecte:
1. Descrierea vizuala a unei “relatiei” intre X si Y
➔prin metoda grafica, a diagramei de
dispersie/imprastiere (=“nor”)
2. Descrierea cantitativa a relatiei de corelatie intre Y si
X implica si “predictia” evolutiei sale ➔ prin metoda
matematica “a regresiei”=o predictie! (se realizeaza printr
o functie matematica)
Termenul de „predictie” in statistica este sinonim
cu cel de „regresie”!!! .
Cea mai simpla regresie (predictie) este cea liniara
(=regresia simpla, liniara). Modelele mai complexe de
relatie intre variabile (regresia multipla) pornesc
matematic tot de la aceasta.
Corelatia depinde de DISTRIBUTIA (SD) si N
(nr) datelor numerice (cantitative) analizate:
1. TS - coeficientul de corelatie Pearson, “r”, in
cazul in care valorile studiate au distributia normala,
gaussiana.
2. la variabile cu distributie anormala, le evaluam statistic
corelatia cu TS- coeficientul de corelatie
Spearman “rho”
Exprimarea vizuala a corelatiei dintre doua vb.numerice= diagrama de dispersie
1.Intensitatea corelatiei

Descrierea vizuala a unei “relatii” intre X si Y


➔ prin metoda reprezentarii grafice este
diagrama de dispersie=“norul de puncte”
◼ 1. INTENSITATEA CORELATIEI: legatura
dintre doua variabile cantitative este „cea
mai puternica” atunci cand toate rezultatele
“cad” sub forma/de-a lungul unei linii Vom porni de la un grafic pe doua coordonate: in care
drepte. Linia care uneste si trece prin toate intotdeauna pe axa verticala Y vom trece
variabila dependenta/efect, iar pe axa orizontala
punctele diagramei de imprastiere este X= variabila independenta/cauza.
numita linie de regresie. Programul SPPS realizeaza acest grafic foarte usor cu
◼ In aceste foarte rare cazuri, (in care exista o legatura optiunea Scatterplot (Graph–Scatter–Simple), unde
perfecta =linie dreapta=regresie lineara), putem si prezice vom aseza variabilele pentru axa Y (dependenta) si
cu precizie (de 100%) ca unei valori Y ii corespunde o axa X (independenta).
anume valoare X, si viceversa, prin metoda matematica
cantitativa a regresiei lineare.
◼ In cazurile obisnuite, unde intensitatea legaturii este mai
putin perfecta, linia de regresie este mai putin distincta, iar
capacitatea noastra de a prezice valorile unei variabile din
valorile alteia este supusa erorii!
2. Directia corelatiei
◼ 2. DIRECTIA legaturii dintre variabile, poate fi
descrisa de semnul +/- :
◼ pozitiva, daca valorile inalte ale lui X
sunt asociate cu valorile inalte ale lui Y, si
viceversa.(corelatie directa)
◼ negativa valorile inalte ale unei variabile
sunt asociate cu valorile scazute al celei
de-a doua variabile si vice-versa. (corelatie
inversa)
◼ In cercetarea medicala, in anumite legaturi nu se
va putea distinge corelare (nici directia si nici
intensitatea) ➔ cu alte cuvinte nu exista
legaturi intre variabile daca obtinem un p
nesemnificativ statistic➔ duce la “acceptarea
H0” (si astfel, indirect,se respinge H1=ipoteza
cercetatorului, ce presupune o “asociere” intre
variabile)).
◼ Exprimare statistica: cf unui p value semnificativ
obtinut, “legaturile dintre variabilele cantitative (de
nivel/tip interval sau rapoarte) pot reflecta un
anumit grad de corelatie, ele mergand de
la aproape perfecta =corelatie perfecta si pana la abia
distinctibila =corelatie nonperfecta”.
Indicatorul statistic al corelatiei: r, Pearson
“r“ se calculeaza numai pt. date cantitative cu distributie normala
◼ TS de corelatie Pearson, generaza valoarea coeficientului de corelatie r:
acesta variaza intr-un continuum de valori, de la o extrema -1,0
(=legatura perfect negativa) la o alta extrema +1.0 (=legatura
perfect pozitiva), cu 0.00 (=fara corelatie) ca punct de mijloc.
◼ Un coeficient de corelatie nu poate fi mai mare decat 1.00 sau
mai mic decat -1.0.
Intervalul de valori in care variaza coeficientul de corelatie r:
| | |
-1.0 0.0 +1.0
◼ Cu cat valoarea numerica a coeficientului de corelatie este mai
aproape de una din valorile extreme (-1 sau +1), cu atat mai
puternica este legatura de corelatie dintre cele doua variabile
cantitative.
◼ De exemplu, un coeficient de 0,92 este mai apropiat de o corelatie perfecta decat
oricare din coeficientii -0,65 sau 0,60 si de aceea, sugereaza o mai puternica corelatie Indicele r este o expresie a abilitatii
decat oricare dintre celelalte doua. noastre de a prezice evolutia
◼ Cu cat coeficientul este mai apropiat de mijlocul acestui interval valorilor unei variabile din
(0.0)cu atat legatura dintre cele doua variabile cantitative este informatiile pe care le avem despre
o valoare a celeilalte variabile.
mai slaba. Un coeficient de corelatie care este apropiat de Nu este implicata nici o relatie de
valoarea 0 sugereaza ca nu exista nici o legatura intre variabile. cauzalitate.
◼ Semnul plus sau minus indica “directia” legaturii. Argumentul care explica ca variabila
◼ Exemplu, corelatia r dintre nivelul indemanarii asistentilor medicali si anii de experienta cauzeaza variatia alteia, trebuie sa se
profesionala poate fi de 0,8. Absenta semnului minus indica o legatura pozitiva. bazeze pe alti factori.
Corelatia dintre nivelul de indemanare si nivelul de apatie a celor care muncesc (cele Deci e important de retinut:
doua variabile analizate) poate fi de -0,75, indicand astfel o puternica legatura negativa. prezenta corelatiei nu implica
Adica exista persoane care sunt mai apatice si neimplicate in munca lor, astfel este obligatoriu si cauzalitatem dar
normal ca ele sa fie mai putin indemanatice, si viceversa. poate sa o sugereze !!!
Criteriile BRADFORD HILL
Coeficientul de corelatie r/Pearson:
1. Masoara intensitatea unei relatii liniare dintre doua variabile X si Y, dintre
care una poate fi considerata variabila independenta/cauza, iar cealalta
variabila dependenta/efect.

Deci r este un indicator numeric al intensitatii si al directiei oricarui model de asociere care exista intre valorile unei
variabile cu valorile altei variabile

2. Semnul coeficientului de corelatie r indica directia legaturii dintre cele doua


variabile. Dar a fost determinata corelatia dintre variabilele analizate ca fiind
corespunzatoare “in directia in care s-a formulat ipoteza”, adica este o corelatie
pozitiva/negativa? Valoarea lui p =< 0,05 este in general acceptat ca suport pentru
existent unei legaturi dintre doua variabile.
TabelValorile critice ale coeficientului de corelatie r
Nivel de semnificatie p pentru un test directional
.025 .005 .025 .005
Nivel de semnificatie p pentru un test nedirectional
n
3
.05
.997
.01
.999
n
38
.05
.320
.01
.413
Calculul tabelar al lui p cu ajutorul r
4 .950 .990 39 .316 .408
5 .878 .959 40 .312 .403
6 .811 .917 41 .308 .398 ◼ 1. calcularea lui r conform formulei lui de calcul
7 .754 .874 42 .304 .393 prezentate anterior,
8 .707 .834 43 .301 .389 ◼ 2.vom gasi in Tabelul cu valori critice a lui r ,
9 .666 .794 44 .297 .384
10 .632 .765 45 .294 .380
nivelul de probabilitate p asociat/corespunzator cu r –
11 .602 .735 46 .291 .374 ul obtinut (calculat pe baza dimensiunii esantionuluim
12 .576 .708 47 .288 .372 N).
13 .553 .684 48 .284 .368 ◼ 3.Valoarea acestui p ne va permite apoi sa hotaram
14 .532 .661 49 .281 .364 daca putem respinge ipoteza nula, sau nu , dupa
15 .514 .641 50 .279 .361 valoarea p-ului determinat! (respingem H0 la un
16 .497 .623 55 .266 .345
17 .482 .606 60 .254 .330
p=< 0.05).
18 .468 .590 65 .244 .317 ◼ ➔ Stim ca nivelul minim de semnificatie 0,05 este in
19 .456 .575 70 .235 .306 general acceptat ca suport pentru o legatura “reala”
20 .444 .561 75 .227 .296 dintre doua variabile!!!
21 .433 .549 80 .220 .286
22 .423 .537 85 .213 .278
◼ 4.Cu informatia astfel obtinuta, putem prezenta
23 .413 .526 90 .207 .270 rezultatele noastre intr-o fraza de genul:
24 .404 .515 94 .202 .263 “Intre variabilele independenta si cea dependenta pentru n=20
25 .396 .505 100 .195 .256 de subiecti, s-a gasit o corelatie r = -0,57, la nivelul de
26 .388 .496 125 .170 .230 semnificatie p < 0,01, ceea ce indica prezenta unei corelatii
27 .381 .487 150 .159 .210 negative statistic semnificative intre cele doua variabile”
28 .374 .478 175 .148 .194
29 .367 .470 200 .138 .181
30 .361 .463 300 .113 .148 Interpretare Coeficient Pearson r (R=calculat la esantion)
31 .355 .456 400 .098 .128 Valoare R Grad de asociere
32 .349 .449 500 .088 .115
33 .344 .442 600 .080 .105 0.8-1 Importanta
34 .339 .436 700 .074 .097 0.5-0.8 Moderata
35 .334 .430 800 .070 .091 0.2-0.5 Slab
36 .329 .424 900 .065 .086 0-0.2 Neglijabil
37 .325 .418 1000 .062 .081
C. TS de regresie (=“PREDICTIE”)
Exprimarea matematica a relatiei de corelatie
a doua vb. numerice=Regresia lineara=
regresia“simpla”
Este relevata prin calculul unei functii matematice (ce transpune
norul de puncte) si care poate exprima “predictiv” dependenţa
dintre două variabile numerice.
Se foloseşte ecuaţia de regresie liniară : care genereaza dreapta de
regresie:
y = a·x +b
Unde:
y este variabila dependentă/efectul *(cea pe care o vom “prezice”)
x este variabila independent/cauza.
1. Parametrul/coeficient a (=panta dreptei de regresie = „slope”)• Coeficientul a reprezinta panta dreptei de regresie si
este denumit „coeficient de regresie” ,si nu trebuie confundat ne arata cu cate unitati creste in medie Y atunci cand
cu „coeficientul de corelaţie”!! il vom creste pe X cu o unitate=coef de regresie
2. Parametrul/coeficientul b=”intercept” • Coeficientul b ne arata unde va intersecta dreapta de
regresie pe axa X
Estimarea Pentru ca relatia intre variabile este (presupusa) liniara, scopul
parametrilor a predictiei (=analizei de regresie lineara) devine unul de a
descoperi/calcula/prezice „curba grafica” (=in acest caz nostru
(„slope”) şi b
„curba” este o „dreapta”!) care impreuna cu r, va aproxima cel mai
(„intercept”) se bine relatia dintre variabilele noastre
face uzual prin ➔Aceasta curba poarta numele de „dreapta de regresie”.
„metoda celor mai “Dreapta “obtinuta nu face altceva decat sa aproximeze valorile
mici pătrate” reale ale lui Y! in functie de cele ale lui X(cauza)!!
2. Teste de analiza a variabilelor cantitative
..sau TESTE STATISTICE DE ANALIZA A “DIFERENTELOR” DINTRE “MEDII”
sunt utilizate cand comparam variabilele de categorie cantitativa provenite de la doua esantioane diferite
(INDEPENDENTE)

Testul Student t si F-ANOVA


Compara statistic valori gen “medii”, calculate ca indicatori statistici agregati
characteristici ai variabilelor numerice, din eşantioane.
Aceste Ts necesita in analiza lor statistica două tipuri de indicatori agregati, specifii calculati
doar pentru variabilele cantitative (numerice) impreuna cu N (nr de cazuri):
◼ “Mediile”
◼ “SD”
◼ N (nr de cazuri)

REMARCA:
Ts de analiza a “diferentelor dintre medii” (t Student si F-ANOVA) sunt folosite in
algoritmul din ANALIZA DE REGRESIE MULTIPLA , a mai multor categorii de
variabile (de regula numerice si provenite din INTERIORUL unui esantion), atunci
cand una din variabilele-de obicei cea „dependenta/efect”, este calitativa-nominala
iar celelalte variabile numerice, de obicei variabile „independente/cauze”, sunt de
categorie cantitativa- interval .
Testul Student ”t” si F-ANOVA:
◼ Cu testult putem compara marimile a doua grupuri
de variabile cantitative (prin intermediul compararii
“mediilor” acestora), daca au distributie normala
◼ Distributia asimetrica (anormala): va trebui folosit
un alt test: testul Mc Neamar, testul exact Ficher,
testul Man-Whitney, etc.
◼ In functie de tipul de studiere al esantioanelor:
a. daca cercetam doua esantioane diferite de
subiecti (studiere independenta”/unpaired)
=Independent Samples/unpaired- t Test
b. in cazul studierii acelorasi subiecti (un grup) in
mod “imperecheat”, dar la momente diferite
de timp ( gen „inainte” si „dupa”…)
=Paired Sample -t Test.

◼ Daca nr de grupuri analizate este peste 2,


utilizam ANOVA
◼ One Way ANOVA
◼ Factorial ANOVA
Determinarea tabelara a lui p pentru o
valoare ”t ”/F anterior obtinuta:
◼ Se genereaza “tabelul diferentelor mediilor” pentru variabilele analizate (similar
tabelului Hi2) si se calculeaza gradele sale de libertate (=df) dupa formula:
df = N – 2 unde N este nr. de cazuri
◼ Se calculeaza de catre TS (manual /software) valoarea lui t
◼ In Tabelul cuprinzand valorile critice ale lui t se va cauta linia corespunzatoare
gradelor de libertate df (calculate anterior si afisate pe prima coloana a tabelului).
◼ Se localizeaza valoarea t obtinuta prin calcul (doar valoarea sa absoluta,
netinand cont de semnul valorii+/-!) intre valorile t tabelate si ulterior se alege
in capul de tabel p-value corespunzator, fie pentru testul directionat (=one-
tailed), fie pentru cel nedirectionat (=two-tailed), conform tipului enuntat al
ipotezei de cercetare!
◼ Valoarea t obtinuta din calcule, este “semnificativa” daca ea este mai
mare sau egala cu valoarea t listata in tabelul cu valori critice!!!
Exemplu: Daca valoarea t calculata, este mai mare decat valoarea critica din tabel
(corespunzatoare la gradele de libertate anterior calculate), nivelul de
semnificatie p generat va fi mai mic decat 0.05 (pentru o ipoteza nedirectionata) si
mai mic decat 0.025 (pentru o eventuala ipoteza directionata), deci se va respinge
ipoteza nula, validandu se H1!
Tabelul „Valori Critice pentru testul t”
Nivele de semnificatie p pentru testul directionat (one-tailed) Calcul tabelar al lui p value cu
0.10 0.05 0.025 0.01 0.005 0.0005

df
Nivele de semnificatie p pentru testul nedirectionat (two-tailed)
0.20 0.10 0.05 0.02 0.01 0.001
ajutorul t :
1 3.078 314 12.706 31.821 63.657 63619
2 1.886 2.920 4.303 965 9.925 31.689
3 1.638 2.353 3.182 4.541 5.841 12.941
4 1.533 2.132 2.776 3.747 4.604 8.610 ◼ Valoarea t obtinuta din calcule,
5
6
1.476
1.440
2.015
1.943
2.571
2.447
3.365
3.143
4.032 859
3.707 5.959
genereaza ulterior (prin
7 1.415 1.895 2.365 2.998 3.499 5.405 determinare tabelara, identica
8 1.397 1.860 2.306 2.896 3.355 5.041 celorlalte TS), valoarea lui p .
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.587 ◼ Atentie la directionalitatea ipotezei
11 1.363 1.796 2.201 2.718 3.106 4.437
12 1.356 1.782 2.179 2.681 3.055 4.318 ◼ Vom prezenta in tabele de date valorile
13 1.350 1.771 2.160 2.650 3.012 4.221 “mediilor” variabilelor studiate pentru
14 1.345 1.761 2.145 2.624 2.977 4.140
15 1.341 1.753 2.131 2.602 2.947 4.073 fiecare esantion in parte.
16
17
1.337
1.333
1.746
1.740
2.120
2.110
2.583
2.567
2.921
2.898
4.015
3.965
◼ Astfel acestea vor fi prezentate in
18 1.330 1.734 2.101 2.552 2.878 3.922 capitolul Rezultate, inclusiv valoarea
19
20
1.328
1.325
1.729
1.725
2.093
2.086
2.539
2.528
2.861
2.845
3.883
3.850
lui t, gradul de libertate (df) si valoarea
21 1.323 1.721 2.080 2.518 2.831 3.819 probabilitatii p asociate.
22 1.321 1.717 2.074 2.508 2.819 3.792
23 1.319 1.714 2.069 2.500 2.807 3.767
24
25
1.318
1.316
1.711
1.708
2.064
2.060
2.492
2.485
2.797
2.787
3.745
3.725
ATENTIE:
26 1.315 1.706 2.056 2.479 2.779 3.707 se recomanda a se raporta atat analizele
27 1.314 1.703 2.052 2.473 2.771 3.690
28 1.313 1.701 2.048 2.467 2.763 3.674 statistice care au permis respingerea H0 (
29 1.311 1.699 2.045 2.462 2.756 3.659 adica TS soldate cu p “semnificativ
30
40
1.310
1.303
1.697
1.684
2.042
2.021
2.457
2.423
2.750
2.704
3.646
3.551
statistic”) dar si rezultatele TS care au
60 1.296 1.671 2.000 2.390 2.660 3.460 validat-o!
 1.282 1.645 1.960 2.326 2.576 3.291
◼ Folosirea sa in studii care cauta evaluarea eficacitatii diferitelor
interventii chirurgicale (in RCT). Aici cautam sa aflam daca o metoda
de interventie este in mod real mai buna decat alta pentru obtinerea
Aplicare calcul t

rezultatelor dorite.
Testul t este ideal pentru a fi folosit in situatii in care avem de comparat in RCT:
doua grupuri (interventia A/interventia B) si deci valorile unei variabile
independente de tip nominal, cu o variabila dependenta (efectul, boala,
decesul, comportamentul, atitudinea, valoarea sau orice altceva) pe care
speram sa o gasim afectata, si care este cuantificata ca variabila
cantitativa-(interval sau raport)
◼ Esantioanele mari sunt rar disponibile, in special in situatii clinice,
testul t este potrivit si pentru cercetarile care folosesc un numar mic de
cazuri (de exemplu, un total de doar 20 sau 30 de cazuri).
◼ Esantioanele analizate cu TS Student “t” nu trebuie neaparat sa
contina un numar egal de cazuri (ne referim la cele numarate la finalul
studiului). Pentru ca si in cercetarile planificate cu mare grija, de
exemplu cele asupra eficacitatii unui tratament, exista oameni care
renunta inainte ca studiul sa fie terminat (abandon,pierderi),aceasta
conduce la o situatie in care exista mai multe cazuri intr-un grup decat
in altul. Discrepanta finala dintre dimensiunea celor doua grupuri este
automat controlata prin formula testului t.

Exemplu practic pentru RTC


Cohorta initiala e extrasa din “populatia generala de pacienti” ( cf criterii
includere/excludere) este divizata randomizat in (minim) doua grupuri, pe baza
valorii fiecarui caz pentru una din cele doua categorii = variabila =de nivel nominal
(de exemplu, “interventia A” sau “interventia B” dintr un studiu). Marimile
rezultatelor, mediilor variabilei de nivel cantitativ- (interval sau de rapoarte) pentru
cele doua grupuri sunt apoi comparate cu cele variabila nominala folosind Ts Student
t. Mediile celor doua grupuri sunt probabil diferite; deci testul t este o analiza corecta
a “marimii acestei diferente”dintre ele. Cu ajutorul lui t calculam p si estimari cu
CI95%.
ALTE TIPURI DE TESTE STATISTICE COMPLEXE
1. Analiza multi-variata (=AM=”analiza multi-variabila”):

◼ AM ne permite sa determinam contributia independenta a unor variabile


=a fiecaruia dintre “factorii de risc multipli” (=“concurenti”), in aparitia
unei boli. Acesti factori sunt numiti factori de risc sau variabile independente, iar
boala in acest caz este numita efect sau variabila dependenta (..deoarece dependenta
este unidirectionala, boala este totdeauna o consecinta si nu invers!).
◼ TS de AM variaza dupa forma/tipul si nr. variabilei dependente si a celei
independente (necesar algoritm!):
◼ Regresia lineara multipla (cand variabila “dependenta” este de tip
variabila numerica continua)
◼ Regresia logistica (cand variabila “dependenta” este vb.calitativa-
nominala/ dihotomica)
◼ Analiza hazardului proportional Cox (cand reprezentam durata de timp
pana la aparitia unui efect = supravietuirea= efectul= variabila
“dependenta”)
◼ Exista si alte subtipuri de speciale de AM, utilizabile cand nr de
variabile alese ca dependente/efect >2: MANOVA si MANCO-VA
2. Analiza stratificata:
◼ In studiile observationale cu mai multi factori de risc, exista posibilitatea ca una
din variabilele studiate sa devina un factor de confuzie ……..adica aceasta se poate asocia
atat cu factorul de risc presupus cat si cu efectul.
Paradoxul lui Simpson“Ceea ce este adevărat pentru părţi nu este în
mod necesar adevărat şi pentru întreg” . Acest aspect genereaza conceptul
de confundare.
◼ Două variabile sunt “confundate” dacă este imposibil să se determine care variabilă este asociată
efectului observat.
Atunci când intr un RCT se compară un grup de control cu un grup experimental
(supus unui tratament oarecare) şi deosebirile dintre grupuri, (altele decât tratamentul
aplicat), produc diferenţe în rezultate (neputand fi separate de efectul tratamentului),
Aceste diferenţe se eticheteaza drept confundate cu efectul tratamentului (dacă si
acesta există).
Exemplu, diferenţele între maladiile fumătorilor şi nefumătorilor pot fi
confundate cu calităţile genetice individuale diferenţiate ale subiecţilor. Confundarea
poate afecta studiile observaţionale şi experimentele care nu sunt randomizate!
Deci, randomizare!!!!

◼ Pentru eliminarea factorilor de confuzie se poate utiliza analiza stratificata


◼ Uneori nici aceasta nu este suficienta intrucat exista si alti factori necunoscuti si
deci nemasurati.
BEST: Algoritm de TS pt analiza a doua variabile de categorie “diferita”:
v.independenta/cauza/f.de risc v.dependenta/efect

Cristian Băicuş. Medicina bazata pe dovezi:cum intelegem studiile,


Ed Medicala 2007
Alegerea TS dupa numarul si categoria
de variabila analizate *algoritm practic

analizămultivariabilă
VIII. Validarea rezultatelor obtinute prin calculul p si CI
◼ In finalul oricarei cercetari (studiu clinic), in urma aplicarii analizei statistice asupra
rezultatelor clinice/stiintifice obtinute din comparatii, generam doua valori matematico-
statistice:
P value si Intervalul de incredere (CI 95%)al unui
parametru epidemiologic
◼ Utilizarea acestora ne foloseste pentru a sti daca rezultatele stiintifice obtinute din studiul
nostru sunt valabile/valide si dpdv statistic (adica nu se datoreaza norocului),
◼ pentru a putea fi folosite in procesul de testare a ipotezelor (=“judecarea”ipotezei
statistice H0 - pe cale de consecinta aflarea raspunsului/concluziei la H1/ ipoteza
stiintifica/de studiu)
◼ ulterioara posibila generalizare/extrapolare/aplicare a rezultatelor clinic la intreaga
populatie a pacientilor cu afectiunile respective, ca “legitati/concluzii clinice valide”
◼ estimari ale unor parametrii epidemiologici pentru populatia din care a fost extras
esantionul studiat, cu CI 95%,
Nu trebuie confundata semnificatia statistica cu cea clinica.

Semnificatia clinico-epidemiologica a unui studiu este evidentiata prin determinarea


parametrilor sai clinic-epidemiologici (si care sunt specifici fiecarui tip de studiu) gen risc
relativ , atribuibil… (etc) iar semnificatia statistica semnifica validarea certitudinii
datelor obtinute dpdv a “rolului jucat de sanse/noroc”, si este definita prin
parametrii statistici p , iar estimarile prin calculul CI95%, aplicate primilor!

CRITICA
diferenţele/deosebirile depistate ca statistic «semnificative» pot sa nu fie si
semnificative dpdv clinic, si diferenţele clinic importante pot sa nu fie
totdeauna statistic semnificative!!!
P value :
◼ Prin conventie, in cercetarea medicala, sa hotarat ca de la un anumit nivel “prag” de
probabilitate p, se indica faptul ca relatiile intre fenomenele sau efectele studiate sunt
semnificative statistic, adica rezultatele lor obtinute nu se datoreaza
intamplarii! Aceasta valoare “prag” minima a fost aleasa p=<0,05 , si a fost stabilita
arbitrar, prin conventie.
◼ p=<0,05 este valoarea prag, ce apartine unui interval de rezultate acceptate a fi
intamplatoare, numit “alfa” (=eroarea alfa de maxim 5% din totalul posibil de 100%
al rezultatelor unei cercetari), valoare p de la care rezultatele unui test statistic nu mai
prezinta siguranta realitatii.
◼ La cel mult o proportie de 5% de rezultate “obtinute intamplator”, inca se consideră că
probabilitatea apariţiei fenomenului studiat doar prin “sansa” este mult prea
mica si deci nesemnificativa pentru a explica si influenta rezultatul unui experiment!!
◼ Concluzie: cu cat p este mai mic (p=<0,05) gradul de certitudine al nostru (legat
de veridicitatea rezultatului cercetarii/studiului nostru) este mai mare (creste),
permitandu-ne excluderea efectului intamplarii/sansei/norocului (efect ce ar fi putut
influenta rezultatele studiului!!!)
IX. ESTIMARI (statistica inferentiala)

“Teoria probabilitatilor» este fundamentul inferentei statistice!


Dupa ce in final am ”testat ipoteza” H0 “nula” (cu ajutorul TS calculand p) si din judecarea ei am tras o
concluzie legata de ipoteza studiului H1 (adica pe cale de consecinta “am acceptat-o” sau “am respins-o”),
prin procedeele de statistica inferenţială vom putea realiza si o estimare (=“prezicere”) a evolutiei valorilor
parametrilor (variabilelor) calculati esantioanelor, “asteptata” a se regasi si in populatia lor de referinta
(populatia pacientilor cu afectiunea respectiva -cea din care a provenit esantionul extras si analizat).

Exemplu : cu ajutorul TS adecvate si p value (utilizând proprietăţile “distribuţiei normale” si calculul statistic al z sau t) se
poate estima intervalul CI95% in care ne “ateptam” sa se încadreze (=cu o anumita probabilitate, cel mai frecvent anterior
aleasa de 95%) media valorilor anumitor parametri ( de regula ai acelei variabile urmarite) in populaţia al carei esantion l am
analizat (facem o predictie!).

Nu uitati:
Unul din scopurile de baza a statisticii este de a utiliza un esantion pentru a
analiza o caracteristica a sa (“ceva”), ca ulterior sa putem estima evolutia
acesteia la nivelul intregii populatiei generale (adica a populatiei din care a
provenit acel esantion cercetat)
Procesul de estimare si estimarile (predictiile) formeaza baza statisticii
inferentiale.
Intervalul de incredere “CI”:
1. “Predictia” de aparitie in populatia de referinta a valorilor unui anumit parametru al unei
variabile calculat la un esantion, este reprezentata prin generarea CI95% al valorilor acelui
parametru.
2. Inferenta statistica, prin analiza rezultatelor CI95% generat respectivului parametru ne permite
sau nu generalizarea ulterioara a concluziilor obtinute pornind «de la esantion, la populatia
generala/de referinta/din care a fost extras esantionul analizat»
3. CI este un interval de valori ai unui parametru,un interval ESTIMAT , in care se poate regasi
un parametru (initial calculat unui esantion) si in cadrul populatiei generale (din care a fost extras
esantionul), cu o anumită “probabilitate “ (in general aleasa dinainte a fi de minim 95% sigura!).
4. CI este deci o estimare, spunandu ne cam cat de mult ar putea sa varieze aceasta valoare a acelui
parametru (obtinuta initial pentru un esantion), in populatia totala (din care a provenit/a fost extras
esantionul), daca cercetarea esantioanelor s ar repeta insa fara a mai fi nevoit sa masoare/inregistreze
datele/variabilele la toti subiectii acesteia -este practic imposibil si nefezabil economic!! .
5. CI “completeaza” valoarea de interpretare statistica oferita de p. Intervalul de incredere CI ne da in
plus (spre deosebire de p ) si informatii asupra puterii statistice a studiului, mai ales cand rezultatele studiului
sunt “negative”(negative=adica nu permit “validarea” ipotezei de studiu enuntata initial de autorului
studiului=H1,prin obtinerea unui p nesemnificativ statistic).
6. Generalizarea concluziilor noastre pornind de la esantion la populatia de referinta (“anterior
“validate” statistic prin procesul de “testare a ipotezelor”) este scopul final al tuturor studiilor clinice.
Ulterior, generalizarea descoperirilor se aplica in practica medicala cotidiana, generand progres!
Cu cat studiul are un nr mai mic de subiecti (sub 30), limitele CI obtinut prin calcul (“marginile”sale) vor fi mai indepartate,
aratand ca si rezultatele obtinute din studiul acestui esantion (mic) sunt imprecise si deci mai putin valabile, mai putin
“extrapolabile” unei populatii generale (rezultatele ne arata in acest caz ca nu putem sa ne permitem a face estimari si
generalizari pe baza lor!!).Concluzie: Nu se recomanda esantioane mai mici de 30 subiecti!
Interpretarea CI: este diferita pentru diferitele tipuri de studii clinic, fiind
corespunzatoare parametrilor epidemiologici specifici acestora.

◼ Cunoscand limitele CI95%, rezultatul obtinut nu este semnificativ statistic, daca


limitele intervalul de incredere CI calculat acestuia:
◼ il cuprind pe cifra 1/unu (in cazul aprecierii rapoartelor de RR, OR, din
studiile de cohorta si studii caz-martor)
◼ il cuprind pe 0/zero (in cazul aprecierii diferentelor de risc atribuibil, RR,
RAR) din studiile de cohort a si RTC
◼ Limitele CI cuprind si valoarea de infinit in cazul calcului NNT din RTC

◼ Practic: ne intereseaza daca valorile acestor parametri epidemiologici


obtinuti/”estimati” prin calcul “cad” in interiorul limitelor intervalului CI!
Daca acest lucru este present, ne va asigura ca avem mari sanse (de regula
95% in cazul CI la 95%) ca rezultatele obtinute prin aceasta estimare sa fie
reale/fezabile in interpretare, adica sa nu se datoreze doar intamplarii
/norocului! (pt ca sub 5%, “norocul/sansa” nu mai joaca un rol
semnificativ…)
◼ Interpretarea dpdv statistic al rezultatului unui CI95% pt un parametru dat:
Pentru un interval de încredere CI 95% (calculat cu ajutorul TS si p), a parametrilor
esantionului cercetat. putem sa afirmam ca “exista 95% şanse ca si valorile estimate a
parametrilor respectivi pentru populaţia de referinta (din care s-a extras esantionul,) să se regăsească
real în interiorul intervalului CI95% calculat”.
◼ CI95% la o distributie normala, are valorile limitelor calculate de software dupa
formula matematica: CI(95%)=[Media eşantionului +/- 1.96 x Eroarea standard]
BIBLIOGRAFIE SELECTIVA
Cursurile reprezinta o compilatie informationala care are la
baza in principal urmatoarea bibliografie selectiva :
1. Maria BIRSAN, METODOLOGIA CERCETARII, Note de curs, 2011
2. Cristian Băicuş. Medicina bazata pe dovezi:cum intelegem studiile, Ed Medicala 2007
3. Cristian Băicuş.Dictionar de epidemiologie clinica si MBD, Ed Medicala 2002,
4. Cristian Băicuş. Metodologia cercetării stiitifice UMF C DAVILA, Bucuresti note de curs 2012, www.baicus.ro ,
5. Metodologie pentru alcătuirea lucrărilor științifice elaborate în cadrul Departamentului-Catedra UNESCO pentru schimburi
interculturale și interreligioase, Universitatea din București, http://www.interculturel.org/metodologie2008.pdf , accesat in 30
ian 2012
6. Ministerul Educației Și Cercetării, Universitatea "Constantin Brâncuși" Tg-Jiu - Ghid pentru elaborarea și susținerea lucrărilor
de licență/disertație, http://www.utgjiu.ro/docs/reg/22-Ghid%20pentru%20elaborare%20proiect%20de%20licenta.pdf,
accesat in 30 ian 2012
7. Repanovici A.: Managementul resurselor informaționale în cercetarea științifică, Editura Universității TRANSILVANIA din
Brașov, 2008, ISBN 978-973-598-212-6, 240 pag.
8. Universitatea „Babeș-Bolyai” Cluj-Napoca Facultatea de Studii Europene, Catedra Managementul Instituțiilor Europene -
Ghid pentru redactarea și prezentarea Lucrării de licență - http://euro.ubbcluj.ro/avizier/ , accesat in 30 ian 2012
9. L. Rogozea, GHID PENTRU REDACTAREA ŞI PREZENTAREA LUCRĂRII DE LICENȚĂ , Universitatea Transilvania
Brasov, 2012
10. UNIVERSITATEA „ȘTEFAN CEL MARE” SUCEAVA, FACULTATEA DE ISTORIE ȘI GEOGRAFIE, Catedra de
Filosofie, Științe sociale și politice - Ghid pentru redactarea și prezentarea Lucrării de licență,
http://fig.usv.ro/www/pagini/absolvire/indrumar/Ghid_licenta_F_si_BE.pdf, accesat in 30 ian 2012
11. Universitatea „Valahia” din Târgoviște, Facultatea de Drept și Științe Social-Politice - Ghid de redactare a lucrãrii de diplomã
și disertație, http://www.valahia-drept.ro/licenta-disertatie.pdf , accesat in 30 ian 2012
12. ***Planing your research - http://www.europe.canterbury.ac.nz/studentinfo/pdf/planning_your_research.pdf, accesat in 6
februarie 2012
13. APA’s Electronic References page at: http://www.apastyle.org/elecref.html
14. Harvars style, www.swinburne.edu.au/library
15. Dumitru Tintiuc Biostatistica. METODOLOGIA CERCETĂRII ŞTIINŢIFICE (Suport De Curs) UNIVERSTATEA DE
STAT DE MEDICINĂ ŞI FARMACIE „NICOLAE TESTEMIŢANU” Catedră Sănătate Publică Şi Management „Nicolae
Testemiţanu”, Chisinau 2011
16. Basic_ClinicalBiostatistics-2004 Dawson_4thEdition/Basic_ClinicalBiostatistics-Dawson_Beth_Trapp_RobertG_4thEdition.
17. Michael Shafir, REGULI ANTIPLAGIAT, International Relations Department,Faculty of European StudiesBabes-Bolyai
University, Cluj-Napoca

S-ar putea să vă placă și