Sunteți pe pagina 1din 66

METODOLOGIA CERCETARII

STIINTIFICE
2015
curs 3.

MODULUL 3.
1.
2.
3.
4.
5.
6.
7.
8.
9.

10.
11.

Introducere sintetica in analiza statistica a datelor


Ipoteza de studiu
Categorii de variabile
Prelucrarea statistica si tabelele de date:
Notiuni de teorie a probabilitilor in biostatistica :
Ipoteza de studiu, tipuri de ipoteze, Conceptul de Ipoteza nul si p
Corelarea dintre semnificatia statistica, clinica, p si CI:
Gruparea datelor. Scale de masura
Masurarea tendintei centrale (centrul distributiei datelor) si a
dispersiei
Tipurile de distributii si prezentarea grafica a relatiilor dintre date
Notiuni de analiza datelor, alegerea testelor statistice dupa tipul
variabilei analizate

Introducere sintetica in analiza


statistica a datelor :

Ipoteza de studiu se formuleaz la nceputul cercetrii, determina designul


studiului si determina ce anume si cum vom cerceta.

Variabilele sunt oricare dintre caracteristicile studiate (ce pot fi


masurate/inregistrate) la indivizii din grupurile/esantioanele de cercetat.

Toata cercetarea medicala se bazeaza pe studiul relatiilor intre


variabile!!!!

Testele statistice studiaza relatiile de asociere sau diferentele dintre


variabile(codificate ulterior prin parametrii specifici ai tendintei
centrale si distributiei datelor, purtatori de informatii statistice)

Analiza statistica a rezultatelor unui studiu ne arata relatiile dintre


fenomenele studiate (diferente sau asocieri) si in plus, prin calcularea p
value, ne precizeaza daca intamplarea (sansa, norocul) a jucat vre-un
rol (a influentat) rezultatele

Inferenta statistica ne permite (sau nu) generalizarea la populatia generala


a concluziilor obtinute (aceasta cunoastem ca este imposibil de studiat in
totalitatea sa!)

CONCLUZIE:
Pentru a putea trece la analiza statistica corecta a datele rezultate dintr
un studiu clinic, trebuie sa avem un raspuns clar la 2 categorii de
intrebari :
1. Care este scopul cercetarii noastre (dpdv clinic la ce fel de
intrebare trebuie sa raspunda studiul/ ce ne propunem sa aflam ?
verificam corectitudinea ipotezei de studiu
verificam daca designulstudiului tipul/categoria (terapeutic,
diagnostic, supravietuirea etc) este adecvata/corespunde
intrebarii/ipotezei
2. Ce fel de date/parametrii colectam/masuram/inregistram in acest
scop?
verificam/stabilim care vor fi variabilele
studiate/colectate/masurate si ulterior analizate

Analiza statistica propriu-zisa se refera la evaluarea prin teste


statistice adecvate si particulare a unor parametri matematici
specifici calculati tipurilor de variabile studiate, tip medii si
dispersie, date pe care le validam statistic ulterior cu ajutorul p si
CI (dpdv al certitudinii, pentru inferenta)

Din nou despre IPOTEZA DE STUDIU


Ipoteza de studiu
se formuleaz la nceputul cercetrii n urma
observaiilor personale i a documentrii
prealabile.
Este o presupunere, enunat pe baza unor
fapte cunoscute, cu privire la anumite
(legturi ntre) fenomene care nu pot fi
observate direct sau cu privire la esena
fenomenelor, la cauza sau la mecanismul
intern care le produce; presupunere cu
caracter provizoriu, formulat pe baza datelor
experimentale existente la un moment
dat sau pe baza intuiiei, impresiei etc..
Sursa: DEX '98

Tipuri de ipoteze de studiu, reguli de


enuntare:

non direcionale exist deosebiri ntre incidena infarctului la diabetici i


nondiabetici.
direcionale incidena infarctului la diabetici este mai nalt dect la non
diabetici.
ipoteze nule nu exist deosebiri ntre incidena infarctului la diabetici i
nondiabetici.

Reguli de enuntare:
ipoteza de studiu este o
afirmaie/propoziie (nu
ntrebare, nu problem!);
lanseaz ideea unei posibile
relaii dintre factorii care vor fi
studiai;
ipoteza enunat orienteaz
alegerea tipului de studiu;
studiile descriptive nu se
bazeaz pe ipotez ele o
lanseaz;
studiul trebuie s aduc
argumente (inclusiv statistice)
pentru a demonstra c ipoteza

Categorii de variabile (ce date colectam) :


calitative si cantitative
Variabile

calitative (categorii):

Nominale. Sunt sub forma de nume sau alte simboluri


reprezentand categorii ce nu pot fi ordonate una in raport cu cealalta si
nu au nicio valoare numerica!
(ex. numele, grupa sangvina, sexul, rasa, culoarea ochilor, diagnosticul).
Cand o variabila calitativa nu poate lua decat doua valori, ea este o
variabila nominal dihotomica sau bimodala (ex. masculin/ feminin,
mort/viu, fumator/nefumator, prezent/absent, normal/anormal, da/nu)
Sunt aranjate pe o scala nominala, pot fi denominate si se pot prezenta
fie ca date brute sau procente!!!

Ordinale. Sunt variabile la care exista o ordine naturala intre


categorii (de la valoare mai mica la valoare mai mare si sunt mai mult
de doua categorii).
Exemplu: evolutia (agravat, stationar, ameliorat), stadializari
(insuficienta cardiaca, TNM in cancer), scoruri (calitatea vietii, scala
analogica vizuala pentru durere)

Variabile cantitative (numarabile): sunt


date masurabile.
continue =interval, date cu virgula pot
lua orice valoare..ex. inaltimea, greutatea, TA,
varsta
discontinue (discrete) =ratio, date fara
virgula, descrise numai prin unitati intregi
(cifre intregi) ce nu pot fi masurate in interval
mai mic decat unitateaex. Puls, numar de
copii.

Sunt aranjate pe o scala de interval (cand au un interval constant intre doua valori
masurate succesiv), sau pe o scara de raport (cand valorile lor poseda/includ si un
ZERO)

Categorii de variabile I:

variabile calitative si cantitative

Categorii de variabile II:

variabile dependente /
independente

Prelucrarea statistica si tabelele


de date:

Datele adunate sau observate se refer la fiecare


unitate statistic n parte (pt fiecare element/subiect
al esantionului).
Pentru a putea caracteriza colectivitatea supus
studiului (POPULATIA) este necesar s prelucrm
datele (variabilele) esantionului reprezentativ .
Cuvantul variabila are sens pentru ca datele
carcateristicelor masurate variaza de la un subiect la
altul.
Prelucrarea bruta a datelor include mai multe
operaiuni succesive, cum ar fi:

ordonare,
gruparea
prezentarea datelor (prin tabele, grafice i serii).

Tabele de date

Datele brute obtinute se claseaza prin ordonare in tabele


de date
Denominare: regruparea datelor in clase de date (pentru
diminuarea numarului lor) .
Se recomanda 5 la 20 clase, cu aceeasi largime
(=diferenta intre rezultatul cel mai mic al unei clase si
rezultatul cel mai mic al clasei urmatoare). Se prefera
multiplii de nr. Impare gen 5.10,15..
calcularea distributiei frecventei lor absolute si relative
(%) de aparitie

Notiuni de teorie a probabilitilor in


biostatistica :
Plecand de la datele unui esantion, noi , prin inferenta statistica, incercam sa
evaluam cum se va comporta populatia din care a fost extras acel esantion.
Probabilitatea este fundamentul inferentei statistice .
n teoria probabilitilor se opereaz cu o serie de noiuni specifice:

Experimentul reprezint realizarea unui ansamblu de condiii conform


unui
criteriu de cercetare;
Evenimentul reprezint rezultatul unui experiment:

Evenimentul imposibil este evenimentul cere nu se realizeaz niciodat n


cadrul unui experiment.
Evenimentul aleator este evenimentul care s-ar putea produce n cadrul unui
experiment.
Evenimentul sigur este evenimentul care se produce n mod obligatoriu ntrun experiment.

Cmp de evenimente reprezint totalitatea evenimentelor care pot avea


loc n cadrul unui experiment. In el sunt incluse evenimentul sigur,
evenimentul imposibil i toate evenimentele aleatoare care pot avea loc.

Se numete probabilitate a evenimentului i se noteaz p,


raportul dintre numrul m de rezultate favorabile producerii
evenimentului i numrul total de n rezultate ale
experimentului, considerate egal posibile:

Contraprobabilitatea sau probabilitatea lipsei evenimentului,


notat q se va determina n modul urmtor:

Suma dintre probabilitatea prezenei evenimentului i


contraprobabilitatea lui este egal cu unitatea (unu), iar n
procente,egala cu 100%. Astfel, valoarea p se gsete
totdeauna ntre 0 i l sau 0-100%.

Cu ct valoarea p este mai aproape de extremitatile intervalului


(de l sau 100%), cu att prezena fenomenului n totalitate este
fie mai real, sau invers, cu ct valoarea lui p este mai aproape
de zero, probabilitatea prezenei fenomenului este mai mic .

Teoria probabilitilor argumenteaz legea cifrelor mari.

Legea cifrelor mari:

Odat cu majorarea volumului colectivitii selectionate


(esantionul), rezultatele obinute pe baza acestei colectiviti
tind s reproduc rezultatele obinute n colectivitatea
general.

La atingerea unui anumit numr de cazuri observate n


totalitatea selectiv a esantionului, rezultatele cercetrii vor
fi maximal apropiate de cele obinute in colectivitatea
generala.

Concluzie: n cazul unui numr suficient de mare de


cazuri (de observaii ) se evideniaz legitatea de
manifestare a fenomenului, care insa nu poate fi
observat n cazul unui numr mic de observaii!!!

Demonstratie: Urna lui Galton

Pentru o nelegere a teoriei probabilitii i legii cifrelor mari,


descriem exemplul cu urna lui Galton

Experiment: n urna erau introdus un numr egal de bile negre i


albe (cte 500), deci, n proporie de 1:1 sau 50%:50%.
Scopul: a determina proporia bilelor de culoare alb.

Proporia bilelor albe se va nota p1 (= ponderea fenomenului n


colectivitatea selectiv/esantion )
Se procedeaz n modul urmtor: se extrage cte o bil, se noteaz
culoarea i apoi ea este introdus napoi n urn. Operaia se repet n
serii cu numr diferit de extrageri 10, 20, 50 etc.

Rezultate: La nceput proporia bilelor albe i cele negre era 1:4 sau
20%:80%.
La un numr mai mare de extrageri (100-200-250) proporia se
apropie de cea real 0,5:0,5 sau 50%:50%. Din acest moment orict
s-ar prelungi numrul de extrageri, proporia bilelor albe i negre nu
se va schimba!.
Concluzii:

la un anumit numr de extrageri se nregistreaz raportul real al bilelor


albe i negre.
ponderea fenomenului n colectivitatea selectiv (p1) este mai mic dect
cea din colectivitatea general (p).Diferena dintre aceste mrimi,ponderi,
(P1-P) este msurat prin eroarea (m) i se explic prin faptul c nu toate
unitile statistice (bilele) au fost investigate.
Proporia (=ponderea) din totalitatea selectiv (esantion), adica p1,, n
cazul unui numr suficient de cazuri, este aproape egal cu cea din

Concluziile experimentului:
baza teoretica a statisticii inferentiale
Rezultatele experimentului au demonstrat, c
mrirea numrului de cazuri (n) n colectivitatea
selectiv/esantion a dus la 2 efecte:

apropierea valorii (rezultatelor) ponderii bilelor albe din


eantion fata de ponderea acestor bile in colectivitatea
general.
Diferena dintre aceste valorile de aparitie a acestor
ponderi, =eroarea (m), se micoreaz odat cu
mrirea numrului de cazuri analizate (bile extrase)

prin urmare are ctig de cauz exactitatea


rezultatelor!!!

Teoria statistic aplicata acestui exemplu a demonstrat, c n cazul eantionului


suficient de mare de bile (n >30) urmatoarele:

cu o probabilitate de 68,26% , diferena dintre proporia din


eantion (p1) i proportia din colectivitatea general (p),
adica (P1-P) este egal cu 1 m;
cu probabilitatea de 95,45% diferena ponderilor (P1-P) va fi
egal cu 2 m,
pentru probabilitatea de 99,73% diferena ponderilor (P1-P)
nu va depi 3 m.

Cifrele l, 2, 3 , cu care se nmulete valoarea erorii (m), se numesc


coeficieni de exactitate sau factori de probabilitate i se noteaz "t".
Mrirea valorii coeficientului "t" (= Cifrele l, 2, 3 ) crete probabilitatea cu
care se poate afirma, c diferena ponderilor din colectivitatea
selectiv(esantion) i cea general se va gsi n intervalul: = tm
este denumita eroarea limit admis pentru studiul dat.
Deci, P = P1 .

Bazndu-se pe legea cifrelor mari i majornd volumul colectivitii


selective (esantionul), se poate influena si mrimea erorii
limit, aducnd-o la valori minime
Pentru a determina numrul de cazuri (n) n colectivitatea selectiv
(esantion) trebuie s cunoatem eroarea limit () pentru
studiul dat!!!

Conceptul de Ipoteza nul si p :

In interpretarea rezultatelor studiilor clinice suntem obligati sa determinam


gradul de certitudine al oricarei estimari!
Ipoteza nul este ipoteza care postuleaz faptul ca
eantioanele/loturile/grupurile (sau populaiile) pe care le avem de
comparat in cadrul unui studiu clinic, experiment sau test sunt similare
(egale), nul inseamna de fapt nicio diferenta ,
...... si cu alte cuvinte, orice alta eventuala diferen aparuta este atribuita
doar ansei (noroc) si nu unui anumit factor studiat!!!

Conceptul de Ipoteza nula este folosit pentru a defini semnificaia unei


diferene intre doua esantioane/grupuri comparate.

Semnificaia prezentei unei diferene intre doua esantioane este numit i


semnificaie statistic. Prezenta ei arata si c aceasta diferena dintre
eantioane, populaii sau ambele, este datorata unor factori clari, de obicei
cei cercetati!( altii dect ansa/norocul/intamplarea)!;
diferena semnificativ apare numai cnd ipoteza nul este respins;
cnd ipoteza nul este respins (=adica afirmam ca ipoteza nula este
falsa) , cel puin una din ipotezele alternative este acceptat, deci exista o
diferena intre grupurile/loturile din studiu,ce poate fi explicat prin alt
factor dect ansa (probabil prin factorul studiat);
cnd nici o diferen nu poate fi susinuta/afirmata (nu apare) intre 2
grupuri/esantioane/populaii, nseamn ca implicit se accepta (ca
adevarata) ipoteza nula (adica ipoteza nula este adevarata),... Adica
Grupurile sunt egale ( asta nu nseamn ca mediile populaiilor sunt total
identice!)

valoarea probabilitii pentru care diferena ntre


eantioane/grupurile din studiu se datoreaz numai ansei
se numete nivel de semnificaie sau p-value.
Nivelul de semnificaie se noteaz cu sau p-value.
Dac el este de maximum 5% (p<,=0,05) atunci ipoteza
nul este respins i o ipotez alternativ este acceptat
(deci exista o diferenta intre grupurile studiate); spunem
ca diferena observata este si statistic
semnificativ!!!
Valoarea numerica a lui p-value este aleasa de cercettor
a priori.
Prinpvalue asociat ipotezei nule, pentru setul de date
considerat ( a esantioanelor comparate), se nelege cel
mai mic nivel de semnificaieppentru care ipoteza nul
se respinge n toate testele statistice aplicate.
Majoritatea programelor dedicate calculelor statistice
ofer, la procedurile de testare a ipotezelor, calcularea
valorii de probabilitate p.
Dacpvalue este mai mic sau egal cu nivelul de
semnificaie0,005, atunci se respinge ipoteza nul deci
diferena este statistic semnificativ .

Corelaretia dintre semnificatia statistica,


clinica, p si CI:

In finalul oricarei cercetari (studiu clinic), in urma aplicarii


analizei statistice asupra rezultatelor clinice/stiintifice
obtinute din comparatii, rezulta doua valori matematicostatistice:
P
Intervalul de incredere (CI)
Utilizarea acestora ne foloseste pentru a sti daca rezultatele
stiintifice obtinute din studiul nostru sunt valabile/valide statistic
si daca pot fi extrapolate ulterior populatiei generale cu
afectiunea x ca legitati/concluzii clinice valide , sau nu,
dimpotriva, ele sunt doar rezultatul intamplarii!
Nu trebuie confundata semnificatia statistica cu cea clinica.
Semnificatia clinica /stiintifica a unui studiu este
evidentiata prin determinarea parametrilor sai clinici (si care
sunt specifici fiecarui tip de studiu) gen risc relativ ,
atribuibil (etc) iar semnificatia statistica semnifica
validarea certitudinii datelor obtinute si este definita
prin parametrii statistici p si CI, calculati primilor!
Diferenele statistic semnificative pot sa nu fie semnificative
clinic, si diferenele clinic importante pot sa nu fie statistic
semnificative.

P value : interpretare
Prin conventie, in cercetarea medicala, un anumit
nivel al lui p indica faptul ca relatiile intre
fenomene sau efecte sunt semnificative statistic
(=adica rezultatele obtinute nu se datoreaza
intamplarii!!!).
Aceasta valoare a fost stabilita arbitrar (prin
conventie), la 5%, adica p=0,05.
Cu cat p este mai mic decat 0,05 gradul de
certitudine al nostru este mai mare (creste),
permitandu-ne excluderea efectului intamplarii
(efect care ar fi putut influenta rezultatele
studiului nostru!!!)

Intervalul de incredere CI:


CI este intervalul de valori in care se poate ncadra un
parametru studiat/estimat l unei populaii, cu o anumit
probabilitate (in general aleasa la 95%)

CI se formeaza in jurul unei estimari, spunandu ne cam cat de mult


ar putea sa varieze aceasta estimare daca cercetarea esantioanelor s
ar repeta.
De obicei CI completeaza valoarea de interpretare statistica oferita
de p.
Intervalul de incredere CI ne da in plus (spre deosebire de p) si
informatii asupra puterii statistice a studiului , mai ales cand
rezultatele studiului sunt negative.(negative=adica nu confirma
ipoteza de studiu initial enuntata)
Cu cat studiul are un nr mai mic de subiecti (sub 30), limitele CI
(marginile) sunt mai indepartate si rezultatele sunt mai imprecise!

Interpretarea CI:

Cunoscand limitele CI, rezultatul clinic/stiintific /medical obtinut


(oricare ar fi el, de asociere sau de diferenta intre fenomenele
studiate) rezultatul nu este semnificativ statistic , daca
intervalul de incredere CI :

il cuprinde pe 1 (in cazul aprecierii rapoartelor de RR, OR)


il cuprinde pe 0/zero (in cazul aprecierii diferentelor de risc
atribuibil, RR, RAR)
cuprinde si valoarea de infinit (in cazul calcului NNT)

Ne intereseaza daca valorile acestor parametri calculati (=adica


estimati) cad in interiorul CI, lucru care ne asigura ca avem
mari sanse (de regula 95%) ca rezultatele sa nu se datoreze doar
intamplarii (norocului)
Pentru un interval de ncredere CI 95% calculat acestor
parametri, aratam ca exista 95% anse ca media populaiei studiate
s se gseasc n intervalul CI cu limite exprimate de formula:

Media eantionului +/- 1.96 x Eroarea


standard

Ce facem cu datele colectate ?


le grupam ,
le evaluam distributia si dispersia
(statistica descriptiva),
le comparam dpdv statistic cu teste
specifice (statistica inferentiala)
interpretam rezultatele (validate cu
p si CI)

1.
2.
3.
4.

Toate observatiile asupra subiectilor din esantioanele unui


studiu clinic (prin variabilele lor inregistrate) sunt initial
analizate prin grupare cu ajutorul diverselor scari de masura,
proces care determina in final cum aceste date (observatii) vor fi
evaluate dpdv statistic (adica sumarizate, prezentate si
analizate)!

Gruparea datelor:
Din nou despre scale (scari) de masurare.

Scara de masura a variabilei are


importanta pentru modul in care
informatia/datele obtinute sunt
sumarizate (grupate) si prezentate, iar
precizia masuratorii si a asezarii pe scara
determina ulterior si tipul de analiza
statistica a datelor.
Reprezinta o ordonare a datelor de la
mic la mare si urmarire a frecventei lor
de aparitie

Trei scale de masura apar mai frecvent


in medicina:
nominala, ordinala si numerica

1.Scala nominala:

Pe aceasta scala se pot aranja/ordona doar


variabile discrete (numere intregi)
dicothomice sau binare (in care efectul nu
poate lua decat doua valori, da/nu). In
general sunt date ale variabilelor de tip
calitative sau categoricale.
Suporta date calitative sau nominale binare
(au sau nu au efectul) care sunt grupate
ulterior in procente sau proportii
Datele (procente sau proportii) sunt analizate
ulterior prin tabele de contingenta sau grafice
cu bare

2. Scala ordinala

Folosita pt variabilele
calitative ordinale, intre care
exista o ordine inerenta
(=pozitie, rang) intre
categoriile de date (datele
sunt unele fata de altele gen
mai mult sau mai mare)
Rank ordered scale .
Variabile utilizate/ordonate
in aceasta scara : scoruri de
riscuri la terapii , clasificari,
stadializari boli incl. TNM,
Apgar,
Suporta datele in procente
sau proportii
Datele masurate sunt bine
reprezentate de mediana
valorilor observate

3. Scala numerica

Folosita pentru variabile numerice,


cantitative, (cu date numarabile, ce
masoara cantitatea a ceva) care pot
fi :
doar numere intregi (discrete) : ex. Nr.
Nasteri, nr de operatii, nr factori de risc
numere/valori continui/interval
(fractionate,cu virgula): ex. Greutate,
inaltime, orice alte valori de laborator
Cuprinde scala de interval si scala de
raport (dupa clasificarea traditionala)

Statistica descriptiv si statistica


inferenial

Toate numerele obtinute (masuratorile/valorile


variabilelor) si care sumarizeaza datele colectate,
sunt purtatoare de informatie statistica,
informatie ce poate fi codata si apoi descrisa cu
ajutorul STATISTICII DESCRIPTIVE prin doua clase
de parametri matematico-statistici:

1.) indicatorul centrului de distributie a


observatiilor noastrecare evalueaza tendinta
centrala (=centrul distributiei) a datelor/variabilelor,
sunt valori ce localizeaz ntr-un fel oarecare mijlocul
setului de date colectat
2.) dispersia valorilor variabilelor din studiu
=imprastierea, (spread)

deci, dupa ce datele sunt colectate si grupate pe scale adecvate


de masurare, vom calcula acesti parametri!!!

ulterior, prin procedeele


de Statistica inferenial vom putea
realiza:

Estimare statistic
a parametrilor unei populaii pe baza rezultatelor
unui eantion
ex: utiliznd proprietile distribuiei normale se
poate estima intervalul in care se ncadreaz media
unei populaii, pe baza rezultatelor unui eantion
aplicarea CI, Intervalului de ncredere (este
intervalul in care se poate ncadra un parametru al
unei populaii, cu o anumit probabilitate)

Testarea unor ipoteze

Unul
dinaplicarea
scopurile de
baza a statisticii
este de a folosi
un
prin
Testelor
de semnificaie
statistic.

esantion pentru a estima ceva (o caracteristica) a unei


populatii!
Procesul de estimare si estimarile formeaza baza

Elemente de statistica
descriptiv

Ce rol are statistica descriptiva?


este util in prezentarea unui set de date,
permite nelegerea facil a caracteristicilor
evenimentelor studiate, este o descriere" a
esantionului prin variabilele sale, poate fi
fcut grafic sau prin indicatori!

pentru variabile nominale

tabele de frecven (a observaiilor pe categorii)


grafice: bare, rozeta, s.a.
modul (categoria cea mai frecvent)

pentru variabile cantitative

indici de msura a tendinei centrale (media, mediana,


modul)
indici de msura a dispersiei (deviaia standard, variana)
distribuia normal

Simbolul statistic:
Characteristic
Mean

Parameter
Symbol

Statistical
Symbol
XX

Standard
deviation
Variance

SD

s2

Correlation

Proportion

1.

Masurarea tendintei centrale (centrul


distributiei) datelor

Ce fac?...sunt valori ce localizeaz ntr-un fel oarecare


mijlocul setului de date.
Media aritmetica
:Media aritmetic este suma
valorilor dintr-o serie mprit la numrul valorilor din serie
si masoara mijlocul distributiei unei caracteristici/variabile
numerice (X barat),este media aritmetica a observatiilor
ex. n irul 3, 4, 4, 5, 6, 8 media este 5

Mediana: Md, masoara mijlocul distributiei unei


caracteristici/variabile ordinale sau numerice .
Observatiile trebuie in prealabil ordonate pe o
scara Apoi se aleg si se calculeaza media a doua
valori de mijloc.

Modul: este valoarea care apare cel


mai frecvent intr o seie de observatii.
Ex. n irul 3, 4, 4, 5, 6, 8 modul este
4

Media geometrica: este folosita la


date masurate pe o scala logaritmica

2. Masurarea dispersiei datelor:

intervalul, SD, varianta, coef.de variatie,


percentilele, interquartilele
valori

Ce fac acesti indici ? descriu variaia i rspndirea unei serii de

Intervalul/range:

arata diferenta de dispersie dintre cea mai mare si cea mai mica
observatie

SD: deviatia standard

descrie distributia datelor in jurul valorii medie

SD , ca si media, necesita date numerice! este rdcina ptrat a dispersiei


S a observat experimental ca totdeauna, minim 75% din observatii/valori cad/se
regasesc (au dispersia) in intervalul de valori Media -2SD si Media+2SD
Dar daca distributia datelor studiate are o valoare normala (=tip curba Gauss),
atunci 95%din observatii/valori cad/se regasesc (au dispersia) in intervalul de
valori Media -2SD si Media+2SD
SD arat gradul de omogenitate a unei colectiviti, un indice mare de dispersie
exprimnd o omogenitate mai slab, (pt ca media nu caracterizeaz exact
colectivitatea aleas!!!)

cu ct SD e mai mic, cu att grupul e mai omogen


Ex. n irul 3, 4, 4, 5, 6, 8 deviaia standard Ds este 1,7888

Variana (=dispersia)

este suma deviaiilor fa de medie ridicate la ptrat i


mprit la numrul valorilor din serie minus 1.
principala aplicaie a varianei este n calcularea deviaiei
standard SD
ex. n irul 3, 4, 4, 5, 6, 8 variana este 3,2

Coeficientul de corelaie:
..este un index numeric folosit pentru a indica gradul de
coresponden, de potrivire,
dintre 2 seturi de msurtori
Interpretare: 1 = potrivire perfect, - 1 = corelaie negativ perfect

ex: coeficientul de corelaie Pearson (valorile lui P


semnificativ diferite de 0 arat c
aceste rezultate nu se datoreaz ntmplrii)

Coeficientul de variatie CV

masoara imprastierea relativa (omogenitatea) a


datelor. Este utilizat cand se compara date asezate pe
scale diferite de masura, astfel incat valorile se pot
ajusta permitandu ne unele comparatii.

Calcul: SD divizata cu media, x100% (este raportul dintre


deviaia standard a unei serii i media aritmetic a seriei).

Cv se utilizeaza in laboratoare si in procedurile de control a


calitatii, se exprima in %
CV>+/-15% , datele au o distributie heterogena; CV<+/15% , datele au o distributie mai omogena..cu
ct
omogena..
omogenitatea este mai mic media este mai puin
reprezentativ
CV se utilizeaz in compararea a 2 grupuri cnd mediile
pentru cele 2 grupuri :

sunt semnificativ diferite


sunt exprimate in uniti de msur diferite

Percentilele
procentajul dat al unei distributii (masoara
pozitia distributiei intr un tabel de date)
valoare care poate fi egala sau mai mica
decat o anumita valoare standard.

per centila
mparte distribuia n 100 de pri
c
egale
Percentila 50 (=P50) are valoare asemeni
medianei (este o valoare de mijloc)
Se folosesc (impreuna cu interquartilele, P25=Q1,
P50=Q2, P75=Q3) in interpretarea unei valori
individuale raportate la o norma
Utilizate aproape exclusiv in interpretarea
graficelor de crestere fizica standard (in greutate)

Intervalul interquartile: este definit ca diferenta


(interval ) intre a 25a (prima) si a 75 a (a treia)
percentila. Contine totdeauna percentila centrala 50%.

CONCLUZII:

Variabilele cantitative, masurabile: utilizeaza preponderent in


cadrul proceselor de comparatie statistica valorile lor matematice
de tip medii statistice , gen modul, mediana, media (aritmetica,
geometrica,ponderata),
si pentru caracterizarea distibutiei
raspandirii/dispersieistatistice a datelor acestora, SD=deviatia
standard, CV sau SEM =eroarea standard a mediei, (calculate de
software uri specializate la variabilele studiate)
La variabilele ordinale se folosesc preponderent in comparatii
statistice valorile date de frecventa, mediana si modul.

Care dintre aceste medii ( indicatori ai tendintei


centrale a distributiei datelor) si care dintre dispersii
este cel mai bine a fi utilizate in analiza statistica
ulterioara (inferentiala)?

Trei factori sunt determinanti in statistica


inferentiala:
1.
2.
3.

scara (numerica sau ordinala ) folosita pentru


ordonarea datelor culese
scara este determinata implicit de tipul
variabilei studiate)
Forma distributiei datelor/observatiilor
(simetrica sau asimetrica)

Tipuri de distributie a datelor:

Forma de distributie. Asimetria (skewed)

Important: Alegerea testelor statistice


de analiza se face in functie de
tipurile de variabile studiate si de
forma de distributie a valorilor lor!

Forma de distributie statistica a


datelor unei variabile studiate poate fi
normala (sau simetrica, cu forma de
clopot Gauss) sau anormala
(asimetrica, deviata ls stg x dr,
skewed).
Acest lucru se poate afla:
a. calculand media si mediana :daca ele
sunt identice pentru ambele grupuri,
acestea au o distributie normala
Daca media <mediana: distributie la
stanga
Daca media>mediana : distributie la
dreapta
b. reprezentand si calculand valorile
mediei si ale SD ale variabilei cantitative
cercetate :
Distributie normala: daca SD nu difera
mai mult de dublu 2xSD intre grupuri,
Distributie anormala :daca valoarea
mediei-2SD contine cifra 0
c. sau grafic sub forma unei histograme,
(pe care vizual o verificam daca are sau nu
forma simetrica de clopot)!
.

Repartitia % a valorilor variabilelor dupa


medie (=miu) si SD (=sigma) intr-o
distributie normala, Gaussiana

De retinut!
atunci cand avem cazuri
putine in studiu (n<30) distributia
nongausiana este frecvent
intalnita.
In general in natura distributia
nongausiana (anormala) este
frecventa, iar in cazul variabilelor
biologice este foarte des
intalnita!!!

Deci ce si cum vom folosi?

Media, daca avem date/variabile numerice cu


distributie simetrica
Mediana, pentru date/variabile ordinale sau
numerice dar cu distributie deviata (skewed)
Modul, pentru date bimodale (dichotomice)
Media geometrica , pentru date masurate pe
scara logaritmica
SD se foloseste atunci cand se utilizeaza si
media, deci la analiza variabilelor numerice, cu
forma de distributie normala (gaussiana)
CV este folosit cand intentionam sa comparam
distributii masurate pe scale diferite

valorilor mediilor din masurarea


tendintei centrale a datelor comparativ cu
a raspandirii/dispersiei, in analiza
statistica a datelor:

Prezentarea grafica a relatiilor


dintre date:

Tabelele:

Reguli generale de alctuire a unui tabel

fiecare tabel trebuie s conin un titlu de prezentare, clar i concis

ncadrarea tabelelor ntr-o lucrare se face pe baza unui numr de identificare


titlul urmeaz dup numrul de identificare, aceste informaii putnd fi scrise
deasupra
sa, mai aproape de tabel dect restul textului
dac sunt necesare explicaii sau note suplimentare, acestea vor fi ncorporate
imediat
sub titlu sau la subsolul tabelului ori chiar n corpul tabelului
liniile i coloanele tabelului vor fi aranjate n ordine logic pentru a facilita
efectuarea de
comparaii
cnd avem tabele lungi ale cror coloane conin multe date, este indicat s
grupm datele
cte 5 sau 10, lsnd ntre ele un spaiu mai mare pentru a se evita astfel
comiterea de
confuzii i erori n urmrirea datelor
dac numerele din tabel conin mai mult de 3 cifre se va proceda la gruparea lor
cte 3
dac tabelul conine date ce nu sunt culese de autor, se va specifica sursa de
provenien a
acestora
capetele liniilor i coloanelor tabelului este bine s conin informaii care,
mpreun cu cele din titlu s permit cititorului nelegerea tabelului fr a face

Graficele:

asigur o imagine mai sugestiv a fenomenelor cercetate, fiind


necesare mai ales cnd trebuie s ne orientm rapid n tendinele sau
structura fenomenelor.
sunt utilizate pentru prezentarea datelor att calitative ct i
cantitative.

Datele calitative
Diagrama din coloane i dreptunghiuri (sau
segmente) (bar chart)

este un procedeu de comparare a unor categorii de date ce se


exclud reciproc. Diferitele categorii de date se indic uzual pe
axa x (abscisa) iar frecvena lor pe axa y (ordonata), i se
compar dup nlimea lor.
Categoriile de date sunt individuale i discrete, motiv pentru care
se las spaiu ntre elementele de pe axa x (coloane,
dreptunghiuri, segmente).

Diagrama structural (pie chart)

poate fi n cerc, dreptunghi, cilindru, triunghi etc.


se utilizeaz n cazul reprezentrii unei probleme n structura ei,
n componena elementelor sale. Totalul problemei reprezentate
corespunde cu toat suprafaa cercului sau a dreptunghiului,
luat ca 100%, prile raportndu-se la total, n procente.
n cazul diagramei structurale n cerc considerm cele 360 grd
egale cu 100%, elementele componente calculndu-se tot prin
regula de trei simpl, n procente fa de totalul luat ca 100.

Datele cantitative

Histogramele, box ploturile si poligoanele de


frecventa ilustreaza bine distributia variabilelor
numerice

Histograma

reprezentat prin dreptunghiuri, care au baze egale,


corespunztoare intervalelor egale de pe abscis, dar
nlimile variabile, corespunztoare frecvenelor, de
exemplu: populaia judeului pe grupe de vrst.
Segmentele sunt alturate, intervalele de pe abscis fiind
considerate date continue.
frecvena datelor pentru fiecare categorie este descris
dup axa y, iar limea fiecrui segment sau dreptunghi
reprezint intervalul fiecrei categorii.
diferena fundamental fa de o diagram cu coloane
const n faptul c n diagrama cu coloane exist un spaiu
ntre dreptunghiuri, iar ordinea n care ele sunt prezentate
este lipsit de importan.
n cazul reprezentrii populaiei pe sexe i grupe de vrst
se utilizeaz histograma denumit piramida populaiei
.

Poligonul de frecven
este o reprezentare a distribuiei categoriilor de
date ordonate i continue, asemntor cu
histograma.
axa x reprezint categoriile de date, iar axa y
frecvena datelor pe fiecare categorie.
frecvena este (punctat), marcat fa de
punctul mediu al fiecrei categorii i se trage o
linie ntre toate aceste puncte marcate.
nlimile corespunztoare distribuiei cantitative
de pe axa y se ridic perpendicular pe abscis,
pornind de la mijlocul intervalului de pe abscis.
Este mai folositor dect histograma deoarece n
grafic pot fi punctate cu uurin mai multe
distribuii

Reguli

generale de alctuire a unui grafic:

va fi elaborat astfel nct s permit citirea lui de la stnga


la dreapta (pe axa orizontal ordonarea datelor se face de
la stg. spre dr., iar pe cea vertical de jos n sus)
fiecare grafic va fi numerotat i va purta un titlu
corespunztor, redactat n partea de jos, sub el
s fie just ntocmit, nct s redea exact i totodat
sugestiv problemele observate, s aib intervalele
prevzute cu valorile respective.
graficul s fie clar, fr prea multe elemente, pentru a nu fi
nevoie de explicaii.
s aib o legend, care s explice diferitele elemente ale
problemei prezentate i intensitatea lor
s fie prezentate n grafic cifrele relative sau absolute,
care s exprime valorile elementelor problemei; dac acest
lucru nu este posibil din lips de spaiu i pe grafic, acesta
va fi nsoit i de tabelul statistic respectiv.

Proportiile si procentajele ilustreaza si


sumarizeaza datele variabilelor nominale si
ordinale
Ratele: descriu bine nr de evenimente aparute
intr o perioada data (ratele evenimentelor).
Ratele uneori trebuie ajustate cand
esantioanele comparate se banuiesc ca difera
datorita prezentei unui factor de confuzie.
Relatia dintre doua variabile nominale este
descrisa bine de raportul riscurilor (risc ratio),
raportul cotelor (odds ratio)

NOTIUNI DE ANALIZA DATELOR

Alegerea testelor statistice dupa tipul variabilei


analizate:

Pentru comparatia variabilelor


cantitative se aplica teste
statistice parametrice si
nonparametrice
Teste parametrice: variabilele cantitative cu distributie
normala , (gaussiana), beneficiaza de comparatii utilizand
in analiza lor statistica testele parametrice :
1.Student (testul- t) pentru valorile a doua
grupuri,
2. Testul F (ANOVA) pentru comparatia a peste
3 grupuri de valori (variabile)
Exceptie: Variabila cantitativa cu aparenta
distributie normala, dar cu dispersie
(reprezentata de deviatia standard SD) mult
diferita intre grupurile comparate (SD diferite,dar

Testele nonparametrice : se folosesc pentru


variabile cantitative cu distributia anormala si
pentru variabilele ordinale astfel:
1. pentru comparatia a doua grupuri folosim testul
Mann/Withney U
2. pentru comparatia la peste 3 grupuri, testul
Kruscall/Wallis.

Variabilele nominale dihotomice (=bimodale)


utilizeaza pentru compararea proportiilor lor testul
hi patrat sau variantele sale Yates sau Fisher.

Atunci cand variabilele urmarite sunt studiate


imperecheat, folosim teste tip imperecheate
(paired) parametrice sau nonparametrice.
PAIRED=Imperecheate , adica provin din msurtori repetate pe aceiasi pacienti
( gen inainte si dupa..) sau pe eantioane mperecheate. singura imperechere
perfecta se realizeaza cand imperechem pacientul cu el insusi (un singur
esantion, intr un studiu tip inainte si dupa) ...adica la studii in care
variabila respectiva se masoara de doua ori la acelasi subiect, gen inainte si
dupa tratament/expunere/procedura! cu alte cuvinte, masuram ceva (o
variabila/valoare) de doua ori , la acelasi subiect.
UNPAIRED=se fac comparatie intre variabile similare dar masurate la doua esantioane
diferite (lot caz/boala si lot control/ martor)

Deci, dac datele obtinute sunt nemperecheate =unpaired (provin din


eantioane diferite, independente) se vor alege variantele
mperecheate ale testelor respective, adica:
pentru testul t:

testul t mperecheat;
pentru testul Mann-Whitney U: testul Wilcoxon;
pentru ANOVA: ANOVA pentru msurtori repetate.

In concluzie, alegem un test


nonparametric in urmatoarele
situatii

Variabila cercetata este ordinala si are distributie


nongaussiana (anormala)

Variabila cercetata este cantitativa cu distributie


nongaussiana (anormala)

Variabila cercetata este cantitativa cu distributie


aparent normala, dar cu dispersie (reprezentata de
deviatia standard SD) mult diferita intre grupurile
comparate (SD diferite, >2 SD)

analizmultivariabil

analizmultivariabil

Relatia (asocierea) dintre doua variabile


numerice/cantitative este descrisa de
CORELATIE!
Cand comparam o variabila cantitativa cu alta
cantitativa, din punct de vedere statistic, cercetam
corelatia:

1. calculam coeficientul de corelatie Pearson,


P., in cazul in care valorile studiate au distributia
normala, gaussiana.
2. Daca aceste variabile au distributie anormala, le
evaluam statistic corelatia cu echivalentul
nonparametric al testului Pearson, care este
coeficientul de corelatie Spearman, r .
Daca in urma acestor teste,rezulta ca
variabilele se coreleaza, putem ulterior sa
calculam si valorile lor predictive, prin testul de
regresie lineara ( adica putem prezice evolutia
valorilor unei variabile in functie de evolutia
celeilalte!).

Comparatia (masurarea diferentelor) mai multor


medii de valori :

1. Analiza variatiei (ANOVA)


Analiza variatiei (=ANOVA=analysis of
variance) permite comparatiile a mai mult
de doua grupe de medii (din variabile
cantitative)
One

way ANOVA lucreaza cu o singura


variabila (=factor) nominala independenta
Factorial ANOVA lucreaza cu factori
multipli, in configuratii diverse

Comparatia (masurarea diferentelor)


mai multor medii de valori :

2. Analiza multivariata :

AM ne permite sa determinam contributia independenta a fiecaruia


dintre factorii de risc multipli (concurenti), in aparitia unei boli.
Acesti factori sunt numiti factori de risc sau variabile independente, iar
boala in acest caz este numita efect sau variabila dependenta.
Utilizam testul MANCOVA
Exista 3 tipuri de analiza multivariata, in functie de variabila aleasa ca
dependenta (= efectul=boala):

Regresia lineara multipla (cand variabila dependenta este de tip variabila continua)
Regresia logistica (cand variabila dependenta este calitativa/nominala/ dihotomica)
Analiza hazardului proportional Cox (cand reprezentam durata de timp pana la
aparitia unui efect = supravietuirea= variabila dependenta)

3. Analiza stratificata:

In studiile observationale cu mai multi factori de risc exista posibilitatea ca una din variabilele
studiate sa devina factor de confuzie (..adica aceasta se poate asocia atat cu factorul de risc
presupus cat si cu efectul).
Paradoxul lui Simpson(Simpson's Paradox)
Ceea ce este adevrat pentru pri nu este n mod necesar adevrat i pentru ntreg
Acest aspect genereaza conceptul de confundare.
Dou variabile sunt confundate dac este imposibil s se determine care variabil este asociat
efectului observat.
Atunci cnd se compar un grup de control i un grup experimental (supus unui
tratament oarecare) i cnd diferenele dintre grupuri, altele dect tratamentul aplicat,
produc diferene ntre rezultate nedifereniabile de efectul tratamentului, aceste diferene
se eticheteaza drept confundate cu efectul tratamentului (dac acesta exist).
Exemplu, diferenele ntre maladiile fumtorilor i nefumtorilor pot fi confundate cu
calitile individuale difereniate ale subiecilor. Confundarea poate afecta studiile
observaionale i experimentele care nu sunt randomizate!

Pentru eliminarea factorilor de confuzie se poate utiliza analiza stratificata (dar uneori nici aceasta
nu este suficienta intrucat exista si alti factori necunoscuti si deci nemasurati.)

S-ar putea să vă placă și