Biostatistica Pentru Cercetare Medicala

STRUCTURA UNUI ARTICOL STIINTIFIC
Un articol stiintific incepe cu titlul articolului, dupa care se scriu numele autorilor, in ordinea
contributiei.
Pentru fiecare autor trebuie mentionata afilierea, adica institutia in care lucreaza.
Urmeaza rezumatul articolului, in care se prezinta, pe scurt, scopul lucrarii, rezultatele obtinute si
concluziile la care au ajuns autorii.
La sfarsitul rezumatului se adauga o lista de cuvinte-cheie, care sunt sugestive pentru tema abordata
si pentru rezultatele obtinute.
Articolul propriu-zis este constituit din urmatoarele parti:
1.Introducere
2.Material si metoda
3.Rezultate
4.Discutii
5.Concluzii
6.Bibliografie
1.Introducerea - in acest capitol autorii prezinta situatia cunoscuta in domeniul studiului, cu

descoperirile importante si informatiile relevante pentru tema pe care o propun ei. Tot aici trebuie sa
justifice importanta cercetarii pe care o abordeaza si sa precizeze, clar, scopul lucrarii (ipoteza de
lucru).
2.Material si metoda - aici autorii trebuie sa descrie metodele de cercetare folosite, tehnicile
utilizate, aparatura cu care au lucrat, modul in care s-a facut selectarea participantilor, indicatorii si
testele statistice folosite.
3.Rezultatele - reprezinta partea in care autorii descriu lucrurile obtinute concret in experimentele
sau investigatiile efectuate de ei, cat mai complet si corect, fara a omite rezultatele contrarii ipotezei
de lucru.
4.Discutii - este partea in care se face interpretarea rezultatelor si compararea lor cu rezultatelor
altor cercetari sau cunostiinte din domeniul abordat.
5.Concluziile - reprezinta informatiile cele mai importante care au reiesit in urma experimentelor
sau cercetarii efectuate, aratand daca au fost identificate lucruri noi sau daca datele confirma
cercetarile anterioare.
6.Bibliografia – reprzinta lista tuturor materialelor utilizate pentru documentarea cercetarii, a
tehnicilor folosite si a datelor comparative (carti, articole, pagini web etc.).
1
PRELUCRAREA STATISTICĂ A DATELOR
Pentru caracterizarea datelor numerice uzual se folosesc indicatorii statistici fundamentali,

media aritmetica si deviația standard, precum si indicatorii de împraştiere: minim, maxim, mediana,
cuartile (percentilele).
1)Media aritmetică - este indicatorul care arată tendinţa centrală a seriei de valori şi, de
obicei, reprezintă valoarea în jurul căreia sunt situate majoritate datelor. Se notează cu litera m sau,
dacă seria de valori este notată cu o majusculă ca X sau Y, media se notează cu X sau Y . Formula
este cea cunoscută:
x1 + x2 +......... xn
X = =m
n
De cele mai multe ori, valorile din serie sunt situate, în majoritate, în apropierea mediei, iar
o mai mică parte din ele sunt situate mult în stânga sau în dreapta mediei.
2)Deviaţia sau abaterea standard – este parametrul fundamental folosit pentru

caracterizarea împrăştierii unei serii de valori şi reprezintă rădăcina pătrată a dispersiei. Se notează
cu σ şi are formula:
( x1 − X ) 2 + ( x2 − X ) 2 + ....... + ( xn − X ) 2
σ= D sau σ =
n −1
Deviația standard se exprimă cu aceeaşi unitate de măsură ca şi valorile din seria considerată
şi este un indicator foarte fidel al împrăştierii seriei. Deviaţia standard nu are dezavantajele
dispersiei, adică unitatea de măsură este aceeaşi cu a valorilor din serie şi are o valoare comparabilă
cu abaterile individuale de la medie.
3)Minimul şi maximul – reprezintă valorile extreme dintr-o serie de date.
4)Mediana şi cuartilele
Mediana este valoarea dintr-o serie de valori, pentru care jumătate din valorile seriei sunt
mai mici decât mediana şi jumătate mai mari. Cuartila Q1 este valoarea dintr-o serie de valori,
pentru care un sfert din valorile seriei sunt mai mici decât Q1 şi trei sferturi mai mari. Cuartila Q3
este valoarea dintr-o serie de valori, pentru care trei sferturi din valorile seriei sunt mai mici decât
Q3 şi un sfert mai mari. Percentilele reprezintă valori fata de care un anumit procent (5%, 10%,
90%, 95% etc.) din toate datele din serie sunt mai mici.
2
Pentru aplicarea corectă a anumitor teste statistice este necesar ca datele studiate să aibă un
anumit tip de distribuţie. Cele mai multe teste prin care se compara valorile medii ale rezultatelor,
necesită ca datele să fie distribuite normal, gaussian. Verificarea distribuţiei gaussiene a valorilor
dintr-o serie de date se poate efectua cu ajutorul testelor de normalitate Anderson-Darling,
Shapiro-Wilks sau Kolmogorov-Smirnov.
În cazul în care datele analizate au o distribuţie gaussiană, în mod curent, pentru compararea
valorilor medii ale datelor, se folosesc testul Student sau testul ANOVA. Dacă datele nu au o
distribuţie normală, gaussiană, trebuie să apelăm la teste neparametrice, precum testul Mann-
Whitney-Wilcoxon sau Kruskal-Wallis/Friedman.
Testul t al lui Student, de comparare a mediilor pentru 2 loturi, propune doua ipoteze
statistice:
-ipoteza H0 (sau ipoteza de nul): diferenţa între medii este întâmplătoare
-ipoteza H1: diferenţa între medii este semnificativă statistic
Rezultatul p al testului reprezintă probabilitate de a face o eroare dacă se respinge ipoteza

H0 a testului, rezultat furnizat ca un număr între 0 şi 1. Dacă p este mai mic decât 0.05 respingem
ipoteza H0, de nul, şi admitem că este adevărată ipoteza H1.
Interpretarea valorilor lui p se face, ca la orice test statistic, astfel:
-p < 0.05, diferenţa între cele două medii este semnificativă (S, încredere 95%).
-p < 0.01, diferenţa între cele două medii este semnificativă (S, încredere 99%).
-p < 0.001, diferenţa între cele două medii este înalt semnificativă (HS, încredere 99.9%).
-p > 0.05, diferenţa între cele două medii este nesemnificativă (NS).
Testul t al lui Student poate fi aplicat doar pentru date numerice care provin dintr-o
populaţie cu distribuţie normala, gaussiană. Dacă această condiţie nu este îndeplinită, pentru a
compara datele celor două loturi pot fi folosite testul Wilcoxon (număr de date egale, valori
pereche) sau testul Mann-Whitney (număr diferit de valori în cele doua loturi comparate).
Rezultatele acestor teste pot fi şi ele exprimate sub forma unei probabilităţi, interpretată la fel ca la
testul Student.
3
Testul ANOVA (Analysis of Variance) este un procedeu de analiză a dispersiei unei
variabile numerice (eng.=”variance”), sub influenţa unei variabile care imparte datele in subloturi
(variabila de grupare). Prin ANOVA se compară medii pentru trei şi mai multe subpopulaţii definite
de variabila de grupare (variabila independentă).
Metoda permite extensia analizei realizate prin testul t Student, aplicabil asupra a două
medii, la situaţii în care variabila independentă (variabila de grupare) prezintă trei sau mai multe
categorii, verificând astfel dacă sunt diferenţe semnificative între populaţiile din care s-au extras
eşantionanele observate.
În analiza variaţiei considerând un singur factor cauză se formulează următoarele 2 ipoteze:
-ipoteza nulă H0: x̄ 1 =x̄ 2 =.....x̄ k (toate mediile sunt asemănătoare) unde x – parametrul considerat, x̄
- media
-ipoteza alternativă H1: cel puţin valorile medii a doi parametri sunt diferite între ele
În cazul în care rezultatul testului ANOVA este semnificativ statistic, putem continua
analiza prin testele „post hoc” Tuckey HSD sau Fisher LSD, pentru a identifica perechile de
categorii între care există diferențe semnificative. Într-un mod oarecum asemănator testului t
Student se calculează, pentru toate combinațiile posibile de câte 2 categorii, valori p, al căror nivel
critic este ajustat în funcție de numărul total de combinații, pragul găsit fiind, de cele mai multe ori,
mai mic decât pragul obisnuit, de 0,05.
Interpretarea valorilor lui p se va face ca la orice test statistic, astfel:
• p < 0.05, diferenţa între medii este semnificativă (S, incredere 95%).
• p < 0.01, diferenţa între medii este semnificativă (S, incredere 99%).
• p < 0.001, diferenţa între medii este înalt semnificativă (HS, incredere 99.9%).
• p > 0.05, diferenţa între medii este nesemnificativă (NS).
Testul Kruskal-Wallis este un test statistic neparametric care compară valorile datelor din
trei sau mai multe grupuri. Fiind un test neparametric, deci care nu necesita distributia normala,
gaussiana, a datelor comparate, el poate inlocui testul ANOVA cand acesta nu poate fi aplicat. Daca
dorim sa comparam datele distribuie ne-gaussian din 3 sau mai multe serii-perechi (cu acelasi nr. de
valori, de obicei masuratori facute la mai multe momente de timp, pe un singur lot) vom folsi testul
Friedman.
4
Corelaţia
Este un termen general folosit pentru a defini interdependenţa sau legătura dintre variabilele
observate în populaţii statistice. Apare uneori cu un înţeles foarte larg, acoperind orice legătură
statistică fie între variabile cantitative, fie între variabile calitative, fie între ambele tipuri de
variabile. În sens restrâns însă, este o măsură a gradului de legătură statistică între variabilele
cantitative, sub numele de „coeficient de corelaţie”.
Cel mai des folosit este coeficientul de corelaţie al lui Pearson (coeficient de corelaţie
liniară), care măsoară gradul de legătură între variabile.
Coeficientul de corelaţie
Pentru două serii de date distribuie gaussian, coeficientul de corelaţie folosit este
coeficientul lui Pearson. Deşi distribuţiile datelor nu sunt întotdeauna de aşa natură ca rezultatele
obţinute folosind acest coeficient sa fie cele mai bune, totuşi am considerat ca este cel mai sintetic
indicator al corelaţiei.
Coeficientul de corelaţie r are valori cuprinse între -1 şi 1.
În cazul unui coeficient de corelaţie pozitiv (ex. r = 0,5) avem o corelaţie directă - cele două
variabile corelate variază în acelaşi sens (când una creşte, şi cealaltă creşte, respectiv când una
scade, şi cealaltă scade).
În cazul unui coeficient de corelaţie negativ (ex. r = -0,5) avem o corelaţie inversă, cele două
variabile corelate variază în sens contrar (când una creşte, cealaltă scade).
Dacă valoarea absolută a coeficientului de corelaţie aproape de 0 corelatia liniara este aproape
absenta. Nu trebuie să se conchidă neapărat că nu există legătură statistică între cele două variabile;
legătura poate să existe, dar nu este liniară (nu poate fi descrisă de o linie dreaptă).
Pentru date care nu au o distribuţie gaussiana, dar care se pot ordona, fără a avea un număr
mare de valori egale intre ele, putem folosi coeficientul Spearman, obţinut prin testul neparametric
Spearman de corelaţie a rangurilor.
Dreapta de regresie - pentru a putea caracteriza evoluţia în timp a unui set de valori,
aparţinând unui număr de observaţii, se poate folosi ecuaţia de regresie.
5
Ecuaţia de regresie (ecuaţia de estimare) este relaţia matematică care exprimă dependenţa
dintre două sau mai multe variabile. Admiţându-se, fie numai ipotetic, dependenţa unei variabile de
unul sau mai mulţi factori, trebuie aleasă ecuaţia de regresie care să descrie relaţia dintre variabila
dependentă şi variabila independentă. Frecvent se foloseşte ecuaţia de regresie liniară, respectiv
dreapta de regresie:
y = a·x +b,
unde y este variabila dependentă, iar x este variabila independentă.
Acest model presupune că variabila dependentă y este egală în medie cu o funcţie liniară de
x, depinzând de parametrii necunoscuţi a şi b. Această dependenţă liniară este un model determinist
şi nu reflectă exact legătura dintre x şi y. Valorile observate nu se găsesc exact pe dreapta de mai
sus. Dreapta trasată este însă cea mai apropiată (statistic) de valorile observate.
Estimarea parametrilor a şi b se face prin „metoda celor mai mici pătrate” sau în sensul
celor mai mici pătrate (adică să se fie minimă suma pătratelor abaterilor între punctele observate şi
punctele corespunzătoare de pe dreapta de regresie).
Parametrul a este valoarea tangentei pentru unghiul format de dreapta de regresie şi

orizontală, iar în sens geometric reprezintă panta dreptei de regresie (slope). Panta dreptei de
regresie (parametrul a) mai este denumită „coeficient de regresie”. În cazul corelaţiei directe sau
pozitive între variabila dependentă şi cea independentă, ia valoare pozitivă, iar în cazul corelaţiei
inverse sau negative (variaţiile sunt de sens contrar), are valoare negativă. Parametrul b (intercept)
este valoarea lui y când x este egal cu 0 şi reprezintă punctul de intersecţie cu abcisa.
Relatii intre date impartite in categorii (date ordinale sau nominale)
În cazul parametrilor care nu sunt reprezentaţi prin date numerice, continue sau discrete, nu
putem calcula coeficienţii de corelaţie tradiţionali, enumeraţi anterior. În cazul datelor ordinale sau
nominale trebuie să apelăm la teste care analizează tabelele de incidenţă (contingenţă) generate prin
aplicarea încrucişata („cross tabulation”) a unor perechi de factori, pentru a identifica legăturile
dintre categoriile acelor variabile.
Testul Chi pătrat este un test statistic ce arata daca exista vreo legatura (influenta
reciproca) intre doi factori. El este folosit pentru a interpreta tabelele de incidenţă generate prin
aplicarea încrucişata („cross tabulation”) a perechilor de factori urmăriţi in cadrul studiului.
6
La testul Chi patrat de testare a dependentei ( χ2 ) se calculeaza rezultatul testului pentru
datele din tabelele de incidenta, rezultat care se compara cu o valoarea prag care indica o
dependenta semnificativa (prag de 95% sau 99%) sau o dependenta inalt semnificativa (prag de
99.9%) intre cei doi factori de clasificare. Valoarea lui χ2 se calculeaza prin formula:
n
(| Oi − Ei |) 2
χ2 = ∑ ,
i =1 Ei
unde O - frecventa observata, E - frecventa teoretica
Ipotezele testate sunt:
H 0 (ipoteza nula) – cei doi factori sunt independenti;
H a (ipoteza alternativa) – exista o asociere (dependenta) intre cei doi factori.
Am folosit următoarea interpretare a valorilor lui p, furnizate direct de programul cu care se

realizează prelucrarea statistica a datelor, prin aplicarea testului de mai sus:
• p < 0.05, rezultat semnificativ (S, încredere 95% că exista o asociere intre factori);
• p < 0.01, rezultat semnificativ (S, încredere 99% că exista o asociere intre factori);
• p < 0.001, rezultat înalt semnificativ (HS, încredere 99,9% că exista o asociere intre factori);
• p > 0.05, rezultat nesemnificativ (NS, încrederea de a considera ca exista o dependenta intre
factorii studiati este mai mica de 95%, deci eroarea de a respinge ipoteza ca factorii sunt
independenti este mai mare de 5%, prag considerat prea mare).

Biostatistica Pentru Cercetare Medicala

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Biostatistica Pentru Cercetare Medicala

Încărcat de

Drepturi de autor:

Formate disponibile

STRUCTURA UNUI ARTICOL STIINTIFIC

1.Introducerea - in acest capitol autorii prezinta situatia cunoscuta in domeniul studiului, cu

Pentru caracterizarea datelor numerice uzual se folosesc indicatorii statistici fundamentali,

2)Deviaţia sau abaterea standard – este parametrul fundamental folosit pentru

3)Minimul şi maximul – reprezintă valorile extreme dintr-o serie de date.

-ipoteza H0 (sau ipoteza de nul): diferenţa între medii este întâmplătoare

-ipoteza H1: diferenţa între medii este semnificativă statistic

Rezultatul p al testului reprezintă probabilitate de a face o eroare dacă se respinge ipoteza

Interpretarea valorilor lui p se face, ca la orice test statistic, astfel:

În analiza variaţiei considerând un singur factor cauză se formulează următoarele 2 ipoteze:

Interpretarea valorilor lui p se va face ca la orice test statistic, astfel:

Coeficientul de corelaţie r are valori cuprinse între -1 şi 1.

unde y este variabila dependentă, iar x este variabila independentă.

Parametrul a este valoarea tangentei pentru unghiul format de dreapta de regresie şi

Relatii intre date impartite in categorii (date ordinale sau nominale)

unde O - frecventa observata, E - frecventa teoretica

Ipotezele testate sunt:

H 0 (ipoteza nula) – cei doi factori sunt independenti;

H a (ipoteza alternativa) – exista o asociere (dependenta) intre cei doi factori.

Am folosit următoarea interpretare a valorilor lui p, furnizate direct de programul cu care se

S-ar putea să vă placă și