Sunteți pe pagina 1din 26

Universitatea Oradea

Facultatea de Medicina si Farmacie

Informatica Medicala si
Biostatistica

Dr. Olivia BACIU


Analiza legaturii dintre variabile
Modele de testare a legaturii in functie de tipul variabilei:
 Variabile cantitative => regresia
 Variabile calitatite => testul Chi-patrat

Un prim pas în estimarea legăturii îl constituie verificarea existenţei acestei


legături => corelatia dintre variabile.

Corelatia
Exprima:
 tipul de asociere;
 gradul de asociere intre variabile (intensitatea legaturii);
 forma legaturii;

Coeficientul de corelatie ia valori intre [-1,1].

Informatica Medicala si Biostatistica


Tipul de asociere:
 Coeficient pozitiv => legatura directa (variabilele se modifica in acelasi
sens)
 Coeficient negativ => legatura inversa (variabilele se modifica in directie
inversa)

Informatica Medicala si Biostatistica


Gradul de asociere:

 Cu cat valoarea absoluta a coeficientului este mai mare, cu atat este


indicata o legatura mai puternica intre variabile;
 Valoarea 0 a coeficientului indica lipsa legaturii (variabile independente);

Informatica Medicala si Biostatistica


Forma legaturii:

Informatica Medicala si Biostatistica


Coeficientul de corelatie a lui Pearson:

=> se poate calcula pentru variabile cantitative

Prezumtii:
 legatura liniara intre variabile;
 erorile sunt independente;
 variabilele urmeaza o distributie normala bivariata.

Informatica Medicala si Biostatistica


Coeficientul de corelatia e rangurilor a lui Spearman

=> se poate aplica pentru orice tip de variabile;


! Coeficientul lui Spearman este egal cu cel al lui Pearson calculat
pentru ranguri.

Pentru variabile ordinale, se poate utiliza formula:

Informatica Medicala si Biostatistica


Coeficientul de determinare

 are valori cuprinse între 0 şi 1 şi nu oferă indicii privind tipul


legăturii dintre variabile;
 indică proporţia de variaţie din Y explicată prin X.

Informatica Medicala si Biostatistica


Regresia
Regresia permite exprimarea legăturii dintre variabile prin modele
matematice. În general, modelul legăturii nu se cunoasţe ci se
estimează pe baza unui set de date.

Functia de regresie => functia care aproximeaza cel mai bine forma
legaturii dintre variabile

Functia de regresie are la baza doua componente:


 componenta determinista f(x), care contine valoriile variabilelor de care
depinde y
 componenta aleatoare, care exprima variabilele care nu pot fi cuantificate

Informatica Medicala si Biostatistica


În analiza legăturii dintre variabile se remarcă mai multe tipuri de variabile:
- variabila explicată prin intermediul altor factori se mai numeşte variabilă
endogenă sau dependentă
- variabilele care influenţează variabila endogenă se numesc variabile exogene,
independente sau explicative
- factorii care influenţează fenomenul analizat însă nu pot fi cuantificaţi sau
identificaţi se regăsesc sub forma unei variabile reziduale.

În funţie de numărul variabilelor explicative din model, identificăm:


- regresii univariate (sau simple)
- regresii multivariate atunci când sunt utilizaţi cel puţin doi factori explicativi

În funcţie de forma legăturii, se identifică mai multe tipuri de regresii:


liniară, exponenţială, hiperbolică, parabolică etc.

Informatica Medicala si Biostatistica


Regresia liniara univariata

- interceptul, indica valoarea variabilei dependente atunci cand variabila


independenta este 0;
- panta dreptei, arata cu cat se modifica Y atunci cand X creste cu o unitate

Informatica Medicala si Biostatistica


Exemplu:

Nutritionistii considera ca greutatea corporala (kg) a femeilor de peste


30 de ani creste odata cu varsta (ani). Masuratorile obtinute pe un lot
de 18 paciente cu varsta de peste 30 de ani sunt oferite in tabelul de
mai jos:

Care este greutatea medie aşteptată pentru o femeie de 63 de ani?


Caracterizaţi legătura dintre greutate şi vârstă.

Informatica Medicala si Biostatistica


Între cele două variabile, greutate şi vârstă se observă o legătură liniară.

Informatica Medicala si Biostatistica


Modelul matematic al legăturii:

Modelul estimat al legaturii:

Modelul estimat al legaturii:

Se observă din testul t că ambii coeficienţi sunt diferiţi de zero (p-value<0.05).


Pentru o femeie de 63 de ani, greutatea medie aşteptată este de 75,354 kg. Între
greutate şi vârstă există o relaţie directă, respectiv atunci când vârsta creşte,
greutatea creşte. Pentru fiecare an, greutatea creşte cu 0.688 kg.

Informatica Medicala si Biostatistica


Coeficientul de determinare este 0.788, adica 78,8% din
variabilitatea din model este explicată pe baza vârstei.

Coeficientul lui Pearson indică o legătură puternică şi directă


între greutatea femeilor de peste 30 de ani şi vârstă. Greutatea
creşte odată cu vârsta.

Informatica Medicala si Biostatistica


ANOVA
Analiza variantei
Test pentru cercetari multifactoriale sau multinivel =>
 ANOVA univariată/simplă (one-way ANOVA), atunci când este urmărit
efectul unui singur factor care determină cel puţin trei grupuri;
 ANOVA bivariată (two-way ANOVA), atunci când sunt urmărite efectele
simultane a două sau mai multe variabile independente;

Fisher (1950) defineşte analiza variaţiei drept „separarea varianţei


unui grup de cauze faţă de varianţa atribuită altor grupuri”.

Ipotezele (condiţii de aplicare) ANOVA:


 variabila de grupare are cel puţin trei categorii;
 datele urmează o distribuţie normală;
 varianţele grupurilor sunt omogene (egale);

Atentie!!! Inainte de aplicarea ANOVA, se verifica ipotezele. Daca


acestea nu sunt indeplinite, in functie de conditiile neidenplinite, se
aplica transformari asupra datelor.

Informatica Medicala si Biostatistica


Deviaţia valorilor observate de la valoarea medie se poate separa pe
baza deviaţiilor valorilor observate de la cele previzionate şi deviaţiile
valorilor previzionate de la valoarea medie, având loc relaţia:

Informatica Medicala si Biostatistica


Informatica Medicala si Biostatistica
Testul ANOVA nu oferă informaţii privind efectele căror grupuri
diferă, motiv pentru care s-au dezvoltat teste care să stabilească
acest aspect, cunoscute sub denumirea de teste/ tehnici de
comparaţie multiplă.

Dintre metodele de comparaţie, fac parte următoarele teste:


 Testul Bonferroni, construit prin comparări multiple pe baza testului t
pentru care pragul de semnificaţie este divizat la numărul de
comparări;
 Testul Scheffe are la bază statistica F şi este util atunci când numărul de
comparaţii este mare;
 Testul Tuckey

Informatica Medicala si Biostatistica


Exemplu (Amess et al., 1978)
Pe un eşantion de 22 de pacienţi
cardiaci este urmărit efectul a trei
tipuri de tratamente prin ventilaţie
pentru operaţia de bypass, respectiv,
în primul tratament (1) este aplicat în
timpul operaţiei, în tratamentul al
doilea (2) este aplicat în timpul
operaţiei şi în primele 24 de ore
postoperatorii iar în cel de-al treilea
tratament (3) se aplică în timpul
operaţiei. Pentru fiecare pacient,
indiferent de grupa de tratament,
este măsurat nivelul acidului folic din
celulele roşii la 24 de ore după
operaţie. Acest indicator (nivelul
acidului folic) este asociat cu o
deficienţă a vitaminei B12 în
metabolism. Există diferenţă în
efectul celor trei tipuri de tratamente
aplicate pacienţilor?

Informatica Medicala si Biostatistica


Informatica Medicala si Biostatistica
Efectul caror tratamente difera?

Informatica Medicala si Biostatistica


Centralizator:

Informatica Medicala si Biostatistica

S-ar putea să vă placă și