Sunteți pe pagina 1din 19

Analiza bivariata a

datelor

Curs 8
Analiza bivariata a datelor
 Presupune masurarea gradului de asociere a
doua variabile sub aspectul:
 Semnificatiei statistice
 Intensitatii
 Directiei (naturii)
Analiza diferentiala bivariata

 • Testele utilizate sunt alese in functie de modul de


masurare al variabilelor, numarul de esantioane
(grupuri) analizate si relatiile existente intre
esantioane:
 • Variabile categoriale:
 – 2 grupuri:
 » Independente: χ 2 , MannWhitney, WaldWolfowitz;
 » Dependente: χ 2 (varianta McNemar), Wilcoxon;
 – mai multe grupuri: KruskalWallis;
 • Variabile proportionale:
 – 2 grupuri:
 » Independente: testul Student pentru variabile independente;
 » Dependente: testul Student pentru variabile dependente;
 – mai multe grupuri: ANOVA;
Variabilele nominale
 Tabele de frecvente (contingenta) considerata simultan pentru
doua sau mai multe variabile caracteristice aceluiasi esantion.

 Coeficientul de corelatie (valori intre -1 si +1)

 rphi =ad-bc/[(a+b)(c+d)(a+c)(b+d)]1/2

 Directia asocierii este data de valoarea lui (rphi)2


 Gradul de semnificatie al asocierii dintre opiniile subiectilor
constituiti in cele doua esantioane independente este
 determinat cu ajutorul testului χ2, McNemar sau Fisher.
Testul neparametric χ2
 Testul neparametric χ 2
 • In varianta clasica, testul χ 2 presupune testarea unor variabile
categoriale (de regula nonparametrice) si independenta esantioanelor
analizate.
 • Se bazeaza pe utilizarea tabelelor de contingenta.

 Bazat pe ipoteza nula:


 H0: nu exista diferente semnificative intre cele doua variabile.
 Valoarea calculata χc 2 a testului se compara cu valoarea tabelata χt
 2 a acestuia, obtinuta in functie de probabilitatea de garantare a
rezultatului
 si gradele de libertate asociate: (r-1)(k-1).
 χc2 ≤ χt2 : se accepta ipoteza nula
 χc2 > χt2 : se respinge ipoteza nula
Testul neparametric χ2
 Pentru mai mult de doua subesantioane
independente trebuie ca frecventele Oij > 1 si
Oij < 5 sa nu depaseasca 20%.
 ! Masurarea gradului de asociere se poate
realiza cu ajutorul coeficientului de
contingenta:
 C= √ χc2/N+χc2
Testul Fisher
 Inlocuieste testul χ2 atunci cand dimensiunea esantionului
N<40 si k=r=2
 ! Testul probabilitatii exacte (Fisher) are aceiasi ipoteza nula:
 H0: nu exista diferente semnificative intre cele doua variabile.
 P=(A+B)(C+D)(A+C)(B+D)!/N!A!B!C!D!

 ! Valoarea calculata p a testului se compara cu probabilitatea de


garantare a rezultatului (ex.: 95%).
 p ≤ 0,05 : se respinge ipoteza nula
 p > 0,05 : se accepta ipoteza nula
 Testul Fisher
 • Atunci cand dimensiunea esantionului n>20
si k=r=2 se utilizeaza corectia lui Yates a
testului Fisher:

 Χ2= N ([ad-bc!+ N/2)2/ A+B)(C+D)(A+C)(B+D


Testul McNemar
 Inlocuieste testul χ2 atunci cand cele doua esantioane investigate nu sunt
independente
 Testul McNemar are aceiasi ipoteza nula:
H0: nu exista diferente semnificative intre cele doua variabile.

 Χ2|= ((a-d)-1)2/a+d
 a si d reprezinta frecventele subesantioanelor independente.
 Interpretarea este aceiasi ca si in cazul testuluiχ2 :
 χc 2 ≤ χt2 : se accepta ipoteza nula
 χc2 > χt2 : se respinge ipoteza nula
 Testul Mann Whitney
 • Utilizat de preferinta pentru pentru identificarea diferentelor
semnificative intre (doua) variabile ce provin din esantioane
independente, masurate cu ajutorul scalei ordinale (se poate utiliza
insa si in cazul variabilelor proportionale), distribuite normal.
 • Ipotezele testului MannWhitney:
 H 0 : NU exista diferente semnificative intre cele doua
 variabile.
 H 1 : Cele doua variabile difera in mod semnificativ.
 Testul MannWhitney
 • R i reprezinta rangurile asociate valorilor din
esantionul i (primul sau al doilea).
 • Pentru esantioane totale (n 1 +n 2 ) mai mici de 30,
valorile lui U t sunt tabelate.
 • Pentru esantioane de peste 30 de subiecti se
utilizeaza testul Student pentru stabilirea semnificatiei
statistice a testului U, dupa formula:
 Interpretarea testului U pentru esantioane
mai mici de 30 de subiecti:
 U c ≤ U t : se accepta ipoteza nula
 U c > U t : se accepta ipoteza alternativa
 • Interpretarea teoretica a testului U pentru
esantioane mai mici de 30 de subiecti:
 z c ≤ z t : se accepta ipoteza nula
 z c > z t : se accepta ipoteza alternativa
 Testul Wilcoxon
 • Testul Wilcoxon este un test nonparametric bivariat utilizat
pentru identificarea semnificatiei statistice a diferentelor
identificate pentru variabile provenite din esantioane
dependente (masuratori repetate sau variabile masurate ale
acelorasi respondenti),
 masurate cu ajutorul scalelor ordinale, indiferent de tipul
distributiei.

 – Exemplu: existenta unor diferente semnificative statistic


intre perceptiile asupra a doua marci diferite (utilizand scala Likert)
sau pentru perceptia asupra imaginii berii Redd’s inainte si dupa
realizarea unei campanii promotionale.
Variabilele ordinale
 Variabilele ordinale
 Tabele de frecvente (contingenta) considerata simultan pentru
doua sau mai multe variabile caracteristice aceluiasi esantion.
 Masurarea gradului de asociere se poate utiliza coeficientul
Spearman de corelatie a rangurilor

 ρ=1-6∑Di2/n(n2-1)

 Directia asocierii este data de valoarea lui ρ sau γ.


 Gradul de semnificatie al asocierii dintre opiniile subiectilor
constituiti in cele doua esantioane independente este
determinat cu testului semnificatiei coeficientului Spearman.
Coeficientul de corelatie Spearman
 Bazat pe ipoteza nula:
 H0: nu exista o corelatie intre variabilele
investigate.
 ! Valoarea calculata Zc a testului se compara
cu valoarea tabelara Zt a acestuia, obtinuta
in functie de probabilitatea de garantare a
rezultatului.
 -Zt ≤ Zc ≤ Zt : se accepta ipoteza nula
 Zc= ρ/1/√n-1
 Coeficientul de corelatie γ al lui Goodman si Kruskall
 ! Se poate utiliza atunci cand coeficientul Spearman nu ofera valori concludente.
 ! Valoarea lui γ, la fel ca si ρ, poate lua valori in intervalul -1 si +1.

γ=P-Q/P+Q

 ! P se obtine inmultind valoarea frecventei din coltul din stanga sus a tabelului
de frecvente asociat cu valorile de pe randul urmator, fara cea care se afla
imediat sub ea, si cu celelalte valori ale tabelului, dupa care se insumeaza cu
produsul dintre prima valoare a randului urmator si suma frecventelor incepand
de pe randul urmator, insa din nou fara valoarea aflata imediat sub ea, iterativ. Q
se calculeaza dupa aceleasi reguli, insa incepand din dreapta sus.
Variabilele metrice

 Tabele de frecvente (contingenta) considerata simultan pentru


doua sau mai multe variabile caracteristice aceluiasi esantion.
 Masurarea gradului de asociere se poate utiliza coeficientul
Pearson de corelatie a rangurilor

 r= n∑xy- ∑x ∑y/(n ∑x2- ∑2x(n ∑y2- ∑2y)1/2)1/2


 Directia asocierii este data de valoarea lui r.
 Gradul de semnificatie al asocierii dintre opiniile subiectilor
constituiti in cele doua esantioane este determinat prin testarea
semnificatiei statistice a coeficientului r.
Coeficientul de corelatie Pearson

 ! Utilizat pentru variabile continue, normale, cu dispersii asemanatoare


 ! Bazat pe ipoteza nula:
 H0: nu exista o corelatie intre variabilele investigate
 (r nu este in mod semnificativ diferit de zero).

 Zc=1,11513+log10(1+r/1-r)/1/(n-3)1/2

 ! Valoarea calculata Zc a testului se compara cu valoarea tabelata Zt a


acestuia, obtinuta in functie de probabilitatea de garantare a
 rezultatului.
 -Zt2 ≤ Zc2 ≤ Zt2 : se accepta ipoteza nula
 altfel : se respinge ipoteza nula
Variabilele ordinale
 Tabele de frecvente (contingenta) considerata
simultan pentru doua sau mai multe variabile
caracteristice aceluiasi esantion.
 Masurarea gradului de asociere se poate utiliza
coeficientul Spearman de corelatie a rangurilor
 Directia asocierii este data de valoarea lui ρ sau γ.
 Gradul de semnificatie al asocierii dintre opiniile
subiectilor constituiti in cele doua esantioane
independente este determinat cu testului
semnificatiei coeficientului Spearman.

S-ar putea să vă placă și