Sunteți pe pagina 1din 7

VI.

Corela ia
De multe ori suntem interesa i de modul n care variabilitatea unui set de date se reflect n (este asociat cu, este corelat cu, este legat de) variabilitatea altui set de date. De exemplu dac este influen at produc ia unei anumite culturi de cantitatea de nutrien i din sol. Pentru a determina aceast influen putem efectua un test X2 pentru un singur eantion, caz n care vom determina dac produc ia ob inut pentru diferite tipuri de sol este la fel sau depinde de solul respectiv. Astfel, vom completa un tabel de contingen care con ine datele observate (produc ia culturii respective pe diferite categorii de sol) i datele ateptate (produc ia care s-ar ob ine dac solul nu ar exercita nici o influen ). sczut x1 y1 Cantitatea de nutrien i din sol normal mare x2 x3 y2 y3 foarte mare x4 y4

Produc ia observat Produc ia ateptat

n cazul tabelului de mai sus toate valorile y sunt egale ntre ele i reprezint media valorilor x. Ipotezele testate sunt urmtoarele: H0: Produc ia culturii respective nu arat nici o varia ie n func ie de tipul de sol. (ipoteza nulului) H1: Produc ia culturii respective prezint o varia ie n func ie de tipul de sol. Rezultatul testului X2 ne va indica dac exist diferen ntre produc iile realizate pe diferite categorii de soluri, dar nu ne va spune cum variaz produc ia cu tipul de sol. Impasul la care se ajunge se rezolv dac se determin coeficien ii de corela ie dintre cele dou variabile.

Fig. 28. Tipuri de corela ie dintre dou variabile.

Coeficien ii de corela ie Coeficien ii de corela ie rezolv aceast problem. Ei sunt o msur a asocierii dintre dou variabile. Ei ne spun cum se modific valoarea unei variabile n func ie de valoarea altei variabile (dac cele dou variabile sunt asociate). De exemplu, putem determina cum se modific variabila "precipita ii medii - n mm" n func ie de variabila "altitudine - n m". n acest caz ne ateptm la o cretere a cantit ii de precipita ii odat cu creterea altitudinii. Coeficien ii de corela ie nu numai c ne spun dac exist o corela ie ntre cele dou variabile, ci i ct de strns este rela ia dintre ele. n figura 28 sunt prezentate diferite grafice care ne indic modul n care variaz mpreun perechile de msurtori (x,y). n fiecare caz coeficien ii de corela ie care descriu legtura dintre x i y sunt diferi i. Exist mai multe tipuri de coeficien i de corela ie, dar cei mai utiliza i sunt: - coeficientul de corela ie Pearson (notat cu rxy sau r), care este un coeficient parametric. - coeficientul Spearman (notat cu rs), care este un coeficient non- parametric (corela ie a ordinului). Coeficientul de corela ie Pearson Numele complet al acestui coeficient este "coeficientul de corela ie produs-moment Pearson". Acest coeficient poate fi calculat cu ajutorul rela iei (32). Valoarea coeficientului de corela ie Pearson poate varia ntre +1 i -1. O valoare apropiat de +1 indic o corela ie pozitiv puternic; o valoare apropiat de -1 ne indic o corela ie negativ puternic, iar o valoare apropiat de zero ne indic faptul c ntre cele dou variabile nu exist nici o corela ie. 1 (x i x ) ( y i y ) n i rxy = (32) sx sy unde - n este mrimea eantionului format din msurtori pereche (x,y); - xi reprezint msurtorile individuale ale variabilei x; - yi reprezint msurtorile individuale ale variabilei y; - x reprezint media aritmetic a variabilelor x; - y reprezint media aritmetic a variabilelor y; - sx reprezint devia ia standard pentru valorile x; - sy reprezint devia ia standard pentru valorile y. Numrtorul din rela ia (32) se numete covarian (notat cu sxy) sau variabilitate pereche. 1 s xy = (x i x ) (y i y ) (33) n i Covarian a este o msur a gradului n care varia ia unei variabile se potrivete cu varia ia celeilalte variabile. Coeficientul de corela ie este raportul dintre covarian a i variabilitatea total (produsul celor dou devia ii standard). Dac covarian a este egal cu variabilitatea total, atunci coeficientul de corela ie este egal cu unitatea (r = 1). Dac covarian a este mult mai mic dect variabilitatea, atunci r se apropie de zero. Exemplu: Coeficientul Pearson rxy. S considerm nite date aleatoare (perechi de numere notate x i y). x: 80 61 23 94 87 37 64 22 23 y: 30 29 33 21 61 56 86 69 22 Pentru a calcula coeficientul de corela ie rxy: trebuie determinate n primul rnd mediile aritmetice i devia iile standard corespunztoare celor dou variabile, precum i covarian a (tabelul 11). x 80 61 y 30 29 Tabelul 11. Calculul covarian ei yy (x x ) ( y y ) -15,22 -387,32 -16.22 -104,54 2

xx 25,44 6,44

media aritmetic: devia ia standard:

23 94 87 37 64 22 23 54,56 27,38

33 21 61 56 86 69 22 45,22 22,02

-31,56 39,44 32,44 -17,56 9,44 -32,56 -31,56

-12,22 -24,22 15,78 10,78 40,78 23,78 23,22 suma:

385,68 -955,43 511,9 -189,21 385,12 -774,1 732,79 -395,11

n continuare se efectueaz nlocuirile n rela ia (32). Valoarea coeficientului Pearson este: 1 ( 395,11) 9 rxy = = 0,07 27,38 22,02 De remarcat c, dei am considerat nite numere aleatoare, nu s-a ob inut valoarea "0" cum ne ateptam, ci aproape de "0" pentru c valorile distribuite aleator pot s varieze mpreun datorit ansei. Cu ct dimensiunea eantioanelor va crete, cu att coeficientul rxy (coeficientul de corela ie Pearson) va fi mai aproape de zero.
Limitele coeficientului de corela ie Pearson Principalele limite ale coeficientului de corela ie sunt urmtoarele: necesit date scalate pe un interval (deci nu pot fi folosite date ordinale sau nominale) este parametric (deci trebuie ca amndou variabilele s fie normal distribuite) presupune o rela ie liniar i ntr-o anumit direc ie ntre cele 2 variabile. Coeficientul de corela ie al ordinului (Spearman) Coeficientul Spearman (rs) este utilizat destul de frecvent, deoarece reprezint o alternativ a coeficientului Pearsons r, atunci cnd datele nu ndeplinesc condi iile enun ate mai sus. La fel ca multe alte teste statistice non-parametrice, calcularea lui rs necesit ca datele s aib un ordin. Pentru nceput datele din fiecare eantion primesc un ordin. n continuare se folosete rela ia (34) pentru a calcula coeficientul de corela ie al ordinului (Spearman) 6 d2 rs = 1 3 (34) n n unde - n reprezint mrimea eantioanelor (msurtorilor pereche) - d este diferen a dintre ordinul fiecrei perechi de msurtori La fel ca i coeficientul Pearson, coeficientul Sperman ia valori ntre -1 i +1. Exemplu: Calculul coeficientului Spearman rs: ne punem ntrebarea dac exist vreo corela ie ntre totalul precipita ilor i debit. Presupunem c datele nu sunt potrivite pentru a calcula coeficientul Pearson, deci trebuie folosit coeficientul Spearman de corela ie al ordinului. Variabilele care reprezint precipita iile (n mm/m3) sunt notate cu x, iar variabilele care reprezint debitul (m3/s) sunt notate cu y (tabelul 12). Pentru a calcula coeficientul Spearman trebuie determinate valorile n (mrimea eantioanelor) i d (diferen a dintre ordinul fiecrei perechi de msurtori). Mrimea eantioanelor n se determin prin numrarea perechilor din cele 2 seturi de date (n cazul nostru n = 10). Pentru a afla valorile d trebuie s atribuim un ordin pentru fiecare set, separat i n aceeai direc ie (ascendent sau descendent) considernd ordinul corespunztor celei mai joase valori din fiecare set ca fiind 1.

Precipita ii (mm/m3) x

Debit (m3/s) y

Tabelul 12. Calculul coeficientului Spearman Ordinul lui x Ordinul lui y d d2 rx ry (rx-ry)

1,2 1,8 4,0 3,6 1,9 2,4 2,7 0,4 0,1 0,9

2,7 2,4 8,1 7,2 2,5 3,7 4,6 1,7 1,8 1,4

4 5 10 9 6 7 8 2 1 3

6 4 10 9 5 7 8 2 3 1

-2 1 0 0 1 0 0 0 -2 -2 d2

4 1 0 0 1 0 0 0 4 4 14

Introducnd valoarea pentru d2 i n n rela ia (34) ob inem 6 14 rs = 1 3 = 1 0,085 = +0,915 10 10 Aceast valoare ne indic o rela ie puternic i pozitiv ntre debit i precipita ii. Deci, dac debitul crete, crete i cantitatea de precipita ii.
Limitele coeficientului Spearman Principalele limite ale coeficientului de corela ie al ordinului (coeficientul Spearman) sunt: - deoarece datele trebuie s fie ordonate, sunt necesare date ordinale sau scalate pe un interval, deci datele nominale nu pot fi folosite; - valoarea coeficientului Spearman este afectat dac exist un numr relativ mare de ordine legate n fiecare set de date; - dei coeficientul Spearman nu presupune o rela ie liniar ntre cele 2 variabile, totui se presupune c direc ia rela iei se men ine (cresctoare sau descresctoare). - coeficientul de corela ie al ordinului are doar 91% din puterea lui coeficientului de corela ie Pearson rxy. Prin putere se n elege abilitatea testului de a respinge ipoteza nulului cnd aceasta este n realitate fals. Deci, pentru acelai set de date, dac presupunerile ce implic folosirea coeficientului Pearson rxy nu sunt violate, atunci acesta ne va indica o informa ie mai corect dect coeficientul Spearman. Testarea semnifica iei coeficien ilor rxy i rs Ca i n cazul altor teste, trebuie testat semnifica ia valorilor calculate (rxy sau rs). Acest fapt este important ndeosebi atunci cnd lucrm cu eantioane relativ mici, cnd este posibil s ob inem un coeficient de corela ie diferit de zero prin alegerea aleatoare a unor date total necorelate. Semnifica ia acestor coeficien i poate fi testat pe un eantion de orice dimensiune (dar totui peste 10 perechi de valori) folosind distribu ia t: n2 t = r (35) 1 r2 unde n este mrimea eantionului pentru msurtorile pereche, iar r reprezint coeficientul de corela ie. n testarea semnifica iei coeficientului de corela ie se poate folosi o distribu ie t limitat la un capt (one-tailed) sau limitat la ambele capete (two-tailed). Asfel vom avea urmtoarele ipotezele: two-tailed one-tailed H0 =0 =0 H1 0 > 0 sau < 0 n ambele cazuri se testeaz ipoteza nulului, adic verificm dac corela ia popula iei este zero (dup cum se observ ipotezele enun ate mai sus folosesc parametrul , care reprezint corela ia popula iei).

Atunci cnd ne ateptm ca legtura (rela ia) dintre cele 2 variabile s fie ntr-o direc ie particular vom folosi distribu ia one-tailed pentru a afla dac este pozitiv sau negativ. n astfel de cazuri nivelul de semnifica ie din tabelul t trebuie s fie jumtate din cel folosit la distribu ia two-tailed. (n programul EXCEL se folosete func ia TDIST i se specific dac este one-tailed sau two-tailed). Dac suntem nesiguri de direc ia rela iei dintre cele 2 variabile, se va folosi testul two-tailed.
Cazul eantioanelor mici Pentru eantioane ce au mai pu in de 10 date se poate folosi testul t pentru coeficientul Pearson rxy, dar dac vrem s verificm coeficientul Spearman rs este necesar un tabel Spearman special (dat n anexa 4). De multe ori se folosesc alte tabele pentru determinarea semnifica iei coeficien ilor rxy sau rs (pentru n>10) pentru care nu trebuie folosit statistica t. De fapt aceste tabele sunt construite prin rearanjarea rela iei (35) pentru a rezolva coeficientul r n func ie de t. Aceste tabele pot fi "onetailed" sau "two-tailed", deci trebuie verificat tipul lor nainte de a le folosi. n anexa 5 este prezentat un tabel caracteristic semnifica iei coeficientului de corela ie rxy. Exemplul urmtor ilustreaz folosirea statisticii-t pentru a testa semnifica ia coeficientului de corela ie. Prin acest test vrem s determinm dac ntre precipita ii i debit este o corela ie pozitiv semnificativ. Acest test va fi de tipul one-tailed (r > 0). Ipotezele care trebuie enun ate n acest caz sunt: H0 : s = 0 H1 : s > 0 Presupunnd c rs = +0,915 i n = 11ob inem: n2 11 2 t calc = rs = 0,915 = 6,80 2 1 rs 1 0,9152 n continuare trebuie determinat valoarea critic tcrit din tabelul probabilit ii distribu iei t. Dup cum se observ, n cazul acestui exemplu numrul gradelor de libertate este egal cu 9: df = n - 2 = 9 Vom testa cu o probabilitate de 95% ipoteza nulului. Deci nivelul de semnifica ie este a = 1 - 0,95 = 0,05. Dar deoarece tabelul t este "two-tailed" i nou ne trebuie valoarea corespunztoare din tabelul "one-tailed", vom citi tcrit corespunztor coloanei 2a = 0,1. Deci tcrit = 1,833. Observm c tcalc(6,41) > tcrit(1,833) deci respingem ipoteza nulului, concluzionnd cu o probabilitate de 95% c ntre cele 2 variabile exist o corela ie pozitiv. De asemenea, putem verifica n tabelul Spearman, dac valoarea critic rs crit ne conduce la acelai rspuns (comparnd cu valoarea calculat rs calc). Aplica ii ale coeficien ilor de corela ie Calculul coeficien ilor de corelatie este deosebit de util, n n elegerea legturilor dintre varia iile diferi ilor parametrii care caracterizeaz o popula ie dat. Din multitudinea de aplica ii prezentm doar cteva exemple: rela ia dintre bioproductivitate i factorii lega i de propriet ile solului (umiditate, concentra ia diferitilor nutrien i, temperatur, granulozitate, pH, etc); rela ia dintre viteza de alunecare a unui ghe ar i rata eroziunii rocilor; rela ia dintre rata eroziunii solului i viteza vntului sau duritatea solului. Coeficientul de determinare Teoria coeficientului de corela ie "produs-moment" deriv din regresia liniar efectuat cu metoda celor mai mici ptrate. Trebuie amintit faptul c din valoarea coeficientului de corela ie rxy, se poate deduce cantitatea cu care varia ia unei variabile este explicat statistic de varia ia celeilalte variabile. Aceast cantitate se numete coeficient de determinare i este egal cu ptratul coeficientului de corela ie, fiind notat cu r2. Deci coeficientul de determinare este r2 = r2xy

Exemplu: dac coeficientul Pearson are valoarea rxy = 0,65 atunci coeficientul de determinare va fi r2=0,42 Aceast numr reprezint deci propor ia varia iei unei variabile explicat prin cealalt. Altfel spus, o variabil statistic explic 42% din varia ia celeilalte variabile. Anexa 4. Tabelul valorilor critice pentru coeficientul Spearman nivelul de semnifica ie n 10% 5% 2% 1% 4 1.000 5 0.900 1.000 1.000 6 0.771 0.886 0.943 1.000 7 0.714 0.786 0.892 0.929 8 0.643 0.738 0.810 0.857 9 0.600 0.683 0.783 0.817 10 0.564 0.648 0.733 0.781 Tabelul cuprinde valorile critice rs crit "two-tailed" pentru o anumit mrime n a eantioanelor i un anumit nivel de semnifica ie. Pentru un eantion ce are 11 sau mai multe date, se folosete tabelul pentru semnifica ia coeficientului Pearson (anexa 5) sau distribu ia-t.

Anexa 5. Tabelul valorilor critice pentru coeficientul Pearson Tabelul cuprinde valorile critice rxy crit "two-tailed" pentru un anumit grad de libertate (df) i un anumit nivel de semnifica ie. Pentru corela ia dintre dou eantioane, gradul de libertate este egal cu n - 2. Nivelul de semnifica ie df 0.100 0.050 0.025 0.010 0.005 1 0.9877 0.9969 0.9992 0.9999 1.0000 2 0.9000 0.9500 0.9750 0.9900 0.9950 3 0.8054 0.8783 0.9237 0.9587 0.9740 4 0.7293 0.8114 0.8680 0.9172 0.9417 5 0.6694 0.7545 0.8166 0.8745 0.9056 6 0.6215 0.7067 0.7713 0.8343 0.8697 7 0.5822 0.6664 0.7318 0.7977 0.8359 8 0.5494 0.6319 0.6973 0.7646 0.8046 9 0.5214 0.6021 0.6669 0.7348 0.7759 10 0.4973 0.5760 0.6400 0.7079 0.7496 11 0.4762 0.5529 0.6159 0.6835 0.7255 12 0.4575 0.5324 0.5943 0.6614 0.7034 13 0.4409 0.5140 0.5748 0.6411 0.6831 14 0.4259 0.4973 0.5570 0.6226 0.6643 15 0.4124 0.4821 0.5408 0.6055 0.6470 16 0.4000 0.4683 0.5258 0.5897 0.6308 17 0.3887 0.4555 0.5121 0.5751 0.6158 18 0.3783 0.4438 0.4993 0.5614 0.6018 19 0.3687 0.4329 0.4875 0.5487 0.5886 20 0.3598 0.4227 0.4764 0.5368 0.5763 25 0.3233 0.3809 0.4305 0.4869 0.5243 30 0.2960 0.3494 0.3956 0.4487 0.4840 33 0.2826 0.3338 0.3784 0.4296 0.4639 38 0.2638 0.3120 0.3541 0.4026 0.4353 43 0.2483 0.2940 0.3339 0.3801 0.4113 50 0.2306 0.2732 0.3106 0.3542 0.3836 60 0.2108 0.2500 0.2845 0.3248 0.3522 70 0.1954 0.2319 0.2641 0.3017 0.3274 80 0.1829 0.2172 0.2475 0.2830 0.3072 90 0.1726 0.2050 0.2336 0.2673 0.2903 100 0.1638 0.1946 0.2219 0.2540 0.2759