Sunteți pe pagina 1din 7

VI.

Corelaia
De multe ori suntem interesai de modul n care variabilitatea unui set de date se reflect n (este asociat cu, este corelat cu, este legat de) variabilitatea altui set de date. De exemplu dac este influenat producia unei anumite culturi de cantitatea de nutrieni din sol. Pentru a determina aceast influen putem efectua un test X2 pentru un singur eantion, caz n care vom determina dac producia obinut pentru diferite tipuri de sol este la fel sau depinde de solul respectiv. Astfel, vom completa un tabel de contingen care conine datele observate (producia culturii respective pe diferite categorii de sol) i datele ateptate (producia care s-ar obine dac solul nu ar exercita nici o influen). sczut x1 y1 Cantitatea de nutrieni din sol normal mare x2 x3 y2 y3 foarte mare x4 y4

Producia observat Producia ateptat

n cazul tabelului de mai sus toate valorile y sunt egale ntre ele i reprezint media valorilor x. Ipotezele testate sunt urmtoarele: H0: Producia culturii respective nu arat nici o variaie n funcie de tipul de sol. (ipoteza nulului) H1: Producia culturii respective prezint o variaie n funcie de tipul de sol. Rezultatul testului X2 ne va indica dac exist diferen ntre produciile realizate pe diferite categorii de soluri, dar nu ne va spune cum variaz producia cu tipul de sol. Impasul la care se ajunge se rezolv dac se determin coeficienii de corelaie dintre cele dou variabile.

Fig. 28. Tipuri de corelaie dintre dou variabile.

Coeficienii de corelaie Coeficienii de corelaie rezolv aceast problem. Ei sunt o msur a asocierii dintre dou variabile. Ei ne spun cum se modific valoarea unei variabile n funcie de valoarea altei variabile (dac cele dou variabile sunt asociate). De exemplu, putem determina cum se modific variabila "precipitaii medii - n mm" n funcie de variabila "altitudine - n m". n acest caz ne ateptm la o cretere a cantitii de precipitaii odat cu creterea altitudinii. Coeficienii de corelaie nu numai c ne spun dac exist o corelaie ntre cele dou variabile, ci i ct de strns este relaia dintre ele. n figura 28 sunt prezentate diferite grafice care ne indic modul n care variaz mpreun perechile de msurtori (x,y). n fiecare caz coeficienii de corelaie care descriu legtura dintre x i y sunt diferii. Exist mai multe tipuri de coeficieni de corelaie, dar cei mai utilizai sunt: - coeficientul de corelaie Pearson (notat cu rxy sau r), care este un coeficient parametric. - coeficientul Spearman (notat cu rs), care este un coeficient non- parametric (corelaie a ordinului). Coeficientul de corelaie Pearson Numele complet al acestui coeficient este "coeficientul de corelaie produs-moment Pearson". Acest coeficient poate fi calculat cu ajutorul relaiei (32). Valoarea coeficientului de corelaie Pearson poate varia ntre +1 i -1. O valoare apropiat de +1 indic o corelaie pozitiv puternic; o valoare apropiat de -1 ne indic o corelaie negativ puternic, iar o valoare apropiat de zero ne indic faptul c ntre cele dou variabile nu exist nici o corelaie. 1 (x i x ) ( y i y ) n i rxy = (32) sx sy unde - n este mrimea eantionului format din msurtori pereche (x,y); - xi reprezint msurtorile individuale ale variabilei x; - yi reprezint msurtorile individuale ale variabilei y; - x reprezint media aritmetic a variabilelor x; - y reprezint media aritmetic a variabilelor y; - sx reprezint deviaia standard pentru valorile x; - sy reprezint deviaia standard pentru valorile y. Numrtorul din relaia (32) se numete covarian (notat cu sxy) sau variabilitate pereche. 1 s xy = (x i x ) (y i y ) (33) n i Covariana este o msur a gradului n care variaia unei variabile se potrivete cu variaia celeilalte variabile. Coeficientul de corelaie este raportul dintre covariana i variabilitatea total (produsul celor dou deviaii standard). Dac covariana este egal cu variabilitatea total, atunci coeficientul de corelaie este egal cu unitatea (r = 1). Dac covariana este mult mai mic dect variabilitatea, atunci r se apropie de zero. Exemplu: Coeficientul Pearson rxy. S considerm nite date aleatoare (perechi de numere notate x i y). x: 80 61 23 94 87 37 64 22 23 y: 30 29 33 21 61 56 86 69 22 Pentru a calcula coeficientul de corelaie rxy: trebuie determinate n primul rnd mediile aritmetice i deviaiile standard corespunztoare celor dou variabile, precum i covariana (tabelul 11). x 80 61 y 30 29 Tabelul 11. Calculul covarianei yy (x x ) ( y y ) -15,22 -387,32 -16.22 -104,54 2

xx 25,44 6,44

media aritmetic: deviaia standard:

23 94 87 37 64 22 23 54,56 27,38

33 21 61 56 86 69 22 45,22 22,02

-31,56 39,44 32,44 -17,56 9,44 -32,56 -31,56

-12,22 -24,22 15,78 10,78 40,78 23,78 23,22 suma:

385,68 -955,43 511,9 -189,21 385,12 -774,1 732,79 -395,11

n continuare se efectueaz nlocuirile n relaia (32). Valoarea coeficientului Pearson este: 1 ( 395,11) 9 rxy = = 0,07 27,38 22,02 De remarcat c, dei am considerat nite numere aleatoare, nu s-a obinut valoarea "0" cum ne ateptam, ci aproape de "0" pentru c valorile distribuite aleator pot s varieze mpreun datorit ansei. Cu ct dimensiunea eantioanelor va crete, cu att coeficientul rxy (coeficientul de corelaie Pearson) va fi mai aproape de zero.
Limitele coeficientului de corelaie Pearson Principalele limite ale coeficientului de corelaie sunt urmtoarele: necesit date scalate pe un interval (deci nu pot fi folosite date ordinale sau nominale) este parametric (deci trebuie ca amndou variabilele s fie normal distribuite) presupune o relaie liniar i ntr-o anumit direcie ntre cele 2 variabile. Coeficientul de corelaie al ordinului (Spearman) Coeficientul Spearman (rs) este utilizat destul de frecvent, deoarece reprezint o alternativ a coeficientului Pearsons r, atunci cnd datele nu ndeplinesc condiiile enunate mai sus. La fel ca multe alte teste statistice non-parametrice, calcularea lui rs necesit ca datele s aib un ordin. Pentru nceput datele din fiecare eantion primesc un ordin. n continuare se folosete relaia (34) pentru a calcula coeficientul de corelaie al ordinului (Spearman) 6 d2 rs = 1 3 (34) n n unde - n reprezint mrimea eantioanelor (msurtorilor pereche) - d este diferena dintre ordinul fiecrei perechi de msurtori La fel ca i coeficientul Pearson, coeficientul Sperman ia valori ntre -1 i +1. Exemplu: Calculul coeficientului Spearman rs: ne punem ntrebarea dac exist vreo corelaie ntre totalul precipitailor i debit. Presupunem c datele nu sunt potrivite pentru a calcula coeficientul Pearson, deci trebuie folosit coeficientul Spearman de corelaie al ordinului. Variabilele care reprezint precipitaiile (n mm/m3) sunt notate cu x, iar variabilele care reprezint debitul (m3/s) sunt notate cu y (tabelul 12). Pentru a calcula coeficientul Spearman trebuie determinate valorile n (mrimea eantioanelor) i d (diferena dintre ordinul fiecrei perechi de msurtori). Mrimea eantioanelor n se determin prin numrarea perechilor din cele 2 seturi de date (n cazul nostru n = 10). Pentru a afla valorile d trebuie s atribuim un ordin pentru fiecare set, separat i n aceeai direcie (ascendent sau descendent) considernd ordinul corespunztor celei mai joase valori din fiecare set ca fiind 1.

Precipitaii (mm/m3) x

Debit (m3/s) y

Tabelul 12. Calculul coeficientului Spearman Ordinul lui x Ordinul lui y d d2 rx ry (rx-ry)

1,2 1,8 4,0 3,6 1,9 2,4 2,7 0,4 0,1 0,9

2,7 2,4 8,1 7,2 2,5 3,7 4,6 1,7 1,8 1,4

4 5 10 9 6 7 8 2 1 3

6 4 10 9 5 7 8 2 3 1

-2 1 0 0 1 0 0 0 -2 -2 d2

4 1 0 0 1 0 0 0 4 4 14

Introducnd valoarea pentru d2 i n n relaia (34) obinem 6 14 rs = 1 3 = 1 0,085 = +0,915 10 10 Aceast valoare ne indic o relaie puternic i pozitiv ntre debit i precipitaii. Deci, dac debitul crete, crete i cantitatea de precipitaii.
Limitele coeficientului Spearman Principalele limite ale coeficientului de corelaie al ordinului (coeficientul Spearman) sunt: - deoarece datele trebuie s fie ordonate, sunt necesare date ordinale sau scalate pe un interval, deci datele nominale nu pot fi folosite; - valoarea coeficientului Spearman este afectat dac exist un numr relativ mare de ordine legate n fiecare set de date; - dei coeficientul Spearman nu presupune o relaie liniar ntre cele 2 variabile, totui se presupune c direcia relaiei se menine (cresctoare sau descresctoare). - coeficientul de corelaie al ordinului are doar 91% din puterea lui coeficientului de corelaie Pearson rxy. Prin putere se nelege abilitatea testului de a respinge ipoteza nulului cnd aceasta este n realitate fals. Deci, pentru acelai set de date, dac presupunerile ce implic folosirea coeficientului Pearson rxy nu sunt violate, atunci acesta ne va indica o informaie mai corect dect coeficientul Spearman. Testarea semnificaiei coeficienilor rxy i rs Ca i n cazul altor teste, trebuie testat semnificaia valorilor calculate (rxy sau rs). Acest fapt este important ndeosebi atunci cnd lucrm cu eantioane relativ mici, cnd este posibil s obinem un coeficient de corelaie diferit de zero prin alegerea aleatoare a unor date total necorelate. Semnificaia acestor coeficieni poate fi testat pe un eantion de orice dimensiune (dar totui peste 10 perechi de valori) folosind distribuia t: n2 t = r (35) 1 r2 unde n este mrimea eantionului pentru msurtorile pereche, iar r reprezint coeficientul de corelaie. n testarea semnificaiei coeficientului de corelaie se poate folosi o distribuie t limitat la un capt (one-tailed) sau limitat la ambele capete (two-tailed). Asfel vom avea urmtoarele ipotezele: two-tailed one-tailed H0 =0 =0 H1 0 > 0 sau < 0 n ambele cazuri se testeaz ipoteza nulului, adic verificm dac corelaia populaiei este zero (dup cum se observ ipotezele enunate mai sus folosesc parametrul , care reprezint corelaia populaiei).

Atunci cnd ne ateptm ca legtura (relaia) dintre cele 2 variabile s fie ntr-o direcie particular vom folosi distribuia one-tailed pentru a afla dac este pozitiv sau negativ. n astfel de cazuri nivelul de semnificaie din tabelul t trebuie s fie jumtate din cel folosit la distribuia two-tailed. (n programul EXCEL se folosete funcia TDIST i se specific dac este one-tailed sau two-tailed). Dac suntem nesiguri de direcia relaiei dintre cele 2 variabile, se va folosi testul two-tailed.
Cazul eantioanelor mici Pentru eantioane ce au mai puin de 10 date se poate folosi testul t pentru coeficientul Pearson rxy, dar dac vrem s verificm coeficientul Spearman rs este necesar un tabel Spearman special (dat n anexa 4). De multe ori se folosesc alte tabele pentru determinarea semnificaiei coeficienilor rxy sau rs (pentru n>10) pentru care nu trebuie folosit statistica t. De fapt aceste tabele sunt construite prin rearanjarea relaiei (35) pentru a rezolva coeficientul r n funcie de t. Aceste tabele pot fi "onetailed" sau "two-tailed", deci trebuie verificat tipul lor nainte de a le folosi. n anexa 5 este prezentat un tabel caracteristic semnificaiei coeficientului de corelaie rxy. Exemplul urmtor ilustreaz folosirea statisticii-t pentru a testa semnificaia coeficientului de corelaie. Prin acest test vrem s determinm dac ntre precipitaii i debit este o corelaie pozitiv semnificativ. Acest test va fi de tipul one-tailed (r > 0). Ipotezele care trebuie enunate n acest caz sunt: H0 : s = 0 H1 : s > 0 Presupunnd c rs = +0,915 i n = 11obinem: n2 11 2 t calc = rs = 0,915 = 6,80 2 1 rs 1 0,9152 n continuare trebuie determinat valoarea critic tcrit din tabelul probabilitii distribuiei t. Dup cum se observ, n cazul acestui exemplu numrul gradelor de libertate este egal cu 9: df = n - 2 = 9 Vom testa cu o probabilitate de 95% ipoteza nulului. Deci nivelul de semnificaie este a = 1 - 0,95 = 0,05. Dar deoarece tabelul t este "two-tailed" i nou ne trebuie valoarea corespunztoare din tabelul "one-tailed", vom citi tcrit corespunztor coloanei 2a = 0,1. Deci tcrit = 1,833. Observm c tcalc(6,41) > tcrit(1,833) deci respingem ipoteza nulului, concluzionnd cu o probabilitate de 95% c ntre cele 2 variabile exist o corelaie pozitiv. De asemenea, putem verifica n tabelul Spearman, dac valoarea critic rs crit ne conduce la acelai rspuns (comparnd cu valoarea calculat rs calc). Aplicaii ale coeficienilor de corelaie Calculul coeficienilor de corelatie este deosebit de util, n nelegerea legturilor dintre variaiile diferiilor parametrii care caracterizeaz o populaie dat. Din multitudinea de aplicaii prezentm doar cteva exemple: relaia dintre bioproductivitate i factorii legai de proprietile solului (umiditate, concentraia diferitilor nutrieni, temperatur, granulozitate, pH, etc); relaia dintre viteza de alunecare a unui ghear i rata eroziunii rocilor; relaia dintre rata eroziunii solului i viteza vntului sau duritatea solului. Coeficientul de determinare Teoria coeficientului de corelaie "produs-moment" deriv din regresia liniar efectuat cu metoda celor mai mici ptrate. Trebuie amintit faptul c din valoarea coeficientului de corelaie rxy, se poate deduce cantitatea cu care variaia unei variabile este explicat statistic de variaia celeilalte variabile. Aceast cantitate se numete coeficient de determinare i este egal cu ptratul coeficientului de corelaie, fiind notat cu r2. Deci coeficientul de determinare este r2 = r2xy

Exemplu: dac coeficientul Pearson are valoarea rxy = 0,65 atunci coeficientul de determinare va fi r2=0,42 Aceast numr reprezint deci proporia variaiei unei variabile explicat prin cealalt. Altfel spus, o variabil statistic explic 42% din variaia celeilalte variabile. Anexa 4. Tabelul valorilor critice pentru coeficientul Spearman nivelul de semnificaie n 10% 5% 2% 1% 4 1.000 5 0.900 1.000 1.000 6 0.771 0.886 0.943 1.000 7 0.714 0.786 0.892 0.929 8 0.643 0.738 0.810 0.857 9 0.600 0.683 0.783 0.817 10 0.564 0.648 0.733 0.781 Tabelul cuprinde valorile critice rs crit "two-tailed" pentru o anumit mrime n a eantioanelor i un anumit nivel de semnificaie. Pentru un eantion ce are 11 sau mai multe date, se folosete tabelul pentru semnificaia coeficientului Pearson (anexa 5) sau distribuia-t.

Anexa 5. Tabelul valorilor critice pentru coeficientul Pearson Tabelul cuprinde valorile critice rxy crit "two-tailed" pentru un anumit grad de libertate (df) i un anumit nivel de semnificaie. Pentru corelaia dintre dou eantioane, gradul de libertate este egal cu n - 2. Nivelul de semnificaie df 0.100 0.050 0.025 0.010 0.005 1 0.9877 0.9969 0.9992 0.9999 1.0000 2 0.9000 0.9500 0.9750 0.9900 0.9950 3 0.8054 0.8783 0.9237 0.9587 0.9740 4 0.7293 0.8114 0.8680 0.9172 0.9417 5 0.6694 0.7545 0.8166 0.8745 0.9056 6 0.6215 0.7067 0.7713 0.8343 0.8697 7 0.5822 0.6664 0.7318 0.7977 0.8359 8 0.5494 0.6319 0.6973 0.7646 0.8046 9 0.5214 0.6021 0.6669 0.7348 0.7759 10 0.4973 0.5760 0.6400 0.7079 0.7496 11 0.4762 0.5529 0.6159 0.6835 0.7255 12 0.4575 0.5324 0.5943 0.6614 0.7034 13 0.4409 0.5140 0.5748 0.6411 0.6831 14 0.4259 0.4973 0.5570 0.6226 0.6643 15 0.4124 0.4821 0.5408 0.6055 0.6470 16 0.4000 0.4683 0.5258 0.5897 0.6308 17 0.3887 0.4555 0.5121 0.5751 0.6158 18 0.3783 0.4438 0.4993 0.5614 0.6018 19 0.3687 0.4329 0.4875 0.5487 0.5886 20 0.3598 0.4227 0.4764 0.5368 0.5763 25 0.3233 0.3809 0.4305 0.4869 0.5243 30 0.2960 0.3494 0.3956 0.4487 0.4840 33 0.2826 0.3338 0.3784 0.4296 0.4639 38 0.2638 0.3120 0.3541 0.4026 0.4353 43 0.2483 0.2940 0.3339 0.3801 0.4113 50 0.2306 0.2732 0.3106 0.3542 0.3836 60 0.2108 0.2500 0.2845 0.3248 0.3522 70 0.1954 0.2319 0.2641 0.3017 0.3274 80 0.1829 0.2172 0.2475 0.2830 0.3072 90 0.1726 0.2050 0.2336 0.2673 0.2903 100 0.1638 0.1946 0.2219 0.2540 0.2759

S-ar putea să vă placă și