Sunteți pe pagina 1din 5

Capitolul 3-continuare

3.5. Tehnici de explorare a perechilor de date


Este cunoscut faptul ca in meteorologie exista anumite legaturi dintre variatia a doua
variabile insa, de cele mai multe ori nu se cunoaste exact relatia determinista dintre ele.
Se pune problema ca pe baza unor masuratori simultane asupra celor doua variabile sa se
stabileasca o masura a legaturii statistice intre ele. In cele ce urmeaza se prezinta doua
dintre cele mai cunoscute masuri si anume corelatia (ordinara) Pearson si corelatia
rangurilor. Alte tehnici de analiza a datelor meteorologice se refera la corelatia seriala,
functia de autocorelatie, matricea de corelatie, harta de corelatie, detalii dspre acestea
fiind prezentate in Wilks (1995).
3.5.1 Corelatia Pearson
De cele mai multe ori, cand se pune problema sa se analizeze legatura dintre doua
variabile, sa zicem x si y, se calculeaza un coeficient de corelatie. In mod obisnuit,
termenul de coeficient de corelatie se refera la coeficientul Pearson al corelatiei liniare.
Acest coeficient este dat de relatia,

x' y'
n

rxy=

x '

i 1

i 1
1/ 2

y '

i 1

1/ 2

(3.14)

unde x= x x iar y= y

Coeficientul de corelatie Pearson are doua proprietati importante:


a) -1rxy1
Daca rxy=-1 exista o asociere linara negativa perfecta intre x si y adica, daca se
reprezinta pe un grafic punctele y in raport cu (y= ordonata si x= abscisa) , toate
punctele sunt aliniate pe o dreapta cu panta negativa.
In mod similar, daca rxy =1, exista o asociere liniara pozitiva perfecta.
b) Patratul coeficientului de corelatie Pearson, rxy 2, reprezinta proportia variabilitatii
uneia din cele doua variabile care este liniar explicata (descrisa) de cealalta variabila.
Trebuie mentionat ca rxy nu ofera nici o explicatie despre legatura (in sens fizic) dintre x
si y. S-ar putea ca x sa influenteze din punct de vedere fizic y sau invers, dar, adesea,
ambele rezulta din anumite sau multe alte procese (Wilks, 1995).
Exemplu 3.8. Limite ale coeficientului de corelatie linear
Se considera doua seturi de date artificiale prezentate in tabelul 3.2.
Pentru setul 1 coeficientul Pearson este r xy =+0.88 iar pentru setul 2 rxy =+0.61. Din
analiza celor doua valori ar rezulta ca exista o relatie destul de stransa intre cele perechile
x-y din cele doua seturi.
Coeficientul de corelatie liniara Pearson nu este nici robust , nici rezistent (vezi
comentariile de la modulul distributii-empirice). Cele doua seturi de date au fost alese
pentru a ilustra aceste neajunsuri. In figura 3.6 sunt reprezentate punctele de coordonate

(x, y). Se constata ca, in cazul setului 1 (fig. 3.6a), punctele se aseaza perfect pe o curba
iar valoarea coeficientului de corelatie liniara de 0.88 subestimeaza aceasta relatie care
este mult mai stransa in realitate. Cauza este data de faptul ca punctele nu se aseaza pe o
linie dreapta. Prin urmare, coeficientul de corelatie nu este rezistent la deviatiile fata de
liniaritate.
In cazul setului 2 (fig. 3.6b), coeficientul de corelatie supraestimeaza legatura dintre x si
y din cauza punctului de coordonate x=20 si y=17 care este mult in afara celorlalte puncte
care forteaza aoroximarea relatiei dintre x si y printr-o dreapta. Datorita distantei mari
fata de media de selectie a acestor puncte, diferenta pozitiva fata de aceasta medie
domina relatia (3.14) ceea ce conduce la o valoare pozitiva nerealista. In acest caz
coeficientul de corelatie nu este rezistent la punctele speciale care pot fi eronate. Daca se
exclude acest punct, se observa ca nu exista o relatie stransa intre setul de puncte ramase
iar acestea sugereaza mai degraba o relatie negativa, destul de slaba.
Tabel 3.2. Perechi de date artificiale pentru calculul coeficientului de corelatie
Set
1
Set 2
x
y
x
y
0
0
2
8
1
3
3
4
2
6
4
9
3
8
5
2
5
11
6
5
7
13
7
6
9
14
8
3
12
15
9
1
16
16
10
7
20
16
20
17

a)
b)
Figura 3.6. Reprezentarea grafica a punctelor de coordonate (x, y) din tabelul 3.2: a)setul 1 si b) setul 2.

3.5.2. Corelatia rangurilor (Spearman)


O alternativa robusta si rezistenta la coefiecientul de corelatie Pearson este coeficientul
de corelatie al rangurilor Spearman. Acesta este de fapt tot un coeficient de corelatie
liniara Pearson dar aplicat rangurilor valorilor x si y, in locul valorilor initiale x , y.
Astfel, sirul de date x si y se ordoneaza mai intai in ordine crescatoare. Apoi, fiecarei
valori din sirul initial i se asociaza rangul obtinut in sirul ordonat. Coeficientul de
corelatie Spearman este dat de relatia,

6i 1 Di2
n

rrang=1-

n( n 2 1)

(3.15)

unde Di este diferenta dintre rangurile pentru perechea (xi, yi). In cazul in care exista
valori egale in sir, acestora li se asociaza rangurile lor mediate, inainte de a se calcula
valorile unde Di.
Exemplul 3.9. Calculul coeficientului de corelatie Spearman pentru datele din tabelul 3.2
In cazul setului 1 de date din tabelul 3.2 se constata ca exista o relatie monotona intre x
si y, astfel ca datele sunt deja ordonate in ordine crescatoare. Prin urmare, ambele
componente ale perechilor (x,y) au acelasi rang deci diferenta lor este zero. Cele mai mari
doua valori ale lui y au aceeasi valoare si li se asociaza la fiecare rangul 9.5 care este
media intre rangurile 9 si 10. In acest caz coeficientul de corelatie al rangurilor (conform
relatiei 3.15) are valoarea aproape 1 (adica o dependenta monotona aproape perfecta intre
x si y) care reda mult mai bine legatura reala dintre cele doua variabile x si y decat cea
rezultata din coeficientul de corelatie liniara prezentata mai sus. Deci, in timp ce
coeficientul de corelatie Pearson reflecta intensitatea relatiei liniare dintre doua seturi
de date, coeficientul de corelatiei al rangurilor Pearson reflecta intensitatea
dependentei monotone.
In cazul setului 2 din tabelul 3.2, valorile lui x sunt deja ordonate in timp ce valorile lui y
sunt amestecate si trebuie ordonate. Astfel la prima pereche (2,8) i se asociaza perechea
rangurilor (1,8) deoarece 2 este primul din sirul crescator al lui x, deci are rangul 1, iar 8
este al 8-lea din siurul crescator al lui y, deci are rangul 8. D i in acest caz este 1-8=-7. In
setul 2 numai componenetele a trei perechi (a 5-a, a 6-a, a 10-a) au acelasi rang (ceea ce
inseamna Di =0), restul au ranguri diferite ceea ce determina ca cel de al doilea termen
din ecuatia 3.15 sa fie diferit de zero, conducand la valoarea r rang=0.018. Acest rezultat
reflecta mai bine relatia slaba intre x si y fata de valoarea coeficientului de corelatie
Pearson care este 0.61.
Din exemplul prezentaa mai sus se observa clar ca, prin extensie, coeficientul de corelatie
liniara Pearson este foarte sensibil la prezenta unei tendinte liniare in date ceea ce
conduce la o supraestimare a acestuia in cazul in care nu exista o dependenta reala intre
variabilitatea temporala a datelor. Acest inconvenient este deseori prezent in diferite
seturi de date climatologice. Din acest motiv este indicat ca, inainte de calculul

coeficientului de corelatie Pearson, sa se elimine tendinta liniara din setul de date care se
realizeaza prin utilizarea unui program de calcul sau sa se calculeze direct coeficientul
rangurilor Spearman.
Exemplul 3.10. Corelatia dintre temperatura de vara din Romania si temperatura la 850
mb.
Se considera anomaliile temperaturii medii de vara la 94 statii din
Romaniia pentru perioada 1961-2007 (vezi Busuioc si altii, 2007 ;
http://www.rjm.inmh.ro). Aceste anomalii au fost calculate fata de
media multianuala 1961-1990. Avand in vedere ca abaterile standard
pentru temperaturile din acelasi anotimp sunt aproximativ egale intre
ele, are sens sa calculam media spatiala pe Romania a acestor valori.
Evolutia temporala a acestor valori este reprezentata in figura 3.17
(albastru).
Ne propunem sa studiem relatia dintre aceasta serie de date si cea
referitoare la media spatiala a anomaliilor temperaturii aerului la
850mb deasupra Romaniei (aria cuprinsa intre 20-30 oE, 40-50oN), valori
reprezentate in fig. 3.17 cu rosu.

Fig. 3.17. Mediile spatiale ale anomaliilor temperaturii aerului din timpul verii din
Romania (94 de statii) reprezentate prin culoarea albastra si ale temperaturii aerului la
850 mb deasupra Romaniei (20-30oE, 40-50oN), reprezentate prin culoarea
rosie, pentru perioada 1961-2007.
Calculam coeficientii de corelatie Pearson si Spearman pentru cele
doua seturi de date. Valorile sunt urmatoarele:
rxy=0.93
rrang=0.89
Valorile arata o corelatie foarte stransa, ceea ce este demonstrat si de evolutia temporala
foarte coerenta a celor doua curbe. Avand in vedere ca cele doua seturi de date prezinta o
tendinta semnificativa (vezi modulul Teste de semnificatie), pentru a vedea daca

corelatia liniara a fost supraestimata, s-a eliminat tendinta liniara din ambele seturi de
date si s-au calculat din nou coeficientii de corelatie. Rezulatele nu difera mult de cele
initiale si anume:
rxy=0.91
rrang=0.88
Acest rezultat arata ca relatia dintre cele doua variabile este foarte stransa si este reala,
ceea ce este deja cunoscut din practica meteorologica: o crestere a temperaturii aerului la
850 mb conduce la o crestere a temperaurii deasupra suprafetei solului. Aceasta relatie se
poate utiliza pentru a dezvolta anumite metode statistice de detaliere la scara fina (statii
meteorologice din Romania) a temperaturii aerului pentru Romania, utilizate in prognoza
pe diferite intervale de timp.
Semnificatia coeficientilor de corelatie
Valorile apropiate de zero ale coeficientilor de corelatie arata ca intre cele doua seturi de
variabile analizate nu exista o legatura statistica. Se pune problema de la ce valori ale
coeficientilor de corelatie, acestia pot fi considerati semnificativi din punct de vedere
statistic la un anumit nivel de incredere, care este o probabilitate cu valori cuprinse intre 0
si 1. Uneori se mai foloseste si notiunea de nivel de semnificatie (vezi modulul teste
statistice). Calculul semnificatiei statistice este legat de anumite functii de distributie
teoretice care nu fac obiectul cursului de fata. Cursantii pot gasi detalii despre acest
subiect in Wilks (1995) iar subrutinele FORTRAN referitoare la coeficientii de corelatie
prezentati mai sus se gasesc in William Press et all (1985) sau in alte pachete de
programe. Calculul coeficientului de corelatie Pearson se mai poate realiza si in
programul EXCEL.
Bibliografie
Busuioc, A., Al. Dumitrescu, E. Soare and A. Orzan, 2007: Summer anomalies in 2007 in
the context of extremely hot and dry summers in Romania, Romanian J. Meteor,
vol. 9 No 1-2, 1-16.
Wilks, D., 1995: Statistical Methods in the Atmospheric Science. Academic Press, 467
pp.