Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
4
componenţilor principali (factorială), clasificări
automate, regresii liniare / neliniare etc.
WinSTAT Robert K. Fitch, Mai simplu comparativ cu XLSTAT, este de
http://www.winstat.com/ asemenea un modul Excel metode variate de
analiză a datelor statistice
Statistica http://www.xlstat.com/ Program complex de analiză statistică, cu
posibilităţi diverse de afişare grafică, incluzând
module de regresie, analiza seriilor
cronologice, analiza componenţilor principali
(factorială), clasificări automate, analiza
discriminatorie, data mining (explorarea
datelor), reţele neuronale etc.
Minitab Minitab Inc. Program complex de analiză statistică,
http://www.minitab.com/ asemănător programului STATISTICA, însă
ceva mai simplu, incluzând analize de
regresie, varianţă, serii cronologice, analiza
componenţilor principali (factorială), clasificări
automate, analiza discriminatorie, teste
statistice etc.
SSPS SSPS Inc., Program complex de analiză statistică, destinat
http://www.spss.com/ în principal ştiinţelor umaniste (economie,
sociologie, medicină etc.)
R The R Foundation for Program gratuit de analiză statistică complexă:
Statistical Computing modelare liniară şi neliniară, teste statistice,
analiza seriilor de timp, clasificare automată
etc. Necesită cunoaşterea limbajului de
programare
FlexPro Weisang GmbH, Program specializat pe analiza seriilor de timp,
http://www.weisang.com/ incluzând analiza spectrală, Fourier, modele
auto-regresive etc.
Vesper Minasny, B., McBratney, Program gratuit specializat pe modelarea
A.B., and Whelan, B.M., variogramelor şi aplicarea krigingului în scopul
2005. VESPER version modelării spaţiale a parametrilor de sol la
1.62. Australian Centre for scară mare
Precision Agriculture,
McMillan Building A05,
The University of Sydney,
NSW 2006.
(http://www.usyd.edu.au/su
/agric/acpa)
FuzME Minasny, B., McBratney, Program gratuit specializat pe aplicarea
A.B., 2002. FuzME version clasificărilor de tip fuzzy în scopul redării mai
3.0, Australian Centre for realiste a variaţiei spaţiale a învelişului de sol
Precision Agriculture, The
University of Sydney,
Asutralia.
(http://www.usyd.edu.au/su
/agric/acpa)
Variowin Yvan Pannatier, Program gratuit specializat în modelarea
VARIOWIN: Software for variogramelor
Spatial Data Analysis in
2D, Springer-Verlag, New
York, NY, 1996 http://www-
sst.unil.ch/research/variowi
n/index.html
5
Tabelul 2. Exemple de programe GIS incluzănd module de analiză statistică
Programul Producător Caracteristici
ArcGIS ESRI – Environmental Program complex de analiză vectorială şi raster
Systems Research cu limbaj de programare propriu. Include module
Institute, www.esri.com de interpolare complexe: IDW 1, spline, kriging,
regresie multiplă, regresie locală ponderată
(GWR2).
TNTmips Microimages Inc., Program complex de analiză vectorială şi raster
www.microimages.com cu limbaj de programare propriu. Include module
complexe de procesare a imaginilor de
teledetecţie, de interpolare spaţială: metoda
curburii minime, IDW, TIN3, kriging.
Idrisi Clark Labs, Program complex, destinat cu deosebire
www.clarklabs.org/ analizei de tip raster.
Surfer Golden Software, Program specializat mai ales pe interpolari de
www.goldensoftware.com tip kriging
GRASS The Open Source GIS de tip open source, gratuit
Geospatial Foundation,
http://grass.itc.it/
SAGA-GIS J. Böhner şi colab., GIS de tip open source, gratuit, cu posibilităţi
Institute of Geography, complexe de analiză raster mai ales în domeniul
University of Hamburg, geomorfometriei şi hidrologiei
http://www.saga-
gis.org/en/index.html
1
Inverse Distance Weighting
2
Geographically Weighted Regression
3
Triangulated Irregular Network
6
STATISTICA DESCRIPTIVĂ
x i
x 1
n
unde xi sunt valorile x1, x2, ... xn din şirul de date, iar n este numărul total de termeni
ai acestuia.
Cu aplicabilitate mai redusă în analiza statistică sunt media geometrică şi media
armonică, care se determină cu formulele de mai jos:
n
Media geometrică: x n x 1
i
n
Media armonică: x n
1 x
1
i
800
700
600
500
mm
400
300
200
100
0
1956
1958
1960
1962
1964
1966
1968
1970
1972
1974
1976
1978
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
precipitaţii anuale (mm) medii glisante pe 5 ani medii glisante pe 11 ani
c x i i
c1 x1 c 2 x 2 ... c n x n
x 1
n
c1 c 2 ... c n
c 1
i
8
Tabelul 3. Exemplu de calcul a temperaturii medii pe ciclul de vegetaţie a florii soarelui folosind
temperaturile medii lunare de la staţia Iaşi
Luni Temperatura Număr zile ciclu Media
medie lunară (oC) ponderată
I -3.3
II -1.3
III 3.3
IV 10.4 10 104.0
V 16.0 31 496.0
VI 19.4 30 582.0
VII 20.8 31 644.8
VIII 20.1 25 502.5
IX 15.7
X 10.0
XI 4.1
XII -0.7
ciclu vegetaţie FS 127 18.3
Mediana reprezintă valoarea situată exact la mijlocul şirului de date ordonat crescător
sau descrescător. Ca urmare, mediana împarte şirul de date în două şiruri cuprinzând
acelaşi număr de indivizi. Daca numărul de valori din şirul de date este par, atunci mediana
reprezintă media celor 2 valori situate la mijlocul acestuia.
Modul (valoarea modală) reprezintă valoarea cu frecvenţa cea mai mare în cadrul
şirului de date. În general, aceasta se aplică distribuţiilor de frecvenţe, indicându-se astfel
clasa modală, respectiv clasa care grupează cele mai multe valori.
9
1993 9.2 10-11 -0.73 2 20
1994 11.1 >11 1.17 2 20
1995 9.6 -0.33
1996 8.7 -1.23
1997 9.4 -0.53
1998 10.1 0.17
1999 10.7 0.77
2000 11.2 1.27
media aritmetică 9.9
media geometrica 9.9
media armonica 9.9
Minima 8.7
Maxima 11.2
Mediana 9.8
clasa modala 9-10
ecartul de variaţie 2.5
Varianţa 0.716
deviaţia standard 0.846
coeficientul de variaţie 8.519
O serie de indici importanţi pentru caracterizarea statistică a unui şir de date sunt
indicii de variaţie (dispersie), care ne oferă informaţii sintetice privind gradul de dispersie
a valorilor din cadrul acestuia.
Cei mai simpli indici de variaţie sunt valoarea maximă, minimă, respectiv diferenţa
dintre acestea (ecartul sau amplitudinea de variaţie). Aceştia nu sunt însă suficienţi pentru
a descrie dispersia valorilor, cel puţin în situaţia în care majoritatea valorilor se concentrează
în jurul mediei, extremele fiind însă semnificativ distanţate faţă de aceasta.
Pentru o imagine mai completă a variaţiei din cadrul şirului, putem proceda la calculul
abaterilor fiecărei valori faţă de valoarea medie. Abaterile pozitive sunt, prin urmare,
asociate valorilor mai mari ca media, iar abaterile negative, valorilor mai mici ca media.
Calculul abaterilor este o practică frecvent utilizată în analiza climatologică, acestea fiind
denumite frecvent şi anomalii. Abaterile pot fi determinate şi în raport dreaptă (curbă) de
tendinţă sau de regresie, caz în care abaterile sunt denumite reziduuri, având semnificaţia
de diferenţă între valorile reale şi cele estimate prin utilizarea dreptei (curbei) teoretice
respective.
Dacă dorim un indice sintetic de variaţie bazat pe calculul abaterilor, nu putem
proceda la mediere, deoarece suma abaterilor faţă de medie este zero, abaterile pozitive
fiind compensate de cele negative. O soluţie constă în medierea valorilor în modul ale
abaterilor rezultând indicele denumit abaterea absolută medie:
n
x i x
ea 1
n
O altă soluţie este să ridicăm la pătrat fiecare abatere şi să efectuăm media acestor
pătrate. Ceea ce obţinem poartă denumirea de varianţă:
x
n
2
i x
2 1
n
Cum varianţa este o medie de pătrate, pentru a avea un indice cu aceeaşi unitate de
măsură ca şi valorile din şirul de date, trebuie să extragem radicalul. Ceea ce obţinem poartă
numele de deviaţie standard (abatere standard, ecart-tip), un indice frecvent folosit în
analiza statistică, în general şi în climatologie, în particular:
10
x
n
2
i x
1
n
Atunci când analizăm eşantioane, nu populaţii şi mai ales în cazul eşantioanelor mici,
la calculul varianţei şi deviaţiei standard se aplică aşa-numita corecţie Bessel, egală cu
n (n 1) . Astfel, cei doi indici statistici devin:
x x
n n
2 2
i x i x
2 1
şi 1
n 1 n 1
Deviaţia standard are aceeaşi unitate de măsură ca şi variabila pe care o
caracterizează. Prin urmare, nu putem compara deviaţiile standard ale unor şiruri diferite ca
unităţi de măsură (ex: temperaturi vs. precipitaţii), pentru a indica care dintre acestea variază
mai mult. Soluţia este împărţirea deviaţiei standard la valoarea medie, operaţie ce anulează
efectul unităţii de măsură, rezultând un indice adimensional. Deoarece deviaţia standard
este semnificativ mai mică comparativ cu valoarea medie, pentru aducerea indicelui într-o
gamă de valori mai convenabilă, se procedează la înmulţirea acestui raport cu 100,
rezultând coeficientul de variaţie:
CV 100
x
Ca exemplu, dacă media temperaturilor medii lunare pe un anumit interval este de
9,6oC, iar deviaţia standard de 0,7oC, rezultă un coeficient de variaţie de 7.3%. Pentru
acelaşi interval şi pentru aceeaşi locaţie, dacă precipitaţiile medii anuale sunt de 480mm,
iar deviaţia standard a acestora de 130mm, rezultă un coeficient de variaţie de 27%. Deşi
cunoşteam foarte bine faptul că variabilitatea spaţio-temporală a precipitaţiilor este cu mult
mai mare comparativ cu cea a temperaturilor, acum avem şi un indice cantitativ de
comparaţie şi putem afirma că precipitaţiile, în exemplul de mai sus, prezintă o variabilitate
temporală de 3,7 ori mai mare comparativ cu temperaturile.
Indicii de variaţie pot fi folosiţi pentru redarea sintetică a variabilităţii spaţio-temporale
a elementelor şi fenomenelor climatice. Exemplul din figura 3 prezintă variabilitatea
temporală a precipitaţiilor lunare comparativ cu regimul mediu lunar la staţia Vaslui. Aceasta
se dovedeşte a fi însemnată, precipitaţiile putând lipsi complet în lunile februarie şi
septembrie sau putând urca până la peste 200mm, în luna august, adică până la aproape
de 4 ori cantitatea medie a acestei luni. Cele mai mari amplitudini de variaţie ale cantităţilor
lunare, în perioada 1956-1995, caracterizează intervalul mai-august (145-209mm). Cele mai
mici amplitudini maxime de variaţie sunt specifice lunilor de iarnă-primăvară (58-103mm).
În acord cu aceste constatări, variabilitatea de la un an la altul a precipitaţiilor lunare,
evaluată cu ajutorul deviaţiei standard, este maximă în lunile mai ploioase (mai-august), cu
valori ale parametrului amintit de 34-47mm şi minimă în lunile cu precipitaţii reduse
(decembrie-martie), cu valori de 16-25mm.
11
250
200
mm/lună 150
100
50
0
I II III IV V VI VII VIII IX X XI XII
media maxima minima ± deviaţia standard
12
deviaţia standard 0.721 132.615 1 1
4
Standardized Precipitation Index
13
Tabelul 6 redă, ca exemplu, aplicarea calculului de frecvenţe pentru caracterizarea
pluviometrică a lunilor conform criteriului Hellman. Procedura de atribuire a calificativelor
pluviometrice urmează etapele:
Calcularea abaterilor cantităţilor lunare de precipitaţii (Pi) faţă de media
multianuală (Pmed) şi exprimarea procentuală a acestor abateri în raport cu media
multianuală 100 (Pi – Pmed) / Pmed ;
Încadrarea în clasele specificate de metodologie şi atribuirea calificativelor
pluviometrice (prima coloană din tabelul 6);
Calcularea frecvenţelor absolute şi relative ale lunilor cu diferite calificative
pluviometrice.
Tabelul 6. Frecvenţa lunilor (%) cu diferite caracteristici pluviometrice, conform criteriului Hellman, la
staţia Iaşi (1961-2000)
Calificativul I II III IV V VI VII VIII IX X XI XII Total
pluviometric al lunii %
Extrem secetoase 27.5 27.5 32.5 20 22.5 7.5 12.5 27.5 40 40 22.5 17.5 24.8
< -50% Pmed
Foarte secetoase 17.5 5 5 12.5 10 12.5 17.5 20 10 10 17.5 17.5 12.9
-31 – (-50)% Pmed
Secetoase 5 7.5 5 5 5 17.5 20 5 7.5 2.5 7.5 7.5 7.9
-21 – (-30)% Pmed
Putin secetoase 5 7.5 5 10 20 7.5 5 0 5 2.5 2.5 7.5 6.5
-11 – (-20)% Pmed
Normale 12.5 20 15 17.5 12.5 22.5 17.5 7.5 5 7.5 12.5 12.5 13.5
-10 – 10% Pmed
putin ploioase 2.5 0 7.5 5 0 5 0 0 2.5 5 10 7.5 3.8
11-20% Pmed
14
Ploioase 0 2.5 0 0 2.5 10 5 7.5 0 2.5 7.5 5 3.5
21-30% Pmed
Foarte ploioase 15 5 7.5 7.5 7.5 7.5 7.5 10 5 7.5 5 7.5 7.7
31-50% Pmed
Extrem de ploioase 15 25 22.5 22.5 20 10 15 22.5 25 22.5 15 17.5 19.4
> 50% Pmed
15
ELEMENTE DE PROBABILITĂȚI
Pentru şiruri lungi de date, frecvenţa relativă poate fi asimilată, cu anumite rezerve,
cu probabilitatea (asigurarea). Spre exemplu, în tabelul 8 observăm ca frecvenţa relativă a
clasei de precipitaţii de 650-700mm este de 4,4%. Putem astfel afirma că probabilitatea de
a avea precipitaţii anuale cu valori între 650 şi 700mm este de 4,4% sau, cu alte cuvinte, în
4,4 din 100 de ani valoarea precipitaţiilor va fi curpinsă între limitele menţionate.
Din şirul frecvenţelor relative cumulate ascendent, remarcăm că anii cu precipitaţii
mai mici de 700mm reprezintă 93,3% din totalul anilor. Putem afirma, prin urmare, că
probabilitatea de nedepăşire a valorii de 700mm este de 93,3%. Pe de altă parte, din şirul
frecvenţelor relative cumulate descendent, se remarcă faptul că anii cu precipitaţii mai mari
de 700mm reprezintă 6,7% din total. Cu alte cuvinte, probabilitatea de depăşire a valorii de
700mm este 6,7%.
Având curbele frecvenţelor cumulate, putem pentru orice valoare a parametrului
analizat (precipitaţiile anuale în cazul anterior) să determinăm probabilitatea de nedepăşire
sau de depăşire a acesteia. Reciproca este valabilă: pentru o anumită valoare a probabilităţii
de nedepăşire sau de depăşire, putem determina valoarea asociată a parametrului studiat.
Tabelul 8. Frecvenţe absolute, relative şi relative cumulate ale precipitaţiilor anuale la staţia Vaslui
(1956-2000)
Clase Frecvenţa Frecvenţa Frecvenţa Frecvenţa
absolută relativă relativă cumulată relativă cumulată
ascendentă descendentă
<350 2 4.4 4.4 100.0
350-400 5 11.1 15.6 95.6
400-450 7 15.6 31.1 84.4
450-500 8 17.8 48.9 68.9
500-550 5 11.1 60.0 51.1
550-600 6 13.3 73.3 40.0
600-650 7 15.6 88.9 26.7
650-700 2 4.4 93.3 11.1
700-750 2 4.4 97.8 6.7
>750 1 2.2 100.0 2.2
8 90 8 90
80 80
7 7
70 70
6 6
60 60
5 5
nr.
nr.
%
%
50 50
4 4
40 40
3 3
30 30
2 2
20 20
1 10 1 10
0 0 0 0
<350
>750
350-400
400-450
450-500
500-550
550-600
600-650
650-700
700-750
<350
>750
350-400
400-450
450-500
500-550
550-600
600-650
650-700
700-750
a b
pi = i / (n+1)
unde:
pi : probabilitatea (asigurarea) empirică;
i : numărul de ordine al debitului din şirul ordonat descrescător;
n : numărul total de termeni ai şirului.
Tabelul 9. Exemplu de calcul al asigurărilor empirice pentru precipitaţiile medii anuale înregistrate
la Vaslui (1956-2000)
Precipitaţii (mm) Ranguri Asigurare Asigurare
empirică (0-1) empirică (%)
849.8 1 0.02173 2.17
740.9 2 0.04347 4.35
700.9 3 0.06521 6.52
657.2 4 0.08695 8.69
655.7 5 0.10869 10.87
… … … …
380.3 41 0.89130 89.13
374.7 42 0.91304 91.30
361.8 43 0.93478 93.48
317.4 44 0.95652 95.65
300.3 45 0.97826 97.83
Aşa cum asigurările empirice pot fi ajustate prin curbe de asigurare teoretice, tot
astfel frecvenţele relative pot fi comparate cu distribuţii teoretice. Dacă acestea sunt foarte
17
asemănătoare, proprietăţile distribuţiei teoretice pot fi trasferate distribuţiei parametrului
analizat.
Cea mai cunoscută distribuţie teoretică este distribuţia normală (gaussiană),
descrisă prin ecuaţia:
x x 2
1
y 2 2
e
2
18
1
0.9772 0.9987
0.9
0.8413
0.8
0.7
0.6
probabilitatea
0.5 0.5000
0.3989
0.4
0.2420 0.3
0.2420
0.2
0.1587
0.0540 0.1
0.0540
0.0044 0.0013 0.0044
0.0228
0
-4 -3 -2 -1 0 1 2 3 4
deviaţii standard (scoruri Z)
19
Există şi cazuri când ipoteza nulă este cea pe care o urmărim de fapt, aşa cum se
întâmpla în cazul testelor de concordanţă dintre o distribuţie empirică şi una teoretică. Este
şi cazul exemplului pe care îl prezentăm în continuare şi care urmăreşte testarea normalităţii
prin intermediul testului Chi-pătrat.
Datele din tabelul 10 reprezintă frecvenţele absolute reale şi teoretice normale ale
temperaturilor medii pe ciclul de vegetaţie al porumbului la staţia Iaşi (Patriche Emilia
Isabela, 2008). Frecvenţele reale au fost calculate pe baza unui eşantion de 40 de ani (1961-
2000). Ipoteza nulă pe care o formulăm este aceea că distribuţia reală nu diferă statistic
semnificativ de distribuţia normală. Statistica testului Chi-pătrat este următoarea:
f o f p 2
2
fp
unde:
fo: frecvenţele observate;
fp: frecvenţele aşteptate (teoretice).
Tabelul 10. Aplicarea testului Chi-pătrat pentru testarea normalităţii distribuţiei temperaturilor medii
pe ciclul de vegetaţie al porumbului la staţia Iaşi (1961-2000)
Tmed ciclu PB Iaşi Frecvenţa absolută Frecvenţa teoretică (fo-fp)2/fp
- clase observată (fo) normală
16.0-16.5 1 0.807 0.0459
16.5-17.0 4 2.572 0.7927
17.0-17.5 4 5.701 0.5076
17.5-18.0 9 8.796 0.0048
18.0-18.5 9 9.446 0.0211
18.5-19.0 8 7.063 0.1244
19.0-19.5 4 3.676 0.0286
19.5-20.0 1 1.331 0.0824
χ2 calculat 1.607
χ2 teoretic (df=7, p=0.975) 1.690
χ teoretic (df=7, p=0.990)
2
1.239
În cazul nostru, frecvenţele aşteptate sunt cele conforme cu distribuţia normală. Este
important de reţinut faptul că testul Chi-pătrat se aplică frecvenţelor absolute, nu frecvenţelor
relative. Efectuând calculele, obţinem valoarea statisticii χ2 = 1.6075. Comparând această
valoare cu cele teoretice pentru 7 grade de libertate (numărul valorilor comparate minus 1)
(Anexa V), remarcăm faptul că statistica calculată devine mai mare decât cea teoretică
undeva între nivelele de semnificaţie 0.975 şi 0.990, ceea ce înseamnă că probabilitatea de
acceptare a ipotezei nule se situează, de asemenea, între 0.975 şi 0.990. Cu alte cuvinte,
distribuţia reală este conformă cu distribuţia reală, cu o probabilitate de eroare între 0.010
şi 0.025.
Figura 8. Distribuţia reală şi cea teoretică (normală) aşteptată pentru datele din tabelul 10
20
O altă categorie de indici statistici sunt indicii de formă, care cuantifică gradul de
asimetrie (skewness) şi aplatizare (kurtosis) a unei distribuţii de frecvenţe, putând astfel fi
comparată forma distribuţiei reale cu cea teoretică normală.
Un exemplu de indice de asimetrie este indicele de asimetrie Pearson, calculat cu
relaţia (Apetrei M., Groza O., Grasland C., 1996):
x Mo
As
unde:
x : media aritmetică;
Mo: valoarea modală;
σ: deviaţia standard.
Valorile negative ale indicelui Pearson indică asimetrie de dreapta, valorile pozitive
asimetrie de stânga, iar valori apropiate de zero o distribuţie cvasi-simetrică.
Gradul de aplatizare / exces a unei distribuţii poate fi cuantificat prin intermediul
indicelui Fisher:
x
n
4
i x
2 1
3
n 4
Valorile negative ale indicelui indică o distribuţie mai aplatizată, comparativ cu cea
normală (platikurtică), valorile pozitive indică o distribuţie mai “ascuţită” comparativ cu cea
normală (leptokurtică), în timp ce valoarea zero a indicelui indică conformitatea gradului de
aplatizare a distribuţiei reale cu distribuţia normală (figura 9).
21
O aplicaţie importantă a distribuţiei normale o constituie calculul intervalului de
confidenţă pentru media unei populaţii. Astfel, dacă dintr-o populaţie se extrag aleator un
număr mare de eşantioane, distribuţia frecvenţelor mediilor acestora va fi una normală.
Dacă mărimea eşantioanelor este de cel puţin 30, atunci distribuţia mediilor va fi normală
indiferent de distribuţia populaţiei din care au fost extrase eşantioanele. În caz contrar, adică
pentru eşatioane cuprinzând mai puţin de 30 de valori, distribuţia mediilor va fi normală doar
daca populaţia din care acestea provin prezintă, la rândul ei, o distribuţie normală (Stephens
L. J., 1998)
Media şirului de medii ale eşantioanelor extrase va fi egală cu media populaţiei din
care acestea provin, în schimb varianţa şi implicit, deviaţia standard, vor mai mici, depinzând
de mărimea eşantioanelor (figura 10):
2
x2 x
n n
unde:
x2 , x : varianţa, respectiv deviaţia standard a şirului mediilor eşantioanelor;
2 , : varianţa, respectiv deviaţia standard a populaţiei din care provin
eşantioanele;
n: mărimea eşantioanelor.
Figura 10. Curbele distribuţiilor mediilor eşantioanelor de diferite mărimi (Apetrei M., Groza O.,
Grasland C., 1996)
22
Dacă distribuţia mediilor eşantioanelor este normală, înseamnă că variabila
x
standardizată este conformă cu distribuţia normală normată, unde x este şirul
x
mediilor eşantioanelor, x este deviaţia standard a şirului mediilor, iar μ este media
populaţiei. Cu probabilitatea p, variabila standardizată se va situa în intervalul (–zp, +zp),
unde zp este valoarea variabilei standardizate pentru probabilitatea p:
x
zp z p
x
de unde rezultă:
x z p x x z p x
x zp x zp
n n
115,3 115,3
515,8 1,96 , 515,8 1,96 , adică (482,1 – 549,5)
45 45
23
o probabilitate de 95%. Problema se rezumă la a extrage pe n (mărimea eşantionului) din
relaţia:
115,3
1,96 20 n 128
n
24
ANALIZA DE REGRESIE
Aspecte teoretice
Analiza de regresie presupune cuantificarea relaţiilor dintre una (regresia simplă) sau
mai multe (regresia multiplă) variabile independente (explicative, predictori) şi o variabilă
dependentă (de răspuns). Excepţie face analiza canonică care lucrează cu un set de variabile
dependente. Cuantificarea relaţiilor cauzale poate fi realizată prin ecuaţii liniare (regresie
liniară) sau neliniare (regresia neliniară). Aceste ecuaţii au o proprietate comună, aceea de a
minimiza suma pătratelor ecarturilor dintre valorile reale şi valorile predictate ale variabilei
dependente (minimizarea varianţei reziduale).
Analiza regresivă este folosită în climatologie în scopuri multiple:
Pentru estimarea distribuţiei spaţiale a unui parametru climatic în funcţie de factorii
de control ai acesteia (coordonate geografice, altitudine, expoziţie, pantă, energie
de relief etc.), cu alte cuvinte, pentru cartografierea digitală a variabilelor climatice.
Estimarea distribuţiei spaţiale exclusiv pe baza coordonatelor X, Y, prin funcţii
polinomiale de diferite ordine, poartă numele de analiza suprafeţei de tendinţă (trend
surface analysis), aceasta fiind utilizată mai ales ca o etapă preliminară în
interpolarea de tip kriging.
Pentru estimarea unei variabile climatice, mai complexe, sau ma dificil de măsurat,
în funcţie de alte variabile climatice, mai simple sau mai uşor de măsurat. Spre
exemplu, relaţia Angstrom folosită pentru estimarea radiaţiei globale pe teren
orizontal, este la origine o relaţie statistică de tipul regresiei, estimarea radiaţiei fiind
făcută pe baza fracţiei de insolaţie şi a radiaţiei solare extraterestre.
Pentru estimarea tendinţei de evoluţie a parametrilor climatici. Această aplicaţie este
un caz particular al regresiei simple, în care variabila explicativă este timpul.
Modelarea evoluţiei parametrilor climatici poate fi abordată şi prin elaborarea unor
modele de regresie în care variabilele explicative sunt reprezentate prin seriile de
timp ale factorilor de control (ex: bioxidul de carbon atmosferic, numarul petelor
solare, indici de circulaţie atmosferică etc.).
Pentru vizualizarea relaţiilor statistice dintre 2 variabile sunt folosite cel mai frecvent
graficele de tip puncte (grafice de corelaţie, scatterplot). Configuraţia norului de puncte ne
oferă informaţii despre sensul şi intensitatea relaţiei (figura 11). Astfel, dacă norul de puncte
urmează o direcţie ascendentă, relaţia este una directă, în sensul că o creştere a valorilor
cauzei (X) determină o creştere corespunzătoare a valorilor efectului (Y) (ex: relaţia
altitudine – precipitaţii). Dacă, dimpotrivă, norul urmează un traseu descendent, rezultă că
între cele 2 variabile este o relaţie inversă, indicând descreşterea valorilor efectului pe
măsura creşterii valorilor cauzei (ex: relaţia altitudine – temperatură).
Intensitatea relaţiei dintre variabile este cu atât mai mare cu cât norul de puncte este
mai alungit şi mai comprimat, cu alte cuvinte cu cât dispersia punctelor în afara direcţiei de
alungire este mai mică. Dacă traseul norului de puncte este abrupt, rezultă că relaţia dintre
variabile prezintă sezitivitate ridicată, în sensul că o modificare mică a cauzei atrage cu sine
o modificare importantă a efectului.
De asemenea, graficele de corelaţie pot indica posibila prezenţă a unor erori sau
interferenţa accentuată a unei alte cauze prin intermediul acelor puncte care ies semnificativ
în afara norului de corelaţie.
25
Pentru vizualizarea relaţiei dintre un efect şi mai multe cauze se procedează, în
general, la reprezentarea valorilor estimate ale efectului în funcţie de valorile reale ale
acestuia (ca în exemplul din figura 13c).
Modelul general al regresiei liniare multiple este:
n
yˆ a bi x i
i 1
unde:
- ŷ - variabila dependentă;
- xi - variabilele independente;
- n - numărul variabilelor independente;
- a - termenul liber;
- bi - coeficienţii de regresie parţială;
- ε - eroarea standard de estimare a variabilei dependente.
Figura 11. Tipuri de relaţii statistice liniare între 2 variabile (Chorley R. J., Kennedy B., 1971, citat
de Rădoane Maria et al., 1996)
N N n
( y j yˆ j ) 2 ( y j a bi xi ) 2 : min
j 1 j 1 i 1
unde:
26
- yj - valorile reale ale variabilei dependente;
- ŷj - valorile calculate ale variabilei dependente;
- N - numărul observaţiilor.
sau
N N N N
y j N a b1 x1 j b2 x 2 j ... bn x nj
j 1 j 1 j 1 j 1
N n N
b1 : ( y j a bi x ij ) x1 j
j 1 i 1 j 1
sau
N N N N
y j x1 j a x1 j b1 x12j ... bn x nj x1 j
j 1 j 1 j 1 j 1
......
N N N N
bn : y j x nj a x nj b1 x1 j x nj ... bn x nj2
j 1 j 1 j 1 j 1
n
Zˆ yˆ a i Z xi
i 1
27
N
( y
j 1
j yˆ j ) 2
R 1 N
(y
j 1
j y) 2
unde:
- y - media aritmetică a obseraţiilor asupra variabilei dependente.
Scris desfăşurat, relaţia de mai sus devine:
N N N
( y j ) 2
a y j b1 x1 j y j ... bn x nj y j
j 1
j 1 j 1 j 1 N
R N
N
( y j ) 2
y
j 1
2
j
j 1 N
Valorile coeficientului de corelaţie multiplă pot oscila între 0 şi 1. Cu cât valoarea este
mai apropiată de unu, cu atât relaţia este mai bună, în sensul că variabila dependentă este
mai bine explicată de ansamblul variabilelor predictoare. Ridicând la pătrat coeficientul de
corelaţie multiplă obţinem coeficientul de determinare multiplă, care reprezintă fracţiunea
din varianţa totală a variabilei dependente explicată de ansamblul variabilelor independente.
Înmulţind cu 100 această fracţiune, aflăm procentul de varianţă explicată prin modelul de
regresie. Spre exemplu, un coeficient de corelaţie de 0.8 indică faptul că 64% (100 ∙ 0.8 2)
din varianţa totală a variabilei dependente este explicată de variabilele independente
considerate în analiză.
Coeficientul de corelaţie multiplă este întotdeauna pozitiv (sau egal cu zero). Prin
urmare, acesta nu indică sensul relaţiei predictor – variabilă dependentă, ci doar intensitatea
acestei relaţii. Faptul se datorează variabilelor explicative multiple cu care se lucrează şi
care pot influenţa variabila dependentă în sensuri diferite. În cazul coeficientului de corelaţie
liniară pentru regresie simplă (doar 2 variabile), valorile pot oscila între –1 şi +1, cele
negative indicând prezenţa unei relaţii inverse între cele 2 variabile, iar cele pozitive o relaţie
directă. Formula de calcul este identică cu deosebirea că, în cazul regresiei simple, avem
în vedere un singur predictor (un singur y).
Figura 12. Parametrii regresiei liniare (Chorley R. J., Kennedy B., 1971, citat de Rădoane Maria et
al., 1996)
28
Intensitatea relaţiei dintre o anumită variabilă independentă şi variabila dependentă
poate fi exprimată, pe lângă coeficientul de regresie parţială corespunzător şi de coeficientul
de corelaţie parţială, care elimină influenţa celorlalte variabile. Pentru o regresie cu doar
două variabile independente (x1 şi x2), coeficientul de corelaţie parţială dintre y şi x1 va fi
(Johnston R. J., 1978):
29
rezultatelor. Aceste puncte sunt adesea valori extreme (outliers) care fie indică prezenţa
unor erori, fie sunt legate de variabile explicative care nu au fost incluse în analiză.
Problema valorilor extreme este una importantă în analiza statistică, cu deosebire în
cazul lucrului cu eşantioane mici. În general, cu cât lucrăm cu eşantioane mai mici, cu atât
modelele sunt mai instabile, mai susceptibile la influenţa valorilor extreme. Pentru
minimizarea acestor efecte nedorite, au fost dezvoltate si metode de regresie denumite
robuste, rezistente la infleunţa valorilor extreme.
Validarea cu eşantion independent presupune divizarea eşantionului iniţial într-un
eşantion de lucru, pe baza căruia se vor elabora modelele de regresie şi un eşantion de
validare, care nu va fi inclus în analiză. Pentru acesta din urmă, vor fi comparate valorile
reale ale variabilei dependente cu cele estimate prin modelul elaborat pe baza eşantionului
de lucru. Acest tip de validare, deşi foarte util, este utilizabil doar în cazul eşantioanelor mari
(peste 50-60 de indivizi, preferabil chiar peste 100). Mărimea eşantionului de validare poate
fi aleasă arbitrar, însă nu trebuie să o depăşească pe cea a eşantionului de lucru şi nici să
fie mai mică de 10 puncte. Alegerea punctelor care vor constitui eşantionul de validare este
cvasi-aleatoare, în sensul că, deşi punctele trebuie alese la întâmplare, fără a urmări un
anumit tipar, totuşi trebuie să avem grijă ca eşantionul să fie reprezentativ pentru teren, în
general şi pentru predictorii folosiţi, în particular. Spre exemplu, nu vom include în eşantionul
de validare puncte cu valori extreme ale predictorilor (ex: cu altitudinea maximă sau
minimă), deoarece modelul de regresie elaborat în absenţa acestora nu va fi capabil să
estimeze corect valorile variabilei dependente.
Revenind la validarea statistică, condiţiile pe care trebuie să le îndeplinească
reziduurile regresiei sunt următoarele (Apetrei M., Groza O., Grasland C., 1996):
1. Medie aritmetică zero;
2. Homoscedasticitate: reziduurile j prezintă varianţă relativ constantă pentru orice
j=1...N;
3. Lipsa autocorelaţiei: covarianţa zero pentru oricare două eşantioane;
4. Distribuţie normală.
Prima condiţie poate fi investigată cu ajutorul testului Z, pentru eşantoane mari, sau
cu ajutorul testului t bazat pe distribuţia Student, pentru eşantioane mici (N<30). Statistica
testului t are următoarea formă (Apetrei M., Groza O., Grasland C., 1996):
x
t
S N 1
unde:
- x - valoarea medie a eşantionului, ce trebuie testată;
- - media populaţiei din care provine eşantionul;
- S - deviaţia standard de sondaj;
- N - mărimea eşantionului.
În cazul reziduurilor, media populaţiei este zero, iar deviaţia standard de sondaj este
reprezentată prin eroarea standard a estimării. Valoarea statisticii t se compară cu o valoare
de prag precizată în tabele speciale (Anexa II) şi identificată în funcţie de probabilitatea de
eroare a testului şi gradele de liberate (N-1 în cazul testului nostru). Dacă valoarea statisticii
t este mai mică decât valoarea de prag, atunci diferenţa dintre media eşantionului şi media
populaţiei este neglijabilă şi cele două mărimi pot fi considerate egale, cu probabilitatea de
eroare specificată în construcţia testului.
Pentru eşantioane mari, eroarea standard a estimării variabilei dependente este
egală cu deviaţia standard a reziduurilor şi cu eroarea rădăcinii medie pătratică (RMSE5) şi
se poate determina cu formulele:
5
Root Mean Square Error
30
N
(y
j 1
j yˆ j ) 2
RMSE S y 1 R 2
N
(y
j 1
j yˆ j ) 2
N K 1
n ( f oi f pi ) 2
2
i 1 f pi
unde:
- foi - frecvenţele observate;
- fpi - frecvenţele aşteptate (teoretice);
- n - numărul claselor de frecvenţe.
Nk
ik k 2 - constant pentru k
i 1 Nk 1
unde:
- εik: reziduul i din eşantionul k;
- k : media reziduurilor din eşantionul k;
- Nk: numărul observaţiilor din eşantionul k.
Varianţa între eşantioane este următoarea (cu observaţia că suma de pătrate are N
termeni):
(
i 1
k ) 2 /(k 1)
(
i 1
ik k ) 2 /( N k )
(
i 1
i ) 2 /( N 1)
Dacă Fcalculat < Fteoretic, pentru un anumit nivel de semnificativitate al testului şi gradele
de libertate corespunzătoare (Anexa III), atunci se poate afirma că similaritatea varianţelor
este verificată statistic şi deci reziduurile regresiei întrunesc condiţia de homoscedasticitate.
Autocorelaţia reziduurilor poate fi investigată cu ajutorul testului von Neumann
(Trebici V. – coord., 1985), bazat pe compararea mediei pătratice a diferenţelor succesive
(δ2) cu dispersia (varianţa) de selecţie (S2). Statistica testului, pentru un eşantion cu N > 25,
este:
2
N
2S 2
N 1
1
2
N 1 j 1
( x j 1 x j ) 2
unde:
1 N
S
N 1 j 1
(x j x)2
Valoarea teoretică faţă de care se compară statistica determinată prin calcul este:
N 2
M teoretic 1 Z
N 2 1
N K 1 R2
F
K 1 R2
32
unde:
- N - numărul de observaţii (mărimea eşantioanelor);
- K - numărul variabilelor independente;
- R2 - coeficientul de determinare multiplă.
Regresia este considerată semnificativă, dacă F calculat > Fteoretic , ultima valoare fiind
indicată în tabele, pentru un anumit nivel de semnificativitate şi pentru gradele de libertate
corespunzătoare (K; N-K-1).
Coeficienţii de corelaţie parţială pot fi testaţi în mod similar. Putem, de asemenea,
testa şi semnificativitatea statistică a coeficienţilor de regresie parţială. Concluziile vor fi
aceleaşi cu cele rezultate din testarea coeficienţilor de corelaţie parţială.
În scopul testării coeficienţilor de regresie parţială, putem folosi testul t al lui Student,
statistica fiind:
b
tb
b
unde:
b - coeficientul de regresie parţială;
εb - eroarea standard a estimării coeficientului de regresie parţială.
y x
b 1
1
x x ...x
1 2 n N 2
unde:
εy←x1 - eroarea standard a estimării lui y în funcţie de x1;
εx1←x2...x n - eroarea standard a estimării lui x1 în funcţie de restul variabilelor
independente.
Un alt aspect important ce trebuie analizat într-un model de regresie multiplă este
coliniaritatea între variabilele independente. Coliniaritatea există atunci când sunt
evidenţiate intercorelaţii semnificative între variabilele predictoare. Existenţa acestora
afectează negativ interpretarea coeficienţilor de regresie parţială.
Există mai multe metode de obţinere a unor variabile necorelate (ortogonale), pe
baza setului iniţial de variabile, cum ar fi analiza componenţilor principali sau analiza
factorială, ce vor fi discutate ulterior. Minimizarea coliniarităţii poate fi efectuată prin filtrarea
variabilelor predictoare, eliminându-le pe acelea care nu aduc o contribuţie semnificativă la
formarea varianţei totale dependente. Este cazul regresiei multiple pas cu pas (progresive),
pe care o vom aborda în cele ce urmează.
Să presupunem că dorim să construim un model de regresie progresivă, plecând de
la o variabilă dependentă y şi 5 variabile independente (x1, x2, x3, x4, x5). Procedura de
integrare a variabilelor independente ilustrată de King L. J. (1969) implică parcurgerea
următoarelor etape:
1. Calcularea coeficienţilor de corelaţie liniară de ordin zero (ryx1, ryx2, ...ryx5) şi
selectarea celui mai mare. Variabila independentă corespunzătoare este prima care intră în
modelul regresiei progresive. Dacă, spre exemplu, ryx3 a fost coeficientul cel mai mare,
atunci vom obţine la pasul 1 ecuaţia de regresie: y = f(x3).
2. Calcularea coeficienţilor de corelaţie parţială de ordin unu dintre y şi celelalte
variabile independente, menţinând constantă influenţa variabilei din ecuaţia de la pasul 1.
33
Se selectează coeficientul maxim, iar variabila corespunzătoare este integrată, la pasul 2,
în modelul de regresie. În exemplul nostru, această etapă presupune calcularea
coeficienţilor ryx1 .x3, ryx2 .x3, ryx4.x3, ryx5 .x3. Dacă ryx1 .x3 este cel mai mare, vom obţine, la pasul
2, ecuaţia de regresie: y = f(x3, x1).
3. Calcularea coeficienţilor de corelaţie de ordin doi ( ryx2 .x1x3, ryx4 .x1x3, ryx5 .x1x3),
menţinând constante influenţa variabilelor din ecuaţia de regresie de la pasul 2. Ca şi
anterior, selectăm coeficientul cel mai mare şi integrăm în modelul de regresie variabila
corespunzătoare.
Procedura continuă într-o manieră similară, până ce toate variabilele independente
au fost integrate în model, sau până când adiţia unei noi variabile nu mai îmbunătăţeşte
semnificativ varianţa explicată a variabilei dependente.
∑y = Na + b1∑x1 + b2∑x2
∑yx1 = a∑x1 + b1∑x12 + b2∑x1x2
∑yx2 = a∑x2 + b1∑x1x2 + b2∑x22
34
∑x1x2 93670.04
∑x12 428694
∑x22 26757.48
Coeficienţii de regresie parţială (b1, b2) au semnificaţia unor gradienţi, indicând cu cât
se modifică valoarea temperaturii la o modificare cu o unitate a valorilor de altitudine,
respectiv latitudine. Observăm astfel, că temperatura scade cu altitudinea cu 0.00548 oC /m
adică cu 0.548oC / 100m, valoare foarte asemănătoare gradientului termic vertical clasic.
Temperatura scade, de asemenea, pe măsura creşterii latitudinii, deci de la Sud spre Nord,
cu cca 0.4oC / grad latitudine.
Care influenţă este însă mai importantă? Influenţa altitudinii asupra temperaturii sau
cea a latitudinii? Nu putem compara direct coeficienţii de regresie parţială deoarece aceştia
sunt exprimaţi în unităţi de măsură diferite ( oC / m, respectiv oC / grad latitudine). Soluţia ar
fi să standardizăm variabilele şi se refacem modelul regresiei plecând de la valorile
standardizate. Coeficienţii de regresie din noul model vor putea fi astfel comparaţi. O soluţie
alternativă, mai simplă, pentru calcularea coeficienţilor de regresie parţială standardizaţi,
specificată anterior, constă în aplicarea relaţiei:
S x1
i bi
Sy
Deviaţiile standard ale variabilelor noastre sunt 96.913 pentru altitudine, 0.705 pentru
latitudine şi 0.734 pentru temperatură. Rezultă prin urmare:
Putem acum afirma că variaţia temperaturii medii anuale indusă de altitudine este de
cca 2 ori mai mare comparativ cu variaţia temperaturii indusă de latitudine, conform
eşantionului studiat.
Care este intensitatea de ansamblu a relaţiei dintre temperatura medie anuală şi
altitudine – latitudine? Cât de bine reuşesc aceşti predictori să explice distribuţia spaţială a
temperaturii? Răspunsul rezidă în calcularea coeficientului de corelaţie multiplă şi a celui de
determinare corespunzător:
35
N
(y
j 1
j yˆ j ) 2
0.417
R 1 N
1 0.964 , R2 = 929
(y
5.92
j y) 2
j 1
N K 1 R2 12 2 1 0.929
F 58.9
K 1 R 2
2 1 0,929
F teoretic pentru (2, 9) grade de libertate şi nivelul de semnificaţie de 0.01 este 8.02
(Anexa III). Statistica calculată fiind apreciabil mai mare decât cea teoretică, putem afirma
că valoarea coeficientului de determinare este statistic semnificativă, probabilitatea de
eroare fiind mai mică de 1%.
Putem vizualiza intensitatea relaţiei statistice reprezentând grafic, sub formă de
puncte, valorile reale şi valorile estimate ale temperaturii (figura 13c). Într-un astfel de grafic
de corelaţie este important ca ambele axe să aibă aceeaşi scară (6-11oC în cazul nostru).
Dacă modelul statistic este bun, atunci punctele vor urmări cât mai aproape dreapta de
regresie, iar aceasta va fi orientată cât mai mult în lungul primei diagonale (coeficientul de
regresie pentru x care reprezintă panta dreptei de regresie, trebuie sa fie cât mai apropiat
de 1).
Figura 13. Corelaţiile temperatură – altitudine (a), temperatură – latitudine (b), temperatură reală –
temperatură estimată (c), validarea încrucişată (d)
11 11
y = -0.0069x + 10.032
10 R2 = 0.8249 10
temperatura ( o C)
temperatura ( o C)
9 9
8 8
7 y = -0.7601x + 44.788
7
R2 = 0.5332
6 6
0 100 200 300 400 45 46 47 48 49
altitudinea (m) latitudinea (m)
a b
36
11
11
9 9
8 8
7 7
6 6
6 7 8 9 10 11 6 7 8 9 10 11
c d
S b1 b1
1 R 2
( R 2 R y2 x2 ) N 3
unde:
S b1 : eroarea standard pentru coeficientul b1;
R2: coeficientul de determinare multiplă (dintre y şi x1, x2);
R y2 x2 : coeficientul de determinare dintre y şi x2;
N: mărimea eşantionului.
S b1 0.00548
1 0.929 0.00077
0.929 0.53312 3
S b2 0.38726
1 0.929 0.106
0.929 0.82512 3
Statistica testului t a lui Student, precizată anterior, are, în cazul de faţă, valorile:
b1 0.00548 b 0.38726
t b1 7.117, t b2 2 3.653
S b1 0.00077 S b2 0.106
37
Pentru nivelul de semnificaţie de 0.01 şi 9 grade de libertate (N – K – 1 = 12 – 2 – 1
= 9), valoarea teoretică a statisticii t este 2.821 (Anexa II). Făcând abstracţie de semn,
valorile calculate sunt mai mari decât cele teoretice, de unde rezultă că cei doi coeficienţi
de regresie parţială sunt statistic semnificativi, probabilitatea de eroare fiind mai mică de
1%.
Validarea modelelor de regresie presupune şi analiza atentă a reziduurilor, adică a
diferenţelor dintre valorile reale şi cele estimate.
Un indicator sintetic al capacităţii modelului de regresie de a estima temperatura
aerului este eroarea standard a estimării. În cazul nostru, fiind un eşantion mic, eroarea
standard a estimării este:
(y
j 1
j yˆ j ) 2
0.4175
0.215
N K 1 9
Semnificaţia este că, pe ansamblu, valorile estimate ale temperaturii vor diferi de cele
reale cu ± 0.2oC, în acest interval fiind situate majoritatea reziduurilor (cca 68% în cazul unei
distribuţii normale a acestora).
Un alt indice frecvent folosit pentru validarea şi compararea modelelor de regresie
este eroarea rădăcinii medie pătratică (RMSE). Aceasta se calculează prin extragerea
radicalului din media pătratelor reziduurilor. Aşa cum specificam anterior, pentru eşantioane
mari eroarea rădăcinii medie pătratică este egală cu eroarea standard a estimării şi cu
deviaţia standard a reziduurilor.
Tabelul 12. Valorile reale şi estimate ale temperaturii medii anuale şi reziduurile regresiei
Staţia meteorologică Real Estimat Reziduuri Reziduuri Estimat
in lipsa punctelor in lipsa
punctelor
Suceava 7.6 7.853 -0.2528 -0.3814 7.981
Falticeni 8.1 7.804 0.2958 0.5403 7.560
Dorohoi 8.5 8.570 -0.0700 -0.0880 8.588
Botoşani 9 8.726 0.2735 0.3225 8.677
Avrămeni 8.4 8.348 0.0522 0.0650 8.335
Râuseni 9.2 9.331 -0.1312 -0.1916 9.392
Podu Iloaiei 9.3 9.302 -0.0023 -0.0027 9.303
Iaşi 9.4 9.261 0.1387 0.1592 9.241
Negreşti 9 9.218 -0.2175 -0.2447 9.245
Vaslui 9.4 9.282 0.1182 0.1379 9.262
Roman 8.5 8.782 -0.2825 -0.3321 8.832
Galaţi 10.4 10.322 0.0778 0.2268 10.173
Minim 7.6 7.804 -0.2825 -0.3814 7.560
Maxim 10.4 10.322 0.2958 0.5403 10.173
Media 8.9 8.9 0.0000 0.0176 8.882
Deviatia standard 0.7336 0.7073 0.1948 0.2783 0.7070
Eroarea standard 0.2154
Eroarea rădăcinii 0.1865
medie pătratică
(RMSE)
38
remarcată şi din compararea graficelor de corelaţie dintre temperaturile reale şi cele
estimate, pe de o parte şi dintre temperaturile reale şi cele estimate prin eliminarea
succesivă a punctelor, pe de cealaltă parte (figura 13d). Remarcăm astfel diferenţele dintre
coeficienţii de determinare şi dintre pantele dreptelor de regresie. Totuşi, diferenţele sunt
mici, astfel încât, prin prisma şi a celorlalţi parametri de calitate a modelului prezentaţi
anterior, se poate afirma că modelul este suficient de capabil să explice şi să prezică valorile
medii anuale ale temperaturii aerului.
Figura 14. Comparaţia între reziduurile regresiei şi reziduurile calculate în lipsa punctelor
Galaţi
Roman
Vaslui
Negreşti
Iaşi
Podu Iloaiei
Râuseni
Avrămeni
Botoşani
Dorohoi
Falticeni
Suceava
BIBLIOGRAFIE
39
McKee T.B., Doesken N.J., Kleist J., The relationship of drought frequency and duration
at time scales. Eighth Conference on Applied Climatology, American Meteorological
Society, Jan 17-23, 1993, Anaheim CA, pp. 179-186
Micu Dana, Micu M., Winter temperature trends in Romanian Carpathians – A climate
variability index, Analele Universita)ii de Vest din Timisoara, Seria Geografie, XVI/2006, p.
141-159.
Patriche C. V., Podisul Central Moldovenesc dintre râurile Vaslui si Stavnic – studiu de
geografie fizica, Edit „Terra Nostra”, Iasi, 2005d, 257 pp.
Patriche Emilia-Isabela, Evaluarea agroclimatica a teritoriului Câmpiei Moldovei, teza de
doctorat, Univ „Al. I. Cuza” Iasi.
Radoane M., Radoane N., Ichim I., Dumitrescu Gh., Ursu C., Analiza cantitativă în
geografia fizică, Edit. Univ. „Al. I. Cuza” Iasi, 1996.
Stephens L. J., Schaum’s Outline of Theory and Problems of Beginning Statistics, McGraw-
Hill, 1998.
Trebici V. (coord.), Mică enciclopedie de statistică, Ed. Științifica si Enciclopedică,
București, 1985.
40