Sunteți pe pagina 1din 40

Universitatea “Alexandru Ioan Cuza” din Iaşi

Facultatea de Geografie şi Geologie


Departamentul de Geografie

INTRODUCERE ÎN ANALIZA STATISTICĂ

Dr. Patriche Cristian Valeriu

- Partea a I-a. Teorie -

Cercetător ştiinţific gradul I


Academia Română, Filiala Iaşi, Colectivul de Geografie
DEFINIŢII ŞI NOŢIUNI DE BAZĂ

Statistica este ştiinţa care se ocupă cu descrierea şi analiza numerică a fenomenelor


de masă, dezvăluind particularităţile de volum, structură, dinamică, conexiune, precum şi
regularităţile sau legile ce le guvernează (Trebici V., coord. – 1985). Individualizată iniţial ca
ramură a matematicii, statistica a fost ulterior adoptată în multe domenii, inclusiv în
geografie, ca urmare a necesităţii prelucrării unui volum din ce în ce mai mare de date,
aducând un aport metodologic consistent. Cuplată cu programele de SIG, statistica a
devenit o unealtă puternică pentru cartografierea digitală de mare precizie a diferitelor
variabile spaţiale.
În cadrul geografiei fizice, statistica prezintă aplicabilitate multiplă cu deosebire în
domeniul climatologiei (modelarea distribuţiei spaţiale şi a evoluţiei temporale a variabilelor
climatice, caracterizarea sintetică a unor fenomene şi procese prin intermediul indicilor
statistici, parametrizarea unor variabile complexe sau mai dificil de măsurat etc.), hidrologie
(calcule de probabilităţi pentru debite, modelarea spaţio-temporală a scurgerii etc.),
pedologie (cartografierea digitală a parametrilor pedologici, elaborarea funcţiilor de
pedotransfer etc.), geomorfologie (caracterizarea geomorfometrică complexă, modelarea
evoluţiei proceselor geomorfologice actuale etc.).
Noţiunile de bază în statistică includ:
 Individul: reprezintă un element sau o entitate (ex: o staţie meteorologică).
 Populaţia: reprezintă un ansamblu finit sau infinit de indivizi (ex: ansamblul
staţiilor meteorologice de pe Glob).
 Eşantionul: reprezintă un subansamblu al unei populaţii (ex: ansamblul staţiilor
meteorologice din România).
 Variabilă statistică: caracteristică de inters a unei populaţii cu variaţie spaţio-
temporală. Variabilele statistice pot fi cantitative, adică exprimate numeric (ex:
precipitaţiile exprimate în mm), valorile rezultând, de regulă, din măsurători, sau
calitative, exprimate non-numeric sau textual (ex: utilizarea terenului, exprimată
în clase de folosinţe, direcţia vântului exprimată prin clasele Nord, Nord-Est ...
Nord-Vest). De asemenea, variabilele cantitative pot fi continue, atunci când
acestea pot lua orice valoare dintr-un anumit interval (ex: temperaturile,
precipitaţiile etc.), sau discrete, atunci când variabila poate lua doar anumite valori
dintr-un anumit interval (ex: albedoul, atunci când acesta este exprimat prin valori
unice ataşate tipurilor de utlizare a terenului).
 Observaţia: reprezintă valoarea unei variabile pentru o anumită locaţie (individ)
şi pentru un anumit moment sau interval de timp (ex: temperatura medie anuală
la staţia Iaşi).
 Distribuţie statistică: reprezintă ansamblul ordonat al frecvenţelor (distribuţii de
frecvenţe) sau probabilităţilor (distribuţii de probabilităţi) valorilor unei anumite
variabile. Distribuţiile de frecvenţe sunt distribuţii empirice determinate pe baza
unui eşantion, în timp ce distribuţiile de probabilităţi sunt distribuţii teoretice,
descrise prin ecuaţii matematice, asociate populaţiilor (ex: distribuţia normală sau
gaussiană, lognormală, gamma, chi-pătrat, t – Student, F – Snedecor-Fisher, Z –
Fisher etc.). Pe măsură ce dimensiunea eşantionului creşte, frecvenţa tinde să
devină echivalentă cu probabilitatea, iar configuraţia distribuţiei de frecvenţe tinde
tot mai mult spre configuraţia distribuţiei de probabilităţi.
Statistica pleacă de la ideea că legităţile care guvernează procesele şi fenomenele
pot fi deduse din analiza unui număr mare de cazuri particulare (indivizi), iar aceste legităţi
au caracter probabilistic. Cu alte cuvinte, fiecare individ are o personalitate proprie,
comportându-se mai mult sau mai puţin diferit faţă de ceilalţi indivizi aparţinând aceleiaşi
populaţii, dar împreună, masa de indivizi (populaţia, eşantionul) se comportă unitar,
supunându-se aceloraşi legi. Însă aplicarea acestor legi pentru derivarea comportamentului
unui individ este probabilistică, astfel încât comportamentul estimat va diferi de cel real într-
o anumită măsură. În acest sens, statistica îşi propune nu reproducerea fidelă a
comportamentului individual, ci minimizarea abaterilor acestora faţă de comportamentele
estimate.
Statistica include o mare varietate de metode, de la indici simpli, de tipul mediei,
medianei, deviaţiei standard etc., până la metode complexe de analiză, cum ar fi regresia,
krigingul, analiza componenţilor principali, analiza canonică etc.
În cadrul acesteia, pot fi deosebite două ramuri principale:
 Statistica descriptivă: se ocupă cu descrierea informaţiei statistice (populaţie,
eşantion) prin intermediul unor indici statistici (medii, mediana, modul, deviaţia
standard, varianţa etc.).
 Statistica inferenţială: se ocupă cu prelucrarea informaţiei statistice în scopul
obţinerii de informaţii noi referitoare la dinamica şi conexiunile interne ale
fenomenelor de masă.
Pentru aplicarea corectă, precisă şi rapidă a metodelor statistice este necesară
utilizarea unui soft adecvat. În prezent, există o paletă largă de programe care pot fi utilizate
pentru prelucrarea statistică a datelor. Câteva dintre acestea sunt redate în tabelul 1
împreună cu caracteristicile lor principale. Se pot deosebi, în general, două categorii de
programe: programe complexe (Excel/XLSTAT/WinSTAT, Statistica, Minitab etc.), care pun
la dispoziţie o gamă variată de metode de analiză statistică şi programe specializate pe un
anumit tip de analiză, cum ar fi modelările de tip kriging (Variowin, Vesper etc.).
O listă consistentă de programe statistice gratuite poate fi vizualizată pe website-ul:
http://freestatistics.altervista.org/
Pentru modelarea spaţială a parametrilor climatici este necesară aplicarea metodelor
statistice de spaţializare în cadrul programelor de SIG. Tabelul 2 redă câteva exemple de
programe SIG de largă circulaţie şi o serie de caracteristici principale, incluzând posibilităţile
de analiză statistică. Putem remarca că, în general, programele complexe de SIG includ
module de interpolare de tipul krigingului. Modulele de regresie sunt însă implementate în
mai puţine cazuri, iar flexibilitatea acestora este, de regulă, insuficientă pentru o analiză
riguroasă. Mai multe informaţii privind capacităţile de modelare spaţială ale programelor de
SIG sunt specificate în cadrul capitolului dedicat metodelor de interpolare spaţială.

Tabelul 1. Exemple de programe de analiză statistică


Programul Producător Caracteristici
Excel Microsoft Corporation, Poate cel mai popular program de statistică,
www.microsoft.com/ inclus în pachetul Office. Flexibilitate deosebită
în manipularea datelor în cadrul foilor de lucru,
număr mare de funcţii matematice şi statistice
predefinite, poate aplica analize mai complexe
de tipul regresiei, ANOVA, teste statistice etc.
prin intermediul unor module externe
compatibile (ex: Analysis ToolPak, XLSTAT,
WinSTAT etc.)
XLSTAT Addinsoft, Modul Excel cu posibilităţi complexe de analiză
http://www.xlstat.com/ şi afişare a datelor statistice. Include: statistici
descriptive, teste statistice, analiza

4
componenţilor principali (factorială), clasificări
automate, regresii liniare / neliniare etc.
WinSTAT Robert K. Fitch, Mai simplu comparativ cu XLSTAT, este de
http://www.winstat.com/ asemenea un modul Excel metode variate de
analiză a datelor statistice
Statistica http://www.xlstat.com/ Program complex de analiză statistică, cu
posibilităţi diverse de afişare grafică, incluzând
module de regresie, analiza seriilor
cronologice, analiza componenţilor principali
(factorială), clasificări automate, analiza
discriminatorie, data mining (explorarea
datelor), reţele neuronale etc.
Minitab Minitab Inc. Program complex de analiză statistică,
http://www.minitab.com/ asemănător programului STATISTICA, însă
ceva mai simplu, incluzând analize de
regresie, varianţă, serii cronologice, analiza
componenţilor principali (factorială), clasificări
automate, analiza discriminatorie, teste
statistice etc.
SSPS SSPS Inc., Program complex de analiză statistică, destinat
http://www.spss.com/ în principal ştiinţelor umaniste (economie,
sociologie, medicină etc.)
R The R Foundation for Program gratuit de analiză statistică complexă:
Statistical Computing modelare liniară şi neliniară, teste statistice,
analiza seriilor de timp, clasificare automată
etc. Necesită cunoaşterea limbajului de
programare
FlexPro Weisang GmbH, Program specializat pe analiza seriilor de timp,
http://www.weisang.com/ incluzând analiza spectrală, Fourier, modele
auto-regresive etc.
Vesper Minasny, B., McBratney, Program gratuit specializat pe modelarea
A.B., and Whelan, B.M., variogramelor şi aplicarea krigingului în scopul
2005. VESPER version modelării spaţiale a parametrilor de sol la
1.62. Australian Centre for scară mare
Precision Agriculture,
McMillan Building A05,
The University of Sydney,
NSW 2006.
(http://www.usyd.edu.au/su
/agric/acpa)
FuzME Minasny, B., McBratney, Program gratuit specializat pe aplicarea
A.B., 2002. FuzME version clasificărilor de tip fuzzy în scopul redării mai
3.0, Australian Centre for realiste a variaţiei spaţiale a învelişului de sol
Precision Agriculture, The
University of Sydney,
Asutralia.
(http://www.usyd.edu.au/su
/agric/acpa)
Variowin Yvan Pannatier, Program gratuit specializat în modelarea
VARIOWIN: Software for variogramelor
Spatial Data Analysis in
2D, Springer-Verlag, New
York, NY, 1996 http://www-
sst.unil.ch/research/variowi
n/index.html

5
Tabelul 2. Exemple de programe GIS incluzănd module de analiză statistică
Programul Producător Caracteristici
ArcGIS ESRI – Environmental Program complex de analiză vectorială şi raster
Systems Research cu limbaj de programare propriu. Include module
Institute, www.esri.com de interpolare complexe: IDW 1, spline, kriging,
regresie multiplă, regresie locală ponderată
(GWR2).
TNTmips Microimages Inc., Program complex de analiză vectorială şi raster
www.microimages.com cu limbaj de programare propriu. Include module
complexe de procesare a imaginilor de
teledetecţie, de interpolare spaţială: metoda
curburii minime, IDW, TIN3, kriging.
Idrisi Clark Labs, Program complex, destinat cu deosebire
www.clarklabs.org/ analizei de tip raster.
Surfer Golden Software, Program specializat mai ales pe interpolari de
www.goldensoftware.com tip kriging
GRASS The Open Source GIS de tip open source, gratuit
Geospatial Foundation,
http://grass.itc.it/
SAGA-GIS J. Böhner şi colab., GIS de tip open source, gratuit, cu posibilităţi
Institute of Geography, complexe de analiză raster mai ales în domeniul
University of Hamburg, geomorfometriei şi hidrologiei
http://www.saga-
gis.org/en/index.html

1
Inverse Distance Weighting
2
Geographically Weighted Regression
3
Triangulated Irregular Network

6
STATISTICA DESCRIPTIVĂ

Aşa cum precizam anterior, statistica descriptivă se ocupă cu descrierea informaţiei


statistice (populaţie, eşantion) prin intermediul unor indici statistici. Aceştia pot fi aplicaţi fie
datelor brute, fie, parţial, distribuţiilor de frecvenţe, cu caracter temporal (serii de timp), sau
spaţial.
Cei mai simpli indici statistici sunt valorile centrale (media, mediana, modul) care
indică poziţia, în cadrul şirului de date, în jurul căreia sunt distribuite valorile.
Cea mai folosită medie în analiza statistică este media aritmetică:
n

x i
x 1

n
unde xi sunt valorile x1, x2, ... xn din şirul de date, iar n este numărul total de termeni
ai acestuia.
Cu aplicabilitate mai redusă în analiza statistică sunt media geometrică şi media
armonică, care se determină cu formulele de mai jos:
n
 Media geometrică: x  n x 1
i

n
 Media armonică: x  n

1 x
1
i

Un caz particular al mediei aritmetice, frecvent utilizat în analiza seriilor cronologice


climatice, este media glisantă. Mediile glisante sunt medii aritmetice calculate pe intervale
succesive cu aceeaşi dimensiune, în cadrul unui şir de date. Concret, pentru calculul
mediilor glisante cu perioada k pentru un şir de N valori, se determină mai întâi media
aritmetică a primilor k termeni ai şirului (x1, ... xk), după care intervalul de mediere se glisează
cu o unitate şi se determină media valorilor din cadrul acestuia (x 2, ... xk+1), procedura
repetându-se până la capătul şirului, ultimul interval de mediere fiind xn-k, ... xn. Rezultă astfel
un şir de medii glisante de N-k+1 valori.
Deoarece prin calculul mediilor glisante variaţia iniţială a şirului de date este netezită,
acestea sunt folosite în climatologie pentru evidenţierea tendinţelor şi ciclurilor de evoluţie
ale parametrilor climatici.
Un exemplu în acest sens este redat în figura 1 pentru evoluţia precipitaţiilor anuale
la staţia Vaslui în perioada 1956-2000. se poate observa că mediile glisante cu perioade de
5, respectiv 11 ani, scot în evidenţă perioada mai umedă a anilor ’70, încadrată de
perioadele mai deficitare pluviometric din anii ’50-’60 şi respectiv ’80. Netezirea variaţiei
iniţiale este cu atât mai mare cu cât intervalul de mediere este mai mare, astfel încât
perioade de mediere mai mari evidenţiază eventualele tendinţe sau cicluri mai generale de
evoluţie.
Importantă este amplasarea mediilor glisante la mijlocul intervalului de mediere. Spre
exemplu, media perioadei de 11 ani 1956-1966 trebuie asociată anului 1961, situat în centrul
intervalului de glisare. Acest lucru nu se întâmplă, spre exemplu, în programul Excel, atunci
când se realizează automat şirul mediilor glisante, primul termen al şirului fiind asociat
ultimului termen al intervalului de mediere. De aceea, se recomanda calculul manual al
mediilor glisante în foaia de lucru, cel puţin în cazul acestui program.
Figura 1. Evoluţia precipitaţiilor medii anuale la Vaslui (1956-2000) şi seriile mediilor glisante cu
perioade de 5 şi 11 ani.
900

800
700

600
500
mm

400
300

200
100

0
1956
1958
1960
1962
1964
1966
1968
1970
1972
1974
1976
1978
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
precipitaţii anuale (mm) medii glisante pe 5 ani medii glisante pe 11 ani

O altă variantă a mediei aritmetice, cu aplicabilitate în climatologie, este media


ponderată. Aceasta se aplică atunci când valorile ce urmează a fi mediate trebuie să
contribuie diferit la formarea mediei, în funcţie de un anumit criteriu, exprimat prin
intermediul unor coeficienţi de ponderare (ci):
n

c x i i
c1 x1  c 2 x 2  ...  c n x n
x 1

n
c1  c 2  ...  c n
c 1
i

Un exemplu de aplicare a mediei ponderate este metoda de interpolare cu inversul


distanţei (IDW – Inverse Distance Weighting), denumită şi media mobilă ponderată. Metoda
determină valoarea unui element climatic într-o locaţie lipsită de măsurători ca medie
poderată a valorilor învecinate cunoscute, coeficienţii de ponderare fiind invers proporţionali
cu distanţa dintre punctul cu valoare cunoscută şi punctul în care se doreşte estimarea
valorii. În acest fel, punctele mai apropiate vor contribui mai mult la valoarea interpolată
decât punctele mai îndepărtate.
Un alt exemplu de aplicare a mediei ponderate îl constituie determinarea valorii medii
a unui element climatic, plecând de la valorile lunare, pe un anumit interval de timp din an,
care nu include un număr întreg de luni.
În tabelul 3 este prezentată o aplicaţie pentru calcularea temperaturii medii pe ciclul
de vegetaţie al culturii de floarea soarelui, pe baza temperaturilor medii lunare înregistrate
la staţia Iaşi (Patriche Emilia Isabela, 2008). Ciclul de vegetaţie al acestei culturi este de
127 de zile şi include 3 luni întregi (mai, iunie, iulie), la care se adaugă ultimele 10 zile din
luna aprilie şi primele 25 de zile din luna august. Conform formulei de mai sus, media
temperaturii pe ciclul de vegetaţie este:

10,4  10  16  31  19,4  30  20,8  31  20,1  25


t m.ciclu   18,4
127

8
Tabelul 3. Exemplu de calcul a temperaturii medii pe ciclul de vegetaţie a florii soarelui folosind
temperaturile medii lunare de la staţia Iaşi
Luni Temperatura Număr zile ciclu Media
medie lunară (oC) ponderată
I -3.3
II -1.3
III 3.3
IV 10.4 10 104.0
V 16.0 31 496.0
VI 19.4 30 582.0
VII 20.8 31 644.8
VIII 20.1 25 502.5
IX 15.7
X 10.0
XI 4.1
XII -0.7
ciclu vegetaţie FS 127 18.3

Mediana reprezintă valoarea situată exact la mijlocul şirului de date ordonat crescător
sau descrescător. Ca urmare, mediana împarte şirul de date în două şiruri cuprinzând
acelaşi număr de indivizi. Daca numărul de valori din şirul de date este par, atunci mediana
reprezintă media celor 2 valori situate la mijlocul acestuia.
Modul (valoarea modală) reprezintă valoarea cu frecvenţa cea mai mare în cadrul
şirului de date. În general, aceasta se aplică distribuţiilor de frecvenţe, indicându-se astfel
clasa modală, respectiv clasa care grupează cele mai multe valori.

Figura 2. Exemple de distribuţii de frecvenţe prezentând asimetrie de stânga (pozitivă – a),


respectiv asimetrie de dreapta (negativă – b) (Apetrei M., Groza O., Grasland C., 1996)

Raportul (poziţia relativă) a celor 3 valori centrale (media, mediana, modul)


caracterizează asimetria distribuţiei unui parametru (figura 2). Astfel, dacă media < mediana
< valoarea modală, atunci distribuţia prezintă asimetrie de dreapta (negativă), indicând o
concentrare preponderentă în zona valorilor mari ale parametrului analizat. Dimpotrivă,
dacă media > mediana > valoarea modală, atunci distribuţia prezintă asimetrie de stânga
(pozitivă), indicând concentrarea preponderentă în zona valorilor mici. Dacă cele 3 valori
centrale sunt egale sau asemănătoare, atunci distribuţia este cvasi-simetrică.

Tabelul 4. Exemplificarea calculului unor indici statistici pentru un eşantion de 10 valori,


reprezentând temperaturi medii anuale la staţia Iaşi
An tm.an (oC) clase Abateri frecvenţa frecvenţa
faţă de medie absolută relativă (%)
1991 9.3 <9 -0.63 1 10
1992 10 9-10 0.07 5 50

9
1993 9.2 10-11 -0.73 2 20
1994 11.1 >11 1.17 2 20
1995 9.6 -0.33
1996 8.7 -1.23
1997 9.4 -0.53
1998 10.1 0.17
1999 10.7 0.77
2000 11.2 1.27
media aritmetică 9.9
media geometrica 9.9
media armonica 9.9
Minima 8.7
Maxima 11.2
Mediana 9.8
clasa modala 9-10
ecartul de variaţie 2.5
Varianţa 0.716
deviaţia standard 0.846
coeficientul de variaţie 8.519

O serie de indici importanţi pentru caracterizarea statistică a unui şir de date sunt
indicii de variaţie (dispersie), care ne oferă informaţii sintetice privind gradul de dispersie
a valorilor din cadrul acestuia.
Cei mai simpli indici de variaţie sunt valoarea maximă, minimă, respectiv diferenţa
dintre acestea (ecartul sau amplitudinea de variaţie). Aceştia nu sunt însă suficienţi pentru
a descrie dispersia valorilor, cel puţin în situaţia în care majoritatea valorilor se concentrează
în jurul mediei, extremele fiind însă semnificativ distanţate faţă de aceasta.
Pentru o imagine mai completă a variaţiei din cadrul şirului, putem proceda la calculul
abaterilor fiecărei valori faţă de valoarea medie. Abaterile pozitive sunt, prin urmare,
asociate valorilor mai mari ca media, iar abaterile negative, valorilor mai mici ca media.
Calculul abaterilor este o practică frecvent utilizată în analiza climatologică, acestea fiind
denumite frecvent şi anomalii. Abaterile pot fi determinate şi în raport dreaptă (curbă) de
tendinţă sau de regresie, caz în care abaterile sunt denumite reziduuri, având semnificaţia
de diferenţă între valorile reale şi cele estimate prin utilizarea dreptei (curbei) teoretice
respective.
Dacă dorim un indice sintetic de variaţie bazat pe calculul abaterilor, nu putem
proceda la mediere, deoarece suma abaterilor faţă de medie este zero, abaterile pozitive
fiind compensate de cele negative. O soluţie constă în medierea valorilor în modul ale
abaterilor rezultând indicele denumit abaterea absolută medie:
n

x i x
ea  1

n
O altă soluţie este să ridicăm la pătrat fiecare abatere şi să efectuăm media acestor
pătrate. Ceea ce obţinem poartă denumirea de varianţă:

 x 
n
2
i x
2  1

n
Cum varianţa este o medie de pătrate, pentru a avea un indice cu aceeaşi unitate de
măsură ca şi valorile din şirul de date, trebuie să extragem radicalul. Ceea ce obţinem poartă
numele de deviaţie standard (abatere standard, ecart-tip), un indice frecvent folosit în
analiza statistică, în general şi în climatologie, în particular:

10
 x 
n
2
i x
 1

n
Atunci când analizăm eşantioane, nu populaţii şi mai ales în cazul eşantioanelor mici,
la calculul varianţei şi deviaţiei standard se aplică aşa-numita corecţie Bessel, egală cu
n (n  1) . Astfel, cei doi indici statistici devin:

 x   x 
n n
2 2
i x i x
2  1
şi   1

n 1 n 1
Deviaţia standard are aceeaşi unitate de măsură ca şi variabila pe care o
caracterizează. Prin urmare, nu putem compara deviaţiile standard ale unor şiruri diferite ca
unităţi de măsură (ex: temperaturi vs. precipitaţii), pentru a indica care dintre acestea variază
mai mult. Soluţia este împărţirea deviaţiei standard la valoarea medie, operaţie ce anulează
efectul unităţii de măsură, rezultând un indice adimensional. Deoarece deviaţia standard
este semnificativ mai mică comparativ cu valoarea medie, pentru aducerea indicelui într-o
gamă de valori mai convenabilă, se procedează la înmulţirea acestui raport cu 100,
rezultând coeficientul de variaţie:

CV   100
x
Ca exemplu, dacă media temperaturilor medii lunare pe un anumit interval este de
9,6oC, iar deviaţia standard de 0,7oC, rezultă un coeficient de variaţie de 7.3%. Pentru
acelaşi interval şi pentru aceeaşi locaţie, dacă precipitaţiile medii anuale sunt de 480mm,
iar deviaţia standard a acestora de 130mm, rezultă un coeficient de variaţie de 27%. Deşi
cunoşteam foarte bine faptul că variabilitatea spaţio-temporală a precipitaţiilor este cu mult
mai mare comparativ cu cea a temperaturilor, acum avem şi un indice cantitativ de
comparaţie şi putem afirma că precipitaţiile, în exemplul de mai sus, prezintă o variabilitate
temporală de 3,7 ori mai mare comparativ cu temperaturile.
Indicii de variaţie pot fi folosiţi pentru redarea sintetică a variabilităţii spaţio-temporale
a elementelor şi fenomenelor climatice. Exemplul din figura 3 prezintă variabilitatea
temporală a precipitaţiilor lunare comparativ cu regimul mediu lunar la staţia Vaslui. Aceasta
se dovedeşte a fi însemnată, precipitaţiile putând lipsi complet în lunile februarie şi
septembrie sau putând urca până la peste 200mm, în luna august, adică până la aproape
de 4 ori cantitatea medie a acestei luni. Cele mai mari amplitudini de variaţie ale cantităţilor
lunare, în perioada 1956-1995, caracterizează intervalul mai-august (145-209mm). Cele mai
mici amplitudini maxime de variaţie sunt specifice lunilor de iarnă-primăvară (58-103mm).
În acord cu aceste constatări, variabilitatea de la un an la altul a precipitaţiilor lunare,
evaluată cu ajutorul deviaţiei standard, este maximă în lunile mai ploioase (mai-august), cu
valori ale parametrului amintit de 34-47mm şi minimă în lunile cu precipitaţii reduse
(decembrie-martie), cu valori de 16-25mm.

Figura 3. Exemplu de utilizare a indicilor de variaţie (maxima, minima, deviaţia standard)


comparativ cu valorile medii pentru relevarea variabilităţii precipitaţiilor lunare la staţia Vaslui
(1956-1995) (Patriche C.V., 2005)

11
250

200

mm/lună 150

100

50

0
I II III IV V VI VII VIII IX X XI XII
media maxima minima ± deviaţia standard

Dacă coeficientul de variaţie poate fi folosit pentru compararea variaţiilor de


ansamblu a două sau mai multe şiruri de date exprimate în unităţi de măsură diferite, uneori
este necesară compararea fiecărei valori din din cadrul unui şir cu cele corespunzătoare din
alte şiruri. Aducerea la un numitor comun a datelor prin eliminarea efectului unităţilor de
măsură, poartă numele de standardizare.
Cea mai frecvent utilizată metodă de standardizare presupune eliminarea mediei
(calcularea abaterilor faţă de medie) şi împărţirea abaterilor la deviaţia standard. Ceea ce
se obţine poartă numele de valoare standardizată sau scor Z:
x x
Zi  i

Prin natura operaţiilor efectuate, şirul valorilor standardizate are întotdeauna media
zero şi deviaţia standard egală cu 1, fiecare termen al acestuia exprimând numărul
deviaţiilor standard cu care valoarea iniţială se abate faţă de valoarea medie.
Un exemplu este redat în tabelul 5. Valorile standardizate pot fi comparate, în sensul
că putem afirma, spre exemplu, că în anul 1987 abaterea temperaturii faţă de medie a fost
mai importantă decât cea a precipitaţiilor.

Tabelul 5. Exemplu de calcul al valorilor standardizate pentru temperaturile şi precipitaţiile medii


anuale înregistrate la Vaslui (1986-1995)
An tm.an Pm.an tm.an - std Pm.an - std
1986 9.6 300.3 -0.0693 -1.383
1987 8.6 457.2 -1.455 -0.200
1988 9.1 623.3 -0.762 1.053
1989 10.7 518.1 1.455 0.260
1990 10.2 374.7 0.762 -0.822
1991 9.3 700.9 -0.485 1.638
1992 9.9 425.5 0.346 -0.438
1993 8.9 642.6 -1.039 1.198
1994 10.7 380.3 1.455 -0.779
1995 9.5 413.8 -0.207 -0.527
media 9.65 483.67 0 0

12
deviaţia standard 0.721 132.615 1 1

O aplicaţie importantă a valorilor standardizate în climatologie vizează caracterizarea


pluvio-termică a lunilor, cu relevarea caracterului arid/umed, respectiv rece/cald al acestora.
Astfel, standardizarea valorilor precipitaţiilor medii lunare stă la baza calculului
indicelui standardizat de precipitaţii (SPI4, McKee et al., 1993). Calculul acestui indice este
însă mult mai complicat, presupunând, într-o primă etapă ajustarea distribuţiei precipitaţiilor
confom distribuţiei teoretice gamma, urmată de transformarea distribuţiei gamma în
distribuţie normală, după care se trece la calcularea valorilor standardizate folosind valorile
conforme cu distribuţia normală. Exemple de aplicare ale indicelui standardizat de
precipitaţii pentru Depresiunea Transilvaniei se regăsesc în teza de doctorat elaborată de
Croitoru Adina-Eliza (2005).
Un alt exemplu este utilizarea valorilor standardizate ale temperaturilor din timpul
iernii ca indice de severitate al iernilor (Micu Dana, Micu M., 2008).
Alţi indici de variaţie care, de data aceasta, nu se mai raportează la valoarea medie,
sunt cuantilele. Noţiunea de cuantile derivă din cea de mediană, cuantilele fiind indici de
poziţie, care împart un şir de valori în segmente egale. Cele mai utilizate cuantile sunt:
 Cuartilele, care împart şirul de observaţii în 4 părţi egale;
 Decilele, care împart şirul de observaţii în 10 părţi egale;
 Centilele, care împart şirul de observaţii în 100 de părţi egale.
Distribuţiile de frecvenţe reprezintă un alt element de statistică descriptivă folosit
adesea pentru caracterizarea datelor temporale sau spaţiale. Calculul frecvenţelor
presupune stabilirea unor clase în care valorile vor fi încadrate, fie arbitrar (ex: încadrarea
temperaturilor medii anuale în clasele <6, 6-7, 7-8 … oC), fie urmărind o anumită semnificaţie
a valorilor de prag (ex: încadrarea indicelui de ariditate de Martonne în clasele < 24, 24-32,
>32, corespunzătoare climatului uscat de stepă, subumed de silvostepă, respectiv climatului
umed, de pădure; clasificarea pluviometrică a lunilor conform criteriului Hellman; frecvenţa
vântului pe cele 8 direcţii; numărul zilelor de iarnă, tropicale etc.).
Frecvenţa poate fi exprimată fie absolut, ca număr de indivizi (valori) încadraţi în
clasele stabilite (frecvenţa absolută), fie relativ, ca pondere procentuală a claselor (frecvenţa
relativă). Aceasta din urmă se determină înmulţind cu 100 valoarea frecvenţei absolute şi
împărţind rezultatul la numărul total de indivizi (valori). Modul de reprezentare grafică a
frecvenţelor absolute şi relative sub formă de coloane, poartă numele de histogramă. În
cadrul unei distribuţii, frecvenţele mari pot fi asociate unei sigure clase (clasa modală –
distribuţie unimodală), sau pot exista 2 (distribuţie bimodală) sau mai multe clase cu
frecvenţe mari, în cadrate de clase cu frecvenţe mai reduse. O serie de exemple sunt redate
în figura 4.

Figura 4. Exemple de distribuţii de frecvenţe pentru diferite variabile


(Williams R. B. G., 1989, citat de Rădoane Maria şi colab., 1998)

4
Standardized Precipitation Index

13
Tabelul 6 redă, ca exemplu, aplicarea calculului de frecvenţe pentru caracterizarea
pluviometrică a lunilor conform criteriului Hellman. Procedura de atribuire a calificativelor
pluviometrice urmează etapele:
 Calcularea abaterilor cantităţilor lunare de precipitaţii (Pi) faţă de media
multianuală (Pmed) şi exprimarea procentuală a acestor abateri în raport cu media
multianuală 100 (Pi – Pmed) / Pmed ;
 Încadrarea în clasele specificate de metodologie şi atribuirea calificativelor
pluviometrice (prima coloană din tabelul 6);
 Calcularea frecvenţelor absolute şi relative ale lunilor cu diferite calificative
pluviometrice.

Tabelul 6. Frecvenţa lunilor (%) cu diferite caracteristici pluviometrice, conform criteriului Hellman, la
staţia Iaşi (1961-2000)
Calificativul I II III IV V VI VII VIII IX X XI XII Total
pluviometric al lunii %
Extrem secetoase 27.5 27.5 32.5 20 22.5 7.5 12.5 27.5 40 40 22.5 17.5 24.8
< -50% Pmed
Foarte secetoase 17.5 5 5 12.5 10 12.5 17.5 20 10 10 17.5 17.5 12.9
-31 – (-50)% Pmed
Secetoase 5 7.5 5 5 5 17.5 20 5 7.5 2.5 7.5 7.5 7.9
-21 – (-30)% Pmed
Putin secetoase 5 7.5 5 10 20 7.5 5 0 5 2.5 2.5 7.5 6.5
-11 – (-20)% Pmed
Normale 12.5 20 15 17.5 12.5 22.5 17.5 7.5 5 7.5 12.5 12.5 13.5
-10 – 10% Pmed
putin ploioase 2.5 0 7.5 5 0 5 0 0 2.5 5 10 7.5 3.8
11-20% Pmed

14
Ploioase 0 2.5 0 0 2.5 10 5 7.5 0 2.5 7.5 5 3.5
21-30% Pmed
Foarte ploioase 15 5 7.5 7.5 7.5 7.5 7.5 10 5 7.5 5 7.5 7.7
31-50% Pmed
Extrem de ploioase 15 25 22.5 22.5 20 10 15 22.5 25 22.5 15 17.5 19.4
> 50% Pmed

Tabelul 7. Exemplu de determinare a frecvenţelor absolute şi relative de amplasare a maximului


pluviometric lunar (staţia Iaşi, 1961-2000)
An I II III IV V VI VII VIII IX X XI XII
1961 0 0 0 0 1 0 0 0 0 0 0 0
1962 0 0 0 0 0 0 0 0 0 0 1 0
1963 0 0 0 0 0 0 0 1 0 0 0 0
… … … … … … … … … … … … …
1998 0 0 0 0 0 0 0 0 0 1 0 0
1999 0 0 0 0 0 1 0 0 0 0 0 0
2000 0 0 0 0 0 0 1 0 0 0 0 0
Abs. 1 0 0 1 5 12 8 5 6 1 1 0
Rel. (%) 2.5 0 0 2.5 12.5 30 20 12.5 15 2.5 2.5 0

O altă aplicaţie poate viza determinarea frecvenţei de amplasare a maximelor şi


minimelor în cadrul regimului unui anumit element sau fenomen meteo-climatic. În exemplul
redat în tabelul 7, se analizează amplasarea maximelor lunare de precipitaţii în cadrul
regimului anual. Procedura presupune atribuirea valorii 1 lunii asociate maximului
pluviometric şi a valorii 0 pentru celelalte luni, după care valorile se însumează, rezultând,
pentru fiecare lună, numărul de cazuri (ani) în care maximul pluviometric a fost plasat în
luna respectivă. Aceste frecvenţe absolute pot fi ulterior transformate în frecvenţe relative.
Frecvenţele absolute sau relative pot fi determinate şi cumulat, plecând fie de la clasa
cu valorile cele mai mici, fie de la clasa cu valorile cele mai mari (frecvenţe cumulate).
Frecvenţele se adună succesiv, rezultând, în primul caz, un traseu ascendent al graficului,
iar în al doilea caz, un traseu descendent. De regulă, frecvenţa cumulată se reprezintă grafic
sub formă de curbă (figura 5), punctele care definesc traseul curbei fiind situate la mijlocul
intervalelor care marchează clasele de valori.

15
ELEMENTE DE PROBABILITĂȚI

Pentru şiruri lungi de date, frecvenţa relativă poate fi asimilată, cu anumite rezerve,
cu probabilitatea (asigurarea). Spre exemplu, în tabelul 8 observăm ca frecvenţa relativă a
clasei de precipitaţii de 650-700mm este de 4,4%. Putem astfel afirma că probabilitatea de
a avea precipitaţii anuale cu valori între 650 şi 700mm este de 4,4% sau, cu alte cuvinte, în
4,4 din 100 de ani valoarea precipitaţiilor va fi curpinsă între limitele menţionate.
Din şirul frecvenţelor relative cumulate ascendent, remarcăm că anii cu precipitaţii
mai mici de 700mm reprezintă 93,3% din totalul anilor. Putem afirma, prin urmare, că
probabilitatea de nedepăşire a valorii de 700mm este de 93,3%. Pe de altă parte, din şirul
frecvenţelor relative cumulate descendent, se remarcă faptul că anii cu precipitaţii mai mari
de 700mm reprezintă 6,7% din total. Cu alte cuvinte, probabilitatea de depăşire a valorii de
700mm este 6,7%.
Având curbele frecvenţelor cumulate, putem pentru orice valoare a parametrului
analizat (precipitaţiile anuale în cazul anterior) să determinăm probabilitatea de nedepăşire
sau de depăşire a acesteia. Reciproca este valabilă: pentru o anumită valoare a probabilităţii
de nedepăşire sau de depăşire, putem determina valoarea asociată a parametrului studiat.

Tabelul 8. Frecvenţe absolute, relative şi relative cumulate ale precipitaţiilor anuale la staţia Vaslui
(1956-2000)
Clase Frecvenţa Frecvenţa Frecvenţa Frecvenţa
absolută relativă relativă cumulată relativă cumulată
ascendentă descendentă
<350 2 4.4 4.4 100.0
350-400 5 11.1 15.6 95.6
400-450 7 15.6 31.1 84.4
450-500 8 17.8 48.9 68.9
500-550 5 11.1 60.0 51.1
550-600 6 13.3 73.3 40.0
600-650 7 15.6 88.9 26.7
650-700 2 4.4 93.3 11.1
700-750 2 4.4 97.8 6.7
>750 1 2.2 100.0 2.2

Figura 5. Histograma frecvenţelor absolute şi curbele frecvenţelor relative cumulate ascendente


(a) şi descendente (b) pentru datele din tabelul 8
9 100 9 100

8 90 8 90

80 80
7 7

70 70
6 6
60 60
5 5
nr.
nr.

%
%

50 50
4 4
40 40
3 3
30 30

2 2
20 20

1 10 1 10

0 0 0 0
<350

>750
350-400

400-450

450-500

500-550

550-600

600-650

650-700

700-750
<350

>750
350-400

400-450

450-500

500-550

550-600

600-650

650-700

700-750

a b

Totuşi, asimilarea frecvenţelor relative cu probabilitatea nu este corectă atunci când


şirul nostru de date reprezintă un eşantion dintr-o populaţie mult mai mare. În exemplul
16
nostru, şirul de precipitaţii anuale este de 45 de ani, fiind în fapt un eşantion dintr-o populaţie
mult mai mare. Daca am putea mări intervalul de analiză la 100 de ani, spre exemplu, este
foarte posibili ca valorile extreme să se modifice, adică să apară ani cu precipitaţii mai mari
şi / sau mai mici decât valorile maxime şi minime identificate în intervalul mai scurt, de 45
de ani. De asemenea, este posibil să se modifice semnificativ frecvenţele relative asociate
claselor de precipitaţii. În exemplul nostru, valoarea maximă a precipitaţiilor este de 850mm,
ceea ce ar însemna că probabilitatea de a depăşi această valoare este 0, deoarece nu
există ani cu valori mai mari de precipitaţii. Similar, valoarea minimă de 300mm ar indica că
probabilitatea de a avea precipitaţii mai mici decât 300mm este nulă, sau, altfel supus,
probabilitatea de a depăşi această valoare este de 100%.
Înlăturarea acestor neajunsuri poate fi realizată prin asocierea valorilor extreme din
eşantionul disponibil unor probabilităţi diferite de 0 sau 100. Calculul acestor probabilităţi
empirice se poate realiza folosind relaţia de mai jos, des folosită în analiza seriilor
hidrologice:

pi = i / (n+1)
unde:
 pi : probabilitatea (asigurarea) empirică;
 i : numărul de ordine al debitului din şirul ordonat descrescător;
 n : numărul total de termeni ai şirului.

Prin urmare, procedura presupune ordonarea descrescătoare a şirului de date şi


atribuirea de ranguri de la 1 (pentru valoarea cea mai mare) la n (pentru valoarea cea mai
mică). Remarcăm faptul că probabilităţile extreme, asociate valorilor maxime, respectiv
minime, vor depinde de mărimea şirului de date, fiind cu atât mai apropiate de 0, respectiv
100, cu cât şirul este mai lung.
Pentru şirul nostru de precipitaţii de 45 de ani, valoarea maximă de 850mm va avea
asociată probabilitatea (de depăşire) de 0,0217 (2,17%), iar valoarea minimă de 300mm va
avea asociată probabilitatea de 0,9783 (97,83%). Reprezentând grafic valorile parametrului
analizat (axa Y) în funcţie de probabilităţile empirice asociate (axa X cu scară logaritmică),
obţinem curba probabilităţilor empirice (de asigurare empirică). Curba de asigurare empirică
se ajustează cu o curbă de asigurare teoretică, care poate fi extrapolată spre valorile mari
sau mici, făcând astfel posibilă determinarea valorilor parametrului analizat asociate unor
probabilităţi situate în afara intervalului de probabilităţi empirice.

Tabelul 9. Exemplu de calcul al asigurărilor empirice pentru precipitaţiile medii anuale înregistrate
la Vaslui (1956-2000)
Precipitaţii (mm) Ranguri Asigurare Asigurare
empirică (0-1) empirică (%)
849.8 1 0.02173 2.17
740.9 2 0.04347 4.35
700.9 3 0.06521 6.52
657.2 4 0.08695 8.69
655.7 5 0.10869 10.87
… … … …
380.3 41 0.89130 89.13
374.7 42 0.91304 91.30
361.8 43 0.93478 93.48
317.4 44 0.95652 95.65
300.3 45 0.97826 97.83

Aşa cum asigurările empirice pot fi ajustate prin curbe de asigurare teoretice, tot
astfel frecvenţele relative pot fi comparate cu distribuţii teoretice. Dacă acestea sunt foarte
17
asemănătoare, proprietăţile distribuţiei teoretice pot fi trasferate distribuţiei parametrului
analizat.
Cea mai cunoscută distribuţie teoretică este distribuţia normală (gaussiană),
descrisă prin ecuaţia:

x  x  2

1
y 2 2
e
 2

Distribuţia normală este distribuţia teoretică a probabilităţilor (exprimate subunitar)


unei variabile continue, aleatoare, fiind perfect simetrică (media = mediana = valoarea
modală) şi tinzând asimptotic spre 0 atunci când valorile variabilei tind spre ± infinit. Fiind o
distribuţie de probabilităţi, suprafaţa de sub curba normală, reprezentând suma tuturor
probabilităţilor, este strict egală cu 1.
Aşa cum rezultă din relaţia de mai sus, curba distribuţiei normale este descrisă doar
de 2 parametri: media aritmetică şi deviaţia standard. Dacă standardizăm valorile x, rezultă
aşa numita distribuţie normală normată (standardizată), caracterizată prin medie zero şi
deviaţie standard 1 şi descrisă prin ecuaţia:
z2
1 2
y e
2

Figura 6. Caracteristicile distribuţiei normale normate


(adaptat după Wikimedia Commons:
http://commons.wikimedia.org/wiki/File:The_Normal_Distribution.svg)

Figura 7. Valori caracteristice de probabilităţi ale distribuţiei normale normate

18
1
0.9772 0.9987
0.9
0.8413
0.8

0.7

0.6
probabilitatea

0.5 0.5000
0.3989
0.4

0.2420 0.3
0.2420
0.2
0.1587
0.0540 0.1
0.0540
0.0044 0.0013 0.0044
0.0228
0
-4 -3 -2 -1 0 1 2 3 4
deviaţii standard (scoruri Z)

probabilitatea probabilitatea cumulată

O proprietate importantă a distribuţiei normale o constituie gruparea valorilor


(probabilităţilor) de o parte şi de alta a mediei. Astfel, între -1σ şi 1σ, sunt grupate 68,26%
din valori; între -2σ şi 2σ sunt grupate 95,45% din valori; între –3σ şi 3σ sunt grupate 99,74%
din valori. Prin urmare, dacă o distribuţie reală este dovedită statistic ca fiind normală, o
valoare care diferă faţă de medie cu mai mult de 3 deviaţii standard trebuie privită cu rezerve
şi verificată, deoarece probabilitatea de apariţie a unei asemenea valori este mai mică sau
egală cu 0,26%. De asemenea, pentru o astfel de distribuţie se pot determina probabilităţile
de apariţie a unei anumite valori sau, invers, valorile asociate anumitor probabilităţi.
Cum putem însă determina daca o distribuţie reală este conformă cu distribuţia
normală? Există mai multe teste care pot fi aplicate în acest scop. Un test simplu, frecvent
utilizat pentru testarea conformităţii dintre două distribuţii, în general şi pentru testarea
normalităţii unei distribuţii, în particular, este testul Chi-pătrat (χ2).
Testele statistice pot fi grupate în două categorii:
 teste parametrice: care se bazează pe o anumită distribuţie teoretică a populaţiei
din care provine eşantionul ce urmează a fi testat (Student, Fisher etc.);
 teste neparametrice: care nu presupun o anumită distribuţie a populaţiei din care
provine eşantionul analizat (Chi-pătrat, Mann-Kendall etc.).
În general, în aplicarea unui test statistic, se formulează aşa-numita ipoteză nulă (H0),
care reprezintă, de fapt, negarea ipotezei pe care vrem să o verificăm. Orice test statistic se
aplică prin intermediul unei statistici (indice statistic) şi pentru un anumit nivel de
semnificaţie. Valoarea calculată a statisticii se compară cu valori teoretice din tabele
speciale, pentru un anumit nivel de semnificaţie, iar dacă statistica calculată este mai mare
decât cea teoretică se poate respinge ipoteza nulă şi accepta, prin urmare, ipoteza
alternativă, reciprocă, pe care o urmărim de fapt. Nivelul de semnificaţie reprezintă
probabilitatea de acceptare a ipotezei nule (adică probabilitatea de eroare a testului). În
testarea ipotezelor statistice, există 2 tipuri de erori:
 eroarea de tip I: când respingem ipoteza nulă, deşi ea este adevărată.
Probabilitatea erorii de tip I este egală cu nivelul de semnificaţie al testului;
 eraorea de tip II: când acceptăm ipoteza nulă, deşi aceasta este falsă.

19
Există şi cazuri când ipoteza nulă este cea pe care o urmărim de fapt, aşa cum se
întâmpla în cazul testelor de concordanţă dintre o distribuţie empirică şi una teoretică. Este
şi cazul exemplului pe care îl prezentăm în continuare şi care urmăreşte testarea normalităţii
prin intermediul testului Chi-pătrat.
Datele din tabelul 10 reprezintă frecvenţele absolute reale şi teoretice normale ale
temperaturilor medii pe ciclul de vegetaţie al porumbului la staţia Iaşi (Patriche Emilia
Isabela, 2008). Frecvenţele reale au fost calculate pe baza unui eşantion de 40 de ani (1961-
2000). Ipoteza nulă pe care o formulăm este aceea că distribuţia reală nu diferă statistic
semnificativ de distribuţia normală. Statistica testului Chi-pătrat este următoarea:
 f o  f p 2
2  
fp
unde:
 fo: frecvenţele observate;
 fp: frecvenţele aşteptate (teoretice).

Tabelul 10. Aplicarea testului Chi-pătrat pentru testarea normalităţii distribuţiei temperaturilor medii
pe ciclul de vegetaţie al porumbului la staţia Iaşi (1961-2000)
Tmed ciclu PB Iaşi Frecvenţa absolută Frecvenţa teoretică (fo-fp)2/fp
- clase observată (fo) normală
16.0-16.5 1 0.807 0.0459
16.5-17.0 4 2.572 0.7927
17.0-17.5 4 5.701 0.5076
17.5-18.0 9 8.796 0.0048
18.0-18.5 9 9.446 0.0211
18.5-19.0 8 7.063 0.1244
19.0-19.5 4 3.676 0.0286
19.5-20.0 1 1.331 0.0824
χ2 calculat 1.607
χ2 teoretic (df=7, p=0.975) 1.690
χ teoretic (df=7, p=0.990)
2
1.239

În cazul nostru, frecvenţele aşteptate sunt cele conforme cu distribuţia normală. Este
important de reţinut faptul că testul Chi-pătrat se aplică frecvenţelor absolute, nu frecvenţelor
relative. Efectuând calculele, obţinem valoarea statisticii χ2 = 1.6075. Comparând această
valoare cu cele teoretice pentru 7 grade de libertate (numărul valorilor comparate minus 1)
(Anexa V), remarcăm faptul că statistica calculată devine mai mare decât cea teoretică
undeva între nivelele de semnificaţie 0.975 şi 0.990, ceea ce înseamnă că probabilitatea de
acceptare a ipotezei nule se situează, de asemenea, între 0.975 şi 0.990. Cu alte cuvinte,
distribuţia reală este conformă cu distribuţia reală, cu o probabilitate de eroare între 0.010
şi 0.025.

Figura 8. Distribuţia reală şi cea teoretică (normală) aşteptată pentru datele din tabelul 10

20
O altă categorie de indici statistici sunt indicii de formă, care cuantifică gradul de
asimetrie (skewness) şi aplatizare (kurtosis) a unei distribuţii de frecvenţe, putând astfel fi
comparată forma distribuţiei reale cu cea teoretică normală.
Un exemplu de indice de asimetrie este indicele de asimetrie Pearson, calculat cu
relaţia (Apetrei M., Groza O., Grasland C., 1996):
x  Mo
As 

unde:
 x : media aritmetică;
 Mo: valoarea modală;
 σ: deviaţia standard.

Valorile negative ale indicelui Pearson indică asimetrie de dreapta, valorile pozitive
asimetrie de stânga, iar valori apropiate de zero o distribuţie cvasi-simetrică.
Gradul de aplatizare / exces a unei distribuţii poate fi cuantificat prin intermediul
indicelui Fisher:

 x 
n
4
i x
2  1
3
n 4

Valorile negative ale indicelui indică o distribuţie mai aplatizată, comparativ cu cea
normală (platikurtică), valorile pozitive indică o distribuţie mai “ascuţită” comparativ cu cea
normală (leptokurtică), în timp ce valoarea zero a indicelui indică conformitatea gradului de
aplatizare a distribuţiei reale cu distribuţia normală (figura 9).

Figura 9. Distribuţii cu diferite grade de aplatizare / exces comparativ cu distribuţia normală


(Apetrei M., Groza O., Grasland C., 1996)

21
O aplicaţie importantă a distribuţiei normale o constituie calculul intervalului de
confidenţă pentru media unei populaţii. Astfel, dacă dintr-o populaţie se extrag aleator un
număr mare de eşantioane, distribuţia frecvenţelor mediilor acestora va fi una normală.
Dacă mărimea eşantioanelor este de cel puţin 30, atunci distribuţia mediilor va fi normală
indiferent de distribuţia populaţiei din care au fost extrase eşantioanele. În caz contrar, adică
pentru eşatioane cuprinzând mai puţin de 30 de valori, distribuţia mediilor va fi normală doar
daca populaţia din care acestea provin prezintă, la rândul ei, o distribuţie normală (Stephens
L. J., 1998)
Media şirului de medii ale eşantioanelor extrase va fi egală cu media populaţiei din
care acestea provin, în schimb varianţa şi implicit, deviaţia standard, vor mai mici, depinzând
de mărimea eşantioanelor (figura 10):
2 
 x2  x 
n n
unde:
  x2 ,  x : varianţa, respectiv deviaţia standard a şirului mediilor eşantioanelor;
  2 ,  : varianţa, respectiv deviaţia standard a populaţiei din care provin
eşantioanele;
 n: mărimea eşantioanelor.

Figura 10. Curbele distribuţiilor mediilor eşantioanelor de diferite mărimi (Apetrei M., Groza O.,
Grasland C., 1996)

22
Dacă distribuţia mediilor eşantioanelor este normală, înseamnă că variabila
x
standardizată este conformă cu distribuţia normală normată, unde x este şirul
x
mediilor eşantioanelor,  x este deviaţia standard a şirului mediilor, iar μ este media
populaţiei. Cu probabilitatea p, variabila standardizată se va situa în intervalul (–zp, +zp),
unde zp este valoarea variabilei standardizate pentru probabilitatea p:
x
 zp   z p
x
de unde rezultă:
x  z p  x    x  z p  x
 
x  zp     x  zp 
n n

Acesta este intervalul de confidenţă pentru media populaţiei cu probabilitatea p.


Relaţia presupune faptul că deviaţia standard a eşantionului este egală cu deviaţia standard
a populaţiei din care acesta provine (σ). Pentru un interval de confidenţă cu probabilitatea
de 95%, valoarea zp este egală cu 1,96.
Să luăm următorul exemplu: precipitaţiile anuale înregistrate la staţia Vaslui în
intervalul 1956-2000 prezintă valoarea medie de 515,8mm şi deviaţia standard de 115,3mm.
Presupunând că deviaţia standard a acestui eşantion de 45 de ani este egală cu deviaţia
standard a populaţiei din care provine (populaţia corespunzând unui interval mult mai mare
de timp), rezultă că adevărata medie a precipitaţiilor anuale se va situa cu probabilitatea de
95% în intervalul:

 115,3 115,3 
 515,8  1,96  , 515,8  1,96   , adică (482,1 – 549,5)
 45 45 

Relaţia pentru determinarea intervalului de confidenţă poate fi folosită şi pentru


estimarea mărimii minime a eşantionului, necesară pentru ca media populaţiei să difere de
media eşantionului cu maximum o anumită valoare prestabilită, cu o anumită probabilitate.
Spre exemplu, dorim să ştim câţi ani ar trebui să avem la dispoziţie pentru ca adevărata
medie a precipitaţiilor la staţia Vaslui să difere de cea a eşantionului cu cel mult ±20mm, cu

23
o probabilitate de 95%. Problema se rezumă la a extrage pe n (mărimea eşantionului) din
relaţia:
115,3
1,96   20  n  128
n

Rezultă că am avea nevoie de nu mai puţin de 128 de ani de observaţii pentru a


restrânge intervalul de confidenţă pentru media populaţiei la ±20mm de o parte şi de alta a
mediei eşantionului, presupunând că deviaţia standard a eşantionului se menţine şi la nivelul
populaţiei.

24
ANALIZA DE REGRESIE

Aspecte teoretice

Analiza de regresie presupune cuantificarea relaţiilor dintre una (regresia simplă) sau
mai multe (regresia multiplă) variabile independente (explicative, predictori) şi o variabilă
dependentă (de răspuns). Excepţie face analiza canonică care lucrează cu un set de variabile
dependente. Cuantificarea relaţiilor cauzale poate fi realizată prin ecuaţii liniare (regresie
liniară) sau neliniare (regresia neliniară). Aceste ecuaţii au o proprietate comună, aceea de a
minimiza suma pătratelor ecarturilor dintre valorile reale şi valorile predictate ale variabilei
dependente (minimizarea varianţei reziduale).
Analiza regresivă este folosită în climatologie în scopuri multiple:
 Pentru estimarea distribuţiei spaţiale a unui parametru climatic în funcţie de factorii
de control ai acesteia (coordonate geografice, altitudine, expoziţie, pantă, energie
de relief etc.), cu alte cuvinte, pentru cartografierea digitală a variabilelor climatice.
Estimarea distribuţiei spaţiale exclusiv pe baza coordonatelor X, Y, prin funcţii
polinomiale de diferite ordine, poartă numele de analiza suprafeţei de tendinţă (trend
surface analysis), aceasta fiind utilizată mai ales ca o etapă preliminară în
interpolarea de tip kriging.
 Pentru estimarea unei variabile climatice, mai complexe, sau ma dificil de măsurat,
în funcţie de alte variabile climatice, mai simple sau mai uşor de măsurat. Spre
exemplu, relaţia Angstrom folosită pentru estimarea radiaţiei globale pe teren
orizontal, este la origine o relaţie statistică de tipul regresiei, estimarea radiaţiei fiind
făcută pe baza fracţiei de insolaţie şi a radiaţiei solare extraterestre.
 Pentru estimarea tendinţei de evoluţie a parametrilor climatici. Această aplicaţie este
un caz particular al regresiei simple, în care variabila explicativă este timpul.
Modelarea evoluţiei parametrilor climatici poate fi abordată şi prin elaborarea unor
modele de regresie în care variabilele explicative sunt reprezentate prin seriile de
timp ale factorilor de control (ex: bioxidul de carbon atmosferic, numarul petelor
solare, indici de circulaţie atmosferică etc.).
Pentru vizualizarea relaţiilor statistice dintre 2 variabile sunt folosite cel mai frecvent
graficele de tip puncte (grafice de corelaţie, scatterplot). Configuraţia norului de puncte ne
oferă informaţii despre sensul şi intensitatea relaţiei (figura 11). Astfel, dacă norul de puncte
urmează o direcţie ascendentă, relaţia este una directă, în sensul că o creştere a valorilor
cauzei (X) determină o creştere corespunzătoare a valorilor efectului (Y) (ex: relaţia
altitudine – precipitaţii). Dacă, dimpotrivă, norul urmează un traseu descendent, rezultă că
între cele 2 variabile este o relaţie inversă, indicând descreşterea valorilor efectului pe
măsura creşterii valorilor cauzei (ex: relaţia altitudine – temperatură).
Intensitatea relaţiei dintre variabile este cu atât mai mare cu cât norul de puncte este
mai alungit şi mai comprimat, cu alte cuvinte cu cât dispersia punctelor în afara direcţiei de
alungire este mai mică. Dacă traseul norului de puncte este abrupt, rezultă că relaţia dintre
variabile prezintă sezitivitate ridicată, în sensul că o modificare mică a cauzei atrage cu sine
o modificare importantă a efectului.
De asemenea, graficele de corelaţie pot indica posibila prezenţă a unor erori sau
interferenţa accentuată a unei alte cauze prin intermediul acelor puncte care ies semnificativ
în afara norului de corelaţie.

25
Pentru vizualizarea relaţiei dintre un efect şi mai multe cauze se procedează, în
general, la reprezentarea valorilor estimate ale efectului în funcţie de valorile reale ale
acestuia (ca în exemplul din figura 13c).
Modelul general al regresiei liniare multiple este:
n
yˆ  a   bi  x i  
i 1
unde:
- ŷ - variabila dependentă;
- xi - variabilele independente;
- n - numărul variabilelor independente;
- a - termenul liber;
- bi - coeficienţii de regresie parţială;
- ε - eroarea standard de estimare a variabilei dependente.

Figura 11. Tipuri de relaţii statistice liniare între 2 variabile (Chorley R. J., Kennedy B., 1971, citat
de Rădoane Maria et al., 1996)

Determinarea termenului liber şi a coeficienţilor de regresie parţială se bazează pe


condiţia, anterior menţionată, de minimizare a varianţei reziduale pe care trebuie să o
îndeplinească ecuaţia de regresie:

N N n

 ( y j  yˆ j ) 2   ( y j  a   bi  xi ) 2 : min
j 1 j 1 i 1

unde:

26
- yj - valorile reale ale variabilei dependente;
- ŷj - valorile calculate ale variabilei dependente;
- N - numărul observaţiilor.

Condiţia de minimizare a varianţei reziduale implică egalarea cu zero a derivatelor


parţiale, ale expresiei de mai sus, în raport cu termenul liber şi fiecare coeficient de regresie
parţială (Chadule group, 1974):
N n
a :  ( y j  a   bi  x ij )
j 1 i 1

sau
N N N N

 y j  N  a  b1  x1 j  b2  x 2 j  ...  bn  x nj
j 1 j 1 j 1 j 1
N n N
b1 :  ( y j  a   bi  x ij )   x1 j
j 1 i 1 j 1

sau
N N N N

 y j  x1 j  a   x1 j  b1  x12j  ...  bn  x nj  x1 j
j 1 j 1 j 1 j 1

......
N N N N
bn :  y j  x nj  a   x nj  b1  x1 j  x nj  ...  bn  x nj2
j 1 j 1 j 1 j 1

Obţinem, prin urmare, un sistem de n ecuaţii cu n necunoscute. Rezolvându-l, găsim


valorile termenului liber şi coeficienţilor de regresie parţială. Aceştia din urmă indică
creşterea / descreşterea în variabila dependentă la o creştere / descreştere cu o unitate a
variabilelor independente. Mărimea fiecărui coeficient este o mărime netă, „curăţată” de
influenţele exercitate indirect de celelalte variabile explicative specificate în model.
Coeficienţii de regresie parţială nu pot fi direct comparaţi, deoarece pot fi exprimaţi în unităţi
de măsură foarte diferite. Înlăturarea acestui neajuns presupune calcularea coeficienţilor de
regresie parţială standardizaţi (β) (Johnston R. J., 1978). Aceştia rezultă din regresia
multiplă a variabilelor standardizate prin scoruri Z:

n
Zˆ yˆ  a    i  Z xi  
i 1

Mai simplu, valorile coeficienţilor βi pot fi determinate pe baza coeficienţilor de


regresie parţială (bi). Spre exemplu, pentru variabila x1, aceasta va fi:
Sx
 i  bi  1
Sy
unde:
- Sx1 - deviaţia standard a variabilei x1;
- Sy - deviaţia standard a variabilei y.
Intensitatea relaţiei dintre ansamblul variabilelor independente, pe de o parte şi
variabila dependentă, pe de cealaltă parte, este cuantificat sub forma coeficientului de
corelaţie multiplă (Trebici V. – coord., 1985):

27
N

( y
j 1
j  yˆ j ) 2
R  1 N

(y
j 1
j  y) 2

unde:
- y - media aritmetică a obseraţiilor asupra variabilei dependente.
Scris desfăşurat, relaţia de mai sus devine:

N N N
( y j ) 2
a   y j  b1   x1 j  y j  ...  bn   x nj  y j 
j 1

j 1 j 1 j 1 N
R N

N
( y j ) 2
y
j 1
2
j 
j 1 N

Valorile coeficientului de corelaţie multiplă pot oscila între 0 şi 1. Cu cât valoarea este
mai apropiată de unu, cu atât relaţia este mai bună, în sensul că variabila dependentă este
mai bine explicată de ansamblul variabilelor predictoare. Ridicând la pătrat coeficientul de
corelaţie multiplă obţinem coeficientul de determinare multiplă, care reprezintă fracţiunea
din varianţa totală a variabilei dependente explicată de ansamblul variabilelor independente.
Înmulţind cu 100 această fracţiune, aflăm procentul de varianţă explicată prin modelul de
regresie. Spre exemplu, un coeficient de corelaţie de 0.8 indică faptul că 64% (100 ∙ 0.8 2)
din varianţa totală a variabilei dependente este explicată de variabilele independente
considerate în analiză.
Coeficientul de corelaţie multiplă este întotdeauna pozitiv (sau egal cu zero). Prin
urmare, acesta nu indică sensul relaţiei predictor – variabilă dependentă, ci doar intensitatea
acestei relaţii. Faptul se datorează variabilelor explicative multiple cu care se lucrează şi
care pot influenţa variabila dependentă în sensuri diferite. În cazul coeficientului de corelaţie
liniară pentru regresie simplă (doar 2 variabile), valorile pot oscila între –1 şi +1, cele
negative indicând prezenţa unei relaţii inverse între cele 2 variabile, iar cele pozitive o relaţie
directă. Formula de calcul este identică cu deosebirea că, în cazul regresiei simple, avem
în vedere un singur predictor (un singur y).

Figura 12. Parametrii regresiei liniare (Chorley R. J., Kennedy B., 1971, citat de Rădoane Maria et
al., 1996)

28
Intensitatea relaţiei dintre o anumită variabilă independentă şi variabila dependentă
poate fi exprimată, pe lângă coeficientul de regresie parţială corespunzător şi de coeficientul
de corelaţie parţială, care elimină influenţa celorlalte variabile. Pentru o regresie cu doar
două variabile independente (x1 şi x2), coeficientul de corelaţie parţială dintre y şi x1 va fi
(Johnston R. J., 1978):

ryx1  ryx 2  rx1 x2


ryx1 . x2 
(1  ryx2 2 )  (1  rx21 x2 )

Validarea modelului de regresie multiplă presupune analiza reziduurilor, testarea


semnificativităţii statistice a coeficientului de corelaţie multiplă, a coeficienţilor de regresie
parţială (standardizaţi) sau a coeficienţilor de corelaţie parţială. De asemenea, este
necesară testarea coliniarităţii între variabilele independente (existenţa intercorelaţiilor
semnificative) şi eliminarea sau minimizarea acesteia, în caz că există.
Pe lângă această validare de natură statistică, modelul de regresie rezultat poate fi
testat prin validare încrucişată şi / sau validare cu eşantion independent. Fără doar şi poate,
este necesară cunoaşterea detaliată a naturii fenomenului analizat pentru a putea aprecia
verosimilitatea rezultatelor.
Validarea încrucişată presupune compararea valorilor reale ale variabilei dependente
cu valorile estimate prin eliminarea succesivă a punctelor din eşantionul de lucru. Mai
concret, pentru un anumit punct, se compară valoarea reală cu cea estimată printr-un model
de regresie care nu include punctul respectiv. Diferenţa (reziduul) este denumită în limba
engleză deleted residual sau jacknife error. După care se procedează similar: se reintroduce
în eşantion punctul anterior si se extrage altul, se construieşte un nou model de regresie,
iar în locaţia punctului extras se estimează valoarea variabilei dependente. Procedura se
încheie când toate punctele au fost succesiv extrase din eşantion. Dacă modelul de regresie
este stabil, condiţie importantă pentru asigurarea calităţii acestuia, atunci reziduurile
regresiei trebuie să fie asemănătoare ca valoare cu reziduurile obţinute prin eliminarea
succesivă a punctelor. În caz contrar, dacă pentru unul sau mai multe puncte valorile
reziduurilor sunt semnificativ diferite, înseamnă că eliminarea acestora din analiză modifică
semnificativ rezultatele, prin urmare modelul de regresie este instabil, sporind incertitudinea

29
rezultatelor. Aceste puncte sunt adesea valori extreme (outliers) care fie indică prezenţa
unor erori, fie sunt legate de variabile explicative care nu au fost incluse în analiză.
Problema valorilor extreme este una importantă în analiza statistică, cu deosebire în
cazul lucrului cu eşantioane mici. În general, cu cât lucrăm cu eşantioane mai mici, cu atât
modelele sunt mai instabile, mai susceptibile la influenţa valorilor extreme. Pentru
minimizarea acestor efecte nedorite, au fost dezvoltate si metode de regresie denumite
robuste, rezistente la infleunţa valorilor extreme.
Validarea cu eşantion independent presupune divizarea eşantionului iniţial într-un
eşantion de lucru, pe baza căruia se vor elabora modelele de regresie şi un eşantion de
validare, care nu va fi inclus în analiză. Pentru acesta din urmă, vor fi comparate valorile
reale ale variabilei dependente cu cele estimate prin modelul elaborat pe baza eşantionului
de lucru. Acest tip de validare, deşi foarte util, este utilizabil doar în cazul eşantioanelor mari
(peste 50-60 de indivizi, preferabil chiar peste 100). Mărimea eşantionului de validare poate
fi aleasă arbitrar, însă nu trebuie să o depăşească pe cea a eşantionului de lucru şi nici să
fie mai mică de 10 puncte. Alegerea punctelor care vor constitui eşantionul de validare este
cvasi-aleatoare, în sensul că, deşi punctele trebuie alese la întâmplare, fără a urmări un
anumit tipar, totuşi trebuie să avem grijă ca eşantionul să fie reprezentativ pentru teren, în
general şi pentru predictorii folosiţi, în particular. Spre exemplu, nu vom include în eşantionul
de validare puncte cu valori extreme ale predictorilor (ex: cu altitudinea maximă sau
minimă), deoarece modelul de regresie elaborat în absenţa acestora nu va fi capabil să
estimeze corect valorile variabilei dependente.
Revenind la validarea statistică, condiţiile pe care trebuie să le îndeplinească
reziduurile regresiei sunt următoarele (Apetrei M., Groza O., Grasland C., 1996):
1. Medie aritmetică zero;
2. Homoscedasticitate: reziduurile j prezintă varianţă relativ constantă pentru orice
j=1...N;
3. Lipsa autocorelaţiei: covarianţa zero pentru oricare două eşantioane;
4. Distribuţie normală.
Prima condiţie poate fi investigată cu ajutorul testului Z, pentru eşantoane mari, sau
cu ajutorul testului t bazat pe distribuţia Student, pentru eşantioane mici (N<30). Statistica
testului t are următoarea formă (Apetrei M., Groza O., Grasland C., 1996):

x
t
S N 1
unde:
- x - valoarea medie a eşantionului, ce trebuie testată;
-  - media populaţiei din care provine eşantionul;
- S - deviaţia standard de sondaj;
- N - mărimea eşantionului.

În cazul reziduurilor, media populaţiei este zero, iar deviaţia standard de sondaj este
reprezentată prin eroarea standard a estimării. Valoarea statisticii t se compară cu o valoare
de prag precizată în tabele speciale (Anexa II) şi identificată în funcţie de probabilitatea de
eroare a testului şi gradele de liberate (N-1 în cazul testului nostru). Dacă valoarea statisticii
t este mai mică decât valoarea de prag, atunci diferenţa dintre media eşantionului şi media
populaţiei este neglijabilă şi cele două mărimi pot fi considerate egale, cu probabilitatea de
eroare specificată în construcţia testului.
Pentru eşantioane mari, eroarea standard a estimării variabilei dependente este
egală cu deviaţia standard a reziduurilor şi cu eroarea rădăcinii medie pătratică (RMSE5) şi
se poate determina cu formulele:

5
Root Mean Square Error

30
N

(y
j 1
j  yˆ j ) 2
  RMSE  S y  1  R 2 
N

Pentru eşantioane mici, eroarea standard a estimării este corectată în funcţie de


numărul variabilelor independente (K) ale modelului de regresie:

(y
j 1
j  yˆ j ) 2

N  K 1

Dacă reziduurile urmează o repartiţie normală, atunci sunt valabile următoarele:


- Între + şi - se grupează 68% dintre reziduuri (68,26% mai precis);
- Între +2 şi -2 se grupează 95% dintre reziduuri (95,46%);
- Între +3 şi -3 se grupează 99% dintre reziduuri (99,75%).
Frecvenţele reale ale distribuţiei reziduurilor între cele trei limite vor fi mai mult sau
mai puţin diferite faţă de cele teoretice, corespunzătoare repartiţiei normale. Evaluarea
acestor diferenţe pentru testarea normalităţii reziduurilor se poate realiza cu ajutorul testului
2 (Chi pătrat), a cărui statistică este (Apetrei M., Groza O., Grasland C., 1996):

n ( f oi  f pi ) 2
 
2

i 1 f pi
unde:
- foi - frecvenţele observate;
- fpi - frecvenţele aşteptate (teoretice);
- n - numărul claselor de frecvenţe.

În tabelul distribuţiei 2, se compară valoarea calculată cu cea teoretică,


corespunzătoare unui anumit nivel de semnificaţie şi gradelor de libertate ale statisticii (K-
1, unde K reprezintă numărul claselor de frecvenţe ce sunt comparate). Dacă 2calculat <
2teoretic atunci între frecvenţele observate şi cele teoretice nu există diferenţe semnificative
şi prin urmare, distribuţia reală concordă cu cea normală (vezi exemplul din cadrul capitolului
anterior).
Homoscedasticitatea reziduurilor presupune că varianţele oricăror eşantioane,
extrase din populaţia reziduurilor, sunt similare:

Nk
 ik   k 2 - constant pentru  k
i 1 Nk 1
unde:
- εik: reziduul i din eşantionul k;
-  k : media reziduurilor din eşantionul k;
- Nk: numărul observaţiilor din eşantionul k.

Similaritatea varianţelor poate fi apreciată construind testul F al lui Snedecor - Fisher


în maniera proprie analizei varianţei:

varianţa între eşantioane (grupuri)


F=
31
varianţa în interiorul eşantioanelor (grupurilor)

Varianţa între eşantioane este următoarea (cu observaţia că suma de pătrate are N
termeni):

 (
i 1
k   ) 2 /(k  1)

Varianţa în interiorul eşantioanelor este:

 (
i 1
ik   k ) 2 /( N  k )

Varianţa totală reprezintă suma celor două componente:

 (
i 1
i   ) 2 /( N  1)

Dacă Fcalculat < Fteoretic, pentru un anumit nivel de semnificativitate al testului şi gradele
de libertate corespunzătoare (Anexa III), atunci se poate afirma că similaritatea varianţelor
este verificată statistic şi deci reziduurile regresiei întrunesc condiţia de homoscedasticitate.
Autocorelaţia reziduurilor poate fi investigată cu ajutorul testului von Neumann
(Trebici V. – coord., 1985), bazat pe compararea mediei pătratice a diferenţelor succesive
(δ2) cu dispersia (varianţa) de selecţie (S2). Statistica testului, pentru un eşantion cu N > 25,
este:

2
N
2S 2
N 1
1
2  
N  1 j 1
( x j 1  x j ) 2
unde:
1 N
S 
N  1 j 1
(x j  x)2

Valoarea teoretică faţă de care se compară statistica determinată prin calcul este:

N 2
M teoretic  1  Z 
N 2 1

unde Zα reprezintă numărul de abateri standard corespunzătoare unei valori de pe curba


normală centrată, asociată nivelului de asigurare α (Anexa I).
Dacă Mcalculat > Mteoretic atunci eşantionul are un caracter aleator, neexistând
autocorelaţie.
Semnificativitatea statistică a coeficientului de corelaţie multiplă poate fi investigată
cu ajutorul aceluiaşi test F al lui Snedecor - Fisher, a cărui statistică este, în cazul acestui
parametru (Chadule – group, 1974):

N  K 1 R2
F 
K 1  R2

32
unde:
- N - numărul de observaţii (mărimea eşantioanelor);
- K - numărul variabilelor independente;
- R2 - coeficientul de determinare multiplă.

Regresia este considerată semnificativă, dacă F calculat > Fteoretic , ultima valoare fiind
indicată în tabele, pentru un anumit nivel de semnificativitate şi pentru gradele de libertate
corespunzătoare (K; N-K-1).
Coeficienţii de corelaţie parţială pot fi testaţi în mod similar. Putem, de asemenea,
testa şi semnificativitatea statistică a coeficienţilor de regresie parţială. Concluziile vor fi
aceleaşi cu cele rezultate din testarea coeficienţilor de corelaţie parţială.
În scopul testării coeficienţilor de regresie parţială, putem folosi testul t al lui Student,
statistica fiind:

b
tb 
b
unde:
 b - coeficientul de regresie parţială;
 εb - eroarea standard a estimării coeficientului de regresie parţială.

Pentru un anumit coeficient de regresie parţială, spre exemplu coeficientul variabilei


independente x1, eroarea standard a estimării se determină cu relaţia (Johnston R. J., 1978):

 y x
b  1
1
 x  x ...x
1 2 n N 2

unde:
 εy←x1 - eroarea standard a estimării lui y în funcţie de x1;
 εx1←x2...x n - eroarea standard a estimării lui x1 în funcţie de restul variabilelor
independente.

Un alt aspect important ce trebuie analizat într-un model de regresie multiplă este
coliniaritatea între variabilele independente. Coliniaritatea există atunci când sunt
evidenţiate intercorelaţii semnificative între variabilele predictoare. Existenţa acestora
afectează negativ interpretarea coeficienţilor de regresie parţială.
Există mai multe metode de obţinere a unor variabile necorelate (ortogonale), pe
baza setului iniţial de variabile, cum ar fi analiza componenţilor principali sau analiza
factorială, ce vor fi discutate ulterior. Minimizarea coliniarităţii poate fi efectuată prin filtrarea
variabilelor predictoare, eliminându-le pe acelea care nu aduc o contribuţie semnificativă la
formarea varianţei totale dependente. Este cazul regresiei multiple pas cu pas (progresive),
pe care o vom aborda în cele ce urmează.
Să presupunem că dorim să construim un model de regresie progresivă, plecând de
la o variabilă dependentă y şi 5 variabile independente (x1, x2, x3, x4, x5). Procedura de
integrare a variabilelor independente ilustrată de King L. J. (1969) implică parcurgerea
următoarelor etape:
1. Calcularea coeficienţilor de corelaţie liniară de ordin zero (ryx1, ryx2, ...ryx5) şi
selectarea celui mai mare. Variabila independentă corespunzătoare este prima care intră în
modelul regresiei progresive. Dacă, spre exemplu, ryx3 a fost coeficientul cel mai mare,
atunci vom obţine la pasul 1 ecuaţia de regresie: y = f(x3).
2. Calcularea coeficienţilor de corelaţie parţială de ordin unu dintre y şi celelalte
variabile independente, menţinând constantă influenţa variabilei din ecuaţia de la pasul 1.

33
Se selectează coeficientul maxim, iar variabila corespunzătoare este integrată, la pasul 2,
în modelul de regresie. În exemplul nostru, această etapă presupune calcularea
coeficienţilor ryx1 .x3, ryx2 .x3, ryx4.x3, ryx5 .x3. Dacă ryx1 .x3 este cel mai mare, vom obţine, la pasul
2, ecuaţia de regresie: y = f(x3, x1).
3. Calcularea coeficienţilor de corelaţie de ordin doi ( ryx2 .x1x3, ryx4 .x1x3, ryx5 .x1x3),
menţinând constante influenţa variabilelor din ecuaţia de regresie de la pasul 2. Ca şi
anterior, selectăm coeficientul cel mai mare şi integrăm în modelul de regresie variabila
corespunzătoare.
Procedura continuă într-o manieră similară, până ce toate variabilele independente
au fost integrate în model, sau până când adiţia unei noi variabile nu mai îmbunătăţeşte
semnificativ varianţa explicată a variabilei dependente.

Exemplu de aplicare a regresiei multiple pentru modelarea spaţială


a temperaturii aerului

Sa luăm ca exemplu datele din tabelul 11. Pe baza eşantionului de 12 staţii


meteorologice situate în cadrul Podişului Moldovei, ne propunem să determinăm o ecuaţie
de regresie cu ajutorul căreia să putem estima temperatura medie anuală în funcţie de
altitudine şi latitudine. Ecuaţia ne va ajuta astfel, să putem estima temperatura medie anuală
în fiecare punct din spaţiu cunoscând altitudinea şi latitudinea acestuia.
Trebuie menţionat faptul că valorile latitudinii şi longitudinii, dacă sunt folosite în
analize de regresie ca predictori, trebuie mai întâi transformate în grade şi zecimi de grad
pentru a le conferi continuitate. Spre exemplu, o valoare de latitudine de 45 o35’ nu poate fi
folosită ca atare în regresie deoarece valorile minutelor se opresc la 60. Pentru a asigura
condiţia de continuitate, valorile minutelor trebuie transformate în zecimi de grad prin
împărţirea minutelor la 60. Astfel, latitudinea de 45o35’ devine 45.583.
Conform metodologiei prezentate anterior, determinarea parametrilor a, b1, b2 ai
ecuaţiei y = a + b1x1 + b2x2, în care y este temperatura medie anuală estimată, iar x1 şi x2
sunt altitudinea, respectiv latitudinea, presupune rezolvarea sistemului de ecuaţii următor:

∑y = Na + b1∑x1 + b2∑x2
∑yx1 = a∑x1 + b1∑x12 + b2∑x1x2
∑yx2 = a∑x2 + b1∑x1x2 + b2∑x22

Tabelul 11. Datele de intrare pentru exemplificarea regresiei multiple


Staţia Altitudine Latitudine Temperatura medie anuală
x1 x2 y
1. Suceava 325 47.65 7.6
2. Falticeni 348 47.45 8.1
3. Dorohoi 173 47.95 8.5
4. Botoşani 160 47.73 9.0
5. Avrămeni 210 48.00 8.4
6. Râuseni 61 47.57 9.2
7. Podu Iloaiei 91 47.22 9.3
8. Iaşi 102 47.17 9.4
9. Negreşti 134 46.83 9.0
10. Vaslui 135 46.65 9.4
11. Roman 207 46.92 8.5
12. Galaţi 30 45.45 10.4
∑ 1976 566.59 106.8
∑yx1 16876.1
∑yx2 5038.498

34
∑x1x2 93670.04
∑x12 428694
∑x22 26757.48

Introducând parametrii calculaţi în tabelul 11, sistemul devine:

106,8 = 12a + 1976b1 + 566.59b2


16876.1 = 1976a + 428694b1 + 93670.04b2
5038.498 = 566.59a + 93670.04b1 + 26757.48b2

De unde rezultă soluţiile:

a = 28.0877; b1 = -0.00548; b2 = -0.38726

Prin urmare, ecuaţia de regresie construită pe baza eşantionului de 12 staţii


meteorologice este:

y = 28.0877 – 0.00548 x1 – 0.38726 x2

Coeficienţii de regresie parţială (b1, b2) au semnificaţia unor gradienţi, indicând cu cât
se modifică valoarea temperaturii la o modificare cu o unitate a valorilor de altitudine,
respectiv latitudine. Observăm astfel, că temperatura scade cu altitudinea cu 0.00548 oC /m
adică cu 0.548oC / 100m, valoare foarte asemănătoare gradientului termic vertical clasic.
Temperatura scade, de asemenea, pe măsura creşterii latitudinii, deci de la Sud spre Nord,
cu cca 0.4oC / grad latitudine.
Care influenţă este însă mai importantă? Influenţa altitudinii asupra temperaturii sau
cea a latitudinii? Nu putem compara direct coeficienţii de regresie parţială deoarece aceştia
sunt exprimaţi în unităţi de măsură diferite ( oC / m, respectiv oC / grad latitudine). Soluţia ar
fi să standardizăm variabilele şi se refacem modelul regresiei plecând de la valorile
standardizate. Coeficienţii de regresie din noul model vor putea fi astfel comparaţi. O soluţie
alternativă, mai simplă, pentru calcularea coeficienţilor de regresie parţială standardizaţi,
specificată anterior, constă în aplicarea relaţiei:

S x1
 i  bi 
Sy

Deviaţiile standard ale variabilelor noastre sunt 96.913 pentru altitudine, 0.705 pentru
latitudine şi 0.734 pentru temperatură. Rezultă prin urmare:

β1 = -0.00548 · (96.913 / 0.734) = 0.723


β2 = -0.38726 · (0.705 / 0.734) = 0.372

Putem acum afirma că variaţia temperaturii medii anuale indusă de altitudine este de
cca 2 ori mai mare comparativ cu variaţia temperaturii indusă de latitudine, conform
eşantionului studiat.
Care este intensitatea de ansamblu a relaţiei dintre temperatura medie anuală şi
altitudine – latitudine? Cât de bine reuşesc aceşti predictori să explice distribuţia spaţială a
temperaturii? Răspunsul rezidă în calcularea coeficientului de corelaţie multiplă şi a celui de
determinare corespunzător:

35
N

(y
j 1
j  yˆ j ) 2
0.417
R  1 N
 1  0.964 , R2 = 929
(y
5.92
j  y) 2
j 1

Fiind foarte apropiat de 1, coeficientul de corelaţie multiplă indică o relaţie foarte


strânsă între temperatura aerului, pe de o parte şi altitudine – latitudine, pe de cealaltă parte,
cel puţin în limitele eşantionului studiat. Coeficientul de determinare ne indică faptul că 92.9
% din varianţa temperaturii este explicată prin intermediul celor doi predictori.
Chiar dacă valoarea coeficientului de determinare este mare, semnificativitatea
statistică a acestuia trebuie testată, aceasta depinzând nu atât de valoarea coeficientului,
cât şi de mărimea eşantionului, care în cazul de faţă este redusă.
Aplicând testul F, precizat anterior, statistica F în cazul nostru are valoarea:

N  K 1 R2 12  2  1 0.929
F     58.9
K 1 R 2
2 1  0,929

F teoretic pentru (2, 9) grade de libertate şi nivelul de semnificaţie de 0.01 este 8.02
(Anexa III). Statistica calculată fiind apreciabil mai mare decât cea teoretică, putem afirma
că valoarea coeficientului de determinare este statistic semnificativă, probabilitatea de
eroare fiind mai mică de 1%.
Putem vizualiza intensitatea relaţiei statistice reprezentând grafic, sub formă de
puncte, valorile reale şi valorile estimate ale temperaturii (figura 13c). Într-un astfel de grafic
de corelaţie este important ca ambele axe să aibă aceeaşi scară (6-11oC în cazul nostru).
Dacă modelul statistic este bun, atunci punctele vor urmări cât mai aproape dreapta de
regresie, iar aceasta va fi orientată cât mai mult în lungul primei diagonale (coeficientul de
regresie pentru x care reprezintă panta dreptei de regresie, trebuie sa fie cât mai apropiat
de 1).

Figura 13. Corelaţiile temperatură – altitudine (a), temperatură – latitudine (b), temperatură reală –
temperatură estimată (c), validarea încrucişată (d)

11 11
y = -0.0069x + 10.032
10 R2 = 0.8249 10
temperatura ( o C)

temperatura ( o C)

9 9

8 8

7 y = -0.7601x + 44.788
7
R2 = 0.5332

6 6
0 100 200 300 400 45 46 47 48 49
altitudinea (m) latitudinea (m)

a b

36
11
11

temperatura estimată în lipsa punctelor


y = 0.8924x + 0.9402
y = 0.9295x + 0.6276
10 R2 = 0.8575
temperatura estimată
10 R2 = 0.9295

9 9

8 8

7 7

6 6
6 7 8 9 10 11 6 7 8 9 10 11

temperatura reală temperatura reală

c d

Revenind la coeficienţii de regresie parţială, ne punem întrebarea în ce măsură


aceştia sunt statistic semnificativi. Sau, reciproc, care este probabilitatea ca variaţia
temperaturii indusă de cei 2 predictori să fie nesemnificativă din punct de vedere statistic?
Pentru a răspunde la aceste întrebări coeficienţii de regresie parţială trebuie testaţi folosind
testul t a lui Student, prezentat anterior. Pentru 2 variabile explicative, aşa cum este şi cazul
nostru, eroarea standard pentru coeficienţii de regresie parţială poate fi determinată mai
simplu cu relaţia (Abdi H., 2003):

S b1  b1
1  R  2

( R 2  R y2 x2 ) N  3
unde:
 S b1 : eroarea standard pentru coeficientul b1;
 R2: coeficientul de determinare multiplă (dintre y şi x1, x2);
 R y2 x2 : coeficientul de determinare dintre y şi x2;
 N: mărimea eşantionului.

Coeficientul de determinare dintre y şi x1 (temperatură – altitudine) este 0.825, iar cel


dintre y şi x2 (temperatură – latitudine) este 0.533. Rezultă că erorile standard
corespunzătoare sunt:

S b1  0.00548
1  0.929  0.00077
0.929  0.53312  3
S b2  0.38726
1  0.929  0.106
0.929  0.82512  3
Statistica testului t a lui Student, precizată anterior, are, în cazul de faţă, valorile:

b1  0.00548 b  0.38726
t b1    7.117, t b2  2   3.653
S b1 0.00077 S b2 0.106

37
Pentru nivelul de semnificaţie de 0.01 şi 9 grade de libertate (N – K – 1 = 12 – 2 – 1
= 9), valoarea teoretică a statisticii t este 2.821 (Anexa II). Făcând abstracţie de semn,
valorile calculate sunt mai mari decât cele teoretice, de unde rezultă că cei doi coeficienţi
de regresie parţială sunt statistic semnificativi, probabilitatea de eroare fiind mai mică de
1%.
Validarea modelelor de regresie presupune şi analiza atentă a reziduurilor, adică a
diferenţelor dintre valorile reale şi cele estimate.
Un indicator sintetic al capacităţii modelului de regresie de a estima temperatura
aerului este eroarea standard a estimării. În cazul nostru, fiind un eşantion mic, eroarea
standard a estimării este:

(y
j 1
j  yˆ j ) 2
0.4175
   0.215
N  K 1 9

Semnificaţia este că, pe ansamblu, valorile estimate ale temperaturii vor diferi de cele
reale cu ± 0.2oC, în acest interval fiind situate majoritatea reziduurilor (cca 68% în cazul unei
distribuţii normale a acestora).
Un alt indice frecvent folosit pentru validarea şi compararea modelelor de regresie
este eroarea rădăcinii medie pătratică (RMSE). Aceasta se calculează prin extragerea
radicalului din media pătratelor reziduurilor. Aşa cum specificam anterior, pentru eşantioane
mari eroarea rădăcinii medie pătratică este egală cu eroarea standard a estimării şi cu
deviaţia standard a reziduurilor.

Tabelul 12. Valorile reale şi estimate ale temperaturii medii anuale şi reziduurile regresiei
Staţia meteorologică Real Estimat Reziduuri Reziduuri Estimat
in lipsa punctelor in lipsa
punctelor
Suceava 7.6 7.853 -0.2528 -0.3814 7.981
Falticeni 8.1 7.804 0.2958 0.5403 7.560
Dorohoi 8.5 8.570 -0.0700 -0.0880 8.588
Botoşani 9 8.726 0.2735 0.3225 8.677
Avrămeni 8.4 8.348 0.0522 0.0650 8.335
Râuseni 9.2 9.331 -0.1312 -0.1916 9.392
Podu Iloaiei 9.3 9.302 -0.0023 -0.0027 9.303
Iaşi 9.4 9.261 0.1387 0.1592 9.241
Negreşti 9 9.218 -0.2175 -0.2447 9.245
Vaslui 9.4 9.282 0.1182 0.1379 9.262
Roman 8.5 8.782 -0.2825 -0.3321 8.832
Galaţi 10.4 10.322 0.0778 0.2268 10.173
Minim 7.6 7.804 -0.2825 -0.3814 7.560
Maxim 10.4 10.322 0.2958 0.5403 10.173
Media 8.9 8.9 0.0000 0.0176 8.882
Deviatia standard 0.7336 0.7073 0.1948 0.2783 0.7070
Eroarea standard 0.2154
Eroarea rădăcinii 0.1865
medie pătratică
(RMSE)

Comparând reziduurile regresiei cu reziduurile calculate prin eliminarea succesivă a


punctelor remarcăm diferenţe mai mari, de 0,1-0,2oC, în cazul staţiilor Fălticeni, Suceava,
Galaţi. Acestea sunt punctele care conferă o oarecare instabilitate modelului de regresie.
Instabilitatea este explicabilă prin dimensiunea redusă a eşantionului. Aceasta poate fi

38
remarcată şi din compararea graficelor de corelaţie dintre temperaturile reale şi cele
estimate, pe de o parte şi dintre temperaturile reale şi cele estimate prin eliminarea
succesivă a punctelor, pe de cealaltă parte (figura 13d). Remarcăm astfel diferenţele dintre
coeficienţii de determinare şi dintre pantele dreptelor de regresie. Totuşi, diferenţele sunt
mici, astfel încât, prin prisma şi a celorlalţi parametri de calitate a modelului prezentaţi
anterior, se poate afirma că modelul este suficient de capabil să explice şi să prezică valorile
medii anuale ale temperaturii aerului.

Figura 14. Comparaţia între reziduurile regresiei şi reziduurile calculate în lipsa punctelor

Galaţi

Roman

Vaslui

Negreşti

Iaşi

Podu Iloaiei

Râuseni

Avrămeni

Botoşani

Dorohoi

Falticeni

Suceava

-0.6 -0.4 -0.2 0 0.2 0.4 0.6


o
C

reziduuri reziduuri calculate in lipsa punctelor

BIBLIOGRAFIE

Apetrei, M., Groza,O., Grasland,C. (1996), Elemente de statistică – cu aplicaţii în


geografie, curs, Univ. „A.I.Cuza” Iaşi
Chadule (group), Initiation aux méthodes statistiques en géographie, Masson et Cie, Paris,
1974.
Chorley R. J., Kennedy B., Physical Geography. A systems approach, Prentice Hall Int.
Inc., Londra, 1971.
Croitoru Adina-Eliza, Excesul de precipitatii din Depresiunea Transilvaniei, teza de
doctorat, Institutul de Geografie, Bucuresti, 2005
Johnston R. J., Multivariate Statistical Analysis in Geography, Longman, New York, 1978.

39
McKee T.B., Doesken N.J., Kleist J., The relationship of drought frequency and duration
at time scales. Eighth Conference on Applied Climatology, American Meteorological
Society, Jan 17-23, 1993, Anaheim CA, pp. 179-186
Micu Dana, Micu M., Winter temperature trends in Romanian Carpathians – A climate
variability index, Analele Universita)ii de Vest din Timisoara, Seria Geografie, XVI/2006, p.
141-159.
Patriche C. V., Podisul Central Moldovenesc dintre râurile Vaslui si Stavnic – studiu de
geografie fizica, Edit „Terra Nostra”, Iasi, 2005d, 257 pp.
Patriche Emilia-Isabela, Evaluarea agroclimatica a teritoriului Câmpiei Moldovei, teza de
doctorat, Univ „Al. I. Cuza” Iasi.
Radoane M., Radoane N., Ichim I., Dumitrescu Gh., Ursu C., Analiza cantitativă în
geografia fizică, Edit. Univ. „Al. I. Cuza” Iasi, 1996.
Stephens L. J., Schaum’s Outline of Theory and Problems of Beginning Statistics, McGraw-
Hill, 1998.
Trebici V. (coord.), Mică enciclopedie de statistică, Ed. Științifica si Enciclopedică,
București, 1985.

40