Sunteți pe pagina 1din 122

Universitatea Alexandru Ioan Cuza Iai

Facultatea de Educaie Fizic i Sport


nvmnt la distan

ELEMENTE DE STATISTIC GEOGRAFIC


Conf. dr . Octavian Groza
Departamentul de Geografie
Univ. Al.I.Cuza Iai

Prof. dr. Claude Grasland

Lector univ.Mihai Apetrei

Dpartement de gographie
Universit Paris VII

Departamentul de Geografie
Univ. Al.I.Cuza Iai

Editura Universitii Alexandru Ioan Cuza


Iai, 2003

CUPRINS

INTRODUCERE......................................................................................................................................................... 5
CAP.I. NOIUNI GENERALE ................................................................................................................................. 6
1.1. Cercetarea geografic i metodele statistice............................................................................................. 6
1.1.1 Ce este Statistica? ................................................................................................................... 6
1.1.2. Statistica n Geografie ........................................................................................................... 7
1.2. Vocabularul de baz al Statisticii........................................................................................................... 10
CAP.II. PARAMETRII UNEI DISTRIBUII STATISTICE ................................................................................ 23
2.1. Valorile centrale..................................................................................................................................... 23
2.1.1. Modul (sau moda, sau valoarea modal)............................................................................ 23
2.1.2. Mediana (valoarea median) .............................................................................................. 24
2.1.3. Media aritmetic.................................................................................................................. 25
2.2. Parametrii dispersiei .............................................................................................................................. 26
2.2.1. Amplitudinea de variaie..................................................................................................... 27
2.2.2. Cuartilele i abaterile cuartile............................................................................................. 27
2.2.3. Indici de dispersie care au la baz media aritmetic ......................................................... 27
2.3. Parametrii formei................................................................................................................................... 29
2.3.1. Indici de asimetrie ............................................................................................................... 30
2.3.2. Indici de exces (de aplatizare) ............................................................................................. 30
CAP.III. TRANSFORMAREA I STANDARDIZAREA DATELOR.................................................................. 32
3.1. Standardizarea (normarea).................................................................................................................... 32
3.2. Transformarea ....................................................................................................................................... 33
CAP.IV. FUNDAMENTUL PROBABILIST AL JUDECILOR STATISTICE .............................................. 34
4.1. Distribuia (curba) normal i caracteristicile sale................................................................................ 34
4.2. Caracteristicile eantioanelor (sondajelor) ............................................................................................ 38
4.2.1. Relaiile dintre parametrii de sondaj i cei ai populaiei originare ................................... 38
4.2.2.Eantioane mici..................................................................................................................... 41
4.2.3. Specificarea mrimii eantionului ...................................................................................... 42
4.3. Verificarea ipotezelor statistice .............................................................................................................. 43
4.3.1. Ipoteze statistice................................................................................................................... 43
4.3.2. Teste statistice ...................................................................................................................... 44
4.3.2.1. Teste parametrice ............................................................................................... 46
4.3.2.2. Teste neparametrice. .......................................................................................... 53
CAP.V. PROBLEME GENERALE PRIVIND RELAIA DINTRE DOU VARIABILE
(NOIUNI DE ANALIZ BIVARIAT )................................................................................................. 57
5.1. Noiunea de relaie ntre dou caracteristici.......................................................................................... 57
5.2. Tabelul de contingen i studiul relaiei ntre dou caracteristici discrete........................................... 58
5.2.1. Crearea unui tabel de contingen...................................................................................... 58
5.2.2. Analiza unui tabel de contingen....................................................................................... 60
5.2.2.1. Stabilirea profilelor liniilor ................................................................................... 61
5.2.2.2. Stabilirea profilelor coloanelor ............................................................................. 61
5.2.2.3. Stabilirea existenei / non-existenei unei legturi ntre cele dou
caracteristici........................................................................................................ 61
5.3. Msurarea relaiei dintre dou caracteristici cantitative continue ........................................................ 66
5.3.1. Coeficienii de corelaie ....................................................................................................... 69

5.3.2. Regresia liniar.................................................................................................................... 72


5.3.2.1. Principiul regresiei ............................................................................................... 73
5.3.2.3. Reziduurile regresiei............................................................................................. 81
5.3.2.4. Testarea modelului de regresie ............................................................................. 84
5.3.2.5. Aplicaiile regresiei liniare n geografie ................................................................ 86
5.4.1. Coeficientul de corelaie Spearman .................................................................................... 88
5.4.2. Coeficientul de corelaie Kendall ........................................................................................ 89
5.5. Msurarea relaiei dintre o caracteristic cantitativ i una calitativ nominal sau dintre
dou caracteristici calitative nominale........................................................................................... 90
5.5.1. Raportul empiric de corelaie ............................................................................................. 90
5.5.2. Msurarea relaiei dintre dou caracteristici calitative nominale .................................... 91
5.5.2.1. Coeficientul de contingen .................................................................................. 92
5.5.2.2. Coeficientul de asociere Yule ............................................................................... 92
5.6. Corelaie i cauzalitate ........................................................................................................................... 94
CAP.VI. SERII CRONOLOGICE ........................................................................................................................... 95
6.1. Definiie i termeni................................................................................................................................. 95
6.2. Serii cronologice i indici....................................................................................................................... 96
6.3. Analiza seriilor cronologice ................................................................................................................... 98
6.3.1. Verificarea (testarea) caracterului aleator ......................................................................... 99
6.3.2. Descompunerea (filtrarea) seriilor cronologice................................................................ 100
6.3.2.1. Analiza trendului ................................................................................................ 101
6.3.2.2. Analiza variaiilor sezoniere ............................................................................... 107
BIBLIOGRAFIE ....................................................................................................................................................... 113
Anexa I 114
Anexa II 115
Anexa III.................................................................................................................................................................... 116
Anexa IV .................................................................................................................................................................... 117
Anexa V 118
Anexa VI .................................................................................................................................................................... 119
Anexa VII................................................................................................................................................................... 120
Anexa VIII ................................................................................................................................................................. 121
Anexa IX .................................................................................................................................................................... 122

INTRODUCERE
n scopul descoperirii structurilor spaiale i a dinamicilor de care acestea sunt
afectate, Geografia modern este obligat s lucreze cu volume imense de date statistice.
Utilizarea echipamentelor electronice de calcul faciliteaz mult aceast sarcin ns esenial
este pregtirea cercettorului care ncearc s surprind eventualele regulariti dintr-o lume
n care accelerarea fenomenelor creeaz impresia unei evoluii haotice. n acest context,
stpnirea metodelor statistice devine primordial.
Prezentul curs este destinat transmiterii elementelor de baz ale statisticii
descriptive, respectiv a metodelor de analiz univariat i bivariat a informaiei disponibile.
Obiectivul su principal este acela de a pune la ndemna studenilor tehnicile fundamentale
de sintetizare a informaiei coninut n tabelele statistice, etap care trebuie s precead orice
operaie ulterioar (n special cartografierea informaiei).
Primul capitolul prezint specificul statisticii n domeniul geografiei (unde
unitile statistice snt reprezentate de obiecte, procese i fenomene spaializate), precum i
vocabularul statistic de baz, necesar nelegerii i nsuirii teoriei i practicii Statisticii.
Capitolele al II-lea, al III-lea i al IV-lea sunt axate pe expunerea noiunilor teoretice
elementare, n contextul analizei univariate a distribuiilor statistice. Obiectivul urmrit n
aceste trei capitole este acela de a familiariza studenii cu analiza tabelelor unidimensionale
(cu o singur intrare). Capitolul al V-lea introduce studentul n domeniul analizei bivariate,
respectiv al studiului tabelelor bidimensionale (cu dou intrri), strict necesar n geografie
deoarece n lumea nconjurtoare nici un obiect, proces sau fenomen nu evolueaz singur,
izolat de evoluiile vecine. n fine, ultimul capitol, al VI-lea, prezint metodologia cercetrii
seriilor cronologice, respectiv al tabelelor n care una dintre dimensiuni este cea a unitilor de
timp (ore, zile, luni, ani, decade, etc.), foarte util n efortul de sesizare a sensului i direciei
evoluiei n timp a obiectelor, proceselor i fenomenelor geografice. Anexele I-IX conin
tabelele necesare testrii ipotezelor statistice, precum i un eantion de numere aleatoare.
nsuirea metodelor prezentate n acest curs, precum i a fundamentelor lor
matematice, va acorda n final studentului o independen sporit n rezolvarea problemelor
care apar inerent n domeniul cercetrii geografice.

CAP.I. NOIUNI GENERALE.


1.1. Cercetarea geografic i metodele statistice.
1.1.1 Ce este Statistica?
O definiie riguroas a acestei discipline este greu de dat - n literatura de specialitate au
fost inventariate peste o sut de ncercri n acest sens; mai mult, n aceeai literatur termenul
statistic este folosit n cel puin dou sensuri diferite1, ca s nu mai vorbim de conotaiile
termenului n limbajul comun.
Din punctul de vedere al Geografiei, ca tiin a naturii, o definiie acceptabil ar fi
urmtoarea:
Statistica este tiina care se ocup cu descrierea i analiza numeric a
fenomenelor de mas, dezvluind particularitile lor de mrime, structur,
dinamic, precum i conexiunile lor interne. n felul acesta Statistica i propune
s contribuie la evidenierea legilor ce guverneaz manifestrile spaiotemporale ale acestor fenomene.
Dar ce nseamn fenomene de mas?
n limba greac phainomenon nseamn ceea ce apare. Altfel spus, numim
fenomene acele caracteristici exterioare, vizibile sau, oricum, observabile ale realitii
materiale nconjurtoare.
Ceea ce difereniaz fenomenele de mas de alte tipuri de fenomene este faptul c ele se
constituie ca rezultat al aciunii colective i repetate a unui mare numr de factori ntmpltori.
De aceea pentru a accede la esen, adic pentru a vedea ce se ascunde n spatele fenomenului,
este nevoie s analizm un mare numr de cazuri individuale.
Cteva exemple de fenomene de mas:
comportamentul demografic al unei populaii, ca rezultat al interaciunii complexe
dintre factorii economici, sociali, culturali, educaionali, psihologici. Ca fenomen de mas, el
poate fi pus n eviden doar prin intermediul unor indici demografici (natalitate, mortalitate,
spor natural, fertilitate feminin, structura populaiei pe sexe, grupe de vrst sau profesional,
apoi gradul de instruire a populaiei, nivelul de trai etc.) obinui din inventarierea unui mare
numr de indivizi ai populaiei respective;
tendina de nclzire a climei globului terestru - reprezint un fenomen complex, ce
poate fi decelat doar prin analiza i prelucrarea unor cantiti uriae de date climatologice
provenite de la mii de puncte de observaie ce acoper suprafaa ntregului glob.
La scri spaiale mai mari sau mai mici se pot identifica nenumrate exemple de astfel
de fenomene, pentru care se mai utilizeaz denumiri alternative ca fenomene colective,
fenomene statistice sau fenomene atipice. Acest ultim termen exprim destul de sugestiv
esena unui fenomen de mas: aceea de a nu se putea reproduce n mod identic aproape
niciodat (iar dac se reproduce n mod identic, faptul se datoreaz doar ntmplrii).

1.

a) tiina cu acest nume; b) criteriu formal pentru verificarea ipotezelor statistice (vezi 4.3).

Statistica, privit ca domeniu distinct al cunoaterii umane, a aprut iniial ca o


generalizare sui generis a unor date despre fenomenele social-economice. Pe la mijlocul
secolului trecut ea era, nc, privit ca o tiin social. Treptat, ns, Statistica s-a infiltrat n
domenii aparinnd tiinelor naturii, nct s-au conturat, cu timpul, noi discipline tiinifice - de
ex. statistica matematic, fizica i mecanica statistic, statistica biologic .a.
Statutul actual al Statisticii ca tiin este nc neclar, de unde i marea diversitate a
definiiilor n circulaie despre care aminteam anterior. n literatura dedicat acestui subiect se
pot distinge, totui, dou curente principale de opinie: unii calific statistica drept o tiin, iar
alii o consider (i) o metod. Este cert, ns, c ncepnd din perioada interbelic, sub
impulsul unor personaliti de seam din domeniu ca K.Pearson (1857-1936) i R.A.Fisher
(1890-1962), statistica i-a elaborat fundamente tiinifice (mai ales matematice) foarte precise.
Ea se dezvolt n prezent ca tiin cvasi-independent, dar avnd nsuirea, mai mult dect
altele, de a fi n acelai timp o tiin, dar i o metod cu aplicabilitate n alte domenii tiinifice.
Indiferent dac este conceput ca tiin sau ca metod, statistica actual prezint dou
laturi diferite, dar complementare:
1. descrierea statistic - fixarea informaiei rezultate din prelucrarea datelor de
observaie (empirice) sub forme diverse, dar cel mai adesea sub form de indici sau parametri
statistici;
2. inferena2 statistic - tratarea teoretic a datelor de observaie pentru a trage
concluziile logice, concluzii care depind de specificul domeniului din care provin respectivele
date.
Prima latur, mai accesibil nelegerii comune, este cunoscut sub denumirea de
statistic descriptiv. Cea de-a doua, mai dificil, ntruct mai formalizat din punctul de
vedere al fundamentelor matematice, constituie aa-numita statistic inferenial sau
inductiv, numit uneori i statistic probabilist datorit faptului c baza ei matematic o
constituie teoria probabilitilor.
Trebuie subliniat c n cadrul demersului statistic cele dou aspecte trebuie privite ca
etape ale unuia i aceluiai proces de cunoatere uman.
1.1.2. Statistica n Geografie
O incursiune n literatura geografic ce vizeaz problemele teoretico-epistemologice
specifice ar putea conduce la concluzia c Geografia nu beneficiaz, pn n prezent, de o
riguroas circumscriere a sferei sale de cercetare. ns diversele opinii asupra obiectului de
studiu converg cel puin ntr-un punct: n sarcina Geografiei intr analiza repartiiei i localizrii
spaiale a obiectelor, fenomenelor i proceselor naturale sau sociale. Deoarece repartiia i
localizarea spaial creeaz organizri teritoriale cu trsturi diferite de la un loc la altul, se
evideniaz existena unor diferenieri spaiale ale sistemelor naturale, sociale sau ale
geosociosistemelor. Aceste diferenieri sunt, fr doar i poate, expresia unor fenomene de
mas. Prin urmare rolul Geografiei este acela de a dezvlui esena acestor fenomene de mas,
deci a structurii lor spaiale. ntr-adevr, nu distribuiile nsele intereseaz geografii, ci mai
degrab faptul c ele variaz n configuraie i intensitate de la un loc la altul (M.Chapot, 1977,
p.11).
Analiza geografic a fenomenelor i proceselor ce caracterizeaz dinamica spaiotemporal a nveliurilor terestre, ca i analiza relaiilor dintre om (societate) i suportul spaial
al activitii sale, este permanent condiionat de apelul la date cantitative obinute prin
msurtori.
2

Inferena (lat. inferre - a duce) este operaia logic de derivare a unui enun din altul, prin care se admite o
judecat (al crei adevr nu este verificat direct) n virtutea unei legturi a ei cu alte judeci considerate ca
adevrate (cf. F.Marcu i C.Maneca, Dicionar de neologisme, Ed. Academiei, 1978).

Cteva exemple:
caracteristicile poziionale i morfometrice ale unor obiecte de la suprafaa Terrei
pretind informaii numerice de tip coordonate geografice, distane, suprafee, altitudini etc.;
studiul interaciunilor dintre nveliurile naturale terestre face apel la date cantitative
asupra unor elemente ca temperatura aerului i solului, precipitaii, debite, presiune atmosferic,
viteza vntului, eroziune etc.;
localizarea activitilor umane i a resurselor aferente necesit informaii precise asupra
suprafeelor de teren cu diferite utilizri/tipuri de sol, asupra populaiei active, resurselor
subsolice, punctelor de concentrare a activitilor industriale .a.;
repartiia i dinamica populaiei umane nu pot fi urmrite dect prin intermediul unor
indici cantitativi cum ar fi numrul total sau pe diverse categorii, natalitatea, mortalitatea,
structura (pe sexe, pe grupe de vrst, profesional), indici de mobilitate teritorial etc.;
studiul reelelor de schimburi comerciale i al fluxurilor dintre nodurile reelelor,
fluxuri ce constituie manifestri ale interaciunilor spaiale3, pretind date cantitative referitoare
la reelele feroviare, rutiere, fluviale, de transport maritim etc., date asupra volumului
schimburilor comerciale .a.
Determinrile cantitative (observaii i msurtori) asupra obiectelor, proceselor i
fenomenelor constituie, aadar, punctul de plecare pentru demersul cognitiv geografic. n
acelai timp, ele ofer posibilitatea unui demers geografic tiinific (n sensul exactitii)
deoarece permit, pe de o parte, emiterea unor ipoteze asupra realitii, iar pe de alt parte permit
verificarea acestor ipoteze prin aplicarea metodelor statistico-matematice de analiz a datelor.
Datele geografice provenite din msurtori i observaii se refer, n mod obinuit, la
caracteristici ale unor fenomene i/sau procese care se desfoar ntr-un anumit loc de pe glob
i ntr-un anumit moment (interval) de timp. De aici ideea de a generaliza natura datelor
geografice sub forma unei matrici tridimensionale numit cubul datelor geografice
(Johnston,1978; v.fig.1.1). Cele trei dimensiuni ale acestui cub sunt localizrile (locurile)4,
timpul i fenomenele (procesele). n seciunea din fig.1.1 fiecare rnd reprezint un loc, iar
fiecare coloan corespunde unui fenomen (proces); momentelor (intervalelor) de timp n care se
manifest fenomenele cu localizri diferite le corespund strate succesive ale cubului.

Prin interaciuni spaiale se nelege aciunea reciproc a dou sau mai multe sisteme cu localizri spaiale
diferite. n domeniul geografiei studiul i.s., abordate la scar macro-spaial (n aceasta constnd deosebirea dintre
geografie i alte tiine care studiaz astfel de interaciuni - de ex. sociologia, psihologia, economia, fizica), a
condus la elaborarea unor modele de intraciune spaial dintre care cel mai important este modelul gravitaional.
Acest model se bazeaz pe analogia dintre intraciunea spaial i interaciunea fizic din teoria gravitaional a lui
Newton:
I ij = k

mi m j
n

d ij

,
n care: Iij - interaciunea dintre locurile i i j; mi, mj - masele locurilor i i j (de ex. numrul de locuitori); k, n constante empirice.
4
n literatura geografic romneasc termenul localizare are mai multe sensuri:
- poziie (aezare) geografic;
- aciunea de a repera (identifica) obiecte, fenomene, procese;
- aciunea de a implanta n teritoriu, ntr-un anumit loc, un obiect, o activitate economic etc.;
- aciunea de a aduce la scar local, de a descentraliza.
De regul sensul reiese din context; atunci cnd acesta din urm este insuficient, este preferabil s se foloseasc
sinonimele corespunztoare - spre exemplu, n fig.1.1. s-a folosit termenul locuri pentru a desemna poziia n
spaiu a fenomenelor.

Este clar c un asemenea cub poate cuprinde cantiti foarte mari (teoretic nelimitate) de
date. Tocmai asemenea
ansambluri mari de
date
cantitative
constituie,
ndeobte, materialul de Figura 1.1. Cubul datelor geografice.
lucru
pentru
analizele
statistice.
Aceasta
nu
nseamn,
ns,
c
Statistica nu poate
s
analizeze
i
ansambluri
mici,
sau seturi de date nonnumerice,
calitative.
n
toate
cazurile, n termeni
cantitativi, ea descrie
sintetic, clasific,
ierarhizeaz, evideniaz
structuri
i
5
izomorfisme , ncearc
s
precizeze
(cuantifice) tria i
intensitatea
legturilor
dintre
fenomene, permite
generalizri
i
interpretri
ale
acestora.
Utilizarea metodelor statistice confer demersului geografic un spor de rigurozitate
tiinific, neleas ca precizie a rezultatelor cercetrii, obiectivitate a concluziilor, precum i ca
diminuare a redundanei i ambiguitilor discursului geografic.
Ca i n cazul altor tiine naturale sau sociale, demersul tiinific geografic are dou
laturi complementare:
1. exist, pe de o parte, demersul inductiv, care ncearc s generalizeze o serie de
observaii empirice, ncercnd s ajung la formularea de legiti i, apoi, la elaborarea de
modele ale realitii.
Exemplu. Se msoar temperatura aerului la diferite altitudini de-a lungul unui versant
muntos. S presupunem c s-au gsit 10C la 1000 m, 4C la 2000 m i -2C la 3000 m
altitudine. Repetarea msurtorilor pe un alt versant a dat rezultate asemntoare. Se trage
concluzia c temperatura scade, n medie, cu 0,6C la fiecare 100 m cretere a altitudinii; altfel
spus, se stabilete o legitate pe calea demersului inductiv (trecerea de la particular la general);
2. pe de alt parte, exist demersul deductiv, care se desfoar n sens invers fa de
cel inductiv: se pornete de la o regul general pentru a se trage nite concluzii n legtur cu
un fapt particular. n acest caz regula este preluat sub forma unei ipoteze care, confruntat cu
datele de observaii, poate s fie confirmat sau infirmat.
Exemplu. Se pornete de la legea scderii, de la Ecuator spre poli, a cantitii de cldur
recepionat de suprafaa terestr. Se emite ipoteza c temperatura medie a aerului scade n
acelai sens, tiut fiind faptul c ea este dependent de cantitatea de cldur menionat.
Confruntarea ipotezei cu datele climatologice dovedete c ipoteza testat este valabil doar sub
forma uneitendine generale, pe fondul creia apar excepii datorate unor factori diveri
(altitudinea i orientarea culmilor muntoase, albedo-ul suprafeei terestre, curenii marini etc.).
Procesul cunoaterii tiinifice const ntr-o permanent succesiune a celor dou tipuri
de demersuri: inducia furnizeaz reguli i legiti care stau la baza unor deducii (ipoteze) ce se
5

Izomorfism (grec. isos - egal i morphe - form) - identitate de structur ntre dou sau mai multe sisteme cu
coninut diferit; modalitate riguroas a analogiei, ntemeind analogia structural, diferit de analogia
funcional sau analogia substanial (cf. Dicionar de filozofie, Ed. Academiei, 1979).

cer, apoi, confruntate cu datele de observaii; eventualele diferene intre modelul teoretic i
realitatea faptic pot conduce, pe cale inductiv, la reformulri ale legitilor, ce se cer i ele
verificate .a.m.d. Acest ciclu generator al progresului cunoaterii tiinifice a fost numit,
sugestiv, spirala inductiv-ipotetic-deductiv (IID). Orice tiin, inclusiv Geografia, cunoate
o dezvoltare condiionat de nscrierea n modelul IID. Iar pentru Geografie, ca tiin al crei
obiect de studiu este nc insuficient precizat i nesatisfctor ncadrat n legi i postulate,
recursul la metodele statistice este inevitabil.
*
* *
Iat de ce, pentru un geograf, metodele statistice constituie un sprijin valoros.
Cunoaterea acestor metode de ctre geograf are aceeai importan ca i stpnirea limbilor
strine de ctre un diplomat. Nici statistica, pentru geograf, nici limbile strine, pentru diplomat,
nu constituie obiectul lor de studiu, ns reprezint instrumente indispensabile pentru succesul
activitilor specifice.
Aa cum un diplomat ignorant poate face apel la un translator, tot astfel un geograf poate
face apel la un statistician cu experien n analiza datelor de observaii. Dar i ntr-un caz i n
altul prezena unui intermediar risc s reduc eficiena aciunilor, ca s nu mai vorbim de
posibilitatea apariiei erorilor: de traducere, n cazul interpretului care nu stpnete
complexitatea situaiilor diplomatice, respectiv de interpretare, n cazul statisticianului care nu
cunoate n profunzime problemele geografice.

1.2. Vocabularul de baz al Statisticii


n sens cronologic, primul domeniu de aplicare a Statisticii a fost demografia. De aceea,
dei n prezent Statistica a ptruns n numeroase alte domenii, o parte din vocabularul su de
baz include termeni originari din demografie.
S-a menionat deja c demersul analitic n Geografie are la baz cubul datelor
geografice. Acesta constituie, n fond, un masiv de date al crui volum poate deveni
impresionant atunci cnd cercetarea se extinde pe spaii mari sau pe intervale mari de timp. Un
asemenea masiv de date poart, n Statistic, denumirea de populaie.
O populaie este un ansamblu finit sau infinit de elemente (uniti, indivizi)
distincte care intr sub incidena observaiilor i msurtorilor.
Acesta este ansamblul de referin asupra cruie se exercit analiza statistic. El trebuie s fie
omogen i precis definit. Elementele care l formeaz au n comun una sau mai multe
proprieti, astfel nct s se poat preciza clar dac un element oarecare face parte sau nu din
ansamblul luat n considerare, n funcie de prezena/absena proprietii (proprietilor)
respective.
Exemple.
populaia (locuitorii) judeului Iai la 1.01.1992 - un ansamblu finit, elementele
au o proprietate comun (domiciliul stabil n judeul Iai), spaiul este precis delimitat de ctre
graniele administrative ale judeului, momentul de timp este precizat;
populaia lacurilor din Cmpia Moldovei la sfritul anului 1993 - ansamblu
finit, exist o proprietate comun a elementelor (faptul c sunt ape stttoare permanente),
spaiul delimitat, timpul deasemenea;
populaia oraelor cu peste 1 milion de locuitori din Europa, la sfritul anului
1992;

10

populaia cantitilor lunare de precipitaii la staia Iai - ansamblu practic


infinit, din care irul de observaii existent (dup 1893) reprezint doar o mic parte.
n majoritatea cazurilor, n geografie populaiile sunt ansambluri de elemente spaiale
precis localizabile i susceptibile de a fi cartografiate. Se pot distinge trei tipuri mari de uniti
spaiale:
* uniti de tip areal (planiforme) - de exemplu judee, regiuni, state, bazine
hidrografice, zone climatice .a.;
* uniti de tip punctual (punctiforme) - aezri umane, puncte geodezice, vulcani, staii
meteo, confluene de ruri .a. De remarcat c unitile spaiale de tip areal pot trece n uniti de
tip punctual i invers, odat cu trecerea de la o scar spaial de analiz la alta;
* uniti de tip liniar (axiale) - strzi, tronsoane de cale ferat, ruri, linii de falie, linii de
intersecie a fronturilor atmosferice cu suprafaa terestr .a.
Individ (vezi i definiia de mai sus).
Un individ, sau unitate statistic, este un element ce aparine unei populaii;
apartenena sa la populaia respectiv este indubitabil, ntruct este definit
dup criterii/proprieti neambigui.
Eantion

Un eantion este un subansamblu al unei populaii, alctuit prin extragerea de


elemente din populaia de baz.
Extragerea se face dup reguli precis stabilite, n funcie de scopul analizei statistice i
de natura datelor de observaii. Concluziile analizei pot fi apoi extinse asupra ntregii populaii,
bineneles, cu o anumit marj de eroare. Dar, lucru foarte important, marja de eroare poate fi
calculat; mai mult, n unele cazuri aceast marj de eroare poate fi stabilit nc nainte de
prelevarea eantionului.
Fundamentele matematice ale prelevrii eantioanelor sunt oferite de ctre o ramur a
Statisticii numit Teoria eantionajului.
Pentru majoritatea disciplinelor geografice metodologiile de cercetare specifice implic
lucrul cu eantioane - de exemplu studiul granulometric al solului sau aluviunilor, studiul
proprietilor fizico-chimice ale aerului, apei sau rocilor se bazeaz, inevitabil, pe eantioane. Pe
de alt parte, studiul variaiilor spaiale sau temporale ale elementelor climatice sau hidrologice
pornete de la irurile de date de observaii care, orict de lung ar fi perioada pe care o acoper,
constituie de fapt nite eantioane ce provin dintr-o populaie practic infinit, sau mcar
inaccesibil (timpul geologic).
Caracteristic statistic
Caracteristica (statistic a) unei populaii este o nsuire, un caracter care este
comun tuturor elementelor respectivei populaii.
Exemple:
vrsta, sexul - n cazul populaiei umane;
numrul de locuitori - n cazul populaiei oraelor dintr-o anumit regiune;
debitul mediu anual (sau zilnic,lunar) - n cazul populaiei rurilor dintr-o zon
oarecare.
valoarea produciei industriale - n cazul populaiei judeelor din Romnia etc.

11

Din punct de vedere statistic, a defini o caracteristic Tabel 1.1. Populaia oraelor
a unei populaii nseamn a stabili o coresponden astfel Romniei repartizat dup numrul de
nct fiecrui individ al populaiei s i se asocieze una i locuitori.
Populaia P
Caract. X
numai una dintre valorile pe care le poate cpta
(oraele
din
(numrul
de
caracteristica respectiv. n funcie de scopurile analizei,
Romnia,1992)
locuitori)
indivizii pot fi descrii (caracterizai) prin intermediul unei
1.Alba-Iulia
x1
71254
caracteristici sau al mai multora (vezi tabelele 1.1 i 1.2).
2.Arad
x2
190088
Diferitele valori (nu neaprat numerice) pe care le
.
.
.
.
.
.
poate cpta un individ n raport cu o anumit caracteristic
.
.
.
poart denumirea de modaliti ale caracteristicii
xi
82.Iai
342994
respective. Modalitile unei caracteristici trebuie s
.
.
.
ndeplineasc simultan dou condiii:
.
.
.
.
.
.
1. S fie incompatibile, altfel spus corespondena
260.Zimnicea
17140
xN
dintre indivizi i modalitile caracteristicii trebuie s fie
univoc (unui individ i corespunde o modalitate i numai Tabel 1.2. Populaia judeului Iai la 1
una, chiar dac una i aceeai modalitate poate corespunde ianuarie 1992, repartizat dup vrst i
sex.
la mai muli indivizi - vezi tab.1.2, 1.3);
Populaia P
Car. X
Car.Y
2. S fie exhaustive, adic s nu existe indivizi
(loc.jud.
(vrsta) (sexul)
crora nu le corespunde nici o modalitate a caracteristicii.
Iai,1992)
1.Apetrei M.

x1

37

y1 M

Exemplu. S considerm populaia studenilor de 2.Zlvog P.


y2 F
x2 58
. .
.
.
.
la Facultatea de Geografie din Iai, la nceputul anului
. .
.
.
.
2003, repartizat dup caracteristica preferine muzicale
. .
.
.
.
cu modalitile: rocker, metalist, reggae-ist, simfonist 7777.Groza O.
yi M
xi 32
(adic adept al muzicii simfonice). n acest caz
. .
.
.
.
. .
.
.
.
modalitile nu sunt incompatibile (un rocker poate agrea
. .
.
.
.
la fel de bine i muzica simfonic), nici nu sunt exhaustive
yN F
xN 16
806778.Costin V.
(sunt destui studeni pasionai de muzica bnean...).
S-a menionat mai sus c reciproca condiiei de
incompatibilitate nu este valabil. Altfel spus, unei modaliti i pot corespunde mai multe
elemente din cadrul populaiei. Numrul de elemente (indivizi) care corespund unei modaliti a
caracteristicii constituie aa-numitul efectiv (frecven brut, frecven absolut) al (a)
modalitii respective. Este clar c, dac sunt respectate condiiile menionate mai sus, suma
efectivelor modalitilor va fi egal cu numrul total de elemente din populaia de baz (vezi
tab.1.3).
Se disting dou categorii de caracteristici: calitative i cantitative. Criteriul de
difereniere l constituie, de regul, posibilitatea i/sau sensul calculrii mediei aritmetice a
modalitilor.
Caracteristicile calitative pot fi, la rndul lor, de dou feluri: nominale, la care
modalitile sunt exprimate printr-un substantiv sau un cod (de ex. caracteristica sex din
tab.1.2) i ordinale, n cazul crora modalitile reprezint ranguri ale fiecrui individ n raport
cu caracteristica respectiv (de ex. caracteristica poziia pe lista admiilor, dup care poate fi
repartizat populaia studenilor anului I Geografie, anul colar 2003/2004).
Caracteristicile cantitative sunt cele la care modalitile sunt exprimate prin numere.
Drept urmare media aritmetica a modalitilor caracteristicii poate fi calculat i, spre deosebire
de caracteristicile calitative ordinale, are un sens intuitiv.
Caracteristicile cantitative pot fi i ele grupate n funcie de mai multe criterii.
Astfel, dup cum valoarea 0 (zero) a modalitilor indic sau nu absena fenomenului,
ele pot fi:

12

- de interval (reperabile pe o scar de intervale) - sunt acele caracteristici cantitative care


permit precizarea poziiei fiecrui element al populaiei n raport cu o origine arbitrar. Deci
valoarea 0 este convenional i nu semnific absena fenomenului. Exemple: altitudinea,
temperatura, latitudinea, longitudinea .a.;
- de scar (msurabile pe o scar numeric) - la care valoarea 0 a modalitilor nu este
convenional, ci are un sens concret, respectiv absena fenomenului. Exemple: precipitaiile
lunare ( pentru populaia precipitaiilor atmosferice la o staie meteo), producia de cereale
(pentru populaia statelor lumii) etc.
O alt grupare a caracteristicilor cantitative ine cont de semnificaia sumei valorilor
modalitilor:
* de stoc - la care suma menionat are o semnificaie concret, de ex. numrul de
locuitori, precipitaiile anuale, numrul de zile cu diferite fenomene meteo etc.;
* de raport - n cazul crora suma valorilor modalitilor (valori obinute, eventual, prin
raportul a dou mrimi) nu are un sens fizic, concret - de ex. densitatea populaiei, exprimat n
loc./km.
n sfrit, o clasificare uzual n statistic este cea ntemeiat pe proprietile aritmetice
ale modalitilor. Dup acest criteriu se deosebesc:
caracteristici (cantitative) discrete, ale cror modaliti pot cpta numai anumite
valori, eventual ntregi, din cadrul intervalului de variaie posibil. Exemple: numrul de zile cu
ploaie sau cu soare, numrul de copii pe familie, numrul de locuitori/comun etc.;
caracteristici (cantitative) continue, ale cror modaliti sunt numere reale i, deci, pot
cpta orice valoare (altfel spus, o infinitate de valori) n interiorul intervalului de variaie.
Exemple: densitatea populaiei, produciile agricole sau industriale, durata anual de strlucire a
soarelui, presiunea atmosferic, temperatura etc.
De remarcat c unele caracteristici discrete, cum ar fi, de exemplu, numrul de locuitori
ai unitilor administrativ-teritoriale, pot fi asimilate cu nite caracteristici continui atunci cnd
numrul modalitilor este foarte mare. n cazul lor metodele de prelucrare statistic rezervate
caracteristicilor discrete sunt greu de aplicat, nct se apeleaz la metodele specifice pentru
caracteristicile continui.
Variabil statistic
O caracteristic (cantitativ) ale crei modaliti pot suferi modificri, n timp
i/sau spaiu, ca nivel de dezvoltare (i.e. ca valoarea numeric), sub influena
diverilor factori ce acioneaz asupra populaiei statistice, poart numele de
variabil statistic.
De regul nu se utilizeaz termenul variabil atunci cnd este vorba despre o caracteristic
calitativ; dac totui se utilizeaz, atunci se adaug determinativul specific (variabil
calitativ).
Trebuie menionat c aproape toate caracteristicile cantitative ale populaiilor de date
geografice au nsuirea menionat n definiia de mai sus, deci sunt nite variabile statistice.
Distribuie (repartiie) statistic
Ansamblul ordonat al modalitilor unei caracteristici poart denumirea de
distribuie (repartiie) a populaiei dup caracteristica respectiv sau, mai scurt,
distribuie (repartiie) statistic.
Mai ales la populaiile numeroase, pot exista mai multe elemente care prezint o aceeai valoare
a modalitii caracteristicii cantitative i care formeaz efectivul modalitii respective. n acest
sens se vorbete despre distribuia statistic ca despre o distribuie de frecvene. n cazul

13

acesteia din urm avem de-a face cu un Tabel 1.3. Tabelul elementar al unei distribuii de
ansamblu de perechi modalitate- frecvene pentru o variabil cantitativ , respectiv
frecven6 ordonate cresctor dup calitativ.
valorile modalitilor respective (vezi
Caract. X
Efectivul
Caract. A
Efectivul
tab.1.3).
(cantitativ )
e
(calitativ)
e
Analiza statistic se poate
e1
a1
e1
x1
exercita i asupra distribuiilor de
x2
e2
a2
e2
.
.
.
.
frecvene
ale
unor
caracteristici
.
.
.
.
(variabile) calitative. n cazul acestora
.
.
.
.
ordonarea, de regul descresctoare, nu
xi
ei
ai
ei
se poate face dup valorile (non.
.
.
.
.
.
.
.
numerice) ale variabilei, ci dup
.
.
.
.
frecvenele
corespunztoare
(vezi
xn
en
an
en
tab.1.3). Elementul prin care repartiia
xi-1<xi<xi+1
ei = N
ei-1>ei>ei+1
unei variabile de tip calitativ intr n
ei = N
judecile statistice este frecvena. Orice
comparaie sau eventual asociere
(relaie) ntre variabilele calitative sunt
precizate prin metode statistice care iau n considerare frecvenele diferitelor modaliti ale
variabilei.
Prezentarea unei distribuii statistice
Exist dou forme principale de prezentare a unei distribuii statistice: sub form de
tabel statistic sau sub forma unor reprezentri grafice, cel mai adesea de tip histogram. Ele au
menirea de a oferi un rezumat numeric sau grafic al repartiiei dup o caracteristic, prin
regruparea i stabilirea frecvenelor fiecrei modaliti a caracteristicii. n cadrul acestei prime
etape de prelucrare a datelor empirice se urmrete, deci, s se rspund la ntrebarea: cte
elemente din populaia de baz corespund fiecrei modaliti7, sau fiecrui grup de modaliti?8
Tabelul de distribuie a frecvenelor modalitilor unei caracteristici este un tabel
statistic simplu (numit i tabel cu simpl intrare) a crui machet are dou coloane: prima
destinat nscrierii modalitilor caracteristicii, iar a doua - nscrierii frecvenei (efectivului)
fiecrei modaliti (pentru ilustrare vezi tab.1.3, care include forma generalizat a unui tabel de
distribuie a frecvenelor pentru dou tipuri de caracteristici, motiv pentru care are 4 coloane).

Frecvena unei modaliti poate fi de mai multe feluri, n funcie de modul n care este determinat:
- efectiv sau frecven brut = numrul de indivizi ce corespund modalitii respective;
- frecven relativ = proporia, eventual procentual, a efectivului unei modaliti din totalul N al indivizilor
populaiei.
Fiecare dintre aceste dou tipuri poate fi, la rndul su, de dou feluri:
- frecven simpl, care corespunde unei modaliti oarecare, independent de celelalte modaliti;
- frecven cumulat, care se obine prin cumularea frecvenelor simple ale tuturor modalitilor care, n cadrul
irului ordonat de modaliti, sunt anterioare modalitii pentru care se calculeaz frecvena cumulat.
7
Esena acestei prime etape de prelucrare a datelor de observaii, n vederea prezentrii distribuiei sub form
tabelar, este bine surprins de termenul corespunztor n literatura de specialitate francez: tableau de
dnombrement (tabel de numrare).
8
n cazul variabilelor cantitative continui cu numr foarte mare de modaliti se procedeaz, pentru reducerea
volumului de munc, la o grupare a modalitilor n clase de valori, urmnd a se determina frecvena fiecrei clase
prin numrarea elementelor ale cror valori sunt cuprinse ntre limitele clasei respective. Noiunea de clas este
utilizat curent n descrierea distribuiilor de frecvene ale variabilelor cantitative i, prin extindere, ale variabilelor
calitative.

14

Histograma este un grafic al repartiiei pe clase de valori, format dintr-o succesiune de


dreptunghiuri (coloane) alturate ce au suprafeele
proporionale
cu
frecvenele
claselor
Tabel 1.4. Tabelul distribuiei de frecvene pentru
corespunztoare (vezi fig.1.3). Ca form de
o variabil cantitativ discret sau calitativ
prezentare a unei distribuii de frecvene ea
nominal.
prezint avantajul c permite o comparare mai
Caracteristica
Efectiv
Frecv.relativ
rapid i mai precis a frecvenelor diferitelor
X
e
f%=(e/N)*100
modaliti, dar i o evideniere mai pregnant a
x1
e1
f1
grupurilor de modaliti cu frecvene mari/mici
x2
e2
f2
din cadrul domeniului de variaie a caracteristicii.
.
.
.
Modul concret de prezentare a unei
.
.
.
.
.
.
distribuii statistice depinde de tipul caracteristicii
xi
ei
fi
dup care este repartizat populaia i de raportul
.
.
.
dintre numrul de elemente ale populaiei (N) i
.
.
.
numrul de modaliti ale caracteristicii (n). n
.
.
.
x
e
f
n
n
n
felul acesta se disting trei cazuri:
ei = N

fi = 100

a) Caracteristici cantitative discrete, sau calitative


nominale, avnd un numr de modaliti inferior
numrului de elemente ale populaiei (n<N)
Tabelul de distribuie va fi unul simplu, incluznd, pentru a facilita comparaiile ntre
frecvenele diferitelor clase, o a treia coloan cu frecvenele relative simple exprimate
procentual sau ca numere subunitare (vezi tab.1.4).
Reprezentarea grafic uzual este, n acest caz, diagrama n bastoane (vezi fig.1.2). Dac
avem de-a face cu o variabil discret,
modalitile trebuie ordonate; la variabilele Figura 1.2. Repartiia nscuilor vii dup rangul nscutului
calitative nominale nu mai conteaz viu n Romnia, 1979 (dup V.Trebici & colab.,1985).
ordonarea.
b) Caracteristici calitative avnd numrul
de modaliti egal cu numrul de elemente
ale populaiei (n=N)
Este
cazul
tipic
pentru
caracteristicile calitative ordinale, dar
apare uneori i la cele nominale care joac
rol de identificatori exclusivi ai
elementelor populaiei (de ex. seria
paaportului, pentru populaia uman dintro regiune).
ntruct N=n, este clar c nu este
nevoie de un tabel de distribuie a
frecvenelor, sau o reprezentare grafic,
pentru prezentarea distribuiei (toate frecvenele sunt egale cu 1).
c) Caracteristici cantitative continui, sau asimilabile cu acestea (discrete, dar cu numr foarte
mare de modaliti)
n acest caz, ntruct numrul modalitilor este foarte mare (potenial infinit),
operaiunea de stabilire a frecvenelor fiecrei modaliti este practic imposibil. Din acest
motiv, ca i pentru o concentrare a informaiei oferite de datele brute, devine necesar gruparea

15

modalitilor n clase9; prin numrarea elementelor ce corespund modalitilor din interiorul


claselor se determin frecvenele acestora din urm.
Gruparea modalitilor caracteristicii pe clase de valori trebuie s respecte urmtoarele
reguli:
reuniunea claselor (privite ca mulimi de valori) trebuie s acopere cel puin domeniul
de variaie al caracteristicii ( condiia de exhaustivitate); altfel spus, valorile extreme trebuie
obligatoriu incluse n clasele corespunztoare (clasele extreme);
clasele de modaliti s fie dou cte dou disjuncte, astfel nct intersecia lor s fie
nul ( condiia de incompatibilitate); altfel spus, limita superioar a unei clase nu poate fi
identic cu limita inferioar a clasei urmtoare. Aceast condiie este necesar pentru a evita
situaiile n care una i aceeai valoare, egal cu cele dou limite, este inclus n dou clase
vecine.
Exemplu. Se cere alctuirea distribuiei de frecvene pentru variabila temperatura
medie zilnic n luna iunie ale crei modaliti acoper intervalul 1971-1990 (20 ani x 30 zile =
600 de valori). Pentru aceasta se procedeaz la mprirea intervalului total de variaie n clase
de valori. Analiza valorilor din irul iniial sugereaz o amplitudine a claselor de 5C; n
condiiile n care valoarea minim este de 6,5C, iar cea maxim de 34,2C, aceasta permite
separarea unui numr de 6 clase de temperaturi:
(5,0;10,0]; (10,0;15,0]; (15,0;20,0]; (20,0;25,0]; (25,0;30,0]; (30,0;35,0]
Se observ ca sunt satisfcute ambele condiii de mai sus. Astfel, cele dou clase de la
extremiti includ valorile extreme de temperatur, iar condiia de incompatibilitate este
satisfcut prin modul de delimitare a intervalelor de clas: interval deschis n cazul limitelor
inferioare, respectiv nchis n cazul limitelor superioare. La acelai rezultat practic (satisfacerea
condiiei de incompatibilitate) se ajunge dac, lsnd intervalele de clas nchise la ambele
capete, se stabilesc limitele inferioar, respectiv superioar ale claselor succesive n aa fel nct
ele s nu coincid. n felul acesta clasele din exemplul nostru se modifica astfel:
[5,0..9,9];[10,0..14,9];...;[30,0..34,9] (vom ine cont de faptul c temperatura aerului se
exprim n grade i zecimi, astfel nct orice valoare din ir va fi inclus n una sau alta dintre
clase, neexistnd pericolul de a rmne vreuna pe dinafar).

Prin clas se nelege o subdiviziune a domeniului de variaie a variabilei. Pentru clasele constituite din grupe de
valori trebuie determinate elementele caracteristice ale acestora: limitele (inferioar i superioar), amplitudinile
claselor (care pot fi egale sau inegale) i centrele claselor (valorile situate n mijlocul claselor, ca medii aritmetice
ale celor dou limite de clas). O schem simpl ar putea facilita nelegerea acestor noiuni:
clasa 1: [li1..c1..ls1], iar a1=ls1-li1;
clasa 2: [li2..c2..ls2], iar a2=ls2-li2;
.
.
clasa n: [lin..cn..lsn], iar an=lsn-lin.
Semnificaia notaiilor: li - limita inferioar a unei clase; ls - limita superioar; c - centrul de clas; a - amplitudinea
clasei.

16

Construcia tabelului de distribuie este asemntoare cu cea de la punctul (a), cu


deosebirea c n locul modalitilor individuale apar acum clasele de modaliti. Pentru
caracterizarea complet a distribuiei de frecvene n tabel se mai introduc dou coloane,
corespunznd
frecvenelor
cumulate ascendent, respectiv Tabel 1.5. Tabelul de distribuie a frecvenelor pentru o variabil cantitativ
continu sau una discret cu numr foarte mare de modaliti.
descendent10 (vezi tab.1.5).
Frecvena cumulat
Caracteristica Efectivul
Frecv.relativ
Reprezentrile grafice
X
e
f%=(e/N)100
uzuale sunt, n acest caz,
ascendent
descendent
histogramele
i
curbele
c1
e1
f1
fca1=f1
fcd1=100
cumulative.
c2
e2
f2
fca2=fca1+f2
.
.
.
.
ci
.
.
.
cn
ci-1<ci<ci+1

.
.
.
ei
.
.
.
en
ei = N

.
.
.
fi
.
.
.
fn
fi = 100

.
.
.
fcai=fcai-1+fi
.
.
.
fcan=100

.
.
.
fcdi=fcdi+1+fi
.
.
fcdn-1=fcdn+fn-1
fcdn=fn

Histograma
(vezi
fig.1.3, 1.4-a) se construiete
ntr-un sistem de coordonate
rectangulare: pe abscis se trec
valorile
care
delimiteaz
clasele, iar pe ordonat valorile
frecvenelor.
Atunci cnd clasele au o
amplitudine
constant
dreptunghiurile au limi (baze)
egale, iar nlimile lor sunt proporionale cu frecvenele de clas.
n cazul distribuiilor cu clase de amplitudine variabil, ns, relaia de proporionalitate trebuie
aplicat la suprafeele dreptunghiurilor, Figura 1.3. Distribuia celor 80 de studeni ai anului I
nu la nlimile lor.
Geografie dup nota obinut la disciplina Geografie general.
Soluia uzual a acestei probleme const
n alegerea unui interval-etalon de clas,
a crui amplitudine (de preferin
unitar) s fie divizor comun al
amplitudinii tuturor celorlalte clase.
Ctul dintre amplitudinea unei clase
oarecare i amplitudinea clasei-etalon,
calculat atunci cnd amplitudinea claseietalon nu este unitar, servete la
reducerea (prin mprire) frecvenei de
clas la frecvena clasei-etalon, rezultnd
aa-numitele frecvene medii (vezi
tab.1.6 i fig.1.4-b, n care amplitudinea
clasei-etalon este egal cu 1). n felul
acesta dreptunghiurile histogramei, cu
limi
(baze)
inegale,
ntruct
proporionale cu amplitudinile claselor corespunztoare, vor avea nlimi proporionale cu
frecvenele reduse (medii) aferente claselor respective.

10

Cumularea frecvenelor relative simple se numete ascendent, respectiv descendent n raport cu ordinea
(cresctoare) a claselor de valori din tabel. De aceea n tab.1.5 frecvenele cumulate ascendent se succed de sus n
jos (n sensul creterii valorilor claselor), iar cele cumulate descendent se succed de jos n sus (n sensul descreterii
valorilor claselor).

17

Tabel 1.6. Tabelul de distribuie a frecvenelor pentru o variabil cantitativ continu sau una
discret cu numr foarte mare de modaliti, cazul claselor cu amplitudine inegal: rata
omajului n departamentele regiunii Franche Comte, Frana, n 1982.
Caracteristica X
(rata omajului,%)

Amplitudinea
ai

Raportul
ri=ai/1

Efectivul
ei

Frecv.simpl
fi%

Frecv.medie
fmi=fi/ri

[5;6)
[6;8,5)
[8,5;11)
[11;13)
Total

1
2,5
2,5
2

1
2,5
2,5
2

1
5
5
2
ei = 13

7,7
38,5
38,5
15,4
fi = 100%

7,7
15,4
15,4
7,7

Frecvena
cumulat
asc.
7,7
46,2
84,7
100

desc.
100
92,3
53,8
15,4

Figura 1.4. Histograma unei distribuii de frecvene cu clase de amplitudini


egale (a) i inegale (b).

Prin
unirea
punctelor
situate
la
mijlocul
prilor
superioare ale
dreptunghiurilo
r se obine o
linie
frnt
cunoscut sub
denumirea de
poligonul
frecvenelor
(vezi fig.1.3).
Suprafaa
cuprins ntre
linia poligonal
i axa absciselor este aproximativ egal cu suprafaa histogramei (egalitatea perfect exist
atunci cnd numrul de clase este infinit). Poligoanele frecvenelor se utilizeaz frecvent pentru
prezentarea simultan pe acelai grafic a mai multor distribuii.
Curbele cumulative se construiesc la fel ca i histogramele, cu dou deosebiri:
- se folosesc frecvenele cumulate (ascendent sau descendent) n locul celor simple;
- pe grafic nu mai apar dreptunghiurile ntregi, ci doar limile de la partea lor
superioar; acestea se unesc apoi prin linii verticale, ceea ce confer curbei cumulative aspectul
specific de curb n trepte (vezi fig.1.5). Atunci cnd numrul de clase este foarte mare graficul
n trepte tinde ctre o curb netezit avnd aproximativ forma literei S, respectiv S ntors;
analogia de form poate fi fcut i cu simbolul matematic pentru integral ( ), cu att mai mult
cu ct, n sens matematic, curba frecvenelor cumulate ascendent reprezint integrala curbei
frecvenelor simple (n cazul distribuiilor cu numr infinit de clase).
Curbele frecvenelor cumulate permit, ca i histogramele, localizarea, n cadrul
intervalului total de variaie, a claselor sau grupelor de clase cu frecvene mari (pant mai
accentuat a curbei) sau mici (pante mai reduse). Dar importana lor deosebit pentru analizele
statistice rezult din faptul c ele permit aflarea rspunsului la dou ntrebri complementare:
a) care este proporia (sau frecvena, sau, la limit, probabilitatea) cazurilor crora le
corespunde o modalitate inferioar sau superioar unei anumite valori-prag?
18

Din fig.1.5-a reiese destul de clar, credem, modul de rezolvare a acestei probleme: fiind dat
nota-limit 7,50, din grafic rezult prin citire direct c 71% din studeni au note mai mici, sau
cel mult egale cu aceasta, n timp ce diferena pn la 100%, adic 29% din studeni, au note
mai mari dect nota-limit. Dac distribuia ar avea o infinitate de clase, atunci am putea spune trecnd de la noiunea de frecven la cea de probabilitate - c probabilitatea unei valori mai
mici sau cel mult egale cu 7,50, numit probabilitate sau asigurare de nedepire, este de 0,71
(sau 71%); probabilitatea complementar, numit probabilitate sau asigurare de depire, va fi
de 1-0,71 = 0,29 (sau 29%).
Deoarece graficul din fig.1.5-a permite citirea direct a asigurrii de nedepire, el mai

Figura 1.5. Curba cumulativ ascendent (a) i descendent (b).

poart denumirea de graficul (curba) asigurrii de nedepire. Prin comparaie, curba


cumulativ descendent din fig.1.5-b, care permite citirea direct a asigurrii de depire, se mai
numete graficul (curba) asigurrii de depire sau pur i simplu grafic (curb) de asigurare
(denumire folosit curent n hidrologie i climatologie).
b) care este modalitatea (valoarea) creia i corespunde o proporie dat a cazurilor cu
valori inferioare sau superioare modalitii respective?
Este clar c pentru rezolvarea acestei probleme demersul este invers: proporia (frecvena,
probabilitatea) se identific pe ordonata graficului, iar valoarea cutat se citete direct de pe
abscis . Dac se utilizeaz graficul din fig.1.5-a, atunci valoarea gsit este aceea fa de care
proporia dat include cazurile mai mici, sau cel mult egale cu aceasta (urmnd ca diferena
pn la 100% s includ cazurile mai mari ca valoarea respectiv); cu graficul din fig.1.5-b,
proporia dat include, dimpotriv, cazurile mai mari sau cel mult egale cu valoarea citit direct
de pe abscisa graficului.
O problem foarte important, asupra creia trebuie insistat, este aceea a stabilirii
claselor de frecvene, deoarece de aceasta depind att prelucrrile ulterioare, ct i
corectitudinea rezultatelor i a interpretrilor acestora. n legtur cu aceast operaiune
fundamental dou aspecte au un rol deosebit: stabilirea numrului de clase i fixarea limitelor
claselor (implicit, a amplitudinii claselor).
a) Stabilirea numrului de clase. Numrul de clase depinde, n general, de numrul de
modaliti ale caracteristicii (numrul de valori din ir). Nu putem grupa 30 de valori n 10 clase
(o medie de 3 valori/clas), cci frecvenele ar fi prea mici i nu ar putea s sintetizeze

19

distribuia statistic. La fel, fixarea unui numr de 5 clase pentru un ir de 3000 de valori este
inacceptabil, cci acest lucru ar simplifica grosier repartiia, ducnd la o pierdere de informaie.
Nu exist o reet infailibil pentru stabilirea numrului de clase. Cei mai muli
statisticieni recomand un numr de clase cuprins ntre 7 i 15. Unii au ncercat s gseasc o
soluie matematic acestei probleme, ajungnd la nite formule orientative de calcul. Iat doua
exemple:
- relaia Huntsberger:
k = 1 + 3.3 * log(n) ;
- relaia Brooks-Caruthers:
k < 5 * lg(n)
n care k = numrul de clase, n = efectivul total al modalitilor (nr. de valori din ir).
b) Fixarea limitelor claselor (i, implicit, a amplitudinilor de clas) este o operaiune
hotrtoare pentru sintetizarea corect a distribuiei valorilor n cadrul intervalului total de
variaie. Pentru a se limita ct mai mult erorile cauzate de mprirea n clase se urmrete, de
obicei, respectarea a dou reguli: limitele claselor s varieze regulat, iar repartizarea valorilor pe
clase s fie ct mai uniform. Din pcate, cele dou cerine sunt antagonice: dac se stabilesc
limitele de clas ca termeni ai unei progresii regulate, se obin frecvent fie clase vide (dar, din
motive de corectitudine a prelucrrilor ulterioare, se recomand ca efectivul unei clase s nu fie
mai mic de 5), fie clase foarte aglomerate; dac se ncearc o repartizare uniform a valorilor
pe clase, atunci limitele succesive nu urmeaz o progresie regulat, rezultnd clase cu
amplitudini inegale.
Inegalitatea amplitudinilor de clas atrage dup sine imposibilitatea comparrii directe a
frecvenelor claselor. n acest caz se calculeaz aa-numitele frecvene medii, ca raporturi
ntre frecvenele de clas i frecvena clasei cu cea mai mic amplitudine (numit clas de
referin); acestea vor fi apoi utilizate n prelucrrile ulterioare i n construirea graficelor de
distribuie (histograme i curbe cumulative).
Este clar c stabilirea unor clase cu amplitudini inegale duce la creterea volumului de
munc n vederea alctuirii distribuiei de frecvene. De aceea se va evita, pe ct posibil, aceast
alternativ de lucru i se va ncereca fixarea unor limite de clas care s se succead ntr-o
progresie regulat.
Cele mai utilizate progresii sunt progresia aritmetic, progresia geometric i cea
ptratic. Cu ajutorul lor limitele se pot stabili precis, utiliznd valorile extreme i numrul de
clase.
- n cazul progresiei aritmetice diferenele dintre dou limite succesive, respectiv
amplitudinile de clas, sunt constante i se obin n felul urmtor:
M -m
a=
k 0,
unde a = amplitudinea (i rata progresiei, n acelai timp), M = valoarea maxim din ir, m =
valoarea minim, k = numrul de clase. Limitele obinute vor fi respectiv m, m+a, m+2a, ...,
m+ka=M. Neajunsul principal al acestei metode este c detaliaz n mod exagerat zona
valorilor extreme din ir (acolo unde, de regul, exista un numr mai mic de valori).
- n cazul progresiei geometrice limitele de clas succesive se obin prin nmulirea cu
un raport constant R. Acest raport (rata progresiei) se calculeaz astfel:
R= k

M
m

(m > 0)

0,
iar limitele vor fi de forma m, Rm, Rm, Rm, ..., Rkm=M. Neajunsul acestei metode este
acela c detaliaz, n cadrul distribuiei de frecvene, zona valorilor mici, iar amplitudinile sunt
inegale. n plus, metoda nu se poate aplica dect dac m este strict pozitiv. Pentru uurarea

20

calculelor se poate valorifica faptul ca logaritmii limitelor urmeaz o progresie aritmetic - deci
limitele vor fi de forma log(m), log(m)+log(R), log(m)+2log(R) etc.
- progresia ptratic, prin proprietile sale, elimin dezavantajele primelor dou.
Limitele succesive se obin prin ridicarea la ptrat a termenilor unei progresii aritmetice la care
raia se calculeaz cu formula:
P=

M - m
k

rezultnd seria: m, ( m 0+P), ( m 0+2P), ..., ( m 0+kP).


n general vorbind, progresia aritmetic este aplicabil mai ales n cazul distribuiilor
uniforme sau/i simetrice, pe cnd celelalte dou sunt utile n cazul distribuiilor asimetrice11.
Odat fixate numrul de clase, limitele i amplitudinile acestora, se determin efectivele,
frecvenele relative simple (sau medii) i cele cumulate i, pe baza acestora, se construiesc
histogramele i curbele cumulative. aa cum s-a menionat deja, se obinuiete o netezire
(ajustare) a poligoanelor frecvenelor, respectiv a curbelor cumulative. Curbele ajustate se
compar, apoi, cu nite curbe teoretice n ceea ce privete numrul i poziia, n cadrul
intervalului de variaie, ale claselor cu frecven maxim. Din acest punct de vedere se pot
ntlni mai multe cazuri tipice de curbe ale frecvenelor relative simple/medii (vezi fig.1.6):

Figura 1.6. Cteva forme tipice ale unor curbe de distribuie a frecvenelor ntlnite n geografie.

a) curb n form de clopot (cu un singur maxim de frecven) i simetric - n acest caz
distribuia se numete unimodal12 i simetric, apropiat ca form de aa-numita curb
normal sau clopotul lui Gauss (fig.1.6-a: presiunea atmosferic medie lunar). Curba
normal este o curb teoretic fundamental pentru Statistic i asupra ei vom reveni pe larg
ntr-unul din capitolele urmtoare;
11

La nivelul acestui prim capitol simetria/asimetria unei distribuii de frecvene s-ar putea defini astfel: spunem c
o distribuie este simetric atunci cnd clasele cu cele mai mari frecvene se grupeaz spre mijlocul intervalului total
de variaie; dimpotriv, distribuia este asimetric atunci cnd clasele cu frecvene mari se grupeaz spre
extremitile intervalului total de variaie (fie n zona valorilor mici, fie n cea a valorilor mari).
12
Noiunea de mod sau valoare modal a unei distribuii statistice va fi discutat n capitolul urmtor.

21

b) curb n form de J sau J ntors, cu maximul de frecven n imediata apropiere a


unuia din capetele intervalului de variaie (fig.1.6-c: presiunea atmosferic minim absolut
lunar; fig.1.6-d: debite minime lunare ale ale Bahluiului la Iai, 1956-1992). Este un tip de
curb destul de rspndit n geografie - de ex. la distribuiile de frecvene ale cantitilor zilnice
de precipitaii (majoritatea dintre acestea fiind, de regul, sub 1 mm). Asimetria unei astfel de
curbe este maxim;
c) curba unimodal cu asimetrie intermediar este cea mai frecvent n cazul
distribuiilor de frecvene ale variabilelor geografice (fig.1.6-b: umezeala relativ a aerului toate datele meteo sunt pentru staia Iai, 1961-1992);
d) curbele bimodale sau chiar plurimodale sunt
cele la care apar dou sau mai multe maxime de
frecven. Prezena mai multor maxime indic, de
regul, un amestec de populaii diferite n cadrul
eantionului prelucrat (fig.1.7).
e) curbele amodale sunt cele la care nu se
evideniaz clar unul sau mai multe maxime de
frecven. n aceast categorie pot fi incluse curbele n
form de U (la care, deci, maximele de frecven sunt
plasate la extremitile intervalului de variaie.
Figura 1.7. Distribuia rilor lumii dup
Toate tipurile de distribuii statistice crora le consumul zilnic de calorii pe cap de locuitor.
corespund curbele de mai sus pot fi caracterizate
numeric cu ajutorul unui numr relativ redus de indici (parametri) sintetici care permit dou
operaiuni de baz n analizele statistice:
1 compararea ntre ele a curbelor i, implicit, a distribuiilor corespunztoare;
2 compararea acestora cu nite curbe (distribuii) teoretice care joac rolul unor modele
de referin.

22

CAP.II. PARAMETRII UNEI DISTRIBUII STATISTICE.


Pentru caracterizarea numeric sintetic a unei distribuii statistice, implicit a curbei de
distribuie corespunztoare, se determin patru tipuri de parametri (indici), fiecare tip descriind
anumite caracteristici ale acestora:
- parametrii de nivel, numii deseori i parametri aitendinei centrale sau valori
centrale. Sunt numii parametri de nivel pentru c ei exprim nivelul pn la care se dezvolt
(urc) ansamblul valorilor distribuiei; valori centrale deoarece ei se plaseaz, ndeobte, n
zona de maxim concentrare a valorilor (zona frecvenelor maxime), astfel nct n jurul lor se
plaseaz, la distane mai mari sau mai mici, celelalte valori din ir;
* parametrii dispersiei, care exprim gradul de mprtiere a valorilor din ir n jurul
valorilor centrale;
* indicii de asimetrie, care exprim asimetria curbelor de distribuie, adic msura
(cantitativ ) n care maximul de frecven este deplasat spre stnga sau spre dreapta fa de
centrul intervalului de variaie;
* indicii de exces, care exprim numeric gradul de grupare (concentrare) a valorilor din
ir n apropierea valorilor centrale, de aici decurgnd forma mai ascuit sau, dimpotriv, mai
aplatizat, a curbelor de distribuie.
Deoarece se refer explicit la curbele de distribuie, ultimele dou tipuri de parametri
sunt grupai uneori sub denumirea de parametrii formei (curbei de distribuie).
2.1. Valorile centrale
Trei sunt parametriitendinei centrale care sunt mai des utilizai n analizele statistice:
modul, mediana i media (aritmetic).
2.1.1. Modul (sau moda, sau valoarea modal) (Mo)
n cazul caracteristicilor calitative sau cantitative discrete, modul este valoarea
dominant din ir (valoarea cu cea mai mare frecven) i ea se obine direct din tabelul de
distribuie.
n cazul distribuiilor cu clase de frecvene (caracteristici cantitative continui) se
vorbete despre o clas modal, care este clasa creia i corespunde cea mai mare frecven.
Valoarea modal se calculeaz cu ajutorul unei formule care ia n considerare att clasa modal,
ct i clasele vecine acesteia, formul bazat pe principiul interpolrii liniare (n ipoteza c
valorile sunt uniform distribuite n interiorul clasei modale):
Mo = l i(Mo) +

1
1 + 2

* a(Mo)

-f
-f
=f
=f
unde 1 (Mo) (Mo-1) , iar 2 (Mo) (Mo+1) . Simbolurile folosite reprezint:

Mo - modul;
li(Mo) - limita inferioar a clasei modale;
f(Mo) - frecvena clasei modale;
f(Mo-1) - frecvena clasei de dinaintea celei modale (clasele fiind ordonate cresctor);
f(Mo+1) - frecvena clasei de dup cea modal;
a(Mo) - amplitudinea clasei modale.

23

Prin comparaie cu celelalte valori centrale, modul prezint unele avantaje, dar i unele
dezavantaje.
Avantaje:
este singura valoare central care poate fi determinat n cazul caracteristicilor
calitative nominale - de aceea este deosebit de important pentru geografie, unde se lucreaz
deseori cu date de acest tip;
este util atunci cnd se urmrete reliefarea unei trsturi dominante a
fenomenului analizat pe baza datelor de observaii - de ex. suprafaa lacurilor dintr-un teritoriu,
sau numrul de locuitori/comun, unde modul poate indica predominarea unei categorii sau
alteia de mrime. n felul acesta modul poate fi expresia unei structuri spaiale ce
caracterizeaz o regiune, cci el poate traduce o dominant n climat, peisaj, economie etc.
(Chadule, 1974).
Dezavantaje:
ntruct este legat numai de frecven, modul nu reuete s caracterizeze
suficient o distribuie;
poziia i, eventual, numrul claselor modale13 depind foarte mult de modul de
grupare n clase; o schimbare a numrului de clase sau a limitelor acestora poate provoca
modificri dramatice n acest sens;
la unele distribuii statistice este posibil ca modul s nu existe, altfel spus nu se
pune n eviden o valoare, sau o clas modal, cu frecven maxim;
prin felul cum se determin, valoarea modal nu posed caliti aritmetice bine
definite i, deci, nu poate fi preluat n calcule ulterioare pentru derivarea unor caracteristici
suplimentare ale distribuiilor statistice.
2.1.2. Mediana (valoarea median) (Me)
Mediana este valoarea situat la mijlocul irului de modaliti ordonate cresctor (sau
descresctor, n unele cazuri), mprindu-l n dou jumti egale, astfel nct jumtate din
valorile irului se afl deasupra, iar jumtate dedesubt.
Ea mai este numit medie probabil, n sensul c exist o probabilitate de 0,5 (sau
50%) ca o valoare oarecare din ir s fie inferioar/superioar medianei.
n cazul irurilor de valori individuale (caracteristici cantitative discrete) mediana se
calculeaz diferit, dup cum numrul de valori din ir (n) este par sau impar:
Me =

x k + x k +1

2
n = 2k (numr par):
,
adic mediana este media aritmetic a celor dou valori din mijlocul irului;
n = 2k+1 (numr impar): Me = x k +1 ,
adic mediana este chiar valoarea din mijlocul irului.
n cazul distribuiilor cu clase de frecvene avem de-a face cu o clas median, care
este prima clas (n sensul, cresctor sau descresctor, al ordonrii claselor) la care frecvena
cumulat depete 50%. Pentru determinarea medianei se iau n considerare caracteristicile
acestei clase, precum i frecvena cumulat a clasei anterioare. Formula de calcul este
urmtoarea:
Me = l i(Me) +

a(Me)
f (Me)

(50% - f c(Me-1) )

, unde

Me - mediana;
13

Distribuiile cu un singur maxim de frecven (un singur mod) se numesc distribuii unimodale; n cazul
distribuiilor bi- sau plurimodale vom avea un mod principal i unul, respectiv mai multe moduri secundare.

24

li(Me) - limita inferioar a clasei mediane;


a(Me) - amplitudinea clasei mediane;
f(Me) - frecvena simpl a clasei mediane;
fc(Me-1) - frecvena cumulat a clasei dinaintea celei mediane.
Avantajele medianei fa de celelalte valori centrale:
prin definiie, mediana este valoarea cea mai apropiat, ca poziie, de toate
celelalte valori din ir; altfel spus, suma distanelor, n valoare absolut, dintre median i
celelalte valori din ir este minim, aseriune care poate fi formalizat astfel:
n

| x i - A |= minim
i=1
, dac A este mediana14.

Aceast nsuire este important n unele probleme de ordin practic.


Exemplu. De-a lungul unei autostrzi cu lungimea de 600 km sunt amplasate 6 staii de
benzin, conform schiei de mai jos:
_n______n____________n___n___________n___________n
5
100
250 300
450
600 km
Se cere s se gseasc poziia optim a unui depozit de carburant, n aa fel nct cheltuielile de
transport pentru aprovizionarea celor 6 staii s fie minime.
Conform proprietii menionate mai sus, amplasamentul optim al depozitului va fi n
punctul ce corespunde medianei celor 6 distane (kilometrul 275 al autostrzii). Suma
distanelor dintre acest punct i staiile de benzin este de 975 km, mai mic dect suma
distanelor dintre orice alt punct i staiile respective - pentru comparaie s lum punctul ce
corespunde mediei aritmetice (kilometrul 284), fa de care distanele nsumate totalizeaz 995
km.
spre deosebire de urmtorul parametru (media), mediana nu este influenat de valorile
extreme ale irului, meninndu-se astfel mai aproape de zona central a intervalului de variaie.
2.1.3. Media aritmetic15 ( x )
Media este valoarea central cea mai utilizat, datorit faptului c are proprieti
aritmetice clare i, deci, poate fi utilizat n calcule ulterioare.
Pentru irurile de valori individuale formula de calcul este cea cunoscut:
n

x=

i=1

,
unde n este numrul de valori din ir.
Pentru distribuiile de frecvene acest parametru se calculeaz ca medie a centrelor de
clas ponderate cu frecvenele aferente claselor respective:
14

n cazul variabilelor calitative ordinale (pentru care se poate calcula, de asemenea, o valoare median) relaia de
minim nu mai are sens.
15
n analizele statistice se vehiculeaz i alte tipuri de medii, n afara celei aritmetice (care rmne, totui, cea mai
important), cum ar fi: media geometric, media ptratic, media armonic, media glisant .a. Din motive de
economie a limbajului n expunerea ulterioar termenul medie se va referi exclusiv la media aritmetic, urmnd
ca pentru alte tipuri de medii termenul s fie nsoit de determinativul specific.

25

n
xi * f i
i
=
x = 1n
fi
i=1

unde n este numrul de clase.


Proprietile aritmetice ale mediei sunt urmtoarele:
1. suma abaterilor valorilor din ir de la medie este nul:
n

( xi - x ) = 0
i=1

2. dac valorile din ir se modific prin adugarea/scderea unei constante, atunci


media crete/scade cu aceeai constant :
x 'i = x i a x = x a

3. dac y este media unui alt ir i di sunt diferenele (xi - yi), atunci
n

di
x = y + i=1 = y + d
n

Aceast proprietate este util, spre exemplu, n climatologie i hidrologie pentru prelungirea
irurilor de observaii.
4. suma ptratelor abaterilor valorilor din ir de la media lor aritmetic este minim:
n

2
( xi - A ) = minim
i=1
, dac A = x .

Aceast proprietate este larg utilizat n calculele ulterioare implicate de analizele distribuiilor
statistice.
Dezavantajul mediei aritmetice este c, ntruct ia n consideraie ordinul de mrime al
tuturor valorilor, devine sensibil la valorile foarte mari sau foarte mici. Aceste valori extreme
pot fi deseori puin semnificative, excepionale sau chiar aberante (erori grosiere de observaii
sau msurtori). n felul acesta media nu mai reflect corect tendina central a distribuiei
statistice.
Pe de alt parte, media comprim excesiv valorile extreme, comparativ cu cele aflate
mai spre centrul repartiiei. La distribuiile simetrice faptul acesta conteaz mai puin, ns la
cele cu asimetrie pronunat situaia se schimb.
Exemplu. ntr-o zon cu climat arid irul de precipitaii anuale (n mm) nregistrate pe 10 ani consecutiv
etaleaz urmtoarele valori:
0; 10; 0; 0; 100; 20; 250; 0; 0; 20.
Valorile ordonate cresctor, pentru determinarea modului i a medianei:
0; 0; 0; 0; 0; 10; 20; 20; 100; 250.
Valorile centrale sunt: Mo = 0 mm; Me = 5 mm; x = 40 mm.
Este clar ca mediana, i chiar modul, reflect mai corect condiiile pluviometrice din deert; fa de
acestea media este tras n sus de ctre cele dou valori foarte mari. Rezult de aici i dezavantajul de a folosi o
singur valoare central pentru caracterizarea unei distribuii.

2.2. Parametrii dispersiei


Dac datele sunt reprezentate grafic, cea mai simpl i eficient indicaie asupra
mprtierii valorilor n cadrul intervalului total de variaie o ofer curba de distribuie a
frecvenelor. Pentru exprimarea numeric a acestei mprtieri se folosesc parametrii dispersiei.
26

La determinarea acestor parametri se pot lua n considerare valorile extreme, mediana


sau media aritmetic.
2.2.1. Amplitudinea de variaie ()
Reprezint diferena dintre valoarile maxim i minim ale irului:
= x max - x min
Dezavantajul principal, care face ca acest parametru s fie practic inutilizabil pentru
caracterizarea dispersiei, este c amplitudinea nu poate preciza gradul de dispersie a valorilor
fa de o valoare central. Ea exprim doar ordinul de mrime al intervalului de variaie a
caracteristicii, presupunnd c n interiorul acestuia valorile ar fi repartizate uniform (ceea ce,
de regul, nu este adevrat). Se utilizeaz, totui, atunci cnd valorile extreme au o semnificaie
deosebit pentru fenomenul studiat - de ex. amplitudinea termic absolut, n caracterizarea
gradului de continentalism climatic al unei regiuni.
2.2.2. Cuartilele i abaterile cuartile
Dac valoarea central folosit este mediana, atunci dispersia poate fi exprimat sub
forma abaterilor cuartile.
Cuartilele (sau quartile, n ortografiere etimologic) sunt parametri analogi medianei,
dar care mpart irul de valori n 4 pri egale, fiecare incluznd 25% din valorile irului 16. De-a
lungul unui ir ordonat cresctor vom identifica, deci, un numr de 3 cuartile, notate de regul
cu Q1, Q2 (= Me) i Q3.Cu ajutorul acestora se pot calcula doi indici de dispersie:
abaterea cuartil (intercuartil), care reprezint diferena, n valoare absolut, dintre
prima i a treia cuartil ( Q 3 - Q1 ). Se obine o imagine asupra dispersiei comparnd abaterea
intercuartil cu amplitudinea total ();
Q 3 - Q1

abaterea semiintercuartil ( 2 ), care se definete ca media probabil a abaterilor


de la median - altfel spus, jumtate din modalitile caracteristicii difer de median prin mai
mult dect aceast valoare, iar cealalt jumtate prin mai puin.
Avnd, ca i mediana, avantajul c nu sunt influenate de valorile extreme ale irului,
abaterile cuartile pstreaz i dezavantajul acesteia: nu iau n considerare toate valorile, deci nu
exprim ntreaga distribuie statistic.
2.2.3. Indici de dispersie care au la baz media aritmetic
Atunci cnd valoarea central luat n considerare este media, dispersia unei distribuii
poate fi exprimat cu ajutorul mai multor indici.
abaterea (absolut) medie (ea) reprezint media aritmetic a abaterilor valorilor din ir
(n valoare absolut) de la media acestuia:
n

| xi - x |
i
=
1
ea =
n

16

Atunci cnd se dorete o analiz mai detaliat a modului cum sunt repartizate valorile n interiorul intervalului
total de variaie, irul poate fi mprit n mai mult de 4 pri egale. Valorile care delimiteaz aceste subiruri sunt
cunoscute sub denumirea generic de cuantile. Exemple de cuantile: median, cuartile, decile (mpart irul iniial n
10 pri egale), centile (mpart irul n 100 de pri) etc.

27

La distribuiile cu clase de frecvene abaterile centrelor de clas se pondereaz cu frecvenele


aferente:
n

| xi - x | f i
i
=
1
ea =
n
fi
i=1

ntruct lucreaz cu abaterile absolute, ignornd semnul acestora, utilizarea ea n calcule


ulterioare este restrns;
dispersia sau variana () reprezint media aritmetic a ptratelor abaterilor valorilor
din ir de la media acestuia:
n

2
( xi - x )
2 i=1
=
n

Pentru distribuiile de frecvene formula se modific n mod corespunztor:


n

2
( xi - x ) f i
2 i=1
=
n
fi
i=1

Deci problema semnului abaterilor este rezolvat (corect, din punct de vedere matematic) prin
ridicarea acestora la ptrat. n schimb, semnificaia concret a indicelui este alterat de faptul c
unitatea de msur a mrimii pe care o exprim (de ex. C, loc/km etc.) este i ea ridicat la
ptrat. O cale simpl de nlturare a acestui neajuns o constituie extragerea rdcinii ptrate din
varian, obinndu-se cel de-al treilea parametru i anume
abaterea standard (sau deviaie standard, abatere medie ptratic, ecart-tip) ()
reprezint, deci, rdcina ptrat a varianei unei distribuii:
n

2
( xi - x )
= 2 = i=1
n
,

iar pentru distribuiile de frecvene:


n
2
( xi - x ) f i
= 2 = i=1 n
fi
i=1

Parametrii prezentai pn aici exprim dispersia n valori absolute, adic n valori


crora li se poate ataa o unitate de msur (C, m/s, mm, ha, loc/km etc). Aceasta nseamn
c ordinul lor de mrime depinde de ordinul de mrime al valorilor distribuiei analizate, n
spe de ordinul de mrime al Me sau x . Acest lucru constituie un impediment atunci cnd
dorim s comparm ntre ele mai multe distribuii sub aspectul dispersiei. Problema se rezolv
exprimnd dispersia n procente din valoarea central pe baza creia a fost estimat, rezultnd
aa-numiii indici de variabilitate relativ. Aceti indici sunt foarte utili n geografie, mai ales n
studierea variabilitii spaiale i/sau temporale a unui fenomen.
Pornind de la parametrii de dispersie prezentai anterior se pot calcula trei astfel de
indici:

28

abaterea cuartil (intercuartil) relativ, care reprezint raportul procentual dintre


abaterea intercuartil i median:
Q 3 - Q1
Q2

x100

;
variabilitatea relativ - raportul procentual dintre abaterea absolut medie i media
aritmetic:
ea
x

x100

;
coeficientul de variaie (notat de regul cu CV), ca raport procentual dintre abaterea
standard i medie:
CV =

x100

.
Cei trei indici au avantajele/dezavantajele mrimilor ce intr n calcul. Prin urmare
coeficientul de variaie este, potenial, cel mai potrivit pentru a fi utilizat n prelucrri ulterioare.
*
* *
Atunci cnd se analizeaz un set de date se pune problema alegerii parametrilor statistici
care s corespund cel mai bine scopurilor analizei statistice. Fr a exista nite reguli precise,
alegerea parametrilor de calculat trebuie s in cont de urmtoarele aspecte:
- n general este bine s se calculeze toate cele trei valori centrale: Mo (dac avem o
distribuie de frecvene), Me i x , ntruct cu ajutorul lor poate fi evaluat asimetria distribuiei:
i) x 0 < Me < Mo - asimetrie de dreapta, sau negativ;
ii) x 0 > Me > Mo - asimetrie de stnga, sau pozitiv;
iii) x 0 Me Mo - distribuie cvasi-simetric.
- scopul prelucrrii datelor, ca i faptul dac rezultatele urmeaz, sau nu, s fie preluate
n calcule ulterioare. Dac se urmrete doar descrierea i caracterizarea sintetic a unor
ansambluri de date pentru a facilita nelegerea unor fenomene, atunci modul sau mediana,
mpreun cu abaterea medie, abaterile cuartile i, eventual, variabilitatea relativ vor fi
suficiente, avnd n vedere i faptul c aceti indici sunt mai intuitivi (deci mai uor de pus n
relaie cu fenomenul descris). Pentru analize statistice mai complexe, ns, utilizarea mediei i a
indicilor care au la baz media este obligatorie;
- natura datelor supuse prelucrrilor, altfel spus tipul de caracteristic a crei distribuie
statistic se vrea a fi analizat. Conteaz, deci, dac avem de-a face cu o carecteristic calitativ
nominal sau ordinal, una cantitativ discret sau una cantitativ continu, ntruct, aa cum
s-a vzut anterior, posibilitatea i modul de calculare a parametrilor statistici difer de la un tip
la altul;
- nivelul de nelegere a beneficiarului rezultatelor analizei. Este clar c un beneficiar
fr cunotine de statistic va prefera un material mai bogat n ilustraii, fr prea multe
formule i indici (cifre) ale cror semnificaii sunt mai greu de evaluat i interpretat;
- prezena/absena calculatorului, ntruct, aa cum s-a vzut, determinarea unora dintre
indici presupune calcule laborioase.
2.3. Parametrii formei
Aa cum s-a menionat, aceti parametri se refer n primul rnd la forma poligoanelor
(curbelor) frecvenelor. Utilizarea lor n geografie este mai puin frecvent, deoarece capacitatea
29

lor descriptiv este mai redus comparativ cu ali indici statistici. Totui, parametrii de form
sunt foarte utili atunci cnd se urmrete compararea unei distribuii empirice (alctuit pe baza
unui eantion) cu o distribuie teoretic susceptibil de analogii cu distribuia eantionului.
2.3.1. Indici de asimetrie
Indicii (coeficienii) de asimetrie exprim numeric msura n care maximul de frecven
al unei distribuii este deplasat, spre stnga sau spre dreapta, fa de centrul intervalului de
variaie al caracteristicii. Din multitudinea indicilor de asimetrie
oferii de literatura de specialitate prezentm aici doar doi, a cror
utilizare este mai frecvent.
coeficientul Pearson - se calculeaz doar pentru distribuiile de
frecvene, deoarece ia n considerare modul:
As =

x - Mo

n funcie de raporturile de mrime dintre x i Mo coeficientul


poate fi negativ, nul sau pozitiv, aceleai atribute fiind conferite
asimetriei distribuiei de frecvene:
Figura 2.1. Asimetrie pozitiv (a)
i) x < Mo - asimetrie negativ (numrtorul din formul i negativ (b) a unei curbe de
este mai mic ca 0) sau de dreapta (modul este mai mare ca media, distribuie a frecvenelor.
ceea ce nseamn c maximul de frecven este deplasat spre
dreapta fa de centrul intervalului de variaie - vezi fig.2.1-b);
ii) x = Mo - asimetrie nul. Curba de distribuie este perfect simetric, iar cele trei
valori centrale coincid, fiind plasate n centrul intervalului de variaie;
iii) x > Mo - asimetrie pozitiv (numrtorul este pozitiv) sau de stnga (modul este
plasat, n cadrul intervalului de variaie, la stnga fa de medie i fa de centrul intervalului vezi fig.2.1-a).
coeficientul Fisher (1) - ia n considerare cubul abaterilor valorilor de la media lor aritmetic:
n

3
( xi - x )
1 = i=1
n 3

pentru iruri de valori individuale, iar pentru distribuia pe clase de frecven


n
3
( xi - x ) f i
1 = i=1 n
3
fi
i=1
.

Acest indice poate fi pozitiv, negativ sau nul, interpretarea asimetriei fcndu-se la fel ca n
cazul coeficientului Pearson.
2.3.2. Indici de exces (de aplatizare)
Sunt indici care exprim numeric gradul de aplatizare a curbei de distribuie, aplatizare ce
depinde de gradul de concentrare a valorilor caracteristicii n apropierea maximului de
frecven; altfel spus, de diferena dintre frecvena clasei modale i cea a claselor din
apropiere - cu ct diferena este mai net, cu att curba va fi mai ascuit i invers.

30

4
( xi - x )
-3
2 = i=1
4
n

Cel mai des utilizat este coeficientul 2 al lui Fisher:


, iar pentru distribuiile
n
4
( xi - x ) f i
-3
2 = i=1
n
4
fi
i=1
cu clase de frecvene

Acest indice poate fi pozitiv, nul sau


negativ i interpretarea lui se face astfel
(vezi fig.2.2):
i)
2 < 0 - curba este mai
aplatizat dect una normal i se numete
platikurtic (grec. kurtosis = boltire);
ii) 2 = 0 - gradul de aplatizare a
curbei este identic cu cel al curbei normale;
iii) 2 > 0 - curba prezint un
exces de boltire, deci este mai ascuit
dect cea normal i se numete
leptokurtic.

Figura 2.2. Modificarea formei unei curbe de


distribuie a frecvenelor n funcie de excesul
acesteia.

31

CAP.III. TRANSFORMAREA I STANDARDIZAREA DATELOR.

Metodele de prelucrare numeric i grafic a distribuiilor statistice, prezentate pn


acum, au fost ilustrate cu exemple n care valorile concrete erau date reale, aa cum rezult ele
din operaiunile de msurare sau, mai general, din observaii asupra fenomenelor i proceselor
din lumea real.
Aplicarea metodelor menionate direct asupra datelor de observaii i msurtori este pe
deplin posibil atunci cnd scopul analizei nu trece dincolo de descrierea unui fenomen sau
proces cu ajutorul tabelelor, al diagramelor i al parametrilor statistici. Situaia se schimb, ns,
atunci cnd dorim s extindem analiza (1) prin compararea mai multor distribuii statistice, sau
(2) prin valorificarea unor modele teoretice utilizate n Statistica inferenial.
n cazul (1) compararea direct a distribuiilor statistice ntmpin trei tipuri de
dificulti:
valorile din iruri au ordine de mrime diferite - de ex. debitele medii zilnice ale unui
ru se exprim prin valori de ordinul zecilor (de m/s), n timp ce nivelurile corespondente au
ordine de mrime de ordinul sutelor (de cm);
valorile din iruri, chiar avnd acelai ordin de mrime, se refer la mrimi care au
uniti de msur diferite;
chiar dac nu apar dificultile de mai sus, este posibil ca dispersiile irurilor, exprimate
n valori absolute, s difere foarte mult, mpiedicnd comparaiile directe.
Asemenea dificulti pot fi nlturate n mare parte prin operaiunea de standardizare
(normare) a datelor.
n cazul (2) distribuia empiric de frecvene poate s difere mult de distribuia teoretic
ce constituie modelul de referin i punctul de plecare pentru raionamente i inferene
statistice. Diferena dintre distribuia empiric i cea teoretic poate fi redus printr-o operaiune
de transformare a datelor din irul supus prelucrrii.
3.1. Standardizarea (normarea)

Standardizarea este aciunea de transformare a datelor iniiale n aa fel nct s devin


posibile comparaiile ntre dou sau mai multe distribuii empirice, sau ntre o distribuie
empiric i una teoretic, indiferent de ordinul de mrime, dispersie sau uniti de msur.
Standardizarea combin dou operaiuni: centrarea i reducia.
1 centrarea valorilor unui ir const, n general vorbind, n nlocuirea valorilor
originale cu abaterile acestora de la valoarea de referin: mediana, media, sau o valoare
oarecare, considerat semnificativ pentru scopul analizei statistice. De remarcat, ns, c
centrarea, ca prim etap n cadrul standardizrii, presupune centrarea valorilor n raport cu
media aritmetic. Valorile centrate au o caracteristic ce deriv din proprietile mediei
aritmetice, anume aceea c suma lor este nul. Dac X este variabila analizat, iar X este
n

x i = 0

variabila centrat, atunci x i = x i - x , iar i=1


.
2 reducia unei variabile const, n general vorbind, n mprirea valorilor acesteia la
abaterea standard:
x i =

xi

Ca o a doua etap a standardizrii, ns, reducia se aplic variabilei centrate:

32

x i =

xi - x

.
O proprietate important a unei variabile reduse este aceea c abaterea sa standard este egal cu
unitatea: x = 1.
Prin urmare o variabil standardizat (centrat + redus) este o variabil a crei medie
este ntotdeauna 0 i a crei abatere standard este ntotdeauna 1. Valorile standardizate exprim
abaterile valorilor variabilei originale de la media lor aritmetic, abateri care sunt msurate n
numr de abateri standard. n felul acesta dispar unitatea de msur, dispersia i ordinul de
mrime ale variabilei i devine posibil compararea direct cu alt/alte variabile standardizate,
ntruct ele vor avea aceeai medie (0), aceeai dispersie (1) i difer numai prin mrimea
abaterilor valorilor lor de la medie.
3.2. Transformarea

O parte din interpretrile i concluziile referitoare la o distribuie empiric are la baz


prezumia c aceasta urmrete ndeapraoape distribuia normal, n ceea ce privete alura
curbei de distribuie, asimetria, excesul.
Ori, n realitate, deseori aceast prezumie
nu se verific i din aceast cauz
caracteristicile distribuiei normale nu mai
pot fi valorificate n relaie cu distribuiile
empirice. O soluie la ndemn n
asemenea cazuri este aceea de a manipula
datele de observaii n aa fel, nct
distribuia empiric s se apropie ct mai
mult de cea normal. Se procedeaz, deci,
la o transformare matematic a valorilor
variabilelor, care are drept rezultat o
concordan mai bun ntre distribuia
empiric i cea teoretic. ntruct Figura 3.1. Normalizarea unei distribuii de frecvene
distribuia teoretic vizat este, cel mai (tensiunea medie lunar a vaporilor de ap la staia Iai, 1961adesea, cea normal, transformarea 1992).
datelor originale mai poart denumirea de
normalizare.
Posibilitile de transformare sunt multiple, ns doar cteva dintre ele sunt mai des
utilizate, ntruct i-au demonstrat eficiena: transformarea prin logaritmarea valorilor variabilei,
prin extragerea radicalului din acestea i prin ridicarea lor la putere. Experiena dobndit n
acest domeniu recomand transformrile prin logaritmare i extragerea radicalului pentru
corectarea asimetriilor pozitive (vezi fig.3.1), iar cele prin ridicare la ptrat pentru corectarea
asimetriilor negative ale distribuiilor empirice.
De menionat c pentru interpretarea rezultatelor unei analize fcute asupra unui ir de
valori transformate, n termenii reali ai problemei n discuie, acestea, ca i valorile, trebuie retransformate n forma lor original .

33

CAP.IV. FUNDAMENTUL PROBABILIST AL JUDECILOR STATISTICE


4.1. Distribuia (curba) normal i caracteristicile sale

S-a menionat anterior c unul din scopurile prelucrrii datelor de observaii sub form
de distribuii de frecvene este acela de a face comparaii ntre distribuia (i curba aferent )
empiric i una teoretic, fixat ca model de referin. Similitudinea de form a celor dou
tipuri de curbe (empiric i teoretic) este foarte important, cci ea ofer nite posibiliti de
analiz statistic complex i aprofundat n urma creia se pot trage multe concluzii de ordin
tiinific. La originea multor astfel de analize se afl tocmai curba normal, cu proprietile sale.
Dar ce este distribuia normal?
Toate distribuiile de frecvene empirice, adic alctuite pornind de la date reale, se
bazeaz pe un numr finit (chiar dac foarte mare, uneori) de cazuri. n matematic ns, unele
generalizri cu privire la distribuiile de frecvene se pot face mai uor dac se admite c
respectivele distribuii au la baza o infinitate de valori, deci i o infinitate de clase. Histogramei
frecvenelor i corespunde n acest caz un poligon al frecvenelor ce apare sub forma unei curbe
netezite care poate fi uor descris cu ajutorul ecuaiilor matematice. O asemenea curb este
i cea normal.
La o histogram a frecvenelor aria unui dreptunghi este proporional cu frecvena
clasei corespunztoare. Acest fapt este valabil i n cazul distribuiei normale, a crei curb de
distribuie trece prin captul superior al unui numr foarte mare (la limit, infinit) de
dreptunghiuri de lime foarte mic (la limit, egal cu 0), avnd drept rezultat netezirea curbei.
n acelai timp, se admite c suprafaa total a tuturor dreptunghiurilor este egal cu unitatea
(sau 100%), ceea ce nseamn c aria cuprins ntre curba normal i abscis este deasemenea 1
(sau 100%).
Curba normal este o curb simetric, unimodal i cu o alur specific care-i confer
aspectul de clopot (clopotul lui Gauss). Relaia matematic ce o definete este urmtoarea:
y=

(x - x )2
e 2 2
-

n care:

y = ordonata (frecvena) unui punct oarecare de pe curb;


x = abscisa punctului respectiv, corespunznd unei valori din populaia infinit descris
de curba normal;
x i - parametri.
ntruct este perfect simetric, n cazul curbei normale x = Me = Mo. Dac inem cont
c alura curbei normale este n relaie cu atunci putem spune c o distribuie (curb) normal
este perfect descris de cei doi parametri - x i .
Vom observa c exponentul lui e seamn cu formula de calcul pentru valorile unei
x -x

variabile standardizate avnd x = 0 i = 1; deci, dac notm


normale standardizate (normate):
y=

1
2

2
-u
e 2

=u

obinem ecuaia curbei

34

Bineneles c cele dou curbe (normal propriu-zis i normal standardizat) sunt


identice ca form (vezi fig.4.1). Diferena
dintre ele este dat de valoarea central
( x , respectiv 0) i de unitatea de msur a
variabilei pe axa Ox (la cea standardizat
valorile xi sunt exprimate ca abateri de la
x , msurate n numr de ).
Ordonatele
curbei
normale
(valorile y) corespund frecvenelor de
apariie a diferitelor valori; ntruct
numrul acestor valori este infinit, este
justificat, matematic vorbind, trecerea de
la noiunea de frecven la cea de
Figura 4.1. Curba normal (a) i curba normal
probabilitate17 .
normat (b).
O proprietate foarte important a
curbei normale este aceea c, indiferent de mrimea mediei i a abaterii standard, exist o
proporie (sau arie sub curb) constant cuprins ntre x i o ordonat oarecare a crei distan
fa de x este msurat n numr de (vezi fig.4.2). Atunci cnd aceast distan este egal cu 1
, spre dreapta fa de x , aria de sub curb este de 34,13% din aria total, iar dublul ei (68,26%)
reprezint aria de sub curb de o parte i
alta a x , pn la o distan de 1 ; altfel
spus, 68,26% din valorile distribuiei difer Figura 4.2. Repartiia suprafeelor sub
curba normal.
de x prin mai puin de 1 sau, ceea ce
nseamn acelai lucru, exist o
probabilitate de 68,26% ca o valoare
oarecare s fie cuprins n intervalul dintre
-1 i +1 . n mod corespunztor,
probabilitatea ca o valoare oarecare s fie
inclus n intervalul dintre -2 i +2 este
de 95,45%, iar pentru intervalul dintre -3
i +3v probabilitatea este de 99,74%.
Regula celor 3 . Dup cum se
observ, probabilitatea unei valori care s
difere de x cu mai mult de 3 este practic
nul (0,26%). Acest fapt este foarte util n practica verificrii acurateii datelor de observaii
care constituie valori ale unei variabile ce urmeaz o distribuie normal. Dac, de exemplu,
ntr-un ir de 50 de valori apare una care difer de medie cu mai mult de 3, atunci valoarea
respectiv trebuie privit cu nencredere, chiar dac ea nu poate fi considerat a priori ca find
eronat. Trebuie verificate corectitudinea determinrilor/msurtorilor, sau cea a transcrierii
datelor, sau omogenitatea datelor etc. Aceast regul a celor 3 constituie, deci, o cale de a
ne feri de erori grosiere atunci cnd analizm seturi de date empirice.
17

Probabilitatea este egal cu valoarea-limit spre care tinde o frecven , atunci cnd numrul elementelor din
populaia originar tinde spre infinit.

35

n sens strict procentul 100% nu este niciodat atins, cci curba normal nu atinge
niciodat axa Ox, ci se apropie asimptotic de aceasta.
S observm c n figur ordonatele care delimiteaz suprafeele de sub curb
corespund unor multipli ntregi (1,2,3) de . O imagine mult mai complet se obine atunci cnd
suprafeele de sub curb vor fi precizate pentru un numr mai mare de ordonate, crora le vor
corespunde valori intermediare n (n - numr real). Aceste suprafee procentuale (sau
probabiliti), ca i cele corespunznd probabilitilor cumulate ascendent, au fost calculate i
sunt trecute n tabele speciale, larg utilizate n cursul prelucrrilor statistice (vezi Anexele I i
II).
Cu ajutorul unor asemenea tabele pot fi rezolvate patru tipuri de probleme (firete, n
ipoteza c distribuia empiric urmeaz o lege normal de repartiie):
1 determinarea probabilitii cazurilor mai mici ca o anumit valoare dat, numit
valoare critic (probabilitate de nedepire sau asigurare de nedepire), respectiv mai mari
sau egale ca valoarea respectiv (asigurare de depire).
Exemplu. Pentru irul de temperaturi medii anuale la staia Iai, perioada 1961-1992, sau calculat x = 9,42C i = 0,82C. n ipoteza c distribuia variabilei este una normal, s se
determine probabilitile procentuale de apariie a unor valori de temperatur mai mici de 10C,
respectiv mai mari de 10C.; sau, folosind simbolurile matematice uzuale n statistica
matematic, s se determine P(x < 10C), respectiv P(x 10C).
Pentru a putea utiliza tabelul din Anexa I trebuie mai nti s standardizm valoarea critic
x - x 0,58
u= i =
= 0,71
0,82

. Intrnd n tabel cu valoarea u calculat gsim o probabilitate de


respectiv:

nedepire de 0,7611 sau 76,11%. Probabilitatea de depire este una complementar fa de


cea anterioar, deoarece suma lor trebuie s acopere ntreaga suprafa de sub curba normal;
deci ea se obine scznd din 1 (sau 100%) probabilitatea de nedepire: 100 - 72,11 = 23,89%.
Dac valoarea critic xi este mai mic dect media x , atunci u<0, iar probabilitatea de
nedepire va fi cea complementar celei citite n Anexa I (datorit proprietii de simetrie a
curbei normale).
2 determinarea probabilitii cazurilor cuprinse ntre dou limite (valori critice) date.
Aceast probabilitate este egal cu suprafaa de sub curba normal delimitat de cele dou
valori. Cu ajutorul tabelului aceast suprafa se obine ca diferen ntre probabilitile
cumulate ce corespund celor dou valori.
S presupunem, lucrnd cu datele din exemplul de mai sus, c se cere probabilitatea ca
n unul din ani s se nregistreze o temperatur medie anual cuprins ntre 9 i 10C, sau,
folosind simbolurile uzuale: P(9C < x < 10C).
Probabilitile cumulate ce corespund celor dou valori critice le extragem din Anexa I, dup ce
am procedat, n prealabil, la standardizarea lor:
u1 = (10-9,42)/0,82 = 0,71; n Anexa I gsim P1 = 0,7611 = 76,11%.
u2 = (9-9,42)/0,82 = -0,51; deoarece u2<0, probabilitatea cutat este cea complementar
probabilitii pe care o gsim n Anexa I intrnd cu valoarea absolut a lui u2: P2 = 1-0,6950 =
0,3050 = 30,5%.
P(9C < x < 10C) = P1-P2 = 76,11-30,5 = 45,61%.
3 Determinarea valorii creia i corespunde o probabilitate dat (de depire sau de
nedepire).

36

n exemplu nostru, crei temperaturi medii anuale i corespunde o probabilitate de 80%


de a nu fi depit? Sau, ntr-o alt formulare, care este valoarea fa de care 80% din valorile
irului de temperaturi sunt mai mici, sau cel mult egale cu aceasta?
- se caut n Anexa I probabilitatea cea mai apropiat de 0,80, apoi se extrage valoarea u
corespunztoare (0,84);
u=

x -x

se scoate
- din formula
x = u + x = 0,840,82 + 9,42 = 10,1C.

4 mrimea intervalului (implicit, limitele acestuia), exprimat n numr de de la x ,


care include un procent dinainte stabilit de valori.
n exemplul nostru, care este intervalul ce include 95% din valorile de temperatur?
Altfel spus, care este intervalul n interiorul cruia exist 95% anse de a fi inclus o valoare
oarecare din ir?
ntruct acum nu mai avem de-a face cu o probabilitate de depire sau nedepire, ci cu
probabilitatea ca o valoare s fie situat n interiorul unui interval centrat pe media aritmetic,
vom folosi Anexa II:
- se caut n tabel probabilitatea care reprezint jumtate din 95%, aceasta deoarece n
tabel sunt considerate abaterile fa de medie doar ntr-o singur direcie (ori, intervalul nostru
se extinde de ambele pri ale mediei);
- se scoate valoarea z corespunztoare (1,96);
- intervalul nostru va fi x 1,96 (dar, pentru repartiia normal normat =1), adic
(7,4...11,4C).

De notat c distribuia normal este doar una (chiar dac cea mai cunoscut i uzitat)
dintre distribuiile teoretice ale cror proprieti pot fi valorificate n analizele statistice.
Menionm alte cteva distribuii teoretice care pot fi utilizate cu succes n analiza datelor
geografice:
a) distribuia log-normal, sau a lui Galton - este o variant a legii normale, n sensul c
dac X este o variabil ale crei valori xi urmeaz o
distribuie log-normal, atunci valorile log(xi) urmeaz o
distribuie normal.
Curba
log-normal
prezint
o
asimetrie
caracteristic de stnga, destul de accentuat (vezi fig.4.3).
Distribuia log-normal este potrivit, de exemplu, pentru
aproximarea distribuiei de frecvene a precipitaiilor zilnice
(variabilitate accentuat i multe valori mici, sau chiar nule,
corespunztoare zilelor fr precipitaii, care trag Figura 4.3. Curba distribuiei logmaximul de frecven, adic Mo, spre stnga);
normale.
b) distribuia binomial - este una din distribuiile teoretice fundamentale n statistica
inferenial, alturi de cea normal. Spre deosebire de distribuia normal, cea binomial se
aplic, ndeobte, variabilelor discrete. Ea aproximeaz distribuia statistic a unei variabile
(discrete) ale crei valori se grupeaz, n funcie de un criteriu sau o valoare critic dat, n dou
categorii care se exclud reciproc, iar suma probabilitilor ce corespund celor dou categorii este
egal cu probabilitatea total (1 sau 100%). Spre exemplu, un ir de aruncri ale unei monede:
fiecare eveniment individual (aruncare) poate s aparin la 1 din 2 categorii: capul sau pajura,

37

niciodat i una i alta, iar suma frecvenelor (probabilitilor, n cazul unui numr infinit de
aruncri) d numrul total de evenimente (respectiv probabilitatea 1 sau 100%).
c) distribuia Poisson este o distribuie creia i se supun variabilele cantitative (tot
discrete) ale cror valori au o frecvena de producere foarte mic (n timp sau spaiu), motiv
pentru care mai este numit i distribuia evenimentelor rare. Exemple de astfel de variabile:
numr de viituri n sezonul cald; numr de zile cu
nghe timpuriu/trziu (dintr-o perioad multianual)
.a.
Caracteristica distribuiei Poisson o constituie
egalitatea a doi parametri de baz: media aritmetic i
abaterea standard. Curba de distribuie este de regul
asimetric, dar asimetria scade odat cu creterea
frecvenei de producere a acelor evenimente rare
(fig.4.4).
De remarcat, n final, c legea (distribuia) Figura 4.4. Curba distribuiei Poisson
normal rmne una fundamental, de vreme ce ea pentru diferite valori ale mediei .
aproximeaz destul de bine alte distribuii teoretice
(ca cea binomial sau Poisson) n condiiile n care numrul de valori ale variabilei studiate este
suficient de mare, sau frecvena de producere a unor evenimente crete suficient de mult.
4.2. Caracteristicile eantioanelor (sondajelor)

n mod obinuit generalizrile (inferenele inductive) statistice au drept scop


evidenierea unor caracteristici ale fenomenelor i proceselor care sunt studiate prin intermediul
unor ansambluri de date de observaii. Aceste ansambluri de mari dimensiuni (eventual infinite
ca numr de elemente) poart denumirea de populaii. ns din diferite motive (de ex. nu sunt
disponibile date asupra tuturor elementelor; pentru economie de timp; numrul de elemente este
infinit etc.), cel mai adesea caracteristicile populaiei pot fi studiate doar cu ajutorul unor
subseturi de elemente (eantioane) prelevate dup anumite reguli din populaia respectiv. Drept
urmare trebuie s facem o distincie clar ntre parametrii statistici ai populaiei, numii i
parametri adevrai, i parametrii corespunztori calculai pe baza eantioanelor, numii
parametri de sondaj (de selecie).
4.2.1. Relaiile dintre parametrii de sondaj i cei ai populaiei originare.

Este clar c parametrii adevrai (de ex. adevrata medie, adevrata ) pot fi cunoscui
cel mai adesea doar prin intermediul celor de sondaj, care, n acest caz, reprezint o estimare a
parametrilor populaiei. Precizarea tipului de parametru la care ne referim se face cu ajutorul
unor simboluri (notaii) specifice:
= adevrata medie (a populaiei);
= adevrata abatere standard (a populaiei);
x = media eantionului (de sondaj);
s = deviaia standard de sondaj
Este necesar ca nainte de a proceda la o evaluare a diferenelor dintre diferite seturi de
date (eantioane), sau la formularea unor concluzii bazate pe parametrii de sondaj, s tim cte
ceva despre relaiile dintre cele dou tipuri de parametri.

38

Parametrii care caracterizeaz o populaie sunt nite valori fixe (stabile) i sunt de
regul, necunoscui. Spre exemplu, vrsta medie a populaiei studenilor de la Universitatea Iai
n anul colar 2003/2004 este un parametru cu o valoare anume, stabil n intervalul temporal de
definiie a populaiei; aceast valoare poate fi cunoscut printr-un efort de inventariere a tuturor
studenilor, dar ea poate fi i estimat cu ajutorul unor eantioane extrase din populaia
respectiv.
Prin comparaie cu parametrii populaiei, cei de sondaj variaz de la un eantion la altul
extrase din una i aceeai populaie. n exemplul de mai sus, este de ateptat ca pentru 10
eantioane aleatoare prelevate din populaia de studeni s obinem 10 vrste medii diferite,
chiar dac foarte apropiate ntre ele. Parametrii de sondaj sunt mrimi cunoscute (sau
calculabile) i acest fapt, combinat cu dificultatea - chiar imposibilitatea, uneori - cunoaterii
parametrilor adevrai (ai populaiei), evideniaz importana cunoaterii legturii dintre cele
dou tipuri de parametri. Altfel spus, este important s tim ct de reprezentativ este un eantion
pentru populaia din care este extras, sau cu ce grad de precizie reuete un parametru de sondaj
s aproximeze (estimeze) corespondentul su adevrat.
Din punctul de vedere al statisticii inductive, un eantion reprezint o seciune real i
reprezentativ - att ct permite mrimea sa - prin populaia studiat. Ideal ar fi ca prelevarea
elementelor pentru constituirea eantionului s fie pur aleatoare pentru a asigura
reprezentativitatea - i exist metode i reguli care asigur aceast cerin fundamental (vezi
Anexa IX). n multe cazuri, totui, inclusiv n analizele geografice, selecia aleatoare este fie
imposibil, fie neconvenabil din diverse motive; dar i n aceste cazuri exist reguli de selecie
care s asigure reprezentativitatea eantionului fa de populaia originar. ntruct, ns,
conceptele generale ale statisticii inductive pot fi cel mai bine explicate n termenii sondajului
aleator, n continuare vom adopta aceast premis
pentru abordarea problemelor de prezentat.
tiind c un sondaj este aleator, factorul
major care controleaz relaia dintre parametrii
populaiei i cei ai eantionului este mrimea
eantionului. Pentru a intui cum acioneaz acest
factor, s revenim puin la curba de distribuie
normal.
Aspectul curbei este determinat de frecvena
Figura 4.5. Curbele distribuiilor de
fiecrei valori individuale, ca i de , x fiind plasat frecvene ale mediilor eantioanelor de
central. S presupunem acum c valorile individuale diferite mrimi.
au fost grupate n eantioane aleatore de cte 10
itemuri, iar pentru fiecare eantion s-a calculat x .
Distribuia de frecvene a mediilor eantioanelor va fi deasemenea una normal, avnd
aceeai medie ca distribuia iniial, dar mai mic, de aici rezultnd forma diferit a curbei
(vezi fig.4.5, n = 10). Acest fapt este firesc, cci selecia aleatoare a itemurilor pentru fiecare
eantion face puin probabil extragerea unor valori situate,toate, de o singur parte a mediei
generale, iar prin medierea celor 10 itemuri amplitudinea de variaie (deci i deviaia standard) a
mediilor din 10 itemuri va fi mai sczut ca amplitudinea de variaie (respectiv deviaia
standard) a valorilor individuale iniiale. n plus, se poate intui uor c o cretere n continuare a
numrului de itemuri din eantioane va cauza o scdere proporional a deviaiei standard a
distribuiei mediilor de sondaj respective (vezi fig.4.5, n = 20), curba de distribuie devenind din
ce n ce mai ascuit, iar mediile mai strns grupate n jurul mediei generale.

39

Concluzia: variana (deci i deviaia standard) distribuiei mediilor de sondaj este n relaie cu
numrul de itemuri din eantion, iar aceast relaie se poate scrie astfel18:
2

2= ,
n=
n
n
n , deci
2
n care n , n = variana, respectiv abaterea standard a mediilor eantioanelor de cte n itemuri;
2 , = variana, respectiv abaterea standard ale distribuiei normale (cu valori individuale); n =
volumul eantioanelor.
Aceast relaie este foarte important pentru interpretarea rezultatelor obinute prin
prelucrarea datelor de sondaj. Astfel, dac mediile eantioanelor alctuiesc o distribuie
normal, atunci, date fiind proprietile curbei normale, exist o probabilitate foarte sczut
(0,3%) ca media oricrui eantion s difere de media general (adevrat, pentru c s-au luat
n calcul toate itemurile individuale) cu mai mult de 3 , adic 3( / n ) ; sau, este puin

probabil (probabilitatea 5%) ca respectiva medie s difere de media general cu mai mult de
2( / n ) . Dac aa stau lucrurile, atunci i reciproca este adevrat, adic: dac este cunoscut
media unui eantion, atunci, este foarte puin probabil (probabilitate 0,3%) ca media general
(adevrat) s difere de media de sondaj cu mai mult de 3( / n ) , sau este puin probabil
(probabilitatea 5%) s difere cu mai mult de 2( / n ) .
Cu alte cuvinte, dac se obine media unui eantion, este posibil s se precizeze limitele
ntre care se va situa, cu o anumit probabilitate, media adevrat (a populaiei din care provine
eantionul). Adic:
( x-

( x -2
( x -3

,x+

( x - u p%

,x+ 2
,x+3

, cu o probabilitate de 68,26%;

)
n , cu o probabilitate de 95,45%;

, cu o probabilitate de 99,74%;

, x + u p%

extras din Anexele I sau II).

, cu o probabilitate oarecare p%, dat dinainte ( u p% putnd fi

Exemplu. Pentru a se evalua vrsta medie a populaiei studenilor de la Universitatea


Iai, n anul colar 1994/95, s-a alctuit un eantion (aleator) de 50 valori (vrste). Pentru acest
eantion s-au calculat x =23 ani i s=2,5 ani. Limitele intervalelor n interiorul crora, cu
probabilitile de mai sus, se va situa adevrata vrst medie vor fi:
2,5
2,5
(23 , 23 +
)
7,1
7,1 (23-0,35, 23+0,35) (22,6523,35) (P=68,26%);
2,5
2,5
(23 - 2 * , 23 + 2 * )
7,1
7,1 (23-0,70, 23+0,70) (22,3023,70) (P=95,45%);
2,5
2,5
(23 - 3 * , 23 + 3 * )
7,1
7,1 (23-1,05, 23+1,05) (21,9524,05) (P=99,74%).
18

Relaia respectiv, ca i normalitatea distribuiei mediilor de sondaj, sunt matematic demonstrabile.

40

Se va observa c intervalul n care se afl este cu att mai larg, cu ct probabilitatea


este mai mare; deci sporul de certitudine se obine cu preul lrgirii intervalului n care se afl
parametrul adevrat cutat.
Mrimea care controleaz limitele intervalului, adic s/ n , este cunoscut sub
denumirea de eroarea standard a mediei de sondaj, notat ES x .
O eroare standard analoag se poate obine i pentru deviaia standard de sondaj:
ES s =

(s - u p%

2n

, s + u p%

2n
2n ,
, iar
up% fiind abaterea s de la , exprimat n numr de s i corespunznd unei probabiliti date.

4.2.2.Eantioane mici

n exemplu cu vrsta medie a studenilor, pentru calculul ES x a fost luat n calcul nu ,


ci s, ceea ce nseamn c am asimilat pe s cu , lucru ce nu se poate justifica din punct de vedere
matematic. La fel am fcut i n cazul ESs. Corect ar fi fost s folosim , ns aceasta nu era
cunoscut. ntr-adevr, n practic se ntmpl deseori s nu avem la ndemn dect valori de
sondaj. Totui, pentru a putea aplica formulele de obinere a erorilor standard cu o oarecare
justificare, se poate face aa-numita estimare a . Aceast operaiune, numit n statistic a
obine cea mai bun estimaie, se realizeaz prin aplicarea unei corecii la valoarea s. Aceast
n

corecie, cunoscut sub denumirea corecia lui Bessel este de forma n - 1 i ea transform s
n cea mai bun estimaie a , notat cu . Atunci cnd corecia Bessel este introdus n
formula de calcul a deviaiei standard se obine direct cea mai bun estimaie a :
=

2
( xi - x )
n-1

.
n exemplu cu vrsta medie a studenilor:
= s *

n
n-1

= 2,5 *

50
49

= 2,5 * 1,01 = 2,52ani

0.

Diferena dintre s i 0 este foarte mic (0,02), i aceasta pentru c volumul eantionului
(50) este destul de mare. ntr-adevr, dac examinm formula coreciei lui Bessel intuim c, cu
n/(n - 1)
se apropie de 1; pe msur, ns ce n
ct eantionul este mai mare, cu att valoarea
scade, valoarea coreciei devine considerabil mai mare ca 1, afectnd mrimea ES. Este clar,
deci, c n cazul eantioanelor mici (n<30, de regul) este mai corect s se lucreze cu i nu cu
s.
La eantioanele mici, ns, mai apare o problem. Datorit aplicrii coreciei, distribuia
mediilor mai multor eantioane, chiar dac pstreaz aceeai medie ca i populaia originar,
va avea o deviaie standard ce nu mai confer distribuiei caracteristicile unei curbe normale.
Aceasta nseamn c valorile de probabilitate i, n general, proprietile curbei normale nu mai
pot fi aplicate la un eantion mic, chiar dac populaia din care provine acesta urmeaz o
distribuie normal. n locul ei se folosete o alt distribuie teoretic numit distribuia t a lui
Student. Curba de distribuie t este ceva mai aplatizat dect cea normal i mai efilat la
capete (fig.4.6).

41

n orice caz, trebuie reinut c proprietile distribuiei t se folosesc numai n cazul


eantioanelor mici care provin din populaii normale.
Valorile t calculate pentru diferite volume ale eantioanelor (1-30) i diferite praguri de
probabilitate sunt tabelate (vezi Anexa III) i pot fi folosite pentru rezolvarea diferitelor
probleme specifice.
n cazul intervalului n care este situat , valorile t nlocuiesc valorile u atunci cnd se
( x - t p%

, x + t p%

n
multiplic ES x - deci
cu o probabilitate p% hotrt dinainte.

Exemplu. Se face un studiu asupra numrului de


locuitori dintr-o serie de localiti mici (comune) de pe un
teritoriu vast. Numrul total de localiti este mare, ns
anumite similariti n ce privete numrul lor de locuitori
sunt sugerate de cunotine le existente asupra regiunii. De
aceea s-a hotrt s se fac o analiz preliminar rapid, pe
baza unui eantion aleator de numai 10 comune, astfel nct
numai caracteristicile demografice majore s fie evideniate.
Pentru acest eantion s-au calculat urmtorii parametri:

Figura 4.6 Comparaie ntre


normal i curba distribuiei t.

curba

x =350 loc/com; s=25 loc; n = 10.


Care sunt limitele intervalului n care se afl media adevrat a numrului loc/comun, cu o probabilitate
de 95%?
a) folosind proprietile curbei normale (ca i cum am avea un eantion mare) i lund z47,5%2:
s
s
,x+2
)
95% ( x -2
n
n (350-27,9, 350+27,9) (334,2365,8);

= s
b) tot cu proprietile curbei normale, dar innd cont de corecia Bessel:

n
n-1

= 25 1,11 = 26,34

deci

95% ( x -2

,x+2

)
n
n (350-28,3, 350+28,3) (333,4366,6);
c) innd cont c lucrm cu un eantion mic, deci folosind proprietile distribuiei t (vezi Anexa III;
intrarea n tabel se face cu probabilitatea dat i cu numrul gradelor de libertate19, care aici este egal cu n-1, adic
9):

)
, x +t 95%;n -1
95% ( x -t 95%;n -1
n 0 (350-2,38,3, 350+2,38,3) (330,9369,1).
n
Examinnd cele trei rezultate constatm c prin considerarea regulilor statistico-matematice de prelucrare,
mrimea intervalului a crescut sensibil, ceea ce nseamn c pentru eantioanele mici se iau o serie de precauii
suplimentare atunci cnd se estimeaz valoarea unui parametru adevrat, precauii care conduc, n ultim instan,
la lrgirea intervalului de ncredere.

4.2.3. Specificarea mrimii eantionului

Reiese din cele spuse referitor la eantioane c mrimea intervalului n care se afl
parametrii populaiei (, ) este controlat de:
- nivelul de probabilitate fixat (direct proporional);
- s (direct proporional);
- mrimea (volumul n) eantionului (invers proporional).

19

Pentru semnificaia noiunii grade de libertate vezi 4.3.2.1.2

42

Dintre aceste variabile una (s) este dependent de datele eantionului . Rmn celelalte
dou, care pot constitui elemente de alegere deliberat n funcie de scopul i natura analizei i
de gradul de acuratee cerut.
S presupunem c intervalul n care se afl , cu o probabilitate dat, ni se pare prea larg
i dorim s-l restrngem, ba chiar s-i fixm dinainte limitele. Acest lucru este posibil prin
creterea volumului eantionului pn la un anumit numr de valori. Dar cte?
Rezolvarea problemei e destul de simpl. Intervalul are forma general
( x - u p% ES x , x + u p% ES x ) _ ( x - u p%

, x + u p%

.
Pentru a fixa dinainte limitele intervalului dm valoarea necesar expresiei care se adun i se
scade din media aritmetic:
C = u p%

u p%

=C

, deci intervalul va fi ( x -C, x + C) . Din expresia

scoatem pe n i problema e rezolvat.

n exemplul de mai sus, s presupunem c dorim ca s difere de x cu 5 loc./com., la


nivelul de probabilitate de 95%. Avem z47,5% (reamintim c n Anexa II sunt date probabilitile
corespunztoare unor intervale situate de o singur parte a mediei) = 1,96 2; = 26,34; C =
5.
n=

z 47,5% *

2 * 26,34

= 10,53 n = (10,53)2 111 valori.


Verificarea poate fi fcut foarte uor.
C

4.3. Verificarea ipotezelor statistice


4.3.1. Ipoteze statistice

n mod obinuit cercettorul care analizeaz diferite fenomene/procese cu ajutorul


metodelor statistice este interesat n primul rnd de caracteristicile populaiilor din care provin
eantioanele de lucru. Alctuite dup anumite reguli, eantioanele nu au alt rol dect acela de a
servi ca punct de plecare pentru o serie de inferene asupra caracteristicilor (necunoscute) ale
populaiilor, pornind de la caracteristicile cunoscute, dar fr o relevan intrinsec, ale
eantioanelor. Aceste inferene (concluzii logice fundamentate statistico-inductiv) sunt numite
ipoteze statistice. Ca orice ipoteze de lucru, i cele statistice se cer verificate, iar verificarea lor
se realizeaz prin intermediul unor procedee specifice numite teste statistice.
n comparaie cu alte ipoteze formulate i verificate n practica tiinific din diferite
domenii, ipotezele statistice prezint cteva particulariti impuse de fundamentele
probabilistice ale statisticii infereniale (inductive):
a) n marea majoritate a cazurilor ipotezele statistice se formuleaz n termenii existenei
unei diferene: diferen ntre parametrii de sondaj i cei ai populaiei; diferen ntre parametrii
a dou sau mai multe populaii; diferen ntre o distribuie de frecven empiric i una
teoretic, sau ntre dou distribuii empirice .a. Testarea ipotezelor nseamn, n acest caz,
evaluarea gradului de semnificaie sau de siguran statistic a acestor diferene.
Firete, concluziile testrii sunt de natur probabilist, altfel spus concordana diferitelor ipoteze
cu realitatea se realizeaz n limitele unui anumit risc (probabilitate) de eroare acceptat (i
stabilit) dinainte. Acest risc este cunoscut sub denumirea de prag sau nivel de semnificaie al
testului folosit pentru verificrile ipotezelor statistice.
43

b) lipsa unei sigurane depline face ca la verificarea unei ipoteze statistice s fie posibile
dou tipuri de erori:
- respingerea ipotezei, atunci cnd, n realitate, ea este adevrat. Acest tip de eroare este
cunoscut sub numele de eroare de ordinul I i ea afecteaz cerectarea tiinific prin aceea c
nu permite nite generalizri inductive care, ulterior, ar putea deveni puncte de plecare pentru
demersul cognitiv complementar, adic cel deductiv;
- acceptarea ipotezei, n condiiile n care n realitate ea este fals (eroare de ordinul
II). Acest tip de eroare este mult mai periculos pentru cercetarea tiinific, cci furnizeaz
generalizri false care, apoi, constituie puncte de plecare pentru demersul deductiv, erorile
propagndu-se n lan de-a lungul spiralei inductiv-ipotetico-deductive care st la baza
progresului tiinific.
Este remarcabil faptul c, de regul, ipotezele formulate n practica cercetrii tiinifice
au tendina de a se baza pe nite diferene observate n urma prelucrrii datelor de sondaj diferene crora spiritul analitic, nclinat prin natura sa spre discriminri, ncearc instinctiv s le
gseasc explicaii raionale, adesea foarte ingenioase. Dac, ns, diferenele observate se
datoreaz doar ntmplrii (eantioanele fiind alctuite dup regulile seleciei aleatoare), atunci
crete riscul unei erori de ordinul II, adic acela al acceptrii unei ipoteze de lucru care n
realitate este fals. Tocmai pentru a preveni o asemenea situaie, n practica verificrii ipotezelor
statistice se opereaz cu ipoteza care, din punct de vedere logic, reprezint o negaie a ipotezei
curente de lucru - altfel spus, cu ipoteza care neag existena acelei (acelor) diferene observate,
pe baza crora cercettorul ar fi nclinat s construiasc eafodajul explicativ. Aceast ipotez
invers este cunoscut n statistica inferenial sub denumirea de ipoteza nul (a diferenei nule)
notat H0. n raport cu ea ipoteza curent de lucru devine o ipotez alternativ (H1), care va fi
acceptat doar dac, n urma operaiunii de testare, ipoteza nul este respins.
Testarea ipotezei nule n locul celei alternative are ca principal avantaj micorarea, n ce
privete ipoteza de lucru, a riscului erorii de ordinul II (mai nociv pentru demersul tiinific,
dup cum am vzut), chiar dac crete corespunztor riscul unei erori de ordinul I.
4.3.2. Teste statistice

Un test statistic este un criteriu (ntr-un sens mai larg - o tehnic) pentru
verificarea unei ipoteze statistice, constnd n calculul unei statistici i stabilirea
unei reguli prealabile de acceptare sau respingere a ipotezei nule H0, cu o
anumit probabilitate de a lua o decizie inexact.
Din definiie reiese c elementul central al unui test este statistica acestuia. Statistica testului
este o funcie de valorile concrete ale eantionului: f(x1,x2,..., xn).Ansamblul valorilor posibile
ale statisticii definete o variabil (caracteristic cantitativ continu) aleatoare a crei
distribuie statistic este utilizat pentru verificarea ipotezei nule.
Domeniul tuturor valorilor posibile ale unei statistici se mparte n dou regiuni disjuncte
i complementare (vezi fig.4.7):
a) regiunea de acceptare - o mulime de valori astfel nct, dac valoarea calculat a
statisticii aparine acestei regiuni, se accept i.n. H0;
b) regiunea de respingere (critic) - o mulime de valori astfel nct, dac valoarea
calculat a statisticii aparine acestei regiuni, se respinge i.n. H0.
Mrimea (vezi fig.4.7) se numete prag (nivel) de semnificaie al testului i reprezint
probabilitatea ca decizia de acceptare/respingere a i.n. H0 s fie eronat.
n funcie de concluzia testului interpretarea riscului de eroare se face astfel:

44

i) se accept i.n. H0 - atunci exist riscul (probabilitatea) ca n % din cazuri aceasta s


se dovedeasc, totui, neadevrat (riscul erorii de ordinul II);
ii) se respinge i.n. H0 - atunci exist riscul ca n % din cazuri aceasta s se dovedeasc,
totui, adevrat (riscul erorii de ordinul I).
Exist o mare varietate de teste statistice, unele mai simple, altele foarte sofisticate.
Marea majoritate a lor verific (testeaz) semnificaia statistic a unor diferene de genul celor
menionate n paragraful anterior. n funcie de modul n care sunt considerate diferenele
testate, se obinuiete o grupare a testelor n dou categorii:
a) teste bilaterale - sunt acele teste la care regiunea de respingere (critic) apare sub
forma a dou sectoare ale curbei teoretice de distribuie
a statisticii testului, cele dou sectoare fiind situate la
extremitile curbei. Prin urmare nivelul de semnificaie
este distribuit n mod egal (/2) ntre cele dou
sectoare (vezi fig.4.7-b).
Testul bilateral se aplic atunci cnd ipoteza nul H0 nu
postuleaz dect existena unei diferene, nu i sensul
(direcia) acesteia - de ex. xy, dar nu x>y sau x<y.
Atunci cnd se precizeaz i sensul diferenei, se aplic
un test din cea de-a doua categorie, respectiv
b) teste unilaterale - la care regiunea critic este
plasat la unul din capetele curbei teoretice de Figura 4.7. Regiunile critice ale
distribuie a statisticii testului (vezi fig.4.7-a). Rezult c distribuiei
statisticii
unui
test
un test din aceast categorie poate fi unilateral-stnga unilateral (a) i bilateral (b).
sau unilateral-dreapta.
O alt clasificare a testelor statistice ine cont de cunoaterea sau nu a unor parametri ai
populaiilor din care provin eantioanele analizate, ca i de adoptarea sau nu a unor presupoziii
n legtur cu tipul de distribuie teoretic urmat de populaiile respective. n felul acesta se
disting dou tipuri de teste:
a) teste parametrice - sunt testele care presupun cunoscute anumite caracteristici ale
populaiei originar (, , tip de distribuie etc.) i ele sunt relevante numai dac presupunerile
sunt valide. Cele mai frecvente presupoziii la aplicarea testelor parametrice sunt:
- populaiile sunt distribuite normal;
- eantioanele au un caracter aleator (observaiile sunt independente);
- populaiile comparate au aceeai varian (1 = 2);
- datele de observaii sunt din categoria celor cantitative continue.
Cele mai uzitate teste din aceast categorie sunt testul t al lui Student i testul F al
lui Snedecor.
b) teste neparametrice - sunt acele teste care nu fac nici o presupoziie n legtur cu
populaia originar, cu excepia independenei observaiilor i, poate, a continuitii subnelese
n irurile de date. Deoarece nu pretind cunoaterea unor parametri ai populaiei, testele
neparametrice pot fi folosite nu numai n cazul datelor cantitative continui, ci i al celor
cantitativ discrete, calitative ordinale i chiar calitative nominale.
Cele mai uzitate tehnici neparametrice sunt testul 2 (hi-ptrat) i testul KolmogorovSmirnov.
Indiferent de tipul testului ales pentru verificarea unei ipoteze de lucru, n aplicarea
acestuia se parcurg obligatoriu urmtoarele etape:

45

1 Definirea i.n. H0 i a i.a. H1. Aceast prim etap este extrem de important, cci o
formulare incorect a ipotezei nule H0 atrage dup sine lipsa de validitate a deciziei adoptate i a
interpretrii concluziilor testului. Hotrtoare este, aici, experiena cercettorului n ce privete
aplicarea testelor statistice, pe lng o bun cunoatere a problemelor implicate de ipoteza de
lucru.
2 Alegerea nivelului de semnificaie al testului. Dac inem minte c reprezint
probabilitatea de a lua o decizie neconform cu realitatea, atunci cu ct este mai mic, cu att
riscul de eroare este i el mai redus.
Cele mai frecvente valori adoptate pentru sunt 0,05, 0,01 i 0,001 (sau 5,1 i 0,1%),
3 Alegerea statisticii testului - adic alegerea variabilei aleatoare a crei lege de
repartiie (distribuie teoretic), cunoscut, s serveasc drept criteriu de decizie. Alegerea
statisticii nseamn, implicit, alegerea testului aplicabil n condiiile date, avnd n vedere c
testele statistice difer ntre ele n primul rnd prin statistica utilizat.
4 Stabilirea regiunii critice - adic stabilirea acelui domeniu al valorilor statisticii
pentru care, dac statistica calculat intr n acest domeniu, se respinge i.n. H0 (i se accept ca
adevrat i.a. H1), cu o probabilitate de a grei. Regiunea critic se identific cu ajutorul
tabelelor sau graficelor specifice pentru legea de repartiie (distribuia teoretic) urmat de
statistica testului, tabele sau grafice care sunt oferite n literatura de specialitate.
5 Luarea deciziei: acceptarea/respingerea ipotezei nule H0. Decizia luat permite o
serie de concluzii i interpretri ulterioare bazate pe generalizarea condiiilor sugerate de datele
de sondaj i pe informaii specifice domeniului din care provin datele respective. Importana
lurii unei decizii corecte nu trebuie, n acest caz, s mai fie subliniat .
n continuare prezentm cteva dintre cele mai uzitate teste statistice, grupate n dou
categorii: parametrice i neparametrice.
4.3.2.1. Teste parametrice
Majoritatea testelor parametrice presupun cunoscute media i/sau dispersia populaiilor
din care provin eantioanele analizate; deasemenea, ele admit unele presupoziii n legtur cu
distribuia statistic a populaiilor respective (de regul, distribuia normal). Vom prezenta
cteva teste parametrice, grupndu-le dup numrul de eantioane luate n considerare.

1. Cazul unui singur eantion. n acest caz testele parametrice se mai numesc i teste de
semnificaie (a unui parametru de sondaj, n raport cu parametrul adevrat) sau teste de
apartenen (a eantionului la populaia originar).
Practic, un asemenea test evalueaz semnificaia diferenei dintre un parametru de
sondaj ( x sau s) i adevratul parametru corespunztor (, respectiv ), considerat cunoscut.
Dac eantionul este suficient de mare (n>50, dar mai bine n>100) i se cunoate a
populaiei (normale) din care provine eantionul, atunci se poate aplica testul z.
Statistica acestui test este de forma:

z=

x-

/ n

Ea exprim, dup cum se observ, diferena dintre cele dou medii n numr de erori standard
ale x ; ca variabil aleatoare aceasta urmeaz, deasemenea, distribuia normal. Valoarea z
calculat o comparm cu cea teoretic (extras din tabelele distribuiei normale)
corespunztoare nivelului de semnificaie ales; dac valoarea calculat este mai mare ca
valoarea tabelat , atunci ea intr n regiunea critic i i.n. H0 va fi respins.
Exemplu. Un studiu efectuat de o grup de studeni de la Facultatea de Sociologie din Iai asupra
veniturilor populaiei din municipiu debuteaz cu prelevarea unui eantion aleator format din 100 de familii. Pe

46

baza eantionului se dorete estimarea veniturilor medii ale populaiei. ndrumtorul grupei de studeni are motive
s cread c eantionul prelevat nu este reprezentativ, n sensul c familiile cu venituri medii i mari sunt suprareprezentate comparativ cu cele care au venituri mici. Datele de recensmnt (lista complet a familiilor, cu
veniturile lor) furnizeaz = 120.000 lei i = 30.000 lei. Venitul mediu calculat pe baza eantionului este x 0 =
130.000 lei. Are ndrumtorul dreptate s cread c eantionul este nereprezentativ sau, altfel spus, c eantionul nu
aparine populaiei analizate? Dac da, atunci diferena dintre i x trebuie s fie statistic semnificativ.
Etapele de lucru:
definirea i.n. H0. Aceasta va fi ipoteza care neag (contrazice) ipoteza cu care s-a pornit la verificare,
adic aceea c eantionul este nereprezentativ. Prin urmare i.n. H0 se va formula astfel: nu exist o diferen
semnificativ ntre i x , fa de i.a.H1: < x ;
alegerea nivelului de semnificaie - s zicem 5%;
calcularea statisticii testului:
z=

x-

/ n =

130.000 - 120.000
30.000/ 100

10.000
= 3000 = 3,33

stabilirea regiunii critice: ntruct a fost precizat sensul diferenei dintre i x , avem de-a face cu un test
unilateral, n cazul cruia regiunea critic corespunde unui prag de probabilitate de %. n tabelul distribuiei
normale (Anexa I) unei probabiliti de 95% i corespunde o valoare u 1,65.
deoarece valoarea z calculat este mai mare dect valoarea u tabelat , conchidem c diferena ntre i

x este semnificativ i, deci, respingem i.n. H0. Prin urmare, exist o probabilitate de 95%20 ca eantionul s fie

nereprezentativ pentru populaia din care a fost extras, rmnnd un risc de eroare de 5% atunci cnd facem aceast
afirmaie.
Se pare, deci, c profesorul avea dreptate...

Dac eantionul este mic (n<30) i nu cunoatem pe , atunci n locul testului z putem
folosi testul t bazat pe distribuia omonim a lui Student. Statistica acestuia este asemntoare
cu cea a testului z, cu deosebirea c n locul erorii standard a mediei, bazat pe
(necunoscut, n acest caz), se calculeaz eroarea standard a mediei pe baza celei mai bune
estimaii a : ES x = / n . Dac nlocuim pe cu formula de calcul ce include corecia Bessel,

atunci dup cteva transformri aritmetice obinem expresia de la numitorul statisticii testului
t:

2
( xi - x ) /(n - 1)
n

( xi - x )
n(n - 1)

2
=

2
( x i - x ) /n
n-1

s
n-1

Deci statistica testului va fi:


t=

x-
s/ n - 1

.
Dup cum se observ, nu mai este nevoie s se calculeze cea mai bun estimaie a , calculul
abaterii standard de sondaj fiind suficient.
Statistica testului urmeaz o distribuie uor diferit de cea normal. ns una dintre
presupoziiile acestui test este aceea c populaia din care provine eantionul urmeaz o lege de
distribuie normal; presupoziia trebuie verificat, mai ales atunci cnd volumul eantionului
este mic (cazul de fa).

20

n tabelul distribuiei normale sunt incluse probabilitile ca o valoare oarecare s fie mai mic, sau cel mult egal
cu valoarea u corespunztoare (reamintim c valorile u sunt valorile standardizate ale variabilei distribuite normal).
Pe de alt parte, statistica z a testului este i ea tot o variabil standardizat, repartizat normal, ale crei valori pot
fi comparate direct cu valorile u din Anexa I.

47

2. Cazul a 2 eantioane. Tehnicile parametrice bazate pe considerarea a dou eantioane


aleatoare i independente21 se mai numesc i teste de comparare: compararea, de regul, a unor
parametri de sondaj pentru a decide apartenena eantioanelor la populaii diferite sau nu, n
funcie de concluzia testului. i n acest caz testele evalueaz semnificaia statistic a unei
diferene - cea dintre doi parametri de sondaj (medii, n mod obinuit).
Testele cele mai uzitate sunt analoage cu cele de la cazul unui singur eantion, adic
testul z i testul t. Diferena este dat de faptul c se compar ntre ele cele dou medii de
sondaj, fiecare dintre ele fiind afectat de o eroare standard. Din aceast cauz statisticile
testelor vor lua n considerare aa-numita eroare standard a diferenei dintre mediile de sondaj,
care se obine pornind de la urmtoarea regul (matematic demonstrabil): variana sumei sau
diferenei a dou medii de sondaj este egal cu suma varianelor celor dou medii (reamintim
c variana unei medii de sondaj este ptratul erorii standard a mediei respective). Prin urmare,
variana diferenei va fi:

2
| x 1- x

2
1

2
2

+
n1 n2 ,
iar eroarea standard a acestei diferene va fi rdcina ptrat a varianei:
2

ES|x1 - x2|=

+ 2
n1 n 2

.
Aceast eroare standard este folosit, ca i la testele anterioare, pentru standardizarea
(normarea) diferenei dintre mediile de sondaj, astfel nct aceasta s nu fie exprimat n
valori absolute, ci n numr de erori standard.
Avnd n vedere toate acestea, statisticile celor dou teste se vor modifica, n cazul a
dou eantioane, n felul urmtor:
testul z, care se aplic atunci cnd eantioanele au volum mare (n>30), iar abaterile
standard ale celor dou populaii (normale) din care provin eantioanele sunt cunoscute:
z=

x1 - x 2
2/ + 2/
1 n1 2 n 2

testul t, recomandat atunci cnd eantioanele au volum mic (n<30), iar abaterile
standard ale celor dou populaii (normale) nu sunt cunoscute - situaie n care se lucreaz cu
cele mai bune estimaii ale acestora:
t=

x1 - x 2
2

1 / n1 + 2 / n 2
Exemplu (dup Gregory,1968). n cadrul unui studiu comparativ asupra a dou bazine carbonifere se aleg
la ntmplare, din fiecare bazin, cte 10 puncte de extracie (mine), mpreun cu produciile acestora ntr-o perioad
dat. Se cere s se stabileasc dac ntre cele dou bazine exist o diferen statistic semnificativ n ce privete
2
2
= 2 22
2
producia de crbune per min (deci, dac 1
), admind c dispersiile populaiilor sunt egale ( 1
) .
Parametrii de sondaj implicai n aplicarea testului t sunt:

- la primul bazin: x 1 = 0,30 mil.tone; s1 = 0,042 mil.tone; n1 = 10 mine.

21

Dou eantioane extrase din aceeai populaie se numesc independente atunci cnd constituirea unuia dintre ele,
dup regulile sondajului aleator, nu influeneaz n nici un fel constituirea celuilalt.
22
Dac se accept ipoteza de inegalitate a dispersiilor, atunci aplicarea testului t se face dup un algoritm
ntructva diferit de cel prezentat mai jos; principala diferen const n modul de calculare a gradelor de libertate
pentru statistica testului, cu ajutorul unor formule ce iau n consideraie dispersiile de sondaj.

48

- la al doilea bazin: x 2 =0,34 mil.tone; s2 = 0,05 mil.tone; n2 = 10 mine.


Etapele de lucru:
definirea i.n.H0. Este clar c acceptarea existenei unei diferene semnificative de productivitate ntre cele
dou bazine carbonifere poate servi ca punct de plecare pentru o serie de explicaii cauzale n ce privete gradul
general de dezvoltare industrial a regiunilor din jur, ntensitatea fluxurilor comerciale cu acest combustibil,
importana relativ a bazinelor n complexul industriei extractive naionale etc. De aceea trebuie evitat , pe ct
posibil, o eroare de ordinul II (acceptare unei diferene semnificative, n condiiile n care aceasta nu exist n
realitate), nct i.n.H0 se va formula astfel: nu exist o diferen semnificativ ntre cele dou bazine n ce privete
producia de crbune/min - i aceasta este ipoteza supus testrii. Dac ea va fi respins, atunci va fi acceptat
ipoteza alternativ - anume aceea c diferena actual dintre cele dou bazine este semnificativ, ea corespunznd
unei diferene reale de productivitate medie a minelor.
alegerea nivelului de semnificaie a testului. Reamintim c reprezint probabilitatea de a lua o decizie
greit n urma aplicrii testului; cu ct este mai mic, cu att aceast eventualitate este mai puin probabil. Se
observ, ns, c reducerea n.s. nseamn, implicit, o scdere a anselor de a respinge i.n.H0, ntruct regiunea de
respingere se reduce i ea n mod corespunztor. n acelai timp, ns, se diminueaz i pericolul de a cldi un ntreg
eafodaj explicativ pe o diferen de productivitate care n realitate nu exist - fapt care, din punctul de vedere al
cercetrii tiinifice, constituie un avantaj clar.
De fapt, alegerea n.s. depinde hotrtor de rolul fenomenului vizat de testele statistice n ansamblul
factorilor care influeneaz procesele i fenomenele studiate. n exemplul nostru, dac este dovedit prin cercetri
anterioare c producia de crbune/min (fenomenul vizat de test) este factorul hotrtor pentru gradul de dezvoltare
industrial, comercial etc. al unei regiuni carbonifere, atunci se poate alege un n.s. mai mare. Prin aceasta, chiar
i o diferen actual relativ mic poate deveni statistic semnificativ, lucru cu care putem fi de acord, dat fiind
importana prezumat a factorului producie de crbune/min. Dac, ns, factorul respectiv este doar unul
printre muli alii, fr o importan deosebit n ce privete gradul de dezvoltare economic, atunci vom alege un
n.s. mai mic, astfel nct, pentru a putea fi declarat statistic semnificativ, diferena actual dintre bazine
trebuie s fie mult mai mare.
n exemplul nostru, s lum = 5% .
statistica testului:
0,04
x1 - x 2
=2
=
t=
2/ + 2/
0,02
1 n1 2 n 2
.
stabilirea regiunii de respingere (regiunii critice). ntruct avem de-a face cu un test bilateral (nu a fost
precizat sensul diferenei dintre cele dou bazine) vom cuta n tabelul cu valorile critice ale variabilei aleatoare t
(Anexa III) valoarea ce corespunde pragului de 2,5% (/2). Dac valoarea t calculat depete, ca valoare absolut,
pe cea tabelat , atunci statistica testului intr n regiunea de de respingere i, deci, i.n. H0 va fi respins. Intrarea n
tabelul distribuiei t se face cu n.s. ales (n cazul nostru, 2,5%) i cu numrul gradelor de libertate ale variabilei
aleatoare t (18).
Numrul gradelor de libertate ale unei variabile aleatoare se obine scznd din numrul total de valori
numrul de relaii independente care leag ntre ele valorile variabilei respective.
O relaie independent este o relaie care implic numai valorile dintr-un eantion, fr a include parametri
calculai cu ajutorul altor relaii. O relaie de acest gen face ca una dintre valorile eantionului s nu mai poat varia
aleator: ntr-adevr, dac, de exemplu, se d media x a unui eantion cu n elemente, numai n-1 dintre acestea pot
cpta valori arbitrare, n timp ce una dintre ele va avea o valoare predeterminat, astfel nct s produc media x .
n formula de definiie a statisticii t ntre elementele fiecruia dintre cele dou eantioane exist cte o
xi
x=
n (formulele de calcul pentru cele mai bune estimaii ale abaterilor standard
relaie independent de forma
nu introduc alte relaii independente). Aceasta nseamn c numrul gradelor de libertate, notat prescurtat g.l. sau v,
va fi egal cu numrul total de valori (n1 + n2) din care se scade numrul de relaii independente (dou):
g.l. = n1 + n 2 - 2 = 20 - 2 = 18 .
Intrnd n tabelul distribuiei t, pentru /2 = 2,5% i g.l. = 18 gsim c valoarea critic corespunztoare
este cuprins ntre 2,101 i 2,552, deci mai mare dect valoarea t calculat.
ntruct valoarea calculat este mai mic dect valoarea tabelat (critic), tragem concluzia c diferena
observat dintre produciile/min din cele dou bazine carbonifere nu este statistic semnificativ; altfel spus, nu
respingem i.n. H0, tiind c exist, totui, o probabilitate de 5% de a grei acceptnd-o.

49

3. Cazul mai multor eantioane. Pentru testarea diferenelor dintre mediile a mai mult de dou
eantioane se utilizeaz testul F al lui Snedecor (testul raportului varianelor). Acest test are la
baz o procedur ceva mai complex cunoscut sub numele de analiza varianei. Analiza
varianei (AV) poate fi considerat o extensie a testului z, cazul a dou eantioane: se
lucreaz, ntr-o prim faz, cu mediile eantioanelor, iar premisele sunt aceleai - populaii
normale, eantioane aleatoare i independente, la care se adaug prezumia c devIaiile
standard ale eantioanelor sunt egale. Testul propriu-zis, ns, ia n considerare dou variane
estimate: variana valorilor n interiorul fiecrui eantion (n jurul mediei) i variana mediilor
eantioanelor n jurul mediei generale (variana ntre eantioane). Cele dou variane sunt apoi
analizate sub aspectul raportului lor (i nu al diferenei dintre ele). Reamintim c variana este
media aritmetic a ptratelor abaterilor valorilor unui eantion de la media acestora.
Dac mediile eantioanelor nu difer semnificativ ntre ele, atunci variana ntre grupe
(eantioane) va fi aproximativ egal cu cea n interiorul grupelor (eantioanelor), iar raportul
lor va fi apropiat de 1; deci nu exist diferene reale ntre medii, diferenele ntre eantioane
fiind datorate varianei din interiorul acestora. Dac mediile difer semnificativ, atunci raportul
varianelor va fi clar mai mare ca 1. Acest raport al varianelor, notat cu F, reprezint tocmai
statistica testului omonim i el constituie o variabil aleatoare a crei distribuie (teoretic) a fost
stabilit de Snedecor. Modul de prezentare a datelor pentru analiza varianei este redat n tabelul
4.1. n tabel s-a notat cu x .j media unui eantion oarecare j, iar cu x .. media general a valorilor
tuturor celor k eantioane.
Tabel 4.1. Forma general de prezentare a datelor pentru analiza varianei (cazul unei singure
variabile).
Grupe (eantioane)
1
x11
x21
x31
.
.
.
xi1
.
.
.

2
x12
x22
x32
.
.
.
xi2
.
.
.

...
...
...
...

xn11

xn 2 2

x .1

x .2

Total

j
x1j
x2j
x3j
.
.
.
xij
.
.
.

...
...
...
...

...

xn j j

...

...

x .j

...

...

...

k
x1k
x2k
x3k
.
.
.
xik
.
.
.

xn k k

Valori
individuale
Media

x .k

x
x .. =

Numrul de valori

n1

n2

...

nj

...

nk

nj

ij

j =1 i=1

N
k

N = n j
j =1

Analiza varianei opereaz ntr-o prim faz doar cu sumele de ptrate ale abaterilor de
la medie (SPA), pentru fiecare eantion i pentru cele k eantioane. Aceste SPA sunt numite
variaii (nu variane!). Avem mai nti variaia total, pentru ansamblul N al tuturor valorilor din
cele k eantioane, care se calculeaz cu ajutorul unei relaii de forma:

50

k nj

( x ij - x .. )
j=1 i=1

.
Variaia (SPA) total poate fi repartizat (alocat) pe cele dou componente ale sale (SPA ntre
grupe, respectiv n interiorul grupelor), astfel nct n final s se poat calcula cele dou
variane menionate mai sus.
Dac vom lua un element oarecare dintr-un eantion, atunci putem scrie o relaie
algebric simpl:
x ij - x ..= ( x ij - x .j ) + ( x .j - x .. )

adic scdem i adunm x .j . n felul acesta diferena ntre xij i x .. este exprimat ca sum a dou
cantiti: (1) diferena ntre xij i media eantionului (grupei) din care ea face parte i (2)
diferena ntre x .j i x .. .
Pentru a ajunge la SPA-uri, ridicm la ptrat relaia de mai sus:
2
2
2
( x ij - x .. ) = ( x ij - x .j ) + 2( x ij - x .j )( x ij - x .. ) + ( x .j - x .. )

Apoi aplicm operaia de nsumare la ambii membri ai ecuaiei - caz n care termenul central din
membrul drept devine nul (conform proprietilor mediei aritmetice). Rezult:
nj
nj
2
2 k
2 k
)
(
(
)
+
=
x
x
ij x ..
ij x .j
( x .j - x .. )
j=1 i=1
j=1 i=1
j=1 i=1
k nj

adic SPAtotal = SPAn interiorul grupelor + SPAntre grupe.


Pentru a obine cele mai bune estimaii ale varianelor corespunztoare, SPA-urile de
mai sus se mpart la numrul de grade de libertate aferente:
- pentru variana total, g.l. = N-1, cci un grad de libertate s-a pierdut prin calcularea x ..
(singura relaie independent ntre cele N valori);
- pentru variana ntre grupe g.l. = k-1, cci fiecare medie este tratat ca o valoare
individual, un grad de libertate pierzndu-se prin calculul x .. ;
- pentru variana n interiorul grupelor se pierde cte un grad de libertate pentru fiecare
eantion (prin calculul mediei corespunztoare), deci g.l. = N-k.
De menionat c egalitatea de la SPA-uri este valabil i la gradele de libertate: N-1 =
(N-k) + (k-1).
Acum pot fi calculate varianele estimate pentru cele dou componente, iar raportul
acestor estimaii, adic
F=

varianta estimat mai mare


varianta estimat mai mic

este tocmai statistica testului F.


Calculele aferente acestei etape se trec de regul n aa-numitul tabel de analiz a
varianei (vezi tab.4.2).
Tabel 4.2. Forma general a tabelului de analiz a varianei.
Sursa de variaie
Total
ntre grupe
n interiorul grupelor

SPA

g.l.

SPAtot.
SPA.g.
SPA.i.g.

N-1
k-1
N-k

Variana
estimat
SPA.g./(k-1)
SPA.i.g./(N-k)

.g. .i.g.
2

.i.g. .g.

51

Valoarea F calculat se compar cu valoarea F teoretic, corespunztoare n.s. al


testului i gradelor de libertate ale celor dou variabile estimate (Anexele IV i V). Dac Fcalculat
< Fteoretic, atunci diferenele dintre mediile celor k eantioane nu sunt semnificative statistic. n
caz contrar diferenele sunt considerate semnificative.
De remarcat c valorile F tabelate sunt mai mari, sau cel mult egale cu 1, ceea ce
nseamn c testul F este un test unilateral (ntotdeauna variana estimat mai mare constituie
numrtorul raportului).
S precizm, n final, c procedura descris mai sus constituie aa-numita analiz
simpl a varianei. Simpl, deoarece cele k eantioane corespund la k modaliti ale unei
caracteristici calitative nominale sau ordinale, modalitile respective corespunznd unor
populaii ale cror medii sunt comparate cu ajutorul AV. Atunci cnd eantioanele corespund
modalitilor a dou sau mai multe caracteristici calitative, se vorbete despre analiza dubl a
varianei, repectiv analiza multipl a varianei, metode de analiz statistic a cror
prezentare depete cadrul acestui curs.
Exemplu (dup Gregory, 1968). Se studiaz potenialul agropedologic din nordul rii (Pod. Sucevei). Prin
metodele sondajului aleator au fost prelevate 3 eantioane n scopul comparrii produciei de secar de pe suprafee
cu soluri diferite: pe substrat turbos, dezvoltate pe marne, respectiv pe argile. Pentru fiecare tip de sol a fost alctuit
cte un eantion de 10 terenuri cultivate cu secar.
Produciile medii nregistrate au fost respectiv de 24,3 q/ha (sol turbos), 22,2 q/ha (sol marnos) i 21,0 q/ha
(sol argilos). Se pune ntrebarea dac diferenele de productivitate ntre cele 3 eantioane este suficient de mare
pentru a putea afirma c producia de cereale din zon variaz semnificativ n raport cu tipul de sol. Datele de lucru
sunt redate n tabelul de mai jos. Prelucrarea lor dup metodologia expus mai sus conduce la urmtoarele rezultate:
3 10
( x ij - x .. )
j
SPAtot. = =1 i=1
= 301,5;
3
10( x .j - x .. )
j
= 55,8;
SPA.g. = =1
SPA.i.g. = SPAtot. - SPA.g. = 301,5 - 55,8 = 245,7.

Producii
(q/ha)

Media
Nr. de valori

turbos
24
27
21
22
26
13
25
29
26
24

Tip de sol
marnos
17
25
24
19
28
21
20
25
19
24

Total
argilos
19
18
22
24
23
18
21
19
25
21

x .1 =24,3

x .2 0=22,2

x .3 =21,0

10

10

10

x .. =

10

x ij

30
j=1i=1

=22,5

30

. ipoteza nul H0: nu exist o diferen semnificativ ntre medii, fa de i.a.H1: exist o diferen
semnificativ ntre acestea.
. n.s. = 5%
. statistica testului: F = 27,9/9,1 = 3,07.
. regiunea critic: n tabelul distribuiei F (Anexa V), pentru = 5%, 1 = 2 i 2 = 27, valoarea Ftabelat =
3,35.

52

. deoarece 3,07<3,35, se accept ipoteza nul H0, deci producia de cereale nu variaz semnificativ n
raport cu tipul de sol.
Sursa de variaie
Total
ntre grupe
n int. grupelor

SPA

g.l.

Variana estimat

301,5
55,8
245,7

29
2
27

27,9
9,1

3,7

4.3.2.2. Teste neparametrice.


Sunt tehnici de verificare a ipotezelor statistice foarte utile n practica cercetrii
geografice, unde sunt frecvente situaii cum ar fi:
- nu se dispune de valori absolute (deci nu se pot calcula mediile), datele fiind sub form
de frecvene (distribuii de frecvene);
- populaiile din care sunt prelevate eantioanele nu urmeaz o lege de distribuie
normal, sau pur i simplu nu se tie ce fel de lege de distribuie urmeaz.
Nefiind restricionate de calculul unor parametri ai eantionului (eantioanelor)
analizate, sau de presupoziii cu privire la tipul de distribuie urmat de populaia originar,
testele neparametrice au un cmp de aplicabilitate mult mai larg. Singura exigen pretins de
majoritatea acestor teste este aceea ca datele s fie calitative ordinale sau sub form de frecvene
(brute). Deasemenea, este hotrtor modul cum este formulat ipoteza nul H0, care de cele mai
multe ori condiioneaz nsi posibilitatea aplicrii testului, pe lng corectitudinea
concluziilor.
Dintre testele neparametrice dou sunt mai des utilizate: testul i testul KolmogorovSmirnov.

Testul . Este un test relativ uor de aplicat, dar este esenial ca datele s fie aranjate
corect, iar problema de rezolvat s fie una potrivit pentru aplicarea acestei metode.
Testul verific dac frecvenele observate ale fenomenului analizat difer semnificativ de
nite frecvene probabile (teoretice) ce corespund unei ipoteze prealabile. Aceast ipotez
prealabil trebuie definit cu atenie i bine neleas, astfel nct rezultatul aplicrii testului s
fie corect interpretat.
Vom ilustra modul de aplicare a acestui test cu ajutorul unui exemplu (dup Gregory,1968).
S presupunem c trebuie fcut un studiu asupra unui numr de ferme considerate n relaie cu
caracteristicile lor de localizare. Pe un teritoriu cu relief variat se preleveaz un eantion de 200 ferme, care sunt
grupate apoi n cteva categorii n funcie de caracteristica
fizico-geografic a sit-ului: es aluvial, teras, versant, platou Tabel 4.3. Distribuia celor 200 de ferme pe tipuri de
calcaros, platou grezos. Numrul de ferme pentru fiecare sit.
categorie este dat n tab.4.3, alturi de ponderea suprafeelor
Sit
Numr ferme % din supr. Total
pentru fiecare categorie n suprafaa total a teritoriului
10
10
studiat.
100
35
es aluvial
Examinarea datelor sugereaz clar c distribuia
2
10
teras
fermelor pe cele 5 categorii este legat de proporia
38
25
versant
suprafeelor corespunztoare: pe terase, care acoper cea mai
platou calcaros
50
20
mare suprafa, sunt instalate cele mai multe ferme. Pe de
platou grezos
alt parte, distribuia fermelor pare s indice o localizare
preferenial, deoarece i terasele, i platourile grezoase au
un numr de ferme mai mare dect ar sugera ponderea
arealului lor, n timp ce celelalte 3 categorii sunt oarecum sub-reprezentate.
Dac dorim s gsim o explicaie cauzal pentru distribuia spaial a sit-urilor fermelor, una din
problemele de rezolvat este verificarea ipotezei sugerate de datele empirice. Dac numrul de ferme de pe un
anumit tip de teren este legat n primul rnd de frecvena cu care apar respectivul tip, atunci nu se poate argumenta
c caracterele fizico-geografice ale acelui tip de teren reprezint factori ce favorizeaz (influeneaz) amplasarea
fermelor.

53

Pentru a testa care din cele dou posibiliti este mai probabil, aplicm testul . Ipoteza nul H0 o
formulm astfel: nu exist o diferen semnificativ ntre cele 5 categorii de terenuri n ce privete frecvena
amplasrii fermelor, acestea fiind repartizate uniform pe ntreg arealul studiat. Altfel spus, distribuia observat a
fermelor poate fi dedus satisfctor din proporiile diferitelor categorii de teren n cadrul arealului studiat.
Statistica testului, notat cu , se calculeaz pornind de la diferenele ntre frecvenele observate i cele
ateptate sau probabile. Frecvenele probabile sunt cele care rezult n cazul n care ipoteza nul H0 ar fi
adevrat.
Pentru fiecare categorie (grup, clas) diferena ridicat la ptrat se mparte la frecvena probabil, n felul
acesta eliminndu-se variabilitatea de la o grup la alta (un procedeu similar cu standardizarea). Prin nsumarea
acestor diferene standardizate se obine valoarea :
2
( fo- f p)
2
=
fp
Statistica constituie o variabil aleatoare cu k-1 grade de libertate (k - numrul de grupe/categorii), a
crei distribuie teoretic este disponibil sub form de
tabele (sau grafice). n tabelul distribuiei (Anexa VI) se
Tip de sit
es
teras versant platou
platou
intr cu n.s. al testului i cu g.l. Dac valoarea calculat>
Frecvene
aluvial
calcaros grezos
teoretic, atunci ne aflm n regiunea critic i, deci, ipoteza
fo
10
100
2
38
50
nul H0 va fi respins.
fp
20
70
20
50
40
n exemplul nostru, pentru a calcula valoarea
trebuie stabilite frecvenele. Cele observate (fo) sunt
fo-fp
-10
30
-18
-12
10
disponibile deja, iar cele ateptate (fp) se calculeaz
pornind de la ponderea fiecrui tip de teren n suprafaa
total (vezi tabelul de mai jos). Astfel, de exemplu, dac
esurile aluviale acoper 10% din teritoriu studiat, atunci ar trebui (conform ipotezei nule H0) ca 20 (adic 10%) din
cele 200 de ferme s fie situate n esuri aluviale.
2
( fo- f p)
2
= 39,5
=
fp
Statistica testului:
n tabelul distribuiei (vezi Anexa VI), pentru g.l. = 5-1 = 4, valorile tabelate sunt mult mai mici dect
cea calculat, chiar i la praguri de semnificaie mici (2% sau 1%). Este clar deci c ipoteza nul H0 trebuie
respins, iar concluzia testului este c exist realmente o localizare preferenial a fermelor n funcie de tipul de
teren - altfel spus, caracteristicile fizico-geografice ale sit-ului influeneaz semnificativ frecvena fermelor.

n exemplul de mai sus testul a fost utilizat pentru analiza unei singure variabile numrul de ferme pe diferite tipuri de terenuri. Acelai test poate fi, ns, folosit pentru
compararea a dou sau mai multe variabile care apar, ca i la exemplul anterior, sub forma unor
distribuii de frecvene (empirice). De remarcat c testul poate fi folosit i pentru compararea
unei distribuii empirice cu una teoretic, caz n care se ncadreaz n categoria aa-numitelor
teste de concordan (de adecvare).
n cazul comparrii a dou sau mai multe distribuii empirice frecvenele observate,
corespunztoare diferitelor categorii (grupe, clase) se
prezint n mod obinuit sub forma unui tabel cu r linii
Grupe 1
2
3
Total
(r - numrul de variabile comparate) i c coloane (c Variabile
numrul de grupe). Un asemenea tabel poart numele de
X
x1
x2
x3
SX
tabel de contingen.
Y
y1
y2
y3
SY
Un exemplu pentru dou variabile cu trei categorii
Total
S1
S2
S3
N
(grupe) apare n tabelul alturat.
Frecvenele observate sunt xi i yj. Frecvenele
ateptate se calculeaz destul de simplu, sub forma unor
probabiliti condiionate de totalurile pe linii i coloane - spre exemplu lui x1 i corespunde o
x * 1
N
. Deci pentru orice celul din tabel frecvena
frecven probabil calculat cu formula
probabil se obine mprind produsul dintre suma liniei i suma coloanei aferente la frecvena

54

total N. Odat determinate frecvenele probabile, valoarea se calculeaz dup formula


cunoscut:
2

( f o- f p )

fp

,
nsumarea fcndu-se pentru toate celulele din tabel.
Statistica astfel calculat este o variabil aleatoare cu (r-1)(c-1) grade de libertate.
Valoarea tabelat (Anexa VI) se compar cu cea calculat, iar concluzia testului se stabilete
dup aceleai reguli ca i n cazul unei singure variabile.
Testul Kolmogorov-Smirnov - este un test neparametric care, ca i testul se utilizeaz
n cazul acelor eantioane (variabile) ce apar sub form de distribuii de frecvene brute.
Deasemenea, ca i testul , testul K.-S. se utilizeaz att pentru compararea a dou distribuii
empirice, ct i pentru compararea unei distribuii empirice cu una teoretic (test de
concordan).
Pentru a putea aplica testul este necesar ca frecvenele brute s fie transformate n
proporii (frecvene relative subunitare). Dup aceea aceste proporii se cumuleaz, pentru
fiecare din cele dou distribuii de frecvene. Pentru fiecare categorie (grup, clas) se face
diferena ntre cele dou proporii cumulate. n ultima etap a testului se ia n considerare cea
mai mare dintre diferene, a crei semnificaie statistic poate fi evaluat direct (deci fr a fi
implicat n calculul vreunei statistici). Evaluarea se face cu ajutorul tabelului sau graficului
diferenelor maxime, n funcie de mrimea eantionului de baz (cel pe baza cruia s-a alctuit
distribuia de frecvene) (Anexa VII).
Exemplu. Analiza frecvenei cantitilor zilnice de precipitaii la o staie meteo, pentru o perioad lung de
timp, a condus la distribuia de frecvene din tabelul alturat.
Pentru o lun particular de 30 zile frecvenele brute ce corespund celor 4 categorii (clase) au fost respectiv 12, 6, 9,
3. Problema de rezolvat este aceea de a decide dac ntre distribuia teoretic i cea a lunii respective exist o

Clasa
Frecvena(%)

0 mm

0,1-2 mm

2-10 mm

>10 mm

50

25

20

diferen semnificativ sau nu.


ipoteza nul H0 va fi, firete, aceea care neag existena unei diferene semnificative ntre cele dou
distribuii.
n.s. =5%.
dup cum s-a vzut, n cazul testului Kolmogorov-Smirnov statistica testului este reprezentat de acea
diferen maxim ntre proporiile cumulate aferente categoriilor (claselor). Deci transformm mai nti frecvenele
de mai sus n proporii, apoi calculm proporiile cumulate i diferenele respective (vezi tabelul de mai jos). Pentru
distribuia empiric (cea a lunii particulare de 30 de zile) proporiile se calculeaz simplu, mprind fiecare din
frecvenele observate la numrul total de cazuri (30).

55

max = 0,15.
n tabelul cu diferenele maxime pentru testul Kolmogorov-Smirnov (Anexa VII) gsim c pentru un
Clasa
Proporii

Proporii cumulate

0 mm

0,1-2 mm

2-10 mm

>10 mm

d.teoretic

0,50

0,25

0,20

0,05

d.empiric

0,40

0,20

0,30

0,10

d.teoretic

0,50

0,75

0,95

1,00

d.empiric

0,40

0,60

0,90

1,00

0,10

0,15

0,05

Diferena ()

eantion de 30 valori (zile, n cazul nostru) i =5%, max teoretic este 0,24. Deci diferena ntre cele dou distribuii
este nesemnificativ statistic.

Aa cum s-a menionat, testul K.-S. se poate aplica i n cazul a dou eantioane
(distribuii empirice). Dac se lucreaz cu eantioane mici (n<40), atunci este necesar ca ele s
aib aceeai mrime, pentru a putea folosi tabelul testului - aceasta ntruct n tabel se intr cu
n.s. i volumul unui eantion (nu cu volumul total al celor dou eantioane).
n cazul eantioanelor mari (n>40) volumele pot fi inegale, iar diferenele maxime
corespunztoare diferitelor nivele de probabilitate (semnificai e) se obin cu ajutorul unor
formule indicate de Smirnov (pentru testul bilateral):
1,36

- pentru n.s. =5%: max =


1,63

- pentru n.s. =1%: max =


1,95

- pentru n.s. =0,1%: max =

n1 + n 2
n1 * n 2

n1 + n 2
n1 * n 2

n1 + n 2
n1 * n 2

56

CAP.V. PROBLEME GENERALE PRIVIND RELAIA DINTRE DOU VARIABILE


(NOIUNI DE ANALIZ BIVARIAT )
5.1. Noiunea de relaie ntre dou caracteristici

Una dintre ntrebrile fundamentale ale geografilor este urmtoarea: exist o relaie23
oarecare ntre fenomene situate n locuri diferite ale spaiului? (Johnston,1978). Rspunsul la
aceast ntrebare ofer posibilitatea de a sesiza eventualele structuri spaiale, care funcioneaz
de multe ori incifrat, greu de perceput cu ajutorul simurilor umane. De asemenea, a rspunde la
aceast ntrebare nseamn a putea avansa mai departe n cercetarea geografic, respectiv a
ajunge la stadiul de a sesiza diferenierile spaiale. Adic la a rspunde la a doua ntrebare
fundamental a geografiei: locurile caracterizate de acelai fenomen sunt diferite ntre ele?
(Johnston, 1978).
Baza de pornire pentru a demonstra existena sau non-existena relaiilor dintre
fenomene cu localizri diferite este ordonarea elementelor mulimii studiate ntr-un tabel
elementar.
S considerm o mulime M alctuit din n elemente (observaii) 1..i..n, descrise de dou
caracteristici (variabile) X i Y, care iau modalitile
X1..Xi..Xn
i
respectiv
Y1..Yi..Yn.
Variabilele
X
Y
nM
(caracteristicile) X i Y pot fi calitative sau cantitative,
continue sau discrete. Tabloul elementar care corespunde
1
X1
Y1
acestei mulimi are forma din tabelul alturat.
2
X2
Y2
Spunem c pentru mulimea observat M exist o
.
.
.
relaie ntre X i Y dac cunoaterea modalitii Xi permite
.
.
.
prezicerea, ntr-o oarecare msur, a modalitii Yi
corespondente.
i
Xi
Yi
O relaie se poate exprima sub form literar
.
.
.
(calitativ) sau sub form algebric (cantitativ ). Pentru a
.
.
.
ilustra aceste dou forme, vom considera mulimea M a
n
Xn
Yn
statelor tropicale n anul 1985, fiecare stat fiind caracterizat
de dou variabile: rata analfabetismului feminin (X) i
mortalitatea infantil masculin (Y). Aceste dou variabile
iau, pentru fiecare stat 1..i..n, modalitile X1..Xi..Xn i
Y1..Yi..Yn.

23

Trebuie s se remarce faptul c n statistic, termenul de relaie nu este sinonim cu cel de legtur. Termenii de
legtur i de dependen permit s se precizeze noiunea de relaie :
a) Noiunea de legtur este simetric : a spune c exist o legtur ntre X i Y nseamn acelai lucru cu a spune c
exist o legtur ntre Y i X (aceasta nseamn c valorile lui X i Y nu sunt distribuite n mod ntmpltor);
b) Noiunea de dependen nu este simetric, deoarece ea d un sens relaiei : a spune c Y depinde de X nu
nseamn acelai lucru cu a spune c X depinde de Y. De exemplu, salariul crete n general cu vechimea n munc a
lucrtorului. Salariul depinde de vechime. n schimb, vechimea nu depinde de salariu, deoarece timpul trece i fr
mrirea salariului.
Prin urmare, o relaie, care presupune i dependen ntre variabile, este mai mult dect o legtur, deoarece are un
sens : a scrie Y = f(X) nseamn c se admite c Y este variabila dependent (de explicat) iar X este variabila
independent (explicativ).

57

a) Forma literar: Dac un element i din M ia modalitatea Xi a variabilei X, atunci ne


putem atepta ca modalitatea sa pentru variabila Y s fie Yi. n termenii exemplului de mai sus,
se spune c pentru mulimea rilor tropicale, la nivelul anului 1985, se observ n medie c, cu
ct nivelul de alfabetizare a femeilor este mai sczut, cu att mortalitatea infantil masculin
este mai mare.
b) Forma algebric (sau funcional): Y = f(X), respectiv Y este o funcie de X. n
termenii aceluiai exemplu, expresia devine: Y = 1,73X + 38,6, cu rXY = +0,820, unde:
Y = rata analfabetismului femeilor adulte n 1985;
X = rata mortalitii bieilor sub 5 ani, n 1989;
rXY = coeficientul de corelaie ntre cele dou variabile (vezi 5.3.1).
Prin urmare, se observ c a dovedi faptul c ntre dou variabile exist o relaie
nseamn a demonstra c atribuirea modalitilor lui X i lui Y pentru fiecare dintre elementele i
din M nu se face la ntmplare, respectiv a demonstra c valorile lui X depind de valorile lui Y
sau c valorile lui Y depind de valorile lui X. De vreme ce se caut logica atribuirii acestor
modaliti n aa fel nct, cunoscnd modalitatea Xi, s se poat prezice modalitatea Yi (sau
invers), se poate spune c se urmrete s se sesizeze faptul dac cele dou variabile sunt
corelate.
Cea mai simpl modalitate de a observa dac dou variabile sunt corelate este studierea
diagramei lor de dispersie. Diagrama de dispersie este un sistem de coordonate rectangulare, n
planul cruia se pot localiza punctele ce corespund perechilor de valori XY (obinndu-se un
nor de puncte). Mulimea de puncte ce alctuiete norul se ordoneaz ntr-o anumit manier,
dndu-i acestuia o anumit form. Aspectul norului permite caracterizarea relaiei prin
intermediul a trei criterii: intensitatea relaiei, forma relaiei i sensul relaiei. Dac punctele
prezint tendina de a se apropia de o aceeai curb, variabilele respective sunt corelate. n
funcie de cele trei criterii, corelaiile pot fi puternice sau slabe, lineare sau neliniare, pozitive
sau negative. Lipsa unei direcii vizibile a ordonrii punctelor care alctuiesc norul semnific
faptul c variabilele nu sunt corelate.
Studierea relaiilor stabilite ntre dou variabile se efectueaz n funcie de felul
variabilelor n cauz: calitative sau cantitative, discrete sau continue. Pentru a ilustra cele mai
frecvente situaii, vom analiza trei cazuri de relaii prin intermediul modalitilor lor de studiu24:
1. - relaia ntre dou variabile discrete (cantitative sau calitative), cu numr k redus de
modaliti (k<n pentru X i Y): studiul tabelului de contingen; coeficieni de asociere;
2. - relaia dintre dou variabile cantitative continue, sau asimilabile unor variabile
continue (k>n pentru X i Y): studiul coeficientului de corelaie liniar Bravais-Pearson (r);
regresia liniar;
3. - relaia dintre dou variabile calitative ordinale (k=n pentru X i Y); studiul
coeficientului de rang Spearman ().
5.2. Tabelul de contingen i studiul relaiei ntre dou caracteristici discrete25
5.2.1. Crearea unui tabel de contingen26

24

Trebuie remarcat c majoritatea celorlalte situaii pot fi aduse la nivelul uneia sau alteia dintre cele prezentate n
text, cu condiia transformrii variabilelor (prin discretizare, prin standardizare, etc.).
25
Vezi i capitolul Teste neparametrice.
26
Studiul tabelului de contingen se poate aplica i n cazul caracteristicilor continue, cu condiia ca acestea s fie
discretizate (de exemplu s fie grupate n clase).

58

Tabelele de contingen sunt tabele constituite din numere ntregi, descriind repartiia
elementelor unei mulimi n funcie de dou serii de modaliti. Tabelele de contingen se
construiesc plecnd de la tabelele elementare.
Exemplu. Fie un tabel elementar care descrie fiecare cetean al oraului Albeni (cu 20.000 de locuitori)
n funcie de cartierul unde locuiete, respectiv variabila X, cu patru modaliti (X1 = cartierul Morilor-M, X2 =
cartierul Papura-P, X3 = cartierul Neagra-N, X4 =
cartierul Tbcrie-T) i n funcie de naionalitate,
Nr. / Nume
M
P
N
T
LOC
STR
respectiv variabila Y, cu dou modaliti (Y1 =
localnic-LOC i Y2 = strin-STR). n tabel,
1. Ionescu V.
1
0
0
0
1
0
apartenena la o modalitate este notat cu 1 iar non2. Ghaffar M.
0
0
1
0
0
1
apartenena cu 0.
De la acest tabel elementar se poate crea
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
tabelul de contingen, prin nsumarea numrului de
.
.
.
.
.
.
.
.
ceteni care ndeplinesc simultan ambele modaliti.
De exemplu, exist cel puin un individ (Ionescu),
452. Popescu I.
0
0
0
1
1
0
care locuiete n cartierul Morilor i este localnic
.
.
.
.
.
.
.
.
(ndeplinete modalitile X1 i Y1), n schimb exist
.
.
.
.
.
.
.
.
cel puin doi indivizi (Ghaffar i Zhu) care locuiesc
.
.
.
.
.
.
.
.
n cartierul Neagra i sunt strini (ndeplinesc
20000. Zhu Liao
0
0
1
0
0
1
amndoi modalitile X3 i Y2). Dup gruparea tuturor
celor 20.000 de locuitori, se efectueaz suma tuturor
coloanelor i a tuturor liniilor i se obine urmtorul
tabel, care este tabelul de contingen:
X:

Y:

Y1 (LOCALNIC)

Y2 (STRIN)

TOTAL

X1 (Morilor)

5.000

5.000

X2 (Papura)

4.000

1.000

5.000

X3 (Neagra)

3.000

2.000

5.000

X4 (Tbcrie)

2.000

3.000

5.000

TOTAL

14.000

6.000

20.000

Pentru o mai bun nelegere a analizei efectuate, prezentm mai jos schema unui tabel
de contingen.
Notaiile unui tabel de contingen,
i \ j
1
2
...
j
...
p
Y
cu care ne vom ntlni i n alte capitole,
sunt urmtoarele (Bezencri, 1973):
1
k11
k12
...
k1j
...
k1p
k1.
* i - desemneaz liniile (sau modalitile
2
k21
k22
...
k2j
...
k2p
k2.
caracterului X);
.
.
.
.
.
.
.
.
* n - desemneaz numrul total de linii;
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
* j - desemneaz coloanele (sau modalitile
caracterului Y);
i
ki1
ki2
...
kij
...
kip
ki.
* p - desemneaz numrul total de coloane;
.
.
.
.
.
.
.
.
* kij - desemneaz efectivul csuei aflat la
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
intersecia liniei i cu coloana j (de exemplu
numrul ceteni care locuiesc n cartierul i
n
kn1
kn2
...
knj
...
knp
kn.
i au naionalitatea j);
X
k.1
k.2
...
k.j
...
k.p
k..
* knp - desemneaz efectivul csuei aflat
la intersecia ultimei linii (n) cu ultima
coloan (p);
* k.j (k punct j) - desemneaz efectivul total al coloanei j, adic

59

k . j = k ij
i=1

(respectiv numrul cetenilor de naionalitate j). Efectivul k.j este efectivul care posed n
acelai timp modalitatea Yj i diferitele modaliti ale caracterului X. Punctul nseamn c
respectivul caracter pus n coloan este considerat n totalitatea sa. Diferitele efective k1j, k2j, . . .
kij, . . . knj formeaz distribuia condiional a lui X dac Yj este realizat sau distribuia
condiional a lui X pentru modalitatea27 Yj, ceea ce se noteaz X/Yj. Pentru un j fixat, efectivul
p

X / Y j = k . j = k 1j + k 2j + ... + k ij + ... k nj = k ij
j=1

su total este
Exist deci p distribuii condiionale ale lui X (p coloane). Valorile ultimei linii (k.1, k.2, . . . k.j, .
. . k.p) formeaz distribuia marginal a caracterului Y n funcie de caracterul X;
p

k i .= k ij
j=1

* ki. (ki punct) - desemneaz efectivul total al liniei i, adic:


(respectiv numrul cetenilor din cartierul i). Efectivul ki. este efectivul care posed n acelai
timp modalitatea Xi i diferitele modaliti ale caracterului Y. Punctul nseamn c respectivul
caracter pus n linie este considerat n totalitatea sa. Diferitele efective k1i, k2i, . . . kij, . . . kip
formeaz distribuia condiional a lui Y dac Xi este realizat sau distribuia condiional a
lui Y pentru modalitatea28 Xi, ceea ce noteaz Y/Xi. Pentru un i fixat, efectivul su total este:
n
Y / X i = k i .= k 1i + k 2i + ... + k ij + ... + k ip = k ij
i=1

Exist deci n distribuii condiionale ale lui Y (n linii). Valorile ultimei coloane (k1., k2., . . .ki., .
. . kn.) formeaz distribuia marginal a caracterului X n funcie de caracterul Y;
* k.. (k punct punct) - desemneaz efectivul total al tabelului, adic:
n p
k..= k ij = k
i=1 j=1

(respectiv numrul total al cetenilor din Albeni).


De exemplu, n tabelul de contingen cu situaia cetenilor oraului Albeni, k12 = 0, k31
= 3.000, k.2 = 6.000, k2. = 5.000, k.. = 20.000.
Un tabel este un tabel de contingen dac suma coloanelor i suma liniilor au sens. De
exemplu, nsumarea temperaturilor medii care caracterizeaz cele patru cartiere ale Albenilor nu
ar avea sens, iar tabelul care le-ar cuprinde nu ar putea fi un tabel de contingen. Un tabel de
contingen este definit de trei parametri:
- unitile elementare de numrat (n cazul nostru cetenii din Albeni);
- dou caractere (variabile) discrete care descriu unitile elementare (n cazul nostru
apartenena la unul dintre cartiere i naionalitatea).
5.2.2. Analiza unui tabel de contingen

ntr-un tabel de contingen, liniile i coloanele joac roluri perfect simetrice. Acest
lucru (respectiv posibilitatea transformrii coloanelor n linii i invers) nu trebuie uitat, dei, din
comoditate, n analiza unui tabel de contingen se folosete pentru linii termenul de de cazuri
sau indivizi29 iar pentru coloane cel de variabile (Sanders, 1989).
27

n cazul n care variabilele au fost discretizate n clase, Yj este centrul clasei j.


n cazul n care variabilele au fost discretizate n clase, Xi este centrul clasei i.
29
Aceasta deoarece n geografie, liniile unui tabel de contingen sunt deseori uniti spaiale (n cazul nostru
cartierele oraului fictiv Albeni). n statistic, prin individ se nelege o observaie, adic unul dintre elementele
28

60

Rolul analizei unui tabel de contingen este acela de a stabili dac ntre variabilele
considerate exist o legtur oarecare, dac ntre unitile spaiale descrise de aceste variabile
exist asemnri sau deosebiri, etc.
Pentru a putea efectua analiza i a compara liniile sau coloanele tabelului de contingen
este necesar realizarea profilelor30 liniilor i coloanelor.
5.2.2.1. Stabilirea profilelor liniilor
Profilul unei linii se obine prin mprirea efectivului fiecrei csue a liniei la efectivul
total al liniei respective (kij/ki.). Astfel se
obine partea relativ a coloanei j n linia i
Y:
LOCALNICI
STRINI
TOTAL
(adic partea relativ a cetenilor cartierului i
X:
care au cetenia j). Suma fiecrei linii astfel
Morilor
100%
0%
100%
obinut este ntotdeauna 1 (sau 100, dac
relativizarea
se
face
procentual,
Papura
80%
20%
100%
adic(kij/ki.)*100) (vezi tabelul alturat).
Neagra
60%
40%
100%
Analiza tabelului profilurilor liniilor
Tbcrie
40%
60%
100%
permite deja cteva consideraii referitoare la
TOTAL
70%
30%
100%
relaia stabilit ntre cele dou variabile i la
diferenierile induse de acestea ntre cele patru
cartiere. Astfel, este vizibil faptul c n Albeni
sunt 30% strini i c n cartierul Tbcrie
acetia sunt predominani (60% din populaia cartierului). Relaia abia sesizat este incomplet,
deoarece lipsesc informaii referitoare la raportarea fiecrei uniti spaiale la totalul populaiei
oraului. Aceast lacun poate fi acoperit prin repetarea operaiei de relativizare a
modalitilor, de aceast dat n plan vertical (pentru coloane).
5.2.2.2. Stabilirea profilelor coloanelor
Profilul unei coloane se obine prin mprirea efectivului fiecrei csue a coloanei la
efectivul total al coloanei respective (kij/k.j sau
(kij/k.j)*100). Se obine astfel partea relativ a
Y:
LOCALNICI
STRINI
TOTAL
liniei i n coloana j (adic partea relativ a
X:
cetenilor de naionalitate j din cartierul i n
Morilor
36%
0%
25%
raport cu oraul ntreg) (vezi tabelul alturat).
De aceast dat, analiza tabelului
Papura
29%
17%
25%
profilelor coloanelor permite situarea fiecrui
Neagra
21%
33%
25%
cartier n cadrul oraului n funcie de cele
Tbcrie
14%
50%
25%
dou variabile care l caracterizeazi. Astfel, se
TOTAL
100%
100%
100%
evideniaz faptul c n cartierul Tbcrie
locuiete 25% din populaia oraului, ns aici
este concentrat cea mai mare parte din
populaia de origine strin (50%) i cea mai
mic parte dintre localnici (14%).
5.2.2.3. Stabilirea existenei / non-existenei unei legturi ntre cele dou caracteristici

mulimii caracterizat de variabilele alese.


30
Profilul unei linii sau al unei coloane nseamn relativizarea valorii din fiecare csu a liniei (coloanei) prin
raportarea sa la totalul liniei (coloanei).

61

Cea mai simpl cale de a sesiza existena / non-existena unei legturi ntre cele dou
variabile este compararea distribuiei frecvenelor lor teoretice cu distribuia frecvenelor
observate. Deoarece tabelul de contingen este de fapt tabelul distribuiei frecvenelor
observate, putem construi, plecnd de la ultima sa linie i de la ultima sa coloan, tabelul de
contingen teoretic (sau tabelul de contingen a frecvenelor teoretice). Efectivul teoretic al
unei csue oarecare k'ij este dat de relaia:
k ij = (k..)x

ki . k . j
x
k.. k..

adic efectivul total nmulit cu probabilitatea de a lua modalitatea i nmulit cu probabilitatea de


a lua modalitatea j. Simplificat prin k.. relaia devine:
k ij =

k i .xk . j
k..

De exemplu, numrul teoretic al strinilor din cartierul Tbcrie este de


60005000/20000 = 30000000/20000 = 1500.
Prin urmare, tabelul de contingen teoretic
Y:
LOCALNICI
STRINI
TOTAL
este cel alturat.
X:
Comparaia dintre distribuia teoretic
Morilor
3500
1500
5000
i distribuia observat (efectuat de obicei
prin efectuarea diferenei dintre cele dou
Papura
3500
1500
5000
distribuii) permite stabilirea faptului existenei
Neagra
3500
1500
5000
sau non-existenei unei legturi ntre cele dou
Tbcrie
3500
1500
5000
caracteristici X i Y:
TOTAL
14000
6000
20000
- dac distribuia observat
este
conform cu distribuia teoretic, nu exist nici
o legtur ntre cele dou caracteristici;
- dac distribuia observat difer n
mod semnificativ de distribuia teoretic, exist o legtur ntre caracteristicile analizate.
Comparnd distribuia observat a cetenilor oraului Albeni i distribuia lor teoretic,
se observ c acestea difer evident, deci ntre cartierul de reedin i naionalitatea cetenilor
exist o oarecare legtur.
Prin aceast metod s-a putut demonstra doar c ntre caracteristicile X i Y exist o
oarecare legtur, dar nu s-a demonstrat c exist i o relaie care, s ne amintim, implic i
dependen (statistic sau matematic).
Dou caracteristici sunt independente atunci cnd nu exist nici o relaie ntre ele.
Independena lor este dovedit atunci cnd contingena unei csue oarecare a tabelului este
nul, adic
k i .xk . j
=0
k ij k..
Aceast situaie corespunde la dou cazuri: fie acela n care efectivele sunt rspndite n toate
csuele, fie acela n care ele sunt dispuse pe o linie sau pe o coloan (fig.5.1).
n aceste cazuri, diagramele de dispersie corespunztoare sunt fie sub forma unui nor fr form
determinat, fie sub forma unei linii paralele cu axa oX (independen fa de Y) sau cu axa oY
(independen fa de X). Caracterele se afl astfel n independen matematic (Calot, 1973).
Conform acestui principiu, se poate vorbi i de independen statistic, care apare atunci cnd
variabilele variaz independent una de cealalt (fig.5.2).

62

Figura 5.1. : Tip de tabel de contingen care ilustreaz independena matematic i


diagrame de dispersie aferente situaiilor de independen matematic (dup
Chadule, (1979)

Figura 5.2. : Tip de tabel de contingen care ilustreaz independena statistic i


diagrame de dispersie aferente situaiilor de independen statistic (dup Chadule,
(1979)

63

Situaia opus (caracterele sunt perfect dependente) se realizeaz atunci cnd o funcie
matematic Y = f(X) leag n mod riguros variabilele, care astfel se afl n relaie funcional.
Figura 5.3. : Tip de tabel de contingen care ilustreaz independena matematic i
diagrame de dispersie aferente situaiilor de independen matematic (dup
Chadule, (1979)

condiiile acestei situaii sunt ndeplinite doar atunci cnd unei modaliti Yj i corespunde o
modalitate Xi i numai una (adic, n tabelul de contingen doar o singur csu pe linie i doar
o singur csu pe coloan are un efectiv non-nul (fig.5.3).
Figura 5.4. : Tip de tabel de contingen care ilustreaz dependena statistic i
diagrame de dispersie aferente situaiilor de dependen matematic (dup Chadule,
(1979)

64

Este evident faptul c cele dou situaii limit (independena matematic i dependena
funcional) nu se observ n cmpul de cercetare al geografiei, sau sunt fr interes pentru
cercetarea geografic. Geografia este dominat de cupluri de variabile aflate n relaie de
dependen parial, numit i dependen statistic (fig.5.4).
Dependena statistic poate fi puternic, medie sau slab, aceasta din urm fiind n unele
cazuri greu de luat n seam, deoarece seamn destul de mult cu independena.
Din aceast cauz, este necesar construirea i aplicarea unor teste de independen,
crora li se poate fixa un prag de ncredere (sau prag de decizie sau prag de eroare) cunoscut.
Cel mai adecvat test este testul de independen (se citete hi ptrat). Acest test are ca
baz compararea distribuiei efectivelor observate (kij) din fiecare csu ij a tabelului de
contingen observat cu efectivele teoretice (k'ij) din fiecare csu ij a tabelului de contingen
teoretic, sub ipoteza independenei matematice.
Pentru aceasta, se calculeaz n primul rnd efectivul teoretic (k'ij) pe care l-ar avea
fiecare csu n cazul independenei matematice:
k ij -

k i .xk . j
k..

= 0 k ij =

k i .xk . j
k..

n continuare, se nsumeaz diferenele dintre efectivele teoretice i efectivele observate,


statistica D a testului avnd forma:
2
p (
k ij - k ij )
D=
k ij
i=1 j=1
n

Ea urmeaz o lege de repartiie cu v grade de libertate, iar = (n-1)(p-1) (n = numrul de


clase (linii) ale caracterului X; p = numrul de clase (coloane) ale caracterului Y).
Dup efectuarea acestor calcule, se testeaz ipoteza nul (H0), conform creia X i Y sunt
independente. Caracteristicile sunt independente doar dac se ndeplinete condiia DC. [C
este valoarea citit n tabelul distribuiei prezentat n Anexa VI; citirea sa se face exclusiv n
funcie de v - deci de numrul de grade de libertate, i de , adic de pragul de ncredere pe care
l alegem]. Pentru ca aceast metod s fie valabil, trebuie ca efectivul claselor distribuiilor
condiionale s fie egal sau superior lui 5 (ki. 5 i k.j 5).
Exemplu. Testul ne permite s sesizm, dac exist, relaia de dependen dintre cele dou caractere care
descriu cetenii oraului Albeni. Pentru aceasta, vom relua tabelele de contingen observat i teoretic, cu
valorile exprimate n mii de locuitori.
Din analiza tabelului de contingen, dependena nu pare s existe: doar o singur csu are efectiv nul
(Y2,X1) iar efectivele sunt distribuite n tot restul tabelului. Cu toate acestea, caracterele nu se afl n relaie de
independen matematic, deoarece contingena nu este nul (de ex. Y'1,X'1 - Y1,X1 = -1,5). Este necesar deci ca s
pornim de la ipoteza nul H0, conform creia nu exist dependen ntre locul de reedin i naionalitatea
cetenilor din Albeni.
Deoarece am fcut ipoteza de independen matematic, vom considera de asemenea tabelul de
contingen teoretic (care va fi utilizat la calcularea cantitilor (k'ij - kij)/k'ij), necesare ulterior aflrii lui D.
[Pentru a sintetiza demonstraia, vom utiliza un singur tabel care va cuprinde toate cele trei serii de valori;
pentru comoditate, cantitile (k'ij-kij)/k'ij sunt notate n tabelul de mai jos cu d].

65

Pentru calcularea valorilor celor trei serii din tabelul urmtor, un exemplu numeric poate facilita
nelegerea. Pentru csua X1,Y2 valoarea se obine astfel:
- efectivul observat este k12 = 0
Y: Y1 Y'1 d
Y2 Y'2 d
ki.; k'i.; Sd
- efectivul teoretic este k'12 = (k1. k.2)/k..=(56)/20 = 1,5;
X:
- cantitatea (k'ij - kij)/k'ij, sau d, este (1,5 - 0 )/1,5=1,50.
X1; X'1 d

5 3,5 0,64

0 1,5 1,50

X2; X'2 d

4 3,5 0,07

1 1,5 0,17

5 5 2,14

5 5 0,24
D se obine deci prin nsumarea valorilor d din tabel:
D = 0,64+0,07+1,07+0,64+1,50+0,17+0,17+1,50 = 4,76;
X3; X'3 d
3 3,5 0,07
2 1,5 0,17
5 5 0,24
v = (4-1)(2-1) = 3 grade de libertate
X4; X'4 d
2 3,5 0,64
3 1,5 1,50
5 5 2,14
= 0,05 (pragul de ncredere)
k.j; k'.j; Sd
14 14 1,42
14 6 3,34
20 20 4,76
C = 7,81 (se citete n tabelul distribuiei ).
n acest moment putem testa ipoteza nul (care
stipula c variabilele alese sunt independente). Ne amintim
c, pentru ca relaia de independen s se verifice, D
trebuie s fie mai mare sau egal cu C. n exemplul nostru D<C (4,76 < 7,81), deci trebuie s refuzm ipoteza de
independen i s acceptm c variabilele noastre sunt corelate, ele aflndu-se n relaie de dependen.

Analiza primar a tabelului de contingen poate sugera ipoteza existenei unei legturi
ntre caracterele studiate. Testul permite sesizarea existenei relaiei de dependen. Nici una
dintre metode nu ofer ns informaii asupra intensitii i sensului acestei relaii. Pentru a avea
aceste informaii este nevoie s se calculeze raporturi i coeficieni de corelaie sau de asociere.
La aceste msuri vom ajunge prin intermediul exemplelor urmtoare.
5.3. Msurarea relaiei dintre dou caracteristici cantitative continue5.3. Msurarea
relaiei dintre dou caracteristici cantitative continue

Faptul de a pune n eviden o relaie ntre dou fenomene geografice nseamn doar a
lua contact n mod superficial cu formele de organizare a spaiului. Nevoia de ordine - resimit
nu numai de cercettorul geograf, dar i de omul de rnd - necesit mai multe informaii asupra
acestei legturi, pentru a ti cum i ct de puternic este organizat realitatea geografic. Este
nevoie n primul rnd de informaii referitoare la forma, la sensul i la intensitatea relaiei.
Relaia trebuie msurat.
Ce nseamn pentru geograf a msura o relaie? s ne amintim c a pune n eviden o
relaie ntre dou variabile nseamn a demonstra faptul c valorile luate de cele dou variabile
nu sunt distribuite la ntmplare. Deci, a sesiza relaia existent ntre dou distribuii nseamn a
emite ipoteza c ele variaz mpreun, ntr-o manier mai mult sau mai puin corelat . Prin
urmare, a msura aceast corelaie nseamn a stabili msura n care valorile unei distribuii
fluctueaz mai mult sau mai puin regulat simultan cu valorile altei distribuii (Chapot,
Dauphin, 1977). Altfel spus, msurarea corelaiei se rezum n linii mari la msurarea
fluctuaiei care afecteaz valorile uneia dintre cele dou distribuii atunci cnd valorile
celeilalte sufer o modificare oarecare (Gregory, 1968).
Cum poate geograful s msoare o relaie? Ori de cte ori cercettorul n geografie
studiaz modul cum dou fenomene variaz simultan, el ncearc s efectueze o msurare.
Gradul de precizie al acesteia oscileaz n funcie de metoda utilizat. Exist trei metode
principale de msurare a relaiilor (Chapot, Dauphin, 1977):
- suprapunerea hrilor tematice;
- analiza diagramelor de distribuie;
- analiza statistic.

66

* Suprapunerea hrilor (sau metoda cartografic) este metoda specific geografiei


clasice. Unui meteorolog i se va prea firesc s studieze variaia simultan a altitudinii i a
temperaturii. Pentru a msura relaia dintre aceste dou variabile, cea mai simpl metod va fi
aceea de a suprapune o hart cu izotermele peste una cu izohipsele regiunii analizate. Exist
toate ansele ca, n linii mari, traseul izotermelor s coincid cu cel al izohipselor, nct, studiind
dinamica spaial a gradientului termic i al celui altitudinal, cercettorul s ajung la concluzia
c ntre temperatur i nlimea reliefului exist o relaie invers proporional: pe msur ce
altitudinea crete, temperatura scade. Rezultatele acestei metode sunt modeste, rmnnd la
nivelul discursului imprecis, calitativ: cercettorul a stabilit c exist o legtur ntre cele dou
variabile, c legtura este de dependen i c sensul acesteia este negativ. Metoda nu poate
spune ct de intens este relaia, nct aceasta nu poate fi comparat cu alte relaii sesizate n
regiunea respectiv. n plus, cercettorul nu va fi niciodat sigur c relaia sa este semnificativ
sau c nu reflect de fapt o situaie excepional, accidental.
* Analiza diagramelor de distribuie (sau a
graficului de corelaie sau metoda grafic) este Figura 5.5. Aspectul norului de puncte
metoda care face trecerea de la analiza hrilor n cazul relaiei liniare dintre dou
suprapuse la cea statistic. Metoda consist n a trece variabile.
n planul unui sistem de axe rectangulare (grafic
cartezian) punctele corespunztoare perechilor de
valori XY (mai exact a perechilor de modaliti XiYi)
ale distribuiilor studiate. Studierea aspectului norului
de puncte rezultat ofer unele informaii asupra
existenei / non-existenei unei relaii, asupra formei,
sensului i intensitii relaiei.
Forma relaiei este sugerat de configuraia
Figura 5.6. Aspectul norului de puncte
norului dup cum punctele se ordoneaz pe o direcie
n cazul relaiei neliniare dintre dou
anumit n planul sistemului de axe.
variabile.

* O relaie este liniar dac norul de puncte prezint


o form alungit pe o direcie dominant (fig.5.5);
relaia este deci liniar dac forma norului poate fi
ajustat corect cu ajutorul unei drepte, adic dac se
poate gsi o relaie ntre X i Y care s aib forma Y
= aX + b.
n fig.5.5 relaia ntre X i Y este liniar; punctele se
grupeaz pe o direcie anume, fapt care confer
norului un aspect alungit.
* O relaie este non-liniar dac norul de puncte prezint o form complex, curbat (fig.5.6);
relaia este non-liniar dac relaia dintre X i Y nu este de forma Y = aX + b, ci de tip diferit:
parabolic (Y=a+bX+cX), hiperbolic [Y=1/(a+bX)], exponenial (Y=abX), etc.
n fig.5.6 relaia dintre X i Y nu este liniar; dei norul este alungit, acesta i schimb direcia
alungirii.
Sensul relaiei este indicat de orientarea direciei principale de alungire a norului n
raport cu axele coordonatelor.

67

* O relaie este pozitiv dac cele dou variabile Figura 5.7. Raporturile de mrime
variaz n acelai sens, adic dac se observ c:
dintre cele dou variabile n cazul
- valorilor mari ale variabilei X le corespund n relaiei pozitive.
general valorile mari ale variabilei Y;
- valorilor medii ale variabilei X le corespund
n general valorile medii ale variabilei Y;
- valorilor mici ale variabilei X le corespund n
general valorile mici ale variabilei Y.
Generaliznd pentru dou uniti i i j ale
distribuiei, se spune c relaia este pozitiv dac se
observ c, dac Xi>Xj, atunci este probabil ca Yi>Yj
(fig.5.7).
n fig.5.7 relaia dintre X i Y este pozitiv,
deoarece valorile lui Y variaz n acelai sens ca i
valorile lui X.
* O relaie este negativ dac cele dou variabile variaz n sens invers, adic dac se observ
c:
- valorilor mari ale variabilei X le corespund n general valorile mici ale variabilei Y;
- valorilor medii ale variabilei X le corespund n general valorile medii ale variabilei Y;
- valorilor mici ale variabilei X le corespund
n general valorile mari ale variabilei Y.
Generaliznd pentru dou uniti i i j ale Figura 5.8. Raporturile de mrime
distribuiei, se spune c relaia este negativ (sau dintre cele dou variabile n cazul
invers) dac se observ c, dac Xi>Xj, atunci este relaiei negative.
probabil ca Yi<Yj (fig.5.8).
n fig.5.8 relaia dintre X i Y este negativ,
deoarece valorile lui Y variaz n sens invers variaiei
valorilor lui X.
* O relaie este nul dac cele dou variabile sunt
total independente una fa de alta, adic dac se
observ c:
- valorilor mari ale variabilei X le corespund
valori mari, medii sau mici ale variabilei Y;
- valorilor medii ale variabilei X le corespund
valori mari, medii sau mici ale variabilei Y;
- valorilor mici ale variabilei X le corespund
valori mari, medii sau mici ale variabilei Y (fig.5.9).
Generaliznd, se spune c o relaie este nul Figura 5.9. Raporturi de mrime
dac faptul c se cunoate c Xi>Xj nu permite s se aleatoare ntre cele dou variabile, n
cazul relaiei nule.
prevad c Yi>Yj sau c Yi<Yj.
n fig.5.9 relaia dintre X i Y este nul,
deoarece variaia valorilor lui Y este indiferent la
variaia valorilor lui X.
Intensitatea relaiei este sugerat de modul de
grupare pe graficul de corelaie a valorilor YiYj n
funcie de valorile XiXj.
* O relaie este puternic dac unitile care au valori
vecine pe X au de asemenea valori vecine pe Y (caz n
care punctele norului i dau acestuia un aspect

68

compact).
Generaliznd, se spune c o relaie este puternic
dac faptul c Xi este aproape de Xj implic faptul c Figura 5.10. Relaie strns ntre dou
Yi este aproape de Yj.
variabile.
n fig.5.10 relaia dintre X i Y este puternic,
deoarece punctele sunt apropiate unele de altele, ceea
ce semnific variaia n paralel a valorilor vecine pe
X i pe Y.
* O relaie este slab dac unitile care au valori
vecine pe X pot avea valori ndeprtate pe Y (caz n
care punctele norului i dau acestuia un aspect
rarefiat). Generaliznd, se spune c o relaie este
slab dac faptul c Xi este aproape de Xj nu implic
faptul ca Yi s fie aproape de Yj.
n fig.5.11 relaia dintre X i Y este slab,
deoarece punctele sunt ndeprtate unele de altele,
ceea ce semnific non-paralelismul variaiei valorilor
vecine pe X i pe Y.

Din cele expuse, se observ c analiza grafic


este mai precis dect analiza cartografic, oferind
informaii mai detaliate asupra existenei/non- Figura 5.11. Relaie slab ntre dou
existenei relaiei, asupra formei, sensului i variabile.
intensitii acesteia. Cu toate acestea, rmnem nc
la nivelul discursului calitativ, deoarece nici prin
analiza grafic nu se obin msuri precise pentru
intensitatea sau pentru semnificativitatea relaiei
evideniate, iar informaiile obinute nu pot servi
pentru efectuarea comparaiilor cu alte relaii
existente n spaiul analizat.
* Analiza statistic, una dintre metodele
geografiei moderne, poate s acopere lacunele celor
dou metode precedente. Trebuie s remarcm c
ipotezele analizei statistice pot s aib ca punct de
plecare ipotezele sugerate de primele dou metode.
Principalele tehnici ale analizei statistice sunt
corelaia i regresia, cu ajutorul crora se obin toi
parametrii necesari msurrii precise a relaiilor,
precum i comparrii relaiilor ntre ele.
5.3.1. Coeficienii de corelaie

Intensitatea dependenei dintre dou caracteristici este msurat de coeficieni i de


raporturi, care sunt numere fr dimensiune31 i care sunt folosite n funcie de natura
caracteristicilor i a relaiilor. De exemplu:
31

Adic independente de unitile de msur a variabilelor i invariante la orice transformare liniar a variabilelor

69

- coeficientul de corelaie liniar (r) este utilizat n cazul unor caracteristici cantitative i al unor
relaii liniare;
- raportul de corelaie () este utilizat fie n cazul a dou caracteristici cantitative, fie a unei
caracteristici cantitative i a celeilalte calitative nominale, n condiiile n care relaia poate s nu
fie liniar;
- coeficientul de corelaie a rangurilor Spearman () se utilizeaz n cazul caracteristicilor
calitative ordinale, cnd condiia de liniaritate a relaiei nu este obligatorie;
- coeficienii de asociere msoar fie dependena dintre dou caracteristici calitative nominale,
fie cea dintre o caracteristic cantitativ i una calitativ nominal.
Coeficienii de corelaie permit obinerea unei msuri sintetice a sensului i a intensitii
relaiei dintre dou caracteristici.
Coeficientul de corelaie liniar Bravais-Pearson
Coeficientul de corelaie liniar Bravais-Pearson permite detectarea prezenei sau
absenei unei relaii liniare dintre dou caracteristici cantitative. Pentru a calcula acest
coeficient, este nevoie de calcularea covarianei, aceasta la rndul ei avnd la baz calcularea
covariaiei32. Un exemplu concret poate facilita nelegerea acestor parametri. n tabelul de mai
jos, fiecare dintre cele opt judee ale Moldovei este caracterizat de variabil X (populaia urban,
n procente, Romnia= 100%) i de variabila Y (valoarea produciei industriale, n procente,
Romnia = 100%), la nivelul anului 1989.
n tabel:
x = ecarturile la medie pentru variabila X (x = X- X );
y = ecarturile la medie pentru variabila Y (y = Y- Y );
x= variaia total a variabilei X;
y= variaia total a variabilei Y;
xy= covariaia total dintre X i Y.
n exemplul de mai sus, x i y reprezint variaia fiecrui jude, respectiv ecartul fiecrui
jude fa de media ansamblului de judee considerat.
[Trebuie s remarcm faptul c, deoarece este vorba de variaia unui loc n raport de alte locuri,
din punct de vedere al geografiei, acest parametru este de fapt variaia spaial].
Variabile

x=X-

Judeul

y=Y- Y

xy

BACU

2,9

0,7

0,6

4,0

1,8

3,1

1,3

BOTOANI

1,4

-0,7

0,5

0,9

-1,4

1,8

1,0

GALAI

3,0

0,9

0,7

4,1

1,8

3,4

1,6

IAI

3,3

1,1

1,3

2,7

0,5

0,2

0,5

NEAM

1,8

-0,3

0,1

2,1

-0,1

0,0

0,1

SUCEAVA

1,9

-0,2

0,0

1,8

-0,5

0,2

0,1

VASLUI

1,5

-0,6

0,3

1,2

-1,1

1,1

0,6

VRANCEA

1,2

-0,9

0,8

1,2

-1,1

1,1

0,9

17,1

0,0

4,4

18,0

0,0

10,9

6,1

Media

2,1

0,0

0,6

2,3

0,0

1,4

0,8

(ecart tip)

0,7

0,4

1,2

1,2

0,5

(suma)

cu coeficieni pozitivi.
32
Vezi i capitolul Parametrii unei distribuii statistice. Dac pentru o variabil se calcula variaia i variana,
pentru dou variabile se calculeaz covariaia i covariana, n funcie de modul cum variabilele variaz mpreun.

70

Pentru a obine variaia total a fiecreia dintre variabilele X i Y, trebuie ca valorile x i


y s fie ridicate la ptrat, deoarece, conform proprietilor mediei aritmetice, x = 0 i y = 0.
Prin urmare, suma ptratelor ecarturilor la medie ofer msura variaiei totale a unei variabile;
aici x = 4,4 iar y = 10,9.
Deoarece trebuie s msurm relaia dintre dou variabile, trebuie s cunoatem variaia
care exist ntre cele dou variabile. Suma produselor dintre ecarturile la medie ale lui X i ale
lui Y (xy) este tocmai aceast msur a covariaiei n spaiu ale lui X i ale lui Y. tiind c
variana este media sumei ptratelor ecarturilor unei variabile, prin analogie se poate calcula
covariana (adic variana simultan a dou variabile):
n

xy
i
=
1
COV XY =
N

adic: COVXY = 6,1/8 = 0,762 (N = numrul judeelor = 8).


Analiza covarianei poate s fie util n sesizarea sensului relaiei:
* Dac COVXY > 0, relaia este pozitiv;
* Dac COVXY < 0, relaia este negativ;
* Dac COVXY = 0, relaia este nul.
Din capitolele anterioare se tie c variana nu msoar dect distribuia unei variabile,
depinznd de unitatea de msur a acesteia. n mod logic, covariana depinde de unitile de
msur ale celor dou variabile, din care cauz nu putem compara covarianele distribuiilor
care au ecarturi-tip diferite. Pentru a se depi acest neajuns, a fost imaginat coeficientul de
corelaie liniar Bravais-Pearson, care este ntr-o oarecare msur o standardizare a
covarianei, ceea ce o face comparabil pentru distribuii cu ecarturi tip diferite.
Coeficientul de corelaie liniar (r) a dou variabile X i Y este egal cu covariana
dintre X i Y divizat cu produsul ecarturilor tip ale lui X i Y:
r XY =

COV XY

X * Y adic 0,762/(0,71,2) = +0,877

Trebuie s remarcm faptul c dac cele dou variabile sunt standardizate (X,Y = X',Y'),
atunci (X') = (Y') = 1, nct coeficientul de corelaie liniar devine egal cu covariana celor
dou variabile: rX'Y' = COVX'Y'/1 = COVX'Y'.
Coeficientul de corelaie liniar Bravais-Pearson (rXY) variaz ntre -1 i +1 i msoar gradul de
asociere dintre Y i X. Cu ct valoarea coeficientului este mai aproape de -1 sau de +1, cu att
relaia dintre cele dou variabile este mai puternic. Dac rXY=0, se spune c cele dou variabile
nu sunt corelate; aceasta nu nseamn c cele dou variabile sunt independente, deoarece ntre
ele poate exista o relaie non-liniar, imposibil de detectat cu ajutorul lui rXY. Interpretarea
coeficientului de corelaie liniar este prin urmare relativ simpl:
- dac rXY are o valoare apropiat de 0 (de exemplu -0,021, +0,012), nu exist o relaie liniar
ntre X i Y;
- dac rXY are o valoarea apropiat de -1 (de exemplu -0,785, -0,954), ntre X i Y exist
o puternic relaie liniar negativ;
- dac rXY are o valoare apropiat de +1 (de exemplu, n cazul nostru, +0,877), ntre X i
Y exist o puternic relaie liniar pozitiv.
n concluzie, semnul lui rXY (+ sau -) indic sensul relaiei (pozitiv sau negativ) iar valoarea
absolut a lui rXY, respectiv IrXYI, indic intensitatea relaiei (puternic, slab sau nul).
n unele cazuri, prezena valorilor excepionale poate perturba msura corelaiei i s
conduc la concluzii eronate.

71

n fig. 5.12 prezena unor valori foarte mari n comparaie cu toate celelalte falsific
intepretarea. Dac pstrm n cadrul analizei municipiul Bucureti i judeul Constana obinem
rXY=+0,153 (graficul de sus). Eliminndu-le (graficul de jos), coeficientul nu numai c se
mbuntete n mod simitor, ci i schimb i semnul : rXY=-0,361, artnd clar c ntre cele
dou relaii este o legtur strns, invers proporional (numrul migranilor crete pe baza
scderii populaiei rurale). Dac eliminm nc dou judee care se comport diferit de celelalte
(Sibiu i Cara-Severin), coeficientul se
mbuntete i mai mult (rXY=-0,419).
Figura 5.12. Rolul valorilor aberante n
falsificarea
corelaiei dintre dou variabile
Interpretarea coeficientului de corelaie
(Corelaia
dintre
dinamica populaiei rurale i
liniar Bravais-Pearson trebuie s fie fcut cu
dinamica bilanului migrator n Romnia, ntre
reticen, deoarece rXY nu ofer informaii asupra 1977 i 1992) ; sursa datelor : INSSE
gradului de semnificaie al relaiei, care
depinde ntr-o egal msur i de numrul de
observaii (de indivizi analizai). De exemplu,
se dorete studierea relaiei ntre cancer i
tabagism:
- un rXY de +0,800 obinut pe un eantion
de 10 persoane chestionate nu este semnificativ,
putnd fi datorat hazardului;
- un rXY de +0,200 obinut pe un eantion
de 2000 de persoane chestionate este foarte
semnificativ i dovedete n mod sigur c ntre
cele dou fenomene exist o anumit relaie,
deoarece mrimea eantionului face s existe
puine anse ca relaia s fie datorat ntmplrii.
n exemplul numeric de mai sus, rXY =
+0,877, ceea ce sugereaz faptul c exist o
relaie puternic ntre rata urbanismului i
volumul produciei industriale, ns talia
.
eantionului (doar 8 judee) induce o oarecare
ndoial asupra adevrului exprimat de aceast
valoare. n scopul reducerii la maximum a incertitudinii, corelaia se asociaz cu o alt tehnic
statistic, i anume cu regresia.
5.3.2. Regresia liniar

Coeficientul de corelaie liniar permite detectarea existenei unei relaii liniare ntre
dou caracteristici cantitative continue. Este nevoie ns ntotdeauna s se verifice faptul c
legtura msurat de coeficientul rXY este semnificativ. n acest scop se efectueaz urmtoarele
operaii:
-se aplic testul de semnificai e, inndu-se cont de rXY i de efectivul N; ipoteza nul H0
este c rXY = 0;
-se examineaz norul de puncte pentru a se verifica dac relaia nu este influenat de
valori excepionale;
-se verific dac ajustarea liniar este cea mai indicat (cea mai bine adaptat) pentru
studierea relaiei dintre X i Y. Pentru aceasta, se pot utiliza dou metode simple: fie se
examineaz forma norului, fie se compar rXY cu rlogX,Y i cu rlogX,logY.
Dac se estimeaz c ipoteza unei legturi liniare ntre X i Y este valabil, se poate
ncerca s se exprime relaia dintre cele dou caracteristici cu ajutorul unei drepte. n acest
moment al analizei, se face n general o ipotez asupra sensului relaiei:

72

- dac se ncearc exprimarea lui X n funcie de Y, ecuaia dreptei de regresie liniar va


fi de forma X=aY+b;
- dac se ncearc exprimarea lui Y n funcie de X, ecuaia dreptei de regresie liniar va
fi de forma Y=aX+b;
- dac nu se face nici o ipotez de dependen, se va cuta doar rezumarea ct mai exact
a relaiei ntre X i Y prin intermediul unei drepte de tipul a1X+a2Y+b=0.
Este foarte important precizarea ipotezei fcute, deoarece cele trei drepte sunt n
general diferite: ele nu se suprapun n planul coordonatelor carteziene dect n cazul existenei
unei legturi perfecte ntre X si Y, adic atunci cnd rXY este egal cu +1 sau cu -1. n cadrul
prezentei lucrri ne vom limita doar la primele dou cazuri, respectiv la cele care ncearc s
exprime o variabil (numit dependent, explicat, sau regresat ) n funcie de o alta (numit
independent, explicativ sau regresoare).
5.3.2.1. Principiul regresiei
Spre deosebire de corelaie, care este o metod statistic ce caut s caracterizeze
situaia de dependen dintre dou distribuii numerice prin intermediul unei mrimi referitoare
la gradul lor de dependen, regresia este o metod statistic ce definete o coresponden
funcional de forma Y=f(X), ncercnd s defineasc n mod precis funcia f care leag cele
dou distribuii X i Y (Chapot, Dauphin, 1977).
Atunci cnd se studiaz relaiile posibile existente ntre dou distribuii din perspectiva
evoluiei simultane a valorilor celor dou distribuii, se ncearc de fapt definirea funciei care
unete respectivele distribuii. Aceasta nseamn c a studia pe Y ca pe o oarecare funcie a lui X
nseamn a descrie cum anume Y covariaz cu X. Astfel, temperatura variaz n funcie de
altitudine, numrul de navetiti variaz n funcie de distana pn la centrul urban atractor,
numrul de uniti comerciale urbane variaz n funcie de numrul populaiei, debitul rurilor
variaz n funcie de lungimea lor, etc.
Se observ prin urmare c folosirea metodei regresiei permite cercettorului s fac
preziceri asupra evoluiei comportamentului unui fenomen (a variabilei de explicat sau a
variabilei-efect) n funcie de altul (de variabila explicativ sau de variabila-"cauz"). Trebuie
s amintim faptul c a acorda mai mult uneia dintre cele dou variabile dect celeilalte
calificativul de cauz sau de efect trebuie s se bazeze pe un raionament logic bine
argumentat sau pe o solid structur teoretic. n plus, cauzalitatea stabilit prin intermediul
regresiei trebuie privit de foarte aproape, deoarece universul n care trim este mai degrab
probabilist dect determinist. Din aceast cauz, a prezice prin intermediul regresiei trebuie s
fie neles ca a stabili sau a anticipa tendine generale ale evoluiei variabilei de explicat.
A vorbi de variabil-efect i de variabil-cauz implic a accepta existena unei
posibiliti de a explica relaia stabilit ntre cele dou distribuii. De aici rezult diferena
esenial dintre corelaie i regresie: pentru a msura intensitatea relaiei dintre dou distribuii
se utilizeaz corelaia; pentru a explica aceast relaie se folosete regresia.
5.3.2.2. Modelul regresiei liniare
Regresia este un mijloc de modelare a factorilor explicativi, adic de realizare a unui
model cu putere de predicie, care permite n plus, prin analiza reziduurilor rezultate, studierea
detaliat a cazurilor care nu sunt bine explicate de factorii explicativi considerai.
Modelul general de baz al regresiei liniare este aditiv i definete o legtur
funcional: Y=aX+b. Deoarece s-a demonstrat n paginile anterioare faptul c n domeniul de
studiu al geografiei legturile funcionale sunt foarte rare, dac nu inexistente, modelul trebuie

73

completat, pentru a ilustra o relaie de dependen


statistic. Astfel, modelul aditiv funcional devine: Figura 5.13. Tipuri de funcii liniare (dup
Y=aX+b+, unde cantitatea definete reziduurile Johnston,1978).
regresiei.
n fig. 5.13 sunt prezentate trei exemple de
funcii de tipul Y=f(X). Deoarece funciile respective
descriu legturi funcionale, este perfect posibil s
prezicem valoarea lui Y pentru oricare dintre valorile
luate de X. Astfel, pentru funcia Y=0,5X, fiecare
cretere cu o unitate a valorilor lui X va conduce la o
cretere cu 0,5 a valorilor Y corespondente: dac
X=4, atunci Y=0,54=2. Pentru funcia Y=2X, fiecare
cretere cu o unitate a valorilor lui X va conduce la o
cretere cu 2 a valorilor Y corespondente: dac X=4,
atunci Y=24=8; dac X=250, atunci Y=2250=500.
Geografia este ns obligat s studieze
fenomene a cror covariaie nu este perfect, Figura 5.14. Relaia dintre X i Y nu poate fi
descris cu precizie n lipsa unei analize
diagrama lor de dispersie avnd un aspect atendinei generale de evoluie (Relaia ntre
asemntor celui din fig.5.14. Unirea cu o linie a salariaii n industrie i producia industrial n
Moldovei
n
1994 ;
sursa
punctelor XY de pe diagram, care ar trebui s judeele
datelor
:INSSE)
uureze interpretarea relaiei dintre cele dou
distribuii, nu are nici pe departe aceast utilitate: n
figura respectiv nu se poate sesiza nici o
continuitate i nici o tendin general a evoluiei
valorilor distribuiilor studiate. Cu toate aceste,
intuiia uman permite ipoteza existenei unei relaii
ntre variabilele considerate.
Pentru a sesiza aceast relaie trebuie ca variaia
variabilelor s fie privit de la o oarecare distan,
ignornd detaliile care ngreuneaz analiza. Cu alte
cuvinte, este nevoie de ajustarea mulimii de puncte
XY n funcie de tendina sa general. A ajusta norul
de puncte nseamn de fapt a nlocui linia frnt din
.
fig.5.15 cu o linie dreapt care trece ct mai aproape
posibil de fiecare dintre punctele norului.
O asemenea linie dreapt este propus,
pentru aceeai mulime de puncte reprezent^nd judeele Moldovei (Bc, Bt, Gl, Is, Nt, Sv, Vs), n
fig.5.15. Este evident c linia dreapt trece prin apropierea majoritii punctelor dar destul de
departe de altele. Acest lucru nu trebuie s afecteze cercettorul, care are libertatea de a se
ndeprta fr scrupule de anumite valori cu comportament particular (valori excepionale sau
valori accidentale), pentru a descoperi linia general a relaiei. Aceast linie, care ajusteaz cel
mai bine posibil norul de puncte se numete linia sau dreapta de regresie. Linia obinut este
de fapt expresia grafic a modelului analitic Y=f(X). n fig.5.15 se observ faptul c linia
obinut nu trece prin punctele mulimii, ci prin apropierea lor, fiind separat de acestea prin
anumite distane (reprezentate pe figur cu linie punctat ntre Bt-Bt, Vs-Vs, Is-Is, etc.).
Aceste distane se numesc ecarturile (reziduurile) regresiei. Dac aceste reziduuri nu sunt luate
n consideraie, modelul analitic devine nu numai incomplet, ci i fals. Din aceast cauz,
modelul analitic statistic devine Y=f(X)+ sau, mai exact, Y = aX+b+.

74

Ajustarea norului de puncte cu ajutorul acestui model este util cercettorului doar n msura n
care modelul este suficient de fidel realitii pentru a funciona ca o lege empiric i n msura
n care este suficient de simplu pentru a putea fi utilizat n evaluri, comparaii sau combinaii
cu alte legi similare (Chapot, Dauphin, 1977). n procesul gsirii modelului analitic care s
ajusteze norul de puncte trebuie avute n vedere dou probleme.
Prima dintre acestea este legat de traiectoria liniei de regresie care se obine.
Astfel, se poate gsi o ecuaie care s descrie o curb care s treac prin absolut toate punctele
norului. n exemplul din figura 5.14, unde sunt 7 puncte, ecuaia obinut va fi o ecuaie de
gradul 6, posibil de rezolvat. Distribuia va fi astfel complet descris ns cercettorului i va fi
imposibil s izoleze i s studieze fluctuaiile accidentale, care n geografie sunt deosebit de
frecvente i deosebit de importante, deoarece permit descoperirea factorilor rspunztori de
comportamentul spaial al unui fenomen oarecare n plan local.
A doua problem - i cea mai important - este gsirea unei funcii de tipul Y=f(X) ct
mai simpl, care s conduc la o linie de regresie ct mai fiabil, fr a fi perfect. Descoperirea
acestei linii de regresie presupune utilizarea urmtorului algoritm metodologic: alegerea tipului
cel mai indicat de funcie, calculul coeficienilor funciei i controlul validitii modelului
rezultat.
Alegerea modelului de regresie liniar

Alegerea modelului analitic susceptibil de a


fi utilizat nu se poate baza pe o anumit reet, pe
un anumit algoritm valabil n toate cazurile.
Matematica nu ofer dect o colecie de funcii
liniare sau non-liniare, dintre care cercettorul o
poate alege pe aceea pe care o consider a fi cel mai
bine adaptat pentru a descrie fenomenul analizat.
Funciile matematice sunt descrise de ecuaiile
corespondente, care sunt de fapt scheme de
organizare ale lumii n care trim (Chapot,
Dauphin, 1977). Deoarece sensibilitatea uman este
cel mai bine adaptat s sesizeze relaiile liniare ale
lumii nconjurtoare, cercettorul are toate motivele
s prefere funciile liniare, caracterizate prin
eficacitate, comoditate i simplitate.
Conceptul de liniaritate decurge din
principiul aditivitii fenomenelor: o variabil Y este
o combinaie liniar a unei variabile X dac variabila
Y este o combinaie aditiv a variabilei X. Forma
modelului de regresie este, cum s-a vzut, aditiv:
Y = aX + b +
n care:
Y = o variabil aleatoare observabil;
X = o variabil dat, cu valori cunoscute;
= o variabil aleatoare neobservabil;
a = coeficientul lui X (parametru care trebuie estimat);
b = termen constant (parametru care trebuie estimat).

Figura 5.15. Linia de regresie ofer elementele


pentru o analiz atendinei generale; ecarturile
permit izolarea cazurilor deosebite. (Relaia ntre
salariaii n industrie i producia industrial n
judeele
Moldovei
n
1994 ;
sursa
datelor :INSSE)

De multe ori ns, teoria geografic conduce la modele n care relaia dintre variabile nu
se poate reprezenta sub aceast form liniar simpl. De exemplu, modelele de interaciune

75

spaial sunt modele multiplicative, cele de cretere a populaiei urbane sunt modele
exponeniale (sau logistice, n cazul n care se fixeaz o valoare-limit creterii), etc. n aceste
cazuri, este nevoie ca modelele geografice s fie transformate (liniarizate), pentru a se
subordona exigenelor modelului de regresie liniar. Principalele funcii non-liniare i metodele
de liniarizare a lor sunt:
b
-Funcia putere: Y = aX *
care, liniarizat , devine: Log Y = log a + b * log X +
bX
-Funcia exponenial: Y = a *
care, liniarizat , devine: Log Y = bX * log a +

Prin urmare, n alegerea modelului de regresie, trebuie nti sesizat forma relaiei
studiate (prin examinarea norului de puncte) i apoi trebuie verificat ajustarea norului prin
funcia corespunztoare. Dac funcia este non-liniar, se va proceda nti la liniarizarea sa i
apoi se va efectua regresia propriu-zis.
Calcularea coeficienilor de regresie

Presupunnd c X este variabila independent i c Y este variabila dependent, ecuaia


dreptei de regresie va fi Y=aX+b. A calcula coeficienii acestei ecuaii nseamn a avea ulterior
posibilitatea de a afla valorile estimate ale lui Y, care vor permite trasarea dreptei de regresie. n
figura 5.15, valorile estimate ale lui Y (1, 2, 3, 4, 5, 6, 7,), pentru aceleai valori X1, X2,
X3, X4, X5, X6, X7 cunoscute, au permis aflarea punctelor a',b',c',d',e',f',g' prin care este trasat
dreapta de regresie.
Problema care se pune este urmtoarea: cum trebuie s fie calculai coeficienii a i b
nct estimarea lui Y de ctre ecuaia Y=aX+b s fie cea mai bun posibil? Pentru a
rspunde la aceast ntrebare este necesar s se fixeze un criteriu care s permit evaluarea
ajustrii realizate.
Dac se presupune c X i Y sunt dou caracteristici care descriu o mulime M compus
din n elemente (i=1,2...n), atunci oricrui element i din mulimea M i corespund modalitile Xi
i Yi ale caracteristicilor X i Y. Cu alte cuvinte, pe diagrama de distribuie se vor trece punctele
i1(X1Y1), i2(X2Y2)...in(XnYn). Coordonatele Yi (adic Y1, Y2...Yn) sunt valorile observate ale lui Y.
Coordonatele i (respectiv 1, 2... n) sunt valorile estimate de ctre dreapta de regresie
i=aXi+b (de exemplu, 2=aX2+b).
Diferena dintre valoarea observat i valoarea estimat se numete reziduu de regresie
sau eroarea de estimare, i are forma: Yi-i = i. Reziduurile pot fi pozitive, cnd i este subestimat (cazul punctelor a, d, g de pe fig.5.15) sau negative, cnd i este supra-estimat (cazul
punctelor b, c, e, f de pe fig.5.15). Fr ndoial c ajustarea va fi cu att mai bun cu ct
eroarea de estimare i va fi cea mai mic posibil pentru fiecare dintre elementele mulimii M.
Dar care dintre criteriile globale, care s in seama de toate valorile i, poate fi
utilizat? La aceast ntrebare, exist trei rspunsuri posibile:
a) Primul criteriu ar putea s fie suma tuturor reziduurilor (i), ns nu este o soluie
bun, deoarece rezultatul va fi ntotdeauna zero, fiindc erorile de subestimare le anuleaz pe
cele de supraestimare;
b) Al doilea criteriu ar putea fi suma valorilor absolute ale tuturor ecarturilor (IiI): este
un criteriu corect (suma nu se anuleaz), ns extrem de incomod, deoarece este foarte greu de
gsit o soluie rapid de aflare a parametrilor a i b;
c) Al treilea criteriu ar putea fi criteriul celor mai mici ptrate, adic al sumei ptratelor
reziduurilor de regresie: (i). Acest criteriu pare s fie cea mai bun alegere, deoarece un
ptrat este ntotdeauna pozitiv, ceea ce face ca erorile de sub-estimare s nu se anuleze reciproc

76

cu cele de supraestimare. Mai mult, acest criteriu are avantajul de a conduce la soluii simple i
rapide de calculare a coeficienilor de regresie a i b.
Conform obiectivului vizat, a aplica metoda celor mai mici ptrate nseamn a gsi
acele valori ale lui a i b care pot s conduc la cea mai mic sum a ptratelor ecarturilor dintre
valoarea observat Yi i valoarea estimat i (i = aXi+b):
N
N
N
^
min i = min ( Y i - Y ) = min [ Y i - ( aX i + b)]
i=1
i=1
i=1

A obine valorile lui a i b care s permit cea mai mic sum a ptratelor ecarturilor
nseamn deci a gsi acele valori care vor minimiza variana ptratelor ecarturilor: (i) =
minim. tiind c variana unei distribuii este media ptratelor ecarturilor fiecrei valori la
valoarea medie33 i tiind c valoarea medie este
N
Yi
i
=
Y= 1
N

,
atunci variana () n Y a distribuiei va fi:
N
(Yi - Y )
2 i=1
Y =
N

Apare astfel evident faptul c, pentru a afla parametrii a i b ai regresiei, interesul major
l reprezint cunoaterea varianei variabilei dependente Y precum i cunoaterea relaiei dintre
aceasta i variana variabilei independente X, care, prin analogie, este:
N
( Xi - X )
2 = i=1
X
N

Figura 5.16. Reprezentarea grafic a calculrii


varianei variabilelor X i Y.

Figura 5.16 ilustreaz contribuia fiecrei


observaii (respectiv a judeelor din tabelul de mai
jos34, notate pentru comoditate pe grafic cu 1, 2, 3, 4,
5, 6, i 7) la variana variabilei X (n funcie de X ) i la
variana variabilei Y (n funcie de Y ).
Astfel, contribuia punctului 1 (Vrancea) la
variana n Y este (y1) = (-1,05) = 1,10 = ptratul
ecartului dintre punctul 1 i Y . Contribuia aceluiai
punct la variana n X este (x1) = (-0,89) = 0,80 =
ptratul ecartului dintre punctul 1 i X . Contribuiile
respective pentru punctul 5 (Suceava) sunt (x5) = 0,04 i (y5) = 0,20. Se observ prin urmare
c unele observaii contribuie ntr-o msur mai mare la variana distribuiei (Vrancea, Vaslui,
Botoani, Bacu, Galai, Iai) iar altele ntr-o msur mult mai mic (Neam, Suceava).
Cunoscnd faptul c cele dou variabile oscileaz mpreun, se poate calcula covariana, dup
formula cunoscut:

33

Vezi subcapitolul "Coeficienii de corelaie".


Tabelul este reluarea celui de la subcapitolul "Coeficienii de corelaie", ns valorile nu mai sunt rotunjite la o
singur zecimal.
34

77

N
( X i - X )( Y i - Y ) x i * y i
i=1
= i=1
COV XY =
N
N

Pentru exemplul numeric covariana este urmtoarea:


COVXY = (xiyi)/N = (x1y1 + x2y2 + x3y3 + x4y4 + x5y5 + x6y6 + x7y7 +
x8y8)/8 = [(-0,89)(-1,05) + (-0,74)(-1,35) + (-0,59)(-1,05) + (-0,32)(-0,15) + (-0,21)(0,45) + (+0,74)(+1,75) + (+0,86)(+1,85) + (+1,14)(+0,45)]/8 = (0,94 + 1,00 + 0,62 + 0,05 +
0,09 + 1,30 + 1,59 + 0,51) = 6,10/8 = 0,762
Jude \ Var.

x=X- X

y=Y - Y

xy

6-BACU

2,88

+0,74

0,55

4,00

+1,75

3,06

1,30

2-BOTOANI

1,40

-0,74

0,55

0,90

-1,35

1,82

1,00

7-GALAI

3,00

+0,86

0,74

4,10

+1,85

3,42

1,59

8-IAI

3,28

+1,14

1,30

2,70

+0,45

0,20

0,51

4-NEAM

1,82

-0,32

0,10

2,10

-0,15

0,02

0,05

5-SUCEAVA

1,93

-0,21

0,04

1,80

-0,45

0,20

0,09

3-VASLUI

1,55

-0,59

0,35

1,20

-1,05

1,10

0,62

1-VRANCEA

1,24

-0,89

0,80

1,20

-1,05

1,10

0,94

17,09

0,0

4,42

18,00

0,0

10,94

6,10

Media=/N

2,14

0,0

0,55

2,25

0,0

1,47

0,76

=ecart tip

0,74

0,38

1,17

1,22

0,51

=suma

Din acest moment, aplicarea metodei celor mai mici ptrate permite aflarea constantelor
a i b ale regresiei:
N

xi * y i
COV XY
i
=
=
a= 1N
2
x

xi
i=1

, adic a este raportul dintre covarian i variana lui X, iar


b=Y - a X

Din ecuaiile de mai sus rezult pe de o parte c a este raportul dintre covariana
distribuiei, respectiv COVXY, i variana variabilei independente, respectiv X, iar pe de alt
parte c dreapta de regresie trece prin centrul de gravitate al norului de puncte, de coordonate ,
(deoarece b = Y -a X => = a X +b). Prin urmare se poate stabili legtura existent ntre
parametrul a i coeficientul de corelaie rXY. Deoarece se cunoate X , Y , X, Y i rXY i se tie
c
r XY =

COV XY

X * Y , rezult c COV XY = r XY ( X Y )

nlocuindu-se n formula de calculare a parametrului a termenul COVXY cu expresia sa obinut


mai sus, se obine:
a=

COV XY
r XY * Y
r XY * ( X * Y )
a=
a=
2
2
X
X
X

iar b se calculeaz dup aceeai formul. Prin urmare, atunci cnd se cunoate coeficientul de
corelaie dintre X i Y este inutil s se calculeze covariana dintre X i Y pentru a gsi valorile
corespondente parametrilor de regresie.
n exemplu numeric referitor la relaia dintre rata urbanizrii i cea a produciei
industriale, COVXY = 0,762 iar X = 0,55. nlocuind n expresiile de mai sus, a = 0,762/0,55 =
78

+1,38 iar b = 2,25 - 1,382,14 = 2,25 - 2,94 = -0,69. Ecuaia dreptei de regresie devine:
Y = 1.38X - 0.69
Interpretarea parametrilor de regresie

Dup calcularea coeficienilor regresiei devine legitim urmtoarea ntrebare: care este
semnificaia celor doi parametri a i b i cum pot fi utilizai ei n explicarea relaiei dintre
variabilele considerate? Utilizarea unui exemplu grafic poate facilita nelegerea rspunsului la
aceast ntrebare.
n figura 5.17 sunt prezentate dou relaii perfect liniare ntre punctele care descriu
distribuia a 8 i respectiv 7 observaii. Pentru prima regresie (cu punctele sub forma unor
ptrate pline) se observ c pentru o cretere p a valorilor lui X cu 10 uniti (Xj-Xi=10) se obine
o cretere q a valorilor lui Y cu 5 uniti (Yj-Yi=5). Dreapta de regresie descrie, mpreun cu p i
q, un triunghi dreptunghic. Aplicnd formulele geometriei descriptive n respectivul triunghi, se
poate afla valoarea unghiului dintre dreapta de regresie i p, unghi care este de fapt panta
dreptei de regresie, respectiv coeficientul a, numit i coeficientul unghiular al regresiei: a = tg
= q/p = 5/10 = 0,5
Coeficientul a este aadar indicatorul de magnitudine al relaiei dintre cele dou
variabile, indicnd mrimea creterii lui Y n funcie de X (n cazul prezentat, pentru o cretere
cu o unitate a valorii lui X, valoarea corespondent Y nregistreaz o cretere cu o jumtate de
unitate). Faptul c a este un indicator de magnitudine
este clar dac se analizeaz comparativ i panta dreptei
Figura 5.17. Reprezentarea grafic a
celei de-a doua regresii (cu punctele sub forma unor interpretrii i semnificaiei parametrilor de
ptrate goale). Se observ c n acest al doilea caz regresie a i b.
pentru p (adic Xj-Xi) = 10, q+r (adic Yk-Yi) = 10, de
unde:
a = tg ' = (q+r)/p = 10/10 = 1
Panta este mai mare dect n cazul primei regresii (1 >
0,5): pentru o cretere cu o unitate a valorii lui X,
valoarea corespondent Y nregistreaz o cretere
identic.
Din figur rezult clar faptul c b, al doilea
coeficient al regresiei, este parametrul care determin
poziia punctului de intersecie al dreptei de regresie cu
axa Y, atunci cnd X este 0; din aceast cauz, b mai
este denumit i originea sau intercepia dreptei de
regresie. n cazul primei regresii, b = 15. Ecuaia
dreptei este prin urmare Y = 0,5X + 15. n cazul celei de-a doua regresii, dreapta trece prin
origine, deci b = 0, de unde rezult c ecuaia este Y = 1X+0 => Y = X.
Cunoscnd magnitudinea (a) i originea (b), se poate estima oricare Y pentru o valoare X
dat: Yi=0,5Xi+15. Dac Xi = 65, atunci Yi = 650,5+15 = 32,5+15 = 47,5.
Relund exemplul numeric, unde ecuaia dreptei de regresie era Y=1,38X+(-0,69), se
poate acum explica relaia existent ntre X (proporia populaiei urbane judeene din totalul
populaiei urbane a Romniei) i Y (proporia produciei industriale judeene din totalul
produciei industriale a Romniei): pentru fiecare cretere de 1% a populaiei urbane, se
nregistreaz o cretere medie a produciei industriale cu 1,38%.
Intensitatea (fora) relaiei: form de control a modelului de regresie

79

Parametrii a i b ai ecuaiei de regresie indic forma i semnificaia relaiei existente


ntre variabilele X i Y, ns nu ofer nici o informaie referitoare la justeea estimrii valorilor
de ctre dreapta de regresie. Eliminarea acestui neajuns se poate face cu ajutorul coeficientului
de corelaie liniar rXY, care msoar reducerea varianei variabilei dependente Y atunci cnd
variabila independent X este utilizat pentru a estima valorile . Utilizarea coeficientului de
corelaie este legitim deoarece prin adoptarea modelului de regresie Y=aX+b se accept
implicit c variaia total a variabilei Y depinde de variabila X. Cu alte cuvinte, se ncearc
explicarea varianei lui Y (adic a cantitii y) prin raportarea sa la variana lui X (adic la
x). Fcnd apel la o analogie, se poate spune c variabila independent X funcioneaz ca un
burete ce absoarbe o parte din variana variabilei Y (Abler, Adams, Gould, 1971). Problema se
reduce la a determina ct anume din y este absorbit de x. Procedeul de apreciere a
eficacitii modelului de regresie se numete analiza varianei35 i este clar legat de ideea de
corelaie.
n tabelul urmtor, variana total n Y, respectiv suma ptratelor ecarturilor SPE = (YY )) sau SPE = [(Y-)+(- Y )], este 10,94. n figura
(Y-)

(Y-)
X
Y
5.18, cu linie punctat, sunt indicate ecarturile Y fa Jude \ Var.
6-BACU

2,88

4,00

3,06

3,28

0,52

Figura 5.18. Reprezentarea grafic a

2-BOTOANI

1,40

0,90

1,82

1,23

0,11

varianei variabilei Y fa de Y .

7-GALAI

3,00

4,10

3,42

3,44

0,44

8-IAI

3,28

2,70

0,20

3,82

1,26

4-NEAM

1,82

2,10

0,02

1,81

0,09

5-SUCEAVA

1,93

1,80

0,20

1,97

0,03

3-VASLUI

1,55

1,20

1,10

1,44

0,06

1-VRANCEA

1,24

1,20

1,10

1,02

0,03

=suma

17,09 18,00 10,94 18,00

2,53

Media=/N

2,14

2,25

1,47

2,25

0,32

=ecart tip

0,74

1,17

1,22

1,03

0,40

de Y . Aplicnd modelul regresiei calculat n paginile


precedente Y=1,38X-0,69, se obine dreapta de regresie din figura 5.19, trasat n funcie de .
Se poate vedea n mod clar c ecarturile valorilor observate Y fa de valorile estimate sunt
mai mici dect cele fa de Y . Suma ptratelor acestor ecarturi ((Y-)), calculat n tabel, este
2,53.
Este evident c (Y- Y )>(Y-), respectiv
Figura 5.19. Reprezentarea grafic a
10,94>2,53. O parte a varianei originale a lui Y
varianei variabilei Y fa de .
(10,94) a fost absorbit (10,94-2,53=8,41) prin
aciunea variabilei regresoare X. Partea absorbit
(8,41) se numete varian explicat (ye=) iar
partea neabsorbit (2,53) se numete varian
rezidual (yr=(Y-)). Prin urmare putem spune c
variana total a lui Y (sau Y) se compune din
variana explicat (respectiv ) plus variana
rezidual (adic (Y-)) :
2
2
2
Y = ^ +
Y

(Y -Y )

. De aici se poate calcula variana


explicat, respectiv variana determinat de introducerea variabilei X n calcule:
2^ = Y2 - 2 ^
Y
(Y -Y )
(variana explicat = variana total - variana rezidual).
35

Vezi i subcapitolul "Teste parametrice".

80

Raportul dintre variana explicat i variana total se numete coeficientul de determinare,


care msoar partea din variana lui Y explicat prin utilizarea variabilei X n modelul de
regresie:

2
XY

2
^

Y
2
Y

Se deduce de aici c partea neexplicat din variana lui Y (Y) este

2
2
^ =1- r
XY
(Y -Y )

n cazul exemplului numeric, rXY=8,41/10,94 = 0,768. Coeficientul de determinare este


intuitiv mai uor de interpretat dect coeficientul de corelaie, datorit faptului c se poate "citi"
procentual, deoarece poate fi calculat i astfel: rXY = ( /Y)100 = (8,41/10,94)100 =
0,768100 = 76,8%: utilizarea variabilei X explic 76,8% din variana lui Y. Pentru
corectitudine, trebuie s se in seama de faptul c termenul a explica este utilizat n statistica
geografic datorit ncrcturii sale emoionale (Johnston, 1978); n statistic se spune c rXY
permite determinarea sau calcularea varianei lui Y n funcie de X.
Coeficientul de determinare, fiind un ptrat, este ntotdeauna pozitiv i oscileaz ntre 0
i +1: cu ct valoarea obinut pentru rXY este mai apropiat de +1, cu att ajustarea norului de
puncte de ctre dreapta de regresie este mai bun. Din aceast cauz se poate considera c rXY
este un instrument de control al modelului de regresie ales.
Trebuie s fie remarcat de asemenea faptul c rdcina ptrat a coeficientului de
determinare este coeficientul de corelaie:
2
r XY = r XY

n cazul n care se compar, pentru aceeai regresie, rXY i rXY,


trebuie s se in seama de faptul c coeficientul de determinare rXY
descrete mai repede fa de +1 dect coeficientul de corelaie rXY (vezi
tabelul alturat, dup Porojan, 1993):

0.90
0.80
0.70
0.60
0.50

0.81
0.64
0.49
0.36
0.25

5.3.2.3. Reziduurile regresiei


Conform explicaiilor din paginile precedente, ajustarea prin intermediul dreptei de
regresie este rareori perfect. n cea mai mare parte a cazurilor, IrXYI<+1, ceea ce semnific
faptul c punctele nu sunt aliniate n lungul unei drepte i c multe valori ale lui Y sunt
subestimate sau supraestimate de ctre regresie. Ecarturile care separ aceste valori de dreapta
descris de relaia medie care leag variabila Y de variabila X se numesc reziduurile regresiei.
Reziduurile i exprim partea din fenomenul Y (de exemplu valoarea produciei industriale) care
nu este determinat (explicat) de variabila regresoare X (n cazul prezentat, de ponderea
populaiei urbane). Reziduurile i sunt estimate de valorile ei, care sunt ecarturile ntre valorile
observate Yi i valorile i estimate de ctre modelul de regresie ales: ei=Yi-i sau ei = Yi (aXi+b). nterpretarea reziduurilor este relativ simpl:
- reziduul este pozitiv dac valoarea observat este superioar valorii prevzute de
regresia liniar: Yi-i>0 <=> Yi>i;
- reziduul este negativ dac valoarea observat este inferioar valorii prevzute de
regresia liniar: Yi-i<0 <=> Yi<i;
- reziduul este nul (aproape de 0) dac valoarea observat este conform valorii
prevzute de regresia liniar: Yi-i=0 <=> Yi=i.

81

Reziduurile care se ndeprteaz mult


Figura 5.20. Regresia numrului de spectatori de cinema
de tendina general descris de dreapta de n funcie de populaia total judeean.n Romnia, 1994
regresie prezint o mare importan pentru (sursa datelor : INSSE)
cercetarea geografic, deoarece cartografierea
lor permite sesizarea structurilor spaiale care
funcioneaz conform aciunii unor factori
locali, ceea ce conduce la revelarea
disparitilor teritoriale - unul dintre obiectivele
fundamentale ale geografiei.
n figura 5.20 este reprezentat relaia
dintre populaia total judeean i numrul
spectatorilor de cinema (inclusiv al
videotecilor), n Romnia anului 1986. Ecuaia
dreptei de regresie este Y = 9,31X - 160,92.
Coeficientul de determinare este r=0,763, ceea
ce nseamn c numrul total al populaiei judeene determin n proporie de 76,3% numrul
celor
care
frecventeaz
cinematografele, restul de 23,7%
Figura 5.21. Reziduurile regresiei numrului de
(variana rezidual) fiind explicat de
spectatori de cinema n funcie de populaia total a
ali factori.
judeelor
Cartografierea
reziduurilor
de
regresie (fig.5.21) permite pe de o
parte sesizarea cazului special al
Constanei, care beneficiaz de
afluxul estival al turitilor, iar pe de
alt parte permite lansarea unor
ipoteze de lucru pentru cercettorul
geograf:
-a) Faptul c reziduurile
reflect subestimarea lui Y pentru
Constana, Tulcea, Galai, Brila i
Clrai poate fi pus n legtur cu
traficul de casete video efectuat prin
porturile din zon, lucru ce poate facilita aprovizionarea cu filme a videotecilor?
-b) Subestimarea lui Y pentru judeele din sud-vestul rii (Arad, Timi, Hunedoara)
poate fi rezultatul traficului de frontier ntre Banatul romnesc i cel srbesc, o alt posibilitate
de aprovizionare cu casete video?
-c) Turismul i urbanizarea pot explica reziduurile pozitive din sudul Transilvaniei
(Alba, Sibiu, Braov), sau din Vlcea i Arge?
-d) Care este ponderea factorilor culturali n crearea i susinerea agregatelor spaiale
sesizate pe hart?
-e) Care poate fi explicaia pentru ineria fa de cinematograf manifestat n judeele
din sudul extrem i n cele din nordul extrem al rii?
Rspunsul la aceste ntrebri poate fi dat cu ajutorul altor regresii, sau prin intermediul
unor regresii multiple, care vor fi prezentate n volumul al doilea al acestui curs. Cert este faptul
c analiza cartografierii reziduurilor regresiei este o metod foarte puternic de studiu a
organizrilor spaiale ascunse. Utilizarea aceste metode nu este ns fr pericole, deoarece,
pentru ca rezultatele s fie reale, trebuie ndeplinite urmtoarele cteva condiii (Beguin, 1979):

82

1. Prima ipotez fcut asupra reziduurilor este aceea c media lor aritmetic este
nul: E(i)=0 (valorile estimate sunt medii n raport cu Yi observate; aceasta nseamn c se
consider c reziduurile sunt pozitive i negative n jurul lui 0 i c suma lor este 0 (i=0).
2. A doua ipotez este homoscedasticitatea reziduurilor, respectiv ipoteza c
reziduurile i au aceeai varian i pentru orice i=1,2,...n. condiia este impus de necesitatea
simplificrii estimrii parametrilor de regresie. Este de la sine neles c variana condiional a
lui Yi pentru un X dat este i ea constant, pentru oricare i, de unde XY = i. Condiia de
homoscedasticitate trebuie avut mereu n atenie, deoarece multe dintre variabilele cu care
opereaz geografia nu o satisfac, ceea ce falsific grav rezultatele regresiilor i interpretarea
acestora.
Homoscedasticitatea unei distribuii este verificat cu ajutorul erorii standard (ES) a
estimrii lui Y. Eroarea standard a estimrii lui Y este rdcina ptrat a varianei distribuiei
normale a reziduurilor:
N

^ 2
(Yi - Yi )
2
i=1
=> ES = 2 ^
^ =

(Y -Y )
(Y -Y )
N

care,

dup

serie

de

transformri,

devine

ES = Y 1 - r 2XY
n care:

- ES este eroarea standard rezidual a regresiei;


- Y este abaterea standard (ecartul-tip) al lui Y;
- 1-rXY este variana rezidual.
Pentru exemplul destinat s estimeze numrul de spectatori de cinema, ecartul tip al lui
Y este 1772,496 iar 1-rXY = 1-0,763, deci eroarea standard rezidual a regresiei este
ES = 1772,496 * 1 - 0,763 = 862,596

ES este prin urmare un rezumat al variaiilor reziduurilor, care trebuie s fie utilizat
pentru completarea modelului general
de regresie:
Figura 5.22. Intervalele de ncredere de 68% i 95% pentru dreapta
Y = aX + b ES de regresie a numrului de spectatori de cinema n funcie de
Cnd ecuaia de mai sus descrie o populaia judeelor.
relaie perfect iar rXY=1, ES este 0,
deci nu exist reziduuri; cnd nu
exist nici o relaie ntre variabile i
rXY=0, ES este maxim. Eroarea
standard a estimrii lui Y se comport
fa de curba normal la fel ca i
abaterea standard. n fig.5.22 este
reluat dreapta de regresie prezentat
anterior, completat (Y = 9,31X160,92 862,60), care este acum
dublat
de
linii
paralele,
corespunztoare
reziduurilor
standardizate.
Se
observ
c
reziduurile se grupeaz ntre benzi cu aproximaie ca sub curba normal:
-ntre +1ES i -1ES se grupeaz 68% dintre reziduuri (sub curba normal, ntre +1 i 1 se grupeaz 68,26% dintre valori);
-ntre +2ES i -2ES se grupeaz 95% dintre reziduuri (sub curba normal, ntre +2 i 2 se grupeaz 95,46% dintre valori);
-ntre +3ES i -3ES se grupeaz 99% dintre reziduuri (sub curba normal, ntre +3 i 3 se grupeaz 99,75% dintre valori).
83

Relaia dintre gruparea reziduurilor de regresie n funcie de ES i procentajele de sub curba


normal este cu att mai exact cu ct variana n cadrul benzilor definite de ES este mai
omogen. Aceasta este de fapt homoscedasticitatea.
n figura 5.23 homoscedasticitatea lipsete, fiind prezent n schimb
heteroscedasticitatea, ce ilustreaz situaia n care variana reziduurilor i (i automat variana
valorilor Yi) se mrete pe msur ce X crete. Deoarece Y este volumul de gaze distribuite n
judeele
Romniei
din
anul
1989
(Romnia=100%), este evident faptul c Figura 5.23. Creterea varianei reziduurilor cu valorile
acesta poate varia doar ntre un minim i un variabilei X, datorit heteroscedasticitii distribuiei
maxim stabilite de X (X este populaia urban variabilei Y.
judeean; Romnia=100%). Minimul este
pragul minim vital de urbanizare judeean
iar maximul nu poate depi -n cazul
extrem- populaia judeului. Maximul este
din ce n ce mai mare pe msur ce X
(indirect X=numrul de arztoare casnice i
industriale) crete, prin urmare, variana lui
Yi sporete odat cu X: condiie de
homoscedasticitate nu este ndeplinit.
3. A treia condiie este lipsa
autocorelaiei ntre reziduuri: n esen,
aceast condiie este concretizat prin ipoteza independenei reziduurilor. Reziduurile sunt
independente dac covariana lor este nul: E(i,j) = 0, ij. De aici rezult i faptul c Yi i Yj
sunt de asemenea necorelate.
4. A patra i ultima condiie este normalitatea distribuiei reziduurilor i. Aceast
condiie are un caracter obligatoriu atunci cnd se dorete testarea parametrilor de regresie
obinui, prin fixarea unui interval de ncredere. Dac distribuia reziduurilor este normal, este
de la sine neles c i valorile Yi au o distribuie normal. Prin urmare, condiia anterioar,
respectiv necorelarea reziduurilor, se transform n independena reziduurilor. Ipoteza
independenei reziduurilor este foarte important, mai ales n cazul regresiilor multiple, unde
non-normalitatea lor nseamn dependena lor, ceea ce nseamn mai departe c reziduurile sunt
perturbate de o variabil important care trebuie indentificat pentru a figura n mod explicit
printre variabilele regresoare.
Dei lucrul este cunoscut, este bine s se aminteasc faptul c dac regresia este
efectuat asupra unei populaii, condiia de normalitate poate fi ignorat . Dac ns se lucreaz
cu un eantion (de exemplu judeele Moldovei, doar o parte din judeele Romniei),
normalitatea reziduurilor i (i deci a valorilor Yi) devine o condiie obligatorie.
5.3.2.4. Testarea modelului de regresie
Pn n acest punct al analizei de corelaie-regresie s-a realizat doar ajustarea analitic a
unui nor de puncte la o dreapt, nedepindu-se stadiul descrierii unei distribuii bivariate. Pasul
urmtor este aplicarea unor procedee de statistic inferenial, care s extrapoleze rezultatele
obinute prin analiza eantionului asupra populaiei din care face parte. Cu alte cuvinte, n
continuare va fi prezentat testarea modelului statistic teoretic, prin care vor fi obinute
informaii suplimentare ce pot sau nu s confirme ncrederea acordat parametrilor estimai. S-a
demonstrat c noiunile de eroare i de eroare standard introduse n paginile precedente sunt
foarte legate de chestiunea general a normalitii distribuiilor. Dac se ine seama de teoria
erorilor, care postuleaz faptul c erorile eantionului sunt distribuite normal, atunci se accept

84

ipoteza conform creia coeficienii de regresie ai mai multor eantioane extrase din aceeai
populaie urmresc de asemenea o distribuie normal.
Se demonstreaz astfel importana condiiei de normalitate prezentat mai sus n
procesul construirii testelor pentru verificarea estimrilor obinute. Testele se dovedesc eseniale
pentru interpretarea rezultatelor regresiei, deoarece ne putem ntreba: la ce folosete
interpretarea unui coeficient a (sau a unei valori ) dac nu se tie dac acesta este n mod
semnificativ diferit de 0 sau dac intervalul su de ncredere este foarte ngust sau foarte larg?
(Beguin, 1978). Modelul statistic teoretic are forma urmtoare:
Y = X +

Dac diferena dintre coeficientul calculat de regresie a i coeficientul teoretic este


considerat a fi standardizat, pentru testarea lui a ca o bun estimare a lui se poate utiliza
distribuia normal pentru eantioanele mari i distribuia t pentru eantioanele mici36. Ipoteza
nul H0, pentru toate testele efectuate n continuare, este lipsa oricrei corelaii ntre X i Y,
respectiv rXY = 0, a=0 i b=0. Dac testele infirm aceast ipotez, cercetarea poate continua
prin acceptarea ipotezei alternative H1, adic a existenei unei relaii ntre X i Y, respectiv
IrXYI>0, a0 i b0. De regul, pentru testarea semnificai ei regresiei aplic testul F.
Pentru a fi demonstrat faptul c regresia lui Y n funcie de X este semnificativ (deci c
Y este dependent de X), trebuie ca variaia lui Y explicat de X s fie semnificativ mai mare
dect cea neexplicat (rezidual). Prin urmare dac
N ^
N
^
2
2
2> 2
=
>
(
Y
Y
(Y
Y
)
)
^
^

Y
(Y -Y ) i=
1
i=1

atunci Y este dependent de X.


Doar dac aceast condiie este respectat se poate concluziona c exist un factor X care are o
influen sistematic asupra lui Y mai mare dect influena accidental, aleatoare, exercitat de
variabila neobservabil (Beguin, 1978).
Verificarea modelului se efectueaz prin testul F al lui Snedecor37, cunoscut sub
numele de estimarea varianei. Scopul este acela de a demonstra c atunci cnd coeficientul
este nul (=0), raportul ntre variana explicat i variana rezidual urmeaz o distribuie F.
Estimarea fiecrei variane este fcut n funcie de gradele de libertate, care indic
numrul de informaii independente necesare calculrii lor. Astfel, pentru variana total,
numrul de grade de libertate este (N-1) deoarece este nevoie de (N-1) ecarturi independente
pentru a o calcula (ntruct se cunoate c yi=0). Pentru a calcula variana explicat, este
nevoie de un singur grad de libertate (respectiv a parametrului ), deci N=1. Este evident c sunt
necesare (N-2) grade de libertate pentru calcularea varianei reziduale, deoarece se pierd dou
g.l. prin calcularea celor doi coeficieni de regresie care leag Y de X. Rezult prin urmare c, n
funcie de gradele de libertate, variana explicat estimat este
N

^
2
(
Y
-Y )

2 i=1
s^ =
Y
1
, iar variana rezidual estimat este

^
2
(Y - Y )
2
i=1
^ =
s
(Y -Y )
N -2

n aceste condiii, statistica testului F devine


2
r XY (N - 2)
F XY =
1 - r 2XY

36
37

Vezi subcapitolul "Teste parametrice".


Vezi subcapitolul "Teste parametrice".

85

Din acest moment putem testa ipoteza nul (H0: nu exist nici o diferen ntre a i ,
deci nu exist nici o relaie ntre Y i X, relaia msurat fiind datorat hazardului n alegerea
eantionului):
- dac FXYF, la 1 i (N-2) g.l., ipoteza nul H0 este respins, putndu-se accepta
ipoteza alternativ H1: ntre a i exist diferene semnificative, deci exist o relaie ntre cele
dou variabile, relaie care nu este supus ntmplrii.
Pentru exemplul numeric referitor la variaia numrului de spectatori la cinema (Y) n
funcie de populaia total a judeului (X), se obine:
FXY = (0,763)(40-2)/(1-0,763) = 28,994/0,237 = 122,3
- pentru un nivel de semnificaie al testului =0,05 i (1;38) grade de libertate, F=4,17
(vezi Anexa V), deci H0 poate fi respins foarte uor, fiind clar c a difer foarte mult de 38;
- pentru un n.s. =0,01 i (1;38) grade de libertate, F=7,56 (vezi Anexa IV), deci
regresia rmne nc foarte semnificativ; H0 poate fi respins fr dificultate.
5.3.2.5. Aplicaiile regresiei liniare n geografie
Cu ajutorul exemplului foarte cunoscut al relaiei dintre temperatur i altitudine, vom
demonstra n continuare aplicaiile posibile ale regresiei n geografie: sintetizarea, modelarea,
previziunea i descoperirea particularitilor locale.
a) Sintetizarea
S presupunem c, prin intermediul a 500 de staii meteorologice, se msoar
temperatura medie anual a aerului (T=Y) n Moldova, la diferite altitudini (X=H), i c se
gsesc urmtoarele valori:
* T = 10C la H = 0 metri;
* T = 4C la H = 1000 metri;
* T = -2C la H = 2000 metri.
Ne putem ntreba dac este ntr-adevr util s se nregistreze n fiecare zi temperaturile
T obinute. Statistica ofer un rspuns imediat la aceast interogaie. Analiza seriilor de valori
demonstreaz c exist o puternic corelaie negativ rXY = rTH = -0,900 ntre altitudine i
temperatur. Calculul coeficienilor de regresie a condus la urmtoarele rezultate: a=-0,006C
(temperatura Y=T scade cu 0,006C cnd altitudinea X=H crete cu 1 metru) i b=10C (b este
originea dreptei de regresie, respectiv valoarea temperaturii Y cnd altitudinea X este zero). Prin
urmare, ecuaia dreptei de regresie este Y=-0,006X+10 sau T=-0,006H+10C. Coeficientul de
determinare al regresiei fiind ptratul coeficientului de corelaie, rTH = 0,900 => rTH =
0,9000,900 = 0,810, rezult c ecuaia permite sintetizarea (rezumarea) esenialului (81%) din
variaia spaial a temperaturii odat ce se cunoate altitudinea.
* Este evident astfel c regresia permite sintetizarea unui volum foarte mare de
informaie cu ajutorul a doar doi parametri. Aceast sintez este cu att mai valabil cu ct
corelaia este mai puternic.
b) Modelarea
Observaiile meteorologice, combinate cu analizele statistice, i repetate pe tot lungul
anului, demonstreaz faptul c coeficientul a nu se schimb (-0,006 = constant), n vreme ce
coeficientul b oscileaz n funcie de anotimp (valorile sale sunt ridicate vara i coborte iarna).
Ce se poate deduce din aceste observaii?
38

Trebuie s fie remarcat c simbolul este folosit att pentru a nota coeficientul teoretic al regresiei, ct i pentru
probabilitatea de a grei cnd se respinge H0. Sensul reiese clar din context.

86

Se cunoate faptul c coeficientul a indic mrimea variaiei temperaturii n funcie de


variaia altitudinii. Astfel, o variaie a altitudinii de 100 m corespunde unei oscilaii a
temperaturii de 0,006100 = 0,6C. Se obine astfel gradientul termic, o constant universal
valabil pe Terra. Coeficientul b n schimb, indic valoarea temperaturii atunci cnd altitudinea
este de 0 m; coeficientul b este deci temperatura medie la nivelul mrii. Se verific astfel una
dintre legile elementare ale climatologiei, mai exact spus, se verific unul dintre modelele
fundamentale ale climatologiei.
* Apare astfel clar faptul c regresia liniar are capacitatea de a modela realitatea
spaiului geografic, fcnd posibil experimentul tiinific.
c) Previziunea
Dac buletinul meteo televizat anun o temperatur medie de 15C pentru Moldova, o
persoan dintr-o localitate fr staie meteo, care cunoate altitudinea propriei localiti, poate
estima temperatura local. Dac temperatura medie la nivelul mrii este de 15C, ecuaia dreptei
de regresie va fi de tipul T=-0,006H+15C. Presupunnd c altitudinea absolut a localitii
respective este de 500 m i c gradientul termic rmne stabil, temperatura localitii n discuie
este probabil de 12C (dac gradientul rmne stabil, este suficient s se scad cte 3C pentru
fiecare 500 m altitudine msurai de la nivelul mrii: -0,006500=-3 => T=-3+15 = 12C).
* Regresia permite extrapolarea rezultatelor obinute pe un eantion; cu alte cuvinte,
regresia permite previziunea tuturor valorilor lui Y dac se cunosc valorile lui X pentru
ntreaga populaie.
d) Descoperirea particularitilor locale (sau punerea n eviden a unui efect
secundar mascat de un efect principal)
Amintind faptul c analiza cartografic a reziduurilor este un instrument important de
studiu al structurilor spaiale, ne putem ntreba: ce informaii sunt obinute prin cartografierea
reziduurilor ecuaiei dreptei de regresie T=-0,006H+10C, rmas valabil tot timpul anului?
Rspunsul este simplu: reziduurile corespund varianei reziduale 1-r, deci ele dau
seama de 19% (adic de 1-0,810) din variaia spaial a temperaturii neexplicat de altitudine.
Prin urmare, reziduurile pun n eviden microclimatele determinate de orientarea versanilor, se
vegetaie, de accidentele topografice, de activitatea uman, etc. Astfel:
=> Reziduurile pozitive corespund microclimatelor calde (temperatura este mai mare
dect ar fi lsat altitudinea s se presupun);
=> Reziduurile negative corespund microclimatelor reci (temperatura este mai sczut
dect ar fi lsat altitudinea s se presupun);
=> Reziduurile nule corespund temperaturilor conforme cu cele pe care altitudinea lsa
s se prevad.
* Reziduurile permit aadar descoperirea factorilor secundari care influeneaz variaia
spaial a unui fenomen, odat eliminat efectul factorului principal; este fcut vizibil astfel
specificul local al unui teritoriu oarecare.
5.4. Msurarea relaiei dintre dou caracteristici calitative ordinale

n paginile anterioare s-a demonstrat c metodele analitice de calcul ale corelaiei sunt
aplicate atunci cnd distribuia variabilelor este normal i cnd exist informaii asupra
parametrilor funciilor care realizeaz legtura dintre variabilele respective.
Se cunoate ns faptul c o serie ntreag de date geografice nu pot fi msurate dect pe
scar ordinal, fie din cauza naturii informaiilor (preferina persoanelor pentru anumite orae,
de exemplu), fie din cauza faptului c valorile cardinale sunt nesigure sau au o distribuie mult
87

prea neadaptat unei transformri ntr-o distribuie apropiat de una normal. n aceste cazuri,
chiar dac se bnuiete c ntre variabilele astfel msurate exist o relaie, calcularea corelaiei
prin metodele prezentate nu este posibil, deoarece distribuia nu este normal iar informaiile
despre parametrii funciilor lipsesc.
Singura posibilitate de msurare a relaiilor stabilite ntre asemenea variabile sunt
metodele neparametrice de calcul al corelaiei. Una dintre aceste metode este calcularea
corelaiei rangurilor, pornindu-se de la ipoteza c ntre rangurile celor dou variabile exist o
relaie de dependen, a crei intensitate este msurabil. Dispunnd de rangurile39 variabilelor,
de la 1 la N unde N este numrul de observaii caracterizate de variabilele considerate,
msurarea intensitii corelaiei se efectueaz fie prin coeficientul de corelaie Spearman, fie
prin coeficientul de corelaie Kendall.
* Exemplu. ncercnd s explice preferinele migranilor interni pentru unul sau altul dintre judeele
Romniei, o echip de specialiti n geografie social a avut ideea s msoare intensitatea impactului informaiilor
transmise prin mass-media asupra alegerii judeului-int de ctre migrani. Pentru aceasta, s-au creat dou ateliere
de cercetare:
- primul atelier a studiat arhivele presei scrise i vorbite din ultimii 15 ani i, n funcie de frecvena
apariiei informaiilor despre fiecare jude n articole i emisiuni radio-tv, au realizat o ierarhie a judeelor (coloana
X n tabelul de mai jos);
- al doilea atelier a efectuat un sondaj pe un eantion reprezentativ din populaia n vrst de 25-30 de ani,
stabilind o ierarhie a judeelor n funcie de frecvena apariiei fiecrui jude n topul preferinelor acestui eantion
de populaie (coloana Y din tabelul de mai jos).

5.4.1. Coeficientul de corelaie Spearman5.4.1. Coeficientul de corelaie Spearman


()

n tabelul de mai jos s-au obinut dou iruri de ranguri, unul pentru X (X1, X2 . . . Xi, Xj .
. . XN) i altul pentru Y (Y1, Y2 . . . Yi, Yj . . . YN). Coeficientul lui Spearman se calculeaz aidoma
coeficientului de corelaie liniar Bravais-Pearson, lundu-se rangurile drept valori. Pentru
aceasta, se ordoneaz cele dou iruri n funcie de rangurile lui X, obinndu-se un total de 40
de perechi de valori: (X1,Y1), (X2,Y2) . . . (Xi,Yi), (Xj,Yj) . . . (XN,YN). n etapa urmtoare, se
efectueaz diferena dintre rangurile fiecrei perechi rezultate: (X1-Y1) . . . (Xi-Yi), (Xj-Yj) . . .
(XN-YN), obinndu-se valorile trecute n coloana d. Deoarece suma valorilor coloanei d este 0,
acestea se ridic la ptrat, rezultnd valorile coloanei d, dup care se aplic formula lui
Spearman:
N
2
6 ( X i - Yi )
= i=1
N(N + 1)(N - 1)

N
6 d
= i=1
N(N - 1)

sau
Coeficientul de corelaie a rangurilor propus de Spearman oscileaz de asemenea ntre 1 i +1, relaia fiind cu att mai puternic cu ct este mai aproape de 1 i cu att mai slab cu
ct este mai aproape de 0.

39

Rangul este locul ocupat de o observaie ntr-o ierarhie ascendent (1, 2, 3...i...N) sau descendent (N...i...3, 2, 1).

88

nlocuind n formul cu valorile tabelului, se obine


=

6 * 1074
40(40 - 1)

Variabila

Valoarea coeficientului, =0,899, indic faptul c ntre


publicitatea fcut judeelor de ctre sistemul mass-media i
decizia posibililor migrani de a se ndrepta ctre un jude sau
altul exist o puternic relaie de dependen, de semn pozitiv.
Semnificai a statistic a coeficientului Spearman poate
fi testat aidoma coeficientului Bravais-Pearson, utilizndu-se
testul Student, cu condiia ca N5. n acest caz, pentru
(probabilitatea de eroare acceptat) i numrul de grade de
libertate date, valoarea lui tXY se citete din tabele speciale.
Pentru a utiliza aceleai tabele ca i pentru coeficientul de
corelaie liniar, este necesar ca N30. Deoarece n exemplul de
mai sus n=40, se poate testa ipoteza nul H0 conform creia =0
(ntre ranguri nu exist nici o relaie), aplicndu-se testul
urmtor, ce consist n a calcula tXY distribuit ca t/2 la (N-2)
grade de libertate:
t XY =

II * N - 2
1 -

Ipoteza nul este respins dac tXYt/2. n exemplul considerat,


se obine pentru =0,05 i N=(40-2) grade de libertate:
t XY =

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

2
4
11
10
1
7
3
15
5
8
17
6
13
14
18
9
28
26
16
12
22
30
20
23
21
24
37
25
19
29
32
33
34
36
35
39
31
27
38
40

-1
-2
-8
-6
4
-1
4
-7
4
2
-6
6
0
0
-3
7
-11
-8
3
8
-1
-8
3
1
4
2
-10
3
10
1
-1
-1
-1
-2
0
-3
6
11
1
0

1
4
64
36
16
1
16
49
16
4
36
36
0
0
9
49
121
64
9
64
1
64
9
1
16
4
100
9
100
1
1
1
1
4
0
9
36
121
1
0

1074

Judeul

= + 0,899

0,899 * 40 - 2
1 - 0,899

0,899 * 6,14
1 - 0,802

= 12,65

Prahova
Iai
Dolj
Cluj
Constana
Bacu
Timi
Suceava
Braov
Arge
Bihor
Galai
Mure
Neam
Dmbovia
Hunedoara
Maramure
Olt
Buzu
Sibiu
Arad
Teleorman
Vaslui
Botoani
Vlcea
Alba
Satu Mare
C. Severin
Brila
Vrancea
Gorj
Harghita
Clrai
Mehedini
B-a Nsud
Giurgiu
Ialomia
Tulcea
Slaj
Covasna
=suma

Din tabelul cu valorile repartiiei Student, pentru =0,05 i


N=38 grade de libertate, t/2 = 2,03. Deoarece tXYt/2 (12,652,03), ipoteza nul este respins,
coeficientul obinut fiind foarte semnificativ.
5.4.2. Coeficientul de corelaie Kendall ()

Al doilea coeficient de corelaie a rangurilor este cel al lui Kendall, care este fundamentat pe
numrul de inversiuni ale ordinii rangurilor celor dou variabile, comparat cu o ierarhie
standard (Porojan, 1993). De obicei, ordinea standard este ierarhia variabilei X, n funcie de
care se studiaz inversiunile din ierarhia variabilei Y.
Calcularea acestui coeficient (, se citete tau) nu pune de asemenea condiia de
normalitate a distribuiei variabilelor, ns cere observarea tuturor cuplurilor de variabile (XiYi,
XjYj) cu ij. Observarea acestor perechi este laborioas, deoarece este nevoie de considerarea a
[N(N-1)]/2 valori. Fiecare pereche conine patru ranguri: Xi, Xj, Yi i Yj. Coeficientul este n
esen ecartul dintre proporia perechilor concordante i proporia perechilor discordante. O
pereche este numit concordant dac atunci cnd Xi>Xj, i Yi>Yj; n caz contrar, perechea este
numit discordant (atunci cnd Xi>Xj, Yi<Yj sau atunci cnd Xi<Xj, Yi>Yj).

89

Pentru calcularea concordanelor i discordanelor (deci a


inversiunilor), se procedeaz astfel: se numr n coloana Y, de sus
n jos, n ordine, cte valori mai mari dect numrul considerat se
afl pn la sfritul coloanei iar valorile obinute se trec n a treia
coloan (vezi tabelul).
Astfel, primul numr din coloana K a inversiunilor, respectiv
38, semnific faptul c sub prima cifr din coloana Y (2) sunt 38 de
valori mai mari dect 2. A doua cifr din coloana K a inversiunilor
este 36, ceea ce nseamn c sub valoarea 4 din coloana Y sunt 36 de
valori mai mari dect 4, etc.
n continuare se calculeaz proporia P dintre perechile
concordante i cele discordante, dup urmtoarea formul:
P = 2K -

N
2

(N - 1)= 2 * 665 -

40
2

(40 - 1)

= 1330 - 780 = 550.

n acest moment se poate aplica formula de calculare a coeficientului


Kendall ():
=

P
N
2

(N - 1)

550
20 * 39

550
780

= + 0,705

Coeficientul variaz tot ntre 1, valoarea sa fiind n general mai


redus dect ce a lui . Dac toate perechile sunt concordante, =+1
iar dac toate perechile sunt discordante, =-1. Nu exist corelaie
ntre ranguri ( =0) atunci cnd numrul perechilor concordante este
egal cu cel al perechilor concordante.
Semnificai a coeficientului se poate verifica cu ajutorul
tabelelor speciale Kendall, ns, deoarece distribuia sa tinde rapid
spre cea normal (Beguin, 1978), dincolo de N>10 se poate testa
ipoteza nul =0 cu ajutorul urmtorului test:
z XY =

Variabila
Judeul
Prahova
Iai
Dolj
Cluj
Constana
Bacu
Timi
Suceava
Braov
Arge
Bihor
Galai
Mure
Neam
Dmbovia
Hunedoara
Maramure
Olt
Buzu
Sibiu
Arad
Teleorman
Vaslui
Botoani
Vlcea
Alba
Satu Mare
C.- Severin
Brila
Vrancea
Gorj
Harghita
Clrai
Mehedini
B-a Nsud
Giurgiu
Ialomia
Tulcea
Slaj
Covasna
=suma

Inversiuni
(K)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

2
4
11
10
1
7
3
15
5
8
17
6
13
14
18
9
28
26
16
12
22
30
20
23
21
24
37
25
19
29
32
33
34
36
35
39
31
27
38
40

38
36
29
29
35
29
31
23
30
29
22
28
24
23
22
25
12
13
20
20
16
10
15
14
14
13
3
11
11
9
7
6
5
4
3
1
2
2
1
0
665

XY
(4N + 20)(9N - 9)

cu respingerea ipotezei nule H0 dac zXYz/2 la =0,05.


5.5. Msurarea relaiei dintre o caracteristic cantitativ i una calitativ nominal sau
dintre dou caracteristici calitative nominale

Unele variabile geografice nu pot fi exprimate dect prin intermediul codurilor


nominale, n general binare (zero i unu). Astfel, n studierea echiprii tehnico-edilitare a
localitilor unui teritoriu, se noteaz cu 1 prezena unui anumit echipament (de exemplu
alimentarea cu ap) i cu 0 absena sa. n cazul acestor variabile, nici una dintre metodele
prezentate anterior de msurare a corelaiilor nu pot fi aplicate. Exist ns anumite metode de
msurare a intensitii relaiilor stabilite ntre fenomene caracterizate de variabile nominale,
printre care cele mai importante sunt cele de calculare a coeficientului empiric de corelaie i a
coeficienilor de asociere.
5.5.1. Raportul empiric de corelaie ()

90

Raportul empiric de corelaie (se citete eta) msoar intensitatea maxim a relaiei
existente fie ntre dou caracteristici cantitative, fie ntre o caracteristic cantitativ i unul
calitativ. n calcularea sa se pornete de la un tabel de contingen, deoarece este strns legat de
distribuiile marginale condiionale.
Spre deosebire de coeficientul de corelaie Bravais-Pearson, coeficientul nu necesit ca
relaia s fie liniar. Din aceast cauz, i datorit faptului c nu ofer alte informaii asupra
naturii relaiei, este necesar ca, n cazul caracteristicilor cantitative, s fie nsoit i de analiza
celor dou curbe de regresie (Beguin, 1978). Prin urmare, n cazul caracteristicilor cantitative,
trebuie calculai ambii coeficieni: i XY (al lui X n Y), i YX (al lui Y n X). n cazul n care Y
este o caracteristic calitativ nominal, se calculeaz doar XY.
Deoarece are un comportament similar indicelui Bravais-Pearson, ptratul su () are
aceeai semnificaie ca rXY, msurnd partea de varian explicat din variana total. Mai
exact, este proporia varianei distribuiei marginale exprimat prin variana mediilor
distribuiilor condiionale40 (Calot, 1973). Expresiile celor doi coeficieni de corelaie empiric,
exprimate prin ptratele acestora, sunt:
n

k ij ( X i - X / Y )
j
i=1 j=1
XY = 1 n
k i.( X i - X )
i=1

pentru corelaia lui X n Y, i


n

k ij ( Y j - Y / X i )
i=1 j=1
YX = 1 p
k .j ( Y j - Y )
j=1

pentru corelaia lui Y n X. Raporturile, obinute plecndu-se de la un tabel de contingen, pot fi


calculate numai cu condiia ca raportul dintre numrul de clase (N) i efectivul total al tabelului
(k..) s fie mai mare sau egal cu 1/50:
N
k..

1
50

5.5.2. Msurarea relaiei dintre dou caracteristici calitative nominale

Msurarea intensitii relaiei stabilite ntre dou variabile calitative nominale nu poate fi
efectuat prin calcularea raporturilor sau a coeficienilor de corelaie. Metodele utilizate n acest
caz sunt tot metode neparametrice, dar care caut s msoare nu intensitatea ci gradul de
asociere (asociere spaial n cazul geografiei) al celor dou variabile.
Exemplu. tiindu-se c piersicul este un arbore pretenios fa de regimul temperaturii, se poate ncerca s
se demonstreze c paralela de 46 latitudine nordic este n cadrul Romniei un prag bioclimatic pentru aceast
plant. n lipsa unor date teritoriale amnunite se construiesc dou variabile X i Y, n care X semnific producia
judeean de piersici (notat cu 0 pentru judeele cu producia sub 500 t/an i cu 1 pentru judeele care depesc
aceast valoare), iar Y semnific poziia fiecrui jude n raport de paralela 46lat.N (notat cu 0 pentru judeele
netraversate de paralel i aflate la nord de aceasta i cu 1 pentru judeele traversate de paralel sau aflate la sud de
aceasta).Tabelul elementar rezultat este redat alturat.
Pentru a se calcula gradul de asociere (al prezenei acelorai valori ale celor dou variabile n acelai jude)
este necesar realizarea unui tabel de contingen (vezi tabelul alturat), deoarece toi coeficienii de msurare ai
asocierii au la baz noiunea de contingen (de asociere) i legea urmat de .
40

Vezi subcapitolul "Tabelul de contingen i studiul relaiei dintre dou caractere discrete".

91

5.5.2.1. Coeficientul de contingen ()


Coeficientul (se citete fi) este de fapt coeficientul de corelaie liniar Bravais-Pearson aplicat
variabilelor binare (ale cror valori sunt notate cu 0 i 1). Calcularea sa este posibil numai
pornindu-se de la un tabel de contingen 2x2 (cu dou linii i cu dou coloane). Formula de
calcul este
XY =

n p ( k - k )
ij ij
2
D = XY =
k ij
i=1 j=1

( k 11 * k 22 - k 12 * k 21 )

D
2
XY =
( k 1. * k 2. * k .1 * k .2 )
N n care
sau

iar N este
efectivul total (sau N = k..). Din tabelul de contingen se obine XY=24,3, de unde =24,3/40
=+0,607 => = =+0,779. Valoarea coeficientului, =+0,779 confirm existena unui grad
destul de mare de asociere ntre produciile mari de piersici obinute (>500t/an) i poziia la sud
de paralela de 46lat.N a judeelor Romniei.
Coeficientul se dovedete semnificativ sau nu dup
Y:
Y=0
Y=1
TOTAL
testarea ipotezei nule H0 conform creia =0. Atunci cnd
X:
XY , H0 este
11
10
21
X=0
X=1
3
16
19
respins. n cazul
Variabila
X
Y
exemplului
Judeul
(1= >500t/an)
(1=sud)
TOTAL
14
26
40
numeric
de
mai
0
1
Prahova
1
1
Iai
sus, coeficientul
0
1
Dolj
0
0
Cluj
se dovedete semnificativ chiar i la =0,001, deorece
1
0
Constana
0
0
Bacu
citit este de 10,83 iar XY este de 24,3: XY
0
0
Timi
0
1
Suceava
=> H0 este respins.
Braov
Arge
Bihor
Galai
Mure
Neam
Dmbovia
Hunedoara
Maramure
Olt
Buzu
Sibiu
Arad
Teleorman
Vaslui
Botoani
Vlcea
Alba
Satu Mare
C. Severin
Brila
Vrancea
Gorj
Harghita
Clrai
Mehedini
B-a Nsud
Giurgiu
Ialomia
Tulcea
Slaj
Covasna

1
0
1
1
0
1
0
1
1
1
1
0
0
0
1
0
0
1
0
0
1
0
1
1
0
0
1
1
1
0
0
1

1
1
1
1
0
1
1
1
1
1
1
1
0
1
1
0
0
1
0
0
1
1
0
0
1
0
1
1
1
0
1
1

5.5.2.2. Coeficientul de asociere Yule ()


Coeficientul de asociere (se citete teta) este
foarte apropriat studierii relaiei dintre dou variabile
binare. n calcularea sa se pornete de asemenea de la
un tabel de contingen 2x2:
XY =

k 11 * k 22 - k 12 * k 21
k 11 * k 22 + k 12 * k 21

11 * 16 - 10 * 3
11 * 16 + 10 * 3

= + 0,708

Formula de mai sus este fundamentat pe ideea c


produsul k11k22 reliefeaz gradul de realizare al
asocierii, pe cnd produsul k12k21 evideniaz lipsa
asocierii. Astfel, ntre cei doi termeni de stabilete o
relaie de asimetrie ntre gradul de realizare i cel de
nerealizare al asocierii. Coeficientul , propus de
Yule, este aadar expresia raportului de asimetrie a
asocierii. Ca majoritatea raporturilor i coeficienilor,
oscileaz ntre -1 i +1, semnul fiind dat de

diferena k11k22 - k12k21:


- dac k11k22 > k12k21, atunci > 0;
- dac k11k22 < k12k21, atunci < 0.

92

Ipoteza nul H0, conform creia = 0, se testeaz prin calcularea lui : dac XY ,
atunci H0 este respins.
5.5.2.3. Coeficientul de contingen (c)
Spre deosebire de ceilali coeficieni, c se poate aplica i tabelelor de contingen mai
mari de 2x2, ns fundamentarea sa statistic se sprijin de asemenea pe calcularea lui
(Beguin, 1978):
c XY =

+ N

24,3
24,3 + 40

= + 0,615

Coeficientul de asociere c este ntotdeauna pozitiv, oscilnd ntre 0 i +1, ns distribuia sa


statistic nu este determinat, din care cauz trebuie calculat raportul dintre valoarea sa obinut
prin formula de mai sus (c=+0.615) i valoarea sa teoretic maxim (cmax), rezultat din
m-1

c max XY =

2-1

= + 0,707

n care m este numrul cel mai mic, fie de coloane, fie de linii, al tabelului de contingen. De
exemplu, dac un tabel de contingen are 5 coloane i 3 linii, m=3 (n cazul nostru m=2,
deoarece numrul de coloane este egal cu numrul de linii, respectiv cu 2). Calculnd raportul,
se obine

c XY
c max XY

24,3

+ N
m-1

24,3 + 40

2-1

+ 0,615
+ 0,707

= + 0,869

Asupra acestui coeficient, +0,869, care demonstreaz o puternic asociere ntre poziia sudic a
judeelor i mrimea produciei de piersici, se testeaz ipoteza nul c/cmax = 0, care este respins
dac XY .
5.5.2.4. Coeficientul lui Cramer (rc)
Coeficientul de asociere rc, a crui distribuie este deasemenea nedeterminat, se
calculeaz ca un raport ntre observat i valoarea maxim pe care o poate avea observat,
care se afl prin max = N(m-1), n care m este cel mai mic numr de linii (de coloane) al
tabelului de contingen. Formula sa de calcul devine astfel:
rc =

N(m - 1)

24,3
40(2 - 1)

= + 0,779

Se remarc uor faptul c n cazul tabelului de contingen 2x2, m-1 = 2-1 = 1, nct rc = , egal
n cazul exemplului numeric cu +0.779. semnificaia coeficientului este obinut prin testarea
ipotezei nule H0, cu rc: dac XY , H0 este respins n favoarea ipotezei alternative H1,
conform creia rc > 0 ( deoarece coeficientul lui Cramer oscileaz ntre 0 i +1).
5.5.2.5. Coeficientul lui Ciuprov (C)
Numrndu-se printre cei mai comozi coeficieni, deoarece oscileaz ntre 0 i +1,
coeficientul C se bazeaz de asemenea pe calcularea lui :
C XY =

24.3
40 (2 - 1)(2 - 1)

= + 0.779

93

unde v = (m1-1)(m2-1), cu m1 fiind numrul de linii i cu m2 fiind numrul de coloane al


tabelului de contingen. Se observ c pentru un tabel de contingen 2x2, v = (2-1)(2-1) = 1,
de unde rezult c C = rc = i egal n cazul nostru cu +0,779.
Testarea ipotezei nule H0, conform creia C = 0, se face la v=(m1-1)(m2-1) grade de
libertate pentru un tabel de contingen mai mare de 2x2. n cazul de fa, al tabelului 2x2, v=1;
ipoteza nul H0 este respins dac XY .
5.6. Corelaie i cauzalitate

Stabilirea faptului existenei unei legturi ntre dou fenomene nu implic n mod
necesar c ntre cele dou fenomene exist relaii de cauzalitate. Exist i corelaii aparente, fr
fundament real. Britanicul G. U. Yule a stabilit c, ntre 1929 i 1937, n Marea Britanie
valoarea coeficientului de corelaie dintre numrul de receptoare radio i numrul deficienilor
mintal a fost de +0,988 (Porojan, 1993). Este evident c, dincolo de aspectul amuzant, nimic nu
ndreptete existena unei corelaii reale ntre cele dou variabile.
5.6.1. Un pericol specific geografiei: eroarea ecologic

n geografie se observ de multe ori c dou variabile tind s se asocieze spaial


(creterea sau scderea valorilor uneia n unele uniti teritoriale este nsoit de creterea sau de
scderea celeilalte n aceleai uniti spaiale). Creterea sau scderea simultan a celor dou
variabile nu nseamn nici c una are o influen direct asupra celeilalte, dar nici c aceast
influen lipsete. Covariaia lor spaial se poate datora foarte bine unei cauze externe, care le
influeneaz pe ambele n acelai timp. De exemplu, reducerea ratei omajului poate conduce
att la sporirea economiilor bancare a populaiei (X), ct i la creterea consumului de bunuri
(Y), dei, aparent, ntre X i Y exist o legtur cauzal direct. Se observ astfel c exist mai
multe posibiliti de explicare a corelaiilor.
n geografie studiul corelaiilor se face, de cele mai multe ori, prin intermediul analizei
unei mulimi de locuri. Atunci cnd variabilele utilizate n analiza acestor locuri sunt variabile
sociale, care descriu locuitorii locurilor respective, trebuie s se aib permanent n atenie faptul
c o corelaie stabilit la nivelul locurilor nu implic n mod necesar o corelaie la nivelul
locuitorilor lor.
* Exemplu: Criminalitatea i strinii n Albeni.
Un studiu sociologic (la nivelul indivizilor) demonstreaz c rata criminalitii n oraul Albeni este mai
ridicat n rndul autohtonilor (36%) dect n rndul strinilor (17%). Cu toate acestea, un studiu geografic (la
nivelul cartierelor) demonstreaz o corelaie perfect (rXY = +1) ntre proporia strinilor n cartiere i rata
criminalitii n cartierele respective.
Nu este vorba despre nici un paradox: prezena corelaiei la nivelul locurilor semnific pur i simplu faptul
c acolo unde sunt muli strini sunt de asemenea i muli criminali, dar aceasta nu dovedete c strinii sunt autorii
actelor criminale.

Acest tip de eroare este numit eroare ecologic, deoarece ea const n a gndi c
prezena a dou fenomene ntr-un acelai loc (ntr-un ecosistem) implic o relaie cauzal ntre
cele dou fenomene. ns faptul c leii i termitele triesc n savan nu implic deloc faptul c
leii mnnc termitele sau c termitele gonesc de zor leii prin savan pentru a-i asigura cina...

94

CAP.VI. SERII CRONOLOGICECAP.VI. SERII CRONOLOGICE


6.1. Definiie i termeni

n capitolele anterioare distribuiile statistice au fost considerate ca avnd o anumit


stabilitate a structurii interne (de aici denumirea de de statistic de structur pentru ansamblul
metodelor prezentate pn acum); sau, n orice caz, nu ne-a interesat modul de manifestare n
timp a acestor distribuii, n-a fost urmrit evoluia lor n timp. Considerarea explicit a
timpului drept caracteristic n funcie de care sunt repartizate valorile unei variabile constituie
semnul distinctiv al seriilor cronologice.
Seriile cronologice (s. de timp, s. dinamice) sunt acele distribuii statistice de o
variabil la care modalitile (valorile) caracteristicii sunt ordonate n raport cu
timpul.
Din aceast definiie reiese c o serie cronologic presupune, de fapt, o distribuie a populaiei
studiate dup dou caracteristici, dintre care una este ntotdeauna timpul.
Un exemplu la ndemn este cel al tabelelor meteorologice, n interiorul crora valorile
elementelor meteo sunt ordonate pe zile, decade, sau luni. Populaia temperaturilor aerului, de
exemplu, este repartizat astfel dup dou caracteristici: una dintre ele este timpul, iar cealalt,
ale crei modaliti constituie chiar datele de observaii, precizeaz felul temperaturii (ex.
temperatura la ora 7, temperatura medie zilnic, maxima diurn etc.).
n felul acesta timpul devine o veritabil variabil, n funcie de care se poate analiza
comportamentul celeilalte variabile. Acest fapt este confirmat i de modelul matematic
generalizat al unei serii cronologice:
y = f(t),
n care timpul joac rolul de variabil independent. irul de valori al seriei va avea forma
general:
y t 1 , y t 2 , ..., y t i , ..., y t n
Trebuie subliniat, ns, c n cazul seriilor cronologice timpul constituie o variabil exogen
(Chadule, 1974), care nu o influeneaz n nici un fel pe cealalt, ea avnd doar rolul precizat in
definiia de mai sus: acela de criteriu de ordonare a valorilor celeilalte variabile.
De regul, pentru variabila timp se adopt valori ce corespund unor intervale temporale
echidistante: ore, zile, luni, ani etc. ntruct la intervalele mai mari de o lun echidistana nu este
perfect (exist luni de 30, dar i de 31 de zile; exist ani biseci), se obinuiete, atunci cnd se
consider necesar, o corectare a valorilor variabilei41 pentru a asigura comparabilitatea.
Coeficienii de corecie se obin raportnd numrul de zile dintr-o lun medie (365/12, sau
366/12) la numrul de zile al lunii respective. n felul acesta pentru o lun de 30 de zile
coeficientul de corecie este 1,013 (1,017 pentru un an bisect); pentru o lun de 31 de zile
coeficientul este 0,981 (respectiv 0,983); pentru luna februarie coeficientul este 1,086 (respectiv
1,051).

41

Aici i mai departe n text termenul variabil se refer exclusiv la variabila y din modelul generalizat de mai
sus, ale crei valori constituie termenii seriei cronologice.

95

Dup felul n care valorile variabilei se ataeaz unitilor de timp se disting dou feluri
de serii cronologice:
s. de momente - sunt acele s.c. la care valorile variabilei (de regul una de stoc) sunt
ataate unor momente de timp, eventual echidistante. O caracteristic a acestor serii este
imposibilitatea (sau lipsa de sens) a cumulrii valorilor succesive. Exemple de variabile:
populaia unui ora, parcul de automobile al unei ri, populaia ocupat n agricultur .a.;
s. de intervale sunt seriile la care valorile variabilei (de regul una de flux) sunt ataate
unor intervale de timp egale. Exemple de variabile: producia agricol sau industrial, cantitatea
anual de precipitaii, nr. de nscui vii etc. O asemenea serie de timp mai este numit i
continu, deoarece variabila poate cpta un numr infinit de valori n interiorul intervalului
temporal ales. Caracteristica acestui tip de s.c. o constituie posibilitatea cumulrii valorilor
succesive ale variabilei.
Reprezentrile grafice specifice pentru s.c. sunt cronogramele sau historiogramele.
Acestea sunt nite grafice simple de tipul curbelor elementare, n care pe abscis se trec
momentele/intervalele de timp, iar pe ordonat valorile variabilei; punctele ce corespund
perechilor de valori (yt,t) se unesc printr-o linie, rezultnd o curb care descrie evoluia n timp a
fenomenului studiat.
6.2. Serii cronologice i indici

Mai ales n domeniul Statisticii economice, analiza primar a seriilor de timp se bazeaz
pe un sistem de indici care caracterizeaz succint relaiile cantitative dintre termenii seriei, pe o
anumit perioad sau pe ntregul interval de timp acoperit de termenii seriei.
Un indice este un mrime numeric rezultat din compararea valorilor unui
indicator statistic42 i care ofer o msur a schimbrii nivelului unei variabile
n timp (indice cronologic) sau n spaiu (indice teritorial sau regional).
Prelucrarea termenilor unei serii sau subserii cronologice permite obinerea a trei
categorii de indici: absolui, relativi i medii (Porojan, 1993). Indicii din primele dou categorii
mai sunt cunoscui sub denumirea de indici elementari, iar cei medii mai sunt numii indici
sintetici (Chadule,1974).
a)Indicii absolui - sunt acei indici ai cror valori se msoar n aceleai uniti ca i
termenii seriei. Dintre indicii absolui mai uzitai sunt trei: nivelul absolut, sporul absolut i,
pentru seriile de intervale, volumul sporului.
nivelul absolut al seriei reprezint, de fapt, nsei valorile absolute ale termenilor
acesteia:
y t 1 , y t 2 , ..., y t i , ..., y t n
sporul absolut sau creterea absolut este diferena dintre un termen oarecare al seriei
i primul termen, acesta din urm find considerat baz de referin - motiv pentru care se mai
numete i spor absolut cu baz fix:
i/1 = y t i - y t 1
Sporul absolut al ntregii serii va fi diferena dintre ultimul i primul termen:
n/1 = y t n - y t 1
Sporul se poate calcula i ca diferen ntre cte doi termeni consecutivi, caz n care se
numete spor absolut cu baza n lan:
42

Indicator statistic = mrime statistic, cu ajutorul creia se caracterizeaz un fenomen social-economic sub
aspectul structurii i modificrilor sale cantitative n timp sau n spaiu (Trebici & colab.,1985). Exemple de i.s.:
venitul naional, valoarea produciei industriale, consumul de calorii pe cap de locuitor etc.

96

i/i - 1 = y t i - y t i - 1
pentru seriile de intervale (deci n cazul variabilelor ale cror valori se pot cumula) se
calculeaz volumul sporului:
n

2/1 + 3/2 + ... + n/n - 1 = i/i - 1


i=1

b)Indicii relativi - sunt indici care se obin sub forma unor rapoarte, de obicei
procentuale.
ritmul sau indicele de cretere se obine ca un raport ntre un termen oarecare al seriei
i primul termen, considerat ca baz (indice de cretere cu baz fix):
yt n
yti
x100
x100
I i/1 =
I n/1 =
yt1
yt1
(pentru ntreaga serie indicele va fi
).
i aici se poate calcula un indice de cretere cu baza n lan:
yti
x100
I i/i - 1 =
yt i-1
n cazul seriilor de intervale, ntre cele dou feluri de indici exist o relaie care deriv
din modul cum se calculeaz acetia: indicele de cretere cu baz fix este egal cu produsul
indicilor de cretere cu baz n lan:
n

I n/1 = I i/i - 1
i=1

ritmul sporului este dat de raportul dintre volumul sporului i baz:


n

i/i -1
y tn - y t1
i=1
x100 = (
x100 =
=
R n/1
y t1
y t1

y tn

- 1)x100

y t1

i exprim cte uniti (procente) de spor absolut revin pentru o unitate (procent) din baz.
Lucrnd cu perechi de termeni succesivi se pot obine i nite ritmuri ale sporului cu baza n
lan:
R i/i -1 =

y
y -y
x100 = ti ti-1 x100 = ( ti - 1)x100
y ti-1
y ti-1
y ti-1

i/i -1

c)Indicii medii (sintetici) - sunt de fapt nite variante de medii aritmetice ale seriei
cronologice.
nivelul mediu se calculeaz n mod diferit, dup cum avem de-a face cu o serie de
intervale sau cu o serie de momente, echidistante sau nu.
- la seriile de intervale nivelul mediu este media aritmetic simpl a termenilor seriei:
n

yt

y ti
i
=
= 1
n

- la seriile de momente echidistante nivelul mediu este media cronologic simpl:


1
2
yt =

y t1 + y t2 + ... + y t n-1 +

y
2 tn

97

- la seriile de momente ce se succed la intervale de timp inegale nivelul mediu este media
cronologic ponderat :
t1
2
yt =

y t1 +

t1 + t 2
2

y t2 + ... +

t n -1 + t n
2

y tn

t 1 + t 2 + ... + t n

,
unde t1, t2, ..., tn sunt intervalele de timp (inegale) dintre momentele de timp ale seriei.
sporul absolut mediu se calculeaz prin raportarea sporurilor absolute cu baz fix, sau
cu baza n lan, la numrul termenilor minus unul:
n

i/i -1
i
=
= 1

n/1
n-1

n -1 .
, respectiv
De remarcat c suma sporurilor absolute medii cu baza n lan este egal cu sporul absolut
mediu cu baz fix:
n

i/i -1 = n/1
i=1

ritmul sau indicele mediu de cretere se determin, de regul, ca medie geometric a


indicilor de cretere cu baza n lan; ns, dac inem cont de relaia dintre indicele de cretere cu
baza fix i cei cu baza n lan, obinem o formul de calcul mai simpl:
n
I = n -1 I i/i -1 = n -1 I n/1 = n -1
i=1

y tn
y t1

Trebuie subliniat c indicii unei serii cronologice, n particular indicii de cretere, se


calculeaz, de regul, atunci cnd seriile se refer la fenomene care prezint ritmuri de cretere
certe i relativ constante. De aceea calcularea ritmului mediu de cretere presupune un examen
prealabil al seriei, pentru a verifica tendina cresctoare. Odat calculat, indicele mediu de
cretere constituie rata unei progresii geometrice cu acelai numr de termeni ca i seria
analizat i pentru care, dac se cunoate primul termen, se pot calcula i ceilali termeni:
y t1 , y t1 * I , ..., y t1 * I

i -1

, ..., y t1 * I

n -1

Dac ritmul de cretere este constant de-a lungul perioadei analizate, atunci termenii progresiei
se apropie mult, ca valoare numeric, de cei ai seriei originare (primul termen fiind oricum
identic).
Cunoaterea indicilor de cretere este foarte util n analizele comparative ale unor
indicatori statistici, n perioade de timp diferite sau pentru ri (grupe de ri) diferite. Este i
motivul pentru care indicii (n particular indicele de cretere) sunt uzuali n anuarele statistice
naionale i internaionale.
Ritmul mediu de cretere este util, deasemenea, n prognoza fenomenelor la care se
refer seriile de timp, pe baza operaiunii de extrapolare matematic.
6.3. Analiza seriilor cronologice

Din punctul de vedere al statisticii inductive analiza seriilor cronologice prezint unele
dificulti. Acestea provin mai ales din faptul c valorile variabilei studiate, ordonate n funcie
de timp, nu sunt ntotdeauna independente; altfel spus, ntr-o serie cronologic termenii nu se
succed ntotdeauna ntr-o manier pur aleatoare, valoarea unui termen depinznd, mai mult sau
mai puin, de valoarea termenului (termenilor) anterior(i).

98

Se spune c o serie cronologic este aleatoare atunci cnd probabilitatea ca


y
y
variabila Y s capete valoarea t i+1 este independent de valoarea anterioar t i
(Chadule,1974).
O serie ne-aleatoare se numete serie organizat i analiza sa statistic prezint unele aspecte
specifice.
n geografie se lucreaz curent cu serii climatologice, hidrologice, demografice,
economice. Astfel de serii relev, de regul, o anumit organizare care se manifest prin
existena unei autocorelaii temporale43 ntre termenii seriei. ntr-adevr, debitul mediu al unui
ru ntr-o zi a anului nu poate fi independent de debitul mediu al zilei precedente; producia de
oel a Romniei n 1995 este dependent de potenialul economic, deci de producia de oel, din
1994 .a.
6.3.1. Verificarea (testarea) caracterului aleator

Cel mai adesea simpla reprezentare grafic a seriei cronologice evideniaz clar
caracterul aleator sau, dimpotriv, organizat al acesteia: n cazul unei serii aleatoare nu putem
decela nici un fel de tendin de organizare n timp a valorilor, fie sub forma unortendine de
cretere/descretere, fie sub forma unor oscilaii cu caracter periodic, fie ambele.
Dac examinarea graficului las loc unor incertitudini se poate apela la nite procedee
numerice sau grafice de verificare a caracterului aleator, procedee care intr n categoria testelor
statistice.
Verificarea caracterului aleator este o prim etap, obligatorie, n analiza unei serii
cronologice. Dac nici unul din procedeele de verificare nu evideniaz existena unei organizri
a seriei, atunci se conchide c aceasta este pur aleatoare i este inutil s continum analiza.
Dac, dimpotriv, una sau mai multe relev caracterul non-aleator, atunci analiza trebuie
continuat pentru a obine, n final, un model al seriei care s exprime ct mai adecvat modul
i gradul de organizare ale acesteia.
Unul dintre procedeele numerice cele mai simple pentru verificarea caracterului aleator
este testul von Neumann (Chadule,1974).
Se calculeaz mai nti mrimea
n

2
( y ti+1 - y ti )
2 i=1
=
n-1

Dac seria este aleatoare, atunci constituie o bun estimare a dublului varianei irului (2).
Se calculeaz deci i variana . Dac

43

2
2

Autocorelaia sau corelaia serial a unei serii cronologice nseamn corelaie ntre termenii, vecini (

yt i

yt i+1

sau separai de un numr oarecare de intervale de timp ( t i i t i+k ), ai acesteia. Se pot calcula nite coeficieni de
corelaie serial, analogi cu cel de corelaie liniar simpl, lucrnd cu irurile de termeni decalai cu k uniti de
timp (termeni). Formula de calcul este aceeai:

rk =

COV( y t i , y t i+k )

2y 2y
ti

t i+ k

Valoarea lui rk este cuprins ntre -1 i +1. Graficul avnd pe abscis valorile lui k i pe ordonat valorile lui rk
poart denumirea de corelogram i este util n detectarea eventualelor fluctuaii periodice ale seriei cronologice
(valoarea lui k ce corespunde unui rk apropiat de -1 sau +1 reprezint tocmai perioada oscilaiei).

99

atunci seria poate fi considerat aleatoare.


Dac, n urma aplicrii testului von Neumann a rezultat caracterul non-aleator al seriei, o
eventual tendin de cretere/scdere n timp a valorilor poate fi evideniat cu ajutorul testului
rangurilor al lui Spearman.
Acest test ia n considerare coeficientul de corelaia a rangurilor () al lui Spearman (vezi
5.4.1.). Calculat pentru un numr foarte mare de serii, constituie o variabil aleatoare care
1
2=
n-1.
urmeaz o distribuie normal avnd media x = 0 i variana
Ipoteza nul testat este aceea c nu exist o tendin n cadrul seriei analizate. Aceasta ar
nsemna c nu depete limitele unui anumit interval situat de o parte i de alta a mediei
x = 0 , interval care ar constitui astfel regiunea de acceptare a ipotezei nule H0. mrimea
acestui interval depinde, firete, de nivelul de semnificaie al testului: spre ex. pentru =5%,
trebuie s se afle n intervalul ( x + _1,96 * ). ntruct x = 0 , coeficientul nu mai trebuie

standardizat i poate fi comparat direct cu valoarea 1,96. Dac


II 1,96

II

1,96

II
1

1,96

n-1

,
atunci i.n. H0 trebuie respins i se poate conchide c n cadrul seriei exist, cu o probabilitate
de 95%, o tendin al crei sens (cresctor sau descresctor) este indicat de semnul lui .
Trebuie remarcat c testul rangurilor ofer concluzii corecte doar dac tendina testat
este liniar. n cazul uneitendine neliniare, n spe parabolic, aplicarea testului conduce la
acceptarea i.n., ceea ce constituie o eroare.
6.3.2. Descompunerea (filtrarea) seriilor cronologice

Examinarea atent a graficelor unui numr mare de serii de timp ce redau fenomene
naturale sau socialeconomice ne va conduce,
mai curnd sau mai
trziu, la ideea c n cadrul
unei serii se pot
deosebi mai multe feluri de
fluctuaii
(micri,
variaii) ale valorilor (vezi.
fig.6.1).

tendina
general sau, cu un termen
englezesc ncetenit
i n limba romn, trendul
seriei (T). Este acea
variaie lent, constant i de
lung durat care
indic direcia general de
evoluie n timp a
fenomenului studiat prin
intermediul
seriei Figura 6.1. Componentele unei serii respective. Se mai numete
i tendin secular cronologice i modalitile de combinare a sau trend secular, deoarece
sensul micrii se acestora.
menine
o
perioad
ndelungat
(zeci,
sute de ani);
variaiile ciclice (C). Termenul ciclice desemneaz aici acele fluctuaii cvasiperiodice ale cror amplitudini i perioade sunt mai mult sau mai puin neregulate (motiv pentru
care ele sunt incluse uneori n categoria variaiilor ntmpltoare);
variaiile periodice (S) sunt acele variaii care se repet, aproximativ n aceeai form,
la intervale de timp (perioade) egale. n funcie de mrimea perioadei pot fi micri diurne (ex.
oscilaiile diurne ale temperaturii aerului), semidiurne (ex. oscilaiile mareice), lunare (ex.
variaia consumului de alcool ntr-un cartier muncitoresc, n relaie cu data fix a chenzinei) sau,
cel mai adesea, sezoniere;

100

variaiile aleatoare sau reziduale (R), care se datoreaz unor factori cu aciune
aleatoare (ex. calamiti naturale, calamiti politico-administrative etc.) i care formeaz aanumitul zgomot al unei serii cronologice.
Orice serie real rezult din combinarea, sau mai bine spus din compunerea acestor
micri, ca o consecin fireasc a aciunii simultane a factorilor generatori specifici. Se
consider c exist dou modele de combinare a celor patru componente, astfel nct s rezulte
elementele seriei reale:
a) modelul aditiv, care presupune c factorii generatori sunt independeni unii de alii, aciunea
lor nsumndu-se pentru a da valorile seriei:
yt = T + C + S + R;
b) modelul multiplicativ, care presupune c factorii generatori interacioneaz, astfel nct ntre
componenta T i celelalte exist o relaie de proporionalitate:
yt = T C S R.
Descompunerea sau filtrarea unei serii cronologice const n izolarea componentelor de
mai sus pentru a le putea studia mai bine i, eventual, pentru a le elimina. Izolarea unei
componente se realizeaz prin metode de ajustare (engl. fitting) a seriei, adic de nlocuire a
valorilor reale cu nite valori calculate cu ajutorul unor modele grafice sau analitice. Ajustarea
are ca rezultat netezirea (engl. smoothing) curbei corespunztoare, care devine astfel mai
regulat i evideniaz componenta care trebuie studiat i, eventual, eliminat . Izolarea i
eliminarea componentelor unei serii de timp se face, de regul, n ordinea descresctoare a
perioadei micrilor corespunztoare, avnd n vedere c variaiile cu perioade mai mici se
grefeaz pe cele cu perioad mai mare (vezi fig.6.1). Prin urmare descompunerea unei serii de
timp presupune, n principiu, urmtoarele secvene:
a) izolarea i eliminarea trendului, operaiuni n urma crora modelul combinativ al
seriei devine:
yt-T=S+C+R (m. aditiv); yt/T=SCR (m. multiplicativ).
Atunci cnd componenta sezonier este net predominant, iar cele ciclic i rezidual
sunt nesemnificative (C+R=0, sau CR=1), se poate trece direct la izolarea i eliminarea lui S,
rezultnd astfel aa-numita serie desezonalizat :
yt-S=T (m. aditiv); yt/S=T (m. multiplicativ).
b) eliminarea trendului i a componentei sezoniere, rezultnd seria desezonalizat i fr
tendin:
yt-T-S=C+R (m. aditiv); yt/(TS)=CR (m. multiplicativ).
c) eliminarea i a componentei ciclice, rezultnd seria n care se resimte doar influena
factorilor aleatori:
yt-T-S-C=R (m. aditiv); yt/(TSR)=R (m. multiplicativ).
Aceast schem de succesiune a etapelor de descompunere are un caracter general i ea
nu se aplic n toate cazurile. De exemplu, dac termenii unei serii sunt nite valori anuale, nu
se poate vorbi de o component sezonier; dac seria acoper o perioad scurt de timp, atunci
componenta ciclic poate fi neglijat etc.
6.3.2.1. Analiza trendului
Analiza trendului presupune gsirea unui model grafic sau analitic cu ajutorul cruia s
se poat face o ajustare ct mai bun a seriei studiate. Exist mai multe metode de stabilire a
trendului unei serii, metode care pot fi grupate n trei categorii: metode grafice, metode
mecanice i metode analitice.
1 Metode grafice. Sunt metode care, aa cum o spune denumirea lor, se aplic pe
graficul seriei de timp. Dou sunt metodele grafice mai utilizate:

101

metoda tendinei vizuale (Trebici & colab.,1985) presupune trasarea din ochi a liniei
de tendin care aproximeaz cel mai bine alura general a curbei empirice. Aceast metod,
numit n literatura francez courbe trace main leve, iar n cea anglo-saxon free-hand
curve nu poate fi, prin natura sa, riguros tiinific, ntruct aici factori subiectivi ca experiena,
ochiul i mna sigure, intuiia cercettorului, sunt hotrtori. Ajustarea pe aceast cale are un
caracter orientativ i ofer nite prime informaii privind tendina general i alte particulariti
ale seriei.
metoda liniei mediane (Grisolet &
colab.,1962) nltur subiectivismul metodei Figura 6.2. Determinareatendinei prin metoda
liniei mediane (evoluia produciei de porumb la ha
anterioare. Ea const (vezi fig.6.2) n unirea n Romnia, 1938-1982).
maximelor succesive (M1, M2,...), respectiv a
minimelor succesive (m1, m2,...) ale curbei empirice;
pe verticalele ce trec prin punctele de maxim i de
minim, unind cele dou linii, se plaseaz puncte
situate la mijlocul distanei dintre linia maximelor i
linia minimelor; linia care unete aceste puncte
mediane este linia de tendin. Inconvenientul
acestei metode este c acord o importan excesiv
valorilor maxime i minime (care, prin natura lor,
sunt dependente n mai mare msur de factorii
aleatori), linia de tendin putnd cpta un aspect
destul de neregulat.
2 Metode mecanice. Sunt metode care presupun aplicarea succesiv, n mod mecanic
i pentru toi termenii seriei, a unor formule de calcul prestabilite (Porojan, 1993).
metoda sporului absolut mediu al seriei are la baz calculul acestui indice (vezi 6.2),
cu ajutorul unei formule de forma:
y -y
= tn t1
n-1

Prin adugarea repetat a sporului mediu la primul termen se obin valorile calculate (ajustate)
ce corespund termnilor al doilea, al treilea .a.m.d. Este clar c dreapta de tendin (vezi fig.6.3)
corespunde, aici, unei progresii aritmetice la care primul termen coincide cu primul termen al
seriei studiate, iar raia este tocmai sporul absolut mediu. Termenii succesivi ai progresiei vor fi:
y t1 , y t1 + , y t1 + 2 * ,..., y t1 + (n - 1) *

,
iar ecuaia curbei de tendin (n acest caz, o dreapt) care ajusteaz curba empiric va avea
forma:
y t = y t1 + * t (t = 0,1,2,..., n - 1)

Aceast relaie poate fi utilizat, cu anumite precauii, pentru prognoza seriei prin prelungirea
(extrapolarea) dreptei nafara intervalului de timp acoperit de seria real.
Dezavantajul principal al acestei metode este acela c trendul calculat este determinat exclusiv
de primul i ultimul termen ai seriei observate, influena termenilor intermediari fiind absent.
De aceea ajustarea prin aceast metod d rezultate satisfctoare numai dac ritmul de variaie
(cretere sau descretere) al valorilor seriei este relativ constant.
metoda ritmului mediu lucreaz cu primul termen al seriei i ritmul mediu de cretere. n final
rezult o progresie geometric de raie I ai crei termeni succesivi vor fi:

102

2
n -1
y t1 , y t1 * I , y t1 * I ,..., y t1 * I

Figura 6.3. Determinarea liniei de tendin prin


i creia i corespunde o ecuaie a curbei de metoda sporului absolut mediu, respectiv a
ritmului mediu al creterii.
tendin de forma:
y t = y t1 * I

(t = 0, 1, 2,..., n - 1)

i aceast relaie (curb) poate fi folosit


pentru prognoza seriei de timp.
metoda mediilor glisante (mobile,
alunectoare) este o metod larg utilizat
pentru identidicareatendinei generale a unei
serii cronologice. Aplicarea sa presupune
calcularea mediilor glisante, adic medii ale
unui set prestabilit de termeni succesivi, set
care este deplasat (glisat) de-a lungul irului
de baz astfel nct toi termenii seriei s fie
inclui, pe rnd, n calcul. Iat , spre
exemplu, schema de calcul al mediilor
glisante de cte 5 termeni, pentru o serie cu n termeni:
Dac seria are n termeni, iar setul de calcul include k termeni, atunci numrul total de medii
glisante este n-(k-1). De
remarcat c este bine ca k s
fie impar, pentru ca mediile
glisante s poat fi ataate
momentelor de timp ce
corespund termenilor din seria
de baz.
Dup cum se observ din schema de mai sus, prin calculul mediilor glisante se pierde
ntotdeauna informaia oferit de k-1 termeni ai seriei originare, egal distribuii pe cele dou
extremiti ale acesteia. Deci cu ct k este mai mare, cu att pierderea de informaie este mai
important. n compensaie, ns, crete gradul de netezire a curbei de ajustare (vezi fig.6.4),
fapt ce constituie un avantaj atunci cnd se dorete identificareatendinei generale de variaie.
Metoda mediilor glisante are dezavantajul de a nu putea surprinde riguros trendul, mai
ales dac zgomotul seriei este puternic, curba
ajustat conservnd (chiar dac ntr-o form
Figura 6.4. Creterea gradului de netezire a curbei
atenuat ) neregularitile datorate acestuia. n odat cu lrgirea setului de valori pentru calculul
compensaie, ns, prin faptul c urmrete mediilor glisante.
inflexiuniletendinei reale, aceast metod nu
mascheaz o eventual tendin non-liniar
(cum face, de exemplu, metoda sporului
mediu).
n sfrit, s remarcm c metoda
mediilor glisante, ca i celelalte metode de
ajustare prezentate pn acum, nu permit
obinerea unor relaii analitice de tipul
ecuaiilor matematice pentru exprimarea
trendului (cu excepia ecuaiilor ce deriv din
progresiile aritmetic i geometric, cum s-a

103

vzut). Prin aceasta valoarea lor predictiv este mai sczut comparativ cu urmtoarea grup de
metode, care se bazeaz pe una sau alta dintre numeroasele funcii analitice puse la dispoziie de
analiza matematic.
3 Metode analitice. Sunt metodele
prin aplicarea crora se obine o curb ajustat Figura 6.5. Ajustarea variaiei produciei de
creia i corespunde o relaie funcional porumb la hectar (chintale) n Romnia cu ajutorul
(ecuaie) de tipul y=f(t). Avantajul principal al dreptei de tendin.
metodelor analitice este c ele iau n
considerare toi termenii seriei analizate,
valorificnd astfel la maximum informaia
oferit de acetia. n acelai timp, odat
obinut ecuaia curbei de tendin, aceasta
devine independent de termenii seriei reale,
putnd fi folosit n condiii optime pentru
calcule de interpolare n vederea prognozei
seriei studiate.
Majoritatea procedeelor analitice de
ajustare au la baz modelul regresiei liniare
simple, aceasta doarece multe dintre ecuaiile
modelelor neliniare pot fi liniarizate prin diferite metode. Deasemenea, calculul parametrilor
curbei de ajustare optim se bazeaz, n majoritatea cazurilor, pe metoda celor mai mici ptrate
(vezi 5.3.2.2.).
ajustarea cu ajutorul dreptei de regresie liniar simpl. Relaia analitic utilizat este
funcia de gradul I (ecuaia dreptei n plan): y=ax+b. innd cont c la seriile de timp rolul
variabilei independente l joac timpul, forma specific a relaiei devine yt = at + b (vezi
fig.6.5)
Calculele pentru obinerea coeficienilor a i b pornind de la valorile observate ale celor dou
variabile au fost prezentate pe larg n 5.3.2.2. O alt variant de calcul, mai potrivit atunci
cnd se lucreaz cu calculatorul de buzunar i seria nu este prea lung, permite aflarea
coeficienilor a i b prin rezolvarea sistem ului de ecuaii normale44.
Dup calcularea prealabil a sumelor respective, rezolvarea sistemului se face prin metode
algebrice cum ar fi, de exemplu, cu ajutorul determinanilor (vezi regula lui Cramer din Algebra
de clasa a XI-a):
| yt
a=

| t y
t
| n

t|

2
|
t 2 yt t - t yt t
=
2
t|
n t2 - ( t )

| t 2|
t
44

Dup cum se tie, estimarea coeficienilor a i b prin metoda celor mai mici ptrate presupune minimizarea sumei
ptratelor abaterilor dintre valorile observate i proieciile acestora pe dreapta de regresie:
n

( y - y ) = ( y - a - bx ) = minim
i

i=1

i=1

Valorile x i y sunt cunoscute, suma de mai sus fiind o funcie numai de a i b; deci minimizarea se face anulnd
derivatele pariale n raport cu a, respectiv n raport cu b, operaiune n urma creia se obin ecuaiile normale:
n

( y - a - bx ) = 0 ; x ( y - a - bx )= 0
i

i=1

i=1

sau, dup aplicarea proprietilor sumelor i trecerea n membrul stng a termenilor care i conin pe a i b:
a t + b t 2 = t yt
na + b t = y t
i

104

| n
b=

y t|

| t t y |
t
| n

t|

n t yt - t yt
2
n t2 - ( t )

| t 2|
t

ajustarea cu ajutorul parabolei de gradul II, a crei expresie analitic este funcia de
gradul II:
yt = a + bt + ct
Ajustarea cu ajutorul acestei curbe este potrivit
pentru a aproxima micarea acelor fenomene care n Figura 6.6. Ajustarea produciilor de porumb
evoluia lor temporal ating un maxim (minim), dup la hectar cu ajutorul parabolei de gradul II.
care sensul de variaie se inverseaz. De exemplu
producia unui cmp petrolifer, care crete dup intrarea
n exploatare, prin adugarea de noi sonde de extracie,
pn la un maxim, dup care epuizarea zcmntului
duce la scderea din ce n ce mai rapid a produciei.
Aceasta nu nseamn, firete, c poriuni ale parabolei nu
pot ajusta foarte bine variaii monotone (cresctoare sa
descresctoare) ale fenomenelor reale (vezi fig.6.6).
Coeficienii a i b se determin tot prin metoda
celor mai mici ptrate, ecuaiile normale fiind n acest
caz:
na + b t + c t 2 = y t
a t + b t 2 + c t 3 = t yt
a t 2 + b t 3 + c t 4 = t 2 yt

Rezolvarea sistemului pentru aflarea necunoscutelor a,b i c se face tot prin metode algebrice,
dup calcularea prealabil a coeficienilor acestora (t, t, t, t4; yt; t yt, tyt).
ajustarea cu ajutorul curbei exponeniale. Relaia analitic corespunztoar este funcia
exponenial:
yt = aebt,
care poate fi liniarizat prin logaritmare:
ln(yt) = ln(a) + bt
n forma liniarizat variabilele cu care se lucreaz sunt t i ln(yt) i ele vor intra n calcule pentru
aflarea coeficienilor ln(a) i b ai ecuaiei de
regresie, prin metodele cunoscute. Curba de Figura 6.7. Ajustarea variaiei produciei de porumb la
regresie va apare ca o linie dreapt pe un hectar cu ajutorul curbei exponeniale.
grafic la care ordonata (axa lui yt) este n
scar logaritmic, iar abscisa (axa lui t) este
n scar aritmetic. Curba de ajustare
exponenial va apare ca atare pe graficul
seriei cronologice originare (vezi fig.6.7);
pentru trasarea ei este nevoie s se
antilogaritmeze
ln(a)
pentru
aflarea
coeficientului a din ecuaia funciei
exponeniale.
ajustarea cu ajutorul funciei
putere:

105

yt = atb,
care prin logaritmare devine:
log(yt) = log(a) + blog(t)
Variabilele de lucru pentru aflarea lui log(a) i b prin metoda celor mai mici ptrate sunt log(yt)
i log(t). Curba de ajustare va apare sub
form de linie dreapt pe un grafic n scar
Figura 6.8. Ajustarea variaiei produciei de porumb la
dublu logaritmic; pentru reprezentarea ei pe hectar cu ajutorul funciei putere.
graficul
seriei
originare
trebuie
antilogaritmat valoarea lui log(a) (vezi
fig.6.8).
ajustarea cu ajutorul curbei
logistice (vezi fig.6.9), a crei expresie
analitic este de forma:
yt =

k
1 + 10

a+bt

yt =

k
1 + e a+bt

, sau
n care k este asimptota curbei (calculat pe
baza datelor de observaii), 10 este (aici)
baza logaritmului zecimal, iar e este baza
logaritmului natural. Merit semnalat faptul
c forma curbei logistice este foarte
asemntoare cu cea curbei normale integrale (cumulative).
Curba logistic i-a gsit o larg aplicabilitate
n demografie i ecologie, unde se tie de mult
vreme c evoluia numeric a unei populaii,
indiferent de specie, se desfoar dup o curb
logistic. n legtur cu noiunile de cretere
economic zero, populaie staionar .a., curba
logistic a ptruns n ultimele decenii i n economie.
Indiferent de domeniul de aplicabilitate, ideea de
baz este c lumea terestr este o lume finit ca
spaiu i ca resurse; de aceea dezvoltarea unei
populaii (n spe, a populaiei umane) i a
activitilor acesteia, chiar dac pstreaz o vreme un
Figura 6.9. Aspectul general al unei curbe
careacter exponenial, va tinde mai curnd sau mai logistice.
trziu spre o stare de stabilitate, plafonndu-se n
apropierea unei asimptote superioare a crei existen se datoreaz tocmai sus-amintitului
caracter finit al spaiului i resurselor.
Ajustarea cu ajutorul curbei logistice se poate face aplicand aa-numita metod a
punctelor alese: se aleg trei momente de timp echidistante x0 (la nceputul perioadei), x1 (la
mijlocul ei) i x2 (la sfrit), valorile corespunztoare ale seriei finnd notate respectiv y0, y1 i y2;
numrul de uniti de timp n care intervine n calculul coeficienilor ecuaiei este cel dintre
momentele x0 i x1, sau x1 i x2; cei trei coeficieni se obin astfel:
2
2 y0 y1 y 2 - y1 ( y0 + y 2 )
k=
2
y0 y 2 - y1
;

a = log(

k - y0
y0

b=

y (k - y1 )
[ log 0
]
n
y1(k - y0 )
1

Atunci cnd se procedeaz la ajustarea unei serii cronologice prin metode analitice,
principala problem o constituie alegerea tipului de curb care ajusteaz cel mai bine curba
empiric. Unele sugestii n acest sens sunt oferite de metodele grafice de ajustare, ca i de
metoda mediilor glisante. Hotrtoare, ns, rmne experiena i intuiia cercettorului, bazate
106

pe o bun cunoatere a domeniului n care se ncadreaz fenomenul studiat prin intermediul


seriei de timp.
n unele cazuri se constat c exist dou curbe care par s ajusteze la fel de bine seria
studiat. n acesat situaie se va alege curba care d cele mai mici ptrate ale abaterilor dintre
valorile observate i cele calculate cu ajutorul relaiilor analitice corespunztoare. Dac cele
dou curbe fac parte din grupul funciilor liniarizabile, un criteriu de alegere l poate constitui i
coeficientul de corelaie liniar simpl dintre cele dou variabile transformate din ecuaia
liniarizat .
6.3.2.2. Analiza variaiilor sezoniere
Variaiile sau fluctuaiile sezoniere sunt acele variaii care au un caracter periodic, ele
repetndu-se cu o regularitate mai mare sau mai mic n interiorul seriei cronologice. Se numesc
sezoniere pentru c, ntr-adevr, majoritatea fenomenelor i proceselor care prezint o
dinamic temporal sunt influenate de succesiunea sezoanelor dintr-un an. Prin extindere, ns,
acest determinativ este utilizat i pentru micri a cror perioad este mai mic dect un an (zile,
sptmni, luni, trimestre).
Analiza variaiilor sezoniere prezint un cert interes practic, dac avem n vedere c
numeroase activiti economice prezint un ritm i nite particulariti de desfurare care se
leag clar de succesiunea sezoanelor - de ex. activitile agricole, transporturile, industria
energiei electrice etc.
Separarea componentei sezoniere a unei serii cronologice urmrete un dublu scop:
- pe de o parte, identificarea parametrilor fluctuaiilor sezoniere (amplitudine, perioad,
frecven), precum i gsirea unor indici adimensionali care s exprime variaia sezonier
indiferent de ordinul de mrime al valorilor seriei i de numrul de perioade (ani) incluse n
aceasta, faciliteaz comparaiile ntre serii diferite, acest lucru avnd consecine de ordin
tiinific i practic evidente;
- pe de alt parte, prin eliminarea componentei sezoniere, eventual i a trendului,
fenomenul redat de seria cronologic poate fi studiat ca fenomen de mas (aleator), cu metodele
statisticii inductive.
Analiza variaiilor sezoniere comport, de regul, trei etape: punerea n eviden a
oscilaiilor de acest tip, calculul indicilor sezonieri i desezonalizarea seriei (eliminarea
componentei sezoniere).
1 Punerea n eviden a variaiilor sezoniere. De regul graficul unei serii de timp
evideniaz cu suficient claritate existena unei componente sezoniere. Dac sunt dubii,
existena unei asemenea componente poate fi testat.
Pentru a ilustra modul de lucru n analiza variaiilor sezoniere vom lua un exemplu din
sociologie (vezi tabelul de mai jos).
Tabel nr.6.1. Numrul lunar de cstorii n mediul rural, n Romnia, n intervalul 1957-1966 (10 ani).
Luna
Anul

II

III

IV

VI

VII

VIII

IX

XI

XII

Total

Media

1957

13583

21167

8750

5335

7458

6705

5504

6025

10627

17124

18842

10442

131562

10963

1958

16266

21867

7538

6908

9205

6612

5908

6367

10162

17590

17519

9126

135068

11256

1959

13071

17395

12791

5361

6492

7238

5138

5456

8775

15020

14976

8932

119845

9987

1960

13569

21212

7561

6013

7821

6085

5340

5522

7723

13373

14117

9096

117432

9786

1961

11358

15528

7470

6824

7372

5169

4617

4876

7685

12444

13479

7803

104625

8719

1962

9589

14163

10386

6672

6714

5953

5130

5115

7280

12154

13716

7625

104497

8708

1963

9707

13533

6902

6595

7226

5137

4464

5116

6814

11403

12685

6771

96353

8029

1964

8810

13294

10401

5865

5355

5029

5689

5296

6474

11455

10613

6313

93594

7799

1965

8461

13111

7037

4954

5464

4827

4625

4947

6401

11527

11043

6844

89241

7437

1966

8760

11155

5421

5564

6114

4387

4872

4996

6540

11596

10197

8286

87888

7324

Total

113174

162425

84257

60091

69221

56142

50287

53716

78681

133686

137187

81238

1080105

Media

11317

16243

8426

6009

6922

5714

5129

5372

7848

13369

13719

8124

9016

Sursa: C.Moineagu, I.Negur, V.Urseanu, Statistica, Ed.t.E., 1976, p.302.

107

Graficul acestei serii (vezi fig.6.10) evideniaz cu Figura 6.10. Variaia numrului lunar de cstorii
suficient claritate existena unei componente n mediul rural n Romnia, 1957-1966.
sezoniere, explicabil prin tradiiile nupiale n
mediul rural (nunile se fac de regul toamna, dup
strngerea recoltei, sau dup srbtorile de iarn).
Verificarea impresiei vizuale se poate face prin
calcularea i reprezentarea grafic a mediilor
lunare multianuale, sau prin aplicarea testului
empiric al lui ykin (kin).
media lunar multianual a fiecrei luni
se calculeaz ca medie aritmetic a valorilor
aferente lunii respective din toi anii seriei (vezi
ultimele dou linii din tabelul de mai sus). Prin
operaiunea de mediere se nltur, n bun parte, influena factorilor ntmpltori, astfel nct
mediile manifest o mai mare stabilitate n timp. Pentru exemplul nostru reprezentarea grafic a
acestor medii (vezi fig.6.11) confirm existena unei componente sezoniere bine conturate.
testul ykin const n calcularea, pentru fiecare termen (lun) din serie, raportul ntre
valoarea lunii respective i media aritmetic a celor dou luni care o ncadreaz:
s=

y ti
y ti-1 + y ti+1
2

Dup aceea, pentru fiecare lun a anului se calculeaz o medie multianual a rapoartelor
aferente lunii respective; dac aceast medie difer semnificativ de 1, atunci luna respectiv
contribuie semnificativ la apariia unei componente sezoniere n seria de baz.
Pentru exemplul nostru, mediile lunare multianuale ale rapoartelor sunt redate n ultima
linie a tabelului 6.2. Se observ c toate valorile
rapoartelor s sunt semnificativ diferite de 1 Figura 6.11. Variaia anual a numrului lunar mediu
(poate cu excepia lunilor iunie i iulie), ceea ce multianual de cstorii n mediul rural.
nseamn c avem de-a face cu o component
sezonier bine conturat .
2 Calculul indicilor (coeficienilor)
sezonieri. Indicii sezonieri sunt nite mrimi
care exprim contribuia fiecrei uniti de timp
(luni) din perioada de baz (an) la apariia unei
componente sezoniere n cadrul seriei. De regul
sunt exprimai sub form de proporii (absolute
sau procentuale).

108

diferena algebric dintre media lunar general (adic media aritmetic a tuturor
termenilor seriei) i media multianual a fiecrei luni. Pentru exemplul nostru mediile lunare
multianuale i media general sunt trecute n ultima linie a tabelului 6.1. Diferenele algebrice,
exprimate n cifre absolute i
Tabel nr.6.2. Rapoartele yi/[(yi-1+yi+1)/2] pentru aplicarea testului ykin.
n procente din media
Luna
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
Anul
general, apar n tabelul 6.3.
1957
0.89
0.66
0.66
1.24
1.03
0.86
0.75
0.92
1.16
1.37
0.59
Diferenele exprimate n cifre
1958
1.01
1.84
0.52
0.82
1.36
0.87
0.91
0.79
0.85
1.27
1.31
0.60
1959
0.98
1.34
1.12
0.55
1.03
1.24
0.81
0.78
0.86
1.26
1.25
0.62
absolute nu pot servi la
1960
0.90
2.01
0.55
0.78
1.29
0.92
0.92
0.84
0.82
1.22
1.26
0.71
efectuare de comparaii ntre
1961
0.92
1.65
0.67
0.92
1.23
0.86
0.92
0.79
0.89
1.18
1.33
0.68
serii diferite, n schimb pot fi
1962
0.87
1.42
0.99
0.78
1.06
1.00
0.93
0.82
0.84
1.16
1.39
0.65
folosite la desezonalizarea
1963
0.92
1.63
0.68
0.93
1.23
0.88
0.87
0.91
0.82
1.17
1.39
0.63
1964
0.88
1.38
1.08
0.74
0.98
0.91
1.10
0.87
0.77
1.34
1.19
0.66
seriei analizate (vezi punctul
1965
0.87
1.69
0.78
0.79
1.12
0.96
0.94
0.90
0.78
1.32
1.20
0.69
(3) al acestui paragraf).
1966
0.97
1.57
0.65
0.96
1.23
0.80
1.04
0.88
0.79
1.39
1.030
indici sezonieri Media 0.92 1.54 0.77 0.80 1.18 0.95 0.93 0.83 0.83 1.25 1.27 0.65
obinui
prin
metoda
rapoartelor
la
tendin.
Aceast metod implic mai nti calcularea trendului liniar al seriei, dup care se calculeaz

rapoartele dintre valorile y ale seriei i valorile y t calculate cu ajutorul ecuaiei de regresie.
t

Mediile multianuale ale acestor rapoarte, pentru fiecare lun n parte, constituie indicii sezonieri
ai lunilor respective. De remarcat c n locul mediei aritmetice poate fi reinut ca indice
sezonier mediana irului de rapoarte aferent lunii de calcul. n exemplul nostru ecuaia trendului
liniar, ai crei coeficieni a i b sunt calculai dup metodele cunoscute, este: yt = 11344,14 38,484t. Dup cum se observ, coeficientul de regresie a este negativ, ceea ce nseamn c
exist o tendin de scdere n timp a numrului lunar de cstorii i anume n ritmul de 38,484
cstorii/lun.
Ecuaia de mai sus o folosim pentru a calcula numrul teoretic de cstorii pentru
fiecare din cele 120
Tabel nr.6.3. Diferenele algebrice dintre media general i mediile lunare de luni ale seriei.
multianuale ale numrului lunar de cstorii.
Rezultatele
Luna
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
calculelor
pentru
Diferena
obinerea indicilor
absolut
-2301
-7227
+590 +3007 +2094 +3302 +3887 +3644 +1168 -4353 -4073
+892
sezonieri
prin
relativ
-25.52
-80.16
+6.54 +33.35 +23.23 +36.62 +43.11 +40.42 +12.95 -48.28 -45.18 +9.89
aceast metod sunt
Tabel nr.6.4. Rapoartele dintre valorile observate ale seriei (v.tab.6.1) i cele trecute n tabelul 6.4.
calculate cu ajutorul ecuaiei dreptei de tendin.
Luna

II

III

IV

VI

VII

VIII

IX

XI

XII

1957

1.20

1.88

0.78

0.48

0.67

0.60

0.50

0.55

0.97

1.56

1.73

0.96

1958

1.50

2.02

0.70

0.64

0.86

0.62

0.56

0.60

0.96

1.68

1.68

0.88

1959

1.26

1.68

1.24

0.52

0.63

0.71

0.51

0.54

0.87

1.50

1.50

0.90

1960

1.37

2.15

0.77

0.61

0.80

0.63

0.55

0.57

0.80

1.40

1.48

0.96

1961

1.20

1.65

0.80

0.73

0.79

0.56

0.50

0.53

0.84

1.37

1.49

0.86

1962

1.07

1.58

1.16

0.75

0.76

0.68

0.59

0.59

0.84

1.41

1.59

0.89

1963

1.14

1.59

0.82

0.78

0.86

0.62

0.54

0.62

0.83

1.39

1.56

0.83

1964

1.09

1.65

1.30

0.74

0.68

0.64

0.73

0.68

0.83

1.48

1.38

0.83

1965

1.11

1.73

0.93

0.66

0.73

0.65

0.63

0.67

0.88

1.59

1.53

0.95

1966

1.23

1.57

0.77

0.79

0.87

0.63

0.70

0.73

0.96

1.70

1.51

1.23

Media

1.22

1.75

0.93

0.67

0.77

0.63

0.58

0.61

0.88

1.51

1.55

0.93

Anul

indici
sezonieri
obinui
prin
metoda
lanurilor
de
Este
rapoarte.
metoda cea mai
sigur
pentru
estimarea
coeficienilor
sezonieri, ns este
destul de laborioas.
Se lucreaz,
de fapt, cu indicii
109

(ritmurile) de cretere ale seriei cronologice.


Tabel nr.6.5. Indicii de cretere cu baza n lan ai seriei din tab.nr.6.1.
Luna

II

III

IV

VI

VII

VIII

IX

XI

XII

1957

0.00

1.56

0.41

0.61

1.40

0.90

0.82

1.09

1.76

1.61

1.10

0.55

1958

1.56

1.34

0.34

0.92

1.33

0.72

0.89

1.08

1.60

1.73

1.00

0.52

1959

1.43

1.33

0.74

0.42

1.21

1.11

0.71

1.06

1.61

1.71

1.00

0.60

1960

1.52

1.56

0.36

0.80

1.30

0.78

0.88

1.03

1.40

1.73

1.06

0.64

1961

1.25

1.37

0.48

0.91

1.08

0.70

0.89

1.06

1.58

1.62

1.08

0.58

1962

1.23

1.48

0.73

0.64

1.01

0.89

0.86

1.00

1.42

1.67

1.13

0.56

Anul

Se calculeaz
mai nti ritmurile de
cretere cu baza n
lan, pentru fiecare din
termenii seriei:
I i/i -1 =

y ti
y ti-1

obinndu-se astfel n-1


indici. Pentru fiecare
1963
1.27
1.39
0.51
0.96
1.10
0.71
0.87
1.15
1.33
1.67
1.11
0.53
din lunile anului se
1964
1.30
1.51
0.78
0.56
0.91
0.94
1.13
0.93
1.22
1.77
0.93
0.59
calculeaz
media
1965
1.34
1.55
0.54
0.70
1.10
0.88
0.96
1.07
1.29
1.80
0.96
0.62
multianual
sau
1966
1.28
1.27
0.49
1.03
1.10
0.72
1.11
1.03
1.31
1.77
0.88
0.81
mediana irului de
Media
1.35
1.44
0.54
0.76
1.15
0.84
0.91
1.05
1.45
1.71
1.03
0.60
indici aferent (vezi
tabelul 6.5.). Dup
aceea pentru fiacare lun, utiliznd media (sau mediana) se calculeaz ritmul de cretere cu baz
fix, baza fiind n acest caz luna ianuarie. Aici se utilizeaz relaia dintre indicele de cretere cu
baz fix i cei cu baza n lan (vezi 6.2.), conform creia, la seriile de intervale, indicele de
cretere cu baz fix a unui termen este egal cu produsul indicilor de cretere cu baza n lan ai
tuturor termenilor anteriori (inclusiv al celui n cauz). Vom avea, deci, irul de indici cu baz
fix:
Ifebr./ian. = 1,44 (n mod logic, ar trebui ca Iian./ian.=1);
Imart./ian. = Ifebr./ian.Imart./febr. = 1,440,54 = 0,78;
Iapr./ian. = Ifebr./ian.Imart./febr.Iapr./mart. = 1,440,540,76 = 0,780,76 = 0,59;
Dup cum se observ, pentru a nu rescrie de fiecare dat irul indicilor cu baza n lan ai lunilor
precedente, putem prelua indicele cu baz fix al lunii precedente, pe care l nmulim cu
indicele cu baza n lan al lunii curente (calculat ca medie sau median - vezi mai sus). Deci:
Imai/ian. = Iapr./ian.Imai/apr.
= 0,591,15 = 0,68;
Iiun./ian. = Imai/ian.Iiun./mai
= 0,680,84 = 0,57;
Iiul./ian. = Iiun./ian.Iiul./iun.
= 0,570,91 = 0,52;
Iaug./ian. = Iiul./ian.Iaug./iul.
= 0,521,05 = 0,55;
Isept./ian. = Iaug./ian.Isept./aug.
= 0,551,45 = 0,80;
Ioct./ian. = Isept./ian.Ioct./sept.
= 0,801,71 = 1,34;
Inov./ian. = Ioct./ian.Inov./oct.
= 1,341,03 = 1,38;
Idec./ian. = Inov./ian.Idec./nov.
= 1,380,60 = 0,83.
Aa cum s-a menionat mai sus, n mod logic ar trebui ca Iian./ian. S fie egal cu 1. Dac, ns, l
calculm dup aceeai regul ca i ceeilali indici, atunci obinem:
Iian./ian. = Idec./ian.Iian./dec. = 0,831,35 = 1,12.
Diferena de la 1 la 1,12 se datoreaz influenei trendului i a componentei aleatoare
(zgomotului). Pentru scopurile analizei se reine pentru Iian./ian/ valoarea 1, dar se corecteaz n
mod corespunztor ceilali 11 indici, obinndu-se astfel aa-numiii indici intermediari. n
exemplul nostru, indicii se micoreaz n aceeai proporie ca i indicele pentru ianuarie (deci
cu 12% din valoarea lor) i obinem irul indicilor intermediari:
1 1,27 0,67 0,52 0,60 0,50 0,46 0,48 0,70 1,18 1,21 0,73
Aceti indici se numesc intermediari deoarece trebuie verificat condiia ca media lor
aritmetic s fie egal cu 1; dac nu este aa, atunci fiecare din cei 12 coeficieni intermediari se
mparte la media lor aritmetic i se obin astfel indicii definitivi.

110

n exemplul nostru media celor 12 coeficieni intermediari este 0,76. mprim, deci,
fiecare indice la 0,76 i obinem cei 12 indici definitivi:
Luna

II

III

IV

VI

VII

VIII

IX

1,31

1,67

0,88

0,68

0,79

0,66

0,60

0,63 0,92 1,55

XI

XII

1,59

0,96

Anul
i.sezonier

Dac vom compara aceti indici cu cei obinui prin metoda rapoartelor la tendin (tab.
6.4.) vom constata c rezultatele celor dou metode sunt destul de apropiate. Se observ, totui,
c, excepie fcnd lunile februarie i martie, indicii obinui prin metoda rapoartelor la tendin
sunt ceva mai mici dect cei obinui prin metoda lanurilor de rapoarte. Acest lucru se
datoreaz faptului c trendul seriei originare nu este liniar, ci este uor exponenial negativ (vezi
fig.6.10).
3 Desezonalizarea seriilor cronologice. Odat calculai indicii sezonieri pentru fiecare
unitate de timp din perioada de baz a micrii sezoniere (n cazul nostru, pentru fiecare lun
din an), eliminarea componentei sezoniere este relativ simpl. n funcie de tipul indicelui
sezonier calculat, desezonalizarea se realizeaz astfel:
dac indicele este exprimat n valori absolute, cum sunt diferenele algebrice absolute
dintre media general i mediile lunare multianuale, atunci desezonalizarea se face nsumnd
algebric fiecare termen al seriei originare cu diferena corespunztoare lunii din care face parte
termenul respectiv.
Spre exemplu, numrul de cstorii din luna decembrie 1958 este 9126; media
multianual a lunii decembrie este de 8124 cstorii; media general a seriei este de 9016
cstorii (vezi tab. 6.1.); diferena dintre media general i media multianual a lunii decembrie:
9016-8124 = +892 (vezi tab. 6.3.). Valoarea desezonalizat a lunii decembrie 1958 va fi:
9126+(+892) = 10018 cstorii.
dac indicele este obinut ca un raport, deci este exprimat sub form de proporie,
atunci desezonalizarea se face prin mprirea fiecrui termen al seriei originare la indicele
sezonier al lunii aferente.
De exemplu, numrul de cstorii din luna ianuarie 1957 a fost 13583 (vezi tab. 6.1.);
indicele sezonier al lunii ianuarie, calculat prin metoda lanurilor de rapoarte, este 1,31 (vezi
tabelul indicilor sezonieri). Valoarea desezonalizat a lunii ianuarie 1957 va fi:
13583/1,31 = 10368 cstorii.
*
* *
Analiza unei serii cronologice constituie, statistic vorbind, o ntreprindere destul de
dificil. i aceasta nu numai ca volum de munc pretins de aplicarea metodelor specifice de
analiz, ci i legat de intuiia i experiena pretinse cercettorului, de interpretarea rezultatelor
analizei, de fiabilitatea prognozelor care, n mod normal, finalizeaz o asemenea analiz. De
aceea enumerm, n final, cteva aspecte de ordin practic ce trebuie avute n vedere atunci cnd
se procedeaz la studiul unei serii cronologice (Chadule, 1974):
seria studiat trebuie s fie suficent de lung. O serie cu mai puin de 30 de termeni nu
se preteaz, practic, la o analiz concluziv pentru fenomenul studiat;

111

Fig.nr.6.12. Organigrama pentru analiza unei serii cronologice.

analiza unei serii de


timp presupune parcurgerea
obligatorie a unor etape de
lucru ce se succed ntr-o
anumit
ordine
(vezi
organigrama din fig.6.12),
aceasta pentru a evita nite
erori grosiere n interpretarea
rezultatelor;

verificarea
caracterului aleator este foarte
important: trebuie avut n
vedere faptul c testele uzuale
nu sunt prea puternice, astfel
nct nu stric nite precauii
suplimentare
la
luarea
deciziei;
extrapolarea n viitor
atendinelor observate este o
problem extrem de delicat ,
care
necesit
informaii
suplimentare din domenii
care, aparent, nu au nici o legtur cu fenomenul studiat. Trebuie inut minte c o prognoz este
cu att mai precis, cu ct intervalul de prognoz este mai scurt; n plus, modelul adoptat pentru
tendina general a seriei trebuie verificat prin aa-numita retroprognoz, adic extrapolarea
tendinei observate pentru un interval de timp situat naintea celui acoperit de seria studiat
(numai c n acest caz valorile calculate pot fi comparate cu cele observate n intervalul
respectiv).

112

BIBLIOGRAFIE
ABLER, R., ADAMS, J. S., GOULD, P. (1971) - Spatial Organization. The Geographer's View
of the World, Prentice Hall, London.
BEGUIN, H. (1979) - Mthodes d'analyse gographique quantitative, Librairies Techniques
(LITEC), Paris.
CALOT, G. (1973) - Cours de Statistique descriptive, Dunod, Paris.
CHADULE (group) (1974) - Iniation aux mthodes statistiques en gographie, Masson, Paris.
CHAPOT, M., DAUPHIN, A. i alii (1977) - L'Analyse spatiale. Forme et validit des
dmarches nouvelles en gographie, Cahier de l'IDRESS, Paris, fvrier.
GREGORY, S. (1968) - Statistical Methods and the Geographer, second edition, Longman,
London.
GRISOLET, H., GUILMET, B., ARLRY, R. (1973) - Climatologie. Mthodes et pratiques,
Gauthier-Villars, Paris.
JOHNSTON, R.J. (1978) - Multivariate Statistical Analysis in Geography. A Primer on the
General Liniar Model, Longman.
POROJAN, D. (1993) - Statistica i teoria sondajului, Casa de Editur i Pres ansa SRL,
Bucureti.
RACINE, J.B., REYMOND, H. (1973) - L'Analyse quantitative en gographie, Presses
Universitaires de France, Paris.
SANDERS, L. (1989) - L'Analyse statistique des donnes en gographie, Alidade - G.I.P.
RECLUS, Montpellier.
SPIEGEL, M. R. (1972) - Thorie et applications de la statistique, Srie SCHAUM, McGraw
Hill, Paris.
TIDSWELL, W. V., BARKER, S. M. (1971) - Quantitative Methods. An Approach to SocioEconomic Geography, University Tutorial Press LTD, London.
TREBICI, V. (coord.) (1985) - Mic enciclopedie de Statistic, Ed. tiinific i
Enciclopedic, Bucureti.

113

Anexa I
VALORILE FUNCIEI DE REPARTIIE A DISTRIBUIEI NORMALE NORMATE
u

,00

,01

,02

,03

,04

,05

,06

,07

,08

,09

0,0

5000

5040

5080

5120

5160

5199

5239

5279

5319

5359

0,1

5398

5438

5478

5517

5557

5596

5636

5675

5714

5735

0,2

5793

5832

5871

5910

5948

5987

6026

6064

6103

6141

0,3

6179

6217

6255

6293

6331

6368

6406

6443

6480

6517

0,4

6554

6591

6628

6664

6700

6736

6772

6808

6844

6879

0,5

6915

6950

6985

7019

7054

7088

7123

7157

7190

7224

0,6

7257

7291

7324

7357

7380

7422

7454

7486

7517

7549

0,7

7580

7611

7642

7673

7704

7734

7764

7794

7823

7852

0,8

7881

7910

7939

7967

7995

8023

8051

8078

8106

8133

0,9

8159

8186

8212

8238

8264

8289

8315

8340

8365

8389

1,0

8413

8438

8461

8485

8508

8531

8554

8577

8599

8621

1,1

8643

8665

8686

8708

8729

8749

8770

8790

8810

8830

1,2

8849

8869

8888

8907

8925

8944

8962

8980

8997

9015

1,3

9032

9049

9066

9082

9099

9115

9131

9147

9162

9177

1,4

9192

9207

9222

9236

9251

9265

9279

9292

9306

9319

1,5

9332

9345

9357

9370

9382

9394

9406

9418

9429

9441

1,6

9452

9463

9474

9484

9495

9505

9515

9525

9535

9545

1,7

9554

9564

9573

9582

9591

9599

9608

9616

9625

9633

1,8

9641

9649

9656

9664

9671

9678

9686

9693

9699

9706

1,9

9713

9719

9726

9732

9738

9744

9750

9756

9761

9767

2,0

9772

9778

9783

9788

9793

9798

9803

9808

9812

9817

2,1

9821

9826

9830

9834

9838

9842

9846

9850

9854

9857

2,2

9861

9864

9868

9871

9875

9878

9881

9884

9887

9890

2,3

9893

9896

9898

9901

9904

9906

9909

9911

9913

9916

2,4

9918

9920

9922

9925

9927

9929

9931

9932

9934

9936

2,5

9938

9940

9941

9943

9945

9946

9948

9949

9951

9952

2,6

9953

9955

9956

9957

9959

9960

9961

9962

9963

9964

2,7

9965

9966

9967

9968

9969

9970

9971

9972

9973

9974

2,8

9974

9975

9976

9977

9977

9978

9979

9979

9980

9981

2,9

9981

9982

9982

9983

9984

9984

9985

9985

9986

9986

3,0

9987

9987

9987

9988

9988

9989

9989

9989

9990

9990

3,1

9990

9991

9991

9991

9992

9992

9992

9992

9993

9993

3,2

9993

9993

9994

9994

9994

9994

9994

9995

9995

9995

Din tabel se poate afla probabilitatea (nmulit cu 10.000) unei valori mai mici, sau cel mult egale cu u (deci o probabilitate cumulat
ascendent). Utilizarea tabelului presupune standardizarea prealabil a valorii x: (x-)/.
Exemple de utilizare:
pentru u = +0,52, probabilitatea f(u) = 0,6950.
pentru u = -0,52, probabilitatea f(u) = 1 - 0,6950 = 0,3050.
pentru f(u) = 0,9750, u = 1,96, deci x = 1,96 + X .
pentru f(u) = 0,3527 (nu apare n tabel), 1 - f(u) = 0,6473, iar u -0,38; deci x = -0,58 + X

114

Anexa II
SUPRAFEE SUB CURBA NORMAL
z

,00

,01

,02

,03

,04

,05

,06

,07

,08

,09

0,0

0000

0040

0080

0120

0159

0199

0239

0279

0319

0359

0,1

0398

0438

0178

0517

0557

0596

0636

0675

0714

0753

0,2

0793

0832

0871

0910

0948

0987

1026

1064

1103

1141

0,3

1179

1217

1255

1293

1331

1368

1406

1443

1480

1517

0,4

1554

1591

1628

1664

1700

1736

1772

1808

1844

1879

0,5

1915

1950

1985

2019

2054

2088

2123

2157

2190

2224

0,6

2257

2291

2324

2357

2389

2422

2454

2486

2518

2549

0,7

2580

2612

2642

2673

2704

2734

2764

2794

2823

2852

0,8

2881

2910

2939

2967

2995

3023

3051

3078

3106

3133

0,9

3159

3186

3212

3238

3264

3289

3315

3340

3365

3389

1,0

3413

3438

3461

3485

3508

3531

3554

3577

3599

3621

1,1

3643

3665

3686

3718

3729

3749

3770

3790

3810

3830

1,2

3849

3869

3888

3907

3925

3944

3962

6980

3997

4015

1,3

4032

4049

4066

4083

4099

4115

4131

4147

4162

4177

1,4

4192

4207

4222

4236

4251

4265

4279

4292

4306

4319

1,5
1,6

4332
4452

4345
4463

4357
4474

4370
4485

4382
4495

4394
4505

4406
4515

4418
4525

4430
4535

4441
4545

1,7

4554

4564

4573

4582

4591

4599

4608

4616

4625

4633

1,8

4641

4649

4656

4664

4671

4678

4686

4693

4699

4706

1,9

4613

4719

4726

4732

4738

4744

4750

4758

4762

4767

2,0

4773

4778

4783

4788

4793

4798

4803

4808

4812

4817

2,1

4821

4826

4830

4834

4838

4842

4846

4850

4854

4857

2,2

4861

4865

4808

4871

4875

4878

4881

4884

4887

4890

2,3

4893

4896

4898

4901

4904

4906

4909

4911

4913

4916

2,4

4918

4920

4922

4925

4927

4929

4931

4932

4934

4936

2,5

4938

4940

4941

4943

4945

4946

4948

4949

4951

4952

2,6

4953

4955

4956

4957

4959

4960

4961

4962

4963

4964

2,7

4965

4966

4967

4968

4969

4970

4971

4972

4973

4974

2,8

4974

4975

4976

4977

4977

4978

4979

4980

4980

4981

2,9

4981

4982

4983

4984

4984

4984

4985

4985

4986

4986

3,0

4986

4987

4987

4988

4988

4988

4989

4989

4989

4990

3,1

4990

4991

4991

4991

4992

4992

4992

4992

4993

4993

n tabel apar suprafeele (probabilitile)


care corespund distanelor, exprimate n numr de
valoare dat x (este necesar, deci, standardizarea
Exemple de utilizare:
pentru z = 1,45, suprafaa cuprins ntre medie i x
dreapta (deci este mai mare) fa de medie.
pentru z = -1,45, suprafaa este aceeai, dar x este
medie.
pentru un interval care se extinde de o parte i de
suprafaa corespunztoare este dublul valorii citite n

sub curba normal, nmulite cu 10.000,


devIaii standard (z), dintre medie i o
prealabil a acesteia din urm).
este 0,4265 = 42,65%, x fiind situat n
situat n stnga (deci este mai mic) fa de

alta a mediei, pn la o distan z,


tabel.

115

Anexa III

VALORILE CRITICE ALE DISTRIBUIEI t


PENTRU DIFERITE NIVELE DE SEMNIFICAI E
Nivelul de semnificaie pentru testul unilateral
g.l.

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120

0,15

0,10

0,30
1,061
0,978
0,941
0,920
0,906
0,896
0,889
0,883
0,879
0,876
0,873
0,870
0,868
0,866
0,865
0,863
0,862
0,861
0,860
0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854
0,851
0,848
0,845
0,841

0,20
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,289
1,281

0,05
0,025
0,01
0,005
Nivelul de semnificaie pentru testul bilateral
0,10
0,05
0,02
0,01
2,920
4,303
6,965
9,925
2,353
3,182
4,541
5,481
2,132
2,776
3,747
4,604
2,015
2,571
3,365
4,032
1,943
2,447
3,143
3,707
1,895
2,365
2,998
3,499
1,860
2,306
2,896
3,355
1,833
2,262
2,821
3,250
1,812
2,228
2,764
3,169
1,796
2,201
2,718
3,106
1,782
2,179
2,681
3,055
1,771
2,160
2,650
3,012
1,761
2,145
2,624
2,977
1,753
2,131
2,602
2,947
1,746
2,120
2,583
2,921
1,740
2,110
2,567
2,898
1,734
2,101
2,552
2,878
1,729
2,093
2,539
2,861
1,725
2,086
2,528
2,845
1,721
2,080
2,518
2,831
1,717
2,074
2,508
2,819
1,714
2,069
2,500
2,807
1,711
2,064
2,492
2,797
1,708
2,060
2,485
2,787
1,706
2,056
2,479
2,779
1,703
2,052
2,473
2,771
1,701
2,048
2,467
2,763
1,699
2,045
2,462
2,756
1,697
2,042
2,457
2,750
1,684
2,021
2,423
2,704
1,671
2,000
2,390
2,660
1,658
1,980
2,358
2,617
1,645
1,960
2,326
2,576

0,0025

0,0005

0,005
14,089
7,453
5,598
4,773
4,317
4,029
3,832
3,690
3,581
3,497
3,428
3,372
3,326
3,286
3,252
3,222
3,197
3,174
3,153
3,135
3,119
3,104
3,090
3,078
3,067
3,056
3,047
3,038
3,030
2,971
2,915
2,860
2,807

0,001
31,598
12,941
8,610
6,859
5,959
5,405
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,767
3,745
3,725
3,707
3,690
3,674
3,659
3,646
3,551
3,460
3,373
3,290

116

Anexa IV
VALORILE CRITICE ALE DISTRIBUIEI F (FISHER-SNEDECOR)
pentru nivelul de semnificaie = 0,01.
v1

12

24

4052

4999

5403

5625

5764

5859

5930

5981

6106

6234

63666

98,49 99,00 99,17 99,25 99,30 99,33 99,34 99,36 99,42 99,46

99,50

34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,05 26,60

26,14

4
5

21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,37 13,93
16,26 13,27 12,06 11,39 10,97 10,67 10,45 10,27 9,89 9,47

13,48
9,04

13,74 10,92

9,78

9,15

8,75

8,47

8,26

8,10

7,72

7,31

6,90

12,25

9,55

8,45

7,85

7,46

7,19

7,00

6,84

6,47

6,07

5,67

11,26

8,65

7,59

7,01

6,63

6,37

6,19

6,03

5,67

5,28

4,88

10,56

8,02

6,99

6,42

6,06

5,80

5,62

5,47

5,11

4,73

4,33

10

10,04

7,56

6,55

5,99

5,64

5,39

5,21

5,06

4,71

4,33

3,93

11

9,65

7,20

6,22

5,67

5,32

5,07

4,88

4,74

4,40

4,02

3,62

12

9,33

6,93

5,95

5,41

5,06

4,82

4,65

4,50

4,16

3,78

3,38

13

9,07

6,70

5,74

5,20

4,86

4,62

4,44

4,30

3,96

3,59

3,18

14

8,86

6,51

5,56

5,03

4,69

4,46

4,28

4,14

3,80

3,43

3,02

15

8,68

6,36

5,42

4,89

4,56

4,32

4,14

4,00

3,67

3,29

2,89

16

8,53

6,23

5,29

4,77

4,44

4,20

4,03

3,89

3,55

3,18

2,77

17

8,40

6,11

5,18

4,67

4,34

4,10

3,93

3,79

3,45

3,08

2,67

18

8,28

6,01

5,09

4,58

4,25

4,01

3,85

3,71

3,37

3,00

2,59

19

8,18

5,93

5,01

4,50

4,17

3,94

3,77

3,63

3,30

2,92

2,51

20

8,10

5,85

4,94

4,43

4,10

3,87

3,71

3,56

3,23

2,86

2,44

21

8,02

5,78

4,87

4,37

4,04

3,81

3,65

3,51

3,17

2,80

2,38

22

7,94

5,72

4,82

4,31

3,99

3,76

3,59

3,45

3,12

2,75

2,33

23

7,88

5,66

4,76

4,26

3,94

3,71

3,54

3,41

3,07

2,70

2,28

24

7,82

5,61

4,72

4,22

3,90

3,67

3,50

3,36

3,03

2,66

2,23

25

7,77

5,57

4,68

4,18

3,86

3,63

3,46

3,32

2,99

2,62

2,19

26

7,72

5,53

4,64

4,14

3,82

3,59

3,42

3,29

2,96

2,58

2,15

27

7,68

5,49

4,60

4,11

3,79

3,56

3,39

3,26

2,93

2,55

2,12

28

7,64

5,45

4,57

4,07

3,76

3,53

3,36

3,23

2,90

2,52

2,09

29

7,60

5,42

4,54

4,04

3,73

3,50

3,33

3,20

2,87

2,49

2,06

30

7,56

5,39

4,51

4,02

3,70

3,47

3,30

3,17

2,84

2,47

2,03

40

7,31

5,18

4,31

3,83

3,51

3,29

3,12

2,99

2,66

2,29

1,84

50

7,17

5,06

4,20

3,72

3,41

3,18

3,02

2,88

2,56

2,18

1,71

100

6,90

4,82

3,98

3,51

3,20

2,99

2,82

2,69

2,36

1,98

1,46

6,64

4,60

3,78

3,32

3,02

2,80

2,66

2,51

2,18

1,79

1,00

v2

v1 - numrul gradelor de libertate pentru cea mai mic dintre cele dou variane estimate;
v2 - numrul gradelor de libertate pentru cea mai mare dintre cele dou variane estimate.

117

Anexa V
VALORILE CRITICE ALE DISTRIBUIEI F (FISHER-SNEDECOR)
pentru nivelul de semnificaie = 0,05.
v1

12

24

v2

161,4 199,5 215,7 224,6 230,2 234,0

238,9

239,0 243,9 249,0

254,3

18,51 19,00 19,16 19,25 19,30 19,33

19,36

19,37 19,41 19,45

19,50

10,13

9,55

9,28

9,12

9,01

8,94

8,88

8,84

8,74

8,64

8,53

7,71

6,94

6,59

6,39

6,26

6,16

6,09

6,04

5,91

5,77

5,63

6,61

5,79

5,41

5,19

5,05

4,95

4,88

4,82

4,68

4,53

4,36

5,99

5,14

4,76

4,53

4,39

4,28

4,21

4,15

4,00

3,84

3,67

5,59

4,74

4,35

4,12

3,97

3,87

3,79

3,73

3,57

3,41

3,23

5,32

4,46

4,07

3,84

3,69

3,58

3,50

3,44

3,28

3,12

2,93

5,12

4,26

3,86

3,63

3,48

3,37

3,29

3,23

3,07

2,90

2,71

10

4,96

4,10

3,71

3,48

3,33

3,22

3,14

3,07

2,91

2,74

2,54

11

4,84

3,98

3,59

3,36

3,20

3,09

3,01

2,95

2,79

2,61

2,40

12

4,75

3,88

3,49

3,26

3,11

3,00

2,92

2,85

2,69

2,50

2,30

13

4,67

3,80

3,41

3,18

3,02

2,92

2,84

2,77

2,60

2,42

2,21

14

4,60

3,74

3,34

3,11

2,96

2,85

2,77

2,70

2,53

2,35

2,13

15

4,54

3,68

3,29

3,06

2,90

2,79

2,70

2,64

2,48

2,29

2,07

16

4,49

3,63

3,24

3,01

2,85

2,74

2,66

2,59

2,42

2,24

2,01

17

4,45

3,59

3,20

2,96

2,81

2,70

2,62

2,55

2,38

2,19

1,96

18

4,41

3,55

3,16

2,93

2,77

2,66

2,58

2,51

2,34

2,15

1,92

19

4,38

3,52

3,13

2,90

2,74

2,63

2,55

2,48

2,31

2,11

1,88

20

4,35

3,49

3,10

2,87

2,71

2,60

2,52

2,45

2,28

2,08

1,84

21

4,32

3,47

3,07

2,84

2,68

2,57

2,49

2,42

2,25

2,05

1,81

22

4,30

3,44

3,05

2,82

2,66

2,55

2,47

2,40

2,23

2,03

1,88

23

4,28

3,42

3,03

2,80

2,64

2,53

2,45

2,38

2,20

2,00

1,76

24

4,26

3,40

3,01

2,78

2,62

2,51

2,43

2,36

2,18

1,98

1,73

25

4,24

3,38

2,99

2,76

2,60

2,49

2,41

2,34

2,16

1,96

1,71

26

4,22

3,37

2,98

2,74

2,59

2,47

2,39

2,32

2,15

1,95

1,69

27

4,21

3,35

2,96

2,73

2,57

2,46

2,37

2,30

2,13

1,93

1,67

28

4,20

3,34

2,95

2,71

2,56

2,44

2,36

2,29

2,12

1,91

1,65

29

4,18

3,33

2,93

2,70

2,54

2,43

2,35

2,28

2,10

1,90

1,64

30

4,17

3,32

2,92

2,69

2,53

2,42

2,34

2,27

2,09

1,89

1,62

40
50

4,08
4,03

3,23
3,18

2,84
2,79

2,61
2,56

2,45
2,40

2,34
2,29

2,25
2,20

2,18
2,13

2,00
1,95

1,79
1,74

1,51
1,46

60

4,00

3,15

2,76

2,52

2,37

2,25

2,17

2,10

1,92

1,70

1,39

100

3,94

3,09

2,70

2,46

2,30

2,19

2,10

2,03

1,85

1,63

1,30

120

3,92

3,07

2,68

2,44

2,29

2,17

2,08

2,01

1,83

1,60

1,25

3,84

2,99

2,60

2,37

2,21

2,09

2,01

1,94

1,75

1,52

1,00

v1 - numrul gradelor de libertate pentru cea mai mic dintre cele dou variane estimate;
v2 - numrul gradelor de libertate pentru cea mai mare dintre cele dou variane estimate.

118

Anexa VI

VALORILE CRITICE ALE DISTRIBUIEI


Nivelul de semnificaie

v
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100

0,50
1,39
2,37
3,36
4,35
5,35
6,35
7,34
8,34
9,34
10,30
11,30
12,30
13,30
14,30
15,30
16,30
17,30
18,30
19,30
20,30
21,30
22,30
23,30
24,30
25,30
26,30
27,30
28,30
29,30
39,30
49,30
59,30
69,30
79,30
89,30
99,30

0,30
2,41
3,67
4,88
6,06
7,23
8,38
9,52
10,70
11,80
12,90
14,00
15,10
16,20
17,30
18,40
19,50
20,60
21,70
22,80
23,90
24,90
26,00
27,10
28,20
29,20
30,30
31,40
32,50
33,50
44,20
54,70
65,20
75,10
86,10
96,50
106,90

0,10
4,61
6,25
7,78
9,24
10,60
12,00
13,40
14,70
16,00
17,30
18,50
19,80
21,10
22,30
23,50
24,80
26,00
27,20
28,40
29,60
30,80
32,00
33,20
34,40
35,60
36,70
37,90
39,10
40,30
51,80
63,20
74,40
85,50
96,60
107,60
118,50

0,05
5,99
7,81
9,49
11,10
12,60
14,10
15,50
16,90
18,30
19,70
21,00
22,40
23,70
25,00
26,30
27,60
28,90
30,10
31,40
32,70
33,90
35,20
36,40
37,70
38,90
40,10
41,30
42,60
43,80
55,85
67,50
79,10
90,50
101,90
113,10
124,30

0,025
7,3
9,3
11,1
12,8
14,4
16,0
17,5
19,0
20,5
21,9
23,3
24,7
26,1
27,5
28,8
30,2
31,5
32,9
34,2
35,5
36,8
38,1
39,4
40,6
41,9
43,2
44,5
45,7
47,0
59,3
71,4
83,3
95,0
106,6
118,1
129,6

0,01
9,2
11,3
13,3
15,1
16,8
18,5
20,1
21,7
23,2
24,7
26,2
27,7
29,1
30,6
32,0
33,4
34,8
36,2
37,6
38,9
40,3
41,6
43,0
44,3
45,6
47,0
48,3
49,6
50,9
63,7
76,2
88,4
100,4
112,3
124,1
135,8

0,001
13,8
16,3
18,5
20,5
22,5
24,3
26,1
27,9
29,6
31,3
32,9
34,5
36,1
37,7
39,3
40,8
42,3
43,8
45,3
46,8
48,3
49,7
51,2
52,6
54,1
55,5
56,9
58,3
59,7
73,4
86,7
99,6
112,3
124,8
137,2
149,4

v - numrul gradelor de libertate pentru statistica .

119

Anexa VII
TABELUL DIFERENELOR MAXIME max PENTRU TESTUL
KOLMOGOROV-SMIRNOV
Nivelul de semnificaie

Nivelul de semnificaie

n
1
2
3
4
5
6
7
8
9
10
11
12

n
0,10
0,950
0,776
0,642
0,564
0,510
0,470
0,438
0,411
0,388
0,368
0,352
0,338

0,05
0,975
0,842
0,708
0,624
0,565
0,521
0,486
0,457
0,432
0,410
0,391
0,375

0,01
0,995
0,929
0,828
0,733
0,669
0,618
0,577
0,543
0,514
0,490
0,468
0,450

13
14
15
16
17
18
19
20
25
30
35
>351

0,10
0,325
0,314
0,304
0,295
0,286
0,278
0,272
0,264
0,24
0,22
0,21
1,22/

0,0,5
0,361
0,349
0,338
0,328
0,318
0,309
0,301
0,294
0,27
0,24
0,23
1,36/

0,01
0,433
0,418
0,404
0,392
0,381
0,371
0,363
0,356
0,32
0,29
0,27
1,63/

n - volumul eantionului (cazul testului de concordan ) sau al eantioanelor (cazul testului de comparare a dou distribuii empirice,
eantioanele avnd acelai volum n1=n2=n).
1
la testele de comparare, pentru volume n ale eantioanelor mai mari de 35, se poate lucra i cu eantioane de volume inegale; n acest
caz se ia n considerare volumul total al celor dou eantioane, diferena maxim teoretic fiind calculat cu ajutorul relaiilor de mai jos (pentru
testul bilateral):

n.s. = 0,05 --> max = 1,36

n1 + n 2
n1 * n 2

n.s. = 0,01 --> max = 1,63

n1 + n 2
n1 * n 2
n1 + n 2

n.s. = 0,001 --> max = 1,95

n1 * n 2

120

Anexa VIIIa
VALORILE-LIMIT ALE LUI r
pentru diferite nivele de semnificaie
Nivelul de semnificaie

g.l.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Nivelul de semnificaie

g.l.
0,10
0,9877
0,9000
0,8054
0,7293
0,6694
0,6215
0,5822
0,5494
0,5214
0,4973
0,4762
0,4575
0,4409
0,4245
0,4124

0,05
0,9969
0,9500
0,8783
0,8114
0,7545
0,7067
0,6664
0,6319
0,6021
0,5760
0,5529
0,5324
0,5139
0,4973
0,4821

0,01
0,9995
0,9800
0,9343
0,8822
0,8329
0,7887
0,7498
0,7155
0,6851
0,6581
0,6339
0,6120
0,5923
0,5742
0,5577

16
17
18
19
20
25
30
35
40
45
50
60
70
80
100

0,10
0,4000
0,3887
0,3783
0,3687
0,3598
0,3233
0,2960
0,2746
0,2573
0,2428
0,2306
0,2108
0,1954
0,1829
0,1638

0,05
0,4683
0,4555
0,4438
0,4329
0,4227
0,3809
0,3494
0,3246
0,3044
0,2875
0,2732
0,2500
0,2319
0,2172
0,1946

0,01
0,5425
0,5285
0,5155
0,5034
0,4921
0,4451
0,4093
0,3810
0,3578
0,3384
0,3218
0,2948
0,2737
0,2565
0,2301

Tabelul cuprinde valorile minime, statistic semnificative, ale coeficientului de corelaie liniar simpl r; dac r calculat este mai mare
dect r din tabel, atunci se poate afirma (cu un risc de eroare egal cu ) c ntre cele dou variabile exist o corelaie liniar semnificativ.
n tabel se intr cu numrul gradelor de libertate, care n acest caz va fi: g.l. = n - 2 (n - numrul de perechi de valori).

Anexa VIIIb
VALORILE-LIMIT ALE COEFICIENTULUI AL LUI SPEARMAN

0,05

0,01

0,05

0,01

0,34
0,33
0,32
0,31
0,28
0,26
0,25
0,24
0,22
0,21
0,20
0,19
0,17

0,49
0,47
0,45
0,43
0,40
0,37
0,35
0,33
0,32
0,30
0,28
0,26
0,23

4
5
6
7
8
9
10
12
14
16
18
20
22

1,00
0,90
0,83
0,71
0,64
0,60
0,56
0,51
0,46
0,42
0,40
0,38
0,36

1,00
0,94
0,89
0,83
0,78
0,75
0,71
0,64
0,60
0,56
0,53
0,51

24
26
28
30
35
40
45
50
55
60
70
80
100

n - numrul de perechi de valori.


n tabel se intr direct cu numrul de perechi de valori, iar semnificaia statistic a coeficientului calculat se face la fel ca la Anexa
VIIIa.

121

Anexa IX

TABEL CU NUMERE ALEATOARE


(FRAGMENT)
Coloana
Rndul
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
21
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50

1
87 35
25 52
87 17
05 04
81 16
54 85
44 78
97 20
98 77
78 12
41 19
70 64
06 56
29 46
42 14
33 75
09 80
98 31
51 70
27 83
78 84
22 12
69 41
54 99
99 91
54 96
88 37
49 40
21 18
06 31
58 56
83 00
51 45
90 55
68 65
51 84
85 23
31 95
91 55
46 80
07 78
48 69
70 69
98 63
76 50
23 47
18 38
93 93
65 23
77 19

2
67 44
29 67
83 31
40 35
09 21
78 88
19 18
98 97
57 51
77 30
70 62
30 55
09 89
18 28
55 51
87 15
99 61
57 50
52 55
61 07
69 15
89 66
59 54
46 54
82 79
58 70
31 01
84 90
87 99
99 51
75 14
61 74
05 35
27 93
05 79
34 98
92 01
14 27
02 31
10 25
66 31
61 99
68 47
62 58
34 97
83 35
27 88
51 63
13 22
27 34

3
51 49
35 99
25 59
72 95
91 71
57 91
35 40
37 33
40 41
83 30
43 46
67 46
68 87
08 88
72 95
15 23
98 08
85 80
83 12
49 05
64 42
49 09
82 72
51 38
92 62
68 38
58 97
19 91
98 48
27 13
19 32
76 68
16 73
33 06
82 57
03 38
84 05
80 20
42 31
92 61
63 37
15 93
02 10
95 62
87 14
73 08
50 09
96 33
01 10
65 55

4
18 98
48 88
87 48
48 56
29 76
11 69
27 66
93 75
76 21
59 28
06 13
95 79
79 19
48 56
29 25
13 79
34 11
53 39
95 02
46 20
92 39
99 10
44 66
59 07
44 24
48 37
65 10
75 41
38 12
43 21
35 15
58 67
80 43
76 42
78 22
87 12
83 64
36 96
54 72
83 83
30 38
98 43
60 99
61 53
65 07
83 52
58 11
82 81
20 01
62 52

5
97 84
40 68
25 80
77 57
54 01
10 22
89 72
18 88
18 54
73 33
22 38
63 66
35 94
49 44
15 18
62 73
88 79
05 92
79 11
35 78
36 08
62 53
64 03
64 21
01 34
08 25
96 97
55 63
64 18
07 55
47 05
31 58
44 64
16 08
37 41
79 88
12 95
81 84
45 32
58 58
95 57
38 84
02 84
28 49
59 45
47 19
96 83
58 02
11 15
47 73

6
75 22
63 68
24 08
63 19
53 17
71 87
21 17
35 85
60 61
47 07
31 18
82 56
66 18
67 82
25 68
76 69
08 32
54 42
49 79
31 34
56 39
19 31
76 59
81 17
45 16
51 28
32 75
98 25
78 50
90 35
38 54
77 93
19 14
16 81
82 44
57 88
51 44
88 55
43 76
71 46
84 99
46 49
41 36
20 20
02 56
79 85
05 86
19 36
36 43
09 34

7
53 29
82 39
81 45
80 16
30 67
24 92
71 69
46 05
79 13
60 07
61 60
67 10
17 91
72 67
48 92
09 77
46 78
29 01
87 95
12 50
35 02
81 83
12 12
88 47
33 56
42 09
65 73
01 69
43 97
29 84
92 08
92 44
52 22
86 15
07 43
46 81
60 64
50 47
89 95
29 95
85 32
84 89
81 65
21 49
89 50
26 07
49 61
55 80
49 49
58 38

8
10 52
38 47
21 32
48 52
62 95
52 64
95 17
07 20
94 57
45 38
07 14
76 77
72 81
28 83
87 16
82 65
35 58
35 23
98 48
68 11
92 78
50 43
41 56
23 05
17 78
45 96
06 01
29 57
04 07
08 70
08 72
94 16
81 62
09 79
98 89
62 56
68 86
22 39
74 04
72 38
91 28
44 51
44 08
45 35
85 03
53 80
35 03
74 84
19 24
28 28

9
26 87
91 39
90 08
06 47
56 58
42 82
97 17
08 17
50 73
82 10
49 16
03 22
72 77
10 26
78 43
72 47
44 16
09 81
88 68
42 14
46 63
37 42
34 90
63 43
42 86
78 84
60 19
72 77
85 18
66 03
79 66
01 29
79 68
30 86
78 23
94 91
53 05
70 56
79 33
89 05
06 85
75 42
49 93
01 57
42 65
00 33
46 63
14 63
77 70
18 15

10
54 92
11 00
44 31
64 98
10 91
78 95
62 60
66 24
89 68
73 19
28 16
42 18
92 39
58 13
17 47
59 56
12 23
96 64
64 77
29 77
82 98
10 00
26 06
08 67
70 94
34 59
68 10
75 95
98 87
18 96
65 20
32 19
13 37
74 77
96 04
06 59
26 16
66 41
46 91
26 05
67 13
45 17
49 62
45 64
07 35
18 07
88 48
79 22
95 08
82 65

122

123

S-ar putea să vă placă și