Sunteți pe pagina 1din 122

Universitatea « Alexandru Ioan Cuza » Iaşi

Facultatea de Educaţie Fizică şi Sport


Învăţământ la distanţă

ELEMENTE DE STATISTICĂ GEOGRAFICĂ

Conf. dr . Octavian Groza


Departamentul de Geografie
Univ. „Al.I.Cuza” Iaşi

Prof. dr. Claude Grasland Lector univ.Mihai Apetrei


Département de géographie Departamentul de Geografie
Université Paris VII Univ. „Al.I.Cuza” Iaşi

Editura Universităţii « Alexandru Ioan Cuza »


Iaşi, 2003
CUPRINS

INTRODUCERE......................................................................................................................................................... 5

CAP.I. NOŢIUNI GENERALE ................................................................................................................................. 6


1.1. Cercetarea geografică şi metodele statistice............................................................................................. 6
1.1.1 Ce este Statistica? ................................................................................................................... 6
1.1.2. Statistica în Geografie ........................................................................................................... 7
1.2. Vocabularul de bază al Statisticii........................................................................................................... 10

CAP.II. PARAMETRII UNEI DISTRIBUŢII STATISTICE ................................................................................ 23


2.1. Valorile centrale..................................................................................................................................... 23
2.1.1. Modul (sau moda, sau valoarea modală)............................................................................ 23
2.1.2. Mediana (valoarea mediană) .............................................................................................. 24
2.1.3. Media aritmetică.................................................................................................................. 25
2.2. Parametrii dispersiei .............................................................................................................................. 26
2.2.1. Amplitudinea de variaţie..................................................................................................... 27
2.2.2. Cuartilele şi abaterile cuartile............................................................................................. 27
2.2.3. Indici de dispersie care au la bază media aritmetică ......................................................... 27
2.3. Parametrii formei................................................................................................................................... 29
2.3.1. Indici de asimetrie ............................................................................................................... 30
2.3.2. Indici de exces (de aplatizare) ............................................................................................. 30

CAP.III. TRANSFORMAREA ŞI STANDARDIZAREA DATELOR.................................................................. 32


3.1. Standardizarea (normarea).................................................................................................................... 32
3.2. Transformarea ....................................................................................................................................... 33

CAP.IV. FUNDAMENTUL PROBABILIST AL JUDECĂŢILOR STATISTICE .............................................. 34


4.1. Distribuţia (curba) normală şi caracteristicile sale................................................................................ 34
4.2. Caracteristicile eşantioanelor (sondajelor) ............................................................................................ 38
4.2.1. Relaţiile dintre parametrii de sondaj şi cei ai populaţiei originare ................................... 38
4.2.2.Eşantioane mici..................................................................................................................... 41
4.2.3. Specificarea mărimii eşantionului ...................................................................................... 42
4.3. Verificarea ipotezelor statistice .............................................................................................................. 43
4.3.1. Ipoteze statistice................................................................................................................... 43
4.3.2. Teste statistice ...................................................................................................................... 44
4.3.2.1. Teste parametrice ............................................................................................... 46
4.3.2.2. Teste neparametrice. .......................................................................................... 53

CAP.V. PROBLEME GENERALE PRIVIND RELAŢIA DINTRE DOUĂ VARIABILE


(NOŢIUNI DE ANALIZĂ BIVARIATĂ )................................................................................................. 57
5.1. Noţiunea de relaţie între două caracteristici.......................................................................................... 57
5.2. Tabelul de contingenţă şi studiul relaţiei între două caracteristici discrete........................................... 58
5.2.1. Crearea unui tabel de contingenţă...................................................................................... 58
5.2.2. Analiza unui tabel de contingenţă....................................................................................... 60
5.2.2.1. Stabilirea profilelor liniilor ................................................................................... 61
5.2.2.2. Stabilirea profilelor coloanelor ............................................................................. 61
5.2.2.3. Stabilirea existenţei / non-existenţei unei legături între cele două
caracteristici........................................................................................................ 61
5.3. Măsurarea relaţiei dintre două caracteristici cantitative continue ........................................................ 66
5.3.1. Coeficienţii de corelaţie ....................................................................................................... 69

3
5.3.2. Regresia liniară.................................................................................................................... 72
5.3.2.1. Principiul regresiei ............................................................................................... 73
5.3.2.3. Reziduurile regresiei............................................................................................. 81
5.3.2.4. Testarea modelului de regresie ............................................................................. 84
5.3.2.5. Aplicaţiile regresiei liniare în geografie ................................................................ 86
5.4.1. Coeficientul de corelaţie Spearman .................................................................................... 88
5.4.2. Coeficientul de corelaţie Kendall ........................................................................................ 89
5.5. Măsurarea relaţiei dintre o caracteristică cantitativă şi una calitativă nominală sau dintre
două caracteristici calitative nominale........................................................................................... 90
5.5.1. Raportul empiric de corelaţie ............................................................................................. 90
5.5.2. Măsurarea relaţiei dintre două caracteristici calitative nominale .................................... 91
5.5.2.1. Coeficientul de contingenţă .................................................................................. 92
5.5.2.2. Coeficientul de asociere Yule ............................................................................... 92
5.6. Corelaţie şi cauzalitate ........................................................................................................................... 94

CAP.VI. SERII CRONOLOGICE ........................................................................................................................... 95


6.1. Definiţie şi termeni................................................................................................................................. 95
6.2. Serii cronologice şi indici....................................................................................................................... 96
6.3. Analiza seriilor cronologice ................................................................................................................... 98
6.3.1. Verificarea (testarea) caracterului aleator ......................................................................... 99
6.3.2. Descompunerea (filtrarea) seriilor cronologice................................................................ 100
6.3.2.1. Analiza trendului ................................................................................................ 101
6.3.2.2. Analiza variaţiilor sezoniere ............................................................................... 107

BIBLIOGRAFIE ....................................................................................................................................................... 113

Anexa I 114

Anexa II 115

Anexa III.................................................................................................................................................................... 116

Anexa IV .................................................................................................................................................................... 117

Anexa V 118

Anexa VI .................................................................................................................................................................... 119

Anexa VII................................................................................................................................................................... 120

Anexa VIII ................................................................................................................................................................. 121

Anexa IX .................................................................................................................................................................... 122

4
INTRODUCERE

În scopul descoperirii structurilor spaţiale şi a dinamicilor de care acestea sunt


afectate, Geografia modernă este obligată să lucreze cu volume imense de date statistice.
Utilizarea echipamentelor electronice de calcul facilitează mult această sarcină însă esenţială
este pregătirea cercetătorului care încearcă să surprindă eventualele regularităţi dintr-o lume
în care accelerarea fenomenelor creează impresia unei evoluţii haotice. În acest context,
stăpînirea metodelor statistice devine primordială.
Prezentul curs este destinat transmiterii elementelor de bază ale statisticii
descriptive, respectiv a metodelor de analiză univariată şi bivariată a informaţiei disponibile.
Obiectivul său principal este acela de a pune la îndemîna studenţilor tehnicile fundamentale
de sintetizare a informaţiei conţinută în tabelele statistice, etapă care trebuie să preceadă orice
operaţie ulterioară (în special cartografierea informaţiei).
Primul capitolul prezintă specificul statisticii în domeniul geografiei (unde
unităţile statistice sînt reprezentate de obiecte, procese şi fenomene spaţializate), precum şi
vocabularul statistic de bază, necesar înţelegerii şi însuşirii teoriei şi practicii Statisticii.
Capitolele al II-lea, al III-lea şi al IV-lea sunt axate pe expunerea noţiunilor teoretice
elementare, în contextul analizei univariate a distribuţiilor statistice. Obiectivul urmărit în
aceste trei capitole este acela de a familiariza studenţii cu analiza tabelelor unidimensionale
(„cu o singură intrare”). Capitolul al V-lea introduce studentul în domeniul analizei bivariate,
respectiv al studiului tabelelor bidimensionale („cu două intrări”), strict necesară în geografie
deoarece în lumea înconjurătoare nici un obiect, proces sau fenomen nu evoluează singur,
izolat de evoluţiile vecine. În fine, ultimul capitol, al VI-lea, prezintă metodologia cercetării
seriilor cronologice, respectiv al tabelelor în care una dintre dimensiuni este cea a unităţilor de
timp (ore, zile, luni, ani, decade, etc.), foarte utilă în efortul de sesizare a sensului şi direcţiei
evoluţiei în timp a obiectelor, proceselor şi fenomenelor geografice. Anexele I-IX conţin
tabelele necesare testării ipotezelor statistice, precum şi un eşantion de numere aleatoare.
Însuşirea metodelor prezentate în acest curs, precum şi a fundamentelor lor
matematice, va acorda în final studentului o independenţă sporită în rezolvarea problemelor
care apar inerent în domeniul cercetării geografice.

5
CAP.I. NOŢIUNI GENERALE.

1.1. Cercetarea geografică şi metodele statistice.

1.1.1 Ce este Statistica?

O definiţie riguroasă a acestei discipline este greu de dat - în literatura de specialitate au


fost inventariate peste o sută de încercări în acest sens; mai mult, în aceeaşi literatură termenul
„statistică” este folosit în cel puţin două sensuri diferite1, ca să nu mai vorbim de conotaţiile
termenului în limbajul comun.
Din punctul de vedere al Geografiei, ca ştiinţă a naturii, o definiţie acceptabilă ar fi
următoarea:

Statistica este ştiinţa care se ocupă cu descrierea şi analiza numerică a


fenomenelor de masă, dezvăluind particularităţile lor de mărime, structură,
dinamică, precum şi conexiunile lor interne. În felul acesta Statistica îşi propune
să contribuie la evidenţierea legilor ce guvernează manifestările spaţio-
temporale ale acestor fenomene.

Dar ce înseamnă fenomene de masă?


În limba greacă „phainomenon” înseamnă „ceea ce apare”. Altfel spus, numim
„fenomene” acele caracteristici exterioare, vizibile sau, oricum, observabile ale realităţii
materiale înconjurătoare.
Ceea ce diferenţiază fenomenele de masă de alte tipuri de fenomene este faptul că ele se
constituie ca rezultat al acţiunii colective şi repetate a unui mare număr de factori întâmplători.
De aceea pentru a accede la esenţă, adică pentru a vedea ce se ascunde în spatele fenomenului,
este nevoie să analizăm un mare număr de cazuri individuale.

Câteva exemple de fenomene de masă:


· comportamentul demografic al unei populaţii, ca rezultat al interacţiunii complexe
dintre factorii economici, sociali, culturali, educaţionali, psihologici. Ca fenomen de masă, el
poate fi pus în evidenţă doar prin intermediul unor indici demografici (natalitate, mortalitate,
spor natural, fertilitate feminină, structura populaţiei pe sexe, grupe de vârstă sau profesională,
apoi gradul de instruire a populaţiei, nivelul de trai etc.) obţinuţi din inventarierea unui mare
număr de indivizi ai populaţiei respective;
· tendinţa de încălzire a climei globului terestru - reprezintă un fenomen complex, ce
poate fi decelat doar prin analiza şi prelucrarea unor cantităţi uriaşe de date climatologice
provenite de la mii de puncte de observaţie ce acoperă suprafaţa întregului glob.

La scări spaţiale mai mari sau mai mici se pot identifica nenumărate exemple de astfel
de fenomene, pentru care se mai utilizează denumiri alternative ca „fenomene colective”,
„fenomene statistice” sau „fenomene atipice”. Acest ultim termen exprimă destul de sugestiv
esenţa unui fenomen de masă: aceea de a nu se putea reproduce în mod identic aproape
niciodată (iar dacă se reproduce în mod identic, faptul se datorează doar întâmplării).

1.
a) Ştiinţa cu acest nume; b) criteriu formal pentru verificarea ipotezelor statistice (vezi § 4.3).

6
Statistica, privită ca domeniu distinct al cunoaşterii umane, a apărut iniţial ca o
generalizare sui generis a unor date despre fenomenele social-economice. Pe la mijlocul
secolului trecut ea era, încă, privită ca o ştiinţă socială. Treptat, însă, Statistica s-a „infiltrat” în
domenii aparţinând ştiinţelor naturii, încât s-au conturat, cu timpul, noi discipline ştiinţifice - de
ex. statistica matematică, fizica şi mecanica statistică, statistica biologică ş.a.
Statutul actual al Statisticii ca ştiinţă este încă neclar, de unde şi marea diversitate a
definiţiilor în circulaţie despre care aminteam anterior. În literatura dedicată acestui subiect se
pot distinge, totuşi, două curente principale de opinie: unii califică statistica drept o ştiinţă, iar
alţii o consideră (şi) o metodă. Este cert, însă, că începând din perioada interbelică, sub
impulsul unor personalităţi de seamă din domeniu ca K.Pearson (1857-1936) şi R.A.Fisher
(1890-1962), statistica şi-a elaborat fundamente ştiinţifice (mai ales matematice) foarte precise.
Ea se dezvoltă în prezent ca ştiinţă cvasi-independentă, dar având însuşirea, mai mult decât
altele, de a fi în acelaşi timp o ştiinţă, dar şi o metodă cu aplicabilitate în alte domenii ştiinţifice.
Indiferent dacă este concepută ca ştiinţă sau ca metodă, statistica actuală prezintă două
laturi diferite, dar complementare:
1°. descrierea statistică - fixarea informaţiei rezultate din prelucrarea datelor de
observaţie (empirice) sub forme diverse, dar cel mai adesea sub formă de indici sau parametri
statistici;
2°. inferenţa2 statistică - tratarea teoretică a datelor de observaţie pentru a trage
concluziile logice, concluzii care depind de specificul domeniului din care provin respectivele
date.
Prima latură, mai accesibilă înţelegerii comune, este cunoscută sub denumirea de
statistică descriptivă. Cea de-a doua, mai dificilă, întrucât mai formalizată din punctul de
vedere al fundamentelor matematice, constituie aşa-numita statistică inferenţială sau
inductivă, numită uneori şi statistică probabilistă datorită faptului că baza ei matematică o
constituie teoria probabilităţilor.
Trebuie subliniat că în cadrul demersului statistic cele două aspecte trebuie privite ca
etape ale unuia şi aceluiaşi proces de cunoaştere umană.

1.1.2. Statistica în Geografie

O incursiune în literatura geografică ce vizează problemele teoretico-epistemologice


specifice ar putea conduce la concluzia că Geografia nu beneficiază, până în prezent, de o
riguroasă circumscriere a sferei sale de cercetare. Însă diversele opinii asupra obiectului de
studiu converg cel puţin într-un punct: în sarcina Geografiei intră analiza repartiţiei şi localizării
spaţiale a obiectelor, fenomenelor şi proceselor naturale sau sociale. Deoarece repartiţia şi
localizarea spaţială creează organizări teritoriale cu trăsături diferite de la un loc la altul, se
evidenţiază existenţa unor diferenţieri spaţiale ale sistemelor naturale, sociale sau ale
geosociosistemelor. Aceste diferenţieri sunt, fără doar şi poate, expresia unor fenomene de
masă. Prin urmare rolul Geografiei este acela de a dezvălui esenţa acestor fenomene de masă,
deci a structurii lor spaţiale. Într-adevăr, „nu distribuţiile însele interesează geografii, ci mai
degrabă faptul că ele variază în configuraţie şi intensitate de la un loc la altul” (M.Chapot, 1977,
p.11).
Analiza geografică a fenomenelor şi proceselor ce caracterizează dinamica spaţio-
temporală a învelişurilor terestre, ca şi analiza relaţiilor dintre om (societate) şi suportul spaţial
al activităţii sale, este permanent condiţionată de apelul la date cantitative obţinute prin
măsurători.
2
Inferenţa (lat. inferre - a duce) este operaţia logică de derivare a unui enunţ din altul, prin care se admite o
judecată (al cărei adevăr nu este verificat direct) în virtutea unei legături a ei cu alte judecăţi considerate ca
adevărate (cf. F.Marcu şi C.Maneca, Dicţionar de neologisme, Ed. Academiei, 1978).

7
Câteva exemple:
· caracteristicile poziţionale şi morfometrice ale unor obiecte de la suprafaţa Terrei
pretind informaţii numerice de tip coordonate geografice, distanţe, suprafeţe, altitudini etc.;
· studiul interacţiunilor dintre învelişurile naturale terestre face apel la date cantitative
asupra unor elemente ca temperatura aerului şi solului, precipitaţii, debite, presiune atmosferică,
viteza vântului, eroziune etc.;
· localizarea activităţilor umane şi a resurselor aferente necesită informaţii precise asupra
suprafeţelor de teren cu diferite utilizări/tipuri de sol, asupra populaţiei active, resurselor
subsolice, punctelor de concentrare a activităţilor industriale ş.a.;
· repartiţia şi dinamica populaţiei umane nu pot fi urmărite decât prin intermediul unor
indici cantitativi cum ar fi numărul total sau pe diverse categorii, natalitatea, mortalitatea,
structura (pe sexe, pe grupe de vârstă, profesională), indici de mobilitate teritorială etc.;
· studiul reţelelor de schimburi comerciale şi al fluxurilor dintre nodurile reţelelor,
fluxuri ce constituie manifestări ale interacţiunilor spaţiale3, pretind date cantitative referitoare
la reţelele feroviare, rutiere, fluviale, de transport maritim etc., date asupra volumului
schimburilor comerciale ş.a.

Determinările cantitative (observaţii şi măsurători) asupra obiectelor, proceselor şi


fenomenelor constituie, aşadar, punctul de plecare pentru demersul cognitiv geografic. În
acelaşi timp, ele oferă posibilitatea unui demers geografic ştiinţific (în sensul exactităţii)
deoarece permit, pe de o parte, emiterea unor ipoteze asupra realităţii, iar pe de altă parte permit
verificarea acestor ipoteze prin aplicarea metodelor statistico-matematice de analiză a datelor.
Datele geografice provenite din măsurători şi observaţii se referă, în mod obişnuit, la
caracteristici ale unor fenomene şi/sau procese care se desfăşoară într-un anumit loc de pe glob
şi într-un anumit moment (interval) de timp. De aici ideea de a generaliza natura datelor
geografice sub forma unei matrici tridimensionale numită „cubul datelor geografice”
(Johnston,1978; v.fig.1.1). Cele trei dimensiuni ale acestui cub sunt localizările (locurile)4,
timpul şi fenomenele (procesele). În secţiunea din fig.1.1 fiecare rând reprezintă un loc, iar
fiecare coloană corespunde unui fenomen (proces); momentelor (intervalelor) de timp în care se
manifestă fenomenele cu localizări diferite le corespund „strate” succesive ale cubului.

3
Prin „interacţiuni spaţiale” se înţelege acţiunea reciprocă a două sau mai multe sisteme cu localizări spaţiale
diferite. În domeniul geografiei studiul i.s., abordate la scară macro-spaţială (în aceasta constând deosebirea dintre
geografie şi alte ştiinţe care studiază astfel de interacţiuni - de ex. sociologia, psihologia, economia, fizica), a
condus la elaborarea unor modele de intracţiune spaţialţ dintre care cel mai important este modelul gravitaţional.
Acest model se bazează pe analogia dintre intracţiunea spaţială şi interacţiunea fizică din teoria gravitaţională a lui
Newton:
mi • m j
I ij = k n
d ij ,
în care: Iij - interacţiunea dintre locurile i şi j; mi, mj - „masele” locurilor i şi j (de ex. numărul de locuitori); k, n -
constante empirice.
4
În literatura geografică românească termenul „localizare” are mai multe sensuri:
- poziţie (aşezare) geografică;
- acţiunea de a repera (identifica) obiecte, fenomene, procese;
- acţiunea de a implanta în teritoriu, într-un anumit loc, un obiect, o activitate economică etc.;
- acţiunea de a aduce la scară locală, de a descentraliza.
De regulă sensul reiese din context; atunci când acesta din urmă este insuficient, este preferabil să se folosească
sinonimele corespunzătoare - spre exemplu, în fig.1.1. s-a folosit termenul „locuri” pentru a desemna poziţia în
spaţiu a fenomenelor.

8
Este clar că un asemenea cub poate cuprinde cantităţi foarte mari (teoretic nelimitate) de
date. Tocmai asemenea ansambluri mari de
date cantitative constituie,
îndeobşte, materialul de Figura 1.1. Cubul datelor geografice. lucru pentru
analizele statistice. Aceasta nu
înseamnă, însă, că Statistica nu poate
să analizeze şi ansambluri mici,
sau seturi de date non- numerice,
calitative. În toate cazurile, în termeni
cantitativi, ea descrie sintetic, clasifică,
ierarhizează, evidenţiază structuri şi
5
izomorfisme , încearcă să precizeze
(cuantifice) tăria şi intensitatea
legăturilor dintre fenomene, permite
generalizări şi interpretări ale
acestora.
Utilizarea metodelor statistice conferă demersului geografic un spor de rigurozitate
ştiinţifică, înţeleasă ca precizie a rezultatelor cercetării, obiectivitate a concluziilor, precum şi ca
diminuare a redundanţei şi ambiguităţilor discursului geografic.

Ca şi în cazul altor ştiinţe naturale sau sociale, demersul ştiinţific geografic are două
laturi complementare:
1°. există, pe de o parte, demersul inductiv, care încearcă să generalizeze o serie de
observaţii empirice, încercând să ajungă la formularea de legităţi şi, apoi, la elaborarea de
modele ale realităţii.

Exemplu. Se măsoară temperatura aerului la diferite altitudini de-a lungul unui versant
muntos. Să presupunem că s-au găsit 10°C la 1000 m, 4°C la 2000 m şi -2°C la 3000 m
altitudine. Repetarea măsurătorilor pe un alt versant a dat rezultate asemănătoare. Se trage
concluzia că temperatura scade, în medie, cu 0,6°C la fiecare 100 m creştere a altitudinii; altfel
spus, se stabileşte o legitate pe calea demersului inductiv (trecerea de la particular la general);

2°. pe de altă parte, există demersul deductiv, care se desfăşoară în sens invers faţă de
cel inductiv: se porneşte de la o regulă generală pentru a se trage nişte concluzii în legătură cu
un fapt particular. În acest caz regula este preluată sub forma unei ipoteze care, confruntată cu
datele de observaţii, poate să fie confirmată sau infirmată.

Exemplu. Se porneşte de la legea scăderii, de la Ecuator spre poli, a cantităţii de căldură


recepţionată de suprafaţa terestră. Se emite ipoteza că temperatura medie a aerului scade în
acelaşi sens, ştiut fiind faptul că ea este dependentă de cantitatea de căldură menţionată.
Confruntarea ipotezei cu datele climatologice dovedeşte că ipoteza testată este valabilă doar sub
forma uneitendinţe generale, pe fondul căreia apar excepţii datorate unor factori diverşi
(altitudinea şi orientarea culmilor muntoase, albedo-ul suprafeţei terestre, curenţii marini etc.).

Procesul cunoaşterii ştiinţifice constă într-o permanentă succesiune a celor două tipuri
de demersuri: inducţia furnizează reguli şi legităţi care stau la baza unor deducţii (ipoteze) ce se

5
Izomorfism (grec. isos - egal şi morphe - formă) - identitate de structură între două sau mai multe sisteme cu
conţinut diferit; modalitate riguroasă a analogiei, întemeind „analogia structurală”, diferită de „analogia
funcţională” sau „analogia substanţială” (cf. Dicţionar de filozofie, Ed. Academiei, 1979).

9
cer, apoi, confruntate cu datele de observaţii; eventualele diferenţe intre modelul teoretic şi
realitatea faptică pot conduce, pe cale inductivă, la reformulări ale legităţilor, ce se cer şi ele
verificate ş.a.m.d. Acest ciclu generator al progresului cunoaşterii ştiinţifice a fost numit,
sugestiv, „spirala inductiv-ipotetic-deductivă” (IID). Orice ştiinţă, inclusiv Geografia, cunoaşte
o dezvoltare condiţionată de înscrierea în modelul IID. Iar pentru Geografie, ca ştiinţă al cărei
obiect de studiu este încă insuficient precizat şi nesatisfăcător încadrată în legi şi postulate,
recursul la metodele statistice este inevitabil.
*
* *
Iată de ce, pentru un geograf, metodele statistice constituie un sprijin valoros.
Cunoaşterea acestor metode de către geograf are aceeaşi importanţă ca şi stăpânirea limbilor
străine de către un diplomat. Nici statistica, pentru geograf, nici limbile străine, pentru diplomat,
nu constituie obiectul lor de studiu, însă reprezintă instrumente indispensabile pentru succesul
activităţilor specifice.
Aşa cum un diplomat ignorant poate face apel la un translator, tot astfel un geograf poate
face apel la un statistician cu experienţă în analiza datelor de observaţii. Dar şi într-un caz şi în
altul prezenţa unui intermediar riscă să reducă eficienţa acţiunilor, ca să nu mai vorbim de
posibilitatea apariţiei erorilor: de traducere, în cazul interpretului care nu stăpâneşte
complexitatea situaţiilor diplomatice, respectiv de interpretare, în cazul statisticianului care nu
cunoaşte în profunzime problemele geografice.

1.2. Vocabularul de bază al Statisticii

În sens cronologic, primul domeniu de aplicare a Statisticii a fost demografia. De aceea,


deşi în prezent Statistica a pătruns în numeroase alte domenii, o parte din vocabularul său de
bază include termeni originari din demografie.

S-a menţionat deja că demersul analitic în Geografie are la bază cubul datelor
geografice. Acesta constituie, în fond, un masiv de date al cărui volum poate deveni
impresionant atunci când cercetarea se extinde pe spaţii mari sau pe intervale mari de timp. Un
asemenea masiv de date poartă, în Statistică, denumirea de populaţie.
O populaţie este un ansamblu finit sau infinit de elemente (unităţi, indivizi)
distincte care intră sub incidenţa observaţiilor şi măsurătorilor.
Acesta este ansamblul de referinţă asupra căruie se exercită analiza statistică. El trebuie să fie
omogen şi precis definit. Elementele care îl formează au în comun una sau mai multe
proprietăţi, astfel încât să se poată preciza clar dacă un element oarecare face parte sau nu din
ansamblul luat în considerare, în funcţie de prezenţa/absenţa proprietăţii (proprietăţilor)
respective.

Exemple.
· populaţia (locuitorii) judeţului Iaşi la 1.01.1992 - un ansamblu finit, elementele
au o proprietate comună (domiciliul stabil în judeţul Iaşi), spaţiul este precis delimitat de către
graniţele administrative ale judeţului, momentul de timp este precizat;
· populaţia lacurilor din Câmpia Moldovei la sfârşitul anului 1993 - ansamblu
finit, există o proprietate comună a elementelor (faptul că sunt ape stătătoare permanente),
spaţiul delimitat, timpul deasemenea;
· populaţia oraşelor cu peste 1 milion de locuitori din Europa, la sfârşitul anului
1992;

10
· populaţia cantităţilor lunare de precipitaţii la staţia Iaşi - ansamblu practic
infinit, din care şirul de observaţii existent (după 1893) reprezintă doar o mică parte.

În majoritatea cazurilor, în geografie populaţiile sunt ansambluri de elemente spaţiale


precis localizabile şi susceptibile de a fi cartografiate. Se pot distinge trei tipuri mari de unităţi
spaţiale:
* unităţi de tip areal (planiforme) - de exemplu judeţe, regiuni, state, bazine
hidrografice, zone climatice ş.a.;
* unităţi de tip punctual (punctiforme) - aşezări umane, puncte geodezice, vulcani, staţii
meteo, confluenţe de râuri ş.a. De remarcat că unităţile spaţiale de tip areal pot trece în unităţi de
tip punctual şi invers, odată cu trecerea de la o scară spaţială de analiză la alta;
* unităţi de tip liniar (axiale) - străzi, tronsoane de cale ferată, râuri, linii de falie, linii de
intersecţie a fronturilor atmosferice cu suprafaţa terestră ş.a.

Individ (vezi şi definiţia de mai sus).


Un individ, sau unitate statistică, este un element ce aparţine unei populaţii;
apartenenţa sa la populaţia respectivă este indubitabilă, întrucât este definită
după criterii/proprietăţi neambigui.

Eşantion
Un eşantion este un subansamblu al unei populaţii, alcătuit prin extragerea de
elemente din populaţia de bază.
Extragerea se face după reguli precis stabilite, în funcţie de scopul analizei statistice şi
de natura datelor de observaţii. Concluziile analizei pot fi apoi extinse asupra întregii populaţii,
bineînţeles, cu o anumită marjă de eroare. Dar, lucru foarte important, marja de eroare poate fi
calculată; mai mult, în unele cazuri această marjă de eroare poate fi stabilită încă înainte de
prelevarea eşantionului.
Fundamentele matematice ale prelevării eşantioanelor sunt oferite de către o ramură a
Statisticii numită „Teoria eşantionajului”.
Pentru majoritatea disciplinelor geografice metodologiile de cercetare specifice implică
lucrul cu eşantioane - de exemplu studiul granulometric al solului sau aluviunilor, studiul
proprietăţilor fizico-chimice ale aerului, apei sau rocilor se bazează, inevitabil, pe eşantioane. Pe
de altă parte, studiul variaţiilor spaţiale sau temporale ale elementelor climatice sau hidrologice
porneşte de la şirurile de date de observaţii care, oricât de lungă ar fi perioada pe care o acoperă,
constituie de fapt nişte eşantioane ce provin dintr-o populaţie practic infinită, sau măcar
inaccesibilă (timpul geologic).

Caracteristică statistică
Caracteristica (statistică a) unei populaţii este o însuşire, un caracter care este
comun tuturor elementelor respectivei populaţii.
Exemple:
· vârsta, sexul - în cazul populaţiei umane;
· numărul de locuitori - în cazul populaţiei oraşelor dintr-o anumită regiune;
· debitul mediu anual (sau zilnic,lunar) - în cazul populaţiei râurilor dintr-o zonă
oarecare.
· valoarea producţiei industriale - în cazul populaţiei judeţelor din România etc.

11
Din punct de vedere statistic, a defini o caracteristică Tabel 1.1. Populaţia oraşelor
a unei populaţii înseamnă a stabili o corespondenţă astfel României repartizată după numărul de
încât fiecărui individ al populaţiei să i se asocieze una şi locuitori.
numai una dintre valorile pe care le poate căpăta Populaţia P Caract. X
caracteristica respectivă. În funcţie de scopurile analizei, (oraşele din (numărul de
România,1992) locuitori)
indivizii pot fi descrişi (caracterizaţi) prin intermediul unei
1.Alba-Iulia x1 71254
caracteristici sau al mai multora (vezi tabelele 1.1 şi 1.2). 2.Arad x2 190088
Diferitele valori (nu neapărat numerice) pe care le . . .
poate căpăta un individ în raport cu o anumită caracteristică . . .
poartă denumirea de modalităţi ale caracteristicii . . .
82.Iaşi xi 342994
respective. Modalităţile unei caracteristici trebuie să . . .
îndeplinească simultan două condiţii: . . .
1°. Să fie incompatibile, altfel spus corespondenţa . . .
260.Zimnicea xN 17140
dintre indivizi şi modalităţile caracteristicii trebuie să fie
univocă (unui individ îi corespunde o modalitate şi numai Tabel 1.2. Populaţia judeţului Iaşi la 1
una, chiar dacă una şi aceeaşi modalitate poate corespunde ianuarie 1992, repartizată după vârstă şi
la mai mulţi indivizi - vezi tab.1.2, 1.3); sex.
2°. Să fie exhaustive, adică să nu existe indivizi Populaţia P Car. X Car.Y
(loc.jud. (vârsta) (sexul)
cărora nu le corespunde nici o modalitate a caracteristicii. Iaşi,1992)
1.Apetrei M. x1 37 y1 M
Exemplu. Să considerăm populaţia studenţilor de 2.Zlăvog P. x2 58 y2 F
la Facultatea de Geografie din Iaşi, la începutul anului . . . . .
2003, repartizată după caracteristica „preferinţe muzicale” . . . . .
. . . . .
cu modalităţile: rocker, metalist, reggae-ist, „simfonist” 7777.Groza O. xi 32 yi M
(adică adept al muzicii simfonice). În acest caz . . . . .
modalităţile nu sunt incompatibile (un rocker poate agrea . . . . .
la fel de bine şi muzica simfonică), nici nu sunt exhaustive . . . . .
806778.Costin V. xN 16 yN F
(sunt destui studenţi pasionaţi de muzica bănăţeană...).
S-a menţionat mai sus că reciproca condiţiei de
incompatibilitate nu este valabilă. Altfel spus, unei modalităţi îi pot corespunde mai multe
elemente din cadrul populaţiei. Numărul de elemente (indivizi) care corespund unei modalităţi a
caracteristicii constituie aşa-numitul efectiv (frecvenţă brută, frecvenţă absolută) al (a)
modalităţii respective. Este clar că, dacă sunt respectate condiţiile menţionate mai sus, suma
efectivelor modalităţilor va fi egal cu numărul total de elemente din populaţia de bază (vezi
tab.1.3).

Se disting două categorii de caracteristici: calitative şi cantitative. Criteriul de


diferenţiere îl constituie, de regulă, posibilitatea şi/sau sensul calculării mediei aritmetice a
modalităţilor.
Caracteristicile calitative pot fi, la rândul lor, de două feluri: nominale, la care
modalităţile sunt exprimate printr-un substantiv sau un cod (de ex. caracteristica „sex” din
tab.1.2) şi ordinale, în cazul cărora modalităţile reprezintă ranguri ale fiecărui individ în raport
cu caracteristica respectivă (de ex. caracteristica „poziţia pe lista admişilor”, după care poate fi
repartizată populaţia studenţilor anului I Geografie, anul şcolar 2003/2004).
Caracteristicile cantitative sunt cele la care modalităţile sunt exprimate prin numere.
Drept urmare media aritmetica a modalităţilor caracteristicii poate fi calculată şi, spre deosebire
de caracteristicile calitative ordinale, are un sens intuitiv.
Caracteristicile cantitative pot fi şi ele grupate în funcţie de mai multe criterii.
Astfel, după cum valoarea 0 (zero) a modalităţilor indică sau nu absenţa fenomenului,
ele pot fi:

12
- de interval (reperabile pe o scară de intervale) - sunt acele caracteristici cantitative care
permit precizarea poziţiei fiecărui element al populaţiei în raport cu o origine arbitrară. Deci
valoarea 0 este convenţională şi nu semnifică absenţa fenomenului. Exemple: altitudinea,
temperatura, latitudinea, longitudinea ş.a.;
- de scară (măsurabile pe o scară numerică) - la care valoarea 0 a modalităţilor nu este
convenţională, ci are un sens concret, respectiv absenţa fenomenului. Exemple: precipitaţiile
lunare ( pentru populaţia precipitaţiilor atmosferice la o staţie meteo), producţia de cereale
(pentru populaţia statelor lumii) etc.
O altă grupare a caracteristicilor cantitative ţine cont de semnificaţia sumei valorilor
modalităţilor:
* de stoc - la care suma menţionată are o semnificaţie concretă, de ex. numărul de
locuitori, precipitaţiile anuale, numărul de zile cu diferite fenomene meteo etc.;
* de raport - în cazul cărora suma valorilor modalităţilor (valori obţinute, eventual, prin
raportul a două mărimi) nu are un sens fizic, concret - de ex. densitatea populaţiei, exprimată în
loc./km².
În sfârşit, o clasificare uzuală în statistică este cea întemeiată pe proprietăţile aritmetice
ale modalităţilor. După acest criteriu se deosebesc:
· caracteristici (cantitative) discrete, ale căror modalităţi pot căpăta numai anumite
valori, eventual întregi, din cadrul intervalului de variaţie posibilă. Exemple: numărul de zile cu
ploaie sau cu soare, numărul de copii pe familie, numărul de locuitori/comună etc.;
· caracteristici (cantitative) continue, ale căror modalităţi sunt numere reale şi, deci, pot
căpăta orice valoare (altfel spus, o infinitate de valori) în interiorul intervalului de variaţie.
Exemple: densitatea populaţiei, producţiile agricole sau industriale, durata anuală de strălucire a
soarelui, presiunea atmosferică, temperatura etc.
De remarcat că unele caracteristici discrete, cum ar fi, de exemplu, numărul de locuitori
ai unităţilor administrativ-teritoriale, pot fi asimilate cu nişte caracteristici continui atunci când
numărul modalităţilor este foarte mare. În cazul lor metodele de prelucrare statistică rezervate
caracteristicilor discrete sunt greu de aplicat, încât se apelează la metodele specifice pentru
caracteristicile continui.

Variabilă statistică
O caracteristică (cantitativă) ale cărei modalităţi pot suferi modificări, în timp
şi/sau spaţiu, ca nivel de dezvoltare (i.e. ca valoarea numerică), sub influenţa
diverşilor factori ce acţionează asupra populaţiei statistice, poartă numele de
variabilă statistică.
De regulă nu se utilizează termenul „variabilă” atunci când este vorba despre o caracteristică
calitativă; dacă totuşi se utilizează, atunci se adaugă determinativul specific („variabilă
calitativă”).
Trebuie menţionat că aproape toate caracteristicile cantitative ale populaţiilor de date
geografice au însuşirea menţionată în definiţia de mai sus, deci sunt nişte variabile statistice.

Distribuţie (repartiţie) statistică


Ansamblul ordonat al modalităţilor unei caracteristici poartă denumirea de
distribuţie (repartiţie) a populaţiei după caracteristica respectivă sau, mai scurt,
distribuţie (repartiţie) statistică.
Mai ales la populaţiile numeroase, pot exista mai multe elemente care prezintă o aceeaşi valoare
a modalităţii caracteristicii cantitative şi care formează efectivul modalităţii respective. În acest
sens se vorbeşte despre distribuţia statistică ca despre o distribuţie de frecvenţe. În cazul

13
acesteia din urmă avem de-a face cu un Tabel 1.3. Tabelul elementar al unei distribuţii de
ansamblu de perechi modalitate- frecvenţe pentru o variabilă cantitativă , respectiv
frecvenţă6 ordonate crescător după calitativă.
valorile modalităţilor respective (vezi Caract. X Efectivul Caract. A Efectivul
tab.1.3). (cantitativă ) e (calitativă) e
Analiza statistică se poate x1 e1 a1 e1
exercita şi asupra distribuţiilor de x2 e2 a2 e2
frecvenţe ale unor caracteristici . . . .
(variabile) calitative. În cazul acestora . . . .
. . . .
ordonarea, de regulă descrescătoare, nu xi ei ai ei
se poate face după valorile (non- . . . .
numerice) ale variabilei, ci după . . . .
frecvenţele corespunzătoare (vezi . . . .
xn en an en
tab.1.3). Elementul prin care repartiţia
unei variabile de tip calitativ intră în xi-1<xi<xi+1 Σei = N ei-1>ei>ei+1
judecăţile statistice este frecvenţa. Orice Σei = N
comparaţie sau eventuală asociere
(relaţie) între variabilele calitative sunt
precizate prin metode statistice care iau în considerare frecvenţele diferitelor modalităţi ale
variabilei.

Prezentarea unei distribuţii statistice

Există două forme principale de prezentare a unei distribuţii statistice: sub formă de
tabel statistic sau sub forma unor reprezentări grafice, cel mai adesea de tip histogramă. Ele au
menirea de a oferi un rezumat numeric sau grafic al repartiţiei după o caracteristică, prin
regruparea şi stabilirea frecvenţelor fiecărei modalităţi a caracteristicii. În cadrul acestei prime
etape de prelucrare a datelor empirice se urmăreşte, deci, să se răspundă la întrebarea: câte
elemente din populaţia de bază corespund fiecărei modalităţi7, sau fiecărui grup de modalităţi?8
Tabelul de distribuţie a frecvenţelor modalităţilor unei caracteristici este un tabel
statistic simplu (numit şi „tabel cu simplă intrare”) a cărui machetǎ are două coloane: prima
destinată înscrierii modalităţilor caracteristicii, iar a doua - înscrierii frecvenţei (efectivului)
fiecărei modalităţi (pentru ilustrare vezi tab.1.3, care include forma generalizată a unui tabel de
distribuţie a frecvenţelor pentru două tipuri de caracteristici, motiv pentru care are 4 coloane).

6
Frecvenţa unei modalităţi poate fi de mai multe feluri, în funcţie de modul în care este determinată:
- efectiv sau frecvenţă brută = numărul de indivizi ce corespund modalităţii respective;
- frecvenţă relativă = proporţia, eventual procentuală, a efectivului unei modalităţi din totalul N al indivizilor
populaţiei.
Fiecare dintre aceste două tipuri poate fi, la rândul său, de două feluri:
- frecvenţă simplă, care corespunde unei modalităţi oarecare, independent de celelalte modalităţi;
- frecvenţă cumulată, care se obţine prin cumularea frecvenţelor simple ale tuturor modalităţilor care, în cadrul
şirului ordonat de modalităţi, sunt anterioare modalităţii pentru care se calculează frecvenţa cumulată.
7
Esenţa acestei prime etape de prelucrare a datelor de observaţii, în vederea prezentării distribuţiei sub formă
tabelară, este bine surprinsă de termenul corespunzător în literatura de specialitate franceză: „tableau de
dénombrement” (tabel de numărare).
8
În cazul variabilelor cantitative continui cu număr foarte mare de modalităţi se procedează, pentru reducerea
volumului de muncă, la o grupare a modalităţilor în clase de valori, urmând a se determina frecvenţa fiecărei clase
prin numărarea elementelor ale căror valori sunt cuprinse între limitele clasei respective. Noţiunea de „clasă” este
utilizată curent în descrierea distribuţiilor de frecvenţe ale variabilelor cantitative şi, prin extindere, ale variabilelor
calitative.

14
Histograma este un grafic al repartiţiei pe clase de valori, format dintr-o succesiune de
dreptunghiuri (coloane) alăturate ce au suprafeţele
proporţionale cu frecvenţele claselor
corespunzătoare (vezi fig.1.3). Ca formă de Tabel 1.4. Tabelul distribuţiei de frecvenţe pentru
o variabilă cantitativă discretă sau calitativă
prezentare a unei distribuţii de frecvenţe ea nominală.
prezintă avantajul că permite o comparare mai
Caracteristica Efectiv Frecv.relativă
rapidă şi mai precisă a frecvenţelor diferitelor X e f%=(e/N)*100
modalităţi, dar şi o evidenţiere mai pregnantă a
grupurilor de modalităţi cu frecvenţe mari/mici x1 e1 f1
x2 e2 f2
din cadrul domeniului de variaţie a caracteristicii. . . .
Modul concret de prezentare a unei . . .
distribuţii statistice depinde de tipul caracteristicii . . .
xi ei fi
după care este repartizată populaţia şi de raportul . . .
dintre numărul de elemente ale populaţiei (N) şi . . .
numărul de modalităţi ale caracteristicii (n). În . . .
felul acesta se disting trei cazuri: x n e n fn

Σei = N Σfi = 100


a) Caracteristici cantitative discrete, sau calitative
nominale, având un număr de modalităţi inferior
numărului de elemente ale populaţiei (n<N)
Tabelul de distribuţie va fi unul simplu, incluzând, pentru a facilita comparaţiile între
frecvenţele diferitelor clase, o a treia coloană cu frecvenţele relative simple exprimate
procentual sau ca numere subunitare (vezi tab.1.4).
Reprezentarea grafică uzuală este, în acest caz, diagrama în bastoane (vezi fig.1.2). Dacă
avem de-a face cu o variabilă discretă,
modalităţile trebuie ordonate; la variabilele Figura 1.2. Repartiţia născuţilor vii după rangul născutului
calitative nominale nu mai contează viu în România, 1979 (după V.Trebici & colab.,1985).
ordonarea.

b) Caracteristici calitative având numărul


de modalităţi egal cu numărul de elemente
ale populaţiei (n=N)
Este cazul tipic pentru
caracteristicile calitative ordinale, dar
apare uneori şi la cele nominale care joacă
rol de identificatori exclusivi ai
elementelor populaţiei (de ex. seria
paşaportului, pentru populaţia umană dintr-
o regiune).
Întrucât N=n, este clar că nu este
nevoie de un tabel de distribuţie a
frecvenţelor, sau o reprezentare grafică,
pentru prezentarea distribuţiei (toate frecvenţele sunt egale cu 1).

c) Caracteristici cantitative continui, sau asimilabile cu acestea (discrete, dar cu număr foarte
mare de modalităţi)
În acest caz, întrucât numărul modalităţilor este foarte mare (potenţial infinit),
operaţiunea de stabilire a frecvenţelor fiecărei modalităţi este practic imposibilă. Din acest
motiv, ca şi pentru o concentrare a informaţiei oferite de datele brute, devine necesară gruparea

15
modalităţilor în clase9; prin numărarea elementelor ce corespund modalităţilor din interiorul
claselor se determină frecvenţele acestora din urmă.

Gruparea modalităţilor caracteristicii pe clase de valori trebuie să respecte următoarele


reguli:
· reuniunea claselor (privite ca mulţimi de valori) trebuie să acopere cel puţin domeniul
de variaţie al caracteristicii ( condiţia de exhaustivitate); altfel spus, valorile extreme trebuie
obligatoriu incluse în clasele corespunzătoare (clasele extreme);
· clasele de modalităţi să fie două câte două disjuncte, astfel încât intersecţia lor să fie
nulă ( condiţia de incompatibilitate); altfel spus, limita superioară a unei clase nu poate fi
identică cu limita inferioară a clasei următoare. Această condiţie este necesară pentru a evita
situaţiile în care una şi aceeaşi valoare, egală cu cele două limite, este inclusă în două clase
vecine.

Exemplu. Se cere alcătuirea distribuţiei de frecvenţe pentru variabila „temperatura


medie zilnică în luna iunie” ale cărei modalităţi acoperă intervalul 1971-1990 (20 ani x 30 zile =
600 de valori). Pentru aceasta se procedează la împărţirea intervalului total de variaţie în clase
de valori. Analiza valorilor din şirul iniţial sugerează o amplitudine a claselor de 5°C; în
condiţiile în care valoarea minimă este de 6,5°C, iar cea maximă de 34,2°C, aceasta permite
separarea unui număr de 6 clase de temperaturi:

(5,0;10,0]; (10,0;15,0]; (15,0;20,0]; (20,0;25,0]; (25,0;30,0]; (30,0;35,0]

Se observă ca sunt satisfăcute ambele condiţii de mai sus. Astfel, cele două clase de la
extremităţi includ valorile extreme de temperatură, iar condiţia de incompatibilitate este
satisfăcută prin modul de delimitare a intervalelor de clasă: interval deschis în cazul limitelor
inferioare, respectiv închis în cazul limitelor superioare. La acelaşi rezultat practic (satisfacerea
condiţiei de incompatibilitate) se ajunge dacă, lăsând intervalele de clasă închise la ambele
capete, se stabilesc limitele inferioară, respectiv superioară ale claselor succesive în aşa fel încât
ele să nu coincidă. În felul acesta clasele din exemplul nostru se modifica astfel:
[5,0..9,9];[10,0..14,9];...;[30,0..34,9] (vom ţine cont de faptul că temperatura aerului se
exprimă în grade şi zecimi, astfel încât orice valoare din şir va fi inclusă în una sau alta dintre
clase, neexistând pericolul de a rămâne vreuna pe dinafară).

9
Prin clasă se înţelege o subdiviziune a domeniului de variaţie a variabilei. Pentru clasele constituite din grupe de
valori trebuie determinate elementele caracteristice ale acestora: limitele (inferioară şi superioară), amplitudinile
claselor (care pot fi egale sau inegale) şi centrele claselor (valorile situate în mijlocul claselor, ca medii aritmetice
ale celor două limite de clasă). O schemă simplă ar putea facilita înţelegerea acestor noţiuni:
clasa 1: [li1..c1..ls1], iar a1=ls1-li1;
clasa 2: [li2..c2..ls2], iar a2=ls2-li2;
.
.
clasa n: [lin..cn..lsn], iar an=lsn-lin.
Semnificaţia notaţiilor: li - limita inferioară a unei clase; ls - limita superioară; c - centrul de clasă; a - amplitudinea
clasei.

16
Construcţia tabelului de distribuţie este asemănătoare cu cea de la punctul (a), cu
deosebirea că în locul modalităţilor individuale apar acum clasele de modalităţi. Pentru
caracterizarea completă a distribuţiei de frecvenţe în tabel se mai introduc două coloane,
corespunzând frecvenţelor
cumulate ascendent, respectiv Tabel 1.5. Tabelul de distribuţie a frecvenţelor pentru o variabilă cantitativă
descendent10 (vezi tab.1.5). continuă sau una discretă cu număr foarte mare de modalităţi.
Caracteristica Efectivul Frecv.relativă Frecvenţa cumulată
Reprezentările grafice X e f%=(e/N)×100
uzuale sunt, în acest caz, ascendent descendent
histogramele şi curbele c1 e1 f1 fca1=f1 fcd1=100
cumulative. c2 e2 f2 fca2=fca1+f2 .
. . . . .
. . . . .
Histograma (vezi . . . . .
fig.1.3, 1.4-a) se construieşte ci ei fi fcai=fcai-1+fi fcdi=fcdi+1+fi
într-un sistem de coordonate . . . . .
rectangulare: pe abscisă se trec . . . . .
. . . . fcdn-1=fcdn+fn-1
valorile care delimitează cn en fn fcan=100 fcdn=fn
clasele, iar pe ordonată valorile ci-1<ci<ci+1 Σei = N Σfi = 100
frecvenţelor.
Atunci când clasele au o
amplitudine constantă
dreptunghiurile au lăţimi (baze)
egale, iar înălţimile lor sunt proporţionale cu frecvenţele de clasă.
În cazul distribuţiilor cu clase de amplitudine variabilă, însă, relaţia de proporţionalitate trebuie
aplicată la suprafeţele dreptunghiurilor, Figura 1.3. Distribuţia celor 80 de studenţi ai anului I
nu la înălţimile lor. Geografie după nota obţinută la disciplina Geografie generală.
Soluţia uzuală a acestei probleme constă
în alegerea unui interval-etalon de clasă,
a cărui amplitudine (de preferinţă
unitară) să fie divizor comun al
amplitudinii tuturor celorlalte clase.
Câtul dintre amplitudinea unei clase
oarecare şi amplitudinea clasei-etalon,
calculat atunci când amplitudinea clasei-
etalon nu este unitară, serveşte la
reducerea (prin împărţire) frecvenţei de
clasă la frecvenţa clasei-etalon, rezultând
aşa-numitele „frecvenţe medii” (vezi
tab.1.6 şi fig.1.4-b, în care amplitudinea
clasei-etalon este egală cu 1). În felul
acesta dreptunghiurile histogramei, cu
lăţimi (baze) inegale, întrucât
proporţionale cu amplitudinile claselor corespunzătoare, vor avea înălţimi proporţionale cu
frecvenţele reduse („medii”) aferente claselor respective.

10
Cumularea frecvenţelor relative simple se numeşte ascendentă, respectiv descendentă în raport cu ordinea
(crescătoare) a claselor de valori din tabel. De aceea în tab.1.5 frecvenţele cumulate ascendent se succed de sus în
jos (în sensul creşterii valorilor claselor), iar cele cumulate descendent se succed de jos în sus (în sensul descreşterii
valorilor claselor).

17
Tabel 1.6. Tabelul de distribuţie a frecvenţelor pentru o variabilă cantitativă continuă sau una
discretă cu număr foarte mare de modalităţi, cazul claselor cu amplitudine inegală: rata
şomajului în departamentele regiunii Franche Comte, Franţa, în 1982.

Caracteristica X Amplitudinea Raportul Efectivul Frecv.simplă Frecv.medie Frecvenţa


(rata şomajului,%) ai ri=ai/1 ei fi% fmi=fi/ri cumulată
asc. desc.
[5;6) 1 1 1 7,7 7,7 7,7 100
[6;8,5) 2,5 2,5 5 38,5 15,4 46,2 92,3
[8,5;11) 2,5 2,5 5 38,5 15,4 84,7 53,8
[11;13) 2 2 2 15,4 7,7 100 15,4
Total Σei = 13 Σfi = 100%

Figura 1.4. Histograma unei distribuţii de frecvenţe cu clase de amplitudini


egale (a) şi inegale (b).
Prin
unirea
punctelor
situate la
mijlocul
părţilor
superioare ale
dreptunghiurilo
r se obţine o
linie frântă
cunoscută sub
denumirea de
„poligonul
frecvenţelor”
(vezi fig.1.3).
Suprafaţa
cuprinsă între
linia poligonală
şi axa absciselor este aproximativ egală cu suprafaţa histogramei (egalitatea perfectă există
atunci când numărul de clase este infinit). Poligoanele frecvenţelor se utilizează frecvent pentru
prezentarea simultană pe acelaşi grafic a mai multor distribuţii.

Curbele cumulative se construiesc la fel ca şi histogramele, cu două deosebiri:


- se folosesc frecvenţele cumulate (ascendent sau descendent) în locul celor simple;
- pe grafic nu mai apar dreptunghiurile întregi, ci doar lăţimile de la partea lor
superioară; acestea se unesc apoi prin linii verticale, ceea ce conferă curbei cumulative aspectul
specific de curbă în trepte (vezi fig.1.5). Atunci când numărul de clase este foarte mare graficul
în trepte tinde către o curbă „netezită” având aproximativ forma literei S, respectiv S întors;
analogia de formă poate fi făcută şi cu simbolul matematic pentru integrală ( ∫ ), cu atât mai mult
cu cât, în sens matematic, curba frecvenţelor cumulate ascendent reprezintă integrala curbei
frecvenţelor simple (în cazul distribuţiilor cu număr infinit de clase).
Curbele frecvenţelor cumulate permit, ca şi histogramele, localizarea, în cadrul
intervalului total de variaţie, a claselor sau grupelor de clase cu frecvenţe mari (pantă mai
accentuată a curbei) sau mici (pante mai reduse). Dar importanţa lor deosebită pentru analizele
statistice rezultă din faptul că ele permit aflarea răspunsului la două întrebări complementare:

a) care este proporţia (sau frecvenţa, sau, la limită, probabilitatea) cazurilor cărora le
corespunde o modalitate inferioară sau superioară unei anumite valori-prag?

18
Din fig.1.5-a reiese destul de clar, credem, modul de rezolvare a acestei probleme: fiind dată
nota-limită 7,50, din grafic rezultă prin citire directă că 71% din studenţi au note mai mici, sau
cel mult egale cu aceasta, în timp ce diferenţa până la 100%, adică 29% din studenţi, au note
mai mari decât nota-limită. Dacă distribuţia ar avea o infinitate de clase, atunci am putea spune -
trecând de la noţiunea de frecvenţă la cea de probabilitate - că probabilitatea unei valori mai
mici sau cel mult egale cu 7,50, numită probabilitate sau asigurare de nedepăşire, este de 0,71
(sau 71%); probabilitatea complementară, numită probabilitate sau asigurare de depăşire, va fi
de 1-0,71 = 0,29 (sau 29%).
Deoarece graficul din fig.1.5-a permite citirea directă a asigurării de nedepăşire, el mai

Figura 1.5. Curba cumulativă ascendent (a) şi descendent (b).

poartă denumirea de graficul (curba) asigurării de nedepăşire. Prin comparaţie, curba


cumulativă descendent din fig.1.5-b, care permite citirea directă a asigurării de depăşire, se mai
numeşte graficul (curba) asigurării de depăşire sau pur şi simplu grafic (curbă) de asigurare
(denumire folosită curent în hidrologie şi climatologie).

b) care este modalitatea (valoarea) căreia îi corespunde o proporţie dată a cazurilor cu


valori inferioare sau superioare modalităţii respective?
Este clar că pentru rezolvarea acestei probleme demersul este invers: proporţia (frecvenţa,
probabilitatea) se identifică pe ordonata graficului, iar valoarea căutată se citeşte direct de pe
abscisă . Dacă se utilizează graficul din fig.1.5-a, atunci valoarea găsită este aceea faţă de care
proporţia dată include cazurile mai mici, sau cel mult egale cu aceasta (urmând ca diferenţa
până la 100% să includă cazurile mai mari ca valoarea respectivă); cu graficul din fig.1.5-b,
proporţia dată include, dimpotrivă, cazurile mai mari sau cel mult egale cu valoarea citită direct
de pe abscisa graficului.

O problemă foarte importantă, asupra căreia trebuie insistat, este aceea a stabilirii
claselor de frecvenţe, deoarece de aceasta depind atât prelucrările ulterioare, cât şi
corectitudinea rezultatelor şi a interpretărilor acestora. În legătură cu această operaţiune
fundamentală două aspecte au un rol deosebit: stabilirea numărului de clase şi fixarea limitelor
claselor (implicit, a amplitudinii claselor).
a) Stabilirea numărului de clase. Numărul de clase depinde, în general, de numărul de
modalităţi ale caracteristicii (numărul de valori din şir). Nu putem grupa 30 de valori în 10 clase
(o medie de 3 valori/clasă), căci frecvenţele ar fi prea mici şi nu ar putea să sintetizeze

19
distribuţia statistică. La fel, fixarea unui număr de 5 clase pentru un şir de 3000 de valori este
inacceptabilă, căci acest lucru ar simplifica grosier repartiţia, ducând la o pierdere de informaţie.
Nu există o reţetă infailibilă pentru stabilirea numărului de clase. Cei mai mulţi
statisticieni recomandă un număr de clase cuprins între 7 şi 15. Unii au încercat să găsească o
soluţie matematică acestei probleme, ajungând la nişte formule orientative de calcul. Iată doua
exemple:
- relaţia Huntsberger:
k = 1 + 3.3 * log(n) ;
- relaţia Brooks-Caruthers:
k < 5 * lg(n)
în care k = numărul de clase, n = efectivul total al modalităţilor (nr. de valori din şir).
b) Fixarea limitelor claselor (şi, implicit, a amplitudinilor de clasă) este o operaţiune
hotărâtoare pentru sintetizarea corectă a distribuţiei valorilor în cadrul intervalului total de
variaţie. Pentru a se limita cât mai mult erorile cauzate de împărţirea în clase se urmăreşte, de
obicei, respectarea a două reguli: limitele claselor să varieze regulat, iar repartizarea valorilor pe
clase să fie cât mai uniformă. Din păcate, cele două cerinţe sunt antagonice: dacă se stabilesc
limitele de clasă ca termeni ai unei progresii regulate, se obţin frecvent fie clase vide (dar, din
motive de corectitudine a prelucrărilor ulterioare, se recomandă ca efectivul unei clase să nu fie
mai mică de 5), fie clase foarte „aglomerate”; dacă se încearcă o repartizare uniformă a valorilor
pe clase, atunci limitele succesive nu urmează o progresie regulată, rezultând clase cu
amplitudini inegale.
Inegalitatea amplitudinilor de clasă atrage după sine imposibilitatea comparării directe a
frecvenţelor claselor. În acest caz se calculează aşa-numitele „frecvenţe medii”, ca raporturi
între frecvenţele de clasă şi frecvenţa clasei cu cea mai mică amplitudine (numită „clasă de
referinţă”); acestea vor fi apoi utilizate în prelucrările ulterioare şi în construirea graficelor de
distribuţie (histograme şi curbe cumulative).
Este clar că stabilirea unor clase cu amplitudini inegale duce la creşterea volumului de
muncă în vederea alcătuirii distribuţiei de frecvenţe. De aceea se va evita, pe cât posibil, această
alternativă de lucru şi se va încereca fixarea unor limite de clasă care să se succeadă într-o
progresie regulată.
Cele mai utilizate progresii sunt progresia aritmetică, progresia geometrică şi cea
pătratică. Cu ajutorul lor limitele se pot stabili precis, utilizând valorile extreme şi numărul de
clase.
- în cazul progresiei aritmetice diferenţele dintre două limite succesive, respectiv
amplitudinile de clasă, sunt constante şi se obţin în felul următor:
M -m
a=
k 0,
unde a = amplitudinea (şi rata progresiei, în acelaşi timp), M = valoarea maximă din şir, m =
valoarea minimă, k = numărul de clase. Limitele obţinute vor fi respectiv m, m+a, m+2a, ...,
m+ka=M. Neajunsul principal al acestei metode este că detaliază în mod exagerat zona
valorilor extreme din şir (acolo unde, de regulă, exista un număr mai mic de valori).
- în cazul progresiei geometrice limitele de clasă succesive se obţin prin înmulţirea cu
un raport constant R. Acest raport (rata progresiei) se calculează astfel:
M
R= k (m > 0)
m 0,
iar limitele vor fi de forma m, R×m, R²×m, R³×m, ..., Rk×m=M. Neajunsul acestei metode este
acela că detaliază, în cadrul distribuţiei de frecvenţe, zona valorilor mici, iar amplitudinile sunt
inegale. În plus, metoda nu se poate aplica decât dacă m este strict pozitiv. Pentru uşurarea

20
calculelor se poate valorifica faptul ca logaritmii limitelor urmează o progresie aritmetică - deci
limitele vor fi de forma log(m), log(m)+log(R), log(m)+2×log(R) etc.
- progresia pătratică, prin proprietăţile sale, elimină dezavantajele primelor două.
Limitele succesive se obţin prin ridicarea la pătrat a termenilor unei progresii aritmetice la care
raţia se calculează cu formula:
M - m
P=
k ,
rezultând seria: m, ( m 0+P)², ( m 0+2P)², ..., ( m 0+kP)².
În general vorbind, progresia aritmetică este aplicabilă mai ales în cazul distribuţiilor
uniforme sau/şi simetrice, pe când celelalte două sunt utile în cazul distribuţiilor asimetrice11.

Odată fixate numărul de clase, limitele şi amplitudinile acestora, se determină efectivele,


frecvenţele relative simple (sau medii) şi cele cumulate şi, pe baza acestora, se construiesc
histogramele şi curbele cumulative. aşa cum s-a menţionat deja, se obişnuieşte o „netezire”
(ajustare) a poligoanelor frecvenţelor, respectiv a curbelor cumulative. Curbele ajustate se
compară, apoi, cu nişte curbe teoretice în ceea ce priveşte numărul şi poziţia, în cadrul
intervalului de variaţie, ale claselor cu frecvenţă maximă. Din acest punct de vedere se pot
întâlni mai multe cazuri tipice de curbe ale frecvenţelor relative simple/medii (vezi fig.1.6):

Figura 1.6. Câteva forme tipice ale unor curbe de distribuţie a frecvenţelor întâlnite în geografie.

a) curbă în formă de clopot (cu un singur maxim de frecvenţă) şi simetrică - în acest caz
distribuţia se numeşte unimodală12 şi simetrică, apropiată ca formă de aşa-numita curbă
normală sau „clopotul lui Gauss” (fig.1.6-a: presiunea atmosferică medie lunară). Curba
normală este o curbă teoretică fundamentală pentru Statistică şi asupra ei vom reveni pe larg
într-unul din capitolele următoare;

11
La nivelul acestui prim capitol simetria/asimetria unei distribuţii de frecvenţe s-ar putea defini astfel: spunem că
o distribuţie este simetrică atunci când clasele cu cele mai mari frecvenţe se grupează spre mijlocul intervalului total
de variaţie; dimpotrivă, distribuţia este asimetrică atunci când clasele cu frecvenţe mari se grupează spre
extremităţile intervalului total de variaţie (fie în zona valorilor mici, fie în cea a valorilor mari).
12
Noţiunea de mod sau valoare modală a unei distribuţii statistice va fi discutată în capitolul următor.

21
b) curbă în formă de J sau J întors, cu maximul de frecvenţă în imediata apropiere a
unuia din capetele intervalului de variaţie (fig.1.6-c: presiunea atmosferică minimă absolută
lunară; fig.1.6-d: debite minime lunare ale ale Bahluiului la Iaşi, 1956-1992). Este un tip de
curbă destul de răspândită în geografie - de ex. la distribuţiile de frecvenţe ale cantităţilor zilnice
de precipitaţii (majoritatea dintre acestea fiind, de regulă, sub 1 mm). Asimetria unei astfel de
curbe este maximă;
c) curba unimodală cu asimetrie intermediară este cea mai frecventă în cazul
distribuţiilor de frecvenţe ale variabilelor geografice (fig.1.6-b: umezeala relativă a aerului -
toate datele meteo sunt pentru staţia Iaşi, 1961-1992);
d) curbele bimodale sau chiar plurimodale sunt
cele la care apar două sau mai multe maxime de
frecvenţă. Prezenţa mai multor maxime indică, de
regulă, un amestec de populaţii diferite în cadrul
eşantionului prelucrat (fig.1.7).
e) curbele amodale sunt cele la care nu se
evidenţiază clar unul sau mai multe maxime de
frecvenţă. În această categorie pot fi incluse curbele în
formă de U (la care, deci, maximele de frecvenţă sunt
plasate la extremităţile intervalului de variaţie. Figura 1.7. Distribuţia ţărilor lumii după
Toate tipurile de distribuţii statistice cărora le consumul zilnic de calorii pe cap de locuitor.
corespund curbele de mai sus pot fi caracterizate
numeric cu ajutorul unui număr relativ redus de indici (parametri) sintetici care permit două
operaţiuni de bază în analizele statistice:
1° compararea între ele a curbelor şi, implicit, a distribuţiilor corespunzătoare;
2° compararea acestora cu nişte curbe (distribuţii) teoretice care joacă rolul unor modele
de referinţă.

22
CAP.II. PARAMETRII UNEI DISTRIBUŢII STATISTICE.

Pentru caracterizarea numerică sintetică a unei distribuţii statistice, implicit a curbei de


distribuţie corespunzătoare, se determină patru tipuri de parametri (indici), fiecare tip descriind
anumite caracteristici ale acestora:
- parametrii de nivel, numiţi deseori şi parametri aitendinţei centrale sau valori
centrale. Sunt numiţi parametri „de nivel” pentru că ei exprimă nivelul până la care se dezvoltă
(„urcă”) ansamblul valorilor distribuţiei; „valori centrale” deoarece ei se plasează, îndeobşte, în
zona de maximă concentrare a valorilor (zona frecvenţelor maxime), astfel încât în jurul lor se
plasează, la distanţe mai mari sau mai mici, celelalte valori din şir;
* parametrii dispersiei, care exprimă gradul de împrăştiere a valorilor din şir în jurul
valorilor centrale;
* indicii de asimetrie, care exprimă asimetria curbelor de distribuţie, adică măsura
(cantitativă ) în care maximul de frecvenţă este deplasat spre stânga sau spre dreapta faţă de
centrul intervalului de variaţie;
* indicii de exces, care exprimă numeric gradul de grupare (concentrare) a valorilor din
şir în apropierea valorilor centrale, de aici decurgând forma mai ascuţită sau, dimpotrivă, mai
aplatizată, a curbelor de distribuţie.
Deoarece se referă explicit la curbele de distribuţie, ultimele două tipuri de parametri
sunt grupaţi uneori sub denumirea de parametrii formei (curbei de distribuţie).

2.1. Valorile centrale

Trei sunt parametriitendinţei centrale care sunt mai des utilizaţi în analizele statistice:
modul, mediana şi media (aritmetică).

2.1.1. Modul (sau moda, sau valoarea modală) (Mo)

În cazul caracteristicilor calitative sau cantitative discrete, modul este valoarea


dominantă din şir (valoarea cu cea mai mare frecvenţă) şi ea se obţine direct din tabelul de
distribuţie.
În cazul distribuţiilor cu clase de frecvenţe (caracteristici cantitative continui) se
vorbeşte despre o „clasă modală”, care este clasa căreia îi corespunde cea mai mare frecvenţă.
Valoarea modală se calculează cu ajutorul unei formule care ia în considerare atât clasa modală,
cât şi clasele vecine acesteia, formulă bazată pe principiul interpolării liniare (în ipoteza că
valorile sunt uniform distribuite în interiorul clasei modale):
∆1
Mo = l i(Mo) + * a(Mo)
∆1 + ∆ 2 ,
∆ =f -f ∆ =f -f
unde 1 (Mo) (Mo-1) , iar 2 (Mo) (Mo+1) . Simbolurile folosite reprezintă:
Mo - modul;
li(Mo) - limita inferioară a clasei modale;
f(Mo) - frecvenţa clasei modale;
f(Mo-1) - frecvenţa clasei de dinaintea celei modale (clasele fiind ordonate crescător);
f(Mo+1) - frecvenţa clasei de după cea modală;
a(Mo) - amplitudinea clasei modale.

23
Prin comparaţie cu celelalte valori centrale, modul prezintă unele avantaje, dar şi unele
dezavantaje.
Avantaje:
· este singura valoare centrală care poate fi determinată în cazul caracteristicilor
calitative nominale - de aceea este deosebit de important pentru geografie, unde se lucrează
deseori cu date de acest tip;
· este util atunci când se urmăreşte reliefarea unei trăsături dominante a
fenomenului analizat pe baza datelor de observaţii - de ex. suprafaţa lacurilor dintr-un teritoriu,
sau numărul de locuitori/comună, unde modul poate indica predominarea unei categorii sau
alteia de mărime. În felul acesta „modul poate fi expresia unei structuri spaţiale ce
caracterizează o regiune, căci el poate traduce o dominantă în climat, peisaj, economie etc.”
(Chadule, 1974).
Dezavantaje:
· întrucât este legat numai de frecvenţă, modul nu reuşeşte să caracterizeze
suficient o distribuţie;
· poziţia şi, eventual, numărul claselor modale13 depind foarte mult de modul de
grupare în clase; o schimbare a numărului de clase sau a limitelor acestora poate provoca
modificări dramatice în acest sens;
· la unele distribuţii statistice este posibil ca modul să nu existe, altfel spus nu se
pune în evidenţă o valoare, sau o clasă modală, cu frecvenţă maximă;
· prin felul cum se determină, valoarea modală nu posedă calităţi aritmetice bine
definite şi, deci, nu poate fi preluată în calcule ulterioare pentru derivarea unor caracteristici
suplimentare ale distribuţiilor statistice.

2.1.2. Mediana (valoarea mediană) (Me)

Mediana este valoarea situată la mijlocul şirului de modalităţi ordonate crescător (sau
descrescător, în unele cazuri), împărţindu-l în două jumătăţi egale, astfel încât jumătate din
valorile şirului se află deasupra, iar jumătate dedesubt.
Ea mai este numită „medie probabilă”, în sensul că există o probabilitate de 0,5 (sau
50%) ca o valoare oarecare din şir să fie inferioară/superioară medianei.
În cazul şirurilor de valori individuale (caracteristici cantitative discrete) mediana se
calculează diferit, după cum numărul de valori din şir (n) este par sau impar:
x k + x k +1
Me =
· n = 2k (număr par): 2 ,
adică mediana este media aritmetică a celor două valori din mijlocul şirului;
· n = 2k+1 (număr impar): Me = x k +1 ,
adică mediana este chiar valoarea din mijlocul şirului.
În cazul distribuţiilor cu clase de frecvenţe avem de-a face cu o „clasă mediană”, care
este prima clasă (în sensul, crescător sau descrescător, al ordonării claselor) la care frecvenţa
cumulată depăşeşte 50%. Pentru determinarea medianei se iau în considerare caracteristicile
acestei clase, precum şi frecvenţa cumulată a clasei anterioare. Formula de calcul este
următoarea:
a(Me)
Me = l i(Me) + (50% - f c(Me-1) )
f (Me)
, unde
Me - mediana;

13
Distribuţiile cu un singur maxim de frecvenţă (un singur mod) se numesc distribuţii unimodale; în cazul
distribuţiilor bi- sau plurimodale vom avea un mod principal şi unul, respectiv mai multe moduri secundare.

24
li(Me) - limita inferioară a clasei mediane;
a(Me) - amplitudinea clasei mediane;
f(Me) - frecvenţa simplă a clasei mediane;
fc(Me-1) - frecvenţa cumulată a clasei dinaintea celei mediane.
Avantajele medianei faţă de celelalte valori centrale:
· prin definiţie, mediana este valoarea cea mai apropiată, ca poziţie, de toate
celelalte valori din şir; altfel spus, suma distanţelor, în valoare absolută, dintre mediană şi
celelalte valori din şir este minimă, aserţiune care poate fi formalizată astfel:
n
∑ | x i - A |= minim
i=1 , dacă A este mediana14.
Această însuşire este importantă în unele probleme de ordin practic.

Exemplu. De-a lungul unei autostrăzi cu lungimea de 600 km sunt amplasate 6 staţii de
benzină, conform schiţei de mai jos:

_n______n____________n___n___________n___________n
5 100 250 300 450 600 km

Se cere să se găsească poziţia optimă a unui depozit de carburant, în aşa fel încât cheltuielile de
transport pentru aprovizionarea celor 6 staţii să fie minime.
Conform proprietăţii menţionate mai sus, amplasamentul optim al depozitului va fi în
punctul ce corespunde medianei celor 6 distanţe (kilometrul 275 al autostrăzii). Suma
distanţelor dintre acest punct şi staţiile de benzină este de 975 km, mai mică decât suma
distanţelor dintre orice alt punct şi staţiile respective - pentru comparaţie să luăm punctul ce
corespunde mediei aritmetice (kilometrul 284), faţă de care distanţele însumate totalizează 995
km.

· spre deosebire de următorul parametru (media), mediana nu este influenţată de valorile


extreme ale şirului, menţinându-se astfel mai aproape de zona centrală a intervalului de variaţie.

2.1.3. Media aritmetică15 ( x )

Media este valoarea centrală cea mai utilizată, datorită faptului că are proprietăţi
aritmetice clare şi, deci, poate fi utilizată în calcule ulterioare.
Pentru şirurile de valori individuale formula de calcul este cea cunoscută:
n

∑x
i=1
i

x=
, n
unde n este numărul de valori din şir.
Pentru distribuţiile de frecvenţe acest parametru se calculează ca medie a centrelor de
clasă ponderate cu frecvenţele aferente claselor respective:

14
În cazul variabilelor calitative ordinale (pentru care se poate calcula, de asemenea, o valoare mediană) relaţia de
minim nu mai are sens.
15
În analizele statistice se vehiculează şi alte tipuri de medii, în afara celei aritmetice (care rămâne, totuşi, cea mai
importantă), cum ar fi: media geometrică, media pătratică, media armonică, media glisantă ş.a. Din motive de
economie a limbajului în expunerea ulterioară termenul „medie” se va referi exclusiv la media aritmetică, urmând
ca pentru alte tipuri de medii termenul să fie însoţit de determinativul specific.

25
n
∑ xi * f i
x = 1n
i=

∑ fi
i=1 ,
unde n este numărul de clase.
Proprietăţile aritmetice ale mediei sunt următoarele:
1°. suma abaterilor valorilor din şir de la medie este nulă:
n
∑ ( xi - x ) = 0
i=1
2°. dacă valorile din şir se modifică prin adăugarea/scăderea unei constante, atunci
media creşte/scade cu aceeaşi constantă :
x 'i = x i ± a ⇒ x′ = x ± a

3°. dacă y este media unui alt şir şi di sunt diferenţele (xi - yi), atunci
n
∑ di
x = y + i=1 = y + d
n
Această proprietate este utilă, spre exemplu, în climatologie şi hidrologie pentru prelungirea
şirurilor de observaţii.
4°. suma pătratelor abaterilor valorilor din şir de la media lor aritmetică este minimă:
n
2
∑ ( xi - A ) = minim
i=1 , dacă A = x .
Această proprietate este larg utilizată în calculele ulterioare implicate de analizele distribuţiilor
statistice.
Dezavantajul mediei aritmetice este că, întrucât ia în consideraţie ordinul de mărime al
tuturor valorilor, devine sensibilă la valorile foarte mari sau foarte mici. Aceste valori extreme
pot fi deseori puţin semnificative, excepţionale sau chiar aberante (erori grosiere de observaţii
sau măsurători). În felul acesta media nu mai reflectă corect tendinţa centrală a distribuţiei
statistice.
Pe de altă parte, media „comprimă” excesiv valorile extreme, comparativ cu cele aflate
mai spre centrul repartiţiei. La distribuţiile simetrice faptul acesta contează mai puţin, însă la
cele cu asimetrie pronunţată situaţia se schimbă.

Exemplu. Într-o zonă cu climat arid şirul de precipitaţii anuale (în mm) înregistrate pe 10 ani consecutiv
etalează următoarele valori:
0; 10; 0; 0; 100; 20; 250; 0; 0; 20.
Valorile ordonate crescător, pentru determinarea modului şi a medianei:
0; 0; 0; 0; 0; 10; 20; 20; 100; 250.
Valorile centrale sunt: Mo = 0 mm; Me = 5 mm; x = 40 mm.
Este clar ca mediana, şi chiar modul, reflectă mai corect condiţiile pluviometrice din deşert; faţă de
acestea media este „trasă” în sus de către cele două valori foarte mari. Rezultă de aici şi dezavantajul de a folosi o
singură valoare centrală pentru caracterizarea unei distribuţii.

2.2. Parametrii dispersiei

Dacă datele sunt reprezentate grafic, cea mai simplă şi eficientă indicaţie asupra
împrăştierii valorilor în cadrul intervalului total de variaţie o oferă curba de distribuţie a
frecvenţelor. Pentru exprimarea numerică a acestei împrăştieri se folosesc parametrii dispersiei.

26
La determinarea acestor parametri se pot lua în considerare valorile extreme, mediana
sau media aritmetică.

2.2.1. Amplitudinea de variaţie (ω)

Reprezintă diferenţa dintre valoarile maximă şi minimă ale şirului:


ω = x max - x min
Dezavantajul principal, care face ca acest parametru să fie practic inutilizabil pentru
caracterizarea dispersiei, este că amplitudinea nu poate preciza gradul de dispersie a valorilor
faţă de o valoare centrală. Ea exprimă doar ordinul de mărime al intervalului de variaţie a
caracteristicii, presupunând că în interiorul acestuia valorile ar fi repartizate uniform (ceea ce,
de regulă, nu este adevărat). Se utilizează, totuşi, atunci când valorile extreme au o semnificaţie
deosebită pentru fenomenul studiat - de ex. amplitudinea termică absolută, în caracterizarea
gradului de continentalism climatic al unei regiuni.

2.2.2. Cuartilele şi abaterile cuartile

Dacă valoarea centrală folosită este mediana, atunci dispersia poate fi exprimată sub
forma abaterilor cuartile.
Cuartilele (sau quartile, în ortografiere etimologică) sunt parametri analogi medianei,
dar care împart şirul de valori în 4 părţi egale, fiecare incluzând 25% din valorile şirului 16. De-a
lungul unui şir ordonat crescător vom identifica, deci, un număr de 3 cuartile, notate de regulă
cu Q1, Q2 (= Me) şi Q3.Cu ajutorul acestora se pot calcula doi indici de dispersie:
· abaterea cuartilă (intercuartilă), care reprezintă diferenţa, în valoare absolută, dintre
prima şi a treia cuartilă ( Q 3 - Q1 ). Se obţine o imagine asupra dispersiei comparând abaterea
intercuartilă cu amplitudinea totală (ω);
Q 3 - Q1
· abaterea semiintercuartilă ( 2 ), care se defineşte ca „media probabilă a abaterilor
de la mediană” - altfel spus, jumătate din modalităţile caracteristicii diferă de mediană prin mai
mult decât această valoare, iar cealaltă jumătate prin mai puţin.
Având, ca şi mediana, avantajul că nu sunt influenţate de valorile extreme ale şirului,
abaterile cuartile păstrează şi dezavantajul acesteia: nu iau în considerare toate valorile, deci nu
exprimă întreaga distribuţie statistică.

2.2.3. Indici de dispersie care au la bază media aritmetică

Atunci când valoarea centrală luată în considerare este media, dispersia unei distribuţii
poate fi exprimată cu ajutorul mai multor indici.
· abaterea (absolută) medie (ea) reprezintă media aritmetică a abaterilor valorilor din şir
(în valoare absolută) de la media acestuia:
n
∑ | xi - x |
i= 1
ea =
n

16
Atunci când se doreşte o analiză mai detaliată a modului cum sunt repartizate valorile în interiorul intervalului
total de variaţie, şirul poate fi împărţit în mai mult de 4 părţi egale. Valorile care delimitează aceste subşiruri sunt
cunoscute sub denumirea generică de cuantile. Exemple de cuantile: mediană, cuartile, decile (împart şirul iniţial în
10 părţi egale), centile (împart şirul în 100 de părţi) etc.

27
La distribuţiile cu clase de frecvenţe abaterile centrelor de clasă se ponderează cu frecvenţele
aferente:
n
∑ | xi - x | f i
i= 1
ea = n
∑ fi
i=1
Întrucât lucrează cu abaterile absolute, ignorând semnul acestora, utilizarea ea în calcule
ulterioare este restrânsă;
· dispersia sau varianţa (σ²) reprezintă media aritmetică a pătratelor abaterilor valorilor
din şir de la media acestuia:
n
2
∑ ( xi - x )
2 i=1
σ =
n
Pentru distribuţiile de frecvenţe formula se modifică în mod corespunzător:
n
2
∑ ( xi - x ) f i
2 i=1
σ = n
∑ fi
i=1
Deci problema semnului abaterilor este rezolvată (corect, din punct de vedere matematic) prin
ridicarea acestora la pătrat. În schimb, semnificaţia concretă a indicelui este alterată de faptul că
unitatea de măsură a mărimii pe care o exprimă (de ex. °C, loc/km² etc.) este şi ea ridicată la
pătrat. O cale simplă de înlăturare a acestui neajuns o constituie extragerea rădăcinii pătrate din
varianţă, obţinându-se cel de-al treilea parametru şi anume
· abaterea standard (sau deviaţie standard, abatere medie pătratică, ecart-tip) (σ)
reprezintă, deci, rădăcina pătrată a varianţei unei distribuţii:
n
2
∑ ( xi - x )
σ = σ 2 = i=1
n ,
iar pentru distribuţiile de frecvenţe:
n
2
∑ ( xi - x ) f i
σ = σ 2 = i=1 n
∑ fi
i=1

Parametrii prezentaţi până aici exprimă dispersia în valori absolute, adică în valori
cărora li se poate ataşa o unitate de măsură (°C, m³/s, mm, ha, loc/km² etc). Aceasta înseamnă
că ordinul lor de mărime depinde de ordinul de mărime al valorilor distribuţiei analizate, în
speţă de ordinul de mărime al Me sau x . Acest lucru constituie un impediment atunci când
dorim să comparăm între ele mai multe distribuţii sub aspectul dispersiei. Problema se rezolvă
exprimând dispersia în procente din valoarea centrală pe baza căreia a fost estimată, rezultând
aşa-numiţii indici de variabilitate relativă. Aceşti indici sunt foarte utili în geografie, mai ales în
studierea variabilităţii spaţiale şi/sau temporale a unui fenomen.
Pornind de la parametrii de dispersie prezentaţi anterior se pot calcula trei astfel de
indici:

28
· abaterea cuartilă (intercuartilă) relativă, care reprezintă raportul procentual dintre
abaterea intercuartilă şi mediană:
Q 3 - Q1
x100
Q2
;
· variabilitatea relativă - raportul procentual dintre abaterea absolută medie şi media
aritmetică:
ea
x100
x ;
· coeficientul de variaţie (notat de regulă cu CV), ca raport procentual dintre abaterea
standard şi medie:
σ
CV = x100
x .
Cei trei indici au avantajele/dezavantajele mărimilor ce intră în calcul. Prin urmare
coeficientul de variaţie este, potenţial, cel mai potrivit pentru a fi utilizat în prelucrări ulterioare.
*
* *
Atunci când se analizează un set de date se pune problema alegerii parametrilor statistici
care să corespundă cel mai bine scopurilor analizei statistice. Fără a exista nişte reguli precise,
alegerea parametrilor de calculat trebuie să ţină cont de următoarele aspecte:
- în general este bine să se calculeze toate cele trei valori centrale: Mo (dacă avem o
distribuţie de frecvenţe), Me şi x , întrucât cu ajutorul lor poate fi evaluată asimetria distribuţiei:
i) x 0 < Me < Mo - asimetrie de dreapta, sau negativă;
ii) x 0 > Me > Mo - asimetrie de stânga, sau pozitivă;
iii) x 0 ≈ Me ≈ Mo - distribuţie cvasi-simetrică.
- scopul prelucrării datelor, ca şi faptul dacă rezultatele urmează, sau nu, să fie preluate
în calcule ulterioare. Dacă se urmăreşte doar descrierea şi caracterizarea sintetică a unor
ansambluri de date pentru a facilita înţelegerea unor fenomene, atunci modul sau mediana,
împreună cu abaterea medie, abaterile cuartile şi, eventual, variabilitatea relativă vor fi
suficiente, având în vedere şi faptul că aceşti indici sunt mai intuitivi (deci mai uşor de pus în
relaţie cu fenomenul descris). Pentru analize statistice mai complexe, însă, utilizarea mediei şi a
indicilor care au la bază media este obligatorie;
- natura datelor supuse prelucrărilor, altfel spus tipul de caracteristică a cărei distribuţie
statistică se vrea a fi analizată. Contează, deci, dacă avem de-a face cu o carecteristică calitativă
nominală sau ordinală, una cantitativă discretă sau una cantitativă continuă, întrucât, aşa cum
s-a văzut anterior, posibilitatea şi modul de calculare a parametrilor statistici diferă de la un tip
la altul;
- nivelul de înţelegere a beneficiarului rezultatelor analizei. Este clar că un beneficiar
fără cunoştinţe de statistică va prefera un material mai bogat în ilustraţii, fără prea multe
formule şi indici (cifre) ale căror semnificaţii sunt mai greu de evaluat şi interpretat;
- prezenţa/absenţa calculatorului, întrucât, aşa cum s-a văzut, determinarea unora dintre
indici presupune calcule laborioase.

2.3. Parametrii formei

Aşa cum s-a menţionat, aceşti parametri se referă în primul rând la forma poligoanelor
(curbelor) frecvenţelor. Utilizarea lor în geografie este mai puţin frecventă, deoarece capacitatea

29
lor descriptivă este mai redusă comparativ cu alţi indici statistici. Totuşi, parametrii de formă
sunt foarte utili atunci când se urmăreşte compararea unei distribuţii empirice (alcătuită pe baza
unui eşantion) cu o distribuţie teoretică susceptibilă de analogii cu distribuţia eşantionului.

2.3.1. Indici de asimetrie

Indicii (coeficienţii) de asimetrie exprimă numeric măsura în care maximul de frecvenţă


al unei distribuţii este deplasat, spre stânga sau spre dreapta, faţă de centrul intervalului de
variaţie al caracteristicii. Din multitudinea indicilor de asimetrie
oferiţi de literatura de specialitate prezentăm aici doar doi, a căror
utilizare este mai frecventă.
• coeficientul Pearson - se calculează doar pentru distribuţiile de
frecvenţe, deoarece ia în considerare modul:
x - Mo
As =
σ
În funcţie de raporturile de mărime dintre x şi Mo coeficientul
poate fi negativ, nul sau pozitiv, aceleaşi atribute fiind conferite
asimetriei distribuţiei de frecvenţe:
Figura 2.1. Asimetrie pozitivă (a)
i) x < Mo - asimetrie negativă (numărătorul din formulă şi negativă (b) a unei curbe de
este mai mic ca 0) sau de dreapta (modul este mai mare ca media, distribuţie a frecvenţelor.
ceea ce înseamnă că maximul de frecvenţă este deplasat spre
dreapta faţă de centrul intervalului de variaţie - vezi fig.2.1-b);
ii) x = Mo - asimetrie nulă. Curba de distribuţie este perfect simetrică, iar cele trei
valori centrale coincid, fiind plasate în centrul intervalului de variaţie;
iii) x > Mo - asimetrie pozitivă (numărătorul este pozitiv) sau de stânga (modul este
plasat, în cadrul intervalului de variaţie, la stânga faţă de medie şi faţă de centrul intervalului -
vezi fig.2.1-a).
• coeficientul Fisher (γ1) - ia în considerare cubul abaterilor valorilor de la media lor aritmetică:
n
3
∑ ( xi - x )
γ 1 = i=1
nσ 3
pentru şiruri de valori individuale, iar pentru distribuţia pe clase de frecvenţă
n
3
∑ ( xi - x ) f i
γ 1 = i=1 n
3
σ ∑ fi
i=1 .
Acest indice poate fi pozitiv, negativ sau nul, interpretarea asimetriei făcându-se la fel ca în
cazul coeficientului Pearson.

2.3.2. Indici de exces (de aplatizare)

Sunt indici care exprimă numeric gradul de aplatizare a curbei de distribuţie, aplatizare ce
depinde de gradul de concentrare a valorilor caracteristicii în apropierea maximului de
frecvenţă; altfel spus, de diferenţa dintre frecvenţa clasei modale şi cea a claselor din
apropiere - cu cât diferenţa este mai netă, cu atât curba va fi mai ascuţită şi invers.

30
n
4
∑ ( xi - x )
γ 2 = i=1 4 -3
Cel mai des utilizat este coeficientul γ2 al lui Fisher: n σ , iar pentru distribuţiile
n
4
∑ ( xi - x ) f i
γ 2 = i=1 n -3
4
σ ∑ fi
cu clase de frecvenţe i=1

Acest indice poate fi pozitiv, nul sau


negativ şi interpretarea lui se face astfel
(vezi fig.2.2):
i) γ 2 < 0 - curba este mai
aplatizată decât una normală şi se numeşte
platikurtică (grec. kurtosis = boltire);
ii) γ 2 = 0 - gradul de aplatizare a
curbei este identic cu cel al curbei normale;
iii) γ 2 > 0 - curba prezintă un
„exces” de boltire, deci este mai ascuţită Figura 2.2. Modificarea formei unei curbe de
decât cea normală şi se numeşte distribuţie a frecvenţelor în funcţie de excesul
leptokurtică. acesteia.

31
CAP.III. TRANSFORMAREA ŞI STANDARDIZAREA DATELOR.

Metodele de prelucrare numerică şi grafică a distribuţiilor statistice, prezentate până


acum, au fost ilustrate cu exemple în care valorile concrete erau date reale, aşa cum rezultă ele
din operaţiunile de măsurare sau, mai general, din observaţii asupra fenomenelor şi proceselor
din lumea reală.
Aplicarea metodelor menţionate direct asupra datelor de observaţii şi măsurători este pe
deplin posibilă atunci când scopul analizei nu trece dincolo de descrierea unui fenomen sau
proces cu ajutorul tabelelor, al diagramelor şi al parametrilor statistici. Situaţia se schimbă, însă,
atunci când dorim să extindem analiza (1) prin compararea mai multor distribuţii statistice, sau
(2) prin valorificarea unor modele teoretice utilizate în Statistica inferenţială.
În cazul (1) compararea directă a distribuţiilor statistice întâmpină trei tipuri de
dificultăţi:
· valorile din şiruri au ordine de mărime diferite - de ex. debitele medii zilnice ale unui
râu se exprimă prin valori de ordinul zecilor (de m³/s), în timp ce nivelurile corespondente au
ordine de mărime de ordinul sutelor (de cm);
· valorile din şiruri, chiar având acelaşi ordin de mărime, se referă la mărimi care au
unităţi de măsură diferite;
· chiar dacă nu apar dificultăţile de mai sus, este posibil ca dispersiile şirurilor, exprimate
în valori absolute, să difere foarte mult, împiedicând comparaţiile directe.
Asemenea dificultăţi pot fi înlăturate în mare parte prin operaţiunea de standardizare
(„normare”) a datelor.
În cazul (2) distribuţia empirică de frecvenţe poate să difere mult de distribuţia teoretică
ce constituie modelul de referinţă şi punctul de plecare pentru raţionamente şi inferenţe
statistice. Diferenţa dintre distribuţia empirică şi cea teoretică poate fi redusă printr-o operaţiune
de transformare a datelor din şirul supus prelucrării.

3.1. Standardizarea (normarea)

Standardizarea este acţiunea de transformare a datelor iniţiale în aşa fel încât să devină
posibile comparaţiile între două sau mai multe distribuţii empirice, sau între o distribuţie
empirică şi una teoretică, indiferent de ordinul de mărime, dispersie sau unităţi de măsură.
Standardizarea combină două operaţiuni: centrarea şi reducăia.
1° centrarea valorilor unui şir constă, în general vorbind, în înlocuirea valorilor
originale cu abaterile acestora de la valoarea de referinţă: mediana, media, sau o valoare
oarecare, considerată semnificativă pentru scopul analizei statistice. De remarcat, însă, că
centrarea, ca primă etapă în cadrul standardizării, presupune centrarea valorilor în raport cu
media aritmetică. Valorile centrate au o caracteristică ce derivă din proprietăţile mediei
aritmetice, anume aceea că suma lor este nulă. Dacă X este variabila analizată, iar X ′ este
n
∑ x i′ = 0
variabila centrată, atunci x i ′ = x i - x , iar i=1 .
2° reducţia unei variabile constă, în general vorbind, în împărţirea valorilor acesteia la
abaterea standard:
xi
x i′ =
σ .
Ca o a doua etapă a standardizării, însă, reducăia se aplică variabilei centrate:

32
xi - x
x i′ =
σ
.
O proprietate importantă a unei variabile reduse este aceea că abaterea sa standard este egală cu
unitatea: σx’ = 1.
Prin urmare o variabilă standardizată (centrată + redusă) este o variabilă a cărei medie
este întotdeauna 0 şi a cărei abatere standard este întotdeauna 1. Valorile standardizate exprimă
abaterile valorilor variabilei originale de la media lor aritmetică, abateri care sunt măsurate în
număr de abateri standard. În felul acesta dispar unitatea de măsură, dispersia şi ordinul de
mărime ale variabilei şi devine posibilă compararea directă cu altă/alte variabile standardizate,
întrucât ele vor avea aceeaşi medie (0), aceeaşi dispersie (1) şi diferă numai prin mărimea
abaterilor valorilor lor de la medie.

3.2. Transformarea

O parte din interpretările şi concluziile referitoare la o distribuţie empirică are la bază


prezumţia că aceasta urmăreşte îndeapraoape distribuţia normală, în ceea ce priveşte alura
curbei de distribuţie, asimetria, excesul.
Ori, în realitate, deseori această prezumţie
nu se verifică şi din această cauză
caracteristicile distribuţiei normale nu mai
pot fi valorificate în relaţie cu distribuţiile
empirice. O soluţie la îndemână în
asemenea cazuri este aceea de a manipula
datele de observaţii în aşa fel, încât
distribuţia empirică să se apropie cât mai
mult de cea normală. Se procedează, deci,
la o transformare matematică a valorilor
variabilelor, care are drept rezultat o
concordanţă mai bună între distribuţia
empirică şi cea teoretică. Întrucât Figura 3.1. Normalizarea unei distribuţii de frecvenţe
distribuţia teoretică vizată este, cel mai (tensiunea medie lunară a vaporilor de apă la staţia Iaşi, 1961-
adesea, cea normală, transformarea 1992).
datelor originale mai poartă denumirea de
„normalizare”.
Posibilităţile de transformare sunt multiple, însă doar câteva dintre ele sunt mai des
utilizate, întrucât şi-au demonstrat eficienţa: transformarea prin logaritmarea valorilor variabilei,
prin extragerea radicalului din acestea şi prin ridicarea lor la putere. Experienţa dobândită în
acest domeniu recomandă transformările prin logaritmare şi extragerea radicalului pentru
corectarea asimetriilor pozitive (vezi fig.3.1), iar cele prin ridicare la pătrat pentru corectarea
asimetriilor negative ale distribuţiilor empirice.
De menţionat că pentru interpretarea rezultatelor unei analize făcute asupra unui şir de
valori transformate, în termenii reali ai problemei în discuţie, acestea, ca şi valorile, trebuie re-
transformate în forma lor originală .

33
CAP.IV. FUNDAMENTUL PROBABILIST AL JUDECĂŢILOR STATISTICE

4.1. Distribuţia (curba) normală şi caracteristicile sale

S-a menţionat anterior că unul din scopurile prelucrării datelor de observaţii sub formă
de distribuţii de frecvenţe este acela de a face comparaţii între distribuţia (şi curba aferentă )
empirică şi una teoretică, fixată ca model de referinţă. Similitudinea de formă a celor două
tipuri de curbe (empirică şi teoretică) este foarte importantă, căci ea oferă nişte posibilităţi de
analiză statistică complexă şi aprofundată în urma căreia se pot trage multe concluzii de ordin
ştiinţific. La originea multor astfel de analize se află tocmai curba normală, cu proprietăţile sale.

Dar ce este distribuţia normală?


Toate distribuţiile de frecvenţe empirice, adică alcătuite pornind de la date reale, se
bazează pe un număr finit (chiar dacă foarte mare, uneori) de cazuri. În matematică însă, unele
generalizări cu privire la distribuţiile de frecvenţe se pot face mai uşor dacă se admite că
respectivele distribuţii au la baza o infinitate de valori, deci şi o infinitate de clase. Histogramei
frecvenţelor îi corespunde în acest caz un poligon al frecvenţelor ce apare sub forma unei curbe
„netezite” care poate fi uşor descrisă cu ajutorul ecuaţiilor matematice. O asemenea curbă este
şi cea normală.
La o histogramă a frecvenţelor aria unui dreptunghi este proporţională cu frecvenţa
clasei corespunzătoare. Acest fapt este valabil şi în cazul distribuţiei normale, a cărei curbă de
distribuţie trece prin capătul superior al unui număr foarte mare (la limită, infinit) de
dreptunghiuri de lăţime foarte mică (la limită, egală cu 0), având drept rezultat netezirea curbei.
În acelaşi timp, se admite că suprafaţa totală a tuturor dreptunghiurilor este egală cu unitatea
(sau 100%), ceea ce înseamnă că aria cuprinsă între curba normală şi abscisă este deasemenea 1
(sau 100%).
Curba normală este o curbă simetrică, unimodală şi cu o alură specifică care-i conferă
aspectul de clopot (clopotul lui Gauss). Relaţia matematică ce o defineşte este următoarea:
1 (x - x )2
y= -
e 2σ 2
σ 2π ,
în care:
y = ordonata (frecvenţa) unui punct oarecare de pe curbă;
x = abscisa punctului respectiv, corespunzând unei valori din populaţia infinită descrisă
de curba normală;
x şi σ - parametri.
Întrucât este perfect simetrică, în cazul curbei normale x = Me = Mo. Dacă ţinem cont
că alura curbei normale este în relaţie cu σ atunci putem spune că o distribuţie (curbă) normală
este perfect descrisă de cei doi parametri - x şi σ.
Vom observa că exponentul lui e seamănă cu formula de calcul pentru valorile unei
x -x
=u
variabile standardizate având x = 0 şi σ = 1; deci, dacă notăm σ obţinem ecuaţia curbei
normale standardizate (normate):
2
y=
1 -u
e 2
2π .

34
Bineînţeles că cele două curbe (normală propriu-zisă şi normală standardizată) sunt
identice ca formă (vezi fig.4.1). Diferenţa
dintre ele este dată de valoarea centrală
( x , respectiv 0) şi de unitatea de măsură a
variabilei pe axa Ox (la cea standardizată
valorile xi sunt exprimate ca abateri de la
x , măsurate în număr de σ).
Ordonatele curbei normale
(valorile y) corespund frecvenţelor de
apariţie a diferitelor valori; întrucât
numărul acestor valori este infinit, este
justificată, matematic vorbind, trecerea de
la noţiunea de frecvenţă la cea de
„probabilitate”17 . Figura 4.1. Curba normală (a) şi curba normală
normată (b).
O proprietate foarte importantă a
curbei normale este aceea că, indiferent de mărimea mediei şi a abaterii standard, există o
proporţie (sau arie sub curbă) constantă cuprinsă între x şi o ordonată oarecare a cărei distanţă
faţă de x este măsurată în număr de σ (vezi fig.4.2). Atunci când această distanţă este egală cu 1
σ, spre dreapta faţă de x , aria de sub curbă este de 34,13% din aria totală, iar dublul ei (68,26%)
reprezintă aria de sub curbă de o parte şi
alta a x , până la o distanţă de 1 σ; altfel
spus, 68,26% din valorile distribuţiei diferă Figura 4.2. Repartiţia suprafeţelor sub
curba normală.
de x prin mai puţin de 1 σ sau, ceea ce
înseamnă acelaşi lucru, există o
probabilitate de 68,26% ca o valoare
oarecare să fie cuprinsă în intervalul dintre
-1 σ şi +1 σ. În mod corespunzător,
probabilitatea ca o valoare oarecare să fie
inclusă în intervalul dintre -2 σ şi +2 σ este
de 95,45%, iar pentru intervalul dintre -3 σ
şi +3v probabilitatea este de 99,74%.

Regula celor 3 σ. După cum se


observă, probabilitatea unei valori care să
difere de x cu mai mult de 3 σ este practic
nulă (0,26%). Acest fapt este foarte util în practica verificării acurateţii datelor de observaţii
care constituie valori ale unei variabile ce urmează o distribuţie normală. Dacă, de exemplu,
într-un şir de 50 de valori apare una care diferă de medie cu mai mult de 3σ, atunci valoarea
respectivă trebuie privită cu neîncredere, chiar dacă ea nu poate fi considerată a priori ca find
eronată. Trebuie verificate corectitudinea determinărilor/măsurătorilor, sau cea a transcrierii
datelor, sau omogenitatea datelor etc. Această „regulă a celor 3σ ” constituie, deci, o cale de a
ne feri de erori grosiere atunci când analizăm seturi de date empirice.

17
Probabilitatea este egală cu valoarea-limită spre care tinde o frecvenţă , atunci când numărul elementelor din
populaţia originară tinde spre infinit.

35
În sens strict procentul 100% nu este niciodată atins, căci curba normală nu atinge
niciodată axa Ox, ci se apropie asimptotic de aceasta.
Să observăm că în figură ordonatele care delimitează suprafeţele de sub curbă
corespund unor multipli întregi (1,2,3) de σ. O imagine mult mai completă se obţine atunci când
suprafeţele de sub curbă vor fi precizate pentru un număr mai mare de ordonate, cărora le vor
corespunde valori intermediare nσ (n - număr real). Aceste suprafeţe procentuale (sau
probabilităţi), ca şi cele corespunzând probabilităţilor cumulate ascendent, au fost calculate şi
sunt trecute în tabele speciale, larg utilizate în cursul prelucrărilor statistice (vezi Anexele I şi
II).
Cu ajutorul unor asemenea tabele pot fi rezolvate patru tipuri de probleme (fireşte, în
ipoteza că distribuţia empirică urmează o lege normală de repartiţie):
1° determinarea probabilităţii cazurilor mai mici ca o anumită valoare dată, numită
valoare critică („probabilitate de nedepăşire” sau „asigurare de nedepăşire”), respectiv mai mari
sau egale ca valoarea respectivă („asigurare de depăşire”).

Exemplu. Pentru şirul de temperaturi medii anuale la staţia Iaşi, perioada 1961-1992, s-
au calculat x = 9,42°C şi σ = 0,82°C. În ipoteza că distribuţia variabilei este una normală, să se
determine probabilităţile procentuale de apariţie a unor valori de temperatură mai mici de 10°C,
respectiv mai mari de 10°C.; sau, folosind simbolurile matematice uzuale în statistica
matematică, să se determine P(x < 10°C), respectiv P(x ≥ 10°C).
Pentru a putea utiliza tabelul din Anexa I trebuie mai întâi să standardizăm valoarea critică
x - x 0,58
u= i = = 0,71
respectivă: σ 0,82 . Intrând în tabel cu valoarea u calculată găsim o probabilitate de
nedepăşire de 0,7611 sau 76,11%. Probabilitatea de depăşire este una complementară faţă de
cea anterioară, deoarece suma lor trebuie să acopere întreaga suprafaţă de sub curba normală;
deci ea se obţine scăzând din 1 (sau 100%) probabilitatea de nedepăşire: 100 - 72,11 = 23,89%.
Dacă valoarea critică xi este mai mică decât media x , atunci u<0, iar probabilitatea de
nedepăşire va fi cea complementară celei citite în Anexa I (datorită proprietăţii de simetrie a
curbei normale).

2° determinarea probabilităţii cazurilor cuprinse între două limite (valori critice) date.
Această probabilitate este egală cu suprafaţa de sub curba normală delimitată de cele două
valori. Cu ajutorul tabelului această suprafaţă se obţine ca diferenţă între probabilităţile
cumulate ce corespund celor două valori.
Să presupunem, lucrând cu datele din exemplul de mai sus, că se cere probabilitatea ca
în unul din ani să se înregistreze o temperatură medie anuală cuprinsă între 9 şi 10°C, sau,
folosind simbolurile uzuale: P(9°C < x < 10°C).
Probabilităţile cumulate ce corespund celor două valori critice le extragem din Anexa I, după ce
am procedat, în prealabil, la standardizarea lor:
u1 = (10-9,42)/0,82 = 0,71; în Anexa I găsim P1 = 0,7611 = 76,11%.
u2 = (9-9,42)/0,82 = -0,51; deoarece u2<0, probabilitatea căutată este cea complementară
probabilităţii pe care o găsim în Anexa I intrând cu valoarea absolută a lui u2: P2 = 1-0,6950 =
0,3050 = 30,5%.
P(9°C < x < 10°C) = P1-P2 = 76,11-30,5 = 45,61%.

3° Determinarea valorii căreia îi corespunde o probabilitate dată (de depăşire sau de


nedepăşire).

36
În exemplu nostru, cărei temperaturi medii anuale îi corespunde o probabilitate de 80%
de a nu fi depăşită? Sau, într-o altă formulare, care este valoarea faţă de care 80% din valorile
şirului de temperaturi sunt mai mici, sau cel mult egale cu aceasta?
- se caută în Anexa I probabilitatea cea mai apropiată de 0,80, apoi se extrage valoarea u
corespunzătoare (0,84);
x -x
u=
- din formula σ se scoate

x = uσ + x = 0,84´0,82 + 9,42 = 10,1°C.

4° mărimea intervalului (implicit, limitele acestuia), exprimat în număr de σ de la x ,


care include un procent dinainte stabilit de valori.
În exemplul nostru, care este intervalul ce include 95% din valorile de temperatură?
Altfel spus, care este intervalul în interiorul căruia există 95% şanse de a fi inclusă o valoare
oarecare din şir?
Întrucât acum nu mai avem de-a face cu o probabilitate de depăşire sau nedepăşire, ci cu
probabilitatea ca o valoare să fie situată în interiorul unui interval centrat pe media aritmetică,
vom folosi Anexa II:
- se caută în tabel probabilitatea care reprezintă jumătate din 95%, aceasta deoarece în
tabel sunt considerate abaterile faţă de medie doar într-o singură direcţie (ori, intervalul nostru
se extinde de ambele părţi ale mediei);
- se scoate valoarea z corespunzătoare (1,96);
- intervalul nostru va fi x ± 1,96 σ (dar, pentru repartiţia normală normată σ =1), adică
(7,4...11,4°C).

De notat că distribuţia normală este doar una (chiar dacă cea mai cunoscută şi uzitată)
dintre distribuţiile teoretice ale căror proprietăţi pot fi valorificate în analizele statistice.
Menţionăm alte câteva distribuţii teoretice care pot fi utilizate cu succes în analiza datelor
geografice:
a) distribuţia log-normală, sau a lui Galton - este o variantă a legii normale, în sensul că
dacă X este o variabilă ale cărei valori xi urmează o
distribuţie log-normală, atunci valorile log(xi) urmează o
distribuţie normală.
Curba log-normală prezintă o asimetrie
caracteristică de stânga, destul de accentuată (vezi fig.4.3).
Distribuţia log-normală este potrivită, de exemplu, pentru
aproximarea distribuţiei de frecvenţe a precipitaţiilor zilnice
(variabilitate accentuată şi multe valori mici, sau chiar nule,
corespunzătoare zilelor fără precipitaţii, care „trag” Figura 4.3. Curba distribuţiei log-
maximul de frecvenţă, adică Mo, spre stânga); normale.

b) distribuţia binomială - este una din distribuţiile teoretice fundamentale în statistica


inferenţială, alături de cea normală. Spre deosebire de distribuţia normală, cea binomială se
aplică, îndeobşte, variabilelor discrete. Ea aproximează distribuţia statistică a unei variabile
(discrete) ale cărei valori se grupează, în funcţie de un criteriu sau o valoare critică dată, în două
categorii care se exclud reciproc, iar suma probabilităţilor ce corespund celor două categorii este
egală cu probabilitatea totală (1 sau 100%). Spre exemplu, un şir de aruncări ale unei monede:
fiecare eveniment individual (aruncare) poate să aparţină la 1 din 2 categorii: capul sau pajura,

37
niciodată şi una şi alta, iar suma frecvenţelor (probabilităţilor, în cazul unui număr infinit de
aruncări) dă numărul total de evenimente (respectiv probabilitatea 1 sau 100%).

c) distribuţia Poisson este o distribuţie căreia i se supun variabilele cantitative (tot


discrete) ale căror valori au o frecvenţa de producere foarte mică (în timp sau spaţiu), motiv
pentru care mai este numită şi „distribuţia evenimentelor rare”. Exemple de astfel de variabile:
număr de viituri în sezonul cald; număr de zile cu
îngheţ timpuriu/târziu (dintr-o perioadă multianuală)
ş.a.
Caracteristica distribuţiei Poisson o constituie
egalitatea a doi parametri de bază: media aritmetică şi
abaterea standard. Curba de distribuţie este de regulă
asimetrică, dar asimetria scade odată cu creşterea
frecvenţei de producere a acelor „evenimente rare”
(fig.4.4).

De remarcat, în final, că legea (distribuţia) Figura 4.4. Curba distribuţiei Poisson


normală rămâne una fundamentală, de vreme ce ea pentru diferite valori ale mediei λ.
aproximează destul de bine alte distribuţii teoretice
(ca cea binomială sau Poisson) în condiţiile în care numărul de valori ale variabilei studiate este
suficient de mare, sau frecvenţa de producere a unor evenimente creşte suficient de mult.

4.2. Caracteristicile eşantioanelor (sondajelor)

În mod obişnuit generalizările (inferenţele inductive) statistice au drept scop


evidenţierea unor caracteristici ale fenomenelor şi proceselor care sunt studiate prin intermediul
unor ansambluri de date de observaţii. Aceste ansambluri de mari dimensiuni (eventual infinite
ca număr de elemente) poartă denumirea de populaţii. Însă din diferite motive (de ex. nu sunt
disponibile date asupra tuturor elementelor; pentru economie de timp; numărul de elemente este
infinit etc.), cel mai adesea caracteristicile populaţiei pot fi studiate doar cu ajutorul unor
subseturi de elemente (eşantioane) prelevate după anumite reguli din populaţia respectivă. Drept
urmare trebuie să facem o distincţie clară între parametrii statistici ai populaţiei, numiţi şi
„parametri adevăraţi”, şi parametrii corespunzători calculaţi pe baza eşantioanelor, numiţi
„parametri de sondaj” (de selecţie).

4.2.1. Relaţiile dintre parametrii de sondaj şi cei ai populaţiei originare.

Este clar că parametrii adevăraţi (de ex. adevărata medie, adevărata σ) pot fi cunoscuţi
cel mai adesea doar prin intermediul celor de sondaj, care, în acest caz, reprezintă o estimare a
parametrilor populaţiei. Precizarea tipului de parametru la care ne referim se face cu ajutorul
unor simboluri (notaţii) specifice:
µ = adevărata medie (a populaţiei);
σ = adevărata abatere standard (a populaţiei);
x = media eşantionului (de sondaj);
s = deviaţia standard de sondaj
Este necesar ca înainte de a proceda la o evaluare a diferenţelor dintre diferite seturi de
date (eşantioane), sau la formularea unor concluzii bazate pe parametrii de sondaj, să ştim câte
ceva despre relaţiile dintre cele două tipuri de parametri.

38
Parametrii care caracterizează o populaţie sunt nişte valori fixe (stabile) şi sunt de
regulă, necunoscuţi. Spre exemplu, vârsta medie a populaţiei studenţilor de la Universitatea Iaşi
în anul şcolar 2003/2004 este un parametru cu o valoare anume, stabilă în intervalul temporal de
definiţie a populaţiei; această valoare poate fi cunoscută printr-un efort de inventariere a tuturor
studenţilor, dar ea poate fi şi estimată cu ajutorul unor eşantioane extrase din populaţia
respectivă.
Prin comparaţie cu parametrii populaţiei, cei de sondaj variază de la un eşantion la altul
extrase din una şi aceeaşi populaţie. În exemplul de mai sus, este de aşteptat ca pentru 10
eşantioane aleatoare prelevate din populaţia de studenţi să obţinem 10 vârste medii diferite,
chiar dacă foarte apropiate între ele. Parametrii de sondaj sunt mărimi cunoscute (sau
calculabile) şi acest fapt, combinat cu dificultatea - chiar imposibilitatea, uneori - cunoaşterii
parametrilor adevăraţi (ai populaţiei), evidenţiază importanţa cunoaşterii legăturii dintre cele
două tipuri de parametri. Altfel spus, este important să ştim cât de reprezentativ este un eşantion
pentru populaţia din care este extras, sau cu ce grad de precizie reuşeşte un parametru de sondaj
să aproximeze (estimeze) corespondentul său „adevărat”.
Din punctul de vedere al statisticii inductive, un eşantion reprezintă o secţiune reală şi
reprezentativă - atât cât permite mărimea sa - prin populaţia studiată. Ideal ar fi ca prelevarea
elementelor pentru constituirea eşantionului să fie pur aleatoare pentru a asigura
reprezentativitatea - şi există metode şi reguli care asigură această cerinţă fundamentală (vezi
Anexa IX). În multe cazuri, totuşi, inclusiv în analizele geografice, selecţia aleatoare este fie
imposibilă, fie neconvenabilă din diverse motive; dar şi în aceste cazuri există reguli de selecţie
care să asigure reprezentativitatea eşantionului faţă de populaţia originară. Întrucât, însă,
conceptele generale ale statisticii inductive pot fi cel mai bine explicate în termenii sondajului
aleator, în continuare vom adopta această premisă
pentru abordarea problemelor de prezentat.

Ştiind că un sondaj este aleator, factorul


major care controlează relaţia dintre parametrii
populaţiei şi cei ai eşantionului este mărimea
eşantionului. Pentru a intui cum acţionează acest
factor, să revenim puţin la curba de distribuţie
normală.
Aspectul curbei este determinat de frecvenţa
Figura 4.5. Curbele distribuţiilor de
fiecărei valori individuale, ca şi de σ, x fiind plasată frecvenţe ale mediilor eşantioanelor de
central. Să presupunem acum că valorile individuale diferite mărimi.
au fost grupate în eşantioane aleatore de câte 10
itemuri, iar pentru fiecare eşantion s-a calculat x .
Distribuţia de frecvenţe a mediilor eşantioanelor va fi deasemenea una normală, având
aceeaşi medie ca distribuţia iniţială, dar σ mai mică, de aici rezultând forma diferită a curbei
(vezi fig.4.5, n = 10). Acest fapt este firesc, căci selecţia aleatoare a itemurilor pentru fiecare
eşantion face puţin probabilă extragerea unor valori situate,toate, de o singură parte a mediei
generale, iar prin medierea celor 10 itemuri amplitudinea de variaţie (deci şi deviaţia standard) a
„mediilor din 10 itemuri” va fi mai scăzută ca amplitudinea de variaţie (respectiv deviaţia
standard) a valorilor individuale iniţiale. În plus, se poate intui uşor că o creştere în continuare a
numărului de itemuri din eşantioane va cauza o scădere proporţională a deviaţiei standard a
distribuţiei mediilor de sondaj respective (vezi fig.4.5, n = 20), curba de distribuţie devenind din
ce în ce mai ascuţită, iar mediile mai strâns grupate în jurul mediei generale.

39
Concluzia: varianţa (deci şi deviaţia standard) distribuţiei mediilor de sondaj este în relaţie cu
numărul de itemuri din eşantion, iar această relaţie se poate scrie astfel18:
2 σ
2= σ ,
σn σ n=
n , deci n

în care σ n ,σ n = varianţa, respectiv abaterea standard a mediilor eşantioanelor de câte n itemuri;


2

σ 2 , σ = varianţa, respectiv abaterea standard ale distribuţiei normale (cu valori individuale); n =
volumul eşantioanelor.
Această relaţie este foarte importantă pentru interpretarea rezultatelor obţinute prin
prelucrarea datelor de sondaj. Astfel, dacă mediile eşantioanelor alcătuiesc o distribuţie
normală, atunci, date fiind proprietăţile curbei normale, există o probabilitate foarte scăzută
(≈0,3%) ca media oricărui eşantion să difere de media generală („adevărată”, pentru că s-au luat
în calcul toate itemurile individuale) cu mai mult de 3σ , adică 3( σ/ n ) ; sau, este puţin
n
probabil (probabilitatea ≅ 5%) ca respectiva medie să difere de media generală cu mai mult de
2( σ/ n ) . Dacă aşa stau lucrurile, atunci şi reciproca este adevărată, adică: dacă este cunoscută
media unui eşantion, atunci, este foarte puţin probabil (probabilitate 0,3%) ca media generală
(„adevărată”) să difere de media de sondaj cu mai mult de 3( σ/ n ) , sau este puţin probabil
(probabilitatea ≅5%) să difere cu mai mult de 2( σ/ n ) .
Cu alte cuvinte, dacă se obţine media unui eşantion, este posibil să se precizeze limitele
între care se va situa, cu o anumită probabilitate, media adevărată (a populaţiei din care provine
eşantionul). Adică:
σ σ
µ ∈ ( x- ,x+ )
n n , cu o probabilitate de 68,26%;
σ σ
µ ∈ ( x -2 ,x+ 2 )
n n , cu o probabilitate de 95,45%;
σ σ
µ ∈ ( x -3 ,x+3 )
n n , cu o probabilitate de 99,74%;
σ σ
µ ∈ ( x - u p% , x + u p% )
n n , cu o probabilitate oarecare p%, dată dinainte ( u p% putând fi
extras din Anexele I sau II).

Exemplu. Pentru a se evalua vârsta medie a populaţiei studenţilor de la Universitatea


Iaşi, în anul şcolar 1994/95, s-a alcătuit un eşantion (aleator) de 50 valori (vârste). Pentru acest
eşantion s-au calculat x =23 ani şi s=2,5 ani. Limitele intervalelor în interiorul cărora, cu
probabilităţile de mai sus, se va situa adevărata vârstă medie vor fi:
2,5 2,5
µ ∈ (23 - , 23 + )
7,1 7,1 ⇔ (23-0,35, 23+0,35) ⇔ (22,65¸23,35) (P=68,26%);
2,5 2,5
µ ∈ (23 - 2 * , 23 + 2 * )
7,1 7,1 ⇔ (23-0,70, 23+0,70) ⇔ (22,30¸23,70) (P=95,45%);
2,5 2,5
µ ∈ (23 - 3 * , 23 + 3 * )
7,1 7,1 ⇔ (23-1,05, 23+1,05) ⇔ (21,95¸24,05) (P=99,74%).

18
Relaţia respectivă, ca şi normalitatea distribuţiei mediilor de sondaj, sunt matematic demonstrabile.

40
Se va observa că intervalul în care se află µ este cu atât mai larg, cu cât probabilitatea
este mai mare; deci sporul de certitudine se obţine cu preţul lărgirii intervalului în care se află
parametrul adevărat căutat.
Mărimea care controlează limitele intervalului, adică s/ n , este cunoscută sub
denumirea de eroarea standard a mediei de sondaj, notată ES x .
O eroare standard analoagă se poate obţine şi pentru deviaţia standard de sondaj:
s s s
ES s = σ ∈ (s - u p% , s + u p% )
2n
, iar 2n 2n ,
up% fiind abaterea s de la σ, exprimată în număr de s şi corespunzând unei probabilităţi date.

4.2.2.Eşantioane mici

În exemplu cu vârsta medie a studenţilor, pentru calculul ES x a fost luată în calcul nu σ,


ci s, ceea ce înseamnă că am asimilat pe s cu σ, lucru ce nu se poate justifica din punct de vedere
matematic. La fel am făcut şi în cazul ESs. Corect ar fi fost să folosim σ, însă aceasta nu era
cunoscută. Într-adevăr, în practică se întâmplă deseori să nu avem la îndemână decât valori de
sondaj. Totuşi, pentru a putea aplica formulele de obţinere a erorilor standard cu o oarecare
justificare, se poate face aşa-numita estimare a σ. Această operaţiune, numită în statistică „a
obţine cea mai bună estimaţie”, se realizează prin aplicarea unei corecţii la valoarea s. Această
n

corecţie, cunoscută sub denumirea „corecţia lui Bessel” este de forma n - 1 şi ea transformă s
în „cea mai bună estimaţie a σ”, notată cu σ̂ . Atunci când corecţia Bessel este introdusă în
formula de calcul a deviaţiei standard se obţine direct cea mai bună estimaţie a σ:
2
∑ ( xi - x )
σˆ =
. n-1
În exemplu cu vârsta medie a studenţilor:
n 50
σˆ = s * = 2,5 * = 2,5 * 1,01 = 2,52ani
n-1 49 0.
Diferenţa dintre s şi σ̂ 0 este foarte mică (0,02), şi aceasta pentru că volumul eşantionului
(50) este destul de mare. Într-adevăr, dacă examinăm formula corecţiei lui Bessel intuim că, cu
n/(n - 1)
cât eşantionul este mai mare, cu atât valoarea se apropie de 1; pe măsură, însă ce n
scade, valoarea corecţiei devine considerabil mai mare ca 1, afectând mărimea ES. Este clar,
deci, că în cazul eşantioanelor mici (n<30, de regulă) este mai corect să se lucreze cu σ̂ şi nu cu
s.
La eşantioanele mici, însă, mai apare o problemă. Datorită aplicării corecţiei, distribuţia
mediilor mai multor eşantioane, chiar dacă păstrează aceeaşi medie µ ca şi populaţia originară,
va avea o deviaţie standard σ ce nu mai conferă distribuţiei caracteristicile unei curbe normale.
Aceasta înseamnă că valorile de probabilitate şi, în general, proprietăţile curbei normale nu mai
pot fi aplicate la un eşantion mic, chiar dacă populaţia din care provine acesta urmează o
distribuţie normală. În locul ei se foloseşte o altă distribuţie teoretică numită distribuţia „t” a lui
Student. Curba de distribuţie „t” este ceva mai aplatizată decât cea normală şi mai efilată la
capete (fig.4.6).

41
În orice caz, trebuie reţinut că proprietăţile distribuţiei „t” se folosesc numai în cazul
eşantioanelor mici care provin din populaţii normale.
Valorile t calculate pentru diferite volume ale eşantioanelor (1-30) şi diferite praguri de
probabilitate sunt tabelate (vezi Anexa III) şi pot fi folosite pentru rezolvarea diferitelor
probleme specifice.
În cazul intervalului în care este situată µ, valorile t înlocuiesc valorile u atunci când se
σ σ
µ ∈ ( x - t p% , x + t p% )
multiplică ES x - deci n n ,
cu o probabilitate p% hotărâtă dinainte.

Exemplu. Se face un studiu asupra numărului de


locuitori dintr-o serie de localităţi mici (comune) de pe un
teritoriu vast. Numărul total de localităţi este mare, însă
anumite similarităţi în ce priveşte numărul lor de locuitori
sunt sugerate de cunoştinţe le existente asupra regiunii. De
aceea s-a hotărât să se facă o analiză preliminară rapidă, pe
baza unui eşantion aleator de numai 10 comune, astfel încât Figura 4.6 Comparaţie între curba
numai caracteristicile demografice majore să fie evidenţiate. normală şi curba distribuţiei ”t”.
Pentru acest eşantion s-au calculat următorii parametri:
x =350 loc/com; s=25 loc; n = 10.
Care sunt limitele intervalului în care se află media adevărată a numărului loc/comună, cu o probabilitate
de 95%?
a) folosind proprietăţile curbei normale (ca şi cum am avea un eşantion mare) şi luând z47,5%≈2:
s s
µ 95% ∈ ( x -2 ,x+2 )
n n ⇔ (350-2×7,9, 350+2×7,9) ⇔ (334,2÷365,8);
n
σˆ = s = 25 1,11 = 26,34
b) tot cu proprietăţile curbei normale, dar ţinând cont de corecţia Bessel: n-1 ,
deci
σˆ σˆ
µ 95% ∈ ( x -2 ,x+2 )
n n ⇔ (350-2×8,3, 350+2×8,3) ⇔ (333,4÷366,6);
c) ţinând cont că lucrăm cu un eşantion mic, deci folosind proprietăţile distribuţiei „t” (vezi Anexa III;
intrarea în tabel se face cu probabilitatea dată şi cu numărul gradelor de libertate19, care aici este egal cu n-1, adică
9):
σˆ σˆ
µ 95% ∈ ( x -t 95%;n -1 , x +t 95%;n -1 )
n n 0 ⇔ (350-2,3×8,3, 350+2,3×8,3) ⇔ (330,9÷369,1).
Examinând cele trei rezultate constatăm că prin considerarea regulilor statistico-matematice de prelucrare,
mărimea intervalului a crescut sensibil, ceea ce înseamnă că pentru eşantioanele mici se iau o serie de precauţii
suplimentare atunci când se estimează valoarea unui parametru „adevărat”, precauţii care conduc, în ultimă instanţă,
la lărgirea intervalului de încredere.

4.2.3. Specificarea mărimii eşantionului

Reiese din cele spuse referitor la eşantioane că mărimea intervalului în care se află
parametrii populaţiei (µ, σ) este controlată de:
- nivelul de probabilitate fixat (direct proporţional);
- s (direct proporţional);
- mărimea (volumul n) eşantionului (invers proporţional).

19
Pentru semnificaţia noţiunii „grade de libertate“ vezi § 4.3.2.1.2

42
Dintre aceste variabile una (s) este dependentă de datele eşantionului . Rămân celelalte
două, care pot constitui elemente de alegere deliberată în funcţie de scopul şi natura analizei şi
de gradul de acurateţe cerut.
Să presupunem că intervalul în care se află µ, cu o probabilitate dată, ni se pare prea larg
şi dorim să-l restrângem, ba chiar să-i fixăm dinainte limitele. Acest lucru este posibil prin
creşterea volumului eşantionului până la un anumit număr de valori. Dar câte?
Rezolvarea problemei e destul de simplă. Intervalul are forma generală
σ σ
( x - u p% ES x , x + u p% ES x ) _ ( x - u p% , x + u p% )
n. n
Pentru a fixa dinainte limitele intervalului dăm valoarea necesară expresiei care se adună şi se
σ
u p% =C
scade din media aritmetică: n , deci intervalul va fi ( x -C, x + C) . Din expresia
σ
C = u p%
n scoatem pe n şi problema e rezolvată.
În exemplul de mai sus, să presupunem că dorim ca µ să difere de x cu ± 5 loc./com., la
nivelul de probabilitate de 95%. Avem z47,5% (reamintim că în Anexa II sunt date probabilităţile
corespunzătoare unor intervale situate de o singură parte a mediei) = 1,96 ≈ 2; σ̂ = 26,34; C =
5.
z 47,5% * σˆ 2 * 26,34
n= =
C = 10,53 ⇒ n = (10,53)2 ≈ 111 valori.
5
Verificarea poate fi făcută foarte uşor.

4.3. Verificarea ipotezelor statistice

4.3.1. Ipoteze statistice

În mod obişnuit cercetătorul care analizează diferite fenomene/procese cu ajutorul


metodelor statistice este interesat în primul rând de caracteristicile populaţiilor din care provin
eşantioanele de lucru. Alcătuite după anumite reguli, eşantioanele nu au alt rol decât acela de a
servi ca punct de plecare pentru o serie de inferenţe asupra caracteristicilor (necunoscute) ale
populaţiilor, pornind de la caracteristicile cunoscute, dar fără o relevanţă intrinsecă, ale
eşantioanelor. Aceste inferenţe (concluzii logice fundamentate statistico-inductiv) sunt numite
ipoteze statistice. Ca orice ipoteze de lucru, şi cele statistice se cer verificate, iar verificarea lor
se realizează prin intermediul unor procedee specifice numite teste statistice.

În comparaţie cu alte ipoteze formulate şi verificate în practica ştiinţifică din diferite


domenii, ipotezele statistice prezintă câteva particularităţi impuse de fundamentele
probabilistice ale statisticii inferenţiale (inductive):
a) în marea majoritate a cazurilor ipotezele statistice se formulează în termenii existenţei
unei diferenţe: diferenţă între parametrii de sondaj şi cei ai populaţiei; diferenţă între parametrii
a două sau mai multe populaţii; diferenţă între o distribuţie de frecvenţă empirică şi una
teoretică, sau între două distribuţii empirice ş.a. Testarea ipotezelor înseamnă, în acest caz,
evaluarea gradului de semnificaţie sau de siguranţă statistică a acestor diferenţe.
Fireşte, concluziile testării sunt de natură probabilistă, altfel spus concordanţa diferitelor ipoteze
cu realitatea se realizează în limitele unui anumit risc (probabilitate) de eroare acceptat (şi
stabilit) dinainte. Acest risc este cunoscut sub denumirea de prag sau nivel de semnificaţie al
testului folosit pentru verificările ipotezelor statistice.

43
b) lipsa unei siguranţe depline face ca la verificarea unei ipoteze statistice să fie posibile
două tipuri de erori:
- respingerea ipotezei, atunci când, în realitate, ea este adevărată. Acest tip de eroare este
cunoscut sub numele de „eroare de ordinul I” şi ea afectează cerectarea ştiinţifică prin aceea că
nu permite nişte generalizări inductive care, ulterior, ar putea deveni puncte de plecare pentru
demersul cognitiv complementar, adică cel deductiv;
- acceptarea ipotezei, în condiţiile în care în realitate ea este falsă („eroare de ordinul
II”). Acest tip de eroare este mult mai periculos pentru cercetarea ştiinţifică, căci furnizează
generalizări false care, apoi, constituie puncte de plecare pentru demersul deductiv, erorile
propagându-se în lanţ de-a lungul spiralei inductiv-ipotetico-deductive care stă la baza
progresului ştiinţific.

Este remarcabil faptul că, de regulă, ipotezele formulate în practica cercetării ştiinţifice
au tendinţa de a se baza pe nişte diferenţe observate în urma prelucrării datelor de sondaj -
diferenţe cărora spiritul analitic, înclinat prin natura sa spre discriminări, încearcă instinctiv să le
găsească explicaţii raţionale, adesea foarte ingenioase. Dacă, însă, diferenţele observate se
datorează doar întâmplării (eşantioanele fiind alcătuite după regulile selecţiei aleatoare), atunci
creşte riscul unei erori de ordinul II, adică acela al acceptării unei ipoteze de lucru care în
realitate este falsă. Tocmai pentru a preveni o asemenea situaţie, în practica verificării ipotezelor
statistice se operează cu ipoteza care, din punct de vedere logic, reprezintă o negaţie a ipotezei
curente de lucru - altfel spus, cu ipoteza care neagă existenţa acelei (acelor) diferenţe observate,
pe baza cărora cercetătorul ar fi înclinat să construiască eşafodajul explicativ. Această ipoteză
inversă este cunoscută în statistica inferenţială sub denumirea de ipoteza nulă (a diferenţei nule)
notată H0. În raport cu ea ipoteza curentă de lucru devine o ipoteză alternativă (H1), care va fi
acceptată doar dacă, în urma operaţiunii de testare, ipoteza nulă este respinsă.
Testarea ipotezei nule în locul celei alternative are ca principal avantaj micăorarea, în ce
priveşte ipoteza de lucru, a riscului erorii de ordinul II (mai nocivă pentru demersul ştiinţific,
după cum am văzut), chiar dacă creşte corespunzător riscul unei erori de ordinul I.

4.3.2. Teste statistice

Un test statistic este un criteriu (într-un sens mai larg - o tehnică) pentru
verificarea unei ipoteze statistice, constând în calculul unei statistici şi stabilirea
unei reguli prealabile de acceptare sau respingere a ipotezei nule H0, cu o
anumită probabilitate de a lua o decizie inexactă.
Din definiţie reiese că elementul central al unui test este statistica acestuia. Statistica testului
este o funcţie de valorile concrete ale eşantionului: f(x1,x2,..., xn).Ansamblul valorilor posibile
ale statisticii defineşte o variabilă (caracteristică cantitativă continuă) aleatoare a cărei
distribuţie statistică este utilizată pentru verificarea ipotezei nule.

Domeniul tuturor valorilor posibile ale unei statistici se împarte în două regiuni disjuncte
şi complementare (vezi fig.4.7):
a) regiunea de acceptare - o mulţime de valori astfel încât, dacă valoarea calculată a
statisticii aparţine acestei regiuni, se acceptă i.n. H0;
b) regiunea de respingere (critică) - o mulţime de valori astfel încât, dacă valoarea
calculată a statisticii aparţine acestei regiuni, se respinge i.n. H0.

Mărimea α (vezi fig.4.7) se numeşte prag (nivel) de semnificaţie al testului şi reprezintă


probabilitatea ca decizia de acceptare/respingere a i.n. H0 să fie eronată.
În funcţie de concluzia testului interpretarea riscului de eroare se face astfel:

44
i) se acceptă i.n. H0 - atunci există riscul (probabilitatea) ca în α% din cazuri aceasta să
se dovedească, totuşi, neadevărată (riscul erorii de ordinul II);
ii) se respinge i.n. H0 - atunci există riscul ca în α% din cazuri aceasta să se dovedească,
totuşi, adevărată (riscul erorii de ordinul I).

Există o mare varietate de teste statistice, unele mai simple, altele foarte sofisticate.
Marea majoritate a lor verifică (testează) semnificaţia statistică a unor diferenţe de genul celor
menţionate în paragraful anterior. În funcţie de modul în care sunt considerate diferenţele
testate, se obişnuieşte o grupare a testelor în două categorii:
a) teste bilaterale - sunt acele teste la care regiunea de respingere (critică) apare sub
forma a două sectoare ale curbei teoretice de distribuţie
a statisticii testului, cele două sectoare fiind situate la
extremităţile curbei. Prin urmare nivelul de semnificaţie
α este distribuit în mod egal (α/2) între cele două
sectoare (vezi fig.4.7-b).
Testul bilateral se aplică atunci când ipoteza nulă H0 nu
postulează decât existenţa unei diferenţe, nu şi sensul
(direcţia) acesteia - de ex. σx≠σy, dar nu σx>σy sau σx<σy.
Atunci când se precizează şi sensul diferenţei, se aplică
un test din cea de-a doua categorie, respectiv
b) teste unilaterale - la care regiunea critică este
plasată la unul din capetele curbei teoretice de Figura 4.7. Regiunile critice ale
distribuţie a statisticii testului (vezi fig.4.7-a). Rezultă că distribuţiei statisticii unui test
un test din această categorie poate fi unilateral-stânga unilateral (a) şi bilateral (b).
sau unilateral-dreapta.

O altă clasificare a testelor statistice ţine cont de cunoaşterea sau nu a unor parametri ai
populaţiilor din care provin eşantioanele analizate, ca şi de adoptarea sau nu a unor presupoziţii
în legătură cu tipul de distribuţie teoretică urmată de populaţiile respective. În felul acesta se
disting două tipuri de teste:
a) teste parametrice - sunt testele care presupun cunoscute anumite caracteristici ale
populaţiei originară (µ, σ, tip de distribuţie etc.) şi ele sunt relevante numai dacă presupunerile
sunt valide. Cele mai frecvente presupoziţii la aplicarea testelor parametrice sunt:
- populaţiile sunt distribuite normal;
- eşantioanele au un caracter aleator (observaţiile sunt independente);
- populaţiile comparate au aceeaşi varianţă (σ1 = σ2);
- datele de observaţii sunt din categoria celor cantitative continue.
Cele mai uzitate teste din această categorie sunt testul „t” al lui Student şi testul „F” al
lui Snedecor.
b) teste neparametrice - sunt acele teste care nu fac nici o presupoziţie în legătură cu
populaţia originară, cu excepţia independenţei observaţiilor şi, poate, a continuităţii subînţelese
în şirurile de date. Deoarece nu pretind cunoaşterea unor parametri ai populaţiei, testele
neparametrice pot fi folosite nu numai în cazul datelor cantitative continui, ci şi al celor
cantitativ discrete, calitative ordinale şi chiar calitative nominale.
Cele mai uzitate tehnici neparametrice sunt testul „χ2” (hi-pătrat) şi testul Kolmogorov-
Smirnov.

Indiferent de tipul testului ales pentru verificarea unei ipoteze de lucru, în aplicarea
acestuia se parcurg obligatoriu următoarele etape:

45
1° Definirea i.n. H0 şi a i.a. H1. Această primă etapă este extrem de importantă, căci o
formulare incorectă a ipotezei nule H0 atrage după sine lipsa de validitate a deciziei adoptate şi a
interpretării concluziilor testului. Hotărâtoare este, aici, experienţa cercetătorului în ce priveşte
aplicarea testelor statistice, pe lângă o bună cunoaştere a problemelor implicate de ipoteza de
lucru.
2° Alegerea nivelului de semnificaţie α al testului. Dacă ţinem minte că α reprezintă
probabilitatea de a lua o decizie neconformă cu realitatea, atunci cu cât α este mai mic, cu atât
riscul de eroare este şi el mai redus.
Cele mai frecvente valori adoptate pentru α sunt 0,05, 0,01 şi 0,001 (sau 5,1 şi 0,1%),
3° Alegerea statisticii testului - adică alegerea variabilei aleatoare a cărei lege de
repartiţie (distribuţie teoretică), cunoscută, să servească drept criteriu de decizie. Alegerea
statisticii înseamnă, implicit, alegerea testului aplicabil în condiţiile date, având în vedere că
testele statistice diferă între ele în primul rând prin statistica utilizată.
4° Stabilirea regiunii critice - adică stabilirea acelui domeniu al valorilor statisticii
pentru care, dacă statistica calculată intră în acest domeniu, se respinge i.n. H0 (şi se acceptă ca
adevărată i.a. H1), cu o probabilitate α de a greşi. Regiunea critică se identifică cu ajutorul
tabelelor sau graficelor specifice pentru legea de repartiţie (distribuţia teoretică) urmată de
statistica testului, tabele sau grafice care sunt oferite în literatura de specialitate.
5° Luarea deciziei: acceptarea/respingerea ipotezei nule H0. Decizia luată permite o
serie de concluzii şi interpretări ulterioare bazate pe generalizarea condiţiilor sugerate de datele
de sondaj şi pe informaţii specifice domeniului din care provin datele respective. Importanţa
luării unei decizii corecte nu trebuie, în acest caz, să mai fie subliniată .
În continuare prezentăm câteva dintre cele mai uzitate teste statistice, grupate în două
categorii: parametrice şi neparametrice.

4.3.2.1. Teste parametrice


Majoritatea testelor parametrice presupun cunoscute media şi/sau dispersia populaţiilor
din care provin eşantioanele analizate; deasemenea, ele admit unele presupoziţii în legătură cu
distribuţia statistică a populaţiilor respective (de regulă, distribuţia normală). Vom prezenta
câteva teste parametrice, grupându-le după numărul de eşantioane luate în considerare.

1. Cazul unui singur eşantion. În acest caz testele parametrice se mai numesc şi teste de
semnificaţie (a unui parametru de sondaj, în raport cu parametrul „adevărat”) sau teste de
apartenenţă (a eşantionului la populaţia originară).
Practic, un asemenea test evaluează semnificaţia diferenţei dintre un parametru de
sondaj ( x sau s) şi adevăratul parametru corespunzător (µ, respectiv σ), considerat cunoscut.
Dacă eşantionul este suficient de mare (n>50, dar mai bine n>100) şi se cunoaşte σ a
populaţiei (normale) din care provine eşantionul, atunci se poate aplica testul „z”.
Statistica acestui test este de forma:
x-µ
z=
σ/ n
Ea exprimă, după cum se observă, diferenţa dintre cele două medii în număr de erori standard
ale x ; ca variabilă aleatoare aceasta urmează, deasemenea, distribuţia normală. Valoarea z
calculată o comparăm cu cea teoretică (extrasă din tabelele distribuţiei normale)
corespunzătoare nivelului de semnificaţie α ales; dacă valoarea calculată este mai mare ca
valoarea tabelată , atunci ea intră în regiunea critică şi i.n. H0 va fi respinsă.

Exemplu. Un studiu efectuat de o grupă de studenţi de la Facultatea de Sociologie din Iaşi asupra
veniturilor populaţiei din municipiu debutează cu prelevarea unui eşantion aleator format din 100 de familii. Pe

46
baza eşantionului se doreşte estimarea veniturilor medii ale populaţiei. Îndrumătorul grupei de studenţi are motive
să creadă că eşantionul prelevat nu este reprezentativ, în sensul că familiile cu venituri medii şi mari sunt supra-
reprezentate comparativ cu cele care au venituri mici. Datele de recensământ (lista completă a familiilor, cu
veniturile lor) furnizează µ = 120.000 lei şi σ = 30.000 lei. Venitul mediu calculat pe baza eşantionului este x 0 =
130.000 lei. Are îndrumătorul dreptate să creadă că eşantionul este nereprezentativ sau, altfel spus, că eşantionul nu
aparţine populaţiei analizate? Dacă da, atunci diferenţa dintre µ şi x trebuie să fie statistic semnificativă.
Etapele de lucru:
• definirea i.n. H0. Aceasta va fi ipoteza care neagă (contrazice) ipoteza cu care s-a pornit la verificare,
adică aceea că eşantionul este nereprezentativ. Prin urmare i.n. H0 se va formula astfel: nu există o diferenţă
semnificativă între µ şi x , faţă de i.a.H1: µ< x ;
• alegerea nivelului de semnificaţie α - să zicem 5%;
• calcularea statisticii testului:
x-µ 130.000 - 120.000 10.000
z=
σ/ n = 30.000/ 100 = 3000 = 3,33
• stabilirea regiunii critice: întrucât a fost precizat sensul diferenţei dintre µ şi x , avem de-a face cu un test
unilateral, în cazul căruia regiunea critică corespunde unui prag de probabilitate de α %. În tabelul distribuţiei
normale (Anexa I) unei probabilităţi de 95% îi corespunde o valoare u » 1,65.
• deoarece valoarea z calculată este mai mare decât valoarea u tabelată , conchidem că diferenţa între µ şi
x este semnificativă şi, deci, respingem i.n. H0. Prin urmare, există o probabilitate de 95%20 ca eşantionul să fie
nereprezentativ pentru populaţia din care a fost extras, rămânând un risc de eroare de 5% atunci când facem această
afirmaţie.
Se pare, deci, că profesorul avea dreptate...

Dacă eşantionul este mic (n<30) şi nu cunoaştem pe σ, atunci în locul testului „z” putem
folosi testul „t” bazat pe distribuţia omonimă a lui Student. Statistica acestuia este asemănătoare
cu cea a testului „z”, cu deosebirea că în locul erorii standard a mediei, bazată pe σ
(necunoscută, în acest caz), se calculează eroarea standard a mediei pe baza celei mai bune
estimaţii a σ: ES x = σ̂/ n . Dacă înlocuim pe σ̂ cu formula de calcul ce include corecţia Bessel,
atunci după câteva transformări aritmetice obţinem expresia de la numitorul statisticii testului
„t”:
2 2 2
σˆ ∑( xi - x ) /(n - 1) ∑( xi - x ) ( x i - x ) /n s
= = = =
n n n(n - 1) n-1 n-1
Deci statistica testului va fi:
x-µ
t=
. s/ n - 1
După cum se observă, nu mai este nevoie să se calculeze cea mai bună estimaţie a σ, calculul
abaterii standard de sondaj fiind suficient.
Statistica testului urmează o distribuţie uşor diferită de cea normală. Însă una dintre
presupoziţiile acestui test este aceea că populaţia din care provine eşantionul urmează o lege de
distribuţie normală; presupoziţia trebuie verificată, mai ales atunci când volumul eşantionului
este mic (cazul de faţă).

20
În tabelul distribuţiei normale sunt incluse probabilităţile ca o valoare oarecare să fie mai mică, sau cel mult egală
cu valoarea u corespunzătoare (reamintim că valorile u sunt valorile standardizate ale variabilei distribuite normal).
Pe de altă parte, statistica „z” a testului este şi ea tot o variabilă standardizată, repartizată normal, ale cărei valori pot
fi comparate direct cu valorile u din Anexa I.

47
2. Cazul a 2 eşantioane. Tehnicile parametrice bazate pe considerarea a două eşantioane
aleatoare şi independente21 se mai numesc şi teste de comparare: compararea, de regulă, a unor
parametri de sondaj pentru a decide apartenenţa eşantioanelor la populaţii diferite sau nu, în
funcţie de concluzia testului. şi în acest caz testele evaluează semnificaţia statistică a unei
diferenţe - cea dintre doi parametri de sondaj (medii, în mod obişnuit).

Testele cele mai uzitate sunt analoage cu cele de la cazul unui singur eşantion, adică
testul „z” şi testul „t”. Diferenţa este dată de faptul că se compară între ele cele două medii de
sondaj, fiecare dintre ele fiind afectată de o eroare standard. Din această cauză statisticile
testelor vor lua în considerare aşa-numita eroare standard a diferenţei dintre mediile de sondaj,
care se obţine pornind de la următoarea regulă (matematic demonstrabilă): varianţa sumei sau
diferenţei a două medii de sondaj este egală cu suma varianţelor celor două medii (reamintim
că varianţa unei medii de sondaj este pătratul erorii standard a mediei respective). Prin urmare,
varianţa diferenţei va fi:
σ 2
1 σ 2
2
σ 2
| x 1- x
+ |
=
n1 n2 ,
2

iar eroarea standard a acestei diferenţe va fi rădăcina pătrată a varianţei:


2 2
σ1 σ
ES|x1 - x2|= + 2
. n1 n 2
Această eroare standard este folosită, ca şi la testele anterioare, pentru standardizarea
(„normarea”) diferenţei dintre mediile de sondaj, astfel încât aceasta să nu fie exprimată în
valori absolute, ci în număr de erori standard.
Având în vedere toate acestea, statisticile celor două teste se vor modifica, în cazul a
două eşantioane, în felul următor:
· testul „z”, care se aplică atunci când eşantioanele au volum mare (n>30), iar abaterile
standard ale celor două populaţii (normale) din care provin eşantioanele sunt cunoscute:
x1 - x 2
z=
2/ + 2/
σ 1 n1 σ 2 n 2
· testul „t”, recomandat atunci când eşantioanele au volum mic (n<30), iar abaterile
standard ale celor două populaţii (normale) nu sunt cunoscute - situaţie în care se lucrează cu
cele mai bune estimaţii ale acestora:
x1 - x 2
t=
2 2
σˆ 1 / n1 + σˆ 2 / n 2

Exemplu (după Gregory,1968). În cadrul unui studiu comparativ asupra a două bazine carbonifere se aleg
la întâmplare, din fiecare bazin, câte 10 puncte de extracţie (mine), împreună cu producţiile acestora într-o perioadă
dată. Se cere să se stabilească dacă între cele două bazine există o diferenţă statistic semnificativă în ce priveşte
2 2
µ ≠ µ2 σ = σ 2 22
producţia de cărbune per mină (deci, dacă 1 ), admiţând că dispersiile populaţiilor sunt egale ( 1 ) .
Parametrii de sondaj implicaţi în aplicarea testului „t” sunt:
- la primul bazin: x 1 = 0,30 mil.tone; s1 = 0,042 mil.tone; n1 = 10 mine.

21
Două eşantioane extrase din aceeaşi populaţie se numesc independente atunci când constituirea unuia dintre ele,
după regulile sondajului aleator, nu influenţează în nici un fel constituirea celuilalt.
22
Dacă se acceptă ipoteza de inegalitate a dispersiilor, atunci aplicarea testului „t” se face după un algoritm
întrucâtva diferit de cel prezentat mai jos; principala diferenţă constă în modul de calculare a gradelor de libertate
pentru statistica testului, cu ajutorul unor formule ce iau în consideraţie dispersiile de sondaj.

48
- la al doilea bazin: x 2 =0,34 mil.tone; s2 = 0,05 mil.tone; n2 = 10 mine.

Etapele de lucru:
· definirea i.n.H0. Este clar că acceptarea existenţei unei diferenţe semnificative de productivitate între cele
două bazine carbonifere poate servi ca punct de plecare pentru o serie de explicaţii cauzale în ce priveşte gradul
general de dezvoltare industrială a regiunilor din jur, întensitatea fluxurilor comerciale cu acest combustibil,
importanţa relativă a bazinelor în complexul industriei extractive naţionale etc. De aceea trebuie evitată , pe cât
posibil, o eroare de ordinul II (acceptare unei diferenţe semnificative, în condiţiile în care aceasta nu există în
realitate), încât i.n.H0 se va formula astfel: nu există o diferenţă semnificativă între cele două bazine în ce priveşte
producţia de cărbune/mină - şi aceasta este ipoteza supusă testării. Dacă ea va fi respinsă, atunci va fi acceptată
ipoteza alternativă - anume aceea că diferenţa actuală dintre cele două bazine este semnificativă, ea corespunzând
unei diferenţe reale de productivitate medie a minelor.
· alegerea nivelului de semnificaţie α a testului. Reamintim că α reprezintă probabilitatea de a lua o decizie
greşită în urma aplicării testului; cu cât α este mai mic, cu atât această eventualitate este mai puţin probabilă. Se
observă, însă, că reducerea n.s. α înseamnă, implicit, o scădere a şanselor de a respinge i.n.H0, întrucât regiunea de
respingere se reduce şi ea în mod corespunzător. În acelaşi timp, însă, se diminuează şi pericolul de a clădi un întreg
eşafodaj explicativ pe o diferenţă de productivitate care în realitate nu există - fapt care, din punctul de vedere al
cercetării ştiinţifice, constituie un avantaj clar.
De fapt, alegerea n.s. α depinde hotărâtor de rolul fenomenului vizat de testele statistice în ansamblul
factorilor care influenţează procesele şi fenomenele studiate. În exemplul nostru, dacă este dovedit prin cercetări
anterioare că producţia de cărbune/mină (fenomenul vizat de test) este factorul hotărâtor pentru gradul de dezvoltare
industrială, comercială etc. al unei regiuni carbonifere, atunci se poate alege un n.s. α mai mare. Prin aceasta, chiar
şi o diferenţă actuală relativ mică poate deveni „statistic semnificativă”, lucru cu care putem fi de acord, dată fiind
importanţa prezumată a factorului ”producţie de cărbune/mină”. Dacă, însă, factorul respectiv este doar unul
printre mulţi alţii, fără o importanţă deosebită în ce priveşte gradul de dezvoltare economică, atunci vom alege un
n.s. α mai mic, astfel încât, pentru a putea fi declarată „statistic semnificativă”, diferenţa actuală dintre bazine
trebuie să fie mult mai mare.
În exemplul nostru, să luăm α = 5% .
· statistica testului:
x1 - x 2 0,04
t= = =2
2/ + 2/ 0,02
σˆ 1 n1 σˆ 2 n 2
.
· stabilirea regiunii de respingere (regiunii critice). Întrucât avem de-a face cu un test bilateral (nu a fost
precizat sensul diferenţei dintre cele două bazine) vom căuta în tabelul cu valorile critice ale variabilei aleatoare „t”
(Anexa III) valoarea ce corespunde pragului de 2,5% (α/2). Dacă valoarea t calculată depăşeşte, ca valoare absolută,
pe cea tabelată , atunci statistica testului intră în regiunea de de respingere şi, deci, i.n. H0 va fi respinsă. Intrarea în
tabelul distribuţiei „t” se face cu n.s. ales (în cazul nostru, 2,5%) şi cu numărul gradelor de libertate ale variabilei
aleatoare „t” (18).
Numărul gradelor de libertate ale unei variabile aleatoare se obţine scăzând din numărul total de valori
numărul de relaţii independente care leagă între ele valorile variabilei respective.
O relaţie independentă este o relaţie care implică numai valorile dintr-un eşantion, fără a include parametri
calculaţi cu ajutorul altor relaţii. O relaţie de acest gen face ca una dintre valorile eşantionului să nu mai poată varia
aleator: într-adevăr, dacă, de exemplu, se dă media x a unui eşantion cu n elemente, numai n-1 dintre acestea pot
căpăta valori arbitrare, în timp ce una dintre ele va avea o valoare predeterminată, astfel încât să producă media x .
În formula de definiţie a statisticii „t” între elementele fiecăruia dintre cele două eşantioane există câte o
∑ xi
x=
relaţie independentă de forma n (formulele de calcul pentru cele mai bune estimaţii ale abaterilor standard
nu introduc alte relaţii independente). Aceasta înseamnă că numărul gradelor de libertate, notat prescurtat g.l. sau v,
va fi egal cu numărul total de valori (n1 + n2) din care se scade numărul de relaţii independente (două):
g.l. = n1 + n 2 - 2 = 20 - 2 = 18 .
Intrând în tabelul distribuţiei „t”, pentru α/2 = 2,5% şi g.l. = 18 găsim că valoarea critică corespunzătoare
este cuprinsă între 2,101 şi 2,552, deci mai mare decât valoarea t calculată.
· întrucât valoarea calculată este mai mică decât valoarea tabelată (critică), tragem concluzia că diferenţa
observată dintre producţiile/mină din cele două bazine carbonifere nu este statistic semnificativă; altfel spus, nu
respingem i.n. H0, ştiind că există, totuşi, o probabilitate de 5% de a greşi acceptând-o.

49
3. Cazul mai multor eşantioane. Pentru testarea diferenţelor dintre mediile a mai mult de două
eşantioane se utilizează testul „F” al lui Snedecor (testul raportului varianţelor). Acest test are la
bază o procedură ceva mai complexă cunoscută sub numele de „analiza varianţei”. Analiza
varianţei (AV) poate fi considerată o extensie a testului „z”, cazul a două eşantioane: se
lucrează, într-o primă fază, cu mediile eşantioanelor, iar premisele sunt aceleaşi - populaţii
normale, eşantioane aleatoare şi independente, la care se adaugă prezumţia că devIaşiile
standard ale eşantioanelor sunt egale. Testul propriu-zis, însă, ia în considerare două varianţe
estimate: varianţa valorilor în interiorul fiecărui eşantion (în jurul mediei) şi varianţa mediilor
eşantioanelor în jurul mediei generale (varianţa între eşantioane). Cele două varianţe sunt apoi
analizate sub aspectul raportului lor (şi nu al diferenţei dintre ele). Reamintim că varianţa este
media aritmetică a pătratelor abaterilor valorilor unui eşantion de la media acestora.

Dacă mediile eşantioanelor nu diferă semnificativ între ele, atunci varianţa „între grupe”
(eşantioane) va fi aproximativ egală cu cea „în interiorul grupelor” (eşantioanelor), iar raportul
lor va fi apropiat de 1; deci nu există diferenţe reale între medii, diferenţele între eşantioane
fiind datorate varianţei din interiorul acestora. Dacă mediile diferă semnificativ, atunci raportul
varianţelor va fi clar mai mare ca 1. Acest raport al varianţelor, notat cu F, reprezintă tocmai
statistica testului omonim şi el constituie o variabilă aleatoare a cărei distribuţie (teoretică) a fost
stabilită de Snedecor. Modul de prezentare a datelor pentru analiza varianţei este redat în tabelul
4.1. În tabel s-a notat cu x .j media unui eşantion oarecare j, iar cu x .. media generală a valorilor
tuturor celor k eşantioane.

Tabel 4.1. Forma generală de prezentare a datelor pentru analiza varianţei (cazul unei singure
variabile).
Grupe (eşantioane) Total
1 2 ... j ... k
x11 x12 ... x1j ... x1k
x21 x22 ... x2j ... x2k
x31 x32 ... x3j ... x3k
. . . .
. . . .
. . . .
xi1 xi2 ... xij ... xik
. . . .
. . . .
. . . .
... ...
xn11 xn 2 2 xn j j xn k k
Valori
individuale

Media ... ... nj


x .1 x .2 x .j x .k k

∑∑ x
j =1 i=1
ij

x .. =
N
Numărul de valori n1 n2 ... nj ... nk k
N = ∑n j
j =1

Analiza varianţei operează într-o primă fază doar cu sumele de pătrate ale abaterilor de
la medie (SPA), pentru fiecare eşantion şi pentru cele k eşantioane. Aceste SPA sunt numite
variaţii (nu varianţe!). Avem mai întâi variaţia totală, pentru ansamblul N al tuturor valorilor din
cele k eşantioane, care se calculează cu ajutorul unei relaţii de forma:

50
k nj 2
∑ ∑ ( x ij - x .. )
j=1 i=1
.
Variaţia (SPA) totală poate fi repartizată (alocată) pe cele două componente ale sale (SPA „între
grupe”, respectiv „în interiorul grupelor”), astfel încât în final să se poată calcula cele două
varianţe menţionate mai sus.
Dacă vom lua un element oarecare dintr-un eşantion, atunci putem scrie o relaţie
algebrică simplă:
x ij - x ..= ( x ij - x .j ) + ( x .j - x .. )
,
adică scădem şi adunăm x .j . În felul acesta diferenţa între xij şi x .. este exprimată ca sumă a două
cantităţi: (1) diferenţa între xij şi media eşantionului (grupei) din care ea face parte şi (2)
diferenţa între x .j şi x .. .

Pentru a ajunge la SPA-uri, ridicăm la pătrat relaţia de mai sus:


2 2 2
( x ij - x .. ) = ( x ij - x .j ) + 2( x ij - x .j )( x ij - x .. ) + ( x .j - x .. )
Apoi aplicăm operaţia de însumare la ambii membri ai ecuaţiei - caz în care termenul central din
membrul drept devine nul (conform proprietăţilor mediei aritmetice). Rezultă:
k nj 2 k
nj
2 k
nj
2
( x
∑ ∑ ij x ..- ) = ( x
∑ ∑ ij x .j- ) + ∑ ∑ ( x .j - x .. )
j=1 i=1 j=1 i=1 j=1 i=1
adică SPAtotală = SPAîn interiorul grupelor + SPAîntre grupe.
Pentru a obţine cele mai bune estimaţii ale varianţelor corespunzătoare, SPA-urile de
mai sus se împart la numărul de grade de libertate aferente:
- pentru varianţa totală, g.l. = N-1, căci un grad de libertate s-a pierdut prin calcularea x ..
(singura relaţie independentă între cele N valori);
- pentru varianţa „între grupe” g.l. = k-1, căci fiecare medie este tratată ca o valoare
individuală, un grad de libertate pierzându-se prin calculul x .. ;
- pentru varianţa „în interiorul grupelor” se pierde câte un grad de libertate pentru fiecare
eşantion (prin calculul mediei corespunzătoare), deci g.l. = N-k.
De menţionat că egalitatea de la SPA-uri este valabilă şi la gradele de libertate: N-1 =
(N-k) + (k-1).
Acum pot fi calculate varianţele estimate pentru cele două componente, iar raportul
acestor estimaţii, adică
varianta estimatà mai mare
F=
varianta estimatà mai micà
este tocmai statistica testului „F”.
Calculele aferente acestei etape se trec de regulă în aşa-numitul „tabel de analiză a
varianţei” (vezi tab.4.2).

Tabel 4.2. Forma generală a tabelului de analiză a varianţei.


Sursa de variaţie SPA g.l. Varianţa F
estimată
Total SPAtot. N-1 2 2
Între grupe SPAî.g. k-1 SPAî.g./(k-1) σ å.g. σ å.i.g.
În interiorul grupelor SPAî.i.g. N-k SPAî.i.g./(N-k) ( )
2 2
σ å.i.g. σ å.g.

51
Valoarea F calculată se compară cu valoarea F teoretică, corespunzătoare n.s. α al
testului şi gradelor de libertate ale celor două variabile estimate (Anexele IV şi V). Dacă Fcalculat
< Fteoretic, atunci diferenţele dintre mediile celor k eşantioane nu sunt semnificative statistic. În
caz contrar diferenţele sunt considerate semnificative.
De remarcat că valorile F tabelate sunt mai mari, sau cel mult egale cu 1, ceea ce
înseamnă că testul „F” este un test unilateral (întotdeauna varianţa estimată mai mare constituie
numărătorul raportului).
Să precizăm, în final, că procedura descrisă mai sus constituie aşa-numita „analiză
simplă a varianţei”. Simplă, deoarece cele k eşantioane corespund la k modalităţi ale unei
caracteristici calitative nominale sau ordinale, modalităţile respective corespunzând unor
„populaţii” ale căror medii sunt comparate cu ajutorul AV. Atunci când eşantioanele corespund
modalităţilor a două sau mai multe caracteristici calitative, se vorbeşte despre „analiza dublă a
varianţei”, repectiv „analiza multiplă a varianţei”, metode de analiză statistică a căror
prezentare depăşeşte cadrul acestui curs.

Exemplu (după Gregory, 1968). Se studiază potenţialul agropedologic din nordul ţării (Pod. Sucevei). Prin
metodele sondajului aleator au fost prelevate 3 eşantioane în scopul comparării producţiei de secară de pe suprafeţe
cu soluri diferite: pe substrat turbos, dezvoltate pe marne, respectiv pe argile. Pentru fiecare tip de sol a fost alcătuit
câte un eşantion de 10 terenuri cultivate cu secară.
Producţiile medii înregistrate au fost respectiv de 24,3 q/ha (sol turbos), 22,2 q/ha (sol marnos) şi 21,0 q/ha
(sol argilos). Se pune întrebarea dacă diferenţele de productivitate între cele 3 eşantioane este suficient de mare
pentru a putea afirma că producţia de cereale din zonă variază semnificativ în raport cu tipul de sol. Datele de lucru
sunt redate în tabelul de mai jos. Prelucrarea lor după metodologia expusă mai sus conduce la următoarele rezultate:
3 10
∑ ∑ ( x ij - x .. )
SPAtot. = =1 i=1
j = 301,5;
3
∑ 10( x .j - x .. )
SPAî.g. = =1j = 55,8;
SPAî.i.g. = SPAtot. - SPAî.g. = 301,5 - 55,8 = 245,7.

Tip de sol Total


turbos marnos argilos
24 17 19
27 25 18
21 24 22
Producţii 22 19 24
(q/ha) 26 28 23
13 21 18
25 20 21
29 25 19
26 19 25
24 24 21
Media 3 10
x ij
x .1 =24,3 x .2 0=22,2 x .3 =21,0
Nr. de valori
x .. = ∑ ∑ 30
j=1i=1
10 10 10 =22,5
30

. ipoteza nulă H0: nu există o diferenţă semnificativă între medii, faţă de i.a.H1: există o diferenţă
semnificativă între acestea.
. n.s. α = 5%
. statistica testului: F = 27,9/9,1 = 3,07.
. regiunea critică: în tabelul distribuţiei „F” (Anexa V), pentru α = 5%, υ1 = 2 şi υ2 = 27, valoarea Ftabelată =
3,35.

52
. deoarece 3,07<3,35, se acceptă ipoteza nulă H0, deci producţia de cereale nu variază semnificativ în
raport cu tipul de sol.

Sursa de variaţie SPA g.l. Varianţa estimată „F”

Total 301,5 29
Între grupe 55,8 2 27,9
În int. grupelor
245,7 27 9,1 3,7

4.3.2.2. Teste neparametrice.


Sunt tehnici de verificare a ipotezelor statistice foarte utile în practica cercetării
geografice, unde sunt frecvente situaţii cum ar fi:
- nu se dispune de valori absolute (deci nu se pot calcula mediile), datele fiind sub formă
de frecvenţe (distribuţii de frecvenţe);
- populaţiile din care sunt prelevate eşantioanele nu urmează o lege de distribuţie
normală, sau pur şi simplu nu se ştie ce fel de lege de distribuţie urmează.
Nefiind restricţionate de calculul unor parametri ai eşantionului (eşantioanelor)
analizate, sau de presupoziţii cu privire la tipul de distribuţie urmat de populaţia originară,
testele neparametrice au un câmp de aplicabilitate mult mai larg. Singura exigenţă pretinsă de
majoritatea acestor teste este aceea ca datele să fie calitative ordinale sau sub formă de frecvenţe
(brute). Deasemenea, este hotărâtor modul cum este formulată ipoteza nulă H0, care de cele mai
multe ori condiţionează însăşi posibilitatea aplicării testului, pe lângă corectitudinea
concluziilor.
Dintre testele neparametrice două sunt mai des utilizate: testul χ² şi testul Kolmogorov-
Smirnov.

Testul χ². Este un test relativ uşor de aplicat, dar este esenţial ca datele să fie aranjate
corect, iar problema de rezolvat să fie una potrivită pentru aplicarea acestei metode.
Testul χ² verifică dacă frecvenţele observate ale fenomenului analizat diferă semnificativ de
nişte frecvenţe probabile (teoretice) ce corespund unei ipoteze prealabile. Această ipoteză
prealabilă trebuie definită cu atenţie şi bine înţeleasă, astfel încât rezultatul aplicării testului să
fie corect interpretat.
Vom ilustra modul de aplicare a acestui test cu ajutorul unui exemplu (după Gregory,1968).
Să presupunem că trebuie făcut un studiu asupra unui număr de ferme considerate în relaţie cu
caracteristicile lor de localizare. Pe un teritoriu cu relief variat se prelevează un eşantion de 200 ferme, care sunt
grupate apoi în câteva categorii în funcţie de caracteristica
fizico-geografică a sit-ului: şes aluvial, terasă, versant, platou Tabel 4.3. Distribuţia celor 200 de ferme pe tipuri de
calcaros, platou grezos. Numărul de ferme pentru fiecare sit.
categorie este dat în tab.4.3, alături de ponderea suprafeţelor Sit Număr ferme % din supr. Totală
pentru fiecare categorie în suprafaţa totală a teritoriului
10 10
studiat.
şes aluvial 100 35
Examinarea datelor sugerează clar că distribuţia
terasă 2 10
fermelor pe cele 5 categorii este legată de proporţia
versant 38 25
suprafeţelor corespunzătoare: pe terase, care acoperă cea mai
platou calcaros 50 20
mare suprafaţă, sunt instalate cele mai multe ferme. Pe de
platou grezos
altă parte, distribuţia fermelor pare să indice o localizare
preferenţială, deoarece şi terasele, şi platourile grezoase au
un număr de ferme mai mare decât ar sugera ponderea
arealului lor, în timp ce celelalte 3 categorii sunt oarecum sub-reprezentate.
Dacă dorim să găsim o explicaţie cauzală pentru distribuţia spaţială a sit-urilor fermelor, una din
problemele de rezolvat este verificarea ipotezei sugerate de datele empirice. Dacă numărul de ferme de pe un
anumit tip de teren este legat în primul rând de frecvenţa cu care apar respectivul tip, atunci nu se poate argumenta
că caracterele fizico-geografice ale acelui tip de teren reprezintă factori ce favorizează (influenţează) amplasarea
fermelor.

53
Pentru a testa care din cele două posibilităţi este mai probabilă, aplicăm testul χ². Ipoteza nulă H0 o
formulăm astfel: nu există o diferenţă semnificativă între cele 5 categorii de terenuri în ce priveşte frecvenţa
amplasării fermelor, acestea fiind repartizate uniform pe întreg arealul studiat. Altfel spus, distribuţia observată a
fermelor poate fi dedusă satisfăcător din proporţiile diferitelor categorii de teren în cadrul arealului studiat.
Statistica testului, notată cu χ², se calculează pornind de la diferenţele între frecvenţele observate şi cele
„aşteptate” sau „probabile”. Frecvenţele probabile sunt cele care rezultă în cazul în care ipoteza nulă H0 ar fi
adevărată.
Pentru fiecare categorie (grup, clasă) diferenţa ridicată la pătrat se împarte la frecvenţa probabilă, în felul
acesta eliminându-se variabilitatea de la o grupă la alta (un procedeu similar cu standardizarea). Prin însumarea
acestor diferenţe „standardizate” se obţine valoarea χ²:
2
2 ( fo- f p)
χ =∑
fp
Statistica χ² constituie o variabilă aleatoare cu k-1 grade de libertate (k - numărul de grupe/categorii), a
cărei distribuţie teoretică este disponibilă sub formă de
tabele (sau grafice). În tabelul distribuţiei χ² (Anexa VI) se
intră cu n.s. α al testului şi cu g.l. Dacă valoarea χ²calculată> Tip de sit şes terasă versant platou platou
Frecvenţe aluvial calcaros grezos
χ²teoretică, atunci ne aflăm în regiunea critică şi, deci, ipoteza
nulă H0 va fi respinsă. fo 10 100 2 38 50
În exemplul nostru, pentru a calcula valoarea χ² fp 20 70 20 50 40
trebuie stabilite frecvenţele. Cele observate (fo) sunt fo-fp -10 30 -18 -12 10
disponibile deja, iar cele aşteptate (fp) se calculează
pornind de la ponderea fiecărui tip de teren în suprafaţa
totală (vezi tabelul de mai jos). Astfel, de exemplu, dacă
şesurile aluviale acoperă 10% din teritoriu studiat, atunci ar trebui (conform ipotezei nule H0) ca 20 (adică 10%) din
cele 200 de ferme să fie situate în şesuri aluviale.
2
2 ( fo- f p)
χ =∑ = 39,5
fp
Statistica testului:
În tabelul distribuţiei χ² (vezi Anexa VI), pentru g.l. = 5-1 = 4, valorile tabelate sunt mult mai mici decât
cea calculată, chiar şi la praguri de semnificaţie α mici (2% sau 1%). Este clar deci că ipoteza nulă H0 trebuie
respinsă, iar concluzia testului este că există realmente o localizare preferenţială a fermelor în funcţie de tipul de
teren - altfel spus, caracteristicile fizico-geografice ale sit-ului influenţează semnificativ frecvenţa fermelor.

În exemplul de mai sus testul χ² a fost utilizat pentru analiza unei singure variabile -
numărul de ferme pe diferite tipuri de terenuri. Acelaşi test poate fi, însă, folosit pentru
compararea a două sau mai multe variabile care apar, ca şi la exemplul anterior, sub forma unor
distribuţii de frecvenţe (empirice). De remarcat că testul χ² poate fi folosit şi pentru compararea
unei distribuţii empirice cu una teoretică, caz în care se încadrează în categoria aşa-numitelor
teste de concordanţă (de adecvare).
În cazul comparării a două sau mai multe distribuţii empirice frecvenţele observate,
corespunzătoare diferitelor categorii (grupe, clase) se
prezintă în mod obişnuit sub forma unui tabel cu r linii
(r - numărul de variabile comparate) şi c coloane (c - Grupe 1 2 3 Total
Variabile
numărul de grupe). Un asemenea tabel poartă numele de
X x1 x2 x3 SX
tabel de contingenţă. Y y1 y2 y3 SY
Un exemplu pentru două variabile cu trei categorii Total S1 S2 S3 N
(grupe) apare în tabelul alăturat.
Frecvenţele observate sunt xi şi yj. Frecvenţele
aşteptate se calculează destul de simplu, sub forma unor
probabilităţi condiţionate de totalurile pe linii şi coloane - spre exemplu lui x1 îi corespunde o
∑ x * ∑1
frecvenţă probabilă calculată cu formula N . Deci pentru orice celulă din tabel frecvenţa
probabilă se obţine împărţind produsul dintre suma liniei şi suma coloanei aferente la frecvenţa

54
totală N. Odată determinate frecvenţele probabile, valoarea χ² se calculează după formula
cunoscută:
2
2 ( f o- f p )
χ =∑
fp
,
însumarea făcându-se pentru toate celulele din tabel.
Statistica astfel calculată este o variabilă aleatoare cu (r-1)(c-1) grade de libertate.
Valoarea tabelată (Anexa VI) se compară cu cea calculată, iar concluzia testului se stabileşte
după aceleaşi reguli ca şi în cazul unei singure variabile.

Testul Kolmogorov-Smirnov - este un test neparametric care, ca şi testul χ² se utilizează


în cazul acelor eşantioane (variabile) ce apar sub formă de distribuţii de frecvenţe brute.
Deasemenea, ca şi testul χ², testul K.-S. se utilizează atât pentru compararea a două distribuţii
empirice, cât şi pentru compararea unei distribuţii empirice cu una teoretică (test de
concordanţă).
Pentru a putea aplica testul este necesar ca frecvenţele brute să fie transformate în
proporţii (frecvenţe relative subunitare). După aceea aceste proporţii se cumulează, pentru
fiecare din cele două distribuţii de frecvenţe. Pentru fiecare categorie (grupă, clasă) se face
diferenţa între cele două proporţii cumulate. În ultima etapă a testului se ia în considerare cea
mai mare dintre diferenţe, a cărei semnificaţie statistică poate fi evaluată direct (deci fără a fi
implicată în calculul vreunei statistici). Evaluarea se face cu ajutorul tabelului sau graficului
diferenţelor maxime, în funcţie de mărimea eşantionului de bază (cel pe baza căruia s-a alcătuit
distribuţia de frecvenţe) (Anexa VII).

Exemplu. Analiza frecvenţei cantităţilor zilnice de precipitaţii la o staţie meteo, pentru o perioadă lungă de
timp, a condus la distribuţia de frecvenţe din tabelul alăturat.
Pentru o lună particulară de 30 zile frecvenţele brute ce corespund celor 4 categorii (clase) au fost respectiv 12, 6, 9,
3. Problema de rezolvat este aceea de a decide dacă între distribuţia „teoretică” şi cea a lunii respective există o

Clasa 0 mm 0,1-2 mm 2-10 mm >10 mm


Frecvenţa(%) 50 25 20 5

diferenţă semnificativă sau nu.


· ipoteza nulă H0 va fi, fireşte, aceea care neagă existenţa unei diferenţe semnificative între cele două
distribuţii.
· n.s. α=5%.
· după cum s-a văzut, în cazul testului Kolmogorov-Smirnov statistica testului este reprezentată de acea
diferenţă maximă între proporţiile cumulate aferente categoriilor (claselor). Deci transformăm mai întâi frecvenţele
de mai sus în proporţii, apoi calculăm proporţiile cumulate şi diferenţele respective (vezi tabelul de mai jos). Pentru
distribuţia empirică (cea a lunii particulare de 30 de zile) proporţiile se calculează simplu, împărţind fiecare din
frecvenţele observate la numărul total de cazuri (30).

55
· δmax = 0,15.
· în tabelul cu diferenţele maxime pentru testul Kolmogorov-Smirnov (Anexa VII) găsim că pentru un

Clasa 0 mm 0,1-2 mm 2-10 mm >10 mm

Proporţii d.teoretică 0,50 0,25 0,20 0,05

d.empirică 0,40 0,20 0,30 0,10

Proporţii cumulate d.teoretică 0,50 0,75 0,95 1,00

d.empirică 0,40 0,60 0,90 1,00

Diferenţa (δ) 0,10 0,15 0,05 0

eşantion de 30 valori (zile, în cazul nostru) şi α=5%, δmax teoretic este 0,24. Deci diferenţa între cele două distribuţii
este nesemnificativ statistic.
Aşa cum s-a menţionat, testul K.-S. se poate aplica şi în cazul a două eşantioane
(distribuţii empirice). Dacă se lucrează cu eşantioane mici (n<40), atunci este necesar ca ele să
aibă aceeaşi mărime, pentru a putea folosi tabelul testului - aceasta întrucît în tabel se intră cu
n.s. α şi volumul unui eşantion (nu cu volumul total al celor două eşantioane).
În cazul eşantioanelor mari (n>40) volumele pot fi inegale, iar diferenţele maxime
corespunzătoare diferitelor nivele de probabilitate (semnificaţi e) se obţin cu ajutorul unor
formule indicate de Smirnov (pentru testul bilateral):
n1 + n 2
1,36
- pentru n.s. α =5%: ämax = n1 * n 2 ;
n1 + n 2
1,63
- pentru n.s. α =1%: ämax = n1 * n 2 ;
n1 + n 2
1,95
- pentru n.s. α =0,1%: ämax = n1 * n 2 .

56
CAP.V. PROBLEME GENERALE PRIVIND RELAŢIA DINTRE DOUĂ VARIABILE
(NOŢIUNI DE ANALIZĂ BIVARIATĂ )

5.1. Noţiunea de relaţie între două caracteristici

Una dintre întrebările fundamentale ale geografilor este următoarea: există o relaţie23
oarecare între fenomene situate în locuri diferite ale spaţiului? (Johnston,1978). Răspunsul la
această întrebare oferă posibilitatea de a sesiza eventualele structuri spaţiale, care funcţionează
de multe ori incifrat, greu de perceput cu ajutorul simăurilor umane. De asemenea, a răspunde la
această întrebare înseamnă a putea avansa mai departe în cercetarea geografică, respectiv a
ajunge la stadiul de a sesiza diferenţierile spaţiale. Adică la a răspunde la a doua întrebare
fundamentală a geografiei: locurile caracterizate de acelaşi fenomen sunt diferite între ele?
(Johnston, 1978).

Baza de pornire pentru a demonstra existenţa sau non-existenţa relaţiilor dintre


fenomene cu localizări diferite este ordonarea elementelor mulţimii studiate într-un tabel
elementar.
Să considerăm o mulţime M alcătuită din n elemente (observaţii) 1..i..n, descrise de două
caracteristici (variabile) X şi Y, care iau modalităţile
X1..Xi..Xn şi respectiv Y1..Yi..Yn. Variabilele
(caracteristicile) X şi Y pot fi calitative sau cantitative, n∈M X Y
continue sau discrete. Tabloul elementar care corespunde 1 X1 Y1
acestei mulţimi are forma din tabelul alăturat. 2 X2 Y2
Spunem că pentru mulţimea observată M există o
. . .
relaţie între X şi Y dacă cunoaşterea modalităţii Xi permite
prezicerea, într-o oarecare măsură, a modalităţii Yi . . .
corespondente. i Xi Yi
O relaţie se poate exprima sub formă literară . . .
(calitativă) sau sub formă algebrică (cantitativă ). Pentru a
. . .
ilustra aceste două forme, vom considera mulţimea M a
statelor tropicale în anul 1985, fiecare stat fiind caracterizat n Xn Yn
de două variabile: rata analfabetismului feminin (X) şi
mortalitatea infantilă masculină (Y). Aceste două variabile
iau, pentru fiecare stat 1..i..n, modalităţile X1..Xi..Xn şi
Y1..Yi..Yn.

23
Trebuie să se remarce faptul că în statistică, termenul de relaţie nu este sinonim cu cel de legătură. Termenii de
legătură şi de dependenţă permit să se precizeze noţiunea de relaţie :
a) Noţiunea de legătură este simetrică : a spune că există o legătură între X şi Y înseamnă acelaşi lucru cu a spune că
există o legătură între Y şi X (aceasta înseamnă că valorile lui X şi Y nu sunt distribuite în mod întâmplător);
b) Noţiunea de dependenţă nu este simetrică, deoarece ea dă un sens relaţiei : a spune că Y depinde de X nu
înseamnă acelaşi lucru cu a spune că X depinde de Y. De exemplu, salariul creşte în general cu vechimea în muncă a
lucrătorului. Salariul depinde de vechime. În schimb, vechimea nu depinde de salariu, deoarece timpul trece şi fără
mărirea salariului.
Prin urmare, o relaţie, care presupune şi dependenţă între variabile, este mai mult decât o legătură, deoarece are un
sens : a scrie Y = f(X) înseamnă că se admite că Y este variabila dependentă (de explicat) iar X este variabila
independentă (explicativă).

57
a) Forma literară: Dacă un element i din M ia modalitatea Xi a variabilei X, atunci ne
putem aştepta ca modalitatea sa pentru variabila Y să fie Yi. În termenii exemplului de mai sus,
se spune că „pentru mulţimea ţărilor tropicale, la nivelul anului 1985, se observă în medie că, cu
cât nivelul de alfabetizare a femeilor este mai scăzut, cu atât mortalitatea infantilă masculină
este mai mare”.
b) Forma algebrică (sau funcţională): Y = f(X), respectiv Y este o funcţie de X. În
termenii aceluiaşi exemplu, expresia devine: Y = 1,73×X + 38,6, cu rXY = +0,820, unde:
Y = rata analfabetismului femeilor adulte în 1985;
X = rata mortalităţii băieţilor sub 5 ani, în 1989;
rXY = coeficientul de corelaţie între cele două variabile (vezi § 5.3.1).
Prin urmare, se observă că a dovedi faptul că între două variabile există o relaţie
înseamnă a demonstra că atribuirea modalităţilor lui X şi lui Y pentru fiecare dintre elementele i
din M nu se face la întâmplare, respectiv a demonstra că valorile lui X depind de valorile lui Y
sau că valorile lui Y depind de valorile lui X. De vreme ce se caută logica atribuirii acestor
modalităţi în aşa fel încât, cunoscând modalitatea Xi, să se poată prezice modalitatea Yi (sau
invers), se poate spune că se urmăreşte să se sesizeze faptul dacă cele două variabile sunt
corelate.

Cea mai simplă modalitate de a observa dacă două variabile sunt corelate este studierea
diagramei lor de dispersie. Diagrama de dispersie este un sistem de coordonate rectangulare, în
planul căruia se pot localiza punctele ce corespund perechilor de valori XY (obţinându-se un
„nor de puncte”). Mulţimea de puncte ce alcătuieşte norul se ordonează într-o anumită manieră,
dându-i acestuia o anumită formă. Aspectul norului permite caracterizarea relaţiei prin
intermediul a trei criterii: intensitatea relaţiei, forma relaţiei şi sensul relaţiei. Dacă punctele
prezintă tendinţa de a se apropia de o aceeaşi curbă, variabilele respective sunt corelate. În
funcţie de cele trei criterii, corelaţiile pot fi puternice sau slabe, lineare sau neliniare, pozitive
sau negative. Lipsa unei direcţii vizibile a ordonării punctelor care alcătuiesc norul semnifică
faptul că variabilele nu sunt corelate.

Studierea relaţiilor stabilite între două variabile se efectuează în funcţie de felul


variabilelor în cauză: calitative sau cantitative, discrete sau continue. Pentru a ilustra cele mai
frecvente situaţii, vom analiza trei cazuri de relaţii prin intermediul modalităţilor lor de studiu24:
1. - relaţia între două variabile discrete (cantitative sau calitative), cu număr k redus de
modalităţi (k<n pentru X şi Y): studiul tabelului de contingenţă; coeficienţi de asociere;
2. - relaţia dintre două variabile cantitative continue, sau asimilabile unor variabile
continue (k>n pentru X şi Y): studiul coeficientului de corelaţie liniară Bravais-Pearson (r);
regresia liniară;
3. - relaţia dintre două variabile calitative ordinale (k=n pentru X şi Y); studiul
coeficientului de rang Spearman (ρ).

5.2. Tabelul de contingenţă şi studiul relaţiei între două caracteristici discrete25

5.2.1. Crearea unui tabel de contingenţă26

24
Trebuie remarcat că majoritatea celorlalte situaţii pot fi aduse la nivelul uneia sau alteia dintre cele prezentate în
text, cu condiţia transformării variabilelor (prin discretizare, prin standardizare, etc.).
25
Vezi şi capitolul „Teste neparametrice”.
26
Studiul tabelului de contingenţă se poate aplica şi în cazul caracteristicilor continue, cu condiţia ca acestea să fie
discretizate (de exemplu să fie grupate în clase).

58
Tabelele de contingenţă sunt tabele constituite din numere întregi, descriind repartiţia
elementelor unei mulţimi în funcţie de două serii de modalităţi. Tabelele de contingenţă se
construiesc plecând de la tabelele elementare.

Exemplu. Fie un tabel elementar care descrie fiecare cetăţean al oraşului Albeni (cu 20.000 de locuitori)
în funcţie de cartierul unde locuieşte, respectiv variabila X, cu patru modalităţi (X1 = cartierul Morilor-M, X2 =
cartierul Papura-P, X3 = cartierul Neagra-N, X4 =
cartierul Tăbăcărie-T) şi în funcţie de naţionalitate,
Nr. / Nume M P N T LOC STR
respectiv variabila Y, cu două modalităţi (Y1 =
localnic-LOC şi Y2 = străin-STR). În tabel, 1. Ionescu V. 1 0 0 0 1 0
apartenenţa la o modalitate este notată cu 1 iar non-
2. Ghaffar M. 0 0 1 0 0 1
apartenenţa cu 0.
De la acest tabel elementar se poate crea . . . . . . . .
tabelul de contingenţă, prin însumarea numărului de . . . . . . . .
cetăţeni care îndeplinesc simultan ambele modalităţi. . . . . . . . .
De exemplu, există cel puţin un individ (Ionescu), 452. Popescu I. 0 0 0 1 1 0
care locuieşte în cartierul Morilor şi este localnic
(îndeplineşte modalităţile X1 şi Y1), în schimb există . . . . . . . .
. . . . . . . .
cel puţin doi indivizi (Ghaffar şi Zhu) care locuiesc . . . . . . . .
în cartierul Neagra şi sunt străini (îndeplinesc
amândoi modalităţile X3 şi Y2). După gruparea tuturor 20000. Zhu Liao 0 0 1 0 0 1
celor 20.000 de locuitori, se efectuează suma tuturor
coloanelor şi a tuturor liniilor şi se obţine următorul
tabel, care este tabelul de contingenţă:

X: \ Y: Y1 (LOCALNIC) Y2 (STRĂIN) TOTAL

X1 (Morilor) 5.000 0 5.000

X2 (Papura) 4.000 1.000 5.000

X3 (Neagra) 3.000 2.000 5.000

X4 (Tăbăcărie) 2.000 3.000 5.000

TOTAL 14.000 6.000 20.000

Pentru o mai bună înţelegere a analizei efectuate, prezentăm mai jos schema unui tabel
de contingenţă.
Notaţiile unui tabel de contingenţă,
cu care ne vom întâlni şi în alte capitole, i \ j 1 2 ... j ... p ΣY
sunt următoarele (Bezencri, 1973): 1 k11 k12 ... k1j ... k1p k1.
* i - desemnează liniile (sau modalităţile 2 k21 k22 ... k2j ... k2p k2.
caracterului X);
. . . . . . . .
* n - desemnează numărul total de linii; . . . . . . . .
* j - desemnează coloanele (sau modalităţile . . . . . . . .
caracterului Y); i ki1 ki2 ... kij ... kip ki.
* p - desemnează numărul total de coloane;
. . . . . . . .
* kij - desemnează efectivul căsuţei aflată la . . . . . . . .
intersecţia liniei i cu coloana j (de exemplu . . . . . . . .

numărul cetăţeni care locuiesc în cartierul i n kn1 kn2 ... knj ... knp kn.
şi au naţionalitatea j); ΣX k.1 k.2 ... k.j ... k.p k..
* knp - desemnează efectivul căsuţei aflată
la intersecţia ultimei linii (n) cu ultima
coloană (p);
* k.j (k punct j) - desemnează efectivul total al coloanei j, adică

59
n
k . j = ∑ k ij
i=1
(respectiv numărul cetăţenilor de naţionalitate j). Efectivul k.j este efectivul care posedă în
acelaşi timp modalitatea Yj şi diferitele modalităţi ale caracterului X. Punctul înseamnă că
respectivul caracter pus în coloană este considerat în totalitatea sa. Diferitele efective k1j, k2j, . . .
kij, . . . knj formează distribuţia condiţională a lui X dacă Yj este realizat sau distribuţia
condiţională a lui X pentru modalitatea27 Yj, ceea ce se notează X/Yj. Pentru un j fixat, efectivul
p
X / Y j = k . j = k 1j + k 2j + ... + k ij + ... k nj = ∑ k ij
său total este j=1
Există deci p distribuţii condiţionale ale lui X (p coloane). Valorile ultimei linii (k.1, k.2, . . . k.j, .
. . k.p) formează distribuţia marginală a caracterului Y în funcţie de caracterul X;
p
k i .= ∑ k ij
* ki. (ki punct) - desemnează efectivul total al liniei i, adică: j=1
(respectiv numărul cetăţenilor din cartierul i). Efectivul ki. este efectivul care posedă în acelaşi
timp modalitatea Xi şi diferitele modalităţi ale caracterului Y. Punctul înseamnă că respectivul
caracter pus în linie este considerat în totalitatea sa. Diferitele efective k1i, k2i, . . . kij, . . . kip
formează distribuţia condiţională a lui Y dacă Xi este realizat sau distribuţia condiţională a
lui Y pentru modalitatea28 Xi, ceea ce notează Y/Xi. Pentru un i fixat, efectivul său total este:
n
Y / X i = k i .= k 1i + k 2i + ... + k ij + ... + k ip = ∑ k ij
i=1
Există deci n distribuţii condiţionale ale lui Y (n linii). Valorile ultimei coloane (k1., k2., . . .ki., .
. . kn.) formează distribuţia marginală a caracterului X în funcţie de caracterul Y;
* k.. (k punct punct) - desemnează efectivul total al tabelului, adică:
n p
k..= ∑ ∑ k ij = k
i=1 j=1 (respectiv numărul total al cetăţenilor din Albeni).
De exemplu, în tabelul de contingenţă cu situaţia cetăţenilor oraşului Albeni, k12 = 0, k31
= 3.000, k.2 = 6.000, k2. = 5.000, k.. = 20.000.

Un tabel este un tabel de contingenţă dacă suma coloanelor şi suma liniilor au sens. De
exemplu, însumarea temperaturilor medii care caracterizează cele patru cartiere ale Albenilor nu
ar avea sens, iar tabelul care le-ar cuprinde nu ar putea fi un tabel de contingenţă. Un tabel de
contingenţă este definit de trei parametri:
- unităţile elementare de numărat (în cazul nostru cetăţenii din Albeni);
- două caractere (variabile) discrete care descriu unităţile elementare (în cazul nostru
apartenenţa la unul dintre cartiere şi naţionalitatea).

5.2.2. Analiza unui tabel de contingenţă

Într-un tabel de contingenţă, liniile şi coloanele joacă roluri perfect simetrice. Acest
lucru (respectiv posibilitatea transformării coloanelor în linii şi invers) nu trebuie uitat, deşi, din
comoditate, în analiza unui tabel de contingenţă se foloseşte pentru linii termenul de de cazuri
sau indivizi29 iar pentru coloane cel de variabile (Sanders, 1989).

27
În cazul în care variabilele au fost discretizate în clase, Yj este centrul clasei j.
28
În cazul în care variabilele au fost discretizate în clase, Xi este centrul clasei i.
29
Aceasta deoarece în geografie, liniile unui tabel de contingenţă sunt deseori unităţi spaţiale (în cazul nostru
cartierele oraşului fictiv Albeni). În statistică, prin individ se înţelege o observaţie, adică unul dintre elementele

60
Rolul analizei unui tabel de contingenţă este acela de a stabili dacă între variabilele
considerate există o legătură oarecare, dacă între unităţile spaţiale descrise de aceste variabile
există asemănări sau deosebiri, etc.
Pentru a putea efectua analiza şi a compara liniile sau coloanele tabelului de contingenţă
este necesară realizarea profilelor30 liniilor şi coloanelor.

5.2.2.1. Stabilirea profilelor liniilor

Profilul unei linii se obţine prin împărţirea efectivului fiecărei căsuţe a liniei la efectivul
total al liniei respective (kij/ki.). Astfel se
obţine partea relativă a coloanei j în linia i
(adică partea relativă a cetăţenilor cartierului i Y: LOCALNICI STRĂINI TOTAL
X:
care au cetăţenia j). Suma fiecărei linii astfel
obţinută este întotdeauna 1 (sau 100, dacă Morilor 100% 0% 100%

relativizarea se face procentual, Papura 80% 20% 100%


adică(kij/ki.)*100) (vezi tabelul alăturat). Neagra 60% 40% 100%
Analiza tabelului profilurilor liniilor
Tăbăcărie 40% 60% 100%
permite deja câteva consideraţii referitoare la
relaţia stabilită între cele două variabile şi la TOTAL 70% 30% 100%

diferenţierile induse de acestea între cele patru


cartiere. Astfel, este vizibil faptul că în Albeni
sunt 30% străini şi că în cartierul Tăbăcărie
aceştia sunt predominanţi (60% din populaţia cartierului). Relaţia abia sesizată este incompletă,
deoarece lipsesc informaţii referitoare la raportarea fiecărei unităţi spaţiale la totalul populaţiei
oraşului. Această lacună poate fi acoperită prin repetarea operaţiei de relativizare a
modalităţilor, de această dată în plan vertical (pentru coloane).

5.2.2.2. Stabilirea profilelor coloanelor

Profilul unei coloane se obţine prin împărţirea efectivului fiecărei căsuţe a coloanei la
efectivul total al coloanei respective (kij/k.j sau
(kij/k.j)*100). Se obţine astfel partea relativă a
liniei i în coloana j (adică partea relativă a Y: LOCALNICI STRĂINI TOTAL
X:
cetăţenilor de naţionalitate j din cartierul i în
raport cu oraşul întreg) (vezi tabelul alăturat). Morilor 36% 0% 25%

De această dată, analiza tabelului Papura 29% 17% 25%


profilelor coloanelor permite situarea fiecărui Neagra 21% 33% 25%
cartier în cadrul oraşului în funcţie de cele
Tăbăcărie 14% 50% 25%
două variabile care îl caracterizeazăi. Astfel, se
evidenţiază faptul că în cartierul Tăbăcărie TOTAL 100% 100% 100%

locuieşte 25% din populaţia oraşului, însă aici


este concentrată cea mai mare parte din
populaţia de origine străină (50%) şi cea mai
mică parte dintre localnici (14%).

5.2.2.3. Stabilirea existenţei / non-existenţei unei legături între cele două caracteristici

mulţimii caracterizat de variabilele alese.


30
Profilul unei linii sau al unei coloane înseamnă relativizarea valorii din fiecare căsuţă a liniei (coloanei) prin
raportarea sa la totalul liniei (coloanei).

61
Cea mai simplă cale de a sesiza existenţa / non-existenţa unei legături între cele două
variabile este compararea distribuţiei frecvenţelor lor teoretice cu distribuţia frecvenţelor
observate. Deoarece tabelul de contingenţă este de fapt tabelul distribuţiei frecvenţelor
observate, putem construi, plecând de la ultima sa linie şi de la ultima sa coloană, tabelul de
contingenţă teoretică (sau tabelul de contingenţă a frecvenţelor teoretice). Efectivul teoretic al
unei căsuţe oarecare k'ij este dat de relaţia:
ki . k . j
k i′j = (k..)x x
k.. k..
adică efectivul total înmulţit cu probabilitatea de a lua modalitatea i înmulţit cu probabilitatea de
a lua modalitatea j. Simplificată prin k.. relaţia devine:
k i .xk . j
k i′j =
k..
De exemplu, numărul teoretic al străinilor din cartierul Tăbăcărie este de
6000´5000/20000 = 30000000/20000 = 1500.
Prin urmare, tabelul de contingenţă teoretică
este cel alăturat. Y: LOCALNICI STRĂINI TOTAL
X:
Comparaţia dintre distribuţia teoretică
şi distribuţia observată (efectuată de obicei Morilor 3500 1500 5000

prin efectuarea diferenţei dintre cele două Papura 3500 1500 5000
distribuţii) permite stabilirea faptului existenţei Neagra 3500 1500 5000
sau non-existenţei unei legături între cele două
Tăbăcărie 3500 1500 5000
caracteristici X şi Y:
- dacă distribuţia observată este TOTAL 14000 6000 20000

conformă cu distribuţia teoretică, nu există nici


o legătură între cele două caracteristici;
- dacă distribuţia observată diferă în
mod semnificativ de distribuţia teoretică, există o legătură între caracteristicile analizate.
Comparând distribuţia observată a cetăţenilor oraşului Albeni şi distribuţia lor teoretică,
se observă că acestea diferă evident, deci între cartierul de reşedinţă şi naţionalitatea cetăţenilor
există o oarecare legătură.
Prin această metodă s-a putut demonstra doar că între caracteristicile X şi Y există o
oarecare legătură, dar nu s-a demonstrat că există şi o relaţie care, să ne amintim, implică şi
dependenţă (statistică sau matematică).
Două caracteristici sunt independente atunci când nu există nici o relaţie între ele.
Independenţa lor este dovedită atunci când contingenţa unei căsuţe oarecare a tabelului este
nulă, adică
k i .xk . j
k ij - =0
k..
Această situaţie corespunde la două cazuri: fie acela în care efectivele sunt răspândite în toate
căsuţele, fie acela în care ele sunt dispuse pe o linie sau pe o coloană (fig.5.1).
În aceste cazuri, diagramele de dispersie corespunzătoare sunt fie sub forma unui nor fără formă
determinată, fie sub forma unei linii paralele cu axa oX (independenţă faţă de Y) sau cu axa oY
(independenţă faţă de X). Caracterele se află astfel în independenţă matematică (Calot, 1973).
Conform acestui principiu, se poate vorbi şi de independenţă statistică, care apare atunci când
variabilele variază independent una de cealaltă (fig.5.2).

62
Figura 5.1. : Tip de tabel de contingenţă care ilustrează independenţa matematică şi
diagrame de dispersie aferente situaţiilor de independenţă matematică (după
Chadule, (1979)

Figura 5.2. : Tip de tabel de contingenţă care ilustrează independenţa statistică şi


diagrame de dispersie aferente situaţiilor de independenţă statistică (după Chadule,
(1979)

63
Situaţia opusă (caracterele sunt perfect dependente) se realizează atunci când o funcţie
matematică Y = f(X) leagă în mod riguros variabilele, care astfel se află în relaţie funcţională.

Figura 5.3. : Tip de tabel de contingenţă care ilustrează independenţa matematică şi


diagrame de dispersie aferente situaţiilor de independenţă matematică (după
Chadule, (1979)

condiţiile acestei situaţii sunt îndeplinite doar atunci când unei modalităţi Yj îi corespunde o
modalitate Xi şi numai una (adică, în tabelul de contingenţă doar o singură căsuţă pe linie şi doar
o singură căsuţă pe coloană are un efectiv non-nul (fig.5.3).

Figura 5.4. : Tip de tabel de contingenţă care ilustrează dependenţa statistică şi


diagrame de dispersie aferente situaţiilor de dependenţă matematică (după Chadule,
(1979)

64
Este evident faptul că cele două situaţii limită (independenţa matematică şi dependenţa
funcţională) nu se observă în câmpul de cercetare al geografiei, sau sunt fără interes pentru
cercetarea geografică. Geografia este dominată de cupluri de variabile aflate în relaţie de
dependenţă parţială, numită şi dependenţă statistică (fig.5.4).
Dependenţa statistică poate fi puternică, medie sau slabă, aceasta din urmă fiind în unele
cazuri greu de luat în seamă, deoarece seamănă destul de mult cu independenţa.
Din această cauză, este necesară construirea şi aplicarea unor teste de independenţă,
cărora li se poate fixa un prag de încredere (sau prag de decizie sau prag de eroare) cunoscut.
Cel mai adecvat test este testul de independenţă χ² (se citeşte hi pătrat). Acest test are ca
bază compararea distribuţiei efectivelor observate (kij) din fiecare căsuţă ij a tabelului de
contingenţă observată cu efectivele teoretice (k'ij) din fiecare căsuţă ij a tabelului de contingenţă
teoretică, sub ipoteza independenţei matematice.
Pentru aceasta, se calculează în primul rând efectivul teoretic (k'ij) pe care l-ar avea
fiecare căsuţă în cazul independenţei matematice:
k i .xk . j k i .xk . j
k i′j - = 0 ⇒ k i′j =
k.. k..
În continuare, se însumează diferenţele dintre efectivele teoretice şi efectivele observate,
statistica D a testului având forma:
p (n 2
k i′j - k ij )
D= ∑ ∑
i=1 j=1 k i′j

Ea urmează o lege de repartiţie χ ² cu v grade de libertate, iar ν = (n-1)(p-1) (n = numărul de


clase (linii) ale caracterului X; p = numărul de clase (coloane) ale caracterului Y).

După efectuarea acestor calcule, se testează ipoteza nulă (H0), conform căreia X şi Y sunt
independente. Caracteristicile sunt independente doar dacă se îndeplineşte condiţia D≥C. [C
este valoarea citită în tabelul distribuţiei χ² prezentat în Anexa VI; citirea sa se face exclusiv în
funcţie de v - deci de numărul de grade de libertate, şi de α, adică de pragul de încredere pe care
îl alegem]. Pentru ca această metodă să fie valabilă, trebuie ca efectivul claselor distribuţiilor
condiţionale să fie egal sau superior lui 5 (ki. ≥ 5 şi k.j ≥ 5).

Exemplu. Testul ne permite să sesizăm, dacă există, relaţia de dependenţă dintre cele două caractere care
descriu cetăţenii oraşului Albeni. Pentru aceasta, vom relua tabelele de contingenţă observată şi teoretică, cu
valorile exprimate în mii de locuitori.
Din analiza tabelului de contingenţă, dependenţa nu pare să existe: doar o singură căsuţă are efectiv nul
(Y2,X1) iar efectivele sunt distribuite în tot restul tabelului. Cu toate acestea, caracterele nu se află în relaţie de
independenţă matematică, deoarece contingenţa nu este nulă (de ex. Y'1,X'1 - Y1,X1 = -1,5). Este necesar deci ca să
pornim de la ipoteza nulă H0, conform căreia nu există dependenţă între locul de reşedinţă şi naţionalitatea
cetăţenilor din Albeni.
Deoarece am făcut ipoteza de independenţă matematică, vom considera de asemenea tabelul de
contingenţă teoretică (care va fi utilizat la calcularea cantităţilor (k'ij - kij)²/k'ij), necesare ulterior aflării lui D.
[Pentru a sintetiza demonstraţia, vom utiliza un singur tabel care va cuprinde toate cele trei serii de valori;
pentru comoditate, cantităţile (k'ij-kij)²/k'ij sunt notate în tabelul de mai jos cu d].

65
Pentru calcularea valorilor celor trei serii din tabelul următor, un exemplu numeric poate facilita
înţelegerea. Pentru căsuţa X1,Y2 valoarea se obţine astfel:
- efectivul observat este k12 = 0 Y: Y1 Y'1 d Y2 Y'2 d ki.; k'i.; Sd
- efectivul teoretic este k'12 = (k1. × k.2)/k..=(5×6)/20 = 1,5; X:
- cantitatea (k'ij - kij)²/k'ij, sau d, este (1,5 - 0 )²/1,5=1,50.
X1; X'1 d 5 3,5 0,64 0 1,5 1,50 5 5 2,14

D se obţine deci prin însumarea valorilor d din tabel: X2; X'2 d 4 3,5 0,07 1 1,5 0,17 5 5 0,24
D = 0,64+0,07+1,07+0,64+1,50+0,17+0,17+1,50 = 4,76; X3; X'3 d 3 3,5 0,07 2 1,5 0,17 5 5 0,24
v = (4-1)(2-1) = 3 grade de libertate X4; X'4 d 2 3,5 0,64 3 1,5 1,50 5 5 2,14
α = 0,05 (pragul de încredere)
k.j; k'.j; Sd 14 14 1,42 14 6 3,34 20 20 4,76
C = 7,81 (se citeşte în tabelul distribuţiei χ ²).
În acest moment putem testa ipoteza nulă (care
stipula că variabilele alese sunt independente). Ne amintim
că, pentru ca relaţia de independenţă să se verifice, D
trebuie să fie mai mare sau egal cu C. În exemplul nostru D<C (4,76 < 7,81), deci trebuie să refuzăm ipoteza de
independenţă şi să acceptăm că variabilele noastre sunt corelate, ele aflându-se în relaţie de dependenţă.

Analiza primară a tabelului de contingenţă poate sugera ipoteza existenţei unei legături
între caracterele studiate. Testul χ² permite sesizarea existenţei relaţiei de dependenţă. Nici una
dintre metode nu oferă însă informaţii asupra intensităţii şi sensului acestei relaţii. Pentru a avea
aceste informaţii este nevoie să se calculeze raporturi şi coeficienţi de corelaţie sau de asociere.
La aceste măsuri vom ajunge prin intermediul exemplelor următoare.

5.3. Măsurarea relaţiei dintre două caracteristici cantitative continue5.3. Măsurarea


relaţiei dintre două caracteristici cantitative continue

Faptul de a pune în evidenţă o relaţie între două fenomene geografice înseamnă doar a
lua contact în mod superficial cu formele de organizare a spaţiului. Nevoia de ordine - resimţită
nu numai de cercetătorul geograf, dar şi de omul de rând - necesită mai multe informaţii asupra
acestei legături, pentru a şti cum şi cât de puternic este organizată realitatea geografică. Este
nevoie în primul rând de informaţii referitoare la forma, la sensul şi la intensitatea relaţiei.
Relaţia trebuie măsurată.

Ce înseamnă pentru geograf a măsura o relaţie? să ne amintim că a pune în evidenţă o


relaţie între două variabile înseamnă a demonstra faptul că valorile luate de cele două variabile
nu sunt distribuite la întâmplare. Deci, a sesiza relaţia existentă între două distribuţii înseamnă a
emite ipoteza că ele variază împreună, într-o manieră mai mult sau mai puţin corelată . Prin
urmare, a măsura această corelaţie înseamnă a stabili măsura în care valorile unei distribuţii
fluctuează mai mult sau mai puţin regulat simultan cu valorile altei distribuţii (Chapot,
Dauphiné, 1977). Altfel spus, măsurarea corelaţiei se rezumă în linii mari la măsurarea
fluctuaţiei care afectează valorile uneia dintre cele două distribuţii atunci când valorile
celeilalte suferă o modificare oarecare (Gregory, 1968).

Cum poate geograful să măsoare o relaţie? Ori de câte ori cercetătorul în geografie
studiază modul cum două fenomene variază simultan, el încearcă să efectueze o măsurare.
Gradul de precizie al acesteia oscilează în funcţie de metoda utilizată. Există trei metode
principale de măsurare a relaţiilor (Chapot, Dauphiné, 1977):
- suprapunerea hărţilor tematice;
- analiza diagramelor de distribuţie;
- analiza statistică.

66
* Suprapunerea hărţilor (sau metoda cartografică) este metoda specifică geografiei
clasice. Unui meteorolog i se va părea firesc să studieze variaţia simultană a altitudinii şi a
temperaturii. Pentru a măsura relaţia dintre aceste două variabile, cea mai simplă metodă va fi
aceea de a suprapune o hartă cu izotermele peste una cu izohipsele regiunii analizate. Există
toate şansele ca, în linii mari, traseul izotermelor să coincidă cu cel al izohipselor, încât, studiind
dinamica spaţială a gradientului termic şi al celui altitudinal, cercetătorul să ajungă la concluzia
că între temperatură şi înălţimea reliefului există o relaţie invers proporţională: pe măsură ce
altitudinea creşte, temperatura scade. Rezultatele acestei metode sunt modeste, rămânând la
nivelul discursului imprecis, calitativ: cercetătorul a stabilit că există o legătură între cele două
variabile, că legătura este de dependenţă şi că sensul acesteia este negativ. Metoda nu poate
spune cât de intensă este relaţia, încât aceasta nu poate fi comparată cu alte relaţii sesizate în
regiunea respectivă. În plus, cercetătorul nu va fi niciodată sigur că relaţia sa este semnificativă
sau că nu reflectă de fapt o situaţie excepţională, accidentală.

* Analiza diagramelor de distribuţie (sau a


graficului de corelaţie sau metoda grafică) este Figura 5.5. Aspectul norului de puncte
metoda care face trecerea de la analiza hărţilor în cazul relaţiei liniare dintre două
suprapuse la cea statistică. Metoda consistă în a trece variabile.
în planul unui sistem de axe rectangulare (grafic
cartezian) punctele corespunzătoare perechilor de
valori XY (mai exact a perechilor de modalităţi XiYi)
ale distribuţiilor studiate. Studierea aspectului norului
de puncte rezultat oferă unele informaţii asupra
existenţei / non-existenţei unei relaţii, asupra formei,
sensului şi intensităţii relaţiei.

Forma relaţiei este sugerată de configuraţia


Figura 5.6. Aspectul norului de puncte
norului după cum punctele se ordonează pe o direcţie
în cazul relaţiei neliniare dintre două
anumită în planul sistemului de axe.
variabile.
* O relaţie este liniară dacă norul de puncte prezintă
o formă alungită pe o direcţie dominantă (fig.5.5);
relaţia este deci liniară dacă forma norului poate fi
ajustată corect cu ajutorul unei drepte, adică dacă se
poate găsi o relaţie între X şi Y care să aibă forma Y
= aX + b.
În fig.5.5 relaţia între X şi Y este liniară; punctele se
grupează pe o direcţie anume, fapt care conferă
norului un aspect alungit.

* O relaţie este non-liniară dacă norul de puncte prezintă o formă complexă, curbată (fig.5.6);
relaţia este non-liniară dacă relaţia dintre X şi Y nu este de forma Y = aX + b, ci de tip diferit:
parabolică (Y=a+bX+cX²), hiperbolică [Y=1/(a+bX)], exponenţială (Y=abX), etc.
În fig.5.6 relaţia dintre X şi Y nu este liniară; deşi norul este alungit, acesta îşi schimbă direcţia
alungirii.

Sensul relaţiei este indicat de orientarea direcţiei principale de alungire a norului în


raport cu axele coordonatelor.

67
* O relaţie este pozitivă dacă cele două variabile Figura 5.7. Raporturile de mărime
variază în acelaşi sens, adică dacă se observă că: dintre cele două variabile în cazul
- valorilor mari ale variabilei X le corespund în relaţiei pozitive.
general valorile mari ale variabilei Y;
- valorilor medii ale variabilei X le corespund
în general valorile medii ale variabilei Y;
- valorilor mici ale variabilei X le corespund în
general valorile mici ale variabilei Y.
Generalizând pentru două unităţi i şi j ale
distribuţiei, se spune că relaţia este pozitivă dacă se
observă că, dacă Xi>Xj, atunci este probabil ca Yi>Yj
(fig.5.7).
În fig.5.7 relaţia dintre X şi Y este pozitivă,
deoarece valorile lui Y variază în acelaşi sens ca şi
valorile lui X.

* O relaţie este negativă dacă cele două variabile variază în sens invers, adică dacă se observă
că:
- valorilor mari ale variabilei X le corespund în general valorile mici ale variabilei Y;
- valorilor medii ale variabilei X le corespund în general valorile medii ale variabilei Y;
- valorilor mici ale variabilei X le corespund
în general valorile mari ale variabilei Y.
Generalizând pentru două unităţi i şi j ale Figura 5.8. Raporturile de mărime
distribuţiei, se spune că relaţia este negativă (sau dintre cele două variabile în cazul
inversă) dacă se observă că, dacă Xi>Xj, atunci este relaţiei negative.
probabil ca Yi<Yj (fig.5.8).
În fig.5.8 relaţia dintre X şi Y este negativă,
deoarece valorile lui Y variază în sens invers variaţiei
valorilor lui X.
* O relaţie este nulă dacă cele două variabile sunt
total independente una faţă de alta, adică dacă se
observă că:
- valorilor mari ale variabilei X le corespund
valori mari, medii sau mici ale variabilei Y;
- valorilor medii ale variabilei X le corespund
valori mari, medii sau mici ale variabilei Y;
- valorilor mici ale variabilei X le corespund
valori mari, medii sau mici ale variabilei Y (fig.5.9).
Generalizând, se spune că o relaţie este nulă Figura 5.9. Raporturi de mărime
dacă faptul că se cunoaşte că Xi>Xj nu permite să se aleatoare între cele două variabile, în
prevadă că Yi>Yj sau că Yi<Yj. cazul relaţiei nule.
În fig.5.9 relaţia dintre X şi Y este nulă,
deoarece variaţia valorilor lui Y este indiferentă la
variaţia valorilor lui X.
Intensitatea relaţiei este sugerată de modul de
grupare pe graficul de corelaţie a valorilor YiYj în
funcţie de valorile XiXj.
* O relaţie este puternică dacă unităţile care au valori
vecine pe X au de asemenea valori vecine pe Y (caz în
care punctele norului îi dau acestuia un aspect

68
compact).
Generalizând, se spune că o relaţie este puternică
dacă faptul că Xi este aproape de Xj implică faptul că Figura 5.10. Relaţie strânsă între două
Yi este aproape de Yj. variabile.
În fig.5.10 relaţia dintre X şi Y este puternică,
deoarece punctele sunt apropiate unele de altele, ceea
ce semnifică variaţia în paralel a valorilor vecine pe
X şi pe Y.
* O relaţie este slabă dacă unităţile care au valori
vecine pe X pot avea valori îndepărtate pe Y (caz în
care punctele norului îi dau acestuia un aspect
rarefiat). Generalizând, se spune că o relaţie este
slabă dacă faptul că Xi este aproape de Xj nu implică
faptul ca Yi să fie aproape de Yj.
În fig.5.11 relaţia dintre X şi Y este slabă,
deoarece punctele sunt îndepărtate unele de altele,
ceea ce semnifică non-paralelismul variaţiei valorilor
vecine pe X şi pe Y.

Din cele expuse, se observă că analiza grafică


este mai precisă decât analiza cartografică, oferind
informaţii mai detaliate asupra existenţei/non- Figura 5.11. Relaţie slabă între două
existenţei relaţiei, asupra formei, sensului şi variabile.
intensităţii acesteia. Cu toate acestea, rămânem încă
la nivelul discursului calitativ, deoarece nici prin
analiza grafică nu se obţin măsuri precise pentru
intensitatea sau pentru semnificativitatea relaţiei
evidenţiate, iar informaţiile obţinute nu pot servi
pentru efectuarea comparaţiilor cu alte relaţii
existente în spaţiul analizat.

* Analiza statistică, una dintre metodele


geografiei moderne, poate să acopere lacunele celor
două metode precedente. Trebuie să remarcăm că
ipotezele analizei statistice pot să aibă ca punct de
plecare ipotezele sugerate de primele două metode.
Principalele tehnici ale analizei statistice sunt
corelaţia şi regresia, cu ajutorul cărora se obţin toţi
parametrii necesari măsurării precise a relaţiilor,
precum şi comparării relaţiilor între ele.

5.3.1. Coeficienţii de corelaţie

Intensitatea dependenţei dintre două caracteristici este măsurată de coeficienţi şi de


raporturi, care sunt numere fără dimensiune31 şi care sunt folosite în funcţie de natura
caracteristicilor şi a relaţiilor. De exemplu:

31
Adică independente de unităţile de măsură a variabilelor şi invariante la orice transformare liniară a variabilelor

69
- coeficientul de corelaţie liniară (r) este utilizat în cazul unor caracteristici cantitative şi al unor
relaţii liniare;
- raportul de corelaţie (η) este utilizat fie în cazul a două caracteristici cantitative, fie a unei
caracteristici cantitative şi a celeilalte calitative nominale, în condiţiile în care relaţia poate să nu
fie liniară;
- coeficientul de corelaţie a rangurilor Spearman (ρ) se utilizează în cazul caracteristicilor
calitative ordinale, când condiţia de liniaritate a relaţiei nu este obligatorie;
- coeficienţii de asociere măsoară fie dependenţa dintre două caracteristici calitative nominale,
fie cea dintre o caracteristică cantitativă şi una calitativă nominală.
Coeficienţii de corelaţie permit obţinerea unei măsuri sintetice a sensului şi a intensităţii
relaţiei dintre două caracteristici.

Coeficientul de corelaţie liniară Bravais-Pearson

Coeficientul de corelaţie liniară Bravais-Pearson permite detectarea prezenţei sau


absenţei unei relaţii liniare dintre două caracteristici cantitative. Pentru a calcula acest
coeficient, este nevoie de calcularea covarianţei, aceasta la rândul ei având la bază calcularea
covariaţiei32. Un exemplu concret poate facilita înţelegerea acestor parametri. În tabelul de mai
jos, fiecare dintre cele opt judeţe ale Moldovei este caracterizat de variabilă X (populaţia urbană,
în procente, România= 100%) şi de variabila Y (valoarea producţiei industriale, în procente,
România = 100%), la nivelul anului 1989.
În tabel:
x = ecarturile la medie pentru variabila X (x = X- X );
y = ecarturile la medie pentru variabila Y (y = Y- Y );
x²= variaţia totală a variabilei X;
y²= variaţia totală a variabilei Y;
xy= covariaţia totală dintre X şi Y.
În exemplul de mai sus, x şi y reprezintă variaţia fiecărui judeţ, respectiv ecartul fiecărui
judeţ faţă de media ansamblului de judeţe considerat.
[Trebuie să remarcăm faptul că, deoarece este vorba de variaţia unui loc în raport de alte locuri,
din punct de vedere al geografiei, acest parametru este de fapt variaţia spaţială].

Variabile X x² Y y² xy
Judeţul x=X- X y=Y- Y

BACĂU 2,9 0,7 0,6 4,0 1,8 3,1 1,3


BOTOŞANI 1,4 -0,7 0,5 0,9 -1,4 1,8 1,0
GALAŢI 3,0 0,9 0,7 4,1 1,8 3,4 1,6
IAŞI 3,3 1,1 1,3 2,7 0,5 0,2 0,5
NEAMŢ 1,8 -0,3 0,1 2,1 -0,1 0,0 0,1
SUCEAVA 1,9 -0,2 0,0 1,8 -0,5 0,2 0,1
VASLUI 1,5 -0,6 0,3 1,2 -1,1 1,1 0,6
VRANCEA 1,2 -0,9 0,8 1,2 -1,1 1,1 0,9
Σ (suma) 17,1 0,0 4,4 18,0 0,0 10,9 6,1
Media 2,1 0,0 0,6 2,3 0,0 1,4 0,8
σ (ecart tip) 0,7 0,4 1,2 1,2 0,5

cu coeficienţi pozitivi.
32
Vezi şi capitolul „Parametrii unei distribuţii statistice“. Dacă pentru o variabilă se calcula variaţia şi varianţa,
pentru două variabile se calculează covariaţia şi covarianţa, în funcţie de modul cum variabilele variază împreună.

70
Pentru a obţine variaţia totală a fiecăreia dintre variabilele X şi Y, trebuie ca valorile x şi
y să fie ridicate la pătrat, deoarece, conform proprietăţilor mediei aritmetice, Σx = 0 şi Σy = 0.
Prin urmare, suma pătratelor ecarturilor la medie oferă măsura variaţiei totale a unei variabile;
aici Σx² = 4,4 iar Σy² = 10,9.
Deoarece trebuie să măsurăm relaţia dintre două variabile, trebuie să cunoaştem variaţia
care există între cele două variabile. Suma produselor dintre ecarturile la medie ale lui X şi ale
lui Y (Σxy) este tocmai această măsură a covariaţiei în spaţiu ale lui X şi ale lui Y. ştiind că
varianţa este media sumei pătratelor ecarturilor unei variabile, prin analogie se poate calcula
covarianţa (adică varianţa simultană a două variabile):
n
∑ xy
i= 1
COV XY =
N
adică: COVXY = 6,1/8 = 0,762 (N = numărul judeţelor = 8).
Analiza covarianţei poate să fie utilă în sesizarea sensului relaţiei:
* Dacă COVXY > 0, relaţia este pozitivă;
* Dacă COVXY < 0, relaţia este negativă;
* Dacă COVXY = 0, relaţia este nulă.

Din capitolele anterioare se ştie că varianţa nu măsoară decât distribuţia unei variabile,
depinzând de unitatea de măsură a acesteia. În mod logic, covarianţa depinde de unităţile de
măsură ale celor două variabile, din care cauză nu putem compara covarianţele distribuţiilor
care au ecarturi-tip diferite. Pentru a se depăşi acest neajuns, a fost imaginat coeficientul de
corelaţie liniară Bravais-Pearson, care este într-o oarecare măsură o standardizare a
covarianţei, ceea ce o face comparabilă pentru distribuţii cu ecarturi tip diferite.

Coeficientul de corelaţie liniară (r) a două variabile X şi Y este egal cu covarianţa


dintre X şi Y divizată cu produsul ecarturilor tip ale lui X şi Y:
COV XY
r XY =
σ X * σ Y adică 0,762/(0,7×1,2) = +0,877
Trebuie să remarcăm faptul că dacă cele două variabile sunt standardizate (X,Y = X',Y'),
atunci σ(X') = σ(Y') = 1, încât coeficientul de corelaţie liniară devine egal cu covarianţa celor
două variabile: rX'Y' = COVX'Y'/1 = COVX'Y'.
Coeficientul de corelaţie liniară Bravais-Pearson (rXY) variază între -1 şi +1 şi măsoară gradul de
asociere dintre Y şi X. Cu cât valoarea coeficientului este mai aproape de -1 sau de +1, cu atât
relaţia dintre cele două variabile este mai puternică. Dacă rXY=0, se spune că cele două variabile
nu sunt corelate; aceasta nu înseamnă că cele două variabile sunt independente, deoarece între
ele poate exista o relaţie non-liniară, imposibil de detectat cu ajutorul lui rXY. Interpretarea
coeficientului de corelaţie liniară este prin urmare relativ simplă:
- dacă rXY are o valoare apropiată de 0 (de exemplu -0,021, +0,012), nu există o relaţie liniară
între X şi Y;
- dacă rXY are o valoarea apropiată de -1 (de exemplu -0,785, -0,954), între X şi Y există
o puternică relaţie liniară negativă;
- dacă rXY are o valoare apropiată de +1 (de exemplu, în cazul nostru, +0,877), între X şi
Y există o puternică relaţie liniară pozitivă.
În concluzie, semnul lui rXY (+ sau -) indică sensul relaţiei (pozitivă sau negativă) iar valoarea
absolută a lui rXY, respectiv IrXYI, indică intensitatea relaţiei (puternică, slabă sau nulă).
În unele cazuri, prezenţa valorilor excepţionale poate perturba măsura corelaţiei şi să
conducă la concluzii eronate.

71
În fig. 5.12 prezenţa unor valori foarte mari în comparaţie cu toate celelalte falsifică
intepretarea. Dacă păstrăm în cadrul analizei municipiul Bucureşti şi judeţul Constanţa obţinem
rXY=+0,153 (graficul de sus). Eliminîndu-le (graficul de jos), coeficientul nu numai că se
îmbunătăţeşte în mod simţitor, ci îşi schimbă şi semnul : rXY=-0,361, arătînd clar că între cele
două relaţii este o legătură strînsă, invers proporţională (numărul migranţilor creşte pe baza
scăderii populaţiei rurale). Dacă eliminăm încă două judeţe care se comportă diferit de celelalte
(Sibiu şi Caraş-Severin), coeficientul se
îmbunătăţeşte şi mai mult (rXY=-0,419). Figura 5.12. Rolul valorilor aberante în
Interpretarea coeficientului de corelaţie falsificarea corelaţiei dintre două variabile
liniară Bravais-Pearson trebuie să fie făcută cu (Corelaţia dintre dinamica populaţiei rurale şi
dinamica bilanţului migrator în România, între
reticenţă, deoarece rXY nu oferă informaţii asupra 1977 şi 1992) ; sursa datelor : INSSE
gradului de semnificaţie al relaţiei, care
depinde într-o egală măsură şi de numărul de
observaţii (de indivizi analizaţi). De exemplu,
se doreşte studierea relaţiei între cancer şi
tabagism:
- un rXY de +0,800 obţinut pe un eşantion
de 10 persoane chestionate nu este semnificativ,
putând fi datorat hazardului;
- un rXY de +0,200 obţinut pe un eşantion
de 2000 de persoane chestionate este foarte
semnificativ şi dovedeşte în mod sigur că între
cele două fenomene există o anumită relaţie,
deoarece mărimea eşantionului face să existe
puţine şanse ca relaţia să fie datorată întâmplării.
În exemplul numeric de mai sus, rXY =
+0,877, ceea ce sugerează faptul că există o
relaţie puternică între rata urbanismului şi
volumul producţiei industriale, însă talia .
eşantionului (doar 8 judeţe) induce o oarecare
îndoială asupra adevărului exprimat de această
valoare. În scopul reducerii la maximum a incertitudinii, corelaţia se asociază cu o altă tehnică
statistică, şi anume cu regresia.

5.3.2. Regresia liniară

Coeficientul de corelaţie liniară permite detectarea existenţei unei relaţii liniare între
două caracteristici cantitative continue. Este nevoie însă întotdeauna să se verifice faptul că
legătura măsurată de coeficientul rXY este semnificativă. În acest scop se efectuează următoarele
operaţii:
-se aplică testul de semnificaţi e, ţinându-se cont de rXY şi de efectivul N; ipoteza nulă H0
este că rXY = 0;
-se examinează norul de puncte pentru a se verifica dacă relaţia nu este influenţată de
valori excepţionale;
-se verifică dacă ajustarea liniară este cea mai indicată (cea mai bine adaptată) pentru
studierea relaţiei dintre X şi Y. Pentru aceasta, se pot utiliza două metode simple: fie se
examinează forma norului, fie se compară rXY cu rlogX,Y şi cu rlogX,logY.
Dacă se estimează că ipoteza unei legături liniare între X şi Y este valabilă, se poate
încerca să se exprime relaţia dintre cele două caracteristici cu ajutorul unei drepte. În acest
moment al analizei, se face în general o ipoteză asupra sensului relaţiei:

72
- dacă se încearcă exprimarea lui X în funcţie de Y, ecuaţia dreptei de regresie liniară va
fi de forma X=aY+b;
- dacă se încearcă exprimarea lui Y în funcţie de X, ecuaţia dreptei de regresie liniară va
fi de forma Y=aX+b;
- dacă nu se face nici o ipoteză de dependenţă, se va căuta doar rezumarea cât mai exact
a relaţiei între X şi Y prin intermediul unei drepte de tipul a1X+a2Y+b=0.
Este foarte importantă precizarea ipotezei făcute, deoarece cele trei drepte sunt în
general diferite: ele nu se suprapun în planul coordonatelor carteziene decât în cazul existenţei
unei legături perfecte între X si Y, adică atunci când rXY este egal cu +1 sau cu -1. În cadrul
prezentei lucrări ne vom limita doar la primele două cazuri, respectiv la cele care încearcă să
exprime o variabilă (numită dependentă, explicată, sau regresată ) în funcţie de o alta (numită
independentă, explicativă sau regresoare).

5.3.2.1. Principiul regresiei

Spre deosebire de corelaţie, care este „o metodă statistică ce caută să caracterizeze


situaţia de dependenţă dintre două distribuţii numerice prin intermediul unei mărimi referitoare
la gradul lor de dependenţă”, regresia este „o metodă statistică ce defineşte o corespondenţă
funcţională de forma Y=f(X), încercând să definească în mod precis funcţia f care leagă cele
două distribuţii X şi Y” (Chapot, Dauphiné, 1977).
Atunci când se studiază relaţiile posibile existente între două distribuţii din perspectiva
evoluţiei simultane a valorilor celor două distribuţii, se încearcă de fapt definirea funcţiei care
uneşte respectivele distribuţii. Aceasta înseamnă că a studia pe Y ca pe o oarecare funcţie a lui X
înseamnă a descrie cum anume Y covariază cu X. Astfel, temperatura variază în funcţie de
altitudine, numărul de navetişti variază în funcţie de distanţa până la centrul urban atractor,
numărul de unităţi comerciale urbane variază în funcţie de numărul populaţiei, debitul râurilor
variază în funcţie de lungimea lor, etc.
Se observă prin urmare că folosirea metodei regresiei permite cercetătorului să facă
„preziceri” asupra evoluţiei comportamentului unui fenomen (a variabilei de explicat sau a
variabilei-„efect”) în funcţie de altul (de variabila explicativă sau de variabila-"cauză"). Trebuie
să amintim faptul că a acorda mai mult uneia dintre cele două variabile decât celeilalte
calificativul de „cauză” sau de „efect” trebuie să se bazeze pe un raţionament logic bine
argumentat sau pe o solidă structură teoretică. În plus, „cauzalitatea” stabilită prin intermediul
regresiei trebuie privită de foarte aproape, deoarece universul în care trăim este mai degrabă
probabilist decât determinist. Din această cauză, „a prezice” prin intermediul regresiei trebuie să
fie înţeles ca „a stabili sau a anticipa tendinţe generale” ale evoluţiei variabilei de explicat.
A vorbi de variabilă-efect şi de variabilă-cauză implică a accepta existenţa unei
posibilităţi de a „explica” relaţia stabilită între cele două distribuţii. De aici rezultă diferenţa
esenţială dintre corelaţie şi regresie: pentru a măsura intensitatea relaţiei dintre două distribuţii
se utilizează corelaţia; pentru a explica această relaţie se foloseşte regresia.

5.3.2.2. Modelul regresiei liniare

Regresia este un mijloc de modelare a factorilor explicativi, adică de realizare a unui


model cu putere de predicţie, care permite în plus, prin analiza reziduurilor rezultate, studierea
detaliată a cazurilor care nu sunt bine „explicate” de factorii explicativi consideraţi.
Modelul general de bază al regresiei liniare este aditiv şi defineşte o legătură
funcţională: Y=aX+b. Deoarece s-a demonstrat în paginile anterioare faptul că în domeniul de
studiu al geografiei legăturile funcţionale sunt foarte rare, dacă nu inexistente, modelul trebuie

73
completat, pentru a ilustra o relaţie de dependenţă
statistică. Astfel, modelul aditiv funcţional devine: Figura 5.13. Tipuri de funcţii liniare (după
Y=aX+b+ε, unde cantitatea ε defineşte reziduurile Johnston,1978).
regresiei.
În fig. 5.13 sunt prezentate trei exemple de
funcţii de tipul Y=f(X). Deoarece funcţiile respective
descriu legături funcţionale, este perfect posibil să
prezicem valoarea lui Y pentru oricare dintre valorile
luate de X. Astfel, pentru funcţia Y=0,5X, fiecare
creştere cu o unitate a valorilor lui X va conduce la o
creştere cu 0,5 a valorilor Y corespondente: dacă
X=4, atunci Y=0,5×4=2. Pentru funcţia Y=2X, fiecare
creştere cu o unitate a valorilor lui X va conduce la o
creştere cu 2 a valorilor Y corespondente: dacă X=4,
atunci Y=2×4=8; dacă X=250, atunci Y=2×250=500.

Geografia este însă obligată să studieze


fenomene a căror covariaţie nu este perfectă, Figura 5.14. Relaţia dintre X şi Y nu poate fi
descrisă cu precizie în lipsa unei analize
diagrama lor de dispersie având un aspect atendinţei generale de evoluţie (Relaţia între
asemănător celui din fig.5.14. Unirea cu o linie a salariaţii în industrie şi producţia industrială în
punctelor XY de pe diagramă, care ar trebui să judeţele Moldovei în 1994 ; sursa
uşureze interpretarea relaţiei dintre cele două datelor :INSSE)
distribuţii, nu are nici pe departe această utilitate: în
figura respectivă nu se poate sesiza nici o
continuitate şi nici o tendinţă generală a evoluţiei
valorilor distribuţiilor studiate. Cu toate aceste,
intuiţia umană permite ipoteza existenţei unei relaţii
între variabilele considerate.
Pentru a sesiza această relaţie trebuie ca variaţia
variabilelor să fie privită de la o oarecare distanţă,
ignorând detaliile care îngreunează analiza. Cu alte
cuvinte, este nevoie de ajustarea mulţimii de puncte
XY în funcţie de tendinţa sa generală. A ajusta norul
de puncte înseamnă de fapt a înlocui linia frântă din
fig.5.15 cu o linie dreaptă care trece cât mai aproape .
posibil de fiecare dintre punctele norului.
O asemenea linie dreaptă este propusă,
pentru aceeaşi mulţime de puncte reprezent^nd judeţele Moldovei (Bc, Bt, Gl, Is, Nt, Sv, Vs), în
fig.5.15. Este evident că linia dreaptă trece prin apropierea majorităţii punctelor dar destul de
departe de altele. Acest lucru nu trebuie să afecteze cercetătorul, care are libertatea de a se
îndepărta fără scrupule de anumite valori cu comportament particular (valori excepţionale sau
valori accidentale), pentru a descoperi linia generală a relaţiei. Această linie, care ajustează cel
mai bine posibil norul de puncte se numeşte linia sau dreapta de regresie. Linia obţinută este
de fapt expresia grafică a modelului analitic Y=f(X). În fig.5.15 se observă faptul că linia
obţinută nu trece prin punctele mulţimii, ci prin apropierea lor, fiind separată de acestea prin
anumite distanţe (reprezentate pe figură cu linie punctată între Bt-Bt’, Vs-Vs’, Is-Is’, etc.).
Aceste distanţe se numesc ecarturile (reziduurile) regresiei. Dacă aceste reziduuri nu sunt luate
în consideraţie, modelul analitic devine nu numai incomplet, ci şi fals. Din această cauză,
modelul analitic statistic devine Y=f(X)+ε sau, mai exact, Y = aX+b+ε.

74
Ajustarea norului de puncte cu ajutorul acestui model este utilă cercetătorului doar în măsura în
care modelul este suficient de fidel realităţii pentru a funcţiona ca o lege empirică şi în măsura
în care este suficient de simplu pentru a putea fi utilizat în evaluări, comparaţii sau combinaţii
cu alte legi similare (Chapot, Dauphiné, 1977). În procesul găsirii modelului analitic care să
ajusteze norul de puncte trebuie avute în vedere două probleme.
Prima dintre acestea este legată de traiectoria liniei de regresie care se obţine.
Astfel, se poate găsi o ecuaţie care să descrie o curbă care să treacă prin absolut toate punctele
norului. În exemplul din figura 5.14, unde sunt 7 puncte, ecuaţia obţinută va fi o ecuaţie de
gradul 6, posibil de rezolvat. Distribuţia va fi astfel complet descrisă însă cercetătorului îi va fi
imposibil să izoleze şi să studieze fluctuaţiile accidentale, care în geografie sunt deosebit de
frecvente şi deosebit de importante, deoarece permit descoperirea factorilor răspunzători de
comportamentul spaţial al unui fenomen oarecare în plan local.
A doua problemă - şi cea mai importantă - este găsirea unei funcţii de tipul Y=f(X) cât
mai simplă, care să conducă la o linie de regresie cât mai fiabilă, fără a fi perfectă. Descoperirea
acestei linii de regresie presupune utilizarea următorului algoritm metodologic: alegerea tipului
cel mai indicat de funcţie, calculul coeficienţilor funcţiei şi controlul validităţii modelului
rezultat.

Alegerea modelului de regresie liniară

Alegerea modelului analitic susceptibil de a


Figura 5.15. Linia de regresie oferă elementele
fi utilizat nu se poate baza pe o anumită „reţetă”, pe pentru o analiză atendinţei generale; ecarturile
un anumit algoritm valabil în toate cazurile. permit izolarea cazurilor deosebite. (Relaţia între
Matematica nu oferă decât o colecţie de funcţii salariaţii în industrie şi producţia industrială în
liniare sau non-liniare, dintre care cercetătorul o judeţele Moldovei în 1994 ; sursa
poate alege pe aceea pe care o consideră a fi cel mai datelor :INSSE)
bine adaptată pentru a descrie fenomenul analizat.
Funcţiile matematice sunt descrise de ecuaţiile
corespondente, care sunt de fapt „scheme de
organizare ale lumii în care trăim” (Chapot,
Dauphiné, 1977). Deoarece sensibilitatea umană este
cel mai bine adaptată să sesizeze relaţiile liniare ale
lumii înconjurătoare, cercetătorul are toate motivele
să prefere funcţiile liniare, caracterizate prin
eficacitate, comoditate şi simplitate.
Conceptul de liniaritate decurge din
principiul aditivităţii fenomenelor: o variabilă Y este
o combinaţie liniară a unei variabile X dacă variabila
Y este o combinaţie aditivă a variabilei X. Forma
modelului de regresie este, cum s-a văzut, aditivă:
Y = aX + b + ε
în care:
Y = o variabilă aleatoare observabilă;
X = o variabilă dată, cu valori cunoscute;
ε = o variabilă aleatoare neobservabilă;
a = coeficientul lui X (parametru care trebuie estimat);
b = termen constant (parametru care trebuie estimat).

De multe ori însă, teoria geografică conduce la modele în care relaţia dintre variabile nu
se poate reprezenta sub această formă liniară simplă. De exemplu, modelele de interacţiune

75
spaţială sunt modele multiplicative, cele de creştere a populaţiei urbane sunt modele
exponenţiale (sau logistice, în cazul în care se fixează o valoare-limită creşterii), etc. În aceste
cazuri, este nevoie ca modelele geografice să fie transformate (liniarizate), pentru a se
subordona exigenţelor modelului de regresie liniară. Principalele funcţii non-liniare şi metodele
de liniarizare a lor sunt:
-Funcţia putere: Y = aX * ε
b

care, liniarizată , devine: Log Y = log a + b * log X + ε


-Funcţia exponenţială: Y = a * ε
bX

care, liniarizată , devine: Log Y = bX * log a + ε


Prin urmare, în alegerea modelului de regresie, trebuie întâi sesizată forma relaţiei
studiate (prin examinarea norului de puncte) şi apoi trebuie verificată ajustarea norului prin
funcţia corespunzătoare. Dacă funcţia este non-liniară, se va proceda întâi la liniarizarea sa şi
apoi se va efectua regresia propriu-zisă.

Calcularea coeficienţilor de regresie

Presupunând că X este variabila independentă şi că Y este variabila dependentă, ecuaţia


dreptei de regresie va fi Y=aX+b. A calcula coeficienţii acestei ecuaţii înseamnă a avea ulterior
posibilitatea de a afla valorile estimate ale lui Y, care vor permite trasarea dreptei de regresie. În
figura 5.15, valorile estimate ale lui Y (Ŷ1, Ŷ2, Ŷ3, Ŷ4, Ŷ5, Ŷ6, Ŷ7,), pentru aceleaşi valori X1, X2,
X3, X4, X5, X6, X7 cunoscute, au permis aflarea punctelor a',b',c',d',e',f',g' prin care este trasată
dreapta de regresie.
Problema care se pune este următoarea: cum trebuie să fie calculaţi coeficienţii a şi b
încât estimarea lui Y de către ecuaţia Y=aX+b să fie cea mai bună posibilă? Pentru a
răspunde la această întrebare este necesar să se fixeze un criteriu care să permită evaluarea
ajustării realizate.
Dacă se presupune că X şi Y sunt două caracteristici care descriu o mulţime M compusă
din n elemente (i=1,2...n), atunci oricărui element i din mulţimea M îi corespund modalităţile Xi
şi Yi ale caracteristicilor X şi Y. Cu alte cuvinte, pe diagrama de distribuţie se vor trece punctele
i1(X1Y1), i2(X2Y2)...in(XnYn). Coordonatele Yi (adică Y1, Y2...Yn) sunt valorile observate ale lui Y.
Coordonatele Ŷi (respectiv Ŷ1, Ŷ 2... Ŷn) sunt valorile estimate de către dreapta de regresie
Ŷi=aXi+b (de exemplu, Ŷ 2=aX2+b).
Diferenţa dintre valoarea observată şi valoarea estimată se numeşte reziduu de regresie
sau eroarea de estimare, şi are forma: Yi-Ŷi = εi. Reziduurile pot fi pozitive, când Ŷi este sub-
estimat (cazul punctelor a, d, g de pe fig.5.15) sau negative, când Ŷi este supra-estimat (cazul
punctelor b, c, e, f de pe fig.5.15). Fără îndoială că ajustarea va fi cu atât mai bună cu cât
eroarea de estimare εi va fi cea mai mică posibilă pentru fiecare dintre elementele mulţimii M.
Dar care dintre criteriile globale, care să ţină seama de toate valorile εi, poate fi
utilizat? La această întrebare, există trei răspunsuri posibile:
a) Primul criteriu ar putea să fie suma tuturor reziduurilor (Σεi), însă nu este o soluţie
bună, deoarece rezultatul va fi întotdeauna zero, fiindcă erorile de subestimare le anulează pe
cele de supraestimare;
b) Al doilea criteriu ar putea fi suma valorilor absolute ale tuturor ecarturilor (ΣIεiI): este
un criteriu corect (suma nu se anulează), însă extrem de incomod, deoarece este foarte greu de
găsit o soluţie rapidă de aflare a parametrilor a şi b;
c) Al treilea criteriu ar putea fi criteriul celor mai mici pătrate, adică al sumei pătratelor
reziduurilor de regresie: Σ(εi)². Acest criteriu pare să fie cea mai bună alegere, deoarece un
pătrat este întotdeauna pozitiv, ceea ce face ca erorile de sub-estimare să nu se anuleze reciproc

76
cu cele de supraestimare. Mai mult, acest criteriu are avantajul de a conduce la soluţii simple şi
rapide de calculare a coeficienţilor de regresie a şi b.

Conform obiectivului vizat, a aplica metoda celor mai mici pătrate înseamnă a găsi
acele valori ale lui a şi b care pot să conducă la cea mai mică sumă a pătratelor ecarturilor dintre
valoarea observată Yi şi valoarea estimată Ŷi (Ŷi = aXi+b):
N N ^ N
min ∑ ε i ² = min ∑ ( Y i - Y )² = min ∑ [ Y i - ( aX i + b)] ²
i=1 i=1 i=1
A obţine valorile lui a şi b care să permită cea mai mică sumă a pătratelor ecarturilor
înseamnă deci a găsi acele valori care vor minimiza varianţa pătratelor ecarturilor: σ²(εi) =
minim. ştiind că varianţa unei distribuţii este media pătratelor ecarturilor fiecărei valori la
valoarea medie33 şi ştiind că valoarea medie este
N
∑ Yi
Y= 1
i=

, N
atunci varianţa (σ²) în Y a distribuţiei va fi:
N
∑ (Yi - Y )
2 i=1
σY =
N
Apare astfel evident faptul că, pentru a afla parametrii a şi b ai regresiei, interesul major
îl reprezintă cunoaşterea varianţei variabilei dependente Y precum şi cunoaşterea relaţiei dintre
aceasta şi varianţa variabilei independente X, care, prin analogie, este:
N
∑ ( Xi - X )
2 = i=1 Figura 5.16. Reprezentarea grafică a calculării
σX varianţei variabilelor X şi Y.
N
Figura 5.16 ilustrează contribuţia fiecărei
observaţii (respectiv a judeţelor din tabelul de mai
jos34, notate pentru comoditate pe grafic cu 1, 2, 3, 4,
5, 6, şi 7) la varianţa variabilei X (în funcţie de X ) şi la
varianţa variabilei Y (în funcţie de Y ).

Astfel, contribuţia punctului 1 (Vrancea) la


varianţa în Y este (εy1)² = (-1,05)² = 1,10 = pătratul
ecartului dintre punctul 1 şi Y . Contribuţia aceluiaşi
punct la varianţa în X este (εx1)² = (-0,89)² = 0,80 =
pătratul ecartului dintre punctul 1 şi X . Contribuţiile
respective pentru punctul 5 (Suceava) sunt (εx5)² = 0,04 şi (εy5)² = 0,20. Se observă prin urmare
că unele observaţii contribuie într-o măsură mai mare la varianţa distribuţiei (Vrancea, Vaslui,
Botoşani, Bacău, Galaţi, Iaşi) iar altele într-o măsură mult mai mică (Neamţ, Suceava).
Cunoscând faptul că cele două variabile oscilează împreună, se poate calcula covarianţa, după
formula cunoscută:

33
Vezi subcapitolul "Coeficienţii de corelaţie".
34
Tabelul este reluarea celui de la subcapitolul "Coeficienţii de corelaţie", însă valorile nu mai sunt rotunjite la o
singură zecimală.

77
N N
∑ ( X i - X )( Y i - Y ) ∑ ε x i * ε y i
i=1 = i=1
COV XY =
N N
Pentru exemplul numeric covarianţa este următoarea:

COVXY = (Σεxiεyi)/N = (εx1×εy1 + εx2×εy2 + εx3×εy3 + εx4×εy4 + εx5×εy5 + εx6×εy6 + εx7×εy7 +


εx8×εy8)/8 = [(-0,89)×(-1,05) + (-0,74)×(-1,35) + (-0,59)×(-1,05) + (-0,32)×(-0,15) + (-0,21)×(-
0,45) + (+0,74)×(+1,75) + (+0,86)×(+1,85) + (+1,14)×(+0,45)]/8 = (0,94 + 1,00 + 0,62 + 0,05 +
0,09 + 1,30 + 1,59 + 0,51) = 6,10/8 = 0,762
Judeţ \ Var. X εx² Y εy² εxy
εx=X- X εy=Y - Y
6-BACĂU 2,88 +0,74 0,55 4,00 +1,75 3,06 1,30
2-BOTOŞANI 1,40 -0,74 0,55 0,90 -1,35 1,82 1,00
7-GALAŢI 3,00 +0,86 0,74 4,10 +1,85 3,42 1,59
8-IAŞI 3,28 +1,14 1,30 2,70 +0,45 0,20 0,51
4-NEAMŢ 1,82 -0,32 0,10 2,10 -0,15 0,02 0,05
5-SUCEAVA 1,93 -0,21 0,04 1,80 -0,45 0,20 0,09
3-VASLUI 1,55 -0,59 0,35 1,20 -1,05 1,10 0,62
1-VRANCEA 1,24 -0,89 0,80 1,20 -1,05 1,10 0,94
Σ=suma 17,09 0,0 4,42 18,00 0,0 10,94 6,10
Media=Σ/N 2,14 0,0 0,55 2,25 0,0 1,47 0,76
σ=ecart tip 0,74 0,38 1,17 1,22 0,51

Din acest moment, aplicarea metodei celor mai mici pătrate permite aflarea constantelor
a şi b ale regresiei:
N
∑ ε xi * ε y i
COV XY
a= 1N
i= =
2
² σx
ε
∑ xi
i=1 , adică a este raportul dintre covarianţă şi varianţa lui X, iar
b=Y - a X
Din ecuaţiile de mai sus rezultă pe de o parte că a este raportul dintre covarianţa
distribuţiei, respectiv COVXY, şi varianţa variabilei independente, respectiv σX², iar pe de altă
parte că dreapta de regresie trece prin centrul de gravitate al norului de puncte, de coordonate ,
(deoarece b = Y -a X => = a X +b). Prin urmare se poate stabili legătura existentă între
parametrul a şi coeficientul de corelaţie rXY. Deoarece se cunoaşte X , Y , σX, σY şi rXY şi se ştie

COV XY
r XY =
σ X * σ Y , rezultă că COV XY = r XY ( σ X σ Y )
Înlocuindu-se în formula de calculare a parametrului a termenul COVXY cu expresia sa obţinută
mai sus, se obţine:
COV XY r XY * ( σ X * σ Y ) r XY * σ Y
a= ⇒ a= ⇒ a=
2 2
σX σX σX
iar b se calculează după aceeaşi formulă. Prin urmare, atunci când se cunoaşte coeficientul de
corelaţie dintre X şi Y este inutil să se calculeze covarianţa dintre X şi Y pentru a găsi valorile
corespondente parametrilor de regresie.
În exemplu numeric referitor la relaţia dintre rata urbanizării şi cea a producţiei
industriale, COVXY = 0,762 iar σX² = 0,55. Înlocuind în expresiile de mai sus, a = 0,762/0,55 =

78
+1,38 iar b = 2,25 - 1,38×2,14 = 2,25 - 2,94 = -0,69. Ecuaţia dreptei de regresie devine:
Y = 1.38X - 0.69

Interpretarea parametrilor de regresie

După calcularea coeficienţilor regresiei devine legitimă următoarea întrebare: care este
semnificaţia celor doi parametri a şi b şi cum pot fi utilizaţi ei în „explicarea” relaţiei dintre
variabilele considerate? Utilizarea unui exemplu grafic poate facilita înţelegerea răspunsului la
această întrebare.
În figura 5.17 sunt prezentate două relaţii perfect liniare între punctele care descriu
distribuţia a 8 şi respectiv 7 observaţii. Pentru prima regresie (cu punctele sub forma unor
pătrate pline) se observă că pentru o creştere p a valorilor lui X cu 10 unităţi (Xj-Xi=10) se obţine
o creştere q a valorilor lui Y cu 5 unităţi (Yj-Yi=5). Dreapta de regresie descrie, împreună cu p şi
q, un triunghi dreptunghic. Aplicând formulele geometriei descriptive în respectivul triunghi, se
poate afla valoarea unghiului α dintre dreapta de regresie şi p, unghi care este de fapt panta
dreptei de regresie, respectiv coeficientul a, numit şi coeficientul unghiular al regresiei: a = tgα
= q/p = 5/10 = 0,5
Coeficientul a este aşadar indicatorul de magnitudine al relaţiei dintre cele două
variabile, indicând mărimea creşterii lui Y în funcţie de X (în cazul prezentat, pentru o creştere
cu o unitate a valorii lui X, valoarea corespondentă Y înregistrează o creştere cu o jumătate de
unitate). Faptul că a este un indicator de magnitudine
este clar dacă se analizează comparativ şi panta dreptei
Figura 5.17. Reprezentarea grafică a
celei de-a doua regresii (cu punctele sub forma unor interpretării şi semnificaţiei parametrilor de
pătrate goale). Se observă că în acest al doilea caz regresie a şi b.
pentru p (adică Xj-Xi) = 10, q+r (adică Yk-Yi) = 10, de
unde:
a = tg α' = (q+r)/p = 10/10 = 1
Panta este mai mare decât în cazul primei regresii (1 >
0,5): pentru o creştere cu o unitate a valorii lui X,
valoarea corespondentă Y înregistrează o creştere
identică.
Din figură rezultă clar faptul că b, al doilea
coeficient al regresiei, este parametrul care determină
poziţia punctului de intersecţie al dreptei de regresie cu
axa Y, atunci când X este 0; din această cauză, b mai
este denumit şi originea sau intercepţia dreptei de
regresie. În cazul primei regresii, b = 15. Ecuaţia
dreptei este prin urmare Y = 0,5X + 15. În cazul celei de-a doua regresii, dreapta trece prin
origine, deci b = 0, de unde rezultă că ecuaţia este Y = 1X+0 => Y = X.
Cunoscând magnitudinea (a) şi originea (b), se poate estima oricare Y pentru o valoare X
dată: Yi=0,5Xi+15. Dacă Xi = 65, atunci Yi = 65×0,5+15 = 32,5+15 = 47,5.
Reluând exemplul numeric, unde ecuaţia dreptei de regresie era Y=1,38X+(-0,69), se
poate acum „explica” relaţia existentă între X (proporţia populaţiei urbane judeţene din totalul
populaţiei urbane a României) şi Y (proporţia producţiei industriale judeţene din totalul
producţiei industriale a României): pentru fiecare creştere de 1% a populaţiei urbane, se
înregistrează o creştere medie a producţiei industriale cu 1,38%.

Intensitatea (forţa) relaţiei: formă de control a modelului de regresie

79
Parametrii a şi b ai ecuaţiei de regresie indică forma şi semnificaţia relaţiei existente
între variabilele X şi Y, însă nu oferă nici o informaţie referitoare la justeţea estimării valorilor Ŷ
de către dreapta de regresie. Eliminarea acestui neajuns se poate face cu ajutorul coeficientului
de corelaţie liniară rXY, care măsoară reducerea varianţei variabilei dependente Y atunci când
variabila independentă X este utilizată pentru a estima valorile Ŷ. Utilizarea coeficientului de
corelaţie este legitimă deoarece prin adoptarea modelului de regresie Y=aX+b se acceptă
implicit că variaţia totală a variabilei Y depinde de variabila X. Cu alte cuvinte, se încearcă
explicarea varianţei lui Y (adică a cantităţii Σy²) prin raportarea sa la varianţa lui X (adică la
Σx²). Făcând apel la o analogie, se poate spune că variabila independentă X funcţionează ca un
burete ce absoarbe o parte din varianţa variabilei Y (Abler, Adams, Gould, 1971). Problema se
reduce la a determina cât anume din Σy² este „absorbită” de Σx². Procedeul de apreciere a
eficacităţii modelului de regresie se numeşte analiza varianţei35 şi este clar legat de ideea de
corelaţie.
În tabelul următor, varianţa totală în Y, respectiv suma pătratelor ecarturilor SPE = Σ(Y-
Y )²) sau SPE = Σ[(Y-Ŷ)+(Ŷ- Y )]², este 10,94. În figura
(Y-)² Ŷ (Y-Ŷ)²
5.18, cu linie punctată, sunt indicate ecarturile Y faţă Judeţ \ Var. X Y
6-BACĂU 2,88 4,00 3,06 3,28 0,52
Figura 5.18. Reprezentarea grafică a 2-BOTOŞANI 1,40 0,90 1,82 1,23 0,11
7-GALAŢI 3,00 4,10 3,42 3,44 0,44
varianţei variabilei Y faţă de Y .
8-IAŞI 3,28 2,70 0,20 3,82 1,26
4-NEAMŢ 1,82 2,10 0,02 1,81 0,09
5-SUCEAVA 1,93 1,80 0,20 1,97 0,03
3-VASLUI 1,55 1,20 1,10 1,44 0,06
1-VRANCEA 1,24 1,20 1,10 1,02 0,03
Σ=suma 17,09 18,00 10,94 18,00 2,53
Media=Σ/N 2,14 2,25 1,47 2,25 0,32
σ=ecart tip 0,74 1,17 1,22 1,03 0,40

de Y . Aplicând modelul regresiei calculat în paginile


precedente Y=1,38X-0,69, se obţine dreapta de regresie din figura 5.19, trasată în funcţie de Ŷ.
Se poate vedea în mod clar că ecarturile valorilor observate Y faţă de valorile estimate Ŷ sunt
mai mici decât cele faţă de Y . Suma pătratelor acestor ecarturi (Σ(Y-Ŷ)²), calculată în tabel, este
2,53.
Figura 5.19. Reprezentarea grafică a Este evident că Σ(Y- Y )²>Σ(Y-Ŷ)², respectiv
varianţei variabilei Y faţă de Ŷ. 10,94>2,53. O parte a varianţei originale a lui Y
(10,94) a fost „absorbită” (10,94-2,53=8,41) prin
acţiunea variabilei regresoare X. Partea absorbită
(8,41) se numeşte varianţă explicată (Σy²e=σ²Ŷ) iar
partea neabsorbită (2,53) se numeşte varianţă
reziduală (Σy²r=σ²(Y-Ŷ)). Prin urmare putem spune că
varianţa totală a lui Y (sau σ²Y) se compune din
varianţa explicată (respectiv σ²Ŷ) plus varianţa
reziduală (adică σ²(Y-Ŷ)) :
2 2 2
σY =σ ^ +σ ^
Y (Y -Y )
. De aici se poate calcula varianţa
explicată, respectiv varianţa determinată de introducerea variabilei X în calcule:
σ 2^ = σ Y2 - σ 2 ^
Y (Y -Y )
(varianţa explicată = varianţa totală - varianţa reziduală).

35
Vezi şi subcapitolul "Teste parametrice".

80
Raportul dintre varianţa explicată şi varianţa totală se numeşte coeficientul de determinare,
care măsoară partea din varianţa lui Y „explicată” prin utilizarea variabilei X în modelul de
regresie:
2
σ2 ^

r XY = Y

σ 2
Y
Se deduce de aici că partea „neexplicată” din varianţa lui Y (Σ²Y) este
2 2
σ ^ =1- r
XY
(Y -Y )
În cazul exemplului numeric, r²XY=8,41/10,94 = 0,768. Coeficientul de determinare este
intuitiv mai uşor de interpretat decât coeficientul de corelaţie, datorită faptului că se poate "citi"
procentual, deoarece poate fi calculat şi astfel: r²XY = (σ² Ŷ /σ²Y)×100 = (8,41/10,94)×100 =
0,768×100 = 76,8%: utilizarea variabilei X explică 76,8% din varianţa lui Y. Pentru
corectitudine, trebuie să se ţină seama de faptul că termenul „a explica” este utilizat în statistica
geografică datorită încărcăturii sale emoţionale (Johnston, 1978); în statistică se spune că r²XY
permite „determinarea” sau „calcularea” varianţei lui Y în funcţie de X.
Coeficientul de determinare, fiind un pătrat, este întotdeauna pozitiv şi oscilează între 0
şi +1: cu cât valoarea obţinută pentru r²XY este mai apropiată de +1, cu atât ajustarea norului de
puncte de către dreapta de regresie este mai bună. Din această cauză se poate considera că r²XY
este un instrument de control al modelului de regresie ales.
Trebuie să fie remarcat de asemenea faptul că rădăcina pătrată a coeficientului de
determinare este coeficientul de corelaţie:
2
r XY = r XY
r r²
În cazul în care se compară, pentru aceeaşi regresie, rXY şi r²XY, 0.90 0.81
trebuie să se ţină seama de faptul că coeficientul de determinare r²XY 0.80 0.64
0.70 0.49
descreşte mai repede faţă de +1 decât coeficientul de corelaţie rXY (vezi 0.60 0.36
tabelul alăturat, după Porojan, 1993): 0.50 0.25

5.3.2.3. Reziduurile regresiei

Conform explicaţiilor din paginile precedente, ajustarea prin intermediul dreptei de


regresie este rareori perfectă. În cea mai mare parte a cazurilor, IrXYI<+1, ceea ce semnifică
faptul că punctele nu sunt aliniate în lungul unei drepte şi că multe valori ale lui Y sunt
subestimate sau supraestimate de către regresie. Ecarturile care separă aceste valori de dreapta
descrisă de relaţia medie care leagă variabila Y de variabila X se numesc reziduurile regresiei.
Reziduurile εi exprimă partea din fenomenul Y (de exemplu valoarea producţiei industriale) care
nu este determinată (explicată) de variabila regresoare X (în cazul prezentat, de ponderea
populaţiei urbane). Reziduurile εi sunt estimate de valorile ei, care sunt ecarturile între valorile
observate Yi şi valorile Ŷ şi estimate de către modelul de regresie ales: ei=Yi-Ŷi sau ei = Yi -
(aXi+b). Înterpretarea reziduurilor este relativ simplă:
- reziduul este pozitiv dacă valoarea observată este superioară valorii prevăzute de
regresia liniară: Yi-Ŷi>0 <=> Yi>Ŷi;
- reziduul este negativ dacă valoarea observată este inferioară valorii prevăzute de
regresia liniară: Yi-Ŷi<0 <=> Yi<Ŷi;
- reziduul este nul (aproape de 0) dacă valoarea observată este conformă valorii
prevăzute de regresia liniară: Yi-Ŷi=0 <=> Yi=Ŷi.

81
Reziduurile care se îndepărtează mult
Figura 5.20. Regresia numărului de spectatori de cinema
de tendinţa generală descrisă de dreapta de în funcţie de populaţia totală judeţeană.în România, 1994
regresie prezintă o mare importanţă pentru (sursa datelor : INSSE)
cercetarea geografică, deoarece cartografierea
lor permite sesizarea structurilor spaţiale care
funcţionează conform acţiunii unor factori
locali, ceea ce conduce la revelarea
disparităţilor teritoriale - unul dintre obiectivele
fundamentale ale geografiei.
În figura 5.20 este reprezentată relaţia
dintre populaţia totală judeţeană şi numărul
spectatorilor de cinema (inclusiv al
videotecilor), în România anului 1986. Ecuaţia
dreptei de regresie este Y = 9,31X - 160,92.
Coeficientul de determinare este r²=0,763, ceea
ce înseamnă că numărul total al populaţiei judeţene determină în proporţie de 76,3% numărul
celor care frecventează
Figura 5.21. Reziduurile regresiei numărului de cinematografele, restul de 23,7%
spectatori de cinema în funcţie de populaţia totală a (varianţa reziduală) fiind explicat de
judeţelor alţi factori.

Cartografierea reziduurilor de
regresie (fig.5.21) permite pe de o
parte sesizarea cazului special al
Constanţei, care beneficiază de
afluxul estival al turiştilor, iar pe de
altă parte permite lansarea unor
ipoteze de lucru pentru cercetătorul
geograf:
-a) Faptul că reziduurile
reflectă subestimarea lui Y pentru
Constanţa, Tulcea, Galaţi, Brăila şi
Călăraşi poate fi pus în legătură cu
traficul de casete video efectuat prin
porturile din zonă, lucru ce poate facilita aprovizionarea cu filme a videotecilor?
-b) Subestimarea lui Y pentru judeţele din sud-vestul ţării (Arad, Timiş, Hunedoara)
poate fi rezultatul traficului de frontieră între Banatul românesc şi cel sârbesc, o altă posibilitate
de aprovizionare cu casete video?
-c) Turismul şi urbanizarea pot explica reziduurile pozitive din sudul Transilvaniei
(Alba, Sibiu, Braşov), sau din Vâlcea şi Argeş?
-d) Care este ponderea factorilor culturali în crearea şi susăinerea agregatelor spaţiale
sesizate pe hartă?
-e) Care poate fi explicaţia pentru „inerţia” faţă de cinematograf manifestată în judeţele
din sudul extrem şi în cele din nordul extrem al ţării?
Răspunsul la aceste întrebări poate fi dat cu ajutorul altor regresii, sau prin intermediul
unor regresii multiple, care vor fi prezentate în volumul al doilea al acestui curs. Cert este faptul
că analiza cartografierii reziduurilor regresiei este o metodă foarte puternică de studiu a
organizărilor spaţiale „ascunse”. Utilizarea aceste metode nu este însă fără pericole, deoarece,
pentru ca rezultatele să fie reale, trebuie îndeplinite următoarele câteva condiţii (Beguin, 1979):

82
1. Prima ipoteză făcută asupra reziduurilor este aceea că media lor aritmetică este
nulă: E(εi)=0 (valorile estimate Ŷ sunt „medii” în raport cu Yi observate; aceasta înseamnă că se
consideră că reziduurile sunt pozitive şi negative în jurul lui 0 şi că suma lor este 0 (Σεi=0).
2. A doua ipoteză este homoscedasticitatea reziduurilor, respectiv ipoteza că
reziduurile εi au aceeaşi varianţă σ²εi pentru orice i=1,2,...n. condiţia este impusă de necesitatea
simplificării estimării parametrilor de regresie. Este de la sine înţeles că varianţa condiţională a
lui Yi pentru un X dat este şi ea constantă, pentru oricare i, de unde σ²XY = σ²εi. Condiţia de
homoscedasticitate trebuie avută mereu în atenţie, deoarece multe dintre variabilele cu care
operează geografia nu o satisfac, ceea ce falsifică grav rezultatele regresiilor şi interpretarea
acestora.
Homoscedasticitatea unei distribuţii este verificată cu ajutorul erorii standard (ES) a
estimării lui Y. Eroarea standard a estimării lui Y este rădăcina pătrată a varianţei distribuţiei
normale a reziduurilor:
N
^ 2
∑ (Yi - Yi )
2 i=1 => ES = σ 2 ^
σ ^ =
(Y -Y ) N (Y -Y )
care, după o serie de transformări, devine
ES = σ Y 1 - r 2XY
în care:
- ES este eroarea standard reziduală a regresiei;
- σY este abaterea standard (ecartul-tip) al lui Y;
- 1-r²XY este varianţa reziduală.
Pentru exemplul destinat să estimeze numărul de spectatori de cinema, ecartul tip al lui
Y este 1772,496 iar 1-r²XY = 1-0,763, deci eroarea standard reziduală a regresiei este
ES = 1772,496 * 1 - 0,763 = 862,596
ES este prin urmare un rezumat al „variaţiilor” reziduurilor, care trebuie să fie utilizat
pentru completarea modelului general
de regresie: Figura 5.22. Intervalele de încredere de 68% şi 95% pentru dreapta
Y = aX + b ± ES de regresie a numărului de spectatori de cinema în funcţie de
Când ecuaţia de mai sus descrie o populaţia judeţelor.
relaţie perfectă iar rXY=±1, ES este 0,
deci nu există reziduuri; când nu
există nici o relaţie între variabile şi
rXY=0, ES este maximă. Eroarea
standard a estimării lui Y se comportă
faţă de curba normală la fel ca şi
abaterea standard. În fig.5.22 este
reluată dreapta de regresie prezentată
anterior, completată (Y = 9,31X-
160,92 ± 862,60), care este acum
dublată de linii paralele,
corespunzătoare reziduurilor
standardizate. Se observă că
reziduurile se grupează între benzi cu aproximaţie ca sub curba normală:
-între +1ES şi -1ES se grupează 68% dintre reziduuri (sub curba normală, între +1σ şi -
1σ se grupează 68,26% dintre valori);
-între +2ES şi -2ES se grupează 95% dintre reziduuri (sub curba normală, între +2σ şi -
2σ se grupează 95,46% dintre valori);
-între +3ES şi -3ES se grupează 99% dintre reziduuri (sub curba normală, între +3σ şi -
3σ se grupează 99,75% dintre valori).

83
Relaţia dintre gruparea reziduurilor de regresie în funcţie de ES şi procentajele de sub curba
normală este cu atât mai exactă cu cât varianţa în cadrul benzilor definite de ES este mai
omogenă. Aceasta este de fapt homoscedasticitatea.
În figura 5.23 homoscedasticitatea lipseşte, fiind prezentă în schimb
heteroscedasticitatea, ce ilustrează situaţia în care varianţa reziduurilor εi (şi automat varianţa
valorilor Yi) se măreşte pe măsură ce X creşte. Deoarece Y este volumul de gaze distribuite în
judeţele României din anul 1989
(România=100%), este evident faptul că Figura 5.23. Creşterea varianţei reziduurilor cu valorile
acesta poate varia doar între un minim şi un variabilei X, datorită heteroscedasticităţii distribuţiei
maxim stabilite de X (X este populaţia urbană variabilei Y.
judeţeană; România=100%). Minimul este
pragul minim vital de urbanizare judeţeană
iar maximul nu poate depăşi -în cazul
extrem- populaţia judeţului. Maximul este
din ce în ce mai mare pe măsură ce X
(indirect X=numărul de arzătoare casnice şi
industriale) creşte, prin urmare, varianţa lui
Yi sporeşte odată cu X: condiţie de
homoscedasticitate nu este îndeplinită.
3. A treia condiţie este lipsa
autocorelaţiei între reziduuri: în esenţă,
această condiţie este concretizată prin ipoteza independenţei reziduurilor. Reziduurile sunt
independente dacă covarianţa lor este nulă: E(εi,εj) = 0, i≠j. De aici rezultă şi faptul că Yi şi Yj
sunt de asemenea necorelate.
4. A patra şi ultima condiţie este normalitatea distribuţiei reziduurilor εi. Această
condiţie are un caracter obligatoriu atunci când se doreşte testarea parametrilor de regresie
obţinuţi, prin fixarea unui interval de încredere. Dacă distribuţia reziduurilor este normală, este
de la sine înţeles că şi valorile Yi au o distribuţie normală. Prin urmare, condiţia anterioară,
respectiv necorelarea reziduurilor, se transformă în independenţa reziduurilor. Ipoteza
independenţei reziduurilor este foarte importantă, mai ales în cazul regresiilor multiple, unde
non-normalitatea lor înseamnă dependenţa lor, ceea ce înseamnă mai departe că reziduurile sunt
perturbate de o variabilă importantă care trebuie indentificată pentru a figura în mod explicit
printre variabilele regresoare.
Deşi lucrul este cunoscut, este bine să se amintească faptul că dacă regresia este
efectuată asupra unei populaţii, condiţia de normalitate poate fi ignorată . Dacă însă se lucrează
cu un eşantion (de exemplu judeţele Moldovei, doar o parte din judeţele României),
normalitatea reziduurilor εi (şi deci a valorilor Yi) devine o condiţie obligatorie.

5.3.2.4. Testarea modelului de regresie

Până în acest punct al analizei de corelaţie-regresie s-a realizat doar ajustarea analitică a
unui nor de puncte la o dreaptă, nedepăşindu-se stadiul descrierii unei distribuţii bivariate. Pasul
următor este aplicarea unor procedee de statistică inferenţială, care să extrapoleze rezultatele
obţinute prin analiza eşantionului asupra populaţiei din care face parte. Cu alte cuvinte, în
continuare va fi prezentată testarea modelului statistic teoretic, prin care vor fi obţinute
informaţii suplimentare ce pot sau nu să confirme încrederea acordată parametrilor estimaţi. S-a
demonstrat că noţiunile de eroare şi de eroare standard introduse în paginile precedente sunt
foarte legate de chestiunea generală a normalităţii distribuţiilor. Dacă se ţine seama de teoria
erorilor, care postulează faptul că erorile eşantionului sunt distribuite normal, atunci se acceptă

84
ipoteza conform căreia coeficienţii de regresie ai mai multor eşantioane extrase din aceeaşi
populaţie urmăresc de asemenea o distribuţie normală.
Se demonstrează astfel importanţa condiţiei de normalitate prezentată mai sus în
procesul construirii testelor pentru verificarea estimărilor obţinute. Testele se dovedesc esenţiale
pentru interpretarea rezultatelor regresiei, deoarece ne putem întreba: la ce foloseşte
interpretarea unui coeficient a (sau a unei valori Ŷ) dacă nu se ştie dacă acesta este în mod
semnificativ diferit de 0 sau dacă intervalul său de încredere este foarte îngust sau foarte larg?
(Beguin, 1978). Modelul statistic teoretic are forma următoare:
Y = αX + β
Dacă diferenţa dintre coeficientul calculat de regresie a şi coeficientul teoretic α este
considerată a fi standardizată, pentru testarea lui a ca o bună estimare a lui α se poate utiliza
distribuţia normală pentru eşantioanele mari şi distribuţia „t” pentru eşantioanele mici36. Ipoteza
nulă H0, pentru toate testele efectuate în continuare, este lipsa oricărei corelaţii între X şi Y,
respectiv rXY = 0, a=0 şi b=0. Dacă testele infirmă această ipoteză, cercetarea poate continua
prin acceptarea ipotezei alternative H1, adică a existenţei unei relaţii între X şi Y, respectiv
IrXYI>0, a≠0 şi b≠0. De regulă, pentru testarea semnificaţi ei regresiei aplică testul „F”.

Pentru a fi demonstrat faptul că regresia lui Y în funcţie de X este semnificativă (deci că


Y este dependent de X), trebuie ca variaţia lui Y explicată de X să fie semnificativ mai mare
decât cea neexplicată (reziduală). Prin urmare dacă
N ^ N ^
2> 2 2 2
σ^ σ ^ = ∑ ( Y - Y ) > ∑ (Y - Y )
Y (Y -Y ) i=1 i=1
atunci Y este dependent de X.
Doar dacă această condiţie este respectată se poate concluziona că există un factor X care are o
influenţă sistematică asupra lui Y mai mare decât influenţa accidentală, aleatoare, exercitată de
variabila neobservabilă ε (Beguin, 1978).
Verificarea modelului se efectuează prin testul „F” al lui Snedecor37, cunoscut sub
numele de estimarea varianţei. Scopul este acela de a demonstra că atunci când coeficientul α
este nul (α=0), raportul între varianţa explicată şi varianţa reziduală urmează o distribuţie „F”.
Estimarea fiecărei varianţe este făcută în funcţie de gradele de libertate, care indică
numărul de informaţii independente necesare calculării lor. Astfel, pentru varianţa totală,
numărul de grade de libertate este (N-1) deoarece este nevoie de (N-1) ecarturi independente
pentru a o calcula (întrucât se cunoaşte că Σyi=0). Pentru a calcula varianţa explicată, este
nevoie de un singur grad de libertate (respectiv a parametrului α), deci N=1. Este evident că sunt
necesare (N-2) grade de libertate pentru calcularea varianţei reziduale, deoarece se pierd două
g.l. prin calcularea celor doi coeficienţi de regresie care leagă Y de X. Rezultă prin urmare că, în
funcţie de gradele de libertate, varianţa explicată estimată este
N
^ N ^
2 2
∑ ( Y -Y ) ∑ (Y - Y )
2 i=1 2 i=1
s^ = s ^ =
1 (Y -Y ) N -2
Y
, iar varianţa reziduală estimată este .

În aceste condiţii, statistica testului „F” devine


2
r XY (N - 2)
F XY =
1 - r 2XY

36
Vezi subcapitolul "Teste parametrice".
37
Vezi subcapitolul "Teste parametrice".

85
Din acest moment putem testa ipoteza nulă (H0: nu există nici o diferenţă între a şi α,
deci nu există nici o relaţie între Y şi X, relaţia măsurată fiind datorată hazardului în alegerea
eşantionului):
- dacă FXY≥Fα, la 1 şi (N-2) g.l., ipoteza nulă H0 este respinsă, putându-se accepta
ipoteza alternativă H1: între a şi α există diferenţe semnificative, deci există o relaţie între cele
două variabile, relaţie care nu este supusă întâmplării.
Pentru exemplul numeric referitor la variaţia numărului de spectatori la cinema (Y) în
funcţie de populaţia totală a judeţului (X), se obţine:
FXY = (0,763)×(40-2)/(1-0,763) = 28,994/0,237 = 122,3
- pentru un nivel de semnificaţie al testului α=0,05 şi (1;38) grade de libertate, Fα=4,17
(vezi Anexa V), deci H0 poate fi respinsă foarte uşor, fiind clar că a diferă foarte mult de α38;
- pentru un n.s. α=0,01 şi (1;38) grade de libertate, Fα=7,56 (vezi Anexa IV), deci
regresia rămâne încă foarte semnificativă; H0 poate fi respinsă fără dificultate.

5.3.2.5. Aplicaţiile regresiei liniare în geografie

Cu ajutorul exemplului foarte cunoscut al relaţiei dintre temperatură şi altitudine, vom


demonstra în continuare aplicaţiile posibile ale regresiei în geografie: sintetizarea, modelarea,
previziunea şi descoperirea particularităţilor locale.

a) Sintetizarea
Să presupunem că, prin intermediul a 500 de staţii meteorologice, se măsoară
temperatura medie anuală a aerului (T°=Y) în Moldova, la diferite altitudini (X=H), şi că se
găsesc următoarele valori:
* T° = 10°C la H = 0 metri;
* T° = 4°C la H = 1000 metri;
* T° = -2°C la H = 2000 metri.
Ne putem întreba dacă este într-adevăr util să se înregistreze în fiecare zi temperaturile
T° obţinute. Statistica oferă un răspuns imediat la această interogaţie. Analiza seriilor de valori
demonstrează că există o puternică corelaţie negativă rXY = rT°H = -0,900 între altitudine şi
temperatură. Calculul coeficienţilor de regresie a condus la următoarele rezultate: a=-0,006°C
(temperatura Y=T° scade cu 0,006°C când altitudinea X=H creşte cu 1 metru) şi b=10°C (b este
originea dreptei de regresie, respectiv valoarea temperaturii Y când altitudinea X este zero). Prin
urmare, ecuaţia dreptei de regresie este Y=-0,006X+10 sau T°=-0,006×H+10°C. Coeficientul de
determinare al regresiei fiind pătratul coeficientului de corelaţie, rT°H = 0,900 => r²T°H =
0,900×0,900 = 0,810, rezultă că ecuaţia permite sintetizarea (rezumarea) esenţialului (81%) din
variaţia spaţială a temperaturii odată ce se cunoaşte altitudinea.
* Este evident astfel că regresia permite sintetizarea unui volum foarte mare de
informaţie cu ajutorul a doar doi parametri. Această sinteză este cu atât mai valabilă cu cât
corelaţia este mai puternică.

b) Modelarea
Observaţiile meteorologice, combinate cu analizele statistice, şi repetate pe tot lungul
anului, demonstrează faptul că coeficientul a nu se schimbă (-0,006 = constant), în vreme ce
coeficientul b oscilează în funcţie de anotimp (valorile sale sunt ridicate vara şi coborâte iarna).
Ce se poate deduce din aceste observaţii?
38
Trebuie să fie remarcat că simbolul α este folosit atât pentru a nota coeficientul teoretic al regresiei, cât şi pentru
probabilitatea de a greşi când se respinge H0. Sensul reiese clar din context.

86
Se cunoaşte faptul că coeficientul a indică mărimea variaţiei temperaturii în funcţie de
variaţia altitudinii. Astfel, o variaţie a altitudinii de ±100 m corespunde unei oscilaţii a
temperaturii de ±0,006×100 = ±0,6°C. Se obţine astfel gradientul termic, o constantă universal
valabilă pe Terra. Coeficientul b în schimb, indică valoarea temperaturii atunci când altitudinea
este de 0 m; coeficientul b este deci temperatura medie la nivelul mării. Se verifică astfel una
dintre legile elementare ale climatologiei, mai exact spus, se verifică unul dintre modelele
fundamentale ale climatologiei.
* Apare astfel clar faptul că regresia liniară are capacitatea de a modela realitatea
spaţiului geografic, făcând posibil experimentul ştiinţific.

c) Previziunea
Dacă buletinul meteo televizat anunţă o temperatură medie de 15°C pentru Moldova, o
persoană dintr-o localitate fără staţie meteo, care cunoaşte altitudinea propriei localităşi, poate
estima temperatura locală. Dacă temperatura medie la nivelul mării este de 15°C, ecuaţia dreptei
de regresie va fi de tipul T°=-0,006×H+15°C. Presupunând că altitudinea absolută a localităţii
respective este de 500 m şi că gradientul termic rămâne stabil, temperatura localităţii în discuţie
este probabil de 12°C (dacă gradientul rămâne stabil, este suficient să se scadă câte 3°C pentru
fiecare 500 m altitudine măsuraţi de la nivelul mării: -0,006×500=-3 => T°=-3+15 = 12°C).
* Regresia permite extrapolarea rezultatelor obţinute pe un eşantion; cu alte cuvinte,
regresia permite previziunea tuturor valorilor lui Y dacă se cunosc valorile lui X pentru
întreaga populaţie.

d) Descoperirea particularităţilor locale (sau punerea în evidenţă a unui efect


secundar mascat de un efect principal)
Amintind faptul că analiza cartografică a reziduurilor este un instrument important de
studiu al structurilor spaţiale, ne putem întreba: ce informaţii sunt obţinute prin cartografierea
reziduurilor ecuaţiei dreptei de regresie T°=-0,006×H+10°C, rămasă valabilă tot timpul anului?
Răspunsul este simplu: reziduurile corespund varianţei reziduale 1-r², deci ele dau
seama de 19% (adică de 1-0,810) din variaţia spaţială a temperaturii neexplicată de altitudine.
Prin urmare, reziduurile pun în evidenţă microclimatele determinate de orientarea versanţilor, se
vegetaţie, de accidentele topografice, de activitatea umană, etc. Astfel:
=> Reziduurile pozitive corespund microclimatelor calde (temperatura este mai mare
decât ar fi lăsat altitudinea să se presupună);
=> Reziduurile negative corespund microclimatelor reci (temperatura este mai scăzută
decât ar fi lăsat altitudinea să se presupună);
=> Reziduurile nule corespund temperaturilor conforme cu cele pe care altitudinea lăsa
să se prevadă.
* Reziduurile permit aşadar descoperirea factorilor secundari care influenţează variaţia
spaţială a unui fenomen, odată eliminat efectul factorului principal; este făcut vizibil astfel
specificul local al unui teritoriu oarecare.

5.4. Măsurarea relaţiei dintre două caracteristici calitative ordinale

În paginile anterioare s-a demonstrat că metodele analitice de calcul ale corelaţiei sunt
aplicate atunci când distribuţia variabilelor este normală şi când există informaţii asupra
parametrilor funcţiilor care realizează legătura dintre variabilele respective.
Se cunoaşte însă faptul că o serie întreagă de date geografice nu pot fi măsurate decât pe
scară ordinală, fie din cauza naturii informaţiilor (preferinţa persoanelor pentru anumite oraşe,
de exemplu), fie din cauza faptului că valorile cardinale sunt nesigure sau au o distribuţie mult

87
prea neadaptată unei transformări într-o distribuţie apropiată de una normală. În aceste cazuri,
chiar dacă se bănuieşte că între variabilele astfel măsurate există o relaţie, calcularea corelaţiei
prin metodele prezentate nu este posibilă, deoarece distribuţia nu este normală iar informaţiile
despre parametrii funcţiilor lipsesc.
Singura posibilitate de măsurare a relaţiilor stabilite între asemenea variabile sunt
metodele neparametrice de calcul al corelaţiei. Una dintre aceste metode este calcularea
corelaţiei rangurilor, pornindu-se de la ipoteza că între rangurile celor două variabile există o
relaţie de dependenţă, a cărei intensitate este măsurabilă. Dispunând de rangurile39 variabilelor,
de la 1 la N unde N este numărul de observaţii caracterizate de variabilele considerate,
măsurarea intensităţii corelaţiei se efectuează fie prin coeficientul de corelaţie Spearman, fie
prin coeficientul de corelaţie Kendall.

* Exemplu. Încercând să explice preferinţele migranţilor interni pentru unul sau altul dintre judeţele
României, o echipă de specialişti în geografie socială a avut ideea să măsoare intensitatea impactului informaţiilor
transmise prin mass-media asupra alegerii judeţului-ţintă de către migranţi. Pentru aceasta, s-au creat două ateliere
de cercetare:
- primul atelier a studiat arhivele presei scrise şi vorbite din ultimii 15 ani şi, în funcţie de frecvenţa
apariţiei informaţiilor despre fiecare judeţ în articole şi emisiuni radio-tv, au realizat o ierarhie a judeţelor (coloana
X în tabelul de mai jos);
- al doilea atelier a efectuat un sondaj pe un eşantion reprezentativ din populaţia în vârstă de 25-30 de ani,
stabilind o ierarhie a judeţelor în funcţie de frecvenţa apariţiei fiecărui judeţ în topul preferinţelor acestui eşantion
de populaţie (coloana Y din tabelul de mai jos).

5.4.1. Coeficientul de corelaţie Spearman5.4.1. Coeficientul de corelaţie Spearman


(ρ)

În tabelul de mai jos s-au obţinut două şiruri de ranguri, unul pentru X (X1, X2 . . . Xi, Xj .
. . XN) şi altul pentru Y (Y1, Y2 . . . Yi, Yj . . . YN). Coeficientul lui Spearman se calculează aidoma
coeficientului de corelaţie liniară Bravais-Pearson, luându-se rangurile drept valori. Pentru
aceasta, se ordonează cele două şiruri în funcţie de rangurile lui X, obţinându-se un total de 40
de perechi de valori: (X1,Y1), (X2,Y2) . . . (Xi,Yi), (Xj,Yj) . . . (XN,YN). În etapa următoare, se
efectuează diferenţa dintre rangurile fiecărei perechi rezultate: (X1-Y1) . . . (Xi-Yi), (Xj-Yj) . . .
(XN-YN), obţinându-se valorile trecute în coloana d. Deoarece suma valorilor coloanei d este 0,
acestea se ridică la pătrat, rezultând valorile coloanei d², după care se aplică formula lui
Spearman:
N N
2
6 ∑ ( X i - Yi ) 6 ∑ d²
ρ = i=1 ρ = i=1
N(N + 1)(N - 1)sau N(N ² - 1)
Coeficientul de corelaţie a rangurilor propus de Spearman oscilează de asemenea între -
1 şi +1, relaţia fiind cu atât mai puternică cu cât ρ este mai aproape de ±1 şi cu atât mai slabă cu
cât este mai aproape de 0.

39
Rangul este locul ocupat de o observaţie într-o ierarhie ascendentă (1, 2, 3...i...N) sau descendentă (N...i...3, 2, 1).

88
Înlocuind în formulă cu valorile tabelului, se obţine
Variabila X Y d d²
6 * 1074 Judeţul
ρ= = + 0,899
Prahova 1 2 -1 1
40(40² - 1) Iaşi 2 4 -2 4
Valoarea coeficientului, ρ=0,899, indică faptul că între Dolj
Cluj
3
4
11
10
-8
-6
64
36
„publicitatea” făcută judeţelor de către sistemul mass-media şi Constanţa
Bacău
5
6
1
7
4
-1
16
1
decizia posibililor migranţi de a se îndrepta către un judeţ sau Timiş
Suceava
7
8
3
15
4
-7
16
49
altul există o puternică relaţie de dependenţă, de semn pozitiv. Braşov 9 5 4 16
Argeş 10 8 2 4
Semnificaţi a statistică a coeficientului Spearman poate Bihor 11 17 -6 36
Galaţi 12 6 6 36
fi testată aidoma coeficientului Bravais-Pearson, utilizându-se Mureş 13 13 0 0

testul Student, cu condiţia ca N≥5. În acest caz, pentru α Neamţ 14 14 0 0


Dâmboviţa 15 18 -3 9
(probabilitatea de eroare acceptată) şi numărul de grade de Hunedoara
Maramureş
16
17
9
28
7
-11
49
121
libertate date, valoarea lui tXY se citeşte din tabele speciale. Olt
Buzău
18
19
26
16
-8
3
64
9
Pentru a utiliza aceleaşi tabele ca şi pentru coeficientul de Sibiu
Arad
20
21
12
22
8
-1
64
1
corelaţie liniară, este necesar ca N≥30. Deoarece în exemplul de Teleorman
Vaslui
22
23
30
20
-8
3
64
9
mai sus n=40, se poate testa ipoteza nulă H0 conform căreia ρ=0 Botoşani 24 23 1 1
Vâlcea 25 21 4 16
(între ranguri nu există nici o relaţie), aplicându-se testul Alba 26 24 2 4
Satu Mare 27 37 -10 100
următor, ce consistă în a calcula tXY distribuit ca tα/2 la (N-2) C. Severin 28 25 3 9
Brăila 29 19 10 100
grade de libertate: Vrancea 30 29 1 1
Gorj 31 32 -1 1
IρI * N - 2 Harghita 32 33 -1 1
t XY = Călăraşi 33 34 -1 1
1 - ρ² Mehedinăi 34 36 -2 4
B-ţa Năsăud 35 35 0 0
Ipoteza nulă este respinsă dacă tXY≥tα/2. În exemplul considerat, Giurgiu
Ialomiţa
36
37
39
31
-3
6
9
36
se obţine pentru α=0,05 şi N=(40-2) grade de libertate: Tulcea
Sălaj
38
39
27
38
11
1
121
1
Covasna 40 40 0 0
0,899 * 40 - 2 0,899 * 6,14
t XY = = = 12,65 Σ=suma 0 1074
1 - 0,899² 1 - 0,802
Din tabelul cu valorile repartiţiei Student, pentru α=0,05 şi
N=38 grade de libertate, tα/2 = 2,03. Deoarece tXY≥tα/2 (12,65≥2,03), ipoteza nulă este respinsă,
coeficientul ρ obţinut fiind foarte semnificativ.

5.4.2. Coeficientul de corelaţie Kendall (τ)

Al doilea coeficient de corelaţie a rangurilor este cel al lui Kendall, care este fundamentat pe
numărul de „inversiuni” ale ordinii rangurilor celor două variabile, comparată cu o ierarhie
standard (Porojan, 1993). De obicei, ordinea standard este ierarhia variabilei X, în funcţie de
care se studiază inversiunile din ierarhia variabilei Y.
Calcularea acestui coeficient (τ, se citeşte tau) nu pune de asemenea condiţia de
normalitate a distribuţiei variabilelor, însă cere observarea tuturor cuplurilor de variabile (XiYi,
XjYj) cu i≠j. Observarea acestor perechi este laborioasă, deoarece este nevoie de considerarea a
[N(N-1)]/2 valori. Fiecare pereche conţine patru ranguri: Xi, Xj, Yi şi Yj. Coeficientul τ este în
esenţă ecartul dintre proporţia perechilor concordante şi proporţia perechilor discordante. O
pereche este numită concordantă dacă atunci când Xi>Xj, şi Yi>Yj; în caz contrar, perechea este
numită discordantă (atunci când Xi>Xj, Yi<Yj sau atunci când Xi<Xj, Yi>Yj).

89
Pentru calcularea concordanţelor şi discordanţelor (deci a
inversiunilor), se procedează astfel: se numără în coloana Y, de sus
Variabila X Y Inversiuni
în jos, în ordine, câte valori mai mari decât numărul considerat se Judeţul (K)
află până la sfârşitul coloanei iar valorile obţinute se trec în a treia Prahova 1 2 38
Iaşi 2 4 36
coloană (vezi tabelul). Dolj 3 11 29
Cluj 4 10 29
Astfel, primul număr din coloana K a inversiunilor, respectiv Constanţa 5 1 35
38, semnifică faptul că sub prima cifră din coloana Y (2) sunt 38 de Bacău
Timiş
6
7
7
3
29
31
valori mai mari decât 2. A doua cifră din coloana K a inversiunilor Suceava
Braşov
8
9
15
5
23
30
este 36, ceea ce înseamnă că sub valoarea 4 din coloana Y sunt 36 de Argeş
Bihor
10
11
8
17
29
22
valori mai mari decât 4, etc. Galaţi 12 6 28
Mureş 13 13 24
În continuare se calculează proporţia P dintre perechile Neamţ 14 14 23
Dâmboviţa 15 18 22
concordante şi cele discordante, după următoarea formulă: Hunedoara 16 9 25
Maramureş 17 28 12
N 40 Olt 18 26 13
P = 2K - (N - 1)= 2 * 665 - (40 - 1) Buzău 19 16 20
2 2 = 1330 - 780 = 550. Sibiu 20 12 20
Arad 21 22 16
În acest moment se poate aplica formula de calculare a coeficientului Teleorman 22 30 10
Kendall (τ): Vaslui
Botoşani
23
24
20
23
15
14
Vâlcea 25 21 14
P 550 550
τ= = = = + 0,705 Alba
Satu Mare
26
27
24
37
13
3
N 20 * 39 780 C.- Severin 28 25 11
(N - 1) Brăila 29 19 11
2 Vrancea 30 29 9
Coeficientul τ variază tot între ±1, valoarea sa fiind în general mai Gorj
Harghita
31
32
32
33
7
6
redusă decât ce a lui ρ. Dacă toate perechile sunt concordante, τ =+1 Călăraşi
Mehedinţi
33
34
34
36
5
4
iar dacă toate perechile sunt discordante, τ =-1. Nu există corelaţie B-ţa Năsăud
Giurgiu
35
36
35
39
3
1
între ranguri (τ =0) atunci când numărul perechilor concordante este Ialomiţa 37 31 2
Tulcea 38 27 2
egal cu cel al perechilor concordante. Sălaj 39 38 1
Covasna 40 40 0
Semnificaţi a coeficientului τ se poate verifica cu ajutorul
Σ=suma 665
tabelelor speciale Kendall, însă, deoarece distribuţia sa tinde rapid
spre cea normală (Beguin, 1978), dincolo de N>10 se poate testa
ipoteza nulă τ=0 cu ajutorul următorului test:
τ XY
z XY =
(4N + 20)(9N ² - 9)
cu respingerea ipotezei nule H0 dacă zXY≥zα/2 la α=0,05.

5.5. Măsurarea relaţiei dintre o caracteristică cantitativă şi una calitativă nominală sau
dintre două caracteristici calitative nominale

Unele variabile geografice nu pot fi exprimate decât prin intermediul codurilor


nominale, în general binare (zero şi unu). Astfel, în studierea echipării tehnico-edilitare a
localităţilor unui teritoriu, se notează cu 1 prezenţa unui anumit echipament (de exemplu
alimentarea cu apă) şi cu 0 absenţa sa. În cazul acestor variabile, nici una dintre metodele
prezentate anterior de măsurare a corelaţiilor nu pot fi aplicate. Există însă anumite metode de
măsurare a intensităţii relaţiilor stabilite între fenomene caracterizate de variabile nominale,
printre care cele mai importante sunt cele de calculare a coeficientului empiric de corelaţie şi a
coeficienţilor de asociere.

5.5.1. Raportul empiric de corelaţie (η)

90
Raportul empiric de corelaţie η (se citeşte eta) măsoară intensitatea maximă a relaţiei
existente fie între două caracteristici cantitative, fie între o caracteristică cantitativ şi unul
calitativ. În calcularea sa se porneşte de la un tabel de contingenţă, deoarece este strâns legat de
distribuţiile marginale condiţionale.
Spre deosebire de coeficientul de corelaţie Bravais-Pearson, coeficientul η nu necesită ca
relaţia să fie liniară. Din această cauză, şi datorită faptului că nu oferă alte informaţii asupra
naturii relaţiei, este necesar ca, în cazul caracteristicilor cantitative, să fie însoţit şi de analiza
celor două curbe de regresie (Beguin, 1978). Prin urmare, în cazul caracteristicilor cantitative,
trebuie calculaţi ambii coeficienţi: şi ηXY (al lui X în Y), şi ηYX (al lui Y în X). În cazul în care Y
este o caracteristică calitativ nominal, se calculează doar ηXY.
Deoarece are un comportament similar indicelui Bravais-Pearson, pătratul său (η²) are
aceeaşi semnificaţie ca r²XY, măsurând partea de varianţă explicată din varianţa totală. Mai
exact, η² este proporţia varianţei distribuţiei marginale exprimată prin varianţa mediilor
distribuţiilor condiţionale40 (Calot, 1973). Expresiile celor doi coeficienţi de corelaţie empirică,
exprimate prin pătratele acestora, sunt:
n p
∑ ∑ k ij ( X i - X / Y )²
i=1 j=1 j
η ² XY = 1 - n
∑ k i.( X i - X )²
i=1
pentru corelaţia lui X în Y, şi
n p
∑ ∑ k ij ( Y j - Y / X i )²
i=1 j=1
η ²YX = 1 - p
∑ k .j ( Y j - Y )²
j=1
pentru corelaţia lui Y în X. Raporturile, obţinute plecându-se de la un tabel de contingenţă, pot fi
calculate numai cu condiţia ca raportul dintre numărul de clase (N) şi efectivul total al tabelului
(k..) să fie mai mare sau egal cu 1/50:
N 1

k.. 50

5.5.2. Măsurarea relaţiei dintre două caracteristici calitative nominale

Măsurarea intensităţii relaţiei stabilite între două variabile calitative nominale nu poate fi
efectuată prin calcularea raporturilor sau a coeficienţilor de corelaţie. Metodele utilizate în acest
caz sunt tot metode neparametrice, dar care caută să măsoare nu intensitatea ci gradul de
asociere (asociere spaţială în cazul geografiei) al celor două variabile.

Exemplu. ştiindu-se că piersicul este un arbore pretenţios faţă de regimul temperaturii, se poate încerca să
se demonstreze că paralela de 46° latitudine nordică este în cadrul României un prag bioclimatic pentru această
plantă. În lipsa unor date teritoriale amănunţite se construiesc două variabile X şi Y, în care X semnifică producţia
judeţeană de piersici (notată cu 0 pentru judeţele cu producţia sub 500 t/an şi cu 1 pentru judeţele care depăşesc
această valoare), iar Y semnifică poziţia fiecărui judeţ în raport de paralela 46°lat.N (notată cu 0 pentru judeţele
netraversate de paralelă şi aflate la nord de aceasta şi cu 1 pentru judeţele traversate de paralelă sau aflate la sud de
aceasta).Tabelul elementar rezultat este redat alăturat.
Pentru a se calcula gradul de asociere (al prezenţei aceloraşi valori ale celor două variabile în acelaşi judeţ)
este necesară realizarea unui tabel de contingenţă (vezi tabelul alăturat), deoarece toţi coeficienţii de măsurare ai
asocierii au la bază noţiunea de contingenţă (de asociere) şi legea urmată de χ².

40
Vezi subcapitolul "Tabelul de contingenţă şi studiul relaţiei dintre două caractere discrete".

91
5.5.2.1. Coeficientul de contingenţă (φ)

Coeficientul φ (se citeşte fi) este de fapt coeficientul de corelaţie liniară Bravais-Pearson aplicat
variabilelor binare (ale căror valori sunt notate cu 0 şi 1). Calcularea sa este posibilă numai
pornindu-se de la un tabel de contingenţă 2x2 (cu două linii şi cu două coloane). Formula de
calcul este
n p ( k - k )²
( k 11 * k 22 - k 12 * k 21 ) D 2 i′j ij
φ XY = 2 D = χ XY = ∑ ∑
φ XY = k i′j
( k 1. * k 2. * k .1 * k .2 ) N în care i=1 j=1
sau iar N este
efectivul total (sau N = k..). Din tabelul de contingenţă se obţine χ²XY=24,3, de unde φ²=24,3/40
=+0,607 => φ = √φ²=+0,779. Valoarea coeficientului, φ=+0,779 confirmă existenţa unui grad
destul de mare de asociere între producţiile mari de piersici obţinute (>500t/an) şi poziţia la sud
de paralela de 46°lat.N a judeţelor României.

Coeficientul φ se dovedeşte semnificativ sau nu după


Y: Y=0 Y=1 TOTAL
testarea ipotezei nule H0 conform căreia φ=0. Atunci când X:
χ²XY ≥ χ²α, H0 este X=0 11 10 21
respinsă. În cazul X=1 3 16 19
Variabila X Y
Judeţul (1= >500t/an) (1=sud) exemplului TOTAL 14 26 40
Prahova 0 1 numeric de mai
Iaşi
Dolj
1
0
1
1
sus, coeficientul
Cluj
Constanţa
0
1
0
0
se dovedeşte semnificativ chiar şi la α=0,001, deorece
Bacău
Timiş
0
0
0
0
χ²α citit este de 10,83 iar χ²XY este de 24,3: χ²XY≥ χ²α
Suceava 0 1 => H0 este respinsă.
Braşov 1 1
Argeş 0 1
Bihor 1 1
Galaţi 1 1
Mureş 0 0
Neamţ 1 1 5.5.2.2. Coeficientul de asociere Yule (θ)
Dâmboviţa 0 1
Hunedoara 1 1
Maramureş
Olt
1
1
1
1
Coeficientul de asociere θ (se citeşte teta) este
Buzău
Sibiu
1
0
1
1
foarte apropriat studierii relaţiei dintre două variabile
Arad 0 0 binare. În calcularea sa se porneşte de asemenea de la
Teleorman 0 1
Vaslui 1 1 un tabel de contingenţă 2x2:
Botoşani 0 0
Vâlcea 0 0 k 11 * k 22 - k 12 * k 21 11 * 16 - 10 * 3
Alba 1 1 θ XY = = = + 0,708
Satu Mare 0 0 k 11 * k 22 + k 12 * k 21 11 * 16 + 10 * 3
C. Severin 0 0
Brăila 1 1 Formula de mai sus este fundamentată pe ideea că
Vrancea 0 1
Gorj 1 0 produsul k11×k22 reliefează gradul de realizare al
Harghita 1 0
Călăraşi 0 1 asocierii, pe când produsul k12×k21 evidenţiază lipsa
Mehedinăi 0 0
B-ţa Năsăud 1 1 asocierii. Astfel, între cei doi termeni de stabileşte o
Giurgiu 1 1
Ialomiţa 1 1 relaţie de asimetrie între gradul de realizare şi cel de
Tulcea
Sălaj
0
0
0
1 nerealizare al asocierii. Coeficientul θ, propus de
Covasna 1 1
Yule, este aşadar expresia raportului de asimetrie a
asocierii. Ca majoritatea raporturilor şi coeficienţilor,
θ oscilează între -1 şi +1, semnul fiind dat de
diferenţa k11×k22 - k12×k21:
- dacă k11×k22 > k12×k21, atunci θ > 0;
- dacă k11×k22 < k12×k21, atunci θ < 0.

92
Ipoteza nulă H0, conform căreia θ = 0, se testează prin calcularea lui χ²: dacă χ²XY≥ χ²α,
atunci H0 este respinsă.

5.5.2.3. Coeficientul de contingenţă (c)

Spre deosebire de ceilalţi coeficienţi, c se poate aplica şi tabelelor de contingenţă mai


mari de 2x2, însă fundamentarea sa statistică se sprijină de asemenea pe calcularea lui χ²²
(Beguin, 1978):
χ² 24,3
c XY = = = + 0,615
χ² + N 24,3 + 40
Coeficientul de asociere c este întotdeauna pozitiv, oscilând între 0 şi +1, însă distribuţia sa
statistică nu este determinată, din care cauză trebuie calculat raportul dintre valoarea sa obţinută
prin formula de mai sus (c=+0.615) şi valoarea sa teoretică maximă (cmax), rezultată din
m-1 2-1
c max XY = = = + 0,707
m 2
în care m este numărul cel mai mic, fie de coloane, fie de linii, al tabelului de contingenţă. De
exemplu, dacă un tabel de contingenţă are 5 coloane şi 3 linii, m=3 (în cazul nostru m=2,
deoarece numărul de coloane este egal cu numărul de linii, respectiv cu 2). Calculând raportul,
se obţine
χ² 24,3
c XY χ² + N 24,3 + 40 + 0,615
= = = = + 0,869
c max XY m-1 2-1 + 0,707
m 2
Asupra acestui coeficient, +0,869, care demonstrează o puternică asociere între poziţia sudică a
judeţelor şi mărimea producţiei de piersici, se testează ipoteza nulă c/cmax = 0, care este respinsă
dacă χ²XY≥ χ²α.

5.5.2.4. Coeficientul lui Cramer (rc)

Coeficientul de asociere rc, a cărui distribuţie este deasemenea nedeterminată, se


calculează ca un raport între χ² observat şi valoarea maximă pe care o poate avea χ² observat,
care se află prin χ²max = N(m-1), în care m este cel mai mic număr de linii (de coloane) al
tabelului de contingenţă. Formula sa de calcul devine astfel:
χ² 24,3
rc = = = + 0,779
N(m - 1) 40(2 - 1)
Se remarcă uşor faptul că în cazul tabelului de contingenţă 2x2, m-1 = 2-1 = 1, încât rc = φ, egal
în cazul exemplului numeric cu +0.779. semnificaţia coeficientului este obţinută prin testarea
ipotezei nule H0, cu rc: dacă χ²XY≥ χ²α, H0 este respinsă în favoarea ipotezei alternative H1,
conform căreia rc > 0 ( deoarece coeficientul lui Cramer oscilează între 0 şi +1).

5.5.2.5. Coeficientul lui Ciuprov (C)

Numărându-se printre cei mai comozi coeficienţi, deoarece oscilează între 0 şi +1,
coeficientul C se bazează de asemenea pe calcularea lui χ²:
χ² 24.3
C XY = = = + 0.779
N ν 40 (2 - 1)(2 - 1)

93
unde v = (m1-1)(m2-1), cu m1 fiind numărul de linii şi cu m2 fiind numărul de coloane al
tabelului de contingenţă. Se observă că pentru un tabel de contingenţă 2x2, v = (2-1)(2-1) = 1,
de unde rezultă că C = rc = φ şi egal în cazul nostru cu +0,779.
Testarea ipotezei nule H0, conform căreia C = 0, se face la v=(m1-1)(m2-1) grade de
libertate pentru un tabel de contingenţă mai mare de 2x2. În cazul de faţă, al tabelului 2x2, v=1;
ipoteza nulă H0 este respinsă dacă χ²XY≥ χ ²α.

5.6. Corelaţie şi cauzalitate

Stabilirea faptului existenţei unei legături între două fenomene nu implică în mod
necesar că între cele două fenomene există relaţii de cauzalitate. Există şi corelaţii aparente, fără
fundament real. Britanicul G. U. Yule a stabilit că, între 1929 şi 1937, în Marea Britanie
valoarea coeficientului de corelaţie dintre numărul de receptoare radio şi numărul deficienţilor
mintal a fost de +0,988 (Porojan, 1993). Este evident că, dincolo de aspectul amuzant, nimic nu
îndreptăţeşte existenţa unei corelaţii reale între cele două variabile.

5.6.1. Un pericol specific geografiei: eroarea ecologică

În geografie se observă de multe ori că două variabile tind să se asocieze spaţial


(creşterea sau scăderea valorilor uneia în unele unităţi teritoriale este însoţită de creşterea sau de
scăderea celeilalte în aceleaşi unităţi spaţiale). Creşterea sau scăderea simultană a celor două
variabile nu înseamnă nici că una are o influenţă directă asupra celeilalte, dar nici că această
influenţă lipseşte. Covariaţia lor spaţială se poate datora foarte bine unei cauze externe, care le
influenţează pe ambele în acelaşi timp. De exemplu, reducerea ratei şomajului poate conduce
atât la sporirea economiilor bancare a populaţiei (X), cât şi la creşterea consumului de bunuri
(Y), deşi, aparent, între X şi Y există o legătură cauzală directă. Se observă astfel că există mai
multe posibilităţi de explicare a corelaţiilor.

În geografie studiul corelaţiilor se face, de cele mai multe ori, prin intermediul analizei
unei mulţimi de locuri. Atunci când variabilele utilizate în analiza acestor locuri sunt variabile
sociale, care descriu locuitorii locurilor respective, trebuie să se aibă permanent în atenţie faptul
că o corelaţie stabilită la nivelul locurilor nu implică în mod necesar o corelaţie la nivelul
locuitorilor lor.

* Exemplu: Criminalitatea şi străinii în Albeni.


Un studiu sociologic (la nivelul indivizilor) demonstrează că rata criminalităţii în oraşul Albeni este mai
ridicată în rândul autohtonilor (36%) decât în rândul străinilor (17%). Cu toate acestea, un studiu geografic (la
nivelul cartierelor) demonstrează o corelaţie perfectă (rXY = +1) între proporţia străinilor în cartiere şi rata
criminalităţii în cartierele respective.
Nu este vorba despre nici un paradox: prezenţa corelaţiei la nivelul locurilor semnifică pur şi simplu faptul
că acolo unde sunt mulţi străini sunt de asemenea şi mulţi criminali, dar aceasta nu dovedeşte că străinii sunt autorii
actelor criminale.
Acest tip de eroare este numit eroare ecologică, deoarece ea constă în a gândi că
prezenţa a două fenomene într-un acelaşi loc (într-un ecosistem) implică o relaţie cauzală între
cele două fenomene. Însă faptul că leii şi termitele trăiesc în savană nu implică deloc faptul că
leii mănâncă termitele sau că termitele gonesc de zor leii prin savană pentru a-şi asigura cina...

94
CAP.VI. SERII CRONOLOGICECAP.VI. SERII CRONOLOGICE

6.1. Definiţie şi termeni

În capitolele anterioare distribuţiile statistice au fost considerate ca având o anumită


stabilitate a structurii interne (de aici denumirea de de „statistică de structură” pentru ansamblul
metodelor prezentate până acum); sau, în orice caz, nu ne-a interesat modul de manifestare în
timp a acestor distribuţii, n-a fost urmărită evoluţia lor în timp. Considerarea explicită a
timpului drept caracteristică în funcţie de care sunt repartizate valorile unei variabile constituie
semnul distinctiv al seriilor cronologice.
Seriile cronologice (s. de timp, s. dinamice) sunt acele distribuţii statistice de o
variabilă la care modalităţile (valorile) caracteristicii sunt ordonate în raport cu
timpul.
Din această definiţie reiese că o serie cronologică presupune, de fapt, o distribuţie a populaţiei
studiate după două caracteristici, dintre care una este întotdeauna timpul.

Un exemplu la îndemână este cel al tabelelor meteorologice, în interiorul cărora valorile


elementelor meteo sunt ordonate pe zile, decade, sau luni. Populaţia temperaturilor aerului, de
exemplu, este repartizată astfel după două caracteristici: una dintre ele este timpul, iar cealaltă,
ale cărei modalităţi constituie chiar datele de observaţii, precizează felul temperaturii (ex.
temperatura la ora 7, temperatura medie zilnică, maxima diurnă etc.).

În felul acesta timpul devine o veritabilă variabilă, în funcţie de care se poate analiza
comportamentul celeilalte variabile. Acest fapt este confirmat şi de modelul matematic
generalizat al unei serii cronologice:
y = f(t),
în care timpul joacă rolul de variabilă independentă. şirul de valori al seriei va avea forma
generală:
y t 1 , y t 2 , ..., y t i , ..., y t n
Trebuie subliniat, însă, că în cazul seriilor cronologice timpul constituie o variabilă exogenă
(Chadule, 1974), care nu o influenţează în nici un fel pe cealaltă, ea având doar rolul precizat in
definiţia de mai sus: acela de criteriu de ordonare a valorilor celeilalte variabile.

De regulă, pentru variabila timp se adoptă valori ce corespund unor intervale temporale
echidistante: ore, zile, luni, ani etc. Întrucât la intervalele mai mari de o lună echidistanţa nu este
perfectă (există luni de 30, dar şi de 31 de zile; există ani bisecţi), se obişnuieşte, atunci când se
consideră necesar, o corectare a valorilor variabilei41 pentru a asigura comparabilitatea.
Coeficienţii de corecţie se obţin raportând numărul de zile dintr-o lună „medie” (365/12, sau
366/12) la numărul de zile al lunii respective. În felul acesta pentru o lună de 30 de zile
coeficientul de corecţie este 1,013 (1,017 pentru un an bisect); pentru o lună de 31 de zile
coeficientul este 0,981 (respectiv 0,983); pentru luna februarie coeficientul este 1,086 (respectiv
1,051).

41
Aici şi mai departe în text termenul „variabilă” se referă exclusiv la variabila y din modelul generalizat de mai
sus, ale cărei valori constituie termenii seriei cronologice.

95
După felul în care valorile variabilei se ataşează unităţilor de timp se disting două feluri
de serii cronologice:
• s. de momente - sunt acele s.c. la care valorile variabilei (de regulă una de stoc) sunt
ataşate unor momente de timp, eventual echidistante. O caracteristică a acestor serii este
imposibilitatea (sau lipsa de sens) a cumulării valorilor succesive. Exemple de variabile:
populaţia unui oraş, parcul de automobile al unei ţări, populaţia ocupată în agricultură ş.a.;
• s. de intervale sunt seriile la care valorile variabilei (de regulă una de flux) sunt ataşate
unor intervale de timp egale. Exemple de variabile: producţia agricolă sau industrială, cantitatea
anuală de precipitaţii, nr. de născuţi vii etc. O asemenea serie de timp mai este numită şi
continuă, deoarece variabila poate căpăta un număr infinit de valori în interiorul intervalului
temporal ales. Caracteristica acestui tip de s.c. o constituie posibilitatea cumulării valorilor
succesive ale variabilei.
Reprezentările grafice specifice pentru s.c. sunt cronogramele sau historiogramele.
Acestea sunt nişte grafice simple de tipul curbelor elementare, în care pe abscisă se trec
momentele/intervalele de timp, iar pe ordonată valorile variabilei; punctele ce corespund
perechilor de valori (yt,t) se unesc printr-o linie, rezultând o curbă care descrie evoluţia în timp a
fenomenului studiat.

6.2. Serii cronologice şi indici

Mai ales în domeniul Statisticii economice, analiza primară a seriilor de timp se bazează
pe un sistem de indici care caracterizează succint relaţiile cantitative dintre termenii seriei, pe o
anumită perioadă sau pe întregul interval de timp acoperit de termenii seriei.
Un indice este un mărime numerică rezultată din compararea valorilor unui
indicator statistic42 şi care oferă o măsură a schimbării nivelului unei variabile
în timp (indice cronologic) sau în spaţiu (indice teritorial sau regional).

Prelucrarea termenilor unei serii sau subserii cronologice permite obţinerea a trei
categorii de indici: absoluţi, relativi şi medii (Porojan, 1993). Indicii din primele două categorii
mai sunt cunoscuţi sub denumirea de indici elementari, iar cei medii mai sunt numiţi indici
sintetici (Chadule,1974).

a)Indicii absoluţi - sunt acei indici ai căror valori se măsoară în aceleaşi unităţi ca şi
termenii seriei. Dintre indicii absoluţi mai uzitaţi sunt trei: nivelul absolut, sporul absolut şi,
pentru seriile de intervale, volumul sporului.
• nivelul absolut al seriei reprezintă, de fapt, înseşi valorile absolute ale termenilor
acesteia:
y t 1 , y t 2 , ..., y t i , ..., y t n
• sporul absolut sau creşterea absolută este diferenţa dintre un termen oarecare al seriei
şi primul termen, acesta din urmă find considerat bază de referinţă - motiv pentru care se mai
numeşte şi spor absolut cu bază fixă:
∆ i/1 = y t i - y t 1
Sporul absolut al întregii serii va fi diferenţa dintre ultimul şi primul termen:
∆ n/1 = y t n - y t 1
Sporul se poate calcula şi ca diferenţă între câte doi termeni consecutivi, caz în care se
numeşte spor absolut cu baza în lanţ:
42
Indicator statistic = mărime statistică, cu ajutorul căreia se caracterizează un fenomen social-economic sub
aspectul structurii şi modificărilor sale cantitative în timp sau în spaţiu (Trebici & colab.,1985). Exemple de i.s.:
venitul naţional, valoarea producţiei industriale, consumul de calorii pe cap de locuitor etc.

96
∆ i/i - 1 = y t i - y t i - 1
• pentru seriile de intervale (deci în cazul variabilelor ale căror valori se pot cumula) se
calculează volumul sporului:
n

∆ 2/1 + ∆ 3/2 + ... + ∆ n/n - 1 = ∑ ∆ i/i - 1


i=1

b)Indicii relativi - sunt indici care se obţin sub forma unor rapoarte, de obicei
procentuale.
• ritmul sau indicele de creştere se obţine ca un raport între un termen oarecare al seriei
şi primul termen, considerat ca bază (indice de creştere cu bază fixă):
yti yt n
I i/1 = x100 I n/1 = x100
yt1 yt1
(pentru întreaga serie indicele va fi ).
şi aici se poate calcula un indice de creştere cu baza în lanţ:
yti
I i/i - 1 = x100
yt i-1
În cazul seriilor de intervale, între cele două feluri de indici există o relaţie care derivă
din modul cum se calculează aceştia: indicele de creştere cu bază fixă este egal cu produsul
indicilor de creştere cu bază în lanţ:
n

I n/1 = ∏ I i/i - 1
i=1
• ritmul sporului este dat de raportul dintre volumul sporului şi bază:
n
∑ ∆ i/i -1 y tn - y t1 y tn
= i=1 x100 = x100 = ( - 1)x100
R n/1
y t1 y t1 y t1
şi exprimă câte unităţi (procente) de spor absolut revin pentru o unitate (procent) din bază.
Lucrând cu perechi de termeni succesivi se pot obţine şi nişte ritmuri ale sporului cu baza în
lanţ:
∆ i/i -1 y -y y
R i/i -1 = x100 = ti ti-1 x100 = ( ti - 1)x100
y ti-1 y ti-1 y ti-1

c)Indicii medii (sintetici) - sunt de fapt nişte variante de medii aritmetice ale seriei
cronologice.
• nivelul mediu se calculează în mod diferit, după cum avem de-a face cu o serie de
intervale sau cu o serie de momente, echidistante sau nu.
- la seriile de intervale nivelul mediu este media aritmetică simplă a termenilor seriei:
n
∑ y ti
yt = 1
i=
n
- la seriile de momente echidistante nivelul mediu este media cronologică simplă:
1 1
y t1 + y t2 + ... + y t n-1 + y
2 2 tn
yt =
n

97
- la seriile de momente ce se succed la intervale de timp inegale nivelul mediu este media
cronologică ponderată :
t1 t1 + t 2 t n -1 + t n
y t1 + y t2 + ... + y tn
2 2 2
yt =
t 1 + t 2 + ... + t n
,
unde t1, t2, ..., tn sunt intervalele de timp (inegale) dintre momentele de timp ale seriei.
• sporul absolut mediu se calculează prin raportarea sporurilor absolute cu bază fixă, sau
cu baza în lanţ, la numărul termenilor minus unul:
n
∑ ∆ i/i -1
∆ n/1 ∆= 1
i=
∆=
n-1
, respectiv n -1 .
De remarcat că suma sporurilor absolute medii cu baza în lanţ este egală cu sporul absolut
mediu cu bază fixă:
n
∑ ∆ i/i -1 = ∆ n/1
i=1
• ritmul sau indicele mediu de creştere se determină, de regulă, ca medie geometrică a
indicilor de creştere cu baza în lanţ; însă, dacă ţinem cont de relaţia dintre indicele de creştere cu
baza fixă şi cei cu baza în lanţ, obţinem o formulă de calcul mai simplă:
n y tn
I = n -1 ∏ I i/i -1 = n -1 I n/1 = n -1
i=1 y t1

Trebuie subliniat că indicii unei serii cronologice, în particular indicii de creştere, se


calculează, de regulă, atunci când seriile se referă la fenomene care prezintă ritmuri de creştere
certe şi relativ constante. De aceea calcularea ritmului mediu de creştere presupune un examen
prealabil al seriei, pentru a verifica tendinţa crescătoare. Odată calculat, indicele mediu de
creştere constituie rata unei progresii geometrice cu acelaşi număr de termeni ca şi seria
analizată şi pentru care, dacă se cunoaşte primul termen, se pot calcula şi ceilalţi termeni:
i -1 n -1
y t1 , y t1 * I , ..., y t1 * I , ..., y t1 * I
Dacă ritmul de creştere este constant de-a lungul perioadei analizate, atunci termenii progresiei
se apropie mult, ca valoare numerică, de cei ai seriei originare (primul termen fiind oricum
identic).
Cunoaşterea indicilor de creştere este foarte utilă în analizele comparative ale unor
indicatori statistici, în perioade de timp diferite sau pentru ţări (grupe de ţări) diferite. Este şi
motivul pentru care indicii (în particular indicele de creştere) sunt uzuali în anuarele statistice
naţionale şi internaţionale.
Ritmul mediu de creştere este util, deasemenea, în prognoza fenomenelor la care se
referă seriile de timp, pe baza operaţiunii de extrapolare matematică.

6.3. Analiza seriilor cronologice

Din punctul de vedere al statisticii inductive analiza seriilor cronologice prezintă unele
dificultăţi. Acestea provin mai ales din faptul că valorile variabilei studiate, ordonate în funcţie
de timp, nu sunt întotdeauna independente; altfel spus, într-o serie cronologică termenii nu se
succed întotdeauna într-o manieră pur aleatoare, valoarea unui termen depinzând, mai mult sau
mai puţin, de valoarea termenului (termenilor) anterior(i).

98
Se spune că o serie cronologică este aleatoare atunci când probabilitatea ca
y y
variabila Y să capete valoarea t i+1 este independentă de valoarea anterioară t i
(Chadule,1974).
O serie ne-aleatoare se numeşte serie organizată şi analiza sa statistică prezintă unele aspecte
specifice.
În geografie se lucrează curent cu serii climatologice, hidrologice, demografice,
economice. Astfel de serii relevă, de regulă, o anumită organizare care se manifestă prin
existenţa unei autocorelaţii temporale43 între termenii seriei. Într-adevăr, debitul mediu al unui
râu într-o zi a anului nu poate fi independent de debitul mediu al zilei precedente; producţia de
oţel a României în 1995 este dependentă de potenţialul economic, deci de producţia de oţel, din
1994 ş.a.

6.3.1. Verificarea (testarea) caracterului aleator

Cel mai adesea simpla reprezentare grafică a seriei cronologice evidenţiază clar
caracterul aleator sau, dimpotrivă, organizat al acesteia: în cazul unei serii aleatoare nu putem
decela nici un fel de tendinţă de organizare în timp a valorilor, fie sub forma unortendinţe de
creştere/descreştere, fie sub forma unor oscilaţii cu caracter periodic, fie ambele.
Dacă examinarea graficului lasă loc unor incertitudini se poate apela la nişte procedee
numerice sau grafice de verificare a caracterului aleator, procedee care intră în categoria testelor
statistice.
Verificarea caracterului aleator este o primă etapă, obligatorie, în analiza unei serii
cronologice. Dacă nici unul din procedeele de verificare nu evidenţiază existenţa unei organizări
a seriei, atunci se conchide că aceasta este pur aleatoare şi este inutil să continuăm analiza.
Dacă, dimpotrivă, una sau mai multe relevă caracterul non-aleator, atunci analiza trebuie
continuată pentru a obţine, în final, un „model” al seriei care să exprime cât mai adecvat modul
şi gradul de organizare ale acesteia.
Unul dintre procedeele numerice cele mai simple pentru verificarea caracterului aleator
este testul von Neumann (Chadule,1974).
Se calculează mai întâi mărimea
n
2
∑ ( y ti+1 - y ti )
2 i=1
δ =
n-1
Dacă seria este aleatoare, atunci δ² constituie o bună estimare a dublului varianţei şirului (2σ²).
Se calculează deci şi varianţa σ². Dacă
2
δ
≈2
2
σ ,

43
yt i yt i+1
Autocorelaţia sau corelaţia serială a unei serii cronologice înseamnă corelaţie între termenii, vecini ( şi )
y y
sau separaţi de un număr oarecare de intervale de timp ( t i şi t i+k ), ai acesteia. Se pot calcula nişte coeficienţi de
corelaţie serială, analogi cu cel de corelaţie liniară simplă, lucrând cu şirurile de termeni decalaţi cu k unităţi de
timp (termeni). Formula de calcul este aceeaşi:
COV( y t i , y t i+k )
rk =
σ 2y • σ 2y
ti t i+ k

Valoarea lui rk este cuprinsă între -1 şi +1. Graficul având pe abscisă valorile lui k ăi pe ordonată valorile lui rk
poartă denumirea de corelogramă şi este util în detectarea eventualelor fluctuaţii periodice ale seriei cronologice
(valoarea lui k ce corespunde unui rk apropiat de -1 sau +1 reprezintă tocmai perioada oscilaţiei).

99
atunci seria poate fi considerată aleatoare.
Dacă, în urma aplicării testului von Neumann a rezultat caracterul non-aleator al seriei, o
eventuală tendinţă de creştere/scădere în timp a valorilor poate fi evidenţiată cu ajutorul testului
rangurilor al lui Spearman.
Acest test ia în considerare coeficientul de corelaţia a rangurilor (ρ) al lui Spearman (vezi §
5.4.1.). Calculat pentru un număr foarte mare de serii, ρ constituie o variabilă aleatoare care
1
σ2=
urmează o distribuţie normală având media x = 0 şi varianţa n-1.
Ipoteza nulă testată este aceea că nu există o tendinţă în cadrul seriei analizate. Aceasta ar
însemna că ρ nu depăşeşte limitele unui anumit interval situat de o parte şi de alta a mediei
x = 0 , interval care ar constitui astfel regiunea de acceptare a ipotezei nule H0. mărimea
acestui interval depinde, fireşte, de nivelul de semnificaţie α al testului: spre ex. pentru α=5%, ρ
trebuie să se afle în intervalul ( x + _1,96 * σ ). Întrucât x = 0 , coeficientul ρ nu mai trebuie
standardizat şi poate fi comparat direct cu valoarea 1,96σ. Dacă
IρI IρI
IρI ≥ 1,96 σ ⇔ ≥ 1,96 ⇔ ≥ 1,96
σ 1
n-1 ,
atunci i.n. H0 trebuie respinsă şi se poate conchide că în cadrul seriei există, cu o probabilitate
de 95%, o tendinţă al cărei sens (crescător sau descrescător) este indicat de semnul lui ρ.
Trebuie remarcat că testul rangurilor oferă concluzii corecte doar dacă tendinţa testată
este liniară. În cazul uneitendinţe neliniare, în speţă parabolică, aplicarea testului conduce la
acceptarea i.n., ceea ce constituie o eroare.

6.3.2. Descompunerea (filtrarea) seriilor cronologice

Examinarea atentă a graficelor unui număr mare de serii de timp ce redau fenomene
naturale sau social- economice ne va conduce,
mai curând sau mai târziu, la ideea că în cadrul
unei serii se pot deosebi mai multe feluri de
fluctuaţii (mişcări, variaţii) ale valorilor (vezi.
fig.6.1).
• tendinţa generală sau, cu un termen
englezesc încetăţenit şi în limba română, trendul
seriei (T). Este acea variaţie lentă, constantă şi de
lungă durată care indică direcţia generală de
evoluţie în timp a fenomenului studiat prin
intermediul seriei Figura 6.1. Componentele unei serii respective. Se mai numeşte
şi tendinţă seculară cronologice şi modalităţile de combinare a sau trend secular, deoarece
sensul mişcării se acestora. menţine o perioadă
îndelungată (zeci, sute de ani);
• variaţiile ciclice (C). Termenul „ciclice” desemnează aici acele fluctuaţii cvasi-
periodice ale căror amplitudini şi perioade sunt mai mult sau mai puţin neregulate (motiv pentru
care ele sunt incluse uneori în categoria variaţiilor întâmplătoare);
• variaţiile periodice (S) sunt acele variaţii care se repetă, aproximativ în aceeaşi formă,
la intervale de timp (perioade) egale. În funcţie de mărimea perioadei pot fi mişcări diurne (ex.
oscilaţiile diurne ale temperaturii aerului), semidiurne (ex. oscilaţiile mareice), lunare (ex.
variaţia consumului de alcool într-un cartier muncitoresc, în relaţie cu data fixă a chenzinei) sau,
cel mai adesea, sezoniere;

100
• variaţiile aleatoare sau reziduale (R), care se datorează unor factori cu acţiune
aleatoare (ex. calamităţi naturale, calamităţi politico-administrative etc.) şi care formează aşa-
numitul „zgomot” al unei serii cronologice.
Orice serie reală rezultă din combinarea, sau mai bine spus din compunerea acestor
mişcări, ca o consecinţă firească a acţiunii simultane a factorilor generatori specifici. Se
consideră că există două modele de combinare a celor patru componente, astfel încât să rezulte
elementele seriei reale:
a) modelul aditiv, care presupune că factorii generatori sunt independenţi unii de alţii, acţiunea
lor însumându-se pentru a da valorile seriei:
yt = T + C + S + R;
b) modelul multiplicativ, care presupune că factorii generatori interacţionează, astfel încât între
componenta T şi celelalte există o relaţie de proporţionalitate:
yt = T ´ C ´ S ´ R.
Descompunerea sau filtrarea unei serii cronologice constă în izolarea componentelor de
mai sus pentru a le putea studia mai bine şi, eventual, pentru a le elimina. Izolarea unei
componente se realizează prin metode de ajustare (engl. fitting) a seriei, adică de înlocuire a
valorilor reale cu nişte valori calculate cu ajutorul unor modele grafice sau analitice. Ajustarea
are ca rezultat netezirea (engl. smoothing) curbei corespunzătoare, care devine astfel mai
regulată şi evidenţiază componenta care trebuie studiată şi, eventual, eliminată . Izolarea şi
eliminarea componentelor unei serii de timp se face, de regulă, în ordinea descrescătoare a
perioadei mişcărilor corespunzătoare, având în vedere că variaţiile cu perioade mai mici se
„grefează” pe cele cu perioadă mai mare (vezi fig.6.1). Prin urmare descompunerea unei serii de
timp presupune, în principiu, următoarele secvenţe:
a) izolarea şi eliminarea trendului, operaţiuni în urma cărora modelul combinativ al
seriei devine:
yt-T=S+C+R (m. aditiv); yt/T=S´C´R (m. multiplicativ).
Atunci când componenta sezonieră este net predominantă, iar cele ciclică şi reziduală
sunt nesemnificative (C+R=0, sau C´R=1), se poate trece direct la izolarea şi eliminarea lui S,
rezultând astfel aşa-numita „serie desezonalizată ”:
yt-S=T (m. aditiv); yt/S=T (m. multiplicativ).
b) eliminarea trendului şi a componentei sezoniere, rezultând seria desezonalizată şi fără
tendinţă:
yt-T-S=C+R (m. aditiv); yt/(T´S)=C´R (m. multiplicativ).
c) eliminarea şi a componentei ciclice, rezultând seria în care se resimte doar influenţa
factorilor aleatori:
yt-T-S-C=R (m. aditiv); yt/(T´S´R)=R (m. multiplicativ).
Această schemă de succesiune a etapelor de descompunere are un caracter general şi ea
nu se aplică în toate cazurile. De exemplu, dacă termenii unei serii sunt nişte valori anuale, nu
se poate vorbi de o componentă sezonieră; dacă seria acoperă o perioadă scurtă de timp, atunci
componenta ciclică poate fi neglijată etc.

6.3.2.1. Analiza trendului

Analiza trendului presupune găsirea unui model grafic sau analitic cu ajutorul căruia să
se poată face o ajustare cât mai bună a seriei studiate. Există mai multe metode de stabilire a
trendului unei serii, metode care pot fi grupate în trei categorii: metode grafice, metode
mecanice şi metode analitice.

1° Metode grafice. Sunt metode care, aşa cum o spune denumirea lor, se aplică pe
graficul seriei de timp. Două sunt metodele grafice mai utilizate:

101
• metoda tendinţei vizuale (Trebici & colab.,1985) presupune trasarea „din ochi” a liniei
de tendinţă care aproximează cel mai bine alura generală a curbei empirice. Această metodă,
numită în literatura franceză courbe tracée à main levée, iar în cea anglo-saxonă free-hand
curve nu poate fi, prin natura sa, riguros ştiinţifică, întrucât aici factori subiectivi ca experienţa,
ochiul şi mâna sigure, intuiţia cercetătorului, sunt hotărâtori. Ajustarea pe această cale are un
caracter orientativ şi oferă nişte prime informaţii privind tendinţa generală şi alte particularităţi
ale seriei.
• metoda liniei mediane (Grisolet &
colab.,1962) înlătură subiectivismul metodei Figura 6.2. Determinareatendinţei prin metoda
liniei mediane (evoluţia producţiei de porumb la ha
anterioare. Ea constă (vezi fig.6.2) în unirea în România, 1938-1982).
maximelor succesive (M1, M2,...), respectiv a
minimelor succesive (m1, m2,...) ale curbei empirice;
pe verticalele ce trec prin punctele de maxim şi de
minim, unind cele două linii, se plasează puncte
situate la mijlocul distanţei dintre linia maximelor şi
linia minimelor; linia care uneşte aceste puncte
mediane este linia de tendinţă. Inconvenientul
acestei metode este că acordă o importanţă excesivă
valorilor maxime şi minime (care, prin natura lor,
sunt dependente în mai mare măsură de factorii
aleatori), linia de tendinţă putând căpăta un aspect
destul de neregulat.

2° Metode mecanice. Sunt metode care presupun aplicarea succesivă, în mod mecanic
şi pentru toţi termenii seriei, a unor formule de calcul prestabilite (Porojan, 1993).
• metoda sporului absolut mediu al seriei are la bază calculul acestui indice (vezi § 6.2),
cu ajutorul unei formule de forma:
y -y
∆ = tn t1
n-1
Prin adăugarea repetată a sporului mediu la primul termen se obţin valorile calculate (ajustate)
ce corespund termnilor al doilea, al treilea ş.a.m.d. Este clar că dreapta de tendinţă (vezi fig.6.3)
corespunde, aici, unei progresii aritmetice la care primul termen coincide cu primul termen al
seriei studiate, iar raţia este tocmai sporul absolut mediu. Termenii succesivi ai progresiei vor fi:
y t1 , y t1 + ∆ , y t1 + 2 * ∆ ,..., y t1 + (n - 1) * ∆
,
iar ecuaţia curbei de tendinţă (în acest caz, o dreaptă) care ajustează curba empirică va avea
forma:
y t = y t1 + ∆ * t (t = 0,1,2,..., n - 1)
Această relaţie poate fi utilizată, cu anumite precauţii, pentru prognoza seriei prin prelungirea
(extrapolarea) dreptei înafara intervalului de timp acoperit de seria reală.
Dezavantajul principal al acestei metode este acela că trendul calculat este determinat exclusiv
de primul şi ultimul termen ai seriei observate, influenţa termenilor intermediari fiind absentă.
De aceea ajustarea prin această metodă dă rezultate satisfăcătoare numai dacă ritmul de variaţie
(creştere sau descreştere) al valorilor seriei este relativ constant.
• metoda ritmului mediu lucrează cu primul termen al seriei şi ritmul mediu de creştere. În final
rezultă o progresie geometrică de raţie I ai cărei termeni succesivi vor fi:

102
2 n -1
Figura 6.3. Determinarea liniei de tendinţă prin
y t1 , y t1 * I , y t1 * I ,..., y t1 * I
şi căreia îi corespunde o ecuaţie a curbei de metoda sporului absolut mediu, respectiv a
tendinţă de forma: ritmului mediu al creşterii.
t
y t = y t1 * I (t = 0, 1, 2,..., n - 1)
şi această relaţie (curbă) poate fi folosită
pentru prognoza seriei de timp.
• metoda mediilor glisante (mobile,
alunecătoare) este o metodă larg utilizată
pentru identidicareatendinţei generale a unei
serii cronologice. Aplicarea sa presupune
calcularea mediilor glisante, adică medii ale
unui set prestabilit de termeni succesivi, set
care este deplasat (glisat) de-a lungul şirului
de bază astfel încât toţi termenii seriei să fie
incluşi, pe rând, în calcul. Iată , spre
exemplu, schema de calcul al mediilor
glisante de câte 5 termeni, pentru o serie cu n termeni:
Dacă seria are n termeni, iar setul de calcul include k termeni, atunci numărul total de medii
glisante este n-(k-1). De
remarcat că este bine ca k să
fie impar, pentru ca mediile
glisante să poată fi ataşate
momentelor de timp ce
corespund termenilor din seria
de bază.
După cum se observă din schema de mai sus, prin calculul mediilor glisante se pierde
întotdeauna informaţia oferită de k-1 termeni ai seriei originare, egal distribuiţi pe cele două
extremităţi ale acesteia. Deci cu cât k este mai mare, cu atât pierderea de informaţie este mai
importantă. În compensaţie, însă, creşte gradul de „netezire” a curbei de ajustare (vezi fig.6.4),
fapt ce constituie un avantaj atunci când se doreşte identificareatendinţei generale de variaţie.
Metoda mediilor glisante are dezavantajul de a nu putea surprinde riguros trendul, mai
ales dacă zgomotul seriei este puternic, curba
ajustată conservând (chiar dacă într-o formă
Figura 6.4. Creşterea gradului de ”netezire” a curbei
atenuată ) neregularităţile datorate acestuia. În odată cu lărgirea setului de valori pentru calculul
compensaţie, însă, prin faptul că urmăreşte mediilor glisante.
inflexiuniletendinţei reale, această metodă nu
maschează o eventuală tendinţă non-liniară
(cum face, de exemplu, metoda sporului
mediu).
În sfârşit, să remarcăm că metoda
mediilor glisante, ca şi celelalte metode de
ajustare prezentate până acum, nu permit
obţinerea unor relaţii analitice de tipul
ecuaţiilor matematice pentru exprimarea
trendului (cu excepţia „ecuaţiilor” ce derivă din
progresiile aritmetică şi geometrică, cum s-a

103
văzut). Prin aceasta valoarea lor predictivă este mai scăzută comparativ cu următoarea grupă de
metode, care se bazează pe una sau alta dintre numeroasele funcţii analitice puse la dispoziţie de
analiza matematică.

3° Metode analitice. Sunt metodele


prin aplicarea cărora se obţine o curbă ajustată Figura 6.5. Ajustarea variaţiei producţiei de
căreia îi corespunde o relaţie funcţională porumb la hectar (chintale) în România cu ajutorul
(ecuaţie) de tipul y=f(t). Avantajul principal al dreptei de tendinţă.
metodelor analitice este că ele iau în
considerare toţi termenii seriei analizate,
valorificând astfel la maximum informaţia
oferită de aceştia. În acelaşi timp, odată
obţinută ecuaţia curbei de tendinţă, aceasta
devine independentă de termenii seriei reale,
putând fi folosită în condiţii optime pentru
calcule de interpolare în vederea prognozei
seriei studiate.
Majoritatea procedeelor analitice de
ajustare au la bază modelul regresiei liniare
simple, aceasta doarece multe dintre ecuaţiile
modelelor neliniare pot fi liniarizate prin diferite metode. Deasemenea, calculul parametrilor
curbei de ajustare optimă se bazează, în majoritatea cazurilor, pe metoda celor mai mici pătrate
(vezi § 5.3.2.2.).
• ajustarea cu ajutorul dreptei de regresie liniară simplă. Relaţia analitică utilizată este
funcţia de gradul I (ecuaţia dreptei în plan): y=ax+b. ţinând cont că la seriile de timp rolul
variabilei independente îl joacă timpul, forma specifică a relaţiei devine yt = at + b (vezi
fig.6.5)
Calculele pentru obţinerea coeficienţilor a şi b pornind de la valorile observate ale celor două
variabile au fost prezentate pe larg în § 5.3.2.2. O altă variantă de calcul, mai potrivită atunci
când se lucrează cu calculatorul de buzunar şi seria nu este prea lungă, permite aflarea
coeficienţilor a şi b prin rezolvarea sistem ului de ecuaţii normale44.
După calcularea prealabilă a sumelor respective, rezolvarea sistemului se face prin metode
algebrice cum ar fi, de exemplu, cu ajutorul determinanţilor (vezi regula lui Cramer din Algebra
de clasa a XI-a):
| ∑ yt ∑ t|

|∑ t y | 2
t ∑ t 2 ∑ yt ∑ t - ∑ t yt ∑ t
a= =
2
| n ∑ t| n ∑t2 - ( ∑t )
|∑ t ∑ 2|
t

44
După cum se ştie, estimarea coeficienţilor a şi b prin metoda celor mai mici pătrate presupune minimizarea sumei
pătratelor abaterilor dintre valorile observate şi proiecţiile acestora pe dreapta de regresie:
n n

∑ ( y - yˆ ) = ∑ ( y - a - bx ) = minim
i=1
i i
i=1
i i

Valorile x şi y sunt cunoscute, suma de mai sus fiind o funcţie numai de a şi b; deci minimizarea se face anulând
derivatele parţiale în raport cu a, respectiv în raport cu b, operaţiune în urma căreia se obţin ecuaţiile normale:
n n

∑ ( y - a - bx ) = 0 ; ∑ x ( y - a - bx )= 0
i=1
i i
i=1
i i i

sau, după aplicarea proprietăţilor sumelor şi trecerea în membrul stâng a termenilor care îi conţin pe a şi b:
na + b ∑ t = ∑ y t a ∑ t + b ∑ t 2 = ∑ t yt
şi

104
| n ∑ y t|

|∑ t ∑ t y | n ∑ t yt - ∑ t ∑ yt
b= t =
2
| n ∑ t| n ∑t2 - ( ∑ t )
|∑ t ∑ 2|
t
• ajustarea cu ajutorul parabolei de gradul II, a cărei expresie analitică este funcţia de
gradul II:
yt = a + bt + ct²
Ajustarea cu ajutorul acestei curbe este potrivită
pentru a aproxima mişcarea acelor fenomene care în Figura 6.6. Ajustarea producţiilor de porumb
evoluţia lor temporală ating un maxim (minim), după la hectar cu ajutorul parabolei de gradul II.
care sensul de variaţie se inversează. De exemplu
producţia unui câmp petrolifer, care creşte după intrarea
în exploatare, prin adăugarea de noi sonde de extracţie,
până la un maxim, după care epuizarea zăcământului
duce la scăderea din ce în ce mai rapidă a producţiei.
Aceasta nu înseamnă, fireşte, că porţiuni ale parabolei nu
pot ajusta foarte bine variaţii monotone (crescătoare sa
descrescătoare) ale fenomenelor reale (vezi fig.6.6).
Coeficienţii a şi b se determină tot prin metoda
celor mai mici pătrate, ecuaţiile normale fiind în acest
caz:
na + b ∑ t + c ∑ t 2 = ∑ y t
a ∑ t + b ∑ t 2 + c ∑ t 3 = ∑ t yt

a ∑ t 2 + b ∑ t 3 + c ∑ t 4 = ∑ t 2 yt
Rezolvarea sistemului pentru aflarea necunoscutelor a,b şi c se face tot prin metode algebrice,
după calcularea prealabilă a coeficienţilor acestora (Σt, Σt², Σt³, Σt4; Σyt; Σt yt, Σt²yt).
• ajustarea cu ajutorul curbei exponenţiale. Relaţia analitică corespunzătoar este funcţia
exponenţială:
yt = aebt,
care poate fi liniarizată prin logaritmare:
ln(yt) = ln(a) + bt
În forma liniarizată variabilele cu care se lucrează sunt t şi ln(yt) şi ele vor intra în calcule pentru
aflarea coeficienţilor ln(a) şi b ai ecuaţiei de
regresie, prin metodele cunoscute. Curba de Figura 6.7. Ajustarea variaţiei producţiei de porumb la
regresie va apare ca o linie dreaptă pe un hectar cu ajutorul curbei exponenţiale.
grafic la care ordonata (axa lui yt) este în
scară logaritmică, iar abscisa (axa lui t) este
în scară aritmetică. Curba de ajustare
exponenţială va apare ca atare pe graficul
seriei cronologice originare (vezi fig.6.7);
pentru trasarea ei este nevoie să se
antilogaritmeze ln(a) pentru aflarea
coeficientului a din ecuaţia funcţiei
exponenţiale.

• ajustarea cu ajutorul funcţiei


putere:

105
yt = atb,
care prin logaritmare devine:
log(yt) = log(a) + blog(t)
Variabilele de lucru pentru aflarea lui log(a) şi b prin metoda celor mai mici pătrate sunt log(yt)
şi log(t). Curba de ajustare va apare sub
formă de linie dreaptă pe un grafic în scară
Figura 6.8. Ajustarea variaţiei producţiei de porumb la
dublu logaritmică; pentru reprezentarea ei pe hectar cu ajutorul funcţiei putere.
graficul seriei originare trebuie
antilogaritmată valoarea lui log(a) (vezi
fig.6.8).
• ajustarea cu ajutorul curbei
logistice (vezi fig.6.9), a cărei expresie
analitică este de forma:
k k
yt = a+bt yt =
1 + 10 , sau 1 + e a+bt
în care k este asimptota curbei (calculată pe
baza datelor de observaţii), 10 este (aici)
baza logaritmului zecimal, iar e este baza
logaritmului natural. Merită semnalat faptul
că forma curbei logistice este foarte
asemănătoare cu cea curbei normale integrale (cumulative).
Curba logistică şi-a găsit o largă aplicabilitate
în demografie şi ecologie, unde se ştie de multă
vreme că evoluţia numerică a unei populaţii,
indiferent de specie, se desfăşoară după o curbă
logistică. În legătură cu noţiunile de „creştere
economică zero”, „populaţie staţionară” ş.a., curba
logistică a pătruns în ultimele decenii şi în economie.
Indiferent de domeniul de aplicabilitate, ideea de
bază este că lumea terestră este o lume finită ca
spaţiu şi ca resurse; de aceea dezvoltarea unei
populaţii (în speţă, a populaţiei umane) şi a
activităţilor acesteia, chiar dacă păstrează o vreme un
Figura 6.9. Aspectul general al unei curbe
careacter exponenţial, va tinde mai curând sau mai logistice.
târziu spre o stare de stabilitate, plafonându-se în
apropierea unei asimptote superioare a cărei existenţă se datorează tocmai sus-amintitului
caracter finit al spaţiului şi resurselor.
Ajustarea cu ajutorul curbei logistice se poate face aplicand aşa-numita „metodă a
punctelor alese”: se aleg trei momente de timp echidistante x0 (la începutul perioadei), x1 (la
mijlocul ei) şi x2 (la sfârşit), valorile corespunzătoare ale seriei finnd notate respectiv y0, y1 şi y2;
numărul de unităţi de timp n care intervine în calculul coeficienţilor ecuaţiei este cel dintre
momentele x0 şi x1, sau x1 şi x2; cei trei coeficienţi se obţin astfel:
2
2 y0 y1 y 2 - y1 ( y0 + y 2 ) k - y0 1 y (k - y1 )
k=
2 a = log( ) b= [ log 0 ]
y0 y 2 - y1 y0 n y1(k - y0 )
; ;

Atunci când se procedează la ajustarea unei serii cronologice prin metode analitice,
principala problemă o constituie alegerea tipului de curbă care ajustează cel mai bine curba
empirică. Unele sugestii în acest sens sunt oferite de metodele grafice de ajustare, ca şi de
metoda mediilor glisante. Hotărâtoare, însă, rămâne experienţa şi intuiţia cercetătorului, bazate

106
pe o bună cunoaştere a domeniului în care se încadrează fenomenul studiat prin intermediul
seriei de timp.
În unele cazuri se constată că există două curbe care par să ajusteze la fel de bine seria
studiată. În acesată situaţie se va alege curba care dă cele mai mici pătrate ale abaterilor dintre
valorile observate şi cele calculate cu ajutorul relaţiilor analitice corespunzătoare. Dacă cele
două curbe fac parte din grupul funcţiilor liniarizabile, un criteriu de alegere îl poate constitui şi
coeficientul de corelaţie liniară simplă dintre cele două variabile transformate din ecuaţia
liniarizată .

6.3.2.2. Analiza variaţiilor sezoniere

Variaţiile sau fluctuaţiile sezoniere sunt acele variaţii care au un caracter periodic, ele
repetându-se cu o regularitate mai mare sau mai mică în interiorul seriei cronologice. Se numesc
„sezoniere” pentru că, într-adevăr, majoritatea fenomenelor şi proceselor care prezintă o
dinamică temporală sunt influenţate de succesiunea sezoanelor dintr-un an. Prin extindere, însă,
acest determinativ este utilizat şi pentru mişcări a căror perioadă este mai mică decât un an (zile,
săptămâni, luni, trimestre).
Analiza variaţiilor sezoniere prezintă un cert interes practic, dacă avem în vedere că
numeroase activităţi economice prezintă un ritm şi nişte particularităţi de desfăşurare care se
leagă clar de succesiunea sezoanelor - de ex. activităţile agricole, transporturile, industria
energiei electrice etc.
Separarea componentei sezoniere a unei serii cronologice urmăreşte un dublu scop:
- pe de o parte, identificarea parametrilor fluctuaţiilor sezoniere (amplitudine, perioadă,
frecvenţă), precum şi găsirea unor indici adimensionali care să exprime variaţia sezonieră
indiferent de ordinul de mărime al valorilor seriei şi de numărul de perioade (ani) incluse în
aceasta, facilitează comparaţiile între serii diferite, acest lucru având consecinăe de ordin
ştiinţific şi practic evidente;
- pe de altă parte, prin eliminarea componentei sezoniere, eventual şi a trendului,
fenomenul redat de seria cronologică poate fi studiat ca fenomen de masă (aleator), cu metodele
statisticii inductive.
Analiza variaţiilor sezoniere comportă, de regulă, trei etape: punerea în evidenţă a
oscilaţiilor de acest tip, calculul indicilor sezonieri şi desezonalizarea seriei (eliminarea
componentei sezoniere).
1° Punerea în evidenţă a variaţiilor sezoniere. De regulă graficul unei serii de timp
evidenţiază cu suficientă claritate existenţa unei componente sezoniere. Dacă sunt dubii,
existenţa unei asemenea componente poate fi testată.
Pentru a ilustra modul de lucru în analiza variaţiilor sezoniere vom lua un exemplu din
sociologie (vezi tabelul de mai jos).
Tabel nr.6.1. Numărul lunar de căsătorii în mediul rural, în România, în intervalul 1957-1966 (10 ani).
Luna I II III IV V VI VII VIII IX X XI XII Total Media
Anul

1957 13583 21167 8750 5335 7458 6705 5504 6025 10627 17124 18842 10442 131562 10963

1958 16266 21867 7538 6908 9205 6612 5908 6367 10162 17590 17519 9126 135068 11256

1959 13071 17395 12791 5361 6492 7238 5138 5456 8775 15020 14976 8932 119845 9987

1960 13569 21212 7561 6013 7821 6085 5340 5522 7723 13373 14117 9096 117432 9786

1961 11358 15528 7470 6824 7372 5169 4617 4876 7685 12444 13479 7803 104625 8719

1962 9589 14163 10386 6672 6714 5953 5130 5115 7280 12154 13716 7625 104497 8708

1963 9707 13533 6902 6595 7226 5137 4464 5116 6814 11403 12685 6771 96353 8029

1964 8810 13294 10401 5865 5355 5029 5689 5296 6474 11455 10613 6313 93594 7799

1965 8461 13111 7037 4954 5464 4827 4625 4947 6401 11527 11043 6844 89241 7437

1966 8760 11155 5421 5564 6114 4387 4872 4996 6540 11596 10197 8286 87888 7324

Total 113174 162425 84257 60091 69221 56142 50287 53716 78681 133686 137187 81238 1080105

Media 11317 16243 8426 6009 6922 5714 5129 5372 7848 13369 13719 8124 9016
Sursa: C.Moineagu, I.Negură, V.Urseanu, Statistica, Ed.Şt.E., 1976, p.302.

107
Graficul acestei serii (vezi fig.6.10) evidenţiază cu Figura 6.10. Variaţia numărului lunar de căsătorii
suficientă claritate existenţa unei componente în mediul rural în România, 1957-1966.
sezoniere, explicabilă prin tradiţiile nupţiale în
mediul rural (nunţile se fac de regulă toamna, după
strângerea recoltei, sau după sărbătorile de iarnă).
Verificarea impresiei vizuale se poate face prin
calcularea şi reprezentarea grafică a mediilor
lunare multianuale, sau prin aplicarea testului
empiric al lui Šyškin (Şîşkin).
• media lunară multianuală a fiecărei luni
se calculează ca medie aritmetică a valorilor
aferente lunii respective din toţi anii seriei (vezi
ultimele două linii din tabelul de mai sus). Prin
operaţiunea de mediere se înlătură, în bună parte, influenţa factorilor întâmplători, astfel încât
mediile manifestă o mai mare stabilitate în timp. Pentru exemplul nostru reprezentarea grafică a
acestor medii (vezi fig.6.11) confirmă existenţa unei componente sezoniere bine conturate.

• testul Šyškin constă în calcularea, pentru fiecare termen (lună) din serie, raportul între
valoarea lunii respective şi media aritmetică a celor două luni care o încadrează:
y ti
s=
y ti-1 + y ti+1
2
După aceea, pentru fiecare lună a anului se calculează o medie multianuală a rapoartelor
aferente lunii respective; dacă această medie diferă semnificativ de 1, atunci luna respectivă
contribuie semnificativ la apariţia unei componente sezoniere în seria de bază.
Pentru exemplul nostru, mediile lunare multianuale ale rapoartelor sunt redate în ultima
linie a tabelului 6.2. Se observă că toate valorile
rapoartelor s sunt semnificativ diferite de 1 Figura 6.11. Variaţia anuală a numărului lunar mediu
(poate cu excepţia lunilor iunie şi iulie), ceea ce multianual de căsătorii în mediul rural.
înseamnă că avem de-a face cu o componentă
sezonieră bine conturată .
2° Calculul indicilor (coeficienţilor)
sezonieri. Indicii sezonieri sunt nişte mărimi
care exprimă contribuţia fiecărei unităţi de timp
(luni) din perioada de bază (an) la apariţia unei
componente sezoniere în cadrul seriei. De regulă
sunt exprimaţi sub formă de proporţii (absolute
sau procentuale).

108
• diferenţa algebrică dintre media lunară generală (adică media aritmetică a tuturor
termenilor seriei) şi media multianuală a fiecărei luni. Pentru exemplul nostru mediile lunare
multianuale şi media generală sunt trecute în ultima linie a tabelului 6.1. Diferenţele algebrice,
exprimate în cifre absolute şi
Tabel nr.6.2. Rapoartele yi/[(yi-1+yi+1)/2] pentru aplicarea testului Šyškin.
în procente din media Luna I II III IV V VI VII VIII IX X XI XII
generală, apar în tabelul 6.3. Anul
1957 0.89 0.66 0.66 1.24 1.03 0.86 0.75 0.92 1.16 1.37 0.59
Diferenţele exprimate în cifre 1958 1.01 1.84 0.52 0.82 1.36 0.87 0.91 0.79 0.85 1.27 1.31 0.60
absolute nu pot servi la 1959 0.98 1.34 1.12 0.55 1.03 1.24 0.81 0.78 0.86 1.26 1.25 0.62

efectuare de comparaţii între 1960 0.90 2.01 0.55 0.78 1.29 0.92 0.92 0.84 0.82 1.22 1.26 0.71
1961 0.92 1.65 0.67 0.92 1.23 0.86 0.92 0.79 0.89 1.18 1.33 0.68
serii diferite, în schimb pot fi 1962 0.87 1.42 0.99 0.78 1.06 1.00 0.93 0.82 0.84 1.16 1.39 0.65
folosite la desezonalizarea 1963 0.92 1.63 0.68 0.93 1.23 0.88 0.87 0.91 0.82 1.17 1.39 0.63
seriei analizate (vezi punctul 1964 0.88 1.38 1.08 0.74 0.98 0.91 1.10 0.87 0.77 1.34 1.19 0.66

(3°) al acestui paragraf). 1965 0.87 1.69 0.78 0.79 1.12 0.96 0.94 0.90 0.78 1.32 1.20 0.69
1966 0.97 1.57 0.65 0.96 1.23 0.80 1.04 0.88 0.79 1.39 1.030
• indici sezonieri Media 0.92 1.54 0.77 0.80 1.18 0.95 0.93 0.83 0.83 1.25 1.27 0.65
obţinuţi prin metoda
rapoartelor la tendinţă.
Această metodă implică mai întîi calcularea trendului liniar al seriei, după care se calculează
ˆ
rapoartele dintre valorile y ale seriei şi valorile y t calculate cu ajutorul ecuaţiei de regresie.
t
Mediile multianuale ale acestor rapoarte, pentru fiecare lună în parte, constituie indicii sezonieri
ai lunilor respective. De remarcat că în locul mediei aritmetice poate fi reţinută ca indice
sezonier mediana şirului de rapoarte aferent lunii de calcul. În exemplul nostru ecuaţia trendului
liniar, ai cărei coeficienţi a şi b sunt calculaţi după metodele cunoscute, este: yt = 11344,14 -
38,484t. După cum se observă, coeficientul de regresie a este negativ, ceea ce înseamnă că
există o tendinţă de scădere în timp a numărului lunar de căsătorii şi anume în ritmul de 38,484
căsătorii/lună.

Ecuaţia de mai sus o folosim pentru a calcula numărul „teoretic” de căsătorii pentru
fiecare din cele 120
Tabel nr.6.3. Diferenţele algebrice dintre media generală şi mediile lunare de luni ale seriei.
multianuale ale numărului lunar de căsătorii. Rezultatele
Diferenţa
Luna I II III IV V VI VII VIII IX X XI XII calculelor pentru
absolută -2301 -7227 +590 +3007 +2094 +3302 +3887 +3644 +1168 -4353 -4073 +892 obţinerea indicilor
relativă -25.52 -80.16 +6.54 +33.35 +23.23 +36.62 +43.11 +40.42 +12.95 -48.28 -45.18 +9.89 sezonieri prin
această metodă sunt
Tabel nr.6.4. Rapoartele dintre valorile observate ale seriei (v.tab.6.1) şi cele trecute în tabelul 6.4.
calculate cu ajutorul ecuaţiei dreptei de tendinţă.
Anul
Luna I II III IV V VI VII VIII IX X XI XII • indici
1957 1.20 1.88 0.78 0.48 0.67 0.60 0.50 0.55 0.97 1.56 1.73 0.96
sezonieri obţinuţi
prin metoda
1958 1.50 2.02 0.70 0.64 0.86 0.62 0.56 0.60 0.96 1.68 1.68 0.88
lanţurilor de
1959 1.26 1.68 1.24 0.52 0.63 0.71 0.51 0.54 0.87 1.50 1.50 0.90
rapoarte. Este
1960 1.37 2.15 0.77 0.61 0.80 0.63 0.55 0.57 0.80 1.40 1.48 0.96
metoda cea mai
1961 1.20 1.65 0.80 0.73 0.79 0.56 0.50 0.53 0.84 1.37 1.49 0.86
sigură pentru
1962 1.07 1.58 1.16 0.75 0.76 0.68 0.59 0.59 0.84 1.41 1.59 0.89
estimarea
1963 1.14 1.59 0.82 0.78 0.86 0.62 0.54 0.62 0.83 1.39 1.56 0.83 coeficienţilor
1964 1.09 1.65 1.30 0.74 0.68 0.64 0.73 0.68 0.83 1.48 1.38 0.83 sezonieri, însă este
1965 1.11 1.73 0.93 0.66 0.73 0.65 0.63 0.67 0.88 1.59 1.53 0.95 destul de laborioasă.
1966 1.23 1.57 0.77 0.79 0.87 0.63 0.70 0.73 0.96 1.70 1.51 1.23 Se lucrează,
Media 1.22 1.75 0.93 0.67 0.77 0.63 0.58 0.61 0.88 1.51 1.55 0.93 de fapt, cu indicii

109
(ritmurile) de creştere ale seriei cronologice.
Tabel nr.6.5. Indicii de creştere cu baza în lanţ ai seriei din tab.nr.6.1. Se calculează
Luna I II III IV V VI VII VIII IX X XI XII
mai întîi ritmurile de
Anul creştere cu baza în
1957 0.00 1.56 0.41 0.61 1.40 0.90 0.82 1.09 1.76 1.61 1.10 0.55 lanţ, pentru fiecare din
1958 1.56 1.34 0.34 0.92 1.33 0.72 0.89 1.08 1.60 1.73 1.00 0.52 termenii seriei:
1959 1.43 1.33 0.74 0.42 1.21 1.11 0.71 1.06 1.61 1.71 1.00 0.60 y ti
1960 1.52 1.56 0.36 0.80 1.30 0.78 0.88 1.03 1.40 1.73 1.06 0.64
I i/i -1 =
y ti-1
1961 1.25 1.37 0.48 0.91 1.08 0.70 0.89 1.06 1.58 1.62 1.08 0.58
obţinându-se astfel n-1
1962 1.23 1.48 0.73 0.64 1.01 0.89 0.86 1.00 1.42 1.67 1.13 0.56
indici. Pentru fiecare
1963 1.27 1.39 0.51 0.96 1.10 0.71 0.87 1.15 1.33 1.67 1.11 0.53
din lunile anului se
1964 1.30 1.51 0.78 0.56 0.91 0.94 1.13 0.93 1.22 1.77 0.93 0.59
calculează media
1965 1.34 1.55 0.54 0.70 1.10 0.88 0.96 1.07 1.29 1.80 0.96 0.62
multianuală sau
1966 1.28 1.27 0.49 1.03 1.10 0.72 1.11 1.03 1.31 1.77 0.88 0.81 mediana şirului de
Media 1.35 1.44 0.54 0.76 1.15 0.84 0.91 1.05 1.45 1.71 1.03 0.60 indici aferent (vezi
tabelul 6.5.). După
aceea pentru fiacare lună, utilizând media (sau mediana) se calculează ritmul de creştere cu bază
fixă, baza fiind în acest caz luna ianuarie. Aici se utilizează relaţia dintre indicele de creştere cu
bază fixă şi cei cu baza în lanţ (vezi § 6.2.), conform căreia, la seriile de intervale, indicele de
creştere cu bază fixă a unui termen este egal cu produsul indicilor de creştere cu baza în lanţ ai
tuturor termenilor anteriori (inclusiv al celui în cauză). Vom avea, deci, şirul de indici cu bază
fixă:
Ifebr./ian. = 1,44 (în mod logic, ar trebui ca Iian./ian.=1);
Imart./ian. = Ifebr./ian.´Imart./febr. = 1,44´0,54 = 0,78;
Iapr./ian. = Ifebr./ian.´Imart./febr.´Iapr./mart. = 1,44´0,54´0,76 = 0,78´0,76 = 0,59;
După cum se observă, pentru a nu rescrie de fiecare dată şirul indicilor cu baza în lanţ ai lunilor
precedente, putem prelua indicele cu bază fixă al lunii precedente, pe care îl înmulţim cu
indicele cu baza în lanţ al lunii curente (calculat ca medie sau mediană - vezi mai sus). Deci:
Imai/ian. = Iapr./ian.´Imai/apr. = 0,59´1,15 = 0,68;
Iiun./ian. = Imai/ian.´Iiun./mai = 0,68´0,84 = 0,57;
Iiul./ian. = Iiun./ian.´Iiul./iun. = 0,57´0,91 = 0,52;
Iaug./ian. = Iiul./ian.´Iaug./iul. = 0,52´1,05 = 0,55;
Isept./ian. = Iaug./ian.´Isept./aug. = 0,55´1,45 = 0,80;
Ioct./ian. = Isept./ian.´Ioct./sept. = 0,80´1,71 = 1,34;
Inov./ian. = Ioct./ian.´Inov./oct. = 1,34´1,03 = 1,38;
Idec./ian. = Inov./ian.´Idec./nov. = 1,38´0,60 = 0,83.
Aşa cum s-a menţionat mai sus, în mod logic ar trebui ca Iian./ian. Să fie egal cu 1. Dacă, însă, îl
calculăm după aceeaşi regulă ca şi ceeilalţi indici, atunci obţinem:
Iian./ian. = Idec./ian.´Iian./dec. = 0,83´1,35 = 1,12.
Diferenţa de la 1 la 1,12 se datorează influenţei trendului şi a componentei aleatoare
(„zgomotului”). Pentru scopurile analizei se reţine pentru Iian./ian/ valoarea 1, dar se corectează în
mod corespunzător ceilalţi 11 indici, obţinându-se astfel aşa-numiţii indici intermediari. În
exemplul nostru, indicii se micăorează în aceeaşi proporţie ca şi indicele pentru ianuarie (deci
cu 12% din valoarea lor) şi obţinem şirul indicilor intermediari:
1 1,27 0,67 0,52 0,60 0,50 0,46 0,48 0,70 1,18 1,21 0,73
Aceşti indici se numesc „intermediari” deoarece trebuie verificată condiţia ca media lor
aritmetică să fie egală cu 1; dacă nu este aşa, atunci fiecare din cei 12 coeficienţi intermediari se
împarte la media lor aritmetică şi se obţin astfel indicii definitivi.

110
În exemplul nostru media celor 12 coeficienţi intermediari este 0,76. Împărţim, deci,
fiecare indice la 0,76 şi obţinem cei 12 indici definitivi:

Luna I II III IV V VI VII VIII IX X XI XII


Anul
i.sezonier 1,31 1,67 0,88 0,68 0,79 0,66 0,60 0,63 0,92 1,55 1,59 0,96

Dacă vom compara aceşti indici cu cei obţinuţi prin metoda rapoartelor la tendinţă (tab.
6.4.) vom constata că rezultatele celor două metode sunt destul de apropiate. Se observă, totuşi,
că, excepţie făcând lunile februarie şi martie, indicii obţinuţi prin metoda rapoartelor la tendinţă
sunt ceva mai mici decât cei obţinuţi prin metoda lanţurilor de rapoarte. Acest lucru se
datorează faptului că trendul seriei originare nu este liniar, ci este uşor exponenţial negativ (vezi
fig.6.10).

3° Desezonalizarea seriilor cronologice. Odată calculaţi indicii sezonieri pentru fiecare


unitate de timp din perioada de bază a mişcării sezoniere (în cazul nostru, pentru fiecare lună
din an), eliminarea componentei sezoniere este relativ simplă. În funcţie de tipul indicelui
sezonier calculat, desezonalizarea se realizează astfel:
• dacă indicele este exprimat în valori absolute, cum sunt diferenţele algebrice absolute
dintre media generală şi mediile lunare multianuale, atunci desezonalizarea se face însumând
algebric fiecare termen al seriei originare cu diferenţa corespunzătoare lunii din care face parte
termenul respectiv.
Spre exemplu, numărul de căsătorii din luna decembrie 1958 este 9126; media
multianuală a lunii decembrie este de 8124 căsătorii; media generală a seriei este de 9016
căsătorii (vezi tab. 6.1.); diferenţa dintre media generală şi media multianuală a lunii decembrie:
9016-8124 = +892 (vezi tab. 6.3.). Valoarea desezonalizată a lunii decembrie 1958 va fi:
9126+(+892) = 10018 căsătorii.
• dacă indicele este obţinut ca un raport, deci este exprimat sub formă de proporţie,
atunci desezonalizarea se face prin împărţirea fiecărui termen al seriei originare la indicele
sezonier al lunii aferente.
De exemplu, numărul de căsătorii din luna ianuarie 1957 a fost 13583 (vezi tab. 6.1.);
indicele sezonier al lunii ianuarie, calculat prin metoda lanţurilor de rapoarte, este 1,31 (vezi
tabelul indicilor sezonieri). Valoarea desezonalizată a lunii ianuarie 1957 va fi:
13583/1,31 = 10368 căsătorii.
*
* *
Analiza unei serii cronologice constituie, statistic vorbind, o întreprindere destul de
dificilă. şi aceasta nu numai ca volum de muncă pretins de aplicarea metodelor specifice de
analiză, ci şi legat de intuiţia şi experienţa pretinse cercetătorului, de interpretarea rezultatelor
analizei, de fiabilitatea prognozelor care, în mod normal, finalizează o asemenea analiză. De
aceea enumerăm, în final, câteva aspecte de ordin practic ce trebuie avute în vedere atunci când
se procedează la studiul unei serii cronologice (Chadule, 1974):
• seria studiată trebuie să fie suficent de lungă. O serie cu mai puţin de 30 de termeni nu
se pretează, practic, la o analiză concluzivă pentru fenomenul studiat;

111
Fig.nr.6.12. Organigrama pentru analiza unei serii cronologice.

• analiza unei serii de


timp presupune parcurgerea
obligatorie a unor etape de
lucru ce se succed într-o
anumită ordine (vezi
organigrama din fig.6.12),
aceasta pentru a evita nişte
erori grosiere în interpretarea
rezultatelor;
• verificarea
caracterului aleator este foarte
importantă: trebuie avut în
vedere faptul că testele uzuale
nu sunt prea puternice, astfel
încât nu strică nişte precauţii
suplimentare la luarea
deciziei;
• extrapolarea în viitor
atendinţelor observate este o
problemă extrem de delicată ,
care necesită informaţii
suplimentare din domenii
care, aparent, nu au nici o legătură cu fenomenul studiat. Trebuie ţinut minte că o prognoză este
cu atât mai precisă, cu cât intervalul de prognoză este mai scurt; în plus, modelul adoptat pentru
tendinţa generală a seriei trebuie verificat prin aşa-numita „retroprognoză”, adică extrapolarea
tendinţei observate pentru un interval de timp situat înaintea celui acoperit de seria studiată
(numai că în acest caz valorile calculate pot fi comparate cu cele observate în intervalul
respectiv).

112
BIBLIOGRAFIE

ABLER, R., ADAMS, J. S., GOULD, P. (1971) - Spatial Organization. The Geographer's View
of the World, Prentice Hall, London.
BEGUIN, H. (1979) - Méthodes d'analyse géographique quantitative, Librairies Techniques
(LITEC), Paris.
CALOT, G. (1973) - Cours de Statistique descriptive, Dunod, Paris.
CHADULE (group) (1974) - Iniation aux méthodes statistiques en géographie, Masson, Paris.
CHAPOT, M., DAUPHINÉ, A. şi alţii (1977) - L'Analyse spatiale. Forme et validité des
démarches nouvelles en géographie, Cahier de l'IDRESS, Paris, février.
GREGORY, S. (1968) - Statistical Methods and the Geographer, second edition, Longman,
London.
GRISOLET, H., GUILMET, B., ARLÊRY, R. (1973) - Climatologie. Méthodes et pratiques,
Gauthier-Villars, Paris.
JOHNSTON, R.J. (1978) - Multivariate Statistical Analysis in Geography. A Primer on the
General Liniar Model, Longman.
POROJAN, D. (1993) - Statistica şi teoria sondajului, Casa de Editură şi Presă „Şansa” SRL,
Bucureşti.
RACINE, J.B., REYMOND, H. (1973) - L'Analyse quantitative en géographie, Presses
Universitaires de France, Paris.
SANDERS, L. (1989) - L'Analyse statistique des données en géographie, Alidade - G.I.P.
RECLUS, Montpellier.
SPIEGEL, M. R. (1972) - Théorie et applications de la statistique, Série SCHAUM, McGraw
Hill, Paris.
TIDSWELL, W. V., BARKER, S. M. (1971) - Quantitative Methods. An Approach to Socio-
Economic Geography, University Tutorial Press LTD, London.
TREBICI, V. (coord.) (1985) - Mică enciclopedie de Statistică, Ed. ştiinţifică şi
Enciclopedică, Bucureşti.

113
Anexa I
VALORILE FUNCŢIEI DE REPARTIŢIE A DISTRIBUŢIEI NORMALE NORMATE

u ,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09
0,0 5000 5040 5080 5120 5160 5199 5239 5279 5319 5359
0,1 5398 5438 5478 5517 5557 5596 5636 5675 5714 5735
0,2 5793 5832 5871 5910 5948 5987 6026 6064 6103 6141
0,3 6179 6217 6255 6293 6331 6368 6406 6443 6480 6517
0,4 6554 6591 6628 6664 6700 6736 6772 6808 6844 6879
0,5 6915 6950 6985 7019 7054 7088 7123 7157 7190 7224
0,6 7257 7291 7324 7357 7380 7422 7454 7486 7517 7549
0,7 7580 7611 7642 7673 7704 7734 7764 7794 7823 7852
0,8 7881 7910 7939 7967 7995 8023 8051 8078 8106 8133
0,9 8159 8186 8212 8238 8264 8289 8315 8340 8365 8389
1,0 8413 8438 8461 8485 8508 8531 8554 8577 8599 8621
1,1 8643 8665 8686 8708 8729 8749 8770 8790 8810 8830
1,2 8849 8869 8888 8907 8925 8944 8962 8980 8997 9015
1,3 9032 9049 9066 9082 9099 9115 9131 9147 9162 9177
1,4 9192 9207 9222 9236 9251 9265 9279 9292 9306 9319
1,5 9332 9345 9357 9370 9382 9394 9406 9418 9429 9441
1,6 9452 9463 9474 9484 9495 9505 9515 9525 9535 9545
1,7 9554 9564 9573 9582 9591 9599 9608 9616 9625 9633
1,8 9641 9649 9656 9664 9671 9678 9686 9693 9699 9706
1,9 9713 9719 9726 9732 9738 9744 9750 9756 9761 9767
2,0 9772 9778 9783 9788 9793 9798 9803 9808 9812 9817
2,1 9821 9826 9830 9834 9838 9842 9846 9850 9854 9857
2,2 9861 9864 9868 9871 9875 9878 9881 9884 9887 9890
2,3 9893 9896 9898 9901 9904 9906 9909 9911 9913 9916
2,4 9918 9920 9922 9925 9927 9929 9931 9932 9934 9936
2,5 9938 9940 9941 9943 9945 9946 9948 9949 9951 9952
2,6 9953 9955 9956 9957 9959 9960 9961 9962 9963 9964
2,7 9965 9966 9967 9968 9969 9970 9971 9972 9973 9974
2,8 9974 9975 9976 9977 9977 9978 9979 9979 9980 9981
2,9 9981 9982 9982 9983 9984 9984 9985 9985 9986 9986
3,0 9987 9987 9987 9988 9988 9989 9989 9989 9990 9990
3,1 9990 9991 9991 9991 9992 9992 9992 9992 9993 9993
3,2 9993 9993 9994 9994 9994 9994 9994 9995 9995 9995

Din tabel se poate afla probabilitatea (înmulţită cu 10.000) unei valori mai mici, sau cel mult egale cu u (deci o probabilitate cumulată
ascendent). Utilizarea tabelului presupune standardizarea prealabilă a valorii x: (x-)/σ.
Exemple de utilizare:
• pentru u = +0,52, probabilitatea f(u) = 0,6950.
• pentru u = -0,52, probabilitatea f(u) = 1 - 0,6950 = 0,3050.
• pentru f(u) = 0,9750, u = 1,96, deci x = 1,96σ + X .
• pentru f(u) = 0,3527 (nu apare în tabel), 1 - f(u) = 0,6473, iar u ≈ -0,38; deci x = -0,58σ + X

114
Anexa II
SUPRAFEŢE SUB CURBA NORMALĂ

z ,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09
0,0 0000 0040 0080 0120 0159 0199 0239 0279 0319 0359
0,1 0398 0438 0178 0517 0557 0596 0636 0675 0714 0753
0,2 0793 0832 0871 0910 0948 0987 1026 1064 1103 1141
0,3 1179 1217 1255 1293 1331 1368 1406 1443 1480 1517
0,4 1554 1591 1628 1664 1700 1736 1772 1808 1844 1879
0,5 1915 1950 1985 2019 2054 2088 2123 2157 2190 2224
0,6 2257 2291 2324 2357 2389 2422 2454 2486 2518 2549
0,7 2580 2612 2642 2673 2704 2734 2764 2794 2823 2852
0,8 2881 2910 2939 2967 2995 3023 3051 3078 3106 3133
0,9 3159 3186 3212 3238 3264 3289 3315 3340 3365 3389
1,0 3413 3438 3461 3485 3508 3531 3554 3577 3599 3621
1,1 3643 3665 3686 3718 3729 3749 3770 3790 3810 3830
1,2 3849 3869 3888 3907 3925 3944 3962 6980 3997 4015
1,3 4032 4049 4066 4083 4099 4115 4131 4147 4162 4177
1,4 4192 4207 4222 4236 4251 4265 4279 4292 4306 4319
1,5 4332 4345 4357 4370 4382 4394 4406 4418 4430 4441
1,6 4452 4463 4474 4485 4495 4505 4515 4525 4535 4545
1,7 4554 4564 4573 4582 4591 4599 4608 4616 4625 4633
1,8 4641 4649 4656 4664 4671 4678 4686 4693 4699 4706
1,9 4613 4719 4726 4732 4738 4744 4750 4758 4762 4767
2,0 4773 4778 4783 4788 4793 4798 4803 4808 4812 4817
2,1 4821 4826 4830 4834 4838 4842 4846 4850 4854 4857
2,2 4861 4865 4808 4871 4875 4878 4881 4884 4887 4890
2,3 4893 4896 4898 4901 4904 4906 4909 4911 4913 4916
2,4 4918 4920 4922 4925 4927 4929 4931 4932 4934 4936
2,5 4938 4940 4941 4943 4945 4946 4948 4949 4951 4952
2,6 4953 4955 4956 4957 4959 4960 4961 4962 4963 4964
2,7 4965 4966 4967 4968 4969 4970 4971 4972 4973 4974
2,8 4974 4975 4976 4977 4977 4978 4979 4980 4980 4981
2,9 4981 4982 4983 4984 4984 4984 4985 4985 4986 4986
3,0 4986 4987 4987 4988 4988 4988 4989 4989 4989 4990
3,1 4990 4991 4991 4991 4992 4992 4992 4992 4993 4993

În tabel apar suprafeţele (probabilităţile) sub curba normală, înmulţite cu 10.000,


care corespund distanţelor, exprimate în număr de devIaşii standard (zσ), dintre medie şi o
valoare dată x (este necesară, deci, standardizarea prealabilă a acesteia din urmă).
Exemple de utilizare:
• pentru z = 1,45, suprafaţa cuprinsă între medie şi x este 0,4265 = 42,65%, x fiind situat în
dreapta (deci este mai mare) faţă de medie.
• pentru z = -1,45, suprafaţa este aceeaşi, dar x este situat în stânga (deci este mai mic) faţă de
medie.
• pentru un interval care se extinde de o parte şi de alta a mediei, până la o distanţă zσ,
suprafaţa corespunzătoare este dublul valorii citite în tabel.

115
Anexa III
VALORILE CRITICE ALE DISTRIBUŢIEI „t”
PENTRU DIFERITE NIVELE DE SEMNIFICAŢI E

Nivelul de semnificaţie pentru testul unilateral

g.l.
¯
0,15 0,10 0,05 0,025 0,01 0,005 0,0025 0,0005
Nivelul de semnificaţie pentru testul bilateral
0,30 0,20 0,10 0,05 0,02 0,01 0,005 0,001
2 1,061 1,886 2,920 4,303 6,965 9,925 14,089 31,598
3 0,978 1,638 2,353 3,182 4,541 5,481 7,453 12,941
4 0,941 1,533 2,132 2,776 3,747 4,604 5,598 8,610
5 0,920 1,476 2,015 2,571 3,365 4,032 4,773 6,859
6 0,906 1,440 1,943 2,447 3,143 3,707 4,317 5,959
7 0,896 1,415 1,895 2,365 2,998 3,499 4,029 5,405
8 0,889 1,397 1,860 2,306 2,896 3,355 3,832 5,041
9 0,883 1,383 1,833 2,262 2,821 3,250 3,690 4,781
10 0,879 1,372 1,812 2,228 2,764 3,169 3,581 4,587
11 0,876 1,363 1,796 2,201 2,718 3,106 3,497 4,437
12 0,873 1,356 1,782 2,179 2,681 3,055 3,428 4,318
13 0,870 1,350 1,771 2,160 2,650 3,012 3,372 4,221
14 0,868 1,345 1,761 2,145 2,624 2,977 3,326 4,140
15 0,866 1,341 1,753 2,131 2,602 2,947 3,286 4,073
16 0,865 1,337 1,746 2,120 2,583 2,921 3,252 4,015
17 0,863 1,333 1,740 2,110 2,567 2,898 3,222 3,965
18 0,862 1,330 1,734 2,101 2,552 2,878 3,197 3,922
19 0,861 1,328 1,729 2,093 2,539 2,861 3,174 3,883
20 0,860 1,325 1,725 2,086 2,528 2,845 3,153 3,850
21 0,859 1,323 1,721 2,080 2,518 2,831 3,135 3,819
22 0,858 1,321 1,717 2,074 2,508 2,819 3,119 3,792
23 0,858 1,319 1,714 2,069 2,500 2,807 3,104 3,767
24 0,857 1,318 1,711 2,064 2,492 2,797 3,090 3,745
25 0,856 1,316 1,708 2,060 2,485 2,787 3,078 3,725
26 0,856 1,315 1,706 2,056 2,479 2,779 3,067 3,707
27 0,855 1,314 1,703 2,052 2,473 2,771 3,056 3,690
28 0,855 1,313 1,701 2,048 2,467 2,763 3,047 3,674
29 0,854 1,311 1,699 2,045 2,462 2,756 3,038 3,659
30 0,854 1,310 1,697 2,042 2,457 2,750 3,030 3,646
40 0,851 1,303 1,684 2,021 2,423 2,704 2,971 3,551
60 0,848 1,296 1,671 2,000 2,390 2,660 2,915 3,460
120 0,845 1,289 1,658 1,980 2,358 2,617 2,860 3,373
¥ 0,841 1,281 1,645 1,960 2,326 2,576 2,807 3,290

116
Anexa IV
VALORILE CRITICE ALE DISTRIBUŢIEI „F” (FISHER-SNEDECOR)
pentru nivelul de semnificaţie α = 0,01.

v1 1 2 3 4 5 6 7 8 12 24 ¥
v2
1 4052 4999 5403 5625 5764 5859 5930 5981 6106 6234 63666
2 98,49 99,00 99,17 99,25 99,30 99,33 99,34 99,36 99,42 99,46 99,50
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,05 26,60 26,14
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,37 13,93 13,48
5 16,26 13,27 12,06 11,39 10,97 10,67 10,45 10,27 9,89 9,47 9,04
6 13,74 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,72 7,31 6,90
7 12,25 9,55 8,45 7,85 7,46 7,19 7,00 6,84 6,47 6,07 5,67
8 11,26 8,65 7,59 7,01 6,63 6,37 6,19 6,03 5,67 5,28 4,88
9 10,56 8,02 6,99 6,42 6,06 5,80 5,62 5,47 5,11 4,73 4,33
10 10,04 7,56 6,55 5,99 5,64 5,39 5,21 5,06 4,71 4,33 3,93
11 9,65 7,20 6,22 5,67 5,32 5,07 4,88 4,74 4,40 4,02 3,62
12 9,33 6,93 5,95 5,41 5,06 4,82 4,65 4,50 4,16 3,78 3,38
13 9,07 6,70 5,74 5,20 4,86 4,62 4,44 4,30 3,96 3,59 3,18
14 8,86 6,51 5,56 5,03 4,69 4,46 4,28 4,14 3,80 3,43 3,02
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,67 3,29 2,89
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,55 3,18 2,77
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,45 3,08 2,67
18 8,28 6,01 5,09 4,58 4,25 4,01 3,85 3,71 3,37 3,00 2,59
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,30 2,92 2,51
20 8,10 5,85 4,94 4,43 4,10 3,87 3,71 3,56 3,23 2,86 2,44
21 8,02 5,78 4,87 4,37 4,04 3,81 3,65 3,51 3,17 2,80 2,38
22 7,94 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,12 2,75 2,33
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,07 2,70 2,28
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,03 2,66 2,23
25 7,77 5,57 4,68 4,18 3,86 3,63 3,46 3,32 2,99 2,62 2,19
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 2,96 2,58 2,15
27 7,68 5,49 4,60 4,11 3,79 3,56 3,39 3,26 2,93 2,55 2,12
28 7,64 5,45 4,57 4,07 3,76 3,53 3,36 3,23 2,90 2,52 2,09
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 2,87 2,49 2,06
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 2,84 2,47 2,03
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,66 2,29 1,84
50 7,17 5,06 4,20 3,72 3,41 3,18 3,02 2,88 2,56 2,18 1,71
100 6,90 4,82 3,98 3,51 3,20 2,99 2,82 2,69 2,36 1,98 1,46
¥ 6,64 4,60 3,78 3,32 3,02 2,80 2,66 2,51 2,18 1,79 1,00

v1 - numărul gradelor de libertate pentru cea mai mică dintre cele două varianţe estimate;
v2 - numărul gradelor de libertate pentru cea mai mare dintre cele două varianţe estimate.

117
Anexa V
VALORILE CRITICE ALE DISTRIBUŢIEI „F” (FISHER-SNEDECOR)
pentru nivelul de semnificaţie α = 0,05.

v1 1 2 3 4 5 6 7 8 12 24 ∞
v2
1 161,4 199,5 215,7 224,6 230,2 234,0 238,9 239,0 243,9 249,0 254,3
2 18,51 19,00 19,16 19,25 19,30 19,33 19,36 19,37 19,41 19,45 19,50
3 10,13 9,55 9,28 9,12 9,01 8,94 8,88 8,84 8,74 8,64 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 5,91 5,77 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,68 4,53 4,36
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,00 3,84 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,57 3,41 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,28 3,12 2,93
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,07 2,90 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 2,91 2,74 2,54
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,79 2,61 2,40
12 4,75 3,88 3,49 3,26 3,11 3,00 2,92 2,85 2,69 2,50 2,30
13 4,67 3,80 3,41 3,18 3,02 2,92 2,84 2,77 2,60 2,42 2,21
14 4,60 3,74 3,34 3,11 2,96 2,85 2,77 2,70 2,53 2,35 2,13
15 4,54 3,68 3,29 3,06 2,90 2,79 2,70 2,64 2,48 2,29 2,07
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,42 2,24 2,01
17 4,45 3,59 3,20 2,96 2,81 2,70 2,62 2,55 2,38 2,19 1,96
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,34 2,15 1,92
19 4,38 3,52 3,13 2,90 2,74 2,63 2,55 2,48 2,31 2,11 1,88
20 4,35 3,49 3,10 2,87 2,71 2,60 2,52 2,45 2,28 2,08 1,84
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,25 2,05 1,81
22 4,30 3,44 3,05 2,82 2,66 2,55 2,47 2,40 2,23 2,03 1,88
23 4,28 3,42 3,03 2,80 2,64 2,53 2,45 2,38 2,20 2,00 1,76
24 4,26 3,40 3,01 2,78 2,62 2,51 2,43 2,36 2,18 1,98 1,73
25 4,24 3,38 2,99 2,76 2,60 2,49 2,41 2,34 2,16 1,96 1,71
26 4,22 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,15 1,95 1,69
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,30 2,13 1,93 1,67
28 4,20 3,34 2,95 2,71 2,56 2,44 2,36 2,29 2,12 1,91 1,65
29 4,18 3,33 2,93 2,70 2,54 2,43 2,35 2,28 2,10 1,90 1,64
30 4,17 3,32 2,92 2,69 2,53 2,42 2,34 2,27 2,09 1,89 1,62
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,00 1,79 1,51
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 1,95 1,74 1,46
60 4,00 3,15 2,76 2,52 2,37 2,25 2,17 2,10 1,92 1,70 1,39
100 3,94 3,09 2,70 2,46 2,30 2,19 2,10 2,03 1,85 1,63 1,30
120 3,92 3,07 2,68 2,44 2,29 2,17 2,08 2,01 1,83 1,60 1,25
¥ 3,84 2,99 2,60 2,37 2,21 2,09 2,01 1,94 1,75 1,52 1,00

v1 - numărul gradelor de libertate pentru cea mai mică dintre cele două varianţe estimate;
v2 - numărul gradelor de libertate pentru cea mai mare dintre cele două varianţe estimate.

118
Anexa VI
VALORILE CRITICE ALE DISTRIBUŢIEI χ²

Nivelul de semnificaţie α
v
0,50 0,30 0,10 0,05 0,025 0,01 0,001
2 1,39 2,41 4,61 5,99 7,3 9,2 13,8
3 2,37 3,67 6,25 7,81 9,3 11,3 16,3
4 3,36 4,88 7,78 9,49 11,1 13,3 18,5
5 4,35 6,06 9,24 11,10 12,8 15,1 20,5
6 5,35 7,23 10,60 12,60 14,4 16,8 22,5
7 6,35 8,38 12,00 14,10 16,0 18,5 24,3
8 7,34 9,52 13,40 15,50 17,5 20,1 26,1
9 8,34 10,70 14,70 16,90 19,0 21,7 27,9
10 9,34 11,80 16,00 18,30 20,5 23,2 29,6
11 10,30 12,90 17,30 19,70 21,9 24,7 31,3
12 11,30 14,00 18,50 21,00 23,3 26,2 32,9
13 12,30 15,10 19,80 22,40 24,7 27,7 34,5
14 13,30 16,20 21,10 23,70 26,1 29,1 36,1
15 14,30 17,30 22,30 25,00 27,5 30,6 37,7
16 15,30 18,40 23,50 26,30 28,8 32,0 39,3
17 16,30 19,50 24,80 27,60 30,2 33,4 40,8
18 17,30 20,60 26,00 28,90 31,5 34,8 42,3
19 18,30 21,70 27,20 30,10 32,9 36,2 43,8
20 19,30 22,80 28,40 31,40 34,2 37,6 45,3
21 20,30 23,90 29,60 32,70 35,5 38,9 46,8
22 21,30 24,90 30,80 33,90 36,8 40,3 48,3
23 22,30 26,00 32,00 35,20 38,1 41,6 49,7
24 23,30 27,10 33,20 36,40 39,4 43,0 51,2
25 24,30 28,20 34,40 37,70 40,6 44,3 52,6
26 25,30 29,20 35,60 38,90 41,9 45,6 54,1
27 26,30 30,30 36,70 40,10 43,2 47,0 55,5
28 27,30 31,40 37,90 41,30 44,5 48,3 56,9
29 28,30 32,50 39,10 42,60 45,7 49,6 58,3
30 29,30 33,50 40,30 43,80 47,0 50,9 59,7
40 39,30 44,20 51,80 55,85 59,3 63,7 73,4
50 49,30 54,70 63,20 67,50 71,4 76,2 86,7
60 59,30 65,20 74,40 79,10 83,3 88,4 99,6
70 69,30 75,10 85,50 90,50 95,0 100,4 112,3
80 79,30 86,10 96,60 101,90 106,6 112,3 124,8
90 89,30 96,50 107,60 113,10 118,1 124,1 137,2
100 99,30 106,90 118,50 124,30 129,6 135,8 149,4

v - numărul gradelor de libertate pentru statistica χ².

119
Anexa VII
TABELUL DIFERENŢELOR MAXIME δmax PENTRU TESTUL
KOLMOGOROV-SMIRNOV
Nivelul de semnificaţie α Nivelul de semnificaţie α
n n
0,10 0,05 0,01 0,10 0,0,5 0,01
1 0,950 0,975 0,995 13 0,325 0,361 0,433
2 0,776 0,842 0,929 14 0,314 0,349 0,418
3 0,642 0,708 0,828 15 0,304 0,338 0,404
4 0,564 0,624 0,733 16 0,295 0,328 0,392
5 0,510 0,565 0,669 17 0,286 0,318 0,381
6 0,470 0,521 0,618 18 0,278 0,309 0,371
7 0,438 0,486 0,577 19 0,272 0,301 0,363
8 0,411 0,457 0,543 20 0,264 0,294 0,356
9 0,388 0,432 0,514 25 0,24 0,27 0,32
10 0,368 0,410 0,490 30 0,22 0,24 0,29
11 0,352 0,391 0,468 35 0,21 0,23 0,27
12 0,338 0,375 0,450 >351 1,22/Φ 1,36/Φ 1,63/Φ

n - volumul eşantionului (cazul testului de concordanţă ) sau al eşantioanelor (cazul testului de comparare a două distribuţii empirice,
eşantioanele având acelaşi volum n1=n2=n).
1
la testele de comparare, pentru volume n ale eşantioanelor mai mari de 35, se poate lucra şi cu eşantioane de volume inegale; în acest
caz se ia în considerare volumul total al celor două eşantioane, diferenţa maximă teoretică fiind calculată cu ajutorul relaţiilor de mai jos (pentru
testul bilateral):

n1 + n 2

• n.s. α = 0,05 --> δmax = 1,36


n1 * n 2

n1 + n 2

• n.s. α = 0,01 --> δmax = 1,63


n1 * n 2

n1 + n 2

• n.s. α = 0,001 --> δmax = 1,95


n1 * n 2

120
Anexa VIIIa
VALORILE-LIMITĂ ALE LUI r
pentru diferite nivele de semnificaţie

Nivelul de semnificaţie α Nivelul de semnificaţie α

g.l. g.l.
0,10 0,05 0,01 0,10 0,05 0,01
1 0,9877 0,9969 0,9995 16 0,4000 0,4683 0,5425
2 0,9000 0,9500 0,9800 17 0,3887 0,4555 0,5285
3 0,8054 0,8783 0,9343 18 0,3783 0,4438 0,5155
4 0,7293 0,8114 0,8822 19 0,3687 0,4329 0,5034
5 0,6694 0,7545 0,8329 20 0,3598 0,4227 0,4921
6 0,6215 0,7067 0,7887 25 0,3233 0,3809 0,4451
7 0,5822 0,6664 0,7498 30 0,2960 0,3494 0,4093
8 0,5494 0,6319 0,7155 35 0,2746 0,3246 0,3810
9 0,5214 0,6021 0,6851 40 0,2573 0,3044 0,3578
10 0,4973 0,5760 0,6581 45 0,2428 0,2875 0,3384
11 0,4762 0,5529 0,6339 50 0,2306 0,2732 0,3218
12 0,4575 0,5324 0,6120 60 0,2108 0,2500 0,2948
13 0,4409 0,5139 0,5923 70 0,1954 0,2319 0,2737
14 0,4245 0,4973 0,5742 80 0,1829 0,2172 0,2565
15 0,4124 0,4821 0,5577 100 0,1638 0,1946 0,2301

Tabelul cuprinde valorile minime, statistic semnificative, ale coeficientului de corelaţie liniară simplă r; dacă r calculat este mai mare
decât r din tabel, atunci se poate afirma (cu un risc de eroare egal cu α) că între cele două variabile există o corelaţie liniară semnificativă.
În tabel se intră cu numărul gradelor de libertate, care în acest caz va fi: g.l. = n - 2 (n - numărul de perechi de valori).

Anexa VIIIb
VALORILE-LIMITĂ ALE COEFICIENTULUI ρ AL LUI SPEARMAN

α 0,05 0,01 α 0,05 0,01


n n
4 1,00 - 24 0,34 0,49
5 0,90 1,00 26 0,33 0,47
6 0,83 0,94 28 0,32 0,45
7 0,71 0,89 30 0,31 0,43
8 0,64 0,83 35 0,28 0,40
9 0,60 0,78 40 0,26 0,37
10 0,56 0,75 45 0,25 0,35
12 0,51 0,71 50 0,24 0,33
14 0,46 0,64 55 0,22 0,32
16 0,42 0,60 60 0,21 0,30
18 0,40 0,56 70 0,20 0,28
20 0,38 0,53 80 0,19 0,26
22 0,36 0,51 100 0,17 0,23

n - numărul de perechi de valori.


În tabel se intră direct cu numărul de perechi de valori, iar semnificaţia statistică a coeficientului ρ calculat se face la fel ca la Anexa
VIIIa.

121
Anexa IX
TABEL CU NUMERE ALEATOARE
(FRAGMENT)
Coloana

Rândul
1 2 3 4 5 6 7 8 9 10
1 87 35 67 44 51 49 18 98 97 84 75 22 53 29 10 52 26 87 54 92
2 25 52 29 67 35 99 48 88 40 68 63 68 82 39 38 47 91 39 11 00
3 87 17 83 31 25 59 87 48 25 80 24 08 81 45 21 32 90 08 44 31
4 05 04 40 35 72 95 48 56 77 57 63 19 80 16 48 52 06 47 64 98
5 81 16 09 21 91 71 29 76 54 01 53 17 30 67 62 95 56 58 10 91
6 54 85 78 88 57 91 11 69 10 22 71 87 24 92 52 64 42 82 78 95
7 44 78 19 18 35 40 27 66 89 72 21 17 71 69 95 17 97 17 62 60
8 97 20 98 97 37 33 93 75 18 88 35 85 46 05 07 20 08 17 66 24
9 98 77 57 51 40 41 76 21 18 54 60 61 79 13 94 57 50 73 89 68
10 78 12 77 30 83 30 59 28 73 33 47 07 60 07 45 38 82 10 73 19
11 41 19 70 62 43 46 06 13 22 38 31 18 61 60 07 14 49 16 28 16
12 70 64 30 55 67 46 95 79 63 66 82 56 67 10 76 77 03 22 42 18
13 06 56 09 89 68 87 79 19 35 94 66 18 17 91 72 81 72 77 92 39
14 29 46 18 28 08 88 48 56 49 44 67 82 72 67 28 83 10 26 58 13
15 42 14 55 51 72 95 29 25 15 18 25 68 48 92 87 16 78 43 17 47
16 33 75 87 15 15 23 13 79 62 73 76 69 09 77 82 65 72 47 59 56
17 09 80 99 61 98 08 34 11 88 79 08 32 46 78 35 58 44 16 12 23
18 98 31 57 50 85 80 53 39 05 92 54 42 29 01 35 23 09 81 96 64
19 51 70 52 55 83 12 95 02 79 11 49 79 87 95 98 48 88 68 64 77
20 27 83 61 07 49 05 46 20 35 78 31 34 12 50 68 11 42 14 29 77
21 78 84 69 15 64 42 92 39 36 08 56 39 35 02 92 78 46 63 82 98
22 22 12 89 66 49 09 99 10 62 53 19 31 81 83 50 43 37 42 10 00
23 69 41 59 54 82 72 44 66 64 03 76 59 12 12 41 56 34 90 26 06
21 54 99 46 54 51 38 59 07 64 21 81 17 88 47 23 05 63 43 08 67
25 99 91 82 79 92 62 44 24 01 34 45 16 33 56 17 78 42 86 70 94
26 54 96 58 70 68 38 48 37 08 25 51 28 42 09 45 96 78 84 34 59
27 88 37 31 01 58 97 65 10 96 97 32 75 65 73 06 01 60 19 68 10
28 49 40 84 90 19 91 75 41 55 63 98 25 01 69 29 57 72 77 75 95
29 21 18 87 99 98 48 38 12 64 18 78 50 43 97 04 07 85 18 98 87
30 06 31 99 51 27 13 43 21 07 55 90 35 29 84 08 70 66 03 18 96
31 58 56 75 14 19 32 35 15 47 05 38 54 92 08 08 72 79 66 65 20
32 83 00 61 74 76 68 58 67 31 58 77 93 92 44 94 16 01 29 32 19
33 51 45 05 35 16 73 80 43 44 64 19 14 52 22 81 62 79 68 13 37
34 90 55 27 93 33 06 76 42 16 08 16 81 86 15 09 79 30 86 74 77
35 68 65 05 79 82 57 78 22 37 41 82 44 07 43 98 89 78 23 96 04
36 51 84 34 98 03 38 87 12 79 88 57 88 46 81 62 56 94 91 06 59
37 85 23 92 01 84 05 83 64 12 95 51 44 60 64 68 86 53 05 26 16
38 31 95 14 27 80 20 36 96 81 84 88 55 50 47 22 39 70 56 66 41
39 91 55 02 31 42 31 54 72 45 32 43 76 89 95 74 04 79 33 46 91
40 46 80 10 25 92 61 83 83 58 58 71 46 29 95 72 38 89 05 26 05
41 07 78 66 31 63 37 30 38 95 57 84 99 85 32 91 28 06 85 67 13
42 48 69 61 99 15 93 98 43 38 84 46 49 84 89 44 51 75 42 45 17
43 70 69 68 47 02 10 60 99 02 84 41 36 81 65 44 08 49 93 49 62
44 98 63 62 58 95 62 61 53 28 49 20 20 21 49 45 35 01 57 45 64
45 76 50 34 97 87 14 65 07 59 45 02 56 89 50 85 03 42 65 07 35
46 23 47 83 35 73 08 83 52 47 19 79 85 26 07 53 80 00 33 18 07
47 18 38 27 88 50 09 58 11 96 83 05 86 49 61 35 03 46 63 88 48
48 93 93 51 63 96 33 82 81 58 02 19 36 55 80 74 84 14 63 79 22
49 65 23 13 22 01 10 20 01 11 15 36 43 49 49 19 24 77 70 95 08
50 77 19 27 34 65 55 62 52 47 73 09 34 58 38 28 28 18 15 82 65

122
123