Documente Academic
Documente Profesional
Documente Cultură
Statistica in Geografie
Statistica in Geografie
Dpartement de gographie
Universit Paris VII
Departamentul de Geografie
Univ. Al.I.Cuza Iai
CUPRINS
INTRODUCERE......................................................................................................................................................... 5
CAP.I. NOIUNI GENERALE ................................................................................................................................. 6
1.1. Cercetarea geografic i metodele statistice............................................................................................. 6
1.1.1 Ce este Statistica? ................................................................................................................... 6
1.1.2. Statistica n Geografie ........................................................................................................... 7
1.2. Vocabularul de baz al Statisticii........................................................................................................... 10
CAP.II. PARAMETRII UNEI DISTRIBUII STATISTICE ................................................................................ 23
2.1. Valorile centrale..................................................................................................................................... 23
2.1.1. Modul (sau moda, sau valoarea modal)............................................................................ 23
2.1.2. Mediana (valoarea median) .............................................................................................. 24
2.1.3. Media aritmetic.................................................................................................................. 25
2.2. Parametrii dispersiei .............................................................................................................................. 26
2.2.1. Amplitudinea de variaie..................................................................................................... 27
2.2.2. Cuartilele i abaterile cuartile............................................................................................. 27
2.2.3. Indici de dispersie care au la baz media aritmetic ......................................................... 27
2.3. Parametrii formei................................................................................................................................... 29
2.3.1. Indici de asimetrie ............................................................................................................... 30
2.3.2. Indici de exces (de aplatizare) ............................................................................................. 30
CAP.III. TRANSFORMAREA I STANDARDIZAREA DATELOR.................................................................. 32
3.1. Standardizarea (normarea).................................................................................................................... 32
3.2. Transformarea ....................................................................................................................................... 33
CAP.IV. FUNDAMENTUL PROBABILIST AL JUDECILOR STATISTICE .............................................. 34
4.1. Distribuia (curba) normal i caracteristicile sale................................................................................ 34
4.2. Caracteristicile eantioanelor (sondajelor) ............................................................................................ 38
4.2.1. Relaiile dintre parametrii de sondaj i cei ai populaiei originare ................................... 38
4.2.2.Eantioane mici..................................................................................................................... 41
4.2.3. Specificarea mrimii eantionului ...................................................................................... 42
4.3. Verificarea ipotezelor statistice .............................................................................................................. 43
4.3.1. Ipoteze statistice................................................................................................................... 43
4.3.2. Teste statistice ...................................................................................................................... 44
4.3.2.1. Teste parametrice ............................................................................................... 46
4.3.2.2. Teste neparametrice. .......................................................................................... 53
CAP.V. PROBLEME GENERALE PRIVIND RELAIA DINTRE DOU VARIABILE
(NOIUNI DE ANALIZ BIVARIAT )................................................................................................. 57
5.1. Noiunea de relaie ntre dou caracteristici.......................................................................................... 57
5.2. Tabelul de contingen i studiul relaiei ntre dou caracteristici discrete........................................... 58
5.2.1. Crearea unui tabel de contingen...................................................................................... 58
5.2.2. Analiza unui tabel de contingen....................................................................................... 60
5.2.2.1. Stabilirea profilelor liniilor ................................................................................... 61
5.2.2.2. Stabilirea profilelor coloanelor ............................................................................. 61
5.2.2.3. Stabilirea existenei / non-existenei unei legturi ntre cele dou
caracteristici........................................................................................................ 61
5.3. Msurarea relaiei dintre dou caracteristici cantitative continue ........................................................ 66
5.3.1. Coeficienii de corelaie ....................................................................................................... 69
INTRODUCERE
n scopul descoperirii structurilor spaiale i a dinamicilor de care acestea sunt
afectate, Geografia modern este obligat s lucreze cu volume imense de date statistice.
Utilizarea echipamentelor electronice de calcul faciliteaz mult aceast sarcin ns esenial
este pregtirea cercettorului care ncearc s surprind eventualele regulariti dintr-o lume
n care accelerarea fenomenelor creeaz impresia unei evoluii haotice. n acest context,
stpnirea metodelor statistice devine primordial.
Prezentul curs este destinat transmiterii elementelor de baz ale statisticii
descriptive, respectiv a metodelor de analiz univariat i bivariat a informaiei disponibile.
Obiectivul su principal este acela de a pune la ndemna studenilor tehnicile fundamentale
de sintetizare a informaiei coninut n tabelele statistice, etap care trebuie s precead orice
operaie ulterioar (n special cartografierea informaiei).
Primul capitolul prezint specificul statisticii n domeniul geografiei (unde
unitile statistice snt reprezentate de obiecte, procese i fenomene spaializate), precum i
vocabularul statistic de baz, necesar nelegerii i nsuirii teoriei i practicii Statisticii.
Capitolele al II-lea, al III-lea i al IV-lea sunt axate pe expunerea noiunilor teoretice
elementare, n contextul analizei univariate a distribuiilor statistice. Obiectivul urmrit n
aceste trei capitole este acela de a familiariza studenii cu analiza tabelelor unidimensionale
(cu o singur intrare). Capitolul al V-lea introduce studentul n domeniul analizei bivariate,
respectiv al studiului tabelelor bidimensionale (cu dou intrri), strict necesar n geografie
deoarece n lumea nconjurtoare nici un obiect, proces sau fenomen nu evolueaz singur,
izolat de evoluiile vecine. n fine, ultimul capitol, al VI-lea, prezint metodologia cercetrii
seriilor cronologice, respectiv al tabelelor n care una dintre dimensiuni este cea a unitilor de
timp (ore, zile, luni, ani, decade, etc.), foarte util n efortul de sesizare a sensului i direciei
evoluiei n timp a obiectelor, proceselor i fenomenelor geografice. Anexele I-IX conin
tabelele necesare testrii ipotezelor statistice, precum i un eantion de numere aleatoare.
nsuirea metodelor prezentate n acest curs, precum i a fundamentelor lor
matematice, va acorda n final studentului o independen sporit n rezolvarea problemelor
care apar inerent n domeniul cercetrii geografice.
1.
a) tiina cu acest nume; b) criteriu formal pentru verificarea ipotezelor statistice (vezi 4.3).
Inferena (lat. inferre - a duce) este operaia logic de derivare a unui enun din altul, prin care se admite o
judecat (al crei adevr nu este verificat direct) n virtutea unei legturi a ei cu alte judeci considerate ca
adevrate (cf. F.Marcu i C.Maneca, Dicionar de neologisme, Ed. Academiei, 1978).
Cteva exemple:
caracteristicile poziionale i morfometrice ale unor obiecte de la suprafaa Terrei
pretind informaii numerice de tip coordonate geografice, distane, suprafee, altitudini etc.;
studiul interaciunilor dintre nveliurile naturale terestre face apel la date cantitative
asupra unor elemente ca temperatura aerului i solului, precipitaii, debite, presiune atmosferic,
viteza vntului, eroziune etc.;
localizarea activitilor umane i a resurselor aferente necesit informaii precise asupra
suprafeelor de teren cu diferite utilizri/tipuri de sol, asupra populaiei active, resurselor
subsolice, punctelor de concentrare a activitilor industriale .a.;
repartiia i dinamica populaiei umane nu pot fi urmrite dect prin intermediul unor
indici cantitativi cum ar fi numrul total sau pe diverse categorii, natalitatea, mortalitatea,
structura (pe sexe, pe grupe de vrst, profesional), indici de mobilitate teritorial etc.;
studiul reelelor de schimburi comerciale i al fluxurilor dintre nodurile reelelor,
fluxuri ce constituie manifestri ale interaciunilor spaiale3, pretind date cantitative referitoare
la reelele feroviare, rutiere, fluviale, de transport maritim etc., date asupra volumului
schimburilor comerciale .a.
Determinrile cantitative (observaii i msurtori) asupra obiectelor, proceselor i
fenomenelor constituie, aadar, punctul de plecare pentru demersul cognitiv geografic. n
acelai timp, ele ofer posibilitatea unui demers geografic tiinific (n sensul exactitii)
deoarece permit, pe de o parte, emiterea unor ipoteze asupra realitii, iar pe de alt parte permit
verificarea acestor ipoteze prin aplicarea metodelor statistico-matematice de analiz a datelor.
Datele geografice provenite din msurtori i observaii se refer, n mod obinuit, la
caracteristici ale unor fenomene i/sau procese care se desfoar ntr-un anumit loc de pe glob
i ntr-un anumit moment (interval) de timp. De aici ideea de a generaliza natura datelor
geografice sub forma unei matrici tridimensionale numit cubul datelor geografice
(Johnston,1978; v.fig.1.1). Cele trei dimensiuni ale acestui cub sunt localizrile (locurile)4,
timpul i fenomenele (procesele). n seciunea din fig.1.1 fiecare rnd reprezint un loc, iar
fiecare coloan corespunde unui fenomen (proces); momentelor (intervalelor) de timp n care se
manifest fenomenele cu localizri diferite le corespund strate succesive ale cubului.
Prin interaciuni spaiale se nelege aciunea reciproc a dou sau mai multe sisteme cu localizri spaiale
diferite. n domeniul geografiei studiul i.s., abordate la scar macro-spaial (n aceasta constnd deosebirea dintre
geografie i alte tiine care studiaz astfel de interaciuni - de ex. sociologia, psihologia, economia, fizica), a
condus la elaborarea unor modele de intraciune spaial dintre care cel mai important este modelul gravitaional.
Acest model se bazeaz pe analogia dintre intraciunea spaial i interaciunea fizic din teoria gravitaional a lui
Newton:
I ij = k
mi m j
n
d ij
,
n care: Iij - interaciunea dintre locurile i i j; mi, mj - masele locurilor i i j (de ex. numrul de locuitori); k, n constante empirice.
4
n literatura geografic romneasc termenul localizare are mai multe sensuri:
- poziie (aezare) geografic;
- aciunea de a repera (identifica) obiecte, fenomene, procese;
- aciunea de a implanta n teritoriu, ntr-un anumit loc, un obiect, o activitate economic etc.;
- aciunea de a aduce la scar local, de a descentraliza.
De regul sensul reiese din context; atunci cnd acesta din urm este insuficient, este preferabil s se foloseasc
sinonimele corespunztoare - spre exemplu, n fig.1.1. s-a folosit termenul locuri pentru a desemna poziia n
spaiu a fenomenelor.
Este clar c un asemenea cub poate cuprinde cantiti foarte mari (teoretic nelimitate) de
date. Tocmai asemenea
ansambluri mari de
date
cantitative
constituie,
ndeobte, materialul de Figura 1.1. Cubul datelor geografice.
lucru
pentru
analizele
statistice.
Aceasta
nu
nseamn,
ns,
c
Statistica nu poate
s
analizeze
i
ansambluri
mici,
sau seturi de date nonnumerice,
calitative.
n
toate
cazurile, n termeni
cantitativi, ea descrie
sintetic, clasific,
ierarhizeaz, evideniaz
structuri
i
5
izomorfisme , ncearc
s
precizeze
(cuantifice) tria i
intensitatea
legturilor
dintre
fenomene, permite
generalizri
i
interpretri
ale
acestora.
Utilizarea metodelor statistice confer demersului geografic un spor de rigurozitate
tiinific, neleas ca precizie a rezultatelor cercetrii, obiectivitate a concluziilor, precum i ca
diminuare a redundanei i ambiguitilor discursului geografic.
Ca i n cazul altor tiine naturale sau sociale, demersul tiinific geografic are dou
laturi complementare:
1. exist, pe de o parte, demersul inductiv, care ncearc s generalizeze o serie de
observaii empirice, ncercnd s ajung la formularea de legiti i, apoi, la elaborarea de
modele ale realitii.
Exemplu. Se msoar temperatura aerului la diferite altitudini de-a lungul unui versant
muntos. S presupunem c s-au gsit 10C la 1000 m, 4C la 2000 m i -2C la 3000 m
altitudine. Repetarea msurtorilor pe un alt versant a dat rezultate asemntoare. Se trage
concluzia c temperatura scade, n medie, cu 0,6C la fiecare 100 m cretere a altitudinii; altfel
spus, se stabilete o legitate pe calea demersului inductiv (trecerea de la particular la general);
2. pe de alt parte, exist demersul deductiv, care se desfoar n sens invers fa de
cel inductiv: se pornete de la o regul general pentru a se trage nite concluzii n legtur cu
un fapt particular. n acest caz regula este preluat sub forma unei ipoteze care, confruntat cu
datele de observaii, poate s fie confirmat sau infirmat.
Exemplu. Se pornete de la legea scderii, de la Ecuator spre poli, a cantitii de cldur
recepionat de suprafaa terestr. Se emite ipoteza c temperatura medie a aerului scade n
acelai sens, tiut fiind faptul c ea este dependent de cantitatea de cldur menionat.
Confruntarea ipotezei cu datele climatologice dovedete c ipoteza testat este valabil doar sub
forma uneitendine generale, pe fondul creia apar excepii datorate unor factori diveri
(altitudinea i orientarea culmilor muntoase, albedo-ul suprafeei terestre, curenii marini etc.).
Procesul cunoaterii tiinifice const ntr-o permanent succesiune a celor dou tipuri
de demersuri: inducia furnizeaz reguli i legiti care stau la baza unor deducii (ipoteze) ce se
5
Izomorfism (grec. isos - egal i morphe - form) - identitate de structur ntre dou sau mai multe sisteme cu
coninut diferit; modalitate riguroas a analogiei, ntemeind analogia structural, diferit de analogia
funcional sau analogia substanial (cf. Dicionar de filozofie, Ed. Academiei, 1979).
cer, apoi, confruntate cu datele de observaii; eventualele diferene intre modelul teoretic i
realitatea faptic pot conduce, pe cale inductiv, la reformulri ale legitilor, ce se cer i ele
verificate .a.m.d. Acest ciclu generator al progresului cunoaterii tiinifice a fost numit,
sugestiv, spirala inductiv-ipotetic-deductiv (IID). Orice tiin, inclusiv Geografia, cunoate
o dezvoltare condiionat de nscrierea n modelul IID. Iar pentru Geografie, ca tiin al crei
obiect de studiu este nc insuficient precizat i nesatisfctor ncadrat n legi i postulate,
recursul la metodele statistice este inevitabil.
*
* *
Iat de ce, pentru un geograf, metodele statistice constituie un sprijin valoros.
Cunoaterea acestor metode de ctre geograf are aceeai importan ca i stpnirea limbilor
strine de ctre un diplomat. Nici statistica, pentru geograf, nici limbile strine, pentru diplomat,
nu constituie obiectul lor de studiu, ns reprezint instrumente indispensabile pentru succesul
activitilor specifice.
Aa cum un diplomat ignorant poate face apel la un translator, tot astfel un geograf poate
face apel la un statistician cu experien n analiza datelor de observaii. Dar i ntr-un caz i n
altul prezena unui intermediar risc s reduc eficiena aciunilor, ca s nu mai vorbim de
posibilitatea apariiei erorilor: de traducere, n cazul interpretului care nu stpnete
complexitatea situaiilor diplomatice, respectiv de interpretare, n cazul statisticianului care nu
cunoate n profunzime problemele geografice.
10
11
Din punct de vedere statistic, a defini o caracteristic Tabel 1.1. Populaia oraelor
a unei populaii nseamn a stabili o coresponden astfel Romniei repartizat dup numrul de
nct fiecrui individ al populaiei s i se asocieze una i locuitori.
Populaia P
Caract. X
numai una dintre valorile pe care le poate cpta
(oraele
din
(numrul
de
caracteristica respectiv. n funcie de scopurile analizei,
Romnia,1992)
locuitori)
indivizii pot fi descrii (caracterizai) prin intermediul unei
1.Alba-Iulia
x1
71254
caracteristici sau al mai multora (vezi tabelele 1.1 i 1.2).
2.Arad
x2
190088
Diferitele valori (nu neaprat numerice) pe care le
.
.
.
.
.
.
poate cpta un individ n raport cu o anumit caracteristic
.
.
.
poart denumirea de modaliti ale caracteristicii
xi
82.Iai
342994
respective. Modalitile unei caracteristici trebuie s
.
.
.
ndeplineasc simultan dou condiii:
.
.
.
.
.
.
1. S fie incompatibile, altfel spus corespondena
260.Zimnicea
17140
xN
dintre indivizi i modalitile caracteristicii trebuie s fie
univoc (unui individ i corespunde o modalitate i numai Tabel 1.2. Populaia judeului Iai la 1
una, chiar dac una i aceeai modalitate poate corespunde ianuarie 1992, repartizat dup vrst i
sex.
la mai muli indivizi - vezi tab.1.2, 1.3);
Populaia P
Car. X
Car.Y
2. S fie exhaustive, adic s nu existe indivizi
(loc.jud.
(vrsta) (sexul)
crora nu le corespunde nici o modalitate a caracteristicii.
Iai,1992)
1.Apetrei M.
x1
37
y1 M
12
13
acesteia din urm avem de-a face cu un Tabel 1.3. Tabelul elementar al unei distribuii de
ansamblu de perechi modalitate- frecvene pentru o variabil cantitativ , respectiv
frecven6 ordonate cresctor dup calitativ.
valorile modalitilor respective (vezi
Caract. X
Efectivul
Caract. A
Efectivul
tab.1.3).
(cantitativ )
e
(calitativ)
e
Analiza statistic se poate
e1
a1
e1
x1
exercita i asupra distribuiilor de
x2
e2
a2
e2
.
.
.
.
frecvene
ale
unor
caracteristici
.
.
.
.
(variabile) calitative. n cazul acestora
.
.
.
.
ordonarea, de regul descresctoare, nu
xi
ei
ai
ei
se poate face dup valorile (non.
.
.
.
.
.
.
.
numerice) ale variabilei, ci dup
.
.
.
.
frecvenele
corespunztoare
(vezi
xn
en
an
en
tab.1.3). Elementul prin care repartiia
xi-1<xi<xi+1
ei = N
ei-1>ei>ei+1
unei variabile de tip calitativ intr n
ei = N
judecile statistice este frecvena. Orice
comparaie sau eventual asociere
(relaie) ntre variabilele calitative sunt
precizate prin metode statistice care iau n considerare frecvenele diferitelor modaliti ale
variabilei.
Prezentarea unei distribuii statistice
Exist dou forme principale de prezentare a unei distribuii statistice: sub form de
tabel statistic sau sub forma unor reprezentri grafice, cel mai adesea de tip histogram. Ele au
menirea de a oferi un rezumat numeric sau grafic al repartiiei dup o caracteristic, prin
regruparea i stabilirea frecvenelor fiecrei modaliti a caracteristicii. n cadrul acestei prime
etape de prelucrare a datelor empirice se urmrete, deci, s se rspund la ntrebarea: cte
elemente din populaia de baz corespund fiecrei modaliti7, sau fiecrui grup de modaliti?8
Tabelul de distribuie a frecvenelor modalitilor unei caracteristici este un tabel
statistic simplu (numit i tabel cu simpl intrare) a crui machet are dou coloane: prima
destinat nscrierii modalitilor caracteristicii, iar a doua - nscrierii frecvenei (efectivului)
fiecrei modaliti (pentru ilustrare vezi tab.1.3, care include forma generalizat a unui tabel de
distribuie a frecvenelor pentru dou tipuri de caracteristici, motiv pentru care are 4 coloane).
Frecvena unei modaliti poate fi de mai multe feluri, n funcie de modul n care este determinat:
- efectiv sau frecven brut = numrul de indivizi ce corespund modalitii respective;
- frecven relativ = proporia, eventual procentual, a efectivului unei modaliti din totalul N al indivizilor
populaiei.
Fiecare dintre aceste dou tipuri poate fi, la rndul su, de dou feluri:
- frecven simpl, care corespunde unei modaliti oarecare, independent de celelalte modaliti;
- frecven cumulat, care se obine prin cumularea frecvenelor simple ale tuturor modalitilor care, n cadrul
irului ordonat de modaliti, sunt anterioare modalitii pentru care se calculeaz frecvena cumulat.
7
Esena acestei prime etape de prelucrare a datelor de observaii, n vederea prezentrii distribuiei sub form
tabelar, este bine surprins de termenul corespunztor n literatura de specialitate francez: tableau de
dnombrement (tabel de numrare).
8
n cazul variabilelor cantitative continui cu numr foarte mare de modaliti se procedeaz, pentru reducerea
volumului de munc, la o grupare a modalitilor n clase de valori, urmnd a se determina frecvena fiecrei clase
prin numrarea elementelor ale cror valori sunt cuprinse ntre limitele clasei respective. Noiunea de clas este
utilizat curent n descrierea distribuiilor de frecvene ale variabilelor cantitative i, prin extindere, ale variabilelor
calitative.
14
fi = 100
15
Prin clas se nelege o subdiviziune a domeniului de variaie a variabilei. Pentru clasele constituite din grupe de
valori trebuie determinate elementele caracteristice ale acestora: limitele (inferioar i superioar), amplitudinile
claselor (care pot fi egale sau inegale) i centrele claselor (valorile situate n mijlocul claselor, ca medii aritmetice
ale celor dou limite de clas). O schem simpl ar putea facilita nelegerea acestor noiuni:
clasa 1: [li1..c1..ls1], iar a1=ls1-li1;
clasa 2: [li2..c2..ls2], iar a2=ls2-li2;
.
.
clasa n: [lin..cn..lsn], iar an=lsn-lin.
Semnificaia notaiilor: li - limita inferioar a unei clase; ls - limita superioar; c - centrul de clas; a - amplitudinea
clasei.
16
.
.
.
ei
.
.
.
en
ei = N
.
.
.
fi
.
.
.
fn
fi = 100
.
.
.
fcai=fcai-1+fi
.
.
.
fcan=100
.
.
.
fcdi=fcdi+1+fi
.
.
fcdn-1=fcdn+fn-1
fcdn=fn
Histograma
(vezi
fig.1.3, 1.4-a) se construiete
ntr-un sistem de coordonate
rectangulare: pe abscis se trec
valorile
care
delimiteaz
clasele, iar pe ordonat valorile
frecvenelor.
Atunci cnd clasele au o
amplitudine
constant
dreptunghiurile au limi (baze)
egale, iar nlimile lor sunt proporionale cu frecvenele de clas.
n cazul distribuiilor cu clase de amplitudine variabil, ns, relaia de proporionalitate trebuie
aplicat la suprafeele dreptunghiurilor, Figura 1.3. Distribuia celor 80 de studeni ai anului I
nu la nlimile lor.
Geografie dup nota obinut la disciplina Geografie general.
Soluia uzual a acestei probleme const
n alegerea unui interval-etalon de clas,
a crui amplitudine (de preferin
unitar) s fie divizor comun al
amplitudinii tuturor celorlalte clase.
Ctul dintre amplitudinea unei clase
oarecare i amplitudinea clasei-etalon,
calculat atunci cnd amplitudinea claseietalon nu este unitar, servete la
reducerea (prin mprire) frecvenei de
clas la frecvena clasei-etalon, rezultnd
aa-numitele frecvene medii (vezi
tab.1.6 i fig.1.4-b, n care amplitudinea
clasei-etalon este egal cu 1). n felul
acesta dreptunghiurile histogramei, cu
limi
(baze)
inegale,
ntruct
proporionale cu amplitudinile claselor corespunztoare, vor avea nlimi proporionale cu
frecvenele reduse (medii) aferente claselor respective.
10
Cumularea frecvenelor relative simple se numete ascendent, respectiv descendent n raport cu ordinea
(cresctoare) a claselor de valori din tabel. De aceea n tab.1.5 frecvenele cumulate ascendent se succed de sus n
jos (n sensul creterii valorilor claselor), iar cele cumulate descendent se succed de jos n sus (n sensul descreterii
valorilor claselor).
17
Tabel 1.6. Tabelul de distribuie a frecvenelor pentru o variabil cantitativ continu sau una
discret cu numr foarte mare de modaliti, cazul claselor cu amplitudine inegal: rata
omajului n departamentele regiunii Franche Comte, Frana, n 1982.
Caracteristica X
(rata omajului,%)
Amplitudinea
ai
Raportul
ri=ai/1
Efectivul
ei
Frecv.simpl
fi%
Frecv.medie
fmi=fi/ri
[5;6)
[6;8,5)
[8,5;11)
[11;13)
Total
1
2,5
2,5
2
1
2,5
2,5
2
1
5
5
2
ei = 13
7,7
38,5
38,5
15,4
fi = 100%
7,7
15,4
15,4
7,7
Frecvena
cumulat
asc.
7,7
46,2
84,7
100
desc.
100
92,3
53,8
15,4
Prin
unirea
punctelor
situate
la
mijlocul
prilor
superioare ale
dreptunghiurilo
r se obine o
linie
frnt
cunoscut sub
denumirea de
poligonul
frecvenelor
(vezi fig.1.3).
Suprafaa
cuprins ntre
linia poligonal
i axa absciselor este aproximativ egal cu suprafaa histogramei (egalitatea perfect exist
atunci cnd numrul de clase este infinit). Poligoanele frecvenelor se utilizeaz frecvent pentru
prezentarea simultan pe acelai grafic a mai multor distribuii.
Curbele cumulative se construiesc la fel ca i histogramele, cu dou deosebiri:
- se folosesc frecvenele cumulate (ascendent sau descendent) n locul celor simple;
- pe grafic nu mai apar dreptunghiurile ntregi, ci doar limile de la partea lor
superioar; acestea se unesc apoi prin linii verticale, ceea ce confer curbei cumulative aspectul
specific de curb n trepte (vezi fig.1.5). Atunci cnd numrul de clase este foarte mare graficul
n trepte tinde ctre o curb netezit avnd aproximativ forma literei S, respectiv S ntors;
analogia de form poate fi fcut i cu simbolul matematic pentru integral ( ), cu att mai mult
cu ct, n sens matematic, curba frecvenelor cumulate ascendent reprezint integrala curbei
frecvenelor simple (n cazul distribuiilor cu numr infinit de clase).
Curbele frecvenelor cumulate permit, ca i histogramele, localizarea, n cadrul
intervalului total de variaie, a claselor sau grupelor de clase cu frecvene mari (pant mai
accentuat a curbei) sau mici (pante mai reduse). Dar importana lor deosebit pentru analizele
statistice rezult din faptul c ele permit aflarea rspunsului la dou ntrebri complementare:
a) care este proporia (sau frecvena, sau, la limit, probabilitatea) cazurilor crora le
corespunde o modalitate inferioar sau superioar unei anumite valori-prag?
18
Din fig.1.5-a reiese destul de clar, credem, modul de rezolvare a acestei probleme: fiind dat
nota-limit 7,50, din grafic rezult prin citire direct c 71% din studeni au note mai mici, sau
cel mult egale cu aceasta, n timp ce diferena pn la 100%, adic 29% din studeni, au note
mai mari dect nota-limit. Dac distribuia ar avea o infinitate de clase, atunci am putea spune trecnd de la noiunea de frecven la cea de probabilitate - c probabilitatea unei valori mai
mici sau cel mult egale cu 7,50, numit probabilitate sau asigurare de nedepire, este de 0,71
(sau 71%); probabilitatea complementar, numit probabilitate sau asigurare de depire, va fi
de 1-0,71 = 0,29 (sau 29%).
Deoarece graficul din fig.1.5-a permite citirea direct a asigurrii de nedepire, el mai
19
distribuia statistic. La fel, fixarea unui numr de 5 clase pentru un ir de 3000 de valori este
inacceptabil, cci acest lucru ar simplifica grosier repartiia, ducnd la o pierdere de informaie.
Nu exist o reet infailibil pentru stabilirea numrului de clase. Cei mai muli
statisticieni recomand un numr de clase cuprins ntre 7 i 15. Unii au ncercat s gseasc o
soluie matematic acestei probleme, ajungnd la nite formule orientative de calcul. Iat doua
exemple:
- relaia Huntsberger:
k = 1 + 3.3 * log(n) ;
- relaia Brooks-Caruthers:
k < 5 * lg(n)
n care k = numrul de clase, n = efectivul total al modalitilor (nr. de valori din ir).
b) Fixarea limitelor claselor (i, implicit, a amplitudinilor de clas) este o operaiune
hotrtoare pentru sintetizarea corect a distribuiei valorilor n cadrul intervalului total de
variaie. Pentru a se limita ct mai mult erorile cauzate de mprirea n clase se urmrete, de
obicei, respectarea a dou reguli: limitele claselor s varieze regulat, iar repartizarea valorilor pe
clase s fie ct mai uniform. Din pcate, cele dou cerine sunt antagonice: dac se stabilesc
limitele de clas ca termeni ai unei progresii regulate, se obin frecvent fie clase vide (dar, din
motive de corectitudine a prelucrrilor ulterioare, se recomand ca efectivul unei clase s nu fie
mai mic de 5), fie clase foarte aglomerate; dac se ncearc o repartizare uniform a valorilor
pe clase, atunci limitele succesive nu urmeaz o progresie regulat, rezultnd clase cu
amplitudini inegale.
Inegalitatea amplitudinilor de clas atrage dup sine imposibilitatea comparrii directe a
frecvenelor claselor. n acest caz se calculeaz aa-numitele frecvene medii, ca raporturi
ntre frecvenele de clas i frecvena clasei cu cea mai mic amplitudine (numit clas de
referin); acestea vor fi apoi utilizate n prelucrrile ulterioare i n construirea graficelor de
distribuie (histograme i curbe cumulative).
Este clar c stabilirea unor clase cu amplitudini inegale duce la creterea volumului de
munc n vederea alctuirii distribuiei de frecvene. De aceea se va evita, pe ct posibil, aceast
alternativ de lucru i se va ncereca fixarea unor limite de clas care s se succead ntr-o
progresie regulat.
Cele mai utilizate progresii sunt progresia aritmetic, progresia geometric i cea
ptratic. Cu ajutorul lor limitele se pot stabili precis, utiliznd valorile extreme i numrul de
clase.
- n cazul progresiei aritmetice diferenele dintre dou limite succesive, respectiv
amplitudinile de clas, sunt constante i se obin n felul urmtor:
M -m
a=
k 0,
unde a = amplitudinea (i rata progresiei, n acelai timp), M = valoarea maxim din ir, m =
valoarea minim, k = numrul de clase. Limitele obinute vor fi respectiv m, m+a, m+2a, ...,
m+ka=M. Neajunsul principal al acestei metode este c detaliaz n mod exagerat zona
valorilor extreme din ir (acolo unde, de regul, exista un numr mai mic de valori).
- n cazul progresiei geometrice limitele de clas succesive se obin prin nmulirea cu
un raport constant R. Acest raport (rata progresiei) se calculeaz astfel:
R= k
M
m
(m > 0)
0,
iar limitele vor fi de forma m, Rm, Rm, Rm, ..., Rkm=M. Neajunsul acestei metode este
acela c detaliaz, n cadrul distribuiei de frecvene, zona valorilor mici, iar amplitudinile sunt
inegale. n plus, metoda nu se poate aplica dect dac m este strict pozitiv. Pentru uurarea
20
calculelor se poate valorifica faptul ca logaritmii limitelor urmeaz o progresie aritmetic - deci
limitele vor fi de forma log(m), log(m)+log(R), log(m)+2log(R) etc.
- progresia ptratic, prin proprietile sale, elimin dezavantajele primelor dou.
Limitele succesive se obin prin ridicarea la ptrat a termenilor unei progresii aritmetice la care
raia se calculeaz cu formula:
P=
M - m
k
Figura 1.6. Cteva forme tipice ale unor curbe de distribuie a frecvenelor ntlnite n geografie.
a) curb n form de clopot (cu un singur maxim de frecven) i simetric - n acest caz
distribuia se numete unimodal12 i simetric, apropiat ca form de aa-numita curb
normal sau clopotul lui Gauss (fig.1.6-a: presiunea atmosferic medie lunar). Curba
normal este o curb teoretic fundamental pentru Statistic i asupra ei vom reveni pe larg
ntr-unul din capitolele urmtoare;
11
La nivelul acestui prim capitol simetria/asimetria unei distribuii de frecvene s-ar putea defini astfel: spunem c
o distribuie este simetric atunci cnd clasele cu cele mai mari frecvene se grupeaz spre mijlocul intervalului total
de variaie; dimpotriv, distribuia este asimetric atunci cnd clasele cu frecvene mari se grupeaz spre
extremitile intervalului total de variaie (fie n zona valorilor mici, fie n cea a valorilor mari).
12
Noiunea de mod sau valoare modal a unei distribuii statistice va fi discutat n capitolul urmtor.
21
22
1
1 + 2
* a(Mo)
-f
-f
=f
=f
unde 1 (Mo) (Mo-1) , iar 2 (Mo) (Mo+1) . Simbolurile folosite reprezint:
Mo - modul;
li(Mo) - limita inferioar a clasei modale;
f(Mo) - frecvena clasei modale;
f(Mo-1) - frecvena clasei de dinaintea celei modale (clasele fiind ordonate cresctor);
f(Mo+1) - frecvena clasei de dup cea modal;
a(Mo) - amplitudinea clasei modale.
23
Prin comparaie cu celelalte valori centrale, modul prezint unele avantaje, dar i unele
dezavantaje.
Avantaje:
este singura valoare central care poate fi determinat n cazul caracteristicilor
calitative nominale - de aceea este deosebit de important pentru geografie, unde se lucreaz
deseori cu date de acest tip;
este util atunci cnd se urmrete reliefarea unei trsturi dominante a
fenomenului analizat pe baza datelor de observaii - de ex. suprafaa lacurilor dintr-un teritoriu,
sau numrul de locuitori/comun, unde modul poate indica predominarea unei categorii sau
alteia de mrime. n felul acesta modul poate fi expresia unei structuri spaiale ce
caracterizeaz o regiune, cci el poate traduce o dominant n climat, peisaj, economie etc.
(Chadule, 1974).
Dezavantaje:
ntruct este legat numai de frecven, modul nu reuete s caracterizeze
suficient o distribuie;
poziia i, eventual, numrul claselor modale13 depind foarte mult de modul de
grupare n clase; o schimbare a numrului de clase sau a limitelor acestora poate provoca
modificri dramatice n acest sens;
la unele distribuii statistice este posibil ca modul s nu existe, altfel spus nu se
pune n eviden o valoare, sau o clas modal, cu frecven maxim;
prin felul cum se determin, valoarea modal nu posed caliti aritmetice bine
definite i, deci, nu poate fi preluat n calcule ulterioare pentru derivarea unor caracteristici
suplimentare ale distribuiilor statistice.
2.1.2. Mediana (valoarea median) (Me)
Mediana este valoarea situat la mijlocul irului de modaliti ordonate cresctor (sau
descresctor, n unele cazuri), mprindu-l n dou jumti egale, astfel nct jumtate din
valorile irului se afl deasupra, iar jumtate dedesubt.
Ea mai este numit medie probabil, n sensul c exist o probabilitate de 0,5 (sau
50%) ca o valoare oarecare din ir s fie inferioar/superioar medianei.
n cazul irurilor de valori individuale (caracteristici cantitative discrete) mediana se
calculeaz diferit, dup cum numrul de valori din ir (n) este par sau impar:
Me =
x k + x k +1
2
n = 2k (numr par):
,
adic mediana este media aritmetic a celor dou valori din mijlocul irului;
n = 2k+1 (numr impar): Me = x k +1 ,
adic mediana este chiar valoarea din mijlocul irului.
n cazul distribuiilor cu clase de frecvene avem de-a face cu o clas median, care
este prima clas (n sensul, cresctor sau descresctor, al ordonrii claselor) la care frecvena
cumulat depete 50%. Pentru determinarea medianei se iau n considerare caracteristicile
acestei clase, precum i frecvena cumulat a clasei anterioare. Formula de calcul este
urmtoarea:
Me = l i(Me) +
a(Me)
f (Me)
(50% - f c(Me-1) )
, unde
Me - mediana;
13
Distribuiile cu un singur maxim de frecven (un singur mod) se numesc distribuii unimodale; n cazul
distribuiilor bi- sau plurimodale vom avea un mod principal i unul, respectiv mai multe moduri secundare.
24
| x i - A |= minim
i=1
, dac A este mediana14.
x=
i=1
,
unde n este numrul de valori din ir.
Pentru distribuiile de frecvene acest parametru se calculeaz ca medie a centrelor de
clas ponderate cu frecvenele aferente claselor respective:
14
n cazul variabilelor calitative ordinale (pentru care se poate calcula, de asemenea, o valoare median) relaia de
minim nu mai are sens.
15
n analizele statistice se vehiculeaz i alte tipuri de medii, n afara celei aritmetice (care rmne, totui, cea mai
important), cum ar fi: media geometric, media ptratic, media armonic, media glisant .a. Din motive de
economie a limbajului n expunerea ulterioar termenul medie se va referi exclusiv la media aritmetic, urmnd
ca pentru alte tipuri de medii termenul s fie nsoit de determinativul specific.
25
n
xi * f i
i
=
x = 1n
fi
i=1
( xi - x ) = 0
i=1
3. dac y este media unui alt ir i di sunt diferenele (xi - yi), atunci
n
di
x = y + i=1 = y + d
n
Aceast proprietate este util, spre exemplu, n climatologie i hidrologie pentru prelungirea
irurilor de observaii.
4. suma ptratelor abaterilor valorilor din ir de la media lor aritmetic este minim:
n
2
( xi - A ) = minim
i=1
, dac A = x .
Aceast proprietate este larg utilizat n calculele ulterioare implicate de analizele distribuiilor
statistice.
Dezavantajul mediei aritmetice este c, ntruct ia n consideraie ordinul de mrime al
tuturor valorilor, devine sensibil la valorile foarte mari sau foarte mici. Aceste valori extreme
pot fi deseori puin semnificative, excepionale sau chiar aberante (erori grosiere de observaii
sau msurtori). n felul acesta media nu mai reflect corect tendina central a distribuiei
statistice.
Pe de alt parte, media comprim excesiv valorile extreme, comparativ cu cele aflate
mai spre centrul repartiiei. La distribuiile simetrice faptul acesta conteaz mai puin, ns la
cele cu asimetrie pronunat situaia se schimb.
Exemplu. ntr-o zon cu climat arid irul de precipitaii anuale (n mm) nregistrate pe 10 ani consecutiv
etaleaz urmtoarele valori:
0; 10; 0; 0; 100; 20; 250; 0; 0; 20.
Valorile ordonate cresctor, pentru determinarea modului i a medianei:
0; 0; 0; 0; 0; 10; 20; 20; 100; 250.
Valorile centrale sunt: Mo = 0 mm; Me = 5 mm; x = 40 mm.
Este clar ca mediana, i chiar modul, reflect mai corect condiiile pluviometrice din deert; fa de
acestea media este tras n sus de ctre cele dou valori foarte mari. Rezult de aici i dezavantajul de a folosi o
singur valoare central pentru caracterizarea unei distribuii.
| xi - x |
i
=
1
ea =
n
16
Atunci cnd se dorete o analiz mai detaliat a modului cum sunt repartizate valorile n interiorul intervalului
total de variaie, irul poate fi mprit n mai mult de 4 pri egale. Valorile care delimiteaz aceste subiruri sunt
cunoscute sub denumirea generic de cuantile. Exemple de cuantile: median, cuartile, decile (mpart irul iniial n
10 pri egale), centile (mpart irul n 100 de pri) etc.
27
| xi - x | f i
i
=
1
ea =
n
fi
i=1
2
( xi - x )
2 i=1
=
n
2
( xi - x ) f i
2 i=1
=
n
fi
i=1
Deci problema semnului abaterilor este rezolvat (corect, din punct de vedere matematic) prin
ridicarea acestora la ptrat. n schimb, semnificaia concret a indicelui este alterat de faptul c
unitatea de msur a mrimii pe care o exprim (de ex. C, loc/km etc.) este i ea ridicat la
ptrat. O cale simpl de nlturare a acestui neajuns o constituie extragerea rdcinii ptrate din
varian, obinndu-se cel de-al treilea parametru i anume
abaterea standard (sau deviaie standard, abatere medie ptratic, ecart-tip) ()
reprezint, deci, rdcina ptrat a varianei unei distribuii:
n
2
( xi - x )
= 2 = i=1
n
,
28
x100
;
variabilitatea relativ - raportul procentual dintre abaterea absolut medie i media
aritmetic:
ea
x
x100
;
coeficientul de variaie (notat de regul cu CV), ca raport procentual dintre abaterea
standard i medie:
CV =
x100
.
Cei trei indici au avantajele/dezavantajele mrimilor ce intr n calcul. Prin urmare
coeficientul de variaie este, potenial, cel mai potrivit pentru a fi utilizat n prelucrri ulterioare.
*
* *
Atunci cnd se analizeaz un set de date se pune problema alegerii parametrilor statistici
care s corespund cel mai bine scopurilor analizei statistice. Fr a exista nite reguli precise,
alegerea parametrilor de calculat trebuie s in cont de urmtoarele aspecte:
- n general este bine s se calculeze toate cele trei valori centrale: Mo (dac avem o
distribuie de frecvene), Me i x , ntruct cu ajutorul lor poate fi evaluat asimetria distribuiei:
i) x 0 < Me < Mo - asimetrie de dreapta, sau negativ;
ii) x 0 > Me > Mo - asimetrie de stnga, sau pozitiv;
iii) x 0 Me Mo - distribuie cvasi-simetric.
- scopul prelucrrii datelor, ca i faptul dac rezultatele urmeaz, sau nu, s fie preluate
n calcule ulterioare. Dac se urmrete doar descrierea i caracterizarea sintetic a unor
ansambluri de date pentru a facilita nelegerea unor fenomene, atunci modul sau mediana,
mpreun cu abaterea medie, abaterile cuartile i, eventual, variabilitatea relativ vor fi
suficiente, avnd n vedere i faptul c aceti indici sunt mai intuitivi (deci mai uor de pus n
relaie cu fenomenul descris). Pentru analize statistice mai complexe, ns, utilizarea mediei i a
indicilor care au la baz media este obligatorie;
- natura datelor supuse prelucrrilor, altfel spus tipul de caracteristic a crei distribuie
statistic se vrea a fi analizat. Conteaz, deci, dac avem de-a face cu o carecteristic calitativ
nominal sau ordinal, una cantitativ discret sau una cantitativ continu, ntruct, aa cum
s-a vzut anterior, posibilitatea i modul de calculare a parametrilor statistici difer de la un tip
la altul;
- nivelul de nelegere a beneficiarului rezultatelor analizei. Este clar c un beneficiar
fr cunotine de statistic va prefera un material mai bogat n ilustraii, fr prea multe
formule i indici (cifre) ale cror semnificaii sunt mai greu de evaluat i interpretat;
- prezena/absena calculatorului, ntruct, aa cum s-a vzut, determinarea unora dintre
indici presupune calcule laborioase.
2.3. Parametrii formei
Aa cum s-a menionat, aceti parametri se refer n primul rnd la forma poligoanelor
(curbelor) frecvenelor. Utilizarea lor n geografie este mai puin frecvent, deoarece capacitatea
29
lor descriptiv este mai redus comparativ cu ali indici statistici. Totui, parametrii de form
sunt foarte utili atunci cnd se urmrete compararea unei distribuii empirice (alctuit pe baza
unui eantion) cu o distribuie teoretic susceptibil de analogii cu distribuia eantionului.
2.3.1. Indici de asimetrie
Indicii (coeficienii) de asimetrie exprim numeric msura n care maximul de frecven
al unei distribuii este deplasat, spre stnga sau spre dreapta, fa de centrul intervalului de
variaie al caracteristicii. Din multitudinea indicilor de asimetrie
oferii de literatura de specialitate prezentm aici doar doi, a cror
utilizare este mai frecvent.
coeficientul Pearson - se calculeaz doar pentru distribuiile de
frecvene, deoarece ia n considerare modul:
As =
x - Mo
3
( xi - x )
1 = i=1
n 3
Acest indice poate fi pozitiv, negativ sau nul, interpretarea asimetriei fcndu-se la fel ca n
cazul coeficientului Pearson.
2.3.2. Indici de exces (de aplatizare)
Sunt indici care exprim numeric gradul de aplatizare a curbei de distribuie, aplatizare ce
depinde de gradul de concentrare a valorilor caracteristicii n apropierea maximului de
frecven; altfel spus, de diferena dintre frecvena clasei modale i cea a claselor din
apropiere - cu ct diferena este mai net, cu att curba va fi mai ascuit i invers.
30
4
( xi - x )
-3
2 = i=1
4
n
31
x i = 0
xi
32
x i =
xi - x
.
O proprietate important a unei variabile reduse este aceea c abaterea sa standard este egal cu
unitatea: x = 1.
Prin urmare o variabil standardizat (centrat + redus) este o variabil a crei medie
este ntotdeauna 0 i a crei abatere standard este ntotdeauna 1. Valorile standardizate exprim
abaterile valorilor variabilei originale de la media lor aritmetic, abateri care sunt msurate n
numr de abateri standard. n felul acesta dispar unitatea de msur, dispersia i ordinul de
mrime ale variabilei i devine posibil compararea direct cu alt/alte variabile standardizate,
ntruct ele vor avea aceeai medie (0), aceeai dispersie (1) i difer numai prin mrimea
abaterilor valorilor lor de la medie.
3.2. Transformarea
33
S-a menionat anterior c unul din scopurile prelucrrii datelor de observaii sub form
de distribuii de frecvene este acela de a face comparaii ntre distribuia (i curba aferent )
empiric i una teoretic, fixat ca model de referin. Similitudinea de form a celor dou
tipuri de curbe (empiric i teoretic) este foarte important, cci ea ofer nite posibiliti de
analiz statistic complex i aprofundat n urma creia se pot trage multe concluzii de ordin
tiinific. La originea multor astfel de analize se afl tocmai curba normal, cu proprietile sale.
Dar ce este distribuia normal?
Toate distribuiile de frecvene empirice, adic alctuite pornind de la date reale, se
bazeaz pe un numr finit (chiar dac foarte mare, uneori) de cazuri. n matematic ns, unele
generalizri cu privire la distribuiile de frecvene se pot face mai uor dac se admite c
respectivele distribuii au la baza o infinitate de valori, deci i o infinitate de clase. Histogramei
frecvenelor i corespunde n acest caz un poligon al frecvenelor ce apare sub forma unei curbe
netezite care poate fi uor descris cu ajutorul ecuaiilor matematice. O asemenea curb este
i cea normal.
La o histogram a frecvenelor aria unui dreptunghi este proporional cu frecvena
clasei corespunztoare. Acest fapt este valabil i n cazul distribuiei normale, a crei curb de
distribuie trece prin captul superior al unui numr foarte mare (la limit, infinit) de
dreptunghiuri de lime foarte mic (la limit, egal cu 0), avnd drept rezultat netezirea curbei.
n acelai timp, se admite c suprafaa total a tuturor dreptunghiurilor este egal cu unitatea
(sau 100%), ceea ce nseamn c aria cuprins ntre curba normal i abscis este deasemenea 1
(sau 100%).
Curba normal este o curb simetric, unimodal i cu o alur specific care-i confer
aspectul de clopot (clopotul lui Gauss). Relaia matematic ce o definete este urmtoarea:
y=
(x - x )2
e 2 2
-
n care:
1
2
2
-u
e 2
=u
34
Probabilitatea este egal cu valoarea-limit spre care tinde o frecven , atunci cnd numrul elementelor din
populaia originar tinde spre infinit.
35
n sens strict procentul 100% nu este niciodat atins, cci curba normal nu atinge
niciodat axa Ox, ci se apropie asimptotic de aceasta.
S observm c n figur ordonatele care delimiteaz suprafeele de sub curb
corespund unor multipli ntregi (1,2,3) de . O imagine mult mai complet se obine atunci cnd
suprafeele de sub curb vor fi precizate pentru un numr mai mare de ordonate, crora le vor
corespunde valori intermediare n (n - numr real). Aceste suprafee procentuale (sau
probabiliti), ca i cele corespunznd probabilitilor cumulate ascendent, au fost calculate i
sunt trecute n tabele speciale, larg utilizate n cursul prelucrrilor statistice (vezi Anexele I i
II).
Cu ajutorul unor asemenea tabele pot fi rezolvate patru tipuri de probleme (firete, n
ipoteza c distribuia empiric urmeaz o lege normal de repartiie):
1 determinarea probabilitii cazurilor mai mici ca o anumit valoare dat, numit
valoare critic (probabilitate de nedepire sau asigurare de nedepire), respectiv mai mari
sau egale ca valoarea respectiv (asigurare de depire).
Exemplu. Pentru irul de temperaturi medii anuale la staia Iai, perioada 1961-1992, sau calculat x = 9,42C i = 0,82C. n ipoteza c distribuia variabilei este una normal, s se
determine probabilitile procentuale de apariie a unor valori de temperatur mai mici de 10C,
respectiv mai mari de 10C.; sau, folosind simbolurile matematice uzuale n statistica
matematic, s se determine P(x < 10C), respectiv P(x 10C).
Pentru a putea utiliza tabelul din Anexa I trebuie mai nti s standardizm valoarea critic
x - x 0,58
u= i =
= 0,71
0,82
36
x -x
se scoate
- din formula
x = u + x = 0,840,82 + 9,42 = 10,1C.
De notat c distribuia normal este doar una (chiar dac cea mai cunoscut i uzitat)
dintre distribuiile teoretice ale cror proprieti pot fi valorificate n analizele statistice.
Menionm alte cteva distribuii teoretice care pot fi utilizate cu succes n analiza datelor
geografice:
a) distribuia log-normal, sau a lui Galton - este o variant a legii normale, n sensul c
dac X este o variabil ale crei valori xi urmeaz o
distribuie log-normal, atunci valorile log(xi) urmeaz o
distribuie normal.
Curba
log-normal
prezint
o
asimetrie
caracteristic de stnga, destul de accentuat (vezi fig.4.3).
Distribuia log-normal este potrivit, de exemplu, pentru
aproximarea distribuiei de frecvene a precipitaiilor zilnice
(variabilitate accentuat i multe valori mici, sau chiar nule,
corespunztoare zilelor fr precipitaii, care trag Figura 4.3. Curba distribuiei logmaximul de frecven, adic Mo, spre stnga);
normale.
b) distribuia binomial - este una din distribuiile teoretice fundamentale n statistica
inferenial, alturi de cea normal. Spre deosebire de distribuia normal, cea binomial se
aplic, ndeobte, variabilelor discrete. Ea aproximeaz distribuia statistic a unei variabile
(discrete) ale crei valori se grupeaz, n funcie de un criteriu sau o valoare critic dat, n dou
categorii care se exclud reciproc, iar suma probabilitilor ce corespund celor dou categorii este
egal cu probabilitatea total (1 sau 100%). Spre exemplu, un ir de aruncri ale unei monede:
fiecare eveniment individual (aruncare) poate s aparin la 1 din 2 categorii: capul sau pajura,
37
niciodat i una i alta, iar suma frecvenelor (probabilitilor, n cazul unui numr infinit de
aruncri) d numrul total de evenimente (respectiv probabilitatea 1 sau 100%).
c) distribuia Poisson este o distribuie creia i se supun variabilele cantitative (tot
discrete) ale cror valori au o frecvena de producere foarte mic (n timp sau spaiu), motiv
pentru care mai este numit i distribuia evenimentelor rare. Exemple de astfel de variabile:
numr de viituri n sezonul cald; numr de zile cu
nghe timpuriu/trziu (dintr-o perioad multianual)
.a.
Caracteristica distribuiei Poisson o constituie
egalitatea a doi parametri de baz: media aritmetic i
abaterea standard. Curba de distribuie este de regul
asimetric, dar asimetria scade odat cu creterea
frecvenei de producere a acelor evenimente rare
(fig.4.4).
De remarcat, n final, c legea (distribuia) Figura 4.4. Curba distribuiei Poisson
normal rmne una fundamental, de vreme ce ea pentru diferite valori ale mediei .
aproximeaz destul de bine alte distribuii teoretice
(ca cea binomial sau Poisson) n condiiile n care numrul de valori ale variabilei studiate este
suficient de mare, sau frecvena de producere a unor evenimente crete suficient de mult.
4.2. Caracteristicile eantioanelor (sondajelor)
Este clar c parametrii adevrai (de ex. adevrata medie, adevrata ) pot fi cunoscui
cel mai adesea doar prin intermediul celor de sondaj, care, n acest caz, reprezint o estimare a
parametrilor populaiei. Precizarea tipului de parametru la care ne referim se face cu ajutorul
unor simboluri (notaii) specifice:
= adevrata medie (a populaiei);
= adevrata abatere standard (a populaiei);
x = media eantionului (de sondaj);
s = deviaia standard de sondaj
Este necesar ca nainte de a proceda la o evaluare a diferenelor dintre diferite seturi de
date (eantioane), sau la formularea unor concluzii bazate pe parametrii de sondaj, s tim cte
ceva despre relaiile dintre cele dou tipuri de parametri.
38
Parametrii care caracterizeaz o populaie sunt nite valori fixe (stabile) i sunt de
regul, necunoscui. Spre exemplu, vrsta medie a populaiei studenilor de la Universitatea Iai
n anul colar 2003/2004 este un parametru cu o valoare anume, stabil n intervalul temporal de
definiie a populaiei; aceast valoare poate fi cunoscut printr-un efort de inventariere a tuturor
studenilor, dar ea poate fi i estimat cu ajutorul unor eantioane extrase din populaia
respectiv.
Prin comparaie cu parametrii populaiei, cei de sondaj variaz de la un eantion la altul
extrase din una i aceeai populaie. n exemplul de mai sus, este de ateptat ca pentru 10
eantioane aleatoare prelevate din populaia de studeni s obinem 10 vrste medii diferite,
chiar dac foarte apropiate ntre ele. Parametrii de sondaj sunt mrimi cunoscute (sau
calculabile) i acest fapt, combinat cu dificultatea - chiar imposibilitatea, uneori - cunoaterii
parametrilor adevrai (ai populaiei), evideniaz importana cunoaterii legturii dintre cele
dou tipuri de parametri. Altfel spus, este important s tim ct de reprezentativ este un eantion
pentru populaia din care este extras, sau cu ce grad de precizie reuete un parametru de sondaj
s aproximeze (estimeze) corespondentul su adevrat.
Din punctul de vedere al statisticii inductive, un eantion reprezint o seciune real i
reprezentativ - att ct permite mrimea sa - prin populaia studiat. Ideal ar fi ca prelevarea
elementelor pentru constituirea eantionului s fie pur aleatoare pentru a asigura
reprezentativitatea - i exist metode i reguli care asigur aceast cerin fundamental (vezi
Anexa IX). n multe cazuri, totui, inclusiv n analizele geografice, selecia aleatoare este fie
imposibil, fie neconvenabil din diverse motive; dar i n aceste cazuri exist reguli de selecie
care s asigure reprezentativitatea eantionului fa de populaia originar. ntruct, ns,
conceptele generale ale statisticii inductive pot fi cel mai bine explicate n termenii sondajului
aleator, n continuare vom adopta aceast premis
pentru abordarea problemelor de prezentat.
tiind c un sondaj este aleator, factorul
major care controleaz relaia dintre parametrii
populaiei i cei ai eantionului este mrimea
eantionului. Pentru a intui cum acioneaz acest
factor, s revenim puin la curba de distribuie
normal.
Aspectul curbei este determinat de frecvena
Figura 4.5. Curbele distribuiilor de
fiecrei valori individuale, ca i de , x fiind plasat frecvene ale mediilor eantioanelor de
central. S presupunem acum c valorile individuale diferite mrimi.
au fost grupate n eantioane aleatore de cte 10
itemuri, iar pentru fiecare eantion s-a calculat x .
Distribuia de frecvene a mediilor eantioanelor va fi deasemenea una normal, avnd
aceeai medie ca distribuia iniial, dar mai mic, de aici rezultnd forma diferit a curbei
(vezi fig.4.5, n = 10). Acest fapt este firesc, cci selecia aleatoare a itemurilor pentru fiecare
eantion face puin probabil extragerea unor valori situate,toate, de o singur parte a mediei
generale, iar prin medierea celor 10 itemuri amplitudinea de variaie (deci i deviaia standard) a
mediilor din 10 itemuri va fi mai sczut ca amplitudinea de variaie (respectiv deviaia
standard) a valorilor individuale iniiale. n plus, se poate intui uor c o cretere n continuare a
numrului de itemuri din eantioane va cauza o scdere proporional a deviaiei standard a
distribuiei mediilor de sondaj respective (vezi fig.4.5, n = 20), curba de distribuie devenind din
ce n ce mai ascuit, iar mediile mai strns grupate n jurul mediei generale.
39
Concluzia: variana (deci i deviaia standard) distribuiei mediilor de sondaj este n relaie cu
numrul de itemuri din eantion, iar aceast relaie se poate scrie astfel18:
2
2= ,
n=
n
n
n , deci
2
n care n , n = variana, respectiv abaterea standard a mediilor eantioanelor de cte n itemuri;
2 , = variana, respectiv abaterea standard ale distribuiei normale (cu valori individuale); n =
volumul eantioanelor.
Aceast relaie este foarte important pentru interpretarea rezultatelor obinute prin
prelucrarea datelor de sondaj. Astfel, dac mediile eantioanelor alctuiesc o distribuie
normal, atunci, date fiind proprietile curbei normale, exist o probabilitate foarte sczut
(0,3%) ca media oricrui eantion s difere de media general (adevrat, pentru c s-au luat
n calcul toate itemurile individuale) cu mai mult de 3 , adic 3( / n ) ; sau, este puin
probabil (probabilitatea 5%) ca respectiva medie s difere de media general cu mai mult de
2( / n ) . Dac aa stau lucrurile, atunci i reciproca este adevrat, adic: dac este cunoscut
media unui eantion, atunci, este foarte puin probabil (probabilitate 0,3%) ca media general
(adevrat) s difere de media de sondaj cu mai mult de 3( / n ) , sau este puin probabil
(probabilitatea 5%) s difere cu mai mult de 2( / n ) .
Cu alte cuvinte, dac se obine media unui eantion, este posibil s se precizeze limitele
ntre care se va situa, cu o anumit probabilitate, media adevrat (a populaiei din care provine
eantionul). Adic:
( x-
( x -2
( x -3
,x+
( x - u p%
,x+ 2
,x+3
, cu o probabilitate de 68,26%;
)
n , cu o probabilitate de 95,45%;
, cu o probabilitate de 99,74%;
, x + u p%
40
(s - u p%
2n
, s + u p%
2n
2n ,
, iar
up% fiind abaterea s de la , exprimat n numr de s i corespunznd unei probabiliti date.
4.2.2.Eantioane mici
corecie, cunoscut sub denumirea corecia lui Bessel este de forma n - 1 i ea transform s
n cea mai bun estimaie a , notat cu . Atunci cnd corecia Bessel este introdus n
formula de calcul a deviaiei standard se obine direct cea mai bun estimaie a :
=
2
( xi - x )
n-1
.
n exemplu cu vrsta medie a studenilor:
= s *
n
n-1
= 2,5 *
50
49
0.
Diferena dintre s i 0 este foarte mic (0,02), i aceasta pentru c volumul eantionului
(50) este destul de mare. ntr-adevr, dac examinm formula coreciei lui Bessel intuim c, cu
n/(n - 1)
se apropie de 1; pe msur, ns ce n
ct eantionul este mai mare, cu att valoarea
scade, valoarea coreciei devine considerabil mai mare ca 1, afectnd mrimea ES. Este clar,
deci, c n cazul eantioanelor mici (n<30, de regul) este mai corect s se lucreze cu i nu cu
s.
La eantioanele mici, ns, mai apare o problem. Datorit aplicrii coreciei, distribuia
mediilor mai multor eantioane, chiar dac pstreaz aceeai medie ca i populaia originar,
va avea o deviaie standard ce nu mai confer distribuiei caracteristicile unei curbe normale.
Aceasta nseamn c valorile de probabilitate i, n general, proprietile curbei normale nu mai
pot fi aplicate la un eantion mic, chiar dac populaia din care provine acesta urmeaz o
distribuie normal. n locul ei se folosete o alt distribuie teoretic numit distribuia t a lui
Student. Curba de distribuie t este ceva mai aplatizat dect cea normal i mai efilat la
capete (fig.4.6).
41
, x + t p%
n
multiplic ES x - deci
cu o probabilitate p% hotrt dinainte.
curba
= s
b) tot cu proprietile curbei normale, dar innd cont de corecia Bessel:
n
n-1
= 25 1,11 = 26,34
deci
95% ( x -2
,x+2
)
n
n (350-28,3, 350+28,3) (333,4366,6);
c) innd cont c lucrm cu un eantion mic, deci folosind proprietile distribuiei t (vezi Anexa III;
intrarea n tabel se face cu probabilitatea dat i cu numrul gradelor de libertate19, care aici este egal cu n-1, adic
9):
)
, x +t 95%;n -1
95% ( x -t 95%;n -1
n 0 (350-2,38,3, 350+2,38,3) (330,9369,1).
n
Examinnd cele trei rezultate constatm c prin considerarea regulilor statistico-matematice de prelucrare,
mrimea intervalului a crescut sensibil, ceea ce nseamn c pentru eantioanele mici se iau o serie de precauii
suplimentare atunci cnd se estimeaz valoarea unui parametru adevrat, precauii care conduc, n ultim instan,
la lrgirea intervalului de ncredere.
Reiese din cele spuse referitor la eantioane c mrimea intervalului n care se afl
parametrii populaiei (, ) este controlat de:
- nivelul de probabilitate fixat (direct proporional);
- s (direct proporional);
- mrimea (volumul n) eantionului (invers proporional).
19
42
Dintre aceste variabile una (s) este dependent de datele eantionului . Rmn celelalte
dou, care pot constitui elemente de alegere deliberat n funcie de scopul i natura analizei i
de gradul de acuratee cerut.
S presupunem c intervalul n care se afl , cu o probabilitate dat, ni se pare prea larg
i dorim s-l restrngem, ba chiar s-i fixm dinainte limitele. Acest lucru este posibil prin
creterea volumului eantionului pn la un anumit numr de valori. Dar cte?
Rezolvarea problemei e destul de simpl. Intervalul are forma general
( x - u p% ES x , x + u p% ES x ) _ ( x - u p%
, x + u p%
.
Pentru a fixa dinainte limitele intervalului dm valoarea necesar expresiei care se adun i se
scade din media aritmetic:
C = u p%
u p%
=C
z 47,5% *
2 * 26,34
b) lipsa unei sigurane depline face ca la verificarea unei ipoteze statistice s fie posibile
dou tipuri de erori:
- respingerea ipotezei, atunci cnd, n realitate, ea este adevrat. Acest tip de eroare este
cunoscut sub numele de eroare de ordinul I i ea afecteaz cerectarea tiinific prin aceea c
nu permite nite generalizri inductive care, ulterior, ar putea deveni puncte de plecare pentru
demersul cognitiv complementar, adic cel deductiv;
- acceptarea ipotezei, n condiiile n care n realitate ea este fals (eroare de ordinul
II). Acest tip de eroare este mult mai periculos pentru cercetarea tiinific, cci furnizeaz
generalizri false care, apoi, constituie puncte de plecare pentru demersul deductiv, erorile
propagndu-se n lan de-a lungul spiralei inductiv-ipotetico-deductive care st la baza
progresului tiinific.
Este remarcabil faptul c, de regul, ipotezele formulate n practica cercetrii tiinifice
au tendina de a se baza pe nite diferene observate n urma prelucrrii datelor de sondaj diferene crora spiritul analitic, nclinat prin natura sa spre discriminri, ncearc instinctiv s le
gseasc explicaii raionale, adesea foarte ingenioase. Dac, ns, diferenele observate se
datoreaz doar ntmplrii (eantioanele fiind alctuite dup regulile seleciei aleatoare), atunci
crete riscul unei erori de ordinul II, adic acela al acceptrii unei ipoteze de lucru care n
realitate este fals. Tocmai pentru a preveni o asemenea situaie, n practica verificrii ipotezelor
statistice se opereaz cu ipoteza care, din punct de vedere logic, reprezint o negaie a ipotezei
curente de lucru - altfel spus, cu ipoteza care neag existena acelei (acelor) diferene observate,
pe baza crora cercettorul ar fi nclinat s construiasc eafodajul explicativ. Aceast ipotez
invers este cunoscut n statistica inferenial sub denumirea de ipoteza nul (a diferenei nule)
notat H0. n raport cu ea ipoteza curent de lucru devine o ipotez alternativ (H1), care va fi
acceptat doar dac, n urma operaiunii de testare, ipoteza nul este respins.
Testarea ipotezei nule n locul celei alternative are ca principal avantaj micorarea, n ce
privete ipoteza de lucru, a riscului erorii de ordinul II (mai nociv pentru demersul tiinific,
dup cum am vzut), chiar dac crete corespunztor riscul unei erori de ordinul I.
4.3.2. Teste statistice
Un test statistic este un criteriu (ntr-un sens mai larg - o tehnic) pentru
verificarea unei ipoteze statistice, constnd n calculul unei statistici i stabilirea
unei reguli prealabile de acceptare sau respingere a ipotezei nule H0, cu o
anumit probabilitate de a lua o decizie inexact.
Din definiie reiese c elementul central al unui test este statistica acestuia. Statistica testului
este o funcie de valorile concrete ale eantionului: f(x1,x2,..., xn).Ansamblul valorilor posibile
ale statisticii definete o variabil (caracteristic cantitativ continu) aleatoare a crei
distribuie statistic este utilizat pentru verificarea ipotezei nule.
Domeniul tuturor valorilor posibile ale unei statistici se mparte n dou regiuni disjuncte
i complementare (vezi fig.4.7):
a) regiunea de acceptare - o mulime de valori astfel nct, dac valoarea calculat a
statisticii aparine acestei regiuni, se accept i.n. H0;
b) regiunea de respingere (critic) - o mulime de valori astfel nct, dac valoarea
calculat a statisticii aparine acestei regiuni, se respinge i.n. H0.
Mrimea (vezi fig.4.7) se numete prag (nivel) de semnificaie al testului i reprezint
probabilitatea ca decizia de acceptare/respingere a i.n. H0 s fie eronat.
n funcie de concluzia testului interpretarea riscului de eroare se face astfel:
44
45
1 Definirea i.n. H0 i a i.a. H1. Aceast prim etap este extrem de important, cci o
formulare incorect a ipotezei nule H0 atrage dup sine lipsa de validitate a deciziei adoptate i a
interpretrii concluziilor testului. Hotrtoare este, aici, experiena cercettorului n ce privete
aplicarea testelor statistice, pe lng o bun cunoatere a problemelor implicate de ipoteza de
lucru.
2 Alegerea nivelului de semnificaie al testului. Dac inem minte c reprezint
probabilitatea de a lua o decizie neconform cu realitatea, atunci cu ct este mai mic, cu att
riscul de eroare este i el mai redus.
Cele mai frecvente valori adoptate pentru sunt 0,05, 0,01 i 0,001 (sau 5,1 i 0,1%),
3 Alegerea statisticii testului - adic alegerea variabilei aleatoare a crei lege de
repartiie (distribuie teoretic), cunoscut, s serveasc drept criteriu de decizie. Alegerea
statisticii nseamn, implicit, alegerea testului aplicabil n condiiile date, avnd n vedere c
testele statistice difer ntre ele n primul rnd prin statistica utilizat.
4 Stabilirea regiunii critice - adic stabilirea acelui domeniu al valorilor statisticii
pentru care, dac statistica calculat intr n acest domeniu, se respinge i.n. H0 (i se accept ca
adevrat i.a. H1), cu o probabilitate de a grei. Regiunea critic se identific cu ajutorul
tabelelor sau graficelor specifice pentru legea de repartiie (distribuia teoretic) urmat de
statistica testului, tabele sau grafice care sunt oferite n literatura de specialitate.
5 Luarea deciziei: acceptarea/respingerea ipotezei nule H0. Decizia luat permite o
serie de concluzii i interpretri ulterioare bazate pe generalizarea condiiilor sugerate de datele
de sondaj i pe informaii specifice domeniului din care provin datele respective. Importana
lurii unei decizii corecte nu trebuie, n acest caz, s mai fie subliniat .
n continuare prezentm cteva dintre cele mai uzitate teste statistice, grupate n dou
categorii: parametrice i neparametrice.
4.3.2.1. Teste parametrice
Majoritatea testelor parametrice presupun cunoscute media i/sau dispersia populaiilor
din care provin eantioanele analizate; deasemenea, ele admit unele presupoziii n legtur cu
distribuia statistic a populaiilor respective (de regul, distribuia normal). Vom prezenta
cteva teste parametrice, grupndu-le dup numrul de eantioane luate n considerare.
1. Cazul unui singur eantion. n acest caz testele parametrice se mai numesc i teste de
semnificaie (a unui parametru de sondaj, n raport cu parametrul adevrat) sau teste de
apartenen (a eantionului la populaia originar).
Practic, un asemenea test evalueaz semnificaia diferenei dintre un parametru de
sondaj ( x sau s) i adevratul parametru corespunztor (, respectiv ), considerat cunoscut.
Dac eantionul este suficient de mare (n>50, dar mai bine n>100) i se cunoate a
populaiei (normale) din care provine eantionul, atunci se poate aplica testul z.
Statistica acestui test este de forma:
z=
x-
/ n
Ea exprim, dup cum se observ, diferena dintre cele dou medii n numr de erori standard
ale x ; ca variabil aleatoare aceasta urmeaz, deasemenea, distribuia normal. Valoarea z
calculat o comparm cu cea teoretic (extras din tabelele distribuiei normale)
corespunztoare nivelului de semnificaie ales; dac valoarea calculat este mai mare ca
valoarea tabelat , atunci ea intr n regiunea critic i i.n. H0 va fi respins.
Exemplu. Un studiu efectuat de o grup de studeni de la Facultatea de Sociologie din Iai asupra
veniturilor populaiei din municipiu debuteaz cu prelevarea unui eantion aleator format din 100 de familii. Pe
46
baza eantionului se dorete estimarea veniturilor medii ale populaiei. ndrumtorul grupei de studeni are motive
s cread c eantionul prelevat nu este reprezentativ, n sensul c familiile cu venituri medii i mari sunt suprareprezentate comparativ cu cele care au venituri mici. Datele de recensmnt (lista complet a familiilor, cu
veniturile lor) furnizeaz = 120.000 lei i = 30.000 lei. Venitul mediu calculat pe baza eantionului este x 0 =
130.000 lei. Are ndrumtorul dreptate s cread c eantionul este nereprezentativ sau, altfel spus, c eantionul nu
aparine populaiei analizate? Dac da, atunci diferena dintre i x trebuie s fie statistic semnificativ.
Etapele de lucru:
definirea i.n. H0. Aceasta va fi ipoteza care neag (contrazice) ipoteza cu care s-a pornit la verificare,
adic aceea c eantionul este nereprezentativ. Prin urmare i.n. H0 se va formula astfel: nu exist o diferen
semnificativ ntre i x , fa de i.a.H1: < x ;
alegerea nivelului de semnificaie - s zicem 5%;
calcularea statisticii testului:
z=
x-
/ n =
130.000 - 120.000
30.000/ 100
10.000
= 3000 = 3,33
stabilirea regiunii critice: ntruct a fost precizat sensul diferenei dintre i x , avem de-a face cu un test
unilateral, n cazul cruia regiunea critic corespunde unui prag de probabilitate de %. n tabelul distribuiei
normale (Anexa I) unei probabiliti de 95% i corespunde o valoare u 1,65.
deoarece valoarea z calculat este mai mare dect valoarea u tabelat , conchidem c diferena ntre i
x este semnificativ i, deci, respingem i.n. H0. Prin urmare, exist o probabilitate de 95%20 ca eantionul s fie
nereprezentativ pentru populaia din care a fost extras, rmnnd un risc de eroare de 5% atunci cnd facem aceast
afirmaie.
Se pare, deci, c profesorul avea dreptate...
Dac eantionul este mic (n<30) i nu cunoatem pe , atunci n locul testului z putem
folosi testul t bazat pe distribuia omonim a lui Student. Statistica acestuia este asemntoare
cu cea a testului z, cu deosebirea c n locul erorii standard a mediei, bazat pe
(necunoscut, n acest caz), se calculeaz eroarea standard a mediei pe baza celei mai bune
estimaii a : ES x = / n . Dac nlocuim pe cu formula de calcul ce include corecia Bessel,
atunci dup cteva transformri aritmetice obinem expresia de la numitorul statisticii testului
t:
2
( xi - x ) /(n - 1)
n
( xi - x )
n(n - 1)
2
=
2
( x i - x ) /n
n-1
s
n-1
x-
s/ n - 1
.
Dup cum se observ, nu mai este nevoie s se calculeze cea mai bun estimaie a , calculul
abaterii standard de sondaj fiind suficient.
Statistica testului urmeaz o distribuie uor diferit de cea normal. ns una dintre
presupoziiile acestui test este aceea c populaia din care provine eantionul urmeaz o lege de
distribuie normal; presupoziia trebuie verificat, mai ales atunci cnd volumul eantionului
este mic (cazul de fa).
20
n tabelul distribuiei normale sunt incluse probabilitile ca o valoare oarecare s fie mai mic, sau cel mult egal
cu valoarea u corespunztoare (reamintim c valorile u sunt valorile standardizate ale variabilei distribuite normal).
Pe de alt parte, statistica z a testului este i ea tot o variabil standardizat, repartizat normal, ale crei valori pot
fi comparate direct cu valorile u din Anexa I.
47
2
| x 1- x
2
1
2
2
+
n1 n2 ,
iar eroarea standard a acestei diferene va fi rdcina ptrat a varianei:
2
ES|x1 - x2|=
+ 2
n1 n 2
.
Aceast eroare standard este folosit, ca i la testele anterioare, pentru standardizarea
(normarea) diferenei dintre mediile de sondaj, astfel nct aceasta s nu fie exprimat n
valori absolute, ci n numr de erori standard.
Avnd n vedere toate acestea, statisticile celor dou teste se vor modifica, n cazul a
dou eantioane, n felul urmtor:
testul z, care se aplic atunci cnd eantioanele au volum mare (n>30), iar abaterile
standard ale celor dou populaii (normale) din care provin eantioanele sunt cunoscute:
z=
x1 - x 2
2/ + 2/
1 n1 2 n 2
testul t, recomandat atunci cnd eantioanele au volum mic (n<30), iar abaterile
standard ale celor dou populaii (normale) nu sunt cunoscute - situaie n care se lucreaz cu
cele mai bune estimaii ale acestora:
t=
x1 - x 2
2
1 / n1 + 2 / n 2
Exemplu (dup Gregory,1968). n cadrul unui studiu comparativ asupra a dou bazine carbonifere se aleg
la ntmplare, din fiecare bazin, cte 10 puncte de extracie (mine), mpreun cu produciile acestora ntr-o perioad
dat. Se cere s se stabileasc dac ntre cele dou bazine exist o diferen statistic semnificativ n ce privete
2
2
= 2 22
2
producia de crbune per min (deci, dac 1
), admind c dispersiile populaiilor sunt egale ( 1
) .
Parametrii de sondaj implicai n aplicarea testului t sunt:
21
Dou eantioane extrase din aceeai populaie se numesc independente atunci cnd constituirea unuia dintre ele,
dup regulile sondajului aleator, nu influeneaz n nici un fel constituirea celuilalt.
22
Dac se accept ipoteza de inegalitate a dispersiilor, atunci aplicarea testului t se face dup un algoritm
ntructva diferit de cel prezentat mai jos; principala diferen const n modul de calculare a gradelor de libertate
pentru statistica testului, cu ajutorul unor formule ce iau n consideraie dispersiile de sondaj.
48
49
3. Cazul mai multor eantioane. Pentru testarea diferenelor dintre mediile a mai mult de dou
eantioane se utilizeaz testul F al lui Snedecor (testul raportului varianelor). Acest test are la
baz o procedur ceva mai complex cunoscut sub numele de analiza varianei. Analiza
varianei (AV) poate fi considerat o extensie a testului z, cazul a dou eantioane: se
lucreaz, ntr-o prim faz, cu mediile eantioanelor, iar premisele sunt aceleai - populaii
normale, eantioane aleatoare i independente, la care se adaug prezumia c devIaiile
standard ale eantioanelor sunt egale. Testul propriu-zis, ns, ia n considerare dou variane
estimate: variana valorilor n interiorul fiecrui eantion (n jurul mediei) i variana mediilor
eantioanelor n jurul mediei generale (variana ntre eantioane). Cele dou variane sunt apoi
analizate sub aspectul raportului lor (i nu al diferenei dintre ele). Reamintim c variana este
media aritmetic a ptratelor abaterilor valorilor unui eantion de la media acestora.
Dac mediile eantioanelor nu difer semnificativ ntre ele, atunci variana ntre grupe
(eantioane) va fi aproximativ egal cu cea n interiorul grupelor (eantioanelor), iar raportul
lor va fi apropiat de 1; deci nu exist diferene reale ntre medii, diferenele ntre eantioane
fiind datorate varianei din interiorul acestora. Dac mediile difer semnificativ, atunci raportul
varianelor va fi clar mai mare ca 1. Acest raport al varianelor, notat cu F, reprezint tocmai
statistica testului omonim i el constituie o variabil aleatoare a crei distribuie (teoretic) a fost
stabilit de Snedecor. Modul de prezentare a datelor pentru analiza varianei este redat n tabelul
4.1. n tabel s-a notat cu x .j media unui eantion oarecare j, iar cu x .. media general a valorilor
tuturor celor k eantioane.
Tabel 4.1. Forma general de prezentare a datelor pentru analiza varianei (cazul unei singure
variabile).
Grupe (eantioane)
1
x11
x21
x31
.
.
.
xi1
.
.
.
2
x12
x22
x32
.
.
.
xi2
.
.
.
...
...
...
...
xn11
xn 2 2
x .1
x .2
Total
j
x1j
x2j
x3j
.
.
.
xij
.
.
.
...
...
...
...
...
xn j j
...
...
x .j
...
...
...
k
x1k
x2k
x3k
.
.
.
xik
.
.
.
xn k k
Valori
individuale
Media
x .k
x
x .. =
Numrul de valori
n1
n2
...
nj
...
nk
nj
ij
j =1 i=1
N
k
N = n j
j =1
Analiza varianei opereaz ntr-o prim faz doar cu sumele de ptrate ale abaterilor de
la medie (SPA), pentru fiecare eantion i pentru cele k eantioane. Aceste SPA sunt numite
variaii (nu variane!). Avem mai nti variaia total, pentru ansamblul N al tuturor valorilor din
cele k eantioane, care se calculeaz cu ajutorul unei relaii de forma:
50
k nj
( x ij - x .. )
j=1 i=1
.
Variaia (SPA) total poate fi repartizat (alocat) pe cele dou componente ale sale (SPA ntre
grupe, respectiv n interiorul grupelor), astfel nct n final s se poat calcula cele dou
variane menionate mai sus.
Dac vom lua un element oarecare dintr-un eantion, atunci putem scrie o relaie
algebric simpl:
x ij - x ..= ( x ij - x .j ) + ( x .j - x .. )
adic scdem i adunm x .j . n felul acesta diferena ntre xij i x .. este exprimat ca sum a dou
cantiti: (1) diferena ntre xij i media eantionului (grupei) din care ea face parte i (2)
diferena ntre x .j i x .. .
Pentru a ajunge la SPA-uri, ridicm la ptrat relaia de mai sus:
2
2
2
( x ij - x .. ) = ( x ij - x .j ) + 2( x ij - x .j )( x ij - x .. ) + ( x .j - x .. )
Apoi aplicm operaia de nsumare la ambii membri ai ecuaiei - caz n care termenul central din
membrul drept devine nul (conform proprietilor mediei aritmetice). Rezult:
nj
nj
2
2 k
2 k
)
(
(
)
+
=
x
x
ij x ..
ij x .j
( x .j - x .. )
j=1 i=1
j=1 i=1
j=1 i=1
k nj
SPA
g.l.
SPAtot.
SPA.g.
SPA.i.g.
N-1
k-1
N-k
Variana
estimat
SPA.g./(k-1)
SPA.i.g./(N-k)
.g. .i.g.
2
.i.g. .g.
51
Producii
(q/ha)
Media
Nr. de valori
turbos
24
27
21
22
26
13
25
29
26
24
Tip de sol
marnos
17
25
24
19
28
21
20
25
19
24
Total
argilos
19
18
22
24
23
18
21
19
25
21
x .1 =24,3
x .2 0=22,2
x .3 =21,0
10
10
10
x .. =
10
x ij
30
j=1i=1
=22,5
30
. ipoteza nul H0: nu exist o diferen semnificativ ntre medii, fa de i.a.H1: exist o diferen
semnificativ ntre acestea.
. n.s. = 5%
. statistica testului: F = 27,9/9,1 = 3,07.
. regiunea critic: n tabelul distribuiei F (Anexa V), pentru = 5%, 1 = 2 i 2 = 27, valoarea Ftabelat =
3,35.
52
. deoarece 3,07<3,35, se accept ipoteza nul H0, deci producia de cereale nu variaz semnificativ n
raport cu tipul de sol.
Sursa de variaie
Total
ntre grupe
n int. grupelor
SPA
g.l.
Variana estimat
301,5
55,8
245,7
29
2
27
27,9
9,1
3,7
Testul . Este un test relativ uor de aplicat, dar este esenial ca datele s fie aranjate
corect, iar problema de rezolvat s fie una potrivit pentru aplicarea acestei metode.
Testul verific dac frecvenele observate ale fenomenului analizat difer semnificativ de
nite frecvene probabile (teoretice) ce corespund unei ipoteze prealabile. Aceast ipotez
prealabil trebuie definit cu atenie i bine neleas, astfel nct rezultatul aplicrii testului s
fie corect interpretat.
Vom ilustra modul de aplicare a acestui test cu ajutorul unui exemplu (dup Gregory,1968).
S presupunem c trebuie fcut un studiu asupra unui numr de ferme considerate n relaie cu
caracteristicile lor de localizare. Pe un teritoriu cu relief variat se preleveaz un eantion de 200 ferme, care sunt
grupate apoi n cteva categorii n funcie de caracteristica
fizico-geografic a sit-ului: es aluvial, teras, versant, platou Tabel 4.3. Distribuia celor 200 de ferme pe tipuri de
calcaros, platou grezos. Numrul de ferme pentru fiecare sit.
categorie este dat n tab.4.3, alturi de ponderea suprafeelor
Sit
Numr ferme % din supr. Total
pentru fiecare categorie n suprafaa total a teritoriului
10
10
studiat.
100
35
es aluvial
Examinarea datelor sugereaz clar c distribuia
2
10
teras
fermelor pe cele 5 categorii este legat de proporia
38
25
versant
suprafeelor corespunztoare: pe terase, care acoper cea mai
platou calcaros
50
20
mare suprafa, sunt instalate cele mai multe ferme. Pe de
platou grezos
alt parte, distribuia fermelor pare s indice o localizare
preferenial, deoarece i terasele, i platourile grezoase au
un numr de ferme mai mare dect ar sugera ponderea
arealului lor, n timp ce celelalte 3 categorii sunt oarecum sub-reprezentate.
Dac dorim s gsim o explicaie cauzal pentru distribuia spaial a sit-urilor fermelor, una din
problemele de rezolvat este verificarea ipotezei sugerate de datele empirice. Dac numrul de ferme de pe un
anumit tip de teren este legat n primul rnd de frecvena cu care apar respectivul tip, atunci nu se poate argumenta
c caracterele fizico-geografice ale acelui tip de teren reprezint factori ce favorizeaz (influeneaz) amplasarea
fermelor.
53
Pentru a testa care din cele dou posibiliti este mai probabil, aplicm testul . Ipoteza nul H0 o
formulm astfel: nu exist o diferen semnificativ ntre cele 5 categorii de terenuri n ce privete frecvena
amplasrii fermelor, acestea fiind repartizate uniform pe ntreg arealul studiat. Altfel spus, distribuia observat a
fermelor poate fi dedus satisfctor din proporiile diferitelor categorii de teren n cadrul arealului studiat.
Statistica testului, notat cu , se calculeaz pornind de la diferenele ntre frecvenele observate i cele
ateptate sau probabile. Frecvenele probabile sunt cele care rezult n cazul n care ipoteza nul H0 ar fi
adevrat.
Pentru fiecare categorie (grup, clas) diferena ridicat la ptrat se mparte la frecvena probabil, n felul
acesta eliminndu-se variabilitatea de la o grup la alta (un procedeu similar cu standardizarea). Prin nsumarea
acestor diferene standardizate se obine valoarea :
2
( fo- f p)
2
=
fp
Statistica constituie o variabil aleatoare cu k-1 grade de libertate (k - numrul de grupe/categorii), a
crei distribuie teoretic este disponibil sub form de
tabele (sau grafice). n tabelul distribuiei (Anexa VI) se
Tip de sit
es
teras versant platou
platou
intr cu n.s. al testului i cu g.l. Dac valoarea calculat>
Frecvene
aluvial
calcaros grezos
teoretic, atunci ne aflm n regiunea critic i, deci, ipoteza
fo
10
100
2
38
50
nul H0 va fi respins.
fp
20
70
20
50
40
n exemplul nostru, pentru a calcula valoarea
trebuie stabilite frecvenele. Cele observate (fo) sunt
fo-fp
-10
30
-18
-12
10
disponibile deja, iar cele ateptate (fp) se calculeaz
pornind de la ponderea fiecrui tip de teren n suprafaa
total (vezi tabelul de mai jos). Astfel, de exemplu, dac
esurile aluviale acoper 10% din teritoriu studiat, atunci ar trebui (conform ipotezei nule H0) ca 20 (adic 10%) din
cele 200 de ferme s fie situate n esuri aluviale.
2
( fo- f p)
2
= 39,5
=
fp
Statistica testului:
n tabelul distribuiei (vezi Anexa VI), pentru g.l. = 5-1 = 4, valorile tabelate sunt mult mai mici dect
cea calculat, chiar i la praguri de semnificaie mici (2% sau 1%). Este clar deci c ipoteza nul H0 trebuie
respins, iar concluzia testului este c exist realmente o localizare preferenial a fermelor n funcie de tipul de
teren - altfel spus, caracteristicile fizico-geografice ale sit-ului influeneaz semnificativ frecvena fermelor.
n exemplul de mai sus testul a fost utilizat pentru analiza unei singure variabile numrul de ferme pe diferite tipuri de terenuri. Acelai test poate fi, ns, folosit pentru
compararea a dou sau mai multe variabile care apar, ca i la exemplul anterior, sub forma unor
distribuii de frecvene (empirice). De remarcat c testul poate fi folosit i pentru compararea
unei distribuii empirice cu una teoretic, caz n care se ncadreaz n categoria aa-numitelor
teste de concordan (de adecvare).
n cazul comparrii a dou sau mai multe distribuii empirice frecvenele observate,
corespunztoare diferitelor categorii (grupe, clase) se
prezint n mod obinuit sub forma unui tabel cu r linii
Grupe 1
2
3
Total
(r - numrul de variabile comparate) i c coloane (c Variabile
numrul de grupe). Un asemenea tabel poart numele de
X
x1
x2
x3
SX
tabel de contingen.
Y
y1
y2
y3
SY
Un exemplu pentru dou variabile cu trei categorii
Total
S1
S2
S3
N
(grupe) apare n tabelul alturat.
Frecvenele observate sunt xi i yj. Frecvenele
ateptate se calculeaz destul de simplu, sub forma unor
probabiliti condiionate de totalurile pe linii i coloane - spre exemplu lui x1 i corespunde o
x * 1
N
. Deci pentru orice celul din tabel frecvena
frecven probabil calculat cu formula
probabil se obine mprind produsul dintre suma liniei i suma coloanei aferente la frecvena
54
( f o- f p )
fp
,
nsumarea fcndu-se pentru toate celulele din tabel.
Statistica astfel calculat este o variabil aleatoare cu (r-1)(c-1) grade de libertate.
Valoarea tabelat (Anexa VI) se compar cu cea calculat, iar concluzia testului se stabilete
dup aceleai reguli ca i n cazul unei singure variabile.
Testul Kolmogorov-Smirnov - este un test neparametric care, ca i testul se utilizeaz
n cazul acelor eantioane (variabile) ce apar sub form de distribuii de frecvene brute.
Deasemenea, ca i testul , testul K.-S. se utilizeaz att pentru compararea a dou distribuii
empirice, ct i pentru compararea unei distribuii empirice cu una teoretic (test de
concordan).
Pentru a putea aplica testul este necesar ca frecvenele brute s fie transformate n
proporii (frecvene relative subunitare). Dup aceea aceste proporii se cumuleaz, pentru
fiecare din cele dou distribuii de frecvene. Pentru fiecare categorie (grup, clas) se face
diferena ntre cele dou proporii cumulate. n ultima etap a testului se ia n considerare cea
mai mare dintre diferene, a crei semnificaie statistic poate fi evaluat direct (deci fr a fi
implicat n calculul vreunei statistici). Evaluarea se face cu ajutorul tabelului sau graficului
diferenelor maxime, n funcie de mrimea eantionului de baz (cel pe baza cruia s-a alctuit
distribuia de frecvene) (Anexa VII).
Exemplu. Analiza frecvenei cantitilor zilnice de precipitaii la o staie meteo, pentru o perioad lung de
timp, a condus la distribuia de frecvene din tabelul alturat.
Pentru o lun particular de 30 zile frecvenele brute ce corespund celor 4 categorii (clase) au fost respectiv 12, 6, 9,
3. Problema de rezolvat este aceea de a decide dac ntre distribuia teoretic i cea a lunii respective exist o
Clasa
Frecvena(%)
0 mm
0,1-2 mm
2-10 mm
>10 mm
50
25
20
55
max = 0,15.
n tabelul cu diferenele maxime pentru testul Kolmogorov-Smirnov (Anexa VII) gsim c pentru un
Clasa
Proporii
Proporii cumulate
0 mm
0,1-2 mm
2-10 mm
>10 mm
d.teoretic
0,50
0,25
0,20
0,05
d.empiric
0,40
0,20
0,30
0,10
d.teoretic
0,50
0,75
0,95
1,00
d.empiric
0,40
0,60
0,90
1,00
0,10
0,15
0,05
Diferena ()
eantion de 30 valori (zile, n cazul nostru) i =5%, max teoretic este 0,24. Deci diferena ntre cele dou distribuii
este nesemnificativ statistic.
Aa cum s-a menionat, testul K.-S. se poate aplica i n cazul a dou eantioane
(distribuii empirice). Dac se lucreaz cu eantioane mici (n<40), atunci este necesar ca ele s
aib aceeai mrime, pentru a putea folosi tabelul testului - aceasta ntruct n tabel se intr cu
n.s. i volumul unui eantion (nu cu volumul total al celor dou eantioane).
n cazul eantioanelor mari (n>40) volumele pot fi inegale, iar diferenele maxime
corespunztoare diferitelor nivele de probabilitate (semnificai e) se obin cu ajutorul unor
formule indicate de Smirnov (pentru testul bilateral):
1,36
n1 + n 2
n1 * n 2
n1 + n 2
n1 * n 2
n1 + n 2
n1 * n 2
56
Una dintre ntrebrile fundamentale ale geografilor este urmtoarea: exist o relaie23
oarecare ntre fenomene situate n locuri diferite ale spaiului? (Johnston,1978). Rspunsul la
aceast ntrebare ofer posibilitatea de a sesiza eventualele structuri spaiale, care funcioneaz
de multe ori incifrat, greu de perceput cu ajutorul simurilor umane. De asemenea, a rspunde la
aceast ntrebare nseamn a putea avansa mai departe n cercetarea geografic, respectiv a
ajunge la stadiul de a sesiza diferenierile spaiale. Adic la a rspunde la a doua ntrebare
fundamental a geografiei: locurile caracterizate de acelai fenomen sunt diferite ntre ele?
(Johnston, 1978).
Baza de pornire pentru a demonstra existena sau non-existena relaiilor dintre
fenomene cu localizri diferite este ordonarea elementelor mulimii studiate ntr-un tabel
elementar.
S considerm o mulime M alctuit din n elemente (observaii) 1..i..n, descrise de dou
caracteristici (variabile) X i Y, care iau modalitile
X1..Xi..Xn
i
respectiv
Y1..Yi..Yn.
Variabilele
X
Y
nM
(caracteristicile) X i Y pot fi calitative sau cantitative,
continue sau discrete. Tabloul elementar care corespunde
1
X1
Y1
acestei mulimi are forma din tabelul alturat.
2
X2
Y2
Spunem c pentru mulimea observat M exist o
.
.
.
relaie ntre X i Y dac cunoaterea modalitii Xi permite
.
.
.
prezicerea, ntr-o oarecare msur, a modalitii Yi
corespondente.
i
Xi
Yi
O relaie se poate exprima sub form literar
.
.
.
(calitativ) sau sub form algebric (cantitativ ). Pentru a
.
.
.
ilustra aceste dou forme, vom considera mulimea M a
n
Xn
Yn
statelor tropicale n anul 1985, fiecare stat fiind caracterizat
de dou variabile: rata analfabetismului feminin (X) i
mortalitatea infantil masculin (Y). Aceste dou variabile
iau, pentru fiecare stat 1..i..n, modalitile X1..Xi..Xn i
Y1..Yi..Yn.
23
Trebuie s se remarce faptul c n statistic, termenul de relaie nu este sinonim cu cel de legtur. Termenii de
legtur i de dependen permit s se precizeze noiunea de relaie :
a) Noiunea de legtur este simetric : a spune c exist o legtur ntre X i Y nseamn acelai lucru cu a spune c
exist o legtur ntre Y i X (aceasta nseamn c valorile lui X i Y nu sunt distribuite n mod ntmpltor);
b) Noiunea de dependen nu este simetric, deoarece ea d un sens relaiei : a spune c Y depinde de X nu
nseamn acelai lucru cu a spune c X depinde de Y. De exemplu, salariul crete n general cu vechimea n munc a
lucrtorului. Salariul depinde de vechime. n schimb, vechimea nu depinde de salariu, deoarece timpul trece i fr
mrirea salariului.
Prin urmare, o relaie, care presupune i dependen ntre variabile, este mai mult dect o legtur, deoarece are un
sens : a scrie Y = f(X) nseamn c se admite c Y este variabila dependent (de explicat) iar X este variabila
independent (explicativ).
57
24
Trebuie remarcat c majoritatea celorlalte situaii pot fi aduse la nivelul uneia sau alteia dintre cele prezentate n
text, cu condiia transformrii variabilelor (prin discretizare, prin standardizare, etc.).
25
Vezi i capitolul Teste neparametrice.
26
Studiul tabelului de contingen se poate aplica i n cazul caracteristicilor continue, cu condiia ca acestea s fie
discretizate (de exemplu s fie grupate n clase).
58
Tabelele de contingen sunt tabele constituite din numere ntregi, descriind repartiia
elementelor unei mulimi n funcie de dou serii de modaliti. Tabelele de contingen se
construiesc plecnd de la tabelele elementare.
Exemplu. Fie un tabel elementar care descrie fiecare cetean al oraului Albeni (cu 20.000 de locuitori)
n funcie de cartierul unde locuiete, respectiv variabila X, cu patru modaliti (X1 = cartierul Morilor-M, X2 =
cartierul Papura-P, X3 = cartierul Neagra-N, X4 =
cartierul Tbcrie-T) i n funcie de naionalitate,
Nr. / Nume
M
P
N
T
LOC
STR
respectiv variabila Y, cu dou modaliti (Y1 =
localnic-LOC i Y2 = strin-STR). n tabel,
1. Ionescu V.
1
0
0
0
1
0
apartenena la o modalitate este notat cu 1 iar non2. Ghaffar M.
0
0
1
0
0
1
apartenena cu 0.
De la acest tabel elementar se poate crea
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
tabelul de contingen, prin nsumarea numrului de
.
.
.
.
.
.
.
.
ceteni care ndeplinesc simultan ambele modaliti.
De exemplu, exist cel puin un individ (Ionescu),
452. Popescu I.
0
0
0
1
1
0
care locuiete n cartierul Morilor i este localnic
.
.
.
.
.
.
.
.
(ndeplinete modalitile X1 i Y1), n schimb exist
.
.
.
.
.
.
.
.
cel puin doi indivizi (Ghaffar i Zhu) care locuiesc
.
.
.
.
.
.
.
.
n cartierul Neagra i sunt strini (ndeplinesc
20000. Zhu Liao
0
0
1
0
0
1
amndoi modalitile X3 i Y2). Dup gruparea tuturor
celor 20.000 de locuitori, se efectueaz suma tuturor
coloanelor i a tuturor liniilor i se obine urmtorul
tabel, care este tabelul de contingen:
X:
Y:
Y1 (LOCALNIC)
Y2 (STRIN)
TOTAL
X1 (Morilor)
5.000
5.000
X2 (Papura)
4.000
1.000
5.000
X3 (Neagra)
3.000
2.000
5.000
X4 (Tbcrie)
2.000
3.000
5.000
TOTAL
14.000
6.000
20.000
Pentru o mai bun nelegere a analizei efectuate, prezentm mai jos schema unui tabel
de contingen.
Notaiile unui tabel de contingen,
i \ j
1
2
...
j
...
p
Y
cu care ne vom ntlni i n alte capitole,
sunt urmtoarele (Bezencri, 1973):
1
k11
k12
...
k1j
...
k1p
k1.
* i - desemneaz liniile (sau modalitile
2
k21
k22
...
k2j
...
k2p
k2.
caracterului X);
.
.
.
.
.
.
.
.
* n - desemneaz numrul total de linii;
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
* j - desemneaz coloanele (sau modalitile
caracterului Y);
i
ki1
ki2
...
kij
...
kip
ki.
* p - desemneaz numrul total de coloane;
.
.
.
.
.
.
.
.
* kij - desemneaz efectivul csuei aflat la
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
intersecia liniei i cu coloana j (de exemplu
numrul ceteni care locuiesc n cartierul i
n
kn1
kn2
...
knj
...
knp
kn.
i au naionalitatea j);
X
k.1
k.2
...
k.j
...
k.p
k..
* knp - desemneaz efectivul csuei aflat
la intersecia ultimei linii (n) cu ultima
coloan (p);
* k.j (k punct j) - desemneaz efectivul total al coloanei j, adic
59
k . j = k ij
i=1
(respectiv numrul cetenilor de naionalitate j). Efectivul k.j este efectivul care posed n
acelai timp modalitatea Yj i diferitele modaliti ale caracterului X. Punctul nseamn c
respectivul caracter pus n coloan este considerat n totalitatea sa. Diferitele efective k1j, k2j, . . .
kij, . . . knj formeaz distribuia condiional a lui X dac Yj este realizat sau distribuia
condiional a lui X pentru modalitatea27 Yj, ceea ce se noteaz X/Yj. Pentru un j fixat, efectivul
p
X / Y j = k . j = k 1j + k 2j + ... + k ij + ... k nj = k ij
j=1
su total este
Exist deci p distribuii condiionale ale lui X (p coloane). Valorile ultimei linii (k.1, k.2, . . . k.j, .
. . k.p) formeaz distribuia marginal a caracterului Y n funcie de caracterul X;
p
k i .= k ij
j=1
Exist deci n distribuii condiionale ale lui Y (n linii). Valorile ultimei coloane (k1., k2., . . .ki., .
. . kn.) formeaz distribuia marginal a caracterului X n funcie de caracterul Y;
* k.. (k punct punct) - desemneaz efectivul total al tabelului, adic:
n p
k..= k ij = k
i=1 j=1
ntr-un tabel de contingen, liniile i coloanele joac roluri perfect simetrice. Acest
lucru (respectiv posibilitatea transformrii coloanelor n linii i invers) nu trebuie uitat, dei, din
comoditate, n analiza unui tabel de contingen se folosete pentru linii termenul de de cazuri
sau indivizi29 iar pentru coloane cel de variabile (Sanders, 1989).
27
60
Rolul analizei unui tabel de contingen este acela de a stabili dac ntre variabilele
considerate exist o legtur oarecare, dac ntre unitile spaiale descrise de aceste variabile
exist asemnri sau deosebiri, etc.
Pentru a putea efectua analiza i a compara liniile sau coloanele tabelului de contingen
este necesar realizarea profilelor30 liniilor i coloanelor.
5.2.2.1. Stabilirea profilelor liniilor
Profilul unei linii se obine prin mprirea efectivului fiecrei csue a liniei la efectivul
total al liniei respective (kij/ki.). Astfel se
obine partea relativ a coloanei j n linia i
Y:
LOCALNICI
STRINI
TOTAL
(adic partea relativ a cetenilor cartierului i
X:
care au cetenia j). Suma fiecrei linii astfel
Morilor
100%
0%
100%
obinut este ntotdeauna 1 (sau 100, dac
relativizarea
se
face
procentual,
Papura
80%
20%
100%
adic(kij/ki.)*100) (vezi tabelul alturat).
Neagra
60%
40%
100%
Analiza tabelului profilurilor liniilor
Tbcrie
40%
60%
100%
permite deja cteva consideraii referitoare la
TOTAL
70%
30%
100%
relaia stabilit ntre cele dou variabile i la
diferenierile induse de acestea ntre cele patru
cartiere. Astfel, este vizibil faptul c n Albeni
sunt 30% strini i c n cartierul Tbcrie
acetia sunt predominani (60% din populaia cartierului). Relaia abia sesizat este incomplet,
deoarece lipsesc informaii referitoare la raportarea fiecrei uniti spaiale la totalul populaiei
oraului. Aceast lacun poate fi acoperit prin repetarea operaiei de relativizare a
modalitilor, de aceast dat n plan vertical (pentru coloane).
5.2.2.2. Stabilirea profilelor coloanelor
Profilul unei coloane se obine prin mprirea efectivului fiecrei csue a coloanei la
efectivul total al coloanei respective (kij/k.j sau
(kij/k.j)*100). Se obine astfel partea relativ a
Y:
LOCALNICI
STRINI
TOTAL
liniei i n coloana j (adic partea relativ a
X:
cetenilor de naionalitate j din cartierul i n
Morilor
36%
0%
25%
raport cu oraul ntreg) (vezi tabelul alturat).
De aceast dat, analiza tabelului
Papura
29%
17%
25%
profilelor coloanelor permite situarea fiecrui
Neagra
21%
33%
25%
cartier n cadrul oraului n funcie de cele
Tbcrie
14%
50%
25%
dou variabile care l caracterizeazi. Astfel, se
TOTAL
100%
100%
100%
evideniaz faptul c n cartierul Tbcrie
locuiete 25% din populaia oraului, ns aici
este concentrat cea mai mare parte din
populaia de origine strin (50%) i cea mai
mic parte dintre localnici (14%).
5.2.2.3. Stabilirea existenei / non-existenei unei legturi ntre cele dou caracteristici
61
Cea mai simpl cale de a sesiza existena / non-existena unei legturi ntre cele dou
variabile este compararea distribuiei frecvenelor lor teoretice cu distribuia frecvenelor
observate. Deoarece tabelul de contingen este de fapt tabelul distribuiei frecvenelor
observate, putem construi, plecnd de la ultima sa linie i de la ultima sa coloan, tabelul de
contingen teoretic (sau tabelul de contingen a frecvenelor teoretice). Efectivul teoretic al
unei csue oarecare k'ij este dat de relaia:
k ij = (k..)x
ki . k . j
x
k.. k..
k i .xk . j
k..
62
63
Situaia opus (caracterele sunt perfect dependente) se realizeaz atunci cnd o funcie
matematic Y = f(X) leag n mod riguros variabilele, care astfel se afl n relaie funcional.
Figura 5.3. : Tip de tabel de contingen care ilustreaz independena matematic i
diagrame de dispersie aferente situaiilor de independen matematic (dup
Chadule, (1979)
condiiile acestei situaii sunt ndeplinite doar atunci cnd unei modaliti Yj i corespunde o
modalitate Xi i numai una (adic, n tabelul de contingen doar o singur csu pe linie i doar
o singur csu pe coloan are un efectiv non-nul (fig.5.3).
Figura 5.4. : Tip de tabel de contingen care ilustreaz dependena statistic i
diagrame de dispersie aferente situaiilor de dependen matematic (dup Chadule,
(1979)
64
Este evident faptul c cele dou situaii limit (independena matematic i dependena
funcional) nu se observ n cmpul de cercetare al geografiei, sau sunt fr interes pentru
cercetarea geografic. Geografia este dominat de cupluri de variabile aflate n relaie de
dependen parial, numit i dependen statistic (fig.5.4).
Dependena statistic poate fi puternic, medie sau slab, aceasta din urm fiind n unele
cazuri greu de luat n seam, deoarece seamn destul de mult cu independena.
Din aceast cauz, este necesar construirea i aplicarea unor teste de independen,
crora li se poate fixa un prag de ncredere (sau prag de decizie sau prag de eroare) cunoscut.
Cel mai adecvat test este testul de independen (se citete hi ptrat). Acest test are ca
baz compararea distribuiei efectivelor observate (kij) din fiecare csu ij a tabelului de
contingen observat cu efectivele teoretice (k'ij) din fiecare csu ij a tabelului de contingen
teoretic, sub ipoteza independenei matematice.
Pentru aceasta, se calculeaz n primul rnd efectivul teoretic (k'ij) pe care l-ar avea
fiecare csu n cazul independenei matematice:
k ij -
k i .xk . j
k..
= 0 k ij =
k i .xk . j
k..
65
Pentru calcularea valorilor celor trei serii din tabelul urmtor, un exemplu numeric poate facilita
nelegerea. Pentru csua X1,Y2 valoarea se obine astfel:
- efectivul observat este k12 = 0
Y: Y1 Y'1 d
Y2 Y'2 d
ki.; k'i.; Sd
- efectivul teoretic este k'12 = (k1. k.2)/k..=(56)/20 = 1,5;
X:
- cantitatea (k'ij - kij)/k'ij, sau d, este (1,5 - 0 )/1,5=1,50.
X1; X'1 d
5 3,5 0,64
0 1,5 1,50
X2; X'2 d
4 3,5 0,07
1 1,5 0,17
5 5 2,14
5 5 0,24
D se obine deci prin nsumarea valorilor d din tabel:
D = 0,64+0,07+1,07+0,64+1,50+0,17+0,17+1,50 = 4,76;
X3; X'3 d
3 3,5 0,07
2 1,5 0,17
5 5 0,24
v = (4-1)(2-1) = 3 grade de libertate
X4; X'4 d
2 3,5 0,64
3 1,5 1,50
5 5 2,14
= 0,05 (pragul de ncredere)
k.j; k'.j; Sd
14 14 1,42
14 6 3,34
20 20 4,76
C = 7,81 (se citete n tabelul distribuiei ).
n acest moment putem testa ipoteza nul (care
stipula c variabilele alese sunt independente). Ne amintim
c, pentru ca relaia de independen s se verifice, D
trebuie s fie mai mare sau egal cu C. n exemplul nostru D<C (4,76 < 7,81), deci trebuie s refuzm ipoteza de
independen i s acceptm c variabilele noastre sunt corelate, ele aflndu-se n relaie de dependen.
Analiza primar a tabelului de contingen poate sugera ipoteza existenei unei legturi
ntre caracterele studiate. Testul permite sesizarea existenei relaiei de dependen. Nici una
dintre metode nu ofer ns informaii asupra intensitii i sensului acestei relaii. Pentru a avea
aceste informaii este nevoie s se calculeze raporturi i coeficieni de corelaie sau de asociere.
La aceste msuri vom ajunge prin intermediul exemplelor urmtoare.
5.3. Msurarea relaiei dintre dou caracteristici cantitative continue5.3. Msurarea
relaiei dintre dou caracteristici cantitative continue
Faptul de a pune n eviden o relaie ntre dou fenomene geografice nseamn doar a
lua contact n mod superficial cu formele de organizare a spaiului. Nevoia de ordine - resimit
nu numai de cercettorul geograf, dar i de omul de rnd - necesit mai multe informaii asupra
acestei legturi, pentru a ti cum i ct de puternic este organizat realitatea geografic. Este
nevoie n primul rnd de informaii referitoare la forma, la sensul i la intensitatea relaiei.
Relaia trebuie msurat.
Ce nseamn pentru geograf a msura o relaie? s ne amintim c a pune n eviden o
relaie ntre dou variabile nseamn a demonstra faptul c valorile luate de cele dou variabile
nu sunt distribuite la ntmplare. Deci, a sesiza relaia existent ntre dou distribuii nseamn a
emite ipoteza c ele variaz mpreun, ntr-o manier mai mult sau mai puin corelat . Prin
urmare, a msura aceast corelaie nseamn a stabili msura n care valorile unei distribuii
fluctueaz mai mult sau mai puin regulat simultan cu valorile altei distribuii (Chapot,
Dauphin, 1977). Altfel spus, msurarea corelaiei se rezum n linii mari la msurarea
fluctuaiei care afecteaz valorile uneia dintre cele dou distribuii atunci cnd valorile
celeilalte sufer o modificare oarecare (Gregory, 1968).
Cum poate geograful s msoare o relaie? Ori de cte ori cercettorul n geografie
studiaz modul cum dou fenomene variaz simultan, el ncearc s efectueze o msurare.
Gradul de precizie al acesteia oscileaz n funcie de metoda utilizat. Exist trei metode
principale de msurare a relaiilor (Chapot, Dauphin, 1977):
- suprapunerea hrilor tematice;
- analiza diagramelor de distribuie;
- analiza statistic.
66
67
* O relaie este pozitiv dac cele dou variabile Figura 5.7. Raporturile de mrime
variaz n acelai sens, adic dac se observ c:
dintre cele dou variabile n cazul
- valorilor mari ale variabilei X le corespund n relaiei pozitive.
general valorile mari ale variabilei Y;
- valorilor medii ale variabilei X le corespund
n general valorile medii ale variabilei Y;
- valorilor mici ale variabilei X le corespund n
general valorile mici ale variabilei Y.
Generaliznd pentru dou uniti i i j ale
distribuiei, se spune c relaia este pozitiv dac se
observ c, dac Xi>Xj, atunci este probabil ca Yi>Yj
(fig.5.7).
n fig.5.7 relaia dintre X i Y este pozitiv,
deoarece valorile lui Y variaz n acelai sens ca i
valorile lui X.
* O relaie este negativ dac cele dou variabile variaz n sens invers, adic dac se observ
c:
- valorilor mari ale variabilei X le corespund n general valorile mici ale variabilei Y;
- valorilor medii ale variabilei X le corespund n general valorile medii ale variabilei Y;
- valorilor mici ale variabilei X le corespund
n general valorile mari ale variabilei Y.
Generaliznd pentru dou uniti i i j ale Figura 5.8. Raporturile de mrime
distribuiei, se spune c relaia este negativ (sau dintre cele dou variabile n cazul
invers) dac se observ c, dac Xi>Xj, atunci este relaiei negative.
probabil ca Yi<Yj (fig.5.8).
n fig.5.8 relaia dintre X i Y este negativ,
deoarece valorile lui Y variaz n sens invers variaiei
valorilor lui X.
* O relaie este nul dac cele dou variabile sunt
total independente una fa de alta, adic dac se
observ c:
- valorilor mari ale variabilei X le corespund
valori mari, medii sau mici ale variabilei Y;
- valorilor medii ale variabilei X le corespund
valori mari, medii sau mici ale variabilei Y;
- valorilor mici ale variabilei X le corespund
valori mari, medii sau mici ale variabilei Y (fig.5.9).
Generaliznd, se spune c o relaie este nul Figura 5.9. Raporturi de mrime
dac faptul c se cunoate c Xi>Xj nu permite s se aleatoare ntre cele dou variabile, n
cazul relaiei nule.
prevad c Yi>Yj sau c Yi<Yj.
n fig.5.9 relaia dintre X i Y este nul,
deoarece variaia valorilor lui Y este indiferent la
variaia valorilor lui X.
Intensitatea relaiei este sugerat de modul de
grupare pe graficul de corelaie a valorilor YiYj n
funcie de valorile XiXj.
* O relaie este puternic dac unitile care au valori
vecine pe X au de asemenea valori vecine pe Y (caz n
care punctele norului i dau acestuia un aspect
68
compact).
Generaliznd, se spune c o relaie este puternic
dac faptul c Xi este aproape de Xj implic faptul c Figura 5.10. Relaie strns ntre dou
Yi este aproape de Yj.
variabile.
n fig.5.10 relaia dintre X i Y este puternic,
deoarece punctele sunt apropiate unele de altele, ceea
ce semnific variaia n paralel a valorilor vecine pe
X i pe Y.
* O relaie este slab dac unitile care au valori
vecine pe X pot avea valori ndeprtate pe Y (caz n
care punctele norului i dau acestuia un aspect
rarefiat). Generaliznd, se spune c o relaie este
slab dac faptul c Xi este aproape de Xj nu implic
faptul ca Yi s fie aproape de Yj.
n fig.5.11 relaia dintre X i Y este slab,
deoarece punctele sunt ndeprtate unele de altele,
ceea ce semnific non-paralelismul variaiei valorilor
vecine pe X i pe Y.
Adic independente de unitile de msur a variabilelor i invariante la orice transformare liniar a variabilelor
69
- coeficientul de corelaie liniar (r) este utilizat n cazul unor caracteristici cantitative i al unor
relaii liniare;
- raportul de corelaie () este utilizat fie n cazul a dou caracteristici cantitative, fie a unei
caracteristici cantitative i a celeilalte calitative nominale, n condiiile n care relaia poate s nu
fie liniar;
- coeficientul de corelaie a rangurilor Spearman () se utilizeaz n cazul caracteristicilor
calitative ordinale, cnd condiia de liniaritate a relaiei nu este obligatorie;
- coeficienii de asociere msoar fie dependena dintre dou caracteristici calitative nominale,
fie cea dintre o caracteristic cantitativ i una calitativ nominal.
Coeficienii de corelaie permit obinerea unei msuri sintetice a sensului i a intensitii
relaiei dintre dou caracteristici.
Coeficientul de corelaie liniar Bravais-Pearson
Coeficientul de corelaie liniar Bravais-Pearson permite detectarea prezenei sau
absenei unei relaii liniare dintre dou caracteristici cantitative. Pentru a calcula acest
coeficient, este nevoie de calcularea covarianei, aceasta la rndul ei avnd la baz calcularea
covariaiei32. Un exemplu concret poate facilita nelegerea acestor parametri. n tabelul de mai
jos, fiecare dintre cele opt judee ale Moldovei este caracterizat de variabil X (populaia urban,
n procente, Romnia= 100%) i de variabila Y (valoarea produciei industriale, n procente,
Romnia = 100%), la nivelul anului 1989.
n tabel:
x = ecarturile la medie pentru variabila X (x = X- X );
y = ecarturile la medie pentru variabila Y (y = Y- Y );
x= variaia total a variabilei X;
y= variaia total a variabilei Y;
xy= covariaia total dintre X i Y.
n exemplul de mai sus, x i y reprezint variaia fiecrui jude, respectiv ecartul fiecrui
jude fa de media ansamblului de judee considerat.
[Trebuie s remarcm faptul c, deoarece este vorba de variaia unui loc n raport de alte locuri,
din punct de vedere al geografiei, acest parametru este de fapt variaia spaial].
Variabile
x=X-
Judeul
y=Y- Y
xy
BACU
2,9
0,7
0,6
4,0
1,8
3,1
1,3
BOTOANI
1,4
-0,7
0,5
0,9
-1,4
1,8
1,0
GALAI
3,0
0,9
0,7
4,1
1,8
3,4
1,6
IAI
3,3
1,1
1,3
2,7
0,5
0,2
0,5
NEAM
1,8
-0,3
0,1
2,1
-0,1
0,0
0,1
SUCEAVA
1,9
-0,2
0,0
1,8
-0,5
0,2
0,1
VASLUI
1,5
-0,6
0,3
1,2
-1,1
1,1
0,6
VRANCEA
1,2
-0,9
0,8
1,2
-1,1
1,1
0,9
17,1
0,0
4,4
18,0
0,0
10,9
6,1
Media
2,1
0,0
0,6
2,3
0,0
1,4
0,8
(ecart tip)
0,7
0,4
1,2
1,2
0,5
(suma)
cu coeficieni pozitivi.
32
Vezi i capitolul Parametrii unei distribuii statistice. Dac pentru o variabil se calcula variaia i variana,
pentru dou variabile se calculeaz covariaia i covariana, n funcie de modul cum variabilele variaz mpreun.
70
xy
i
=
1
COV XY =
N
COV XY
Trebuie s remarcm faptul c dac cele dou variabile sunt standardizate (X,Y = X',Y'),
atunci (X') = (Y') = 1, nct coeficientul de corelaie liniar devine egal cu covariana celor
dou variabile: rX'Y' = COVX'Y'/1 = COVX'Y'.
Coeficientul de corelaie liniar Bravais-Pearson (rXY) variaz ntre -1 i +1 i msoar gradul de
asociere dintre Y i X. Cu ct valoarea coeficientului este mai aproape de -1 sau de +1, cu att
relaia dintre cele dou variabile este mai puternic. Dac rXY=0, se spune c cele dou variabile
nu sunt corelate; aceasta nu nseamn c cele dou variabile sunt independente, deoarece ntre
ele poate exista o relaie non-liniar, imposibil de detectat cu ajutorul lui rXY. Interpretarea
coeficientului de corelaie liniar este prin urmare relativ simpl:
- dac rXY are o valoare apropiat de 0 (de exemplu -0,021, +0,012), nu exist o relaie liniar
ntre X i Y;
- dac rXY are o valoarea apropiat de -1 (de exemplu -0,785, -0,954), ntre X i Y exist
o puternic relaie liniar negativ;
- dac rXY are o valoare apropiat de +1 (de exemplu, n cazul nostru, +0,877), ntre X i
Y exist o puternic relaie liniar pozitiv.
n concluzie, semnul lui rXY (+ sau -) indic sensul relaiei (pozitiv sau negativ) iar valoarea
absolut a lui rXY, respectiv IrXYI, indic intensitatea relaiei (puternic, slab sau nul).
n unele cazuri, prezena valorilor excepionale poate perturba msura corelaiei i s
conduc la concluzii eronate.
71
n fig. 5.12 prezena unor valori foarte mari n comparaie cu toate celelalte falsific
intepretarea. Dac pstrm n cadrul analizei municipiul Bucureti i judeul Constana obinem
rXY=+0,153 (graficul de sus). Eliminndu-le (graficul de jos), coeficientul nu numai c se
mbuntete n mod simitor, ci i schimb i semnul : rXY=-0,361, artnd clar c ntre cele
dou relaii este o legtur strns, invers proporional (numrul migranilor crete pe baza
scderii populaiei rurale). Dac eliminm nc dou judee care se comport diferit de celelalte
(Sibiu i Cara-Severin), coeficientul se
mbuntete i mai mult (rXY=-0,419).
Figura 5.12. Rolul valorilor aberante n
falsificarea
corelaiei dintre dou variabile
Interpretarea coeficientului de corelaie
(Corelaia
dintre
dinamica populaiei rurale i
liniar Bravais-Pearson trebuie s fie fcut cu
dinamica bilanului migrator n Romnia, ntre
reticen, deoarece rXY nu ofer informaii asupra 1977 i 1992) ; sursa datelor : INSSE
gradului de semnificaie al relaiei, care
depinde ntr-o egal msur i de numrul de
observaii (de indivizi analizai). De exemplu,
se dorete studierea relaiei ntre cancer i
tabagism:
- un rXY de +0,800 obinut pe un eantion
de 10 persoane chestionate nu este semnificativ,
putnd fi datorat hazardului;
- un rXY de +0,200 obinut pe un eantion
de 2000 de persoane chestionate este foarte
semnificativ i dovedete n mod sigur c ntre
cele dou fenomene exist o anumit relaie,
deoarece mrimea eantionului face s existe
puine anse ca relaia s fie datorat ntmplrii.
n exemplul numeric de mai sus, rXY =
+0,877, ceea ce sugereaz faptul c exist o
relaie puternic ntre rata urbanismului i
volumul produciei industriale, ns talia
.
eantionului (doar 8 judee) induce o oarecare
ndoial asupra adevrului exprimat de aceast
valoare. n scopul reducerii la maximum a incertitudinii, corelaia se asociaz cu o alt tehnic
statistic, i anume cu regresia.
5.3.2. Regresia liniar
Coeficientul de corelaie liniar permite detectarea existenei unei relaii liniare ntre
dou caracteristici cantitative continue. Este nevoie ns ntotdeauna s se verifice faptul c
legtura msurat de coeficientul rXY este semnificativ. n acest scop se efectueaz urmtoarele
operaii:
-se aplic testul de semnificai e, inndu-se cont de rXY i de efectivul N; ipoteza nul H0
este c rXY = 0;
-se examineaz norul de puncte pentru a se verifica dac relaia nu este influenat de
valori excepionale;
-se verific dac ajustarea liniar este cea mai indicat (cea mai bine adaptat) pentru
studierea relaiei dintre X i Y. Pentru aceasta, se pot utiliza dou metode simple: fie se
examineaz forma norului, fie se compar rXY cu rlogX,Y i cu rlogX,logY.
Dac se estimeaz c ipoteza unei legturi liniare ntre X i Y este valabil, se poate
ncerca s se exprime relaia dintre cele dou caracteristici cu ajutorul unei drepte. n acest
moment al analizei, se face n general o ipotez asupra sensului relaiei:
72
73
74
Ajustarea norului de puncte cu ajutorul acestui model este util cercettorului doar n msura n
care modelul este suficient de fidel realitii pentru a funciona ca o lege empiric i n msura
n care este suficient de simplu pentru a putea fi utilizat n evaluri, comparaii sau combinaii
cu alte legi similare (Chapot, Dauphin, 1977). n procesul gsirii modelului analitic care s
ajusteze norul de puncte trebuie avute n vedere dou probleme.
Prima dintre acestea este legat de traiectoria liniei de regresie care se obine.
Astfel, se poate gsi o ecuaie care s descrie o curb care s treac prin absolut toate punctele
norului. n exemplul din figura 5.14, unde sunt 7 puncte, ecuaia obinut va fi o ecuaie de
gradul 6, posibil de rezolvat. Distribuia va fi astfel complet descris ns cercettorului i va fi
imposibil s izoleze i s studieze fluctuaiile accidentale, care n geografie sunt deosebit de
frecvente i deosebit de importante, deoarece permit descoperirea factorilor rspunztori de
comportamentul spaial al unui fenomen oarecare n plan local.
A doua problem - i cea mai important - este gsirea unei funcii de tipul Y=f(X) ct
mai simpl, care s conduc la o linie de regresie ct mai fiabil, fr a fi perfect. Descoperirea
acestei linii de regresie presupune utilizarea urmtorului algoritm metodologic: alegerea tipului
cel mai indicat de funcie, calculul coeficienilor funciei i controlul validitii modelului
rezultat.
Alegerea modelului de regresie liniar
De multe ori ns, teoria geografic conduce la modele n care relaia dintre variabile nu
se poate reprezenta sub aceast form liniar simpl. De exemplu, modelele de interaciune
75
spaial sunt modele multiplicative, cele de cretere a populaiei urbane sunt modele
exponeniale (sau logistice, n cazul n care se fixeaz o valoare-limit creterii), etc. n aceste
cazuri, este nevoie ca modelele geografice s fie transformate (liniarizate), pentru a se
subordona exigenelor modelului de regresie liniar. Principalele funcii non-liniare i metodele
de liniarizare a lor sunt:
b
-Funcia putere: Y = aX *
care, liniarizat , devine: Log Y = log a + b * log X +
bX
-Funcia exponenial: Y = a *
care, liniarizat , devine: Log Y = bX * log a +
Prin urmare, n alegerea modelului de regresie, trebuie nti sesizat forma relaiei
studiate (prin examinarea norului de puncte) i apoi trebuie verificat ajustarea norului prin
funcia corespunztoare. Dac funcia este non-liniar, se va proceda nti la liniarizarea sa i
apoi se va efectua regresia propriu-zis.
Calcularea coeficienilor de regresie
76
cu cele de supraestimare. Mai mult, acest criteriu are avantajul de a conduce la soluii simple i
rapide de calculare a coeficienilor de regresie a i b.
Conform obiectivului vizat, a aplica metoda celor mai mici ptrate nseamn a gsi
acele valori ale lui a i b care pot s conduc la cea mai mic sum a ptratelor ecarturilor dintre
valoarea observat Yi i valoarea estimat i (i = aXi+b):
N
N
N
^
min i = min ( Y i - Y ) = min [ Y i - ( aX i + b)]
i=1
i=1
i=1
A obine valorile lui a i b care s permit cea mai mic sum a ptratelor ecarturilor
nseamn deci a gsi acele valori care vor minimiza variana ptratelor ecarturilor: (i) =
minim. tiind c variana unei distribuii este media ptratelor ecarturilor fiecrei valori la
valoarea medie33 i tiind c valoarea medie este
N
Yi
i
=
Y= 1
N
,
atunci variana () n Y a distribuiei va fi:
N
(Yi - Y )
2 i=1
Y =
N
Apare astfel evident faptul c, pentru a afla parametrii a i b ai regresiei, interesul major
l reprezint cunoaterea varianei variabilei dependente Y precum i cunoaterea relaiei dintre
aceasta i variana variabilei independente X, care, prin analogie, este:
N
( Xi - X )
2 = i=1
X
N
33
77
N
( X i - X )( Y i - Y ) x i * y i
i=1
= i=1
COV XY =
N
N
x=X- X
y=Y - Y
xy
6-BACU
2,88
+0,74
0,55
4,00
+1,75
3,06
1,30
2-BOTOANI
1,40
-0,74
0,55
0,90
-1,35
1,82
1,00
7-GALAI
3,00
+0,86
0,74
4,10
+1,85
3,42
1,59
8-IAI
3,28
+1,14
1,30
2,70
+0,45
0,20
0,51
4-NEAM
1,82
-0,32
0,10
2,10
-0,15
0,02
0,05
5-SUCEAVA
1,93
-0,21
0,04
1,80
-0,45
0,20
0,09
3-VASLUI
1,55
-0,59
0,35
1,20
-1,05
1,10
0,62
1-VRANCEA
1,24
-0,89
0,80
1,20
-1,05
1,10
0,94
17,09
0,0
4,42
18,00
0,0
10,94
6,10
Media=/N
2,14
0,0
0,55
2,25
0,0
1,47
0,76
=ecart tip
0,74
0,38
1,17
1,22
0,51
=suma
Din acest moment, aplicarea metodei celor mai mici ptrate permite aflarea constantelor
a i b ale regresiei:
N
xi * y i
COV XY
i
=
=
a= 1N
2
x
xi
i=1
Din ecuaiile de mai sus rezult pe de o parte c a este raportul dintre covariana
distribuiei, respectiv COVXY, i variana variabilei independente, respectiv X, iar pe de alt
parte c dreapta de regresie trece prin centrul de gravitate al norului de puncte, de coordonate ,
(deoarece b = Y -a X => = a X +b). Prin urmare se poate stabili legtura existent ntre
parametrul a i coeficientul de corelaie rXY. Deoarece se cunoate X , Y , X, Y i rXY i se tie
c
r XY =
COV XY
X * Y , rezult c COV XY = r XY ( X Y )
COV XY
r XY * Y
r XY * ( X * Y )
a=
a=
2
2
X
X
X
iar b se calculeaz dup aceeai formul. Prin urmare, atunci cnd se cunoate coeficientul de
corelaie dintre X i Y este inutil s se calculeze covariana dintre X i Y pentru a gsi valorile
corespondente parametrilor de regresie.
n exemplu numeric referitor la relaia dintre rata urbanizrii i cea a produciei
industriale, COVXY = 0,762 iar X = 0,55. nlocuind n expresiile de mai sus, a = 0,762/0,55 =
78
+1,38 iar b = 2,25 - 1,382,14 = 2,25 - 2,94 = -0,69. Ecuaia dreptei de regresie devine:
Y = 1.38X - 0.69
Interpretarea parametrilor de regresie
Dup calcularea coeficienilor regresiei devine legitim urmtoarea ntrebare: care este
semnificaia celor doi parametri a i b i cum pot fi utilizai ei n explicarea relaiei dintre
variabilele considerate? Utilizarea unui exemplu grafic poate facilita nelegerea rspunsului la
aceast ntrebare.
n figura 5.17 sunt prezentate dou relaii perfect liniare ntre punctele care descriu
distribuia a 8 i respectiv 7 observaii. Pentru prima regresie (cu punctele sub forma unor
ptrate pline) se observ c pentru o cretere p a valorilor lui X cu 10 uniti (Xj-Xi=10) se obine
o cretere q a valorilor lui Y cu 5 uniti (Yj-Yi=5). Dreapta de regresie descrie, mpreun cu p i
q, un triunghi dreptunghic. Aplicnd formulele geometriei descriptive n respectivul triunghi, se
poate afla valoarea unghiului dintre dreapta de regresie i p, unghi care este de fapt panta
dreptei de regresie, respectiv coeficientul a, numit i coeficientul unghiular al regresiei: a = tg
= q/p = 5/10 = 0,5
Coeficientul a este aadar indicatorul de magnitudine al relaiei dintre cele dou
variabile, indicnd mrimea creterii lui Y n funcie de X (n cazul prezentat, pentru o cretere
cu o unitate a valorii lui X, valoarea corespondent Y nregistreaz o cretere cu o jumtate de
unitate). Faptul c a este un indicator de magnitudine
este clar dac se analizeaz comparativ i panta dreptei
Figura 5.17. Reprezentarea grafic a
celei de-a doua regresii (cu punctele sub forma unor interpretrii i semnificaiei parametrilor de
ptrate goale). Se observ c n acest al doilea caz regresie a i b.
pentru p (adic Xj-Xi) = 10, q+r (adic Yk-Yi) = 10, de
unde:
a = tg ' = (q+r)/p = 10/10 = 1
Panta este mai mare dect n cazul primei regresii (1 >
0,5): pentru o cretere cu o unitate a valorii lui X,
valoarea corespondent Y nregistreaz o cretere
identic.
Din figur rezult clar faptul c b, al doilea
coeficient al regresiei, este parametrul care determin
poziia punctului de intersecie al dreptei de regresie cu
axa Y, atunci cnd X este 0; din aceast cauz, b mai
este denumit i originea sau intercepia dreptei de
regresie. n cazul primei regresii, b = 15. Ecuaia
dreptei este prin urmare Y = 0,5X + 15. n cazul celei de-a doua regresii, dreapta trece prin
origine, deci b = 0, de unde rezult c ecuaia este Y = 1X+0 => Y = X.
Cunoscnd magnitudinea (a) i originea (b), se poate estima oricare Y pentru o valoare X
dat: Yi=0,5Xi+15. Dac Xi = 65, atunci Yi = 650,5+15 = 32,5+15 = 47,5.
Relund exemplul numeric, unde ecuaia dreptei de regresie era Y=1,38X+(-0,69), se
poate acum explica relaia existent ntre X (proporia populaiei urbane judeene din totalul
populaiei urbane a Romniei) i Y (proporia produciei industriale judeene din totalul
produciei industriale a Romniei): pentru fiecare cretere de 1% a populaiei urbane, se
nregistreaz o cretere medie a produciei industriale cu 1,38%.
Intensitatea (fora) relaiei: form de control a modelului de regresie
79
(Y-)
X
Y
5.18, cu linie punctat, sunt indicate ecarturile Y fa Jude \ Var.
6-BACU
2,88
4,00
3,06
3,28
0,52
2-BOTOANI
1,40
0,90
1,82
1,23
0,11
varianei variabilei Y fa de Y .
7-GALAI
3,00
4,10
3,42
3,44
0,44
8-IAI
3,28
2,70
0,20
3,82
1,26
4-NEAM
1,82
2,10
0,02
1,81
0,09
5-SUCEAVA
1,93
1,80
0,20
1,97
0,03
3-VASLUI
1,55
1,20
1,10
1,44
0,06
1-VRANCEA
1,24
1,20
1,10
1,02
0,03
=suma
2,53
Media=/N
2,14
2,25
1,47
2,25
0,32
=ecart tip
0,74
1,17
1,22
1,03
0,40
(Y -Y )
80
2
XY
2
^
Y
2
Y
2
2
^ =1- r
XY
(Y -Y )
0.90
0.80
0.70
0.60
0.50
0.81
0.64
0.49
0.36
0.25
81
82
1. Prima ipotez fcut asupra reziduurilor este aceea c media lor aritmetic este
nul: E(i)=0 (valorile estimate sunt medii n raport cu Yi observate; aceasta nseamn c se
consider c reziduurile sunt pozitive i negative n jurul lui 0 i c suma lor este 0 (i=0).
2. A doua ipotez este homoscedasticitatea reziduurilor, respectiv ipoteza c
reziduurile i au aceeai varian i pentru orice i=1,2,...n. condiia este impus de necesitatea
simplificrii estimrii parametrilor de regresie. Este de la sine neles c variana condiional a
lui Yi pentru un X dat este i ea constant, pentru oricare i, de unde XY = i. Condiia de
homoscedasticitate trebuie avut mereu n atenie, deoarece multe dintre variabilele cu care
opereaz geografia nu o satisfac, ceea ce falsific grav rezultatele regresiilor i interpretarea
acestora.
Homoscedasticitatea unei distribuii este verificat cu ajutorul erorii standard (ES) a
estimrii lui Y. Eroarea standard a estimrii lui Y este rdcina ptrat a varianei distribuiei
normale a reziduurilor:
N
^ 2
(Yi - Yi )
2
i=1
=> ES = 2 ^
^ =
(Y -Y )
(Y -Y )
N
care,
dup
serie
de
transformri,
devine
ES = Y 1 - r 2XY
n care:
ES este prin urmare un rezumat al variaiilor reziduurilor, care trebuie s fie utilizat
pentru completarea modelului general
de regresie:
Figura 5.22. Intervalele de ncredere de 68% i 95% pentru dreapta
Y = aX + b ES de regresie a numrului de spectatori de cinema n funcie de
Cnd ecuaia de mai sus descrie o populaia judeelor.
relaie perfect iar rXY=1, ES este 0,
deci nu exist reziduuri; cnd nu
exist nici o relaie ntre variabile i
rXY=0, ES este maxim. Eroarea
standard a estimrii lui Y se comport
fa de curba normal la fel ca i
abaterea standard. n fig.5.22 este
reluat dreapta de regresie prezentat
anterior, completat (Y = 9,31X160,92 862,60), care este acum
dublat
de
linii
paralele,
corespunztoare
reziduurilor
standardizate.
Se
observ
c
reziduurile se grupeaz ntre benzi cu aproximaie ca sub curba normal:
-ntre +1ES i -1ES se grupeaz 68% dintre reziduuri (sub curba normal, ntre +1 i 1 se grupeaz 68,26% dintre valori);
-ntre +2ES i -2ES se grupeaz 95% dintre reziduuri (sub curba normal, ntre +2 i 2 se grupeaz 95,46% dintre valori);
-ntre +3ES i -3ES se grupeaz 99% dintre reziduuri (sub curba normal, ntre +3 i 3 se grupeaz 99,75% dintre valori).
83
84
ipoteza conform creia coeficienii de regresie ai mai multor eantioane extrase din aceeai
populaie urmresc de asemenea o distribuie normal.
Se demonstreaz astfel importana condiiei de normalitate prezentat mai sus n
procesul construirii testelor pentru verificarea estimrilor obinute. Testele se dovedesc eseniale
pentru interpretarea rezultatelor regresiei, deoarece ne putem ntreba: la ce folosete
interpretarea unui coeficient a (sau a unei valori ) dac nu se tie dac acesta este n mod
semnificativ diferit de 0 sau dac intervalul su de ncredere este foarte ngust sau foarte larg?
(Beguin, 1978). Modelul statistic teoretic are forma urmtoare:
Y = X +
Y
(Y -Y ) i=
1
i=1
^
2
(
Y
-Y )
2 i=1
s^ =
Y
1
, iar variana rezidual estimat este
^
2
(Y - Y )
2
i=1
^ =
s
(Y -Y )
N -2
36
37
85
Din acest moment putem testa ipoteza nul (H0: nu exist nici o diferen ntre a i ,
deci nu exist nici o relaie ntre Y i X, relaia msurat fiind datorat hazardului n alegerea
eantionului):
- dac FXYF, la 1 i (N-2) g.l., ipoteza nul H0 este respins, putndu-se accepta
ipoteza alternativ H1: ntre a i exist diferene semnificative, deci exist o relaie ntre cele
dou variabile, relaie care nu este supus ntmplrii.
Pentru exemplul numeric referitor la variaia numrului de spectatori la cinema (Y) n
funcie de populaia total a judeului (X), se obine:
FXY = (0,763)(40-2)/(1-0,763) = 28,994/0,237 = 122,3
- pentru un nivel de semnificaie al testului =0,05 i (1;38) grade de libertate, F=4,17
(vezi Anexa V), deci H0 poate fi respins foarte uor, fiind clar c a difer foarte mult de 38;
- pentru un n.s. =0,01 i (1;38) grade de libertate, F=7,56 (vezi Anexa IV), deci
regresia rmne nc foarte semnificativ; H0 poate fi respins fr dificultate.
5.3.2.5. Aplicaiile regresiei liniare n geografie
Cu ajutorul exemplului foarte cunoscut al relaiei dintre temperatur i altitudine, vom
demonstra n continuare aplicaiile posibile ale regresiei n geografie: sintetizarea, modelarea,
previziunea i descoperirea particularitilor locale.
a) Sintetizarea
S presupunem c, prin intermediul a 500 de staii meteorologice, se msoar
temperatura medie anual a aerului (T=Y) n Moldova, la diferite altitudini (X=H), i c se
gsesc urmtoarele valori:
* T = 10C la H = 0 metri;
* T = 4C la H = 1000 metri;
* T = -2C la H = 2000 metri.
Ne putem ntreba dac este ntr-adevr util s se nregistreze n fiecare zi temperaturile
T obinute. Statistica ofer un rspuns imediat la aceast interogaie. Analiza seriilor de valori
demonstreaz c exist o puternic corelaie negativ rXY = rTH = -0,900 ntre altitudine i
temperatur. Calculul coeficienilor de regresie a condus la urmtoarele rezultate: a=-0,006C
(temperatura Y=T scade cu 0,006C cnd altitudinea X=H crete cu 1 metru) i b=10C (b este
originea dreptei de regresie, respectiv valoarea temperaturii Y cnd altitudinea X este zero). Prin
urmare, ecuaia dreptei de regresie este Y=-0,006X+10 sau T=-0,006H+10C. Coeficientul de
determinare al regresiei fiind ptratul coeficientului de corelaie, rTH = 0,900 => rTH =
0,9000,900 = 0,810, rezult c ecuaia permite sintetizarea (rezumarea) esenialului (81%) din
variaia spaial a temperaturii odat ce se cunoate altitudinea.
* Este evident astfel c regresia permite sintetizarea unui volum foarte mare de
informaie cu ajutorul a doar doi parametri. Aceast sintez este cu att mai valabil cu ct
corelaia este mai puternic.
b) Modelarea
Observaiile meteorologice, combinate cu analizele statistice, i repetate pe tot lungul
anului, demonstreaz faptul c coeficientul a nu se schimb (-0,006 = constant), n vreme ce
coeficientul b oscileaz n funcie de anotimp (valorile sale sunt ridicate vara i coborte iarna).
Ce se poate deduce din aceste observaii?
38
Trebuie s fie remarcat c simbolul este folosit att pentru a nota coeficientul teoretic al regresiei, ct i pentru
probabilitatea de a grei cnd se respinge H0. Sensul reiese clar din context.
86
n paginile anterioare s-a demonstrat c metodele analitice de calcul ale corelaiei sunt
aplicate atunci cnd distribuia variabilelor este normal i cnd exist informaii asupra
parametrilor funciilor care realizeaz legtura dintre variabilele respective.
Se cunoate ns faptul c o serie ntreag de date geografice nu pot fi msurate dect pe
scar ordinal, fie din cauza naturii informaiilor (preferina persoanelor pentru anumite orae,
de exemplu), fie din cauza faptului c valorile cardinale sunt nesigure sau au o distribuie mult
87
prea neadaptat unei transformri ntr-o distribuie apropiat de una normal. n aceste cazuri,
chiar dac se bnuiete c ntre variabilele astfel msurate exist o relaie, calcularea corelaiei
prin metodele prezentate nu este posibil, deoarece distribuia nu este normal iar informaiile
despre parametrii funciilor lipsesc.
Singura posibilitate de msurare a relaiilor stabilite ntre asemenea variabile sunt
metodele neparametrice de calcul al corelaiei. Una dintre aceste metode este calcularea
corelaiei rangurilor, pornindu-se de la ipoteza c ntre rangurile celor dou variabile exist o
relaie de dependen, a crei intensitate este msurabil. Dispunnd de rangurile39 variabilelor,
de la 1 la N unde N este numrul de observaii caracterizate de variabilele considerate,
msurarea intensitii corelaiei se efectueaz fie prin coeficientul de corelaie Spearman, fie
prin coeficientul de corelaie Kendall.
* Exemplu. ncercnd s explice preferinele migranilor interni pentru unul sau altul dintre judeele
Romniei, o echip de specialiti n geografie social a avut ideea s msoare intensitatea impactului informaiilor
transmise prin mass-media asupra alegerii judeului-int de ctre migrani. Pentru aceasta, s-au creat dou ateliere
de cercetare:
- primul atelier a studiat arhivele presei scrise i vorbite din ultimii 15 ani i, n funcie de frecvena
apariiei informaiilor despre fiecare jude n articole i emisiuni radio-tv, au realizat o ierarhie a judeelor (coloana
X n tabelul de mai jos);
- al doilea atelier a efectuat un sondaj pe un eantion reprezentativ din populaia n vrst de 25-30 de ani,
stabilind o ierarhie a judeelor n funcie de frecvena apariiei fiecrui jude n topul preferinelor acestui eantion
de populaie (coloana Y din tabelul de mai jos).
n tabelul de mai jos s-au obinut dou iruri de ranguri, unul pentru X (X1, X2 . . . Xi, Xj .
. . XN) i altul pentru Y (Y1, Y2 . . . Yi, Yj . . . YN). Coeficientul lui Spearman se calculeaz aidoma
coeficientului de corelaie liniar Bravais-Pearson, lundu-se rangurile drept valori. Pentru
aceasta, se ordoneaz cele dou iruri n funcie de rangurile lui X, obinndu-se un total de 40
de perechi de valori: (X1,Y1), (X2,Y2) . . . (Xi,Yi), (Xj,Yj) . . . (XN,YN). n etapa urmtoare, se
efectueaz diferena dintre rangurile fiecrei perechi rezultate: (X1-Y1) . . . (Xi-Yi), (Xj-Yj) . . .
(XN-YN), obinndu-se valorile trecute n coloana d. Deoarece suma valorilor coloanei d este 0,
acestea se ridic la ptrat, rezultnd valorile coloanei d, dup care se aplic formula lui
Spearman:
N
2
6 ( X i - Yi )
= i=1
N(N + 1)(N - 1)
N
6 d
= i=1
N(N - 1)
sau
Coeficientul de corelaie a rangurilor propus de Spearman oscileaz de asemenea ntre 1 i +1, relaia fiind cu att mai puternic cu ct este mai aproape de 1 i cu att mai slab cu
ct este mai aproape de 0.
39
Rangul este locul ocupat de o observaie ntr-o ierarhie ascendent (1, 2, 3...i...N) sau descendent (N...i...3, 2, 1).
88
6 * 1074
40(40 - 1)
Variabila
II * N - 2
1 -
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
2
4
11
10
1
7
3
15
5
8
17
6
13
14
18
9
28
26
16
12
22
30
20
23
21
24
37
25
19
29
32
33
34
36
35
39
31
27
38
40
-1
-2
-8
-6
4
-1
4
-7
4
2
-6
6
0
0
-3
7
-11
-8
3
8
-1
-8
3
1
4
2
-10
3
10
1
-1
-1
-1
-2
0
-3
6
11
1
0
1
4
64
36
16
1
16
49
16
4
36
36
0
0
9
49
121
64
9
64
1
64
9
1
16
4
100
9
100
1
1
1
1
4
0
9
36
121
1
0
1074
Judeul
= + 0,899
0,899 * 40 - 2
1 - 0,899
0,899 * 6,14
1 - 0,802
= 12,65
Prahova
Iai
Dolj
Cluj
Constana
Bacu
Timi
Suceava
Braov
Arge
Bihor
Galai
Mure
Neam
Dmbovia
Hunedoara
Maramure
Olt
Buzu
Sibiu
Arad
Teleorman
Vaslui
Botoani
Vlcea
Alba
Satu Mare
C. Severin
Brila
Vrancea
Gorj
Harghita
Clrai
Mehedini
B-a Nsud
Giurgiu
Ialomia
Tulcea
Slaj
Covasna
=suma
Al doilea coeficient de corelaie a rangurilor este cel al lui Kendall, care este fundamentat pe
numrul de inversiuni ale ordinii rangurilor celor dou variabile, comparat cu o ierarhie
standard (Porojan, 1993). De obicei, ordinea standard este ierarhia variabilei X, n funcie de
care se studiaz inversiunile din ierarhia variabilei Y.
Calcularea acestui coeficient (, se citete tau) nu pune de asemenea condiia de
normalitate a distribuiei variabilelor, ns cere observarea tuturor cuplurilor de variabile (XiYi,
XjYj) cu ij. Observarea acestor perechi este laborioas, deoarece este nevoie de considerarea a
[N(N-1)]/2 valori. Fiecare pereche conine patru ranguri: Xi, Xj, Yi i Yj. Coeficientul este n
esen ecartul dintre proporia perechilor concordante i proporia perechilor discordante. O
pereche este numit concordant dac atunci cnd Xi>Xj, i Yi>Yj; n caz contrar, perechea este
numit discordant (atunci cnd Xi>Xj, Yi<Yj sau atunci cnd Xi<Xj, Yi>Yj).
89
N
2
(N - 1)= 2 * 665 -
40
2
(40 - 1)
P
N
2
(N - 1)
550
20 * 39
550
780
= + 0,705
Variabila
Judeul
Prahova
Iai
Dolj
Cluj
Constana
Bacu
Timi
Suceava
Braov
Arge
Bihor
Galai
Mure
Neam
Dmbovia
Hunedoara
Maramure
Olt
Buzu
Sibiu
Arad
Teleorman
Vaslui
Botoani
Vlcea
Alba
Satu Mare
C.- Severin
Brila
Vrancea
Gorj
Harghita
Clrai
Mehedini
B-a Nsud
Giurgiu
Ialomia
Tulcea
Slaj
Covasna
=suma
Inversiuni
(K)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
2
4
11
10
1
7
3
15
5
8
17
6
13
14
18
9
28
26
16
12
22
30
20
23
21
24
37
25
19
29
32
33
34
36
35
39
31
27
38
40
38
36
29
29
35
29
31
23
30
29
22
28
24
23
22
25
12
13
20
20
16
10
15
14
14
13
3
11
11
9
7
6
5
4
3
1
2
2
1
0
665
XY
(4N + 20)(9N - 9)
90
Raportul empiric de corelaie (se citete eta) msoar intensitatea maxim a relaiei
existente fie ntre dou caracteristici cantitative, fie ntre o caracteristic cantitativ i unul
calitativ. n calcularea sa se pornete de la un tabel de contingen, deoarece este strns legat de
distribuiile marginale condiionale.
Spre deosebire de coeficientul de corelaie Bravais-Pearson, coeficientul nu necesit ca
relaia s fie liniar. Din aceast cauz, i datorit faptului c nu ofer alte informaii asupra
naturii relaiei, este necesar ca, n cazul caracteristicilor cantitative, s fie nsoit i de analiza
celor dou curbe de regresie (Beguin, 1978). Prin urmare, n cazul caracteristicilor cantitative,
trebuie calculai ambii coeficieni: i XY (al lui X n Y), i YX (al lui Y n X). n cazul n care Y
este o caracteristic calitativ nominal, se calculeaz doar XY.
Deoarece are un comportament similar indicelui Bravais-Pearson, ptratul su () are
aceeai semnificaie ca rXY, msurnd partea de varian explicat din variana total. Mai
exact, este proporia varianei distribuiei marginale exprimat prin variana mediilor
distribuiilor condiionale40 (Calot, 1973). Expresiile celor doi coeficieni de corelaie empiric,
exprimate prin ptratele acestora, sunt:
n
k ij ( X i - X / Y )
j
i=1 j=1
XY = 1 n
k i.( X i - X )
i=1
k ij ( Y j - Y / X i )
i=1 j=1
YX = 1 p
k .j ( Y j - Y )
j=1
1
50
Msurarea intensitii relaiei stabilite ntre dou variabile calitative nominale nu poate fi
efectuat prin calcularea raporturilor sau a coeficienilor de corelaie. Metodele utilizate n acest
caz sunt tot metode neparametrice, dar care caut s msoare nu intensitatea ci gradul de
asociere (asociere spaial n cazul geografiei) al celor dou variabile.
Exemplu. tiindu-se c piersicul este un arbore pretenios fa de regimul temperaturii, se poate ncerca s
se demonstreze c paralela de 46 latitudine nordic este n cadrul Romniei un prag bioclimatic pentru aceast
plant. n lipsa unor date teritoriale amnunite se construiesc dou variabile X i Y, n care X semnific producia
judeean de piersici (notat cu 0 pentru judeele cu producia sub 500 t/an i cu 1 pentru judeele care depesc
aceast valoare), iar Y semnific poziia fiecrui jude n raport de paralela 46lat.N (notat cu 0 pentru judeele
netraversate de paralel i aflate la nord de aceasta i cu 1 pentru judeele traversate de paralel sau aflate la sud de
aceasta).Tabelul elementar rezultat este redat alturat.
Pentru a se calcula gradul de asociere (al prezenei acelorai valori ale celor dou variabile n acelai jude)
este necesar realizarea unui tabel de contingen (vezi tabelul alturat), deoarece toi coeficienii de msurare ai
asocierii au la baz noiunea de contingen (de asociere) i legea urmat de .
40
Vezi subcapitolul "Tabelul de contingen i studiul relaiei dintre dou caractere discrete".
91
n p ( k - k )
ij ij
2
D = XY =
k ij
i=1 j=1
( k 11 * k 22 - k 12 * k 21 )
D
2
XY =
( k 1. * k 2. * k .1 * k .2 )
N n care
sau
iar N este
efectivul total (sau N = k..). Din tabelul de contingen se obine XY=24,3, de unde =24,3/40
=+0,607 => = =+0,779. Valoarea coeficientului, =+0,779 confirm existena unui grad
destul de mare de asociere ntre produciile mari de piersici obinute (>500t/an) i poziia la sud
de paralela de 46lat.N a judeelor Romniei.
Coeficientul se dovedete semnificativ sau nu dup
Y:
Y=0
Y=1
TOTAL
testarea ipotezei nule H0 conform creia =0. Atunci cnd
X:
XY , H0 este
11
10
21
X=0
X=1
3
16
19
respins. n cazul
Variabila
X
Y
exemplului
Judeul
(1= >500t/an)
(1=sud)
TOTAL
14
26
40
numeric
de
mai
0
1
Prahova
1
1
Iai
sus, coeficientul
0
1
Dolj
0
0
Cluj
se dovedete semnificativ chiar i la =0,001, deorece
1
0
Constana
0
0
Bacu
citit este de 10,83 iar XY este de 24,3: XY
0
0
Timi
0
1
Suceava
=> H0 este respins.
Braov
Arge
Bihor
Galai
Mure
Neam
Dmbovia
Hunedoara
Maramure
Olt
Buzu
Sibiu
Arad
Teleorman
Vaslui
Botoani
Vlcea
Alba
Satu Mare
C. Severin
Brila
Vrancea
Gorj
Harghita
Clrai
Mehedini
B-a Nsud
Giurgiu
Ialomia
Tulcea
Slaj
Covasna
1
0
1
1
0
1
0
1
1
1
1
0
0
0
1
0
0
1
0
0
1
0
1
1
0
0
1
1
1
0
0
1
1
1
1
1
0
1
1
1
1
1
1
1
0
1
1
0
0
1
0
0
1
1
0
0
1
0
1
1
1
0
1
1
k 11 * k 22 - k 12 * k 21
k 11 * k 22 + k 12 * k 21
11 * 16 - 10 * 3
11 * 16 + 10 * 3
= + 0,708
92
Ipoteza nul H0, conform creia = 0, se testeaz prin calcularea lui : dac XY ,
atunci H0 este respins.
5.5.2.3. Coeficientul de contingen (c)
Spre deosebire de ceilali coeficieni, c se poate aplica i tabelelor de contingen mai
mari de 2x2, ns fundamentarea sa statistic se sprijin de asemenea pe calcularea lui
(Beguin, 1978):
c XY =
+ N
24,3
24,3 + 40
= + 0,615
c max XY =
2-1
= + 0,707
n care m este numrul cel mai mic, fie de coloane, fie de linii, al tabelului de contingen. De
exemplu, dac un tabel de contingen are 5 coloane i 3 linii, m=3 (n cazul nostru m=2,
deoarece numrul de coloane este egal cu numrul de linii, respectiv cu 2). Calculnd raportul,
se obine
c XY
c max XY
24,3
+ N
m-1
24,3 + 40
2-1
+ 0,615
+ 0,707
= + 0,869
Asupra acestui coeficient, +0,869, care demonstreaz o puternic asociere ntre poziia sudic a
judeelor i mrimea produciei de piersici, se testeaz ipoteza nul c/cmax = 0, care este respins
dac XY .
5.5.2.4. Coeficientul lui Cramer (rc)
Coeficientul de asociere rc, a crui distribuie este deasemenea nedeterminat, se
calculeaz ca un raport ntre observat i valoarea maxim pe care o poate avea observat,
care se afl prin max = N(m-1), n care m este cel mai mic numr de linii (de coloane) al
tabelului de contingen. Formula sa de calcul devine astfel:
rc =
N(m - 1)
24,3
40(2 - 1)
= + 0,779
Se remarc uor faptul c n cazul tabelului de contingen 2x2, m-1 = 2-1 = 1, nct rc = , egal
n cazul exemplului numeric cu +0.779. semnificaia coeficientului este obinut prin testarea
ipotezei nule H0, cu rc: dac XY , H0 este respins n favoarea ipotezei alternative H1,
conform creia rc > 0 ( deoarece coeficientul lui Cramer oscileaz ntre 0 i +1).
5.5.2.5. Coeficientul lui Ciuprov (C)
Numrndu-se printre cei mai comozi coeficieni, deoarece oscileaz ntre 0 i +1,
coeficientul C se bazeaz de asemenea pe calcularea lui :
C XY =
24.3
40 (2 - 1)(2 - 1)
= + 0.779
93
Stabilirea faptului existenei unei legturi ntre dou fenomene nu implic n mod
necesar c ntre cele dou fenomene exist relaii de cauzalitate. Exist i corelaii aparente, fr
fundament real. Britanicul G. U. Yule a stabilit c, ntre 1929 i 1937, n Marea Britanie
valoarea coeficientului de corelaie dintre numrul de receptoare radio i numrul deficienilor
mintal a fost de +0,988 (Porojan, 1993). Este evident c, dincolo de aspectul amuzant, nimic nu
ndreptete existena unei corelaii reale ntre cele dou variabile.
5.6.1. Un pericol specific geografiei: eroarea ecologic
Acest tip de eroare este numit eroare ecologic, deoarece ea const n a gndi c
prezena a dou fenomene ntr-un acelai loc (ntr-un ecosistem) implic o relaie cauzal ntre
cele dou fenomene. ns faptul c leii i termitele triesc n savan nu implic deloc faptul c
leii mnnc termitele sau c termitele gonesc de zor leii prin savan pentru a-i asigura cina...
94
41
Aici i mai departe n text termenul variabil se refer exclusiv la variabila y din modelul generalizat de mai
sus, ale crei valori constituie termenii seriei cronologice.
95
Dup felul n care valorile variabilei se ataeaz unitilor de timp se disting dou feluri
de serii cronologice:
s. de momente - sunt acele s.c. la care valorile variabilei (de regul una de stoc) sunt
ataate unor momente de timp, eventual echidistante. O caracteristic a acestor serii este
imposibilitatea (sau lipsa de sens) a cumulrii valorilor succesive. Exemple de variabile:
populaia unui ora, parcul de automobile al unei ri, populaia ocupat n agricultur .a.;
s. de intervale sunt seriile la care valorile variabilei (de regul una de flux) sunt ataate
unor intervale de timp egale. Exemple de variabile: producia agricol sau industrial, cantitatea
anual de precipitaii, nr. de nscui vii etc. O asemenea serie de timp mai este numit i
continu, deoarece variabila poate cpta un numr infinit de valori n interiorul intervalului
temporal ales. Caracteristica acestui tip de s.c. o constituie posibilitatea cumulrii valorilor
succesive ale variabilei.
Reprezentrile grafice specifice pentru s.c. sunt cronogramele sau historiogramele.
Acestea sunt nite grafice simple de tipul curbelor elementare, n care pe abscis se trec
momentele/intervalele de timp, iar pe ordonat valorile variabilei; punctele ce corespund
perechilor de valori (yt,t) se unesc printr-o linie, rezultnd o curb care descrie evoluia n timp a
fenomenului studiat.
6.2. Serii cronologice i indici
Mai ales n domeniul Statisticii economice, analiza primar a seriilor de timp se bazeaz
pe un sistem de indici care caracterizeaz succint relaiile cantitative dintre termenii seriei, pe o
anumit perioad sau pe ntregul interval de timp acoperit de termenii seriei.
Un indice este un mrime numeric rezultat din compararea valorilor unui
indicator statistic42 i care ofer o msur a schimbrii nivelului unei variabile
n timp (indice cronologic) sau n spaiu (indice teritorial sau regional).
Prelucrarea termenilor unei serii sau subserii cronologice permite obinerea a trei
categorii de indici: absolui, relativi i medii (Porojan, 1993). Indicii din primele dou categorii
mai sunt cunoscui sub denumirea de indici elementari, iar cei medii mai sunt numii indici
sintetici (Chadule,1974).
a)Indicii absolui - sunt acei indici ai cror valori se msoar n aceleai uniti ca i
termenii seriei. Dintre indicii absolui mai uzitai sunt trei: nivelul absolut, sporul absolut i,
pentru seriile de intervale, volumul sporului.
nivelul absolut al seriei reprezint, de fapt, nsei valorile absolute ale termenilor
acesteia:
y t 1 , y t 2 , ..., y t i , ..., y t n
sporul absolut sau creterea absolut este diferena dintre un termen oarecare al seriei
i primul termen, acesta din urm find considerat baz de referin - motiv pentru care se mai
numete i spor absolut cu baz fix:
i/1 = y t i - y t 1
Sporul absolut al ntregii serii va fi diferena dintre ultimul i primul termen:
n/1 = y t n - y t 1
Sporul se poate calcula i ca diferen ntre cte doi termeni consecutivi, caz n care se
numete spor absolut cu baza n lan:
42
Indicator statistic = mrime statistic, cu ajutorul creia se caracterizeaz un fenomen social-economic sub
aspectul structurii i modificrilor sale cantitative n timp sau n spaiu (Trebici & colab.,1985). Exemple de i.s.:
venitul naional, valoarea produciei industriale, consumul de calorii pe cap de locuitor etc.
96
i/i - 1 = y t i - y t i - 1
pentru seriile de intervale (deci n cazul variabilelor ale cror valori se pot cumula) se
calculeaz volumul sporului:
n
b)Indicii relativi - sunt indici care se obin sub forma unor rapoarte, de obicei
procentuale.
ritmul sau indicele de cretere se obine ca un raport ntre un termen oarecare al seriei
i primul termen, considerat ca baz (indice de cretere cu baz fix):
yt n
yti
x100
x100
I i/1 =
I n/1 =
yt1
yt1
(pentru ntreaga serie indicele va fi
).
i aici se poate calcula un indice de cretere cu baza n lan:
yti
x100
I i/i - 1 =
yt i-1
n cazul seriilor de intervale, ntre cele dou feluri de indici exist o relaie care deriv
din modul cum se calculeaz acetia: indicele de cretere cu baz fix este egal cu produsul
indicilor de cretere cu baz n lan:
n
I n/1 = I i/i - 1
i=1
i/i -1
y tn - y t1
i=1
x100 = (
x100 =
=
R n/1
y t1
y t1
y tn
- 1)x100
y t1
i exprim cte uniti (procente) de spor absolut revin pentru o unitate (procent) din baz.
Lucrnd cu perechi de termeni succesivi se pot obine i nite ritmuri ale sporului cu baza n
lan:
R i/i -1 =
y
y -y
x100 = ti ti-1 x100 = ( ti - 1)x100
y ti-1
y ti-1
y ti-1
i/i -1
c)Indicii medii (sintetici) - sunt de fapt nite variante de medii aritmetice ale seriei
cronologice.
nivelul mediu se calculeaz n mod diferit, dup cum avem de-a face cu o serie de
intervale sau cu o serie de momente, echidistante sau nu.
- la seriile de intervale nivelul mediu este media aritmetic simpl a termenilor seriei:
n
yt
y ti
i
=
= 1
n
y t1 + y t2 + ... + y t n-1 +
y
2 tn
97
- la seriile de momente ce se succed la intervale de timp inegale nivelul mediu este media
cronologic ponderat :
t1
2
yt =
y t1 +
t1 + t 2
2
y t2 + ... +
t n -1 + t n
2
y tn
t 1 + t 2 + ... + t n
,
unde t1, t2, ..., tn sunt intervalele de timp (inegale) dintre momentele de timp ale seriei.
sporul absolut mediu se calculeaz prin raportarea sporurilor absolute cu baz fix, sau
cu baza n lan, la numrul termenilor minus unul:
n
i/i -1
i
=
= 1
n/1
n-1
n -1 .
, respectiv
De remarcat c suma sporurilor absolute medii cu baza n lan este egal cu sporul absolut
mediu cu baz fix:
n
i/i -1 = n/1
i=1
y tn
y t1
i -1
, ..., y t1 * I
n -1
Dac ritmul de cretere este constant de-a lungul perioadei analizate, atunci termenii progresiei
se apropie mult, ca valoare numeric, de cei ai seriei originare (primul termen fiind oricum
identic).
Cunoaterea indicilor de cretere este foarte util n analizele comparative ale unor
indicatori statistici, n perioade de timp diferite sau pentru ri (grupe de ri) diferite. Este i
motivul pentru care indicii (n particular indicele de cretere) sunt uzuali n anuarele statistice
naionale i internaionale.
Ritmul mediu de cretere este util, deasemenea, n prognoza fenomenelor la care se
refer seriile de timp, pe baza operaiunii de extrapolare matematic.
6.3. Analiza seriilor cronologice
Din punctul de vedere al statisticii inductive analiza seriilor cronologice prezint unele
dificulti. Acestea provin mai ales din faptul c valorile variabilei studiate, ordonate n funcie
de timp, nu sunt ntotdeauna independente; altfel spus, ntr-o serie cronologic termenii nu se
succed ntotdeauna ntr-o manier pur aleatoare, valoarea unui termen depinznd, mai mult sau
mai puin, de valoarea termenului (termenilor) anterior(i).
98
Cel mai adesea simpla reprezentare grafic a seriei cronologice evideniaz clar
caracterul aleator sau, dimpotriv, organizat al acesteia: n cazul unei serii aleatoare nu putem
decela nici un fel de tendin de organizare n timp a valorilor, fie sub forma unortendine de
cretere/descretere, fie sub forma unor oscilaii cu caracter periodic, fie ambele.
Dac examinarea graficului las loc unor incertitudini se poate apela la nite procedee
numerice sau grafice de verificare a caracterului aleator, procedee care intr n categoria testelor
statistice.
Verificarea caracterului aleator este o prim etap, obligatorie, n analiza unei serii
cronologice. Dac nici unul din procedeele de verificare nu evideniaz existena unei organizri
a seriei, atunci se conchide c aceasta este pur aleatoare i este inutil s continum analiza.
Dac, dimpotriv, una sau mai multe relev caracterul non-aleator, atunci analiza trebuie
continuat pentru a obine, n final, un model al seriei care s exprime ct mai adecvat modul
i gradul de organizare ale acesteia.
Unul dintre procedeele numerice cele mai simple pentru verificarea caracterului aleator
este testul von Neumann (Chadule,1974).
Se calculeaz mai nti mrimea
n
2
( y ti+1 - y ti )
2 i=1
=
n-1
Dac seria este aleatoare, atunci constituie o bun estimare a dublului varianei irului (2).
Se calculeaz deci i variana . Dac
43
2
2
Autocorelaia sau corelaia serial a unei serii cronologice nseamn corelaie ntre termenii, vecini (
yt i
yt i+1
sau separai de un numr oarecare de intervale de timp ( t i i t i+k ), ai acesteia. Se pot calcula nite coeficieni de
corelaie serial, analogi cu cel de corelaie liniar simpl, lucrnd cu irurile de termeni decalai cu k uniti de
timp (termeni). Formula de calcul este aceeai:
rk =
COV( y t i , y t i+k )
2y 2y
ti
t i+ k
Valoarea lui rk este cuprins ntre -1 i +1. Graficul avnd pe abscis valorile lui k i pe ordonat valorile lui rk
poart denumirea de corelogram i este util n detectarea eventualelor fluctuaii periodice ale seriei cronologice
(valoarea lui k ce corespunde unui rk apropiat de -1 sau +1 reprezint tocmai perioada oscilaiei).
99
II
1,96
II
1
1,96
n-1
,
atunci i.n. H0 trebuie respins i se poate conchide c n cadrul seriei exist, cu o probabilitate
de 95%, o tendin al crei sens (cresctor sau descresctor) este indicat de semnul lui .
Trebuie remarcat c testul rangurilor ofer concluzii corecte doar dac tendina testat
este liniar. n cazul uneitendine neliniare, n spe parabolic, aplicarea testului conduce la
acceptarea i.n., ceea ce constituie o eroare.
6.3.2. Descompunerea (filtrarea) seriilor cronologice
Examinarea atent a graficelor unui numr mare de serii de timp ce redau fenomene
naturale sau socialeconomice ne va conduce,
mai curnd sau mai
trziu, la ideea c n cadrul
unei serii se pot
deosebi mai multe feluri de
fluctuaii
(micri,
variaii) ale valorilor (vezi.
fig.6.1).
tendina
general sau, cu un termen
englezesc ncetenit
i n limba romn, trendul
seriei (T). Este acea
variaie lent, constant i de
lung durat care
indic direcia general de
evoluie n timp a
fenomenului studiat prin
intermediul
seriei Figura 6.1. Componentele unei serii respective. Se mai numete
i tendin secular cronologice i modalitile de combinare a sau trend secular, deoarece
sensul micrii se acestora.
menine
o
perioad
ndelungat
(zeci,
sute de ani);
variaiile ciclice (C). Termenul ciclice desemneaz aici acele fluctuaii cvasiperiodice ale cror amplitudini i perioade sunt mai mult sau mai puin neregulate (motiv pentru
care ele sunt incluse uneori n categoria variaiilor ntmpltoare);
variaiile periodice (S) sunt acele variaii care se repet, aproximativ n aceeai form,
la intervale de timp (perioade) egale. n funcie de mrimea perioadei pot fi micri diurne (ex.
oscilaiile diurne ale temperaturii aerului), semidiurne (ex. oscilaiile mareice), lunare (ex.
variaia consumului de alcool ntr-un cartier muncitoresc, n relaie cu data fix a chenzinei) sau,
cel mai adesea, sezoniere;
100
variaiile aleatoare sau reziduale (R), care se datoreaz unor factori cu aciune
aleatoare (ex. calamiti naturale, calamiti politico-administrative etc.) i care formeaz aanumitul zgomot al unei serii cronologice.
Orice serie real rezult din combinarea, sau mai bine spus din compunerea acestor
micri, ca o consecin fireasc a aciunii simultane a factorilor generatori specifici. Se
consider c exist dou modele de combinare a celor patru componente, astfel nct s rezulte
elementele seriei reale:
a) modelul aditiv, care presupune c factorii generatori sunt independeni unii de alii, aciunea
lor nsumndu-se pentru a da valorile seriei:
yt = T + C + S + R;
b) modelul multiplicativ, care presupune c factorii generatori interacioneaz, astfel nct ntre
componenta T i celelalte exist o relaie de proporionalitate:
yt = T C S R.
Descompunerea sau filtrarea unei serii cronologice const n izolarea componentelor de
mai sus pentru a le putea studia mai bine i, eventual, pentru a le elimina. Izolarea unei
componente se realizeaz prin metode de ajustare (engl. fitting) a seriei, adic de nlocuire a
valorilor reale cu nite valori calculate cu ajutorul unor modele grafice sau analitice. Ajustarea
are ca rezultat netezirea (engl. smoothing) curbei corespunztoare, care devine astfel mai
regulat i evideniaz componenta care trebuie studiat i, eventual, eliminat . Izolarea i
eliminarea componentelor unei serii de timp se face, de regul, n ordinea descresctoare a
perioadei micrilor corespunztoare, avnd n vedere c variaiile cu perioade mai mici se
grefeaz pe cele cu perioad mai mare (vezi fig.6.1). Prin urmare descompunerea unei serii de
timp presupune, n principiu, urmtoarele secvene:
a) izolarea i eliminarea trendului, operaiuni n urma crora modelul combinativ al
seriei devine:
yt-T=S+C+R (m. aditiv); yt/T=SCR (m. multiplicativ).
Atunci cnd componenta sezonier este net predominant, iar cele ciclic i rezidual
sunt nesemnificative (C+R=0, sau CR=1), se poate trece direct la izolarea i eliminarea lui S,
rezultnd astfel aa-numita serie desezonalizat :
yt-S=T (m. aditiv); yt/S=T (m. multiplicativ).
b) eliminarea trendului i a componentei sezoniere, rezultnd seria desezonalizat i fr
tendin:
yt-T-S=C+R (m. aditiv); yt/(TS)=CR (m. multiplicativ).
c) eliminarea i a componentei ciclice, rezultnd seria n care se resimte doar influena
factorilor aleatori:
yt-T-S-C=R (m. aditiv); yt/(TSR)=R (m. multiplicativ).
Aceast schem de succesiune a etapelor de descompunere are un caracter general i ea
nu se aplic n toate cazurile. De exemplu, dac termenii unei serii sunt nite valori anuale, nu
se poate vorbi de o component sezonier; dac seria acoper o perioad scurt de timp, atunci
componenta ciclic poate fi neglijat etc.
6.3.2.1. Analiza trendului
Analiza trendului presupune gsirea unui model grafic sau analitic cu ajutorul cruia s
se poat face o ajustare ct mai bun a seriei studiate. Exist mai multe metode de stabilire a
trendului unei serii, metode care pot fi grupate n trei categorii: metode grafice, metode
mecanice i metode analitice.
1 Metode grafice. Sunt metode care, aa cum o spune denumirea lor, se aplic pe
graficul seriei de timp. Dou sunt metodele grafice mai utilizate:
101
metoda tendinei vizuale (Trebici & colab.,1985) presupune trasarea din ochi a liniei
de tendin care aproximeaz cel mai bine alura general a curbei empirice. Aceast metod,
numit n literatura francez courbe trace main leve, iar n cea anglo-saxon free-hand
curve nu poate fi, prin natura sa, riguros tiinific, ntruct aici factori subiectivi ca experiena,
ochiul i mna sigure, intuiia cercettorului, sunt hotrtori. Ajustarea pe aceast cale are un
caracter orientativ i ofer nite prime informaii privind tendina general i alte particulariti
ale seriei.
metoda liniei mediane (Grisolet &
colab.,1962) nltur subiectivismul metodei Figura 6.2. Determinareatendinei prin metoda
liniei mediane (evoluia produciei de porumb la ha
anterioare. Ea const (vezi fig.6.2) n unirea n Romnia, 1938-1982).
maximelor succesive (M1, M2,...), respectiv a
minimelor succesive (m1, m2,...) ale curbei empirice;
pe verticalele ce trec prin punctele de maxim i de
minim, unind cele dou linii, se plaseaz puncte
situate la mijlocul distanei dintre linia maximelor i
linia minimelor; linia care unete aceste puncte
mediane este linia de tendin. Inconvenientul
acestei metode este c acord o importan excesiv
valorilor maxime i minime (care, prin natura lor,
sunt dependente n mai mare msur de factorii
aleatori), linia de tendin putnd cpta un aspect
destul de neregulat.
2 Metode mecanice. Sunt metode care presupun aplicarea succesiv, n mod mecanic
i pentru toi termenii seriei, a unor formule de calcul prestabilite (Porojan, 1993).
metoda sporului absolut mediu al seriei are la baz calculul acestui indice (vezi 6.2),
cu ajutorul unei formule de forma:
y -y
= tn t1
n-1
Prin adugarea repetat a sporului mediu la primul termen se obin valorile calculate (ajustate)
ce corespund termnilor al doilea, al treilea .a.m.d. Este clar c dreapta de tendin (vezi fig.6.3)
corespunde, aici, unei progresii aritmetice la care primul termen coincide cu primul termen al
seriei studiate, iar raia este tocmai sporul absolut mediu. Termenii succesivi ai progresiei vor fi:
y t1 , y t1 + , y t1 + 2 * ,..., y t1 + (n - 1) *
,
iar ecuaia curbei de tendin (n acest caz, o dreapt) care ajusteaz curba empiric va avea
forma:
y t = y t1 + * t (t = 0,1,2,..., n - 1)
Aceast relaie poate fi utilizat, cu anumite precauii, pentru prognoza seriei prin prelungirea
(extrapolarea) dreptei nafara intervalului de timp acoperit de seria real.
Dezavantajul principal al acestei metode este acela c trendul calculat este determinat exclusiv
de primul i ultimul termen ai seriei observate, influena termenilor intermediari fiind absent.
De aceea ajustarea prin aceast metod d rezultate satisfctoare numai dac ritmul de variaie
(cretere sau descretere) al valorilor seriei este relativ constant.
metoda ritmului mediu lucreaz cu primul termen al seriei i ritmul mediu de cretere. n final
rezult o progresie geometric de raie I ai crei termeni succesivi vor fi:
102
2
n -1
y t1 , y t1 * I , y t1 * I ,..., y t1 * I
(t = 0, 1, 2,..., n - 1)
103
vzut). Prin aceasta valoarea lor predictiv este mai sczut comparativ cu urmtoarea grup de
metode, care se bazeaz pe una sau alta dintre numeroasele funcii analitice puse la dispoziie de
analiza matematic.
3 Metode analitice. Sunt metodele
prin aplicarea crora se obine o curb ajustat Figura 6.5. Ajustarea variaiei produciei de
creia i corespunde o relaie funcional porumb la hectar (chintale) n Romnia cu ajutorul
(ecuaie) de tipul y=f(t). Avantajul principal al dreptei de tendin.
metodelor analitice este c ele iau n
considerare toi termenii seriei analizate,
valorificnd astfel la maximum informaia
oferit de acetia. n acelai timp, odat
obinut ecuaia curbei de tendin, aceasta
devine independent de termenii seriei reale,
putnd fi folosit n condiii optime pentru
calcule de interpolare n vederea prognozei
seriei studiate.
Majoritatea procedeelor analitice de
ajustare au la baz modelul regresiei liniare
simple, aceasta doarece multe dintre ecuaiile
modelelor neliniare pot fi liniarizate prin diferite metode. Deasemenea, calculul parametrilor
curbei de ajustare optim se bazeaz, n majoritatea cazurilor, pe metoda celor mai mici ptrate
(vezi 5.3.2.2.).
ajustarea cu ajutorul dreptei de regresie liniar simpl. Relaia analitic utilizat este
funcia de gradul I (ecuaia dreptei n plan): y=ax+b. innd cont c la seriile de timp rolul
variabilei independente l joac timpul, forma specific a relaiei devine yt = at + b (vezi
fig.6.5)
Calculele pentru obinerea coeficienilor a i b pornind de la valorile observate ale celor dou
variabile au fost prezentate pe larg n 5.3.2.2. O alt variant de calcul, mai potrivit atunci
cnd se lucreaz cu calculatorul de buzunar i seria nu este prea lung, permite aflarea
coeficienilor a i b prin rezolvarea sistem ului de ecuaii normale44.
Dup calcularea prealabil a sumelor respective, rezolvarea sistemului se face prin metode
algebrice cum ar fi, de exemplu, cu ajutorul determinanilor (vezi regula lui Cramer din Algebra
de clasa a XI-a):
| yt
a=
| t y
t
| n
t|
2
|
t 2 yt t - t yt t
=
2
t|
n t2 - ( t )
| t 2|
t
44
Dup cum se tie, estimarea coeficienilor a i b prin metoda celor mai mici ptrate presupune minimizarea sumei
ptratelor abaterilor dintre valorile observate i proieciile acestora pe dreapta de regresie:
n
( y - y ) = ( y - a - bx ) = minim
i
i=1
i=1
Valorile x i y sunt cunoscute, suma de mai sus fiind o funcie numai de a i b; deci minimizarea se face anulnd
derivatele pariale n raport cu a, respectiv n raport cu b, operaiune n urma creia se obin ecuaiile normale:
n
( y - a - bx ) = 0 ; x ( y - a - bx )= 0
i
i=1
i=1
sau, dup aplicarea proprietilor sumelor i trecerea n membrul stng a termenilor care i conin pe a i b:
a t + b t 2 = t yt
na + b t = y t
i
104
| n
b=
y t|
| t t y |
t
| n
t|
n t yt - t yt
2
n t2 - ( t )
| t 2|
t
ajustarea cu ajutorul parabolei de gradul II, a crei expresie analitic este funcia de
gradul II:
yt = a + bt + ct
Ajustarea cu ajutorul acestei curbe este potrivit
pentru a aproxima micarea acelor fenomene care n Figura 6.6. Ajustarea produciilor de porumb
evoluia lor temporal ating un maxim (minim), dup la hectar cu ajutorul parabolei de gradul II.
care sensul de variaie se inverseaz. De exemplu
producia unui cmp petrolifer, care crete dup intrarea
n exploatare, prin adugarea de noi sonde de extracie,
pn la un maxim, dup care epuizarea zcmntului
duce la scderea din ce n ce mai rapid a produciei.
Aceasta nu nseamn, firete, c poriuni ale parabolei nu
pot ajusta foarte bine variaii monotone (cresctoare sa
descresctoare) ale fenomenelor reale (vezi fig.6.6).
Coeficienii a i b se determin tot prin metoda
celor mai mici ptrate, ecuaiile normale fiind n acest
caz:
na + b t + c t 2 = y t
a t + b t 2 + c t 3 = t yt
a t 2 + b t 3 + c t 4 = t 2 yt
Rezolvarea sistemului pentru aflarea necunoscutelor a,b i c se face tot prin metode algebrice,
dup calcularea prealabil a coeficienilor acestora (t, t, t, t4; yt; t yt, tyt).
ajustarea cu ajutorul curbei exponeniale. Relaia analitic corespunztoar este funcia
exponenial:
yt = aebt,
care poate fi liniarizat prin logaritmare:
ln(yt) = ln(a) + bt
n forma liniarizat variabilele cu care se lucreaz sunt t i ln(yt) i ele vor intra n calcule pentru
aflarea coeficienilor ln(a) i b ai ecuaiei de
regresie, prin metodele cunoscute. Curba de Figura 6.7. Ajustarea variaiei produciei de porumb la
regresie va apare ca o linie dreapt pe un hectar cu ajutorul curbei exponeniale.
grafic la care ordonata (axa lui yt) este n
scar logaritmic, iar abscisa (axa lui t) este
n scar aritmetic. Curba de ajustare
exponenial va apare ca atare pe graficul
seriei cronologice originare (vezi fig.6.7);
pentru trasarea ei este nevoie s se
antilogaritmeze
ln(a)
pentru
aflarea
coeficientului a din ecuaia funciei
exponeniale.
ajustarea cu ajutorul funciei
putere:
105
yt = atb,
care prin logaritmare devine:
log(yt) = log(a) + blog(t)
Variabilele de lucru pentru aflarea lui log(a) i b prin metoda celor mai mici ptrate sunt log(yt)
i log(t). Curba de ajustare va apare sub
form de linie dreapt pe un grafic n scar
Figura 6.8. Ajustarea variaiei produciei de porumb la
dublu logaritmic; pentru reprezentarea ei pe hectar cu ajutorul funciei putere.
graficul
seriei
originare
trebuie
antilogaritmat valoarea lui log(a) (vezi
fig.6.8).
ajustarea cu ajutorul curbei
logistice (vezi fig.6.9), a crei expresie
analitic este de forma:
yt =
k
1 + 10
a+bt
yt =
k
1 + e a+bt
, sau
n care k este asimptota curbei (calculat pe
baza datelor de observaii), 10 este (aici)
baza logaritmului zecimal, iar e este baza
logaritmului natural. Merit semnalat faptul
c forma curbei logistice este foarte
asemntoare cu cea curbei normale integrale (cumulative).
Curba logistic i-a gsit o larg aplicabilitate
n demografie i ecologie, unde se tie de mult
vreme c evoluia numeric a unei populaii,
indiferent de specie, se desfoar dup o curb
logistic. n legtur cu noiunile de cretere
economic zero, populaie staionar .a., curba
logistic a ptruns n ultimele decenii i n economie.
Indiferent de domeniul de aplicabilitate, ideea de
baz este c lumea terestr este o lume finit ca
spaiu i ca resurse; de aceea dezvoltarea unei
populaii (n spe, a populaiei umane) i a
activitilor acesteia, chiar dac pstreaz o vreme un
Figura 6.9. Aspectul general al unei curbe
careacter exponenial, va tinde mai curnd sau mai logistice.
trziu spre o stare de stabilitate, plafonndu-se n
apropierea unei asimptote superioare a crei existen se datoreaz tocmai sus-amintitului
caracter finit al spaiului i resurselor.
Ajustarea cu ajutorul curbei logistice se poate face aplicand aa-numita metod a
punctelor alese: se aleg trei momente de timp echidistante x0 (la nceputul perioadei), x1 (la
mijlocul ei) i x2 (la sfrit), valorile corespunztoare ale seriei finnd notate respectiv y0, y1 i y2;
numrul de uniti de timp n care intervine n calculul coeficienilor ecuaiei este cel dintre
momentele x0 i x1, sau x1 i x2; cei trei coeficieni se obin astfel:
2
2 y0 y1 y 2 - y1 ( y0 + y 2 )
k=
2
y0 y 2 - y1
;
a = log(
k - y0
y0
b=
y (k - y1 )
[ log 0
]
n
y1(k - y0 )
1
Atunci cnd se procedeaz la ajustarea unei serii cronologice prin metode analitice,
principala problem o constituie alegerea tipului de curb care ajusteaz cel mai bine curba
empiric. Unele sugestii n acest sens sunt oferite de metodele grafice de ajustare, ca i de
metoda mediilor glisante. Hotrtoare, ns, rmne experiena i intuiia cercettorului, bazate
106
II
III
IV
VI
VII
VIII
IX
XI
XII
Total
Media
1957
13583
21167
8750
5335
7458
6705
5504
6025
10627
17124
18842
10442
131562
10963
1958
16266
21867
7538
6908
9205
6612
5908
6367
10162
17590
17519
9126
135068
11256
1959
13071
17395
12791
5361
6492
7238
5138
5456
8775
15020
14976
8932
119845
9987
1960
13569
21212
7561
6013
7821
6085
5340
5522
7723
13373
14117
9096
117432
9786
1961
11358
15528
7470
6824
7372
5169
4617
4876
7685
12444
13479
7803
104625
8719
1962
9589
14163
10386
6672
6714
5953
5130
5115
7280
12154
13716
7625
104497
8708
1963
9707
13533
6902
6595
7226
5137
4464
5116
6814
11403
12685
6771
96353
8029
1964
8810
13294
10401
5865
5355
5029
5689
5296
6474
11455
10613
6313
93594
7799
1965
8461
13111
7037
4954
5464
4827
4625
4947
6401
11527
11043
6844
89241
7437
1966
8760
11155
5421
5564
6114
4387
4872
4996
6540
11596
10197
8286
87888
7324
Total
113174
162425
84257
60091
69221
56142
50287
53716
78681
133686
137187
81238
1080105
Media
11317
16243
8426
6009
6922
5714
5129
5372
7848
13369
13719
8124
9016
107
Graficul acestei serii (vezi fig.6.10) evideniaz cu Figura 6.10. Variaia numrului lunar de cstorii
suficient claritate existena unei componente n mediul rural n Romnia, 1957-1966.
sezoniere, explicabil prin tradiiile nupiale n
mediul rural (nunile se fac de regul toamna, dup
strngerea recoltei, sau dup srbtorile de iarn).
Verificarea impresiei vizuale se poate face prin
calcularea i reprezentarea grafic a mediilor
lunare multianuale, sau prin aplicarea testului
empiric al lui ykin (kin).
media lunar multianual a fiecrei luni
se calculeaz ca medie aritmetic a valorilor
aferente lunii respective din toi anii seriei (vezi
ultimele dou linii din tabelul de mai sus). Prin
operaiunea de mediere se nltur, n bun parte, influena factorilor ntmpltori, astfel nct
mediile manifest o mai mare stabilitate n timp. Pentru exemplul nostru reprezentarea grafic a
acestor medii (vezi fig.6.11) confirm existena unei componente sezoniere bine conturate.
testul ykin const n calcularea, pentru fiecare termen (lun) din serie, raportul ntre
valoarea lunii respective i media aritmetic a celor dou luni care o ncadreaz:
s=
y ti
y ti-1 + y ti+1
2
Dup aceea, pentru fiecare lun a anului se calculeaz o medie multianual a rapoartelor
aferente lunii respective; dac aceast medie difer semnificativ de 1, atunci luna respectiv
contribuie semnificativ la apariia unei componente sezoniere n seria de baz.
Pentru exemplul nostru, mediile lunare multianuale ale rapoartelor sunt redate n ultima
linie a tabelului 6.2. Se observ c toate valorile
rapoartelor s sunt semnificativ diferite de 1 Figura 6.11. Variaia anual a numrului lunar mediu
(poate cu excepia lunilor iunie i iulie), ceea ce multianual de cstorii n mediul rural.
nseamn c avem de-a face cu o component
sezonier bine conturat .
2 Calculul indicilor (coeficienilor)
sezonieri. Indicii sezonieri sunt nite mrimi
care exprim contribuia fiecrei uniti de timp
(luni) din perioada de baz (an) la apariia unei
componente sezoniere n cadrul seriei. De regul
sunt exprimai sub form de proporii (absolute
sau procentuale).
108
diferena algebric dintre media lunar general (adic media aritmetic a tuturor
termenilor seriei) i media multianual a fiecrei luni. Pentru exemplul nostru mediile lunare
multianuale i media general sunt trecute n ultima linie a tabelului 6.1. Diferenele algebrice,
exprimate n cifre absolute i
Tabel nr.6.2. Rapoartele yi/[(yi-1+yi+1)/2] pentru aplicarea testului ykin.
n procente din media
Luna
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
Anul
general, apar n tabelul 6.3.
1957
0.89
0.66
0.66
1.24
1.03
0.86
0.75
0.92
1.16
1.37
0.59
Diferenele exprimate n cifre
1958
1.01
1.84
0.52
0.82
1.36
0.87
0.91
0.79
0.85
1.27
1.31
0.60
1959
0.98
1.34
1.12
0.55
1.03
1.24
0.81
0.78
0.86
1.26
1.25
0.62
absolute nu pot servi la
1960
0.90
2.01
0.55
0.78
1.29
0.92
0.92
0.84
0.82
1.22
1.26
0.71
efectuare de comparaii ntre
1961
0.92
1.65
0.67
0.92
1.23
0.86
0.92
0.79
0.89
1.18
1.33
0.68
serii diferite, n schimb pot fi
1962
0.87
1.42
0.99
0.78
1.06
1.00
0.93
0.82
0.84
1.16
1.39
0.65
folosite la desezonalizarea
1963
0.92
1.63
0.68
0.93
1.23
0.88
0.87
0.91
0.82
1.17
1.39
0.63
1964
0.88
1.38
1.08
0.74
0.98
0.91
1.10
0.87
0.77
1.34
1.19
0.66
seriei analizate (vezi punctul
1965
0.87
1.69
0.78
0.79
1.12
0.96
0.94
0.90
0.78
1.32
1.20
0.69
(3) al acestui paragraf).
1966
0.97
1.57
0.65
0.96
1.23
0.80
1.04
0.88
0.79
1.39
1.030
indici sezonieri Media 0.92 1.54 0.77 0.80 1.18 0.95 0.93 0.83 0.83 1.25 1.27 0.65
obinui
prin
metoda
rapoartelor
la
tendin.
Aceast metod implic mai nti calcularea trendului liniar al seriei, dup care se calculeaz
rapoartele dintre valorile y ale seriei i valorile y t calculate cu ajutorul ecuaiei de regresie.
t
Mediile multianuale ale acestor rapoarte, pentru fiecare lun n parte, constituie indicii sezonieri
ai lunilor respective. De remarcat c n locul mediei aritmetice poate fi reinut ca indice
sezonier mediana irului de rapoarte aferent lunii de calcul. n exemplul nostru ecuaia trendului
liniar, ai crei coeficieni a i b sunt calculai dup metodele cunoscute, este: yt = 11344,14 38,484t. Dup cum se observ, coeficientul de regresie a este negativ, ceea ce nseamn c
exist o tendin de scdere n timp a numrului lunar de cstorii i anume n ritmul de 38,484
cstorii/lun.
Ecuaia de mai sus o folosim pentru a calcula numrul teoretic de cstorii pentru
fiecare din cele 120
Tabel nr.6.3. Diferenele algebrice dintre media general i mediile lunare de luni ale seriei.
multianuale ale numrului lunar de cstorii.
Rezultatele
Luna
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
calculelor
pentru
Diferena
obinerea indicilor
absolut
-2301
-7227
+590 +3007 +2094 +3302 +3887 +3644 +1168 -4353 -4073
+892
sezonieri
prin
relativ
-25.52
-80.16
+6.54 +33.35 +23.23 +36.62 +43.11 +40.42 +12.95 -48.28 -45.18 +9.89
aceast metod sunt
Tabel nr.6.4. Rapoartele dintre valorile observate ale seriei (v.tab.6.1) i cele trecute n tabelul 6.4.
calculate cu ajutorul ecuaiei dreptei de tendin.
Luna
II
III
IV
VI
VII
VIII
IX
XI
XII
1957
1.20
1.88
0.78
0.48
0.67
0.60
0.50
0.55
0.97
1.56
1.73
0.96
1958
1.50
2.02
0.70
0.64
0.86
0.62
0.56
0.60
0.96
1.68
1.68
0.88
1959
1.26
1.68
1.24
0.52
0.63
0.71
0.51
0.54
0.87
1.50
1.50
0.90
1960
1.37
2.15
0.77
0.61
0.80
0.63
0.55
0.57
0.80
1.40
1.48
0.96
1961
1.20
1.65
0.80
0.73
0.79
0.56
0.50
0.53
0.84
1.37
1.49
0.86
1962
1.07
1.58
1.16
0.75
0.76
0.68
0.59
0.59
0.84
1.41
1.59
0.89
1963
1.14
1.59
0.82
0.78
0.86
0.62
0.54
0.62
0.83
1.39
1.56
0.83
1964
1.09
1.65
1.30
0.74
0.68
0.64
0.73
0.68
0.83
1.48
1.38
0.83
1965
1.11
1.73
0.93
0.66
0.73
0.65
0.63
0.67
0.88
1.59
1.53
0.95
1966
1.23
1.57
0.77
0.79
0.87
0.63
0.70
0.73
0.96
1.70
1.51
1.23
Media
1.22
1.75
0.93
0.67
0.77
0.63
0.58
0.61
0.88
1.51
1.55
0.93
Anul
indici
sezonieri
obinui
prin
metoda
lanurilor
de
Este
rapoarte.
metoda cea mai
sigur
pentru
estimarea
coeficienilor
sezonieri, ns este
destul de laborioas.
Se lucreaz,
de fapt, cu indicii
109
II
III
IV
VI
VII
VIII
IX
XI
XII
1957
0.00
1.56
0.41
0.61
1.40
0.90
0.82
1.09
1.76
1.61
1.10
0.55
1958
1.56
1.34
0.34
0.92
1.33
0.72
0.89
1.08
1.60
1.73
1.00
0.52
1959
1.43
1.33
0.74
0.42
1.21
1.11
0.71
1.06
1.61
1.71
1.00
0.60
1960
1.52
1.56
0.36
0.80
1.30
0.78
0.88
1.03
1.40
1.73
1.06
0.64
1961
1.25
1.37
0.48
0.91
1.08
0.70
0.89
1.06
1.58
1.62
1.08
0.58
1962
1.23
1.48
0.73
0.64
1.01
0.89
0.86
1.00
1.42
1.67
1.13
0.56
Anul
Se calculeaz
mai nti ritmurile de
cretere cu baza n
lan, pentru fiecare din
termenii seriei:
I i/i -1 =
y ti
y ti-1
110
n exemplul nostru media celor 12 coeficieni intermediari este 0,76. mprim, deci,
fiecare indice la 0,76 i obinem cei 12 indici definitivi:
Luna
II
III
IV
VI
VII
VIII
IX
1,31
1,67
0,88
0,68
0,79
0,66
0,60
XI
XII
1,59
0,96
Anul
i.sezonier
Dac vom compara aceti indici cu cei obinui prin metoda rapoartelor la tendin (tab.
6.4.) vom constata c rezultatele celor dou metode sunt destul de apropiate. Se observ, totui,
c, excepie fcnd lunile februarie i martie, indicii obinui prin metoda rapoartelor la tendin
sunt ceva mai mici dect cei obinui prin metoda lanurilor de rapoarte. Acest lucru se
datoreaz faptului c trendul seriei originare nu este liniar, ci este uor exponenial negativ (vezi
fig.6.10).
3 Desezonalizarea seriilor cronologice. Odat calculai indicii sezonieri pentru fiecare
unitate de timp din perioada de baz a micrii sezoniere (n cazul nostru, pentru fiecare lun
din an), eliminarea componentei sezoniere este relativ simpl. n funcie de tipul indicelui
sezonier calculat, desezonalizarea se realizeaz astfel:
dac indicele este exprimat n valori absolute, cum sunt diferenele algebrice absolute
dintre media general i mediile lunare multianuale, atunci desezonalizarea se face nsumnd
algebric fiecare termen al seriei originare cu diferena corespunztoare lunii din care face parte
termenul respectiv.
Spre exemplu, numrul de cstorii din luna decembrie 1958 este 9126; media
multianual a lunii decembrie este de 8124 cstorii; media general a seriei este de 9016
cstorii (vezi tab. 6.1.); diferena dintre media general i media multianual a lunii decembrie:
9016-8124 = +892 (vezi tab. 6.3.). Valoarea desezonalizat a lunii decembrie 1958 va fi:
9126+(+892) = 10018 cstorii.
dac indicele este obinut ca un raport, deci este exprimat sub form de proporie,
atunci desezonalizarea se face prin mprirea fiecrui termen al seriei originare la indicele
sezonier al lunii aferente.
De exemplu, numrul de cstorii din luna ianuarie 1957 a fost 13583 (vezi tab. 6.1.);
indicele sezonier al lunii ianuarie, calculat prin metoda lanurilor de rapoarte, este 1,31 (vezi
tabelul indicilor sezonieri). Valoarea desezonalizat a lunii ianuarie 1957 va fi:
13583/1,31 = 10368 cstorii.
*
* *
Analiza unei serii cronologice constituie, statistic vorbind, o ntreprindere destul de
dificil. i aceasta nu numai ca volum de munc pretins de aplicarea metodelor specifice de
analiz, ci i legat de intuiia i experiena pretinse cercettorului, de interpretarea rezultatelor
analizei, de fiabilitatea prognozelor care, n mod normal, finalizeaz o asemenea analiz. De
aceea enumerm, n final, cteva aspecte de ordin practic ce trebuie avute n vedere atunci cnd
se procedeaz la studiul unei serii cronologice (Chadule, 1974):
seria studiat trebuie s fie suficent de lung. O serie cu mai puin de 30 de termeni nu
se preteaz, practic, la o analiz concluziv pentru fenomenul studiat;
111
verificarea
caracterului aleator este foarte
important: trebuie avut n
vedere faptul c testele uzuale
nu sunt prea puternice, astfel
nct nu stric nite precauii
suplimentare
la
luarea
deciziei;
extrapolarea n viitor
atendinelor observate este o
problem extrem de delicat ,
care
necesit
informaii
suplimentare din domenii
care, aparent, nu au nici o legtur cu fenomenul studiat. Trebuie inut minte c o prognoz este
cu att mai precis, cu ct intervalul de prognoz este mai scurt; n plus, modelul adoptat pentru
tendina general a seriei trebuie verificat prin aa-numita retroprognoz, adic extrapolarea
tendinei observate pentru un interval de timp situat naintea celui acoperit de seria studiat
(numai c n acest caz valorile calculate pot fi comparate cu cele observate n intervalul
respectiv).
112
BIBLIOGRAFIE
ABLER, R., ADAMS, J. S., GOULD, P. (1971) - Spatial Organization. The Geographer's View
of the World, Prentice Hall, London.
BEGUIN, H. (1979) - Mthodes d'analyse gographique quantitative, Librairies Techniques
(LITEC), Paris.
CALOT, G. (1973) - Cours de Statistique descriptive, Dunod, Paris.
CHADULE (group) (1974) - Iniation aux mthodes statistiques en gographie, Masson, Paris.
CHAPOT, M., DAUPHIN, A. i alii (1977) - L'Analyse spatiale. Forme et validit des
dmarches nouvelles en gographie, Cahier de l'IDRESS, Paris, fvrier.
GREGORY, S. (1968) - Statistical Methods and the Geographer, second edition, Longman,
London.
GRISOLET, H., GUILMET, B., ARLRY, R. (1973) - Climatologie. Mthodes et pratiques,
Gauthier-Villars, Paris.
JOHNSTON, R.J. (1978) - Multivariate Statistical Analysis in Geography. A Primer on the
General Liniar Model, Longman.
POROJAN, D. (1993) - Statistica i teoria sondajului, Casa de Editur i Pres ansa SRL,
Bucureti.
RACINE, J.B., REYMOND, H. (1973) - L'Analyse quantitative en gographie, Presses
Universitaires de France, Paris.
SANDERS, L. (1989) - L'Analyse statistique des donnes en gographie, Alidade - G.I.P.
RECLUS, Montpellier.
SPIEGEL, M. R. (1972) - Thorie et applications de la statistique, Srie SCHAUM, McGraw
Hill, Paris.
TIDSWELL, W. V., BARKER, S. M. (1971) - Quantitative Methods. An Approach to SocioEconomic Geography, University Tutorial Press LTD, London.
TREBICI, V. (coord.) (1985) - Mic enciclopedie de Statistic, Ed. tiinific i
Enciclopedic, Bucureti.
113
Anexa I
VALORILE FUNCIEI DE REPARTIIE A DISTRIBUIEI NORMALE NORMATE
u
,00
,01
,02
,03
,04
,05
,06
,07
,08
,09
0,0
5000
5040
5080
5120
5160
5199
5239
5279
5319
5359
0,1
5398
5438
5478
5517
5557
5596
5636
5675
5714
5735
0,2
5793
5832
5871
5910
5948
5987
6026
6064
6103
6141
0,3
6179
6217
6255
6293
6331
6368
6406
6443
6480
6517
0,4
6554
6591
6628
6664
6700
6736
6772
6808
6844
6879
0,5
6915
6950
6985
7019
7054
7088
7123
7157
7190
7224
0,6
7257
7291
7324
7357
7380
7422
7454
7486
7517
7549
0,7
7580
7611
7642
7673
7704
7734
7764
7794
7823
7852
0,8
7881
7910
7939
7967
7995
8023
8051
8078
8106
8133
0,9
8159
8186
8212
8238
8264
8289
8315
8340
8365
8389
1,0
8413
8438
8461
8485
8508
8531
8554
8577
8599
8621
1,1
8643
8665
8686
8708
8729
8749
8770
8790
8810
8830
1,2
8849
8869
8888
8907
8925
8944
8962
8980
8997
9015
1,3
9032
9049
9066
9082
9099
9115
9131
9147
9162
9177
1,4
9192
9207
9222
9236
9251
9265
9279
9292
9306
9319
1,5
9332
9345
9357
9370
9382
9394
9406
9418
9429
9441
1,6
9452
9463
9474
9484
9495
9505
9515
9525
9535
9545
1,7
9554
9564
9573
9582
9591
9599
9608
9616
9625
9633
1,8
9641
9649
9656
9664
9671
9678
9686
9693
9699
9706
1,9
9713
9719
9726
9732
9738
9744
9750
9756
9761
9767
2,0
9772
9778
9783
9788
9793
9798
9803
9808
9812
9817
2,1
9821
9826
9830
9834
9838
9842
9846
9850
9854
9857
2,2
9861
9864
9868
9871
9875
9878
9881
9884
9887
9890
2,3
9893
9896
9898
9901
9904
9906
9909
9911
9913
9916
2,4
9918
9920
9922
9925
9927
9929
9931
9932
9934
9936
2,5
9938
9940
9941
9943
9945
9946
9948
9949
9951
9952
2,6
9953
9955
9956
9957
9959
9960
9961
9962
9963
9964
2,7
9965
9966
9967
9968
9969
9970
9971
9972
9973
9974
2,8
9974
9975
9976
9977
9977
9978
9979
9979
9980
9981
2,9
9981
9982
9982
9983
9984
9984
9985
9985
9986
9986
3,0
9987
9987
9987
9988
9988
9989
9989
9989
9990
9990
3,1
9990
9991
9991
9991
9992
9992
9992
9992
9993
9993
3,2
9993
9993
9994
9994
9994
9994
9994
9995
9995
9995
Din tabel se poate afla probabilitatea (nmulit cu 10.000) unei valori mai mici, sau cel mult egale cu u (deci o probabilitate cumulat
ascendent). Utilizarea tabelului presupune standardizarea prealabil a valorii x: (x-)/.
Exemple de utilizare:
pentru u = +0,52, probabilitatea f(u) = 0,6950.
pentru u = -0,52, probabilitatea f(u) = 1 - 0,6950 = 0,3050.
pentru f(u) = 0,9750, u = 1,96, deci x = 1,96 + X .
pentru f(u) = 0,3527 (nu apare n tabel), 1 - f(u) = 0,6473, iar u -0,38; deci x = -0,58 + X
114
Anexa II
SUPRAFEE SUB CURBA NORMAL
z
,00
,01
,02
,03
,04
,05
,06
,07
,08
,09
0,0
0000
0040
0080
0120
0159
0199
0239
0279
0319
0359
0,1
0398
0438
0178
0517
0557
0596
0636
0675
0714
0753
0,2
0793
0832
0871
0910
0948
0987
1026
1064
1103
1141
0,3
1179
1217
1255
1293
1331
1368
1406
1443
1480
1517
0,4
1554
1591
1628
1664
1700
1736
1772
1808
1844
1879
0,5
1915
1950
1985
2019
2054
2088
2123
2157
2190
2224
0,6
2257
2291
2324
2357
2389
2422
2454
2486
2518
2549
0,7
2580
2612
2642
2673
2704
2734
2764
2794
2823
2852
0,8
2881
2910
2939
2967
2995
3023
3051
3078
3106
3133
0,9
3159
3186
3212
3238
3264
3289
3315
3340
3365
3389
1,0
3413
3438
3461
3485
3508
3531
3554
3577
3599
3621
1,1
3643
3665
3686
3718
3729
3749
3770
3790
3810
3830
1,2
3849
3869
3888
3907
3925
3944
3962
6980
3997
4015
1,3
4032
4049
4066
4083
4099
4115
4131
4147
4162
4177
1,4
4192
4207
4222
4236
4251
4265
4279
4292
4306
4319
1,5
1,6
4332
4452
4345
4463
4357
4474
4370
4485
4382
4495
4394
4505
4406
4515
4418
4525
4430
4535
4441
4545
1,7
4554
4564
4573
4582
4591
4599
4608
4616
4625
4633
1,8
4641
4649
4656
4664
4671
4678
4686
4693
4699
4706
1,9
4613
4719
4726
4732
4738
4744
4750
4758
4762
4767
2,0
4773
4778
4783
4788
4793
4798
4803
4808
4812
4817
2,1
4821
4826
4830
4834
4838
4842
4846
4850
4854
4857
2,2
4861
4865
4808
4871
4875
4878
4881
4884
4887
4890
2,3
4893
4896
4898
4901
4904
4906
4909
4911
4913
4916
2,4
4918
4920
4922
4925
4927
4929
4931
4932
4934
4936
2,5
4938
4940
4941
4943
4945
4946
4948
4949
4951
4952
2,6
4953
4955
4956
4957
4959
4960
4961
4962
4963
4964
2,7
4965
4966
4967
4968
4969
4970
4971
4972
4973
4974
2,8
4974
4975
4976
4977
4977
4978
4979
4980
4980
4981
2,9
4981
4982
4983
4984
4984
4984
4985
4985
4986
4986
3,0
4986
4987
4987
4988
4988
4988
4989
4989
4989
4990
3,1
4990
4991
4991
4991
4992
4992
4992
4992
4993
4993
115
Anexa III
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
0,15
0,10
0,30
1,061
0,978
0,941
0,920
0,906
0,896
0,889
0,883
0,879
0,876
0,873
0,870
0,868
0,866
0,865
0,863
0,862
0,861
0,860
0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854
0,851
0,848
0,845
0,841
0,20
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,289
1,281
0,05
0,025
0,01
0,005
Nivelul de semnificaie pentru testul bilateral
0,10
0,05
0,02
0,01
2,920
4,303
6,965
9,925
2,353
3,182
4,541
5,481
2,132
2,776
3,747
4,604
2,015
2,571
3,365
4,032
1,943
2,447
3,143
3,707
1,895
2,365
2,998
3,499
1,860
2,306
2,896
3,355
1,833
2,262
2,821
3,250
1,812
2,228
2,764
3,169
1,796
2,201
2,718
3,106
1,782
2,179
2,681
3,055
1,771
2,160
2,650
3,012
1,761
2,145
2,624
2,977
1,753
2,131
2,602
2,947
1,746
2,120
2,583
2,921
1,740
2,110
2,567
2,898
1,734
2,101
2,552
2,878
1,729
2,093
2,539
2,861
1,725
2,086
2,528
2,845
1,721
2,080
2,518
2,831
1,717
2,074
2,508
2,819
1,714
2,069
2,500
2,807
1,711
2,064
2,492
2,797
1,708
2,060
2,485
2,787
1,706
2,056
2,479
2,779
1,703
2,052
2,473
2,771
1,701
2,048
2,467
2,763
1,699
2,045
2,462
2,756
1,697
2,042
2,457
2,750
1,684
2,021
2,423
2,704
1,671
2,000
2,390
2,660
1,658
1,980
2,358
2,617
1,645
1,960
2,326
2,576
0,0025
0,0005
0,005
14,089
7,453
5,598
4,773
4,317
4,029
3,832
3,690
3,581
3,497
3,428
3,372
3,326
3,286
3,252
3,222
3,197
3,174
3,153
3,135
3,119
3,104
3,090
3,078
3,067
3,056
3,047
3,038
3,030
2,971
2,915
2,860
2,807
0,001
31,598
12,941
8,610
6,859
5,959
5,405
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,767
3,745
3,725
3,707
3,690
3,674
3,659
3,646
3,551
3,460
3,373
3,290
116
Anexa IV
VALORILE CRITICE ALE DISTRIBUIEI F (FISHER-SNEDECOR)
pentru nivelul de semnificaie = 0,01.
v1
12
24
4052
4999
5403
5625
5764
5859
5930
5981
6106
6234
63666
98,49 99,00 99,17 99,25 99,30 99,33 99,34 99,36 99,42 99,46
99,50
34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,05 26,60
26,14
4
5
21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,37 13,93
16,26 13,27 12,06 11,39 10,97 10,67 10,45 10,27 9,89 9,47
13,48
9,04
13,74 10,92
9,78
9,15
8,75
8,47
8,26
8,10
7,72
7,31
6,90
12,25
9,55
8,45
7,85
7,46
7,19
7,00
6,84
6,47
6,07
5,67
11,26
8,65
7,59
7,01
6,63
6,37
6,19
6,03
5,67
5,28
4,88
10,56
8,02
6,99
6,42
6,06
5,80
5,62
5,47
5,11
4,73
4,33
10
10,04
7,56
6,55
5,99
5,64
5,39
5,21
5,06
4,71
4,33
3,93
11
9,65
7,20
6,22
5,67
5,32
5,07
4,88
4,74
4,40
4,02
3,62
12
9,33
6,93
5,95
5,41
5,06
4,82
4,65
4,50
4,16
3,78
3,38
13
9,07
6,70
5,74
5,20
4,86
4,62
4,44
4,30
3,96
3,59
3,18
14
8,86
6,51
5,56
5,03
4,69
4,46
4,28
4,14
3,80
3,43
3,02
15
8,68
6,36
5,42
4,89
4,56
4,32
4,14
4,00
3,67
3,29
2,89
16
8,53
6,23
5,29
4,77
4,44
4,20
4,03
3,89
3,55
3,18
2,77
17
8,40
6,11
5,18
4,67
4,34
4,10
3,93
3,79
3,45
3,08
2,67
18
8,28
6,01
5,09
4,58
4,25
4,01
3,85
3,71
3,37
3,00
2,59
19
8,18
5,93
5,01
4,50
4,17
3,94
3,77
3,63
3,30
2,92
2,51
20
8,10
5,85
4,94
4,43
4,10
3,87
3,71
3,56
3,23
2,86
2,44
21
8,02
5,78
4,87
4,37
4,04
3,81
3,65
3,51
3,17
2,80
2,38
22
7,94
5,72
4,82
4,31
3,99
3,76
3,59
3,45
3,12
2,75
2,33
23
7,88
5,66
4,76
4,26
3,94
3,71
3,54
3,41
3,07
2,70
2,28
24
7,82
5,61
4,72
4,22
3,90
3,67
3,50
3,36
3,03
2,66
2,23
25
7,77
5,57
4,68
4,18
3,86
3,63
3,46
3,32
2,99
2,62
2,19
26
7,72
5,53
4,64
4,14
3,82
3,59
3,42
3,29
2,96
2,58
2,15
27
7,68
5,49
4,60
4,11
3,79
3,56
3,39
3,26
2,93
2,55
2,12
28
7,64
5,45
4,57
4,07
3,76
3,53
3,36
3,23
2,90
2,52
2,09
29
7,60
5,42
4,54
4,04
3,73
3,50
3,33
3,20
2,87
2,49
2,06
30
7,56
5,39
4,51
4,02
3,70
3,47
3,30
3,17
2,84
2,47
2,03
40
7,31
5,18
4,31
3,83
3,51
3,29
3,12
2,99
2,66
2,29
1,84
50
7,17
5,06
4,20
3,72
3,41
3,18
3,02
2,88
2,56
2,18
1,71
100
6,90
4,82
3,98
3,51
3,20
2,99
2,82
2,69
2,36
1,98
1,46
6,64
4,60
3,78
3,32
3,02
2,80
2,66
2,51
2,18
1,79
1,00
v2
v1 - numrul gradelor de libertate pentru cea mai mic dintre cele dou variane estimate;
v2 - numrul gradelor de libertate pentru cea mai mare dintre cele dou variane estimate.
117
Anexa V
VALORILE CRITICE ALE DISTRIBUIEI F (FISHER-SNEDECOR)
pentru nivelul de semnificaie = 0,05.
v1
12
24
v2
238,9
254,3
19,36
19,50
10,13
9,55
9,28
9,12
9,01
8,94
8,88
8,84
8,74
8,64
8,53
7,71
6,94
6,59
6,39
6,26
6,16
6,09
6,04
5,91
5,77
5,63
6,61
5,79
5,41
5,19
5,05
4,95
4,88
4,82
4,68
4,53
4,36
5,99
5,14
4,76
4,53
4,39
4,28
4,21
4,15
4,00
3,84
3,67
5,59
4,74
4,35
4,12
3,97
3,87
3,79
3,73
3,57
3,41
3,23
5,32
4,46
4,07
3,84
3,69
3,58
3,50
3,44
3,28
3,12
2,93
5,12
4,26
3,86
3,63
3,48
3,37
3,29
3,23
3,07
2,90
2,71
10
4,96
4,10
3,71
3,48
3,33
3,22
3,14
3,07
2,91
2,74
2,54
11
4,84
3,98
3,59
3,36
3,20
3,09
3,01
2,95
2,79
2,61
2,40
12
4,75
3,88
3,49
3,26
3,11
3,00
2,92
2,85
2,69
2,50
2,30
13
4,67
3,80
3,41
3,18
3,02
2,92
2,84
2,77
2,60
2,42
2,21
14
4,60
3,74
3,34
3,11
2,96
2,85
2,77
2,70
2,53
2,35
2,13
15
4,54
3,68
3,29
3,06
2,90
2,79
2,70
2,64
2,48
2,29
2,07
16
4,49
3,63
3,24
3,01
2,85
2,74
2,66
2,59
2,42
2,24
2,01
17
4,45
3,59
3,20
2,96
2,81
2,70
2,62
2,55
2,38
2,19
1,96
18
4,41
3,55
3,16
2,93
2,77
2,66
2,58
2,51
2,34
2,15
1,92
19
4,38
3,52
3,13
2,90
2,74
2,63
2,55
2,48
2,31
2,11
1,88
20
4,35
3,49
3,10
2,87
2,71
2,60
2,52
2,45
2,28
2,08
1,84
21
4,32
3,47
3,07
2,84
2,68
2,57
2,49
2,42
2,25
2,05
1,81
22
4,30
3,44
3,05
2,82
2,66
2,55
2,47
2,40
2,23
2,03
1,88
23
4,28
3,42
3,03
2,80
2,64
2,53
2,45
2,38
2,20
2,00
1,76
24
4,26
3,40
3,01
2,78
2,62
2,51
2,43
2,36
2,18
1,98
1,73
25
4,24
3,38
2,99
2,76
2,60
2,49
2,41
2,34
2,16
1,96
1,71
26
4,22
3,37
2,98
2,74
2,59
2,47
2,39
2,32
2,15
1,95
1,69
27
4,21
3,35
2,96
2,73
2,57
2,46
2,37
2,30
2,13
1,93
1,67
28
4,20
3,34
2,95
2,71
2,56
2,44
2,36
2,29
2,12
1,91
1,65
29
4,18
3,33
2,93
2,70
2,54
2,43
2,35
2,28
2,10
1,90
1,64
30
4,17
3,32
2,92
2,69
2,53
2,42
2,34
2,27
2,09
1,89
1,62
40
50
4,08
4,03
3,23
3,18
2,84
2,79
2,61
2,56
2,45
2,40
2,34
2,29
2,25
2,20
2,18
2,13
2,00
1,95
1,79
1,74
1,51
1,46
60
4,00
3,15
2,76
2,52
2,37
2,25
2,17
2,10
1,92
1,70
1,39
100
3,94
3,09
2,70
2,46
2,30
2,19
2,10
2,03
1,85
1,63
1,30
120
3,92
3,07
2,68
2,44
2,29
2,17
2,08
2,01
1,83
1,60
1,25
3,84
2,99
2,60
2,37
2,21
2,09
2,01
1,94
1,75
1,52
1,00
v1 - numrul gradelor de libertate pentru cea mai mic dintre cele dou variane estimate;
v2 - numrul gradelor de libertate pentru cea mai mare dintre cele dou variane estimate.
118
Anexa VI
v
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0,50
1,39
2,37
3,36
4,35
5,35
6,35
7,34
8,34
9,34
10,30
11,30
12,30
13,30
14,30
15,30
16,30
17,30
18,30
19,30
20,30
21,30
22,30
23,30
24,30
25,30
26,30
27,30
28,30
29,30
39,30
49,30
59,30
69,30
79,30
89,30
99,30
0,30
2,41
3,67
4,88
6,06
7,23
8,38
9,52
10,70
11,80
12,90
14,00
15,10
16,20
17,30
18,40
19,50
20,60
21,70
22,80
23,90
24,90
26,00
27,10
28,20
29,20
30,30
31,40
32,50
33,50
44,20
54,70
65,20
75,10
86,10
96,50
106,90
0,10
4,61
6,25
7,78
9,24
10,60
12,00
13,40
14,70
16,00
17,30
18,50
19,80
21,10
22,30
23,50
24,80
26,00
27,20
28,40
29,60
30,80
32,00
33,20
34,40
35,60
36,70
37,90
39,10
40,30
51,80
63,20
74,40
85,50
96,60
107,60
118,50
0,05
5,99
7,81
9,49
11,10
12,60
14,10
15,50
16,90
18,30
19,70
21,00
22,40
23,70
25,00
26,30
27,60
28,90
30,10
31,40
32,70
33,90
35,20
36,40
37,70
38,90
40,10
41,30
42,60
43,80
55,85
67,50
79,10
90,50
101,90
113,10
124,30
0,025
7,3
9,3
11,1
12,8
14,4
16,0
17,5
19,0
20,5
21,9
23,3
24,7
26,1
27,5
28,8
30,2
31,5
32,9
34,2
35,5
36,8
38,1
39,4
40,6
41,9
43,2
44,5
45,7
47,0
59,3
71,4
83,3
95,0
106,6
118,1
129,6
0,01
9,2
11,3
13,3
15,1
16,8
18,5
20,1
21,7
23,2
24,7
26,2
27,7
29,1
30,6
32,0
33,4
34,8
36,2
37,6
38,9
40,3
41,6
43,0
44,3
45,6
47,0
48,3
49,6
50,9
63,7
76,2
88,4
100,4
112,3
124,1
135,8
0,001
13,8
16,3
18,5
20,5
22,5
24,3
26,1
27,9
29,6
31,3
32,9
34,5
36,1
37,7
39,3
40,8
42,3
43,8
45,3
46,8
48,3
49,7
51,2
52,6
54,1
55,5
56,9
58,3
59,7
73,4
86,7
99,6
112,3
124,8
137,2
149,4
119
Anexa VII
TABELUL DIFERENELOR MAXIME max PENTRU TESTUL
KOLMOGOROV-SMIRNOV
Nivelul de semnificaie
Nivelul de semnificaie
n
1
2
3
4
5
6
7
8
9
10
11
12
n
0,10
0,950
0,776
0,642
0,564
0,510
0,470
0,438
0,411
0,388
0,368
0,352
0,338
0,05
0,975
0,842
0,708
0,624
0,565
0,521
0,486
0,457
0,432
0,410
0,391
0,375
0,01
0,995
0,929
0,828
0,733
0,669
0,618
0,577
0,543
0,514
0,490
0,468
0,450
13
14
15
16
17
18
19
20
25
30
35
>351
0,10
0,325
0,314
0,304
0,295
0,286
0,278
0,272
0,264
0,24
0,22
0,21
1,22/
0,0,5
0,361
0,349
0,338
0,328
0,318
0,309
0,301
0,294
0,27
0,24
0,23
1,36/
0,01
0,433
0,418
0,404
0,392
0,381
0,371
0,363
0,356
0,32
0,29
0,27
1,63/
n - volumul eantionului (cazul testului de concordan ) sau al eantioanelor (cazul testului de comparare a dou distribuii empirice,
eantioanele avnd acelai volum n1=n2=n).
1
la testele de comparare, pentru volume n ale eantioanelor mai mari de 35, se poate lucra i cu eantioane de volume inegale; n acest
caz se ia n considerare volumul total al celor dou eantioane, diferena maxim teoretic fiind calculat cu ajutorul relaiilor de mai jos (pentru
testul bilateral):
n1 + n 2
n1 * n 2
n1 + n 2
n1 * n 2
n1 + n 2
n1 * n 2
120
Anexa VIIIa
VALORILE-LIMIT ALE LUI r
pentru diferite nivele de semnificaie
Nivelul de semnificaie
g.l.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Nivelul de semnificaie
g.l.
0,10
0,9877
0,9000
0,8054
0,7293
0,6694
0,6215
0,5822
0,5494
0,5214
0,4973
0,4762
0,4575
0,4409
0,4245
0,4124
0,05
0,9969
0,9500
0,8783
0,8114
0,7545
0,7067
0,6664
0,6319
0,6021
0,5760
0,5529
0,5324
0,5139
0,4973
0,4821
0,01
0,9995
0,9800
0,9343
0,8822
0,8329
0,7887
0,7498
0,7155
0,6851
0,6581
0,6339
0,6120
0,5923
0,5742
0,5577
16
17
18
19
20
25
30
35
40
45
50
60
70
80
100
0,10
0,4000
0,3887
0,3783
0,3687
0,3598
0,3233
0,2960
0,2746
0,2573
0,2428
0,2306
0,2108
0,1954
0,1829
0,1638
0,05
0,4683
0,4555
0,4438
0,4329
0,4227
0,3809
0,3494
0,3246
0,3044
0,2875
0,2732
0,2500
0,2319
0,2172
0,1946
0,01
0,5425
0,5285
0,5155
0,5034
0,4921
0,4451
0,4093
0,3810
0,3578
0,3384
0,3218
0,2948
0,2737
0,2565
0,2301
Tabelul cuprinde valorile minime, statistic semnificative, ale coeficientului de corelaie liniar simpl r; dac r calculat este mai mare
dect r din tabel, atunci se poate afirma (cu un risc de eroare egal cu ) c ntre cele dou variabile exist o corelaie liniar semnificativ.
n tabel se intr cu numrul gradelor de libertate, care n acest caz va fi: g.l. = n - 2 (n - numrul de perechi de valori).
Anexa VIIIb
VALORILE-LIMIT ALE COEFICIENTULUI AL LUI SPEARMAN
0,05
0,01
0,05
0,01
0,34
0,33
0,32
0,31
0,28
0,26
0,25
0,24
0,22
0,21
0,20
0,19
0,17
0,49
0,47
0,45
0,43
0,40
0,37
0,35
0,33
0,32
0,30
0,28
0,26
0,23
4
5
6
7
8
9
10
12
14
16
18
20
22
1,00
0,90
0,83
0,71
0,64
0,60
0,56
0,51
0,46
0,42
0,40
0,38
0,36
1,00
0,94
0,89
0,83
0,78
0,75
0,71
0,64
0,60
0,56
0,53
0,51
24
26
28
30
35
40
45
50
55
60
70
80
100
121
Anexa IX
1
87 35
25 52
87 17
05 04
81 16
54 85
44 78
97 20
98 77
78 12
41 19
70 64
06 56
29 46
42 14
33 75
09 80
98 31
51 70
27 83
78 84
22 12
69 41
54 99
99 91
54 96
88 37
49 40
21 18
06 31
58 56
83 00
51 45
90 55
68 65
51 84
85 23
31 95
91 55
46 80
07 78
48 69
70 69
98 63
76 50
23 47
18 38
93 93
65 23
77 19
2
67 44
29 67
83 31
40 35
09 21
78 88
19 18
98 97
57 51
77 30
70 62
30 55
09 89
18 28
55 51
87 15
99 61
57 50
52 55
61 07
69 15
89 66
59 54
46 54
82 79
58 70
31 01
84 90
87 99
99 51
75 14
61 74
05 35
27 93
05 79
34 98
92 01
14 27
02 31
10 25
66 31
61 99
68 47
62 58
34 97
83 35
27 88
51 63
13 22
27 34
3
51 49
35 99
25 59
72 95
91 71
57 91
35 40
37 33
40 41
83 30
43 46
67 46
68 87
08 88
72 95
15 23
98 08
85 80
83 12
49 05
64 42
49 09
82 72
51 38
92 62
68 38
58 97
19 91
98 48
27 13
19 32
76 68
16 73
33 06
82 57
03 38
84 05
80 20
42 31
92 61
63 37
15 93
02 10
95 62
87 14
73 08
50 09
96 33
01 10
65 55
4
18 98
48 88
87 48
48 56
29 76
11 69
27 66
93 75
76 21
59 28
06 13
95 79
79 19
48 56
29 25
13 79
34 11
53 39
95 02
46 20
92 39
99 10
44 66
59 07
44 24
48 37
65 10
75 41
38 12
43 21
35 15
58 67
80 43
76 42
78 22
87 12
83 64
36 96
54 72
83 83
30 38
98 43
60 99
61 53
65 07
83 52
58 11
82 81
20 01
62 52
5
97 84
40 68
25 80
77 57
54 01
10 22
89 72
18 88
18 54
73 33
22 38
63 66
35 94
49 44
15 18
62 73
88 79
05 92
79 11
35 78
36 08
62 53
64 03
64 21
01 34
08 25
96 97
55 63
64 18
07 55
47 05
31 58
44 64
16 08
37 41
79 88
12 95
81 84
45 32
58 58
95 57
38 84
02 84
28 49
59 45
47 19
96 83
58 02
11 15
47 73
6
75 22
63 68
24 08
63 19
53 17
71 87
21 17
35 85
60 61
47 07
31 18
82 56
66 18
67 82
25 68
76 69
08 32
54 42
49 79
31 34
56 39
19 31
76 59
81 17
45 16
51 28
32 75
98 25
78 50
90 35
38 54
77 93
19 14
16 81
82 44
57 88
51 44
88 55
43 76
71 46
84 99
46 49
41 36
20 20
02 56
79 85
05 86
19 36
36 43
09 34
7
53 29
82 39
81 45
80 16
30 67
24 92
71 69
46 05
79 13
60 07
61 60
67 10
17 91
72 67
48 92
09 77
46 78
29 01
87 95
12 50
35 02
81 83
12 12
88 47
33 56
42 09
65 73
01 69
43 97
29 84
92 08
92 44
52 22
86 15
07 43
46 81
60 64
50 47
89 95
29 95
85 32
84 89
81 65
21 49
89 50
26 07
49 61
55 80
49 49
58 38
8
10 52
38 47
21 32
48 52
62 95
52 64
95 17
07 20
94 57
45 38
07 14
76 77
72 81
28 83
87 16
82 65
35 58
35 23
98 48
68 11
92 78
50 43
41 56
23 05
17 78
45 96
06 01
29 57
04 07
08 70
08 72
94 16
81 62
09 79
98 89
62 56
68 86
22 39
74 04
72 38
91 28
44 51
44 08
45 35
85 03
53 80
35 03
74 84
19 24
28 28
9
26 87
91 39
90 08
06 47
56 58
42 82
97 17
08 17
50 73
82 10
49 16
03 22
72 77
10 26
78 43
72 47
44 16
09 81
88 68
42 14
46 63
37 42
34 90
63 43
42 86
78 84
60 19
72 77
85 18
66 03
79 66
01 29
79 68
30 86
78 23
94 91
53 05
70 56
79 33
89 05
06 85
75 42
49 93
01 57
42 65
00 33
46 63
14 63
77 70
18 15
10
54 92
11 00
44 31
64 98
10 91
78 95
62 60
66 24
89 68
73 19
28 16
42 18
92 39
58 13
17 47
59 56
12 23
96 64
64 77
29 77
82 98
10 00
26 06
08 67
70 94
34 59
68 10
75 95
98 87
18 96
65 20
32 19
13 37
74 77
96 04
06 59
26 16
66 41
46 91
26 05
67 13
45 17
49 62
45 64
07 35
18 07
88 48
79 22
95 08
82 65
122
123