Sunteți pe pagina 1din 126

Geostatistică

Iulian Stoleriu
Copyright © 2019 Iulian Stoleriu
Cuprins

1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Elemente de Statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Scurt istoric 11
2.2 Modelare Statistică 13
2.3 Populaţie şi selecţie 13
2.4 Organizarea şi descrierea datelor 16
2.5 Gruparea datelor 17
2.6 Reprezentarea datelor statistice 20
2.6.1 Reprezentare prin puncte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6.2 Reprezentarea stem-and-leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6.3 Reprezentarea cu bare (bar charts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.5 Reprezentare prin sectoare de disc (pie charts) . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.6 Poligonul frecvenţelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.7 Ogive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.8 Diagrama Q-Q sau diagrama P-P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.9 Diagrama scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7 Măsuri descriptive ale datelor statistice (indicatori statistici) 26
2.7.1 Date negrupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7.2 Date grupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.8 Transformari de date 34
3 Noţiuni teoretice de Statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1 Evenimente aleatoare 39
3.1.1 Operatii cu evenimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.2 Relatii intre evenimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2 Probabilitate 40
3.3 Variabile aleatoare 42
3.3.1 Funcţia de repartiţie (sau funcţia de repartiţie cumulată) . . . . . . . . . . . . . . . . . . 44
3.3.2 Caracteristici numerice ale unei variabile aleatoare (parametri) . . . . . . . . . . . 44
3.3.3 Independenţa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.4 Teorema limita centrala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.5 Repartiţii probabilistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4 Estimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1 Estimatori punctuali 56
4.1.1 Exemple de estimatori punctuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2 Estimarea parametrilor prin intervale de încredere 58
4.2.1 Intervale de încredere pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.2 Interval de încredere pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.3 Interval de încredere pentru proportie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5 Teste statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1 Tipuri de teste statistice 65
5.1.1 Testul t pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.1.2 Test pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.3 Testul χ 2 de concordanţă . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.1.4 Testul de concordanţă Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6 Corelaţie şi regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73


6.1 Punerea problemei 73

7 Metode de interpolare spaţială . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77


7.1 Metode deterministe de interpolare spatiala 77

8 Procese stochastice spaţiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83


8.1 Procese stochastice stationare 84
8.1.1 Ergodicitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
8.2 Functia de covarianţă 85
8.3 Variograma 86
8.4 Modelarea variogramei teoretice 89
8.4.1 Proprietati ale functiilor de corelatie spatiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
8.4.2 Comportamentul variogramei in jurul originii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
8.4.3 Modele de variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.4.4 Estimator pentru variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8.4.5 Pasi in estimarea variogramei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.4.6 Sfaturi practice pentru construirea unei variograme . . . . . . . . . . . . . . . . . . . . . . 98
8.4.7 Indicatorul Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.4.8 Metode de estimare a variogramei teoretice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.4.9 Anizotropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

9 Kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
9.1 Introducere 101
9.2 Kriging simplu 102
9.3 Kriging ordinar 106
9.4 Kriging lognormal 109
9.5 Kriging universal (sau kriging cu drift) 109
9.6 Kriging indicator 110
9.7 Cokriging 112
9.8 Cross-validare (validarea incrucisata) 112
9.9 Simulare stochastica 114

10 Anexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
10.1 Tabele cu cuantile pentru repartiţii uzuale 117
10.2 Exemplu de date statistice spatiale 119
10.3 Tabel cu intervale de încredere 121

Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Index 125
1. Introducere

Geostatistica poate fi privita ca fiind o subramura a Statisticii, ce se preocupa cu analiza si interpre-


tarea datelor cu caracter geografic. Îsi are originile in industriile miniera si petroliera, incepand cu
studiile inginerului sud-african Danie Krige in anii ’50 si au fost ulterior continuate si dezvoltate
de inginerul Georges Matheron ([matheron1], [matheron2]) in anii ’60, care le-a aplicat direct in
evaluarea rezervelor miniere. Totusi, anterior anului 1950 au existat si alte lucrari importante, nu
neaparat legate de fenomene geologice, dar care au contribuit ulterior la conturarea Geostatisticii ca
o disciplina de sine statatoare. Prefixul Geo provine de la Geologie si este datorat originilor cerce-
tarilor datelor spatiele. Metodele actuale din Geostatistica au aplicatii in diverse alte domenii, cum
ar fi: Hidrologie, Oceanografie, Meteorologie, Industria forestiera, Epidemiologie, Agricultura etc.

Obiectivul principal al acestei discipline este caracterizarea sistemelor spatiale care sunt incomplet
cunoscute/descrise. In acest scop, Geostatistica contine o colectie de tehnici numerice si matema-
tice care se ocupa cu caracterizarea sistemelor (datelor) spatiale sau spatio-temporale care nu sunt
complet cunoscute, cum ar fi sistemele spatiale ce apar in Geologie. Prin date spatiale intelegem
acele date statistice ce sunt asociate cu o locatie in spatiu; pentru datele spatio-temporale mai
apare si referirea la variabila timp (datele observate depind de momentul cand au fost culese).

Exemple de fenomene spatiale sau spatio-temporale de interes in Geostatistică: concentratia


poluarii solului, rata infiltrarii apei in sol, porozitatea solului, pretul titeiului etc. Multe dintre
fenomenele din Geologie sunt extrem de diversificate si vaste. Geologii au ca sarcina realizarea
unui model geologic complet plecand de la un numar de observatii/masuratori care, de regula, re-
prezinta doar o mica fractiune din aria sau volumul de interes. Din cauza complexitatii sistemelor
spatiale ce apar in Geologie, realizarea unei descrieri complete a unui sistem spatial este practic
imposibila. Mai mult, obtinerea unui numar foarte mare de masuratori este costisitoare. Geos-
tatistica ofera unelte si tehnici de interpolare si extrapolare (atat determinista cat si stochastica),
necesare determinarii (prezicerii) valorilor de interes in locatii unde nu au fost facute masuratori.
8 Capitolul 1. Introducere

Spre deosebire de Statististica clasica, in care masuratorile (observatiile statistice) sunt privite
ca fiind observatii independente si identic repartizate asupra unei aceleiasi caracteristici, datele
de interes din Geostatistica sunt spatial corelate (i.e., ipoteza de independenta a datelor nu este
satisfacuta). Daca nu ar exista o asemenea corelare spatiala, aplicarea metodelor geostatistice nu
ar fi oportuna; Statistica clasica singura ar putea oferi raspunsurile necesare. Totodata, vom ve-
dea ca datele spatiale din Geostatistica nu pot fi toate generate de o aceeasi repartitie probabilistica.

Spre exemplu, se doreste a realiza o harta a ratei infiltrarii apei intr-o anumita regiune, ce cuprinde
atat zone rurale cat si urbane. Deoarece solul nu este acelasi in interiorul regiunii, rata infiltrarii
apei va avea diverse valori in acest areal. Este de asteptat ca masuratorile obtinute din locatii foarte
apropiate sa fie similare, fapt foarte familiar geologilor. In termeni statistici, acest fapt se traduce
printr-o corelare a valorilor ratelor infiltrarii apei masurate in locatii diferite. Vom vedea mai tarziu
ca in analiza acestor date va trebui sa tinem cont de corelatiile dintre ele, fapt ce va fi realizat
prin analiza variogramei (sau a corelogramei) datelor empirice. Totodata, datorita variabilitatii
solului, este de asteptat ca ratele astfel masurate sa nu urmeze toate o aceeasi repartitie normala.
Din acest motiv, fiecare data spatiala din Geostatistica poate privita ca fiind o singura observatie
(masurare) a unei anumite repartitii, nu neaparat una normala. Astfel, Geostatistica tine cont atat
de repartitiile datelor obtinute cat si de corelatiile intre aceste date, nefiind constransa sa considere
faptul ca toate datele observate au o aceeasi repartitie probabilistica.

Unul dintre scopurile Geostatisticii este ca, plecand de la o colectie de valori observate (masurate)
pentru o anumita caracteristica de interes, sa poata prezice repartitia spatiala intr-un punct de unde
nu avem date observate (nu s-au facut masuratori). Spre exemplu, in Figura 1.1 sunt reprezentate
7 masuratori efectuate intr-un regiune in care valorile masurate ale caracteristicii de interes sunt
aleatoare.

Se doreste prezicerea valorii in punctul marcat


cu culoare rosie. In practica, in urma unor astfel
de predictii se pot crea hărţi care sa descrie grafic
caracteristica de interes. Pentru ca aceste harti
sa fie cat mai detaliate, este deseori nevoie de
computere si de un software specializat. Valorile
prezise pot fi: estimate (folosind metode geos-
tatistice) sau simulate (folosind metode Monte
Carlo). Valoarea estimata va fi determinata pe
baza unei metode specifice Geostatisticii, numita
kriging, si se bazeaza pe valorile observate (ma-
surate) deja si pe corelatia dintre aceste valori
observate (numita corelograma/variograma).
Figura 1.1: Valori ale unei caracteristici
intr-un camp aleator.
Foarte pe scurt, o analiza geostatistica urmeaza urmatoarele trei etape principale:
1. analiza descriptiva a datelor spatiale (grafice, diagrame, indicatori statistici)
2. construirea variogramei empirice si aproximarea ei cu un model teoretic (estimarea vario-
gramei teoretice)
3. predictia (prin metode kriging sau simulari stochastice) valorilor caracteristicii de interes in
9

locatiile unde nu au fost facute masuratori.


In functie de natura datelor spatiale studiate, pentru fiecare etapa in parte exista metode specifice
de analiza, etape ce le vom studia in detaliu in cursurile ce urmeaza.
Dupa cum am mentionat mai sus, pentru locatiile de unde nu au fost culese date se pot face
predictii folosind metode de interpolare sau metode kriging. Pe langa acestea, se mai pot folosi
metode de simulare stochastica (care au la baza Teoria Probabilitatilor) pentru a produce valori ale
caracteristicii in pozitia dorita. Modelele probabilistice pot fi aplicate pentru datele spatiale intr-o
maniera asemanatoare analizei seriilor de timp. Astfel, se pot realiza predictii pentru valorile
caracteristicii de interes in locatiile unde nu au fost facute masuratori. Geostatistica este o strans
legata de metodele de interpolare, dar contine metode de analiza mult mai elaborate decat simplele
de interpolare. In scopul de a modela incertitudinea asociata cu estimarea spatiala, aceste metode
au la baza functii sau variabile aleatoare.

Principalele diferenţe dintre Statistica clasica si Geostatistica sunt:


• Datele statistice din Geostatistica tin cont de locatia de unde au fost culese şi pot fi corelate
cu datele obţinute din alte locaţii. Datele din Statistica clasica nu sunt dependente de locaţie
şi se presupune că acestea sunt observaţii independente ale unei variabile studiate.
• In Geostatistica, datele culese sunt independente intre ele si nici identic repartizate;
• In Statistica clasica, o selectie aleatoare contine date ce sunt considerate a fi multiple realizari
independente şi identic repartizate ale unei singure variabile. In schimb, in Geostatistica,
fiecare data dintr-o selectie este privita ca o singura realizare a unei variabile, iar aceasta
variabila difera cu locatia;
• Multe rezultate din Geostatistica nu presupun cunoasterea repartitiei datelor observate, desi
normalitatea datelor ar fi un avantaj pentru analiza. Pentru analiza datelor din Statistica
clasică este deseori nevoie ca distributia datelor sa fie cunoscuta. Multe dintre rezultatele
din Statistica clasica se bazeaza pe ipoteza de normalitate a datelor.
• De regula, datele geostatistice sunt culese in urma impartirii domeniului de masurat in
forme regulate (cubice, hexagonale etc.), asadar locatiile de unde se iau masuratori nu sunt
alese in mod cu totul aleator. Datele din Statistica clasică nu sunt neapărat legate de forma
regiunii de unde au fost culese.

Deoarece datele statistice spatiale pot fi foarte numeroase, pentru analiza lor este nevoie de ajutorul
computerelor si de un software specializat. Exemple de software ce analizeaza date geostatistice
sunt: ArcMap, M ATLAB (M AThematics L ABoratory), R, GSLIB (Geostatistical Software Library),
Gstat, SGeMS (Stanford Geostatistical Modeling Software), GS+, Geopack, GeoEAS, Variowin
etc.
2. Elemente de Statistică

2.1 Scurt istoric


Statistica este o ramură a ştiinţelor ce se preocupă de procesul de colectare de date şi informaţii,
de organizarea şi interpretarea lor, în vederea explicării unor fenomene reale. În Economie şi
Business, informaţiile extrase din datele statistice vor fi utile în evaluarea afacerilor sau a mediului
economic în care activează, ajutându-i astfel în luarea deciziilor.

În general, prin date (sau date statistice) înţelegem o mulţime de numere sau caractere ce au o
anumită însemnătate pentru utilizator. Utilizatorul este interesat în a extrage informaţii legate de
mulţimea de date pe care o are la îndemână. Datele statistice pot fi legate între ele sau nu. Suntem
interesaţi de studiul acestor date, cu scopul de a înţelege anumite relaţii între diverse trăsături ce
măsoară datele culese. De regulă, oamenii au anumite intuiţii despre realitatea ce ne înconjoară,
pe care le doresc a fi confirmate într-un mod cât mai exact.

De exemplu, dacă într-o anumită zonă a ţării rata şomajului este ridicată, este de aşteptat ca în
acea zonă calitatea vieţii persoanelor de acolo să nu fie la standarde ridicate. Totuşi, ne-am dori să
fim cât mai precişi în evaluarea legăturii dintre rata somajului şi calitatea vieţii, de aceea ne-am
dori să construim un model matematic ce să ne confirme intuiţia. Un alt gen de problemă: ardem
de nerăbdare să aflăm cine va fi noul preşedinte, imediat ce secţiile de votare au închis porţile
(exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea şi unificarea tuturor datelor
într-un timp record nu este o măsură deloc practică. În ambele probleme menţionate, observaţiile
şi culegerea de date au devenit prima treaptă spre înţelegerea fenomenului studiat. De cele mai
multe ori, realitatea nu poate fi complet descrisă de un astfel de model, dar scopul este de a oferi o
aproximare cât mai fidelă şi cu costuri limitate.

În ambele situaţii menţionate apar erori în aproximare, erori care ţin de întâmplare. De aceea,
ne-am dori să putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecând de la
12 Capitolul 2. Elemente de Statistică

colecţiile de date obţinute dintr-o colectivitate, Statistica introduce metode de predicţie şi prognoză
pentru descrierea şi analiza proprietăţilor întregii colectivităţi. Aria de aplicabilitate a Statisticii
este foarte mare: ştiinţe exacte sau sociale, umanistică sau afaceri etc. O disciplină strâns legată
de Statistică este Econometria. Aceasta ramură a Economiei se preocupă de aplicaţii ale teoriilor
economice, ale Matematicii şi Statisticii în estimarea şi testarea unor parametri economici, sau în
prezicerea unor fenomene economice.

Statistica a apărut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre
populaţiile pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei mai
bune administrări. Datorită originii sale, Statistica este considerată de unii ca fiind o ştiinţă de sine
stătătoare, ce utilizează aparatul matematic, şi nu este privită ca o subramură a Matematicii. Dar
nu numai originile sale au fost motivele pentru care Statistica tinde să devină o ştiinţă separată de
Teoria Probabilităţilor. Datorită revoluţiei computerelor, Statistica a evoluat foarte mult în direcţia
computaţională, pe când Teoria Probabilităţilor foarte puţin. Aşa cum David Williams scria în
[williams], "Teoria Probabilităţilor şi Statistica au fost odată căsătorite; apoi s-au separat; în cele
din urmă au divorţat. Acum abia că se mai întâlnesc".

Din punct de vedere etimologic, cuvântului statistică îşi are originile în expresia latină statisticum
collegium (însemnând consiliul statului) şi cuvântul italian statista, însemnând om de stat sau
politician. În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat
pentru a analiza datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair a
extrapolat termenul la colecţii şi clasificări de date.

Metodele statistice sunt astăzi aplicate într-o gamă largă de discipline. Amintim aici doar câteva
exemple:
• în Geografie, spre exemplu, pentru a studia efectul incalzirii globale asupra repartitiei
padurilor pe glob;
• în Geologie, pentru a determina o harta a ratei infiltrarii apei intr-o anumita zona ubana;
• în Agricultură, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a fi folosite
pe un anumit teren arabil;
• în Economie, pentru studiul rentabilităţii unor noi produse introduse pe piaţă, pentru
corelarea cererii cu ofertă, sau pentru a analiza cum se schimbă standardele de viaţă;
• în Contabilitate, pentru realizarea operaţiunilor de audit pentru clienţi;
• în Biologie, pentru clasificarea din punct de vedere ştiinţific a unor specii de plante sau
pentru selectarea unor noi specii;
• în Ştiinţele educaţiei, pentru a găsi cel mai eficient mod de lucru pentru elevi sau pentru a
studia impactul unor teste naţionale asupra diverselor caregorii de persoane ce lucrează în
învăţământ;
• în Meteorologie, pentru a prognoza vremea într-un anumit ţinut pentru o perioadă de timp,
sau pentru a studia efectele încălzirii globale;
• în Medicină, pentru testarea unor noi medicamente sau vaccinuri;
• în Psihologie, în vederea stabilirii gradului de corelaţie între timiditate şi singurătate;
• în Politologie, pentru a verifica dacă un anumit partid politic mai are sprijinul populaţiei;
• în Ştiinţele sociale, pentru a studia impactul crizei economice asupra unor anumite clase
sociale;
• etc.
2.2 Modelare Statistică 13

Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identifica mai întâi
care este colectivitatea asupra căreia se doreşte studiul. Această colectivitate (sau populaţie) poate
fi populaţia unei ţări, sau numai elevii dintr-o şcoală, sau totalitatea produselor agricole cultivate
într-un anumit ţinut, sau toate bunurile produse într-o uzină. Dacă se doreşte studiul unei trăsături
comune a tuturor membrilor colectivităţii, este de multe ori aproape imposibil de a observa această
trăsătură la fiecare membru în parte, de aceea este mult mai practic de a strânge date doar despre
o submulţime a întregii populaţii şi de a căuta metode eficiente de a extrapola aceste observaţii
la toată colectivitatea. Există o ramură a statisticii ce se ocupă cu descrierea acestei colecţii de
date, numită Statistică descriptivă. Această descriere a trăsăturilor unei colectivităţi poate fi
făcută atât numeric (media, dispersia, mediana, cuantile, tendinţe etc), cât şi grafic (prin puncte,
bare, histograme etc). De asemenea, datele culese pot fi procesate într-un anumit fel, încât să
putem trage concluzii foarte precise despre anumite trăsături ale întregii colectivităţi. Această
ramură a Statisticii, care trage concluzii despre caracteristici ale întregii colectivităţi, studiind
doar o parte din ea, se numeşte Statistică inferenţială. În contul Statisticii inferenţiale putem trece
şi următoarele: luarea de decizii asupra unor ipoteze statistice, descrierea gradului de corelare
între diverse tipuri de date, estimarea caracteristicilor numerice ale unor trăsături comune întregii
colectivităţi, descrierea legăturii între diverse caracteristici etc.

2.2 Modelare Statistică


De obicei, punctul de plecare este o problemă din viaţa reală, e.g., care partid are o susţinere mai
bună din partea populaţiei unei ţări, dacă un anumit medicament este relevant pentru boală pentru
care a fost creat, dacă este vreo corelaţie între numărul de ore de lumina pe zi şi depresie. Apoi,
trebuie să decidem de ce tipuri date avem nevoie să colectăm, pentru a putea da un răspuns la
întrebarea ridicată şi cum le putem colecta. Modurile de colectare a datele pot fi diverse: putem
face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este
nevoie de o metodă bine stabilită de colectare a datelor şi să construim un model statistic potrivit
pentru analiza acestora. În general, datele (observaţiile sau măsurătorile) culese pot fi potrivite
într-un model statistic prin care

Data observată = f (x, θ ) + eroare de aproximare, (2.2.1)

unde f este o funcţie ce verifică anumite proprietăţi şi este specifică modelului, x este vectorul
ce conţine variabilele măsurate şi θ este un parametru (sau un vector de parametri), care poate fi
determinat sau nedeterminat. Termenul de eroare apare deseori în pratică, deoarece unele date
culese au caracter stochastic (nu sunt deterministe, in sensul ca valorile lor nu pot fi prevazute a
priori). Modelul astfel creat este testat, şi eventual revizuit, astfel încât să se potrivească într-o
măsură cât mai precisă datelor culese.

2.3 Populaţie şi selecţie


Definim o populaţie (colectivitate) statistică ca fiind o mulţime de elemente ce posedă o trasatură
comună ce urmează a fi studiată. Aceasta poate fi finită sau infinită, reală sau imaginară. Elemen-
tele ce constituie o colectivitate statistică se vor numi unităţi statistice sau indivizi. Volumul unei
colectivităţi statistice este dat de numărul indivizilor ce o constituie.
14 Capitolul 2. Elemente de Statistică

Prin variabila (sau caracteristica) unei populaţii statistice înţelegem o anumită proprietate urmă-
rită la indivizii ei în procesul prelucrării statistice şi care constituie obiectul măsurării. Din punct
de vedere statistic, ea este o trasatura sau cantitate legata de populatia studiata, ce poate lua orice
valoare dintr-o multime data, fiecarei valori atribuindu-se o anumita pondere (frecventa relativa).
Spre exemplu: numarul de clienti ce intra intr-un magazin intr-o anumita zi de lucru, inaltimea
barbatilor dintr-o anumita tara, rata infiltrarii apei in solul urban, media la Bacalaureat, altitudinea,
culoarea frunzelor, nationalitatea participantilor la un congres international etc. Variabilele pot
fi: cantitative (măsurabile) (e.g., 2, 3, 5, 7, 11, . . . ) şi calitative (sau categoriale) (e.g., albastru,
foarte bine, german etc). La rândul lor, variabilele cantitative pot fi discrete (numărul de sosiri
ale unui tramvai în staţie) sau continue (timpul de aşteptare între două sosiri ale tramvaiului în
staţie). Datele calitative mai pot fi nominale sau ordinale. Variabilele nominale au nivele distincte,
fara a avea o anumita ordine. De exemplu, culoarea parului, sau genul unei persoane. Pe de alta
parte, valorile ordinale fac referinta la ordinea lor. De exemplu: schimbarea starii unui pacient
dupa un anumit tratamen (aceasta poate fi: imbunatatire semnificativa, imbunatatire moderata,
nicio schimbare, inrautatire moderata, inrautatire semnificativa).

Parametrii populaţiei sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avem
acces la intreaga populatie, parametrii sunt niste constante necunoscute, ce urmeaza a fi explicate
sau estimate pe baza datelor. Spre exemplu, daca populatia formata este formata din multimea
persoanelor dintr-o anumita tara, parametrii pot fi: inaltimea medie, culoarea predominanta a
ochilor, deviata standard a masei corporale, varsta medie, procentul de someri, coeficientul de
corelatie dintre conditiile de trai pentru cei care locuiesc in mediul urban si cei din mediul rural
etc. Pentru variabilele cantitative ale populatiei, putem avea urmatoarele tipuri de parametri: para-
metri care sa descrie tendinta centrala a populatiei (e.g., media, mediana, momente), parametri
care descriu gradul de imprastiere a datelor in jurul unei valori centrale (e.g., dispersia, deviatia
standard, coeficient de variatie), parametri de pozitie (e.g., cuantile), parametri ce descriu forma
(e.g., skewness, kurtosis).
De asemenea, pot fi definiti parametri ce descriu legatura intre doua variabile ce caracterizeaza
populatia de interes. De exemplu corelatia sau coeficientul de corelatie dintre nivelul de studii si
salariul net.
Pentru date calitative (categoriale), cei mai des utilizati parametri sunt: π− proportia din populatie
ce are caracteristica de interes (e.g., proportia de fumatori din tara), cote (sanse teoretica pentru
observarea caracteristicii de interes la intreaga populatie) (e.g., exista 70% sanse sa ploua maine).

O variabila a unei populatii poate depinde de unul sau mai multi parametri, parametrii fiind astfel
trasaturi ce descriu colectivitatea. Spre exemplu, o variabila normala poate fi descrisa de doi
parametri: media si deviatia standard.
Suntem interesaţi în a măsura una sau mai multe variabile relative la o populaţie, însă aceasta s-ar
putea dovedi o muncă extrem de costisitoare, atât din punctul de vedere al timpului necesar, cât
şi din punctul de vedere al depozitării datelor culese, în cazul în care volumul colectivităţii este
mare sau foarte mare (e.g., colectivitatea este populaţia cu drept de vot a unei ţări şi caracteristica
urmărită este candidatul votat la alegerile prezidenţiale). De aceea, este foarte întemeiată alegerea
unei selecţii de date din întreaga populaţie şi să urmărim ca pe baza datelor selectate să putem
trage o concluzie în ceea ce priveşte variabila colectivităţii.

O selecţie (sau eşantion) este o colectivitate parţială de elemente extrase (la întâmplare sau nu) din
2.3 Populaţie şi selecţie 15

colectivitatea generală, în scopul cercetării lor din punctul de vedere al unei caracteristici. Dacă
extragerea se face la întâmplare, atunci spunem că am facut o selecţie întâmplătoare. Numărul
indivizilor din selecţia aleasă se va numi volumul selecţiei. Dacă se face o enumerare sau o
listare a fiecărui element component al unei a populaţii statistice, atunci spunem că am facut un
recensământ. Numim o selecţie repetată (sau cu repetiţie) o selecţie în urma căreia individul ales
a fost reintrodus din nou în colectivitate. Altfel, avem o selecţie nerepetată. Selecţia nerepetată
nu prezintă interes dacă volumul colectivităţii este finit, deoarece în acest caz probabilitatea ca
un alt individ să fie ales într-o extragere nu este aceeaşi pentru toţi indivizii colectivităţii. Pe de
altă parte, dacă volumul întregii populaţii statistice este mult mai mare decât cel al eşantionului
extras, atunci putem presupune că selecţia efectuată este repetată, chiar dacă în mod practic ea
este nerepetată. Spre exemplu, dacă dorim să facem o prognoză a cine va fi noul preşedinte în
urma alegerilor din toamnă, eşantionul ales (de altfel, unul foarte mic comparativ cu volumul
populaţiei cu drept de vot) se face, în general, fără repetiţie, dar îl putem considera a fi o selecţie
repetată, în vederea aplicării testelor statistice.

Selecţiile aleatoare se pot realiza prin diverse metode, în funcţie de următorii factori: disponibili-
tatea informaţiilor necesare, costul operaţiunii, nivelul de precizie al informaţiilor etc. Mai jos
prezentăm câteva metode de selecţie.
• selecţie simplă de un volum dat, prin care toţi indivizii ce compun populaţia au aceeaşi
şansă de a fi aleşi. Această metodă mininimizează riscul de a fi părtinitor sau favorabil
unuia dintre indivizi. Totuşi, această metodă are neajunsul că, în anumite cazuri, nu reflectă
componenţa întregii populaţii. Se aplică doar pentru colectivităţi omogene din punctul
de vedere al trăsăturii studiate. In cazul datelor spatiale, se pot alege prin selectie simpla
coordonatele locatiilor de unde se vor efectua masuratori pentru caracteristica de interes.
• selecţie sistematică, ce presupune aranjarea populaţiei studiate după o anumită schemă
ordonată şi selectând apoi elementele la intervale regulate. (e.g., alegerea a fiecărui al 10-lea
număr dintr-o carte de telefon, primul număr fiind ales la întâmplare (simplu) dintre primele
10 din listă).
• selecţie stratificată, în care populaţia este separată în categorii, iar alegerea se face la
întâmplare din fiecare categorie. Acest tip de selecţie face ca fiecare grup ce compune
populaţia să poata fi reprezentat în selecţie. Alegerea poate fi facută şi în funcţie de mărimea
fiecărui grup ce compune colectivitatea totală (e.g., aleg din fiecare judeţ un anumit număr
de persoane, proporţional cu numărul de persoane din fiecare judeţ).
• selecţie ciorchine, care este un eşantion stratificat construit prin selectarea de indivizi din
anumite straturi (nu din toate).
• selecţia de tip experienţă, care ţine cont de elementul temporal în selecţie. (e.g., diverşi
timpi de pe o encefalogramă).
• selecţie de convenienţă: de exemplu, alegem dintre persoanele care trec prin faţa universită-
ţii.
• selecţie de judecată: cine face selecţia decide cine ramâne sau nu în selecţie.
• selecţie de cotă: selecţia ar trebui să fie o copie a întregii populaţii, dar la o scară mult mai
mică. Aşadar, putem selecta proporţional cu numărul persoanelor din fiecare rasă, de fiecare
gen, origine etnică etc) (e.g., persoanele din Parlament ar trebui să fie o copie reprezentativă
a persoanelor întregii ţări, la o scară mai mică).
Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii ne-
cunoscuti, obtinand descrieri numerice sau calitative pentru populatie. Astfel de indicatori se
16 Capitolul 2. Elemente de Statistică

numesc statistici. Prin intermeniul statisticilor putem trage concluzii despre populaţia din care a
provenit eşantionul observat. Teoria probabilităţilor ne oferă procedee de determinare a repartiţiei
asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte. Repartiţia exactă
este acea repartiţie ce poate fi determinată pentru orice volum al selecţiei. În general, dacă se
lucrează cu selecţii de volum redus (sub 30 de masuratori), atunci repartiţia exactă ar trebui să
fie cunoscută a priori, dacă se doreşte luarea de decizii prin inferenţă. Repartiţia asimptotică
este repartiţia limită a statisticii când volumul esantionului tinde la volumul populatiei. Practic,
utilizarea repartitiei asimptotice conduce la rezultate bune doar pentru un esantion suficient de
mare (peste 30 de masuratori).

De cele mai multe ori, o statistică este utilizată în următoarele cazuri:


• în probleme de estimare punctuală a parametrilor;
• în obţinerea intervalelor de încredere pentru un parametru necunoscut;
• ca o statistică test pentru verificarea ipotezelor statistice. Prin ipoteza statistica intelegem o
presupunere facuta referitor la valoarea unui parametru sau la fost repartitiei observatiilor.
Vom reveni la acest subiect mai tarziu in acest material.

In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga anumite informatii
din acestea. Mai concret, Statistica detine uneltele si metodele necesare de a realiza urmatoarele
cerinte: sa descrie cat mai fidel si sugestiv acele date (prin grafice sau indicatori statistici), sa
estimeze anumiti parametri de interes (e.g., media teoretica, deviatia standard, asimetria ale
caracteristicii), sa verifice prin inferenta ipotezele ce se pot face referitoare la anumiti parametri ai
caracteristicii sau chiar la forma acesteia.

2.4 Organizarea şi descrierea datelor


Presupunem că avem o colectivitate statistică, căreia i se urmăreşte o anumită caracteristică (sau
variabila). Spre exemplu, colectivitatea este mulţimea tuturor studenţilor dintr-o universitate
înrolaţi în anul întâi de master, iar caracteristica este media la licenţă obţinută de fiecare dintre
aceşti studenţi. Teoretic, mulţimea valorilor acestei caracteristici este intervalul [6, 10], iar aceasta
variabila poate lua orice valoare din acest interval.

Vom numi date (sau date statistice) informaţiile obţinute în urma observarii valorilor acestei
caracteristici. In cazul mentionat mai sus, datele sunt mediile la licenţă observate. În general,
datele pot fi calitative (se mai numesc şi categoriale) sau cantitative, după cum caracteristica (sau
variabila) observată este calitativă (exprima o calitate sau o categorie) sau, respectiv, cantitativă
(are o valoare numerica). Totodata, aceste date pot fi date de tip discret, dacă sunt obţinute în
urma observării unei caracteristici discrete (o variabila aleatoare discretă, sau o variabila ale
carei posibile valori sunt in numar finit sau cel mult numarabil), sau date continue, dacă această
caracteristică este continuă (o variabilă aleatoare de tip continuu, sau o variabila ce poate lua orice
valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele vor fi
cantitative şi continue.

În Statistica clasică, se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z, . . .,


si valorile lor cu litere mici, x, y, z, . . .. In mare parte din acest curs vom folosi notatia Z pentru
variabila aleatoare si cu z o posibila valoare (sau realizare) a sa. Daca in exemplul de mai sus
2.5 Gruparea datelor 17

notam cu Z variabila medie la licenta, atunci un anume z observat va fi media la licenta pentru un
student din colectivitate ales aleator.

În Geostatistică, datele observate au caracter spatial, adica sunt legate de pozitie. Pozitia spatiala
poate fi unu, doi sau trei-dimensionala. Majoritatea datelor spatiale din acest curs vor avea pozitie
doi-dimensionala (sau bidimensionala). Vom nota cu x = (x1 , x2 ) vectorul de coordonate bidimen-
sionale. Astfel prin Z(x) sau Z(x1 , x2 ) vom nota variabila Z in locatia x, iar prin z(x) sau z(x1 , x2 )
vom nota valoarea variabilei Z in locatia x. Daca avem mai multe valori ale variabilei Z, le vom
nota prin z1 , z2 , z3 , . . . . În Geostatistica, se foloseste termenul de variabila pentru a caracteriza o
valoare necunoscuta pe care o trasatura unei populatii o poate lua in locatii spatio-temporale.

Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea
şi reprezentarea grafica a datelor, dar şi în calcularea anumitor caracteristici numerice pentru
acestea. Datele înainte de prelucrare, adică exact aşa cum au fost culese, se numesc date negrupate.
Un exemplu de date negrupate (de tip continuu) sunt cele observate in Tabelul 2.1, reprezentând
timpi (în min.sec) de aşteptare pentru primii 100 de clienţi care au aşteptat la un ghişeu până au
fost serviţi.
1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63
0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77
2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89
0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67
1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74
3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80
3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98
5.36 1.32 1.76 2.14 3.28 3.89 4.85 4.12 0.88
Tabela 2.1: Date statistice negrupate

De cele mai multe ori, enumerarea tuturor datelor culese este dificil de realizat, de aceea se
urmăreşte a se grupa datele, pentru o mai uşoară gestionare. Imaginaţi-vă că enumerăm toate
voturile unei selecţii întâmplătoare de 15000 de votanţi, abia ieşiţi de la vot. Mai degrabă, ar fi
mai util şi practic să grupăm datele după numele candidaţilor, precizând numărul de voturi ce l-a
primit fiecare. Asadar, pentru o mai buna descriere a datelor, este necesara gruparea lor in clase
de interes.

2.5 Gruparea datelor


Datele prezentate sub formă de tabel (sau tablou) de frecvenţe se numesc date grupate. Datele
de selecţie obţinute pot fi date discrete sau date continue, după cum caracteristicile studiate sunt
variabile aleatoare discrete sau, respectiv, continue.

(1) Date de tip discret: Dacă datele de selecţie sunt discrete (e.g., {z1 , z2 , . . . , zn }), este posibil
ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt z01 , z02 , . . . , z0r ,
r ≤ n. Atunci, putem grupa datele într-un aşa-numit tabel de frecvenţe (vezi exemplul din Tabelul
2.2). Alternativ, putem organiza datele negrupate într-un tabel de frecvenţe, după cum urmează:
data z01 z02 ... z0r
(2.5.2)
frecventa f1 f2 ... fr
18 Capitolul 2. Elemente de Statistică

nota frecvenţa absolută frecvenţa cumulată frecvenţa relativă frecvenţa relativă cumulată
2 2 2 2.22% 2.22%
3 4 6 4.44% 6.66%
4 8 14 8.89% 15.55%
5 15 29 16.67% 32.22%
6 18 47 20.00% 52.22%
7 17 64 18.89% 71.11%
8 15 79 16.67% 87.78%
9 7 86 7.78% 95.56%
10 4 90 4.44% 100%
Total 90 - 100% -

Tabela 2.2: Tabel cu frecvenţe pentru date discrete.

unde fi este frecvenţa apariţiei valorii z0i , (i = 1, 2, . . . , r), şi se va numi distribuţia empirică de
selecţie a lui Z. Aceste frecvenţe pot fi absolute sau de relative. Un tabel de frecvenţe (sau o
distribuţie de frecvenţe) conţine cel puţin două coloane: o coloană ce reprezintă datele observate
(grupate în clase) şi o coloană de frecvenţe. În prima coloană apar clasele, adică toate valorile
distincte observate. Datele din această coloană nu se repetă. Prin frecvenţa absolută a clasei
înţelegem numărul de elemente ce aparţine fiecărei clase în parte. De asemenea, un tabel de
frecvenţe mai poate conţine frecvenţe relative sau cumulate. O frecvenţă relativă se obţine prin
împărţirea frecvenţei absolute a unei categorii la suma tuturor frecvenţelor din tabel. Astfel, suma
tuturor frecvenţelor relative este egală cu 1. Frecvenţa (absolută) cumulată a unei clase se obţine
prin cumularea tuturor frecvenţelor absolute până la (inclusiv) clasa respectivă. Frecvenţa relativă
cumulată a unei clase se obţine prin cumularea tuturor frecvenţelor relative până la (inclusiv)
clasa respectivă.

Aşadar, elementele unui tabel de frecvenţe pot fi: clasele (ce conţin valori pentru variabile),
frecvenţe absolute, frecvenţe relative sau cumulate. Într-un tabel, nu este obligatoriu să apară
toate coloanele cu frecvenţe sau ele să apară în această ordine.
Vom numi o serie de timpi (sau serie dinamică ori cronologică) un set de date culese la momente
diferite de timp. O putem reprezenta sub forma unui tablou de forma
 
z1 z2 . . . zn
data : ,
t1 t2 . . . tn

unde zi sunt valorile caracteristicii, iar ti momente de timp (e.g., răspunsurile citite de un electro-
cardiograf).

În Tabelul 2.2, sunt prezentate notele studenţilor din anul al III-lea la examenul de Statistică.
Acesta este exemplu de tabel ce reprezentă o caracteristică discretă.

(o glumă povestită de G. Pólya,1 despre cum NU ar trebui interpretată frecvenţa relativă)


Un individ suferind merge la medic. Medicul îl examinează îndelung şi, balansând dezamăgit capul, îi
spune pacientului:
1 György Pólya (1887 − 1985), matematician ungur
2.5 Gruparea datelor 19

"Offf... dragă domnule pacient, am două veşti: una foarte proastă şi una bună. Mai întâi vă aduc la
cunoştinţă vestea proastă: suferiţi de o boală groaznică. Statistic vorbind, din zece pacienţi ce contractează
această boală, doar unul scapă."
Pacientul, deja în culmea disperării, este totuşi consolat de doctor cu vestea cea bună:
"Dar, fiţi pe pace! Dumneavoastră aţi venit la mine, şi asta vă face tare norocos", continuă optimist doctorul.
"Am avut deja nouă pacienţi ce au avut aceeaşi boală şi toţi au murit, aşa că... veţi supravieţui!"
(2) Date de tip continuu: Dacă datele statistice sunt realizări ale unei variabile Z de tip continuu,
atunci se obişnuieste să se facă o grupare a datelor de selecţie în clase. Datele de tip continuu pot
fi grupate într-un tablou de distribuţie sau sub forma unui tabel de distribuţie, dupa cum urmeaza:
clasa frecvenţa valoare medie
[a0 , a1 ) f1 z01
[a1 , a2 ) f2 z02
.. .. ..
data [a0 , a1 ) [a1 , a2 ) ... [ar−1 , ar ) . . .
frecventa f1 f2 ... fr [ar−1 , ar ) fr z0r

Tabela 2.3: Tabel cu frecvenţe pentru


date de tip continuu.
În particular, putem grupa datele de tip continuu din Tabelul 2.1 în tabloul de distribuţie următor:

data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)


frecventa 14 17 21 18 16 14

Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot fi modificate dupa cum doreste
utilizatorul. Uneori, tabelul de distribuţie pentru o caracteristică de tip continuu mai poate fi scris
şi sub forma unui tabel ca in (2.5.2), unde
ai−1 + ai
• z0i = este elementul de mijloc al clasei [ai−1 , ai );
2
r
• fi este frecvenţa apariţiei valorilor din [ai−1 , ai ), (i = 1, 2, . . . , r), ∑ fi = n.
i=1
Pentru definirea claselor unui tabel de frecvenţe, nu există o regulă precisă. Fiecare utilizator
de date îşi poate crea propriul tabel de frecvenţe. Scopul final este ca acest tabel să scoată în
evidenţă caracteristicele datelor, cum ar fi: existenţa unor grupe (clase) naturale, variabilitatea
datelor într-un anumit grup (clasă), informaţii legate de existenţa unor anumite date statistice care
nu au fost observate in selecţia dată etc. În general, aceste caracteristici nu ar putea fi observate
privind direct setul de date negrupate. Totuşi, pentru crearea tabelelor de frecvenţe, se recomandă
următorii paşi:
1. Determinarea numărului de clase (disjuncte). Este recomandat ca numărul claselor să fie
între 5 şi 20. Dacă volumul datelor este mic (e.g., n < 30), se recomandă constituirea a 5
sau 6 clase. De asemenea, dacă este posibil, ar fi util ca fiecare clasă să fie reprezentată de
cel puţin 5 valori (pentru un număr mic de clase). Dacă numărul claselor este mai mare,
putem avea şi mai puţine date într-o clasă, dar nu mai puţin de 3. O clasă cu prea puţine
valori (0, 1 sau 2) poate să nu fie reprezentativă.
2. Determinarea lăţimii claselor. Dacă este posibil, ar fi bine dacă toate clasele ar avea aceeaşi
lăţime. Acest pas depinde, în mare măsuraă, de alegerea din pasul anterior.
3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât fiecare
dată statistică să aparţine unei singure clase.
20 Capitolul 2. Elemente de Statistică

vârsta frecvenţa frecvenţa relativă frecvenţa cumulată vârsta medie


[18, 25) 34 8.83% 8.83% 21.5
[25, 35) 76 19.74% 28.57% 30
[35, 45) 124 32.21% 60.78% 40
[45, 55) 87 22.60% 83.38% 50
[55, 65) 64 16.62% 100.00% 60
Total 385 100% - -

Tabela 2.4: Tabel cu frecvenţe pentru rata somajului.

În practică, un tabel de frecvenţe se realizează prin încercări, până avem convingerea că gruparea
făcută poate surprinde cât mai fidel datele observate.
Aşadar, dacă ne este dată o înşiruire de date ale unei caracteristici discrete sau continue, atunci
le putem grupa imediat în tabele sau tablouri de frecvenţe. Invers (avem tabelul sau tabloul de
repartiţie şi vrem să enumerăm datele) nu este posibil, decât doar în cazul unei caracteristici de tip
discret. De exemplu, dacă ni se dă Tabelul 2.4, ce reprezintă rata somajului într-o anumită regiune
a ţării pe categorii de vârste, nu am putea şti cu exactitate vârsta exactă a persoanelor care au fost
selecţionate pentru studiu.
Observăm că acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi
valoare de mijloc pentru o clasă, valoarea obţinută prin media valorilor extreme ale clasei. În
cazul Tabelului 2.4, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenţa cumulată
a unei clase este suma frecvenţelor tuturor claselor cu valori mai mici.

2.6 Reprezentarea datelor statistice


Un tabel de frecvenţe sau o distribuţie de frecvenţe (absolute sau relative) sunt de cele mai multe
ori baza unor reprezentări grafice, pentru o mai bună vizualizare a datelor. Aceste reprezentări pot
fi făcute în diferite moduri, dintre care amintim pe cele mai uzuale.

2.6.1 Reprezentare prin puncte


Reprezentarea prin puncte (en., dot plot)
este folosită, de regula, pentru selecţii de
date de tip discret de dimensiuni mici. Sunt
reprezentate puncte aşezate unul peste celalalt,
reprezentând numărul de apariţii ale unei
valori pentru caracteristica dată. Un astfel
de grafic este reprezentat în Figura 2.1.
Aceste reprezentări sunt utile atunci când
se doreşte scoaterea în evidenţă a anumitor
pâlcuri de date (en., clusters) sau chiar lipsa
unor date (goluri). Au avantajul de a con-
serva valoarea numerică a datelor reprezentate.
Figura 2.1: Reprezentarea prin puncte.
2.6 Reprezentarea datelor statistice 21

2.6.2 Reprezentarea stem-and-leaf


Este folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic. Următorul
set de date negrupate reprezinta punctajele (din 100 de puncte) obţinute de cei 20 de elevi ai unui
an de studiu la o testare semestrială:
50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96
Tabelul 2.3 reprezintă aceste date sub forma stem-and-leaf (ramură-frunză). Se observă că acest
tabel arată atât cum sunt repartizate datele, cât şi forma repartiţiei lor (a se privi graficul că având
pe OY drept axa absciselor şi OX pe cea a ordonatelor). Aşadar, 7|5 semnifică un punctaj de
75. Pentru un volum prea mare de date, această reprezentare nu este cea mai bună metodă de
vizualizare a datelor. În secţiunile următoare vom prezenta şi alte metode utile.
stem leaf
10
9 26
8 1568
7 357779
6 122488
5 0359
4 148
3 49
2
1 8
0

Figura 2.3: Tabel stem-and-leaf reprezentând


Figura 2.2: Reprezentarea datelor discrete. punctajele studenţilor.

2.6.3 Reprezentarea cu bare (bar charts)


Este utilă pentru reprezentarea variabilelor discrete cu un număr mic de valori diferite. Barele sunt
dreptunghiuri ce reprezintă frecvenţele şi nu sunt unite între ele. Fiecare dreptunghi reprezintă
o singură valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regulă, pe orizontală
iar frecvenţele pe verticală. În Figura 2.41 sunt reprezentate datele din tabelul cu note. Se poate
schimba orientarea categoriilor şi a claselor; în acest caz barele vor apărea pe orizontală (vezi
Figura 2.42 ). Figura 2.5 contine o reprezentare de date folosind bare 3D.
22 Capitolul 2. Elemente de Statistică

Figura 2.4: Reprezentările cu bare.

Figura 2.5: Reprezentare 3D prin bare.

2.6.4 Histograme
Cuvântul "histogramă" a fost introdus pentru prima oară de Karl Pearson2 în 1895. Acesta derivă
din cuvintele greceşti histos (gr., ridicat în sus) şi gramma (gr., desen, înregistrare). O histogramă
este o formă pictorială a unui tabel de frecvenţe, foarte utilă pentru selecţii mari de date de tip
continuu. Se aseamănă cu reprezentarea prin bare, cu următoarele două diferenţe: nu există spaţii
între bare (deşi, pot apărea bare de înalţime zero ce arată a fi spaţiu liber) şi ariile barelor sunt
proporţionale cu frecvenţele corespunzătoare. Numărul de dreptunghiuri este egal cu numărul
de clase, lăţimea dreptunghiului este intervalul clasei, iar înălţimea este aşa încât aria fiecărui
dreptunghi reprezintă frecvenţa. Aria totală a tuturor dreptunghiurilor este egală cu numărul total
de observaţii. Dacă barele unei histograme au toate aceeaşi lăţime, atunci înălţimile lor sunt
proporţionale cu frecvenţele. Înălţimile barelor unei histogramei se mai numesc şi densităţi de
frecvenţă.
În cazul în care lăţimile barelor nu sunt toate egale, atunci înălţimile lor satisfac:

frecvenţa
înălţimea = k · , k = factor de proporţionalitate.
lăţimea clasei

Să presupunem că am fi grupat datele din Tabelul 2.5 într-o altă manieră, în care clasele nu sunt
echidistante (vezi Tabelul 2.7). În Tabelul 2.7, datele din ultimele două clase au fost cumulate
într-o singură clasă, de lăţime mai mare decât celelalte, deoarece ultima clasă din Tabelul 2.5
nu avea suficiente date. Histograma ce reprezintă datele din Tabelul 2.7 este cea din Figura 2.8.
Conform cu regula proporţionalităţii ariilor cu frecvenţele, se poate observa că primele patru bare
au înălţimi egale cu frecvenţele corespunzătoare, pe când înălţimea ultimei bare este jumătate din
valoarea frecvenţei corespunzătoare, deoarece lăţimea acesteia este dublul lăţimii celorlalte.

2 Karl Pearson (1857 − 1936), statistician, avocat şi eugenist britanic


2.6 Reprezentarea datelor statistice 23

Înălţimea (în cm) frecvenţa


[0, 5) 5
[5, 10) 13
[10, 15) 23
[15, 20) 17
[20, 25) 10
[25, 30) 2

Tabela 2.5: Tabel cu înălţimile plantelor

Tabela 2.6: Histograme pentru datele din Tabelul 2.5

În general, pentru a construi o histogramă,


vom avea în vedere următoarele:
− datele vor fi împărţite (unde este posibil)
în clase de lungimi egale. Uneori aceste
divizări sunt naturale, alteori va trebui să
le fabricăm.
− numărul de clase este, în general, între
5 şi 20.
− înregistraţi numărul de date ce cad în
fiecare clasă (numite frecvenţe).
− figura ce conţine histograma va avea
clasele pe orizontală şi frecvenţele pe ver-
ticală. Figura 2.6: Histogramă 3D
Observaţia 2.1 (1) Dacă lungimea unei clase este infinită (e.g., ultima clasă din Tabelul 2.7
este [20, ∞)), atunci se obişnuieşte ca lăţimea ultimului interval să fie luată drept dublul lăţimii
intervalului precedent.
(2) În multe situaţii, capetele intervalelor claselor sunt nişte aproximări, iar în locul acestora vom
putea utiliza alte valori. Spre exemplu, să considerăm clasa [15, 20). Această clasă reprezintă clasa
acelor plante ce au înălţimea cuprinsă între 15cm şi 20cm. Deoarece valorile înălţimilor sunt valori
reale, valorile 15 şi 20 sunt, de fapt, aproximările acestor valori la cel mai apropiat întreg. Aşadar,
este posibil ca această clasă să conţină acele plante ce au înălţimile situate între 14.5cm (inclusiv)
şi 20.5cm (exclusiv). Am putea face referire la aceste valori ca fiind valorile reale ale clasei,
numite frontierele clasei. În cazul în care am determinat frontierele clasei, lăţimea unei clase se
defineşte ca fiind diferenţa între frontierele ce-i corespund. În concluzie, în cazul clasei [15, 20),
aceasta are frontierele 14.5 - 20.5, lăţimea 6 şi densitatea de frecvenţă 17 6 . Pentru exemplificare, în
Tabelul 2.9 am prezentat frontierele claselor, lăţimile lor şi densităţile de frecvenţă pentru datele
din Tabelul 2.4.

2.6.5 Reprezentare prin sectoare de disc (pie charts)


Se poate reprezenta distribuţia unei caracteristici şi folosind sectoare de disc (diagrame circulare)
(en., pie charts), fiecare sector de disc reprezentând câte o frecvenţă relativă. Această variantă
24 Capitolul 2. Elemente de Statistică

Înălţimea (în cm) frecvenţa


[0, 5) 5
[5, 10) 13
[10, 15) 23
[15, 20) 17
[20, 30) 12

Tabela 2.7: Tabel cu înălţimile plantelor

Tabela 2.8: Histograme pentru datele din Tabelul 2.7

înălţimea (în cm) frontierele lăţimea frecvenţa densitatea de frecvenţă


[18, 25) 17.5 − 25.5 8 34 4.25
[25, 35) 24.5 − 35.5 11 76 6.91
[35, 45) 34.5 − 45.5 11 124 11.27
[45, 55) 44.5 − 55.5 11 87 7.91
[55, 65) 54.5 − 65.5 11 64 5.82

Tabela 2.9: Tabel cu frontierele claselor.

este utilă în special la reprezentarea datelor calitative.


Există şi posibilitatea de a reprezenta datele prin sectoare 3 dimensionale. În Figura 2.8 am
reprezentat datele din Tabelul 2.4.

Figura 2.8: Reprezentare pe disc 3D


Figura 2.7: Reprezentarea pe disc a frecvenţelor
relative ale notelor din tabelul cu note
2.6 Reprezentarea datelor statistice 25

2.6.6 Poligonul frecvenţelor

Un poligon de frecvenţă este similar cu o reprezentare


cu bare, dar în loc să folosească barele, se creează
un poligon prin trasarea frecvenţelor şi conectarea
acestor puncte cu o serie de segmente.

Figura 2.9: Exemplu de polygon al


frecvenţelor

2.6.7 Ogive

Pentru frecventele cumulate pot fi folosite ogive. O


ogivă reprezintă graficul unei frecvenţe cumulate
(absolută sau relativă).

Figura 2.10: Ogivă pentru frecvenţele


absolute cumulate din Tabelul 2.2

2.6.8 Diagrama Q-Q sau diagrama P-P

Q-Q plot (diagrama cuantila-cuantila) si P-P plot


(diagrama probabilitate-probabilitate) sunt utili-
zate in a determina apropierea dintre doua seturi
de date (repartitii). Daca datele provin dintr-o
acceasi repartitie, atunci ele se aliniaza dupa o
dreapta desenata in figura. Diagrama Q-Q este
bazata pe rangurile valorilor, iar diagrama P-P
este bazata pe functiile de repartitie empirice.
Figura 2.11: Exemplu de diagrama Q-Q plot
26 Capitolul 2. Elemente de Statistică

2.6.9 Diagrama scatter plot

Dacă (xk , yk ), k ∈ {1, 2, . . . , n} este un set de date


bidimensionale, ce reprezintă observaţii asupra vec-
torului aleator (X, Y ), atunci o măsură a legăturii
dintre variabilele X şi Y este coeficientul de corela-
ţie empiric introdus de K. Pearson. Primul pas în
analiza regresională este vizualizarea datelor. Pen-
tru aceasta se foloseşte reprezentarea scatter plot.
Figura 2.12: Exemplu de scatter plot

2.7 Măsuri descriptive ale datelor statistice (indicatori statistici)


Să considerăm o populaţie statistică de volum N şi o caracteristică a sa, Z, ce are funcţia de
repartiţie F. Asupra acestei caracteristici facem n observaţii, în urma cărora obţinem un set de
date statistice. După cum am văzut anterior, datele statistice pot fi prezentate într-o formă grupată
(descrise prin tabele de frecvenţe) sau pot fi negrupate, exact aşa cum au fost culese în urma
observărilor. Pentru analiza acestora, pot fi utilizate diverse tehnici de organizare şi reprezentare
grafică a datelor statistice însă, de cele mai multe ori, aceste metode nu sunt suficiente pentru o
analiză detaliată. Suntem interesaţi în a atribui acestor date anumite valori numerice reprezentative.
Pot fi definite mai multe tipuri de astfel de valori numerice, e.g., măsuri ale tendinţei centrale
(media, modul, mediana), măsuri ale dispersiei (dispersia, deviaţia standard), măsuri de poziţie
(cuantile, distanţa intercuantilică) etc. În acest capitol, vom introduce diverse măsuri descriptive
numerice, atât pentru datele grupate, cât şi pentru cele negrupate.

2.7.1 Date negrupate


Considerăm un set de date statistice negrupate, z1 , z2 , . . . , zn (zi ∈ R, i = 1, 2 . . . , n, n ≤ N), ce
corespund unor observaţii făcute asupra variabilei Z. Pe baza acestor observatii, definim următorii
indici statistici, in scopul de a estima parametrii reali ai caracteristicilor populatiei. Printr-un
estimator pentru un parametru al populatiei intelegem o statistica alecarei valori se apropie foarte
mult de valoarea parametrului atunci cand volumul selectiei este suficient de mare. Deoarece ele
se bazeaza doar pe observatiile culese, acesti indici statistici se mai numesc si masuri empirice.
• Valoarea medie
Este o măsură a tendinţei centrale a datelor. Pentru o selecţie {z1 , z2 , . . . , zn }, definim:

1 n
z= ∑ zi,
n i=1

ca fiind media datelor observate. Aceasta medie empirica este un estimator pentru media
teoretica, µ = EZ, daca aceasta exista.

• Pentru fiecare i, cantitatea di = zi − z se numeşte deviaţia valorii zi de la medie. Aceasta nu


2.7 Măsuri descriptive ale datelor statistice (indicatori statistici) 27

poate fi definită ca o măsură a gradului de împrăştiere a datelor, deoarece


n
∑ (zi − z) = 0.
i=1

• Momentele
Pentru fiecare k ∈ N∗ , momentele centrate de ordin k se definesc astfel:

1 n
mk = ∑ (zi − z)k .
n i=1

• Dispersia
Aceasta este o măsură a gradului de împrăştiere a datelor în jurul valorii medii. Este un
estimator pentru dispersia populatiei. Pentru o selecţie {z1 , z2 , . . . , zn }, definim dispersia
astfel: !
n n
1 1
s2 = m2 = ∑ (zi − z)2 = [ ∑ z2i − n(z)2 ] .
n − 1 i=1 n − 1 i=1

Faptul ca apare n − 1 la numitor face ca aceasta masura empirica sa estimeze dispersia


teoretica fara deplasare, in sensul ca valoarea medie a lui s2 este chiar σ 2 . Acest fapt nu ar
mai fi fost valabil daca in loc de n − 1 ar fi fost n.
• Deviaţia standard
Este tot o măsură a împrăştierii datelor în jurul valorii medii, care estimeaza parametrul σ .
Pentru o selecţie {z1 , z2 , . . . , zn }, definim deviaţia standard:
s
1 n
s= ∑ (zi − z)2.
n − 1 i=1

• Coeficientul de variaţie (sau de dispersie)


Aceste coeficient (de obicei, exprimat în procente) este util atunci când comparăm două
repartiţii având unităţi de măsură diferite. Nu este folosit atunci când z sau µ este foarte
mic. Pentru doua populatii care au aceeasi deviatie standard, gradul de variatie a datelor
este mai mare pentru populatie ce are media mai mica.
s
cv = .
z
• Amplitudinea (plaja de valori, range)
Pentru un set de date, amplitudinea (en., range) este definită ca fiind diferenţa dintre valoarea
cea mai mare şi valoarea cea mai mică a datelor, i.e., a = zmax − zmin .
• Scorul ζ
Este numărul deviaţiilor standard pe care o anumită observaţie, z, le are sub sau deasupra
mediei. Pentru o selecţie {z1 , z2 , . . . , zn }, scorul Z este definit astfel:

z−z
ζ= .
s
• Corelaţia (covarianţa)
28 Capitolul 2. Elemente de Statistică

Presupunem acum ca avem doua variabile de interes relative la o populatie statistica, Z1


şi Z2 , pentru care avem n perechi de observaţii, (z1 , z01 ), (z2 , z02 ), . . . , (zn , z0n ). Definim
corelaţia (covarianţa):

1 n
cove = ∑ (zi − z)(z0i − z0).
n − 1 i=1
(2.7.3)

In cazul în care lucrăm cu mai multe variabile şi pot exista confuzii, vom nota covarianţa
prin cove (Z1 , Z2 ). Daca Z1 si Z2 coincid, sa spunem ca Z1 = Z2 = Z, atunci cove (Z, Z) = s2 .
O relaţie liniară între două variabile este acea relaţie ce poate fi reprezentată cel mai bine
printr-o linie. Corelaţia detectează doar dependenţe liniare între două variabile aleatoare.
Putem avea o corelaţie pozitivă, însemnând că Z1 şi Z2 cresc sau descresc împreună (pentru
cove > 0), sau o corelaţie negativă, însemnând că Z1 şi Z2 se modifică în direcţii opuse
(pentru cove < 0). În cazul în care cove = 0, putem banui ca variabilele nu sunt corelate.
• Coeficientul de corelaţie
cove
r= .
sx sy
In cazul în care lucrăm cu mai multe variabile şi pot exista confuzii, vom nota coeficientul
de corelaţie prin r(Z1 , Z2 ). La fel ca în cazul coeficientulul de corelaţie teoretic, r ia valori
între −1 şi 1. După cum vom vedea mai târziu, pe baza valorii lui r putem testa valoarea
reală aparametrului ρ (coeficientul teoretic de corelaţie, care reprezintă întreaga populaţie).
• Funcţia de repartiţie empirică
Se numeşte funcţie de repartiţie empirică asociată unei variabile aleatoare Z şi unei selecţii
{z1 , z2 , . . . , zn }, funcţia Fn∗ : R −→ [0, 1], definită prin

numărul observaţiilor mai mici au egale cu z


Fn∗ (z) = . (2.7.4)
n

Când volumul selectiei (n) este suficient de mare, funcţia de repartiţie empirică (Fn∗ (z))
aproximează funcţia de repartiţie teoretică F(z) (vezi Figura 2.13). Insa, pentru a stabili
exact daca ele sunt semnificativ apropiate, este nevoie de un test statistic.

Figura 2.13: Funcţia de repartiţie empirică şi funcţia de repartiţie teoretică pentru distribuţia normală.

• Coeficientul de asimetrie (en., skewness) este al treilea moment standardizat, care se


2.7 Măsuri descriptive ale datelor statistice (indicatori statistici) 29

defineşte prin
n

µ3
1
n ∑ (zi − z)3
i=1
g1 = =" #3/2 .
s3 n
1
n−1 ∑ (zi − z)2
i=1
Putem spera ca o repartiţie să fie simetrică dacă g1 este foarte apropiat de valoarea 0. Vom
spune că asimetria este pozitivă (sau la dreapta) dacă g1 > 0 şi negativă (sau la stânga) dacă
g1 < 0. Coeficientul empiric de asimetrie g1 va fi utilizat în estimarea coeficientului teoretic
de asimetrie γ1 , care este un parametru al populaţiei.
• Excesul (coeficientul de aplatizare sau boltire) (en., kurtosis) se defineşte prin
n

µ4
1
n ∑ (zi − z)4
i=1
κ= = !2 .
s4 n
1
n ∑ (zi − z)2
i=1

Este o măsură a boltirii distribuţiei (al patrulea moment standardizat). Indicele kurtosis al
distribuţiei normale este egal cu 3. Vom avea o repartiţie mezocurtică pentru κ = 3 (sau
foarte apropiat de această valoare), leptocurtică (boltită) pentru κ > 3 sau platocurtică
pentru κ < 3. Un indice κ > 3 semnifică faptul că, în vecinătatea modului, curba densităţii
de repartiţie are o boltire (ascuţire) mai mare decât clopotul lui Gauss. Pentru κ < 3, în acea
vecinătate curba densităţii de repartiţie este mai plată decât curba lui Gauss. Coeficientul
empiric de aplatizare κ va fi utilizat în estimarea coeficientului teoretic de aplatizare K, care
este un parametru al populaţiei.
• Cuantile
Cuantilele (de ordin r) sunt valori ale unei variabile aleatoare care separă repartiţia ordonată
în r părţi egale. Aceste valori sunt estimari pentru cuantilele teoretice (parametrii). Vom
utiliza notatia cu litera mica pentru cuantilele empirice, pentru a le diferentia de parametrii
corespunzatori.
Pentru r = 2, cuantila ce imparte setul de date in doua clase cu acelasi numar de valori se
numeşte mediană (empirica), notată prin me.
Presupunem că observaţiile sunt ordonate, z1 < z2 < · · · < zn . Pentru această ordine, definim
valoarea mediană:
(
z , dacă n = impar;
me = (n+1)/2
(zn/2 + zn/2+1 )/2 , dacă n = par.
Pentru r = 4, cuantilele se numesc cuartile (sunt în număr de 3). Prima cuartilă, notată q1 ,
se numeşte cuartila inferioară, a doua cuartilă este mediana, iar ultima cuartilă, notată prin
q3 , se numeşte cuartila superioară. Diferenţa q3 − q1 se numeşte distanţa intercuartilică.
Pentru r = 10 se numesc decile (sunt în număr de 9), pentru r = 100 se numesc percentile
(sunt în număr de 99), pentru r = 1000 se numesc permile (sunt în număr de 999). Sunt
măsuri de poziţie, ce măsoară locaţia unei anumite observaţii faţă de restul datelor.
• Modul
Modul (sau valoarea modală) este acea valoare z∗ din setul de date care apare cel mai des
(adica are frecventa cea mai mare). Un set de date poate avea mai multe module. Dacă apar
30 Capitolul 2. Elemente de Statistică

două astfel de valori, atunci vom spune că setul de date este bimodal, pentru trei astfel de
valori avem un set de date trimodal etc. În cazul în care toate valorile au aceeaşi frecvenţă
de apariţie, atunci spunem că nu există mod. De exemplu, setul de date
1 3 5 6 3 2 1 4 4 6 2 5
nu admite valoare modală. Nu există un simbol care să noteze distinctiv modul unui set de
date.
• Valori aberante (en. outliers)
Dupa cum am vazut anterior, teorema lui Cebâşev ne asigura ca probabilitatea ca o data
observata sa devieze de la medie cu mai mult de k deviatii standard este mai mica decat k12 .
Valorile aberante sunt valori statistice observate care sunt îndepărtate de marea majoritate a
celorlalte observaţii. Ele pot apărea din cauza unor măsurători defectuoase sau în urma unor
erori de măsurare. De cele mai multe ori, ele vor fi excluse din analiza statistică. Din punct
de vedere matematic, valorile aberante sunt valorile ce nu aparţin intervalului următor:

[q1 − 1.5 iqr, q3 + 1.5 iqr],

unde iqr = q3 − q1 este distanţa intercuartilică. Daca valoarea 1.5 se inlocuieste cu 3, atunci
orice valoare care iese din acest interval se va numi valoare aberanta extrema.
• Sinteza prin cele cinci valori statistice (five number summary)
Reprezintă cinci măsuri statistice empirice caracteristice unui set de date statistice. Acestea
sunt:

valoarea minimă < prima cuartilă (q1 ) < mediana (me) < a treia cuartilă (q3 ) < valoarea maximă

Aceşti cinci indicatori pot fi reprezentaţi grafic într-o diagramă numită box-and-whiskers plot.
Datele din Tabelul 2.4 sunt reprezentate în prima figură de mai jos prin două diagrame box-and-
whiskers. În prima diagramă (numerotată cu 1) am folosit datele negrupate; în a doua diagramă
am folosit reprezentarea datelor din acelaşi tabel prin centrele claselor. Reprezentările sunt cele
clasice, cu dreptunghiuri. Valorile aberante sunt reprezentate prin puncte în diagrama box-and-
whisker plot.

vârsta f. abs. f. rel. f. cum. mijlocul clasei


[18, 25) 34 8.83% 8.83% 21.5
[25, 35) 76 19.74% 28.57% 30
[35, 45) 124 32.21% 60.78% 40
[45, 55) 87 22.60% 83.38% 50
[55, 65) 64 16.62% 100.00% 60
Total 385 100% - -

Tabela 2.10: Tabel cu frecvenţe.


Figura 2.14: Box-an-whiskers plot pentru
datele din Tabelul 2.10
2.7 Măsuri descriptive ale datelor statistice (indicatori statistici) 31

În Figura 2.15, am reprezentat prin box-and-


whiskers un set de date discrete ce conţine
două valori aberante. Aici dreptunghiul a fost
crestat (notched box-and whisker plot); lungimea
crestăturii oferind un interval de încredere pentru
mediană. Valorile aberante sunt reprezentate in
figura prin puncte in afara range-ului datelor.

Figura 2.15: Box-an-whisker plot pentru un set


de date discrete
parametru indicator statistic (estimator)
caracterizeaza populatia format cu date de selectie
µ − media m
2
σ − dispersia s2
σ − deviatia standard s
Tabelul 2.11 contine cativa para- CV − coef. de variatie cv
metri uzuali ce caracterizeaza o cov− covarianta cove
populatie, alaturi de estimatorii ρ − corelatia r
corespunzatori. γ1 − skewness g1
K − kurtosis κ
Qi − cuantile qi
Me − mediana me
F(z) − fct. de repartitie Fn∗ (z)

Tabela 2.11: Tabel cu parametri şi estimatorii săi


Exerciţiu 2.1 Următorul set de date reprezintă preţurile (în mii de euro) a 20 de case, vândute
într-o anumită regiune a unui oraş:
113 60.5 340.5 130 79 475.5 90 100 175.5 100
111.5 525 50 122.5 125.5 75 150 89 100 70
(a) Determinaţi amplitudinea, media, mediana, modul, deviatia standard, cuartilele şi distanţa
intercuartilică pentru aceste date. Care valoare este cea mai reprezentativă?
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?
(c) Calculaţi coeficientii de asimetrie si de aplatizare.
Rezolvare Rearanjăm datele în ordine crescătoare:
50 60.5 70 75 79 89 90 100 100 100 111.5
113.5 122.5 125.5 130 150 175.5 340.5 475.5 525
100 + 111.5
Amplitudinea datelor este 525 − 50 = 475, media lor este 154.15, mediana este =
2
79 + 89
105.75, modul este 100, cuartila inferioară este q1 = = 84, q2 = me, cuartila superioară
2
130 + 150
este q3 = = 140 şi distanţa intercuartilică este d = q3 − q1 = 56. Mediana este valoarea
2
cea mai reprezentativă în acest caz, deoarece cele mai mari trei preţuri, anume 340.5, 475.5, 525,
32 Capitolul 2. Elemente de Statistică

măresc media şi o fac mai puţin reprezentativă pentru celelalte date.

În cazul în care setul de date nu este simetric, valoarea


mediană este cea mai reprezentativă valoare a datelor.
Deviatia standard este
s
1 n
s= ∑ (zi − z)2 = 133.3141.
n − 1 i=1

Folosind formulele, gasim ca g1 = 1.9598 (asimetrie


la dreapta) si κ = 5.4684 (boltire pronuntata). Valo-
rile aberante sunt cele ce se afla in afara intervalului
[q1 − 1.5(q3 − q1 ), q3 + 1.5(q3 − q1 )] = [0, 178]. Se ob-
serva ca valorile {340.5, 475.5, 525} sunt valori aberante,

reprezentate prin puncte in figura alaturata.
Figura 2.16: Box-an-whisker plot
pentru datele din Exerciţiul 2.1

2.7.2 Date grupate


Considerăm un set de date statistice grupate (de volum n), ce reprezinta observaţii asupra variabilei
Z.
Pentru o selecţie cu valorile de mijloc {z1 , z2 , . . . , zr } şi frecvenţele absolute corespunzătoare,
r
{ f1 , f2 , . . . , fr }, cu ∑ fi = n, definim:
i=1

1 r
z̄ f = ∑ zi fi , media (empirică) de selecţie, (sau, media ponderată)
n i=1
!
r r
1 1
s2 = ∑ fi(zi − z f )2 = n − 1 ∑ z2i fi − n z2f , dispersia empirică,
n − 1 i=1 i=1

s = s2 , deviaţia empirică standard.
Mediana pentru un set de date grupate este acea valoare ce separă toate datele în două părţi egale.
Se determină mai întâi clasa ce conţine mediana (numită clasă mediană), apoi presupunem că în
interiorul fiecărei clase datele sunt uniform distribuite. O formulă după care se calculează mediana
este: n
− Fme
me = l + 2 c,
fme
unde: l este limita inferioară a clasei mediane, n este volumul selecţiei, Fme este suma frecvenţelor
până la (exclusiv) clasa mediană, fme este frecvenţa clasei mediane şi c este lăţimea clasei.
Similar, formulele pentru cuartile sunt:
n 3n
4− Fq1 4 − Fq3
q1 = l1 + c şi q3 = l3 + ,
fq1 f q3
unde l1 si l3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, iar Fq
este suma frecvenţelor până la (exclusiv) clasa ce contine cuartila, fq este frecvenţa clasei unde se
gaseste cuartila.
2.7 Măsuri descriptive ale datelor statistice (indicatori statistici) 33

Pentru a afla modul unui set de date grupate, determinăm mai întâi clasa ce conţine această valoare
(clasă modală), iar modul va fi calculat după formula:
d1
mod = l + c,
d1 + d2
unde d1 şi d2 sunt frecvenţa clasei modale minus frecvenţa clasei anterioare şi, respectiv, frecvenţa
clasei modale minus frecvenţa clasei posterioare, l este limita inferioară a clasei modale şi c este
lăţimea clasei modale.
Exerciţiu 2.2 Datele din Tabelul 2.12 reprezinta inaltimile (in cm) pentru o selectie de 70 de
plante dintr-o anumita regiune.
(a) Reprezentati datele printr-o histograma.
(b) Folosind formulele pentru indicatori statistici pentru date grupate, determinaţi amplitudinea,
media, mediana, modul, dispersia si distanta intercuartilică.
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?
Soluţie: Amplitudinea este A = 30. Folosind centrele claselor, media este
1
z = (1.52 × 5 + 4.52 × 9 + 7.52 × 8 + 10.52 × 14 + 13.52 × 15 +
100
+16.52 × 19 + 19.52 × 15 + 22.52 × 8 + 25.52 × 4 + 28.52 × 3) = 14.31.

Dispersia este:
1
s2 = ( (z2 · f ) − n · z2 )
n−1 ∑
1
= (1.52 × 5 + 4.52 × 9 + 7.52 × 8 + 10.52 × 14 + 13.52 × 15 + 16.52 × 19 +
69
+19.52 × 15 + 22.52 × 8 + 25.52 × 4 + 28.52 × 3 − 70 · 14.312 )
= 44.5191.

Înălţimea (în cm) frecvenţa


[0, 3) 5
[3, 6) 9
[6, 9) 8
[9, 12) 14
[12, 15) 15
[15, 18) 19
[18, 21) 15
[21, 24) 8
[24, 27) 4
[27, 30) 3
Figura 2.17: Histograma pentru datele din
Tabela 2.12: Tabel cu date de tip continuu
Tabelul 2.12.
Clasa mediană este clasa [12, 15), deoarece în clasele anterioare ([0, 3), [3, 6) şi [6, 9)) se află
5 + 9 + 8 + 14 = 36 date mai mici decât mediana, iar la dreapta clasei [12, 15) se afla 19 + 15 +
8 + 4 + 3 = 49 de date. Valoarea mediană este
50 − 36
Me = 12 + × 3 = 14.8.
15
34 Capitolul 2. Elemente de Statistică
4
Clasa modală este [15, 18), iar modul este Mo = 15 + 4+4 × 3 = 16.5.
n
− Fq1
Calculăm acum prima cuartilă dupa formula q1 = l1 + 4 . Clasa in care se gaseste prima
fq1
cuartila este [9, 12) (o valoare din acest interval va avea la stanga sa 100/4 = 25 dintre valorile
observate). Avem: Fq1 = 22, fq1 = 14, c = 3, de unde q1 = 9.6429.
Similar, clasa in care se gaseste a treia cuartila este [18, 21) (o valoare din acest interval va avea la
dreapta sa 100/4 = 25 dintre valori. Avem: Fq3 = 70, fq3 = 15, c = 3, de unde q3 = 19. Astfel,
distanta intercuartilica observata este iqr = q3 − q1 = 9.3571. √

Tabelul 2.13 reprezinta o sumarizare a statisticilor importante pentru aceste date:

Statistica valoarea parametrul estimat


Minimum 0.5 zmin
Maximum 29.5 zmax
Media 14.31 µ
Mediana 14.8 Me
Deviatia standard 6.6723 σ
Dispersia 44.5191 σ2
Skewness −0.0495 γ1
Kurtosis 2.4186 K
Numarul de observatii 100 n
χ 2 pentru testul de normalitate (cu 7 grade de libertate) 33.5440 −

Tabela 2.13: Statistici pentru datele din Tabelul 2.12

Valorile aberante sunt cele ce se afla in afara intervalului

[q1 −1.5(q3 −q1 ), q3 +1.5(q3 −q1 )] = [−5.2264, 34.1501]

Cum toate datele din tabel apartin acestui interval, nu


exista valori aberante, fapt care se observa si din Figura
2.18.

Figura 2.18: Box-an-whisker plot pentru


datele din Tabelul 2.12

2.8 Transformari de date


Uneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru a obtine
valori apropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilor observate
(folosind functiile ln sau log10 , daca valorile sunt toate pozitive), radacina patrata a valorilor, trans-
formarea logit, radacini de ordin superior etc. In Tabelul 2.14 am sugerat tipul de transformare ce
poate fi utilizat in functie de coeficientul de skewness γ1 .
2.8 Transformari de date 35

In ce conditii. . . skewness formula


date aproape simetrice −0.5 < γ1 < 0.5 nicio transformare

skewness moderat pozitiv, date nenegative 0.5 ≤ γ1 < 1 yi =
√ zi
skewness moderat pozitiv, exista date < 0 0.5 ≤ γ1 < 1 yi = √zi +C
skewness moderat negativ −1 < γ1 ≤ 0.5 yi = C − zi
skewness mare negativ γ1 ≤ −1 yi = ln(C − zi ) sau yi = log10 (C − zi )
skewness mare pozitiv, date pozitive γ1 ≥ 1 yi = ln zi sau yi = log10 zi
skewness mare pozitiv, exista date ≤ 0 γ1 ≥ 1 yi = ln(zi +C) sau yi = log10 (zi +C)

Tabela 2.14: Exemple de transformari de date statistice

unde C > 0 este o constanta ce poate fi determinata astfel incat datele transformate sa aiba
un skewness cat mai aproape de 0. Aceasta constanta va fi aleasa astfel incat functia ce face
transformarea este definita.
De exemplu, presupunem ca datele observate sunt z1 , z2 , . . . , zn si acestea nu sunt toate pozitive,
cu un coeficient de asimetrie (skewness) γ1 = 1.3495. Ne uitam la valoarea minima a datelor;
aceasta este zmin = −0.8464. Pentru a obtine un set de valori pozitive, vom adauga valoarea
1 la toate datele observate. Apoi, logaritmam valorile obtinute. Cele doua procedee cumulate
sunt echivalente cu folosirea directa a formulei ln(1 + zi ) (adunand valoarea 1, am facut toate
argumentele logaritmului pozitive). Obtinem astfel un nou set de date, si anume y1 , y2 , . . . , yn ,
unde yi = ln(1 + zi ). Un exemplu este cel din Figura 2.19. Se observa ca datele logaritmate sunt
aproape normale. O analiza statistica poate fi condusa pentru datele yi , urmand ca, eventual, la
final sa aplicam transformarea inversa zi = eyi − 1 pentru a transforma rezultatele pentru datele
initiale.

Figura 2.19: Datele intiale si datele logaritmate

Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor
in punctele neselectate), de multe ori este necesara transformarea inversa a datelor, pentru a
determina proprietatile datelor originale. De aceea, ar fi potrivit de a exprima indicatorii statistici
atat pentru datele transformate, cat si pentru datele originale. Un exemplu este cel din Tabelul
2.15.
36 Capitolul 2. Elemente de Statistică

Indicatorul datele originale datele tranformate


zi yi = ln(1 + zi )
Minimum −0.8464 −1.8734
Maximum 14.1107 2.7154
Media 6.02142 1.51
Cuartila Q1 3.1152 0.6532
Mediana 6.5200 1.2512
Cuartila Q3 8.7548 1.5785
Deviatia standard 5.2511 0.7524
Dispersia 27.5741 0.5661
Skewness 6.2322 0.0233
Kurtosis 78.6077 2.9786
Numarul de observatii 100 100
χ 2 pentru testul de normalitate (cu 7 grade de libertate) − 7.1445

Tabela 2.15: Indicatori pentru datele originale si pentru datele transformate 2.12
2.8 Transformari de date 37
3. Noţiuni teoretice de Statistică

3.1 Evenimente aleatoare


Numim experiment aleator (sau experienţă aleatoare) orice act cu rezultat incert, care poate
fi repetat în anumite condiţii date. Opusul noţiunii de experiment aleator este experimentul
determinist, semnificând un experiment ale cărui rezultate sunt complet determinate de condiţiile
în care acesta se desfăşoară. Rezultatul unui experiment aleator depinde de anumite circumstante
întâmplătoare ce pot aparea. Exemple de experienţe aleatoare: extragerea LOTO, aruncarea zarului,
observarea ratei infiltrarii apei in sol in diverse locatii dintr-o anumita regiune, determinarea
concentratiei de nutrienti in sol, observarea duratei de viaţă a unui individ, observarea vremii de a
doua zi, observarea numărului de apeluri telefonice recepţionate de o centrală telefonică într-un
timp dat etc.
Vom numi mulţime (sau spatiu) de selecţie asociat unui experiment mulţimea tuturor rezultatelor
posibile ale acelui experiment. Notam acasta multime cu Ω. Aplicarea experienţei asupra unei
colectivităţi date se numeşte probă. Vom numi eveniment aleator orice colecţie de rezultate
posibile asociate experimentului aleator. Vom numi eveniment aleator elementar (sau eveniment
aleator simplu) un eveniment aleator care are un singur rezultat posibil. Un eveniment aleator cu
mai mult de un rezultat posibil se va numi eveniment aleator compus.
Exemple de evenimente aleatoare: apariţia unei duble (6, 6) la aruncarea a două zaruri este un
eveniment aleator elementar, iar obţinerea unei duble la aruncarea a două zaruri este un eveniment
aleator compus.
Vom numi evenimentul sigur acel eveniment care se poate realiza în urma oricărei experienţe
aleatoare. Evenimentul sigur este, in fapt, chiar multimea de selectie Ω, ce este multimea tuturor
evenimentelor elementare. Prin eveniment imposibil intelegem acel eveniment ce nu se realizează
în nicio probă. Evenimentul imposibil asociat unei experiente aleatoare se noteaza prin ∅.
Se numeşte caz favorabil pentru evenimentul aleator un caz în care respectivul eveniment se
realizează macar intr-o proba a sa.
Evenimentele aleatoare le vom nota cu A, B, C, . . . . Prin A (care se citeste non A) vom nota
40 Capitolul 3. Noţiuni teoretice de Statistică

evenimentul complementar lui A, care se realizează atunci când A nu se realizează. Avem:


A = Ω \ A.

3.1.1 Operatii cu evenimente


Presupunem ca A si B sunt doua evenimente legate de un anumit experiment aleator. Putem defini
urmatoarele evenimente:
S
• evenimentul A B (citit A sau B) este evenimentul care se realizeaza ori de cate ori se
realizeaza cel putin unul dintre evenimentele A si B.
T
• evenimentul A B (citit A şi B) este evenimentul care se realizeaza ori de cate ori se
realizeaza simultan evenimentele A si B.
• evenimentul A \ B (citit A minus B) este evenimentul care se realizeaza ori de cate ori se
realizeaza A, dar nu se realizeaza B.

3.1.2 Relatii intre evenimente


• Notam prin A ⊂ B (citit A implică B) si spunem ca realizarea lui A implica realizarea lui B.
• Spunem ca A = B (citit A egal B) daca A ⊂ B si B ⊂ A.
• Spunem ca A si B sunt evenimente incompatibile daca ele nu se pot realiza simultan in nicio
T
proba. Scriem astfel: A B = ∅.
• Spunem ca A si B sunt evenimente compatibile daca ele se pot realiza simultan. Scriem
astfel: A B 6= ∅. De exemplu, la aruncarea unui zar, evenimentele A =evenimentul
T

aparitiei unui numar impar si B =evenimentul aparitiei unui numar prim sunt compatibile.
• Spunem ca A si B sunt evenimente echiprobabile daca ele au aceeasi sansa de realizare.
Spre exemplu, la aruncarea unei monede ideale, orice fata are aceeasi şansă de aparitie.

3.2 Probabilitate
Pentru a putea cuantifica şansele de realizare a unui eveniment aleator, s-a introdus noţiunea
de probabilitate. Presupunem că pentru un anume experiment, am construit spaţiul de selecţie
Ω. Atunci, fiecărui eveniment A în putem asocia un număr P(A), numit probabilitatea realizării
evenimentului A (sau, simplu, probabilitatea lui A), fiind o măsură precisă a şanselor ca A
să se realizeze. Probabilitatea este o valoare cuprinsa intotdeauna intre 0 si 1, cu P(∅) = 0
(probabilitatea ca evenimentul imposibil sa se realizeze este 0) si P(Ω) = 1 (probabilitatea ca
evenimentul sigur sa se realizeze este 1).
T S
Daca evenimentele A si B nu se pot realiza simultan (i.e., A B = ∅), atunci P(A B) = P(A) +
P(B). Daca A si B se pot realiza simultan, atunci P(A B) = P(A) + P(B) − P(A B).
S T

În literatura de specialitate, probabilitatea este definită în mai multe moduri: cu definiţia clasică
(apare pentru prima oară în lucrările lui P. S. Laplace1 ), folosind o abordare statistică (cu frecvenţe
relative), probabilitatea definită geometric, probabilitatea bayesiană (introdusă de Thomas Bayes2 )
sau utilizând definiţia axiomatică (Kolmogorov). Aici vom prezenta doar primele trei moduri.
(I) Probabilitatea clasică este definită doar pentru cazul în care experienţa aleatoare are un
număr finit de cazuri posibile şi echiprobabile (toate au aceeaşi şansă de a se realiza). În acest caz,
probabilitatea de realizare a unui eveniment A este
numarul cazurilor favorabile realizarii evenimentului
P(A) = .
numarul cazurilor egal posibile
1 Pierre-Simon, marquis de Laplace (1749 − 1827), matematician şi astronom francez
2 Thomas Bayes (1701 − 1761), statistician şi filosof englez
3.2 Probabilitate 41

De exemplu, dorim să determinăm probabilitatea obţinerii unei duble la o singură aruncare
a unei perechi de zaruri ideale. Mulţimea cazurilor posibile este mulţimea tuturor perechilor
{(i, j); i, j = 1, 6}, care are 36 de elemente. Mulţimea cazurilor favorabile este formată din adică
6 elemente, şi anume: {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}. Probabilitatea apariţiei unei
6
duble este P = 36 = 16 .
Sunt însă foarte multe cazuri în care definiţia clasică nu mai poate fi utilizată. Spre exemplu, în
cazul în care se cere probabilitatea ca, alegând la întâmplare un punct din pătratul [0, 1] × [0, 1],
acesta să se situeze deasupra primei bisectoare. În acest caz, atât numărul cazurilor posibile, cât şi
numărul cazurilor favorabile este infinit, făcând definiţia clasică a probabilităţii inutilizabilă.

(II) Probabilitatea definită statistic (probabilitate frecvenţială) exprimă probabilitatea cu ajutorul


frecvenţelor de realizare a unui eveniment într-un număr mare de experimente aleatoare realizate
în aceleaşi condiţii. Pentru a putea evalua această probabilitate, este necesară repetarea în aceleaşi
condiţii a experimentului legat de evenimentul aleator ce se doreşte a fi cuantificat.
Să considerăm o experienţă aleatoare (e.g., aruncarea unui zar) al cărei rezultat posibil este
evenimentul aleator A (e.g., apariţia feţei cu 6 puncte). Aceste experiment aleator îl putem
efectua de n ori în condiţii identice (spunem că efectuăm n probe ale experimentului), astfel încât
rezultatul unei probe să nu influenţeze rezultatul alteia (probe independente). Să notăm cu νn (A)
νn (A)
frecvenţa absolută de realizare a lui A în cele N probe independente. Raportul fn (A) =
n
se va numi frecvenţă relativă. Acest raport are intotdeauna valori intre 0 si 1. Mai mult, sirul
frecventelor relative { fn (A)}n∈N are limită şi aceasta este definită ca fiind probabilitatea de
realizare a evenimentului A, notată P(A). Aşadar, în cazul definiţiei statistice a probabilităţii,
probabilitatea unui eveniment A este

P(A) = lim fn (A),


n→∞

adica limită şirului frecvenţelor relative de producere a respectivului eveniment când numărul de
probe tinde la infinit.

(III) Probabilitate definită geometric Să presupunem că am dispune de un procedeu prin care
putem alege la întâmplare un punct dintr-un interval [a, b]. În plus, vom presupune că acest
procedeu ne asigură că nu există porţiuni privilegiate ale intervalului [a, b], i.e., oricare ar fi două
subintervale de aceeaşi lungime, este la fel de probabil ca punctul să cadă în oricare dintre aceste
intervale. Dacă am folosi de mai multe ori procedeul pentru a alege un număr mare de puncte,
acestea vor fi repartizate aproximativ uniform în [a, b], i.e., nu vor există puncte în vecinătatea
cărora punctul ales să cadă mai des, ori de câte ori este ales. De aici reiese că probabilitatea ca un
punct să cadă într-un subinterval al lui [a, b] este dependentă de lungimea acelui subinterval şi
nu de poziţia sa în interiorul lui [a, b]. Mai mult, aceasta este chiar proporţională cu lungimea
subintervalului. Se poate observa analogia cu experienţa alegerii dintr-un număr de cazuri egal
posibile.
Dacă [a, b] e mulţimea cazurilor egal posibile şi [c, d] ⊂ [a, b] este mulţimea cazurilor favorabile,
atunci probabilitatea ca punctul ales să cadă în [c, d] este
lungimea ([c, d]) d − c
P(A) = = .
lungimea ([a, b]) b − a

În particular, dacă z ∈ (c, d), atunci probabilitatea ca punctul ales aleator dintr-un interval să
42 Capitolul 3. Noţiuni teoretice de Statistică

coincidă cu un punct dinainte stabilit este zero şi, astfel, întrezărim posibilitatea teoretică ca un
eveniment să aibă probabilitatea nulă, fară ca el să fie evenimentul imposibil ∅.
Exemplu 3.1 Să presupunem că experimentul aleator constă în alegerea la întâmplare a unui
număr real din intervalul (0, 1), aşa încât fiecare punct din acest interval are aceeaşi şansă de a
fi ales. Dacă notăm cu Z v.a. care reprezintă numărul ales, atunci Z va urma repartiţia uniform
continuă U (0, 1). Notăm cu A evenimentul ca Z să nu ia valoarea 0.5. Matematic, scriem
evenimentul astfel:
A = {ω ∈ Ω; Z(ω) 6= 0.5} sau, prescurtat, {Z 6= 0.5}.
Atunci, P(A) = 1, dar A nu este evenimentul sigur, ci doar un eveniment aproape sigur. Practic,
este posibil ca, din mai multe probe independente ale experimentului, să obţinem valoarea 0.5.
În mod cu totul analog, dacă se alege la întâmplare şi în mod uniform un punct dintr-o regiune
planara R, astfel ca să nu existe puncte sau porţiuni privilegiate în aceasta regiune, atunci
R0
probabilitatea ca punctul să cadă în subregiunea R 0 ⊂ R este aria aria R .
În trei dimensiuni, o probabilitate similară este raportul a două volume: volumul mulţimii cazurilor
favorabile realizarii experimentului şi volumul mulţimii cazurilor egal posibile.

3.3 Variabile aleatoare


În general, rezultatul posibil al unui experiment aleator poate fi asociat unei valori reale, precizând
regula de asociere. O astfel de regulă de asociere se numeşte variabilă aleatoare (prescurtat, v.a.).
Se numeşte ”variabilă” deoarece poate lua valori diferite, se numeşte ”aleatoare” deoarece valorile
observate depind de rezultatele experimentului aleator, şi este "reală" deoarece valoarea numerică
este un număr real. Aşadar, din punct de vedere euristic, o variabilă aleatoare este o cantitate
ce poate avea orice valoare dintr-o multime data, fiecarei valori atribuindu-se o anumita pondere
(frecventa relativa). În viaţă de zi cu zi întâlnim numeroase astfel de funcţii, e.g., numerele ce
apar la extragerea loto, rezultatul masurarii fertilitatii solului in diverse locatii, numărul clienţilor
deserviţi la un anumit ghişeu într-o anumită perioadă, timpul de aşteptare a unei persoane într-o
staţie de autobuz până la sosirea acestuia, calificativele obţinute de elevii de clasa a IV-a la un test
de matematică etc.
De regula, variabilele aleatoare sunt notate cu litere de la sfârşitul alfabetului, X, Y, Z sau ξ , η, ζ
etc. Cum am mai precizat anterior, in acest material vom volosi notatia Z pentru o variabila (Z(x)
pentru o variabila spatiala) si z pentru realizarea sa (respectiv, z(x)).

Exemplu 3.2 Un exemplu simplu de variabila aleatoare este următorul. Considerăm experimentul
aleator al aruncării unei monede. Acest experiment poate avea doar două rezultate posibile, notate
S (stema) şi B (banul). Aşadar, spaţiul selecţiilor este Ω = {S, B}. Acestui experiment aleator
îi putem ataşa variabila aleatoare reală Z, care asociază feţei S valoarea 1 şi feţei B valoarea 0.
Matematic, scriem astfel: Z : Ω → R, Z(S) = 1, Z(B) = 0. Astfel, valorile 1 şi 0 pentru Z vor
indica faţa apărută la aruncarea monedei. O astfel de variabilă aleatoare se numeşte variabilă
aleatoare Bernoulli şi poate fi ataşată oricărui eveniment aleator ce are doar două rezultate posibile,
numite generic succes şi eşec.
Variabilele aleatoare (prescurtat v.a.) pot fi discrete sau continue. Variabilele aleatoare discrete
sunt cele care pot lua o mulţime finită sau cel mult numărabilă (adica, o multime care poate fi
numarata) de valori. O variabilă aleatoare se numeşte variabilă aleatoare continuă (sau de tip
continuu) dacă mulţimea tuturor valorilor sale este totalitatea numerelor dintr-un interval real
3.3 Variabile aleatoare 43

(posibil infinit) sau toate numerele dintr-o reuniune disjunctă de astfel de intervale, cu precizarea
că pentru orice posibilă valoare c, P(Z = c) = 0.
Exemple de v.a. discrete: numărul feţei apărute la aruncarea unui zar, numărul de apariţii ale unui
tramvai într-o staţie într-un anumit interval, numărul de insuccese apărute până la primul succes
etc. Din clasa v.a. de tip continuu amintim: timpul de aşteptare la un ghişeu până la servire, preţul
unui activ financiar într-o perioadă bine determinată.
Pentru a specifica o v.a. discretă, va trebui să enumerăm toate valorile posibile pe care aceasta le
poate lua, împreună cu probabilităţile corespunzatoare. Suma tuturor acestor probabilităţi va fi
întotdeauna egală cu 1, care este probabilitatea realizarii evenimentului sigur. Când se face referire
la repartiţia unei v.a. discrete, se înţelege modul în care probabilitatea totală 1 este distribuită
între toate posibilele valori ale variabilei aleatoare. Pentru o scriere compactă, adeseori unei v.a.
discrete i se atribuie următoarea reprezentare schematica:
tabelul de repartiţie
Z z1 z2 z3 ... zn
(3.3.1)
pk p1 p2 p3 ... zn
unde pk este probabilitatea cu care variabila Z ia valoarea zk (matematic, scriem pk = P(Z = zk ))
şi suma tuturor probabilităţilor corespunzătoare variabilei discrete este egală cu 1 (scriem ca
n
∑ pi = 1).
i=1
Exemplu 3.3
Presupunem că Z este v.a. ce reprezintă tabelul de repartiţie
numărul de puncte ce apare la aruncarea
unui zar ideal. Această variabila o putem Z 1 2 3 4 5 6
reprezenta schematic ca in tabelul alaturat. pk 1/6 1/6 1/6 1/6 1/6 1/6
Dacă Z este o v.a. discretă de forma (3.3.1), atunci definim funcţia de probabilitate (de frecvenţă)
(en., probability mass function) ataşată variabilei aleatoare discrete Z ca fiind o funcţie ce ata-
seaza fiecarei realizari ale unei variabile probabilitatea cu care aceasta realizare este observata.
Matematic, scriem ca
f (zi ) = pi , i ∈ {1, 2, . . . , n}.
În cuvinte, pentru fiecare posibilă valoare a unei v.a. discrete, funcţia de probabilitate ataşează
probabilitatea cu care Z ia această valoare. Funcţia de probabilitate este pentru o v.a. discreta ceea
ce o densitate de repartiţie este pentru o variabilă aleatoare continuă.
Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare intr-un
interval a chiar din R. Deoarece in aceste multimi exista o infinitate de valori, nu mai putem
defini o variabila aleatoare continua la fel ca in cazul discret, precizandu-i fiecare valoare pe care
o ia si ponderea corespunzatoare. In schimb, pentru o variabila aleatoare continua, putem preciza
multimea in care aceasta ia valori si o functie care sa descrie repartizarea acestor valori. O astfel
de functie se numeste functie de densitate a repartitiei, sau simplu, densitate de repartiţie (en.,
probability density function).
Exemplu 3.4 Vom spune că o variabila aleatoare Z are o repartitie (sau distributie) normala de
medie µ şi deviatie standard σ (notam aceasta prin Z ∼ N (µ, σ )) dacă Z poate lua orice valoare
reala si are densitatea de repartitie data de:
1 (x−µ)2

f (x; µ, σ ) = √ e 2σ 2 , pentro orice x ∈ R.
σ 2π
44 Capitolul 3. Noţiuni teoretice de Statistică

Aceasta repartitie se mai numeşte şi repartiţia gaussiană sau distribuţia gaussiană.
Funcţia de probabilitate sau densitatea de repartiţie poate depinde de unul sau mai mulţi parametri
reali. Spre exemplu, repartitia normala are doi parametri, µ si σ .

3.3.1 Funcţia de repartiţie (sau funcţia de repartiţie cumulată)


Numim funcţie de repartiţie ataşată v.a reale Z o funcţie F : R → [0, 1], definită prin
F(z) = P(Z ≤ z), pentru orice x ∈ R.
Termenul din engleză pentru funcţia de repartiţie este cumulative distribution function (cdf).
Functia de repartitie asociaza fiecarei valori reale z probabilitatea cu care variabila Z ia valori mai
mici sau egale cu z. Ea este o functie crescatoare, care ia valori intre 0 si 1.
În cazul unei variabile aleatoare discrete, cu tabelul de repartiţie dat de (3.3.1), funcţia de repartiţie
este:
F(z) = ∑ pi , (3.3.2)
{i; zi ≤z}

adică suma tuturor probabilităţilor corespunzătoare valorilor lui Z care nu-l depăşesc pe z.
Dacă Z este o variabilă aleatoare continuă şi f este densitatea sa de repartiţie, atunci funcţia de
repartiţie este dată de formula:
Zz
F(z) = f (t) dt, z ∈ R. (3.3.3)
−∞

Mai mult, F 0 (z) = f (z), pentru orice z ∈ R.

3.3.2 Caracteristici numerice ale unei variabile aleatoare (parametri)


O colectivitate statistica poate fi descrisa folosind una sau mai multe variabile. Pentru fiecare
dintre aceste variabile se pot determina anumite cantitati sau calitati specifice, numite parametri.
Astfel, acesti parametri sunt niste trasaturi caracteristice colectivitatii, ce pot fi determinate sau
estimate pe baza unor masuratori (observatii) ale variabilelor. In continuare vom prezenta cativa
parametri numerici importanti pentru o variabila aleatoare, folositi in analiza statistica. Vom
denumi acesti parametri caracteristici numerice ale unei variabile aleatoare.
Media (sau valoarea aşteptată)
(en., expected value; fr., espérance; ger., Erwartungswert)
Pentru o variabila, media este o masura a tendintei centrale a valorilor sale. De remarcat faptul ca
exista variabile (atat discrete cat si continue) care nu admit o valoare medie.
• Dacă Z este o v.a. discretă având tabelul de repartiţie (3.3.1), atunci media acestei v.a. (dacă
există!) se defineşte prin:
n
µ = ∑ zi pi . (3.3.4)
i=1

Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) se defineste prin
n
E(U(Z)) = ∑ U(zi )pi .
i=1
3.3 Variabile aleatoare 45

• Dacă Z este o v.a. de tip continuu, cu densitatea de repartiţie f (z), atunci media (teoretică)
acestei v.a., dacă există (!), se defineşte astfel:
Z ∞
µ= z f (z)dz. (3.3.5)
−∞
Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) (dacă există!) se
defineste prin Z ∞
E(U(Z)) = U(z) f (z)dz.
−∞
Notaţii: În cazul în care poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai
multe variabile în acelaşi timp), vom folosi notaţia µZ . Pentru media teoretică a unei variabile
aleatoare se mai folosesc şi notaţiile: m, M(Z) sau E(Z).

Dispersia (sau varianţa) (en., variance) şi abaterea standard (en., standard deviation)

Consideram Z o variabilă aleatoare care admite medie finita µ. Dorim sa stim in ce masura
valorile aceste variabile sunt imprastiate in jurul valorii medii. Variabila aleatoare Z0 = Z − µ
(numită abaterea lui Z de la media sa), atunci E(Z0 ) = 0. Aşadar, nu putem măsură gradul de
împrăştiere a valorilor lui Z în jurul mediei sale doar calculând Z − µ. Avem nevoie de o altă
măsură. Aceasta este dispersia variabilei aleatoare, notată prin σZ2 sau Var(Z). În cazul în care
poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai multe variabile în acelaşi
timp), vom folosi notaţia σZ2 .

n Z ∞
σ2 = ∑ (zi − µ)2 pi σ2 = (z − µ)2 f (z) dz
i=1 −∞
(in cazul unei v.a. discrete). (in cazul unei v.a. continue).

Alte formule pentru dispersie:


n

∑ z2i pi − µ 2 , în cazul discret



σ 2 = E[Z 2 ] − µ 2 = Z ∞i=1
z2 f (z) dz − µ 2 , în cazul continuu



−∞

Numim abatere standard (sau deviaţie standard) cantitatea σ = σ 2 . Are avantajul ca unitatea
sa de masura este aceeasi cu a variabilei Z.

În conformitate cu teorema lui Cebâşev3 , pentru orice variabila aleatoare Z ce admite medie si
orice a > 0, are loc inegalitatea:
1
P({|Z − µ| ≥ kσ }) ≤ 2 . (3.3.6)
k
În cuvinte, probabilitatea ca valorile variabilei Z sa devieze de la medie cu mai mult de k deviatii
standard este mai mica decat k12 . În cazul particular k = 3, obţinem regula celor 3σ :
1
P({|Z − µ| ≥ 3σ }) ≤ ≈ 0.1.
9
3 Pafnuty Lvovich Chebyshev (1821 − 1894), matematician rus
46 Capitolul 3. Noţiuni teoretice de Statistică

sau
8
P({µ − 3σ < Z < µ + 3σ }) ≥ , (3.3.7)
9
semnificând că o mare parte din valorile posibile pentru Z se află în intervalul [µ − 3σ , µ + 3σ ].

Coeficientul de variaţie
σ σ
Este definit prin CV = sau, sub forma de procente, CV = 100 %. Este util in compararea
µ µ
variatiilor a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca variatiile sunt
egale, atunci vom spune ca setul de observatii ce are media mai mica este mai variabil decat cel
cu media mai mare.

Standardizarea unei variabile aleatoare


Z−µ
Pentru o variabila aleatoare Z de medie µ şi dispersie σ 2 , variabila aleatoare Y = se nu-
σ
meşte variabila aleatoare standardizată (sau normată). Astfel, prin standardizarea unei variabile,
vom obtine urmatoarele proprietati ale sale: E(Y ) = 0, D2 (Y ) = 1.
Daca Z este o variabila normala (scriem asta prin Z ∼ N (µ, σ )), atunci standardizarea sa este o
variabila normala standard, adica Z−µ
σ ∼ N (0, 1).

Momente centrate

Pentru o v.a. Z (discretă sau continuă), ce admite medie, momentele centrate sunt valorile aşteptate
ale puterilor lui Z − µ. Definim astfel µk (Z) = E((Z − µ)k ). In particular,
Z ∞
n
µk (Z) = (x − µ)k f (x) dx;
µk (Z) = ∑ (zi − µ)k pi; −∞
i=1 (in cazul unei v.a. continue).
(in cazul unei v.a. discrete).
Momente speciale:

• µ2 (Z) = σ 2 . Se observa ca al doilea moment centrat este chiar dispersia.


µ3 (Z)
• γ1 = este coeficientul de asimetrie (en., skewness);
σ3
Coeficientul γ1 este al treilea moment centrat standardizat. O repartiţie este simetrică dacă
γ1 = 0. Vom spune că asimetria este pozitivă (sau la dreapta) dacă γ1 > 0 şi negativă (sau la
stânga) dacă γ1 < 0.
µ4 (Z)
• K= este excesul (coeficientul de aplatizare sau boltire) (en., kurtosis).
σ4
Este o măsură a boltirii distribuţiei (al patrulea moment standardizat). Termenul (−3) apare
pentru că indicele kurtosis al distribuţiei normale să fie egal cu 0. Vom avea o repartiţie
mezocurtică pentru K = 0, leptocurtică pentru K > 0 sau platocurtică pentru K < 0. Un
indice K > 0 semnifică faptul că, în vecinătatea modului, curba densităţii de repartiţie are o
boltire (ascuţire) mai mare decât clopotul lui Gauss. Pentru K < 0, în acea vecinătate curba
densităţii de repartiţie este mai plată decât curba lui Gauss.
3.3 Variabile aleatoare 47

Cuantile

Fie o v.a. Z ce are funcţia de repartiţie F(z). Pentru un α ∈ (0, 1), definim cuantila de ordin α
acea valoare reala zα ∈ R pentru care
F(zα ) = P(Z ≤ zα ) = α. (3.3.8)

(1) Cuantilele sunt măsuri de poziţie, ce măsoară lo-


caţia unei anumite observaţii faţă de restul datelor. Aşa
cum se poate observa din Figura 3.1, valoarea xα este
acel număr real pentru care aria haşurată este chiar α.
(2) În cazul în care Z este o variabilă aleatoare dis-
cretă, atunci (3.3.8) nu are soluţie pentru orice α. Însă,
dacă există o soluţie a acestei ecuaţiei F(x) = α, atunci
există o infinitate de soluţii, şi anume intervalul ce se-
pară două valori posibile.

Figura 3.1: Cuantila de ordin α.


(3) Cazuri particulare de cuantile:
• pentru α = 1/2, obtinem mediana. Astfel, F(Me) = 0.5. Mediana (notata Me) este valoarea
care imparte repartitia in doua parti in care variabila Z ia valori cu probabilitati egale. Scriem
asta astfel:
P(Z ≤ Me) = P(Z > Me) = 0.5.
Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat media
pentru tendinta centrala a valorilor variabilei.
• pentru α = i/4, i ∈ {1, 2, 3}, obtinem cuartilele. Prima cuartila, Q1 , este acea valoare
pentru care probabilitatea ca Z sa ia o valoare la stanga ei este 0.25. Scriem asta astfel:
P(Z ≤ Q1 ) = 0.25. Cuartila a doua este chiar mediana, deci Q2 = Me. Cuartila a treia,
Q3 , este acea valoare pentru care probabilitatea ca Z sa ia o valoare la stanga ei este 0.75.
Scriem asta astfel: P(Z ≤ Q3 ) = 0.75.
• pentru α = j/10, j ∈ {1, 2, . . . , 9}, obtinem decilele. Prima decila este acea valoare pentru
care probabilitatea ca Z sa ia o valoare la stanga ei este 0.1. S.a.m.d.
• pentru α = j/100, j ∈ {1, 2, . . . , 99}, obtinem centilele. Prima centila este acea valoare
pentru care probabilitatea ca Z sa ia o valoare la stanga ei este 0.01. S.a.m.d.
(4) Dacă Z ∼ N (0, 1), atunci cuantilele de ordin α le vom nota prin zα .

Modul (valoarea cea mai probabilă)

Este valoarea cea mai probabila pe care o lua variabila aleatoare Z. Cu alte cuvinte, este acea
valoare x∗ pentru care f (x∗ ) (densitatea de repartiţie sau funcţia de probabilitate) este maximă. O
repartiţie poate să nu aibă niciun mod, sau poate avea mai multe module.

Covarianţa şi coeficientul de corelaţie

Conceptul de corelaţie (sau covarianţă) este legat de modul în care două variabile aleatoare tind
să se modifice una faţă de cealaltă; ele se pot modifica fie în aceeaşi direcţie (caz în care vom
48 Capitolul 3. Noţiuni teoretice de Statistică

spune că Z1 şi Z2 sunt direct <sau pozitiv> corelate) sau în direcţii opuse (Z1 şi Z2 sunt invers <sau
negativ> corelate).
Consideram variabilele Z1 , Z2 ce admit mediile, respectiv, µ1 , µ2 .
Definim corelaţia (sau covarianţa) variabilelor Z1 şi Z2 , notată prin cov(Z1 , Z2 ), cantitatea

cov(Z1 , Z2 ) = E[(Z1 − µ1 )(Z2 − µ2 )].

Daca Z1 si Z2 coincid, sa spunem ca Z1 = Z2 = Z, atunci cov(Z, Z) = σZ2 .


O relaţie liniară între două variabile este acea relaţie ce poate fi reprezentată cel mai bine printr-o
linie. Corelaţia detectează doar dependenţe liniare între două variabile aleatoare. Putem avea
o corelaţie pozitivă, însemnând că Z1 şi Z2 cresc sau descresc împreună (vezi cazurile in care
ρ = 0.85 sau ρ = 1 in Figura 3.2), sau o corelaţie negativă, însemnând că Z1 şi Z2 se modifică
în direcţii opuse (vezi cazul ρ = −0.98 in Figura 3.2). In cazul ρ = −0.16 din Figura 3.2, nu se
observa nicio tendinta, caz in car putem banui ca variabilele nu sunt corelate.
O măsură a corelaţiei dintre două variabile este coeficientul de corelaţie. Acesta este foarte utilizat
în ştiinţe ca fiind o măsură a dependenţei liniare între două variabile. Se numeşte coeficient de
corelaţie al v.a. Z1 şi Z2 cantitatea
cov(Z1 , Z2 )
ρ= ,
σ1 σ2
unde σ1 si σ2 sunt deviatiile standard pentru Z1 , respectiv, Z2 . Uneori se mai noteaza prin
ρ(Z1 , Z2 ) sau ρZ1 , Z2 . Coeficientul de corelatie ia valori intre −1 (perfect negativ corelate) si 1
(perfect pozitiv corelate) si masoara gradul de corelatie liniara dintre doua variabile.

Figura 3.2: Reprezentare de date bidimensionale.

3.3.3 Independenţa
Conceptul de independenţă a variabilelor aleatoare sau a evenimentelor este foarte important din
punctul de vedere al calculului statistic, atunci cand avem de calculat probabilităţile evenimentelor
compuse din evenimente mai simple.
3.3 Variabile aleatoare 49

Consideram A si B două evenimente aleatoare arbitrare.


(1) Dacă anumite informaţii despre evenimentul B au influenţat în vreun fel realizarea evenimen-
tului A, atunci vom spune că A şi B sunt evenimente dependente. De exemplu, evenimentele A =
mâine plouă şi B = mâine mergem la plajă sunt dependente.
(2) Să presupunem că evenimentul B satisface relaţia P(B) > 0. Vom spune că evenimentele A
şi B sunt independente dacă probabilitatea lui A este independentă de realizarea evenimentului B,
adică probabilitatea condiţionată
P(A| B) = P(A), (3.3.9)
echivalent cu T
P(A B)
= P(A).
P(B)
Aici am notat prin P(A| B) probabilitatea ca evenimentul A sa se realizeze stiind ca B s-a realizat.
Putem rescrie ultima egalitate sub forma simetrică:
\
P(A B) = P(A) · P(B). (3.3.10)

Deoarece în relaţia (3.3.10) nu mai este nevoie de condiţie suplimentara pentru P(B), este
preferabil să definim independenţă a două evenimente arbitrare astfel:
Două evenimente A si B se numesc independente dacă relaţia (3.3.10) are loc. Altfel, ele sunt
dependente, in sensul ca realizarea uneia depinde de realizarea/nerealizarea celeilalte.
In general, o multime de evenimente se numesc independente daca oricum am alege evenimente
din aceasta multime, probabilitatea ca acestea sa se realizeze simultan este egala cu produsul
probabilitatilor fiecarui eveniment in parte.
Doua variabile aleatoare Z1 si Z2 sunt independente daca realizarile lor sunt evenimente indepen-
dente intre ele. De asemenea, vom spune ca o multime variabile aleatoare sunt independente daca
realizarile oricarei submultimi dintre ele sunt evenimente independente intre ele.
Exemplu: Să considerăm aruncarea unui zar. Aruncăm zarul de două ori şi notăm cu Z1 , respectiv,
Z2 , v.a. ce reprezintă numărul de puncte apărute la fiecare aruncare. Evident, valorile acestor v.a.
sunt din mulţimea {1, 2, 3, 4, 5, 6}. Aceste doua variabile aleatoare sunt independente, deoarece
aparitia unei fete la aruncarea primului zar este independenta de aparitia oricarei fete la aruncarea
celui de-al doilea.
O consecinta importanta a independentei variabilelor este faptul ca media produsului a doua
sau mai multe variable independente este egala cu produsul mediilor celor doua variabile. De
asemenea, daca variabilele sunt independente, dispersia sumei variabilelor este egala cu suma
dispersiilor fiecarei variabile in parte. Aceste proprietati nu au loc in cazul in care ipoteza de
independenta nu este verificata.
De remarcat faptul ca independenta a doua variabile implica faptul ca ele sunt necorelate, adica
cov(Z1 , Z2 ) = 0 si, implicit, ρZ1 , Z2 = 0. Propozitia reciproca nu este adevarata. Aceasta inseamna
ca exista variabile care sunt necorelate dar nu sunt independente.
Este important de notat faptul ca in Geostatistica datele spatiale sunt necorelate, deci nu pot fi
independente. Observatiile facute in locatii apropiate tind sa aiba valori apropiate.

3.3.4 Teorema limita centrala


Teorema limita centrala este un rezultat foarte important in Statistica. Ea ne permite să aproximăm
sume de variabile aleatoare identic repartizate, avînd orice tip de repartiţii (atât timp cât variaţia
50 Capitolul 3. Noţiuni teoretice de Statistică

lor e finită), cu o variabila aleatoare normală.


Presupunem ca in urma unor masuratori am obtinut datele z1 , z2 , . . . , zn si ca aceste date sunt
realizarile unor variabile Z1 , Z2 , . . . , Zn . Daca aceste variabile sunt normale, atunci suma acestora
n
1 n
(Sn = ∑ Zi ) cat si media lor (Z = ∑ Zi ) sunt tot variabile normale, pentru orice volum al
i=1 n i=1
selectiei, n.
Teorema limita centrala spune ca, dacă variabilele Z1 , Z2 , . . . , Zn nu sunt normal repartizate,
atunci, pentru un volum n este suficient de mare, repartitiile pentru Sn si Z tind sa fie tot normale.
Spunem astfel ca repartitiile asimptotice (la limita) pentru Sn si Z sunt normale. Cu cat volumul
observatiilor este mai mare, cu atat suma sau media lor sunt mai aproape de repartitia normala.
Mai mult, daca variabilele Zi au aceeasi medie (µ) si aceeasi deviatie standard σ , atunci media Z
σ
este o variabila normala de medie µZ = µ si deviatie standard σZ = √ . Se observa ca, daca n
n
este foarte mare, atunci deviatia standard a lui Z scade, astfel ca valorile sale vor deveni foarte
apropiate de µ.
Se pune problema: Cât de mare ar trebui să fie n, în practică, pentru că teorema limită centrală
să fie aplicabilă? Se pare ca un număr n astfel încât n ≥ 30 ar fi suficicient pentru aproximarea cu
repartiţia normală deşi, dacă variabilele sunt simetrice, aproximarea ar putea fi bună şi pentru un
număr n mai mic de 30.

3.3.5 Repartiţii probabilistice


• Repartiµia binomial , B(n, p):
Este o repartitie pentru o variabila aleatoare discreta. Modeleaza numarul de succese
obtinute in urma unui experiment aleator care se desfasoara in aceleasi conditii de un numar
de ori. Fie n numarul de repetitii ale experimentului si fie p probabilitatea de succes la o
singura efectuare a experimentului. Spunem ca o variabila aleatoare Z urmeaza repartitia
binomiala de parametri n si p, scriem Z ∼ B(n, p), (n > 0, p ∈ (0, 1)), dacă valorile lui Z
sunt {0, 1, . . . , n}, cu probabilităţile
P(Z = k) = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n.
Media şi dispersia pentru o astfel de variabila binomiala sunt: µZ = np; σZ2 = np(1 − p).
Spre exemplu, aruncarea de 15 ori a unei monede ideale poate fi modelată ca fiind o v.a.
binomială B(15, 0.5).

• Repartiµia normal , N (µ, σ )


Repartitia normala este cea mai cunoscuta si des utilizata repartitie probabilistica. Spunem
că o variabila aleatoare urmeaza o repartitie normala de medie µ si deviatie standard σ
(vom scrie Z ∼ N (µ, σ ), dacă Z are densitatea de repartitie
(z − µ)2
1 −
f (z) = √ e 2σ 2 , z ∈ R.
σ 2π
Media variabilei Z este E(Z) = µ şi dispersia sa este σZ2 = σ 2 .
Repartitia normala se mai numeşte şi repartiţia gaussiană, dupa numele matematicianului
german C. F. Gauß. În cazul µ = 0, σ 2 = 1 densitatea de repartiţie devine:
1 z2
f (z) = √ e− 2 , x ∈ R. (3.3.11)

3.3 Variabile aleatoare 51

În acest caz spunem că Z urmează repartiţia normală standard, N (0, 1).
Graficul densităţii de repartiţie pentru repartiţia normală este clopotul lui Gauss (vezi Figura
3.3). Din grafic (pentru σ = 1), se observă că majoritatea valorilor nenule ale repartiţiei
normale standard se află în intervalul (µ − 3σ , µ + 3σ ) = (−3, 3). Această afirmaţie rezulta
din relaţia (3.3.7).

Dacă Z ∼ N (0, 1), atunci Z = σ Z + µ ∼ N (µ, σ ). În mod similar, dacă Z ∼ N (µ, σ ),


Z−µ
atunci Z = ∼ N (0, 1). Pentru o v.a. N (0, 1) funcţia de repartiţie este tabelată
σ
(valorile ei se găsesc în tabele) şi are o notaţie specială, Θ(z). Ea e definită prin:
Z z
1 y2
Θ(z) = √ e− 2 dy. (3.3.12)
2π −∞

Funcţia de repartiţie a lui Z ∼ N (µ, σ ) este dată prin

z−µ
 
F(z) = Θ , z ∈ R. (3.3.13)
σ

Figura 3.3: Clopotul lui Gauss pentru o variabila Z ∼ N (0, σ ), (σ = 1, 2, 3)

• Repartiµia log-normal , logN (µ, σ )

Repartiţia log-normală este foarte utilă în practica atunci cand observatiile nu sunt normale.
In acest caz, este posibil ca logaritmul acestor observatii sa urmeze o repartitie normala.
In general, daca datele observate sunt asimetrice (coeficientul skewness este mare), atunci
este necesara o logaritmare a datelor. Majoritatea mineralelor sau elementelor chimice au
repartitii lognormale. Vom spune ca variabila Z urmeaza o repartitie log-normala, scriem
Z ∼ logN (µ, σ ), daca variabila ln Z urmeaza o repartitie normala, adica ln Z ∼ N (µ, σ ).
52 Capitolul 3. Noţiuni teoretice de Statistică

Densitatea de repartiţie pentru o repartitie lognormala de parametri µ si σ este:

(ln z − µ)2




f (z) = 1
√ e 2σ 2 , dacă z > 0;
 zσ 2π
, dacă z ≤ 0.

0

Media şi dispersia pentru o variabila Z ∼ logN (µ, σ ) sunt date de

2 /2 2 2
µZ = eµ+σ , σZ2 = e2µ+σ (eσ − 1).

• Repartiµia χ 2 , χ 2 (n)

Repartitia χ 2 (n) (cu n grade de liberate) apare in urma insumarii unui numar de n variabile
normale standard independente. Vom spune ca o variabila Z urmeaza repartitia χ 2 (n)
(scriem ca Z ∼ χ 2 (n) si se citeşte repartiţia hi-pătrat cu n grade de libertate) dacă densitatea
sa de repartiţie este:

 1 n z
 z 2 −1 e− 2 , dacă z > 0,
n
f (z; n) = Γ( 2n )2 2
, dacă z ≤ 0.

0

unde Γ este funcţia lui Euler. Graficul acestei repartiţii (pentru diverse valori ale lui n) este
reprezentat în Figura 3.4.
(a) Media şi dispersia unei repartitii χ 2 (n) sunt:

E(χ 2 ) = n, D2 (χ 2 ) = 2n.

(b) Dacă variabilele Zk ∼ N (0, 1) pentru k = 1, 2, . . . , n sunt independente, atunci

Z12 + Z22 + · · · + Zn2 ∼ χ 2 (n).

(c) În particular, dacă variabila Z este normala standard, atunci patratul acesteia este o
variabila χ 2 (1). Matematic, scriem astfel:

Daca Z ∼ N (0, 1), atunci Z 2 ∼ χ 2 (1).


3.3 Variabile aleatoare 53

Figura 3.4: Repartiţia χ 2 (n) pentru patru valori ale lui n.

• Repartiµia Student (W. S. Gosset4 ), t(n)

Spunem că Z ∼ t(n) (cu n grade de libertate) dacă densitatea de repartiţie este:
 
n+1
Γ − n+1
z2
 2
2
f (z; n) = √ n 1 + , z ∈ R.
nπ Γ n
2
n
Media şi dispersia unei repartitii t(n) sunt: µZ = 0, σZ2 = .
n−2
• Repartiµia Fisher5 , F (m, n)

Spunem că Z ∼ F (m, n) (cu m, n grade de libertate) dacă densitatea de repartiţie este:
 m  
m 2 m+n

 Γ
 m   2n  z 2 −1 1 + mn z − 2
 n
 m  m+n
f (z) = , z > 0;
Γ Γ
2 2



, z ≤ 0.

0

n 2n2 (n + m − 2)
Media şi dispersia unei repartitii F (m, n) sunt: µZ = , σZ2 = .
n−2 m(n − 2)2 (n − 4)

4 William Sealy Gosset (1876 − 1937), statistician britanic, care a publicat sub pseudonimul Student
5 Sir Ronald Aylmer Fisher (1890 − 1962), statistician, eugenist, biolog şi genetician britanic
4. Estimatori

Presupunem ca Z este variabila de interes a unei colectivitati statistice si ca, in urma unor
masuratori, am obtinut rezultatele z1 , z2 , . . . , zn . Deoarece in urma acestor masuratori pot aparea
erori, in Statistica se considera ca aceste date sunt realizarile unor variabile Z1 , Z2 , . . . , Zn . Se
presupune ca aceste variabile sunt independente si au toate aceeasi repartitie (adica sunt toate copii
independente ale aceleasi variabile). Aceste variabile le vom numi variabile aleatoare de selectie.
Pe baza acestor observatii, dorim sa estimam anumiti parametri ai colectivitatii, de exemplu media
µ sau deviatia standard σ ale lui Z.
O functie f (Z1 , Z2 , . . . , Zn ) ce depinde de variabilele de selectie se va numi generic statistică.
In caz ca nu este pericol de confuzie, valoarea statisticii pentru un esantion, f (z1 , z2 , . . . , zn ), se
numeste tot statistică. Exemple de statistici:
1. Media selectiei:
1 n
Z = ∑ Zi .
n i=1

1 n
O valoare observata pentru Z este z = ∑ zi .
n i=1
(∗ ) Daca variabilele de selectie Zi au media µ si deviatia standard σ , atunci media mediei
selectiei este tot µ si deviatia sa standard este √σn . Scriem asta astfel:

σ
µZ = µ si σZ = √ .
n

(∗∗ ) In cazul in care variabilele Zi sunt normale N (µ, σ ), atunci media selectiei este tot
o variabila normala, Z ∼ N (µ, √σn ).
(∗∗∗ ) Daca numarul variabilelor de selectie este suficient de mare, atunci variabila Z este
normala, fara ca Zi sa fie neaparat normale. Acest fapt este o consecinta a teoremei limita
centrala.
56 Capitolul 4. Estimatori

2. Dispersia selecţiei,
1 n
S2 = ∑ [Zi − Z]2
n − 1 i=1
1 n
O valoare observata pentru S2 este s2 = ∑ [zi − z]2.
n − 1 i=1
√ √
3. Deviatia standard a selecţiei, S = S2 . O valoare observata pentru S este s = s2 .

4.1 Estimatori punctuali


Consideram acum un parametru generic al populatiei, notat cu θ , pe care dorim sa-l estimam.
• Prin estimator punctual (sau, simplu, estimator) pentru parametrul θ intelegem o statistica
(independenta de θ ) care se apropie de θ atunci cand volumul selectiei este suficient de
mare. Un estimator pentru parametrul θ este notat simbolic prin θb. Valoarea unui astfel de
estimator intr-o masurare se va numi estimatie. Pentru simplitate, atunci cand nu este pericol
de confuzie, vom nota estimatorul si estimatia tot cu θb. De remarcat faptul ca estimatorul
este o variabila aleatoare si estimatia este un numar real.
Deoarece estimarile sunt bazate doar pe valorile unei submultimi din colectivitate, ele nu pot fi
exacte. Apar astfel erori de aproximare. Ne-am dori să ştim în ce sens şi cât de bine un estimator
aproximeaza (se apropie) de valoarea estimata. Pentru aceasta, avem nevoie de anumite cantitati
care sa cuantifice erorile de aproximare. In acest sens, vom discuta aici despre: deplasare, eroarea
medie patratica si eroarea standard.
• Un estimator θ̂ se numeste estimator nedeplasat (en., unbiased estimator) pentru parametrul
θ dacă media estimatorului este chiar valoarea parametrului pe care estimeaza. Matematic,
scriem astfel:
E(θ̂ ) = θ .
• Altfel, spunem că θ̂ este un estimator deplasat pentru θ , iar deplasarea (distorsiunea) se
defineşte prin:
b(θ̂ , θ ) = E(θ̂ ) − θ .
Cantitatea b(θ̂ , θ ) este o măsură a erorii pe care o facem în estimarea lui θ prin θ̂ .
• O alta masura a incertitudinii cu care un estimator aproximeaza parametrul este eroarea
standard (en., standard error), notata aici prin σ (θ̂ ) sau σθ̂ . Spre exemplu, daca estimatorul
θ̂ este Z, atunci
σ
σZ = √ ,
n
unde σ este deviatia standard a unei singure observatii. Se observa de aici ca σZ va tinde
la 0 daca n creste nemarginit. Astfel, daca numarul de masuratori creste, media acestor
masuratori se apropie mult de valoarea parametrului µ.
• Numim eroare medie pătratică a unui estimator θ̂ pentru θ (en., mean squared error)
cantitatea  2 
MSE(θ̂ , θ ) = E θ̂ − θ .

Aceasta cantitate ne va indica valoarea medie a patratului diferentei dintre estimator si


valoarea parametrului estimat. Pentru un estimator nedeplasat, MSE este chiar dispersia
estimatorului, σθ̂2 .
4.1 Estimatori punctuali 57

• Un estimator nedeplasat θ̂ pentru θ se numeşte estimator nedeplasat uniform de dispersie


minimă (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dacă pentru orice
valori ale parametrului θ si pentru orice alt estimator nedeplasat pentru θ , notat cu θ̂ ∗ ,
estimatorul θ̂ are varianta minima. Matematic, scriem astfel:

σθ̂2 ≤ σθ̂2∗ , pentru orice valoarea a lui θ .

• Pentru un anumit parametru pot exista mai mulţi estimatori nedeplasati. Dintre acestia, cel
mai bun estimator va fi acela care are varianta minima.

4.1.1 Exemple de estimatori punctuali


Presupunem ca Z este variabila de interes a unei populatii statistice, pentru care dorim sa estimam
anumiti parametri, e.g., media µ, varianta (dispersia) σ 2 , deviatia standard σ etc. Plecand de la o
multime de valori observate pentru Z, si anume z1 , z2 , . . . , zn , putem construi urmatorii estimatori:
1 n
1. Un estimator pentru media µ este media selectiei Z = Z = ∑ Zi . O estimatie pentru µ
b
n i=1
este b
z.
Concret, daca dorim sa determinam concentratia medie de azotati din sol intr-o anumita
regiune, vom stabili mai intai locatiile x1 , x2 , . . . , xn de unde vom culege probe, urmand ca
apoi sa le culegem efectiv si, pe baza valorilor obtinute, facem media acestora. Astfel, fiecare
variabila Zi = Z(xi ) reprezinta concentratia in locatia xi , care este o variabila aleatoare.
1 n
Valoarea masurata in aceasta locatie este zi = z(xi ). Estimatorul Z = ∑ Zi este media
n i=1
concentratiilor din locatiile stabilite (este criteriul dupa care se estimeaza media), iar
1 n
estimatia z = ∑ zi este valoarea medie a concentratiilor masurate.
n i=1
2 1 n
2. Dispersia selecţiei, S = ∑ [Zi − Z]2 , este un estimator pentru dispersia teoretică, σ 2 .
n − 1 i=1

3. Deviatia standard a selectiei, S = S2 este un estimator pentru deviatia standard teoretică,
σ.
σ s
4. Un estimator pentru eroarea standard σZ = √ este sZ = √ .
n n
5. Dispersia stratificata In cazul unui camp aleator, exista cazuri in care estimatiile deviatiei
s
standard s sunt foarte mari, fapt care duce la o eroare standard √ mare. Acest lucru poate
n
fi datorat faptului ca unele regiuni din campul aleator sunt foarte slab reprezentate prin
masuratori, pe cand altele contin prea multe masuratori. O idee pentru reducerea erorii este
cresterea volumului observatiilor, n. Insa, de multe ori, acest lucru nu este convenient. Totusi,
problema poate fi remediata daca se face o selectie stratificata a locatiilor masuratorilor,
dupa cum urmeaza.
Sa presupunem ca regiunea R de interes este impartita in m subregiuni (numite straturi).
Pentru fiecare astfel de strat, k se vor face nk ≥ 2 masuratori. Pentru fiecare strat in parte,
putem calcula varianta masuratorilor prin formula:

1 nk
s2k = ∑ [zik − zk ]2.
nk − 1 i=1
58 Capitolul 4. Estimatori

O estimatie pentru varianta mediei in regiunea R este

1 m s2k
s2z = 2 ∑ .
k j=1 nk
q
O estimatie pentru eroarea standard a lui z este sz = s2z .
6. Presupunem acum ca avem doua variabile de interes, Z si Z 0 . Am vazut anterior ca legatura
dintre aceste variabile poate fi descrisa de covarianta, cov(Z, Z 0 ) = E [(Z − µZ )(Z 0 − µZ 0 )].
Pentru a construi un estimator pentru covarianta este avem nevoie de n perechi de observaţii.
Presupunem ca acestea sunt {(z1 , z01 ), (z2 , z02 ), . . . , (zn , z0n )}. O estimatie pentru cov(Z, Z 0 )
este covarianta (sau corelatia) empirica,

1 n
cove = ∑ (zi − z)(z0i − z0),
n − 1 i=1

unde
1 n 1 n 0
z= ∑ zi si z0 = ∑ zi.
n i=1 n i=1

4.2 Estimarea parametrilor prin intervale de încredere


O singură populaţie

După cum am văzut anterior, putem determina estimaţii punctuale pentru parametrii unei populatii
însă, o estimaţie punctuală, nu precizează cât de aproape se găseşte estimaţia θ̂ (x1 , x2 , . . . , xn )
faţă de valoarea reală a parametrului θ . De exemplu, dacă dorim să estimăm valoarea medie a
pH din sol, atunci putem găsi un estimator punctual (e.g., media de selecţie) care să ne indice că
aceasta este de 8.1. Ideal ar fi dacă această informaţie ar fi prezentată sub forma: pH mediu din
sol este 8 ± 0.2.
Putem obţine astfel de informaţii dacă vom construi un interval în care, cu o probabilitate destul
de mare, să găsim valoarea reală a lui θ .
Dorim să determinam un interval (aleator) care să acopere cu o probabilitate mare (e.g., 0.95,
0.98, 0.99 etc) valoarea posibilă a parametrului necunoscut.
Pentru un α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim interval
de încredere (en., confidence interval) pentru parametrul θ cu probabilitatea de încredere 1 − α,
un interval aleator (θ , θ ), astfel încât

P(θ < θ < θ ) = 1 − α, (4.2.1)

unde θ (Z1 , Z2 , . . . , Zn ) şi θ (Z1 , Z2 , . . . , Zn ) sunt statistici.


Pentru o observaţie fixată, capetele intervalului (aleator) de încredere vor fi statistici. De exemplu,
pentru datele observate, z1 , z2 , . . . , zn , intervalul

θ (z1 , z2 , . . . , zn ), θ (z1 , z2 , . . . , zn )

se numeşte valoare a intervalului de încredere pentru θ . Pentru simplitate însă, vom folosi
termenul de "interval de încredere" atât pentru intervalul propriu-zis, cât şi pentru valoarea
4.2 Estimarea parametrilor prin intervale de încredere 59

acestuia, înţelesul desprinzându-se din context.


Valoarea α se numeşte nivel de semnificaţie sau probabilitate de risc.
Cu cât α este mai mic (de regulă, α = 0.01 sau 0.02 sau 0.05), cu atât şansa (care este (1 − α) ·
100%) ca valoarea reală a parametrului θ să se găsească în intervalul găsit este mai mare.
Intervalul de încredere pentru valoarea reală a unui parametru nu este unic. Dacă ni se dau condiţii
suplimentare (e.g., fixarea unui capăt), atunci putem obţine intervale infinite la un capăt şi finite la
celălalt capăt.
În continuare, vom preciza intervale de încredere pentru parametrii unor caracteristici normale.
Vom nota cu (generic) prin xα cuantila de ordin α pentru repartitia variabilei Z. Cuantilele xα pot
fi gasite in tabele specifice repartitiei cautate, sau pot fi calculate folosind un soft specializat.
Daca variabila Z urmeaza o repartitie normala N (0, 1), atunci cuantilele corespunzatoare le vom
nota prin zα si le vom gasi in Tabelul 10.1.
Daca variabila Z urmeaza o repartitie Student t(n), atunci cuantilele corespunzatoare le vom nota
prin tα, n si le vom gasi in Tabelul 10.2.
Daca variabila Z urmeaza o repartitie χ 2 (n), atunci cuantilele corespunzatoare le vom nota prin
2 si le vom gasi in Tabelul 10.3.
χα, n

4.2.1 Intervale de încredere pentru medie


Distingem aici doua cazuri: (1) cand volumul selectiei este suficient de mare (de multe ori, aceasta
inseamna peste 40 de observatii), sau (2) cand volumul selectiei este mic. Dupa cum am vazut
anterior, pentru estimarea punctuala a mediei pe baza unei selectii folosim:

1 n
z= ∑ zi .
n i=1

(1) daca n ≥ 40, atunci un interval de incredere pentru medie la nivelul de semnificatie α este
 
s s
z − z1− α2 √ , z + z1− α2 √ , (4.2.2)
n n

unde z1− α2 este cuantila de ordin 1 − α2 pentru repartitia N (0, 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05, atunci din Tabelul 10.1 gasim ca z0.975 = 1.96.
(2) pentru observatii normale de volum mic, un interval pentru medie la nivelul de semnificatie
α este
 
s s
z − t1− α2 ; n−1 √ , z + t1− α2 ; n−1 √ . (4.2.3)
n n

Aici, s este o estimatie pentru deviatia standard,


s
1 n
s= ∑ (zi − z)2
n − 1 i=1

si t1− α2 , n−1 este cuantila de ordin 1 − α2 pentru repartitia t(n − 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05 si volumul selectiei este n = 35, atunci din Tabelul
10.2 gasim ca t0.975, 34 = 2.032.
60 Capitolul 4. Estimatori

Când volumul n este mare, atunci va fi o diferenţă foarte mică între valorile z1− α2 şi t1− α2 ; n−1 , de
aceea am putea folosi z1− α2 în locul valorii t1− α2 ; n−1 .
Intervalele de încredere de mai sus sunt valide pentru selecţia (repetată sau nerepetată) dintr-o
populaţie infinită, sau pentru selecţii repetate dintr-o populaţie finită. În cazul selecţiilor nerepetate
din colectivităţi finite, în estimarea intervalelor de încredere vom ţine cont şi de volumul N al
populaţiei. Spre exemplu, dacă selecţia de volum n se face dintr-o populaţie finită de volum N şi
n ≥ 0.05N, atunci un inteval de încredere centrat pentru media populaţiei este:
r r !
s N −n s N −n
z − t1− α2 ; n−1 √ , z + t1− α2 ; n−1 √ . (4.2.4)
n N −1 n N −1
q
Factorul N−n N−1 va fi aproximativ egal cu 1 atunci cand N este infinit sau N  n, obtinandu-se
astfel intervalul (4.2.3). Formula (4.2.4) nu este practica in Geostatistica, deoarece un camp
aleator are o multime infinita de puncte, asadar selectia de masuratori se face dintr-o populatie de
volum N = ∞.
O alta observatie este faptul ca este posibil ca σ sa fie un parametru cunoscut pentru Z, caz in care
pentru intervalul de incredere pentru medie se foloseste formula (4.2.2) cu σ inlocuindu-l pe s.
Exemplu 4.1 O maşină de îngheţată umple cupe cu îngheţată. Se doreşte ca îngheţată din cupe
să aibă masa de µ = 250g. Desigur, este practic imposibil să umplem fiecare cupă cu exact 250g
de îngheţată. Presupunem că masa conţinutului din cupă este o variabilă aleatoare repartizată
normal. Pentru a verifica dacă maşina este ajustată bine, se aleg la întâmplare 30 de înghetate
şi se cântăreşte conţinutul fiecăreia. Obţinem astfel o selecţie repetată, z1 , z2 , . . . , z30 după cum
urmează:
257 249 251 251 252 251 251 249 248 248 251 253 248 245 251
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253
Se cere să se scrie un interval de încredere pentru µ, cu nivelul de incredere de 0.99.
Soluţie: După cum am văzut mai sus, un interval de încredere pentru µ este (deoarece N este
necunoscut, il presupunem mult mai mare decat n):
 
s s
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ .
n n
Aici, nivelul de risc este α = 0.01, cuantila teoretica este t1− α2 ; n−1 = t0.995, 29 = 2.7564, media
valorilor este z = 250.0667 si deviatia standard este s = 2.9704. Astfel, obţinem intervalul de
încredere pentru µ:
(248.572, 251.561).

4.2.2 Interval de încredere pentru dispersie


Dupa cum am vazut anterior, pentru estimarea punctuală a lui σ 2 se foloseste
1 n
s2 = ∑ [zi − z]2 .
n − 1 i=1

Un interval pentru σ 2 la nivelul de semnificatie α este:


!
(n − 1) s2 (n − 1) s2
2
, . (4.2.5)
χ1− α
; n−1
χ 2α ; n−1
2 2
4.2 Estimarea parametrilor prin intervale de încredere 61

Intervale de încredere pentru deviaţia standard se obţin prin extragerea rădăcinii pătrate din
capetele de la intervalele de încredere pentru dispersie.
Exemplu 4.2 Găsiţi un interval de încredere (cu α = 0.05) pentru deviaţia standard a conţinutului
de nicotină pentru un anumit tip de ţigări, stiind ca pentru o selecţie de 25 de bucăţi, deviaţia
standard a conţinutului de nicotină este de 1.6mg.
Soluţie: Observam ca s = 1.6mg. Din tabele, găsim ca:
2 2
χ0.975; 24 = 39.3641; χ0.025; 24 = 12.4012.

Intervalul de încredere pentru dispersie este:

(σ 2 , σ 2 ) = (1.5608, 4.9544).

Pentru variaţia standard, intervalul de încredere este:


√ √
( 1.5608 mg, 4.9544 mg) = (1.25mg, 2.22mg).

4.2.3 Interval de încredere pentru proportie


Pentru o populaţie statistică, prin proporţie a populaţiei vom înţelege procentul din întreaga
colectivitate ce satisface o anumită proprietate (sau are o anumită caracteristică) (e.g., proporţia
de studenţi integralişti dintr-o anumită facultate). Pe de altă parte, prin proporţie de selecţie
înţelegem procentajul din valorile de selecţie ce satisfac o anumită proprietate (e.g., proporţia de
studenţi integralişti dintr-o selecţie aleatoare de 40 de studenţi ai unei facultăţi). Proporţia unei
populaţii este un parametru (pe care îl vom nota cu p), iar proporţia de selecţie este o statistică (pe
care o notăm aici prin p).
Fie Z o caracteristică binomială a unei colectivităţi, cu probabilitatea de succes p (e.g., numărul
de steme apărute la aruncarea unei monede ideale, caz în care p = 0.5). Dorim să construim un
interval de încredere pentru proporţia populaţiei, p. Pentru aceasta, avem nevoie de selecţii de
volum mare din această colectivitate. Un estimator potrivit pentru p este proporţia de selecţie,
adică
Z
pb = p = .
n
Printr-un "volum mare" vom înţelege un n ce satisface: n ≥ 30, n pb > 5 şi n (1 − pb) > 5.
Bazat pe o selectie de volum n, un interval de încredere pentru p la nivelui de semnificatie α, este
de forma:
r r !
pb(1 − pb) pb(1 − pb)
pb − z1− α2 , pb + z1− α2 . (4.2.6)
n n

Acest interval de încredere este valabil pentru selecţie dintr-o populaţie infinită (sau n  N,
de regulă n < 0.05N) sau pentru selecţia cu repetiţie dintr-o populaţie finită. Dacă selecţia se
realizează fără repetiţie dintr-o populaţie finită (cu N astfel înât n ≥ 0.05N), atunci intervalul de
încredere este:
r r r r !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 . (4.2.7)
n N −1 n N −1
62 Capitolul 4. Estimatori

Exemplu 4.3 Dintr-o selecţie de 200 de elevi ai unei şcoli cu 1276 de elevi, 65% afirmă că deţin
cel puţin un telefon mobil. Să se găsească un interval de încredere pentru procentul de copii din
respectiva şcoală ce deţin cel puţin un telefon mobil, la nivelul de semnificaţie α = 0.05.
Soluţie: Avem: n = 200, N = 1276, p = 0.65. Deoarece n ≥ 0.05N, găsim că un interval de
încredere la nivelul de semnificaţie 0.05 este
r r r r !
0.65 (1 − 0.65) 1276 − 200 0.65 (1 − 0.65) 1276 − 200
0.65 − 1.96 , 0.65 + 1.96
200 1276 − 1 200 1276 − 1
= (58.93%, 71.07%).

Exemplu 4.4 Într-un institut politehnic, s-a determinat că dintr-o selecţie aleatoare de 100 de
studenţi înscrişi, doar 67 au terminat studiile, obţinând o diplomă. Găsiţi un interval de încredere
care, cu o confidenţă de 90%, să determine procentul de studenţi absolvenţi dintre toţi studenţii ce
au fost înscrişi.
67
Soluţie: Mai întâi, observăm că α = 0.1, n > 30, pb = 100 = 0.67, n pb = 67 > 5 şi n(1 − pb) =
33 > 5. Deoarece nu ni se dă vreo informaţie despre N (numărul total de studenţi înscrişi), putem
presupune că n < 0.05N. Cuantila teoretica este z0.95 = 1.6449. Găsim că intervalul de încredere
căutat este:
r r !
0.67 (1 − 0.67) 0.67 (1 − 0.67)
0.67 − 1.6449 , 0.67 + 1.6449 = (57.78%, 76.22%).
100 100
5. Teste statistice

Testarea ipotezelor statistice este o metodă prin care se iau decizii statistice, utilizând datele
experimentale culese. Testele prezentate mai jos au la bază noţiuni din teoria probabilităţilor.
Aceste teste ne permit ca, plecând de la un anumit sau anumite seturi de date culese experimental,
să se putem valida anumite estimări de parametri ai unei repartiţii sau chiar putem prezice forma
legii de repartiţie a caracteristicii considerate.
Presupunem că Z este variabila de interes a unei populaţii statistice şi că legea sa de probabilitate
este dată de depinde de un parametru θ . In general, o repartitie poate depinde de mai multi
parametri, insa aici vom discuta doar cazul unui singur parametru. De asemenea, să presupunem
că (zk )k=1, n sunt datele observate relativ la caracteristica Z.
• Numim ipoteză statistică o presupunere relativă la valorile parametului θ sau chiar referi-
toare la tipul legii caracteristicii.
• O ipoteză neparametrică este o presupunere relativă la repartitia lui Z. De exemplu, o
ipoteză de genul Z ∼ Normală.
• Numim ipoteză parametrică o presupunere făcută asupra valorii parametrilor unei repartiţii.
Dacă mulţimea la care se presupune că aparţine parametrul necunoscut este formată dintr-un
singur element, avem de-a face cu o ipoteză parametrică simplă. Altfel, avem o ipoteză
parametrică compusă.
• O ipoteză nulă este acea ipoteză pe care o intuim a fi cea mai apropiată de realitate şi o
presupunem a priori a fi adevărată. Cu alte cuvinte, ipoteza nulă este ceea ce doreşti să
crezi, în cazul în care nu există suficiente evidenţe care să sugereze contrariul. Un exemplu
de ipoteză nulă este următoarul: "presupus nevinovat, până se găsesc dovezi care să ateste o
vină". O ipoteză alternativă este orice altă ipoteză admisibilă cu care poate fi confruntată
ipoteza nulă.
• A testa o ipoteză statistică (en., statistical inference) înseamnă a lua una dintre deciziile:
− ipoteza nulă se respinge (caz in care ipoteza alternativa este admisa)
− ipoteza nulă se admite (sau, nu sunt motive pentru respingerea ei)
• În Statistică, un rezultat se numeşte semnificativ din punct de vedere statistic dacă este
64 Capitolul 5. Teste statistice

improbabil ca el să se fi realizat datorită şansei. Între două valori există o diferenţă
semnificativă dacă există suficiente dovezi statistice pentru a dovedi diferenţa, şi nu datorită
faptului că diferenţa ar fi mare.
• Numim nivel de semnificaţie probabilitatea de a respinge ipoteza nulă când, de fapt, aceasta
este adevărată. În general, nivelul de semnificaţie este o valoare pozitiva apropiata de 0,
e.g., una dintre valorile: α = 0.01, 0.02, 0.05 etc. Intr-o analiza statistica sau soft statistic,
valoarea implicita pentru α este 0.05.
• În urma unui test statistic pot aparea două tipuri de erori:
1. eroarea de speţa (I) sau riscul furnizorului (en., false positive) − este eroarea care se
poate comite respingând o ipoteză (în realitate) adevărată. Se mai numeşte şi risc de
genul (I). Probabilitatea acestei erori este egala chiar nivelul de semnificaţie α, adică:

α = P(H0 se respinge | H0 este adevărată).

2. eroarea de speţa a (II)-a sau riscul beneficiarului (en., false negative) − este eroarea
care se poate comite acceptând o ipoteză (în realitate) falsă. Se mai numeşte şi risc de
genul al (II)-lea. Probabilitatea acestei erori este

β = P(H0 se admite | H0 este falsă).

Gravitatea comiterii celor două erori depinde de problema studiată. De exemplu, riscul de
genul (I) este mai grav decât riscul de genul al (II)-lea dacă verificăm calitatea unui articol
de îmbracăminte, iar riscul de genul al (II)-lea este mai grav decât riscul de genul (I) dacă
verificăm concentraţia unui medicament.
• Denumim valoare P sau P−valoare sau nivel de semnificaţie observat (en., P-value) proba-
bilitatea de a obţine un rezultat cel puţin la fel de extrem ca cel observat, presupunând că
ipoteza nulă este adevărată. Valoarea P este cea mai mică valoare a nivelului de semnificaţie
α pentru care ipoteza (H0 ) ar fi respinsă, bazându-ne pe observaţiile culese. Dacă Pv ≤ α,
atunci respingem ipoteza nulă la nivelul de semnificaţie α, iar dacă Pv > α, atunci admitem
(H0 ). Cu cât Pv este mai mică, cu atât mai mari şanse ca ipoteza nulă să fie respinsă. De
exemplu, dacă valoarea P este Pv = 0.045 atunci, bazându-ne pe observaţiile culese, vom
respinge ipoteza (H0 ) la un nivel de semnificaţie α = 0.05 sau α = 0.1, dar nu o putem
respinge la un nivel de semnificaţie α = 0.02. Dacă ne raportăm la P−valoare, decizia
într-un test statistic poate fi făcută astfel: dacă aceasta valoare este mai mică decât nivelul
de semnificaţie α, atunci ipoteza nulă este respinsă, iar dacă P−value este mai mare decât
α, atunci ipoteza nulă nu poate fi respinsă.
Un exemplu simplu de test este testul de sarcină. Acest test este, de fapt, o procedură statistică ce
ne dă dreptul să decidem dacă există sau nu suficiente evidenţe să concluzionăm că o sarcină este
prezentă. Ipoteza nulă ar fi lipsa sarcinii. Majoritatea oamenilor în acest caz vor cădea de acord
cum că un false negative este mai grav decât un false positive.
Să presupunem că suntem într-o sală de judecată şi că judecătorul trebuie să decidă dacă un
inculpat este sau nu vinovat. Are astfel de testat următoarele ipoteze:
(
(H0 ) inculpatul este nevinovat;
(H1 ) inculpatul este vinovat.

Posibilele stări reale (asupra cărora nu avem control) sunt:


[1] inculpatul este nevinovat (H0 este adevărată şi H1 este falsă);
5.1 Tipuri de teste statistice 65

[2] inculpatul este vinovat (H0 este falsă şi H1 este adevărată)
Deciziile posibile (asupra cărora avem control − putem lua o decizie corectă sau una falsă) sunt:
[i] H0 se respinge (dovezi suficiente pentru a încrimina inculpatul);
[ii] H0 nu se respinge (dovezi insuficiente pentru a încrimina inculpatul);
În realitate, avem următoarele posibilităţi, sumarizate în Tabelul 5.1:

Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 [1]&[i] [2]&[i]
Acceptă H0 [1]&[ii] [2]&[ii]

Tabela 5.1: Posibilităţi decizionale.

Interpretările datelor din Tabelul 5.1 se găsesc în Tabelul 5.2.

Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 închide o persoana nevinovată închide o persoana vinovată
Accepta H0 eliberează o persoana nevinovată eliberează o persoana vinovată

Tabela 5.2: Decizii posibile.

Erorile posibile ce pot aparea sunt cele din Tabelul 5.3.

Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 α judecată corectă
Accepta H0 judecată corectă β

Tabela 5.3: Erori decizionale.

5.1 Tipuri de teste statistice


Tipul unui test statistic este determinat de ipoteza alternativă (H1 ). Astfel, putem avea:
• test unilateral stânga, atunci când ipoteza alternativă este θ < θ0 ;
• test unilateral dreapta, atunci când ipoteza alternativă este θ > θ0 ;
• test bilateral, atunci când ipoteza alternativă este θ 6= θ0 .
Pentru a lua decizii statistice se poate utiliza metoda intervalelor de încredere pentru parametri.
66 Capitolul 5. Teste statistice

5.1.1 Testul t pentru medie


Testul t pentru medie se foloseşte pentru selecţii normale de volum mic, de regulă n < 30, când
dispersia populaţiei este necunoscută a priori.
Fie caracteristica Z ce urmează legea normală N (µ, σ ) cu µ necunoscut şi σ > 0 necunoscut.
Vrem să verificăm ipoteza nulă
(H0 ) : µ = µ0
versus ipoteza alternativă
(H1 ) : µ 6= µ0 ,
cu probabilitatea de risc α.
Metoda I: Etapele testului sunt urmatoarele:
• Obtinem o multime de masuratori asupra variabilei Z: z1 , z2 , . . . , zn .
• Pe baza acestor masuratori putem calcula media si deviatia standard:
s
1 n 1 n
z = ∑ zi
n i=1
si s= ∑ (zi − z)2 .
n − 1 i=1

• Calculam statistica ce masoara discrepanta dintre valoarea medie observata si valoarea medie pe
care o testam:
z − µ0
T0 = s . (5.1.1)

n

• Calculam cuantila de ordin 1 − α2 pentru repartitia t(n − 1), notata aici prin t1− α2 ; n−1 Este un prag
teoretic ce poate fi determinat din tabelele pentru repartitia Student sau calculat cu un soft matematic
(e.g., M ATLAB). Decizia se ia astfel:
– dacă |T0 | < t1− α2 ; n−1 (adica T0 este suficient de mic in valoare absoluta), atunci admitem (H0 ).
– dacă |T0 | ≥ t1− α2 ; n−1 , atunci respingem (H0 ).

Metoda a II-a: O altă modalitate de testare a unei ipoteze statistice parametrice este prin
intermediul P−valorii, Pv . Reamintim, P−valoarea este probabilitatea de a obţine un rezultat cel
puţin la fel de extrem ca cel observat, presupunând că ipoteza nulă este adevărată. Aceasta valoare
este afisata de orice soft statistic folosit in testarea ipotezelor. Utilizând P−valoarea, testarea se
face astfel:
Ipoteza nulă va fi respinsă dacă Pv < α şi va fi admisă dacă Pv ≥ α. Aşadar, cu cât Pv este mai
mic, cu atât mai multe dovezi de respingere a ipotezei nule.
Exemplu 5.1 Pentru a determina media notelor la teza de Matematica a elevilor dintr-un anumit
oras, s-a facut un sondaj aleator de volum n = 90 printre elevii din oras. Notele observate in urma
sondajului sunt grupate in Tabelul 2.2. Dorim să testăm, la nivelul de semnificaţie α = 0.05, dacă
media tuturor notelor la teza de Matematică a elevilor din oras este µ = 6.5.
Soluţie: Aşadar, avem de testat

(H0 ) µ = 6.5 vs. (H1 ) µ 6= 6.5.

Media si deviatia standard a notelor din tabel sunt:

z = 6.3667, s = 1.8570.
5.1 Tipuri de teste statistice 67

Valoarea statisticii t0 si pragul teoretic de referinta (cuantila) sunt:


z − µ0
t0 = s = −0.6812, t1− α2 ; n−1 = t0.975; 89 = 1.9870.

n
Deoarece |t0 | < t0.975; 89 , luam decizia ca ipoteza (H0 ) este admisa la acest nivel de semnificatie.

Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata de
un soft statistic, valoarea ei fiind Pv = 0.4975, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.

5.1.2 Test pentru dispersie


Pentru variabila Z ca mai sus dorim sa testam ipoteza:

(H0 ) : σ 2 = σ02 vs. ipoteza alternativă (H1 ) : σ 2 6= σ02 ,

cu probabilitatea de risc α. Etapele testului sunt urmatoarele:


• Obtinem o multime de masuratori asupra variabilei Z: z1 , z2 , . . . , zn .
• Pe baza acestor masuratori putem calcula media si deviatia standard:
s
1 n 1 n
z = ∑ zi
n i=1
si s = ∑ (zi − z)2 .
n − 1 i=1

• Calculam statistica
n−1 2
χ02 = S , (5.1.2)
σ2
• Determinam cuantilele de ordine α/2 si 1 − α/2 pentru repartitia χ 2 (n − 1) (se pot obtine din tabele
χ 2 ). Luarea decizieise face astfel:
pentru repartitia 
– dacă χ02 ∈ χ 2α ; n−1 , χ1−
2
α , atunci admitem (H0 ) (i.e., σ 2 = σ02 );
 2 2 ; n−1 

– dacă χ02 ∈6 χ 2α ; n−1 , χ1−


2
α
2
; n−1 , atunci respingem (H0 ) (i.e., σ 6= σ0 ).
2
2 2
Exemplu 5.2 Se cercetează caracteristica Z, ce reprezintă diametrul pieselor (în mm) produse de
un strung. Presupunem ca valorile observate urmeaza o repartitie normala. Pentru o selecţie de
piese de volum n = 11 şi obţinem distribuţia empirică:
 
10.50 10.55 10.60 10.65
.
2 3 5 1

Să se testeze (cu α = 0.1) ipoteza nulă

(H0 ) : σ 2 = 0.003,

versus ipoteza alternativă


(H1 ) : σ 2 6= 0.003.
Soluţie: Calculam mai intai s2 si apoi valoarea statisticii test. Obtinem s2 = 0.0022 si, astfel,
10
χ02 = 0.003 · 0.0022 = 7.2727. Cuantilele sunt:

χ 2α ; n−1 = 3.9403; 2
χ1− α
; n−1 = 18.3070.
2 2
68 Capitolul 5. Teste statistice

Astfel, intervalul teoretic de referinta este


 
χ02 ∈ χ 2α ; n−1 , χ1−
2
α
; n−1 = (3.9403, 18.3070).
2 2

Cum valoarea χ02 = 7.2727 se afla in acest interval, tragem concluzia ca ipoteza nula nu poate fi
respinsa. (o acceptam).

Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata de
un soft statistic, valoarea ei fiind Pv = 0.6995, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.

5.1.3 Testul χ 2 de concordanţă


Testele de concordanţă (en., goodness-of-fit tests) realizează concordanţa între repartiţia empirică
(repartiţia datelor observate) şi repartiţia teoretică a unei variabile. Două dintre cele mai des
utilizate teste de concordanţă sunt testul χ 2 de concordanţă şi testul Kolmogorov-Smirnov.

Testul χ 2 de concordanţă poate fi utilizat ca un criteriu de verificare a ipotezei potrivit căreia


un ansamblu de observaţii urmează o repartiţie dată. Se aplică la verificarea normalităţii, a
exponenţialităţii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit şi testul
χ 2 al lui Pearson sau testul χ 2 al celei mai bune potriviri (en., goodness of fit test). Acest test
poate fi aplicat pentru orice tip de date pentru care funcţia de repartiţie empirică poate fi calculată.
Pentru acest test, ipoteza nulă este:
(H0 ) : Funcţia de repartiţie a lui Z este F(z).
Ipoteza alternativă este negaţia ipotezei nule.
Etapele testului sunt urmatoarele:
1. Stabilim pragul de risc α. Facem masuratorile asupra variabilei Z : z1 , z2 , . . . , zn .
2. Pe baza masuratorilor intuim natura repartitiei lui Z (si, implicit, forma functiei de repartitie a lui
Z). Aceasta functie poate depinde de unul sau mai multi parametri, notati generic cu θ . Formulăm
ipotezele statistice:
(H0 ) funcţia de repartiţie teoretică a variabilei aleatoare Z este F(z; θ1 , θ2 , . . . , θ p )
(H1 ) ipoteza nulă nu este adevărată.
3. Dacă θ1 , θ2 , . . . , θk (k ≤ p) nu sunt parametri cunoscuţi, atunci determinăm estimările θ̂1 , θ̂2 , . . . , θ̂k
pentru aceştia. Altfel, sărim peste acest pas;
4. Grupam datele in clase si scriem distribuţia empirică de selecţie (tabloul de frecvenţe),
clasa Oi n
 
, unde ∑ ni = n, ni ≥ 5;
ni i=1, n i=1

5. Se calculează probabilitatea pi , ca un element luat la întâmplare să se afle în clasa Oi . Dacă


Oi = [ai−1 , ai ), atunci
k
(ni − n pi )2
6. Se calculează statistica χ 20 = ∑ , care reprezinta discrepanta dintre valorile observate si
i=1 n pi
cele teoretice;
7. Determinăm valoarea χ ∗ , care este
(
2
χ1−α; , în cazul in care nu avem de estimat parametrii repartitiei,
χ∗ = 2
k−1
χ1−α; k−p−1 , în cazul in care am estimat p parametri pentru repartitie,
2 2
unde χα; n este cuantila de ordin α pentru repartiţia χ (n);
5.1 Tipuri de teste statistice 69

8. Dacă χ 20 < χ ∗ , atunci acceptăm (H0 ), altfel o respingem.


Exemplu 5.3 În urma unui recensământ, s-a determinat că proporţiile persoanelor din România
ce aparţin uneia dintre cele patru grupe sanguine sunt: O : 34%, A : 41%, B : 19%, AB : 6%.
S-au testat aleator 450 de persoane din România, obţinându-se următoarele rezultate:
Verificaţi, la nivelul de risc α = 0.05, Grupa sanguină O A B AB
compatibilitatea datelor cu rezultatul teoretic.
Frecvenţa 136 201 82 31

Soluţie: Ipotezele statistice sunt:

(H0 ) : Rezultatul observat este compatibil cu cel teoretic,

(H1 ) : Există diferenţe semnificative între rezultatul teoretic şi observaţii.


Dacă ipoteza nulă ar fi adevărată, atunci valorile aşteptate pentru cele patru grupe sanguine (din
450 de persoane) ar fi: O : 153.5, A : 184.5, B : 85, AB : 27.
Calculez valoarea statisticii χ 2 pentru observaţiile date. Ponderile pi sunt: p1 = 0.34, p2 =
0.41, p3 = 0.19, p4 = 0.06. Folosind formula, gasim ca:

(136 − 450 · 0.34)2 (201 − 450 · 0.41)2 (82 − 450 · 0.19)2 (31 − 450 · 0.06)2
χ 20 = + + +
450 · 0.34 450 · 0.41 450 · 0.19 450 · 0.06
(136 − 153.5) 2 (201 − 184.5) 2 (82 − 85)2 (31 − 27)2
= + + +
153.5 184.5 85 27
= 4.1004.

Aici n = 4, p = 0. Valoarea teoretica a statisticii de referinta este χ ∗ = χ0.95;


2
3 = 7.8147. De-
2 ∗
oarece χ 0 < χ , atunci acceptăm (H0 ) la acest nivel de semnificaţie. Asadar, observatiile sunt
compatibile cu cele teoretice.

5.1.4 Testul de concordanţă Kolmogorov-Smirnov


Testul de concordanţă Kolmogorov-Smirnov poate fi utilizat în compararea unor observaţii date
cu o repartiţie cunoscută (testul K-S cu o selecţie) sau în compararea a două selecţii (testul K-S
pentru două selecţii). Spre deosebire de criteriul χ 2 al lui Pearson, care foloseşte densitatea
de repartiţie, criteriul Kolmogorov-Smirnov utilizează funcţia de repartiţie empirică, Fn∗ (x). În
cazul unei singure selecţii, este calculată distanţa dintre funcţia de repartiţie empirică a selecţiei
şi funcţia de repartiţie teoretica pentru repartiţia testată, iar pentru două selecţii este măsurată
distanţa între două funcţii empirice de repartiţie. În fiecare caz, repartiţiile considerate în ipoteza
nulă sunt repartiţii de tip continuu. Testul Kolmogorov-Smirnov este bazat pe rezultatul teoremei
urmatoare:
Teorema 5.1.1 (Kolmogorov) Fie caracteristica X de tip continuu, care are funcţia de repartiţie
teoretică F şi fie funcţia de repartiţie de selecţie Fn∗ (x). Atunci, distanta dn = sup |Fn∗ (x) − F(x)|
x∈R
satisface relatia:

√ ∞
2 x2
lim P( n · dn < x) = K(x) = ∑ (−1)k e−2 k , x > 0. (5.1.3)
n→∞
k=−∞
70 Capitolul 5. Teste statistice

Testul K-S pentru o selecţie

În cazul în care ipotezele testului sunt satisfăcute, acest test este mai puternic decât testul χ 2 .
Avem un set de date statistice independente, pe care le ordonăm crescator, x1 < x2 < · · · < xn .
Aceste observaţii independente provin din aceeaşi populaţie caracterizată de variabila aleatoare
X, pentru care urmărim să îi stabilim repartiţia. Mai întâi, cautăm să stabilim ipoteza nulă. De
exemplu, dacă intuim că funcţia de repartiţie teoretică a lui X ar fi F(x), atunci stabilim:
(H0 ) : funcţia de repartiţie teoretică a variabilei aleatoare X este F(x).
Ipoteza alternativă (H1 ) este, de regulă, ipoteza ce afirmă că (H0 ) nu este adevărată. Alegem un
nivel de semnificaţie α  1.
În criteriul K-S pentru o singură selecţie, se compară funcţia F(x) intuită a priori cu funcţia de
repartiţie empirică, Fn∗ (z). Reamintim,
card{i; xi ≤ x}
Fn∗ (x) = .
n
Studiind funcţia empirică de repartiţie a acestui set de date, Kolmogorov a găsit că distanţa
dn = sup |Fn∗ (x) − F(x)| satisface relaţia (5.1.3)), unde K(λ ), λ > 0, este funcţia lui Kolmogo-
x∈R
rov (tabelată). În testul K-S, măsura dn caracterizează concordanţa dintre F(x) şi Fn∗ (x). Dacă
ipoteza (H0 ) este adevărată, atunci diferenţele dn nu vor depăşi anumite valori.

Etapele aplicării testului lui Kolmogorov-Smirnov pentru o selecţie:


• Se dau α şi x1 < x2 < · · · < xn . Considerăm cunoscută (intuim) F(x);
• Ipotezele statistice sunt:
(H0 ) funcţia de repartiţie teoretică a variabilei aleatoare Z este F(x)
(H1 ) ipoteza nulă nu este adevărată.
• Calculăm λ1−α; n , cuantila de ordin 1 − α pentru funcţia lui Kolmogorov. Aceasta cuuantila verifica
relatia K(λ1−α ) = 1 − α.
• Se calculează dn = max |Fn∗ (x) − F(x)|;
x √
• Dacă dn satisface inegalitatea n dn < λ1−α , atunci admitem ipoteza (H0 ), altfel o respingem.
Exerciţiu 5.1 (test de verificare a normalităţii)
Considerăm selecţia {−2; −0.5; 0; 1; 1; 2; 2; 3}, extrasă dintr-o anumită colectivitate. La nivelul
de semnificaţie α = 0.1, să se decidă dacă
√ populaţia din care provine selecţia este normală de
medie 1 şi dispersie 2 (i.e., X ∼ N (1, 2)).
Soluţie: (folosim testul Kolmogorov-Smirnov) Mai întâi, calculăm funcţia de repartiţie
empirică. Avem:



 0, dacă x < −2;
1
dacă x ∈ [−2, −0.5);

8,




 28 , dacă x ∈ [−0.5, 0);



Fn∗ (x) = P(X ≤ x) = 38 , dacă x ∈ [0, 1);
5

8, dacă x ∈ [1, 2);




7




 8, dacă x ∈ [2, 3);

1, dacă x ≥ 3.

Pentru α = 0.1 şi n = 8, căutăm în tabelul pentru inversa funcţiei lui Kolmogorov acel x1−α; 8 =
x0.9; 8 astfel încât K(x1−α; 8 ) = 1 − α. Găsim că x0.9; 8 = 0.411.
5.1 Tipuri de teste statistice 71

Pe de altă parte, F(x) = Θ( x−1 √ ), unde Θ(x) este funcţia de repartiţie pentru legea normală
2
N (0, 1). √ √
Ipoteza că X urmează repartiţia normală N (1, 2) este acceptată dacă n dn < x1−α . Calculele
pentru determinarea valorii dn sunt date de Tabelul 5.4. În Figura 5.1, putem observa reprezentările
acestor două funcţii pentru setul de date observate.

xi −∞ −2 −0.5 0 1 2 3 ∞
F(xi ) 0 0.0169 0.1444 0.2398 0.5 0.7602 0.9214 1
Fn∗ (xi − 0) 0 0 0.125 0.25 0.375 0.625 0.875 1
Fn∗ (xi ) 0 0.125 0.25 0.375 0.625 0.875 1 1
|Fn∗ (xi − 0) − F(xi )| 0 0.0169 0.0194 0.0102 0.125 0.1352 0.0464 0
|Fn∗ (xi ) − F(xi )| 0 0.1081 0.1056 0.1352 0.125 0.1148 0.0786 0

Tabela 5.4: Tabel de valori pentru testul Kolmogorov-Smirnov.

Pentru a calcula dn , notăm faptul că cea mai mare diferenţă între F(x) şi Fn∗ (x) poate fi realizată
ori înainte de salturile funcţiei Fn∗ , ori după acestea, i.e.,
(
|F(xi ) − Fn∗ (xi − 0)|, înainte de saltul i;
sup |F(x) − Fn∗ (x)| = max
x∈R i |F(xi ) − Fn∗ (xi + 0)|, după saltul i.
√ √
Din tabel, observăm că dn = 0.1352. Deoarece n · dn = 8 · 0.1352 = 0.3824 < 0.411, conclu-
zionăm că putem accepta ipoteza (H0 ) la pragul de semnificaţie α = 0.1.
Observaţia 5.1 În cazul în care avem de comparat două repartiţii, procedăm astfel. Să presupu-
nem că Fm∗ (z) este funcţia de repartiţie empirică pentru o selecţie de volum m dintr-o populaţie
ce are funcţia teoretică de repartiţie F(z)) şi că G∗n (z) este funcţia de repartiţie empirică pentru o
selecţie de volum n dintr-o populaţie ce are funcţia teoretică de repartiţie G(z). Dorim să testăm

(H0 ) : F = G versus (H1 ) : F 6= G.

(eventual, în (H1 ) putem considera F > G sau F < G.) Considerăm statistica

dm,n = sup |Fm∗ (z) − G∗n (z)|,


z

ce reprezintă diferenţa maximă între cele două funcţii (vezi Figura 5.2). Etapele testului urmează
îndeaproape pe cele din testul K-S cu o singură selecţie. Decizia se face pe baza criteriului
r
mn
dm,n < qα .
m+n
Testul Kolmogorov-Smirnov pentru două selecţii este unul dintre cele mai utile teste de contin-
genţă pentru compararea a două selecţii. Acest test nu poate specifica natura celor două repartiţii.

Etapele aplicării testului lui Kolmogorov-Smirnov pentru două selecţii:


• Se dau α, x1 < x2 < · · · < xm şi y1 < y2 < · · · < yn . Considerăm cunoscute (intuim) F(x) şi G(x);
• Ipotezele statistice sunt:
(H0 ) F = G vs. (H1 ) F 6= G.
72 Capitolul 5. Teste statistice

• Determinam pragul teoretic qα corespunzator valorii α din tabelul urmator:

α 0.10 0.05 0.025 0.01 0.005 0.001


qα 1.22 1.36 1.48 1.63 1.73 1.95

• Se calculează dm,n = sup |Fm∗ (z) − G∗n (z)|.


z q
mn
• Dacă dm,n satisface inegalitatea m+n dm,n < qα , atunci admitem ipoteza (H0 ), altfel ipoteza nulă
este respinsă la acest prag de semnificaţie.

Figura 5.1: Fn∗ (x) şi F(x) pentru testul Figura 5.2: Exemplu de funcţiile empirice
Kolmogorov-Smirnov cu o selectie. de repartiţie în testul K-S cu două selecţii.
6. Corelaţie şi regresie

6.1 Punerea problemei


În acest capitol vom discuta măsuri şi tehnici de determinare a legăturii între două sau mai
multe variabile aleatoare. Primele metode utilizate în studiul relaţiilor dintre două sau mai multe
variabile au apărut de la începutul secolului al XIX-lea, în lucrările lui Legendre1 şi Gauss2 , în
ce priveşte metoda celor mai mici pătrate pentru aproximarea orbitelor astrelor în jurul Soarelui.
Un alt mare om de ştiinţă al timpului, Francis Galton3 , a studiat gradul de asemănare între copii
şi părinţi, atât la oameni, cât şi la plante, observând că înălţimea medie a descendenţilor este
legată liniar de înălţimea ascendenţilor. Este primul care a utilizat conceptele de corelaţie şi
regresie ( (lat.) regressio - întoarcere). Astfel, a descoperit că din părinţi a căror înălţime este
mai mică decât media colectivităţii provin copii cu o înălţime superioară lor şi vice-versa. Astfel,
a concluzionat că înălţimea copiilor ce provin din părinţi înalţi tinde să "regreseze" spre înălţimea
medie a populaţiei. Din lucrările lui Galton s-a inspirat un student de-al său, Karl Pearson, care
a continuat ideile lui Galton şi a introdus coeficientul (empiric) de corelaţie ce îi poartă numele.
Acest coeficient a fost prima măsură importantă introdusă ce cuantifica tăria legăturii dintre două
variabile ale unei populaţii statistice.
Un ingredient fundamental în studiul acestor două concepte este diagrama prin puncte, aşa-numita
scatter plot. În probleme de regresie în care apare o singură variabila răspuns şi o singură
variabilă observată, diagrama scatter plot (răspuns vs. predictor) este punctul de plecare pentru
studiul regresiei. O diagramă scatter plot ar trebui reprezentată pentru orice problemă de analiză
regresională; aceasta va oferi o primă idee despre ce tip de regresie vom folosi. Exemple de astfel
de diagrame sunt cele din Figura 3.2.
Regresia este o metodă statistică utilizată pentru descrierea naturii relaţiei între variabile. De
fapt, regresia stabileşte modul prin care o variabilă depinde de altă variabilă, sau de alte variabile.
1 Adrien-Marie Legendre (1752 − 1833), matematician francez
2 Johann Carl Friedrich Gauss (1777 − 1855), matematician şi fizician german
3 Sir Francis Galton (1822 − 1911), om de ştiinţă britanic
74 Capitolul 6. Corelaţie şi regresie

Analiza regresională cuprinde tehnici de modelare şi analiză a relaţiei dintre o variabilă dependentă
(variabila răspuns) şi una sau mai multe variabile independente. De asemenea, răspunde la
întrebări legate de predicţia valorilor viitoare ale variabilei răspuns pornind de la o variabilă dată
sau mai multe. În unele cazuri se poate preciza care dintre variabilele de plecare sunt importante
în prezicerea variabilei răspuns. Se numeşte variabilă independentă o variabilă ce poate fi
manipulată (numită şi variabilă predictor, stimul sau comandată), iar o variabilă dependentă (sau
variabila prezisă) este variabila care dorim să o prezicem, adică o variabilă cărei rezultat depinde
de observaţiile făcute asupra variabilelor independente.
Să luăm exemplul unei cutii negre (black box) (vezi Fi-
gura 6.1). În aceasta cutie intră (sunt înregistrate) infor-
maţiile x1 , x2 , . . . , xm , care sunt prelucrate (în timpul
prelucrării apar anumiţi parametri, β1 , β2 , . . . , βk ), iar
rezultatul final este înregistrat într-o singură variabila
răspuns, y. Figura 6.1: Black box.
De exemplu, se doreşte a se stabili o relaţie între valoarea pensiei (y) în funcţie de numărul de
ani lucraţi (x1 ) şi salariul avut de-alungul carierei (x2 ). Variabilele independente sunt măsurate
exact, fără erori. În timpul prelucrării datelor sau după aceasta pot apăra distorsiuni în sistem,
de care putem ţine cont dacă introducem un parametru ce să cuantifice eroarea ce poate apărea
la observarea variabilei y. Se stabileşte astfel o legătură între o variabilă dependentă, y, şi una
sau mai multe variabile independente, x1 , x2 , . . . , xm , care, în cele mai multe cazuri, are forma
matematică generală

y = f (x1 , x2 , . . . , xm ; β1 , β2 , . . . , βk ) + ε, (6.1.1)

unde β1 , β2 , . . . , βk sunt parametri reali necunoscuţi a priori (denumiţi parametri de regresie) şi ε
este o perturbaţie aleatoare. În cele mai multe aplicaţii, ε este o eroare de măsură, considerată
modelată printr-o variabilă aleatoare normală de medie zero. Funcţia f se numeşte funcţie de
regresie. Dacă aceasta nu este cunoscută a priori, atunci poate fi greu de determinat iar utilizatorul
analizei regresionale va trebui să o intuiască sau să o aproximeze utilizând metode de tip trial and
error (prin încercări). Dacă avem doar o variabila independentă (un singur x), atunci spunem că
avem o regresie simplă. Regresia multiplă face referire la situaţia în care avem multe variabile
independente.
Dacă observarea variabilei dependente s-ar face fără vreo eroare, atunci relaţia (6.1.1) ar deveni
(cazul ideal):

y = f (x1 , x2 , . . . .., xm ; β1 , β2 , . . . , βk ). (6.1.2)

Forma vectorială a dependenţei (6.1.1) este:

y = f (x; β ) + ε. (6.1.3)

Pentru a o analiză completă a regresiei (6.1.1), va trebui sa intuim forma funcţiei f şi apoi să
determinăm (aproximăm) valorile parametrilor de regresie. În acest scop, un experimentalist va
face un număr suficient de observaţii (experimente statistice), în urma cărora va aproxima aceste
valori. Dacă notăm cu n numărul de experimente efectuate, atunci le putem contabiliza pe acestea
în următorul sistem stochastic de ecuaţii:

yi = f (x, β ) + εi , i = 1, 2, . . . , n. (6.1.4)
6.1 Punerea problemei 75

În ipoteze uzuale, erorile εi sunt variabile aleatoare identic repartizate normal, independente de
medie µ = 0 si deviatie standard σ > 0. Astfel, sistemul (6.1.4) cu n ecuaţii are necunoscutele
{β j } j şi σ .
În cazul în care numărul de experimente este mai mic decât numărul parametrilor ce trebuie
aproximaţi (n < k), atunci nu avem suficiente informaţii pentru a determina aproximările. Dacă
n = k, atunci problema se reduce la a rezolva n ecuaţii cu n necunoscute. În cel de-al treilea caz
posibil, n > k, atunci avem un sistem cu valori nedeterminate.

Exemple de regresii:

În funcţie de forma funcţiei de regresie f , putem avea:


• regresie liniară simplă, în cazul în care avem doar o variabilă independentă şi

f (x; β ) = β0 + β1 x.

• regresie liniară multiplă, dacă

f (x; β ) = β0 + β1 x1 + β2 x2 + · · · + βm xm .

• regresie pătratică multiplă (cu două variabile), dacă

f (x; β ) = β0 + β1 x1 + β2 x2 + β11 x12 + β12 x1 x2 + β22 x22 .

• regresie polinomială, dacă

f (x; β ) = β0 + β1 x + β2 x2 + β3 x3 + · · · + βk xk .

Vom avea regresie pătratică pentru k = 2, regresie cubică pentru k = 3 etc.


• regresie exponenţială, când
f (x; β ) = β0 eβ1 x .
• regresie logaritmică, dacă
f (x; β ) = β0 · logβ1 x.
• şi altele.
De remarcat faptul că primele patru modele sunt liniare în parametri, pe când ultimele două nu
sunt liniare în parametri. Modelele determinate de aceste funcţii se vor numi modele de regresie
(curbe, suprafeţe etc).
În cadrul analizei regresionale, se cunosc datele de intrare, {xi }i , şi căutăm să estimăm parametrii
de regresie {β j } j şi deviaţia standard a erorilor, σ . De regula, functia f este necunoscută si va
trebui sa fie intuită de statistician.
7. Metode de interpolare spaţială

Dupa cum am mentionat anterior, in Geostatistica, datele observate sunt legate de pozitie. Spunem
astfel ca au un caracter spatial. Pozitia spatiala poate fi unu, doi sau trei-dimensionala. Vom
considera aici doar date bi-dimensionale. Vom nota generic cu x = (ζ1 , ζ2 ) vectorul de coordonate
bidimensionale. tre aceste metode, distingem metodele deterministe si cele geostatistice (sau
stochastice). In cazul metodelor deterministe nu se tine cont de erorile cu care pot fi colectate
masuratorile si de corelatiile dintre valorile masurate. In cazul metodelor stochastice, tinem cont
de erorile masuratorilor si de corelatiile dintre date.

7.1 Metode deterministe de interpolare spatiala


Generic, vom nota prin b
z o valoare prezisa a variabilei Z. O formula generala de estimare a valorii
z0 = z(x0 ) pe baza masuratorilor este media ponderata:

n
z(x0 ) = ∑ λi z(xi ),
b (7.1.1)
i=1

unde λi sunt ponderile ce trebuie determinate.

1. Metoda diagramei Voronoi (sau Thiessen, sau Dirichlet): Pentru un camp aleator R, vom
numi o diagrama Voronoi indusa de un set de locatii x1 , x2 , . . . , xn (numite si situri) o
diviziune a lui R in subregiuni, astfel incat pentru fiecare locatie, regiunea care o contine
este formata din punctele cele mai apropiate locatiei. Pentru fiecare punct xi , sa notam cu Vi
regiunea ce o contine. Se considera ca zi este valoarea variabilei Z pentru fiecare locatie din
regiunea Vi .
78 Capitolul 7. Metode de interpolare spaţială
In cazul unei diagrame Voronoi, se pot considera ponde-
rile λi ca fiind
(
1 , daca xi ∈ Vi ,
λi =
0 , daca xi ∈
6 Vi .

Totusi, astfel de predictii sunt grosiere, deoarece in


fiecare subregiune avem doar o valoare si nicio indicatie
a erorii cu care a fost observata. De asemenea, nu se tine
cont de configuratia locatiilor masuratorilor.
Figura 7.1: O diagrama Voronoi
2. Metoda triangularii (Delaunay):
Pentru o regiune R in care avem un set de locatii x1 , x2 , . . . , xn , o triangulare Delaunay este
o impartire a regiunii R in subregiuni triunghiulare, astfel incat nicio locatie data nu se afla
in cercul circumscris vreunui triunghi din diviziune.

O astfel de triangulare este unica pentru un set de locatii


aflate in pozitie generala (nu se afla pe o aceeasi linie).
In cazul unei triangulari, ponderile pentru fiecare regiune
triunghiulara sunt obtinute prin interpolarea liniara a co-
ordonatelor varfurilor triunghiului. Aceasta forma de
interpolare este mai buna decat cea anterioara, dar nu su-
ficient de folositoare. De asemenea, o predictie folosind
aceasta metoda nu tine cont de erorile de masurare.

Figura 7.2: O triangulare Delaunay


3. Metoda vecinilor naturali:
Este o metoda de interpolare introdusa de matematicianul Robin Sibson, care se bazeaza
pe diagrama Voronoi. Pe baza locatiilor unde au fost facute masuratori, se construieste
diagrama Voronoi.

Presupunem ca se doreste prezicerea valorii z0 a varia-


bilei Z intr-o alta locatie decat cea deja observata, fie ea
x0 . Pe baza locatiilor x0 , x1 , . . . , xn , se construieste o alta
diagrama Voronoi, care incorporeaza si aceasta noua lo-
catie. Vom nota cu A aria regiunii care contine locatia x0
(este regiunea hasurata din Figura 7.3) si, pentru fiecare
i, notez cu Ai intersectia regiunii care contine pe x0 cu
regiunea ce contine locatia xi din vechea retea Voronoi.
Presupunem ca regiunea de arie A intersecteaza r astfel
de regiuni. In mod clar, avem ca A1 + A2 + . . . + Ar = A. Figura 7.3: Diagrama pentru
metoda vecinilor
Ponderile λi sunt considerate astfel:

Ai
λi = ,
A1 + A2 + . . . + Ar
7.1 Metode deterministe de interpolare spatiala 79

unde suma se face dupa indicii locatiilor invecinate locatiei x0 . Astfel, ponderea λi va fi
nenula daca locatia xi este vecin natural cu x0 , si λi = 0 daca xi nu este vecin natural cu x0 .

4. Metoda ponderilor inverselor distantelor:

Notam cu di distanta dintre punctele xi si x0 . Aceasta metoda foloseste interpolarea (7.1.1)


cu ponderile
di−r
λi = n , i = 1, 2, . . . , n,
−r
∑ di
i=1
unde r > 0 este o valoare aleasa de investigator. Valoarea cea mai utilizata este r = 2.
Rezultatul acestei interpolari este ca punctele mai apropiate de punctul de interpolare au
o pondere mai mare decat cele mai indepartate. Cu cat r este mai mare, cu atat ponderea
punctelor apropiate creste. Astfel, valoarea variabilei in locatia x0 poate fi estimata prin:
di−r
n
zi , daca di 6= 0,

∑ n


i=1 −r
bz(x0 ) = ∑ di


 i=1
zi , daca di = 0.

Pentru r = 2, valoarea variabilei in locatia x0 poate fi estimata prin:


n

 λi zi , daca distanta dintre xi si x este nenula,
b

z(x0 ) = i=1
0

 zi , daca distanta dintre xi si x0 este0,
unde
1
di2
λi = , pentru fiecare i = 1, 2, . . . , n.
1 1 1
2
+ 2 +···+ 2
d1 d2 dn
Un mare dezavantaj al acestui tip de interpolare este ca nu tine cont de configuratia selectiei
alese.

5. Metoda determinarii suprafetelor de raspuns (regresie sau trend):

Aceasta metoda este asemanatoare cu metoda regresiei multiple. Sa presupunem ca dorim


sa dorim sa prezicem valorile pe care o variabila Z le ia intr-o anumita regiune R pe baza
masuratorilor facute in n locatii din aceasta regiune. Sa presupunem ca aceste locatii sunt
x1 , x2 , . . . , xn . Deoarece aceste puncte sunt planare, pentru a determina exact fiecare locatie
este nevoie de cate doua coordonate. Vom nota generic prin (xi1 , xi2 ) coordonatele locatiei
xi , pentru fiecare i = 1, 2, . . . , n. Dorim sa prezicem valoarea variabilei Z intr-o locatie
generica x din R, tinand cont de valorile cunoscute z(x1 ), z(x2 ), . . . , z(xn ). Presupunem ca
pentru locatia x avem coordonatele (x1 , x2 ). In general, valoarea prezisa de o suprafata de
raspuns va fi de forma:
z(x) := z(x1 , x2 ) = f (x1 , x2 ) + εx , (7.1.2)
80 Capitolul 7. Metode de interpolare spaţială

unde f (x) este o functie de coordonatele spatiale ale locatiei investigate si εx este o eroare
de masurare. Aceasta eroare este presupusa a fi normala, de medie 0 si deviatie standard σ .
Mai mult, se presupune ca erorile observate in diferite locatii sa fie independente intre ele.
Exemple de suprafete de trend:
• (trend liniar, adica un plan):

f (x1 , x2 ) = β0 + β1 x1 + β2 x2 .

• (trend cuadratic pur):

f (x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 x12 + β4 x22 .

• (trend cuadratic cu interactiuni):

f (x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 x1 x2 + β4 x12 + β5 x22 .

• (trend cubic):
f (x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 x1 x2 + β4 x12 + β5 x22 + β6 x12 x2 + β7 x1 x23 + β8 x13 + β9 x23 .
Pe baza masuratorilor deja facute, se estimeaza parametrii βi , obtinandu-se astfel suprafata
de raspuns care se apropie cel mai mult de datele observate. O metoda de estimare a acestor
parametri este metoda celor mai mici patrate (se minimizeaza supa patratelor erorilor de
aproximare). De indata ce acesti coeficienti (se mai numesc si coeficienti de regresie) sunt
determinati, vom cunoaste forma exacta a functiei f (x1 , x2 ), si astfel putem estima valoarea
variabilei in locatia x = (x1 , x2 ) prin

z(x) = f (x1 , x2 ).
b

Spre exemplu, in cazul unui trend liniar cu β0 , β1 , β2 cunoscuti, estimam b


z(x) prin

z(x) = β0 + β1 x1 + β2 x2 .
b

De indata ce functia de regresie f este determinata si parametrii sunt estimati pe baza


observatiilor, se poate folosi modelul de regresie in predictii in locatii de unde nu s-au
facut masuratori. Insa, aceste predictii trebuie folosite cu mare atentie, deoarece estimarile
pot fi total neadecvate in cazul in care locatiile sunt din afara regiunii (ariei) acoperite de
observatii.

6. Metoda functiilor spline

O functie spline este o functie definita pe portiuni, iar in fiecare portiune avem un polinom.
Daca toate polinoamele au grad unu, vom spune ca avem o functie spline liniara, daca
toate polinoamele au gradul doi, atunci avem o functie spline patratica etc. Pentru un
set de locatii, putem determina o functie spline care interpoleaza aceste valori. Pe baza
acestei functii putem estima valoarea unei variabile intr-o locatie x0 prin valoarea functiei
in x0 . Interpolarea cu functii spline a fost introdusa de matematicianul roman Isaac Jacob
Schoenberg care a sustinut teza sa de doctorat la Universitatea din Iasi in 1926.
7.1 Metode deterministe de interpolare spatiala 81

Figura 7.4: Funcţii spline


8. Procese stochastice spaţiale

Pentru o regiune R, dorim sa caracterizam varabila de interes Z. In acest scop, se considera un set
de locatii x1 , x2 , . . . , xn . Valorile variabilei in aceste locatii sunt masurate, obtinandu-se valorile
z(x1 ), z(x2 ), . . ., z(xn ). In realitate, aceste masuratori sunt facute cu anumite erori, fapt care ne
indreptateste sa consideram variabilele aleatoare Z(x1 ), Z(x2 ), . . . , Z(xn ). In mod generic, prin
Z(xi ) intelegem variabila Z in locatia xi , iar z(xi ) este o valoare observata a sa. Pentru fiecare
locatie x din campul R, variabila Z(x) este o variabila aleatoare care are o anumita repartitie care
poate sa difere in functie de locatie.
Sirul de variabile aleatoare {Z(x); x ∈ R} se numeste proces stochastic sau câmp aleator sau
functie aleatoare.

Acesta este un sir infinit, deoarece exista o infinitate


de locatii x intr-o regiune. O realizare a functiei
aleatoare (sau variabila regionalizata) este formata
din multimea valorilor obtinute in urma unei masurari
a fiecarei variabile in parte. Este cunoscut faptul ca
valorile observate in locatii apropiate sunt apropiate
iar cele observate in locatii indepartate sunt diferite,
aceasta insemnand ca aceste variabile Z(xi ) sunt
corelate intre ele. Acest aspect nu este comun
Statisticii clasice, unde variabilele ce corespund
selectiei sunt independente intre ele si, mai mult,
identic repartizate. In Figura 8.1 am reprezentat 5
realizari ale unui proces stochastic. Figura 8.1: 5 realizari ale unei functii
aleatoare
Un camp aleator este cunoscut in totalitate daca pentru orice configuratie de locatii, z(x1 ), z(x2 ), . . .,
z(xn ), s-ar cunoaste repartitia variabilei vectoriale n−dimentionale V (x) = (Z(x1 ), Z(x2 ), . . . , Z(xn )),
lucru care este practic imposibil. In unele cazuri se poate presupune ca repartitia vectorului V (x)
84 Capitolul 8. Procese stochastice spaţiale

este normala n−dimensionala, caz in care cunoastem mediile, dispersiile si corelatiile dintre
componentele vectorului. Insa, din nou, acest caz este doar un un caz particular. In cazul general
este greu de prezis repartitia exacta a acestui vector, dar putem face anumite presupuneri legate de
momentele variabilelor ce-l compun.
Presupunem ca variabila de interes, Z, admite valoare medie in orice locatie x. Pentru a descrie re-
latia intre doua variabile Z(xi ) si Z(x j ) (unde locatiile xi si x j sunt diferite), vom utiliza conceptele
de covarianta si corelatie. Reamintim aceste doua concepte in cazul variabilelor spatiale.
Pentru doua locatii x1 si x2 din R, definim covarianţa variabilelor Z(x1 ) şi Z(x2 ), notată prin
cov(x1 , x2 ), cantitatea

cov(Z(x1 ), Z(x2 )) = E[(Z(x1 ) − µ(x1 ))(Z(x2 ) − µ(x2 )], (8.0.1)

unde µ(x1 ) si µ(x2 ) sunt mediile variabilelor in locatiile x1 , respectiv, x2 .


Covarianta detectează doar dependenţe liniare între două variabile aleatoare. Daca cele doua
locatii coincid (scriem ca x1 = x2 = x), atunci obtinem varianta a priori a procesului:

cov(Z(x), Z(x)) = E[(Z(x) − µ)(Z(x) − µ)] = E[(Z(x) − µ)2 ] = σZ(x)


2
.

O măsură (adimensionala) a corelaţiei dintre două variabile este coeficientul de corelaţie (sau
corelatia, in unele carti). Acesta este utilizat ca fiind o măsură a dependenţei liniare între două
variabile. Se numeşte corelaţie a variabilelor Z(x1 ) şi Z(x2 ) cantitatea

cov(Z(x1 ), Z(x2 ))
ρ= ,
σ1 σ2

unde σ1 si σ2 sunt deviatiile standard pentru Z(x1 ), respectiv, Z(x2 ).


Un estimator pentru covarianta variabilelor Z(x1 ) şi Z(x2 ), bazat pe un set de n observatii perechi,
{(z1,1 , z2,1 ), (z1,2 , z2,2 ), . . . , (z1,n , z2,n )}, este:

1 n
c 1 , x2 ) =
cov(x ∑ [(z1,i − z1)(z2,i − z2)],
n i=1

unde z1 si z2 sunt mediile pentru fiecare selectie in parte..


Dupa cum se observa din relatia (8.0.1), pentru a evalua covarianta variabilelor Z(x1 ) şi Z(x2 )
avem nevoie de mediile acestor variabile. Din pacate, aceste valori nu sunt cunoscute. Pentru a
simplifica formula, trebuie sa facem presupuneri suplimentare. Una dintre acestea este legata de
invarianta mediei µ(x) de locatia x, pe care o tratam in cele ce urmeaza.

8.1 Procese stochastice stationare


Stationaritatea este o presupunere fundamentala in Geostatistica. Un proces stochastic (functie
aleatoare) {Z(x); x ∈ R} se numeste proces stationar daca repartitia variabilei Z(x) nu depinde
de locatia x. Cu alte cuvinte, daca pentru orice configuratie de locatii, x1 , x2 , . . ., xn , repartitia
variabilei vectoriale n−dimentionale V (x) = (Z(x1 ), Z(x2 ), . . . , Z(xn )) este independenta de lo-
catii. Aceasta inseamna ca pentru orice locatie x, variabila Z(x) urmeaza aceeasi repartitie. O
consecinta a acestui fapt este ca media µ(x), dispersia σ 2 (x), dar si momentele de ordin superior
8.2 Functia de covarianţă 85

(daca ele exista!) sunt independente de locatie. Scriem asta astfel: µ(x) = µ, σ 2 (x) = σ 2 , pentru
orice locatie x. Daca procesul aleator Z(x) este stationar, atunci putem scrie ca

Z(x) = µ + ε(x),

unde ε(x) sunt erori normal repartizate, ε(x) ∼ N (µ, σ ), pentru orice x din regiune.
Totusi, stationaritatea procesului este o ipoteza prea restrictiva in Geostatistica, deoarece in
general repartitia variabilei Z depinde de locatie. Pentru a indeparta acest inconvenient, vom
face o presupunere mai putin restrictiva (mai slaba), si anume ca procesul aleator sa admita doar
momente de ordinul 1 si 2 independente de locatie.
Suntem in cazul in care procesul stationar admite momente de ordinul intai si doi (adica, medie,
dispersie, covarianta). Un proces stochastic (functie aleatoare) {Z(x); x ∈ R} se numeste proces
slab stationar sau stationar de ordinul doi daca media procesului, varianta si covariantele nu
variaza cu locatia, iar covariantele depind doar de distanta dintre valori (lag) si nu de valorile in
sine. Valoarea lag este un vector care reprezinta distanta si directia dintre doua locatii. Matematic,
scriem astfel:

µ(x) = µ, σ 2 (x) = σ 2 , cov(Z(xi ), Z(x j )) = C (xi − x j ), pentru orice locatie x ∈ R,

unde C (xi − x j ) este o functie ce depinde doar de xi − x j si pe care o vom preciza la momentul
potrivit. Aceasta functie ne va spune cum sunt corelate valorile din doua locatii ale variabilei Z.

8.1.1 Ergodicitate
Dupa cum am vazut mai sus, un set de date statistice este doar un set de masuratori pe care le-am
observat dintr-o infinitate de posibile realizari ale unei functii aleatoare. Pentru a avea o idee cat
mai fidela despre functia aleatoare, ar fi necesar sa avem foarte multe astfel de realizari (variabile
regionalizate). In practica poate fi imposibil de obtinut, asa ca va trebui sa ne multumim doar cu o
singura variabila regionalizata.
Un proces stochastic se numeste proces ergodic daca proprietatile sale statistice (e.g., media,
varianta, momente) pot fi deduse dintr-o singura realizare (variabile regionalizate), de volum
suficient de mare. In Geostatistica, ergodicitatea este doar o presupunere si, in general, nu poate fi
testata.

8.2 Functia de covarianţă


Un rezultat important ar fi sa descriem covarianta dintre variabilele Z(x1 ) şi Z(x2 ) macar intr-un
caz restrictiv, dar nu foarte simplist. Sa presupunem ca functia aleatoare Z(x) este stationara
de ordinul al doilea si, pentru doua locatii x1 si x j din R, sa notam variabila lag cu h = xi − x j .
Deoarece functia aleatoare este slab stationara, covariantele vor depinde doar de lag si nu de
pozitii. Pentru o locatie x generica, vom scrie ca:
cov(Z(x), Z(x + h)) = E[(Z(x) − µ) · (Z(x + h) − µ)]
= C (h).
Functia C (h) se va numi functia de covarianta. De multe ori, i se atribuie denumirea de functie
de autocovarianta, deoarece in calcularea covariantei apare aceeasi variabila, desi in diverse
86 Capitolul 8. Procese stochastice spaţiale

locatii. Aceasta functie descrie legatura dintre valorile variabilei Z atunci cand se schimba locatia.
Unitatea de masura a functiei de covarianta este unitatea de masura pentru variabila Z. Pentru un
proces stationar, functia de covarianta define
C (h) = E[(µ + ε(x) − µ) · (µ + ε(x + h) − µ)] = E[ε(x) · ε(x + h))].
Pentru a adimensionaliza relatia dintre valorile variabilei Z in diferite locatii, se foloseste valoarea
urmatoare:
C (h) C (h)
ρ(h) = = ,
C (0) σ2
unde prin C (0) am notat covarianta pentru valoarea de lag h = 0. Functia ρ(h) se numeste functie
de corelatie sau corelograma.

8.3 Variograma
O alta notiune fundamentala in Geostatistica este variograma. Aceasta va reprezenta variabilitatea
(continuitatea) variabilei spatiale in functie de variabila lag h. Este posibil ca doua variabile, sa le
numim Z1 si Z2 , sa aiba parametrii teoretici foarte apropiati sau chiar identici (vezi Tabelul 8.1
pentru aproximarile parametrilor respectivi si Figura 8.2 pentru o reprezentare cu histograme a
datelor observate), si totusi repartitiile lor sa arate complet diferit. Dupa cum se poate observa din
Figura 8.3, repartitiile celor doua variabile sunt complet diferite. Se poate observa ca reprezentarea
variabilei Z2 este mai "grosiera" decat cea reprezentata de variabila Z1 . Variabila Z1 se modifica
mai rapid in spatiu, pe cand, pentru a doua variabila, exista regiuni mai vaste in care valorile
variabilei par a fi neschimbate. Totodata, nu putem spune ca Z2 are o variatie mai mare decat Z1 ,
deoarece varianţele sunt egale. Mai mult, deoarece mediile sunt egale, atunci si coeficientii de
variatie sunt egali.
valori numerice variabila Z1 variabila Z2
media x 101 101
mediana Me 100.73 100.80
varianţa s2 400 400
prima cuartila q1 87.3 87.93
a treia cuartila q3 116.3 116.78
volumul n 15625 15625

Tabela 8.1: Valori numerice pentru doua


variabile spatiale
8.3 Variograma 87

Figura 8.2: Reprezentarile cu histograme pentru cele doua variabile

Figura 8.3: Reprezentarile 2D pentru variabilele Z1 si Z2

In acest caz, valorile numerice asociate celor doua seturi de date nu pot identifica variabilitatea
celor doua caracteristici. Daca am fi luat o decizie doar bazandu-ne pe valorile din Tabelul 8.1,
am fi cochis ca Z1 si Z2 au aceeasi repartitie, concluzie care este evident falsa.
Pentru a putea descrie (explica) aceasta variabilitate, este nevoie reprezentarile variogramelor
asociate celor doua variabile. In Figura 8.4, se observa ca variogramele asociate celor doua
variabile difera.

Figura 8.4: Reprezentarile variogramelor empirice si teoretice pentru variabilele Z1 si Z2

Vom discuta aici despre 3 tipuri de variograme: variograma teoretica, variograma regionala si
variograma empirica. Variograma teoretica este variograma bazata pe toate realizarile posibile ale
unei variabile spatiale. Cum o variabila spatiala are, in general, o infinitate de realizari, aceasta
variograma este imposibil de obtinut in practica. Variograma empirica este cea construita pe
baza masuratorilor observate. Este o estimare a variogramei teoretice. Plecand de la variograma
empirica, vom face inferente referitoare la variograma teoretica. Variograma regionala este
variograma formata cu o anumita realizare a procesului stochastic intr-o regiune finita, daca am
avea acces la toate informatiile legate de acea regiune. Variograma teoretica este o medie a tuturor
variabilelor regionale legate de procesul stochastic studiat.
Daca procesul stochastic Z(x) nu este stationar, atunci E(Z(x)) = µ(x) depinde de locatie si
Var(Z(x)) poate creste fara limita in cazul in care regiunea este mare. Georges Matheron a cautat
88 Capitolul 8. Procese stochastice spaţiale

sa rezolve aceasta problema prin considerarea unor ipoteze simplificatoare. Cel putin pentru valori
mici ale valorii lag |h|, media variatiei procesului stochastic intre doua locatii x si x + h este 0,
iar dispersia acestei variatii este dependenta doar de h, independenta de locatie. Cu alte cuvinte,
procesul stochastic se comporta ca un proces stationar de ordinul al doilea. Matematic, vom scrie
astfel:
E[Z(x + h) − Z(x)] = 0; (8.3.2)
si
E[(Z(x + h) − Z(x))2 ] = 2γ(h), (8.3.3)
unde γ(h) este o functie ce depinde doar de h. Aceasta functie se numeste variograma. Prin
definitie, formula pentru variograma este:
1
γ(h) = Var[Z(x + h) − Z(x)]. (8.3.4)
2
Deoarece E[Z(x + h) − Z(x)] = 0 si

Var[Z(x + h) − Z(x)] = E[(Z(x + h) − Z(x))2 ] − (E[Z(x + h) − Z(x)])2 ,

gasim va variograma poate fi exprimata si astfel:


1
γ(h) = E[(Z(x + h) − Z(x))2 ]. (8.3.5)
2
Daca variabila Z(x) este 1-dimensionala (x = x, h = h), atunci formula din definitie se scrie astfel:

1
γ(h) = Var[Z(x + h) − Z(x)]. (8.3.6)
2
Daca variabila Z(x) este 2-dimensionala (x = (x1 , x2 ), h = (h1 , h2 )), atunci formula din definitie
se scrie astfel:
1
γ(h) = Var[Z(x1 + h1 , x2 + h2 ) − Z(x1 , x2 )]. (8.3.7)
2
Daca variabila Z(x) este 3-dimensionala (x = (x1 , x2 , x3 ), h = (h1 , h2 , h3 )), atunci formula din
definitie se scrie astfel:
1
γ(h) = Var[Z(x1 + h1 , x2 + h2 , x3 + h3 ) − Z(x1 , x2 , x3 )]. (8.3.8)
2
Datorita termenului 1/2 din fata, se mai foloseste si termenul (in unele carti) de semivariograma.
Legatura sa cu functia de covarianta este urmatoarea:

γ(h) = C(0) − C(h). (8.3.9)

Legatura variogramei cu corelatia (sau it corelograma) este data de:

γ(h) = σ 2 [1 − ρ(h)]. (8.3.10)

In Geostatistica, o variograma poate fi caracterizata de urmatorii parametri:


8.4 Modelarea variogramei teoretice 89

1. sill, care este valoarea asimptotica a variogramei, adica valoarea dupa care nu mai exista
crestere. Este egala cu C(0). Matematic, scriem ca C(0) = lim γ(h). In cuvinte, pentru
h→∞
doua locatii foarte indepartate, covarianta este aproape 0.
2. range, sau prima valoare (daca exista!) pentru lag (h) pentru care variograma atinge valoarea
sill. Aceasta valoare reprezinta, de fapt, distanta dupa care valorile variabilei spatiale nu
mai sunt autocorelate. Asadar, valorile variabilei sunt autocorelate doar pentru un lag h
mai mic decat valoarea range. Zona ce contine locatia x si pentru care valorile lui Z sunt
corelate cu Z(x) se numeste zona de influenta a locatiei x.
3. nugget (sau efectul nugget), ce reprezintă valoarea variogramei pentru h foarte apropiat de
zero, dar nu 0. Aceasta valoare reprezinta eroarea de masurare a variatiei spatiale. Valoarea
nugget poate aparea atunci cand nu exista masuratori culese din locatii foarte apropiate,
care ar putea dovedi continuitatea in h = 0. In cazul in care lim γ(h) = 0, atunci variograma
h&0
va pleca din origine.

Figura 8.5: Variograma si covarianta

Variograma este o unealta importanta in studiul corelatiei datelor spatiale, de aceea este impor-
tanta aproximarea acesteia. Dupa cum vom vedea, exista diverse modele de aproximare pentru
variograma teoretica definita prin formula (8.3.4).

8.4 Modelarea variogramei teoretice


8.4.1 Proprietati ale functiilor de corelatie spatiale
Prezentam mai jos proprietati ale covariantei, corelogramei, sau variogramei:
• γ(0) = 0.
• Cand h creste suficient de mult, γ(h) tinde sa devina constant. Aceasta insemna lipsa de
corelatie intre valorile variabilei din locatii indepartate.
• Variograma γ(h) poate sa nu fie continua doar in h = 0 (origine). In acest caz, saltul
discontinuitatii se numeste efect nugget. Efectul nugget este r = C(0) = Var[Z(x)] = σ 2 > 0.
90 Capitolul 8. Procese stochastice spaţiale

• C(h) = C(−h) si γ(h) = γ(−h) pentru orice lag h, adica functia de corelatie si variograma
sunt functii pare.
• Corelograma are intotdeauna valori intre 0 si 1. Pentru h = 0, gasim ca ρ(0) = C(0)C(0) = 1.
• Functiile C(h) si γ(h) sunt functii continue de h, mai putin, eventual, in origine.
• Matricea de covarianta
 
C(x1 , x1 ) C(x1 , x2 ) · · · C(x1 , xn )
C(x2 , x1 ) C(x2 , x2 ) · · · C(x2 , xn )
 
 .. .. 
 . . ... ··· 
C(xn , x1 ) C(xn , x2 ) · · · C(xn , xn )

este pozitiv definita, in sensul ca toti determinantii minorilor principali sunt nenegativi.
Astfel, variograma este negativ semidefinita.
• Este posibil ca variatia spatiala sa se modifice in functie de directia dintre locatiile x si
x + h, fenomen numit anizotropie. Un exemplu de anizotropie
q este mineralizarea. Daca
x = (x1 , x2 , x3 ) (regiune 3−dimensionala), atunci h = h21 + h22 + h23 si γ(h) va reprezenta
o familie de variograme γ(|h|, α), unde α este directia.
• Ca functie de variabila lag h, variograma creste mai incet decat creste h2 . Daca ar creste
mai rapid decat aceasta functie, aceasta ar indica prezenta unui trend in campul aleator.

Figura 8.6: Diverse tipuri de variograma: (a) nemarginita (procesul nu este slab stationar); (b)
constanta (nu exista corelatii spatiale), (c) fara efect nugget, (d) fluctuanta.

8.4.2 Comportamentul variogramei in jurul originii


Cand variabila lag h se apropie de 0, forma variogramei poate fi una dintre cele reprezentate in
Figura 8.7. Putem avea un comportament liniar care trece prin 0. In acest caz, pentru h suficient
de mic, variograma are forma γ(h) = a|h|. Este posibil ca variograma sa aiba o forma aproximativ
8.4 Modelarea variogramei teoretice 91

liniara cand h este suficient de mic, insa sa nu treaca prin 0. Este cazul figurii (b), in care se
observa efectul nugget. In cazul (c), variograma are o forma parabolica pentru h suficient de mic,
de forma γ(h) = a|h|2 . In figura (c), variograma trece prin 0, dar exista cazuri in care se poate
observa un efect nugget si pentru forma parabolica. O variograma cu un comportament parabolic
in jurul originii sugereaza existenta unui trend in variabila spatiala Z(x).

Figura 8.7: Diverse tipuri de comportament in jurul originii unei variograme:


(a) liniar; (b) efect nugget; (c) parabolic.

8.4.3 Modele de variograma


Nu orice functie care se apropie suficient de mult de variograma empirica poate fi o variograma
teoretica. O variograma teoretica va trebui sa satisfaca anumite conditii, dupa cum urmeaza:
• functia ia doar valori pozitive (mai putin, eventual, in cazul h = 0);
• functia trebuie sa fie crescatoare in h;
• pentru h suficient de mare, functia atinge un maximum (sill);
• uneori, aceasta functie nu porneste din 0, caz in care valoarea γ(0) se numeste efect nugget;
• exista cazuri in care functia fluctueaza periodic (apar zone numite holes);
Modelele de variograma prezentate mai jos sunt modele izotropice, astfel ca functiile depind doar
de h = |h|. Putem construi modele marginite sau nemarginite. Un exemplu de model nemarginit
este urmatorul:
γ(h) = u hα , cu 0 < α < 2,
si u este un numar real ce reprezinta intensitatea variatiei. Constanta α reprezinta curbura. Pentru
α = 1 avem o variograma liniara; pentru 0 < α < 1 avem o variograma concava si pentru α > 1
avem o variograma convexa.
Exista o clasa de modele de variograma teoretica care garanteaza existenta unei solutii unice.
Acestea se numesc modele valide de variograma si sunt urmatoarele:
• modelul exponential, pentru care
h
 

γ(h) = c 1 − e ar  , daca h > 0.

• modelul sferic, pentru care


 "  3 #
c 3h − 1 h

, daca 0 < h ≤ r;
γ(h) = 2r 2 r

c , daca h > r.

92 Capitolul 8. Procese stochastice spaţiale

• modelul Gaussian, pentru care


  2 
1 h

 a r 
1 − e
γ(h) = c   , daca h > 0.

Aici, am notat c = s − n, s = sill, n = nugget si a este o constanta folosita cu diferite valori in


carti. O valoare des folosita este a = 1/3.

Figura 8.8: Modele valide de variograma


Alte modele de variograma:
• modelul liniar marginit, folosit doar pentru variatii intr-o singura dimensiune. Variograma
corespunzatoare este:   
c h , daca 0 < h ≤ r;
γ(h) = r
c , daca h > r.

• modelul circular, pentru care


 " r #
2
 
c 1 − 2 arccos h + 2h 1 − h

, daca 0 < h ≤ r;
γ(h) = π r πr r2

c , daca h > r.

• modelul pentasferic, pentru care


 "  3  5 #
15 h 5 h 3 h
− , daca 0 < h ≤ r;

c +
γ(h) = 8 r 4 r 8 r

c , daca h > r.

• modelul cubic, pentru care


 "  2  3  5  7 #
c 7 h − 35 h + 7 h − 3 h

, daca 0 < h ≤ r;
γ(h) = r 4 r 2 r 4 r

c , daca h > r.

8.4 Modelarea variogramei teoretice 93

• modele compuse;
Acestea pot fi compuse din doua sau mai multe modele de mai sus. Sunt folosite mai ales cand
avem multe date si variogramele par a fi mai complexe. Sunt folosite in special atunci cand
variograma prezinta efect nugget. Exemple: modelul exponential cu nugget, modelul dublu sferic,
modelul dublu exponential etc.
Pentru modelul exponential cu nugget, variograma (cea desenata cu albastru in primul grafic
alaturat) este:
h
 

γ(h) = c0 + c 1 − e ar  , daca h > 0.

Pentru modelul dublu sferic cu nugget (format din compunerea a doua modele sferice plus un
model nugget) desenat in al doilea grafic, variograma (cea desenata cu albastru) este:
"   # "   #
3h 1 h 3 3h 1 h 3

− − , 0 < h ≤ r1 ;


c0 + c1 + c2



 2r1 2 r1 2r2 2 r2
"   #
γ(h) = 3h 1 h 3
c0 + c1 − , r1 < h ≤ r2 ;



 2r1 2 r1

c1 + c2 , h > r2 .

Figura 8.9: Modele compuse

• modelul pure nugget, pentru care


(
0 , daca h = 0;
γ(h) =
c , daca h > 0.

Este modelul desenat in Figura 8.6 (b).


• modele cu functii oscilante (vezi Figura 8.6 (d)), e.g.:
 
sin h
γ(h) = c 1 − .
h
94 Capitolul 8. Procese stochastice spaţiale

8.4.4 Estimator pentru variograma

In practica, un geostatistician are la indemana un set de date spatiale (masuratori), pe baza carora
doreste sa creeze o harta a regiunii de unde au fost facute aceste masuratori, care sa indice variatia
variabilei de interes. Determinarea variogramei este unul dintre lucrurile importante pe care
trebuie sa le intreprinda pentru a-si atinge scopul. Folosind aceste masuratori, el poate estima
variograma procedand astfel.
Presupunem ca valorile masurate (x1 , x2 , . . . xn ):

z1 = z(x1 ), z2 = z(x2 ), . . . , zn = z(xn ).

n(n−1)
orice pereche de locatii (xi , x j ) (exista 2 astfel de perechi), se calculeaza (semi)varianţele:

1
γ(xi , x j ) = [zi − z j ]2 .
2

Reprezentarea grafica a acestora in functie de lag se numeste norul variogramei.


Deoarece este dificil (daca nu imposibil) de examinat variatia spatiala din aceasta reprezentare,
se va face o medie a tuturor variantelor pentru fiecare valoare de lag h, obtinandu-se variograma
empirica.

Figura 8.10: Semivarianţele in functie de lag (norul variogramei)

Pentru a ne face o idee despre cum sunt corelate datele pentru diferite nivele de lag, se pot construi
asa-numitele h−scattergrame. Acestea sunt reprezentari grafice ale valorilor z(x + h) versus z(x)
(vezi Figura 8.11).
8.4 Modelarea variogramei teoretice 95

Figura 8.11: Exemple de h−scattergrame

Pentru un nivel de lag h, calculam


1
γb(h) = ∑ [zi − z j ]2,
2|N(h)| (i, j)∈N(h)
(8.4.11)

unde N(h) reprezinta multimea tuturor perechilor de observatii i, j care satisfac conditia de lag,
|xi − x j | = h si |N(h)| este numarul acestor perechi. In general, valoarea lui h este admisa cu o
anumita toleranta.

Pentru fiecare nivel de lag h, valorile γb(h) le scriem in ordine crescatoare, obtinand astfel vario-
grama empirica (sau variograma experimentala). Formula (8.4.11) este cunoscuta sub numele de
estimator obtinut prin metoda momentelor si a fost introdus de (G. Matheron).

Variograma empirica este un estimator nedeplasat pentru variograma teoretica γ(h). Daca Z(x) este
ergodic, atunci γb(h) → γ(h) cand n → ∞. Un analist nu poate trage concluzii despre variabilitatea
spatiala doar bazandu-se pe variograma experimentala, deoarece variograma experimentala nu
poate prezice valorile variatiei spatiale in locatiile nemasurate a priori. Aceste valori pot fi prezise
doar dupa ce o variograma teoretica este potrivita; pe baza acesteia se utilizeaza metode de kriging
pentru predictie.

8.4.5 Pasi in estimarea variogramei


Constructia unei variograme presupune urmatorii pasi:
96 Capitolul 8. Procese stochastice spaţiale

• Determinam pasul lag, h. Un pas h este practic daca pentru aceasta valoare avem cel putin
30 de perechi (xi , x j ) care sa se situeze la aceasta distanta. Este de dorit ca h sa fie mai mic
decat jumatate din range-ul datelor observate.
• Stabilirea unei tolerante pentru determinarea lui h. Aceasta valoare va preciza acuratetea cu
care o anumita distanta este aproximata cu h. Cu alte cuvinte, toleranta determina latimea
clasei h stabilite.
• Stabilirea numarului de pasi h pentru care vom calcula variograma experimentala;
• Stabilirea unui unghi si determinarea unei tolerante pentru unghi;

Figura 8.12: Construirea variogramei experimentale

• Pentru un h fixat si pentru fiecare pereche de noduri (x, x + h) ale retelei de locatii, calculam
valoarea

1
γb(h) = ∑ [Z(x) − Z(x + h)]2 ,
2|N(h)| (x, x+h)

• Pentru toate valorile lui h, sa spunem ca acestea sunt h1 , h2 , . . . , hm , vom obtine valorile
corespunzatoare γb(h1 ), γb(h2 ), . . . , γb(hm ).
• Reprezentam valorile (hi , γb(hi )) intr-un grafic si obtinem astfel variograma experimentala
(empirica).
• Daca se observa anizotropie, se va repeta procedura pentru un alt unghi, construindu-se
astfel o noua variograma.
8.4 Modelarea variogramei teoretice 97

Figura 8.13: Variograma experimentala (puncte albastre) si cea teoretica (cu linie rosie)
Exemplu: Variograma pentru o singura dimensiune spatiala

Intr-o singura dimensiune, toate locatiile de unde se fac masuratori sunt situate pe o dreapta.
Presupunem ca locatiile masuratorilor, x1 , x2 , . . . , xn , sunt cele din Figura 8.14 (a). Cerculetele
goale reprezinta lipsa de masuratori din respectivele locatii. Figurile 8.14 (b), (c) si (d) arata cum
se formeaza perechile pentru valorile de lag 1, 2, respectiv 3. In cazul 1 dimensional, formula
8.4.11 devine:
n−h
1
γb(h) = ∑ [zi − zi+h ]2 . (8.4.12)
2(n − h) i=1

Pentru h = 1, calculam valoarea γb(1) pentru toate perechile care se afla la o distanta de o lungime,
folosind formula 8.4.12. Similar, pentru h = 2, 3, . . . , n, calculam valoarile γb(2), γb(3), . . . , γb(n),
pentru toate perechile care se afla la o distanta de, respectiv, 2 lungimi, 3 lungimi, etc., n lun-
gimi. Reprezentam grafic valorile γb(1), γb(2), . . . , γb(n) intr-un grafic, obtinand astfel variograma
experimentala 1-dimesionala.

Figura 8.14: Variograma experimentala 1−dimensionala (cerculetele goale sunt locatii neselectate)
98 Capitolul 8. Procese stochastice spaţiale

8.4.6 Sfaturi practice pentru construirea unei variograme


• Priviti in ansamblu datele observate. Pot aparea unele erori de masurare, virgule omise, alte
tipuri de date etc;
• Observati orice tip de clustere in date. In caz ca sunt prezente, trebuie indepartate;
• In cazul in care datele par a nu fi observatii normale, o transformare a lor ar fi necesara (e.g.,
logaritmare);
• Variograma ar trebui determinata in cel putin 3 directii diferite;
• Detectati daca este prezent vreun trend in varianta experimentala. Daca este posibil,
determinati variograma fara trend;
• Verificati prezenta izotropiei.

8.4.7 Indicatorul Akaike


Tendinta unui analist este de a crea modele statistice cat mai apropiate de datele observate. Pentru
a realiza acest deziderat, se poate folosi, spre exemplu, metoda celor mai mici patrate. Daca
modelul este prea simplist (modelul contine putini parametri necunoscuti), rezultatul poate fi unul
nesatisfacator. De aceea, de multe ori in practica suntem tentati sa introducem noi parametri in
model, imbunatatind considerabil apropierea datelor de modelul teoretic. Insa, odata cu cresterea
numarului de parametri, apare problema urmatoare: modelul astfel obtinut va avea performante
foarte slabe in a face predictii. Un model prea complex va ”memora” valorile caracteristicii in
locatiile observate pentru a le reproduce cu precizie, insa nu va avea capabilitati de a prezice valori
pentru date neobservate, nefiind ”antrenat” sa o faca. Daca modelul ar fi fost mai putin complex,
s-ar fi folosit de valorile observate pentru a prezice eventuale valori pentru variabila cercetata.
Indicatorul Akaike realizeaza un compromis intre complexitatea unui model (care, de obicei, este
reprezentata de numarul de parametri; mai multi parametri implica un model mai complex) si cea
mai buna potrivire a modelului (determinata de metoda celor mai mici patrate). Acest indicator se
defineste astfel:

AIK = 2p − 2 ln L, (8.4.13)

unde p este numarul de parametri din model si L este functia de verosimilitate a modelului. Pentru
un model statistic, o functie de verosimilitate (in engleza, likelihood) este o functie de parametrii
modelului, care este egala cu probabilitatea de a observa datele masurate pentru parametrii dati.
Un estimator pentru indicele teoretic AIK este urmatorul:
   

AIK = 2p + 2 ln(MSE) + n ln +n+2 , (8.4.14)
n
unde n este numarul de puncte de pe variograma si MSE este media patratelor erorilor de aproxi-
mare (mean squared error).

8.4.8 Metode de estimare a variogramei teoretice


Pentru a stabili un model teoretic de variograma care se potriveste cel mai bine datelor masurate,
este nevoie de a estima parametrii modelului teoretic. Spre exemplu, daca dorim sa determinam o
variograma teoretica exponentiala, atunci avem de estimat 2 parametri, si anume: c (lungimea de
variatie) si r (range). In cazul in care modelul include si o valoare nugget, atunci mai avem, in
plus, un parametru de determinat, si anume c0 . Exista doua metode uzuale folosite in estimarea
8.4 Modelarea variogramei teoretice 99

acestor parametri: metoda celor mai mici patrate si metoda cu ponderi a celor mai mici patrate.
In cazul metodei celor mai mici patrate, se cauta sa se minimizeze suma patratelor erorilor dintre
valorile estimate pentru variograma si cele masurate a priori. Matematic, problema se scrie astfel:
determinati acea valoare pentru vectorul de parametri, θb, care este solutia problemei de optim:

min ∑{[γ(hi , θ ) − γb(hi )]2 }.


θ i

Pentru metoda cu ponderi a celor mai mici patrate, se determina acea valoare pentru vectorul de
parametri, θb care este solutia problemei de optim:

{[γ(hi , θ ) − γb(hi )]2 }


min ∑ ,
θ i Var(γb(hi ))

unde
2
Var(γb(h)) ≈ (γ(h, θ ))2 .
|N(h)|
Astfel, ponderile sunt
1 |N(hi )|
wi = ≈ .
Var(γb(hi )) 2(γ(hi , θ ))2

8.4.9 Anizotropia
In multe cazuri, variograma empirica difera in functie de directia spatiala, fapt ce se numeste
anizotropie (geometrica). Cu alte cuvinte, anizotropia este variatia variogramei cu directia spatiala
a observate. In caz de anizotropie, se pot observa diferite pante ale variogramei in diferite directii
spatiale. In multe cazuri insa este posibil de a modela anizotropia printr-o transformare liniara de
coordonate carteziene.

Figura 8.15: Directii spatiale diferite


Figura 8.16: Variograme pentru directii diferite
9. Kriging

9.1 Introducere
Dupa cum am discutat anterior, un teren pentru care un geostatistician doreste sa studieze pro-
prietatile unor anumite variabile are o infinitate de locatii. Masuratorile pe care acestea le poate
efectua sunt in numar finit. De fapt, din consideratii practice si economice, el va considera doar
cateva locatii unde va efectua masuratori. In restul de locatii, el va dori sa faca predictii pe baza
datelor deja culese. O metoda de baza in Geostatistica folosita in predictia valorilor in locatiile
neselectate pentru masurare se numeste kriging. Kriging este o forma (generalizata) de regresie
liniara prin care se determina un estimator (predictor) spatial. In contrast cu regresia liniara
multipla, metoda de kriging tine cont de volumul observatiilor si de corelatiile dintre aceste valori.
Metoda functioneaza cel mai bine intr-un domeniu convex (un domeniu in care, odata cu doua
puncte, va contine si segmentul ce le uneste). In mod uzual, rezultatele unei interpolari de tip
kriging sunt: valoarea asteptata (media de kriging) si dispersia (varianta de kriging), estimate in
punctul dorit din regiune. Numele de kriging deriva de la numele inginerului minier Danie Krige,
nume atribuit de G. Mangeron. Exista atat metode liniare, cat si neliniare de interpolare spatiala de
gen kriging. Fiecare dintre aceste metode face presupuneri diferite relativ la fluctuatiile variabilei.
Dintre aceste metode, amintim urmatoarele: kriging ordinar, kriging simplu, kriging lognormal,
kriging cu drift, kriging factorial, cokriging, kriging indicator, kriging disjunctiv, kriging bayesian
etc. Metoda generala de kriging este urmatoarea.

Presupunem ca dorim sa prezicem valorile caracteristicii Z(x) intr-o regiune R. Aceasta regiune
poate fi 1−, 2− sau 3− dimensionala. Se efectuaza observatii asupra acestei variabile in locatiile
x1 , x2 , . . . , xn ale regiunii R. Pe baza acestor masuratori, dorim sa prezicem valorile lui Z in
celelalte locatii din regiune. O formula generala a unui estimator pentru valoarea variabilei Z
intr-o locatie generica din R, sa zicem x0 , este:
n
b 0 ) = ∑ λi Z(xi ),
Z(x (9.1.1)
i=1

unde λi sunt ponderile ce trebuie determinate.


102 Capitolul 9. Kriging

9.2 Kriging simplu


Este cea mai restrictiva metoda kriging. In cazul unei metode de interpolare geostatistica de tip
kriging simplu se fac urmatoarele presupuneri relativ la variabila Z:
• valorile observate formeaza o realizare partiala a procesului aleator generat de Z(x).
• variabila Z(x) se considera a fi stationara de ordinul al doilea (slab stationara), i.e.,
E(Z(x)) = µ si cov(Z(x), Z(x + h)) = C (h), pentru orice locatie x din R.
• valoarea constanta µ si covarianta C (h) sunt presupuse a fi cunoscute a priori.

Predictiile metodei kriging simplu sunt ba-


zate pe urmatorul model de camp aleator:

Z(x) = µ + ε(x), (9.2.2)

unde µ este o constanta cunoscuta si ε(x)


este partea aleatoare a variabilei, reprezen-
tand eroarea de aproximare a variabilei cu
valoarea µ. Aceasta eroare este presupusa
a fi normala, de medie 0.
Figura 9.1: Variabila Z(x) pentru kriging simplu
In cazul unui kriging simplu, se prezice valoarea variabilei Z in locatia necunoscuta x0 folosind
relatia:
n
ZbSK (x0 ) = µ + ∑ λi (Z(xi ) − µ) , (9.2.3)
i=1
unde λi sunt ponderile asociate erorilor masuratorilor obtinute in locatiile selectate. Putem rescrie
relatia precedenta sub forma echivalenta:
!
n n
ZbSK (x0 ) = ∑ λi Z(xi ) + 1 − ∑ λi µ.
i=1 i=1
Pentru simplitate, putem presupune ca media cunoscuta este µ = 0. In caz ca aceasta este diferita
de zero, efectuam calculele pentru µ = 0, obtinem valoarea prezisa, dupa care adaugam µ la final.
Obtinem ca
n
ZbSK (x0 ) = ∑ λi Z(xi ). (9.2.4)
i=1

Vom determina ponderile λi astfel incat sa minimizeze varianta estimatorului ZbSK . Aceasta este:
" #
n
Var[ZbSK (x0 )] = Var Z(x0 ) − ∑ λi Z(xi )
i=1
n n n
= Var[Z(x0 )] − 2 ∑ λ j cov(Z(x0 ), Z(x j )) + ∑ ∑ λiλ j cov(Z(xi), Z(x j ))
j=1 i=1 j=1
n n n
= C (0) − 2 ∑ λ j cov(Z(x0 ), Z(x j )) + ∑ ∑ λiλ j cov(Z(xi), Z(x j ))
j=1 i=1 j=1
9.2 Kriging simplu 103

Pentru a determina ponderile λi ce realizeaza minimumul lui Var[ZbSK (x0 )], se cauta punctele
critice in raport cu λi , adica rezolvam sistemul de ecuatii:


Var[ZbSK (x0 )] = 0, pentru orice j = 1, 2, . . . , n.
∂λj

Se va obtine sistemul de ecuatii algebrice (n ecuatii cu n necunoscute):

n
cov(Z(x0 ), Z(x j )) = ∑ λi cov(Z(xi ), Z(x j )), pentru orice j = 1, 2, . . . , n. (9.2.5)
i=1

Cu solutiile λiSK astfel obtinute, se estimeaza valoarea Z0 folosind formula (9.2.4). Dispersia de
kriging va fi data de:
n
2
σSK (x0 ) = C (0) − ∑ λiSK cov(Z(x0 ), Z(xi )).
i=1

Estimarile obtinute prin kriging simplu sunt nedeplasate. De notat faptul ca valorile ponderilor λi
depind doar de locatii si de covariante, dar nu si de datele observate. In cazul metodei kriging
simplu, suma acestor ponderi nu este neaparat egala cu 1.

Dupa ce prezicem prin kriging simplu valorile variabilei Z in toate locatiile regiunii de interes, se
pune problema urmatoare: Ce se intampla cand prezicem valoarea intr-un punct unde avem deja
masuratori?

Când un punct x0 in care prezicem valoarea variabilei se apropie de un punct x0 + h in care am


masurat deja valoarea lui Z, si daca variograma este fara nugget (i.e., este continua), atunci

h→0
C (h) = cov(Z(x0 ), Z(x0 + h)) −→ cov(Z(x0 ), Z(x0 )) = C (0) = 0.

Astfel daca punctul x0 este foarte apropiat de punctul xi (din selectie), putem aproxima cov(Z0 , Zi )
prin cov(Z0 , Z0 ) = C (0). In acest caz, dispersia pentru kriging simplu devine
!
n n
2
σSK (x0 ) = C (0) − ∑ λiSK C (0) = 1 − ∑ λiSK C (0) = 0. (9.2.6)
i=1 i=1

Mai mult,
lim ZbSK (x0 ) = Z(xi ).
x0 →xi

In cazul in care nu exista efect nugget, atunci metoda kriging simplu pastreaza valorile masurate
b i ) = Z(xi ): valorile estimate prin kriging simplu in locatiile stabilite a priori sunt chiar
(i.e., Z(x
cele masurate). Pentru doua locatii apropiate, aceasta metoda va prezice valori apropiate ale
variabilei Z.
104 Capitolul 9. Kriging

Figura 9.2: 5 simulari ale variabilei Z(x) ce pastreaza cinci valori masurate initial

Exerciţiu 9.1 (preluat din [olea]) Pentru o variabila Z s-au observat valorile sale in locatiile
precizate cu buline rosii in Figura 9.3 de mai jos. Pe baza acestor valori, se cere sa se prezica
valoarea variabilei Z in locatia x0 si dispersia pentru aceasta valoare. Se cunosc: µ = 110 si
γ(h) = 2000 (1 − e−h/250 ) pentru h > 0. (model exponential de variograma).

Figura 9.4: Tabel cu date observate

Figura 9.3: Locatii intr-un camp aleator

Rezolvare Distantele di j dintre locatiile masurate, calculate cu formula


q
di j = d(xi , x j ) = (xi1 − x j1 )2 + (xi2 − x j2 )2 ,

sunt
   
d11 d12 d13 d14 0 260.8 264 364
 = 260.8 0 266.3 366.7
d21 d22 d23 d24  
 
d31 d32 d33 d34   264 266.3 0 110.4
d41 d42 d43 d44 364 366.7 110.4 0
Distantele d0i de la x0 la xi sunt:

[d01 , d02 , d03 , d04 ] = [197.2, 219.3, 70.7, 180].


9.2 Kriging simplu 105

Din formula γ(h) = C (0) − C (h), gasim covariantele. Aici, C (0) = 2000 si

C (x0 , x1 ) = 2000e−d01 /250 = 2000e−197.2/250 = 908.78,

C (x0 , x2 ) = 2000e−d02 /250 = 2000e−219.3/250 = 831.89,

C (x1 , x2 ) = 2000e−d12 /250 = 2000e−260.8/250 = 704.65 etc.


Sistemul de ecuatii (9.2.5) care determina ponderile λi devine:

λ1 C (x1 , x1 ) + λ2 C (x2 , x1 ) + λ3 C (x3 , x1 ) + λ4 C (x4 , x1 ) = C (x0 , x1 );


λ1 C (x1 , x2 ) + λ2 C (x2 , x2 ) + λ3 C (x3 , x2 ) + λ4 C (x4 , x2 ) = C (x0 , x2 );
λ1 C (x1 , x3 ) + λ2 C (x2 , x3 ) + λ3 C (x3 , x3 ) + λ4 C (x4 , x3 ) = C (x0 , x3 );
λ1 C (x1 , x4 ) + λ2 C (x2 , x4 ) + λ3 C (x3 , x4 ) + λ4 C (x4 , x4 ) = C (x0 , x4 ).

Inlocuind valorile covariantelor, obtinem:

2000λ1 + 704.65λ2 + 695.68λ3 + 466.33λ4 = 908.78;


704.65λ1 + 2000λ2 + 689.31λ3 + 461.32λ4 = 831.89;
695.68λ1 + 689.31λ2 + 2000λ3 + 1286.01λ4 = 1507.34;
466.33λ1 + 461.32λ2 + 1286.01λ3 + 2000λ4 = 973.50.

Dupa rezolvarea sistemului, obtinem ponderile:

λ1SK = 0.1847, λ2SK = 0.1285, λ3SK = 0.6460, λ4SK = −0.0013.

Folosind formula (9.2.2), determinam estimarea valorii lui Z in x0 :

zSK (x0 ) = µ + λ1SK (z(x1 ) − µ) + λ2SK (z(x2 ) − µ) + λ3SK (z(x3 ) − µ) + λ4SK (z(x4 ) − µ)
b
= 110 + 0.1847 · (40 − 110) + 0.1285 · (130 − 110) + 0.6460 · (90 − 110) −
−0.0013 · (160 − 110)
= 86.6560.

Dispersia estimatorului in acest punct poate fi calculata cu formula (9.2.6). Obtinem:


n
2
σSK (x0 ) = C (0) − ∑ λiSK cov(Z(x0 ), Z(xi ))
i=1
= 2000 − 0.1847 · 908.78 − 0.1285 · 831.89 − 0.6460 · 1507.34 + 0.0013 · 973.50
= 752.7744.

In cazul in care valoarea µ din formula (9.2.2) nu este cunoscuta, avem doua posibilitati de a
prezice valorile variabilei Z in celelalte valori decat cele masurate:
n
• Estimam valoarea µ pe baza observatiilor prin µ = ∑ zi, apoi folosim metoda kriging
i=1
simplu. Insa, aceasta metoda nu tine cont de variabilitatea valorilor zi in prezicerea lui µ.
• Folosim o alta metoda de kriging, numita kriging ordinar.
106 Capitolul 9. Kriging

9.3 Kriging ordinar


Este cea mai uzuala metoda de kriging (interpolare geospatiala). In cazul unui kriging ordinar,
campul aleator este considerat a fi tot de forma (9.2.2), insa de aceasta data constanta µ este
necunoscuta si va trebui estimata. Valoarea prezisa a lui Z in x0 este
n
ZbOK (x0 ) = ∑ λi Z(xi ), (9.3.7)
i=1

n
unde ponderile λi satisfac constrangerea ∑ λi = 1. Aceasta constrangere asigura nedeplasarea es-
i=1
b 0 ) − Z(x0 )] = 0. Dispersia estimatorului
timatorului ZbOK , in sensul ca valoarea asteptata este E[Z(x
este:
 2  h i
Var[ZOK (x0 )] = E ZOK (x0 ) − Z(x0 )
b b = Var ZbOK (x0 ) − Z(x0 )
" #
n
= Var ∑ λiZ(xi) − Z(x0)
i=1
n n n
= Var[Z(x0 )] −2 ∑ λi cov(Z(x0 ), Z(xi )) + ∑ ∑ λi λ j cov(Z(xi ), Z(x j ))
| {z } i=1 i=1 j=1
= C (0)
n n n
= 2 ∑ λi γ(x0 , xi ) − ∑ ∑ λiλ j γ(xi, x j ),
i=1 i=1 j=1

unde γ(xi , x j ) sunt (semi)variatiile intre valorile campului aleator Z observate in locatiile xi si
x j si γ(xi , x j ) sunt (semi)variatiile intre valoarea observata a campului aleator Z in locatia xi si
valoarea lui Z in locatia de estimat x0 .
Scopul este de a determina ponderile λi ce realizeaza minimul lui Var[ZbOK (x0 )] cu constrangerea
n
∑ λi = 1. Metoda de lucru este metoda multiplicatorilor lui Lagrange. Se considera functia
i=1
!
n
F(α, λi ) = Var[ZbOK (x0 )] + α ∑ λi − 1 ,
i=1

unde α este o constanta ce urmeaza a fi determinata, numita multiplicator Lagrange. Se considera


sistemul format din anularea derivatelor functiei F(α, λi ) in raport cu α si λi , i.e.,
∂ F(α, λi )
= 0;
∂ λ1
∂ F(α, λi )
= 0;
∂ λ2
...
∂ F(α, λi )
= 0;
∂ λn
∂ F(α, λi )
= 0.
∂α
9.3 Kriging ordinar 107

Vom obtine sistemul :

n
cov(Z(x0 ), Z(x j )) = ∑ λicov(Z(xi), Z(x j )) + α, pentru orice j = 1, 2, . . . , n.(9.3.8)
i=1
n
∑ λi = 1. (9.3.9)
i=1

Aceste sistem de n + 1 ecuatii si n + 1 necunoscute, si anume λ1 , λ2 , . . . , λn , α. Solutiile λiOK ale


acestui sistem sunt ponderile cautate. Folosind aceste ponderi, determinam estimaa valorii lui Z
in x0 prin:
n
ZbOK (x0 ) = ∑ λiOK Z(xi ).
i=1

Dispersia pentru kriging ordinar se calculeaza similar ca in cazul metodei kriging simplu si are
formula:
n
2
σOK (x0 ) = C (0) − ∑ λiOK cov(Z(x0), Z(xi)) − α. (9.3.10)
i=1

Observatii:
• Ponderile λiOK vor avea valori mai mari pentru punctele apropiate lui x0 . In general, cele
mai apropiate 4 sau 5 valori contribuie cu cca 80% din ponderea totala in prezicerea valorii
lui Z in x0 , iar urmatoarele 10 puncte invecinate cu cca 20%.
• In general, σOK 2 (x ) este un pic mai mare decat σ 2 (x ) din cauza incertitudinii legate de
0 SK 0
valoarea reala a lui µ.
• Daca variograma prezinta efect nugget, atunci cresterea dispersiei pentru nugget va conduce
la o crestere a dispersiei pentru valorile prezise prin kriging.
• Daca locatiile masuratorilor nu sunt regulat raspandite, atunci punctele izolate au in general
ponderi mai mari decat cele adunate in palcuri (clustere).
• Punctele care sunt ecranate (mascate) de alte puncte din regiune pot avea ponderi negative.
• Am vazut ca, pentru un punct x0 , doar o multime mica de puncte vecine vor avea ponderi
nenule semnificative, restul ponderilor fiind aproape egale cu 0. Din acest motiv, am putea
reduce sistemul de kriging (implicit formula (9.3.7) doar la punctele vecine. Daca numarul
acestor puncte vecine este semnificativ mai mic decat n, atunci procedeul numeric de calcul
al ponderilor se va desfasura intr-un timp mult mai mic. Este posibil ca, pentru un n mare,
ponderile calculate sa prezinte erori mari, din cauza complexitatii sistemului de ecuatii care
au ca solutii aceste ponderi. De aceea, se recomanda calcularea ponderilor doar pentru o
multime mica de vecini ai lui x0 .
• Pentru a determina vecinatatea lui x0 pentru care este practic sa calculam ponderile, se poate
proceda astfel:
– Pentru o variograma marginita si date dense in jurul lui x0 , aceasta vecinatate poate
avea dimensiunea range-ului de la variograma. Oricum, punctele care ies din acest
range aproape ca nu sunt corelate cu x0 .
– Daca datele sunt rarefiate, atunci punctele indepartate pot avea ponderi importante,
asa ca ar fi necesara o vecinatate care sa le includa.
108 Capitolul 9. Kriging

– Pentru un efect nugget mare, punctele indepar-


tate vor avea ponderi semnificative, deci vecina-
tatea lui x0 ar trebui sa le includa.
– Pentru o retea neregulata de date selectate, nu-
marul minim de puncte din vecinatatea unui x0
este 3 si numarul maxim nu ar trebui sa depa-
seasca 25.
– Daca datele din selectie sunt foarte neregulate,
atunci este utila impartirea spatiului din jurul lui
x0 in octanti si sa fie alese cele mai apropiate 2
puncte din fiecare octant (vezi Figura 9.5).
Figura 9.5: Impartirea in octanti pen-
tru determinarea vecinilor
Exerciţiu 9.2 Folosind metoda de interpolare geostatistica kriging ordinar, determinati o predictie
si dispersia acesteia pentru valoarea in locatia x0 din Exercitiul 9.1.

Rezolvare: Valorile pentru distante sunt aceleasi ca in Exercitiul 9.1. Sistemul de ecuatii
(9.3.8)&(9.3.9) care determina ponderile λi si multiplicatorul Lagrange α este:

λ1 C (x1 , x1 ) + λ2 C (x2 , x1 ) + λ3 C (x3 , x1 ) + λ4 C (x4 , x1 ) + λ1 = C (x0 , x1 );


λ1 C (x1 , x2 ) + λ2 C (x2 , x2 ) + λ3 C (x3 , x2 ) + λ4 C (x4 , x2 ) + λ2 = C (x0 , x2 );
λ1 C (x1 , x3 ) + λ2 C (x2 , x3 ) + λ3 C (x3 , x3 ) + λ4 C (x4 , x3 ) + λ3 = C (x0 , x3 );
λ1 C (x1 , x4 ) + λ2 C (x2 , x4 ) + λ3 C (x3 , x4 ) + λ4 C (x4 , x4 ) + λ4 = C (x0 , x4 );
λ1 + λ2 + λ3 + λ4 = 1.

Inlocuind valorile covariantelor, obtinem:

2000λ1 + 704.65λ2 + 695.68λ3 + 466.33λ4 + α = 908.78;


704.65λ1 + 2000λ2 + 689.31λ3 + 461.32λ4 + α = 831.89;
695.68λ1 + 689.31λ2 + 2000λ3 + 1286.01λ4 + α = 1507.34;
466.33λ1 + 461.32λ2 + 1286.01λ3 + 2000λ4 + α = 973.50;
λ1 + λ2 + λ3 + λ4 = 1.

Dupa rezolvarea sistemului, obtinem ponderile λi si multiplicatorul Lagrange α:

λ1OK = 0.1971, λ2OK = 0.1410, λ3OK = 0.6506, λ4OK = 0.0113, α = −42.6936.

Folosind formula (9.3.7), determinam estimarea valorii lui Z in x0 :

zOK (x0 ) = λ1OK z(x1 ) + λ2OK z(x2 ) + λ3OK z(x3 ) + λ4OK z(x4 )
b
= 0.1971 · 40 + 0.1410 · 130 + 0.6506 · 90 + 0.0113 · 160
= 86.576.
9.4 Kriging lognormal 109

Dispersia estimatorului in acest punct poate fi calculata cu formula (9.3.10). Obtinem:


n
2
σOK (x0 ) = C (0) − ∑ λiOK cov(Z(x0 ), Z(xi )) − α
i=1
= 2000 − 0.1971 · 908.78 − 0.1410 · 831.89 − 0.6506 · 1507.34 −
−0.0113 · 973.50 + 42.6936
= 754.60.

9.4 Kriging lognormal


Daca datele observate z(x1 ), z(x2 ), . . . , z(xn ) sunt pozitive dar nu par a fi normale (acest fapt
se poate observa dintr-un indice de skewness mai mare decat 1), atunci o practica utila este
logaritmarea datelor. Vom obtine astfel setul de date y(x1 ), y(x2 ), . . . , y(xn ), cu y(xi ) = ln(z(xi )).
Cu alte cuvinte, in loc sa analizam variabila initiala Z(x), vom lucra cu variabila transformata
Y (x) = ln Z(x). Daca presupunem ca procesul aleator generat de Y (x) este stationar de ordinul al
doilea (slab stationar), atunci putem aplica metodele anterioare (kriging simplu sau kriging ordinar)
pentru valorile transformate. Vom obtine astfel valori prezise pentru Y in locatiile neconsiderate
in selectie si dispersii pentru aceste valori. Dupa aceasta, aceste valori se vor transforma inapoi in
valori prezise pentru variabila originala, Z(x).
Sa notam prin YbSK (x0 ) si σ c2 (x ) estimatori punctuali pentru, respectiv, valoarea prezisa si
SK 0
dispersia sa obtinute prin kriging simplu in x0 . Similar, notam prin YbOK (x0 ) si σc2 (x ) estimatori
OK 0
punctuali pentru, respectiv, valoarea prezisa si dispersia sa obtinute prin kriging ordinar in x0 .
Atunci, estimatorii corespunzatori pentru variabila Z sunt:
1 c2
ZbSK (x0 ) = eYSK (x0 )+ 2 σ SK (x0 ) pentru kriging simplu
b

si
1 c2
ZbOK (x0 ) = eYOK (x0 )+ 2 σ OK (x0 )−α(x0 ) pentru kriging ordinar,
b

unde α(x0 ) este multiplicatorul Lagrange. Dispersia pentru variabila originata poate fi estimata
doar pentru metoda kriging simplu, pentru care µ este cunoscut. Aceasta este:
c SK (x0 ) = µ 2 eσc2 SK (x0 ) [eσc2 SK (x0 ) − 1].
Var

9.5 Kriging universal (sau kriging cu drift)

Este posibil ca valoarea µ din relatia (9.2.2) sa nu fie


nici cunoscuta, nici constanta, indicand prezenta unui
trend (sau drift). In acest caz,

Z(x) = u(x) + ε(x), (9.5.11)

unde u(x) este o functie determinista si ε(x) este partea


aleatoare a variabilei, reprezentand eroarea de aproxi-
mare a variabilei cu valoarea µ.
Figura 9.6: Variabila cu trend neliniar
110 Capitolul 9. Kriging

Aceasta eroare este presupusa a fi normala, de medie 0 si variograma γ(h). Cantitatea ε(x) =
Z(x) − u(x) se mai numeste si reziduu de trend. Expresia lui u(x) este de obicei un polinom de
coordonatele geografice, de forma:
m
u(x) = ∑ β j f j (x),
j=0

unde β j sunt niste numere reale necunoscute si f j (x) niste functii necunoscute. Acest trend poate fi
estimat pe baza observatiilor z(x1 ), z(x2 ), . . . , z(xn ). Spre exemplu, un trend liniar 2−dimensional
arata de forma
u(x) = β0 + β1 x1 + β2 x2 .
Un trend neliniar parabolic 1−dimensional care ar putea fi un model pentru cel din Figura 9.6
este de forma
u(x) = β0 + β1 x + β2 x2 .
Coeficientii β0 , β1 , β2 pot fi obtinuti prin metoda celor mai mici patrate (regresie liniara multiple).
In prezenta unui trend, G. Matheron a sugerat estimarea variabilei Z in x0 prin
n
ZbUK (x0 ) = ∑ λi Z(xi ),
i=1

n
cu λi verificand constrangerea ∑ λi = 1. Valoarea medie a acestui estimator este
i=1

n m
E[ZbUK (x0 ]) = ∑ ∑ λiβ j f j (xi)
i=1 j=0

Conditia de nedeplasare a estimatorului este:


n
∑ λi f j (xi) = f j (x0), pentru orice j = 0, 1, 2, . . . , m.
i=1

Folosind metoda multiplicatorilor lui Lagrange, se pot determina ponterile λiUK si parametrii
necunoscuti β j . Astfel, un estimator pentru valoarea lui Z in x0 va fi
n
ZbUK (x0 ) = ∑ λiUK Z(xi ),
i=1

iar dispersia acestui estimator este


n m
c UK (x0 ) = C (0) − ∑ λi C (x0 , xi ) − ∑ β j f j (x0 ).
Var
i=1 j=0

9.6 Kriging indicator


Aceasta medota de kriging este folosita pentru variabilele de tip binar (Bernoulli), adica acele
variabile discrete care pot lua doar doua valori: 1 (prezenta) sau 0 (absenta). Este utila in practica
atunci cand pentru variabila de interes se doreste sa se estimeze probabilitatea ca aceasta sa
9.6 Kriging indicator 111

depaseeasca o anumita valoare prag, notata aici prin zc . Spre exemplu, am dori sa determinam
probabilitatea ca, intr-o anumita regiune, apa de baut sa aiba o concentratie de nitrati sub pragul
critic zc = 50mg/l. Un alt exemplu este determinarea probabilitatii ca intr-o regiune solul sa aiba
o valoare pH sub o valoare critica.
Fie Z o variabila de interes. Pentru aceasta variabila construim functia indicatoare
(
1 daca Z(x) ≤ zc ;
χzc (x) =
0 daca Z(x) > zc .

Aceasta functie indicatoare este o variabila binara. Valoarea medie a acestei variabile este chiar
probabilitatea ca valorile variabilei Z(x) sa nu depaseasca pragul critic zc , care este totuna cu
functia de repartitie a acestei variabile in valoarea zc . Matematic, scriem astfel:

E[χzc (x)] = P(Z(x) ≤ zc ) = FZ(x) (zc ).

Pentru variabila indicatoare se poate estima variograma teoretica

1 h i
γzc (h) = E (χzc (x) − χzc (x + h))2
2
pe baza unei variograme experimentale:

1 N(h) h 2
i
γbzc (h) = (χ (x )
∑ zc i zc i − χ (x + h)) .
2|N(h)| i=1

Pe baza variogramei teoretice se pot prezice valori ale variabilei Z in punctele neselectate. O
metoda de kriging indicator bazata pe n observatii {χzc (xi )}i=1, n are la baza formula de estimare:

n
χbzc (x0 ) = ∑ λi χzc (xi ). (9.6.12)
i=1

Pentru estimare se poate proceda ca in metoda kriging simplu. Ponderile pot fi obtinute ca solutii
ale sistemului de n ecuatii si n necunoscute:
n
∑ λiγzc (xi, x j ) = γzc (x0, x j ) pentro orice j = 1, 2, . . . , n,
i=1

unde γzc (xi , x j ) sunt semivariantele calculate in punctele xi si x j . Dupa ce se determina ponderile
λiIK , se estimeaza valoarea
n
χbzc (x0 ) = ∑ λiIK χzc (xi ).
i=1

Valoarea prezisa χbzc (x0 ) va fi o valoare intre 0 si 1, reprezentand probabilitatea ca, pentru datele
observate, variabila Z(x) ia valori sub pragul critic zc . Matematic, scriem ca

χbzc (x0 ) = P( Z(x) ≤ zc | zi , i = 1, n ).
112 Capitolul 9. Kriging

9.7 Cokriging
Aceasta metoda ofera posibilitatea de a prezice simultan valorile a doua sau mai multe variabile
pentru un acelasi domeniu. Se mai numeste si coregionalizare. Nu este necesar ca toate variabilele
sa fie masurate in aceleasi locatii, insa ar fi indicat sa fie un minim de valori observate perechi
in aceleasi locatii din regiune de interes. Aceasta metoda poate fi utila atunci cand una dintre
variabile, variabila primara, a fost observata in putine locatii, insa corelatia sa cu alte variabile
(secundare) de interes in regiune poate duce la o precizie mai mare a estimarilor celei dintai
variabile.
Presupunem ca Z1 (x), Z2 (x), . . . , Z p (x) sunt p variabile ce se doresc a fi masurate pentru un
acelasi domeniu. Putem crea matricea aleatoare:

Z(x) = [Z1 (x), Z2 (x), . . . , Z p (x)].

Vom nota prin Λi matricea ponderilor corespunzatoare fiecarei valori a fiecarei variabile. O vom
scrie sub forma:
 i i i 
λ11 λ12 . . . λ1p
λ i λ i . . . λ i 
Λi =  21 22 2p 
 ... ... ... ... 
i
λ41 i
λ42 i
. . . λ pp

Scopul principal al metodei cokriging este de a determina (prin metoda celor mai mici patrate)
ponderile Λi pentru estimatorul:
n
ZbCK (x0 ) = ∑ Λi Z(xi ),
i=1

cu constrangerea
n
∑ Λi = In matricea identitate de ordin n.
i=1
Modelul cokriging va furniza un numar de p estimatori liniari in x0 , cate unul pentru fiecare
variabila in parte, si p dispersii corespunzatoare estimatorilor. Metoda este asemanatoare cu
metoda kriging ordinara, insa executata pentru p variabile simultan.

9.8 Cross-validare (validarea incrucisata)


Cross-validarea este o metoda de verificare sau de a alege dintre mai multe modele de kriging
pentru aceleasi date observate. Precizam mai jos detaliile validarii incrucisate:
• Se calculeaza variograma experimentala si apoi se potrivesc diverse variograme teoretice
potrivite;
• Se scoate un punct dintre cele n initiale si se estimeaza valoarea in acest punct pe baza
celorlalte n − 1 puncte. Aceasta valoare prezisa este comparata cu valoarea masurata initial.
Se repeta procedura pentru toate valorile observate.
• Diagnosticarea se face fie prin grafice sau prin masurarea erorilor de predictie. Graficele sunt
de forma valori prezise versus valori masurate. Pentru o predictie cat mai buna,
valorile prezise trebuie sa fie cat mai apropiate de cele masurate, aceasta observandu-se in
grafic daca punctele rosii sunt apropiate de dreapta 1:1.
9.8 Cross-validare (validarea incrucisata) 113

• Pentru a face un diagnostic numeric al preciziei estimarii, se folosesc urmatoarele masuri


ale erorilor de interpolare:
• Eroarea medie (Mean error in ArcGIS):

1 n
ME = ∑ [z(xi ) − b
z(xi )].
n i=1

• Eroarea medie standardizata (Mean Standardized Error in ArcGIS):

1 n [z(xi ) − b
z(xi )]
SME = ∑ .
n i=1 σb (xi )

• Eroarea medie patratica (Mean-Square Error):

1 n
MSE = ∑ [z(xi) − bz(xi)]2.
n i=1

• Radacina mediei erorilor patratice (Root-Mean-Square Error in ArcGIS):

s
1 n
RMSE = ∑ [z(xi) − bz(xi)]2.
n i=1

• Eroarea standard medie (Average Standard Error in ArcGIS):

v
u n
b (xi )
u
u∑σ
t i=1
ASE = .
n

• Radacina mediei erorilor patratice standardizate (Root-Mean-Square Standardized Error in


ArcGIS):
s
z(xi ) 2
1 n z(xi ) − b
 
RMSSE = ∑ σb (xi) .
n i=1
114 Capitolul 9. Kriging

Figura 9.7: Compararea a doua metode kriging.

Pentru o precizie foarte buna este de dorit ca primele erorile ME, SME si MSE sa fie cat mai apropiate
de valoarea 0, eroarea RMSSE va trebui sa fie apropiate de valoarea 1, iar erorile RMSE si ASE sa
fie similare. Figura 9.7 contine doua grafice pentru doua metode de interpolare kriging ordinar;
prima metoda este fara trend iar a doua cu trend. Fiecare figura reprezinta valorile prezise vs.
valorile masurate. Pentru o apropiere cat mai buna, punctele rosii ar trebui sa fie cat mai apropiate
de dreapta 1:1 (prima bisectoare). Pentru a determina care dintre cele doua metode este mai buna,
ne uitam la erorile afisate si cautam metoda ce da erorile cele mai mici.

9.9 Simulare stochastica


Dupa cum am vazut mai sus, metodele kriging sunt utilizate pentru a estima valorile posibile
ale unei variabile in locatiile neobservate. Estimarile obtinute sunt optimizate astfel incat in
acele locatii variantele sunt minime. Totusi, nu este nicio garantie ca o harta obtinuta printr-o
metoda kriging va avea aceeasi variatie (sau variograma) ca si datele observate initial. Daca se
doreste a construi o harta care sa pastreze intocmai caracteristicile datelor observate, atunci trebuie
considerate metode alternative la metodele kriging. O astfel de metoda este simularea stochastica.
Simularea stochastica ofera posibilitatea de a crea valorile uneia sau mai multor variabile care sa
aiba aceleasi caracteristici ca si datele observate in realitate. Variabilele pentru care putem obtine
simulari pot fi atat discrete cat si continue.
Presupunem ca {z(xi )}i=1,n sunt valorile observate pentru variabila Z(x). Dupa cum am discutat
anterior, putem privi Z(x) ca fiind un proces stochastic. Daca acest proces este stationar de ordinul
al doilea, atunci el poate fi descris prin media si functia de covarianta. Acesti parametri ii putem
estima cu statistici specifice obtinute pe baza datelor observate. Principiul simularii stochastice
este simularea pe calculator de valori posibile pentru variabila Z(x) ce au media şi functia de
9.9 Simulare stochastica 115

covarianta stabilite. Se pot astfel crea oricate (o infinitate) simulari se doreste, toate realizarile
avand aceeasi probabilitate de aparitie, aceeasi medie si aceeasi functie caracteristica. Din punct
de vedere teoretic, valoarea medie a unui numar mare de simulari va arata similar cu harta obtinuta
prin metoda kriging. Simularile stochastice ofera posibilitatea de a obtine predictii realiste ale
valorile unei variabile, pe cand estimarile obtinute prin metoda kriging se preocupa mai mult de
acuratetea statistica a predictiilor.
In concluzie, metoda kriging ofera estimari locale de varianta minima, fara a se preocupa de
distributia in ansamblu a valorilor prezise. Pe de alta parte, simularea stochastica are ca scop
reproducerea distributiei datelor observate, fara a se preocupa de acuratetea locala a valorilor
prezise.
Simularile stochastice pot fi facute in doua moduri: neconditionate si conditionate.
O simulare stochastica neconditionata nu are alte constrangeri asupra valorilor simulate decat
faptul ca media si o functia de covarianta a acestor valori sa fie cea specificată a priori. O simulare
stochastica conditionata are, pe langa constrangerile de medie si functie de covarianta, cerinta ca
valorile observate pentru variabila aleatoare sa fie pastrate in urma simularii. Cu alte cuvinte, o
simulare conditionata este o procedure ce reproduce valorile si locatiile tuturor datelor observate,
pe cand una neconditionata nu are aceasta cerinta.
In cazul unei simulari stochastice neconditionata, metoda de simulare este metoda Monte Carlo.
Exista diverse software care pot simula valori aleatoare ce au media si functia de covarianta
specificate.
In cazul unei simulari conditionate, varianta valorilor simulate este dublul variantei valorilor
estimate prin metoda kriging. Asadar, daca scopul este o precizie mai buna a valorilor simulate,
metoda kriging este mai buna. Daca scopul este realizarea unei harti pentru care caracteristicile
observatiilor sa fie pastrate, atunci metoda de simulare este cea potrivita.
Exista mai multe tipuri de simulari stochastice, si anume:
• simulare gaussiană secvenţială (fiecare valoare este simulata secvential in concordanta cu
functia sa de repartitie conditionata normala, care se determina in fiecare locatie simulata);
• metode de descompunere LU (bazata pe descompunerea Cholesky a oricarei matrice pozitiv
definite C in produs de doua matrice triunghiulare, inferior si superior, i.e., C = LU.);
• simulare annealing (bazata pe algoritmi de optimizare);
• metode orientate pe obiect;
Metoda de simulare gaussiana secventiala este cea mai folosita. Pasii de implementare a metodei
sunt:
• Asigurarea ca datele sunt normale. In caz ca nu sunt normale, datele ar putea fi transformate
in date normale standard;
• Se determina un model de variograma;
• Se formeaza un grid cu punctele in care urmeaza sa determinam simulari;
• Se determina ordinea (o secventa) locatiilor {xi } in care vom obtine simulari.
b i ) si σ 2 (xi ) prin metoda kriging simpla. Apoi, se
• Pentru fiecare locatie xi se determina Z(x K
va genera aleator o valoare normala ce are media Z(x b i ) si varianta σ 2 (xi ). Aceasta valoare
K
simulata se va adauga la setul de date observate, apoi se trece la simularea urmatoarei valori.
Se repeta procedeul de kriging (incluzand in setul de date toate valorile simulate anterior)
pana ce toate valorile pentru punctele din grid au fost simulate.
• Daca datele originale au fost transformate, se va aplica transformarea inversa pentru a
determina simularile valorilor variabilei de interes.
Capitolul 9. Kriging
Figura 9.8: Etape pentru interpolarea prin kriging
116
10. Anexe

10.1 Tabele cu cuantile pentru repartiţii uzuale

α 0.9 0.95 0.975 0.99 0.995 0.999


zα 1.282 1.645 1.960 2.326 2.576 3.090

Tabela 10.1: Cuantile pentru repartitia N (0, 1). Pentru un α, tabelul afiseaza cuantila zα pentru care
P(Z ≤ zα ) = α, unde Z ∼ N (0, 1). De remarcat faptul ca: z1−α = −zα .
Capitolul 10. Anexe

n\α 0.9 0.95 0.975 0.99 0.995 0.999 n \ α 0.9 0.95 0.975 0.99 0.995 0.999
1 3.078 6.314 12.706 31.821 63.657 318.313 21 1.323 1.721 2.080 2.518 2.831 3.527
2 1.886 2.920 4.303 6.965 9.925 22.327 22 1.321 1.717 2.074 2.508 2.819 3.505
3 1.638 2.353 3.182 4.541 5.841 10.215 23 1.319 1.714 2.069 2.500 2.807 3.485
4 1.533 2.132 2.776 3.747 4.604 7.173 24 1.318 1.711 2.064 2.492 2.797 3.467
5 1.476 2.015 2.571 3.365 4.032 5.893 25 1.316 1.708 2.060 2.485 2.787 3.450
6 1.440 1.943 2.447 3.143 3.707 5.208 26 1.315 1.706 2.056 2.479 2.779 3.435
7 1.415 1.895 2.365 2.998 3.499 4.782 27 1.314 1.703 2.052 2.473 2.771 3.421
8 1.397 1.860 2.306 2.896 3.355 4.499 28 1.313 1.701 2.048 2.467 2.763 3.408
9 1.383 1.833 2.262 2.821 3.250 4.296 29 1.311 1.699 2.045 2.462 2.756 3.396
10 1.372 1.812 2.228 2.764 3.169 4.143 30 1.310 1.697 2.042 2.457 2.750 3.385
11 1.363 1.796 2.201 2.718 3.106 4.024 32 1.309 1.694 2.037 2.449 2.738 3.365
12 1.356 1.782 2.179 2.681 3.055 3.929 34 1.307 1.691 2.032 2.441 2.728 3.348
13 1.350 1.771 2.160 2.650 3.012 3.852 36 1.306 1.688 2.028 2.434 2.719 3.333
14 1.345 1.761 2.145 2.624 2.977 3.7870 38 1.304 1.686 2.024 2.429 2.712 3.319
15 1.341 1.753 2.131 2.602 2.947 3.733 40 1.303 1.684 2.021 2.423 2.704 3.307
16 1.337 1.746 2.120 2.583 2.921 3.686 50 1.299 1.676 2.009 2.403 2.678 3.261
17 1.333 1.740 2.110 2.567 2.898 3.646 60 1.296 1.671 2.000 2.390 2.660 3.232
18 1.330 1.734 2.101 2.552 2.878 3.610 80 1.292 1.664 1.990 2.374 2.639 3.195
19 1.328 1.729 2.093 2.539 2.861 3.579 100 1.290 1.660 1.984 2.364 2.626 3.174
20 1.325 1.725 2.086 2.528 2.845 3.552 ∞ 1.282 1.645 1.960 2.326 2.576 3.090
Tabela 10.2: Cuantile pentru repartitia Student t(n). Pentru un α si un n, tabelul afiseaza cuantila tα, n pentru care P(Z ≤ tα, n ) = α, unde Z ∼ t(n). Daca
n este mai mare de 100, se poate utiliza tabelul de la repartitia normala.
118
Fournit les quantiles xp tels que
P(X≤xp )= p
pour X ∼ χ2n
10.2 Exemplu de date statistice spatiale 119

n/p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995
n
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19
11 2,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
1
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49
60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104,2
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116,3
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128,3
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2

Tabela 10.3: Cuantile pentru repartitia χ 2 (n). Pentru un α = p si un n, tabelul afiseaza cuantila χα,
2
n
2 ) = α, unde Z ∼ χ 2 (n).
pentru care P(Z ≤ χα, n

10.2 Exemplu de date statistice spatiale


Capitolul 10. Anexe
Figura 10.1: Exemplu de date statistice spatiale.
120
10.3 Tabel cu intervale de încredere 121

10.3 Tabel cu intervale de încredere


Param. Alţi param. Interval de încredere cu nivelul de semnificaţie α
 
X − z1− α √σn , X + z1− α √σn
2 2

σ2
 
µ X − z1−α √σn , +∞
cunoscut
 
−∞, X + z1−α √σn
 
X − t1− α ; n−1 √sn , X + t1− α ; n−1 √sn
2 2

σ2
 
µ X − t1−α; n−1 √σn , ∞ ;
necunoscut
 
−∞, X − tα; n−1 √sn
!
n n
χ2 α
s2 , χ 2α
s2
1− 2 ; n 2 ;n
 
µ n
s2 , +∞
σ2 cunoscut 
2
χα; n

n 2
−∞, χ2
s
1−α; n
!
(n−1) (n−1)
χ2 α
s2 , χ 2α
s2
1− 2 ; n−1 2 ; n−1
 
µ n−1
s2 , +∞
σ2 necunoscut χ2
 α; n−1 
n−1
−∞, 2
χ1−α;
s2
 n−1 
q q
pb(1− pb) pb(1− pb)
p n pb − z1− α n , pb + z1− α n
mare 2 2

µ1 , µ2
σ12 / s21 s21
 
σ22 f α
1 −1, n2 −1; 2
, f α
necunoscuţi  s22 ns s22 n1 −1, n2 −1; 1− 2s 
2 2 2 2
µ1 − µ2 σ12 , σ22 σ 1 σ σ σ
X1 − X2 − z1− α + 2 , X1 − X2 + z1− α 1
+ 2
2 n1 n2 2 n1 n2
cunoscuţi  
s s
2 2 2 2
µ1 − µ2 σ12 6= σ22 s 1 s s s
X1 − X2 − t1− α ; N + 2 , X1 − X2 + t1− α ; N 1
+ 2
2 n1 n2 2 n1 n2
necunoscuţi
σ12 = σ22  
µ1 − µ2 X1 − X2 − t1− α ; n1 +n2 −2 d(X1 , X2 ), X1 − X2 + t1− α ; n1 +n2 −2 d(X1 , X2 )
necunoscuţi 
2 2

q q
p1 (1−cp1 ) p2 (1−cp2 ) p1 (1−cp1 ) p2 (1−cp2 )
p1 − p2 n1 , n2 pb1 − pb2 − z1− α c n1 + c
n2 , p
b1 − p
b2 + z1− α
c
n1 + c
n2
2 2

mari

Tabela 10.4: Tabel cu intervale de încredere.

Mai sus, prin d(X1 , X2 ) am notat:


!− 1
2
n1 + n2 − 2
q
d(X1 , X2 ) = (n1 − 1)s21 + (n2 − 1)s22 1 1
.
n1 + n2
Bibliografie

[1] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.
[2] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with
CD-ROM), Duxbury Press, 2006.
[3] Clayton V. Deutsch, Geostatistical reservoir modeling, Oxford University Press, 2002.
[4] ESRI, Introduction to the ArcGIS Geostatistical Analyst Tutorial (online tutorial notes)
[5] Pierre Goovaerts, Geostatistics for natural resources evaluation, Oxford University Press,
1997.
[6] T Hengl, A Practical Guide to Geostatistical Mapping of Environmental Variables, JRC
Scientific and Technical Research series, Office for Official Publications of the European
Comunities, Luxembourg, EUR 22904 EN, 143 pp, 2009
[7] Peter K. Kitanidis, Introduction to Geostatistics, Applications in Hydrogeology, Cambridge
University Press, 1997.
[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mică enciclope-
die de statistică, Editura ştiinţifică şi enciclopedică, Bucureşti, 1985.
[9] K. Johnston, JM Ver Hoef, K. Krivoruchko, N. Lucas, Using ArcGIS Geostatistical Analyst,
2001
[10] S. McKillup, M Darby Dyar, Geostatistics Explained. An Introductory Guide for Earth
Scientists, Cambridge University Press, 396 pp, 2010
[11] Georges Matheron, Principles of Geostatistics, Economic Geology 58, 1963, pp. 1246-1266.
[12] Georges Matheron, Les variables régionalisées et leur estimation, Masson, Paris, 1965.
124 BIBLIOGRAFIE

[13] Gheorghe Mihoc, N. Micu, Teoria probabilităţilor şi statistica matematică, Bucuresti, 1980.

[14] Ricardo A. Olea, Geostatistics for Engineers and Earth Scientists, Kluwer Academic Pu-
blishers, Boston, 1999

[15] MJ Smith, MF Goodchild, PA Longley, Geospatial Analysis. A Comprehensive Guide to


Principles, Techniques and Software Tools, Second Edition, Matador, Troubador Publishing
Ltd., online version: http://www.spatialanalysisonline.com/

[16] Iulian Stoleriu, Statistică prin M ATLAB. MatrixRom, Bucureşti, 2010.

[17] Richard Webster, Margaret Oliver, Geostatistics for environmental scientists, John Wiley
and Sons, Ltd., 2007.

[18] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge
University Press, 2001.
Glosar

amplitudinea, 27 eroare în medie pătratică, 56


estimator nedeplasat, 56
box-and-whiskers plot, 30 eveniment aleator, 39
eveniment aleator compus, 39
caracteristică, 14 eveniment aleator elementar, 39
clasă mediană, 32 evenimente dependente, 49
clopotul lui Gauss, 51 evenimente independente, 49
coeficient de aplatizare, 29, 46 experienţă aleatoare, 39
coeficient de asimetrie, 28, 46
coeficient de corelaţie, 84 frecvenţă cumulată, 20
coeficient de corelaţie teoretic, 48 frecvenţa absolută, 18, 41
coeficientul de corelaţie empiric, 26 frecvenţa cumulată, 18
coeficientul de variaţie , 27 frecvenţa relativă cumulată, 18
colectivitate statistică, 13 frecvenţa relativă, 18
corelaţia, 28 frontierele unei clase, 23
corelaţia teoretică, 48 funcţia de probabilitate (de frecvenţă), 43
cuantile, 47 funcţie de repartiţie (cumulată), 44
funcţie de repartiţie empirică, 28
date continue, 16 histogramă, 22
date discrete, 16
densităţi de frecvenţă, 22 indicatori statistici, 26
deplasarea unui estimator, 56 interval de încredere, 58
deviaţia standard, 27 ipoteză statistică, 63
diagrama cuantilă-cuantilă, 25
kriging, 101, 102
diagrama probabilitate-probabilitate, 25
kriging ordinar, 106
dispersia, 27
kurtosis, 29, 46
dispersia teoretică, 45
distribuţie empirică de selecţie, 18 media, 26
126 GLOSAR

media teoretică, 45
metoda celor mai mici patrate, 99
modul, 47
momente, 27
momente centrate ale unei v.a., 46
mulţime de selecţie, 39

nivel de semnificaţie, 59, 64

ogivă, 25

P-valoare, 64
populaţie statistică, 13
probabilitate, 40
probabilitate de risc, 59

recensământ, 15
regula celor 3σ , 45
repartiţia χ 2 , 52
repartiţia normală standard, 51
riscul beneficiarului, 64
riscul furnizorului, 64

scatter plot, 73
selecţie, 14
serie de timpi, 18
simulare stochastica, 114
simulare stochastica conditionata, 115
simulare stochastica neconditionata, 115
skewness, 28, 46
Statistică, 12
stem-and-leaf, 21

tabel de frecvenţe, 17
test bilateral, 65
test de concordanţă, 68
test statistic, 65
test unilateral dreapta, 65
test unilateral stânga, 65

UMVUE, 57

variabilă aleatoare, 42
variabila aleatoare standardizată, 46
variograma, 86
variograma empirica, 87, 95
variograma regionala, 87
variograma teoretica, 87

S-ar putea să vă placă și