Geostatistica 2022

Geostatistică
Iulian Stoleriu
Copyright © 2022 Iulian Stoleriu
Contents
1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Elemente de Statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Scurt istoric 11
2.2 Modelare Statistică 13
2.2.1 Populaţie statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Caracteristică (variabilă) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3 Parametrii populaţiei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.4 Eşantion (selecţie) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.5 Date statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.6 Indicatori statistici (statistici) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.7 Etapele unei analize statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.8 Limitări ale Statisticii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Organizarea şi descrierea datelor 22
2.4 Gruparea datelor 23
2.5 Reprezentarea datelor statistice 26
2.5.1 Reprezentare prin puncte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.2 Reprezentarea stem-and-leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.3 Reprezentarea cu bare (bar charts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.5 Reprezentare prin sectoare de disc (pie charts) . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.6 Poligonul frecvenţelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.7 Ogive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.8 Diagrama Q-Q sau diagrama P-P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.9 Diagrama scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6 Măsuri descriptive ale datelor statistice (indicatori statistici) 32
2.6.1 Date negrupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.2 Date grupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.7 Transformari de date 41
2.8 Exerciţii rezolvate 43
3 Noţiuni teoretice de Statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.1 Evenimente aleatoare 49
3.1.1 Operatii cu evenimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.1.2 Relatii intre evenimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2 Probabilitate 50
3.3 Variabile aleatoare 52
3.3.1 Funcţia de repartiţie (sau funcţia de repartiţie cumulată) . . . . . . . . . . . . . . . . . . 54
3.3.2 Caracteristici numerice ale unei variabile aleatoare (parametri) . . . . . . . . . . . 54
3.3.3 Independenţa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.4 Teorema limita centrala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.5 Repartiţii probabilistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4 Estimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.1 Estimatori punctuali 66
4.1.1 Exemple de estimatori punctuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2 Estimarea parametrilor prin intervale de încredere 68
4.2.1 Intervale de încredere pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2.2 Interval de încredere pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.3 Interval de încredere pentru proportie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5 Teste statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.1 Tipuri de teste statistice 75
5.1.1 Testul t pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.1.2 Test pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.3 Testul χ 2 de concordanţă . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.1.4 Testul de concordanţă Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6 Corelaţie şi regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.1 Punerea problemei 83
7 Metode de interpolare spaţială . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

7.1 Metode deterministe de interpolare spatiala 87
8 Procese stochastice spaţiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.1 Procese stochastice stationare 94
8.1.1 Ergodicitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.2 Functia de covarianţă 95
8.3 Variograma 96
8.4 Modelarea variogramei teoretice 99
8.4.1 Proprietati ale functiilor de corelatie spatiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8.4.2 Comportamentul variogramei in jurul originii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.4.3 Modele de variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.4.4 Estimator pentru variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.4.5 Pasi in estimarea variogramei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.4.6 Sfaturi practice pentru construirea unei variograme . . . . . . . . . . . . . . . . . . . . . 108
8.4.7 Indicatorul Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.4.8 Metode de estimare a variogramei teoretice . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.4.9 Anizotropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9 Kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
9.1 Introducere 111
9.2 Kriging simplu 112
9.3 Kriging ordinar 116
9.4 Kriging lognormal 119
9.5 Kriging universal (sau kriging cu drift) 119
9.6 Kriging indicator 120
9.7 Cokriging 122
9.8 Cross-validare (validarea incrucisata) 122
9.9 Simulare stochastica 124
10 Anexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
10.1 Tabele cu cuantile pentru repartiţii uzuale 127
10.2 Exemplu de date statistice spatiale 129
10.3 Tabel cu intervale de încredere 131
Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Index 135
1. Introducere
Geostatistica poate fi privita ca fiind o subramura a Statisticii, ce se preocupa cu analiza si

interpretarea datelor cu caracter geografic. Îsi are originile in industriile miniera si petroliera,
incepand cu studiile inginerului sud-african Danie Krige in anii ’50 si au fost ulterior continuate
si dezvoltate de inginerul Georges Matheron ([matheron1], [matheron2]) in anii ’60, care le-a
aplicat direct in evaluarea rezervelor miniere. Totusi, anterior anului 1950 au existat si alte lucrari
importante, nu neaparat legate de fenomene geologice, dar care au contribuit ulterior la conturarea
Geostatisticii ca o disciplina de sine statatoare. Prefixul Geo provine de la Geologie si este
datorat originilor cercetarilor datelor spatiele. Metodele actuale din Geostatistica au aplicatii in
diverse alte domenii, cum ar fi: Hidrologie, Oceanografie, Meteorologie, Industria forestiera,
Epidemiologie, Agricultura etc.
Obiectivul principal al acestei discipline este caracterizarea sistemelor spatiale care sunt incomplet
cunoscute/descrise. In acest scop, Geostatistica contine o colectie de tehnici numerice si matemat-
ice care se ocupa cu caracterizarea sistemelor (datelor) spatiale sau spatio-temporale care nu sunt
complet cunoscute, cum ar fi sistemele spatiale ce apar in Geologie. Prin date spatiale intelegem
acele date statistice ce sunt asociate cu o locatie in spatiu; pentru datele spatio-temporale mai
apare si referirea la variabila timp (datele observate depind de momentul cand au fost culese).
Exemple de fenomene spatiale sau spatio-temporale de interes in Geostatistică: concentratia

poluarii solului, rata infiltrarii apei in sol, porozitatea solului, pretul titeiului etc. Multe dintre
fenomenele din Geologie sunt extrem de diversificate si vaste. Geologii au ca sarcina realizarea
unui model geologic complet plecand de la un numar de observatii/masuratori care, de regula,
reprezinta doar o mica fractiune din aria sau volumul de interes. Din cauza complexitatii sistemelor
spatiale ce apar in Geologie, realizarea unei descrieri complete a unui sistem spatial este practic
imposibila. Mai mult, obtinerea unui numar foarte mare de masuratori este costisitoare. Geosta-
tistica ofera unelte si tehnici de interpolare si extrapolare (atat determinista cat si stochastica),
necesare determinarii (prezicerii) valorilor de interes in locatii unde nu au fost facute masuratori.
8 Chapter 1. Introducere
Spre deosebire de Statististica clasica, in care masuratorile (observatiile statistice) sunt privite
ca fiind observatii independente si identic repartizate asupra unei aceleiasi caracteristici, datele
de interes din Geostatistica sunt spatial corelate (i.e., ipoteza de independenta a datelor nu este
satisfacuta). Daca nu ar exista o asemenea corelare spatiala, aplicarea metodelor geostatistice nu
ar fi oportuna; Statistica clasica singura ar putea oferi raspunsurile necesare. Totodata, vom vedea
ca datele spatiale din Geostatistica nu pot fi toate generate de o aceeasi repartitie probabilistica.
Spre exemplu, se doreste a realiza o harta a ratei infiltrarii apei intr-o anumita regiune, ce cuprinde
atat zone rurale cat si urbane. Deoarece solul nu este acelasi in interiorul regiunii, rata infiltrarii
apei va avea diverse valori in acest areal. Este de asteptat ca masuratorile obtinute din locatii foarte
apropiate sa fie similare, fapt foarte familiar geologilor. In termeni statistici, acest fapt se traduce
printr-o corelare a valorilor ratelor infiltrarii apei masurate in locatii diferite. Vom vedea mai tarziu
ca in analiza acestor date va trebui sa tinem cont de corelatiile dintre ele, fapt ce va fi realizat
prin analiza variogramei (sau a corelogramei) datelor empirice. Totodata, datorita variabilitatii
solului, este de asteptat ca ratele astfel masurate sa nu urmeze toate o aceeasi repartitie normala.
Din acest motiv, fiecare data spatiala din Geostatistica poate privita ca fiind o singura observatie
(masurare) a unei anumite repartitii, nu neaparat una normala. Astfel, Geostatistica tine cont atat
de repartitiile datelor obtinute cat si de corelatiile intre aceste date, nefiind constransa sa considere
faptul ca toate datele observate au o aceeasi repartitie probabilistica.
Unul dintre scopurile Geostatisticii este ca, plecand de la o colectie de valori observate (masurate)
pentru o anumita caracteristica de interes, sa poata prezice repartitia spatiala intr-un punct de unde
nu avem date observate (nu s-au facut masuratori). Spre exemplu, in Figura 1.1 sunt reprezentate
7 masuratori efectuate intr-un regiune in care valorile masurate ale caracteristicii de interes sunt
aleatoare.
Se doreste prezicerea valorii in punctul marcat

cu culoare rosie. In practica, in urma unor astfel
de predictii se pot crea hărţi care sa descrie grafic
caracteristica de interes. Pentru ca aceste harti
sa fie cat mai detaliate, este deseori nevoie de
computere si de un software specializat. Valorile
prezise pot fi: estimate (folosind metode geo-
statistice) sau simulate (folosind metode Monte
Carlo). Valoarea estimata va fi determinata pe
baza unei metode specifice Geostatisticii, numita
kriging, si se bazeaza pe valorile observate (ma-
surate) deja si pe corelatia dintre aceste valori
observate (numita corelograma/variograma).
Figure 1.1: Valori ale unei caracteristici
intr-un camp aleator.
Foarte pe scurt, o analiza geostatistica urmeaza urmatoarele trei etape principale:
1. analiza descriptiva a datelor spatiale (grafice, diagrame, indicatori statistici)
2. construirea variogramei empirice si aproximarea ei cu un model teoretic (estimarea vari-
ogramei teoretice)
9
3. predictia (prin metode kriging sau simulari stochastice) valorilor caracteristicii de interes in
locatiile unde nu au fost facute masuratori.
In functie de natura datelor spatiale studiate, pentru fiecare etapa in parte exista metode specifice
de analiza, etape ce le vom studia in detaliu in cursurile ce urmeaza.
Dupa cum am mentionat mai sus, pentru locatiile de unde nu au fost culese date se pot face
predictii folosind metode de interpolare sau metode kriging. Pe langa acestea, se mai pot folosi
metode de simulare stochastica (care au la baza Teoria Probabilitatilor) pentru a produce valori ale
caracteristicii in pozitia dorita. Modelele probabilistice pot fi aplicate pentru datele spatiale intr-o
maniera asemanatoare analizei seriilor de timp. Astfel, se pot realiza predictii pentru valorile
caracteristicii de interes in locatiile unde nu au fost facute masuratori. Geostatistica este o strans
legata de metodele de interpolare, dar contine metode de analiza mult mai elaborate decat simplele
de interpolare. In scopul de a modela incertitudinea asociata cu estimarea spatiala, aceste metode
au la baza functii sau variabile aleatoare.
Principalele diferenţe dintre Statistica clasica si Geostatistica sunt:

• Datele statistice din Geostatistica tin cont de locatia de unde au fost culese şi pot fi corelate
cu datele obţinute din alte locaţii. Datele din Statistica clasica nu sunt dependente de locaţie
şi se presupune că acestea sunt observaţii independente ale unei variabile studiate.
• In Geostatistica, datele culese sunt independente intre ele si nici identic repartizate;
• In Statistica clasica, o selectie aleatoare contine date ce sunt considerate a fi multiple realizari
independente şi identic repartizate ale unei singure variabile. In schimb, in Geostatistica,
fiecare data dintr-o selectie este privita ca o singura realizare a unei variabile, iar aceasta
variabila difera cu locatia;
• Multe rezultate din Geostatistica nu presupun cunoasterea repartitiei datelor observate, desi
normalitatea datelor ar fi un avantaj pentru analiza. Pentru analiza datelor din Statistica
clasică este deseori nevoie ca distributia datelor sa fie cunoscuta. Multe dintre rezultatele
din Statistica clasica se bazeaza pe ipoteza de normalitate a datelor.
• De regula, datele geostatistice sunt culese in urma impartirii domeniului de masurat in
forme regulate (cubice, hexagonale etc.), asadar locatiile de unde se iau masuratori nu sunt
alese in mod cu totul aleator. Datele din Statistica clasică nu sunt neapărat legate de forma
regiunii de unde au fost culese.
Deoarece datele statistice spatiale pot fi foarte numeroase, pentru analiza lor este nevoie de ajutorul
computerelor si de un software specializat. Exemple de software ce analizeaza date geostatistice
sunt: ArcMap, M ATLAB (M AThematics L ABoratory), R, GSLIB (Geostatistical Software Library),
Gstat, SGeMS (Stanford Geostatistical Modeling Software), GS+, Geopack, GeoEAS, Variowin
etc.
2. Elemente de Statistică
2.1 Scurt istoric

Statistica este o ramură a ştiinţelor ce se preocupă de procesul de colectare de date şi informaţii,
de organizarea şi interpretarea lor, în vederea explicării unor fenomene reale. În Economie şi
Business, informaţiile extrase din datele statistice vor fi utile în evaluarea afacerilor sau a mediului
economic în care activează, ajutându-i astfel în luarea deciziilor.
În general, prin date (sau date statistice) înţelegem o mulţime de numere sau caractere ce au o
anumită însemnătate pentru utilizator. Utilizatorul este interesat în a extrage informaţii legate de
mulţimea de date pe care o are la îndemână. Datele statistice pot fi legate între ele sau nu. Suntem
interesaţi de studiul acestor date, cu scopul de a înţelege anumite relaţii între diverse trăsături ce
măsoară datele culese. De regulă, oamenii au anumite intuiţii despre realitatea ce ne înconjoară,
pe care le doresc a fi confirmate într-un mod cât mai exact.
De exemplu, dacă într-o anumită zonă a ţării rata şomajului este ridicată, este de aşteptat ca în
acea zonă calitatea vieţii persoanelor de acolo să nu fie la standarde ridicate. Totuşi, ne-am dori să
fim cât mai precişi în evaluarea legăturii dintre rata somajului şi calitatea vieţii, de aceea ne-am
dori să construim un model matematic ce să ne confirme intuiţia. Un alt gen de problemă: ardem
de nerăbdare să aflăm cine va fi noul preşedinte, imediat ce secţiile de votare au închis porţile
(exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea şi unificarea tuturor datelor
într-un timp record nu este o măsură deloc practică. În ambele probleme menţionate, observaţiile
şi culegerea de date au devenit prima treaptă spre înţelegerea fenomenului studiat. De cele mai
multe ori, realitatea nu poate fi complet descrisă de un astfel de model, dar scopul este de a oferi o
aproximare cât mai fidelă şi cu costuri limitate.
În ambele situaţii menţionate apar erori în aproximare, erori care ţin de întâmplare. De aceea,
ne-am dori să putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecând de la
12 Chapter 2. Elemente de Statistică
colecţiile de date obţinute dintr-o colectivitate, Statistica introduce metode de predicţie şi prognoză
pentru descrierea şi analiza proprietăţilor întregii colectivităţi. Aria de aplicabilitate a Statisticii
este foarte mare: ştiinţe exacte sau sociale, umanistică sau afaceri etc. O disciplină strâns legată
de Statistică este Econometria. Aceasta ramură a Economiei se preocupă de aplicaţii ale teoriilor
economice, ale Matematicii şi Statisticii în estimarea şi testarea unor parametri economici, sau în
prezicerea unor fenomene economice.
Statistica a apărut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre
populaţiile pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei mai
bune administrări. Datorită originii sale, Statistica este considerată de unii ca fiind o ştiinţă de sine
stătătoare, ce utilizează aparatul matematic, şi nu este privită ca o subramură a Matematicii. Dar
nu numai originile sale au fost motivele pentru care Statistica tinde să devină o ştiinţă separată de
Teoria Probabilităţilor. Datorită revoluţiei computerelor, Statistica a evoluat foarte mult în direcţia
computaţională, pe când Teoria Probabilităţilor foarte puţin. Aşa cum David Williams scria în
[williams], "Teoria Probabilităţilor şi Statistica au fost odată căsătorite; apoi s-au separat; în cele
din urmă au divorţat. Acum abia că se mai întâlnesc".
Din punct de vedere etimologic, cuvântului statistică îşi are originile în expresia latină statisticum
collegium (însemnând consiliul statului) şi cuvântul italian statista, însemnând om de stat sau
politician. În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat
pentru a analiza datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair a
extrapolat termenul la colecţii şi clasificări de date.
Metodele statistice sunt astăzi aplicate într-o gamă largă de discipline. Amintim aici doar câteva
exemple:
• în Geografie, spre exemplu, pentru a studia efectul incalzirii globale asupra repartitiei
padurilor pe glob;
• în Geologie, pentru a determina o harta a ratei infiltrarii apei intr-o anumita zona ubana;
• în Agricultură, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a fi folosite
pe un anumit teren arabil;
• în Economie, pentru studiul rentabilităţii unor noi produse introduse pe piaţă, pentru
corelarea cererii cu ofertă, sau pentru a analiza cum se schimbă standardele de viaţă;
• în Contabilitate, pentru realizarea operaţiunilor de audit pentru clienţi;
• în Biologie, pentru clasificarea din punct de vedere ştiinţific a unor specii de plante sau
pentru selectarea unor noi specii;
• în Ştiinţele educaţiei, pentru a găsi cel mai eficient mod de lucru pentru elevi sau pentru a
studia impactul unor teste naţionale asupra diverselor caregorii de persoane ce lucrează în
învăţământ;
• în Meteorologie, pentru a prognoza vremea într-un anumit ţinut pentru o perioadă de timp,
sau pentru a studia efectele încălzirii globale;
• în Medicină, pentru testarea unor noi medicamente sau vaccinuri;
• în Psihologie, în vederea stabilirii gradului de corelaţie între timiditate şi singurătate;
• în Politologie, pentru a verifica dacă un anumit partid politic mai are sprijinul populaţiei;
• în Ştiinţele sociale, pentru a studia impactul crizei economice asupra unor anumite clase
sociale;
• etc.
Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identifica mai întâi
care este colectivitatea asupra căreia se doreşte studiul. Această colectivitate (sau populaţie) poate
fi populaţia unei ţări, sau numai elevii dintr-o şcoală, sau totalitatea produselor agricole cultivate
într-un anumit ţinut, sau toate bunurile produse într-o uzină. Dacă se doreşte studiul unei trăsături
comune a tuturor membrilor colectivităţii, este de multe ori aproape imposibil de a observa această
trăsătură la fiecare membru în parte, de aceea este mult mai practic de a strânge date doar despre
o submulţime a întregii populaţii şi de a căuta metode eficiente de a extrapola aceste observaţii
la toată colectivitatea. Există o ramură a statisticii ce se ocupă cu descrierea acestei colecţii de
date, numită Statistică descriptivă. Această descriere a trăsăturilor unei colectivităţi poate fi
făcută atât numeric (media, dispersia, mediana, cuantile, tendinţe etc), cât şi grafic (prin puncte,
bare, histograme etc). De asemenea, datele culese pot fi procesate într-un anumit fel, încât să
putem trage concluzii foarte precise despre anumite trăsături ale întregii colectivităţi. Această
ramură a Statisticii, care trage concluzii despre caracteristici ale întregii colectivităţi, studiind
doar o parte din ea, se numeşte Statistică inferenţială. În contul Statisticii inferenţiale putem trece
şi următoarele: luarea de decizii asupra unor ipoteze statistice, descrierea gradului de corelare
între diverse tipuri de date, estimarea caracteristicilor numerice ale unor trăsături comune întregii
colectivităţi, descrierea legăturii între diverse caracteristici etc.
2.2 Modelare Statistică

De obicei, punctul de plecare este o problemă din viaţa reală, e.g., care partid are o susţinere mai
bună din partea populaţiei unei ţări, dacă un anumit medicament este relevant pentru boală pentru
care a fost creat, dacă este vreo corelaţie între numărul de ore de lumina pe zi şi depresie. Apoi,
trebuie să decidem de ce tipuri date avem nevoie să colectăm, pentru a putea da un răspuns la
întrebarea ridicată şi cum le putem colecta. Modurile de colectare a datele pot fi diverse: putem
face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este
nevoie de o metodă bine stabilită de colectare a datelor şi să construim un model statistic potrivit
pentru analiza acestora. În general, datele (observaţiile sau măsurătorile) culese pot fi potrivite
într-un model statistic prin care
Data observată = f (x, θ ) + eroare de aproximare, (2.2.1)
unde f este o funcţie ce verifică anumite proprietăţi şi este specifică modelului, x este vectorul
ce conţine variabilele măsurate şi θ este un parametru (sau un vector de parametri), care poate fi
determinat sau nedeterminat. Termenul de eroare apare deseori în pratică, deoarece unele date
culese au caracter stochastic (nu sunt deterministe, in sensul ca valorile lor nu pot fi prevazute a
priori). Modelul astfel creat este testat, şi eventual revizuit, astfel încât să se potrivească într-o
măsură cât mai precisă datelor culese.
2.2.1 Populaţie statistică

O populaţie (colectivitate) statistică este o mulţime de elemente ce posedă o trasatură comună
ce urmează a fi studiată. Aceasta poate fi finită sau infinită, reală sau imaginară. Exemple de
populaţii statistice: populaţia unei anumite ţări, mulţimea tuturor studenţilor din România, nota la
disciplina Matematică de la Bacalaureat, cantitatea de precipitaţii căzute într-o anumită regiune a
ţării în luna Iunie, mulţimea tuturor astrelor din Univers, totalitatea celulelor dintr-un organism,
posibilele rezultate obţinute la LOTO etc. In acest material vom nota populatia statistica cu Ω.
Din punct de vedere matematic, Ω este o multime nevida. Elementele ce constituie o colectivitate
statistică se vor numi unităţi statistice sau indivizi. Vom nota cu ω o unitate statistică. Dacă
populaţia este finită, atunci numărul N al unităţilor statistice ce o compun (i.e., |Ω|) îl vom numi
volumul colectivităţii (sau volumul populaţiei).
2.2.2 Caracteristică (variabilă)

Caracteristica (variabila) unei populaţii statistice este o anumită proprietate urmărită la indivizii
ei în procesul prelucrării statistice şi care constituie obiectul măsurării. Spre exemplu, înălţimea
bărbaţilor dintr-o anumită ţară, rata infiltrării apei în sol, media la Bacalaureat, altitudinea unor
munţi, culoarea frunzelor, naţionalitatea participanţilor la un congres internaţional etc. Din punct
de vedere matematic, caracteristica este reprezentată printr-o variabilă aleatoare definită pe Ω.
Spre exemplu, dacă populaţia statistică este mulţimea tuturor studenţilor dintr-o universitate
înrolaţi în anul întâi de master, atunci o caracteristica a sa ar fi media la licenţă obţinută de fiecare
dintre aceşti studenţi. Teoretic, mulţimea valorilor acestei caracteristici este intervalul [6, 10], iar
aceasta variabila poate lua orice valoare din acest interval.
Caracteristicile unei populaţii (la fel ca variabilele aleatoare) pot fi discrete sau continue. Car-
acteristicile discrete sunt cele care pot lua o mulţime finită sau cel mult numărabilă (adica, o
multime care poate fi numarată) de valori. Pentru a specifica o v.a. discretă, va trebui să enumerăm
toate valorile sale posibile, împreună cu probabilităţile corespunzatoare. Suma tuturor acestor
probabilităţi va fi întotdeauna egală cu 1, care este probabilitatea realizarii evenimentului sigur.
Când se face referire la repartiţia unei caracteristici discrete, se înţelege modul în care probabil-
itatea totală 1 este distribuită între toate posibilele valori ale caracteristicii. Această regulă de
atribuire a unor ponderi valorilor pe care le ia caracteristica se poate scrie sub forma unei funcţii,
numită funcţie de probabilitate (sau funcţie de masă).
Vom numi o caracteristică de tip continuu o variabilă pentru care mulţimea tuturor valorilor sale
este totalitatea numerelor dintr-un interval real (posibil infinit) sau toate numerele dintr-o reuniune
disjunctă de astfel de intervale, cu precizarea că pentru orice posibilă valoare c, P(X = c) = 0.
Deoarece în aceste multimi exista o infinitate de valori, nu mai putem defini o variabila continua
la fel ca in cazul discret, precizandu-i fiecare valoare pe care o ia si ponderea corespunzatoare. In
schimb, pentru o variabila aleatoare continua, putem preciza multimea in care aceasta ia valori
si o functie care sa descrie repartizarea acestor valori. O astfel de functie se numeste functie de
densitate a repartitiei, sau simplu, densitate de repartiţie.
Caracteristicile mai pot fi: cantitative (sau măsurabile sau numerice) (e.g., 2, 3, 5.75, 1/3, . . . )
sau calitative (categoriale sau atribute) (e.g., albastru, foarte bine, german etc). La rândul lor,
caracteristicile cantitative pot fi discrete (numărul de sosiri ale unui tramvai în staţie) sau continue
(timpul de aşteptare între două sosiri ale tramvaiului în staţie).
Caracteristicile pot depinde de una sau mai multe constante, numite parametri, parametrii fiind
astfel caracteristici numerice ale populaţiei. Spre exemplu, repartitia normala are doi parametri, µ
(media) şi σ (deviaţia standard).
Vom nota caracteristicile cu litere mari, X, Y, Z, . . ., iar valorile lor cu litere mici, x, y, z, . . ..
2.2.3 Parametrii populaţiei

Parametrii sunt masuri descriptive numerice ce reprezinta populatia prin caracteristicile sale.
Deoarece, în general, nu avem acces la intreaga populatie, parametrii sunt niste constante necunos-
cute, ce urmeaza a fi explicate sau estimate pe baza datelor. Spre exemplu, pentru variabilele
cantitative ale populatiei, putem avea: parametri care descriu tendinţa centrală a caracteristicii
populaţiei (e.g., media, mediana, momente), parametri care descriu dispersia valorilor carac-
teristicii (e.g., dispersia, deviatia standard, coeficient de variatie, range, distanţa intercuantilică),
parametri de poziţie (e.g., cuantile), parametri ce descriu forma caracteristicii populaţiei (e.g.,
skewness, kurtosis). Pentru date bidimensionale, putem avea parametri ce descriu legătura
dintre două caracteristici ale unei populaţii, e.g., corelaţia sau coeficientul de corelaţie. Pentru
date calitative (categoriale), cei mai des utilizati parametri sunt: π− proporţia din populaţie ce
are caracteristica de interes (e.g., proporţia de fumători din ţară), cote − şanse teoretice pentru
observarea caracteristicii de interes la întreaga populaţie (e.g., exista 70% şanse să plouă mâine,
cota pentru victorie a unei echipe este 2-1 etc.).
O colectivitate statistică poate fi descrisă folosind una sau mai multe variabile. Pentru fiecare
dintre aceste variabile se pot determina anumite cantităţi sau calităţi specifice, numite parametri.
După cum vom vedea mai târziu, aceşti parametri pot fi determinaţi exact sau estimaţi pe baza
datelor statistice, care sunt nişte măsurători (observaţii) efectuate asupra caracteristicilor unei
populaţii de interes.
Mai jos, vom prezenta câţiva parametri des întâlniţi în analiza statistica. Aceşti parametri sunt
caracteristici numerice ale unei variabile aleatoare.
• media (sau valoarea aşteptată). Pentru o variabila, media este o măsură a tendinţei centrale
a valorilor sale. De remarcat faptul ca exista variabile (atat discrete cât şi continue) care
nu admit o valoare medie. Pentru o variabilă X, vom nota media sa teoretică prin µ = EX.
Dacă X admite medie, atunci se defineşte prin:
Z ∞
µ = ∑ x i pi µ = x f (x) dx
i∈I −∞
(in cazul unei v.a. discrete) (in cazul unei v.a. continue)
În cazul în care poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai multe
variabile în acelaşi timp), vom folosi notaţia µX . Pentru media teoretică a unei variabile
aleatoare se mai folosesc şi notaţiile: m, M(X) sau E(X).
• dispersia (sau varianţa). Dispersia variabilei (sau varianţa) este o masura a gradului de
împrăştiere a valorilor acestei variabile in jurul valorii medii. Dispersia va fi notată prin σ 2
sau Var(X). Este definită prin Var(X) = E[(X − µ)2 ] = E(X 2 ) − [EX]2 . În cazul în care
poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai multe variabile în
acelaşi timp), vom folosi notaţia σX2 .
Z ∞
σ2 = ∑(xi − µ)2 pi σ2 = (x − µ)2 f (x) dz
i∈I −∞
(in cazul unei v.a. discrete). (in cazul unei v.a. continue).
√
• abaterea standard (sau deviaţia standard). Se defineşte prin σ = σ 2 . Are avantajul ca
unitatea sa de masura este aceeasi cu a variabilei X.
• coeficientul de variaţie. Este definit prin CV = σµ sau, scris sub forma de procente, CV =
100 σµ %. Este util in compararea variatiilor a doua sau mai multe seturi de date ce tin de
aceeasi variabila. Daca variatiile sunt egale, atunci vom spune ca setul de observatii ce are
media mai mica este mai variabil decat cel cu media mai mare.
• momente centrate. Pentru o v.a. X (discretă sau continuă), ce admite medie, momentele
centrate sunt valorile aşteptate ale puterilor lui X − µ. Definim astfel µk (X) = E((X − µ)k ).
În particular, Z ∞
k µk (X) = (x − µ)k f (x) dx;
µk (X) = ∑(xi − µ) pi ; −∞
i∈I
(in cazul unei v.a. continue).
(in cazul unei v.a. discrete).
Momente speciale:
(a) µ2 (X) = σ 2 . Al doilea moment centrat este chiar dispersia.
(b) coeficientul de asimetrie (skewness). De regulă, este notat prin γ1 şi este al treilea moment
centrat standardizat. Măsoară simetria/asimetria repartiţiei unei unei variabile.
(c) kurtosis (sau excesul). Este o măsură a distribuţiei valorilor extreme (outliers) ale unei
variabilei. Poate indica dacă repartiţia unei variabile este predispusă la valori extreme
(outliers). Este al patrulea moment centrat standardizat, uneori translatat cu valoarea −3,
caz în care se numeşte exces.
• cuantile. Sunt măsuri ale poziţiei unei valori printre toate valorile unei variabile. Exemple
de cuantile: mediana, cuartile, decile, centile, promile.
• covarianţa. Conceptul de covarianţă este legat de modul în care două variabile aleatoare
(ce admit medii) tind să se modifice una faţă de cealaltă; ele se pot modifica fie în aceeaşi
direcţie (caz în care vom spune că X1 şi X2 sunt direct <sau pozitiv> corelate) sau în direcţii
opuse (X1 şi X2 sunt invers <sau negativ> corelate). Dacă variabilele X1 , X2 admit medii,
respectiv, µ1 , µ2 , atunci covarianţa variabilelor X1 şi X2 , notată prin cov(X1 , X2 ), este
definită prin
cov(X1 , X2 ) = E[(X1 − µ1 )(X2 − µ2 )].
• coeficientul de corelaţie. Este tot o măsură a legăturii (liniare) dintre două variabile ce
admit medii. Acesta este foarte utilizat în ştiinţe ca fiind o măsură a dependenţei liniare
între două variabile. Se numeşte coeficient de corelaţie al variabilelor aleatoare X1 şi X2
cantitatea
cov(X1 , X2 )
ρX1 , X2 = ,
σ1 σ2
unde σ1 si σ2 sunt deviatiile standard pentru X1 , respectiv, X2 .
2.2.4 Eşantion (selecţie)

In general, volumul colectivitatii poate fi foarte mare sau chiar infinit, astfel ca efectuarea
unui recensământ (i.e., observarea caracteristicii de interes pentru toate elementele ce compun
colectivitatea) este fie foarte costisitoare sau imposibila. Pentru a efectua o analiza a caracteristicii
de interes sau chiar a repartitiei datelor observate, este suficienta analiza unei selectii de volum
suficient de mare formata din observatii ale caracteristicii, urmand ca aceasta analiza sa fie
extrapolata (folosind metode statistice specifice) pentru întreaga populaţie.
O selecţie (sau eşantion) este o colectivitate parţială de elemente extrase (la întâmplare sau nu) din
colectivitatea generală, în scopul cercetării lor din punctul de vedere al unei caracteristici. Dacă
extragerea se face la întâmplare, atunci spunem că am facut o selecţie întâmplătoare. Numărul
indivizilor din selecţia aleasă se va numi volumul selecţiei. Dacă se face o enumerare sau o
listare a fiecărui element component al unei populaţii statistice, atunci spunem că am facut un
recensământ. Selecţia ar trebui să fie reprezentativă pentru populaţia din care face parte. Numim
o selecţie repetată (sau cu repetiţie) o selecţie în urma căreia individul ales a fost reintrodus din
nou în colectivitate. Altfel, avem o selecţie nerepetată. Selecţia nerepetată nu prezintă interes
dacă volumul colectivităţii este finit, deoarece în acest caz probabilitatea ca un alt individ să
fie ales într-o extragere nu este aceeaşi pentru toţi indivizii colectivităţii. Pe de altă parte, dacă
volumul întregii populaţii statistice este mult mai mare decât cel al eşantionului extras, atunci
putem presupune că selecţia efectuată este repetată, chiar dacă în mod practic ea este nerepetată.
Spre exemplu, dacă dorim să facem o prognoză pentru a vedea cine va fi noul preşedinte în urma
alegerilor din toamnă, eşantionul ales (de altfel, unul foarte mic comparativ cu volumul populaţiei
cu drept de vot) se face, în general, fără repetiţie, dar îl putem considera a fi o selecţie repetată, în
vederea aplicării testelor statistice.
Selecţiile aleatoare se pot realiza prin diverse metode, în funcţie de următorii factori: disponibili-
tatea informaţiilor necesare, costul operaţiunii, nivelul de precizie al informaţiilor etc. Mai jos
prezentăm câteva metode de selecţie.
• selecţie simplă de un volum dat, prin care toţi indivizii ce compun populaţia au aceeaşi
şansă de a fi aleşi. Această metodă mininimizează riscul de a fi părtinitor sau favorabil
unuia dintre indivizi. Totuşi, această metodă are neajunsul că, în anumite cazuri, nu reflectă
componenţa întregii populaţii. Se aplică doar pentru colectivităţi omogene din punctul de
vedere al trăsăturii studiate.
• selecţie sistematică, ce presupune aranjarea populaţiei studiate după o anumită schemă
ordonată şi selectând apoi elementele la intervale regulate. (e.g., alegerea a fiecărui al 10-lea
număr dintr-o carte de telefon, primul număr fiind ales la întâmplare (simplu) dintre primele
10 din listă).
• selecţie stratificată, în care populaţia este separată în categorii, iar alegerea se face la
întâmplare din fiecare categorie. Acest tip de selecţie face ca fiecare grup ce compune
populaţia să poata fi reprezentat în selecţie. Alegerea poate fi facută şi în funcţie de mărimea
fiecărui grup ce compune colectivitatea totală (e.g., aleg din fiecare judeţ un anumit număr
de persoane, proporţional cu numărul de persoane din fiecare judeţ).
• selecţie ciorchine, care este un eşantion stratificat construit prin selectarea de indivizi din
anumite straturi (nu din toate).
• selecţia de tip experienţă, care ţine cont de elementul temporal în selecţie. (e.g., diverşi
timpi de pe o encefalogramă).
• selecţie de convenienţă: de exemplu, alegem dintre persoanele care trec prin faţa univer-
sităţii.
• selecţie de judecată: cine face selecţia decide cine ramâne sau nu în selecţie.
• selecţie de cotă: selecţia ar trebui să fie o copie a întregii populaţii, dar la o scară mult mai
mică. Aşadar, putem selecta proporţional cu numărul persoanelor din fiecare rasă, de fiecare
gen, origine etnică etc) (e.g., persoanele din Parlament ar trebui să fie o copie reprezentativă
a persoanelor întregii ţări, într-o scară mult mai mică).
2.2.5 Date statistice

Vom numi date (sau date statistice) informaţiile obţinute în urma observaţiei valorilor unei
caracteristici a unei populatii statistice. Există mai multe tipuri de date statistice, după cum
caracteristica (sau variabila) observată este calitativă (exprima o calitate sau o categorie) sau,
respectiv, cantitativă (are o valoare numerica). Putem avea:
• date calitative (se mai numesc şi categoriale). Datele calitative pot fi de două feluri:
– nominale. Acestea pot fi organizate pe niveluri distincte (categorii), fără a considera o
anumită ordine între ele. De exemplu: culoarea părului, naţionalitatea unei persoane,
afilierea politică, genul unei persoane etc.
– ordinale. Valorile ordinale fac referinţă la ordinea lor. De cele mai multe ori, această
grupare şi ordonare în categorii este naturală, deşi de multe ori nu se cunosc distanţele
între categorii. De exemplu: schimbarea stării unui pacient după un anumit tratament
(aceasta poate fi: îmbunătăţire semnificativă, îmbunătăţire moderată, nicio schimbare,
înrăutăţire moderată, înrăutăţire semnificativă). Alte exemple: răspunsurile la sondaj
de opinie (total dezacord, dezacord, de acord, total de acord), evaluări ale filmelor (1
stea, 2 stele etc.).
Există situaţii când datele calitative (sau categoriale) pot fi exprimate numeric. Spre exemplu,
se pot atribui coduri numerice unor date calitative, ce permit prelucrarea lor cu ajutorul
metodelor statistice. De exemplu, atribuirea numerică a calificativelor oferite de către
studenţi profesorilor, de la dezacord total (1), până la acord total (5).
• date cantitative (sau numerice). Aceste date reprezintă rezultatele unor numărări sau
măsurători. Datele cantitative pot fi comparate între ele pe o axă numerică. Ele pot fi, la
rândul lor:
– date de tip discret, dacă sunt obţinute în urma observării unei caracteristici discrete (o
variabila aleatoare discretă, sau o variabila ale carei posibile valori sunt in numar finit
sau cel mult numărabil). Exemple: numărul de studenţi care vin la un curs, numărul
de copii care îi are o mamă, nota la examenul de Statistică etc.
– date continue, dacă această caracteristică este continuă (o variabilă aleatoare de tip
continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau chiar de pe
axa reala). Exemple: media de la licenţă, atunci datele rezultate vor fi cantitative şi
continue, timpul de funcţionare e continuă a unei baterii, înălţimea unei persoane etc.
• Mai putem vorbi de date univariate, bivariate sau multivariate, atunci când datele statistice
sunt observaţii asupra unei variabile, a două variabile sau a mai multor variabile, respectiv.
• Spunem că avem date temporale sau spaţiale, după cum variabila studiată este dependentă
de timp (se obţin serii de timpi) sau de spaţiu (e.g., aciditatea solului în diverse locaţii).
Un alt mod de a caracteriza datele cantitative este următorul:
• date de tip interval. Datele de tip interval pot fi organizate în intervale de lungime egală,
semnificând diferent, e egale în caracteristica măsurată, dar fără a avea un zero semnificativ
(un punct „zero adevărat”), ci doar un zero arbitrar. Datele de tip interval sunt ordonate,
pot fi atât continue cât şi discrete. Le putem aduna şi scădea, dar nu le putem înmulţi sau
împărţi. Punctul cheie al unei scale de tip interval este cuvântul „interval”, care înseamnă
„spat, iu dintre”. Astfel, scalele de tip interval nu ne dau informaţii doar despre ordine, ci s, i
despre distanţa dintre fiecare element. Datele de tip interval pot arăta init, ial ca nişte date
ordinale (de exemplu, temperatură scăzută, medie sau ridicată), dar nivelurile sunt de natură
cantitativă s, i diferent, ele dintre niveluri au o semnificat, ie consistentă.
Un exemplu de date de tip interval: ora observată la un ceas analogic, de 12 ore. Ceasul are
intervale egale, iar timpul necesar pentru ca orarul să treacă de la 1 la 2 este acelas, i cu timpul
necesar pentru a trece de la 9 la 10. Ora 0 nu semnifică lipsa unei măsurători, deci 0 nu semnifică
absenţa mărimii. Pe această scală, valorile se pot aduna sau scădea, dar nu se pot înmulţi sau
împărţi. Spre exemplu, ora 10 nu este dublul orei 5.
Alte exemple de date de tip interval: date calendaristice, anul naşterii, coeficientul IQ al unei
persoane, temperatura în grade Celsius etc.
Figure 2.1: Tipuri de date statistice Figure 2.2: Scale pentru date statistice
• date de tip raport. Datele de tip raport reprezintă cea mai complexă scală de măsurare a
datelor, precum s, i cea mai preferată scară de măsurare. Au toate proprietăt, ile datelor de tip
interval, dar posedă şi un zero natural, ceea ce înseamnă că există un punct în care măsura
respectivă, oricare ar fi ea, nu există. De aceea, putem înmult, i s, i împărt, i, precum s, i aduna
sau scădea datele de tip raport. Exemple de date de tip raport: date obţinute ca observaţii ale
unor variabile precum înălt, imea, masa corporală, durata, vârsta etc. Toate aceste variabile
pot avea o valoare de zero care reprezintă nimicul (absenţa valorii). Un alt exemplu de date
de tip raport este venitul: banii câs, tigat, i într-o perioadă de timp. Se poate câs, tiga fie 0 RON
într-o lună, fie orice altă sumă de RON mai mare decât zero.
În mod esent, ial, datele de tip interval pot fi negative sau pozitive, în timp ce datele de tip raport
pot fi doar pozitive.
2.2.6 Indicatori statistici (statistici)
Pe baza datelor observate pentru un eşantion, putem construi diversi indicatori statistici care sa es-
timeze parametrii necunoscuti, obtinand descrieri numerice pentru populatie. Astfel de indicatori
se numesc statistici. Prin intermediul statisticilor putem trage concluzii despre populaţia Ω, din
care a provenit eşantionul observat. Teoria probabilităţilor ne oferă procedee de determinare a
repartiţiei asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte. Repartiţia
exactă este acea repartiţie ce poate fi determinată pentru orice volum al selecţiei. În general, dacă
se lucrează cu selecţii de volum redus (n < 30), atunci repartiţia exactă ar trebui să fie cunoscută a
priori, dacă se doreşte luarea de decizii prin inferenţă. Repartiţia asimptotică este repartiţia limită
a statisticii când n → ∞, iar utilizarea acesteia conduce la rezultate bune doar pentru n ≥ 30 (sau
n ≥ 40, depinzând de specificul datelor).
In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatii din aces-
tea. Mai concret, detine metodele necesare de a realiza urmatoarele cerinte: sa descrie cat mai fidel
si sugestiv acele date (prin grafice sau indicatori statistici), sa estimeze anumiti parametri de interes
(e.g., media teoretica, deviatia standard, asimetria ale caracteristicii), sa verifice prin inferenta
ipotezele ce se pot face referitoare la anumiti parametri ai caracteristicii sau chiar la forma acesteia.
Baza de comparaţie Populaţie (colectivitate) Eşantion (selecţie)

colecţia tuturor elementelor care un subgrup al membrilor
ce este? posedă caracteristici comune, populaţiei, aleşi pentru
ce sunt de interes în studiu a participa la studiu
ce include? fiecare membru (unitate) doar o submulţime
din grup din membrii grupului
caracteristica parametru statistică
colectarea datelor recensământ selecţie sau sondaj
interes în descrierea caracteristicilor luarea de decizii în ce
şi a parametrilor priveşte populaţia (inferenţă)
Table 2.1: Populaţie vs. Eşantion
Figure 2.3: Populaţie vs. eşantion
2.2.7 Etapele unei analize statistice

• Verificarea datelor pentru erori sau date lipsă. Sunt cazuri în care datele statistice sunt
înregistrate greşit (e.g., lipseşte virgula sau nu este la locul potrivit, unele date au o altă
unitate de măsură sau lipsesc unele valori).
• Organizarea şi gruparea datelor. Aceasta se face folosind tabele de frecvenţe. Gruparea
datelor nu este unică şi se pot încerca diverse grupări, alegându-se cea mai potrivită specifi-
cului datelor. Este la latitudinea statisticianului de a le organiza, în funcţie de specificul lor,
de informaţiile pe care doreşte să le extragă.
• Reprezentarea datelor folosind diagrame/grafice potrivite. Datele de tip interval şi raport
pot fi reprezentate prin histograme sau prin sectoare de disc, iar cele de tip categorial pot
fi reprezentate prin bare sau prin sectoare de disc. Un grafic potrivit poate sugera multe
informaţii despre date. Pentru datele statistice cantitative se poate reprezenta şi diagrama
box-and-whiskers plot, reprezentând sinteza celor cinci statistici importante: valoarea
minimă, prima cuartilă, mediana (a doua cuartilă), a treia cuartilă şi valoarea maximă a
datelor. Această diagramă poate indica (dacă este cazul!) existenţa unor valori care ies din
tiparul majorităţii valorilor (numite outliers).

• Calculul unor indicatori statistici pentru date. Spre exemplu, se pot calcula: media,
dispersia, mediana, skewness, coeficientul de variaţie etc. Aceşti indicatori se doresc a fi
reprezentanţi numerici ai datelor statistice.
• Luarea de decizii pe baza datelor. Aceasta se poate face în urma unor teste statistice.
Exemple de teste statistice: test pentru verificarea normalităţii datelor, test pentru verificarea
mediei datelor, test pentru semnificaţia coeficientului de corelaţie etc.
Figure 2.4: Paşi în analiza statistică
2.2.8 Limitări ale Statisticii

• Statistica se ocupă, în special, de caracteristicile cantitative, cele calitative fiind de multe ori
ignorate. [Un statistician este un profesionist care culege cu sârguinţă fapte şi date, iar apoi trage cu
atenţie concluzii confuze despre acestea.]
• Statistica se ocupă doar de analiza grupurilor sau a maselor. Aşadar, nu pot fi obţinute date
şi informaţii foarte exacte despre elemente individuale.
[Statistica ne arată că, în medie, un român are mai puţin de două picioare.]
• Statistica analizează doar date omogene (de natură similară), neputând explica datele
heterogene. [Statistica este ca o pereche de bikini. Ceea ce ne arată este sugestiv, iar ceea ce
ascunde este... de interes.]
• Statistica nu este 100% sigură. Există mereu un nivel de risc asociat deciziilor statistice.
[Un statistician nu trebuie să spună niciodată că este sigur; e suficientă o încredere de 95%.]
• Legile statisticii se bazează de multe ori pe medii, deci ele nu sunt universal valabile.
[Un statistician poate sta cu capul într-un cuptor incandescent şi cu picioarele înfipte în gheaţă,
spunând că, în medie, se simte bine.]
• Este nevoie de cunoştinţe speciale pentru a aplica legile statisticii. Doar cunos, tinţe generale
de matematică sau de economie nu sunt suficiente pentru a lucra cu date statistice.
[Fiecare american ar trebui să aibă venituri peste medie, iar administraţia mea va face tot posibilul să
obţină acest deziderat.] [Bill Clinton, în campanie electorală]
• Se poate întâmpla ca rezultatul obţinut în urma unei analize statistice să inducă în eroare,
posibil şi din cauza colectării şi/sau interpretării necorespunzătoare a datelor.
[Dacă ajungi până la o sută de ani, te-ai scos! Statistica arată că nu au fost mulţi oameni care să fi
murit după această vârstă.] [George Burns]
2.3 Organizarea şi descrierea datelor

Presupunem că avem o colectivitate statistică, căreia i se urmăreşte o anumită caracteristică (sau
variabila). Spre exemplu, colectivitatea este mulţimea tuturor studenţilor dintr-o universitate
înrolaţi în anul întâi de master, iar caracteristica este media la licenţă obţinută de fiecare dintre
aceşti studenţi. Teoretic, mulţimea valorilor acestei caracteristici este intervalul [6, 10], iar aceasta
variabila poate lua orice valoare din acest interval.
Vom numi date (sau date statistice) informaţiile obţinute în urma observarii valorilor acestei
caracteristici. In cazul mentionat mai sus, datele sunt mediile la licenţă observate. În general,
datele pot fi calitative (se mai numesc şi categoriale) sau cantitative, după cum caracteristica (sau
variabila) observată este calitativă (exprima o calitate sau o categorie) sau, respectiv, cantitativă
(are o valoare numerica). Totodata, aceste date pot fi date de tip discret, dacă sunt obţinute în
urma observării unei caracteristici discrete (o variabila aleatoare discretă, sau o variabila ale
carei posibile valori sunt in numar finit sau cel mult numarabil), sau date continue, dacă această
caracteristică este continuă (o variabilă aleatoare de tip continuu, sau o variabila ce poate lua orice
valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele vor fi
cantitative şi continue.
În Statistica clasică, se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z, . . .,

si valorile lor cu litere mici, x, y, z, . . .. In mare parte din acest curs vom folosi notatia Z pentru
variabila aleatoare si cu z o posibila valoare (sau realizare) a sa. Daca in exemplul de mai sus
notam cu Z variabila medie la licenta, atunci un anume z observat va fi media la licenta pentru un
student din colectivitate ales aleator.
În Geostatistică, datele observate au caracter spatial, adica sunt legate de pozitie. Pozitia spatiala
poate fi unu, doi sau trei-dimensionala. Majoritatea datelor spatiale din acest curs vor avea pozitie
doi-dimensionala (sau bidimensionala). Vom nota cu x = (x1 , x2 ) vectorul de coordonate bidimen-
sionale. Astfel prin Z(x) sau Z(x1 , x2 ) vom nota variabila Z in locatia x, iar prin z(x) sau z(x1 , x2 )
vom nota valoarea variabilei Z in locatia x. Daca avem mai multe valori ale variabilei Z, le vom
nota prin z1 , z2 , z3 , . . . . În Geostatistica, se foloseste termenul de variabila pentru a caracteriza o
valoare necunoscuta pe care o trasatura unei populatii o poate lua in locatii spatio-temporale.
Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea
şi reprezentarea grafica a datelor, dar şi în calcularea anumitor caracteristici numerice pentru
acestea. Datele înainte de prelucrare, adică exact aşa cum au fost culese, se numesc date negrupate.
Un exemplu de date negrupate (de tip continuu) sunt cele observate in Tabelul 2.2, reprezentând
timpi (în min.sec) de aşteptare pentru primii 100 de clienţi care au aşteptat la un ghişeu până au
fost serviţi.
1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63
0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77
2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89
0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67
1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74
3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80
3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98
5.36 1.32 1.76 2.14 3.28 3.89 4.85 4.12 0.88
Table 2.2: Date statistice negrupate
De cele mai multe ori, enumerarea tuturor datelor culese este dificil de realizat, de aceea se
urmăreşte a se grupa datele, pentru o mai uşoară gestionare. Imaginaţi-vă că enumerăm toate
voturile unei selecţii întâmplătoare de 15000 de votanţi, abia ieşiţi de la vot. Mai degrabă, ar fi
mai util şi practic să grupăm datele după numele candidaţilor, precizând numărul de voturi ce l-a
primit fiecare. Asadar, pentru o mai buna descriere a datelor, este necesara gruparea lor in clase
de interes.
2.4 Gruparea datelor

Datele prezentate sub formă de tabel (sau tablou) de frecvenţe se numesc date grupate. Datele
de selecţie obţinute pot fi date discrete sau date continue, după cum caracteristicile studiate sunt
variabile aleatoare discrete sau, respectiv, continue.
(1) Date de tip discret: Dacă datele de selecţie sunt discrete (e.g., {z1 , z2 , . . . , zn }), este posibil
ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt z01 , z02 , . . . , z0r ,
r ≤ n. Atunci, putem grupa datele într-un aşa-numit tabel de frecvenţe (vezi exemplul din Tabelul
2.3). Alternativ, putem organiza datele negrupate într-un tabel de frecvenţe, după cum urmează:
data z01 z02 ... z0r

(2.4.2)
frecventa f1 f2 ... fr
unde fi este frecvenţa apariţiei valorii z0i , (i = 1, 2, . . . , r), şi se va numi distribuţia empirică de
selecţie a lui Z. Aceste frecvenţe pot fi absolute sau de relative. Un tabel de frecvenţe (sau o
distribuţie de frecvenţe) conţine cel puţin două coloane: o coloană ce reprezintă datele observate
(grupate în clase) şi o coloană de frecvenţe. În prima coloană apar clasele, adică toate valorile
distincte observate. Datele din această coloană nu se repetă. Prin frecvenţa absolută a clasei
înţelegem numărul de elemente ce aparţine fiecărei clase în parte. De asemenea, un tabel de
frecvenţe mai poate conţine frecvenţe relative sau cumulate. O frecvenţă relativă se obţine prin
împărţirea frecvenţei absolute a unei categorii la suma tuturor frecvenţelor din tabel. Astfel, suma
tuturor frecvenţelor relative este egală cu 1. Frecvenţa (absolută) cumulată a unei clase se obţine
prin cumularea tuturor frecvenţelor absolute până la (inclusiv) clasa respectivă. Frecvenţa relativă
cumulată a unei clase se obţine prin cumularea tuturor frecvenţelor relative până la (inclusiv)
nota frecvenţa absolută frecvenţa cumulată frecvenţa relativă frecvenţa relativă cumulată
2 2 2 2.22% 2.22%
3 4 6 4.44% 6.66%
4 8 14 8.89% 15.55%
5 15 29 16.67% 32.22%
6 18 47 20.00% 52.22%
7 17 64 18.89% 71.11%
8 15 79 16.67% 87.78%
9 7 86 7.78% 95.56%
10 4 90 4.44% 100%
Total 90 - 100% -
Table 2.3: Tabel cu frecvenţe pentru date discrete.
clasa respectivă.
Aşadar, elementele unui tabel de frecvenţe pot fi: clasele (ce conţin valori pentru variabile),
frecvenţe absolute, frecvenţe relative sau cumulate. Într-un tabel, nu este obligatoriu să apară
toate coloanele cu frecvenţe sau ele să apară în această ordine.
Vom numi o serie de timpi (sau serie dinamică ori cronologică) un set de date culese la momente
diferite de timp. O putem reprezenta sub forma unui tablou de forma

z1 z2 ... zn
data : ,
t1 t2 ... tn
unde zi sunt valorile caracteristicii, iar ti momente de timp (e.g., răspunsurile citite de un electro-
cardiograf).
În Tabelul 2.3, sunt prezentate notele studenţilor din anul al III-lea la examenul de Statistică.
Acesta este exemplu de tabel ce reprezentă o caracteristică discretă.
(o glumă povestită de G. Pólya,1 despre cum NU ar trebui interpretată frecvenţa relativă)

Un individ suferind merge la medic. Medicul îl examinează îndelung şi, balansând dezamăgit capul, îi
spune pacientului:
"Offf... dragă domnule pacient, am două veşti: una foarte proastă şi una bună. Mai întâi vă aduc la
cunoştinţă vestea proastă: suferiţi de o boală groaznică. Statistic vorbind, din zece pacienţi ce contractează
această boală, doar unul scapă."
Pacientul, deja în culmea disperării, este totuşi consolat de doctor cu vestea cea bună:
"Dar, fiţi pe pace! Dumneavoastră aţi venit la mine, şi asta vă face tare norocos", continuă optimist doctorul.
"Am avut deja nouă pacienţi ce au avut aceeaşi boală şi toţi au murit, aşa că... veţi supravieţui!"
(2) Date de tip continuu: Dacă datele statistice sunt realizări ale unei variabile Z de tip continuu,
atunci se obişnuieste să se facă o grupare a datelor de selecţie în clase. Datele de tip continuu pot
fi grupate într-un tablou de distribuţie sau sub forma unui tabel de distribuţie, dupa cum urmeaza:
1 György Pólya (1887 − 1985), matematician ungur

clasa frecvenţa valoare medie

[a0 , a1 ) f1 z01
[a1 , a2 ) f2 z02
.. .. ..
data [a0 , a1 ) [a1 , a2 ) ... [ar−1 , ar ) . . .
frecventa f1 f2 ... fr [ar−1 , ar ) fr z0r
Table 2.4: Tabel cu frecvenţe pentru

date de tip continuu.
În particular, putem grupa datele de tip continuu din Tabelul 2.2 în tabloul de distribuţie următor:
data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)

frecventa 14 17 21 18 16 14
Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot fi modificate dupa cum doreste
utilizatorul. Uneori, tabelul de distribuţie pentru o caracteristică de tip continuu mai poate fi scris
şi sub forma unui tabel ca in (2.4.2), unde
ai−1 + ai
• z0i = este elementul de mijloc al clasei [ai−1 , ai );
2
r
• fi este frecvenţa apariţiei valorilor din [ai−1 , ai ), (i = 1, 2, . . . , r), ∑ fi = n.
i=1
Pentru definirea claselor unui tabel de frecvenţe, nu există o regulă precisă. Fiecare utilizator
de date îşi poate crea propriul tabel de frecvenţe. Scopul final este ca acest tabel să scoată în
evidenţă caracteristicele datelor, cum ar fi: existenţa unor grupe (clase) naturale, variabilitatea
datelor într-un anumit grup (clasă), informaţii legate de existenţa unor anumite date statistice care
nu au fost observate in selecţia dată etc. În general, aceste caracteristici nu ar putea fi observate
privind direct setul de date negrupate. Totuşi, pentru crearea tabelelor de frecvenţe, se recomandă
următorii paşi:
1. Determinarea numărului de clase (disjuncte). Este recomandat ca numărul claselor să fie
între 5 şi 20. Dacă volumul datelor este mic (e.g., n < 30), se recomandă constituirea a 5
sau 6 clase. De asemenea, dacă este posibil, ar fi util ca fiecare clasă să fie reprezentată de
cel puţin 5 valori (pentru un număr mic de clase). Dacă numărul claselor este mai mare,
putem avea şi mai puţine date într-o clasă, dar nu mai puţin de 3. O clasă cu prea puţine
valori (0, 1 sau 2) poate să nu fie reprezentativă.
2. Determinarea lăţimii claselor. Dacă este posibil, ar fi bine dacă toate clasele ar avea aceeaşi
lăţime. Acest pas depinde, în mare măsuraă, de alegerea din pasul anterior.
3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât fiecare
dată statistică să aparţine unei singure clase.
În practică, un tabel de frecvenţe se realizează prin încercări, până avem convingerea că gruparea
făcută poate surprinde cât mai fidel datele observate.
Aşadar, dacă ne este dată o înşiruire de date ale unei caracteristici discrete sau continue, atunci
le putem grupa imediat în tabele sau tablouri de frecvenţe. Invers (avem tabelul sau tabloul de
repartiţie şi vrem să enumerăm datele) nu este posibil, decât doar în cazul unei caracteristici de tip
discret. De exemplu, dacă ni se dă Tabelul 2.5, ce reprezintă rata somajului într-o anumită regiune
a ţării pe categorii de vârste, nu am putea şti cu exactitate vârsta exactă a persoanelor care au fost
selecţionate pentru studiu.
Observăm că acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi
valoare de mijloc pentru o clasă, valoarea obţinută prin media valorilor extreme ale clasei. În
vârsta frecvenţa frecvenţa relativă frecvenţa cumulată vârsta medie

[18, 25) 34 8.83% 8.83% 21.5
[25, 35) 76 19.74% 28.57% 30
[35, 45) 124 32.21% 60.78% 40
[45, 55) 87 22.60% 83.38% 50
[55, 65) 64 16.62% 100.00% 60
Total 385 100% - -
Table 2.5: Tabel cu frecvenţe pentru rata somajului.
cazul Tabelului 2.5, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenţa cumulată
a unei clase este suma frecvenţelor tuturor claselor cu valori mai mici.
2.5 Reprezentarea datelor statistice

Un tabel de frecvenţe sau o distribuţie de frecvenţe (absolute sau relative) sunt de cele mai multe
ori baza unor reprezentări grafice, pentru o mai bună vizualizare a datelor. Aceste reprezentări pot
fi făcute în diferite moduri, dintre care amintim pe cele mai uzuale.
2.5.1 Reprezentare prin puncte

Reprezentarea prin puncte (en., dot plot)
este folosită, de regula, pentru selecţii de
date de tip discret de dimensiuni mici. Sunt
reprezentate puncte aşezate unul peste celalalt,
reprezentând numărul de apariţii ale unei
valori pentru caracteristica dată. Un astfel
de grafic este reprezentat în Figura 2.5.
Aceste reprezentări sunt utile atunci când
se doreşte scoaterea în evidenţă a anumitor
pâlcuri de date (en., clusters) sau chiar lipsa
unor date (goluri). Au avantajul de a con-
serva valoarea numerică a datelor reprezentate.
Figure 2.5: Reprezentarea prin puncte.
2.5.2 Reprezentarea stem-and-leaf

Este folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic. Următorul
set de date negrupate reprezinta punctajele (din 100 de puncte) obţinute de cei 20 de elevi ai unui
an de studiu la o testare semestrială:
50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96
Tabelul 2.7 reprezintă aceste date sub forma stem-and-leaf (ramură-frunză). Se observă că acest
tabel arată atât cum sunt repartizate datele, cât şi forma repartiţiei lor (a se privi graficul că având
pe OY drept axa absciselor şi OX pe cea a ordonatelor). Aşadar, 7|5 semnifică un punctaj de
75. Pentru un volum prea mare de date, această reprezentare nu este cea mai bună metodă de
vizualizare a datelor. În secţiunile următoare vom prezenta şi alte metode utile.
stem leaf
10
9 26
8 1568
7 357779
6 122488
5 0359
4 148
3 49
2
1 8
0
Figure 2.7: Tabel stem-and-leaf reprezentând

Figure 2.6: Reprezentarea datelor discrete. punctajele studenţilor.
2.5.3 Reprezentarea cu bare (bar charts)
Este utilă pentru reprezentarea variabilelor discrete cu un număr mic de valori diferite. Barele sunt
dreptunghiuri ce reprezintă frecvenţele şi nu sunt unite între ele. Fiecare dreptunghi reprezintă
o singură valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regulă, pe orizontală
iar frecvenţele pe verticală. În Figura 2.81 sunt reprezentate datele din tabelul cu note. Se poate
schimba orientarea categoriilor şi a claselor; în acest caz barele vor apărea pe orizontală (vezi
Figura 2.82 ). Figura 2.9 contine o reprezentare de date folosind bare 3D.
Figure 2.8: Reprezentările cu bare.

Figure 2.9: Reprezentare 3D prin bare.
2.5.4 Histograme
Cuvântul "histogramă" a fost introdus pentru prima oară de Karl Pearson2 în 1895. Acesta derivă
din cuvintele greceşti histos (gr., ridicat în sus) şi gramma (gr., desen, înregistrare). O histogramă
este o formă pictorială a unui tabel de frecvenţe, foarte utilă pentru selecţii mari de date de tip
continuu. Se aseamănă cu reprezentarea prin bare, cu următoarele două diferenţe: nu există spaţii
între bare (deşi, pot apărea bare de înalţime zero ce arată a fi spaţiu liber) şi ariile barelor sunt
proporţionale cu frecvenţele corespunzătoare. Numărul de dreptunghiuri este egal cu numărul
de clase, lăţimea dreptunghiului este intervalul clasei, iar înălţimea este aşa încât aria fiecărui
dreptunghi reprezintă frecvenţa. Aria totală a tuturor dreptunghiurilor este egală cu numărul total
de observaţii. Dacă barele unei histograme au toate aceeaşi lăţime, atunci înălţimile lor sunt
proporţionale cu frecvenţele. Înălţimile barelor unei histogramei se mai numesc şi densităţi de
frecvenţă.
În cazul în care lăţimile barelor nu sunt toate egale, atunci înălţimile lor satisfac:
frecvenţa
înălţimea = k · , k = factor de proporţionalitate.
lăţimea clasei
Să presupunem că am fi grupat datele din Tabelul 2.6 într-o altă manieră, în care clasele nu sunt
echidistante (vezi Tabelul 2.8). În Tabelul 2.8, datele din ultimele două clase au fost cumulate
într-o singură clasă, de lăţime mai mare decât celelalte, deoarece ultima clasă din Tabelul 2.6
nu avea suficiente date. Histograma ce reprezintă datele din Tabelul 2.8 este cea din Figura 2.9.
Conform cu regula proporţionalităţii ariilor cu frecvenţele, se poate observa că primele patru bare
au înălţimi egale cu frecvenţele corespunzătoare, pe când înălţimea ultimei bare este jumătate din
valoarea frecvenţei corespunzătoare, deoarece lăţimea acesteia este dublul lăţimii celorlalte.
În general, pentru a construi o histogramă, vom avea în vedere următoarele:

− datele vor fi împărţite (unde este posibil) în clase de lungimi egale. Uneori aceste divizări sunt
naturale, alteori va trebui să le fabricăm.
2 Karl Pearson (1857 − 1936), statistician, avocat şi eugenist britanic
Înălţimea (în cm) frecvenţa

[0, 5) 5
[5, 10) 13
[10, 15) 23
[15, 20) 17
[20, 25) 10
[25, 30) 2
Table 2.6: Tabel cu înălţimile plantelor
Table 2.7: Histograme pentru datele din Tabelul 2.6
− numărul de clase este, în general, între 5 şi 20. Cu cât avem mai multe date, cu atât vom folosi
mai multe clase.
− în general, nu există o regulă exactă pentru a deter-
mina numărul de clase. Două dintre regulile cele mai
uzuale de stabilire a numărului de clase k sunt:
• numărul
√ de clase approximativ egal cu
numărul
√ de date. Spre exemplu, putem alege
k = [ n] + 1.
• (regula lui Sturges) numărul de clase k este astfel
încât k = 1 + 3.322 log10 , ori n = dlog2 ne + 1.
Metoda lui Sturges este optimă pentru un număr
de date n situat între 30 şi 200.
Figure 2.10: Histogramă 3D
− determinaţi lăţimea minimă a claselor după formula
valoarea maximă observată − valoarea minimă observată
h= .
k
Este o practică obis, nuită să rotunjit, i lăt, imea minimă a clasei până la o zecimală convenabilă,
pentru a face incrementele de-a lungul axei orizontale mai lizibile.
− determinaţi clasele şi apoi înregistraţi numărul de date din fiecare clasă (frecvenţe absolute).
− figura ce conţine histograma va avea clasele pe orizontală şi frecvenţele pe verticală.
Observaţia 2.1 (1) Dacă lungimea unei clase este infinită, atunci se obişnuieşte ca lăţimea
ultimului interval să fie luată drept dublul lăţimii intervalului precedent.
(2) În multe situaţii, capetele intervalelor claselor sunt nişte aproximări, iar în locul acestora vom
putea utiliza alte valori. Spre exemplu, să considerăm clasa [15, 20). Această clasă reprezintă
clasa acelor plante ce au înălţimea cuprinsă între 15cm şi 20cm. Deoarece valorile înălţimilor sunt
valori reale, valorile 15 şi 20 sunt, de fapt, aproximările acestor valori la cel mai apropiat întreg.
Aşadar, este posibil ca această clasă să conţină acele plante ce au înălţimile situate între 14.5cm
(inclusiv) şi 20.5cm (exclusiv). Am putea face referire la aceste valori ca fiind valorile reale ale
clasei, numite frontierele clasei. În cazul în care am determinat frontierele clasei, lăţimea unei
clase se defineşte ca fiind diferenţa între frontierele ce-i corespund. În concluzie, în cazul clasei

[0, 5) 5
[5, 10) 13
[10, 15) 23
[15, 20) 17
[20, 30) 12
Table 2.8: Tabel cu înălţimile plantelor
Table 2.9: Histograme pentru datele din Tabelul 2.8
înălţimea (în cm) frontierele lăţimea frecvenţa densitatea de frecvenţă

[18, 25) 17.5 − 25.5 8 34 4.25
[25, 35) 24.5 − 35.5 11 76 6.91
[35, 45) 34.5 − 45.5 11 124 11.27
[45, 55) 44.5 − 55.5 11 87 7.91
[55, 65) 54.5 − 65.5 11 64 5.82
Table 2.10: Tabel cu frontierele claselor.
[15, 20), aceasta are frontierele 14.5 - 20.5, lăţimea 6 şi frecvenţa 17 6 . Pentru exemplificare, în
Tabelul 2.10 am prezentat frontierele claselor, lăţimile lor şi densităţile de frecvenţă pentru datele
din Tabelul 2.5.
2.5.5 Reprezentare prin sectoare de disc (pie charts)
Se poate reprezenta distribuţia unei caracteristici şi folosind sectoare de disc (diagrame circulare)
(en., pie charts), fiecare sector de disc reprezentând câte o frecvenţă relativă. Această variantă
este utilă în special la reprezentarea datelor calitative.
Există şi posibilitatea de a reprezenta datele prin sectoare 3 dimensionale. În Figura 2.12 am
reprezentat datele din Tabelul 2.5.
Figure 2.12: Reprezentare pe disc 3D

Figure 2.11: Reprezentarea pe disc a frecvenţelor
relative ale notelor din tabelul cu note
2.5.6 Poligonul frecvenţelor
Un poligon de frecvenţă este similar cu o reprezentare

cu bare, dar în loc să folosească barele, se creează
un poligon prin trasarea frecvenţelor şi conectarea
acestor puncte cu o serie de segmente.
Figure 2.13: Exemplu de polygon al

frecvenţelor
2.5.7 Ogive
Pentru frecventele cumulate pot fi folosite ogive. O

ogivă reprezintă graficul unei frecvenţe cumulate
(absolută sau relativă).
Figure 2.14: Ogivă pentru frecvenţele

absolute cumulate din Tabelul 2.3
2.5.8 Diagrama Q-Q sau diagrama P-P
Q-Q plot (diagrama cuantila-cuantila) si P-P plot

(diagrama probabilitate-probabilitate) sunt uti-
lizate in a determina apropierea dintre doua se-
turi de date (repartitii). Daca datele provin dintr-
o acceasi repartitie, atunci ele se aliniaza dupa o
dreapta desenata in figura. Diagrama Q-Q este
bazata pe rangurile valorilor, iar diagrama P-P
este bazata pe functiile de repartitie empirice.
Figure 2.15: Exemplu de diagrama Q-Q plot
2.5.9 Diagrama scatter plot
Dacă (xk , yk ), k ∈ {1, 2, . . . , n} este un set de date

bidimensionale, ce reprezintă observaţii asupra vec-
torului aleator (X, Y ), atunci o măsură a legăturii
dintre variabilele X şi Y este coeficientul de core-
laţie empiric introdus de K. Pearson. Primul pas în
analiza regresională este vizualizarea datelor. Pen-
tru aceasta se foloseşte reprezentarea scatter plot.
Figure 2.16: Exemplu de scatter plot
2.6 Măsuri descriptive ale datelor statistice (indicatori statistici)

Să considerăm o populaţie statistică de volum N şi o caracteristică a sa, Z, ce are funcţia de
repartiţie F. Asupra acestei caracteristici facem n observaţii, în urma cărora obţinem un set de
date statistice. După cum am văzut anterior, datele statistice pot fi prezentate într-o formă grupată
(descrise prin tabele de frecvenţe) sau pot fi negrupate, exact aşa cum au fost culese în urma
observărilor. Pentru analiza acestora, pot fi utilizate diverse tehnici de organizare şi reprezentare
grafică a datelor statistice însă, de cele mai multe ori, aceste metode nu sunt suficiente pentru o
analiză detaliată. Suntem interesaţi în a atribui acestor date anumite valori numerice reprezentative.
Pot fi definite mai multe tipuri de astfel de valori numerice, e.g., măsuri ale tendinţei centrale
(media, modul, mediana), măsuri ale dispersiei (dispersia, deviaţia standard), măsuri de poziţie
(cuantile, distanţa intercuantilică) etc. În acest capitol, vom introduce diverse măsuri descriptive
numerice, atât pentru datele grupate, cât şi pentru cele negrupate.
2.6.1 Date negrupate

Considerăm un set de date statistice negrupate, z1 , z2 , . . . , zn (zi ∈ R, i = 1, 2 . . . , n, n ≤ N), ce
corespund unor observaţii făcute asupra variabilei Z. Pe baza acestor observatii, definim următorii
indici statistici, in scopul de a estima parametrii reali ai caracteristicilor populatiei. Printr-un
estimator pentru un parametru al populatiei intelegem o statistica alecarei valori se apropie foarte
mult de valoarea parametrului atunci cand volumul selectiei este suficient de mare. Deoarece ele
se bazeaza doar pe observatiile culese, acesti indici statistici se mai numesc si masuri empirice.
• Valoarea medie
Este o măsură a tendinţei centrale a datelor. Pentru o selecţie {z1 , z2 , . . . , zn }, definim:
1 n
z= ∑ zi,
n i=1
ca fiind media datelor observate. Aceasta medie empirica este un estimator pentru media
teoretica, µ = EZ, daca aceasta exista.
• Pentru fiecare i, cantitatea di = zi − z se numeşte deviaţia valorii zi de la medie. Aceasta nu

poate fi definită ca o măsură a gradului de împrăştiere a datelor, deoarece
n
∑ (zi − z) = 0.
i=1
• Momentele
Pentru fiecare k ∈ N∗ , momentele centrate de ordin k se definesc astfel:
1 n
mk = ∑ (zi − z)k .
n i=1
• Dispersia
Aceasta este o măsură a gradului de împrăştiere a datelor în jurul valorii medii. Este un
estimator pentru dispersia populatiei. Pentru o selecţie {z1 , z2 , . . . , zn }, definim dispersia
astfel: !
n n
1 1
s2 = m2 = ∑ (zi − z)2 = [ ∑ z2i − n(z)2 ] .
n − 1 i=1 n − 1 i=1
Faptul ca apare n − 1 la numitor face ca aceasta masura empirica sa estimeze dispersia
teoretica fara deplasare, in sensul ca valoarea medie a lui s2 este chiar σ 2 . Acest fapt nu ar
mai fi fost valabil daca in loc de n − 1 ar fi fost n.
• Deviaţia standard
Este tot o măsură a împrăştierii datelor în jurul valorii medii, care estimeaza parametrul σ .
Pentru o selecţie {z1 , z2 , . . . , zn }, definim deviaţia standard:
s
1 n
s= ∑ (zi − z)2.
n − 1 i=1
• Coeficientul de variaţie (sau de dispersie)

Aceste coeficient (de obicei, exprimat în procente) este util atunci când comparăm două
repartiţii având unităţi de măsură diferite. Nu este folosit atunci când z sau µ este foarte
mic. Pentru doua populatii care au aceeasi deviatie standard, gradul de variatie a datelor
este mai mare pentru populatie ce are media mai mica.
s
cv = .
z
• Amplitudinea (plaja de valori, range)

Pentru un set de date, amplitudinea (en., range) este definită ca fiind diferenţa dintre valoarea
cea mai mare şi valoarea cea mai mică a datelor, i.e., a = zmax − zmin .
• Scorul ζ
Este numărul deviaţiilor standard pe care o anumită observaţie, z, le are sub sau deasupra
mediei. Pentru o selecţie {z1 , z2 , . . . , zn }, scorul Z este definit astfel:
z−z
ζ= .
s
• Corelaţia (covarianţa)
Presupunem acum ca avem doua variabile de interes relative la o populatie statistica, Z1
şi Z2 , pentru care avem n perechi de observaţii, (z1 , z01 ), (z2 , z02 ), . . . , (zn , z0n ). Definim
corelaţia (covarianţa):
1 n
cove = ∑ (zi − z)(z0i − z0).
n − 1 i=1
(2.6.3)
In cazul în care lucrăm cu mai multe variabile şi pot exista confuzii, vom nota covarianţa
prin cove (Z1 , Z2 ). Daca Z1 si Z2 coincid, sa spunem ca Z1 = Z2 = Z, atunci cove (Z, Z) = s2 .
O relaţie liniară între două variabile este acea relaţie ce poate fi reprezentată cel mai bine
printr-o linie. Corelaţia detectează doar dependenţe liniare între două variabile aleatoare.
Putem avea o corelaţie pozitivă, însemnând că Z1 şi Z2 cresc sau descresc împreună (pentru
cove > 0), sau o corelaţie negativă, însemnând că Z1 şi Z2 se modifică în direcţii opuse
(pentru cove < 0). În cazul în care cove = 0, putem banui ca variabilele nu sunt corelate.
• Coeficientul de corelaţie
cove
r= .
sx sy
In cazul în care lucrăm cu mai multe variabile şi pot exista confuzii, vom nota coeficientul
de corelaţie prin r(Z1 , Z2 ). La fel ca în cazul coeficientulul de corelaţie teoretic, r ia valori
între −1 şi 1. După cum vom vedea mai târziu, pe baza valorii lui r putem testa valoarea
reală aparametrului ρ (coeficientul teoretic de corelaţie, care reprezintă întreaga populaţie).
• Funcţia de repartiţie empirică
Se numeşte funcţie de repartiţie empirică asociată unei variabile aleatoare Z şi unei selecţii
{z1 , z2 , . . . , zn }, funcţia Fn∗ : R −→ [0, 1], definită prin
numărul observaţiilor mai mici au egale cu z

Fn∗ (z) = . (2.6.4)
n
Când volumul selectiei (n) este suficient de mare, funcţia de repartiţie empirică (Fn∗ (z))
aproximează funcţia de repartiţie teoretică F(z) (vezi Figura 2.17). Insa, pentru a stabili
exact daca ele sunt semnificativ apropiate, este nevoie de un test statistic.
Figure 2.17: Funcţia de repartiţie empirică şi funcţia de repartiţie teoretică pentru distribuţia normală.
• Coeficientul de asimetrie (en., skewness) este al treilea moment standardizat, care se

defineşte prin
n
µ3
1
n ∑ (zi − z)3
i=1
g1 = =" #3/2 .
s3 n
1
n−1 ∑ (zi − z)2
i=1
Putem spera ca o repartiţie să fie simetrică dacă g1 este foarte apropiat de valoarea 0. Vom
spune că asimetria este pozitivă (sau la dreapta) dacă g1 > 0 şi negativă (sau la stânga) dacă
g1 < 0. Coeficientul empiric de asimetrie g1 va fi utilizat în estimarea coeficientului teoretic
de asimetrie γ1 , care este un parametru al populaţiei.
• Excesul (coeficientul de aplatizare sau boltire) (en., kurtosis) se defineşte prin
n
µ4
1
n ∑ (zi − z)4
i=1
κ= = !2 .
s4 n
1
n ∑ (zi − z)2
i=1
Este o măsură a boltirii distribuţiei (al patrulea moment standardizat). Indicele kurtosis al
distribuţiei normale este egal cu 3. Vom avea o repartiţie mezocurtică pentru κ = 3 (sau
foarte apropiat de această valoare), leptocurtică (boltită) pentru κ > 3 sau platocurtică
pentru κ < 3. Un indice κ > 3 semnifică faptul că, în vecinătatea modului, curba densităţii
de repartiţie are o boltire (ascuţire) mai mare decât clopotul lui Gauss. Pentru κ < 3, în acea
vecinătate curba densităţii de repartiţie este mai plată decât curba lui Gauss. Coeficientul
empiric de aplatizare κ va fi utilizat în estimarea coeficientului teoretic de aplatizare K, care
este un parametru al populaţiei.
• Cuantile
Cuantilele (de ordin r) sunt valori ale unei variabile aleatoare care separă repartiţia ordonată
în r părţi egale. Aceste valori sunt estimari pentru cuantilele teoretice (parametrii). Vom
utiliza notatia cu litera mica pentru cuantilele empirice, pentru a le diferentia de parametrii
corespunzatori.
Pentru r = 2, cuantila ce imparte setul de date in doua clase cu acelasi numar de valori se
numeşte mediană (empirica), notată prin me.
Presupunem că observaţiile sunt ordonate, z1 < z2 < · · · < zn . Pentru această ordine, definim
valoarea mediană:
(
z , dacă n = impar;
me = (n+1)/2
(zn/2 + zn/2+1 )/2 , dacă n = par.
Pentru r = 4, cuantilele se numesc cuartile (sunt în număr de 3). Prima cuartilă, notată q1 ,
se numeşte cuartila inferioară, a doua cuartilă este mediana, iar ultima cuartilă, notată prin
q3 , se numeşte cuartila superioară. Diferenţa q3 − q1 se numeşte distanţa intercuartilică.
Pentru r = 10 se numesc decile (sunt în număr de 9), pentru r = 100 se numesc percentile
(sunt în număr de 99), pentru r = 1000 se numesc permile (sunt în număr de 999). Sunt
măsuri de poziţie, ce măsoară locaţia unei anumite observaţii faţă de restul datelor.
• Modul
Modul (sau valoarea modală) este acea valoare z∗ din setul de date care apare cel mai des
(adica are frecventa cea mai mare). Un set de date poate avea mai multe module. Dacă apar
două astfel de valori, atunci vom spune că setul de date este bimodal, pentru trei astfel de
valori avem un set de date trimodal etc. În cazul în care toate valorile au aceeaşi frecvenţă
de apariţie, atunci spunem că nu există mod. De exemplu, setul de date
1 3 5 6 3 2 1 4 4 6 2 5
nu admite valoare modală. Nu există un simbol care să noteze distinctiv modul unui set de
date.
• Valori aberante (en. outliers)
Dupa cum am vazut anterior, teorema lui Cebâşev ne asigura ca probabilitatea ca o data
observata sa devieze de la medie cu mai mult de k deviatii standard este mai mica decat k12 .
Valorile aberante sunt valori statistice observate care sunt îndepărtate de marea majoritate a
celorlalte observaţii. Ele pot apărea din cauza unor măsurători defectuoase sau în urma unor
erori de măsurare. De cele mai multe ori, ele vor fi excluse din analiza statistică. Din punct
de vedere matematic, valorile aberante sunt valorile ce nu aparţin intervalului următor:
[q1 − 1.5 iqr, q3 + 1.5 iqr],
unde iqr = q3 − q1 este distanţa intercuartilică. Daca valoarea 1.5 se inlocuieste cu 3, atunci
orice valoare care iese din acest interval se va numi valoare aberanta extrema.
• Sinteza prin cele cinci valori statistice (five number summary)
Reprezintă cinci măsuri statistice empirice caracteristice unui set de date statistice. Acestea
sunt:
valoarea minimă < prima cuartilă (q1 ) < mediana (me) < a treia cuartilă (q3 ) < valoarea maximă
Aceşti cinci indicatori pot fi reprezentaţi grafic într-o diagramă numită box-and-whiskers plot.
Datele din Tabelul 2.5 sunt reprezentate în prima figură de mai jos prin două diagrame box-and-
whiskers. În prima diagramă (numerotată cu 1) am folosit datele negrupate; în a doua diagramă
am folosit reprezentarea datelor din acelaşi tabel prin centrele claselor. Reprezentările sunt cele
clasice, cu dreptunghiuri. Valorile aberante sunt reprezentate prin puncte în diagrama box-and-
whisker plot.
vârsta f. abs. f. rel. f. cum. mijlocul clasei

[18, 25) 34 8.83% 8.83% 21.5
[25, 35) 76 19.74% 28.57% 30
[35, 45) 124 32.21% 60.78% 40
[45, 55) 87 22.60% 83.38% 50
[55, 65) 64 16.62% 100.00% 60
Total 385 100% - -
Table 2.11: Tabel cu frecvenţe.

Figure 2.18: Box-an-whiskers plot pentru
datele din Tabelul 2.11
În Figura 2.19, am reprezentat prin box-and-

whiskers un set de date discrete ce conţine
două valori aberante. Aici dreptunghiul a fost
crestat (notched box-and whisker plot); lungimea
crestăturii oferind un interval de încredere pentru
mediană. Valorile aberante sunt reprezentate in
figura prin puncte in afara range-ului datelor.
Figure 2.19: Box-an-whisker plot pentru un set

de date discrete
parametru indicator statistic (estimator)
caracterizeaza populatia format cu date de selectie
µ − media m
σ 2 − dispersia s2
σ − deviatia standard s
Tabelul 2.12 contine cativa CV − coef. de variatie cv
parametri uzuali ce caracter- cov− covarianta cove
izeaza o populatie, alaturi de ρ − corelatia r
estimatorii corespunzatori. γ1 − skewness g1
K − kurtosis κ
Qi − cuantile qi
Me − mediana me
F(z) − fct. de repartitie Fn∗ (z)
Table 2.12: Tabel cu parametri şi estimatorii săi

Exerciţiu 2.1 Următorul set de date reprezintă preţurile (în mii de euro) a 20 de case, vândute
într-o anumită regiune a unui oraş:
113 60.5 340.5 130 79 475.5 90 100 175.5 100

111.5 525 50 122.5 125.5 75 150 89 100 70
(a) Determinaţi amplitudinea, media, mediana, modul, deviatia standard, cuartilele şi distanţa
intercuartilică pentru aceste date. Care valoare este cea mai reprezentativă?
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?
(c) Calculaţi coeficientii de asimetrie si de aplatizare.
R: Rearanjăm datele în ordine crescătoare:
50 60.5 70 75 79 89 90 100 100 100 111.5
113.5 122.5 125.5 130 150 175.5 340.5 475.5 525
100 + 111.5
Amplitudinea datelor este 525 − 50 = 475, media lor este 154.15, mediana este =
2
79 + 89
105.75, modul este 100, cuartila inferioară este q1 = = 84, q2 = me, cuartila superioară
2
130 + 150
este q3 = = 140 şi distanţa intercuartilică este d = q3 − q1 = 56. Mediana este valoarea
2
cea mai reprezentativă în acest caz, deoarece cele mai mari trei preţuri, anume 340.5, 475.5, 525,
măresc media şi o fac mai puţin reprezentativă pentru celelalte date.
În cazul în care setul de date nu este simetric, valoarea

mediană este cea mai reprezentativă valoare a datelor.
Deviatia standard este
s
1 n
s= ∑ (zi − z)2 = 133.3141.
n − 1 i=1
Folosind formulele, gasim ca g1 = 1.9598 (asimetrie

la dreapta) si κ = 5.4684 (boltire pronuntata). Valo-
rile aberante sunt cele ce se afla in afara intervalului
[q1 − 1.5(q3 − q1 ), q3 + 1.5(q3 − q1 )] = [0, 178]. Se ob-
serva ca valorile {340.5, 475.5, 525} sunt valori aberante,
Figure 2.20: Box-an-whisker plot reprezentate prin puncte in figura alaturata.
pentru datele din Exerciţiul 2.1
2.6.2 Date grupate

Considerăm un set de date statistice grupate (de volum n), ce reprezinta observaţii asupra variabilei
Z.
Pentru o selecţie cu valorile de mijloc {z1 , z2 , . . . , zr } şi frecvenţele absolute corespunzătoare,
r
{ f1 , f2 , . . . , fr }, cu ∑ fi = n, definim:
i=1
1 r
z̄ f = ∑ zi fi ,media (empirică) de selecţie, (sau, media ponderată)
n i=1
!
2 1 r 2 1 r
2 2
s = ∑ fi(zi − z f ) = n − 1 ∑ zi fi − n z f , dispersia empirică,
n − 1 i=1 i=1
√
2
s = s , deviaţia empirică standard.
Mediana pentru un set de date grupate este acea valoare ce separă toate datele în două părţi egale.
Se determină mai întâi clasa ce conţine mediana (numită clasă mediană), apoi presupunem că în
interiorul fiecărei clase datele sunt uniform distribuite. O formulă după care se calculează mediana
este:
n
− Fme
me = l + 2 c,
fme
unde: l este limita inferioară a clasei mediane, n este volumul selecţiei, Fme este suma frecvenţelor
până la (exclusiv) clasa mediană, fme este frecvenţa clasei mediane şi c este lăţimea clasei.
Similar, formulele pentru cuartile sunt:
n 3n
− Fq1
4 4 − Fq3
q1 = l1 + c şi q3 = l3 + ,
fq1 fq3
unde l1 si l3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, iar Fq
este suma frecvenţelor până la (exclusiv) clasa ce contine cuartila, fq este frecvenţa clasei unde se
gaseste cuartila.
Pentru a afla modul unui set de date grupate, determinăm mai întâi clasa ce conţine această valoare
(clasă modală), iar modul va fi calculat după formula:
d1
mod = l + c,
d1 + d2
unde d1 şi d2 sunt frecvenţa clasei modale minus frecvenţa clasei anterioare şi, respectiv, frecvenţa
clasei modale minus frecvenţa clasei posterioare, l este limita inferioară a clasei modale şi c este
lăţimea clasei modale.
Exerciţiu 2.2 Datele din Tabelul 2.13 reprezinta inaltimile (in cm) pentru o selectie de 100 de
plante dintr-o anumita regiune.
(a) Reprezentati datele printr-o histograma.
(b) Folosind formulele pentru indicatori statistici pentru date grupate, determinaţi amplitudinea,
media, mediana, modul, dispersia si distanta intercuartilică.
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?
R: Amplitudinea este A = 30. Folosind centrele claselor, media este
1
z = (1.5 × 5 + 4.5 × 9 + 7.5 × 8 + 10.5 × 14 + 13.5 × 15 +
100
+16.5 × 19 + 19.5 × 15 + 22.5 × 8 + 25.5 × 4 + 28.5 × 3) = 14.31.
Dispersia este:
1
s2 = (∑(z2 · f ) − n · z2 )
n−1
1
= (1.52 × 5 + 4.52 × 9 + 7.52 × 8 + 10.52 × 14 + 13.52 × 15 + 16.52 × 19 +
99
+19.52 × 15 + 22.52 × 8 + 25.52 × 4 + 28.52 × 3 − 70 · 14.312 )
= 44.5191.

[0, 3) 5
[3, 6) 9
[6, 9) 8
[9, 12) 14
[12, 15) 15
[15, 18) 19
[18, 21) 15
[21, 24) 8
[24, 27) 4
[27, 30) 3
Figure 2.21: Histograma pentru datele din
Table 2.13: Tabel cu date de tip continuu
Tabelul 2.13.
Clasa mediană este clasa [12, 15), deoarece în clasele anterioare ([0, 3), [3, 6) şi [6, 9)) se
află 5 + 9 + 8 + 14 = 36 date mai mici decât mediana, iar la dreapta clasei [12, 15) se afla
19 + 15 + 8 + 4 + 3 = 49 de date. Valoarea mediană este
50 − 36
Me = 12 + × 3 = 14.8.
15
4
Clasa modală este [15, 18), iar modul este Mo = 15 + 4+4 × 3 = 16.5.
n
− Fq1
Calculăm acum prima cuartilă dupa formula q1 = l1 + 4 . Clasa in care se gaseste prima
fq1
cuartila este [9, 12) (o valoare din acest interval va avea la stanga sa 100/4 = 25 dintre valorile
observate). Avem: Fq1 = 22, fq1 = 14, c = 3, de unde q1 = 9.6429.
Similar, clasa in care se gaseste a treia cuartila este [18, 21) (o valoare din acest interval va avea la
dreapta sa 100/4 = 25 dintre valori. Avem: Fq3 = 70, fq3 = 15, c = 3, de unde q3 = 19. Astfel,
distanta intercuartilica observata este iqr = q3 − q1 = 9.3571. √
Tabelul 2.14 reprezinta o sumarizare a statisticilor importante pentru aceste date:
Statistica valoarea parametrul estimat

Minimum 0.5 zmin
Maximum 29.5 zmax
Media 14.31 µ
Mediana 14.8 Me
Deviatia standard 6.6723 σ
Dispersia 44.5191 σ2
Skewness −0.0495 γ1
Kurtosis 2.4186 K
Numarul de observatii 100 n
χ 2 pentru testul de normalitate (cu 7 grade de libertate) 33.5440 −
Table 2.14: Statistici pentru datele din Tabelul 2.13

2.7 Transformari de date 41
Valorile aberante sunt cele ce se afla in afara intervalului
[q1 −1.5(q3 −q1 ), q3 +1.5(q3 −q1 )] = [−5.2264, 34.1501]
Cum toate datele din tabel apartin acestui interval, nu

exista valori aberante, fapt care se observa si din Figura
2.22.
Figure 2.22: Box-an-whisker plot pentru

datele din Tabelul 2.13
2.7 Transformari de date

Uneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru a obtine
valori apropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilor observate
(folosind functiile ln sau log10 , daca valorile sunt toate pozitive), radacina patrata a valorilor, trans-
formarea logit, radacini de ordin superior etc. In Tabelul 2.15 am sugerat tipul de transformare ce
poate fi utilizat in functie de coeficientul de skewness γ1 .
In ce conditii. . . skewness formula

date aproape simetrice −0.5 < γ1 < 0.5 nicio transformare
√
skewness moderat pozitiv, date nenegative 0.5 ≤ γ1 < 1 yi =
√ zi
skewness moderat pozitiv, exista date < 0 0.5 ≤ γ1 < 1 yi = √zi +C
skewness moderat negativ −1 < γ1 ≤ 0.5 yi = C − zi
skewness mare negativ γ1 ≤ −1 yi = ln(C − zi ) sau yi = log10 (C − zi )
skewness mare pozitiv, date pozitive γ1 ≥ 1 yi = ln zi sau yi = log10 zi
skewness mare pozitiv, exista date ≤ 0 γ1 ≥ 1 yi = ln(zi +C) sau yi = log10 (zi +C)
Table 2.15: Exemple de transformari de date statistice
unde C > 0 este o constanta ce poate fi determinata astfel incat datele transformate sa aiba
un skewness cat mai aproape de 0. Aceasta constanta va fi aleasa astfel incat functia ce face
transformarea este definita.
De exemplu, presupunem ca datele observate sunt z1 , z2 , . . . , zn si acestea nu sunt toate pozitive,
cu un coeficient de asimetrie (skewness) γ1 = 1.3495. Ne uitam la valoarea minima a datelor;
aceasta este zmin = −0.8464. Pentru a obtine un set de valori pozitive, vom adauga valoarea
1 la toate datele observate. Apoi, logaritmam valorile obtinute. Cele doua procedee cumulate
sunt echivalente cu folosirea directa a formulei ln(1 + zi ) (adunand valoarea 1, am facut toate
argumentele logaritmului pozitive). Obtinem astfel un nou set de date, si anume y1 , y2 , . . . , yn ,
unde yi = ln(1 + zi ). Un exemplu este cel din Figura 2.23. Se observa ca datele logaritmate sunt
aproape normale. O analiza statistica poate fi condusa pentru datele yi , urmand ca, eventual, la
final sa aplicam transformarea inversa zi = eyi − 1 pentru a transforma rezultatele pentru datele
initiale.
Figure 2.23: Datele intiale si datele logaritmate

Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor
in punctele neselectate), de multe ori este necesara transformarea inversa a datelor, pentru a
determina proprietatile datelor originale. De aceea, ar fi potrivit de a exprima indicatorii statistici
atat pentru datele transformate, cat si pentru datele originale. Un exemplu este cel din Tabelul
2.16.
Indicatorul datele originale datele tranformate
zi yi = ln(1 + zi )
Minimum −0.8464 −1.8734
Maximum 14.1107 2.7154
Media 6.02142 1.51
Cuartila Q1 3.1152 0.6532
Mediana 6.5200 1.2512
Cuartila Q3 8.7548 1.5785
Deviatia standard 5.2511 0.7524
Dispersia 27.5741 0.5661
Skewness 6.2322 0.0233
Kurtosis 78.6077 2.9786
Numarul de observatii 100 100
χ 2 pentru testul de normalitate (cu 7 grade de libertate) − 7.1445
Table 2.16: Exemplu de indicatori statistici pentru datele originale si pentru datele transformate
2.8 Exerciţii rezolvate

Exerciţiu 2.3 Următorul set de date negrupate reprezintă vârstele (în ani, ajustaţi până la cel mai
apropiat întreg) a 20 de persoane participante la o serbare:
20 10 7 19 25 12 15 7 10 8 14 16 15 7 8 13 6 5 7 12
(a) Construiţi un tabel de frecvenţe adecvat datelor.
(b) Desenaţi un grafic potrivit pentru a reprezenta datele.
√ √
R: (a) Alegem numărul de clase k = [ n] + 1 = [ 20] + 1 = 5.
Cea mai mică valoare a datelor este 5, cea mai mare valoare a datelor este 25. Amplitudinea
datelor este A = 25 − 5 = 20. Lăţimea unei clase va fi
valoarea maximă − valoarea minimă 25 − 5
l= = = 4.
k 5
Vârsta Frecv. abs. Tally Densitatea
8
[5, 9) 8 4 =2
5
[9, 14) 5 4 = 1.25
4
[14, 17) 4 4 =1
2
[17, 21) 2 4 = 0.5
1
[21, 25) 1 4 = 0.25
Total 20 - -
(b) Pentru că datele sunt discrete de tip raport, le putem reprezenta folosind histograme sau
sectoare de disc (pie charts).
Figure 2.24: Reprezentarea cu histograme Figure 2.25: Sectoare de disc 3D

Exerciţiu 2.4 Următorul set de date grupate reprezintă punctajele (maximum este 100 de puncte)
obţinute de 80 de studenţi la testul de Statistică:
Punctajul Frecv. abs.
1 − 50 21
51 − 60 8
61 − 70 15
71 − 80 22
81 − 100 14
Total 80
(a) Desenaţi un grafic potrivit pentru a reprezenta datele.

(b) Estimaţi numărul de studenţi care au obţinut punctaje între 26 şi 75.
R: (a) Datele sunt discrete, de tip interval şi le vom reprezenta prin histograme. Calculăm
densităţile de frecvenţă după formula:
frecvenţa clasei
densitatea = .
numărul de valori din clasă
Pentru că datele sunt discrete de tip interval, le putem reprezenta folosind histograme sau sectoare
de disc (pie charts). Valorile roşii din reprezentarea cu histograme sunt ariile dreptunghiurilor
corespunzătoare, care sunt frecvenţele absolute ale claselor.
Figure 2.27: Sectoare de disc
Figure 2.26: Reprezentarea cu histograme

(b) Numărul de studenţi care au obţinut punctaje între 26 şi 75 este aproximativ egal cu aria
haşurată din histograma de mai jos, care este: (50 − 26) · 0.42 + 8 + 15 + 11 ≈ 44.
Exerciţiu 2.5 Folosind diagramele box-and-whiskers plot de mai jos, determinat, i procentul de
băiet, i s, i apoi procentul de fete care au 168 cm sau mai put, in.
R: Se observă că 168 se află la prima cuartilă în diagrama ce reprezintă înălţimile fetelor şi la
mediană în diagrama ce reprezintă înălţimile băieţilor. Aşadar 25% dintre fete şi jumătate dintre
băieţi sunt mai mici de 168 cm.
Exerciţiu 2.6 Următorul set de date negrupate reprezintă numărul de pets (animale de casă) pe
care fiecare dintre cei 25 de studenţi aleşi în eşantion le au.
0 0 1 2 0 0 1 0 3 4 1 0 7 1 0 1 2 3 2 1 0 0 0 1 4
(a) Construiţi un tabel de frecvenţe adecvat datelor.
(b) Desenaţi un grafic potrivit pentru a reprezenta datele.
R: (a) Reprezentăm datele cu bare (date de tip categorial ordinal). Numărul de clase k = 6.
Nr. pets Frecv. abs. Tally

0 10
1 7
2 3
3 2
4 2
7 1
Total 25 -
(b) Graficul cu bare (3D) este cel de mai jos.
Exerciţiu 2.7 Se consideră următorul set de date:
173 140 205 192 197 225 158 260 170 185 208 189 190 167 225 190 184 195
(a) Determinaţi amplitudinea, media, modul şi deviaţia standard pentru această selecţie.
(b) Reprezentaţi diagrama box-and-whisker plot pentru date.
R: (a) Avem n = 19 observaţii. Amplitudinea datelor este A = xmax − xmin = 260 − 140 = 120.
Valoarea medie este
1 19
x = ∑ xi = 191.8333.
n i=1
Modurile datelor sunt 190 şi 225. Dispersia datelor este
1 19
s2 = ∑ (xi − x)2 = 748.2647.
n − 1 i=1
√
Deviaţia standard a datelor este s = s2 = 27.3544.
(b) Grupăm datele crescător:
140; 158; 167; 170; 173; 184; 185; 189; 190; 190; 192; 195; 197; 205; 208; 225; 225; 260
Mediana (valoarea de mijloc a) datelor este Me = 190.

Prima cuartilă este Q1 = 173, iar ultima cuartilă este
Q3 = 205. Distanţa intercuartilică este IQR = Q3 − Q1 = 32.
Valorile extreme (outliers) se vor afla în afara intervalului
[173 − 1.5 · 32, 205 + 1.5 · 32] = [125, 253].
Se observă că doar valoarea 260 se află în afara acestui

interval.
Figure 2.28: Reprezentarea box-

and-whiskers plot
Exerciţiu 2.8 Ana a început să lucreze la un magazin de calculatoare. Şeful ei i-a cerut să t, ină o
evident, ă a numărului de vânzări pe care le-a făcut în fiecare lună. Următorul set de date este o
listă a vânzărilor sale din ultimele 12 luni:
34, 47, 1, 15, 57, 24, 20, 11, 19, 50, 28, 37.
La fel ca Ana, Cristian lucrează la un magazin de calculatoare. De asemenea, a înregistrat numărul
de vânzări pe care le-a făcut în fiecare lună. În ultimele 12 luni, el a vândut următoarele numere
de computere:
51, 17, 25, 39, 7, 49, 62, 41, 20, 6, 43, 13.
1. Determinaţi sinteza celor cinci valori pentru vânzările efectuate de fiecare dintre cei doi.
2. Desenaţi diagramele box-and-whiskers plot pentru vânzările fiecăruia.
3. Descriet, i pe scurt comparat, iile dintre vânzările lor.
R: 1. Sinteza celor cinci valori pentru Ana

este 1, 17, 26, 42, 57, iar pentru Cristian este
6, 15, 32, 46, 62.
Figure 2.29: Reprezentările

box-and-whiskers plot
3. Cea mai mare s, i cea mai scăzută vânzare ale lui Cristian sunt ambele mai mari decât vânzările
corespunzătoare ale Anei, iar cifra mediană a vânzărilor lui Cristian este mai mare decât cea a
Anei. De asemenea, intervalul intercuartil al lui Cristian este mai mare decât cel al Anei. Aceste
rezultate sugerează că Cristian vinde în mod constant mai multe computere decât face Ana.
3. Noţiuni teoretice de Statistică
3.1 Evenimente aleatoare

Numim experiment aleator (sau experienţă aleatoare) orice act cu rezultat incert, care poate
fi repetat în anumite condiţii date. Opusul noţiunii de experiment aleator este experimentul
determinist, semnificând un experiment ale cărui rezultate sunt complet determinate de condiţiile
în care acesta se desfăşoară. Rezultatul unui experiment aleator depinde de anumite circumstante
întâmplătoare ce pot aparea. Exemple de experienţe aleatoare: extragerea LOTO, aruncarea zarului,
observarea ratei infiltrarii apei in sol in diverse locatii dintr-o anumita regiune, determinarea
concentratiei de nutrienti in sol, observarea duratei de viaţă a unui individ, observarea vremii de a
doua zi, observarea numărului de apeluri telefonice recepţionate de o centrală telefonică într-un
timp dat etc.
Vom numi mulţime (sau spatiu) de selecţie asociat unui experiment mulţimea tuturor rezultatelor
posibile ale acelui experiment. Notam acasta multime cu Ω. Aplicarea experienţei asupra unei
colectivităţi date se numeşte probă. Vom numi eveniment aleator orice colecţie de rezultate
posibile asociate experimentului aleator. Vom numi eveniment aleator elementar (sau eveniment
aleator simplu) un eveniment aleator care are un singur rezultat posibil. Un eveniment aleator cu
mai mult de un rezultat posibil se va numi eveniment aleator compus.
Exemple de evenimente aleatoare: apariţia unei duble (6, 6) la aruncarea a două zaruri este un
eveniment aleator elementar, iar obţinerea unei duble la aruncarea a două zaruri este un eveniment
aleator compus.
Vom numi evenimentul sigur acel eveniment care se poate realiza în urma oricărei experienţe
aleatoare. Evenimentul sigur este, in fapt, chiar multimea de selectie Ω, ce este multimea tuturor
evenimentelor elementare. Prin eveniment imposibil intelegem acel eveniment ce nu se realizează
în nicio probă. Evenimentul imposibil asociat unei experiente aleatoare se noteaza prin ∅.
Se numeşte caz favorabil pentru evenimentul aleator un caz în care respectivul eveniment se
realizează macar intr-o proba a sa.
Evenimentele aleatoare le vom nota cu A, B, C, . . . . Prin A (care se citeste non A) vom nota
50 Chapter 3. Noţiuni teoretice de Statistică
evenimentul complementar lui A, care se realizează atunci când A nu se realizează. Avem:

A = Ω \ A.
3.1.1 Operatii cu evenimente

Presupunem ca A si B sunt doua evenimente legate de un anumit experiment aleator. Putem defini
urmatoarele evenimente:
S
• evenimentul A B (citit A sau B) este evenimentul care se realizeaza ori de cate ori se
realizeaza cel putin unul dintre evenimentele A si B.
T
• evenimentul A B (citit A şi B) este evenimentul care se realizeaza ori de cate ori se
realizeaza simultan evenimentele A si B.
• evenimentul A \ B (citit A minus B) este evenimentul care se realizeaza ori de cate ori se
realizeaza A, dar nu se realizeaza B.
3.1.2 Relatii intre evenimente

• Notam prin A ⊂ B (citit A implică B) si spunem ca realizarea lui A implica realizarea lui B.
• Spunem ca A = B (citit A egal B) daca A ⊂ B si B ⊂ A.
• Spunem ca A si B sunt evenimente incompatibile daca ele nu se pot realiza simultan in nicio
T
proba. Scriem astfel: A B = ∅.
• Spunem ca A si B sunt evenimente compatibile daca ele se pot realiza simultan. Scriem
astfel: A B 6= ∅. De exemplu, la aruncarea unui zar, evenimentele A =evenimentul
T
aparitiei unui numar impar si B =evenimentul aparitiei unui numar prim sunt compatibile.
• Spunem ca A si B sunt evenimente echiprobabile daca ele au aceeasi sansa de realizare.
Spre exemplu, la aruncarea unei monede ideale, orice fata are aceeasi şansă de aparitie.
3.2 Probabilitate
Pentru a putea cuantifica şansele de realizare a unui eveniment aleator, s-a introdus noţiunea
de probabilitate. Presupunem că pentru un anume experiment, am construit spaţiul de selecţie
Ω. Atunci, fiecărui eveniment A în putem asocia un număr P(A), numit probabilitatea realizării
evenimentului A (sau, simplu, probabilitatea lui A), fiind o măsură precisă a şanselor ca A
să se realizeze. Probabilitatea este o valoare cuprinsa intotdeauna intre 0 si 1, cu P(∅) = 0
(probabilitatea ca evenimentul imposibil sa se realizeze este 0) si P(Ω) = 1 (probabilitatea ca
evenimentul sigur sa se realizeze este 1).
T S
Daca evenimentele A si B nu se pot realiza simultan (i.e., A B = ∅), atunci P(A B) = P(A) +
P(B). Daca A si B se pot realiza simultan, atunci P(A B) = P(A) + P(B) − P(A B).
S T
În literatura de specialitate, probabilitatea este definită în mai multe moduri: cu definiţia clasică
(apare pentru prima oară în lucrările lui P. S. Laplace1 ), folosind o abordare statistică (cu frecvenţe
relative), probabilitatea definită geometric, probabilitatea bayesiană (introdusă de Thomas Bayes2 )
sau utilizând definiţia axiomatică (Kolmogorov). Aici vom prezenta doar primele trei moduri.
(I) Probabilitatea clasică este definită doar pentru cazul în care experienţa aleatoare are un
număr finit de cazuri posibile şi echiprobabile (toate au aceeaşi şansă de a se realiza). În acest caz,
probabilitatea de realizare a unui eveniment A este
numarul cazurilor favorabile realizarii evenimentului
P(A) = .
numarul cazurilor egal posibile
1 Pierre-Simon, marquis de Laplace (1749 − 1827), matematician şi astronom francez
2 Thomas Bayes (1701 − 1761), statistician şi filosof englez
3.2 Probabilitate 51
De exemplu, dorim să determinăm probabilitatea obţinerii unei duble la o singură aruncare
a unei perechi de zaruri ideale. Mulţimea cazurilor posibile este mulţimea tuturor perechilor
{(i, j); i, j = 1, 6}, care are 36 de elemente. Mulţimea cazurilor favorabile este formată din adică
6 elemente, şi anume: {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}. Probabilitatea apariţiei unei
6
duble este P = 36 = 16 .
Sunt însă foarte multe cazuri în care definiţia clasică nu mai poate fi utilizată. Spre exemplu, în
cazul în care se cere probabilitatea ca, alegând la întâmplare un punct din pătratul [0, 1] × [0, 1],
acesta să se situeze deasupra primei bisectoare. În acest caz, atât numărul cazurilor posibile, cât şi
numărul cazurilor favorabile este infinit, făcând definiţia clasică a probabilităţii inutilizabilă.
(II) Probabilitatea definită statistic (probabilitate frecvenţială) exprimă probabilitatea cu ajutorul

frecvenţelor de realizare a unui eveniment într-un număr mare de experimente aleatoare realizate
în aceleaşi condiţii. Pentru a putea evalua această probabilitate, este necesară repetarea în aceleaşi
condiţii a experimentului legat de evenimentul aleator ce se doreşte a fi cuantificat.
Să considerăm o experienţă aleatoare (e.g., aruncarea unui zar) al cărei rezultat posibil este
evenimentul aleator A (e.g., apariţia feţei cu 6 puncte). Aceste experiment aleator îl putem
efectua de n ori în condiţii identice (spunem că efectuăm n probe ale experimentului), astfel încât
rezultatul unei probe să nu influenţeze rezultatul alteia (probe independente). Să notăm cu νn (A)
νn (A)
frecvenţa absolută de realizare a lui A în cele N probe independente. Raportul fn (A) =
n
se va numi frecvenţă relativă. Acest raport are intotdeauna valori intre 0 si 1. Mai mult, sirul
frecventelor relative { fn (A)}n∈N are limită şi aceasta este definită ca fiind probabilitatea de
realizare a evenimentului A, notată P(A). Aşadar, în cazul definiţiei statistice a probabilităţii,
probabilitatea unui eveniment A este
P(A) = lim fn (A),

n→∞
adica limită şirului frecvenţelor relative de producere a respectivului eveniment când numărul de
probe tinde la infinit.
(III) Probabilitate definită geometric Să presupunem că am dispune de un procedeu prin care
putem alege la întâmplare un punct dintr-un interval [a, b]. În plus, vom presupune că acest
procedeu ne asigură că nu există porţiuni privilegiate ale intervalului [a, b], i.e., oricare ar fi două
subintervale de aceeaşi lungime, este la fel de probabil ca punctul să cadă în oricare dintre aceste
intervale. Dacă am folosi de mai multe ori procedeul pentru a alege un număr mare de puncte,
acestea vor fi repartizate aproximativ uniform în [a, b], i.e., nu vor există puncte în vecinătatea
cărora punctul ales să cadă mai des, ori de câte ori este ales. De aici reiese că probabilitatea ca un
punct să cadă într-un subinterval al lui [a, b] este dependentă de lungimea acelui subinterval şi
nu de poziţia sa în interiorul lui [a, b]. Mai mult, aceasta este chiar proporţională cu lungimea
subintervalului. Se poate observa analogia cu experienţa alegerii dintr-un număr de cazuri egal
posibile.
Dacă [a, b] e mulţimea cazurilor egal posibile şi [c, d] ⊂ [a, b] este mulţimea cazurilor favorabile,
atunci probabilitatea ca punctul ales să cadă în [c, d] este
lungimea ([c, d]) d − c
P(A) = = .
lungimea ([a, b]) b − a
În particular, dacă z ∈ (c, d), atunci probabilitatea ca punctul ales aleator dintr-un interval să
coincidă cu un punct dinainte stabilit este zero şi, astfel, întrezărim posibilitatea teoretică ca un
eveniment să aibă probabilitatea nulă, fară ca el să fie evenimentul imposibil ∅.
Exemplu 3.1 Să presupunem că experimentul aleator constă în alegerea la întâmplare a unui
număr real din intervalul (0, 1), aşa încât fiecare punct din acest interval are aceeaşi şansă de a
fi ales. Dacă notăm cu Z v.a. care reprezintă numărul ales, atunci Z va urma repartiţia uniform
continuă U (0, 1). Notăm cu A evenimentul ca Z să nu ia valoarea 0.5. Matematic, scriem
evenimentul astfel:
A = {ω ∈ Ω; Z(ω) 6= 0.5} sau, prescurtat, {Z 6= 0.5}.
Atunci, P(A) = 1, dar A nu este evenimentul sigur, ci doar un eveniment aproape sigur. Practic,
este posibil ca, din mai multe probe independente ale experimentului, să obţinem valoarea 0.5.
În mod cu totul analog, dacă se alege la întâmplare şi în mod uniform un punct dintr-o regiune
planara R, astfel ca să nu existe puncte sau porţiuni privilegiate în aceasta regiune, atunci
R0
probabilitatea ca punctul să cadă în subregiunea R 0 ⊂ R este aria aria R .
În trei dimensiuni, o probabilitate similară este raportul a două volume: volumul mulţimii cazurilor
favorabile realizarii experimentului şi volumul mulţimii cazurilor egal posibile.
3.3 Variabile aleatoare

În general, rezultatul posibil al unui experiment aleator poate fi asociat unei valori reale, precizând
regula de asociere. O astfel de regulă de asociere se numeşte variabilă aleatoare (prescurtat, v.a.).
Se numeşte ”variabilă” deoarece poate lua valori diferite, se numeşte ”aleatoare” deoarece valorile
observate depind de rezultatele experimentului aleator, şi este "reală" deoarece valoarea numerică
este un număr real. Aşadar, din punct de vedere euristic, o variabilă aleatoare este o cantitate
ce poate avea orice valoare dintr-o multime data, fiecarei valori atribuindu-se o anumita pondere
(frecventa relativa). În viaţă de zi cu zi întâlnim numeroase astfel de funcţii, e.g., numerele ce
apar la extragerea loto, rezultatul masurarii fertilitatii solului in diverse locatii, numărul clienţilor
deserviţi la un anumit ghişeu într-o anumită perioadă, timpul de aşteptare a unei persoane într-o
staţie de autobuz până la sosirea acestuia, calificativele obţinute de elevii de clasa a IV-a la un test
de matematică etc.
De regula, variabilele aleatoare sunt notate cu litere de la sfârşitul alfabetului, X, Y, Z sau ξ , η, ζ
etc. Cum am mai precizat anterior, in acest material vom volosi notatia Z pentru o variabila (Z(x)
pentru o variabila spatiala) si z pentru realizarea sa (respectiv, z(x)).
Exemplu 3.2 Un exemplu simplu de variabila aleatoare este următorul. Considerăm experimentul
aleator al aruncării unei monede. Acest experiment poate avea doar două rezultate posibile, notate
S (stema) şi B (banul). Aşadar, spaţiul selecţiilor este Ω = {S, B}. Acestui experiment aleator
îi putem ataşa variabila aleatoare reală Z, care asociază feţei S valoarea 1 şi feţei B valoarea 0.
Matematic, scriem astfel: Z : Ω → R, Z(S) = 1, Z(B) = 0. Astfel, valorile 1 şi 0 pentru Z vor
indica faţa apărută la aruncarea monedei. O astfel de variabilă aleatoare se numeşte variabilă
aleatoare Bernoulli şi poate fi ataşată oricărui eveniment aleator ce are doar două rezultate posibile,
numite generic succes şi eşec.
Variabilele aleatoare (prescurtat v.a.) pot fi discrete sau continue. Variabilele aleatoare discrete
sunt cele care pot lua o mulţime finită sau cel mult numărabilă (adica, o multime care poate fi
numarata) de valori. O variabilă aleatoare se numeşte variabilă aleatoare continuă (sau de tip
continuu) dacă mulţimea tuturor valorilor sale este totalitatea numerelor dintr-un interval real
(posibil infinit) sau toate numerele dintr-o reuniune disjunctă de astfel de intervale, cu precizarea
că pentru orice posibilă valoare c, P(Z = c) = 0.
Exemple de v.a. discrete: numărul feţei apărute la aruncarea unui zar, numărul de apariţii ale unui
tramvai într-o staţie într-un anumit interval, numărul de insuccese apărute până la primul succes
etc. Din clasa v.a. de tip continuu amintim: timpul de aşteptare la un ghişeu până la servire, preţul
unui activ financiar într-o perioadă bine determinată.
Pentru a specifica o v.a. discretă, va trebui să enumerăm toate valorile posibile pe care aceasta le
poate lua, împreună cu probabilităţile corespunzatoare. Suma tuturor acestor probabilităţi va fi
întotdeauna egală cu 1, care este probabilitatea realizarii evenimentului sigur. Când se face referire
la repartiţia unei v.a. discrete, se înţelege modul în care probabilitatea totală 1 este distribuită
între toate posibilele valori ale variabilei aleatoare. Pentru o scriere compactă, adeseori unei v.a.
discrete i se atribuie următoarea reprezentare schematica:
tabelul de repartiţie
Z z1 z2 z3 ... zn
(3.3.1)
pk p1 p2 p3 ... zn
unde pk este probabilitatea cu care variabila Z ia valoarea zk (matematic, scriem pk = P(Z = zk ))
şi suma tuturor probabilităţilor corespunzătoare variabilei discrete este egală cu 1 (scriem ca
n
∑ pi = 1).
i=1
Exemplu 3.3
Presupunem că Z este v.a. ce reprezintă tabelul de repartiţie
numărul de puncte ce apare la aruncarea
unui zar ideal. Această variabila o putem Z 1 2 3 4 5 6
reprezenta schematic ca in tabelul alaturat. pk 1/6 1/6 1/6 1/6 1/6 1/6
Dacă Z este o v.a. discretă de forma (3.3.1), atunci definim funcţia de probabilitate (de frecvenţă)
(en., probability mass function) ataşată variabilei aleatoare discrete Z ca fiind o funcţie ce ataseaza
fiecarei realizari ale unei variabile probabilitatea cu care aceasta realizare este observata. Matem-
atic, scriem ca
f (zi ) = pi , i ∈ {1, 2, . . . , n}.
În cuvinte, pentru fiecare posibilă valoare a unei v.a. discrete, funcţia de probabilitate ataşează
probabilitatea cu care Z ia această valoare. Funcţia de probabilitate este pentru o v.a. discreta ceea
ce o densitate de repartiţie este pentru o variabilă aleatoare continuă.
Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare intr-un
interval a chiar din R. Deoarece in aceste multimi exista o infinitate de valori, nu mai putem
defini o variabila aleatoare continua la fel ca in cazul discret, precizandu-i fiecare valoare pe care
o ia si ponderea corespunzatoare. In schimb, pentru o variabila aleatoare continua, putem preciza
multimea in care aceasta ia valori si o functie care sa descrie repartizarea acestor valori. O astfel
de functie se numeste functie de densitate a repartitiei, sau simplu, densitate de repartiţie (en.,
probability density function).
Exemplu 3.4 Vom spune că o variabila aleatoare Z are o repartitie (sau distributie) normala de
medie µ şi deviatie standard σ (notam aceasta prin Z ∼ N (µ, σ )) dacă Z poate lua orice valoare
reala si are densitatea de repartitie data de:
1 (x−µ)2
−
f (x; µ, σ ) = √ e 2σ 2 , pentro orice x ∈ R.
σ 2π
Aceasta repartitie se mai numeşte şi repartiţia gaussiană sau distribuţia gaussiană.
Funcţia de probabilitate sau densitatea de repartiţie poate depinde de unul sau mai mulţi parametri
reali. Spre exemplu, repartitia normala are doi parametri, µ si σ .
3.3.1 Funcţia de repartiţie (sau funcţia de repartiţie cumulată)

Numim funcţie de repartiţie ataşată v.a reale Z o funcţie F : R → [0, 1], definită prin
F(z) = P(Z ≤ z), pentru orice x ∈ R.
Termenul din engleză pentru funcţia de repartiţie este cumulative distribution function (cdf).
Functia de repartitie asociaza fiecarei valori reale z probabilitatea cu care variabila Z ia valori mai
mici sau egale cu z. Ea este o functie crescatoare, care ia valori intre 0 si 1.
În cazul unei variabile aleatoare discrete, cu tabelul de repartiţie dat de (3.3.1), funcţia de repartiţie
este:
F(z) = ∑ pi , (3.3.2)
{i; zi ≤z}
adică suma tuturor probabilităţilor corespunzătoare valorilor lui Z care nu-l depăşesc pe z.
Dacă Z este o variabilă aleatoare continuă şi f este densitatea sa de repartiţie, atunci funcţia de
repartiţie este dată de formula:
Zz
F(z) = f (t) dt, z ∈ R. (3.3.3)
−∞
Mai mult, F 0 (z) = f (z), pentru orice z ∈ R.
3.3.2 Caracteristici numerice ale unei variabile aleatoare (parametri)

O colectivitate statistica poate fi descrisa folosind una sau mai multe variabile. Pentru fiecare
dintre aceste variabile se pot determina anumite cantitati sau calitati specifice, numite parametri.
Astfel, acesti parametri sunt niste trasaturi caracteristice colectivitatii, ce pot fi determinate sau
estimate pe baza unor masuratori (observatii) ale variabilelor. In continuare vom prezenta cativa
parametri numerici importanti pentru o variabila aleatoare, folositi in analiza statistica. Vom
denumi acesti parametri caracteristici numerice ale unei variabile aleatoare.
Media (sau valoarea aşteptată)
(en., expected value; fr., espérance; ger., Erwartungswert)
Pentru o variabila, media este o masura a tendintei centrale a valorilor sale. De remarcat faptul ca
exista variabile (atat discrete cat si continue) care nu admit o valoare medie.
• Dacă Z este o v.a. discretă având tabelul de repartiţie (3.3.1), atunci media acestei v.a. (dacă
există!) se defineşte prin:
n
µ = ∑ zi pi . (3.3.4)
i=1
Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) se defineste prin
n
E(U(Z)) = ∑ U(zi )pi .
i=1
• Dacă Z este o v.a. de tip continuu, cu densitatea de repartiţie f (z), atunci media (teoretică)
acestei v.a., dacă există (!), se defineşte astfel:
Z ∞
µ= z f (z)dz. (3.3.5)
−∞
Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) (dacă există!) se
defineste prin Z ∞
E(U(Z)) = U(z) f (z)dz.
−∞
Notaţii: În cazul în care poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai
multe variabile în acelaşi timp), vom folosi notaţia µZ . Pentru media teoretică a unei variabile
aleatoare se mai folosesc şi notaţiile: m, M(Z) sau E(Z).
Dispersia (sau varianţa) (en., variance) şi abaterea standard (en., standard deviation)
Consideram Z o variabilă aleatoare care admite medie finita µ. Dorim sa stim in ce masura
valorile aceste variabile sunt imprastiate in jurul valorii medii. Variabila aleatoare Z0 = Z − µ
(numită abaterea lui Z de la media sa), atunci E(Z0 ) = 0. Aşadar, nu putem măsură gradul de
împrăştiere a valorilor lui Z în jurul mediei sale doar calculând Z − µ. Avem nevoie de o altă
măsură. Aceasta este dispersia variabilei aleatoare, notată prin σZ2 sau Var(Z). În cazul în care
poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai multe variabile în acelaşi
timp), vom folosi notaţia σZ2 .
n Z ∞
σ2 = ∑ (zi − µ)2 pi σ2 = (z − µ)2 f (z) dz
i=1 −∞
(in cazul unei v.a. discrete). (in cazul unei v.a. continue).
Alte formule pentru dispersie:

n

∑ z2i pi − µ 2 , în cazul discret



σ 2 = E[Z 2 ] − µ 2 = Z ∞i=1
z2 f (z) dz − µ 2 , în cazul continuu



−∞
√
Numim abatere standard (sau deviaţie standard) cantitatea σ = σ 2 . Are avantajul ca unitatea
sa de masura este aceeasi cu a variabilei Z.
În conformitate cu teorema lui Cebâşev3 , pentru orice variabila aleatoare Z ce admite medie si
orice a > 0, are loc inegalitatea:
1
P({|Z − µ| ≥ kσ }) ≤ 2 . (3.3.6)
k
În cuvinte, probabilitatea ca valorile variabilei Z sa devieze de la medie cu mai mult de k deviatii
standard este mai mica decat k12 . În cazul particular k = 3, obţinem regula celor 3σ :
1
P({|Z − µ| ≥ 3σ }) ≤ ≈ 0.1.
9
3 Pafnuty Lvovich Chebyshev (1821 − 1894), matematician rus
sau
8
P({µ − 3σ < Z < µ + 3σ }) ≥ , (3.3.7)
9
semnificând că o mare parte din valorile posibile pentru Z se află în intervalul [µ − 3σ , µ + 3σ ].
Coeficientul de variaţie
σ σ
Este definit prin CV = sau, sub forma de procente, CV = 100 %. Este util in compararea
µ µ
variatiilor a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca variatiile sunt
egale, atunci vom spune ca setul de observatii ce are media mai mica este mai variabil decat cel
cu media mai mare.
Standardizarea unei variabile aleatoare

Z−µ
Pentru o variabila aleatoare Z de medie µ şi dispersie σ 2 , variabila aleatoare Y = se nu-
σ
meşte variabila aleatoare standardizată (sau normată). Astfel, prin standardizarea unei variabile,
vom obtine urmatoarele proprietati ale sale: E(Y ) = 0, D2 (Y ) = 1.
Daca Z este o variabila normala (scriem asta prin Z ∼ N (µ, σ )), atunci standardizarea sa este o
variabila normala standard, adica Z−µ
σ ∼ N (0, 1).
Momente centrate
Pentru o v.a. Z (discretă sau continuă), ce admite medie, momentele centrate sunt valorile aşteptate
ale puterilor lui Z − µ. Definim astfel µk (Z) = E((Z − µ)k ). In particular,
Z ∞
n
µk (Z) = (x − µ)k f (x) dx;
µk (Z) = ∑ (zi − µ)k pi; −∞
i=1 (in cazul unei v.a. continue).
(in cazul unei v.a. discrete).
Momente speciale:
• µ2 (Z) = σ 2 . Se observa ca al doilea moment centrat este chiar dispersia.

µ3 (Z)
• γ1 = este coeficientul de asimetrie (en., skewness);
σ3
Coeficientul γ1 este al treilea moment centrat standardizat. O repartiţie este simetrică dacă
γ1 = 0. Vom spune că asimetria este pozitivă (sau la dreapta) dacă γ1 > 0 şi negativă (sau la
stânga) dacă γ1 < 0.
µ4 (Z)
• K= este excesul (coeficientul de aplatizare sau boltire) (en., kurtosis).
σ4
Este o măsură a boltirii distribuţiei (al patrulea moment standardizat). Termenul (−3) apare
pentru că indicele kurtosis al distribuţiei normale să fie egal cu 0. Vom avea o repartiţie
mezocurtică pentru K = 0, leptocurtică pentru K > 0 sau platocurtică pentru K < 0. Un
indice K > 0 semnifică faptul că, în vecinătatea modului, curba densităţii de repartiţie are o
boltire (ascuţire) mai mare decât clopotul lui Gauss. Pentru K < 0, în acea vecinătate curba
densităţii de repartiţie este mai plată decât curba lui Gauss.
Cuantile
Fie o v.a. Z ce are funcţia de repartiţie F(z). Pentru un α ∈ (0, 1), definim cuantila de ordin α
acea valoare reala zα ∈ R pentru care
F(zα ) = P(Z ≤ zα ) = α. (3.3.8)
(1) Cuantilele sunt măsuri de poziţie, ce măsoară lo-

caţia unei anumite observaţii faţă de restul datelor. Aşa
cum se poate observa din Figura 3.1, valoarea xα este
acel număr real pentru care aria haşurată este chiar α.
(2) În cazul în care Z este o variabilă aleatoare dis-
cretă, atunci (3.3.8) nu are soluţie pentru orice α. Însă,
dacă există o soluţie a acestei ecuaţiei F(x) = α, atunci
există o infinitate de soluţii, şi anume intervalul ce sep-
ară două valori posibile.
Figure 3.1: Cuantila de ordin α.

(3) Cazuri particulare de cuantile:
• pentru α = 1/2, obtinem mediana. Astfel, F(Me) = 0.5. Mediana (notata Me) este valoarea
care imparte repartitia in doua parti in care variabila Z ia valori cu probabilitati egale. Scriem
asta astfel:
P(Z ≤ Me) = P(Z > Me) = 0.5.
Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat media
pentru tendinta centrala a valorilor variabilei.
• pentru α = i/4, i ∈ {1, 2, 3}, obtinem cuartilele. Prima cuartila, Q1 , este acea valoare
pentru care probabilitatea ca Z sa ia o valoare la stanga ei este 0.25. Scriem asta astfel:
P(Z ≤ Q1 ) = 0.25. Cuartila a doua este chiar mediana, deci Q2 = Me. Cuartila a treia,
Q3 , este acea valoare pentru care probabilitatea ca Z sa ia o valoare la stanga ei este 0.75.
Scriem asta astfel: P(Z ≤ Q3 ) = 0.75.
• pentru α = j/10, j ∈ {1, 2, . . . , 9}, obtinem decilele. Prima decila este acea valoare pentru
care probabilitatea ca Z sa ia o valoare la stanga ei este 0.1. S.a.m.d.
• pentru α = j/100, j ∈ {1, 2, . . . , 99}, obtinem centilele. Prima centila este acea valoare
pentru care probabilitatea ca Z sa ia o valoare la stanga ei este 0.01. S.a.m.d.
(4) Dacă Z ∼ N (0, 1), atunci cuantilele de ordin α le vom nota prin zα .
Modul (valoarea cea mai probabilă)
Este valoarea cea mai probabila pe care o lua variabila aleatoare Z. Cu alte cuvinte, este acea
valoare x∗ pentru care f (x∗ ) (densitatea de repartiţie sau funcţia de probabilitate) este maximă. O
repartiţie poate să nu aibă niciun mod, sau poate avea mai multe module.
Covarianţa şi coeficientul de corelaţie
Conceptul de corelaţie (sau covarianţă) este legat de modul în care două variabile aleatoare tind
să se modifice una faţă de cealaltă; ele se pot modifica fie în aceeaşi direcţie (caz în care vom
spune că Z1 şi Z2 sunt direct <sau pozitiv> corelate) sau în direcţii opuse (Z1 şi Z2 sunt invers <sau
negativ> corelate).
Consideram variabilele Z1 , Z2 ce admit mediile, respectiv, µ1 , µ2 .
Definim corelaţia (sau covarianţa) variabilelor Z1 şi Z2 , notată prin cov(Z1 , Z2 ), cantitatea
cov(Z1 , Z2 ) = E[(Z1 − µ1 )(Z2 − µ2 )].
Daca Z1 si Z2 coincid, sa spunem ca Z1 = Z2 = Z, atunci cov(Z, Z) = σZ2 .

O relaţie liniară între două variabile este acea relaţie ce poate fi reprezentată cel mai bine printr-o
linie. Corelaţia detectează doar dependenţe liniare între două variabile aleatoare. Putem avea
o corelaţie pozitivă, însemnând că Z1 şi Z2 cresc sau descresc împreună (vezi cazurile in care
ρ = 0.85 sau ρ = 1 in Figura 3.2), sau o corelaţie negativă, însemnând că Z1 şi Z2 se modifică
în direcţii opuse (vezi cazul ρ = −0.98 in Figura 3.2). In cazul ρ = −0.16 din Figura 3.2, nu se
observa nicio tendinta, caz in car putem banui ca variabilele nu sunt corelate.
O măsură a corelaţiei dintre două variabile este coeficientul de corelaţie. Acesta este foarte utilizat
în ştiinţe ca fiind o măsură a dependenţei liniare între două variabile. Se numeşte coeficient de
corelaţie al v.a. Z1 şi Z2 cantitatea
cov(Z1 , Z2 )
ρ= ,
σ1 σ2
unde σ1 si σ2 sunt deviatiile standard pentru Z1 , respectiv, Z2 . Uneori se mai noteaza prin
ρ(Z1 , Z2 ) sau ρZ1 , Z2 . Coeficientul de corelatie ia valori intre −1 (perfect negativ corelate) si 1
(perfect pozitiv corelate) si masoara gradul de corelatie liniara dintre doua variabile.
Figure 3.2: Reprezentare de date bidimensionale.
3.3.3 Independenţa
Conceptul de independenţă a variabilelor aleatoare sau a evenimentelor este foarte important din
punctul de vedere al calculului statistic, atunci cand avem de calculat probabilităţile evenimentelor
compuse din evenimente mai simple.
Consideram A si B două evenimente aleatoare arbitrare.

(1) Dacă anumite informaţii despre evenimentul B au influenţat în vreun fel realizarea evenimen-
tului A, atunci vom spune că A şi B sunt evenimente dependente. De exemplu, evenimentele A =
mâine plouă şi B = mâine mergem la plajă sunt dependente.
(2) Să presupunem că evenimentul B satisface relaţia P(B) > 0. Vom spune că evenimentele A
şi B sunt independente dacă probabilitatea lui A este independentă de realizarea evenimentului B,
adică probabilitatea condiţionată
P(A| B) = P(A), (3.3.9)
echivalent cu T
P(A B)
= P(A).
P(B)
Aici am notat prin P(A| B) probabilitatea ca evenimentul A sa se realizeze stiind ca B s-a realizat.
Putem rescrie ultima egalitate sub forma simetrică:
\
P(A B) = P(A) · P(B). (3.3.10)
Deoarece în relaţia (3.3.10) nu mai este nevoie de condiţie suplimentara pentru P(B), este
preferabil să definim independenţă a două evenimente arbitrare astfel:
Două evenimente A si B se numesc independente dacă relaţia (3.3.10) are loc. Altfel, ele sunt
dependente, in sensul ca realizarea uneia depinde de realizarea/nerealizarea celeilalte.
In general, o multime de evenimente se numesc independente daca oricum am alege evenimente
din aceasta multime, probabilitatea ca acestea sa se realizeze simultan este egala cu produsul
probabilitatilor fiecarui eveniment in parte.
Doua variabile aleatoare Z1 si Z2 sunt independente daca realizarile lor sunt evenimente indepen-
dente intre ele. De asemenea, vom spune ca o multime variabile aleatoare sunt independente daca
realizarile oricarei submultimi dintre ele sunt evenimente independente intre ele.
Exemplu: Să considerăm aruncarea unui zar. Aruncăm zarul de două ori şi notăm cu Z1 , respectiv,
Z2 , v.a. ce reprezintă numărul de puncte apărute la fiecare aruncare. Evident, valorile acestor v.a.
sunt din mulţimea {1, 2, 3, 4, 5, 6}. Aceste doua variabile aleatoare sunt independente, deoarece
aparitia unei fete la aruncarea primului zar este independenta de aparitia oricarei fete la aruncarea
celui de-al doilea.
O consecinta importanta a independentei variabilelor este faptul ca media produsului a doua
sau mai multe variable independente este egala cu produsul mediilor celor doua variabile. De
asemenea, daca variabilele sunt independente, dispersia sumei variabilelor este egala cu suma
dispersiilor fiecarei variabile in parte. Aceste proprietati nu au loc in cazul in care ipoteza de
independenta nu este verificata.
De remarcat faptul ca independenta a doua variabile implica faptul ca ele sunt necorelate, adica
cov(Z1 , Z2 ) = 0 si, implicit, ρZ1 , Z2 = 0. Propozitia reciproca nu este adevarata. Aceasta inseamna
ca exista variabile care sunt necorelate dar nu sunt independente.
Este important de notat faptul ca in Geostatistica datele spatiale sunt necorelate, deci nu pot fi
independente. Observatiile facute in locatii apropiate tind sa aiba valori apropiate.
3.3.4 Teorema limita centrala

Teorema limita centrala este un rezultat foarte important in Statistica. Ea ne permite să aproximăm
sume de variabile aleatoare identic repartizate, avînd orice tip de repartiţii (atât timp cât variaţia
lor e finită), cu o variabila aleatoare normală.

Presupunem ca in urma unor masuratori am obtinut datele z1 , z2 , . . . , zn si ca aceste date sunt
realizarile unor variabile Z1 , Z2 , . . . , Zn . Daca aceste variabile sunt normale, atunci suma acestora
n
1 n
(Sn = ∑ Zi ) cat si media lor (Z = ∑ Zi ) sunt tot variabile normale, pentru orice volum al
i=1 n i=1
selectiei, n.
Teorema limita centrala spune ca, dacă variabilele Z1 , Z2 , . . . , Zn nu sunt normal repartizate,
atunci, pentru un volum n este suficient de mare, repartitiile pentru Sn si Z tind sa fie tot normale.
Spunem astfel ca repartitiile asimptotice (la limita) pentru Sn si Z sunt normale. Cu cat volumul
observatiilor este mai mare, cu atat suma sau media lor sunt mai aproape de repartitia normala.
Mai mult, daca variabilele Zi au aceeasi medie (µ) si aceeasi deviatie standard σ , atunci media Z
σ
este o variabila normala de medie µZ = µ si deviatie standard σZ = √ . Se observa ca, daca n
n
este foarte mare, atunci deviatia standard a lui Z scade, astfel ca valorile sale vor deveni foarte
apropiate de µ.
Se pune problema: Cât de mare ar trebui să fie n, în practică, pentru că teorema limită centrală
să fie aplicabilă? Se pare ca un număr n astfel încât n ≥ 30 ar fi suficicient pentru aproximarea cu
repartiţia normală deşi, dacă variabilele sunt simetrice, aproximarea ar putea fi bună şi pentru un
număr n mai mic de 30.
3.3.5 Repartiţii probabilistice

• Repartiµia binomial , B(n, p):
Este o repartitie pentru o variabila aleatoare discreta. Modeleaza numarul de succese
obtinute in urma unui experiment aleator care se desfasoara in aceleasi conditii de un numar
de ori. Fie n numarul de repetitii ale experimentului si fie p probabilitatea de succes la o
singura efectuare a experimentului. Spunem ca o variabila aleatoare Z urmeaza repartitia
binomiala de parametri n si p, scriem Z ∼ B(n, p), (n > 0, p ∈ (0, 1)), dacă valorile lui Z
sunt {0, 1, . . . , n}, cu probabilităţile
P(Z = k) = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n.
Media şi dispersia pentru o astfel de variabila binomiala sunt: µZ = np; σZ2 = np(1 − p).
Spre exemplu, aruncarea de 15 ori a unei monede ideale poate fi modelată ca fiind o v.a.
binomială B(15, 0.5).
• Repartiµia normal , N (µ, σ )

Repartitia normala este cea mai cunoscuta si des utilizata repartitie probabilistica. Spunem
că o variabila aleatoare urmeaza o repartitie normala de medie µ si deviatie standard σ
(vom scrie Z ∼ N (µ, σ ), dacă Z are densitatea de repartitie
(z − µ)2
1 −
f (z) = √ e 2σ 2 , z ∈ R.
σ 2π
Media variabilei Z este E(Z) = µ şi dispersia sa este σZ2 = σ 2 .
Repartitia normala se mai numeşte şi repartiţia gaussiană, dupa numele matematicianului
german C. F. Gauß. În cazul µ = 0, σ 2 = 1 densitatea de repartiţie devine:
1 z2
f (z) = √ e− 2 , x ∈ R. (3.3.11)
2π
În acest caz spunem că Z urmează repartiţia normală standard, N (0, 1).
Graficul densităţii de repartiţie pentru repartiţia normală este clopotul lui Gauss (vezi Figura
3.3). Din grafic (pentru σ = 1), se observă că majoritatea valorilor nenule ale repartiţiei
normale standard se află în intervalul (µ − 3σ , µ + 3σ ) = (−3, 3). Această afirmaţie rezulta
din relaţia (3.3.7).
Dacă Z ∼ N (0, 1), atunci Z = σ Z + µ ∼ N (µ, σ ). În mod similar, dacă Z ∼ N (µ, σ ),

Z−µ
atunci Z = ∼ N (0, 1). Pentru o v.a. N (0, 1) funcţia de repartiţie este tabelată
σ
(valorile ei se găsesc în tabele) şi are o notaţie specială, Θ(z). Ea e definită prin:
Z z
1 y2
Θ(z) = √ e− 2 dy. (3.3.12)
2π −∞
Funcţia de repartiţie a lui Z ∼ N (µ, σ ) este dată prin
z−µ

F(z) = Θ , z ∈ R. (3.3.13)
σ
Figure 3.3: Clopotul lui Gauss pentru o variabila Z ∼ N (0, σ ), (σ = 1, 2, 3)
• Repartiµia log-normal , logN (µ, σ )
Repartiţia log-normală este foarte utilă în practica atunci cand observatiile nu sunt normale.
In acest caz, este posibil ca logaritmul acestor observatii sa urmeze o repartitie normala.
In general, daca datele observate sunt asimetrice (coeficientul skewness este mare), atunci
este necesara o logaritmare a datelor. Majoritatea mineralelor sau elementelor chimice au
repartitii lognormale. Vom spune ca variabila Z urmeaza o repartitie log-normala, scriem
Z ∼ logN (µ, σ ), daca variabila ln Z urmeaza o repartitie normala, adica ln Z ∼ N (µ, σ ).
Densitatea de repartiţie pentru o repartitie lognormala de parametri µ si σ este:
(ln z − µ)2

−


f (z) = 1
√ e 2σ 2 , dacă z > 0;
 zσ 2π
, dacă z ≤ 0.

0
Media şi dispersia pentru o variabila Z ∼ logN (µ, σ ) sunt date de
2 /2 2 2
µZ = eµ+σ , σZ2 = e2µ+σ (eσ − 1).
• Repartiµia χ 2 , χ 2 (n)
Repartitia χ 2 (n) (cu n grade de liberate) apare in urma insumarii unui numar de n variabile
normale standard independente. Vom spune ca o variabila Z urmeaza repartitia χ 2 (n)
(scriem ca Z ∼ χ 2 (n) si se citeşte repartiţia hi-pătrat cu n grade de libertate) dacă densitatea
sa de repartiţie este:
 1 n z
 z 2 −1 e− 2 , dacă z > 0,
n
f (z; n) = Γ( 2n )2 2
, dacă z ≤ 0.

0
unde Γ este funcţia lui Euler. Graficul acestei repartiţii (pentru diverse valori ale lui n) este
reprezentat în Figura 3.4.
(a) Media şi dispersia unei repartitii χ 2 (n) sunt:
E(χ 2 ) = n, D2 (χ 2 ) = 2n.
(b) Dacă variabilele Zk ∼ N (0, 1) pentru k = 1, 2, . . . , n sunt independente, atunci
Z12 + Z22 + · · · + Zn2 ∼ χ 2 (n).
(c) În particular, dacă variabila Z este normala standard, atunci patratul acesteia este o
variabila χ 2 (1). Matematic, scriem astfel:
Daca Z ∼ N (0, 1), atunci Z 2 ∼ χ 2 (1).

Figure 3.4: Repartiţia χ 2 (n) pentru patru valori ale lui n.
• Repartiµia Student (W. S. Gosset4 ), t(n)
Spunem că Z ∼ t(n) (cu n grade de libertate) dacă densitatea de repartiţie este:

n+1
Γ − n+1
z2
2
2
f (z; n) = √ n 1 + , z ∈ R.
nπ Γ n
2
n
Media şi dispersia unei repartitii t(n) sunt: µZ = 0, σZ2 = .
n−2
• Repartiµia Fisher5 , F (m, n)
Spunem că Z ∼ F (m, n) (cu m, n grade de libertate) dacă densitatea de repartiţie este:
 m
m 2 m+n

 Γ
m 2n z 2 −1 1 + mn z − 2
 n
 m m+n
f (z) = , z > 0;
Γ Γ
2 2



, z ≤ 0.

0
n 2n2 (n + m − 2)
Media şi dispersia unei repartitii F (m, n) sunt: µZ = , σZ2 = .
n−2 m(n − 2)2 (n − 4)
4 William Sealy Gosset (1876 − 1937), statistician britanic, care a publicat sub pseudonimul Student
5 Sir Ronald Aylmer Fisher (1890 − 1962), statistician, eugenist, biolog şi genetician britanic
4. Estimatori
Presupunem ca Z este variabila de interes a unei colectivitati statistice si ca, in urma unor
masuratori, am obtinut rezultatele z1 , z2 , . . . , zn . Deoarece in urma acestor masuratori pot aparea
erori, in Statistica se considera ca aceste date sunt realizarile unor variabile Z1 , Z2 , . . . , Zn . Se
presupune ca aceste variabile sunt independente si au toate aceeasi repartitie (adica sunt toate copii
independente ale aceleasi variabile). Aceste variabile le vom numi variabile aleatoare de selectie.
Pe baza acestor observatii, dorim sa estimam anumiti parametri ai colectivitatii, de exemplu media
µ sau deviatia standard σ ale lui Z.
O functie f (Z1 , Z2 , . . . , Zn ) ce depinde de variabilele de selectie se va numi generic statistică.
In caz ca nu este pericol de confuzie, valoarea statisticii pentru un esantion, f (z1 , z2 , . . . , zn ), se
numeste tot statistică. Exemple de statistici:
1. Media selectiei:
1 n
Z = ∑ Zi .
n i=1
1 n
O valoare observata pentru Z este z = ∑ zi .
n i=1
(∗ ) Daca variabilele de selectie Zi au media µ si deviatia standard σ , atunci media mediei
selectiei este tot µ si deviatia sa standard este √σn . Scriem asta astfel:
σ
µZ = µ si σZ = √ .
n
(∗∗ ) In cazul in care variabilele Zi sunt normale N (µ, σ ), atunci media selectiei este tot
o variabila normala, Z ∼ N (µ, √σn ).
(∗∗∗ ) Daca numarul variabilelor de selectie este suficient de mare, atunci variabila Z este
normala, fara ca Zi sa fie neaparat normale. Acest fapt este o consecinta a teoremei limita
centrala.
66 Chapter 4. Estimatori
2. Dispersia selecţiei,
1 n
S2 = ∑ [Zi − Z]2
n − 1 i=1
1 n
O valoare observata pentru S2 este s2 = ∑ [zi − z]2.
n − 1 i=1
√ √
3. Deviatia standard a selecţiei, S = S2 . O valoare observata pentru S este s = s2 .
4.1 Estimatori punctuali

Consideram acum un parametru generic al populatiei, notat cu θ , pe care dorim sa-l estimam.
• Prin estimator punctual (sau, simplu, estimator) pentru parametrul θ intelegem o statistica
(independenta de θ ) care se apropie de θ atunci cand volumul selectiei este suficient de
mare. Un estimator pentru parametrul θ este notat simbolic prin θb. Valoarea unui astfel de
estimator intr-o masurare se va numi estimatie. Pentru simplitate, atunci cand nu este pericol
de confuzie, vom nota estimatorul si estimatia tot cu θb. De remarcat faptul ca estimatorul
este o variabila aleatoare si estimatia este un numar real.
Deoarece estimarile sunt bazate doar pe valorile unei submultimi din colectivitate, ele nu pot fi
exacte. Apar astfel erori de aproximare. Ne-am dori să ştim în ce sens şi cât de bine un estimator
aproximeaza (se apropie) de valoarea estimata. Pentru aceasta, avem nevoie de anumite cantitati
care sa cuantifice erorile de aproximare. In acest sens, vom discuta aici despre: deplasare, eroarea
medie patratica si eroarea standard.
• Un estimator θ̂ se numeste estimator nedeplasat (en., unbiased estimator) pentru parametrul
θ dacă media estimatorului este chiar valoarea parametrului pe care estimeaza. Matematic,
scriem astfel:
E(θ̂ ) = θ .
• Altfel, spunem că θ̂ este un estimator deplasat pentru θ , iar deplasarea (distorsiunea) se
defineşte prin:
b(θ̂ , θ ) = E(θ̂ ) − θ .
Cantitatea b(θ̂ , θ ) este o măsură a erorii pe care o facem în estimarea lui θ prin θ̂ .
• O alta masura a incertitudinii cu care un estimator aproximeaza parametrul este eroarea
standard (en., standard error), notata aici prin σ (θ̂ ) sau σθ̂ . Spre exemplu, daca estimatorul
θ̂ este Z, atunci
σ
σZ = √ ,
n
unde σ este deviatia standard a unei singure observatii. Se observa de aici ca σZ va tinde
la 0 daca n creste nemarginit. Astfel, daca numarul de masuratori creste, media acestor
masuratori se apropie mult de valoarea parametrului µ.
• Numim eroare medie pătratică a unui estimator θ̂ pentru θ (en., mean squared error)
cantitatea 2
MSE(θ̂ , θ ) = E θ̂ − θ .
Aceasta cantitate ne va indica valoarea medie a patratului diferentei dintre estimator si

valoarea parametrului estimat. Pentru un estimator nedeplasat, MSE este chiar dispersia
estimatorului, σθ̂2 .
4.1 Estimatori punctuali 67
• Un estimator nedeplasat θ̂ pentru θ se numeşte estimator nedeplasat uniform de dispersie

minimă (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dacă pentru orice
valori ale parametrului θ si pentru orice alt estimator nedeplasat pentru θ , notat cu θ̂ ∗ ,
estimatorul θ̂ are varianta minima. Matematic, scriem astfel:
σθ̂2 ≤ σθ̂2∗ , pentru orice valoarea a lui θ .
• Pentru un anumit parametru pot exista mai mulţi estimatori nedeplasati. Dintre acestia, cel
mai bun estimator va fi acela care are varianta minima.
4.1.1 Exemple de estimatori punctuali

Presupunem ca Z este variabila de interes a unei populatii statistice, pentru care dorim sa estimam
anumiti parametri, e.g., media µ, varianta (dispersia) σ 2 , deviatia standard σ etc. Plecand de la o
multime de valori observate pentru Z, si anume z1 , z2 , . . . , zn , putem construi urmatorii estimatori:
1 n
1. Un estimator pentru media µ este media selectiei Z = Z = ∑ Zi . O estimatie pentru µ
b
n i=1
este b
z.
Concret, daca dorim sa determinam concentratia medie de azotati din sol intr-o anumita
regiune, vom stabili mai intai locatiile x1 , x2 , . . . , xn de unde vom culege probe, urmand ca
apoi sa le culegem efectiv si, pe baza valorilor obtinute, facem media acestora. Astfel, fiecare
variabila Zi = Z(xi ) reprezinta concentratia in locatia xi , care este o variabila aleatoare.
1 n
Valoarea masurata in aceasta locatie este zi = z(xi ). Estimatorul Z = ∑ Zi este media
n i=1
concentratiilor din locatiile stabilite (este criteriul dupa care se estimeaza media), iar
1 n
estimatia z = ∑ zi este valoarea medie a concentratiilor masurate.
n i=1
2 1 n
2. Dispersia selecţiei, S = ∑ [Zi − Z]2 , este un estimator pentru dispersia teoretică, σ 2 .
n − 1 i=1
√
3. Deviatia standard a selectiei, S = S2 este un estimator pentru deviatia standard teoretică,
σ.
σ s
4. Un estimator pentru eroarea standard σZ = √ este sZ = √ .
n n
5. Dispersia stratificata In cazul unui camp aleator, exista cazuri in care estimatiile deviatiei
s
standard s sunt foarte mari, fapt care duce la o eroare standard √ mare. Acest lucru poate
n
fi datorat faptului ca unele regiuni din campul aleator sunt foarte slab reprezentate prin
masuratori, pe cand altele contin prea multe masuratori. O idee pentru reducerea erorii este
cresterea volumului observatiilor, n. Insa, de multe ori, acest lucru nu este convenient. Totusi,
problema poate fi remediata daca se face o selectie stratificata a locatiilor masuratorilor,
dupa cum urmeaza.
Sa presupunem ca regiunea R de interes este impartita in m subregiuni (numite straturi).
Pentru fiecare astfel de strat, k se vor face nk ≥ 2 masuratori. Pentru fiecare strat in parte,
putem calcula varianta masuratorilor prin formula:
1 nk
s2k = ∑ [zik − zk ]2.
nk − 1 i=1
O estimatie pentru varianta mediei in regiunea R este
1 m s2k
s2z = 2 ∑ .
k j=1 nk
q
O estimatie pentru eroarea standard a lui z este sz = s2z .
6. Presupunem acum ca avem doua variabile de interes, Z si Z 0 . Am vazut anterior ca legatura
dintre aceste variabile poate fi descrisa de covarianta, cov(Z, Z 0 ) = E [(Z − µZ )(Z 0 − µZ 0 )].
Pentru a construi un estimator pentru covarianta este avem nevoie de n perechi de observaţii.
Presupunem ca acestea sunt {(z1 , z01 ), (z2 , z02 ), . . . , (zn , z0n )}. O estimatie pentru cov(Z, Z 0 )
este covarianta (sau corelatia) empirica,
1 n
cove = ∑ (zi − z)(z0i − z0),
n − 1 i=1
unde
1 n 1 n 0
z= ∑ zi si z0 = ∑ zi.
n i=1 n i=1
4.2 Estimarea parametrilor prin intervale de încredere

O singură populaţie
După cum am văzut anterior, putem determina estimaţii punctuale pentru parametrii unei populatii
însă, o estimaţie punctuală, nu precizează cât de aproape se găseşte estimaţia θ̂ (x1 , x2 , . . . , xn )
faţă de valoarea reală a parametrului θ . De exemplu, dacă dorim să estimăm valoarea medie a
pH din sol, atunci putem găsi un estimator punctual (e.g., media de selecţie) care să ne indice că
aceasta este de 8.1. Ideal ar fi dacă această informaţie ar fi prezentată sub forma: pH mediu din
sol este 8 ± 0.2.
Putem obţine astfel de informaţii dacă vom construi un interval în care, cu o probabilitate destul
de mare, să găsim valoarea reală a lui θ .
Dorim să determinam un interval (aleator) care să acopere cu o probabilitate mare (e.g., 0.95,
0.98, 0.99 etc) valoarea posibilă a parametrului necunoscut.
Pentru un α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim interval
de încredere (en., confidence interval) pentru parametrul θ cu probabilitatea de încredere 1 − α,
un interval aleator (θ , θ ), astfel încât
P(θ < θ < θ ) = 1 − α, (4.2.1)
unde θ (Z1 , Z2 , . . . , Zn ) şi θ (Z1 , Z2 , . . . , Zn ) sunt statistici.

Pentru o observaţie fixată, capetele intervalului (aleator) de încredere vor fi statistici. De exemplu,
pentru datele observate, z1 , z2 , . . . , zn , intervalul

θ (z1 , z2 , . . . , zn ), θ (z1 , z2 , . . . , zn )
se numeşte valoare a intervalului de încredere pentru θ . Pentru simplitate însă, vom folosi
termenul de "interval de încredere" atât pentru intervalul propriu-zis, cât şi pentru valoarea
acestuia, înţelesul desprinzându-se din context.

Valoarea α se numeşte nivel de semnificaţie sau probabilitate de risc.
Cu cât α este mai mic (de regulă, α = 0.01 sau 0.02 sau 0.05), cu atât şansa (care este (1 − α) ·
100%) ca valoarea reală a parametrului θ să se găsească în intervalul găsit este mai mare.
Intervalul de încredere pentru valoarea reală a unui parametru nu este unic. Dacă ni se dau condiţii
suplimentare (e.g., fixarea unui capăt), atunci putem obţine intervale infinite la un capăt şi finite la
celălalt capăt.
În continuare, vom preciza intervale de încredere pentru parametrii unor caracteristici normale.
Vom nota cu (generic) prin xα cuantila de ordin α pentru repartitia variabilei Z. Cuantilele xα pot
fi gasite in tabele specifice repartitiei cautate, sau pot fi calculate folosind un soft specializat.
Daca variabila Z urmeaza o repartitie normala N (0, 1), atunci cuantilele corespunzatoare le vom
nota prin zα si le vom gasi in Tabelul 10.1.
Daca variabila Z urmeaza o repartitie Student t(n), atunci cuantilele corespunzatoare le vom nota
prin tα, n si le vom gasi in Tabelul 10.2.
Daca variabila Z urmeaza o repartitie χ 2 (n), atunci cuantilele corespunzatoare le vom nota prin
2 si le vom gasi in Tabelul 10.3.
χα, n
4.2.1 Intervale de încredere pentru medie

Distingem aici doua cazuri: (1) cand volumul selectiei este suficient de mare (de multe ori, aceasta
inseamna peste 40 de observatii), sau (2) cand volumul selectiei este mic. Dupa cum am vazut
anterior, pentru estimarea punctuala a mediei pe baza unei selectii folosim:
1 n
z= ∑ zi .
n i=1
(1) daca n ≥ 40, atunci un interval de incredere pentru medie la nivelul de semnificatie α este

s s
z − z1− α2 √ , z + z1− α2 √ , (4.2.2)
n n
unde z1− α2 este cuantila de ordin 1 − α2 pentru repartitia N (0, 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05, atunci din Tabelul 10.1 gasim ca z0.975 = 1.96.
(2) pentru observatii normale de volum mic, un interval pentru medie la nivelul de semnificatie
α este

s s
z − t1− α2 ; n−1 √ , z + t1− α2 ; n−1 √ . (4.2.3)
n n
Aici, s este o estimatie pentru deviatia standard,

s
1 n
s= ∑ (zi − z)2
n − 1 i=1
si t1− α2 , n−1 este cuantila de ordin 1 − α2 pentru repartitia t(n − 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05 si volumul selectiei este n = 35, atunci din Tabelul
10.2 gasim ca t0.975, 34 = 2.032.
Când volumul n este mare, atunci va fi o diferenţă foarte mică între valorile z1− α2 şi t1− α2 ; n−1 , de
aceea am putea folosi z1− α2 în locul valorii t1− α2 ; n−1 .
Intervalele de încredere de mai sus sunt valide pentru selecţia (repetată sau nerepetată) dintr-o
populaţie infinită, sau pentru selecţii repetate dintr-o populaţie finită. În cazul selecţiilor nerepetate
din colectivităţi finite, în estimarea intervalelor de încredere vom ţine cont şi de volumul N al
populaţiei. Spre exemplu, dacă selecţia de volum n se face dintr-o populaţie finită de volum N şi
n ≥ 0.05N, atunci un inteval de încredere centrat pentru media populaţiei este:
r r !
s N −n s N −n
z − t1− α2 ; n−1 √ , z + t1− α2 ; n−1 √ . (4.2.4)
n N −1 n N −1
q
Factorul N−n N−1 va fi aproximativ egal cu 1 atunci cand N este infinit sau N n, obtinandu-se
astfel intervalul (4.2.3). Formula (4.2.4) nu este practica in Geostatistica, deoarece un camp
aleator are o multime infinita de puncte, asadar selectia de masuratori se face dintr-o populatie de
volum N = ∞.
O alta observatie este faptul ca este posibil ca σ sa fie un parametru cunoscut pentru Z, caz in care
pentru intervalul de incredere pentru medie se foloseste formula (4.2.2) cu σ inlocuindu-l pe s.
Exemplu 4.1 O maşină de îngheţată umple cupe cu îngheţată. Se doreşte ca îngheţată din cupe să
aibă masa de µ = 250g. Desigur, este practic imposibil să umplem fiecare cupă cu exact 250g
de îngheţată. Presupunem că masa conţinutului din cupă este o variabilă aleatoare repartizată
normal. Pentru a verifica dacă maşina este ajustată bine, se aleg la întâmplare 30 de înghetate
şi se cântăreşte conţinutul fiecăreia. Obţinem astfel o selecţie repetată, z1 , z2 , . . . , z30 după cum
urmează:
257 249 251 251 252 251 251 249 248 248 251 253 248 245 251
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253
Se cere să se scrie un interval de încredere pentru µ, cu nivelul de incredere de 0.99.
Soluţie: După cum am văzut mai sus, un interval de încredere pentru µ este (deoarece N este
necunoscut, il presupunem mult mai mare decat n):

s s
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ .
n n
Aici, nivelul de risc este α = 0.01, cuantila teoretica este t1− α2 ; n−1 = t0.995, 29 = 2.7564, media
valorilor este z = 250.0667 si deviatia standard este s = 2.9704. Astfel, obţinem intervalul de
încredere pentru µ:
(248.572, 251.561).
4.2.2 Interval de încredere pentru dispersie

Dupa cum am vazut anterior, pentru estimarea punctuală a lui σ 2 se foloseste
1 n
s2 = ∑ [zi − z]2 .
n − 1 i=1
Un interval pentru σ 2 la nivelul de semnificatie α este:

!
(n − 1) s2 (n − 1) s2
2
, . (4.2.5)
χ1− α
; n−1
χ 2α ; n−1
2 2
Intervale de încredere pentru deviaţia standard se obţin prin extragerea rădăcinii pătrate din
capetele de la intervalele de încredere pentru dispersie.
Exemplu 4.2 Găsiţi un interval de încredere (cu α = 0.05) pentru deviaţia standard a conţinutului
de nicotină pentru un anumit tip de ţigări, stiind ca pentru o selecţie de 25 de bucăţi, deviaţia
standard a conţinutului de nicotină este de 1.6mg.
Soluţie: Observam ca s = 1.6mg. Din tabele, găsim ca:
2 2
χ0.975; 24 = 39.3641; χ0.025; 24 = 12.4012.
Intervalul de încredere pentru dispersie este:
(σ 2 , σ 2 ) = (1.5608, 4.9544).
Pentru variaţia standard, intervalul de încredere este:

√ √
( 1.5608 mg, 4.9544 mg) = (1.25mg, 2.22mg).
4.2.3 Interval de încredere pentru proportie

Pentru o populaţie statistică, prin proporţie a populaţiei vom înţelege procentul din întreaga
colectivitate ce satisface o anumită proprietate (sau are o anumită caracteristică) (e.g., proporţia
de studenţi integralişti dintr-o anumită facultate). Pe de altă parte, prin proporţie de selecţie
înţelegem procentajul din valorile de selecţie ce satisfac o anumită proprietate (e.g., proporţia de
studenţi integralişti dintr-o selecţie aleatoare de 40 de studenţi ai unei facultăţi). Proporţia unei
populaţii este un parametru (pe care îl vom nota cu p), iar proporţia de selecţie este o statistică (pe
care o notăm aici prin p).
Fie Z o caracteristică binomială a unei colectivităţi, cu probabilitatea de succes p (e.g., numărul
de steme apărute la aruncarea unei monede ideale, caz în care p = 0.5). Dorim să construim un
interval de încredere pentru proporţia populaţiei, p. Pentru aceasta, avem nevoie de selecţii de
volum mare din această colectivitate. Un estimator potrivit pentru p este proporţia de selecţie,
adică
Z
pb = p = .
n
Printr-un "volum mare" vom înţelege un n ce satisface: n ≥ 30, n pb > 5 şi n (1 − pb) > 5.
Bazat pe o selectie de volum n, un interval de încredere pentru p la nivelui de semnificatie α, este
de forma:
r r !
pb(1 − pb) pb(1 − pb)
pb − z1− α2 , pb + z1− α2 . (4.2.6)
n n
Acest interval de încredere este valabil pentru selecţie dintr-o populaţie infinită (sau n N,
de regulă n < 0.05N) sau pentru selecţia cu repetiţie dintr-o populaţie finită. Dacă selecţia se
realizează fără repetiţie dintr-o populaţie finită (cu N astfel înât n ≥ 0.05N), atunci intervalul de
încredere este:
r r r r !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 . (4.2.7)
n N −1 n N −1
Exemplu 4.3 Dintr-o selecţie de 200 de elevi ai unei şcoli cu 1276 de elevi, 65% afirmă că deţin
cel puţin un telefon mobil. Să se găsească un interval de încredere pentru procentul de copii din
respectiva şcoală ce deţin cel puţin un telefon mobil, la nivelul de semnificaţie α = 0.05.
Soluţie: Avem: n = 200, N = 1276, p = 0.65. Deoarece n ≥ 0.05N, găsim că un interval de
încredere la nivelul de semnificaţie 0.05 este
r r r r !
0.65 (1 − 0.65) 1276 − 200 0.65 (1 − 0.65) 1276 − 200
0.65 − 1.96 , 0.65 + 1.96
200 1276 − 1 200 1276 − 1
= (58.93%, 71.07%).
Exemplu 4.4 Într-un institut politehnic, s-a determinat că dintr-o selecţie aleatoare de 100 de
studenţi înscrişi, doar 67 au terminat studiile, obţinând o diplomă. Găsiţi un interval de încredere
care, cu o confidenţă de 90%, să determine procentul de studenţi absolvenţi dintre toţi studenţii ce
au fost înscrişi.
67
Soluţie: Mai întâi, observăm că α = 0.1, n > 30, pb = 100 = 0.67, n pb = 67 > 5 şi n(1 − pb) =
33 > 5. Deoarece nu ni se dă vreo informaţie despre N (numărul total de studenţi înscrişi), putem
presupune că n < 0.05N. Cuantila teoretica este z0.95 = 1.6449. Găsim că intervalul de încredere
căutat este:
r r !
0.67 (1 − 0.67) 0.67 (1 − 0.67)
0.67 − 1.6449 , 0.67 + 1.6449 = (57.78%, 76.22%).
100 100
5. Teste statistice
Testarea ipotezelor statistice este o metodă prin care se iau decizii statistice, utilizând datele
experimentale culese. Testele prezentate mai jos au la bază noţiuni din teoria probabilităţilor.
Aceste teste ne permit ca, plecând de la un anumit sau anumite seturi de date culese experimental,
să se putem valida anumite estimări de parametri ai unei repartiţii sau chiar putem prezice forma
legii de repartiţie a caracteristicii considerate.
Presupunem că Z este variabila de interes a unei populaţii statistice şi că legea sa de probabilitate
este dată de depinde de un parametru θ . In general, o repartitie poate depinde de mai multi
parametri, insa aici vom discuta doar cazul unui singur parametru. De asemenea, să presupunem
că (zk )k=1, n sunt datele observate relativ la caracteristica Z.
• Numim ipoteză statistică o presupunere relativă la valorile parametului θ sau chiar referi-
toare la tipul legii caracteristicii.
• O ipoteză neparametrică este o presupunere relativă la repartitia lui Z. De exemplu, o
ipoteză de genul Z ∼ Normală.
• Numim ipoteză parametrică o presupunere făcută asupra valorii parametrilor unei repartiţii.
Dacă mulţimea la care se presupune că aparţine parametrul necunoscut este formată dintr-un
singur element, avem de-a face cu o ipoteză parametrică simplă. Altfel, avem o ipoteză
parametrică compusă.
• O ipoteză nulă este acea ipoteză pe care o intuim a fi cea mai apropiată de realitate şi o
presupunem a priori a fi adevărată. Cu alte cuvinte, ipoteza nulă este ceea ce doreşti să
crezi, în cazul în care nu există suficiente evidenţe care să sugereze contrariul. Un exemplu
de ipoteză nulă este următoarul: "presupus nevinovat, până se găsesc dovezi care să ateste o
vină". O ipoteză alternativă este orice altă ipoteză admisibilă cu care poate fi confruntată
ipoteza nulă.
• A testa o ipoteză statistică (en., statistical inference) înseamnă a lua una dintre deciziile:
− ipoteza nulă se respinge (caz in care ipoteza alternativa este admisa)
− ipoteza nulă se admite (sau, nu sunt motive pentru respingerea ei)
• În Statistică, un rezultat se numeşte semnificativ din punct de vedere statistic dacă este
74 Chapter 5. Teste statistice
improbabil ca el să se fi realizat datorită şansei. Între două valori există o diferenţă
semnificativă dacă există suficiente dovezi statistice pentru a dovedi diferenţa, şi nu datorită
faptului că diferenţa ar fi mare.
• Numim nivel de semnificaţie probabilitatea de a respinge ipoteza nulă când, de fapt, aceasta
este adevărată. În general, nivelul de semnificaţie este o valoare pozitiva apropiata de 0,
e.g., una dintre valorile: α = 0.01, 0.02, 0.05 etc. Intr-o analiza statistica sau soft statistic,
valoarea implicita pentru α este 0.05.
• În urma unui test statistic pot aparea două tipuri de erori:
1. eroarea de speţa (I) sau riscul furnizorului (en., false positive) − este eroarea care se
poate comite respingând o ipoteză (în realitate) adevărată. Se mai numeşte şi risc de
genul (I). Probabilitatea acestei erori este egala chiar nivelul de semnificaţie α, adică:
α = P(H0 se respinge | H0 este adevărată).
2. eroarea de speţa a (II)-a sau riscul beneficiarului (en., false negative) − este eroarea
care se poate comite acceptând o ipoteză (în realitate) falsă. Se mai numeşte şi risc de
genul al (II)-lea. Probabilitatea acestei erori este
β = P(H0 se admite | H0 este falsă).
Gravitatea comiterii celor două erori depinde de problema studiată. De exemplu, riscul de
genul (I) este mai grav decât riscul de genul al (II)-lea dacă verificăm calitatea unui articol
de îmbracăminte, iar riscul de genul al (II)-lea este mai grav decât riscul de genul (I) dacă
verificăm concentraţia unui medicament.
• Denumim valoare P sau P−valoare sau nivel de semnificaţie observat (en., P-value) proba-
bilitatea de a obţine un rezultat cel puţin la fel de extrem ca cel observat, presupunând că
ipoteza nulă este adevărată. Valoarea P este cea mai mică valoare a nivelului de semnificaţie
α pentru care ipoteza (H0 ) ar fi respinsă, bazându-ne pe observaţiile culese. Dacă Pv ≤ α,
atunci respingem ipoteza nulă la nivelul de semnificaţie α, iar dacă Pv > α, atunci admitem
(H0 ). Cu cât Pv este mai mică, cu atât mai mari şanse ca ipoteza nulă să fie respinsă. De
exemplu, dacă valoarea P este Pv = 0.045 atunci, bazându-ne pe observaţiile culese, vom
respinge ipoteza (H0 ) la un nivel de semnificaţie α = 0.05 sau α = 0.1, dar nu o putem
respinge la un nivel de semnificaţie α = 0.02. Dacă ne raportăm la P−valoare, decizia
într-un test statistic poate fi făcută astfel: dacă aceasta valoare este mai mică decât nivelul
de semnificaţie α, atunci ipoteza nulă este respinsă, iar dacă P−value este mai mare decât
α, atunci ipoteza nulă nu poate fi respinsă.
Un exemplu simplu de test este testul de sarcină. Acest test este, de fapt, o procedură statistică ce
ne dă dreptul să decidem dacă există sau nu suficiente evidenţe să concluzionăm că o sarcină este
prezentă. Ipoteza nulă ar fi lipsa sarcinii. Majoritatea oamenilor în acest caz vor cădea de acord
cum că un false negative este mai grav decât un false positive.
Să presupunem că suntem într-o sală de judecată şi că judecătorul trebuie să decidă dacă un
inculpat este sau nu vinovat. Are astfel de testat următoarele ipoteze:
(
(H0 ) inculpatul este nevinovat;
(H1 ) inculpatul este vinovat.
Posibilele stări reale (asupra cărora nu avem control) sunt:

[1] inculpatul este nevinovat (H0 este adevărată şi H1 este falsă);
[2] inculpatul este vinovat (H0 este falsă şi H1 este adevărată)
Deciziile posibile (asupra cărora avem control − putem lua o decizie corectă sau una falsă) sunt:
[i] H0 se respinge (dovezi suficiente pentru a încrimina inculpatul);
[ii] H0 nu se respinge (dovezi insuficiente pentru a încrimina inculpatul);
În realitate, avem următoarele posibilităţi, sumarizate în Tabelul 5.1:
Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 [1]&[i] [2]&[i]
Acceptă H0 [1]&[ii] [2]&[ii]
Table 5.1: Posibilităţi decizionale.
Interpretările datelor din Tabelul 5.1 se găsesc în Tabelul 5.2.
Situaţie reală
Respinge H0 închide o persoana nevinovată închide o persoana vinovată
Accepta H0 eliberează o persoana nevinovată eliberează o persoana vinovată
Table 5.2: Decizii posibile.
Erorile posibile ce pot aparea sunt cele din Tabelul 5.3.
Situaţie reală
Respinge H0 α judecată corectă
Accepta H0 judecată corectă β
Table 5.3: Erori decizionale.
5.1 Tipuri de teste statistice

Tipul unui test statistic este determinat de ipoteza alternativă (H1 ). Astfel, putem avea:
• test unilateral stânga, atunci când ipoteza alternativă este θ < θ0 ;
• test unilateral dreapta, atunci când ipoteza alternativă este θ > θ0 ;
• test bilateral, atunci când ipoteza alternativă este θ 6= θ0 .
Pentru a lua decizii statistice se poate utiliza metoda intervalelor de încredere pentru parametri.
5.1.1 Testul t pentru medie

Testul t pentru medie se foloseşte pentru selecţii normale de volum mic, de regulă n < 30, când
dispersia populaţiei este necunoscută a priori.
Fie caracteristica Z ce urmează legea normală N (µ, σ ) cu µ necunoscut şi σ > 0 necunoscut.
Vrem să verificăm ipoteza nulă
(H0 ) : µ = µ0
versus ipoteza alternativă
(H1 ) : µ 6= µ0 ,
cu probabilitatea de risc α.
Metoda I: Etapele testului sunt urmatoarele:
• Obtinem o multime de masuratori asupra variabilei Z: z1 , z2 , . . . , zn .
• Pe baza acestor masuratori putem calcula media si deviatia standard:
s
1 n 1 n
z = ∑ zi
n i=1
si s= ∑ (zi − z)2 .
n − 1 i=1
• Calculam statistica ce masoara discrepanta dintre valoarea medie observata si valoarea medie pe
care o testam:
z − µ0
T0 = s . (5.1.1)
√
n
• Calculam cuantila de ordin 1 − α2 pentru repartitia t(n − 1), notata aici prin t1− α2 ; n−1 Este un prag
teoretic ce poate fi determinat din tabelele pentru repartitia Student sau calculat cu un soft matematic
(e.g., M ATLAB). Decizia se ia astfel:
– dacă |T0 | < t1− α2 ; n−1 (adica T0 este suficient de mic in valoare absoluta), atunci admitem (H0 ).
– dacă |T0 | ≥ t1− α2 ; n−1 , atunci respingem (H0 ).
Metoda a II-a: O altă modalitate de testare a unei ipoteze statistice parametrice este prin
intermediul P−valorii, Pv . Reamintim, P−valoarea este probabilitatea de a obţine un rezultat cel
puţin la fel de extrem ca cel observat, presupunând că ipoteza nulă este adevărată. Aceasta valoare
este afisata de orice soft statistic folosit in testarea ipotezelor. Utilizând P−valoarea, testarea se
face astfel:
Ipoteza nulă va fi respinsă dacă Pv < α şi va fi admisă dacă Pv ≥ α. Aşadar, cu cât Pv este mai
mic, cu atât mai multe dovezi de respingere a ipotezei nule.
Exemplu 5.1 Pentru a determina media notelor la teza de Matematica a elevilor dintr-un anumit
oras, s-a facut un sondaj aleator de volum n = 90 printre elevii din oras. Notele observate in urma
sondajului sunt grupate in Tabelul 2.3. Dorim să testăm, la nivelul de semnificaţie α = 0.05, dacă
media tuturor notelor la teza de Matematică a elevilor din oras este µ = 6.5.
Soluţie: Aşadar, avem de testat
(H0 ) µ = 6.5 vs. (H1 ) µ 6= 6.5.
Media si deviatia standard a notelor din tabel sunt:
z = 6.3667, s = 1.8570.
Valoarea statisticii t0 si pragul teoretic de referinta (cuantila) sunt:

z − µ0
t0 = s = −0.6812, t1− α2 ; n−1 = t0.975; 89 = 1.9870.
√
n
Deoarece |t0 | < t0.975; 89 , luam decizia ca ipoteza (H0 ) este admisa la acest nivel de semnificatie.
Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata de
un soft statistic, valoarea ei fiind Pv = 0.4975, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.
5.1.2 Test pentru dispersie

Pentru variabila Z ca mai sus dorim sa testam ipoteza:
(H0 ) : σ 2 = σ02 vs. ipoteza alternativă (H1 ) : σ 2 6= σ02 ,
cu probabilitatea de risc α. Etapele testului sunt urmatoarele:

• Obtinem o multime de masuratori asupra variabilei Z: z1 , z2 , . . . , zn .
• Pe baza acestor masuratori putem calcula media si deviatia standard:
s
1 n 1 n
z = ∑ zi
n i=1
si s = ∑ (zi − z)2 .
n − 1 i=1
• Calculam statistica
n−1 2
χ02 = S , (5.1.2)
σ2
• Determinam cuantilele de ordine α/2 si 1 − α/2 pentru repartitia χ 2 (n − 1) (se pot obtine din tabele
χ 2 ). Luarea decizieise face astfel:
pentru repartitia
– dacă χ02 ∈ χ 2α ; n−1 , χ1−
2
α , atunci admitem (H0 ) (i.e., σ 2 = σ02 );
2 2 ; n−1
– dacă χ02 ∈6 χ 2α ; n−1 , χ1−

2
α
2
; n−1 , atunci respingem (H0 ) (i.e., σ 6= σ0 ).
2
2 2
Exemplu 5.2 Se cercetează caracteristica Z, ce reprezintă diametrul pieselor (în mm) produse de
un strung. Presupunem ca valorile observate urmeaza o repartitie normala. Pentru o selecţie de
piese de volum n = 11 şi obţinem distribuţia empirică:

10.50 10.55 10.60 10.65
.
2 3 5 1
Să se testeze (cu α = 0.1) ipoteza nulă
(H0 ) : σ 2 = 0.003,
versus ipoteza alternativă

(H1 ) : σ 2 6= 0.003.
Soluţie: Calculam mai intai s2 si apoi valoarea statisticii test. Obtinem s2 = 0.0022 si, astfel,
10
χ02 = 0.003 · 0.0022 = 7.2727. Cuantilele sunt:
χ 2α ; n−1 = 3.9403; 2
χ1− α
; n−1 = 18.3070.
2 2
Astfel, intervalul teoretic de referinta este

χ02 ∈ χ 2α ; n−1 , χ1−
2
α
; n−1 = (3.9403, 18.3070).
2 2
Cum valoarea χ02 = 7.2727 se afla in acest interval, tragem concluzia ca ipoteza nula nu poate fi
respinsa. (o acceptam).
Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata de
un soft statistic, valoarea ei fiind Pv = 0.6995, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.
5.1.3 Testul χ 2 de concordanţă

Testele de concordanţă (en., goodness-of-fit tests) realizează concordanţa între repartiţia empirică
(repartiţia datelor observate) şi repartiţia teoretică a unei variabile. Două dintre cele mai des
utilizate teste de concordanţă sunt testul χ 2 de concordanţă şi testul Kolmogorov-Smirnov.
Testul χ 2 de concordanţă poate fi utilizat ca un criteriu de verificare a ipotezei potrivit căreia

un ansamblu de observaţii urmează o repartiţie dată. Se aplică la verificarea normalităţii, a
exponenţialităţii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit şi testul
χ 2 al lui Pearson sau testul χ 2 al celei mai bune potriviri (en., goodness of fit test). Acest test
poate fi aplicat pentru orice tip de date pentru care funcţia de repartiţie empirică poate fi calculată.
Pentru acest test, ipoteza nulă este:
(H0 ) : Funcţia de repartiţie a lui Z este F(z).
Ipoteza alternativă este negaţia ipotezei nule.
Etapele testului sunt urmatoarele:
1. Stabilim pragul de risc α. Facem masuratorile asupra variabilei Z : z1 , z2 , . . . , zn .
2. Pe baza masuratorilor intuim natura repartitiei lui Z (si, implicit, forma functiei de repartitie a lui
Z). Aceasta functie poate depinde de unul sau mai multi parametri, notati generic cu θ . Formulăm
ipotezele statistice:
(H0 ) funcţia de repartiţie teoretică a variabilei aleatoare Z este F(z; θ1 , θ2 , . . . , θ p )
(H1 ) ipoteza nulă nu este adevărată.
3. Dacă θ1 , θ2 , . . . , θk (k ≤ p) nu sunt parametri cunoscuţi, atunci determinăm estimările θ̂1 , θ̂2 , . . . , θ̂k
pentru aceştia. Altfel, sărim peste acest pas;
4. Grupam datele in clase si scriem distribuţia empirică de selecţie (tabloul de frecvenţe),
clasa Oi n

, unde ∑ ni = n, ni ≥ 5;
ni i=1, n i=1
5. Se calculează probabilitatea pi , ca un element luat la întâmplare să se afle în clasa Oi . Dacă

Oi = [ai−1 , ai ), atunci
k
(ni − n pi )2
6. Se calculează statistica χ 20 = ∑ , care reprezinta discrepanta dintre valorile observate si
i=1 n pi
cele teoretice;
7. Determinăm valoarea χ ∗ , care este
(
2
χ1−α; , în cazul in care nu avem de estimat parametrii repartitiei,
χ∗ = 2
k−1
χ1−α; k−p−1 , în cazul in care am estimat p parametri pentru repartitie,
2 2
unde χα; n este cuantila de ordin α pentru repartiţia χ (n);
8. Dacă χ 20 < χ ∗ , atunci acceptăm (H0 ), altfel o respingem.

Exemplu 5.3 În urma unui recensământ, s-a determinat că proporţiile persoanelor din România
ce aparţin uneia dintre cele patru grupe sanguine sunt: O : 34%, A : 41%, B : 19%, AB : 6%.
S-au testat aleator 450 de persoane din România, obţinându-se următoarele rezultate:
Verificaţi, la nivelul de risc α = 0.05, Grupa sanguină O A B AB
compatibilitatea datelor cu rezultatul teoretic.
Frecvenţa 136 201 82 31
Soluţie: Ipotezele statistice sunt:
(H0 ) : Rezultatul observat este compatibil cu cel teoretic,
(H1 ) : Există diferenţe semnificative între rezultatul teoretic şi observaţii.

Dacă ipoteza nulă ar fi adevărată, atunci valorile aşteptate pentru cele patru grupe sanguine (din
450 de persoane) ar fi: O : 153.5, A : 184.5, B : 85, AB : 27.
Calculez valoarea statisticii χ 2 pentru observaţiile date. Ponderile pi sunt: p1 = 0.34, p2 =
0.41, p3 = 0.19, p4 = 0.06. Folosind formula, gasim ca:
(136 − 450 · 0.34)2 (201 − 450 · 0.41)2 (82 − 450 · 0.19)2 (31 − 450 · 0.06)2
χ 20 = + + +
450 · 0.34 450 · 0.41 450 · 0.19 450 · 0.06
(136 − 153.5) 2 (201 − 184.5) 2 (82 − 85)2 (31 − 27)2
= + + +
153.5 184.5 85 27
= 4.1004.
Aici n = 4, p = 0. Valoarea teoretica a statisticii de referinta este χ ∗ = χ0.95;

2
3 = 7.8147. Deoarece
2 ∗
χ 0 < χ , atunci acceptăm (H0 ) la acest nivel de semnificaţie. Asadar, observatiile sunt compatibile
cu cele teoretice.
5.1.4 Testul de concordanţă Kolmogorov-Smirnov

Testul de concordanţă Kolmogorov-Smirnov poate fi utilizat în compararea unor observaţii date
cu o repartiţie cunoscută (testul K-S cu o selecţie) sau în compararea a două selecţii (testul K-S
pentru două selecţii). Spre deosebire de criteriul χ 2 al lui Pearson, care foloseşte densitatea
de repartiţie, criteriul Kolmogorov-Smirnov utilizează funcţia de repartiţie empirică, Fn∗ (x). În
cazul unei singure selecţii, este calculată distanţa dintre funcţia de repartiţie empirică a selecţiei
şi funcţia de repartiţie teoretica pentru repartiţia testată, iar pentru două selecţii este măsurată
distanţa între două funcţii empirice de repartiţie. În fiecare caz, repartiţiile considerate în ipoteza
nulă sunt repartiţii de tip continuu. Testul Kolmogorov-Smirnov este bazat pe rezultatul teoremei
urmatoare:
Teorema 5.1.1 (Kolmogorov) Fie caracteristica X de tip continuu, care are funcţia de repartiţie
teoretică F şi fie funcţia de repartiţie de selecţie Fn∗ (x). Atunci, distanta dn = sup |Fn∗ (x) − F(x)|
x∈R
satisface relatia:
√ ∞
2 x2
lim P( n · dn < x) = K(x) = ∑ (−1)k e−2 k , x > 0. (5.1.3)
n→∞
k=−∞
Testul K-S pentru o selecţie
În cazul în care ipotezele testului sunt satisfăcute, acest test este mai puternic decât testul χ 2 .
Avem un set de date statistice independente, pe care le ordonăm crescator, x1 < x2 < · · · < xn .
Aceste observaţii independente provin din aceeaşi populaţie caracterizată de variabila aleatoare
X, pentru care urmărim să îi stabilim repartiţia. Mai întâi, cautăm să stabilim ipoteza nulă. De
exemplu, dacă intuim că funcţia de repartiţie teoretică a lui X ar fi F(x), atunci stabilim:
(H0 ) : funcţia de repartiţie teoretică a variabilei aleatoare X este F(x).
Ipoteza alternativă (H1 ) este, de regulă, ipoteza ce afirmă că (H0 ) nu este adevărată. Alegem un
nivel de semnificaţie α 1.
În criteriul K-S pentru o singură selecţie, se compară funcţia F(x) intuită a priori cu funcţia de
repartiţie empirică, Fn∗ (z). Reamintim,
card{i; xi ≤ x}
Fn∗ (x) = .
n
Studiind funcţia empirică de repartiţie a acestui set de date, Kolmogorov a găsit că distanţa
dn = sup |Fn∗ (x)−F(x)| satisface relaţia (5.1.3)), unde K(λ ), λ > 0, este funcţia lui Kolmogorov
x∈R
(tabelată). În testul K-S, măsura dn caracterizează concordanţa dintre F(x) şi Fn∗ (x). Dacă ipoteza
(H0 ) este adevărată, atunci diferenţele dn nu vor depăşi anumite valori.
Etapele aplicării testului lui Kolmogorov-Smirnov pentru o selecţie:

• Se dau α şi x1 < x2 < · · · < xn . Considerăm cunoscută (intuim) F(x);
• Ipotezele statistice sunt:
(H0 ) funcţia de repartiţie teoretică a variabilei aleatoare Z este F(x)
(H1 ) ipoteza nulă nu este adevărată.
• Calculăm λ1−α; n , cuantila de ordin 1 − α pentru funcţia lui Kolmogorov. Aceasta cuuantila verifica
relatia K(λ1−α ) = 1 − α.
• Se calculează dn = max |Fn∗ (x) − F(x)|;
x √
• Dacă dn satisface inegalitatea n dn < λ1−α , atunci admitem ipoteza (H0 ), altfel o respingem.
Exerciţiu 5.1 (test de verificare a normalităţii)
Considerăm selecţia {−2; −0.5; 0; 1; 1; 2; 2; 3}, extrasă dintr-o anumită colectivitate. La nivelul
de semnificaţie α = 0.1, să se decidă dacă
√ populaţia din care provine selecţia este normală de
medie 1 şi dispersie 2 (i.e., X ∼ N (1, 2)).
Soluţie: (folosim testul Kolmogorov-Smirnov) Mai întâi, calculăm funcţia de repartiţie
empirică. Avem:



 0, dacă x < −2;
1
dacă x ∈ [−2, −0.5);

8,




 28 , dacă x ∈ [−0.5, 0);



Fn∗ (x) = P(X ≤ x) = 38 , dacă x ∈ [0, 1);
5

8, dacă x ∈ [1, 2);




7




 8, dacă x ∈ [2, 3);

1, dacă x ≥ 3.
Pentru α = 0.1 şi n = 8, căutăm în tabelul pentru inversa funcţiei lui Kolmogorov acel x1−α; 8 =
x0.9; 8 astfel încât K(x1−α; 8 ) = 1 − α. Găsim că x0.9; 8 = 0.411.
Pe de altă parte, F(x) = Θ( x−1 √ ), unde Θ(x) este funcţia de repartiţie pentru legea normală
2
N (0, 1). √ √
Ipoteza că X urmează repartiţia normală N (1, 2) este acceptată dacă n dn < x1−α . Calculele
pentru determinarea valorii dn sunt date de Tabelul 5.4. În Figura 5.1, putem observa reprezentările
acestor două funcţii pentru setul de date observate.
xi −∞ −2 −0.5 0 1 2 3 ∞
F(xi ) 0 0.0169 0.1444 0.2398 0.5 0.7602 0.9214 1
Fn∗ (xi − 0) 0 0 0.125 0.25 0.375 0.625 0.875 1
Fn∗ (xi ) 0 0.125 0.25 0.375 0.625 0.875 1 1
|Fn∗ (xi − 0) − F(xi )| 0 0.0169 0.0194 0.0102 0.125 0.1352 0.0464 0
|Fn∗ (xi ) − F(xi )| 0 0.1081 0.1056 0.1352 0.125 0.1148 0.0786 0
Table 5.4: Tabel de valori pentru testul Kolmogorov-Smirnov.
Pentru a calcula dn , notăm faptul că cea mai mare diferenţă între F(x) şi Fn∗ (x) poate fi realizată
ori înainte de salturile funcţiei Fn∗ , ori după acestea, i.e.,
(
|F(xi ) − Fn∗ (xi − 0)|, înainte de saltul i;
sup |F(x) − Fn∗ (x)| = max
x∈R i |F(xi ) − Fn∗ (xi + 0)|, după saltul i.
√ √
Din tabel, observăm că dn = 0.1352. Deoarece n · dn = 8 · 0.1352 = 0.3824 < 0.411, con-
cluzionăm că putem accepta ipoteza (H0 ) la pragul de semnificaţie α = 0.1.
Observaţia 5.1 În cazul în care avem de comparat două repartiţii, procedăm astfel. Să pre-
supunem că Fm∗ (z) este funcţia de repartiţie empirică pentru o selecţie de volum m dintr-o populaţie
ce are funcţia teoretică de repartiţie F(z)) şi că G∗n (z) este funcţia de repartiţie empirică pentru o
selecţie de volum n dintr-o populaţie ce are funcţia teoretică de repartiţie G(z). Dorim să testăm
(H0 ) : F = G versus (H1 ) : F 6= G.
(eventual, în (H1 ) putem considera F > G sau F < G.) Considerăm statistica
dm,n = sup |Fm∗ (z) − G∗n (z)|,

z
ce reprezintă diferenţa maximă între cele două funcţii (vezi Figura 5.2). Etapele testului urmează
îndeaproape pe cele din testul K-S cu o singură selecţie. Decizia se face pe baza criteriului
r
mn
dm,n < qα .
m+n
Testul Kolmogorov-Smirnov pentru două selecţii este unul dintre cele mai utile teste de contin-
genţă pentru compararea a două selecţii. Acest test nu poate specifica natura celor două repartiţii.
Etapele aplicării testului lui Kolmogorov-Smirnov pentru două selecţii:

• Se dau α, x1 < x2 < · · · < xm şi y1 < y2 < · · · < yn . Considerăm cunoscute (intuim) F(x) şi G(x);
• Ipotezele statistice sunt:
(H0 ) F = G vs. (H1 ) F 6= G.
• Determinam pragul teoretic qα corespunzator valorii α din tabelul urmator:
α 0.10 0.05 0.025 0.01 0.005 0.001

qα 1.22 1.36 1.48 1.63 1.73 1.95
• Se calculează dm,n = sup |Fm∗ (z) − G∗n (z)|.

z q
mn
• Dacă dm,n satisface inegalitatea m+n dm,n < qα , atunci admitem ipoteza (H0 ), altfel ipoteza nulă
este respinsă la acest prag de semnificaţie.
Figure 5.1: Fn∗ (x) şi F(x) pentru testul Figure 5.2: Exemplu de funcţiile empirice
Kolmogorov-Smirnov cu o selectie. de repartiţie în testul K-S cu două selecţii.
6. Corelaţie şi regresie
6.1 Punerea problemei

În acest capitol vom discuta măsuri şi tehnici de determinare a legăturii între două sau mai
multe variabile aleatoare. Primele metode utilizate în studiul relaţiilor dintre două sau mai multe
variabile au apărut de la începutul secolului al XIX-lea, în lucrările lui Legendre1 şi Gauss2 , în
ce priveşte metoda celor mai mici pătrate pentru aproximarea orbitelor astrelor în jurul Soarelui.
Un alt mare om de ştiinţă al timpului, Francis Galton3 , a studiat gradul de asemănare între copii
şi părinţi, atât la oameni, cât şi la plante, observând că înălţimea medie a descendenţilor este
legată liniar de înălţimea ascendenţilor. Este primul care a utilizat conceptele de corelaţie şi
regresie ( (lat.) regressio - întoarcere). Astfel, a descoperit că din părinţi a căror înălţime este
mai mică decât media colectivităţii provin copii cu o înălţime superioară lor şi vice-versa. Astfel,
a concluzionat că înălţimea copiilor ce provin din părinţi înalţi tinde să "regreseze" spre înălţimea
medie a populaţiei. Din lucrările lui Galton s-a inspirat un student de-al său, Karl Pearson, care
a continuat ideile lui Galton şi a introdus coeficientul (empiric) de corelaţie ce îi poartă numele.
Acest coeficient a fost prima măsură importantă introdusă ce cuantifica tăria legăturii dintre două
variabile ale unei populaţii statistice.
Un ingredient fundamental în studiul acestor două concepte este diagrama prin puncte, aşa-numita
scatter plot. În probleme de regresie în care apare o singură variabila răspuns şi o singură
variabilă observată, diagrama scatter plot (răspuns vs. predictor) este punctul de plecare pentru
studiul regresiei. O diagramă scatter plot ar trebui reprezentată pentru orice problemă de analiză
regresională; aceasta va oferi o primă idee despre ce tip de regresie vom folosi. Exemple de astfel
de diagrame sunt cele din Figura 3.2.
Regresia este o metodă statistică utilizată pentru descrierea naturii relaţiei între variabile. De
fapt, regresia stabileşte modul prin care o variabilă depinde de altă variabilă, sau de alte variabile.
1 Adrien-Marie Legendre (1752 − 1833), matematician francez
2 Johann Carl Friedrich Gauss (1777 − 1855), matematician şi fizician german
3 Sir Francis Galton (1822 − 1911), om de ştiinţă britanic
84 Chapter 6. Corelaţie şi regresie
Analiza regresională cuprinde tehnici de modelare şi analiză a relaţiei dintre o variabilă dependentă
(variabila răspuns) şi una sau mai multe variabile independente. De asemenea, răspunde la
întrebări legate de predicţia valorilor viitoare ale variabilei răspuns pornind de la o variabilă dată
sau mai multe. În unele cazuri se poate preciza care dintre variabilele de plecare sunt importante
în prezicerea variabilei răspuns. Se numeşte variabilă independentă o variabilă ce poate fi
manipulată (numită şi variabilă predictor, stimul sau comandată), iar o variabilă dependentă (sau
variabila prezisă) este variabila care dorim să o prezicem, adică o variabilă cărei rezultat depinde
de observaţiile făcute asupra variabilelor independente.
Să luăm exemplul unei cutii negre (black box) (vezi
Figura 6.1). În aceasta cutie intră (sunt înregistrate) in-
formaţiile x1 , x2 , . . . , xm , care sunt prelucrate (în tim-
pul prelucrării apar anumiţi parametri, β1 , β2 , . . . , βk ),
iar rezultatul final este înregistrat într-o singură vari-
abila răspuns, y. Figure 6.1: Black box.
De exemplu, se doreşte a se stabili o relaţie între valoarea pensiei (y) în funcţie de numărul de
ani lucraţi (x1 ) şi salariul avut de-alungul carierei (x2 ). Variabilele independente sunt măsurate
exact, fără erori. În timpul prelucrării datelor sau după aceasta pot apăra distorsiuni în sistem,
de care putem ţine cont dacă introducem un parametru ce să cuantifice eroarea ce poate apărea
la observarea variabilei y. Se stabileşte astfel o legătură între o variabilă dependentă, y, şi una
sau mai multe variabile independente, x1 , x2 , . . . , xm , care, în cele mai multe cazuri, are forma
matematică generală
y = f (x1 , x2 , . . . , xm ; β1 , β2 , . . . , βk ) + ε, (6.1.1)
unde β1 , β2 , . . . , βk sunt parametri reali necunoscuţi a priori (denumiţi parametri de regresie) şi ε
este o perturbaţie aleatoare. În cele mai multe aplicaţii, ε este o eroare de măsură, considerată
modelată printr-o variabilă aleatoare normală de medie zero. Funcţia f se numeşte funcţie de
regresie. Dacă aceasta nu este cunoscută a priori, atunci poate fi greu de determinat iar utilizatorul
analizei regresionale va trebui să o intuiască sau să o aproximeze utilizând metode de tip trial and
error (prin încercări). Dacă avem doar o variabila independentă (un singur x), atunci spunem că
avem o regresie simplă. Regresia multiplă face referire la situaţia în care avem multe variabile
independente.
Dacă observarea variabilei dependente s-ar face fără vreo eroare, atunci relaţia (6.1.1) ar deveni
(cazul ideal):
y = f (x1 , x2 , . . . .., xm ; β1 , β2 , . . . , βk ). (6.1.2)
Forma vectorială a dependenţei (6.1.1) este:
y = f (x; β ) + ε. (6.1.3)
Pentru a o analiză completă a regresiei (6.1.1), va trebui sa intuim forma funcţiei f şi apoi să
determinăm (aproximăm) valorile parametrilor de regresie. În acest scop, un experimentalist va
face un număr suficient de observaţii (experimente statistice), în urma cărora va aproxima aceste
valori. Dacă notăm cu n numărul de experimente efectuate, atunci le putem contabiliza pe acestea
în următorul sistem stochastic de ecuaţii:
yi = f (x, β ) + εi , i = 1, 2, . . . , n. (6.1.4)
6.1 Punerea problemei 85
În ipoteze uzuale, erorile εi sunt variabile aleatoare identic repartizate normal, independente de
medie µ = 0 si deviatie standard σ > 0. Astfel, sistemul (6.1.4) cu n ecuaţii are necunoscutele
{β j } j şi σ .
În cazul în care numărul de experimente este mai mic decât numărul parametrilor ce trebuie
aproximaţi (n < k), atunci nu avem suficiente informaţii pentru a determina aproximările. Dacă
n = k, atunci problema se reduce la a rezolva n ecuaţii cu n necunoscute. În cel de-al treilea caz
posibil, n > k, atunci avem un sistem cu valori nedeterminate.
Exemple de regresii:
În funcţie de forma funcţiei de regresie f , putem avea:

• regresie liniară simplă, în cazul în care avem doar o variabilă independentă şi
f (x; β ) = β0 + β1 x.
• regresie liniară multiplă, dacă
f (x; β ) = β0 + β1 x1 + β2 x2 + · · · + βm xm .
• regresie pătratică multiplă (cu două variabile), dacă
f (x; β ) = β0 + β1 x1 + β2 x2 + β11 x12 + β12 x1 x2 + β22 x22 .
• regresie polinomială, dacă
f (x; β ) = β0 + β1 x + β2 x2 + β3 x3 + · · · + βk xk .
Vom avea regresie pătratică pentru k = 2, regresie cubică pentru k = 3 etc.

• regresie exponenţială, când
f (x; β ) = β0 eβ1 x .
• regresie logaritmică, dacă
f (x; β ) = β0 · logβ1 x.
• şi altele.
De remarcat faptul că primele patru modele sunt liniare în parametri, pe când ultimele două nu
sunt liniare în parametri. Modelele determinate de aceste funcţii se vor numi modele de regresie
(curbe, suprafeţe etc).
În cadrul analizei regresionale, se cunosc datele de intrare, {xi }i , şi căutăm să estimăm parametrii
de regresie {β j } j şi deviaţia standard a erorilor, σ . De regula, functia f este necunoscută si va
trebui sa fie intuită de statistician.
7. Metode de interpolare spaţială
Dupa cum am mentionat anterior, in Geostatistica, datele observate sunt legate de pozitie. Spunem
astfel ca au un caracter spatial. Pozitia spatiala poate fi unu, doi sau trei-dimensionala. Vom
considera aici doar date bi-dimensionale. Vom nota generic cu x = (ζ1 , ζ2 ) vectorul de coordonate
bidimensionale. Dintre aceste metode, distingem metodele deterministe si cele geostatistice (sau
stochastice). In cazul metodelor deterministe nu se tine cont de erorile cu care pot fi colectate
masuratorile si de corelatiile dintre valorile masurate. In cazul metodelor stochastice, tinem cont
de erorile masuratorilor si de corelatiile dintre date.
7.1 Metode deterministe de interpolare spatiala

Generic, vom nota prin b
z o valoare prezisa a variabilei Z. O formula generala de estimare a valorii
z0 = z(x0 ) pe baza masuratorilor este media ponderata:
n
z(x0 ) = ∑ λi z(xi ),
b (7.1.1)
i=1
unde λi sunt ponderile ce trebuie determinate.
1. Metoda diagramei Voronoi (sau Thiessen, sau Dirichlet): Pentru un camp aleator R, vom
numi o diagrama Voronoi indusa de un set de locatii x1 , x2 , . . . , xn (numite si situri) o
diviziune a lui R in subregiuni, astfel incat pentru fiecare locatie, regiunea care o contine
este formata din punctele cele mai apropiate locatiei. Pentru fiecare punct xi , sa notam cu Vi
regiunea ce o contine. Se considera ca zi este valoarea variabilei Z pentru fiecare locatie din
regiunea Vi .
88 Chapter 7. Metode de interpolare spaţială
In cazul unei diagrame Voronoi, se pot considera ponder-
ile λi ca fiind
(
1 , daca xi ∈ Vi ,
λi =
0 , daca xi ∈ 6 Vi .
Totusi, astfel de predictii sunt grosiere, deoarece in

fiecare subregiune avem doar o valoare si nicio indicatie
a erorii cu care a fost observata. De asemenea, nu se tine
cont de configuratia locatiilor masuratorilor.
Figure 7.1: O diagrama Voronoi
2. Metoda triangularii (Delaunay):
Pentru o regiune R in care avem un set de locatii x1 , x2 , . . . , xn , o triangulare Delaunay este
o impartire a regiunii R in subregiuni triunghiulare, astfel incat nicio locatie data nu se afla
in cercul circumscris vreunui triunghi din diviziune.
O astfel de triangulare este unica pentru un set de locatii

aflate in pozitie generala (nu se afla pe o aceeasi linie).
In cazul unei triangulari, ponderile pentru fiecare regiune
triunghiulara sunt obtinute prin interpolarea liniara a co-
ordonatelor varfurilor triunghiului. Aceasta forma de
interpolare este mai buna decat cea anterioara, dar nu su-
ficient de folositoare. De asemenea, o predictie folosind
aceasta metoda nu tine cont de erorile de masurare.
Figure 7.2: O triangulare Delaunay

3. Metoda vecinilor naturali:
Este o metoda de interpolare introdusa de matematicianul Robin Sibson, care se bazeaza
pe diagrama Voronoi. Pe baza locatiilor unde au fost facute masuratori, se construieste
diagrama Voronoi.
Presupunem ca se doreste prezicerea valorii z0 a variabilei

Z intr-o alta locatie decat cea deja observata, fie ea x0 .
Pe baza locatiilor x0 , x1 , . . . , xn , se construieste o alta dia-
grama Voronoi, care incorporeaza si aceasta noua locatie.
Vom nota cu A aria regiunii care contine locatia x0 (este
regiunea hasurata din Figura 7.3) si, pentru fiecare i, notez
cu Ai intersectia regiunii care contine pe x0 cu regiunea ce
contine locatia xi din vechea retea Voronoi. Presupunem
ca regiunea de arie A intersecteaza r astfel de regiuni. In
mod clar, avem ca A1 + A2 + . . . + Ar = A. Figure 7.3: Diagrama pentru
metoda vecinilor
Ponderile λi sunt considerate astfel:
Ai
λi = ,
A1 + A2 + . . . + Ar
unde suma se face dupa indicii locatiilor invecinate locatiei x0 . Astfel, ponderea λi va fi
nenula daca locatia xi este vecin natural cu x0 , si λi = 0 daca xi nu este vecin natural cu x0 .
4. Metoda ponderilor inverselor distantelor:
Notam cu di distanta dintre punctele xi si x0 . Aceasta metoda foloseste interpolarea (7.1.1)

cu ponderile
di−r
λi = n , i = 1, 2, . . . , n,
−r
∑ di
i=1
unde r > 0 este o valoare aleasa de investigator. Valoarea cea mai utilizata este r = 2.
Rezultatul acestei interpolari este ca punctele mai apropiate de punctul de interpolare au
o pondere mai mare decat cele mai indepartate. Cu cat r este mai mare, cu atat ponderea
punctelor apropiate creste. Astfel, valoarea variabilei in locatia x0 poate fi estimata prin:
di−r
n
zi , daca di 6= 0,

∑ n


i=1 −r
bz(x0 ) = ∑ di


 i=1
zi , daca di = 0.

Pentru r = 2, valoarea variabilei in locatia x0 poate fi estimata prin:

n

 λi zi , daca distanta dintre xi si x este nenula,
b
∑
z(x0 ) = i=1
0

 zi , daca distanta dintre xi si x0 este0,
unde
1
di2
λi = , pentru fiecare i = 1, 2, . . . , n.
1 1 1
2
+ 2 +···+ 2
d1 d2 dn
Un mare dezavantaj al acestui tip de interpolare este ca nu tine cont de configuratia selectiei
alese.
5. Metoda determinarii suprafetelor de raspuns (regresie sau trend):
Aceasta metoda este asemanatoare cu metoda regresiei multiple. Sa presupunem ca dorim

sa dorim sa prezicem valorile pe care o variabila Z le ia intr-o anumita regiune R pe baza
masuratorilor facute in n locatii din aceasta regiune. Sa presupunem ca aceste locatii sunt
x1 , x2 , . . . , xn . Deoarece aceste puncte sunt planare, pentru a determina exact fiecare locatie
este nevoie de cate doua coordonate. Vom nota generic prin (xi1 , xi2 ) coordonatele locatiei
xi , pentru fiecare i = 1, 2, . . . , n. Dorim sa prezicem valoarea variabilei Z intr-o locatie
generica x din R, tinand cont de valorile cunoscute z(x1 ), z(x2 ), . . . , z(xn ). Presupunem ca
pentru locatia x avem coordonatele (x1 , x2 ). In general, valoarea prezisa de o suprafata de
raspuns va fi de forma:
z(x) := z(x1 , x2 ) = f (x1 , x2 ) + εx , (7.1.2)
90 Chapter 7. Metode de interpolare spaţială
unde f (x) este o functie de coordonatele spatiale ale locatiei investigate si εx este o eroare
de masurare. Aceasta eroare este presupusa a fi normala, de medie 0 si deviatie standard σ .
Mai mult, se presupune ca erorile observate in diferite locatii sa fie independente intre ele.
Exemple de suprafete de trend:
• (trend liniar, adica un plan):
f (x1 , x2 ) = β0 + β1 x1 + β2 x2 .
• (trend cuadratic pur):
f (x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 x12 + β4 x22 .
• (trend cuadratic cu interactiuni):
f (x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 x1 x2 + β4 x12 + β5 x22 .
• (trend cubic):
f (x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 x1 x2 + β4 x12 + β5 x22 + β6 x12 x2 + β7 x1 x23 + β8 x13 + β9 x23 .
Pe baza masuratorilor deja facute, se estimeaza parametrii βi , obtinandu-se astfel suprafata
de raspuns care se apropie cel mai mult de datele observate. O metoda de estimare a acestor
parametri este metoda celor mai mici patrate (se minimizeaza supa patratelor erorilor de
aproximare). De indata ce acesti coeficienti (se mai numesc si coeficienti de regresie) sunt
determinati, vom cunoaste forma exacta a functiei f (x1 , x2 ), si astfel putem estima valoarea
variabilei in locatia x = (x1 , x2 ) prin
z(x) = f (x1 , x2 ).
b
Spre exemplu, in cazul unui trend liniar cu β0 , β1 , β2 cunoscuti, estimam b

z(x) prin
z(x) = β0 + β1 x1 + β2 x2 .
b
De indata ce functia de regresie f este determinata si parametrii sunt estimati pe baza

observatiilor, se poate folosi modelul de regresie in predictii in locatii de unde nu s-au
facut masuratori. Insa, aceste predictii trebuie folosite cu mare atentie, deoarece estimarile
pot fi total neadecvate in cazul in care locatiile sunt din afara regiunii (ariei) acoperite de
observatii.
6. Metoda functiilor spline
O functie spline este o functie definita pe portiuni, iar in fiecare portiune avem un polinom.
Daca toate polinoamele au grad unu, vom spune ca avem o functie spline liniara, daca
toate polinoamele au gradul doi, atunci avem o functie spline patratica etc. Pentru un
set de locatii, putem determina o functie spline care interpoleaza aceste valori. Pe baza
acestei functii putem estima valoarea unei variabile intr-o locatie x0 prin valoarea functiei
in x0 . Interpolarea cu functii spline a fost introdusa de matematicianul roman Isaac Jacob
Schoenberg care a sustinut teza sa de doctorat la Universitatea din Iasi in 1926.
Figure 7.4: Funcţii spline

8. Procese stochastice spaţiale
Pentru o regiune R, dorim sa caracterizam varabila de interes Z. In acest scop, se considera un set
de locatii x1 , x2 , . . . , xn . Valorile variabilei in aceste locatii sunt masurate, obtinandu-se valorile
z(x1 ), z(x2 ), . . ., z(xn ). In realitate, aceste masuratori sunt facute cu anumite erori, fapt care ne
indreptateste sa consideram variabilele aleatoare Z(x1 ), Z(x2 ), . . . , Z(xn ). In mod generic, prin
Z(xi ) intelegem variabila Z in locatia xi , iar z(xi ) este o valoare observata a sa. Pentru fiecare
locatie x din campul R, variabila Z(x) este o variabila aleatoare care are o anumita repartitie care
poate sa difere in functie de locatie.
Sirul de variabile aleatoare {Z(x); x ∈ R} se numeste proces stochastic sau câmp aleator sau
functie aleatoare.
Acesta este un sir infinit, deoarece exista o infinitate

de locatii x intr-o regiune. O realizare a functiei
aleatoare (sau variabila regionalizata) este formata
din multimea valorilor obtinute in urma unei masurari
a fiecarei variabile in parte. Este cunoscut faptul ca
valorile observate in locatii apropiate sunt apropiate
iar cele observate in locatii indepartate sunt diferite,
aceasta insemnand ca aceste variabile Z(xi ) sunt
corelate intre ele. Acest aspect nu este comun
Statisticii clasice, unde variabilele ce corespund
selectiei sunt independente intre ele si, mai mult,
identic repartizate. In Figura 8.1 am reprezentat 5
realizari ale unui proces stochastic. Figure 8.1: 5 realizari ale unei functii
aleatoare
Un camp aleator este cunoscut in totalitate daca pentru orice configuratie de locatii, z(x1 ), z(x2 ), . . .,
z(xn ), s-ar cunoaste repartitia variabilei vectoriale n−dimentionale V (x) = (Z(x1 ), Z(x2 ), . . . , Z(xn )),
lucru care este practic imposibil. In unele cazuri se poate presupune ca repartitia vectorului V (x)
94 Chapter 8. Procese stochastice spaţiale
este normala n−dimensionala, caz in care cunoastem mediile, dispersiile si corelatiile dintre
componentele vectorului. Insa, din nou, acest caz este doar un un caz particular. In cazul general
este greu de prezis repartitia exacta a acestui vector, dar putem face anumite presupuneri legate de
momentele variabilelor ce-l compun.
Presupunem ca variabila de interes, Z, admite valoare medie in orice locatie x. Pentru a descrie re-
latia intre doua variabile Z(xi ) si Z(x j ) (unde locatiile xi si x j sunt diferite), vom utiliza conceptele
de covarianta si corelatie. Reamintim aceste doua concepte in cazul variabilelor spatiale.
Pentru doua locatii x1 si x2 din R, definim covarianţa variabilelor Z(x1 ) şi Z(x2 ), notată prin
cov(x1 , x2 ), cantitatea
cov(Z(x1 ), Z(x2 )) = E[(Z(x1 ) − µ(x1 ))(Z(x2 ) − µ(x2 )], (8.0.1)
unde µ(x1 ) si µ(x2 ) sunt mediile variabilelor in locatiile x1 , respectiv, x2 .

Covarianta detectează doar dependenţe liniare între două variabile aleatoare. Daca cele doua
locatii coincid (scriem ca x1 = x2 = x), atunci obtinem varianta a priori a procesului:
cov(Z(x), Z(x)) = E[(Z(x) − µ)(Z(x) − µ)] = E[(Z(x) − µ)2 ] = σZ(x)

2
.
O măsură (adimensionala) a corelaţiei dintre două variabile este coeficientul de corelaţie (sau
corelatia, in unele carti). Acesta este utilizat ca fiind o măsură a dependenţei liniare între două
variabile. Se numeşte corelaţie a variabilelor Z(x1 ) şi Z(x2 ) cantitatea
cov(Z(x1 ), Z(x2 ))
ρ= ,
σ1 σ2
unde σ1 si σ2 sunt deviatiile standard pentru Z(x1 ), respectiv, Z(x2 ).

Un estimator pentru covarianta variabilelor Z(x1 ) şi Z(x2 ), bazat pe un set de n observatii perechi,
{(z1,1 , z2,1 ), (z1,2 , z2,2 ), . . . , (z1,n , z2,n )}, este:
1 n
c 1 , x2 ) =
cov(x ∑ [(z1,i − z1)(z2,i − z2)],
n i=1
unde z1 si z2 sunt mediile pentru fiecare selectie in parte..

Dupa cum se observa din relatia (8.0.1), pentru a evalua covarianta variabilelor Z(x1 ) şi Z(x2 )
avem nevoie de mediile acestor variabile. Din pacate, aceste valori nu sunt cunoscute. Pentru a
simplifica formula, trebuie sa facem presupuneri suplimentare. Una dintre acestea este legata de
invarianta mediei µ(x) de locatia x, pe care o tratam in cele ce urmeaza.
8.1 Procese stochastice stationare

Stationaritatea este o presupunere fundamentala in Geostatistica. Un proces stochastic (functie
aleatoare) {Z(x); x ∈ R} se numeste proces stationar daca repartitia variabilei Z(x) nu depinde
de locatia x. Cu alte cuvinte, daca pentru orice configuratie de locatii, x1 , x2 , . . ., xn , repartitia
variabilei vectoriale n−dimentionale V (x) = (Z(x1 ), Z(x2 ), . . . , Z(xn )) este independenta de lo-
catii. Aceasta inseamna ca pentru orice locatie x, variabila Z(x) urmeaza aceeasi repartitie. O
consecinta a acestui fapt este ca media µ(x), dispersia σ 2 (x), dar si momentele de ordin superior
8.2 Functia de covarianţă 95
(daca ele exista!) sunt independente de locatie. Scriem asta astfel: µ(x) = µ, σ 2 (x) = σ 2 , pentru
orice locatie x. Daca procesul aleator Z(x) este stationar, atunci putem scrie ca
Z(x) = µ + ε(x),
unde ε(x) sunt erori normal repartizate, ε(x) ∼ N (µ, σ ), pentru orice x din regiune.
Totusi, stationaritatea procesului este o ipoteza prea restrictiva in Geostatistica, deoarece in
general repartitia variabilei Z depinde de locatie. Pentru a indeparta acest inconvenient, vom
face o presupunere mai putin restrictiva (mai slaba), si anume ca procesul aleator sa admita doar
momente de ordinul 1 si 2 independente de locatie.
Suntem in cazul in care procesul stationar admite momente de ordinul intai si doi (adica, medie,
dispersie, covarianta). Un proces stochastic (functie aleatoare) {Z(x); x ∈ R} se numeste proces
slab stationar sau stationar de ordinul doi daca media procesului, varianta si covariantele nu
variaza cu locatia, iar covariantele depind doar de distanta dintre valori (lag) si nu de valorile in
sine. Valoarea lag este un vector care reprezinta distanta si directia dintre doua locatii. Matematic,
scriem astfel:
µ(x) = µ, σ 2 (x) = σ 2 , cov(Z(xi ), Z(x j )) = C (xi − x j ), pentru orice locatie x ∈ R,
unde C (xi − x j ) este o functie ce depinde doar de xi − x j si pe care o vom preciza la momentul
potrivit. Aceasta functie ne va spune cum sunt corelate valorile din doua locatii ale variabilei Z.
8.1.1 Ergodicitate
Dupa cum am vazut mai sus, un set de date statistice este doar un set de masuratori pe care le-am
observat dintr-o infinitate de posibile realizari ale unei functii aleatoare. Pentru a avea o idee cat
mai fidela despre functia aleatoare, ar fi necesar sa avem foarte multe astfel de realizari (variabile
regionalizate). In practica poate fi imposibil de obtinut, asa ca va trebui sa ne multumim doar cu o
singura variabila regionalizata.
Un proces stochastic se numeste proces ergodic daca proprietatile sale statistice (e.g., media,
varianta, momente) pot fi deduse dintr-o singura realizare (variabile regionalizate), de volum
suficient de mare. In Geostatistica, ergodicitatea este doar o presupunere si, in general, nu poate fi
testata.
8.2 Functia de covarianţă

Un rezultat important ar fi sa descriem covarianta dintre variabilele Z(x1 ) şi Z(x2 ) macar intr-un
caz restrictiv, dar nu foarte simplist. Sa presupunem ca functia aleatoare Z(x) este stationara
de ordinul al doilea si, pentru doua locatii x1 si x j din R, sa notam variabila lag cu h = xi − x j .
Deoarece functia aleatoare este slab stationara, covariantele vor depinde doar de lag si nu de
pozitii. Pentru o locatie x generica, vom scrie ca:
cov(Z(x), Z(x + h)) = E[(Z(x) − µ) · (Z(x + h) − µ)]
= C (h).
Functia C (h) se va numi functia de covarianta. De multe ori, i se atribuie denumirea de functie
de autocovarianta, deoarece in calcularea covariantei apare aceeasi variabila, desi in diverse
locatii. Aceasta functie descrie legatura dintre valorile variabilei Z atunci cand se schimba locatia.
Unitatea de masura a functiei de covarianta este unitatea de masura pentru variabila Z. Pentru un
proces stationar, functia de covarianta define
C (h) = E[(µ + ε(x) − µ) · (µ + ε(x + h) − µ)] = E[ε(x) · ε(x + h))].
Pentru a adimensionaliza relatia dintre valorile variabilei Z in diferite locatii, se foloseste valoarea
urmatoare:
C (h) C (h)
ρ(h) = = ,
C (0) σ2
unde prin C (0) am notat covarianta pentru valoarea de lag h = 0. Functia ρ(h) se numeste functie
de corelatie sau corelograma.
8.3 Variograma
O alta notiune fundamentala in Geostatistica este variograma. Aceasta va reprezenta variabilitatea
(continuitatea) variabilei spatiale in functie de variabila lag h. Este posibil ca doua variabile, sa le
numim Z1 si Z2 , sa aiba parametrii teoretici foarte apropiati sau chiar identici (vezi Tabelul 8.1
pentru aproximarile parametrilor respectivi si Figura 8.2 pentru o reprezentare cu histograme a
datelor observate), si totusi repartitiile lor sa arate complet diferit. Dupa cum se poate observa din
Figura 8.3, repartitiile celor doua variabile sunt complet diferite. Se poate observa ca reprezentarea
variabilei Z2 este mai "grosiera" decat cea reprezentata de variabila Z1 . Variabila Z1 se modifica
mai rapid in spatiu, pe cand, pentru a doua variabila, exista regiuni mai vaste in care valorile
variabilei par a fi neschimbate. Totodata, nu putem spune ca Z2 are o variatie mai mare decat Z1 ,
deoarece varianţele sunt egale. Mai mult, deoarece mediile sunt egale, atunci si coeficientii de
variatie sunt egali.
valori numerice variabila Z1 variabila Z2
media x 101 101
mediana Me 100.73 100.80
varianţa s2 400 400
prima cuartila q1 87.3 87.93
a treia cuartila q3 116.3 116.78
volumul n 15625 15625
Table 8.1: Valori numerice pentru doua

variabile spatiale
8.3 Variograma 97
Figure 8.2: Reprezentarile cu histograme pentru cele doua variabile
Figure 8.3: Reprezentarile 2D pentru variabilele Z1 si Z2
In acest caz, valorile numerice asociate celor doua seturi de date nu pot identifica variabilitatea
celor doua caracteristici. Daca am fi luat o decizie doar bazandu-ne pe valorile din Tabelul 8.1,
am fi cochis ca Z1 si Z2 au aceeasi repartitie, concluzie care este evident falsa.
Pentru a putea descrie (explica) aceasta variabilitate, este nevoie reprezentarile variogramelor
asociate celor doua variabile. In Figura 8.4, se observa ca variogramele asociate celor doua
variabile difera.
Figure 8.4: Reprezentarile variogramelor empirice si teoretice pentru variabilele Z1 si Z2
Vom discuta aici despre 3 tipuri de variograme: variograma teoretica, variograma regionala si
variograma empirica. Variograma teoretica este variograma bazata pe toate realizarile posibile ale
unei variabile spatiale. Cum o variabila spatiala are, in general, o infinitate de realizari, aceasta
variograma este imposibil de obtinut in practica. Variograma empirica este cea construita pe
baza masuratorilor observate. Este o estimare a variogramei teoretice. Plecand de la variograma
empirica, vom face inferente referitoare la variograma teoretica. Variograma regionala este
variograma formata cu o anumita realizare a procesului stochastic intr-o regiune finita, daca am
avea acces la toate informatiile legate de acea regiune. Variograma teoretica este o medie a tuturor
variabilelor regionale legate de procesul stochastic studiat.
Daca procesul stochastic Z(x) nu este stationar, atunci E(Z(x)) = µ(x) depinde de locatie si
Var(Z(x)) poate creste fara limita in cazul in care regiunea este mare. Georges Matheron a cautat
sa rezolve aceasta problema prin considerarea unor ipoteze simplificatoare. Cel putin pentru valori
mici ale valorii lag |h|, media variatiei procesului stochastic intre doua locatii x si x + h este 0,
iar dispersia acestei variatii este dependenta doar de h, independenta de locatie. Cu alte cuvinte,
procesul stochastic se comporta ca un proces stationar de ordinul al doilea. Matematic, vom scrie
astfel:
E[Z(x + h) − Z(x)] = 0; (8.3.2)
si
E[(Z(x + h) − Z(x))2 ] = 2γ(h), (8.3.3)
unde γ(h) este o functie ce depinde doar de h. Aceasta functie se numeste variograma. Prin
definitie, formula pentru variograma este:
1
γ(h) = Var[Z(x + h) − Z(x)]. (8.3.4)
2
Deoarece E[Z(x + h) − Z(x)] = 0 si
Var[Z(x + h) − Z(x)] = E[(Z(x + h) − Z(x))2 ] − (E[Z(x + h) − Z(x)])2 ,
gasim va variograma poate fi exprimata si astfel:

1
γ(h) = E[(Z(x + h) − Z(x))2 ]. (8.3.5)
2
Daca variabila Z(x) este 1-dimensionala (x = x, h = h), atunci formula din definitie se scrie astfel:
1
γ(h) = Var[Z(x + h) − Z(x)]. (8.3.6)
2
Daca variabila Z(x) este 2-dimensionala (x = (x1 , x2 ), h = (h1 , h2 )), atunci formula din definitie
se scrie astfel:
1
γ(h) = Var[Z(x1 + h1 , x2 + h2 ) − Z(x1 , x2 )]. (8.3.7)
2
Daca variabila Z(x) este 3-dimensionala (x = (x1 , x2 , x3 ), h = (h1 , h2 , h3 )), atunci formula din
definitie se scrie astfel:
1
γ(h) = Var[Z(x1 + h1 , x2 + h2 , x3 + h3 ) − Z(x1 , x2 , x3 )]. (8.3.8)
2
Datorita termenului 1/2 din fata, se mai foloseste si termenul (in unele carti) de semivariograma.
Legatura sa cu functia de covarianta este urmatoarea:
γ(h) = C(0) − C(h). (8.3.9)
Legatura variogramei cu corelatia (sau it corelograma) este data de:
γ(h) = σ 2 [1 − ρ(h)]. (8.3.10)
In Geostatistica, o variograma poate fi caracterizata de urmatorii parametri:

1. sill, care este valoarea asimptotica a variogramei, adica valoarea dupa care nu mai exista
crestere. Este egala cu C(0). Matematic, scriem ca C(0) = lim γ(h). In cuvinte, pentru
h→∞
doua locatii foarte indepartate, covarianta este aproape 0.
2. range, sau prima valoare (daca exista!) pentru lag (h) pentru care variograma atinge valoarea
sill. Aceasta valoare reprezinta, de fapt, distanta dupa care valorile variabilei spatiale nu
mai sunt autocorelate. Asadar, valorile variabilei sunt autocorelate doar pentru un lag h
mai mic decat valoarea range. Zona ce contine locatia x si pentru care valorile lui Z sunt
corelate cu Z(x) se numeste zona de influenta a locatiei x.
3. nugget (sau efectul nugget), ce reprezintă valoarea variogramei pentru h foarte apropiat de
zero, dar nu 0. Aceasta valoare reprezinta eroarea de masurare a variatiei spatiale. Valoarea
nugget poate aparea atunci cand nu exista masuratori culese din locatii foarte apropiate,
care ar putea dovedi continuitatea in h = 0. In cazul in care lim γ(h) = 0, atunci variograma
h&0
va pleca din origine.
Figure 8.5: Variograma si covarianta
Variograma este o unealta importanta in studiul corelatiei datelor spatiale, de aceea este impor-
tanta aproximarea acesteia. Dupa cum vom vedea, exista diverse modele de aproximare pentru
variograma teoretica definita prin formula (8.3.4).
8.4 Modelarea variogramei teoretice

8.4.1 Proprietati ale functiilor de corelatie spatiale
Prezentam mai jos proprietati ale covariantei, corelogramei, sau variogramei:
• γ(0) = 0.
• Cand h creste suficient de mult, γ(h) tinde sa devina constant. Aceasta insemna lipsa de
corelatie intre valorile variabilei din locatii indepartate.
• Variograma γ(h) poate sa nu fie continua doar in h = 0 (origine). In acest caz, saltul
discontinuitatii se numeste efect nugget. Efectul nugget este r = C(0) = Var[Z(x)] = σ 2 > 0.
• C(h) = C(−h) si γ(h) = γ(−h) pentru orice lag h, adica functia de corelatie si variograma
sunt functii pare.
• Corelograma are intotdeauna valori intre 0 si 1. Pentru h = 0, gasim ca ρ(0) = C(0)C(0) = 1.
• Functiile C(h) si γ(h) sunt functii continue de h, mai putin, eventual, in origine.
• Matricea de covarianta
 
C(x1 , x1 ) C(x1 , x2 ) · · · C(x1 , xn )
C(x2 , x1 ) C(x2 , x2 ) · · · C(x2 , xn )
 
 .. .. 
 . . ... ··· 
C(xn , x1 ) C(xn , x2 ) · · · C(xn , xn )
este pozitiv definita, in sensul ca toti determinantii minorilor principali sunt nenegativi.
Astfel, variograma este negativ semidefinita.
• Este posibil ca variatia spatiala sa se modifice in functie de directia dintre locatiile x si
x + h, fenomen numit anizotropie. Un exemplu de anizotropie
q este mineralizarea. Daca
x = (x1 , x2 , x3 ) (regiune 3−dimensionala), atunci h = h21 + h22 + h23 si γ(h) va reprezenta
o familie de variograme γ(|h|, α), unde α este directia.
• Ca functie de variabila lag h, variograma creste mai incet decat creste h2 . Daca ar creste
mai rapid decat aceasta functie, aceasta ar indica prezenta unui trend in campul aleator.
Figure 8.6: Diverse tipuri de variograma: (a) nemarginita (procesul nu este slab stationar); (b)
constanta (nu exista corelatii spatiale), (c) fara efect nugget, (d) fluctuanta.
8.4.2 Comportamentul variogramei in jurul originii

Cand variabila lag h se apropie de 0, forma variogramei poate fi una dintre cele reprezentate in
Figura 8.7. Putem avea un comportament liniar care trece prin 0. In acest caz, pentru h suficient
de mic, variograma are forma γ(h) = a|h|. Este posibil ca variograma sa aiba o forma aproximativ
liniara cand h este suficient de mic, insa sa nu treaca prin 0. Este cazul figurii (b), in care se
observa efectul nugget. In cazul (c), variograma are o forma parabolica pentru h suficient de mic,
de forma γ(h) = a|h|2 . In figura (c), variograma trece prin 0, dar exista cazuri in care se poate
observa un efect nugget si pentru forma parabolica. O variograma cu un comportament parabolic
in jurul originii sugereaza existenta unui trend in variabila spatiala Z(x).
Figure 8.7: Diverse tipuri de comportament in jurul originii unei variograme:

(a) liniar; (b) efect nugget; (c) parabolic.
8.4.3 Modele de variograma

Nu orice functie care se apropie suficient de mult de variograma empirica poate fi o variograma
teoretica. O variograma teoretica va trebui sa satisfaca anumite conditii, dupa cum urmeaza:
• functia ia doar valori pozitive (mai putin, eventual, in cazul h = 0);
• functia trebuie sa fie crescatoare in h;
• pentru h suficient de mare, functia atinge un maximum (sill);
• uneori, aceasta functie nu porneste din 0, caz in care valoarea γ(0) se numeste efect nugget;
• exista cazuri in care functia fluctueaza periodic (apar zone numite holes);
Modelele de variograma prezentate mai jos sunt modele izotropice, astfel ca functiile depind doar
de h = |h|. Putem construi modele marginite sau nemarginite. Un exemplu de model nemarginit
este urmatorul:
γ(h) = u hα , cu 0 < α < 2,
si u este un numar real ce reprezinta intensitatea variatiei. Constanta α reprezinta curbura. Pentru
α = 1 avem o variograma liniara; pentru 0 < α < 1 avem o variograma concava si pentru α > 1
avem o variograma convexa.
Exista o clasa de modele de variograma teoretica care garanteaza existenta unei solutii unice.
Acestea se numesc modele valide de variograma si sunt urmatoarele:
• modelul exponential, pentru care
h
 
−
γ(h) = c 1 − e ar  , daca h > 0.
• modelul sferic, pentru care

 " 3 #
c 3h − 1 h

, daca 0 < h ≤ r;
γ(h) = 2r 2 r

c , daca h > r.

• modelul Gaussian, pentru care

 2 
1 h
−
 a r 
1 − e
γ(h) = c   , daca h > 0.

Aici, am notat c = s − n, s = sill, n = nugget si a este o constanta folosita cu diferite valori in

carti. O valoare des folosita este a = 1/3.
Figure 8.8: Modele valide de variograma

Alte modele de variograma:
• modelul liniar marginit, folosit doar pentru variatii intr-o singura dimensiune. Variograma
corespunzatoare este: 
c h , daca 0 < h ≤ r;
γ(h) = r
c , daca h > r.

• modelul circular, pentru care

 " r #
2

c 1 − 2 arccos h + 2h 1 − h

, daca 0 < h ≤ r;
γ(h) = π r πr r2

c , daca h > r.

• modelul pentasferic, pentru care

 " 3 5 #
15 h 5 h 3 h
− , daca 0 < h ≤ r;

c +
γ(h) = 8 r 4 r 8 r

c , daca h > r.

• modelul cubic, pentru care

 " 2 3 5 7 #
c 7 h − 35 h + 7 h − 3 h

, daca 0 < h ≤ r;
γ(h) = r 4 r 2 r 4 r

c , daca h > r.

• modele compuse;
Acestea pot fi compuse din doua sau mai multe modele de mai sus. Sunt folosite mai ales cand
avem multe date si variogramele par a fi mai complexe. Sunt folosite in special atunci cand
variograma prezinta efect nugget. Exemple: modelul exponential cu nugget, modelul dublu sferic,
modelul dublu exponential etc.
Pentru modelul exponential cu nugget, variograma (cea desenata cu albastru in primul grafic
alaturat) este:
h
 
−
γ(h) = c0 + c 1 − e ar  , daca h > 0.
Pentru modelul dublu sferic cu nugget (format din compunerea a doua modele sferice plus un
model nugget) desenat in al doilea grafic, variograma (cea desenata cu albastru) este:
" # " #
3h 1 h 3 3h 1 h 3

− − , 0 < h ≤ r1 ;


c0 + c1 + c2



 2r1 2 r1 2r2 2 r2
" #
γ(h) = 3h 1 h 3
c0 + c1 − , r1 < h ≤ r2 ;



 2r1 2 r1

c1 + c2 , h > r2 .

Figure 8.9: Modele compuse
• modelul pure nugget, pentru care

(
0 , daca h = 0;
γ(h) =
c , daca h > 0.
Este modelul desenat in Figura 8.6 (b).

• modele cu functii oscilante (vezi Figura 8.6 (d)), e.g.:

sin h
γ(h) = c 1 − .
h
8.4.4 Estimator pentru variograma
In practica, un geostatistician are la indemana un set de date spatiale (masuratori), pe baza carora
doreste sa creeze o harta a regiunii de unde au fost facute aceste masuratori, care sa indice variatia
variabilei de interes. Determinarea variogramei este unul dintre lucrurile importante pe care
trebuie sa le intreprinda pentru a-si atinge scopul. Folosind aceste masuratori, el poate estima
variograma procedand astfel.
Presupunem ca valorile masurate (x1 , x2 , . . . xn ):
z1 = z(x1 ), z2 = z(x2 ), . . . , zn = z(xn ).
n(n−1)
orice pereche de locatii (xi , x j ) (exista 2 astfel de perechi), se calculeaza (semi)varianţele:
1
γ(xi , x j ) = [zi − z j ]2 .
2
Reprezentarea grafica a acestora in functie de lag se numeste norul variogramei.

Deoarece este dificil (daca nu imposibil) de examinat variatia spatiala din aceasta reprezentare,
se va face o medie a tuturor variantelor pentru fiecare valoare de lag h, obtinandu-se variograma
empirica.
Figure 8.10: Semivarianţele in functie de lag (norul variogramei)
Pentru a ne face o idee despre cum sunt corelate datele pentru diferite nivele de lag, se pot construi
asa-numitele h−scattergrame. Acestea sunt reprezentari grafice ale valorilor z(x + h) versus z(x)
(vezi Figura 8.11).
Figure 8.11: Exemple de h−scattergrame
Pentru un nivel de lag h, calculam

1
γb(h) = ∑ [zi − z j ]2,
2|N(h)| (i, j)∈N(h)
(8.4.11)
unde N(h) reprezinta multimea tuturor perechilor de observatii i, j care satisfac conditia de lag,
|xi − x j | = h si |N(h)| este numarul acestor perechi. In general, valoarea lui h este admisa cu o
anumita toleranta.
Pentru fiecare nivel de lag h, valorile γb(h) le scriem in ordine crescatoare, obtinand astfel vari-
ograma empirica (sau variograma experimentala). Formula (8.4.11) este cunoscuta sub numele
de estimator obtinut prin metoda momentelor si a fost introdus de (G. Matheron).
Variograma empirica este un estimator nedeplasat pentru variograma teoretica γ(h). Daca Z(x) este
ergodic, atunci γb(h) → γ(h) cand n → ∞. Un analist nu poate trage concluzii despre variabilitatea
spatiala doar bazandu-se pe variograma experimentala, deoarece variograma experimentala nu
poate prezice valorile variatiei spatiale in locatiile nemasurate a priori. Aceste valori pot fi prezise
doar dupa ce o variograma teoretica este potrivita; pe baza acesteia se utilizeaza metode de kriging
pentru predictie.
8.4.5 Pasi in estimarea variogramei

Constructia unei variograme presupune urmatorii pasi:
• Determinam pasul lag, h. Un pas h este practic daca pentru aceasta valoare avem cel putin
30 de perechi (xi , x j ) care sa se situeze la aceasta distanta. Este de dorit ca h sa fie mai mic
decat jumatate din range-ul datelor observate.
• Stabilirea unei tolerante pentru determinarea lui h. Aceasta valoare va preciza acuratetea cu
care o anumita distanta este aproximata cu h. Cu alte cuvinte, toleranta determina latimea
clasei h stabilite.
• Stabilirea numarului de pasi h pentru care vom calcula variograma experimentala;
• Stabilirea unui unghi si determinarea unei tolerante pentru unghi;
Figure 8.12: Construirea variogramei experimentale
• Pentru un h fixat si pentru fiecare pereche de noduri (x, x + h) ale retelei de locatii, calculam
valoarea
1
γb(h) = ∑ [Z(x) − Z(x + h)]2 ,
2|N(h)| (x, x+h)
• Pentru toate valorile lui h, sa spunem ca acestea sunt h1 , h2 , . . . , hm , vom obtine valorile
corespunzatoare γb(h1 ), γb(h2 ), . . . , γb(hm ).
• Reprezentam valorile (hi , γb(hi )) intr-un grafic si obtinem astfel variograma experimentala
(empirica).
• Daca se observa anizotropie, se va repeta procedura pentru un alt unghi, construindu-se
astfel o noua variograma.
Figure 8.13: Variograma experimentala (puncte albastre) si cea teoretica (cu linie rosie)
Exemplu: Variograma pentru o singura dimensiune spatiala
Intr-o singura dimensiune, toate locatiile de unde se fac masuratori sunt situate pe o dreapta.
Presupunem ca locatiile masuratorilor, x1 , x2 , . . . , xn , sunt cele din Figura 8.14 (a). Cerculetele
goale reprezinta lipsa de masuratori din respectivele locatii. Figurile 8.14 (b), (c) si (d) arata cum
se formeaza perechile pentru valorile de lag 1, 2, respectiv 3. In cazul 1 dimensional, formula
8.4.11 devine:
n−h
1
γb(h) = ∑ [zi − zi+h]2.
2(n − h) i=1
(8.4.12)
Pentru h = 1, calculam valoarea γb(1) pentru toate perechile care se afla la o distanta de o lungime,
folosind formula 8.4.12. Similar, pentru h = 2, 3, . . . , n, calculam valoarile γb(2), γb(3), . . . , γb(n),
pentru toate perechile care se afla la o distanta de, respectiv, 2 lungimi, 3 lungimi, etc., n lungimi.
Reprezentam grafic valorile γb(1), γb(2), . . . , γb(n) intr-un grafic, obtinand astfel variograma experi-
mentala 1-dimesionala.
Figure 8.14: Variograma experimentala 1−dimensionala (cerculetele goale sunt locatii neselectate)
8.4.6 Sfaturi practice pentru construirea unei variograme

• Priviti in ansamblu datele observate. Pot aparea unele erori de masurare, virgule omise, alte
tipuri de date etc;
• Observati orice tip de clustere in date. In caz ca sunt prezente, trebuie indepartate;
• In cazul in care datele par a nu fi observatii normale, o transformare a lor ar fi necesara (e.g.,
logaritmare);
• Variograma ar trebui determinata in cel putin 3 directii diferite;
• Detectati daca este prezent vreun trend in varianta experimentala. Daca este posibil,
determinati variograma fara trend;
• Verificati prezenta izotropiei.
8.4.7 Indicatorul Akaike

Tendinta unui analist este de a crea modele statistice cat mai apropiate de datele observate. Pentru
a realiza acest deziderat, se poate folosi, spre exemplu, metoda celor mai mici patrate. Daca
modelul este prea simplist (modelul contine putini parametri necunoscuti), rezultatul poate fi unul
nesatisfacator. De aceea, de multe ori in practica suntem tentati sa introducem noi parametri in
model, imbunatatind considerabil apropierea datelor de modelul teoretic. Insa, odata cu cresterea
numarului de parametri, apare problema urmatoare: modelul astfel obtinut va avea performante
foarte slabe in a face predictii. Un model prea complex va ”memora” valorile caracteristicii in
locatiile observate pentru a le reproduce cu precizie, insa nu va avea capabilitati de a prezice valori
pentru date neobservate, nefiind ”antrenat” sa o faca. Daca modelul ar fi fost mai putin complex,
s-ar fi folosit de valorile observate pentru a prezice eventuale valori pentru variabila cercetata.
Indicatorul Akaike realizeaza un compromis intre complexitatea unui model (care, de obicei, este
reprezentata de numarul de parametri; mai multi parametri implica un model mai complex) si cea
mai buna potrivire a modelului (determinata de metoda celor mai mici patrate). Acest indicator se
defineste astfel:
AIK = 2p − 2 ln L, (8.4.13)
unde p este numarul de parametri din model si L este functia de verosimilitate a modelului. Pentru
un model statistic, o functie de verosimilitate (in engleza, likelihood) este o functie de parametrii
modelului, care este egala cu probabilitatea de a observa datele masurate pentru parametrii dati.
Un estimator pentru indicele teoretic AIK este urmatorul:

2π
AIK = 2p + 2 ln(MSE) + n ln +n+2 , (8.4.14)
n
unde n este numarul de puncte de pe variograma si MSE este media patratelor erorilor de aproxi-
mare (mean squared error).
8.4.8 Metode de estimare a variogramei teoretice

Pentru a stabili un model teoretic de variograma care se potriveste cel mai bine datelor masurate,
este nevoie de a estima parametrii modelului teoretic. Spre exemplu, daca dorim sa determinam o
variograma teoretica exponentiala, atunci avem de estimat 2 parametri, si anume: c (lungimea de
variatie) si r (range). In cazul in care modelul include si o valoare nugget, atunci mai avem, in
plus, un parametru de determinat, si anume c0 . Exista doua metode uzuale folosite in estimarea
acestor parametri: metoda celor mai mici patrate si metoda cu ponderi a celor mai mici patrate.
In cazul metodei celor mai mici patrate, se cauta sa se minimizeze suma patratelor erorilor dintre
valorile estimate pentru variograma si cele masurate a priori. Matematic, problema se scrie astfel:
determinati acea valoare pentru vectorul de parametri, θb, care este solutia problemei de optim:
min ∑{[γ(hi , θ ) − γb(hi )]2 }.

θ i
Pentru metoda cu ponderi a celor mai mici patrate, se determina acea valoare pentru vectorul de
parametri, θb care este solutia problemei de optim:
{[γ(hi , θ ) − γb(hi )]2 }

min ∑ ,
θ i Var(γb(hi ))
unde
2
Var(γb(h)) ≈ (γ(h, θ ))2 .
|N(h)|
Astfel, ponderile sunt
1 |N(hi )|
wi = ≈ .
Var(γb(hi )) 2(γ(hi , θ ))2
8.4.9 Anizotropia
In multe cazuri, variograma empirica difera in functie de directia spatiala, fapt ce se numeste
anizotropie (geometrica). Cu alte cuvinte, anizotropia este variatia variogramei cu directia spatiala
a observate. In caz de anizotropie, se pot observa diferite pante ale variogramei in diferite directii
spatiale. In multe cazuri insa este posibil de a modela anizotropia printr-o transformare liniara de
coordonate carteziene.
Figure 8.15: Directii spatiale diferite

Figure 8.16: Variograme pentru directii diferite
9. Kriging
9.1 Introducere
Dupa cum am discutat anterior, un teren pentru care un geostatistician doreste sa studieze pro-
prietatile unor anumite variabile are o infinitate de locatii. Masuratorile pe care acestea le poate
efectua sunt in numar finit. De fapt, din consideratii practice si economice, el va considera doar
cateva locatii unde va efectua masuratori. In restul de locatii, el va dori sa faca predictii pe baza
datelor deja culese. O metoda de baza in Geostatistica folosita in predictia valorilor in locatiile
neselectate pentru masurare se numeste kriging. Kriging este o forma (generalizata) de regresie
liniara prin care se determina un estimator (predictor) spatial. In contrast cu regresia liniara
multipla, metoda de kriging tine cont de volumul observatiilor si de corelatiile dintre aceste valori.
Metoda functioneaza cel mai bine intr-un domeniu convex (un domeniu in care, odata cu doua
puncte, va contine si segmentul ce le uneste). In mod uzual, rezultatele unei interpolari de tip
kriging sunt: valoarea asteptata (media de kriging) si dispersia (varianta de kriging), estimate in
punctul dorit din regiune. Numele de kriging deriva de la numele inginerului minier Danie Krige,
nume atribuit de G. Mangeron. Exista atat metode liniare, cat si neliniare de interpolare spatiala de
gen kriging. Fiecare dintre aceste metode face presupuneri diferite relativ la fluctuatiile variabilei.
Dintre aceste metode, amintim urmatoarele: kriging ordinar, kriging simplu, kriging lognormal,
kriging cu drift, kriging factorial, cokriging, kriging indicator, kriging disjunctiv, kriging bayesian
etc. Metoda generala de kriging este urmatoarea.
Presupunem ca dorim sa prezicem valorile caracteristicii Z(x) intr-o regiune R. Aceasta regiune
poate fi 1−, 2− sau 3− dimensionala. Se efectuaza observatii asupra acestei variabile in locatiile
x1 , x2 , . . . , xn ale regiunii R. Pe baza acestor masuratori, dorim sa prezicem valorile lui Z in
celelalte locatii din regiune. O formula generala a unui estimator pentru valoarea variabilei Z
intr-o locatie generica din R, sa zicem x0 , este:
n
b 0 ) = ∑ λi Z(xi ),
Z(x (9.1.1)
i=1
unde λi sunt ponderile ce trebuie determinate.

112 Chapter 9. Kriging
9.2 Kriging simplu

Este cea mai restrictiva metoda kriging. In cazul unei metode de interpolare geostatistica de tip
kriging simplu se fac urmatoarele presupuneri relativ la variabila Z:
• valorile observate formeaza o realizare partiala a procesului aleator generat de Z(x).
• variabila Z(x) se considera a fi stationara de ordinul al doilea (slab stationara), i.e.,
E(Z(x)) = µ si cov(Z(x), Z(x + h)) = C (h), pentru orice locatie x din R.
• valoarea constanta µ si covarianta C (h) sunt presupuse a fi cunoscute a priori.
Predictiile metodei kriging simplu sunt

bazate pe urmatorul model de camp
aleator:
Z(x) = µ + ε(x), (9.2.2)
unde µ este o constanta cunoscuta si ε(x)

este partea aleatoare a variabilei, reprezen-
tand eroarea de aproximare a variabilei cu
valoarea µ. Aceasta eroare este presupusa
a fi normala, de medie 0.
Figure 9.1: Variabila Z(x) pentru kriging simplu
In cazul unui kriging simplu, se prezice valoarea variabilei Z in locatia necunoscuta x0 folosind
relatia:
n
ZbSK (x0 ) = µ + ∑ λi (Z(xi ) − µ) , (9.2.3)
i=1
unde λi sunt ponderile asociate erorilor masuratorilor obtinute in locatiile selectate. Putem rescrie
relatia precedenta sub forma echivalenta:
!
n n
ZbSK (x0 ) = ∑ λi Z(xi ) + 1 − ∑ λi µ.
i=1 i=1
Pentru simplitate, putem presupune ca media cunoscuta este µ = 0. In caz ca aceasta este diferita
de zero, efectuam calculele pentru µ = 0, obtinem valoarea prezisa, dupa care adaugam µ la final.
Obtinem ca
n
ZbSK (x0 ) = ∑ λi Z(xi ). (9.2.4)
i=1
Vom determina ponderile λi astfel incat sa minimizeze varianta estimatorului ZbSK . Aceasta este:
" #
n
Var[ZbSK (x0 )] = Var Z(x0 ) − ∑ λi Z(xi )
i=1
n n n
= Var[Z(x0 )] − 2 ∑ λ j cov(Z(x0 ), Z(x j )) + ∑ ∑ λiλ j cov(Z(xi), Z(x j ))
j=1 i=1 j=1
n n n
= C (0) − 2 ∑ λ j cov(Z(x0 ), Z(x j )) + ∑ ∑ λiλ j cov(Z(xi), Z(x j ))
j=1 i=1 j=1
Pentru a determina ponderile λi ce realizeaza minimumul lui Var[ZbSK (x0 )], se cauta punctele
critice in raport cu λi , adica rezolvam sistemul de ecuatii:
∂
Var[ZbSK (x0 )] = 0, pentru orice j = 1, 2, . . . , n.
∂λj
Se va obtine sistemul de ecuatii algebrice (n ecuatii cu n necunoscute):
n
cov(Z(x0 ), Z(x j )) = ∑ λi cov(Z(xi ), Z(x j )), pentru orice j = 1, 2, . . . , n. (9.2.5)
i=1
Cu solutiile λiSK astfel obtinute, se estimeaza valoarea Z0 folosind formula (9.2.4). Dispersia de
kriging va fi data de:
n
2
σSK (x0 ) = C (0) − ∑ λiSK cov(Z(x0 ), Z(xi )).
i=1
Estimarile obtinute prin kriging simplu sunt nedeplasate. De notat faptul ca valorile ponderilor λi
depind doar de locatii si de covariante, dar nu si de datele observate. In cazul metodei kriging
simplu, suma acestor ponderi nu este neaparat egala cu 1.
Dupa ce prezicem prin kriging simplu valorile variabilei Z in toate locatiile regiunii de interes, se
pune problema urmatoare: Ce se intampla cand prezicem valoarea intr-un punct unde avem deja
masuratori?
Când un punct x0 in care prezicem valoarea variabilei se apropie de un punct x0 + h in care am

masurat deja valoarea lui Z, si daca variograma este fara nugget (i.e., este continua), atunci
h→0
C (h) = cov(Z(x0 ), Z(x0 + h)) −→ cov(Z(x0 ), Z(x0 )) = C (0) = 0.
Astfel daca punctul x0 este foarte apropiat de punctul xi (din selectie), putem aproxima cov(Z0 , Zi )
prin cov(Z0 , Z0 ) = C (0). In acest caz, dispersia pentru kriging simplu devine
!
n n
2
σSK (x0 ) = C (0) − ∑ λiSK C (0) = 1 − ∑ λiSK C (0) = 0. (9.2.6)
i=1 i=1
Mai mult,
lim ZbSK (x0 ) = Z(xi ).
x0 →xi
In cazul in care nu exista efect nugget, atunci metoda kriging simplu pastreaza valorile masurate
b i ) = Z(xi ): valorile estimate prin kriging simplu in locatiile stabilite a priori sunt chiar
(i.e., Z(x
cele masurate). Pentru doua locatii apropiate, aceasta metoda va prezice valori apropiate ale
variabilei Z.
Figure 9.2: 5 simulari ale variabilei Z(x) ce pastreaza cinci valori masurate initial
Exerciţiu 9.1 (preluat din [olea]) Pentru o variabila Z s-au observat valorile sale in locatiile
precizate cu buline rosii in Figura 9.3 de mai jos. Pe baza acestor valori, se cere sa se prezica
valoarea variabilei Z in locatia x0 si dispersia pentru aceasta valoare. Se cunosc: µ = 110 si
γ(h) = 2000 (1 − e−h/250 ) pentru h > 0. (model exponential de variograma).
Figure 9.4: Tabel cu date observate
Figure 9.3: Locatii intr-un camp aleator
Rezolvare Distantele di j dintre locatiile masurate, calculate cu formula

q
di j = d(xi , x j ) = (xi1 − x j1 )2 + (xi2 − x j2 )2 ,
sunt
   
d11 d12 d13 d14 0 260.8 264 364
 = 260.8 0 266.3 366.7
d21 d22 d23 d24  
 
d31 d32 d33 d34   264 266.3 0 110.4
d41 d42 d43 d44 364 366.7 110.4 0
Distantele d0i de la x0 la xi sunt:
[d01 , d02 , d03 , d04 ] = [197.2, 219.3, 70.7, 180].

Din formula γ(h) = C (0) − C (h), gasim covariantele. Aici, C (0) = 2000 si
C (x0 , x1 ) = 2000e−d01 /250 = 2000e−197.2/250 = 908.78,
C (x0 , x2 ) = 2000e−d02 /250 = 2000e−219.3/250 = 831.89,
C (x1 , x2 ) = 2000e−d12 /250 = 2000e−260.8/250 = 704.65 etc.

Sistemul de ecuatii (9.2.5) care determina ponderile λi devine:
λ1 C (x1 , x1 ) + λ2 C (x2 , x1 ) + λ3 C (x3 , x1 ) + λ4 C (x4 , x1 ) = C (x0 , x1 );

λ1 C (x1 , x4 ) + λ2 C (x2 , x4 ) + λ3 C (x3 , x4 ) + λ4 C (x4 , x4 ) = C (x0 , x4 ).
Inlocuind valorile covariantelor, obtinem:
2000λ1 + 704.65λ2 + 695.68λ3 + 466.33λ4 = 908.78;

704.65λ1 + 2000λ2 + 689.31λ3 + 461.32λ4 = 831.89;
695.68λ1 + 689.31λ2 + 2000λ3 + 1286.01λ4 = 1507.34;
466.33λ1 + 461.32λ2 + 1286.01λ3 + 2000λ4 = 973.50.
Dupa rezolvarea sistemului, obtinem ponderile:
λ1SK = 0.1847, λ2SK = 0.1285, λ3SK = 0.6460, λ4SK = −0.0013.
Folosind formula (9.2.2), determinam estimarea valorii lui Z in x0 :
zSK (x0 ) = µ + λ1SK (z(x1 ) − µ) + λ2SK (z(x2 ) − µ) + λ3SK (z(x3 ) − µ) + λ4SK (z(x4 ) − µ)
b
= 110 + 0.1847 · (40 − 110) + 0.1285 · (130 − 110) + 0.6460 · (90 − 110) −
−0.0013 · (160 − 110)
= 86.6560.
Dispersia estimatorului in acest punct poate fi calculata cu formula (9.2.6). Obtinem:

n
2
σSK (x0 ) = C (0) − ∑ λiSK cov(Z(x0 ), Z(xi ))
i=1
= 2000 − 0.1847 · 908.78 − 0.1285 · 831.89 − 0.6460 · 1507.34 + 0.0013 · 973.50
= 752.7744.
In cazul in care valoarea µ din formula (9.2.2) nu este cunoscuta, avem doua posibilitati de a
prezice valorile variabilei Z in celelalte valori decat cele masurate:
n
• Estimam valoarea µ pe baza observatiilor prin µ = ∑ zi, apoi folosim metoda kriging
i=1
simplu. Insa, aceasta metoda nu tine cont de variabilitatea valorilor zi in prezicerea lui µ.
• Folosim o alta metoda de kriging, numita kriging ordinar.
9.3 Kriging ordinar

Este cea mai uzuala metoda de kriging (interpolare geospatiala). In cazul unui kriging ordinar,
campul aleator este considerat a fi tot de forma (9.2.2), insa de aceasta data constanta µ este
necunoscuta si va trebui estimata. Valoarea prezisa a lui Z in x0 este
n
ZbOK (x0 ) = ∑ λi Z(xi ), (9.3.7)
i=1
n
unde ponderile λi satisfac constrangerea ∑ λi = 1. Aceasta constrangere asigura nedeplasarea es-
i=1
b 0 ) − Z(x0 )] = 0. Dispersia estimatorului
timatorului ZbOK , in sensul ca valoarea asteptata este E[Z(x
este:
2 h i
Var[ZOK (x0 )] = E ZOK (x0 ) − Z(x0 )
b b = Var ZbOK (x0 ) − Z(x0 )
" #
n
= Var ∑ λiZ(xi) − Z(x0)
i=1
n n n
= Var[Z(x0 )] −2 ∑ λi cov(Z(x0 ), Z(xi )) + ∑ ∑ λi λ j cov(Z(xi ), Z(x j ))
| {z } i=1 i=1 j=1
= C (0)
n n n
= 2 ∑ λi γ(x0 , xi ) − ∑ ∑ λiλ j γ(xi, x j ),
i=1 i=1 j=1
unde γ(xi , x j ) sunt (semi)variatiile intre valorile campului aleator Z observate in locatiile xi si
x j si γ(xi , x j ) sunt (semi)variatiile intre valoarea observata a campului aleator Z in locatia xi si
valoarea lui Z in locatia de estimat x0 .
Scopul este de a determina ponderile λi ce realizeaza minimul lui Var[ZbOK (x0 )] cu constrangerea
n
∑ λi = 1. Metoda de lucru este metoda multiplicatorilor lui Lagrange. Se considera functia
i=1
!
n
F(α, λi ) = Var[ZbOK (x0 )] + α ∑ λi − 1 ,
i=1
unde α este o constanta ce urmeaza a fi determinata, numita multiplicator Lagrange. Se considera

sistemul format din anularea derivatelor functiei F(α, λi ) in raport cu α si λi , i.e.,
∂ F(α, λi )
= 0;
∂ λ1
∂ F(α, λi )
= 0;
∂ λ2
...
∂ F(α, λi )
= 0;
∂ λn
∂ F(α, λi )
= 0.
∂α
9.3 Kriging ordinar 117
Vom obtine sistemul :
n
cov(Z(x0 ), Z(x j )) = ∑ λicov(Z(xi), Z(x j )) + α, pentru orice j = 1, 2, . . . , n.(9.3.8)
i=1
n
∑ λi = 1. (9.3.9)
i=1
Aceste sistem de n + 1 ecuatii si n + 1 necunoscute, si anume λ1 , λ2 , . . . , λn , α. Solutiile λiOK ale

acestui sistem sunt ponderile cautate. Folosind aceste ponderi, determinam estimaa valorii lui Z
in x0 prin:
n
ZbOK (x0 ) = ∑ λiOK Z(xi ).
i=1
Dispersia pentru kriging ordinar se calculeaza similar ca in cazul metodei kriging simplu si are
formula:
n
2
σOK (x0 ) = C (0) − ∑ λiOK cov(Z(x0), Z(xi)) − α. (9.3.10)
i=1
Observatii:
• Ponderile λiOK vor avea valori mai mari pentru punctele apropiate lui x0 . In general, cele
mai apropiate 4 sau 5 valori contribuie cu cca 80% din ponderea totala in prezicerea valorii
lui Z in x0 , iar urmatoarele 10 puncte invecinate cu cca 20%.
• In general, σOK 2 (x ) este un pic mai mare decat σ 2 (x ) din cauza incertitudinii legate de
0 SK 0
valoarea reala a lui µ.
• Daca variograma prezinta efect nugget, atunci cresterea dispersiei pentru nugget va conduce
la o crestere a dispersiei pentru valorile prezise prin kriging.
• Daca locatiile masuratorilor nu sunt regulat raspandite, atunci punctele izolate au in general
ponderi mai mari decat cele adunate in palcuri (clustere).
• Punctele care sunt ecranate (mascate) de alte puncte din regiune pot avea ponderi negative.
• Am vazut ca, pentru un punct x0 , doar o multime mica de puncte vecine vor avea ponderi
nenule semnificative, restul ponderilor fiind aproape egale cu 0. Din acest motiv, am putea
reduce sistemul de kriging (implicit formula (9.3.7) doar la punctele vecine. Daca numarul
acestor puncte vecine este semnificativ mai mic decat n, atunci procedeul numeric de calcul
al ponderilor se va desfasura intr-un timp mult mai mic. Este posibil ca, pentru un n mare,
ponderile calculate sa prezinte erori mari, din cauza complexitatii sistemului de ecuatii care
au ca solutii aceste ponderi. De aceea, se recomanda calcularea ponderilor doar pentru o
multime mica de vecini ai lui x0 .
• Pentru a determina vecinatatea lui x0 pentru care este practic sa calculam ponderile, se poate
proceda astfel:
– Pentru o variograma marginita si date dense in jurul lui x0 , aceasta vecinatate poate
avea dimensiunea range-ului de la variograma. Oricum, punctele care ies din acest
range aproape ca nu sunt corelate cu x0 .
– Daca datele sunt rarefiate, atunci punctele indepartate pot avea ponderi importante,
asa ca ar fi necesara o vecinatate care sa le includa.
– Pentru un efect nugget mare, punctele indepar-

tate vor avea ponderi semnificative, deci veci-
natatea lui x0 ar trebui sa le includa.
– Pentru o retea neregulata de date selectate, nu-
marul minim de puncte din vecinatatea unui
x0 este 3 si numarul maxim nu ar trebui sa de-
paseasca 25.
– Daca datele din selectie sunt foarte neregulate,
atunci este utila impartirea spatiului din jurul lui
x0 in octanti si sa fie alese cele mai apropiate 2
puncte din fiecare octant (vezi Figura 9.5).
Figure 9.5: Impartirea in octanti pen-
tru determinarea vecinilor
Exerciţiu 9.2 Folosind metoda de interpolare geostatistica kriging ordinar, determinati o predictie
si dispersia acesteia pentru valoarea in locatia x0 din Exercitiul 9.1.
Rezolvare: Valorile pentru distante sunt aceleasi ca in Exercitiul 9.1. Sistemul de ecuatii
(9.3.8)&(9.3.9) care determina ponderile λi si multiplicatorul Lagrange α este:
λ1 C (x1 , x1 ) + λ2 C (x2 , x1 ) + λ3 C (x3 , x1 ) + λ4 C (x4 , x1 ) + λ1 = C (x0 , x1 );

λ1 + λ2 + λ3 + λ4 = 1.
Inlocuind valorile covariantelor, obtinem:
2000λ1 + 704.65λ2 + 695.68λ3 + 466.33λ4 + α = 908.78;

704.65λ1 + 2000λ2 + 689.31λ3 + 461.32λ4 + α = 831.89;
695.68λ1 + 689.31λ2 + 2000λ3 + 1286.01λ4 + α = 1507.34;
466.33λ1 + 461.32λ2 + 1286.01λ3 + 2000λ4 + α = 973.50;
λ1 + λ2 + λ3 + λ4 = 1.
Dupa rezolvarea sistemului, obtinem ponderile λi si multiplicatorul Lagrange α:
λ1OK = 0.1971, λ2OK = 0.1410, λ3OK = 0.6506, λ4OK = 0.0113, α = −42.6936.
Folosind formula (9.3.7), determinam estimarea valorii lui Z in x0 :
zOK (x0 ) = λ1OK z(x1 ) + λ2OK z(x2 ) + λ3OK z(x3 ) + λ4OK z(x4 )
b
= 0.1971 · 40 + 0.1410 · 130 + 0.6506 · 90 + 0.0113 · 160
= 86.576.
9.4 Kriging lognormal 119
Dispersia estimatorului in acest punct poate fi calculata cu formula (9.3.10). Obtinem:

n
2
σOK (x0 ) = C (0) − ∑ λiOK cov(Z(x0 ), Z(xi )) − α
i=1
= 2000 − 0.1971 · 908.78 − 0.1410 · 831.89 − 0.6506 · 1507.34 −
−0.0113 · 973.50 + 42.6936
= 754.60.
9.4 Kriging lognormal

Daca datele observate z(x1 ), z(x2 ), . . . , z(xn ) sunt pozitive dar nu par a fi normale (acest fapt
se poate observa dintr-un indice de skewness mai mare decat 1), atunci o practica utila este
logaritmarea datelor. Vom obtine astfel setul de date y(x1 ), y(x2 ), . . . , y(xn ), cu y(xi ) = ln(z(xi )).
Cu alte cuvinte, in loc sa analizam variabila initiala Z(x), vom lucra cu variabila transformata
Y (x) = ln Z(x). Daca presupunem ca procesul aleator generat de Y (x) este stationar de ordinul al
doilea (slab stationar), atunci putem aplica metodele anterioare (kriging simplu sau kriging ordinar)
pentru valorile transformate. Vom obtine astfel valori prezise pentru Y in locatiile neconsiderate
in selectie si dispersii pentru aceste valori. Dupa aceasta, aceste valori se vor transforma inapoi in
valori prezise pentru variabila originala, Z(x).
Sa notam prin YbSK (x0 ) si σ c2 (x ) estimatori punctuali pentru, respectiv, valoarea prezisa si
SK 0
dispersia sa obtinute prin kriging simplu in x0 . Similar, notam prin YbOK (x0 ) si σc2 (x ) estimatori
OK 0
punctuali pentru, respectiv, valoarea prezisa si dispersia sa obtinute prin kriging ordinar in x0 .
Atunci, estimatorii corespunzatori pentru variabila Z sunt:
1 c2
ZbSK (x0 ) = eYSK (x0 )+ 2 σ SK (x0 ) pentru kriging simplu
b
si
1 c2
ZbOK (x0 ) = eYOK (x0 )+ 2 σ OK (x0 )−α(x0 ) pentru kriging ordinar,
b
unde α(x0 ) este multiplicatorul Lagrange. Dispersia pentru variabila originata poate fi estimata
doar pentru metoda kriging simplu, pentru care µ este cunoscut. Aceasta este:
c SK (x0 ) = µ 2 eσc2 SK (x0 ) [eσc2 SK (x0 ) − 1].
Var
9.5 Kriging universal (sau kriging cu drift)
Este posibil ca valoarea µ din relatia (9.2.2) sa nu fie

nici cunoscuta, nici constanta, indicand prezenta unui
trend (sau drift). In acest caz,
Z(x) = u(x) + ε(x), (9.5.11)
unde u(x) este o functie determinista si ε(x) este partea

aleatoare a variabilei, reprezentand eroarea de aproxi-
mare a variabilei cu valoarea µ.
Figure 9.6: Variabila cu trend neliniar
Aceasta eroare este presupusa a fi normala, de medie 0 si variograma γ(h). Cantitatea ε(x) =
Z(x) − u(x) se mai numeste si reziduu de trend. Expresia lui u(x) este de obicei un polinom de
coordonatele geografice, de forma:
m
u(x) = ∑ β j f j (x),
j=0
unde β j sunt niste numere reale necunoscute si f j (x) niste functii necunoscute. Acest trend poate fi
estimat pe baza observatiilor z(x1 ), z(x2 ), . . . , z(xn ). Spre exemplu, un trend liniar 2−dimensional
arata de forma
u(x) = β0 + β1 x1 + β2 x2 .
Un trend neliniar parabolic 1−dimensional care ar putea fi un model pentru cel din Figura 9.6
este de forma
u(x) = β0 + β1 x + β2 x2 .
Coeficientii β0 , β1 , β2 pot fi obtinuti prin metoda celor mai mici patrate (regresie liniara multiple).
In prezenta unui trend, G. Matheron a sugerat estimarea variabilei Z in x0 prin
n
ZbUK (x0 ) = ∑ λi Z(xi ),
i=1
n
cu λi verificand constrangerea ∑ λi = 1. Valoarea medie a acestui estimator este
i=1
n m
E[ZbUK (x0 ]) = ∑ ∑ λiβ j f j (xi)
i=1 j=0
Conditia de nedeplasare a estimatorului este:

n
∑ λi f j (xi) = f j (x0), pentru orice j = 0, 1, 2, . . . , m.
i=1
Folosind metoda multiplicatorilor lui Lagrange, se pot determina ponterile λiUK si parametrii
necunoscuti β j . Astfel, un estimator pentru valoarea lui Z in x0 va fi
n
ZbUK (x0 ) = ∑ λiUK Z(xi ),
i=1
iar dispersia acestui estimator este

n m
c UK (x0 ) = C (0) − ∑ λi C (x0 , xi ) − ∑ β j f j (x0 ).
Var
i=1 j=0
9.6 Kriging indicator

Aceasta medota de kriging este folosita pentru variabilele de tip binar (Bernoulli), adica acele
variabile discrete care pot lua doar doua valori: 1 (prezenta) sau 0 (absenta). Este utila in practica
atunci cand pentru variabila de interes se doreste sa se estimeze probabilitatea ca aceasta sa
9.6 Kriging indicator 121
depaseeasca o anumita valoare prag, notata aici prin zc . Spre exemplu, am dori sa determinam
probabilitatea ca, intr-o anumita regiune, apa de baut sa aiba o concentratie de nitrati sub pragul
critic zc = 50mg/l. Un alt exemplu este determinarea probabilitatii ca intr-o regiune solul sa aiba
o valoare pH sub o valoare critica.
Fie Z o variabila de interes. Pentru aceasta variabila construim functia indicatoare
(
1 daca Z(x) ≤ zc ;
χzc (x) =
0 daca Z(x) > zc .
Aceasta functie indicatoare este o variabila binara. Valoarea medie a acestei variabile este chiar
probabilitatea ca valorile variabilei Z(x) sa nu depaseasca pragul critic zc , care este totuna cu
functia de repartitie a acestei variabile in valoarea zc . Matematic, scriem astfel:
E[χzc (x)] = P(Z(x) ≤ zc ) = FZ(x) (zc ).
Pentru variabila indicatoare se poate estima variograma teoretica
1 h i
γzc (h) = E (χzc (x) − χzc (x + h))2
2
pe baza unei variograme experimentale:
1 N(h) h 2
i
γbzc (h) = (χ (x )
∑ zc i zc i − χ (x + h)) .
2|N(h)| i=1
Pe baza variogramei teoretice se pot prezice valori ale variabilei Z in punctele neselectate. O
metoda de kriging indicator bazata pe n observatii {χzc (xi )}i=1, n are la baza formula de estimare:
n
χbzc (x0 ) = ∑ λi χzc (xi ). (9.6.12)
i=1
Pentru estimare se poate proceda ca in metoda kriging simplu. Ponderile pot fi obtinute ca solutii
ale sistemului de n ecuatii si n necunoscute:
n
∑ λiγzc (xi, x j ) = γzc (x0, x j ) pentro orice j = 1, 2, . . . , n,
i=1
unde γzc (xi , x j ) sunt semivariantele calculate in punctele xi si x j . Dupa ce se determina ponderile
λiIK , se estimeaza valoarea
n
χbzc (x0 ) = ∑ λiIK χzc (xi ).
i=1
Valoarea prezisa χbzc (x0 ) va fi o valoare intre 0 si 1, reprezentand probabilitatea ca, pentru datele
observate, variabila Z(x) ia valori sub pragul critic zc . Matematic, scriem ca

χbzc (x0 ) = P( Z(x) ≤ zc | zi , i = 1, n ).
9.7 Cokriging
Aceasta metoda ofera posibilitatea de a prezice simultan valorile a doua sau mai multe variabile
pentru un acelasi domeniu. Se mai numeste si coregionalizare. Nu este necesar ca toate variabilele
sa fie masurate in aceleasi locatii, insa ar fi indicat sa fie un minim de valori observate perechi
in aceleasi locatii din regiune de interes. Aceasta metoda poate fi utila atunci cand una dintre
variabile, variabila primara, a fost observata in putine locatii, insa corelatia sa cu alte variabile
(secundare) de interes in regiune poate duce la o precizie mai mare a estimarilor celei dintai
variabile.
Presupunem ca Z1 (x), Z2 (x), . . . , Z p (x) sunt p variabile ce se doresc a fi masurate pentru un
acelasi domeniu. Putem crea matricea aleatoare:
Z(x) = [Z1 (x), Z2 (x), . . . , Z p (x)].
Vom nota prin Λi matricea ponderilor corespunzatoare fiecarei valori a fiecarei variabile. O vom
scrie sub forma:
 i i i 
λ11 λ12 . . . λ1p
λ i λ i . . . λ i 
Λi =  21 22 2p 
 ... ... ... ... 
i
λ41 i
λ42 i
. . . λ pp
Scopul principal al metodei cokriging este de a determina (prin metoda celor mai mici patrate)
ponderile Λi pentru estimatorul:
n
ZbCK (x0 ) = ∑ Λi Z(xi ),
i=1
cu constrangerea
n
∑ Λi = In matricea identitate de ordin n.
i=1
Modelul cokriging va furniza un numar de p estimatori liniari in x0 , cate unul pentru fiecare
variabila in parte, si p dispersii corespunzatoare estimatorilor. Metoda este asemanatoare cu
metoda kriging ordinara, insa executata pentru p variabile simultan.
9.8 Cross-validare (validarea incrucisata)

Cross-validarea este o metoda de verificare sau de a alege dintre mai multe modele de kriging
pentru aceleasi date observate. Precizam mai jos detaliile validarii incrucisate:
• Se calculeaza variograma experimentala si apoi se potrivesc diverse variograme teoretice
potrivite;
• Se scoate un punct dintre cele n initiale si se estimeaza valoarea in acest punct pe baza
celorlalte n − 1 puncte. Aceasta valoare prezisa este comparata cu valoarea masurata initial.
Se repeta procedura pentru toate valorile observate.
• Diagnosticarea se face fie prin grafice sau prin masurarea erorilor de predictie. Graficele sunt
de forma valori prezise versus valori masurate. Pentru o predictie cat mai buna,
valorile prezise trebuie sa fie cat mai apropiate de cele masurate, aceasta observandu-se in
grafic daca punctele rosii sunt apropiate de dreapta 1:1.
9.8 Cross-validare (validarea incrucisata) 123
• Pentru a face un diagnostic numeric al preciziei estimarii, se folosesc urmatoarele masuri

ale erorilor de interpolare:
• Eroarea medie (Mean error in ArcGIS):
1 n
ME = ∑ [z(xi ) − b
z(xi )].
n i=1
• Eroarea medie standardizata (Mean Standardized Error in ArcGIS):
1 n [z(xi ) − b
z(xi )]
SME = ∑ .
n i=1 σb (xi )
• Eroarea medie patratica (Mean-Square Error):
1 n
MSE = ∑ [z(xi) − bz(xi)]2.
n i=1
• Radacina mediei erorilor patratice (Root-Mean-Square Error in ArcGIS):
s
1 n
RMSE = ∑ [z(xi) − bz(xi)]2.
n i=1
• Eroarea standard medie (Average Standard Error in ArcGIS):
v
u n
b (xi )
u
u∑σ
t i=1
ASE = .
n
• Radacina mediei erorilor patratice standardizate (Root-Mean-Square Standardized Error in

ArcGIS):
s
z(xi ) 2
1 n z(xi ) − b

RMSSE = ∑ σb (xi) .
n i=1
Figure 9.7: Compararea a doua metode kriging.
Pentru o precizie foarte buna este de dorit ca primele erorile ME, SME si MSE sa fie cat mai apropiate
de valoarea 0, eroarea RMSSE va trebui sa fie apropiate de valoarea 1, iar erorile RMSE si ASE sa
fie similare. Figura 9.7 contine doua grafice pentru doua metode de interpolare kriging ordinar;
prima metoda este fara trend iar a doua cu trend. Fiecare figura reprezinta valorile prezise vs.
valorile masurate. Pentru o apropiere cat mai buna, punctele rosii ar trebui sa fie cat mai apropiate
de dreapta 1:1 (prima bisectoare). Pentru a determina care dintre cele doua metode este mai buna,
ne uitam la erorile afisate si cautam metoda ce da erorile cele mai mici.
9.9 Simulare stochastica

Dupa cum am vazut mai sus, metodele kriging sunt utilizate pentru a estima valorile posibile
ale unei variabile in locatiile neobservate. Estimarile obtinute sunt optimizate astfel incat in
acele locatii variantele sunt minime. Totusi, nu este nicio garantie ca o harta obtinuta printr-o
metoda kriging va avea aceeasi variatie (sau variograma) ca si datele observate initial. Daca se
doreste a construi o harta care sa pastreze intocmai caracteristicile datelor observate, atunci trebuie
considerate metode alternative la metodele kriging. O astfel de metoda este simularea stochastica.
Simularea stochastica ofera posibilitatea de a crea valorile uneia sau mai multor variabile care sa
aiba aceleasi caracteristici ca si datele observate in realitate. Variabilele pentru care putem obtine
simulari pot fi atat discrete cat si continue.
Presupunem ca {z(xi )}i=1,n sunt valorile observate pentru variabila Z(x). Dupa cum am discutat
anterior, putem privi Z(x) ca fiind un proces stochastic. Daca acest proces este stationar de ordinul
al doilea, atunci el poate fi descris prin media si functia de covarianta. Acesti parametri ii putem
estima cu statistici specifice obtinute pe baza datelor observate. Principiul simularii stochastice
este simularea pe calculator de valori posibile pentru variabila Z(x) ce au media şi functia de
9.9 Simulare stochastica 125
covarianta stabilite. Se pot astfel crea oricate (o infinitate) simulari se doreste, toate realizarile
avand aceeasi probabilitate de aparitie, aceeasi medie si aceeasi functie caracteristica. Din punct
de vedere teoretic, valoarea medie a unui numar mare de simulari va arata similar cu harta obtinuta
prin metoda kriging. Simularile stochastice ofera posibilitatea de a obtine predictii realiste ale
valorile unei variabile, pe cand estimarile obtinute prin metoda kriging se preocupa mai mult de
acuratetea statistica a predictiilor.
In concluzie, metoda kriging ofera estimari locale de varianta minima, fara a se preocupa de
distributia in ansamblu a valorilor prezise. Pe de alta parte, simularea stochastica are ca scop
reproducerea distributiei datelor observate, fara a se preocupa de acuratetea locala a valorilor
prezise.
Simularile stochastice pot fi facute in doua moduri: neconditionate si conditionate.
O simulare stochastica neconditionata nu are alte constrangeri asupra valorilor simulate decat
faptul ca media si o functia de covarianta a acestor valori sa fie cea specificată a priori. O simulare
stochastica conditionata are, pe langa constrangerile de medie si functie de covarianta, cerinta ca
valorile observate pentru variabila aleatoare sa fie pastrate in urma simularii. Cu alte cuvinte, o
simulare conditionata este o procedure ce reproduce valorile si locatiile tuturor datelor observate,
pe cand una neconditionata nu are aceasta cerinta.
In cazul unei simulari stochastice neconditionata, metoda de simulare este metoda Monte Carlo.
Exista diverse software care pot simula valori aleatoare ce au media si functia de covarianta
specificate.
In cazul unei simulari conditionate, varianta valorilor simulate este dublul variantei valorilor
estimate prin metoda kriging. Asadar, daca scopul este o precizie mai buna a valorilor simulate,
metoda kriging este mai buna. Daca scopul este realizarea unei harti pentru care caracteristicile
observatiilor sa fie pastrate, atunci metoda de simulare este cea potrivita.
Exista mai multe tipuri de simulari stochastice, si anume:
• simulare gaussiană secvenţială (fiecare valoare este simulata secvential in concordanta cu
functia sa de repartitie conditionata normala, care se determina in fiecare locatie simulata);
• metode de descompunere LU (bazata pe descompunerea Cholesky a oricarei matrice pozitiv
definite C in produs de doua matrice triunghiulare, inferior si superior, i.e., C = LU.);
• simulare annealing (bazata pe algoritmi de optimizare);
• metode orientate pe obiect;
Metoda de simulare gaussiana secventiala este cea mai folosita. Pasii de implementare a metodei
sunt:
• Asigurarea ca datele sunt normale. In caz ca nu sunt normale, datele ar putea fi transformate
in date normale standard;
• Se determina un model de variograma;
• Se formeaza un grid cu punctele in care urmeaza sa determinam simulari;
• Se determina ordinea (o secventa) locatiilor {xi } in care vom obtine simulari.
b i ) si σ 2 (xi ) prin metoda kriging simpla. Apoi, se
• Pentru fiecare locatie xi se determina Z(x K
va genera aleator o valoare normala ce are media Z(x b i ) si varianta σ 2 (xi ). Aceasta valoare
K
simulata se va adauga la setul de date observate, apoi se trece la simularea urmatoarei valori.
Se repeta procedeul de kriging (incluzand in setul de date toate valorile simulate anterior)
pana ce toate valorile pentru punctele din grid au fost simulate.
• Daca datele originale au fost transformate, se va aplica transformarea inversa pentru a
determina simularile valorilor variabilei de interes.
Chapter 9. Kriging
Figure 9.8: Etape pentru interpolarea prin kriging
126
10. Anexe
10.1 Tabele cu cuantile pentru repartiţii uzuale
α 0.9 0.95 0.975 0.99 0.995 0.999

zα 1.282 1.645 1.960 2.326 2.576 3.090
Table 10.1: Cuantile pentru repartitia N (0, 1). Pentru un α, tabelul afiseaza cuantila zα pentru care
P(Z ≤ zα ) = α, unde Z ∼ N (0, 1). De remarcat faptul ca: z1−α = −zα .
Chapter 10. Anexe
n\α 0.9 0.95 0.975 0.99 0.995 0.999 n \ α 0.9 0.95 0.975 0.99 0.995 0.999
1 3.078 6.314 12.706 31.821 63.657 318.313 21 1.323 1.721 2.080 2.518 2.831 3.527
2 1.886 2.920 4.303 6.965 9.925 22.327 22 1.321 1.717 2.074 2.508 2.819 3.505
3 1.638 2.353 3.182 4.541 5.841 10.215 23 1.319 1.714 2.069 2.500 2.807 3.485
4 1.533 2.132 2.776 3.747 4.604 7.173 24 1.318 1.711 2.064 2.492 2.797 3.467
5 1.476 2.015 2.571 3.365 4.032 5.893 25 1.316 1.708 2.060 2.485 2.787 3.450
6 1.440 1.943 2.447 3.143 3.707 5.208 26 1.315 1.706 2.056 2.479 2.779 3.435
7 1.415 1.895 2.365 2.998 3.499 4.782 27 1.314 1.703 2.052 2.473 2.771 3.421
8 1.397 1.860 2.306 2.896 3.355 4.499 28 1.313 1.701 2.048 2.467 2.763 3.408
9 1.383 1.833 2.262 2.821 3.250 4.296 29 1.311 1.699 2.045 2.462 2.756 3.396
10 1.372 1.812 2.228 2.764 3.169 4.143 30 1.310 1.697 2.042 2.457 2.750 3.385
11 1.363 1.796 2.201 2.718 3.106 4.024 32 1.309 1.694 2.037 2.449 2.738 3.365
12 1.356 1.782 2.179 2.681 3.055 3.929 34 1.307 1.691 2.032 2.441 2.728 3.348
13 1.350 1.771 2.160 2.650 3.012 3.852 36 1.306 1.688 2.028 2.434 2.719 3.333
14 1.345 1.761 2.145 2.624 2.977 3.7870 38 1.304 1.686 2.024 2.429 2.712 3.319
15 1.341 1.753 2.131 2.602 2.947 3.733 40 1.303 1.684 2.021 2.423 2.704 3.307
16 1.337 1.746 2.120 2.583 2.921 3.686 50 1.299 1.676 2.009 2.403 2.678 3.261
17 1.333 1.740 2.110 2.567 2.898 3.646 60 1.296 1.671 2.000 2.390 2.660 3.232
18 1.330 1.734 2.101 2.552 2.878 3.610 80 1.292 1.664 1.990 2.374 2.639 3.195
19 1.328 1.729 2.093 2.539 2.861 3.579 100 1.290 1.660 1.984 2.364 2.626 3.174
20 1.325 1.725 2.086 2.528 2.845 3.552 ∞ 1.282 1.645 1.960 2.326 2.576 3.090
Table 10.2: Cuantile pentru repartitia Student t(n). Pentru un α si un n, tabelul afiseaza cuantila tα, n pentru care P(Z ≤ tα, n ) = α, unde Z ∼ t(n). Daca n
este mai mare de 100, se poate utiliza tabelul de la repartitia normala.
128
Fournit les quantiles xp tels que
P(X≤xp )= p
pour X ∼ χ2n
10.2 Exemplu de date statistice spatiale 129
n/p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995
n
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19
11 2,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
1
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49
60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104,2
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116,3
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128,3
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2
Table 10.3: Cuantile pentru repartitia χ 2 (n). Pentru un α = p si un n, tabelul afiseaza cuantila χα,
2
n
2 ) = α, unde Z ∼ χ 2 (n).
pentru care P(Z ≤ χα, n
10.2 Exemplu de date statistice spatiale

Chapter 10. Anexe
Figure 10.1: Exemplu de date statistice spatiale.
130
10.3 Tabel cu intervale de încredere 131
10.3 Tabel cu intervale de încredere

Param. Alţi param. Interval de încredere cu nivelul de semnificaţie α

X − z1− α √σn , X + z1− α √σn
2 2
σ2

µ X − z1−α √σn , +∞
cunoscut

−∞, X + z1−α √σn

X − t1− α ; n−1 √sn , X + t1− α ; n−1 √sn
2 2
σ2

µ X − t1−α; n−1 √σn , ∞ ;
necunoscut

−∞, X − tα; n−1 √sn
!
n n
χ2 α
s2 , χ 2α
s2
1− 2 ; n 2 ;n

µ n
s2 , +∞
σ2 cunoscut
2
χα; n

n 2
−∞, χ2
s
1−α; n
!
(n−1) (n−1)
χ2 α
s2 , χ 2α
s2
1− 2 ; n−1 2 ; n−1

µ n−1
s2 , +∞
σ2 necunoscut χ2
α; n−1
n−1
−∞, 2
χ1−α;
s2
n−1
q q
pb(1− pb) pb(1− pb)
p n pb − z1− α n , pb + z1− α n
mare 2 2
µ1 , µ2
σ12 / s21 s21

σ22 f α
1 −1, n2 −1; 2
, f α
necunoscuţi  s22 ns s22 n1 −1, n2 −1; 1− 2s 
2 2 2 2
µ1 − µ2 σ12 , σ22 σ 1 σ σ σ
X1 − X2 − z1− α + 2 , X1 − X2 + z1− α 1
+ 2
2 n1 n2 2 n1 n2
cunoscuţi  
s s
2 2 2 2
µ1 − µ2 σ12 6= σ22 s 1 s s s
X1 − X2 − t1− α ; N + 2 , X1 − X2 + t1− α ; N 1
+ 2
2 n1 n2 2 n1 n2
necunoscuţi
σ12 = σ22
µ1 − µ2 X1 − X2 − t1− α ; n1 +n2 −2 d(X1 , X2 ), X1 − X2 + t1− α ; n1 +n2 −2 d(X1 , X2 )
necunoscuţi
2 2

q q
p1 (1−cp1 ) p2 (1−cp2 ) p1 (1−cp1 ) p2 (1−cp2 )
p1 − p2 n1 , n2 pb1 − pb2 − z1− α c n1 + c
n2 , p
b1 − p
b2 + z1− α
c
n1 + c
n2
2 2
mari
Table 10.4: Tabel cu intervale de încredere.
Mai sus, prin d(X1 , X2 ) am notat:

!− 1
2
n1 + n2 − 2
q
d(X1 , X2 ) = (n1 − 1)s21 + (n2 − 1)s22 1 1
.
n1 + n2
Bibliography
[1] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.
[2] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with
CD-ROM), Duxbury Press, 2006.
[3] Clayton V. Deutsch, Geostatistical reservoir modeling, Oxford University Press, 2002.
[4] ESRI, Introduction to the ArcGIS Geostatistical Analyst Tutorial (online tutorial notes)
[5] Pierre Goovaerts, Geostatistics for natural resources evaluation, Oxford University Press,
1997.
[6] T Hengl, A Practical Guide to Geostatistical Mapping of Environmental Variables, JRC
Scientific and Technical Research series, Office for Official Publications of the European
Comunities, Luxembourg, EUR 22904 EN, 143 pp, 2009
[7] Peter K. Kitanidis, Introduction to Geostatistics, Applications in Hydrogeology, Cambridge
University Press, 1997.
[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mică enciclope-
die de statistică, Editura ştiinţifică şi enciclopedică, Bucureşti, 1985.
[9] K. Johnston, JM Ver Hoef, K. Krivoruchko, N. Lucas, Using ArcGIS Geostatistical Analyst,
2001
[10] S. McKillup, M Darby Dyar, Geostatistics Explained. An Introductory Guide for Earth
Scientists, Cambridge University Press, 396 pp, 2010
[11] Georges Matheron, Principles of Geostatistics, Economic Geology 58, 1963, pp. 1246-1266.
[12] Georges Matheron, Les variables régionalisées et leur estimation, Masson, Paris, 1965.
134 BIBLIOGRAPHY
[13] Gheorghe Mihoc, N. Micu, Teoria probabilităţilor şi statistica matematică, Bucuresti, 1980.
[14] Ricardo A. Olea, Geostatistics for Engineers and Earth Scientists, Kluwer Academic Pub-
lishers, Boston, 1999
[15] MJ Smith, MF Goodchild, PA Longley, Geospatial Analysis. A Comprehensive Guide to

Principles, Techniques and Software Tools, Second Edition, Matador, Troubador Publishing
Ltd., online version: http://www.spatialanalysisonline.com/
[16] Iulian Stoleriu, Statistică prin M ATLAB. MatrixRom, Bucureşti, 2010.
[17] Richard Webster, Margaret Oliver, Geostatistics for environmental scientists, John Wiley
and Sons, Ltd., 2007.
[18] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge
University Press, 2001.
Index
amplitudinea, 34 diagrama probabilitate-probabilitate, 32

dispersia, 33
box-and-whiskers plot, 36 dispersia teoretică, 15, 55
caracteristică, 14 distribuţie empirică de selecţie, 23
clasă mediană, 38 eroare în medie pătratică, 66
clopotul lui Gauss, 61 estimator nedeplasat, 66
coeficient de aplatizare, 35, 56 eveniment aleator, 49
coeficient de asimetrie, 16, 35, 56 eveniment aleator compus, 49
coeficient de corelaţie, 16 eveniment aleator elementar, 49
coeficient de corelaţie, 94 evenimente dependente, 59
coeficient de corelaţie teoretic, 16, 58 evenimente independente, 59
coeficientul de corelaţie empiric, 32 excesul, 16
coeficientul de variaţie , 33 experienţă aleatoare, 49
colectivitate statistică, 13
corelaţia, 16, 34 frecvenţă cumulată, 26
corelaţia teoretică, 16, 58 frecvenţa absolută, 23, 51
covarianţa, 16 frecvenţa cumulată, 23
cuantile, 16, 57 frecvenţa relativă cumulată, 23
frecvenţa relativă, 23
date continue, 18, 22
frontierele unei clase, 29
date discrete, 18, 22
funcţie de probabilitate, 14
date interval, 18
funcţia de probabilitate (de frecvenţă), 53
date raport, 19
funcţie de repartiţie (cumulată), 54
densităţi de frecvenţă, 28
funcţie de repartiţie empirică, 34
densitate de repartiţie, 14
deplasarea unui estimator, 66 histogramă, 28
deviaţia standard, 33
diagrama cuantilă-cuantilă, 32 indicator statistic, 19
136 INDEX
indicatori statistici, 32 UMVUE, 67

interval de încredere, 68
ipoteză statistică, 73 variabilă aleatoare, 52
variabila aleatoare standardizată, 56
kriging, 111, 112 variograma, 96
kriging ordinar, 116 variograma empirica, 97, 105
kurtosis, 16, 35, 56 variograma regionala, 97
variograma teoretica, 97
media, 33
media teoretică, 55
metoda celor mai mici patrate, 109
modul, 57
momente, 33
momente centrate ale unei v.a., 15, 56
mulţime de selecţie, 49
nivel de semnificaţie, 69, 74
ogivă, 31
P-valoare, 74
populaţie statistică, 13
probabilitate, 50
probabilitate de risc, 69
recensământ, 16
regula celor 3σ , 55
repartiţia χ 2 , 62
repartiţia normală standard, 61
riscul beneficiarului, 74
riscul furnizorului, 74
scatter plot, 83
selecţie, 16
serie de timpi, 24
simulare stochastica, 124
simulare stochastica conditionata, 125
simulare stochastica neconditionata, 125
skewness, 16, 35, 56
Statistică, 12
statistică, 19
stem-and-leaf, 26
tabel de frecvenţe, 23
test bilateral, 75
test de concordanţă, 78
test statistic, 75
test unilateral dreapta, 75
test unilateral stânga, 75

Geostatistica 2022

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Geostatistica 2022

Încărcat de

Drepturi de autor:

Formate disponibile

Geostatistică

3 Noţiuni teoretice de Statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6 Corelaţie şi regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

7 Metode de interpolare spaţială . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

Geostatistica poate fi privita ca fiind o subramura a Statisticii, ce se preocupa cu analiza si

Exemple de fenomene spatiale sau spatio-temporale de interes in Geostatistică: concentratia

Se doreste prezicerea valorii in punctul marcat

Principalele diferenţe dintre Statistica clasica si Geostatistica sunt:

2.1 Scurt istoric

2.2 Modelare Statistică

Data observată = f (x, θ ) + eroare de aproximare, (2.2.1)

2.2.1 Populaţie statistică

2.2.2 Caracteristică (variabilă)

2.2.3 Parametrii populaţiei

2.2.4 Eşantion (selecţie)

2.2.5 Date statistice

Un alt mod de a caracteriza datele cantitative este următorul:

persoane, temperatura în grade Celsius etc.

2.2.6 Indicatori statistici (statistici)

Baza de comparaţie Populaţie (colectivitate) Eşantion (selecţie)

Table 2.1: Populaţie vs. Eşantion

Figure 2.3: Populaţie vs. eşantion

2.2.7 Etapele unei analize statistice

tiparul majorităţii valorilor (numite outliers).

Figure 2.4: Paşi în analiza statistică

2.2.8 Limitări ale Statisticii

2.3 Organizarea şi descrierea datelor

În Statistica clasică, se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z, . . .,

2.4 Gruparea datelor

data z01 z02 ... z0r

Table 2.3: Tabel cu frecvenţe pentru date discrete.

(o glumă povestită de G. Pólya,1 despre cum NU ar trebui interpretată frecvenţa relativă)

1 György Pólya (1887 − 1985), matematician ungur

clasa frecvenţa valoare medie

Table 2.4: Tabel cu frecvenţe pentru

data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)

vârsta frecvenţa frecvenţa relativă frecvenţa cumulată vârsta medie

Table 2.5: Tabel cu frecvenţe pentru rata somajului.

2.5 Reprezentarea datelor statistice

2.5.1 Reprezentare prin puncte

2.5.2 Reprezentarea stem-and-leaf

Figure 2.7: Tabel stem-and-leaf reprezentând

2.5.3 Reprezentarea cu bare (bar charts)

Figure 2.8: Reprezentările cu bare.

Figure 2.9: Reprezentare 3D prin bare.

În general, pentru a construi o histogramă, vom avea în vedere următoarele:

Înălţimea (în cm) frecvenţa

Table 2.6: Tabel cu înălţimile plantelor

Table 2.7: Histograme pentru datele din Tabelul 2.6

Înălţimea (în cm) frecvenţa

Table 2.8: Tabel cu înălţimile plantelor

Table 2.9: Histograme pentru datele din Tabelul 2.8

înălţimea (în cm) frontierele lăţimea frecvenţa densitatea de frecvenţă

Table 2.10: Tabel cu frontierele claselor.

2.5.5 Reprezentare prin sectoare de disc (pie charts)

Figure 2.12: Reprezentare pe disc 3D

2.5.6 Poligonul frecvenţelor

Un poligon de frecvenţă este similar cu o reprezentare

Figure 2.13: Exemplu de polygon al

Pentru frecventele cumulate pot fi folosite ogive. O

Figure 2.14: Ogivă pentru frecvenţele

2.5.8 Diagrama Q-Q sau diagrama P-P

Q-Q plot (diagrama cuantila-cuantila) si P-P plot