Sunteți pe pagina 1din 136

Geostatistică

Iulian Stoleriu
Copyright © 2022 Iulian Stoleriu
Contents

1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Elemente de Statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Scurt istoric 11
2.2 Modelare Statistică 13
2.2.1 Populaţie statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Caracteristică (variabilă) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3 Parametrii populaţiei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.4 Eşantion (selecţie) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.5 Date statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.6 Indicatori statistici (statistici) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.7 Etapele unei analize statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.8 Limitări ale Statisticii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Organizarea şi descrierea datelor 22
2.4 Gruparea datelor 23
2.5 Reprezentarea datelor statistice 26
2.5.1 Reprezentare prin puncte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.2 Reprezentarea stem-and-leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.3 Reprezentarea cu bare (bar charts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.5 Reprezentare prin sectoare de disc (pie charts) . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5.6 Poligonul frecvenţelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.7 Ogive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.8 Diagrama Q-Q sau diagrama P-P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5.9 Diagrama scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6 Măsuri descriptive ale datelor statistice (indicatori statistici) 32
2.6.1 Date negrupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.2 Date grupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.7 Transformari de date 41
2.8 Exerciţii rezolvate 43

3 Noţiuni teoretice de Statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49


3.1 Evenimente aleatoare 49
3.1.1 Operatii cu evenimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.1.2 Relatii intre evenimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2 Probabilitate 50
3.3 Variabile aleatoare 52
3.3.1 Funcţia de repartiţie (sau funcţia de repartiţie cumulată) . . . . . . . . . . . . . . . . . . 54
3.3.2 Caracteristici numerice ale unei variabile aleatoare (parametri) . . . . . . . . . . . 54
3.3.3 Independenţa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.4 Teorema limita centrala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.5 Repartiţii probabilistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4 Estimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.1 Estimatori punctuali 66
4.1.1 Exemple de estimatori punctuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2 Estimarea parametrilor prin intervale de încredere 68
4.2.1 Intervale de încredere pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2.2 Interval de încredere pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.3 Interval de încredere pentru proportie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5 Teste statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.1 Tipuri de teste statistice 75
5.1.1 Testul t pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.1.2 Test pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.3 Testul χ 2 de concordanţă . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.1.4 Testul de concordanţă Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6 Corelaţie şi regresie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83


6.1 Punerea problemei 83

7 Metode de interpolare spaţială . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87


7.1 Metode deterministe de interpolare spatiala 87
8 Procese stochastice spaţiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8.1 Procese stochastice stationare 94
8.1.1 Ergodicitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.2 Functia de covarianţă 95
8.3 Variograma 96
8.4 Modelarea variogramei teoretice 99
8.4.1 Proprietati ale functiilor de corelatie spatiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8.4.2 Comportamentul variogramei in jurul originii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.4.3 Modele de variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.4.4 Estimator pentru variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.4.5 Pasi in estimarea variogramei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.4.6 Sfaturi practice pentru construirea unei variograme . . . . . . . . . . . . . . . . . . . . . 108
8.4.7 Indicatorul Akaike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.4.8 Metode de estimare a variogramei teoretice . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.4.9 Anizotropia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

9 Kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
9.1 Introducere 111
9.2 Kriging simplu 112
9.3 Kriging ordinar 116
9.4 Kriging lognormal 119
9.5 Kriging universal (sau kriging cu drift) 119
9.6 Kriging indicator 120
9.7 Cokriging 122
9.8 Cross-validare (validarea incrucisata) 122
9.9 Simulare stochastica 124

10 Anexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
10.1 Tabele cu cuantile pentru repartiţii uzuale 127
10.2 Exemplu de date statistice spatiale 129
10.3 Tabel cu intervale de încredere 131

Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Index 135
1. Introducere

Geostatistica poate fi privita ca fiind o subramura a Statisticii, ce se preocupa cu analiza si


interpretarea datelor cu caracter geografic. Îsi are originile in industriile miniera si petroliera,
incepand cu studiile inginerului sud-african Danie Krige in anii ’50 si au fost ulterior continuate
si dezvoltate de inginerul Georges Matheron ([matheron1], [matheron2]) in anii ’60, care le-a
aplicat direct in evaluarea rezervelor miniere. Totusi, anterior anului 1950 au existat si alte lucrari
importante, nu neaparat legate de fenomene geologice, dar care au contribuit ulterior la conturarea
Geostatisticii ca o disciplina de sine statatoare. Prefixul Geo provine de la Geologie si este
datorat originilor cercetarilor datelor spatiele. Metodele actuale din Geostatistica au aplicatii in
diverse alte domenii, cum ar fi: Hidrologie, Oceanografie, Meteorologie, Industria forestiera,
Epidemiologie, Agricultura etc.

Obiectivul principal al acestei discipline este caracterizarea sistemelor spatiale care sunt incomplet
cunoscute/descrise. In acest scop, Geostatistica contine o colectie de tehnici numerice si matemat-
ice care se ocupa cu caracterizarea sistemelor (datelor) spatiale sau spatio-temporale care nu sunt
complet cunoscute, cum ar fi sistemele spatiale ce apar in Geologie. Prin date spatiale intelegem
acele date statistice ce sunt asociate cu o locatie in spatiu; pentru datele spatio-temporale mai
apare si referirea la variabila timp (datele observate depind de momentul cand au fost culese).

Exemple de fenomene spatiale sau spatio-temporale de interes in Geostatistică: concentratia


poluarii solului, rata infiltrarii apei in sol, porozitatea solului, pretul titeiului etc. Multe dintre
fenomenele din Geologie sunt extrem de diversificate si vaste. Geologii au ca sarcina realizarea
unui model geologic complet plecand de la un numar de observatii/masuratori care, de regula,
reprezinta doar o mica fractiune din aria sau volumul de interes. Din cauza complexitatii sistemelor
spatiale ce apar in Geologie, realizarea unei descrieri complete a unui sistem spatial este practic
imposibila. Mai mult, obtinerea unui numar foarte mare de masuratori este costisitoare. Geosta-
tistica ofera unelte si tehnici de interpolare si extrapolare (atat determinista cat si stochastica),
necesare determinarii (prezicerii) valorilor de interes in locatii unde nu au fost facute masuratori.
8 Chapter 1. Introducere

Spre deosebire de Statististica clasica, in care masuratorile (observatiile statistice) sunt privite
ca fiind observatii independente si identic repartizate asupra unei aceleiasi caracteristici, datele
de interes din Geostatistica sunt spatial corelate (i.e., ipoteza de independenta a datelor nu este
satisfacuta). Daca nu ar exista o asemenea corelare spatiala, aplicarea metodelor geostatistice nu
ar fi oportuna; Statistica clasica singura ar putea oferi raspunsurile necesare. Totodata, vom vedea
ca datele spatiale din Geostatistica nu pot fi toate generate de o aceeasi repartitie probabilistica.

Spre exemplu, se doreste a realiza o harta a ratei infiltrarii apei intr-o anumita regiune, ce cuprinde
atat zone rurale cat si urbane. Deoarece solul nu este acelasi in interiorul regiunii, rata infiltrarii
apei va avea diverse valori in acest areal. Este de asteptat ca masuratorile obtinute din locatii foarte
apropiate sa fie similare, fapt foarte familiar geologilor. In termeni statistici, acest fapt se traduce
printr-o corelare a valorilor ratelor infiltrarii apei masurate in locatii diferite. Vom vedea mai tarziu
ca in analiza acestor date va trebui sa tinem cont de corelatiile dintre ele, fapt ce va fi realizat
prin analiza variogramei (sau a corelogramei) datelor empirice. Totodata, datorita variabilitatii
solului, este de asteptat ca ratele astfel masurate sa nu urmeze toate o aceeasi repartitie normala.
Din acest motiv, fiecare data spatiala din Geostatistica poate privita ca fiind o singura observatie
(masurare) a unei anumite repartitii, nu neaparat una normala. Astfel, Geostatistica tine cont atat
de repartitiile datelor obtinute cat si de corelatiile intre aceste date, nefiind constransa sa considere
faptul ca toate datele observate au o aceeasi repartitie probabilistica.

Unul dintre scopurile Geostatisticii este ca, plecand de la o colectie de valori observate (masurate)
pentru o anumita caracteristica de interes, sa poata prezice repartitia spatiala intr-un punct de unde
nu avem date observate (nu s-au facut masuratori). Spre exemplu, in Figura 1.1 sunt reprezentate
7 masuratori efectuate intr-un regiune in care valorile masurate ale caracteristicii de interes sunt
aleatoare.

Se doreste prezicerea valorii in punctul marcat


cu culoare rosie. In practica, in urma unor astfel
de predictii se pot crea hărţi care sa descrie grafic
caracteristica de interes. Pentru ca aceste harti
sa fie cat mai detaliate, este deseori nevoie de
computere si de un software specializat. Valorile
prezise pot fi: estimate (folosind metode geo-
statistice) sau simulate (folosind metode Monte
Carlo). Valoarea estimata va fi determinata pe
baza unei metode specifice Geostatisticii, numita
kriging, si se bazeaza pe valorile observate (ma-
surate) deja si pe corelatia dintre aceste valori
observate (numita corelograma/variograma).
Figure 1.1: Valori ale unei caracteristici
intr-un camp aleator.
Foarte pe scurt, o analiza geostatistica urmeaza urmatoarele trei etape principale:
1. analiza descriptiva a datelor spatiale (grafice, diagrame, indicatori statistici)
2. construirea variogramei empirice si aproximarea ei cu un model teoretic (estimarea vari-
ogramei teoretice)
9

3. predictia (prin metode kriging sau simulari stochastice) valorilor caracteristicii de interes in
locatiile unde nu au fost facute masuratori.
In functie de natura datelor spatiale studiate, pentru fiecare etapa in parte exista metode specifice
de analiza, etape ce le vom studia in detaliu in cursurile ce urmeaza.
Dupa cum am mentionat mai sus, pentru locatiile de unde nu au fost culese date se pot face
predictii folosind metode de interpolare sau metode kriging. Pe langa acestea, se mai pot folosi
metode de simulare stochastica (care au la baza Teoria Probabilitatilor) pentru a produce valori ale
caracteristicii in pozitia dorita. Modelele probabilistice pot fi aplicate pentru datele spatiale intr-o
maniera asemanatoare analizei seriilor de timp. Astfel, se pot realiza predictii pentru valorile
caracteristicii de interes in locatiile unde nu au fost facute masuratori. Geostatistica este o strans
legata de metodele de interpolare, dar contine metode de analiza mult mai elaborate decat simplele
de interpolare. In scopul de a modela incertitudinea asociata cu estimarea spatiala, aceste metode
au la baza functii sau variabile aleatoare.

Principalele diferenţe dintre Statistica clasica si Geostatistica sunt:


• Datele statistice din Geostatistica tin cont de locatia de unde au fost culese şi pot fi corelate
cu datele obţinute din alte locaţii. Datele din Statistica clasica nu sunt dependente de locaţie
şi se presupune că acestea sunt observaţii independente ale unei variabile studiate.
• In Geostatistica, datele culese sunt independente intre ele si nici identic repartizate;
• In Statistica clasica, o selectie aleatoare contine date ce sunt considerate a fi multiple realizari
independente şi identic repartizate ale unei singure variabile. In schimb, in Geostatistica,
fiecare data dintr-o selectie este privita ca o singura realizare a unei variabile, iar aceasta
variabila difera cu locatia;
• Multe rezultate din Geostatistica nu presupun cunoasterea repartitiei datelor observate, desi
normalitatea datelor ar fi un avantaj pentru analiza. Pentru analiza datelor din Statistica
clasică este deseori nevoie ca distributia datelor sa fie cunoscuta. Multe dintre rezultatele
din Statistica clasica se bazeaza pe ipoteza de normalitate a datelor.
• De regula, datele geostatistice sunt culese in urma impartirii domeniului de masurat in
forme regulate (cubice, hexagonale etc.), asadar locatiile de unde se iau masuratori nu sunt
alese in mod cu totul aleator. Datele din Statistica clasică nu sunt neapărat legate de forma
regiunii de unde au fost culese.

Deoarece datele statistice spatiale pot fi foarte numeroase, pentru analiza lor este nevoie de ajutorul
computerelor si de un software specializat. Exemple de software ce analizeaza date geostatistice
sunt: ArcMap, M ATLAB (M AThematics L ABoratory), R, GSLIB (Geostatistical Software Library),
Gstat, SGeMS (Stanford Geostatistical Modeling Software), GS+, Geopack, GeoEAS, Variowin
etc.
2. Elemente de Statistică

2.1 Scurt istoric


Statistica este o ramură a ştiinţelor ce se preocupă de procesul de colectare de date şi informaţii,
de organizarea şi interpretarea lor, în vederea explicării unor fenomene reale. În Economie şi
Business, informaţiile extrase din datele statistice vor fi utile în evaluarea afacerilor sau a mediului
economic în care activează, ajutându-i astfel în luarea deciziilor.

În general, prin date (sau date statistice) înţelegem o mulţime de numere sau caractere ce au o
anumită însemnătate pentru utilizator. Utilizatorul este interesat în a extrage informaţii legate de
mulţimea de date pe care o are la îndemână. Datele statistice pot fi legate între ele sau nu. Suntem
interesaţi de studiul acestor date, cu scopul de a înţelege anumite relaţii între diverse trăsături ce
măsoară datele culese. De regulă, oamenii au anumite intuiţii despre realitatea ce ne înconjoară,
pe care le doresc a fi confirmate într-un mod cât mai exact.

De exemplu, dacă într-o anumită zonă a ţării rata şomajului este ridicată, este de aşteptat ca în
acea zonă calitatea vieţii persoanelor de acolo să nu fie la standarde ridicate. Totuşi, ne-am dori să
fim cât mai precişi în evaluarea legăturii dintre rata somajului şi calitatea vieţii, de aceea ne-am
dori să construim un model matematic ce să ne confirme intuiţia. Un alt gen de problemă: ardem
de nerăbdare să aflăm cine va fi noul preşedinte, imediat ce secţiile de votare au închis porţile
(exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea şi unificarea tuturor datelor
într-un timp record nu este o măsură deloc practică. În ambele probleme menţionate, observaţiile
şi culegerea de date au devenit prima treaptă spre înţelegerea fenomenului studiat. De cele mai
multe ori, realitatea nu poate fi complet descrisă de un astfel de model, dar scopul este de a oferi o
aproximare cât mai fidelă şi cu costuri limitate.

În ambele situaţii menţionate apar erori în aproximare, erori care ţin de întâmplare. De aceea,
ne-am dori să putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecând de la
12 Chapter 2. Elemente de Statistică

colecţiile de date obţinute dintr-o colectivitate, Statistica introduce metode de predicţie şi prognoză
pentru descrierea şi analiza proprietăţilor întregii colectivităţi. Aria de aplicabilitate a Statisticii
este foarte mare: ştiinţe exacte sau sociale, umanistică sau afaceri etc. O disciplină strâns legată
de Statistică este Econometria. Aceasta ramură a Economiei se preocupă de aplicaţii ale teoriilor
economice, ale Matematicii şi Statisticii în estimarea şi testarea unor parametri economici, sau în
prezicerea unor fenomene economice.

Statistica a apărut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre
populaţiile pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei mai
bune administrări. Datorită originii sale, Statistica este considerată de unii ca fiind o ştiinţă de sine
stătătoare, ce utilizează aparatul matematic, şi nu este privită ca o subramură a Matematicii. Dar
nu numai originile sale au fost motivele pentru care Statistica tinde să devină o ştiinţă separată de
Teoria Probabilităţilor. Datorită revoluţiei computerelor, Statistica a evoluat foarte mult în direcţia
computaţională, pe când Teoria Probabilităţilor foarte puţin. Aşa cum David Williams scria în
[williams], "Teoria Probabilităţilor şi Statistica au fost odată căsătorite; apoi s-au separat; în cele
din urmă au divorţat. Acum abia că se mai întâlnesc".

Din punct de vedere etimologic, cuvântului statistică îşi are originile în expresia latină statisticum
collegium (însemnând consiliul statului) şi cuvântul italian statista, însemnând om de stat sau
politician. În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat
pentru a analiza datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair a
extrapolat termenul la colecţii şi clasificări de date.

Metodele statistice sunt astăzi aplicate într-o gamă largă de discipline. Amintim aici doar câteva
exemple:
• în Geografie, spre exemplu, pentru a studia efectul incalzirii globale asupra repartitiei
padurilor pe glob;
• în Geologie, pentru a determina o harta a ratei infiltrarii apei intr-o anumita zona ubana;
• în Agricultură, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a fi folosite
pe un anumit teren arabil;
• în Economie, pentru studiul rentabilităţii unor noi produse introduse pe piaţă, pentru
corelarea cererii cu ofertă, sau pentru a analiza cum se schimbă standardele de viaţă;
• în Contabilitate, pentru realizarea operaţiunilor de audit pentru clienţi;
• în Biologie, pentru clasificarea din punct de vedere ştiinţific a unor specii de plante sau
pentru selectarea unor noi specii;
• în Ştiinţele educaţiei, pentru a găsi cel mai eficient mod de lucru pentru elevi sau pentru a
studia impactul unor teste naţionale asupra diverselor caregorii de persoane ce lucrează în
învăţământ;
• în Meteorologie, pentru a prognoza vremea într-un anumit ţinut pentru o perioadă de timp,
sau pentru a studia efectele încălzirii globale;
• în Medicină, pentru testarea unor noi medicamente sau vaccinuri;
• în Psihologie, în vederea stabilirii gradului de corelaţie între timiditate şi singurătate;
• în Politologie, pentru a verifica dacă un anumit partid politic mai are sprijinul populaţiei;
• în Ştiinţele sociale, pentru a studia impactul crizei economice asupra unor anumite clase
sociale;
• etc.
2.2 Modelare Statistică 13

Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identifica mai întâi
care este colectivitatea asupra căreia se doreşte studiul. Această colectivitate (sau populaţie) poate
fi populaţia unei ţări, sau numai elevii dintr-o şcoală, sau totalitatea produselor agricole cultivate
într-un anumit ţinut, sau toate bunurile produse într-o uzină. Dacă se doreşte studiul unei trăsături
comune a tuturor membrilor colectivităţii, este de multe ori aproape imposibil de a observa această
trăsătură la fiecare membru în parte, de aceea este mult mai practic de a strânge date doar despre
o submulţime a întregii populaţii şi de a căuta metode eficiente de a extrapola aceste observaţii
la toată colectivitatea. Există o ramură a statisticii ce se ocupă cu descrierea acestei colecţii de
date, numită Statistică descriptivă. Această descriere a trăsăturilor unei colectivităţi poate fi
făcută atât numeric (media, dispersia, mediana, cuantile, tendinţe etc), cât şi grafic (prin puncte,
bare, histograme etc). De asemenea, datele culese pot fi procesate într-un anumit fel, încât să
putem trage concluzii foarte precise despre anumite trăsături ale întregii colectivităţi. Această
ramură a Statisticii, care trage concluzii despre caracteristici ale întregii colectivităţi, studiind
doar o parte din ea, se numeşte Statistică inferenţială. În contul Statisticii inferenţiale putem trece
şi următoarele: luarea de decizii asupra unor ipoteze statistice, descrierea gradului de corelare
între diverse tipuri de date, estimarea caracteristicilor numerice ale unor trăsături comune întregii
colectivităţi, descrierea legăturii între diverse caracteristici etc.

2.2 Modelare Statistică


De obicei, punctul de plecare este o problemă din viaţa reală, e.g., care partid are o susţinere mai
bună din partea populaţiei unei ţări, dacă un anumit medicament este relevant pentru boală pentru
care a fost creat, dacă este vreo corelaţie între numărul de ore de lumina pe zi şi depresie. Apoi,
trebuie să decidem de ce tipuri date avem nevoie să colectăm, pentru a putea da un răspuns la
întrebarea ridicată şi cum le putem colecta. Modurile de colectare a datele pot fi diverse: putem
face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este
nevoie de o metodă bine stabilită de colectare a datelor şi să construim un model statistic potrivit
pentru analiza acestora. În general, datele (observaţiile sau măsurătorile) culese pot fi potrivite
într-un model statistic prin care

Data observată = f (x, θ ) + eroare de aproximare, (2.2.1)

unde f este o funcţie ce verifică anumite proprietăţi şi este specifică modelului, x este vectorul
ce conţine variabilele măsurate şi θ este un parametru (sau un vector de parametri), care poate fi
determinat sau nedeterminat. Termenul de eroare apare deseori în pratică, deoarece unele date
culese au caracter stochastic (nu sunt deterministe, in sensul ca valorile lor nu pot fi prevazute a
priori). Modelul astfel creat este testat, şi eventual revizuit, astfel încât să se potrivească într-o
măsură cât mai precisă datelor culese.

2.2.1 Populaţie statistică


O populaţie (colectivitate) statistică este o mulţime de elemente ce posedă o trasatură comună
ce urmează a fi studiată. Aceasta poate fi finită sau infinită, reală sau imaginară. Exemple de
populaţii statistice: populaţia unei anumite ţări, mulţimea tuturor studenţilor din România, nota la
disciplina Matematică de la Bacalaureat, cantitatea de precipitaţii căzute într-o anumită regiune a
ţării în luna Iunie, mulţimea tuturor astrelor din Univers, totalitatea celulelor dintr-un organism,
posibilele rezultate obţinute la LOTO etc. In acest material vom nota populatia statistica cu Ω.
Din punct de vedere matematic, Ω este o multime nevida. Elementele ce constituie o colectivitate
14 Chapter 2. Elemente de Statistică

statistică se vor numi unităţi statistice sau indivizi. Vom nota cu ω o unitate statistică. Dacă
populaţia este finită, atunci numărul N al unităţilor statistice ce o compun (i.e., |Ω|) îl vom numi
volumul colectivităţii (sau volumul populaţiei).

2.2.2 Caracteristică (variabilă)


Caracteristica (variabila) unei populaţii statistice este o anumită proprietate urmărită la indivizii
ei în procesul prelucrării statistice şi care constituie obiectul măsurării. Spre exemplu, înălţimea
bărbaţilor dintr-o anumită ţară, rata infiltrării apei în sol, media la Bacalaureat, altitudinea unor
munţi, culoarea frunzelor, naţionalitatea participanţilor la un congres internaţional etc. Din punct
de vedere matematic, caracteristica este reprezentată printr-o variabilă aleatoare definită pe Ω.
Spre exemplu, dacă populaţia statistică este mulţimea tuturor studenţilor dintr-o universitate
înrolaţi în anul întâi de master, atunci o caracteristica a sa ar fi media la licenţă obţinută de fiecare
dintre aceşti studenţi. Teoretic, mulţimea valorilor acestei caracteristici este intervalul [6, 10], iar
aceasta variabila poate lua orice valoare din acest interval.
Caracteristicile unei populaţii (la fel ca variabilele aleatoare) pot fi discrete sau continue. Car-
acteristicile discrete sunt cele care pot lua o mulţime finită sau cel mult numărabilă (adica, o
multime care poate fi numarată) de valori. Pentru a specifica o v.a. discretă, va trebui să enumerăm
toate valorile sale posibile, împreună cu probabilităţile corespunzatoare. Suma tuturor acestor
probabilităţi va fi întotdeauna egală cu 1, care este probabilitatea realizarii evenimentului sigur.
Când se face referire la repartiţia unei caracteristici discrete, se înţelege modul în care probabil-
itatea totală 1 este distribuită între toate posibilele valori ale caracteristicii. Această regulă de
atribuire a unor ponderi valorilor pe care le ia caracteristica se poate scrie sub forma unei funcţii,
numită funcţie de probabilitate (sau funcţie de masă).
Vom numi o caracteristică de tip continuu o variabilă pentru care mulţimea tuturor valorilor sale
este totalitatea numerelor dintr-un interval real (posibil infinit) sau toate numerele dintr-o reuniune
disjunctă de astfel de intervale, cu precizarea că pentru orice posibilă valoare c, P(X = c) = 0.
Deoarece în aceste multimi exista o infinitate de valori, nu mai putem defini o variabila continua
la fel ca in cazul discret, precizandu-i fiecare valoare pe care o ia si ponderea corespunzatoare. In
schimb, pentru o variabila aleatoare continua, putem preciza multimea in care aceasta ia valori
si o functie care sa descrie repartizarea acestor valori. O astfel de functie se numeste functie de
densitate a repartitiei, sau simplu, densitate de repartiţie.
Caracteristicile mai pot fi: cantitative (sau măsurabile sau numerice) (e.g., 2, 3, 5.75, 1/3, . . . )
sau calitative (categoriale sau atribute) (e.g., albastru, foarte bine, german etc). La rândul lor,
caracteristicile cantitative pot fi discrete (numărul de sosiri ale unui tramvai în staţie) sau continue
(timpul de aşteptare între două sosiri ale tramvaiului în staţie).
Caracteristicile pot depinde de una sau mai multe constante, numite parametri, parametrii fiind
astfel caracteristici numerice ale populaţiei. Spre exemplu, repartitia normala are doi parametri, µ
(media) şi σ (deviaţia standard).
Vom nota caracteristicile cu litere mari, X, Y, Z, . . ., iar valorile lor cu litere mici, x, y, z, . . ..

2.2.3 Parametrii populaţiei


Parametrii sunt masuri descriptive numerice ce reprezinta populatia prin caracteristicile sale.
Deoarece, în general, nu avem acces la intreaga populatie, parametrii sunt niste constante necunos-
cute, ce urmeaza a fi explicate sau estimate pe baza datelor. Spre exemplu, pentru variabilele
cantitative ale populatiei, putem avea: parametri care descriu tendinţa centrală a caracteristicii
populaţiei (e.g., media, mediana, momente), parametri care descriu dispersia valorilor carac-
2.2 Modelare Statistică 15

teristicii (e.g., dispersia, deviatia standard, coeficient de variatie, range, distanţa intercuantilică),
parametri de poziţie (e.g., cuantile), parametri ce descriu forma caracteristicii populaţiei (e.g.,
skewness, kurtosis). Pentru date bidimensionale, putem avea parametri ce descriu legătura
dintre două caracteristici ale unei populaţii, e.g., corelaţia sau coeficientul de corelaţie. Pentru
date calitative (categoriale), cei mai des utilizati parametri sunt: π− proporţia din populaţie ce
are caracteristica de interes (e.g., proporţia de fumători din ţară), cote − şanse teoretice pentru
observarea caracteristicii de interes la întreaga populaţie (e.g., exista 70% şanse să plouă mâine,
cota pentru victorie a unei echipe este 2-1 etc.).
O colectivitate statistică poate fi descrisă folosind una sau mai multe variabile. Pentru fiecare
dintre aceste variabile se pot determina anumite cantităţi sau calităţi specifice, numite parametri.
După cum vom vedea mai târziu, aceşti parametri pot fi determinaţi exact sau estimaţi pe baza
datelor statistice, care sunt nişte măsurători (observaţii) efectuate asupra caracteristicilor unei
populaţii de interes.

Mai jos, vom prezenta câţiva parametri des întâlniţi în analiza statistica. Aceşti parametri sunt
caracteristici numerice ale unei variabile aleatoare.
• media (sau valoarea aşteptată). Pentru o variabila, media este o măsură a tendinţei centrale
a valorilor sale. De remarcat faptul ca exista variabile (atat discrete cât şi continue) care
nu admit o valoare medie. Pentru o variabilă X, vom nota media sa teoretică prin µ = EX.
Dacă X admite medie, atunci se defineşte prin:
Z ∞
µ = ∑ x i pi µ = x f (x) dx
i∈I −∞
(in cazul unei v.a. discrete) (in cazul unei v.a. continue)

În cazul în care poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai multe
variabile în acelaşi timp), vom folosi notaţia µX . Pentru media teoretică a unei variabile
aleatoare se mai folosesc şi notaţiile: m, M(X) sau E(X).
• dispersia (sau varianţa). Dispersia variabilei (sau varianţa) este o masura a gradului de
împrăştiere a valorilor acestei variabile in jurul valorii medii. Dispersia va fi notată prin σ 2
sau Var(X). Este definită prin Var(X) = E[(X − µ)2 ] = E(X 2 ) − [EX]2 . În cazul în care
poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai multe variabile în
acelaşi timp), vom folosi notaţia σX2 .
Z ∞
σ2 = ∑(xi − µ)2 pi σ2 = (x − µ)2 f (x) dz
i∈I −∞
(in cazul unei v.a. discrete). (in cazul unei v.a. continue).

• abaterea standard (sau deviaţia standard). Se defineşte prin σ = σ 2 . Are avantajul ca
unitatea sa de masura este aceeasi cu a variabilei X.
• coeficientul de variaţie. Este definit prin CV = σµ sau, scris sub forma de procente, CV =
100 σµ %. Este util in compararea variatiilor a doua sau mai multe seturi de date ce tin de
aceeasi variabila. Daca variatiile sunt egale, atunci vom spune ca setul de observatii ce are
media mai mica este mai variabil decat cel cu media mai mare.
• momente centrate. Pentru o v.a. X (discretă sau continuă), ce admite medie, momentele
centrate sunt valorile aşteptate ale puterilor lui X − µ. Definim astfel µk (X) = E((X − µ)k ).
16 Chapter 2. Elemente de Statistică

În particular, Z ∞
k µk (X) = (x − µ)k f (x) dx;
µk (X) = ∑(xi − µ) pi ; −∞
i∈I
(in cazul unei v.a. continue).
(in cazul unei v.a. discrete).
Momente speciale:
(a) µ2 (X) = σ 2 . Al doilea moment centrat este chiar dispersia.
(b) coeficientul de asimetrie (skewness). De regulă, este notat prin γ1 şi este al treilea moment
centrat standardizat. Măsoară simetria/asimetria repartiţiei unei unei variabile.
(c) kurtosis (sau excesul). Este o măsură a distribuţiei valorilor extreme (outliers) ale unei
variabilei. Poate indica dacă repartiţia unei variabile este predispusă la valori extreme
(outliers). Este al patrulea moment centrat standardizat, uneori translatat cu valoarea −3,
caz în care se numeşte exces.

• cuantile. Sunt măsuri ale poziţiei unei valori printre toate valorile unei variabile. Exemple
de cuantile: mediana, cuartile, decile, centile, promile.
• covarianţa. Conceptul de covarianţă este legat de modul în care două variabile aleatoare
(ce admit medii) tind să se modifice una faţă de cealaltă; ele se pot modifica fie în aceeaşi
direcţie (caz în care vom spune că X1 şi X2 sunt direct <sau pozitiv> corelate) sau în direcţii
opuse (X1 şi X2 sunt invers <sau negativ> corelate). Dacă variabilele X1 , X2 admit medii,
respectiv, µ1 , µ2 , atunci covarianţa variabilelor X1 şi X2 , notată prin cov(X1 , X2 ), este
definită prin
cov(X1 , X2 ) = E[(X1 − µ1 )(X2 − µ2 )].
• coeficientul de corelaţie. Este tot o măsură a legăturii (liniare) dintre două variabile ce
admit medii. Acesta este foarte utilizat în ştiinţe ca fiind o măsură a dependenţei liniare
între două variabile. Se numeşte coeficient de corelaţie al variabilelor aleatoare X1 şi X2
cantitatea
cov(X1 , X2 )
ρX1 , X2 = ,
σ1 σ2
unde σ1 si σ2 sunt deviatiile standard pentru X1 , respectiv, X2 .

2.2.4 Eşantion (selecţie)


In general, volumul colectivitatii poate fi foarte mare sau chiar infinit, astfel ca efectuarea
unui recensământ (i.e., observarea caracteristicii de interes pentru toate elementele ce compun
colectivitatea) este fie foarte costisitoare sau imposibila. Pentru a efectua o analiza a caracteristicii
de interes sau chiar a repartitiei datelor observate, este suficienta analiza unei selectii de volum
suficient de mare formata din observatii ale caracteristicii, urmand ca aceasta analiza sa fie
extrapolata (folosind metode statistice specifice) pentru întreaga populaţie.
O selecţie (sau eşantion) este o colectivitate parţială de elemente extrase (la întâmplare sau nu) din
colectivitatea generală, în scopul cercetării lor din punctul de vedere al unei caracteristici. Dacă
extragerea se face la întâmplare, atunci spunem că am facut o selecţie întâmplătoare. Numărul
indivizilor din selecţia aleasă se va numi volumul selecţiei. Dacă se face o enumerare sau o
listare a fiecărui element component al unei populaţii statistice, atunci spunem că am facut un
recensământ. Selecţia ar trebui să fie reprezentativă pentru populaţia din care face parte. Numim
o selecţie repetată (sau cu repetiţie) o selecţie în urma căreia individul ales a fost reintrodus din
nou în colectivitate. Altfel, avem o selecţie nerepetată. Selecţia nerepetată nu prezintă interes
2.2 Modelare Statistică 17

dacă volumul colectivităţii este finit, deoarece în acest caz probabilitatea ca un alt individ să
fie ales într-o extragere nu este aceeaşi pentru toţi indivizii colectivităţii. Pe de altă parte, dacă
volumul întregii populaţii statistice este mult mai mare decât cel al eşantionului extras, atunci
putem presupune că selecţia efectuată este repetată, chiar dacă în mod practic ea este nerepetată.
Spre exemplu, dacă dorim să facem o prognoză pentru a vedea cine va fi noul preşedinte în urma
alegerilor din toamnă, eşantionul ales (de altfel, unul foarte mic comparativ cu volumul populaţiei
cu drept de vot) se face, în general, fără repetiţie, dar îl putem considera a fi o selecţie repetată, în
vederea aplicării testelor statistice.
Selecţiile aleatoare se pot realiza prin diverse metode, în funcţie de următorii factori: disponibili-
tatea informaţiilor necesare, costul operaţiunii, nivelul de precizie al informaţiilor etc. Mai jos
prezentăm câteva metode de selecţie.
• selecţie simplă de un volum dat, prin care toţi indivizii ce compun populaţia au aceeaşi
şansă de a fi aleşi. Această metodă mininimizează riscul de a fi părtinitor sau favorabil
unuia dintre indivizi. Totuşi, această metodă are neajunsul că, în anumite cazuri, nu reflectă
componenţa întregii populaţii. Se aplică doar pentru colectivităţi omogene din punctul de
vedere al trăsăturii studiate.
• selecţie sistematică, ce presupune aranjarea populaţiei studiate după o anumită schemă
ordonată şi selectând apoi elementele la intervale regulate. (e.g., alegerea a fiecărui al 10-lea
număr dintr-o carte de telefon, primul număr fiind ales la întâmplare (simplu) dintre primele
10 din listă).
• selecţie stratificată, în care populaţia este separată în categorii, iar alegerea se face la
întâmplare din fiecare categorie. Acest tip de selecţie face ca fiecare grup ce compune
populaţia să poata fi reprezentat în selecţie. Alegerea poate fi facută şi în funcţie de mărimea
fiecărui grup ce compune colectivitatea totală (e.g., aleg din fiecare judeţ un anumit număr
de persoane, proporţional cu numărul de persoane din fiecare judeţ).
• selecţie ciorchine, care este un eşantion stratificat construit prin selectarea de indivizi din
anumite straturi (nu din toate).
• selecţia de tip experienţă, care ţine cont de elementul temporal în selecţie. (e.g., diverşi
timpi de pe o encefalogramă).
• selecţie de convenienţă: de exemplu, alegem dintre persoanele care trec prin faţa univer-
sităţii.
• selecţie de judecată: cine face selecţia decide cine ramâne sau nu în selecţie.
• selecţie de cotă: selecţia ar trebui să fie o copie a întregii populaţii, dar la o scară mult mai
mică. Aşadar, putem selecta proporţional cu numărul persoanelor din fiecare rasă, de fiecare
gen, origine etnică etc) (e.g., persoanele din Parlament ar trebui să fie o copie reprezentativă
a persoanelor întregii ţări, într-o scară mult mai mică).

2.2.5 Date statistice


Vom numi date (sau date statistice) informaţiile obţinute în urma observaţiei valorilor unei
caracteristici a unei populatii statistice. Există mai multe tipuri de date statistice, după cum
caracteristica (sau variabila) observată este calitativă (exprima o calitate sau o categorie) sau,
respectiv, cantitativă (are o valoare numerica). Putem avea:
• date calitative (se mai numesc şi categoriale). Datele calitative pot fi de două feluri:
– nominale. Acestea pot fi organizate pe niveluri distincte (categorii), fără a considera o
anumită ordine între ele. De exemplu: culoarea părului, naţionalitatea unei persoane,
afilierea politică, genul unei persoane etc.
18 Chapter 2. Elemente de Statistică

– ordinale. Valorile ordinale fac referinţă la ordinea lor. De cele mai multe ori, această
grupare şi ordonare în categorii este naturală, deşi de multe ori nu se cunosc distanţele
între categorii. De exemplu: schimbarea stării unui pacient după un anumit tratament
(aceasta poate fi: îmbunătăţire semnificativă, îmbunătăţire moderată, nicio schimbare,
înrăutăţire moderată, înrăutăţire semnificativă). Alte exemple: răspunsurile la sondaj
de opinie (total dezacord, dezacord, de acord, total de acord), evaluări ale filmelor (1
stea, 2 stele etc.).
Există situaţii când datele calitative (sau categoriale) pot fi exprimate numeric. Spre exemplu,
se pot atribui coduri numerice unor date calitative, ce permit prelucrarea lor cu ajutorul
metodelor statistice. De exemplu, atribuirea numerică a calificativelor oferite de către
studenţi profesorilor, de la dezacord total (1), până la acord total (5).
• date cantitative (sau numerice). Aceste date reprezintă rezultatele unor numărări sau
măsurători. Datele cantitative pot fi comparate între ele pe o axă numerică. Ele pot fi, la
rândul lor:
– date de tip discret, dacă sunt obţinute în urma observării unei caracteristici discrete (o
variabila aleatoare discretă, sau o variabila ale carei posibile valori sunt in numar finit
sau cel mult numărabil). Exemple: numărul de studenţi care vin la un curs, numărul
de copii care îi are o mamă, nota la examenul de Statistică etc.
– date continue, dacă această caracteristică este continuă (o variabilă aleatoare de tip
continuu, sau o variabila ce poate lua orice valoare dintr-un interval sau chiar de pe
axa reala). Exemple: media de la licenţă, atunci datele rezultate vor fi cantitative şi
continue, timpul de funcţionare e continuă a unei baterii, înălţimea unei persoane etc.
• Mai putem vorbi de date univariate, bivariate sau multivariate, atunci când datele statistice
sunt observaţii asupra unei variabile, a două variabile sau a mai multor variabile, respectiv.
• Spunem că avem date temporale sau spaţiale, după cum variabila studiată este dependentă
de timp (se obţin serii de timpi) sau de spaţiu (e.g., aciditatea solului în diverse locaţii).

Un alt mod de a caracteriza datele cantitative este următorul:

• date de tip interval. Datele de tip interval pot fi organizate în intervale de lungime egală,
semnificând diferent, e egale în caracteristica măsurată, dar fără a avea un zero semnificativ
(un punct „zero adevărat”), ci doar un zero arbitrar. Datele de tip interval sunt ordonate,
pot fi atât continue cât şi discrete. Le putem aduna şi scădea, dar nu le putem înmulţi sau
împărţi. Punctul cheie al unei scale de tip interval este cuvântul „interval”, care înseamnă
„spat, iu dintre”. Astfel, scalele de tip interval nu ne dau informaţii doar despre ordine, ci s, i
despre distanţa dintre fiecare element. Datele de tip interval pot arăta init, ial ca nişte date
ordinale (de exemplu, temperatură scăzută, medie sau ridicată), dar nivelurile sunt de natură
cantitativă s, i diferent, ele dintre niveluri au o semnificat, ie consistentă.

Un exemplu de date de tip interval: ora observată la un ceas analogic, de 12 ore. Ceasul are
intervale egale, iar timpul necesar pentru ca orarul să treacă de la 1 la 2 este acelas, i cu timpul
necesar pentru a trece de la 9 la 10. Ora 0 nu semnifică lipsa unei măsurători, deci 0 nu semnifică
absenţa mărimii. Pe această scală, valorile se pot aduna sau scădea, dar nu se pot înmulţi sau
împărţi. Spre exemplu, ora 10 nu este dublul orei 5.
Alte exemple de date de tip interval: date calendaristice, anul naşterii, coeficientul IQ al unei
2.2 Modelare Statistică 19

persoane, temperatura în grade Celsius etc.

Figure 2.1: Tipuri de date statistice Figure 2.2: Scale pentru date statistice

• date de tip raport. Datele de tip raport reprezintă cea mai complexă scală de măsurare a
datelor, precum s, i cea mai preferată scară de măsurare. Au toate proprietăt, ile datelor de tip
interval, dar posedă şi un zero natural, ceea ce înseamnă că există un punct în care măsura
respectivă, oricare ar fi ea, nu există. De aceea, putem înmult, i s, i împărt, i, precum s, i aduna
sau scădea datele de tip raport. Exemple de date de tip raport: date obţinute ca observaţii ale
unor variabile precum înălt, imea, masa corporală, durata, vârsta etc. Toate aceste variabile
pot avea o valoare de zero care reprezintă nimicul (absenţa valorii). Un alt exemplu de date
de tip raport este venitul: banii câs, tigat, i într-o perioadă de timp. Se poate câs, tiga fie 0 RON
într-o lună, fie orice altă sumă de RON mai mare decât zero.

În mod esent, ial, datele de tip interval pot fi negative sau pozitive, în timp ce datele de tip raport
pot fi doar pozitive.

2.2.6 Indicatori statistici (statistici)

Pe baza datelor observate pentru un eşantion, putem construi diversi indicatori statistici care sa es-
timeze parametrii necunoscuti, obtinand descrieri numerice pentru populatie. Astfel de indicatori
se numesc statistici. Prin intermediul statisticilor putem trage concluzii despre populaţia Ω, din
care a provenit eşantionul observat. Teoria probabilităţilor ne oferă procedee de determinare a
repartiţiei asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte. Repartiţia
exactă este acea repartiţie ce poate fi determinată pentru orice volum al selecţiei. În general, dacă
se lucrează cu selecţii de volum redus (n < 30), atunci repartiţia exactă ar trebui să fie cunoscută a
priori, dacă se doreşte luarea de decizii prin inferenţă. Repartiţia asimptotică este repartiţia limită
a statisticii când n → ∞, iar utilizarea acesteia conduce la rezultate bune doar pentru n ≥ 30 (sau
n ≥ 40, depinzând de specificul datelor).
In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga informatii din aces-
tea. Mai concret, detine metodele necesare de a realiza urmatoarele cerinte: sa descrie cat mai fidel
si sugestiv acele date (prin grafice sau indicatori statistici), sa estimeze anumiti parametri de interes
(e.g., media teoretica, deviatia standard, asimetria ale caracteristicii), sa verifice prin inferenta
ipotezele ce se pot face referitoare la anumiti parametri ai caracteristicii sau chiar la forma acesteia.
20 Chapter 2. Elemente de Statistică

Baza de comparaţie Populaţie (colectivitate) Eşantion (selecţie)


colecţia tuturor elementelor care un subgrup al membrilor
ce este? posedă caracteristici comune, populaţiei, aleşi pentru
ce sunt de interes în studiu a participa la studiu
ce include? fiecare membru (unitate) doar o submulţime
din grup din membrii grupului
caracteristica parametru statistică
colectarea datelor recensământ selecţie sau sondaj
interes în descrierea caracteristicilor luarea de decizii în ce
şi a parametrilor priveşte populaţia (inferenţă)

Table 2.1: Populaţie vs. Eşantion

Figure 2.3: Populaţie vs. eşantion

2.2.7 Etapele unei analize statistice


• Verificarea datelor pentru erori sau date lipsă. Sunt cazuri în care datele statistice sunt
înregistrate greşit (e.g., lipseşte virgula sau nu este la locul potrivit, unele date au o altă
unitate de măsură sau lipsesc unele valori).
• Organizarea şi gruparea datelor. Aceasta se face folosind tabele de frecvenţe. Gruparea
datelor nu este unică şi se pot încerca diverse grupări, alegându-se cea mai potrivită specifi-
cului datelor. Este la latitudinea statisticianului de a le organiza, în funcţie de specificul lor,
de informaţiile pe care doreşte să le extragă.
• Reprezentarea datelor folosind diagrame/grafice potrivite. Datele de tip interval şi raport
pot fi reprezentate prin histograme sau prin sectoare de disc, iar cele de tip categorial pot
fi reprezentate prin bare sau prin sectoare de disc. Un grafic potrivit poate sugera multe
informaţii despre date. Pentru datele statistice cantitative se poate reprezenta şi diagrama
box-and-whiskers plot, reprezentând sinteza celor cinci statistici importante: valoarea
minimă, prima cuartilă, mediana (a doua cuartilă), a treia cuartilă şi valoarea maximă a
datelor. Această diagramă poate indica (dacă este cazul!) existenţa unor valori care ies din
2.2 Modelare Statistică 21

tiparul majorităţii valorilor (numite outliers).


• Calculul unor indicatori statistici pentru date. Spre exemplu, se pot calcula: media,
dispersia, mediana, skewness, coeficientul de variaţie etc. Aceşti indicatori se doresc a fi
reprezentanţi numerici ai datelor statistice.
• Luarea de decizii pe baza datelor. Aceasta se poate face în urma unor teste statistice.
Exemple de teste statistice: test pentru verificarea normalităţii datelor, test pentru verificarea
mediei datelor, test pentru semnificaţia coeficientului de corelaţie etc.

Figure 2.4: Paşi în analiza statistică

2.2.8 Limitări ale Statisticii


• Statistica se ocupă, în special, de caracteristicile cantitative, cele calitative fiind de multe ori
ignorate. [Un statistician este un profesionist care culege cu sârguinţă fapte şi date, iar apoi trage cu
atenţie concluzii confuze despre acestea.]
• Statistica se ocupă doar de analiza grupurilor sau a maselor. Aşadar, nu pot fi obţinute date
şi informaţii foarte exacte despre elemente individuale.
[Statistica ne arată că, în medie, un român are mai puţin de două picioare.]
• Statistica analizează doar date omogene (de natură similară), neputând explica datele
heterogene. [Statistica este ca o pereche de bikini. Ceea ce ne arată este sugestiv, iar ceea ce
ascunde este... de interes.]
• Statistica nu este 100% sigură. Există mereu un nivel de risc asociat deciziilor statistice.
[Un statistician nu trebuie să spună niciodată că este sigur; e suficientă o încredere de 95%.]
• Legile statisticii se bazează de multe ori pe medii, deci ele nu sunt universal valabile.
[Un statistician poate sta cu capul într-un cuptor incandescent şi cu picioarele înfipte în gheaţă,
spunând că, în medie, se simte bine.]
22 Chapter 2. Elemente de Statistică

• Este nevoie de cunoştinţe speciale pentru a aplica legile statisticii. Doar cunos, tinţe generale
de matematică sau de economie nu sunt suficiente pentru a lucra cu date statistice.
[Fiecare american ar trebui să aibă venituri peste medie, iar administraţia mea va face tot posibilul să
obţină acest deziderat.] [Bill Clinton, în campanie electorală]
• Se poate întâmpla ca rezultatul obţinut în urma unei analize statistice să inducă în eroare,
posibil şi din cauza colectării şi/sau interpretării necorespunzătoare a datelor.
[Dacă ajungi până la o sută de ani, te-ai scos! Statistica arată că nu au fost mulţi oameni care să fi
murit după această vârstă.] [George Burns]

2.3 Organizarea şi descrierea datelor


Presupunem că avem o colectivitate statistică, căreia i se urmăreşte o anumită caracteristică (sau
variabila). Spre exemplu, colectivitatea este mulţimea tuturor studenţilor dintr-o universitate
înrolaţi în anul întâi de master, iar caracteristica este media la licenţă obţinută de fiecare dintre
aceşti studenţi. Teoretic, mulţimea valorilor acestei caracteristici este intervalul [6, 10], iar aceasta
variabila poate lua orice valoare din acest interval.

Vom numi date (sau date statistice) informaţiile obţinute în urma observarii valorilor acestei
caracteristici. In cazul mentionat mai sus, datele sunt mediile la licenţă observate. În general,
datele pot fi calitative (se mai numesc şi categoriale) sau cantitative, după cum caracteristica (sau
variabila) observată este calitativă (exprima o calitate sau o categorie) sau, respectiv, cantitativă
(are o valoare numerica). Totodata, aceste date pot fi date de tip discret, dacă sunt obţinute în
urma observării unei caracteristici discrete (o variabila aleatoare discretă, sau o variabila ale
carei posibile valori sunt in numar finit sau cel mult numarabil), sau date continue, dacă această
caracteristică este continuă (o variabilă aleatoare de tip continuu, sau o variabila ce poate lua orice
valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele vor fi
cantitative şi continue.

În Statistica clasică, se obisnuieste a se nota variabilele (caracteristicile) cu litere mari, X, Y, Z, . . .,


si valorile lor cu litere mici, x, y, z, . . .. In mare parte din acest curs vom folosi notatia Z pentru
variabila aleatoare si cu z o posibila valoare (sau realizare) a sa. Daca in exemplul de mai sus
notam cu Z variabila medie la licenta, atunci un anume z observat va fi media la licenta pentru un
student din colectivitate ales aleator.

În Geostatistică, datele observate au caracter spatial, adica sunt legate de pozitie. Pozitia spatiala
poate fi unu, doi sau trei-dimensionala. Majoritatea datelor spatiale din acest curs vor avea pozitie
doi-dimensionala (sau bidimensionala). Vom nota cu x = (x1 , x2 ) vectorul de coordonate bidimen-
sionale. Astfel prin Z(x) sau Z(x1 , x2 ) vom nota variabila Z in locatia x, iar prin z(x) sau z(x1 , x2 )
vom nota valoarea variabilei Z in locatia x. Daca avem mai multe valori ale variabilei Z, le vom
nota prin z1 , z2 , z3 , . . . . În Geostatistica, se foloseste termenul de variabila pentru a caracteriza o
valoare necunoscuta pe care o trasatura unei populatii o poate lua in locatii spatio-temporale.

Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea
şi reprezentarea grafica a datelor, dar şi în calcularea anumitor caracteristici numerice pentru
2.4 Gruparea datelor 23

acestea. Datele înainte de prelucrare, adică exact aşa cum au fost culese, se numesc date negrupate.
Un exemplu de date negrupate (de tip continuu) sunt cele observate in Tabelul 2.2, reprezentând
timpi (în min.sec) de aşteptare pentru primii 100 de clienţi care au aşteptat la un ghişeu până au
fost serviţi.
1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63
0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77
2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89
0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67
1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74
3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80
3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98
5.36 1.32 1.76 2.14 3.28 3.89 4.85 4.12 0.88
Table 2.2: Date statistice negrupate

De cele mai multe ori, enumerarea tuturor datelor culese este dificil de realizat, de aceea se
urmăreşte a se grupa datele, pentru o mai uşoară gestionare. Imaginaţi-vă că enumerăm toate
voturile unei selecţii întâmplătoare de 15000 de votanţi, abia ieşiţi de la vot. Mai degrabă, ar fi
mai util şi practic să grupăm datele după numele candidaţilor, precizând numărul de voturi ce l-a
primit fiecare. Asadar, pentru o mai buna descriere a datelor, este necesara gruparea lor in clase
de interes.

2.4 Gruparea datelor


Datele prezentate sub formă de tabel (sau tablou) de frecvenţe se numesc date grupate. Datele
de selecţie obţinute pot fi date discrete sau date continue, după cum caracteristicile studiate sunt
variabile aleatoare discrete sau, respectiv, continue.

(1) Date de tip discret: Dacă datele de selecţie sunt discrete (e.g., {z1 , z2 , . . . , zn }), este posibil
ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt z01 , z02 , . . . , z0r ,
r ≤ n. Atunci, putem grupa datele într-un aşa-numit tabel de frecvenţe (vezi exemplul din Tabelul
2.3). Alternativ, putem organiza datele negrupate într-un tabel de frecvenţe, după cum urmează:

data z01 z02 ... z0r


(2.4.2)
frecventa f1 f2 ... fr

unde fi este frecvenţa apariţiei valorii z0i , (i = 1, 2, . . . , r), şi se va numi distribuţia empirică de
selecţie a lui Z. Aceste frecvenţe pot fi absolute sau de relative. Un tabel de frecvenţe (sau o
distribuţie de frecvenţe) conţine cel puţin două coloane: o coloană ce reprezintă datele observate
(grupate în clase) şi o coloană de frecvenţe. În prima coloană apar clasele, adică toate valorile
distincte observate. Datele din această coloană nu se repetă. Prin frecvenţa absolută a clasei
înţelegem numărul de elemente ce aparţine fiecărei clase în parte. De asemenea, un tabel de
frecvenţe mai poate conţine frecvenţe relative sau cumulate. O frecvenţă relativă se obţine prin
împărţirea frecvenţei absolute a unei categorii la suma tuturor frecvenţelor din tabel. Astfel, suma
tuturor frecvenţelor relative este egală cu 1. Frecvenţa (absolută) cumulată a unei clase se obţine
prin cumularea tuturor frecvenţelor absolute până la (inclusiv) clasa respectivă. Frecvenţa relativă
cumulată a unei clase se obţine prin cumularea tuturor frecvenţelor relative până la (inclusiv)
24 Chapter 2. Elemente de Statistică

nota frecvenţa absolută frecvenţa cumulată frecvenţa relativă frecvenţa relativă cumulată
2 2 2 2.22% 2.22%
3 4 6 4.44% 6.66%
4 8 14 8.89% 15.55%
5 15 29 16.67% 32.22%
6 18 47 20.00% 52.22%
7 17 64 18.89% 71.11%
8 15 79 16.67% 87.78%
9 7 86 7.78% 95.56%
10 4 90 4.44% 100%
Total 90 - 100% -

Table 2.3: Tabel cu frecvenţe pentru date discrete.

clasa respectivă.

Aşadar, elementele unui tabel de frecvenţe pot fi: clasele (ce conţin valori pentru variabile),
frecvenţe absolute, frecvenţe relative sau cumulate. Într-un tabel, nu este obligatoriu să apară
toate coloanele cu frecvenţe sau ele să apară în această ordine.
Vom numi o serie de timpi (sau serie dinamică ori cronologică) un set de date culese la momente
diferite de timp. O putem reprezenta sub forma unui tablou de forma
 
z1 z2 ... zn
data : ,
t1 t2 ... tn

unde zi sunt valorile caracteristicii, iar ti momente de timp (e.g., răspunsurile citite de un electro-
cardiograf).

În Tabelul 2.3, sunt prezentate notele studenţilor din anul al III-lea la examenul de Statistică.
Acesta este exemplu de tabel ce reprezentă o caracteristică discretă.

(o glumă povestită de G. Pólya,1 despre cum NU ar trebui interpretată frecvenţa relativă)


Un individ suferind merge la medic. Medicul îl examinează îndelung şi, balansând dezamăgit capul, îi
spune pacientului:
"Offf... dragă domnule pacient, am două veşti: una foarte proastă şi una bună. Mai întâi vă aduc la
cunoştinţă vestea proastă: suferiţi de o boală groaznică. Statistic vorbind, din zece pacienţi ce contractează
această boală, doar unul scapă."
Pacientul, deja în culmea disperării, este totuşi consolat de doctor cu vestea cea bună:
"Dar, fiţi pe pace! Dumneavoastră aţi venit la mine, şi asta vă face tare norocos", continuă optimist doctorul.
"Am avut deja nouă pacienţi ce au avut aceeaşi boală şi toţi au murit, aşa că... veţi supravieţui!"
(2) Date de tip continuu: Dacă datele statistice sunt realizări ale unei variabile Z de tip continuu,
atunci se obişnuieste să se facă o grupare a datelor de selecţie în clase. Datele de tip continuu pot
fi grupate într-un tablou de distribuţie sau sub forma unui tabel de distribuţie, dupa cum urmeaza:

1 György Pólya (1887 − 1985), matematician ungur


2.4 Gruparea datelor 25

clasa frecvenţa valoare medie


[a0 , a1 ) f1 z01
[a1 , a2 ) f2 z02
.. .. ..
data [a0 , a1 ) [a1 , a2 ) ... [ar−1 , ar ) . . .
frecventa f1 f2 ... fr [ar−1 , ar ) fr z0r

Table 2.4: Tabel cu frecvenţe pentru


date de tip continuu.
În particular, putem grupa datele de tip continuu din Tabelul 2.2 în tabloul de distribuţie următor:

data [0, 1) [1, 2) [2, 3) [3, 4) [4, 5) [5, 6)


frecventa 14 17 21 18 16 14

Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot fi modificate dupa cum doreste
utilizatorul. Uneori, tabelul de distribuţie pentru o caracteristică de tip continuu mai poate fi scris
şi sub forma unui tabel ca in (2.4.2), unde
ai−1 + ai
• z0i = este elementul de mijloc al clasei [ai−1 , ai );
2
r
• fi este frecvenţa apariţiei valorilor din [ai−1 , ai ), (i = 1, 2, . . . , r), ∑ fi = n.
i=1
Pentru definirea claselor unui tabel de frecvenţe, nu există o regulă precisă. Fiecare utilizator
de date îşi poate crea propriul tabel de frecvenţe. Scopul final este ca acest tabel să scoată în
evidenţă caracteristicele datelor, cum ar fi: existenţa unor grupe (clase) naturale, variabilitatea
datelor într-un anumit grup (clasă), informaţii legate de existenţa unor anumite date statistice care
nu au fost observate in selecţia dată etc. În general, aceste caracteristici nu ar putea fi observate
privind direct setul de date negrupate. Totuşi, pentru crearea tabelelor de frecvenţe, se recomandă
următorii paşi:
1. Determinarea numărului de clase (disjuncte). Este recomandat ca numărul claselor să fie
între 5 şi 20. Dacă volumul datelor este mic (e.g., n < 30), se recomandă constituirea a 5
sau 6 clase. De asemenea, dacă este posibil, ar fi util ca fiecare clasă să fie reprezentată de
cel puţin 5 valori (pentru un număr mic de clase). Dacă numărul claselor este mai mare,
putem avea şi mai puţine date într-o clasă, dar nu mai puţin de 3. O clasă cu prea puţine
valori (0, 1 sau 2) poate să nu fie reprezentativă.
2. Determinarea lăţimii claselor. Dacă este posibil, ar fi bine dacă toate clasele ar avea aceeaşi
lăţime. Acest pas depinde, în mare măsuraă, de alegerea din pasul anterior.
3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât fiecare
dată statistică să aparţine unei singure clase.
În practică, un tabel de frecvenţe se realizează prin încercări, până avem convingerea că gruparea
făcută poate surprinde cât mai fidel datele observate.
Aşadar, dacă ne este dată o înşiruire de date ale unei caracteristici discrete sau continue, atunci
le putem grupa imediat în tabele sau tablouri de frecvenţe. Invers (avem tabelul sau tabloul de
repartiţie şi vrem să enumerăm datele) nu este posibil, decât doar în cazul unei caracteristici de tip
discret. De exemplu, dacă ni se dă Tabelul 2.5, ce reprezintă rata somajului într-o anumită regiune
a ţării pe categorii de vârste, nu am putea şti cu exactitate vârsta exactă a persoanelor care au fost
selecţionate pentru studiu.
Observăm că acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi
valoare de mijloc pentru o clasă, valoarea obţinută prin media valorilor extreme ale clasei. În
26 Chapter 2. Elemente de Statistică

vârsta frecvenţa frecvenţa relativă frecvenţa cumulată vârsta medie


[18, 25) 34 8.83% 8.83% 21.5
[25, 35) 76 19.74% 28.57% 30
[35, 45) 124 32.21% 60.78% 40
[45, 55) 87 22.60% 83.38% 50
[55, 65) 64 16.62% 100.00% 60
Total 385 100% - -

Table 2.5: Tabel cu frecvenţe pentru rata somajului.

cazul Tabelului 2.5, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenţa cumulată
a unei clase este suma frecvenţelor tuturor claselor cu valori mai mici.

2.5 Reprezentarea datelor statistice


Un tabel de frecvenţe sau o distribuţie de frecvenţe (absolute sau relative) sunt de cele mai multe
ori baza unor reprezentări grafice, pentru o mai bună vizualizare a datelor. Aceste reprezentări pot
fi făcute în diferite moduri, dintre care amintim pe cele mai uzuale.

2.5.1 Reprezentare prin puncte


Reprezentarea prin puncte (en., dot plot)
este folosită, de regula, pentru selecţii de
date de tip discret de dimensiuni mici. Sunt
reprezentate puncte aşezate unul peste celalalt,
reprezentând numărul de apariţii ale unei
valori pentru caracteristica dată. Un astfel
de grafic este reprezentat în Figura 2.5.
Aceste reprezentări sunt utile atunci când
se doreşte scoaterea în evidenţă a anumitor
pâlcuri de date (en., clusters) sau chiar lipsa
unor date (goluri). Au avantajul de a con-
serva valoarea numerică a datelor reprezentate.
Figure 2.5: Reprezentarea prin puncte.

2.5.2 Reprezentarea stem-and-leaf


Este folosita, de asemenea, pentru date de tip discret, de selectii de volum relativ mic. Următorul
set de date negrupate reprezinta punctajele (din 100 de puncte) obţinute de cei 20 de elevi ai unui
an de studiu la o testare semestrială:

50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96

Tabelul 2.7 reprezintă aceste date sub forma stem-and-leaf (ramură-frunză). Se observă că acest
tabel arată atât cum sunt repartizate datele, cât şi forma repartiţiei lor (a se privi graficul că având
pe OY drept axa absciselor şi OX pe cea a ordonatelor). Aşadar, 7|5 semnifică un punctaj de
75. Pentru un volum prea mare de date, această reprezentare nu este cea mai bună metodă de
2.5 Reprezentarea datelor statistice 27

vizualizare a datelor. În secţiunile următoare vom prezenta şi alte metode utile.
stem leaf
10
9 26
8 1568
7 357779
6 122488
5 0359
4 148
3 49
2
1 8
0

Figure 2.7: Tabel stem-and-leaf reprezentând


Figure 2.6: Reprezentarea datelor discrete. punctajele studenţilor.

2.5.3 Reprezentarea cu bare (bar charts)

Este utilă pentru reprezentarea variabilelor discrete cu un număr mic de valori diferite. Barele sunt
dreptunghiuri ce reprezintă frecvenţele şi nu sunt unite între ele. Fiecare dreptunghi reprezintă
o singură valoare. Într-o reprezentare cu bare, categoriile sunt plasate, de regulă, pe orizontală
iar frecvenţele pe verticală. În Figura 2.81 sunt reprezentate datele din tabelul cu note. Se poate
schimba orientarea categoriilor şi a claselor; în acest caz barele vor apărea pe orizontală (vezi
Figura 2.82 ). Figura 2.9 contine o reprezentare de date folosind bare 3D.

Figure 2.8: Reprezentările cu bare.


28 Chapter 2. Elemente de Statistică

Figure 2.9: Reprezentare 3D prin bare.

2.5.4 Histograme
Cuvântul "histogramă" a fost introdus pentru prima oară de Karl Pearson2 în 1895. Acesta derivă
din cuvintele greceşti histos (gr., ridicat în sus) şi gramma (gr., desen, înregistrare). O histogramă
este o formă pictorială a unui tabel de frecvenţe, foarte utilă pentru selecţii mari de date de tip
continuu. Se aseamănă cu reprezentarea prin bare, cu următoarele două diferenţe: nu există spaţii
între bare (deşi, pot apărea bare de înalţime zero ce arată a fi spaţiu liber) şi ariile barelor sunt
proporţionale cu frecvenţele corespunzătoare. Numărul de dreptunghiuri este egal cu numărul
de clase, lăţimea dreptunghiului este intervalul clasei, iar înălţimea este aşa încât aria fiecărui
dreptunghi reprezintă frecvenţa. Aria totală a tuturor dreptunghiurilor este egală cu numărul total
de observaţii. Dacă barele unei histograme au toate aceeaşi lăţime, atunci înălţimile lor sunt
proporţionale cu frecvenţele. Înălţimile barelor unei histogramei se mai numesc şi densităţi de
frecvenţă.
În cazul în care lăţimile barelor nu sunt toate egale, atunci înălţimile lor satisfac:
frecvenţa
înălţimea = k · , k = factor de proporţionalitate.
lăţimea clasei

Să presupunem că am fi grupat datele din Tabelul 2.6 într-o altă manieră, în care clasele nu sunt
echidistante (vezi Tabelul 2.8). În Tabelul 2.8, datele din ultimele două clase au fost cumulate
într-o singură clasă, de lăţime mai mare decât celelalte, deoarece ultima clasă din Tabelul 2.6
nu avea suficiente date. Histograma ce reprezintă datele din Tabelul 2.8 este cea din Figura 2.9.
Conform cu regula proporţionalităţii ariilor cu frecvenţele, se poate observa că primele patru bare
au înălţimi egale cu frecvenţele corespunzătoare, pe când înălţimea ultimei bare este jumătate din
valoarea frecvenţei corespunzătoare, deoarece lăţimea acesteia este dublul lăţimii celorlalte.

În general, pentru a construi o histogramă, vom avea în vedere următoarele:


− datele vor fi împărţite (unde este posibil) în clase de lungimi egale. Uneori aceste divizări sunt
naturale, alteori va trebui să le fabricăm.
2 Karl Pearson (1857 − 1936), statistician, avocat şi eugenist britanic
2.5 Reprezentarea datelor statistice 29

Înălţimea (în cm) frecvenţa


[0, 5) 5
[5, 10) 13
[10, 15) 23
[15, 20) 17
[20, 25) 10
[25, 30) 2

Table 2.6: Tabel cu înălţimile plantelor

Table 2.7: Histograme pentru datele din Tabelul 2.6

− numărul de clase este, în general, între 5 şi 20. Cu cât avem mai multe date, cu atât vom folosi
mai multe clase.
− în general, nu există o regulă exactă pentru a deter-
mina numărul de clase. Două dintre regulile cele mai
uzuale de stabilire a numărului de clase k sunt:
• numărul
√ de clase approximativ egal cu
numărul
√ de date. Spre exemplu, putem alege
k = [ n] + 1.
• (regula lui Sturges) numărul de clase k este astfel
încât k = 1 + 3.322 log10 , ori n = dlog2 ne + 1.
Metoda lui Sturges este optimă pentru un număr
de date n situat între 30 şi 200.
Figure 2.10: Histogramă 3D
− determinaţi lăţimea minimă a claselor după formula
valoarea maximă observată − valoarea minimă observată
h= .
k
Este o practică obis, nuită să rotunjit, i lăt, imea minimă a clasei până la o zecimală convenabilă,
pentru a face incrementele de-a lungul axei orizontale mai lizibile.
− determinaţi clasele şi apoi înregistraţi numărul de date din fiecare clasă (frecvenţe absolute).
− figura ce conţine histograma va avea clasele pe orizontală şi frecvenţele pe verticală.
Observaţia 2.1 (1) Dacă lungimea unei clase este infinită, atunci se obişnuieşte ca lăţimea
ultimului interval să fie luată drept dublul lăţimii intervalului precedent.
(2) În multe situaţii, capetele intervalelor claselor sunt nişte aproximări, iar în locul acestora vom
putea utiliza alte valori. Spre exemplu, să considerăm clasa [15, 20). Această clasă reprezintă
clasa acelor plante ce au înălţimea cuprinsă între 15cm şi 20cm. Deoarece valorile înălţimilor sunt
valori reale, valorile 15 şi 20 sunt, de fapt, aproximările acestor valori la cel mai apropiat întreg.
Aşadar, este posibil ca această clasă să conţină acele plante ce au înălţimile situate între 14.5cm
(inclusiv) şi 20.5cm (exclusiv). Am putea face referire la aceste valori ca fiind valorile reale ale
clasei, numite frontierele clasei. În cazul în care am determinat frontierele clasei, lăţimea unei
clase se defineşte ca fiind diferenţa între frontierele ce-i corespund. În concluzie, în cazul clasei
30 Chapter 2. Elemente de Statistică

Înălţimea (în cm) frecvenţa


[0, 5) 5
[5, 10) 13
[10, 15) 23
[15, 20) 17
[20, 30) 12

Table 2.8: Tabel cu înălţimile plantelor

Table 2.9: Histograme pentru datele din Tabelul 2.8

înălţimea (în cm) frontierele lăţimea frecvenţa densitatea de frecvenţă


[18, 25) 17.5 − 25.5 8 34 4.25
[25, 35) 24.5 − 35.5 11 76 6.91
[35, 45) 34.5 − 45.5 11 124 11.27
[45, 55) 44.5 − 55.5 11 87 7.91
[55, 65) 54.5 − 65.5 11 64 5.82

Table 2.10: Tabel cu frontierele claselor.

[15, 20), aceasta are frontierele 14.5 - 20.5, lăţimea 6 şi frecvenţa 17 6 . Pentru exemplificare, în
Tabelul 2.10 am prezentat frontierele claselor, lăţimile lor şi densităţile de frecvenţă pentru datele
din Tabelul 2.5.

2.5.5 Reprezentare prin sectoare de disc (pie charts)

Se poate reprezenta distribuţia unei caracteristici şi folosind sectoare de disc (diagrame circulare)
(en., pie charts), fiecare sector de disc reprezentând câte o frecvenţă relativă. Această variantă
este utilă în special la reprezentarea datelor calitative.

Există şi posibilitatea de a reprezenta datele prin sectoare 3 dimensionale. În Figura 2.12 am
reprezentat datele din Tabelul 2.5.
2.5 Reprezentarea datelor statistice 31

Figure 2.12: Reprezentare pe disc 3D


Figure 2.11: Reprezentarea pe disc a frecvenţelor
relative ale notelor din tabelul cu note

2.5.6 Poligonul frecvenţelor

Un poligon de frecvenţă este similar cu o reprezentare


cu bare, dar în loc să folosească barele, se creează
un poligon prin trasarea frecvenţelor şi conectarea
acestor puncte cu o serie de segmente.

Figure 2.13: Exemplu de polygon al


frecvenţelor

2.5.7 Ogive

Pentru frecventele cumulate pot fi folosite ogive. O


ogivă reprezintă graficul unei frecvenţe cumulate
(absolută sau relativă).

Figure 2.14: Ogivă pentru frecvenţele


absolute cumulate din Tabelul 2.3
32 Chapter 2. Elemente de Statistică

2.5.8 Diagrama Q-Q sau diagrama P-P

Q-Q plot (diagrama cuantila-cuantila) si P-P plot


(diagrama probabilitate-probabilitate) sunt uti-
lizate in a determina apropierea dintre doua se-
turi de date (repartitii). Daca datele provin dintr-
o acceasi repartitie, atunci ele se aliniaza dupa o
dreapta desenata in figura. Diagrama Q-Q este
bazata pe rangurile valorilor, iar diagrama P-P
este bazata pe functiile de repartitie empirice.
Figure 2.15: Exemplu de diagrama Q-Q plot

2.5.9 Diagrama scatter plot

Dacă (xk , yk ), k ∈ {1, 2, . . . , n} este un set de date


bidimensionale, ce reprezintă observaţii asupra vec-
torului aleator (X, Y ), atunci o măsură a legăturii
dintre variabilele X şi Y este coeficientul de core-
laţie empiric introdus de K. Pearson. Primul pas în
analiza regresională este vizualizarea datelor. Pen-
tru aceasta se foloseşte reprezentarea scatter plot.
Figure 2.16: Exemplu de scatter plot

2.6 Măsuri descriptive ale datelor statistice (indicatori statistici)


Să considerăm o populaţie statistică de volum N şi o caracteristică a sa, Z, ce are funcţia de
repartiţie F. Asupra acestei caracteristici facem n observaţii, în urma cărora obţinem un set de
date statistice. După cum am văzut anterior, datele statistice pot fi prezentate într-o formă grupată
(descrise prin tabele de frecvenţe) sau pot fi negrupate, exact aşa cum au fost culese în urma
observărilor. Pentru analiza acestora, pot fi utilizate diverse tehnici de organizare şi reprezentare
grafică a datelor statistice însă, de cele mai multe ori, aceste metode nu sunt suficiente pentru o
analiză detaliată. Suntem interesaţi în a atribui acestor date anumite valori numerice reprezentative.
Pot fi definite mai multe tipuri de astfel de valori numerice, e.g., măsuri ale tendinţei centrale
(media, modul, mediana), măsuri ale dispersiei (dispersia, deviaţia standard), măsuri de poziţie
(cuantile, distanţa intercuantilică) etc. În acest capitol, vom introduce diverse măsuri descriptive
numerice, atât pentru datele grupate, cât şi pentru cele negrupate.

2.6.1 Date negrupate


Considerăm un set de date statistice negrupate, z1 , z2 , . . . , zn (zi ∈ R, i = 1, 2 . . . , n, n ≤ N), ce
corespund unor observaţii făcute asupra variabilei Z. Pe baza acestor observatii, definim următorii
indici statistici, in scopul de a estima parametrii reali ai caracteristicilor populatiei. Printr-un
estimator pentru un parametru al populatiei intelegem o statistica alecarei valori se apropie foarte
2.6 Măsuri descriptive ale datelor statistice (indicatori statistici) 33

mult de valoarea parametrului atunci cand volumul selectiei este suficient de mare. Deoarece ele
se bazeaza doar pe observatiile culese, acesti indici statistici se mai numesc si masuri empirice.
• Valoarea medie
Este o măsură a tendinţei centrale a datelor. Pentru o selecţie {z1 , z2 , . . . , zn }, definim:

1 n
z= ∑ zi,
n i=1

ca fiind media datelor observate. Aceasta medie empirica este un estimator pentru media
teoretica, µ = EZ, daca aceasta exista.

• Pentru fiecare i, cantitatea di = zi − z se numeşte deviaţia valorii zi de la medie. Aceasta nu


poate fi definită ca o măsură a gradului de împrăştiere a datelor, deoarece
n
∑ (zi − z) = 0.
i=1

• Momentele
Pentru fiecare k ∈ N∗ , momentele centrate de ordin k se definesc astfel:

1 n
mk = ∑ (zi − z)k .
n i=1

• Dispersia
Aceasta este o măsură a gradului de împrăştiere a datelor în jurul valorii medii. Este un
estimator pentru dispersia populatiei. Pentru o selecţie {z1 , z2 , . . . , zn }, definim dispersia
astfel: !
n n
1 1
s2 = m2 = ∑ (zi − z)2 = [ ∑ z2i − n(z)2 ] .
n − 1 i=1 n − 1 i=1
Faptul ca apare n − 1 la numitor face ca aceasta masura empirica sa estimeze dispersia
teoretica fara deplasare, in sensul ca valoarea medie a lui s2 este chiar σ 2 . Acest fapt nu ar
mai fi fost valabil daca in loc de n − 1 ar fi fost n.
• Deviaţia standard
Este tot o măsură a împrăştierii datelor în jurul valorii medii, care estimeaza parametrul σ .
Pentru o selecţie {z1 , z2 , . . . , zn }, definim deviaţia standard:
s
1 n
s= ∑ (zi − z)2.
n − 1 i=1

• Coeficientul de variaţie (sau de dispersie)


Aceste coeficient (de obicei, exprimat în procente) este util atunci când comparăm două
repartiţii având unităţi de măsură diferite. Nu este folosit atunci când z sau µ este foarte
mic. Pentru doua populatii care au aceeasi deviatie standard, gradul de variatie a datelor
este mai mare pentru populatie ce are media mai mica.
s
cv = .
z
34 Chapter 2. Elemente de Statistică

• Amplitudinea (plaja de valori, range)


Pentru un set de date, amplitudinea (en., range) este definită ca fiind diferenţa dintre valoarea
cea mai mare şi valoarea cea mai mică a datelor, i.e., a = zmax − zmin .
• Scorul ζ
Este numărul deviaţiilor standard pe care o anumită observaţie, z, le are sub sau deasupra
mediei. Pentru o selecţie {z1 , z2 , . . . , zn }, scorul Z este definit astfel:

z−z
ζ= .
s

• Corelaţia (covarianţa)
Presupunem acum ca avem doua variabile de interes relative la o populatie statistica, Z1
şi Z2 , pentru care avem n perechi de observaţii, (z1 , z01 ), (z2 , z02 ), . . . , (zn , z0n ). Definim
corelaţia (covarianţa):

1 n
cove = ∑ (zi − z)(z0i − z0).
n − 1 i=1
(2.6.3)

In cazul în care lucrăm cu mai multe variabile şi pot exista confuzii, vom nota covarianţa
prin cove (Z1 , Z2 ). Daca Z1 si Z2 coincid, sa spunem ca Z1 = Z2 = Z, atunci cove (Z, Z) = s2 .
O relaţie liniară între două variabile este acea relaţie ce poate fi reprezentată cel mai bine
printr-o linie. Corelaţia detectează doar dependenţe liniare între două variabile aleatoare.
Putem avea o corelaţie pozitivă, însemnând că Z1 şi Z2 cresc sau descresc împreună (pentru
cove > 0), sau o corelaţie negativă, însemnând că Z1 şi Z2 se modifică în direcţii opuse
(pentru cove < 0). În cazul în care cove = 0, putem banui ca variabilele nu sunt corelate.
• Coeficientul de corelaţie
cove
r= .
sx sy

In cazul în care lucrăm cu mai multe variabile şi pot exista confuzii, vom nota coeficientul
de corelaţie prin r(Z1 , Z2 ). La fel ca în cazul coeficientulul de corelaţie teoretic, r ia valori
între −1 şi 1. După cum vom vedea mai târziu, pe baza valorii lui r putem testa valoarea
reală aparametrului ρ (coeficientul teoretic de corelaţie, care reprezintă întreaga populaţie).
• Funcţia de repartiţie empirică
Se numeşte funcţie de repartiţie empirică asociată unei variabile aleatoare Z şi unei selecţii
{z1 , z2 , . . . , zn }, funcţia Fn∗ : R −→ [0, 1], definită prin

numărul observaţiilor mai mici au egale cu z


Fn∗ (z) = . (2.6.4)
n

Când volumul selectiei (n) este suficient de mare, funcţia de repartiţie empirică (Fn∗ (z))
aproximează funcţia de repartiţie teoretică F(z) (vezi Figura 2.17). Insa, pentru a stabili
exact daca ele sunt semnificativ apropiate, este nevoie de un test statistic.
2.6 Măsuri descriptive ale datelor statistice (indicatori statistici) 35

Figure 2.17: Funcţia de repartiţie empirică şi funcţia de repartiţie teoretică pentru distribuţia normală.

• Coeficientul de asimetrie (en., skewness) este al treilea moment standardizat, care se


defineşte prin
n

µ3
1
n ∑ (zi − z)3
i=1
g1 = =" #3/2 .
s3 n
1
n−1 ∑ (zi − z)2
i=1
Putem spera ca o repartiţie să fie simetrică dacă g1 este foarte apropiat de valoarea 0. Vom
spune că asimetria este pozitivă (sau la dreapta) dacă g1 > 0 şi negativă (sau la stânga) dacă
g1 < 0. Coeficientul empiric de asimetrie g1 va fi utilizat în estimarea coeficientului teoretic
de asimetrie γ1 , care este un parametru al populaţiei.
• Excesul (coeficientul de aplatizare sau boltire) (en., kurtosis) se defineşte prin
n

µ4
1
n ∑ (zi − z)4
i=1
κ= = !2 .
s4 n
1
n ∑ (zi − z)2
i=1

Este o măsură a boltirii distribuţiei (al patrulea moment standardizat). Indicele kurtosis al
distribuţiei normale este egal cu 3. Vom avea o repartiţie mezocurtică pentru κ = 3 (sau
foarte apropiat de această valoare), leptocurtică (boltită) pentru κ > 3 sau platocurtică
pentru κ < 3. Un indice κ > 3 semnifică faptul că, în vecinătatea modului, curba densităţii
de repartiţie are o boltire (ascuţire) mai mare decât clopotul lui Gauss. Pentru κ < 3, în acea
vecinătate curba densităţii de repartiţie este mai plată decât curba lui Gauss. Coeficientul
empiric de aplatizare κ va fi utilizat în estimarea coeficientului teoretic de aplatizare K, care
este un parametru al populaţiei.
• Cuantile
Cuantilele (de ordin r) sunt valori ale unei variabile aleatoare care separă repartiţia ordonată
în r părţi egale. Aceste valori sunt estimari pentru cuantilele teoretice (parametrii). Vom
utiliza notatia cu litera mica pentru cuantilele empirice, pentru a le diferentia de parametrii
corespunzatori.
Pentru r = 2, cuantila ce imparte setul de date in doua clase cu acelasi numar de valori se
numeşte mediană (empirica), notată prin me.
36 Chapter 2. Elemente de Statistică

Presupunem că observaţiile sunt ordonate, z1 < z2 < · · · < zn . Pentru această ordine, definim
valoarea mediană:
(
z , dacă n = impar;
me = (n+1)/2
(zn/2 + zn/2+1 )/2 , dacă n = par.

Pentru r = 4, cuantilele se numesc cuartile (sunt în număr de 3). Prima cuartilă, notată q1 ,
se numeşte cuartila inferioară, a doua cuartilă este mediana, iar ultima cuartilă, notată prin
q3 , se numeşte cuartila superioară. Diferenţa q3 − q1 se numeşte distanţa intercuartilică.
Pentru r = 10 se numesc decile (sunt în număr de 9), pentru r = 100 se numesc percentile
(sunt în număr de 99), pentru r = 1000 se numesc permile (sunt în număr de 999). Sunt
măsuri de poziţie, ce măsoară locaţia unei anumite observaţii faţă de restul datelor.
• Modul
Modul (sau valoarea modală) este acea valoare z∗ din setul de date care apare cel mai des
(adica are frecventa cea mai mare). Un set de date poate avea mai multe module. Dacă apar
două astfel de valori, atunci vom spune că setul de date este bimodal, pentru trei astfel de
valori avem un set de date trimodal etc. În cazul în care toate valorile au aceeaşi frecvenţă
de apariţie, atunci spunem că nu există mod. De exemplu, setul de date
1 3 5 6 3 2 1 4 4 6 2 5
nu admite valoare modală. Nu există un simbol care să noteze distinctiv modul unui set de
date.
• Valori aberante (en. outliers)
Dupa cum am vazut anterior, teorema lui Cebâşev ne asigura ca probabilitatea ca o data
observata sa devieze de la medie cu mai mult de k deviatii standard este mai mica decat k12 .
Valorile aberante sunt valori statistice observate care sunt îndepărtate de marea majoritate a
celorlalte observaţii. Ele pot apărea din cauza unor măsurători defectuoase sau în urma unor
erori de măsurare. De cele mai multe ori, ele vor fi excluse din analiza statistică. Din punct
de vedere matematic, valorile aberante sunt valorile ce nu aparţin intervalului următor:

[q1 − 1.5 iqr, q3 + 1.5 iqr],

unde iqr = q3 − q1 este distanţa intercuartilică. Daca valoarea 1.5 se inlocuieste cu 3, atunci
orice valoare care iese din acest interval se va numi valoare aberanta extrema.
• Sinteza prin cele cinci valori statistice (five number summary)
Reprezintă cinci măsuri statistice empirice caracteristice unui set de date statistice. Acestea
sunt:

valoarea minimă < prima cuartilă (q1 ) < mediana (me) < a treia cuartilă (q3 ) < valoarea maximă

Aceşti cinci indicatori pot fi reprezentaţi grafic într-o diagramă numită box-and-whiskers plot.
Datele din Tabelul 2.5 sunt reprezentate în prima figură de mai jos prin două diagrame box-and-
whiskers. În prima diagramă (numerotată cu 1) am folosit datele negrupate; în a doua diagramă
am folosit reprezentarea datelor din acelaşi tabel prin centrele claselor. Reprezentările sunt cele
clasice, cu dreptunghiuri. Valorile aberante sunt reprezentate prin puncte în diagrama box-and-
whisker plot.
2.6 Măsuri descriptive ale datelor statistice (indicatori statistici) 37

vârsta f. abs. f. rel. f. cum. mijlocul clasei


[18, 25) 34 8.83% 8.83% 21.5
[25, 35) 76 19.74% 28.57% 30
[35, 45) 124 32.21% 60.78% 40
[45, 55) 87 22.60% 83.38% 50
[55, 65) 64 16.62% 100.00% 60
Total 385 100% - -

Table 2.11: Tabel cu frecvenţe.


Figure 2.18: Box-an-whiskers plot pentru
datele din Tabelul 2.11

În Figura 2.19, am reprezentat prin box-and-


whiskers un set de date discrete ce conţine
două valori aberante. Aici dreptunghiul a fost
crestat (notched box-and whisker plot); lungimea
crestăturii oferind un interval de încredere pentru
mediană. Valorile aberante sunt reprezentate in
figura prin puncte in afara range-ului datelor.

Figure 2.19: Box-an-whisker plot pentru un set


de date discrete
parametru indicator statistic (estimator)
caracterizeaza populatia format cu date de selectie
µ − media m
σ 2 − dispersia s2
σ − deviatia standard s
Tabelul 2.12 contine cativa CV − coef. de variatie cv
parametri uzuali ce caracter- cov− covarianta cove
izeaza o populatie, alaturi de ρ − corelatia r
estimatorii corespunzatori. γ1 − skewness g1
K − kurtosis κ
Qi − cuantile qi
Me − mediana me
F(z) − fct. de repartitie Fn∗ (z)

Table 2.12: Tabel cu parametri şi estimatorii săi


Exerciţiu 2.1 Următorul set de date reprezintă preţurile (în mii de euro) a 20 de case, vândute
într-o anumită regiune a unui oraş:

113 60.5 340.5 130 79 475.5 90 100 175.5 100


111.5 525 50 122.5 125.5 75 150 89 100 70
(a) Determinaţi amplitudinea, media, mediana, modul, deviatia standard, cuartilele şi distanţa
38 Chapter 2. Elemente de Statistică

intercuartilică pentru aceste date. Care valoare este cea mai reprezentativă?
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?
(c) Calculaţi coeficientii de asimetrie si de aplatizare.
R: Rearanjăm datele în ordine crescătoare:
50 60.5 70 75 79 89 90 100 100 100 111.5
113.5 122.5 125.5 130 150 175.5 340.5 475.5 525
100 + 111.5
Amplitudinea datelor este 525 − 50 = 475, media lor este 154.15, mediana este =
2
79 + 89
105.75, modul este 100, cuartila inferioară este q1 = = 84, q2 = me, cuartila superioară
2
130 + 150
este q3 = = 140 şi distanţa intercuartilică este d = q3 − q1 = 56. Mediana este valoarea
2
cea mai reprezentativă în acest caz, deoarece cele mai mari trei preţuri, anume 340.5, 475.5, 525,
măresc media şi o fac mai puţin reprezentativă pentru celelalte date.

În cazul în care setul de date nu este simetric, valoarea


mediană este cea mai reprezentativă valoare a datelor.
Deviatia standard este
s
1 n
s= ∑ (zi − z)2 = 133.3141.
n − 1 i=1

Folosind formulele, gasim ca g1 = 1.9598 (asimetrie


la dreapta) si κ = 5.4684 (boltire pronuntata). Valo-
rile aberante sunt cele ce se afla in afara intervalului
[q1 − 1.5(q3 − q1 ), q3 + 1.5(q3 − q1 )] = [0, 178]. Se ob-
serva ca valorile {340.5, 475.5, 525} sunt valori aberante,
Figure 2.20: Box-an-whisker plot reprezentate prin puncte in figura alaturata.
pentru datele din Exerciţiul 2.1

2.6.2 Date grupate


Considerăm un set de date statistice grupate (de volum n), ce reprezinta observaţii asupra variabilei
Z.
Pentru o selecţie cu valorile de mijloc {z1 , z2 , . . . , zr } şi frecvenţele absolute corespunzătoare,
r
{ f1 , f2 , . . . , fr }, cu ∑ fi = n, definim:
i=1

1 r
z̄ f = ∑ zi fi ,media (empirică) de selecţie, (sau, media ponderată)
n i=1
!
2 1 r 2 1 r
2 2
s = ∑ fi(zi − z f ) = n − 1 ∑ zi fi − n z f , dispersia empirică,
n − 1 i=1 i=1

2
s = s , deviaţia empirică standard.
Mediana pentru un set de date grupate este acea valoare ce separă toate datele în două părţi egale.
Se determină mai întâi clasa ce conţine mediana (numită clasă mediană), apoi presupunem că în
2.6 Măsuri descriptive ale datelor statistice (indicatori statistici) 39

interiorul fiecărei clase datele sunt uniform distribuite. O formulă după care se calculează mediana
este:
n
− Fme
me = l + 2 c,
fme
unde: l este limita inferioară a clasei mediane, n este volumul selecţiei, Fme este suma frecvenţelor
până la (exclusiv) clasa mediană, fme este frecvenţa clasei mediane şi c este lăţimea clasei.
Similar, formulele pentru cuartile sunt:

n 3n
− Fq1
4 4 − Fq3
q1 = l1 + c şi q3 = l3 + ,
fq1 fq3

unde l1 si l3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, iar Fq
este suma frecvenţelor până la (exclusiv) clasa ce contine cuartila, fq este frecvenţa clasei unde se
gaseste cuartila.
Pentru a afla modul unui set de date grupate, determinăm mai întâi clasa ce conţine această valoare
(clasă modală), iar modul va fi calculat după formula:

d1
mod = l + c,
d1 + d2

unde d1 şi d2 sunt frecvenţa clasei modale minus frecvenţa clasei anterioare şi, respectiv, frecvenţa
clasei modale minus frecvenţa clasei posterioare, l este limita inferioară a clasei modale şi c este
lăţimea clasei modale.

Exerciţiu 2.2 Datele din Tabelul 2.13 reprezinta inaltimile (in cm) pentru o selectie de 100 de
plante dintr-o anumita regiune.
(a) Reprezentati datele printr-o histograma.
(b) Folosind formulele pentru indicatori statistici pentru date grupate, determinaţi amplitudinea,
media, mediana, modul, dispersia si distanta intercuartilică.
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?
R: Amplitudinea este A = 30. Folosind centrele claselor, media este

1
z = (1.5 × 5 + 4.5 × 9 + 7.5 × 8 + 10.5 × 14 + 13.5 × 15 +
100
+16.5 × 19 + 19.5 × 15 + 22.5 × 8 + 25.5 × 4 + 28.5 × 3) = 14.31.

Dispersia este:
1
s2 = (∑(z2 · f ) − n · z2 )
n−1
1
= (1.52 × 5 + 4.52 × 9 + 7.52 × 8 + 10.52 × 14 + 13.52 × 15 + 16.52 × 19 +
99
+19.52 × 15 + 22.52 × 8 + 25.52 × 4 + 28.52 × 3 − 70 · 14.312 )
= 44.5191.
40 Chapter 2. Elemente de Statistică

Înălţimea (în cm) frecvenţa


[0, 3) 5
[3, 6) 9
[6, 9) 8
[9, 12) 14
[12, 15) 15
[15, 18) 19
[18, 21) 15
[21, 24) 8
[24, 27) 4
[27, 30) 3
Figure 2.21: Histograma pentru datele din
Table 2.13: Tabel cu date de tip continuu
Tabelul 2.13.
Clasa mediană este clasa [12, 15), deoarece în clasele anterioare ([0, 3), [3, 6) şi [6, 9)) se
află 5 + 9 + 8 + 14 = 36 date mai mici decât mediana, iar la dreapta clasei [12, 15) se afla
19 + 15 + 8 + 4 + 3 = 49 de date. Valoarea mediană este

50 − 36
Me = 12 + × 3 = 14.8.
15

4
Clasa modală este [15, 18), iar modul este Mo = 15 + 4+4 × 3 = 16.5.
n
− Fq1
Calculăm acum prima cuartilă dupa formula q1 = l1 + 4 . Clasa in care se gaseste prima
fq1
cuartila este [9, 12) (o valoare din acest interval va avea la stanga sa 100/4 = 25 dintre valorile
observate). Avem: Fq1 = 22, fq1 = 14, c = 3, de unde q1 = 9.6429.
Similar, clasa in care se gaseste a treia cuartila este [18, 21) (o valoare din acest interval va avea la
dreapta sa 100/4 = 25 dintre valori. Avem: Fq3 = 70, fq3 = 15, c = 3, de unde q3 = 19. Astfel,
distanta intercuartilica observata este iqr = q3 − q1 = 9.3571. √

Tabelul 2.14 reprezinta o sumarizare a statisticilor importante pentru aceste date:

Statistica valoarea parametrul estimat


Minimum 0.5 zmin
Maximum 29.5 zmax
Media 14.31 µ
Mediana 14.8 Me
Deviatia standard 6.6723 σ
Dispersia 44.5191 σ2
Skewness −0.0495 γ1
Kurtosis 2.4186 K
Numarul de observatii 100 n
χ 2 pentru testul de normalitate (cu 7 grade de libertate) 33.5440 −

Table 2.14: Statistici pentru datele din Tabelul 2.13


2.7 Transformari de date 41

Valorile aberante sunt cele ce se afla in afara intervalului

[q1 −1.5(q3 −q1 ), q3 +1.5(q3 −q1 )] = [−5.2264, 34.1501]

Cum toate datele din tabel apartin acestui interval, nu


exista valori aberante, fapt care se observa si din Figura
2.22.

Figure 2.22: Box-an-whisker plot pentru


datele din Tabelul 2.13

2.7 Transformari de date


Uneori valorile masurate nu sunt normale si este necesara o transformare a lor pentru a obtine
valori apropiate de normalitate. Transformarile uzuale sunt: logaritmarea valorilor observate
(folosind functiile ln sau log10 , daca valorile sunt toate pozitive), radacina patrata a valorilor, trans-
formarea logit, radacini de ordin superior etc. In Tabelul 2.15 am sugerat tipul de transformare ce
poate fi utilizat in functie de coeficientul de skewness γ1 .

In ce conditii. . . skewness formula


date aproape simetrice −0.5 < γ1 < 0.5 nicio transformare

skewness moderat pozitiv, date nenegative 0.5 ≤ γ1 < 1 yi =
√ zi
skewness moderat pozitiv, exista date < 0 0.5 ≤ γ1 < 1 yi = √zi +C
skewness moderat negativ −1 < γ1 ≤ 0.5 yi = C − zi
skewness mare negativ γ1 ≤ −1 yi = ln(C − zi ) sau yi = log10 (C − zi )
skewness mare pozitiv, date pozitive γ1 ≥ 1 yi = ln zi sau yi = log10 zi
skewness mare pozitiv, exista date ≤ 0 γ1 ≥ 1 yi = ln(zi +C) sau yi = log10 (zi +C)

Table 2.15: Exemple de transformari de date statistice

unde C > 0 este o constanta ce poate fi determinata astfel incat datele transformate sa aiba
un skewness cat mai aproape de 0. Aceasta constanta va fi aleasa astfel incat functia ce face
transformarea este definita.
De exemplu, presupunem ca datele observate sunt z1 , z2 , . . . , zn si acestea nu sunt toate pozitive,
cu un coeficient de asimetrie (skewness) γ1 = 1.3495. Ne uitam la valoarea minima a datelor;
aceasta este zmin = −0.8464. Pentru a obtine un set de valori pozitive, vom adauga valoarea
1 la toate datele observate. Apoi, logaritmam valorile obtinute. Cele doua procedee cumulate
sunt echivalente cu folosirea directa a formulei ln(1 + zi ) (adunand valoarea 1, am facut toate
argumentele logaritmului pozitive). Obtinem astfel un nou set de date, si anume y1 , y2 , . . . , yn ,
unde yi = ln(1 + zi ). Un exemplu este cel din Figura 2.23. Se observa ca datele logaritmate sunt
aproape normale. O analiza statistica poate fi condusa pentru datele yi , urmand ca, eventual, la
final sa aplicam transformarea inversa zi = eyi − 1 pentru a transforma rezultatele pentru datele
initiale.
42 Chapter 2. Elemente de Statistică

Figure 2.23: Datele intiale si datele logaritmate


Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor
in punctele neselectate), de multe ori este necesara transformarea inversa a datelor, pentru a
determina proprietatile datelor originale. De aceea, ar fi potrivit de a exprima indicatorii statistici
atat pentru datele transformate, cat si pentru datele originale. Un exemplu este cel din Tabelul
2.16.
Indicatorul datele originale datele tranformate
zi yi = ln(1 + zi )
Minimum −0.8464 −1.8734
Maximum 14.1107 2.7154
Media 6.02142 1.51
Cuartila Q1 3.1152 0.6532
Mediana 6.5200 1.2512
Cuartila Q3 8.7548 1.5785
Deviatia standard 5.2511 0.7524
Dispersia 27.5741 0.5661
Skewness 6.2322 0.0233
Kurtosis 78.6077 2.9786
Numarul de observatii 100 100
χ 2 pentru testul de normalitate (cu 7 grade de libertate) − 7.1445

Table 2.16: Exemplu de indicatori statistici pentru datele originale si pentru datele transformate
2.8 Exerciţii rezolvate 43

2.8 Exerciţii rezolvate


Exerciţiu 2.3 Următorul set de date negrupate reprezintă vârstele (în ani, ajustaţi până la cel mai
apropiat întreg) a 20 de persoane participante la o serbare:
20 10 7 19 25 12 15 7 10 8 14 16 15 7 8 13 6 5 7 12
(a) Construiţi un tabel de frecvenţe adecvat datelor.
(b) Desenaţi un grafic potrivit pentru a reprezenta datele.
√ √
R: (a) Alegem numărul de clase k = [ n] + 1 = [ 20] + 1 = 5.
Cea mai mică valoare a datelor este 5, cea mai mare valoare a datelor este 25. Amplitudinea
datelor este A = 25 − 5 = 20. Lăţimea unei clase va fi
valoarea maximă − valoarea minimă 25 − 5
l= = = 4.
k 5
Vârsta Frecv. abs. Tally Densitatea
8
[5, 9) 8 4 =2
5
[9, 14) 5 4 = 1.25
4
[14, 17) 4 4 =1
2
[17, 21) 2 4 = 0.5
1
[21, 25) 1 4 = 0.25
Total 20 - -
(b) Pentru că datele sunt discrete de tip raport, le putem reprezenta folosind histograme sau
sectoare de disc (pie charts).

Figure 2.24: Reprezentarea cu histograme Figure 2.25: Sectoare de disc 3D


Exerciţiu 2.4 Următorul set de date grupate reprezintă punctajele (maximum este 100 de puncte)
obţinute de 80 de studenţi la testul de Statistică:
Punctajul Frecv. abs.
1 − 50 21
51 − 60 8
61 − 70 15
71 − 80 22
81 − 100 14
Total 80
44 Chapter 2. Elemente de Statistică

(a) Desenaţi un grafic potrivit pentru a reprezenta datele.


(b) Estimaţi numărul de studenţi care au obţinut punctaje între 26 şi 75.
R: (a) Datele sunt discrete, de tip interval şi le vom reprezenta prin histograme. Calculăm
densităţile de frecvenţă după formula:

frecvenţa clasei
densitatea = .
numărul de valori din clasă

Pentru că datele sunt discrete de tip interval, le putem reprezenta folosind histograme sau sectoare
de disc (pie charts). Valorile roşii din reprezentarea cu histograme sunt ariile dreptunghiurilor
corespunzătoare, care sunt frecvenţele absolute ale claselor.

Figure 2.27: Sectoare de disc

Figure 2.26: Reprezentarea cu histograme


(b) Numărul de studenţi care au obţinut punctaje între 26 şi 75 este aproximativ egal cu aria
haşurată din histograma de mai jos, care este: (50 − 26) · 0.42 + 8 + 15 + 11 ≈ 44.

Exerciţiu 2.5 Folosind diagramele box-and-whiskers plot de mai jos, determinat, i procentul de
băiet, i s, i apoi procentul de fete care au 168 cm sau mai put, in.
2.8 Exerciţii rezolvate 45

R: Se observă că 168 se află la prima cuartilă în diagrama ce reprezintă înălţimile fetelor şi la
mediană în diagrama ce reprezintă înălţimile băieţilor. Aşadar 25% dintre fete şi jumătate dintre
băieţi sunt mai mici de 168 cm.
Exerciţiu 2.6 Următorul set de date negrupate reprezintă numărul de pets (animale de casă) pe
care fiecare dintre cei 25 de studenţi aleşi în eşantion le au.
0 0 1 2 0 0 1 0 3 4 1 0 7 1 0 1 2 3 2 1 0 0 0 1 4
(a) Construiţi un tabel de frecvenţe adecvat datelor.
(b) Desenaţi un grafic potrivit pentru a reprezenta datele.

R: (a) Reprezentăm datele cu bare (date de tip categorial ordinal). Numărul de clase k = 6.

Nr. pets Frecv. abs. Tally


0 10
1 7
2 3
3 2
4 2
7 1
Total 25 -
(b) Graficul cu bare (3D) este cel de mai jos.
46 Chapter 2. Elemente de Statistică

Exerciţiu 2.7 Se consideră următorul set de date:

173 140 205 192 197 225 158 260 170 185 208 189 190 167 225 190 184 195
(a) Determinaţi amplitudinea, media, modul şi deviaţia standard pentru această selecţie.
(b) Reprezentaţi diagrama box-and-whisker plot pentru date.
R: (a) Avem n = 19 observaţii. Amplitudinea datelor este A = xmax − xmin = 260 − 140 = 120.
Valoarea medie este
1 19
x = ∑ xi = 191.8333.
n i=1
Modurile datelor sunt 190 şi 225. Dispersia datelor este

1 19
s2 = ∑ (xi − x)2 = 748.2647.
n − 1 i=1

Deviaţia standard a datelor este s = s2 = 27.3544.
(b) Grupăm datele crescător:

140; 158; 167; 170; 173; 184; 185; 189; 190; 190; 192; 195; 197; 205; 208; 225; 225; 260

Mediana (valoarea de mijloc a) datelor este Me = 190.


Prima cuartilă este Q1 = 173, iar ultima cuartilă este
Q3 = 205. Distanţa intercuartilică este IQR = Q3 − Q1 = 32.
Valorile extreme (outliers) se vor afla în afara intervalului

[173 − 1.5 · 32, 205 + 1.5 · 32] = [125, 253].

Se observă că doar valoarea 260 se află în afara acestui


interval.

Figure 2.28: Reprezentarea box-


and-whiskers plot
Exerciţiu 2.8 Ana a început să lucreze la un magazin de calculatoare. Şeful ei i-a cerut să t, ină o
evident, ă a numărului de vânzări pe care le-a făcut în fiecare lună. Următorul set de date este o
listă a vânzărilor sale din ultimele 12 luni:

34, 47, 1, 15, 57, 24, 20, 11, 19, 50, 28, 37.
La fel ca Ana, Cristian lucrează la un magazin de calculatoare. De asemenea, a înregistrat numărul
de vânzări pe care le-a făcut în fiecare lună. În ultimele 12 luni, el a vândut următoarele numere
de computere:

51, 17, 25, 39, 7, 49, 62, 41, 20, 6, 43, 13.
2.8 Exerciţii rezolvate 47

1. Determinaţi sinteza celor cinci valori pentru vânzările efectuate de fiecare dintre cei doi.
2. Desenaţi diagramele box-and-whiskers plot pentru vânzările fiecăruia.
3. Descriet, i pe scurt comparat, iile dintre vânzările lor.

R: 1. Sinteza celor cinci valori pentru Ana


este 1, 17, 26, 42, 57, iar pentru Cristian este
6, 15, 32, 46, 62.

Figure 2.29: Reprezentările


box-and-whiskers plot
3. Cea mai mare s, i cea mai scăzută vânzare ale lui Cristian sunt ambele mai mari decât vânzările
corespunzătoare ale Anei, iar cifra mediană a vânzărilor lui Cristian este mai mare decât cea a
Anei. De asemenea, intervalul intercuartil al lui Cristian este mai mare decât cel al Anei. Aceste
rezultate sugerează că Cristian vinde în mod constant mai multe computere decât face Ana.
48 Chapter 2. Elemente de Statistică
3. Noţiuni teoretice de Statistică

3.1 Evenimente aleatoare


Numim experiment aleator (sau experienţă aleatoare) orice act cu rezultat incert, care poate
fi repetat în anumite condiţii date. Opusul noţiunii de experiment aleator este experimentul
determinist, semnificând un experiment ale cărui rezultate sunt complet determinate de condiţiile
în care acesta se desfăşoară. Rezultatul unui experiment aleator depinde de anumite circumstante
întâmplătoare ce pot aparea. Exemple de experienţe aleatoare: extragerea LOTO, aruncarea zarului,
observarea ratei infiltrarii apei in sol in diverse locatii dintr-o anumita regiune, determinarea
concentratiei de nutrienti in sol, observarea duratei de viaţă a unui individ, observarea vremii de a
doua zi, observarea numărului de apeluri telefonice recepţionate de o centrală telefonică într-un
timp dat etc.
Vom numi mulţime (sau spatiu) de selecţie asociat unui experiment mulţimea tuturor rezultatelor
posibile ale acelui experiment. Notam acasta multime cu Ω. Aplicarea experienţei asupra unei
colectivităţi date se numeşte probă. Vom numi eveniment aleator orice colecţie de rezultate
posibile asociate experimentului aleator. Vom numi eveniment aleator elementar (sau eveniment
aleator simplu) un eveniment aleator care are un singur rezultat posibil. Un eveniment aleator cu
mai mult de un rezultat posibil se va numi eveniment aleator compus.
Exemple de evenimente aleatoare: apariţia unei duble (6, 6) la aruncarea a două zaruri este un
eveniment aleator elementar, iar obţinerea unei duble la aruncarea a două zaruri este un eveniment
aleator compus.
Vom numi evenimentul sigur acel eveniment care se poate realiza în urma oricărei experienţe
aleatoare. Evenimentul sigur este, in fapt, chiar multimea de selectie Ω, ce este multimea tuturor
evenimentelor elementare. Prin eveniment imposibil intelegem acel eveniment ce nu se realizează
în nicio probă. Evenimentul imposibil asociat unei experiente aleatoare se noteaza prin ∅.
Se numeşte caz favorabil pentru evenimentul aleator un caz în care respectivul eveniment se
realizează macar intr-o proba a sa.
Evenimentele aleatoare le vom nota cu A, B, C, . . . . Prin A (care se citeste non A) vom nota
50 Chapter 3. Noţiuni teoretice de Statistică

evenimentul complementar lui A, care se realizează atunci când A nu se realizează. Avem:


A = Ω \ A.

3.1.1 Operatii cu evenimente


Presupunem ca A si B sunt doua evenimente legate de un anumit experiment aleator. Putem defini
urmatoarele evenimente:
S
• evenimentul A B (citit A sau B) este evenimentul care se realizeaza ori de cate ori se
realizeaza cel putin unul dintre evenimentele A si B.
T
• evenimentul A B (citit A şi B) este evenimentul care se realizeaza ori de cate ori se
realizeaza simultan evenimentele A si B.
• evenimentul A \ B (citit A minus B) este evenimentul care se realizeaza ori de cate ori se
realizeaza A, dar nu se realizeaza B.

3.1.2 Relatii intre evenimente


• Notam prin A ⊂ B (citit A implică B) si spunem ca realizarea lui A implica realizarea lui B.
• Spunem ca A = B (citit A egal B) daca A ⊂ B si B ⊂ A.
• Spunem ca A si B sunt evenimente incompatibile daca ele nu se pot realiza simultan in nicio
T
proba. Scriem astfel: A B = ∅.
• Spunem ca A si B sunt evenimente compatibile daca ele se pot realiza simultan. Scriem
astfel: A B 6= ∅. De exemplu, la aruncarea unui zar, evenimentele A =evenimentul
T

aparitiei unui numar impar si B =evenimentul aparitiei unui numar prim sunt compatibile.
• Spunem ca A si B sunt evenimente echiprobabile daca ele au aceeasi sansa de realizare.
Spre exemplu, la aruncarea unei monede ideale, orice fata are aceeasi şansă de aparitie.

3.2 Probabilitate
Pentru a putea cuantifica şansele de realizare a unui eveniment aleator, s-a introdus noţiunea
de probabilitate. Presupunem că pentru un anume experiment, am construit spaţiul de selecţie
Ω. Atunci, fiecărui eveniment A în putem asocia un număr P(A), numit probabilitatea realizării
evenimentului A (sau, simplu, probabilitatea lui A), fiind o măsură precisă a şanselor ca A
să se realizeze. Probabilitatea este o valoare cuprinsa intotdeauna intre 0 si 1, cu P(∅) = 0
(probabilitatea ca evenimentul imposibil sa se realizeze este 0) si P(Ω) = 1 (probabilitatea ca
evenimentul sigur sa se realizeze este 1).
T S
Daca evenimentele A si B nu se pot realiza simultan (i.e., A B = ∅), atunci P(A B) = P(A) +
P(B). Daca A si B se pot realiza simultan, atunci P(A B) = P(A) + P(B) − P(A B).
S T

În literatura de specialitate, probabilitatea este definită în mai multe moduri: cu definiţia clasică
(apare pentru prima oară în lucrările lui P. S. Laplace1 ), folosind o abordare statistică (cu frecvenţe
relative), probabilitatea definită geometric, probabilitatea bayesiană (introdusă de Thomas Bayes2 )
sau utilizând definiţia axiomatică (Kolmogorov). Aici vom prezenta doar primele trei moduri.
(I) Probabilitatea clasică este definită doar pentru cazul în care experienţa aleatoare are un
număr finit de cazuri posibile şi echiprobabile (toate au aceeaşi şansă de a se realiza). În acest caz,
probabilitatea de realizare a unui eveniment A este
numarul cazurilor favorabile realizarii evenimentului
P(A) = .
numarul cazurilor egal posibile
1 Pierre-Simon, marquis de Laplace (1749 − 1827), matematician şi astronom francez
2 Thomas Bayes (1701 − 1761), statistician şi filosof englez
3.2 Probabilitate 51

De exemplu, dorim să determinăm probabilitatea obţinerii unei duble la o singură aruncare
a unei perechi de zaruri ideale. Mulţimea cazurilor posibile este mulţimea tuturor perechilor
{(i, j); i, j = 1, 6}, care are 36 de elemente. Mulţimea cazurilor favorabile este formată din adică
6 elemente, şi anume: {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}. Probabilitatea apariţiei unei
6
duble este P = 36 = 16 .
Sunt însă foarte multe cazuri în care definiţia clasică nu mai poate fi utilizată. Spre exemplu, în
cazul în care se cere probabilitatea ca, alegând la întâmplare un punct din pătratul [0, 1] × [0, 1],
acesta să se situeze deasupra primei bisectoare. În acest caz, atât numărul cazurilor posibile, cât şi
numărul cazurilor favorabile este infinit, făcând definiţia clasică a probabilităţii inutilizabilă.

(II) Probabilitatea definită statistic (probabilitate frecvenţială) exprimă probabilitatea cu ajutorul


frecvenţelor de realizare a unui eveniment într-un număr mare de experimente aleatoare realizate
în aceleaşi condiţii. Pentru a putea evalua această probabilitate, este necesară repetarea în aceleaşi
condiţii a experimentului legat de evenimentul aleator ce se doreşte a fi cuantificat.
Să considerăm o experienţă aleatoare (e.g., aruncarea unui zar) al cărei rezultat posibil este
evenimentul aleator A (e.g., apariţia feţei cu 6 puncte). Aceste experiment aleator îl putem
efectua de n ori în condiţii identice (spunem că efectuăm n probe ale experimentului), astfel încât
rezultatul unei probe să nu influenţeze rezultatul alteia (probe independente). Să notăm cu νn (A)
νn (A)
frecvenţa absolută de realizare a lui A în cele N probe independente. Raportul fn (A) =
n
se va numi frecvenţă relativă. Acest raport are intotdeauna valori intre 0 si 1. Mai mult, sirul
frecventelor relative { fn (A)}n∈N are limită şi aceasta este definită ca fiind probabilitatea de
realizare a evenimentului A, notată P(A). Aşadar, în cazul definiţiei statistice a probabilităţii,
probabilitatea unui eveniment A este

P(A) = lim fn (A),


n→∞

adica limită şirului frecvenţelor relative de producere a respectivului eveniment când numărul de
probe tinde la infinit.

(III) Probabilitate definită geometric Să presupunem că am dispune de un procedeu prin care
putem alege la întâmplare un punct dintr-un interval [a, b]. În plus, vom presupune că acest
procedeu ne asigură că nu există porţiuni privilegiate ale intervalului [a, b], i.e., oricare ar fi două
subintervale de aceeaşi lungime, este la fel de probabil ca punctul să cadă în oricare dintre aceste
intervale. Dacă am folosi de mai multe ori procedeul pentru a alege un număr mare de puncte,
acestea vor fi repartizate aproximativ uniform în [a, b], i.e., nu vor există puncte în vecinătatea
cărora punctul ales să cadă mai des, ori de câte ori este ales. De aici reiese că probabilitatea ca un
punct să cadă într-un subinterval al lui [a, b] este dependentă de lungimea acelui subinterval şi
nu de poziţia sa în interiorul lui [a, b]. Mai mult, aceasta este chiar proporţională cu lungimea
subintervalului. Se poate observa analogia cu experienţa alegerii dintr-un număr de cazuri egal
posibile.
Dacă [a, b] e mulţimea cazurilor egal posibile şi [c, d] ⊂ [a, b] este mulţimea cazurilor favorabile,
atunci probabilitatea ca punctul ales să cadă în [c, d] este
lungimea ([c, d]) d − c
P(A) = = .
lungimea ([a, b]) b − a

În particular, dacă z ∈ (c, d), atunci probabilitatea ca punctul ales aleator dintr-un interval să
52 Chapter 3. Noţiuni teoretice de Statistică

coincidă cu un punct dinainte stabilit este zero şi, astfel, întrezărim posibilitatea teoretică ca un
eveniment să aibă probabilitatea nulă, fară ca el să fie evenimentul imposibil ∅.
Exemplu 3.1 Să presupunem că experimentul aleator constă în alegerea la întâmplare a unui
număr real din intervalul (0, 1), aşa încât fiecare punct din acest interval are aceeaşi şansă de a
fi ales. Dacă notăm cu Z v.a. care reprezintă numărul ales, atunci Z va urma repartiţia uniform
continuă U (0, 1). Notăm cu A evenimentul ca Z să nu ia valoarea 0.5. Matematic, scriem
evenimentul astfel:
A = {ω ∈ Ω; Z(ω) 6= 0.5} sau, prescurtat, {Z 6= 0.5}.
Atunci, P(A) = 1, dar A nu este evenimentul sigur, ci doar un eveniment aproape sigur. Practic,
este posibil ca, din mai multe probe independente ale experimentului, să obţinem valoarea 0.5.
În mod cu totul analog, dacă se alege la întâmplare şi în mod uniform un punct dintr-o regiune
planara R, astfel ca să nu existe puncte sau porţiuni privilegiate în aceasta regiune, atunci
R0
probabilitatea ca punctul să cadă în subregiunea R 0 ⊂ R este aria aria R .
În trei dimensiuni, o probabilitate similară este raportul a două volume: volumul mulţimii cazurilor
favorabile realizarii experimentului şi volumul mulţimii cazurilor egal posibile.

3.3 Variabile aleatoare


În general, rezultatul posibil al unui experiment aleator poate fi asociat unei valori reale, precizând
regula de asociere. O astfel de regulă de asociere se numeşte variabilă aleatoare (prescurtat, v.a.).
Se numeşte ”variabilă” deoarece poate lua valori diferite, se numeşte ”aleatoare” deoarece valorile
observate depind de rezultatele experimentului aleator, şi este "reală" deoarece valoarea numerică
este un număr real. Aşadar, din punct de vedere euristic, o variabilă aleatoare este o cantitate
ce poate avea orice valoare dintr-o multime data, fiecarei valori atribuindu-se o anumita pondere
(frecventa relativa). În viaţă de zi cu zi întâlnim numeroase astfel de funcţii, e.g., numerele ce
apar la extragerea loto, rezultatul masurarii fertilitatii solului in diverse locatii, numărul clienţilor
deserviţi la un anumit ghişeu într-o anumită perioadă, timpul de aşteptare a unei persoane într-o
staţie de autobuz până la sosirea acestuia, calificativele obţinute de elevii de clasa a IV-a la un test
de matematică etc.
De regula, variabilele aleatoare sunt notate cu litere de la sfârşitul alfabetului, X, Y, Z sau ξ , η, ζ
etc. Cum am mai precizat anterior, in acest material vom volosi notatia Z pentru o variabila (Z(x)
pentru o variabila spatiala) si z pentru realizarea sa (respectiv, z(x)).

Exemplu 3.2 Un exemplu simplu de variabila aleatoare este următorul. Considerăm experimentul
aleator al aruncării unei monede. Acest experiment poate avea doar două rezultate posibile, notate
S (stema) şi B (banul). Aşadar, spaţiul selecţiilor este Ω = {S, B}. Acestui experiment aleator
îi putem ataşa variabila aleatoare reală Z, care asociază feţei S valoarea 1 şi feţei B valoarea 0.
Matematic, scriem astfel: Z : Ω → R, Z(S) = 1, Z(B) = 0. Astfel, valorile 1 şi 0 pentru Z vor
indica faţa apărută la aruncarea monedei. O astfel de variabilă aleatoare se numeşte variabilă
aleatoare Bernoulli şi poate fi ataşată oricărui eveniment aleator ce are doar două rezultate posibile,
numite generic succes şi eşec.
Variabilele aleatoare (prescurtat v.a.) pot fi discrete sau continue. Variabilele aleatoare discrete
sunt cele care pot lua o mulţime finită sau cel mult numărabilă (adica, o multime care poate fi
numarata) de valori. O variabilă aleatoare se numeşte variabilă aleatoare continuă (sau de tip
continuu) dacă mulţimea tuturor valorilor sale este totalitatea numerelor dintr-un interval real
3.3 Variabile aleatoare 53

(posibil infinit) sau toate numerele dintr-o reuniune disjunctă de astfel de intervale, cu precizarea
că pentru orice posibilă valoare c, P(Z = c) = 0.
Exemple de v.a. discrete: numărul feţei apărute la aruncarea unui zar, numărul de apariţii ale unui
tramvai într-o staţie într-un anumit interval, numărul de insuccese apărute până la primul succes
etc. Din clasa v.a. de tip continuu amintim: timpul de aşteptare la un ghişeu până la servire, preţul
unui activ financiar într-o perioadă bine determinată.
Pentru a specifica o v.a. discretă, va trebui să enumerăm toate valorile posibile pe care aceasta le
poate lua, împreună cu probabilităţile corespunzatoare. Suma tuturor acestor probabilităţi va fi
întotdeauna egală cu 1, care este probabilitatea realizarii evenimentului sigur. Când se face referire
la repartiţia unei v.a. discrete, se înţelege modul în care probabilitatea totală 1 este distribuită
între toate posibilele valori ale variabilei aleatoare. Pentru o scriere compactă, adeseori unei v.a.
discrete i se atribuie următoarea reprezentare schematica:
tabelul de repartiţie
Z z1 z2 z3 ... zn
(3.3.1)
pk p1 p2 p3 ... zn
unde pk este probabilitatea cu care variabila Z ia valoarea zk (matematic, scriem pk = P(Z = zk ))
şi suma tuturor probabilităţilor corespunzătoare variabilei discrete este egală cu 1 (scriem ca
n
∑ pi = 1).
i=1
Exemplu 3.3
Presupunem că Z este v.a. ce reprezintă tabelul de repartiţie
numărul de puncte ce apare la aruncarea
unui zar ideal. Această variabila o putem Z 1 2 3 4 5 6
reprezenta schematic ca in tabelul alaturat. pk 1/6 1/6 1/6 1/6 1/6 1/6
Dacă Z este o v.a. discretă de forma (3.3.1), atunci definim funcţia de probabilitate (de frecvenţă)
(en., probability mass function) ataşată variabilei aleatoare discrete Z ca fiind o funcţie ce ataseaza
fiecarei realizari ale unei variabile probabilitatea cu care aceasta realizare este observata. Matem-
atic, scriem ca
f (zi ) = pi , i ∈ {1, 2, . . . , n}.
În cuvinte, pentru fiecare posibilă valoare a unei v.a. discrete, funcţia de probabilitate ataşează
probabilitatea cu care Z ia această valoare. Funcţia de probabilitate este pentru o v.a. discreta ceea
ce o densitate de repartiţie este pentru o variabilă aleatoare continuă.
Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare intr-un
interval a chiar din R. Deoarece in aceste multimi exista o infinitate de valori, nu mai putem
defini o variabila aleatoare continua la fel ca in cazul discret, precizandu-i fiecare valoare pe care
o ia si ponderea corespunzatoare. In schimb, pentru o variabila aleatoare continua, putem preciza
multimea in care aceasta ia valori si o functie care sa descrie repartizarea acestor valori. O astfel
de functie se numeste functie de densitate a repartitiei, sau simplu, densitate de repartiţie (en.,
probability density function).
Exemplu 3.4 Vom spune că o variabila aleatoare Z are o repartitie (sau distributie) normala de
medie µ şi deviatie standard σ (notam aceasta prin Z ∼ N (µ, σ )) dacă Z poate lua orice valoare
reala si are densitatea de repartitie data de:
1 (x−µ)2

f (x; µ, σ ) = √ e 2σ 2 , pentro orice x ∈ R.
σ 2π
54 Chapter 3. Noţiuni teoretice de Statistică

Aceasta repartitie se mai numeşte şi repartiţia gaussiană sau distribuţia gaussiană.
Funcţia de probabilitate sau densitatea de repartiţie poate depinde de unul sau mai mulţi parametri
reali. Spre exemplu, repartitia normala are doi parametri, µ si σ .

3.3.1 Funcţia de repartiţie (sau funcţia de repartiţie cumulată)


Numim funcţie de repartiţie ataşată v.a reale Z o funcţie F : R → [0, 1], definită prin
F(z) = P(Z ≤ z), pentru orice x ∈ R.
Termenul din engleză pentru funcţia de repartiţie este cumulative distribution function (cdf).
Functia de repartitie asociaza fiecarei valori reale z probabilitatea cu care variabila Z ia valori mai
mici sau egale cu z. Ea este o functie crescatoare, care ia valori intre 0 si 1.
În cazul unei variabile aleatoare discrete, cu tabelul de repartiţie dat de (3.3.1), funcţia de repartiţie
este:
F(z) = ∑ pi , (3.3.2)
{i; zi ≤z}

adică suma tuturor probabilităţilor corespunzătoare valorilor lui Z care nu-l depăşesc pe z.
Dacă Z este o variabilă aleatoare continuă şi f este densitatea sa de repartiţie, atunci funcţia de
repartiţie este dată de formula:
Zz
F(z) = f (t) dt, z ∈ R. (3.3.3)
−∞

Mai mult, F 0 (z) = f (z), pentru orice z ∈ R.

3.3.2 Caracteristici numerice ale unei variabile aleatoare (parametri)


O colectivitate statistica poate fi descrisa folosind una sau mai multe variabile. Pentru fiecare
dintre aceste variabile se pot determina anumite cantitati sau calitati specifice, numite parametri.
Astfel, acesti parametri sunt niste trasaturi caracteristice colectivitatii, ce pot fi determinate sau
estimate pe baza unor masuratori (observatii) ale variabilelor. In continuare vom prezenta cativa
parametri numerici importanti pentru o variabila aleatoare, folositi in analiza statistica. Vom
denumi acesti parametri caracteristici numerice ale unei variabile aleatoare.
Media (sau valoarea aşteptată)
(en., expected value; fr., espérance; ger., Erwartungswert)
Pentru o variabila, media este o masura a tendintei centrale a valorilor sale. De remarcat faptul ca
exista variabile (atat discrete cat si continue) care nu admit o valoare medie.
• Dacă Z este o v.a. discretă având tabelul de repartiţie (3.3.1), atunci media acestei v.a. (dacă
există!) se defineşte prin:
n
µ = ∑ zi pi . (3.3.4)
i=1

Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) se defineste prin
n
E(U(Z)) = ∑ U(zi )pi .
i=1
3.3 Variabile aleatoare 55

• Dacă Z este o v.a. de tip continuu, cu densitatea de repartiţie f (z), atunci media (teoretică)
acestei v.a., dacă există (!), se defineşte astfel:
Z ∞
µ= z f (z)dz. (3.3.5)
−∞
Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) (dacă există!) se
defineste prin Z ∞
E(U(Z)) = U(z) f (z)dz.
−∞
Notaţii: În cazul în care poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai
multe variabile în acelaşi timp), vom folosi notaţia µZ . Pentru media teoretică a unei variabile
aleatoare se mai folosesc şi notaţiile: m, M(Z) sau E(Z).

Dispersia (sau varianţa) (en., variance) şi abaterea standard (en., standard deviation)

Consideram Z o variabilă aleatoare care admite medie finita µ. Dorim sa stim in ce masura
valorile aceste variabile sunt imprastiate in jurul valorii medii. Variabila aleatoare Z0 = Z − µ
(numită abaterea lui Z de la media sa), atunci E(Z0 ) = 0. Aşadar, nu putem măsură gradul de
împrăştiere a valorilor lui Z în jurul mediei sale doar calculând Z − µ. Avem nevoie de o altă
măsură. Aceasta este dispersia variabilei aleatoare, notată prin σZ2 sau Var(Z). În cazul în care
poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai multe variabile în acelaşi
timp), vom folosi notaţia σZ2 .

n Z ∞
σ2 = ∑ (zi − µ)2 pi σ2 = (z − µ)2 f (z) dz
i=1 −∞
(in cazul unei v.a. discrete). (in cazul unei v.a. continue).

Alte formule pentru dispersie:


n

∑ z2i pi − µ 2 , în cazul discret



σ 2 = E[Z 2 ] − µ 2 = Z ∞i=1
z2 f (z) dz − µ 2 , în cazul continuu



−∞

Numim abatere standard (sau deviaţie standard) cantitatea σ = σ 2 . Are avantajul ca unitatea
sa de masura este aceeasi cu a variabilei Z.

În conformitate cu teorema lui Cebâşev3 , pentru orice variabila aleatoare Z ce admite medie si
orice a > 0, are loc inegalitatea:
1
P({|Z − µ| ≥ kσ }) ≤ 2 . (3.3.6)
k
În cuvinte, probabilitatea ca valorile variabilei Z sa devieze de la medie cu mai mult de k deviatii
standard este mai mica decat k12 . În cazul particular k = 3, obţinem regula celor 3σ :
1
P({|Z − µ| ≥ 3σ }) ≤ ≈ 0.1.
9
3 Pafnuty Lvovich Chebyshev (1821 − 1894), matematician rus
56 Chapter 3. Noţiuni teoretice de Statistică

sau
8
P({µ − 3σ < Z < µ + 3σ }) ≥ , (3.3.7)
9
semnificând că o mare parte din valorile posibile pentru Z se află în intervalul [µ − 3σ , µ + 3σ ].

Coeficientul de variaţie
σ σ
Este definit prin CV = sau, sub forma de procente, CV = 100 %. Este util in compararea
µ µ
variatiilor a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca variatiile sunt
egale, atunci vom spune ca setul de observatii ce are media mai mica este mai variabil decat cel
cu media mai mare.

Standardizarea unei variabile aleatoare


Z−µ
Pentru o variabila aleatoare Z de medie µ şi dispersie σ 2 , variabila aleatoare Y = se nu-
σ
meşte variabila aleatoare standardizată (sau normată). Astfel, prin standardizarea unei variabile,
vom obtine urmatoarele proprietati ale sale: E(Y ) = 0, D2 (Y ) = 1.
Daca Z este o variabila normala (scriem asta prin Z ∼ N (µ, σ )), atunci standardizarea sa este o
variabila normala standard, adica Z−µ
σ ∼ N (0, 1).

Momente centrate

Pentru o v.a. Z (discretă sau continuă), ce admite medie, momentele centrate sunt valorile aşteptate
ale puterilor lui Z − µ. Definim astfel µk (Z) = E((Z − µ)k ). In particular,
Z ∞
n
µk (Z) = (x − µ)k f (x) dx;
µk (Z) = ∑ (zi − µ)k pi; −∞
i=1 (in cazul unei v.a. continue).
(in cazul unei v.a. discrete).
Momente speciale:

• µ2 (Z) = σ 2 . Se observa ca al doilea moment centrat este chiar dispersia.


µ3 (Z)
• γ1 = este coeficientul de asimetrie (en., skewness);
σ3
Coeficientul γ1 este al treilea moment centrat standardizat. O repartiţie este simetrică dacă
γ1 = 0. Vom spune că asimetria este pozitivă (sau la dreapta) dacă γ1 > 0 şi negativă (sau la
stânga) dacă γ1 < 0.
µ4 (Z)
• K= este excesul (coeficientul de aplatizare sau boltire) (en., kurtosis).
σ4
Este o măsură a boltirii distribuţiei (al patrulea moment standardizat). Termenul (−3) apare
pentru că indicele kurtosis al distribuţiei normale să fie egal cu 0. Vom avea o repartiţie
mezocurtică pentru K = 0, leptocurtică pentru K > 0 sau platocurtică pentru K < 0. Un
indice K > 0 semnifică faptul că, în vecinătatea modului, curba densităţii de repartiţie are o
boltire (ascuţire) mai mare decât clopotul lui Gauss. Pentru K < 0, în acea vecinătate curba
densităţii de repartiţie este mai plată decât curba lui Gauss.
3.3 Variabile aleatoare 57

Cuantile

Fie o v.a. Z ce are funcţia de repartiţie F(z). Pentru un α ∈ (0, 1), definim cuantila de ordin α
acea valoare reala zα ∈ R pentru care
F(zα ) = P(Z ≤ zα ) = α. (3.3.8)

(1) Cuantilele sunt măsuri de poziţie, ce măsoară lo-


caţia unei anumite observaţii faţă de restul datelor. Aşa
cum se poate observa din Figura 3.1, valoarea xα este
acel număr real pentru care aria haşurată este chiar α.
(2) În cazul în care Z este o variabilă aleatoare dis-
cretă, atunci (3.3.8) nu are soluţie pentru orice α. Însă,
dacă există o soluţie a acestei ecuaţiei F(x) = α, atunci
există o infinitate de soluţii, şi anume intervalul ce sep-
ară două valori posibile.

Figure 3.1: Cuantila de ordin α.


(3) Cazuri particulare de cuantile:
• pentru α = 1/2, obtinem mediana. Astfel, F(Me) = 0.5. Mediana (notata Me) este valoarea
care imparte repartitia in doua parti in care variabila Z ia valori cu probabilitati egale. Scriem
asta astfel:
P(Z ≤ Me) = P(Z > Me) = 0.5.
Pentru o variabila care nu este simetrica, mediana este un indicator mai bun decat media
pentru tendinta centrala a valorilor variabilei.
• pentru α = i/4, i ∈ {1, 2, 3}, obtinem cuartilele. Prima cuartila, Q1 , este acea valoare
pentru care probabilitatea ca Z sa ia o valoare la stanga ei este 0.25. Scriem asta astfel:
P(Z ≤ Q1 ) = 0.25. Cuartila a doua este chiar mediana, deci Q2 = Me. Cuartila a treia,
Q3 , este acea valoare pentru care probabilitatea ca Z sa ia o valoare la stanga ei este 0.75.
Scriem asta astfel: P(Z ≤ Q3 ) = 0.75.
• pentru α = j/10, j ∈ {1, 2, . . . , 9}, obtinem decilele. Prima decila este acea valoare pentru
care probabilitatea ca Z sa ia o valoare la stanga ei este 0.1. S.a.m.d.
• pentru α = j/100, j ∈ {1, 2, . . . , 99}, obtinem centilele. Prima centila este acea valoare
pentru care probabilitatea ca Z sa ia o valoare la stanga ei este 0.01. S.a.m.d.
(4) Dacă Z ∼ N (0, 1), atunci cuantilele de ordin α le vom nota prin zα .

Modul (valoarea cea mai probabilă)

Este valoarea cea mai probabila pe care o lua variabila aleatoare Z. Cu alte cuvinte, este acea
valoare x∗ pentru care f (x∗ ) (densitatea de repartiţie sau funcţia de probabilitate) este maximă. O
repartiţie poate să nu aibă niciun mod, sau poate avea mai multe module.

Covarianţa şi coeficientul de corelaţie

Conceptul de corelaţie (sau covarianţă) este legat de modul în care două variabile aleatoare tind
să se modifice una faţă de cealaltă; ele se pot modifica fie în aceeaşi direcţie (caz în care vom
58 Chapter 3. Noţiuni teoretice de Statistică

spune că Z1 şi Z2 sunt direct <sau pozitiv> corelate) sau în direcţii opuse (Z1 şi Z2 sunt invers <sau
negativ> corelate).
Consideram variabilele Z1 , Z2 ce admit mediile, respectiv, µ1 , µ2 .
Definim corelaţia (sau covarianţa) variabilelor Z1 şi Z2 , notată prin cov(Z1 , Z2 ), cantitatea

cov(Z1 , Z2 ) = E[(Z1 − µ1 )(Z2 − µ2 )].

Daca Z1 si Z2 coincid, sa spunem ca Z1 = Z2 = Z, atunci cov(Z, Z) = σZ2 .


O relaţie liniară între două variabile este acea relaţie ce poate fi reprezentată cel mai bine printr-o
linie. Corelaţia detectează doar dependenţe liniare între două variabile aleatoare. Putem avea
o corelaţie pozitivă, însemnând că Z1 şi Z2 cresc sau descresc împreună (vezi cazurile in care
ρ = 0.85 sau ρ = 1 in Figura 3.2), sau o corelaţie negativă, însemnând că Z1 şi Z2 se modifică
în direcţii opuse (vezi cazul ρ = −0.98 in Figura 3.2). In cazul ρ = −0.16 din Figura 3.2, nu se
observa nicio tendinta, caz in car putem banui ca variabilele nu sunt corelate.
O măsură a corelaţiei dintre două variabile este coeficientul de corelaţie. Acesta este foarte utilizat
în ştiinţe ca fiind o măsură a dependenţei liniare între două variabile. Se numeşte coeficient de
corelaţie al v.a. Z1 şi Z2 cantitatea
cov(Z1 , Z2 )
ρ= ,
σ1 σ2
unde σ1 si σ2 sunt deviatiile standard pentru Z1 , respectiv, Z2 . Uneori se mai noteaza prin
ρ(Z1 , Z2 ) sau ρZ1 , Z2 . Coeficientul de corelatie ia valori intre −1 (perfect negativ corelate) si 1
(perfect pozitiv corelate) si masoara gradul de corelatie liniara dintre doua variabile.

Figure 3.2: Reprezentare de date bidimensionale.

3.3.3 Independenţa
Conceptul de independenţă a variabilelor aleatoare sau a evenimentelor este foarte important din
punctul de vedere al calculului statistic, atunci cand avem de calculat probabilităţile evenimentelor
compuse din evenimente mai simple.
3.3 Variabile aleatoare 59

Consideram A si B două evenimente aleatoare arbitrare.


(1) Dacă anumite informaţii despre evenimentul B au influenţat în vreun fel realizarea evenimen-
tului A, atunci vom spune că A şi B sunt evenimente dependente. De exemplu, evenimentele A =
mâine plouă şi B = mâine mergem la plajă sunt dependente.
(2) Să presupunem că evenimentul B satisface relaţia P(B) > 0. Vom spune că evenimentele A
şi B sunt independente dacă probabilitatea lui A este independentă de realizarea evenimentului B,
adică probabilitatea condiţionată
P(A| B) = P(A), (3.3.9)
echivalent cu T
P(A B)
= P(A).
P(B)
Aici am notat prin P(A| B) probabilitatea ca evenimentul A sa se realizeze stiind ca B s-a realizat.
Putem rescrie ultima egalitate sub forma simetrică:
\
P(A B) = P(A) · P(B). (3.3.10)

Deoarece în relaţia (3.3.10) nu mai este nevoie de condiţie suplimentara pentru P(B), este
preferabil să definim independenţă a două evenimente arbitrare astfel:
Două evenimente A si B se numesc independente dacă relaţia (3.3.10) are loc. Altfel, ele sunt
dependente, in sensul ca realizarea uneia depinde de realizarea/nerealizarea celeilalte.
In general, o multime de evenimente se numesc independente daca oricum am alege evenimente
din aceasta multime, probabilitatea ca acestea sa se realizeze simultan este egala cu produsul
probabilitatilor fiecarui eveniment in parte.
Doua variabile aleatoare Z1 si Z2 sunt independente daca realizarile lor sunt evenimente indepen-
dente intre ele. De asemenea, vom spune ca o multime variabile aleatoare sunt independente daca
realizarile oricarei submultimi dintre ele sunt evenimente independente intre ele.
Exemplu: Să considerăm aruncarea unui zar. Aruncăm zarul de două ori şi notăm cu Z1 , respectiv,
Z2 , v.a. ce reprezintă numărul de puncte apărute la fiecare aruncare. Evident, valorile acestor v.a.
sunt din mulţimea {1, 2, 3, 4, 5, 6}. Aceste doua variabile aleatoare sunt independente, deoarece
aparitia unei fete la aruncarea primului zar este independenta de aparitia oricarei fete la aruncarea
celui de-al doilea.
O consecinta importanta a independentei variabilelor este faptul ca media produsului a doua
sau mai multe variable independente este egala cu produsul mediilor celor doua variabile. De
asemenea, daca variabilele sunt independente, dispersia sumei variabilelor este egala cu suma
dispersiilor fiecarei variabile in parte. Aceste proprietati nu au loc in cazul in care ipoteza de
independenta nu este verificata.
De remarcat faptul ca independenta a doua variabile implica faptul ca ele sunt necorelate, adica
cov(Z1 , Z2 ) = 0 si, implicit, ρZ1 , Z2 = 0. Propozitia reciproca nu este adevarata. Aceasta inseamna
ca exista variabile care sunt necorelate dar nu sunt independente.
Este important de notat faptul ca in Geostatistica datele spatiale sunt necorelate, deci nu pot fi
independente. Observatiile facute in locatii apropiate tind sa aiba valori apropiate.

3.3.4 Teorema limita centrala


Teorema limita centrala este un rezultat foarte important in Statistica. Ea ne permite să aproximăm
sume de variabile aleatoare identic repartizate, avînd orice tip de repartiţii (atât timp cât variaţia
60 Chapter 3. Noţiuni teoretice de Statistică

lor e finită), cu o variabila aleatoare normală.


Presupunem ca in urma unor masuratori am obtinut datele z1 , z2 , . . . , zn si ca aceste date sunt
realizarile unor variabile Z1 , Z2 , . . . , Zn . Daca aceste variabile sunt normale, atunci suma acestora
n
1 n
(Sn = ∑ Zi ) cat si media lor (Z = ∑ Zi ) sunt tot variabile normale, pentru orice volum al
i=1 n i=1
selectiei, n.
Teorema limita centrala spune ca, dacă variabilele Z1 , Z2 , . . . , Zn nu sunt normal repartizate,
atunci, pentru un volum n este suficient de mare, repartitiile pentru Sn si Z tind sa fie tot normale.
Spunem astfel ca repartitiile asimptotice (la limita) pentru Sn si Z sunt normale. Cu cat volumul
observatiilor este mai mare, cu atat suma sau media lor sunt mai aproape de repartitia normala.
Mai mult, daca variabilele Zi au aceeasi medie (µ) si aceeasi deviatie standard σ , atunci media Z
σ
este o variabila normala de medie µZ = µ si deviatie standard σZ = √ . Se observa ca, daca n
n
este foarte mare, atunci deviatia standard a lui Z scade, astfel ca valorile sale vor deveni foarte
apropiate de µ.
Se pune problema: Cât de mare ar trebui să fie n, în practică, pentru că teorema limită centrală
să fie aplicabilă? Se pare ca un număr n astfel încât n ≥ 30 ar fi suficicient pentru aproximarea cu
repartiţia normală deşi, dacă variabilele sunt simetrice, aproximarea ar putea fi bună şi pentru un
număr n mai mic de 30.

3.3.5 Repartiţii probabilistice


• Repartiµia binomial , B(n, p):
Este o repartitie pentru o variabila aleatoare discreta. Modeleaza numarul de succese
obtinute in urma unui experiment aleator care se desfasoara in aceleasi conditii de un numar
de ori. Fie n numarul de repetitii ale experimentului si fie p probabilitatea de succes la o
singura efectuare a experimentului. Spunem ca o variabila aleatoare Z urmeaza repartitia
binomiala de parametri n si p, scriem Z ∼ B(n, p), (n > 0, p ∈ (0, 1)), dacă valorile lui Z
sunt {0, 1, . . . , n}, cu probabilităţile
P(Z = k) = Cnk pk (1 − p)n−k , k = 0, 1, . . . , n.
Media şi dispersia pentru o astfel de variabila binomiala sunt: µZ = np; σZ2 = np(1 − p).
Spre exemplu, aruncarea de 15 ori a unei monede ideale poate fi modelată ca fiind o v.a.
binomială B(15, 0.5).

• Repartiµia normal , N (µ, σ )


Repartitia normala este cea mai cunoscuta si des utilizata repartitie probabilistica. Spunem
că o variabila aleatoare urmeaza o repartitie normala de medie µ si deviatie standard σ
(vom scrie Z ∼ N (µ, σ ), dacă Z are densitatea de repartitie
(z − µ)2
1 −
f (z) = √ e 2σ 2 , z ∈ R.
σ 2π
Media variabilei Z este E(Z) = µ şi dispersia sa este σZ2 = σ 2 .
Repartitia normala se mai numeşte şi repartiţia gaussiană, dupa numele matematicianului
german C. F. Gauß. În cazul µ = 0, σ 2 = 1 densitatea de repartiţie devine:
1 z2
f (z) = √ e− 2 , x ∈ R. (3.3.11)

3.3 Variabile aleatoare 61

În acest caz spunem că Z urmează repartiţia normală standard, N (0, 1).
Graficul densităţii de repartiţie pentru repartiţia normală este clopotul lui Gauss (vezi Figura
3.3). Din grafic (pentru σ = 1), se observă că majoritatea valorilor nenule ale repartiţiei
normale standard se află în intervalul (µ − 3σ , µ + 3σ ) = (−3, 3). Această afirmaţie rezulta
din relaţia (3.3.7).

Dacă Z ∼ N (0, 1), atunci Z = σ Z + µ ∼ N (µ, σ ). În mod similar, dacă Z ∼ N (µ, σ ),


Z−µ
atunci Z = ∼ N (0, 1). Pentru o v.a. N (0, 1) funcţia de repartiţie este tabelată
σ
(valorile ei se găsesc în tabele) şi are o notaţie specială, Θ(z). Ea e definită prin:
Z z
1 y2
Θ(z) = √ e− 2 dy. (3.3.12)
2π −∞

Funcţia de repartiţie a lui Z ∼ N (µ, σ ) este dată prin

z−µ
 
F(z) = Θ , z ∈ R. (3.3.13)
σ

Figure 3.3: Clopotul lui Gauss pentru o variabila Z ∼ N (0, σ ), (σ = 1, 2, 3)

• Repartiµia log-normal , logN (µ, σ )

Repartiţia log-normală este foarte utilă în practica atunci cand observatiile nu sunt normale.
In acest caz, este posibil ca logaritmul acestor observatii sa urmeze o repartitie normala.
In general, daca datele observate sunt asimetrice (coeficientul skewness este mare), atunci
este necesara o logaritmare a datelor. Majoritatea mineralelor sau elementelor chimice au
repartitii lognormale. Vom spune ca variabila Z urmeaza o repartitie log-normala, scriem
Z ∼ logN (µ, σ ), daca variabila ln Z urmeaza o repartitie normala, adica ln Z ∼ N (µ, σ ).
62 Chapter 3. Noţiuni teoretice de Statistică

Densitatea de repartiţie pentru o repartitie lognormala de parametri µ si σ este:

(ln z − µ)2




f (z) = 1
√ e 2σ 2 , dacă z > 0;
 zσ 2π
, dacă z ≤ 0.

0

Media şi dispersia pentru o variabila Z ∼ logN (µ, σ ) sunt date de

2 /2 2 2
µZ = eµ+σ , σZ2 = e2µ+σ (eσ − 1).

• Repartiµia χ 2 , χ 2 (n)

Repartitia χ 2 (n) (cu n grade de liberate) apare in urma insumarii unui numar de n variabile
normale standard independente. Vom spune ca o variabila Z urmeaza repartitia χ 2 (n)
(scriem ca Z ∼ χ 2 (n) si se citeşte repartiţia hi-pătrat cu n grade de libertate) dacă densitatea
sa de repartiţie este:

 1 n z
 z 2 −1 e− 2 , dacă z > 0,
n
f (z; n) = Γ( 2n )2 2
, dacă z ≤ 0.

0

unde Γ este funcţia lui Euler. Graficul acestei repartiţii (pentru diverse valori ale lui n) este
reprezentat în Figura 3.4.
(a) Media şi dispersia unei repartitii χ 2 (n) sunt:

E(χ 2 ) = n, D2 (χ 2 ) = 2n.

(b) Dacă variabilele Zk ∼ N (0, 1) pentru k = 1, 2, . . . , n sunt independente, atunci

Z12 + Z22 + · · · + Zn2 ∼ χ 2 (n).

(c) În particular, dacă variabila Z este normala standard, atunci patratul acesteia este o
variabila χ 2 (1). Matematic, scriem astfel:

Daca Z ∼ N (0, 1), atunci Z 2 ∼ χ 2 (1).


3.3 Variabile aleatoare 63

Figure 3.4: Repartiţia χ 2 (n) pentru patru valori ale lui n.

• Repartiµia Student (W. S. Gosset4 ), t(n)

Spunem că Z ∼ t(n) (cu n grade de libertate) dacă densitatea de repartiţie este:
 
n+1
Γ − n+1
z2
 2
2
f (z; n) = √ n 1 + , z ∈ R.
nπ Γ n
2
n
Media şi dispersia unei repartitii t(n) sunt: µZ = 0, σZ2 = .
n−2
• Repartiµia Fisher5 , F (m, n)

Spunem că Z ∼ F (m, n) (cu m, n grade de libertate) dacă densitatea de repartiţie este:
 m  
m 2 m+n

 Γ
 m   2n  z 2 −1 1 + mn z − 2
 n
 m  m+n
f (z) = , z > 0;
Γ Γ
2 2



, z ≤ 0.

0

n 2n2 (n + m − 2)
Media şi dispersia unei repartitii F (m, n) sunt: µZ = , σZ2 = .
n−2 m(n − 2)2 (n − 4)

4 William Sealy Gosset (1876 − 1937), statistician britanic, care a publicat sub pseudonimul Student
5 Sir Ronald Aylmer Fisher (1890 − 1962), statistician, eugenist, biolog şi genetician britanic
4. Estimatori

Presupunem ca Z este variabila de interes a unei colectivitati statistice si ca, in urma unor
masuratori, am obtinut rezultatele z1 , z2 , . . . , zn . Deoarece in urma acestor masuratori pot aparea
erori, in Statistica se considera ca aceste date sunt realizarile unor variabile Z1 , Z2 , . . . , Zn . Se
presupune ca aceste variabile sunt independente si au toate aceeasi repartitie (adica sunt toate copii
independente ale aceleasi variabile). Aceste variabile le vom numi variabile aleatoare de selectie.
Pe baza acestor observatii, dorim sa estimam anumiti parametri ai colectivitatii, de exemplu media
µ sau deviatia standard σ ale lui Z.
O functie f (Z1 , Z2 , . . . , Zn ) ce depinde de variabilele de selectie se va numi generic statistică.
In caz ca nu este pericol de confuzie, valoarea statisticii pentru un esantion, f (z1 , z2 , . . . , zn ), se
numeste tot statistică. Exemple de statistici:
1. Media selectiei:
1 n
Z = ∑ Zi .
n i=1

1 n
O valoare observata pentru Z este z = ∑ zi .
n i=1
(∗ ) Daca variabilele de selectie Zi au media µ si deviatia standard σ , atunci media mediei
selectiei este tot µ si deviatia sa standard este √σn . Scriem asta astfel:

σ
µZ = µ si σZ = √ .
n

(∗∗ ) In cazul in care variabilele Zi sunt normale N (µ, σ ), atunci media selectiei este tot
o variabila normala, Z ∼ N (µ, √σn ).
(∗∗∗ ) Daca numarul variabilelor de selectie este suficient de mare, atunci variabila Z este
normala, fara ca Zi sa fie neaparat normale. Acest fapt este o consecinta a teoremei limita
centrala.
66 Chapter 4. Estimatori

2. Dispersia selecţiei,
1 n
S2 = ∑ [Zi − Z]2
n − 1 i=1
1 n
O valoare observata pentru S2 este s2 = ∑ [zi − z]2.
n − 1 i=1
√ √
3. Deviatia standard a selecţiei, S = S2 . O valoare observata pentru S este s = s2 .

4.1 Estimatori punctuali


Consideram acum un parametru generic al populatiei, notat cu θ , pe care dorim sa-l estimam.
• Prin estimator punctual (sau, simplu, estimator) pentru parametrul θ intelegem o statistica
(independenta de θ ) care se apropie de θ atunci cand volumul selectiei este suficient de
mare. Un estimator pentru parametrul θ este notat simbolic prin θb. Valoarea unui astfel de
estimator intr-o masurare se va numi estimatie. Pentru simplitate, atunci cand nu este pericol
de confuzie, vom nota estimatorul si estimatia tot cu θb. De remarcat faptul ca estimatorul
este o variabila aleatoare si estimatia este un numar real.
Deoarece estimarile sunt bazate doar pe valorile unei submultimi din colectivitate, ele nu pot fi
exacte. Apar astfel erori de aproximare. Ne-am dori să ştim în ce sens şi cât de bine un estimator
aproximeaza (se apropie) de valoarea estimata. Pentru aceasta, avem nevoie de anumite cantitati
care sa cuantifice erorile de aproximare. In acest sens, vom discuta aici despre: deplasare, eroarea
medie patratica si eroarea standard.
• Un estimator θ̂ se numeste estimator nedeplasat (en., unbiased estimator) pentru parametrul
θ dacă media estimatorului este chiar valoarea parametrului pe care estimeaza. Matematic,
scriem astfel:
E(θ̂ ) = θ .
• Altfel, spunem că θ̂ este un estimator deplasat pentru θ , iar deplasarea (distorsiunea) se
defineşte prin:
b(θ̂ , θ ) = E(θ̂ ) − θ .
Cantitatea b(θ̂ , θ ) este o măsură a erorii pe care o facem în estimarea lui θ prin θ̂ .
• O alta masura a incertitudinii cu care un estimator aproximeaza parametrul este eroarea
standard (en., standard error), notata aici prin σ (θ̂ ) sau σθ̂ . Spre exemplu, daca estimatorul
θ̂ este Z, atunci
σ
σZ = √ ,
n
unde σ este deviatia standard a unei singure observatii. Se observa de aici ca σZ va tinde
la 0 daca n creste nemarginit. Astfel, daca numarul de masuratori creste, media acestor
masuratori se apropie mult de valoarea parametrului µ.
• Numim eroare medie pătratică a unui estimator θ̂ pentru θ (en., mean squared error)
cantitatea  2 
MSE(θ̂ , θ ) = E θ̂ − θ .

Aceasta cantitate ne va indica valoarea medie a patratului diferentei dintre estimator si


valoarea parametrului estimat. Pentru un estimator nedeplasat, MSE este chiar dispersia
estimatorului, σθ̂2 .
4.1 Estimatori punctuali 67

• Un estimator nedeplasat θ̂ pentru θ se numeşte estimator nedeplasat uniform de dispersie


minimă (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dacă pentru orice
valori ale parametrului θ si pentru orice alt estimator nedeplasat pentru θ , notat cu θ̂ ∗ ,
estimatorul θ̂ are varianta minima. Matematic, scriem astfel:

σθ̂2 ≤ σθ̂2∗ , pentru orice valoarea a lui θ .

• Pentru un anumit parametru pot exista mai mulţi estimatori nedeplasati. Dintre acestia, cel
mai bun estimator va fi acela care are varianta minima.

4.1.1 Exemple de estimatori punctuali


Presupunem ca Z este variabila de interes a unei populatii statistice, pentru care dorim sa estimam
anumiti parametri, e.g., media µ, varianta (dispersia) σ 2 , deviatia standard σ etc. Plecand de la o
multime de valori observate pentru Z, si anume z1 , z2 , . . . , zn , putem construi urmatorii estimatori:
1 n
1. Un estimator pentru media µ este media selectiei Z = Z = ∑ Zi . O estimatie pentru µ
b
n i=1
este b
z.
Concret, daca dorim sa determinam concentratia medie de azotati din sol intr-o anumita
regiune, vom stabili mai intai locatiile x1 , x2 , . . . , xn de unde vom culege probe, urmand ca
apoi sa le culegem efectiv si, pe baza valorilor obtinute, facem media acestora. Astfel, fiecare
variabila Zi = Z(xi ) reprezinta concentratia in locatia xi , care este o variabila aleatoare.
1 n
Valoarea masurata in aceasta locatie este zi = z(xi ). Estimatorul Z = ∑ Zi este media
n i=1
concentratiilor din locatiile stabilite (este criteriul dupa care se estimeaza media), iar
1 n
estimatia z = ∑ zi este valoarea medie a concentratiilor masurate.
n i=1
2 1 n
2. Dispersia selecţiei, S = ∑ [Zi − Z]2 , este un estimator pentru dispersia teoretică, σ 2 .
n − 1 i=1

3. Deviatia standard a selectiei, S = S2 este un estimator pentru deviatia standard teoretică,
σ.
σ s
4. Un estimator pentru eroarea standard σZ = √ este sZ = √ .
n n
5. Dispersia stratificata In cazul unui camp aleator, exista cazuri in care estimatiile deviatiei
s
standard s sunt foarte mari, fapt care duce la o eroare standard √ mare. Acest lucru poate
n
fi datorat faptului ca unele regiuni din campul aleator sunt foarte slab reprezentate prin
masuratori, pe cand altele contin prea multe masuratori. O idee pentru reducerea erorii este
cresterea volumului observatiilor, n. Insa, de multe ori, acest lucru nu este convenient. Totusi,
problema poate fi remediata daca se face o selectie stratificata a locatiilor masuratorilor,
dupa cum urmeaza.
Sa presupunem ca regiunea R de interes este impartita in m subregiuni (numite straturi).
Pentru fiecare astfel de strat, k se vor face nk ≥ 2 masuratori. Pentru fiecare strat in parte,
putem calcula varianta masuratorilor prin formula:

1 nk
s2k = ∑ [zik − zk ]2.
nk − 1 i=1
68 Chapter 4. Estimatori

O estimatie pentru varianta mediei in regiunea R este

1 m s2k
s2z = 2 ∑ .
k j=1 nk
q
O estimatie pentru eroarea standard a lui z este sz = s2z .
6. Presupunem acum ca avem doua variabile de interes, Z si Z 0 . Am vazut anterior ca legatura
dintre aceste variabile poate fi descrisa de covarianta, cov(Z, Z 0 ) = E [(Z − µZ )(Z 0 − µZ 0 )].
Pentru a construi un estimator pentru covarianta este avem nevoie de n perechi de observaţii.
Presupunem ca acestea sunt {(z1 , z01 ), (z2 , z02 ), . . . , (zn , z0n )}. O estimatie pentru cov(Z, Z 0 )
este covarianta (sau corelatia) empirica,

1 n
cove = ∑ (zi − z)(z0i − z0),
n − 1 i=1

unde
1 n 1 n 0
z= ∑ zi si z0 = ∑ zi.
n i=1 n i=1

4.2 Estimarea parametrilor prin intervale de încredere


O singură populaţie

După cum am văzut anterior, putem determina estimaţii punctuale pentru parametrii unei populatii
însă, o estimaţie punctuală, nu precizează cât de aproape se găseşte estimaţia θ̂ (x1 , x2 , . . . , xn )
faţă de valoarea reală a parametrului θ . De exemplu, dacă dorim să estimăm valoarea medie a
pH din sol, atunci putem găsi un estimator punctual (e.g., media de selecţie) care să ne indice că
aceasta este de 8.1. Ideal ar fi dacă această informaţie ar fi prezentată sub forma: pH mediu din
sol este 8 ± 0.2.
Putem obţine astfel de informaţii dacă vom construi un interval în care, cu o probabilitate destul
de mare, să găsim valoarea reală a lui θ .
Dorim să determinam un interval (aleator) care să acopere cu o probabilitate mare (e.g., 0.95,
0.98, 0.99 etc) valoarea posibilă a parametrului necunoscut.
Pentru un α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim interval
de încredere (en., confidence interval) pentru parametrul θ cu probabilitatea de încredere 1 − α,
un interval aleator (θ , θ ), astfel încât

P(θ < θ < θ ) = 1 − α, (4.2.1)

unde θ (Z1 , Z2 , . . . , Zn ) şi θ (Z1 , Z2 , . . . , Zn ) sunt statistici.


Pentru o observaţie fixată, capetele intervalului (aleator) de încredere vor fi statistici. De exemplu,
pentru datele observate, z1 , z2 , . . . , zn , intervalul

θ (z1 , z2 , . . . , zn ), θ (z1 , z2 , . . . , zn )

se numeşte valoare a intervalului de încredere pentru θ . Pentru simplitate însă, vom folosi
termenul de "interval de încredere" atât pentru intervalul propriu-zis, cât şi pentru valoarea
4.2 Estimarea parametrilor prin intervale de încredere 69

acestuia, înţelesul desprinzându-se din context.


Valoarea α se numeşte nivel de semnificaţie sau probabilitate de risc.
Cu cât α este mai mic (de regulă, α = 0.01 sau 0.02 sau 0.05), cu atât şansa (care este (1 − α) ·
100%) ca valoarea reală a parametrului θ să se găsească în intervalul găsit este mai mare.
Intervalul de încredere pentru valoarea reală a unui parametru nu este unic. Dacă ni se dau condiţii
suplimentare (e.g., fixarea unui capăt), atunci putem obţine intervale infinite la un capăt şi finite la
celălalt capăt.
În continuare, vom preciza intervale de încredere pentru parametrii unor caracteristici normale.
Vom nota cu (generic) prin xα cuantila de ordin α pentru repartitia variabilei Z. Cuantilele xα pot
fi gasite in tabele specifice repartitiei cautate, sau pot fi calculate folosind un soft specializat.
Daca variabila Z urmeaza o repartitie normala N (0, 1), atunci cuantilele corespunzatoare le vom
nota prin zα si le vom gasi in Tabelul 10.1.
Daca variabila Z urmeaza o repartitie Student t(n), atunci cuantilele corespunzatoare le vom nota
prin tα, n si le vom gasi in Tabelul 10.2.
Daca variabila Z urmeaza o repartitie χ 2 (n), atunci cuantilele corespunzatoare le vom nota prin
2 si le vom gasi in Tabelul 10.3.
χα, n

4.2.1 Intervale de încredere pentru medie


Distingem aici doua cazuri: (1) cand volumul selectiei este suficient de mare (de multe ori, aceasta
inseamna peste 40 de observatii), sau (2) cand volumul selectiei este mic. Dupa cum am vazut
anterior, pentru estimarea punctuala a mediei pe baza unei selectii folosim:

1 n
z= ∑ zi .
n i=1

(1) daca n ≥ 40, atunci un interval de incredere pentru medie la nivelul de semnificatie α este
 
s s
z − z1− α2 √ , z + z1− α2 √ , (4.2.2)
n n

unde z1− α2 este cuantila de ordin 1 − α2 pentru repartitia N (0, 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05, atunci din Tabelul 10.1 gasim ca z0.975 = 1.96.
(2) pentru observatii normale de volum mic, un interval pentru medie la nivelul de semnificatie
α este
 
s s
z − t1− α2 ; n−1 √ , z + t1− α2 ; n−1 √ . (4.2.3)
n n

Aici, s este o estimatie pentru deviatia standard,


s
1 n
s= ∑ (zi − z)2
n − 1 i=1

si t1− α2 , n−1 este cuantila de ordin 1 − α2 pentru repartitia t(n − 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05 si volumul selectiei este n = 35, atunci din Tabelul
10.2 gasim ca t0.975, 34 = 2.032.
70 Chapter 4. Estimatori

Când volumul n este mare, atunci va fi o diferenţă foarte mică între valorile z1− α2 şi t1− α2 ; n−1 , de
aceea am putea folosi z1− α2 în locul valorii t1− α2 ; n−1 .
Intervalele de încredere de mai sus sunt valide pentru selecţia (repetată sau nerepetată) dintr-o
populaţie infinită, sau pentru selecţii repetate dintr-o populaţie finită. În cazul selecţiilor nerepetate
din colectivităţi finite, în estimarea intervalelor de încredere vom ţine cont şi de volumul N al
populaţiei. Spre exemplu, dacă selecţia de volum n se face dintr-o populaţie finită de volum N şi
n ≥ 0.05N, atunci un inteval de încredere centrat pentru media populaţiei este:
r r !
s N −n s N −n
z − t1− α2 ; n−1 √ , z + t1− α2 ; n−1 √ . (4.2.4)
n N −1 n N −1
q
Factorul N−n N−1 va fi aproximativ egal cu 1 atunci cand N este infinit sau N  n, obtinandu-se
astfel intervalul (4.2.3). Formula (4.2.4) nu este practica in Geostatistica, deoarece un camp
aleator are o multime infinita de puncte, asadar selectia de masuratori se face dintr-o populatie de
volum N = ∞.
O alta observatie este faptul ca este posibil ca σ sa fie un parametru cunoscut pentru Z, caz in care
pentru intervalul de incredere pentru medie se foloseste formula (4.2.2) cu σ inlocuindu-l pe s.
Exemplu 4.1 O maşină de îngheţată umple cupe cu îngheţată. Se doreşte ca îngheţată din cupe să
aibă masa de µ = 250g. Desigur, este practic imposibil să umplem fiecare cupă cu exact 250g
de îngheţată. Presupunem că masa conţinutului din cupă este o variabilă aleatoare repartizată
normal. Pentru a verifica dacă maşina este ajustată bine, se aleg la întâmplare 30 de înghetate
şi se cântăreşte conţinutul fiecăreia. Obţinem astfel o selecţie repetată, z1 , z2 , . . . , z30 după cum
urmează:
257 249 251 251 252 251 251 249 248 248 251 253 248 245 251
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253
Se cere să se scrie un interval de încredere pentru µ, cu nivelul de incredere de 0.99.
Soluţie: După cum am văzut mai sus, un interval de încredere pentru µ este (deoarece N este
necunoscut, il presupunem mult mai mare decat n):
 
s s
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ .
n n
Aici, nivelul de risc este α = 0.01, cuantila teoretica este t1− α2 ; n−1 = t0.995, 29 = 2.7564, media
valorilor este z = 250.0667 si deviatia standard este s = 2.9704. Astfel, obţinem intervalul de
încredere pentru µ:
(248.572, 251.561).

4.2.2 Interval de încredere pentru dispersie


Dupa cum am vazut anterior, pentru estimarea punctuală a lui σ 2 se foloseste
1 n
s2 = ∑ [zi − z]2 .
n − 1 i=1

Un interval pentru σ 2 la nivelul de semnificatie α este:


!
(n − 1) s2 (n − 1) s2
2
, . (4.2.5)
χ1− α
; n−1
χ 2α ; n−1
2 2
4.2 Estimarea parametrilor prin intervale de încredere 71

Intervale de încredere pentru deviaţia standard se obţin prin extragerea rădăcinii pătrate din
capetele de la intervalele de încredere pentru dispersie.
Exemplu 4.2 Găsiţi un interval de încredere (cu α = 0.05) pentru deviaţia standard a conţinutului
de nicotină pentru un anumit tip de ţigări, stiind ca pentru o selecţie de 25 de bucăţi, deviaţia
standard a conţinutului de nicotină este de 1.6mg.
Soluţie: Observam ca s = 1.6mg. Din tabele, găsim ca:
2 2
χ0.975; 24 = 39.3641; χ0.025; 24 = 12.4012.

Intervalul de încredere pentru dispersie este:

(σ 2 , σ 2 ) = (1.5608, 4.9544).

Pentru variaţia standard, intervalul de încredere este:


√ √
( 1.5608 mg, 4.9544 mg) = (1.25mg, 2.22mg).

4.2.3 Interval de încredere pentru proportie


Pentru o populaţie statistică, prin proporţie a populaţiei vom înţelege procentul din întreaga
colectivitate ce satisface o anumită proprietate (sau are o anumită caracteristică) (e.g., proporţia
de studenţi integralişti dintr-o anumită facultate). Pe de altă parte, prin proporţie de selecţie
înţelegem procentajul din valorile de selecţie ce satisfac o anumită proprietate (e.g., proporţia de
studenţi integralişti dintr-o selecţie aleatoare de 40 de studenţi ai unei facultăţi). Proporţia unei
populaţii este un parametru (pe care îl vom nota cu p), iar proporţia de selecţie este o statistică (pe
care o notăm aici prin p).
Fie Z o caracteristică binomială a unei colectivităţi, cu probabilitatea de succes p (e.g., numărul
de steme apărute la aruncarea unei monede ideale, caz în care p = 0.5). Dorim să construim un
interval de încredere pentru proporţia populaţiei, p. Pentru aceasta, avem nevoie de selecţii de
volum mare din această colectivitate. Un estimator potrivit pentru p este proporţia de selecţie,
adică
Z
pb = p = .
n
Printr-un "volum mare" vom înţelege un n ce satisface: n ≥ 30, n pb > 5 şi n (1 − pb) > 5.
Bazat pe o selectie de volum n, un interval de încredere pentru p la nivelui de semnificatie α, este
de forma:
r r !
pb(1 − pb) pb(1 − pb)
pb − z1− α2 , pb + z1− α2 . (4.2.6)
n n

Acest interval de încredere este valabil pentru selecţie dintr-o populaţie infinită (sau n  N,
de regulă n < 0.05N) sau pentru selecţia cu repetiţie dintr-o populaţie finită. Dacă selecţia se
realizează fără repetiţie dintr-o populaţie finită (cu N astfel înât n ≥ 0.05N), atunci intervalul de
încredere este:
r r r r !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 . (4.2.7)
n N −1 n N −1
72 Chapter 4. Estimatori

Exemplu 4.3 Dintr-o selecţie de 200 de elevi ai unei şcoli cu 1276 de elevi, 65% afirmă că deţin
cel puţin un telefon mobil. Să se găsească un interval de încredere pentru procentul de copii din
respectiva şcoală ce deţin cel puţin un telefon mobil, la nivelul de semnificaţie α = 0.05.
Soluţie: Avem: n = 200, N = 1276, p = 0.65. Deoarece n ≥ 0.05N, găsim că un interval de
încredere la nivelul de semnificaţie 0.05 este
r r r r !
0.65 (1 − 0.65) 1276 − 200 0.65 (1 − 0.65) 1276 − 200
0.65 − 1.96 , 0.65 + 1.96
200 1276 − 1 200 1276 − 1
= (58.93%, 71.07%).

Exemplu 4.4 Într-un institut politehnic, s-a determinat că dintr-o selecţie aleatoare de 100 de
studenţi înscrişi, doar 67 au terminat studiile, obţinând o diplomă. Găsiţi un interval de încredere
care, cu o confidenţă de 90%, să determine procentul de studenţi absolvenţi dintre toţi studenţii ce
au fost înscrişi.
67
Soluţie: Mai întâi, observăm că α = 0.1, n > 30, pb = 100 = 0.67, n pb = 67 > 5 şi n(1 − pb) =
33 > 5. Deoarece nu ni se dă vreo informaţie despre N (numărul total de studenţi înscrişi), putem
presupune că n < 0.05N. Cuantila teoretica este z0.95 = 1.6449. Găsim că intervalul de încredere
căutat este:
r r !
0.67 (1 − 0.67) 0.67 (1 − 0.67)
0.67 − 1.6449 , 0.67 + 1.6449 = (57.78%, 76.22%).
100 100
5. Teste statistice

Testarea ipotezelor statistice este o metodă prin care se iau decizii statistice, utilizând datele
experimentale culese. Testele prezentate mai jos au la bază noţiuni din teoria probabilităţilor.
Aceste teste ne permit ca, plecând de la un anumit sau anumite seturi de date culese experimental,
să se putem valida anumite estimări de parametri ai unei repartiţii sau chiar putem prezice forma
legii de repartiţie a caracteristicii considerate.
Presupunem că Z este variabila de interes a unei populaţii statistice şi că legea sa de probabilitate
este dată de depinde de un parametru θ . In general, o repartitie poate depinde de mai multi
parametri, insa aici vom discuta doar cazul unui singur parametru. De asemenea, să presupunem
că (zk )k=1, n sunt datele observate relativ la caracteristica Z.
• Numim ipoteză statistică o presupunere relativă la valorile parametului θ sau chiar referi-
toare la tipul legii caracteristicii.
• O ipoteză neparametrică este o presupunere relativă la repartitia lui Z. De exemplu, o
ipoteză de genul Z ∼ Normală.
• Numim ipoteză parametrică o presupunere făcută asupra valorii parametrilor unei repartiţii.
Dacă mulţimea la care se presupune că aparţine parametrul necunoscut este formată dintr-un
singur element, avem de-a face cu o ipoteză parametrică simplă. Altfel, avem o ipoteză
parametrică compusă.
• O ipoteză nulă este acea ipoteză pe care o intuim a fi cea mai apropiată de realitate şi o
presupunem a priori a fi adevărată. Cu alte cuvinte, ipoteza nulă este ceea ce doreşti să
crezi, în cazul în care nu există suficiente evidenţe care să sugereze contrariul. Un exemplu
de ipoteză nulă este următoarul: "presupus nevinovat, până se găsesc dovezi care să ateste o
vină". O ipoteză alternativă este orice altă ipoteză admisibilă cu care poate fi confruntată
ipoteza nulă.
• A testa o ipoteză statistică (en., statistical inference) înseamnă a lua una dintre deciziile:
− ipoteza nulă se respinge (caz in care ipoteza alternativa este admisa)
− ipoteza nulă se admite (sau, nu sunt motive pentru respingerea ei)
• În Statistică, un rezultat se numeşte semnificativ din punct de vedere statistic dacă este
74 Chapter 5. Teste statistice

improbabil ca el să se fi realizat datorită şansei. Între două valori există o diferenţă
semnificativă dacă există suficiente dovezi statistice pentru a dovedi diferenţa, şi nu datorită
faptului că diferenţa ar fi mare.
• Numim nivel de semnificaţie probabilitatea de a respinge ipoteza nulă când, de fapt, aceasta
este adevărată. În general, nivelul de semnificaţie este o valoare pozitiva apropiata de 0,
e.g., una dintre valorile: α = 0.01, 0.02, 0.05 etc. Intr-o analiza statistica sau soft statistic,
valoarea implicita pentru α este 0.05.
• În urma unui test statistic pot aparea două tipuri de erori:
1. eroarea de speţa (I) sau riscul furnizorului (en., false positive) − este eroarea care se
poate comite respingând o ipoteză (în realitate) adevărată. Se mai numeşte şi risc de
genul (I). Probabilitatea acestei erori este egala chiar nivelul de semnificaţie α, adică:

α = P(H0 se respinge | H0 este adevărată).

2. eroarea de speţa a (II)-a sau riscul beneficiarului (en., false negative) − este eroarea
care se poate comite acceptând o ipoteză (în realitate) falsă. Se mai numeşte şi risc de
genul al (II)-lea. Probabilitatea acestei erori este

β = P(H0 se admite | H0 este falsă).

Gravitatea comiterii celor două erori depinde de problema studiată. De exemplu, riscul de
genul (I) este mai grav decât riscul de genul al (II)-lea dacă verificăm calitatea unui articol
de îmbracăminte, iar riscul de genul al (II)-lea este mai grav decât riscul de genul (I) dacă
verificăm concentraţia unui medicament.
• Denumim valoare P sau P−valoare sau nivel de semnificaţie observat (en., P-value) proba-
bilitatea de a obţine un rezultat cel puţin la fel de extrem ca cel observat, presupunând că
ipoteza nulă este adevărată. Valoarea P este cea mai mică valoare a nivelului de semnificaţie
α pentru care ipoteza (H0 ) ar fi respinsă, bazându-ne pe observaţiile culese. Dacă Pv ≤ α,
atunci respingem ipoteza nulă la nivelul de semnificaţie α, iar dacă Pv > α, atunci admitem
(H0 ). Cu cât Pv este mai mică, cu atât mai mari şanse ca ipoteza nulă să fie respinsă. De
exemplu, dacă valoarea P este Pv = 0.045 atunci, bazându-ne pe observaţiile culese, vom
respinge ipoteza (H0 ) la un nivel de semnificaţie α = 0.05 sau α = 0.1, dar nu o putem
respinge la un nivel de semnificaţie α = 0.02. Dacă ne raportăm la P−valoare, decizia
într-un test statistic poate fi făcută astfel: dacă aceasta valoare este mai mică decât nivelul
de semnificaţie α, atunci ipoteza nulă este respinsă, iar dacă P−value este mai mare decât
α, atunci ipoteza nulă nu poate fi respinsă.
Un exemplu simplu de test este testul de sarcină. Acest test este, de fapt, o procedură statistică ce
ne dă dreptul să decidem dacă există sau nu suficiente evidenţe să concluzionăm că o sarcină este
prezentă. Ipoteza nulă ar fi lipsa sarcinii. Majoritatea oamenilor în acest caz vor cădea de acord
cum că un false negative este mai grav decât un false positive.
Să presupunem că suntem într-o sală de judecată şi că judecătorul trebuie să decidă dacă un
inculpat este sau nu vinovat. Are astfel de testat următoarele ipoteze:
(
(H0 ) inculpatul este nevinovat;
(H1 ) inculpatul este vinovat.

Posibilele stări reale (asupra cărora nu avem control) sunt:


[1] inculpatul este nevinovat (H0 este adevărată şi H1 este falsă);
5.1 Tipuri de teste statistice 75

[2] inculpatul este vinovat (H0 este falsă şi H1 este adevărată)
Deciziile posibile (asupra cărora avem control − putem lua o decizie corectă sau una falsă) sunt:
[i] H0 se respinge (dovezi suficiente pentru a încrimina inculpatul);
[ii] H0 nu se respinge (dovezi insuficiente pentru a încrimina inculpatul);
În realitate, avem următoarele posibilităţi, sumarizate în Tabelul 5.1:

Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 [1]&[i] [2]&[i]
Acceptă H0 [1]&[ii] [2]&[ii]

Table 5.1: Posibilităţi decizionale.

Interpretările datelor din Tabelul 5.1 se găsesc în Tabelul 5.2.

Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 închide o persoana nevinovată închide o persoana vinovată
Accepta H0 eliberează o persoana nevinovată eliberează o persoana vinovată

Table 5.2: Decizii posibile.

Erorile posibile ce pot aparea sunt cele din Tabelul 5.3.

Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 α judecată corectă
Accepta H0 judecată corectă β

Table 5.3: Erori decizionale.

5.1 Tipuri de teste statistice


Tipul unui test statistic este determinat de ipoteza alternativă (H1 ). Astfel, putem avea:
• test unilateral stânga, atunci când ipoteza alternativă este θ < θ0 ;
• test unilateral dreapta, atunci când ipoteza alternativă este θ > θ0 ;
• test bilateral, atunci când ipoteza alternativă este θ 6= θ0 .
Pentru a lua decizii statistice se poate utiliza metoda intervalelor de încredere pentru parametri.
76 Chapter 5. Teste statistice

5.1.1 Testul t pentru medie


Testul t pentru medie se foloseşte pentru selecţii normale de volum mic, de regulă n < 30, când
dispersia populaţiei este necunoscută a priori.
Fie caracteristica Z ce urmează legea normală N (µ, σ ) cu µ necunoscut şi σ > 0 necunoscut.
Vrem să verificăm ipoteza nulă
(H0 ) : µ = µ0
versus ipoteza alternativă
(H1 ) : µ 6= µ0 ,
cu probabilitatea de risc α.
Metoda I: Etapele testului sunt urmatoarele:
• Obtinem o multime de masuratori asupra variabilei Z: z1 , z2 , . . . , zn .
• Pe baza acestor masuratori putem calcula media si deviatia standard:
s
1 n 1 n
z = ∑ zi
n i=1
si s= ∑ (zi − z)2 .
n − 1 i=1

• Calculam statistica ce masoara discrepanta dintre valoarea medie observata si valoarea medie pe
care o testam:
z − µ0
T0 = s . (5.1.1)

n

• Calculam cuantila de ordin 1 − α2 pentru repartitia t(n − 1), notata aici prin t1− α2 ; n−1 Este un prag
teoretic ce poate fi determinat din tabelele pentru repartitia Student sau calculat cu un soft matematic
(e.g., M ATLAB). Decizia se ia astfel:
– dacă |T0 | < t1− α2 ; n−1 (adica T0 este suficient de mic in valoare absoluta), atunci admitem (H0 ).
– dacă |T0 | ≥ t1− α2 ; n−1 , atunci respingem (H0 ).

Metoda a II-a: O altă modalitate de testare a unei ipoteze statistice parametrice este prin
intermediul P−valorii, Pv . Reamintim, P−valoarea este probabilitatea de a obţine un rezultat cel
puţin la fel de extrem ca cel observat, presupunând că ipoteza nulă este adevărată. Aceasta valoare
este afisata de orice soft statistic folosit in testarea ipotezelor. Utilizând P−valoarea, testarea se
face astfel:
Ipoteza nulă va fi respinsă dacă Pv < α şi va fi admisă dacă Pv ≥ α. Aşadar, cu cât Pv este mai
mic, cu atât mai multe dovezi de respingere a ipotezei nule.
Exemplu 5.1 Pentru a determina media notelor la teza de Matematica a elevilor dintr-un anumit
oras, s-a facut un sondaj aleator de volum n = 90 printre elevii din oras. Notele observate in urma
sondajului sunt grupate in Tabelul 2.3. Dorim să testăm, la nivelul de semnificaţie α = 0.05, dacă
media tuturor notelor la teza de Matematică a elevilor din oras este µ = 6.5.
Soluţie: Aşadar, avem de testat

(H0 ) µ = 6.5 vs. (H1 ) µ 6= 6.5.

Media si deviatia standard a notelor din tabel sunt:

z = 6.3667, s = 1.8570.
5.1 Tipuri de teste statistice 77

Valoarea statisticii t0 si pragul teoretic de referinta (cuantila) sunt:


z − µ0
t0 = s = −0.6812, t1− α2 ; n−1 = t0.975; 89 = 1.9870.

n
Deoarece |t0 | < t0.975; 89 , luam decizia ca ipoteza (H0 ) este admisa la acest nivel de semnificatie.

Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata de
un soft statistic, valoarea ei fiind Pv = 0.4975, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.

5.1.2 Test pentru dispersie


Pentru variabila Z ca mai sus dorim sa testam ipoteza:

(H0 ) : σ 2 = σ02 vs. ipoteza alternativă (H1 ) : σ 2 6= σ02 ,

cu probabilitatea de risc α. Etapele testului sunt urmatoarele:


• Obtinem o multime de masuratori asupra variabilei Z: z1 , z2 , . . . , zn .
• Pe baza acestor masuratori putem calcula media si deviatia standard:
s
1 n 1 n
z = ∑ zi
n i=1
si s = ∑ (zi − z)2 .
n − 1 i=1

• Calculam statistica
n−1 2
χ02 = S , (5.1.2)
σ2
• Determinam cuantilele de ordine α/2 si 1 − α/2 pentru repartitia χ 2 (n − 1) (se pot obtine din tabele
χ 2 ). Luarea decizieise face astfel:
pentru repartitia 
– dacă χ02 ∈ χ 2α ; n−1 , χ1−
2
α , atunci admitem (H0 ) (i.e., σ 2 = σ02 );
 2 2 ; n−1 

– dacă χ02 ∈6 χ 2α ; n−1 , χ1−


2
α
2
; n−1 , atunci respingem (H0 ) (i.e., σ 6= σ0 ).
2
2 2
Exemplu 5.2 Se cercetează caracteristica Z, ce reprezintă diametrul pieselor (în mm) produse de
un strung. Presupunem ca valorile observate urmeaza o repartitie normala. Pentru o selecţie de
piese de volum n = 11 şi obţinem distribuţia empirică:
 
10.50 10.55 10.60 10.65
.
2 3 5 1

Să se testeze (cu α = 0.1) ipoteza nulă

(H0 ) : σ 2 = 0.003,

versus ipoteza alternativă


(H1 ) : σ 2 6= 0.003.
Soluţie: Calculam mai intai s2 si apoi valoarea statisticii test. Obtinem s2 = 0.0022 si, astfel,
10
χ02 = 0.003 · 0.0022 = 7.2727. Cuantilele sunt:

χ 2α ; n−1 = 3.9403; 2
χ1− α
; n−1 = 18.3070.
2 2
78 Chapter 5. Teste statistice

Astfel, intervalul teoretic de referinta este


 
χ02 ∈ χ 2α ; n−1 , χ1−
2
α
; n−1 = (3.9403, 18.3070).
2 2

Cum valoarea χ02 = 7.2727 se afla in acest interval, tragem concluzia ca ipoteza nula nu poate fi
respinsa. (o acceptam).

Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata de
un soft statistic, valoarea ei fiind Pv = 0.6995, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.

5.1.3 Testul χ 2 de concordanţă


Testele de concordanţă (en., goodness-of-fit tests) realizează concordanţa între repartiţia empirică
(repartiţia datelor observate) şi repartiţia teoretică a unei variabile. Două dintre cele mai des
utilizate teste de concordanţă sunt testul χ 2 de concordanţă şi testul Kolmogorov-Smirnov.

Testul χ 2 de concordanţă poate fi utilizat ca un criteriu de verificare a ipotezei potrivit căreia


un ansamblu de observaţii urmează o repartiţie dată. Se aplică la verificarea normalităţii, a
exponenţialităţii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit şi testul
χ 2 al lui Pearson sau testul χ 2 al celei mai bune potriviri (en., goodness of fit test). Acest test
poate fi aplicat pentru orice tip de date pentru care funcţia de repartiţie empirică poate fi calculată.
Pentru acest test, ipoteza nulă este:
(H0 ) : Funcţia de repartiţie a lui Z este F(z).
Ipoteza alternativă este negaţia ipotezei nule.
Etapele testului sunt urmatoarele:
1. Stabilim pragul de risc α. Facem masuratorile asupra variabilei Z : z1 , z2 , . . . , zn .
2. Pe baza masuratorilor intuim natura repartitiei lui Z (si, implicit, forma functiei de repartitie a lui
Z). Aceasta functie poate depinde de unul sau mai multi parametri, notati generic cu θ . Formulăm
ipotezele statistice:
(H0 ) funcţia de repartiţie teoretică a variabilei aleatoare Z este F(z; θ1 , θ2 , . . . , θ p )
(H1 ) ipoteza nulă nu este adevărată.
3. Dacă θ1 , θ2 , . . . , θk (k ≤ p) nu sunt parametri cunoscuţi, atunci determinăm estimările θ̂1 , θ̂2 , . . . , θ̂k
pentru aceştia. Altfel, sărim peste acest pas;
4. Grupam datele in clase si scriem distribuţia empirică de selecţie (tabloul de frecvenţe),
clasa Oi n
 
, unde ∑ ni = n, ni ≥ 5;
ni i=1, n i=1

5. Se calculează probabilitatea pi , ca un element luat la întâmplare să se afle în clasa Oi . Dacă


Oi = [ai−1 , ai ), atunci
k
(ni − n pi )2
6. Se calculează statistica χ 20 = ∑ , care reprezinta discrepanta dintre valorile observate si
i=1 n pi
cele teoretice;
7. Determinăm valoarea χ ∗ , care este
(
2
χ1−α; , în cazul in care nu avem de estimat parametrii repartitiei,
χ∗ = 2
k−1
χ1−α; k−p−1 , în cazul in care am estimat p parametri pentru repartitie,
2 2
unde χα; n este cuantila de ordin α pentru repartiţia χ (n);
5.1 Tipuri de teste statistice 79

8. Dacă χ 20 < χ ∗ , atunci acceptăm (H0 ), altfel o respingem.


Exemplu 5.3 În urma unui recensământ, s-a determinat că proporţiile persoanelor din România
ce aparţin uneia dintre cele patru grupe sanguine sunt: O : 34%, A : 41%, B : 19%, AB : 6%.
S-au testat aleator 450 de persoane din România, obţinându-se următoarele rezultate:
Verificaţi, la nivelul de risc α = 0.05, Grupa sanguină O A B AB
compatibilitatea datelor cu rezultatul teoretic.
Frecvenţa 136 201 82 31

Soluţie: Ipotezele statistice sunt:

(H0 ) : Rezultatul observat este compatibil cu cel teoretic,

(H1 ) : Există diferenţe semnificative între rezultatul teoretic şi observaţii.


Dacă ipoteza nulă ar fi adevărată, atunci valorile aşteptate pentru cele patru grupe sanguine (din
450 de persoane) ar fi: O : 153.5, A : 184.5, B : 85, AB : 27.
Calculez valoarea statisticii χ 2 pentru observaţiile date. Ponderile pi sunt: p1 = 0.34, p2 =
0.41, p3 = 0.19, p4 = 0.06. Folosind formula, gasim ca:

(136 − 450 · 0.34)2 (201 − 450 · 0.41)2 (82 − 450 · 0.19)2 (31 − 450 · 0.06)2
χ 20 = + + +
450 · 0.34 450 · 0.41 450 · 0.19 450 · 0.06
(136 − 153.5) 2 (201 − 184.5) 2 (82 − 85)2 (31 − 27)2
= + + +
153.5 184.5 85 27
= 4.1004.

Aici n = 4, p = 0. Valoarea teoretica a statisticii de referinta este χ ∗ = χ0.95;


2
3 = 7.8147. Deoarece
2 ∗
χ 0 < χ , atunci acceptăm (H0 ) la acest nivel de semnificaţie. Asadar, observatiile sunt compatibile
cu cele teoretice.

5.1.4 Testul de concordanţă Kolmogorov-Smirnov


Testul de concordanţă Kolmogorov-Smirnov poate fi utilizat în compararea unor observaţii date
cu o repartiţie cunoscută (testul K-S cu o selecţie) sau în compararea a două selecţii (testul K-S
pentru două selecţii). Spre deosebire de criteriul χ 2 al lui Pearson, care foloseşte densitatea
de repartiţie, criteriul Kolmogorov-Smirnov utilizează funcţia de repartiţie empirică, Fn∗ (x). În
cazul unei singure selecţii, este calculată distanţa dintre funcţia de repartiţie empirică a selecţiei
şi funcţia de repartiţie teoretica pentru repartiţia testată, iar pentru două selecţii este măsurată
distanţa între două funcţii empirice de repartiţie. În fiecare caz, repartiţiile considerate în ipoteza
nulă sunt repartiţii de tip continuu. Testul Kolmogorov-Smirnov este bazat pe rezultatul teoremei
urmatoare:
Teorema 5.1.1 (Kolmogorov) Fie caracteristica X de tip continuu, care are funcţia de repartiţie
teoretică F şi fie funcţia de repartiţie de selecţie Fn∗ (x). Atunci, distanta dn = sup |Fn∗ (x) − F(x)|
x∈R
satisface relatia:

√ ∞
2 x2
lim P( n · dn < x) = K(x) = ∑ (−1)k e−2 k , x > 0. (5.1.3)
n→∞
k=−∞
80 Chapter 5. Teste statistice

Testul K-S pentru o selecţie

În cazul în care ipotezele testului sunt satisfăcute, acest test este mai puternic decât testul χ 2 .
Avem un set de date statistice independente, pe care le ordonăm crescator, x1 < x2 < · · · < xn .
Aceste observaţii independente provin din aceeaşi populaţie caracterizată de variabila aleatoare
X, pentru care urmărim să îi stabilim repartiţia. Mai întâi, cautăm să stabilim ipoteza nulă. De
exemplu, dacă intuim că funcţia de repartiţie teoretică a lui X ar fi F(x), atunci stabilim:
(H0 ) : funcţia de repartiţie teoretică a variabilei aleatoare X este F(x).
Ipoteza alternativă (H1 ) este, de regulă, ipoteza ce afirmă că (H0 ) nu este adevărată. Alegem un
nivel de semnificaţie α  1.
În criteriul K-S pentru o singură selecţie, se compară funcţia F(x) intuită a priori cu funcţia de
repartiţie empirică, Fn∗ (z). Reamintim,
card{i; xi ≤ x}
Fn∗ (x) = .
n
Studiind funcţia empirică de repartiţie a acestui set de date, Kolmogorov a găsit că distanţa
dn = sup |Fn∗ (x)−F(x)| satisface relaţia (5.1.3)), unde K(λ ), λ > 0, este funcţia lui Kolmogorov
x∈R
(tabelată). În testul K-S, măsura dn caracterizează concordanţa dintre F(x) şi Fn∗ (x). Dacă ipoteza
(H0 ) este adevărată, atunci diferenţele dn nu vor depăşi anumite valori.

Etapele aplicării testului lui Kolmogorov-Smirnov pentru o selecţie:


• Se dau α şi x1 < x2 < · · · < xn . Considerăm cunoscută (intuim) F(x);
• Ipotezele statistice sunt:
(H0 ) funcţia de repartiţie teoretică a variabilei aleatoare Z este F(x)
(H1 ) ipoteza nulă nu este adevărată.
• Calculăm λ1−α; n , cuantila de ordin 1 − α pentru funcţia lui Kolmogorov. Aceasta cuuantila verifica
relatia K(λ1−α ) = 1 − α.
• Se calculează dn = max |Fn∗ (x) − F(x)|;
x √
• Dacă dn satisface inegalitatea n dn < λ1−α , atunci admitem ipoteza (H0 ), altfel o respingem.
Exerciţiu 5.1 (test de verificare a normalităţii)
Considerăm selecţia {−2; −0.5; 0; 1; 1; 2; 2; 3}, extrasă dintr-o anumită colectivitate. La nivelul
de semnificaţie α = 0.1, să se decidă dacă
√ populaţia din care provine selecţia este normală de
medie 1 şi dispersie 2 (i.e., X ∼ N (1, 2)).
Soluţie: (folosim testul Kolmogorov-Smirnov) Mai întâi, calculăm funcţia de repartiţie
empirică. Avem:



 0, dacă x < −2;
1
dacă x ∈ [−2, −0.5);

8,




 28 , dacă x ∈ [−0.5, 0);



Fn∗ (x) = P(X ≤ x) = 38 , dacă x ∈ [0, 1);
5

8, dacă x ∈ [1, 2);




7




 8, dacă x ∈ [2, 3);

1, dacă x ≥ 3.

Pentru α = 0.1 şi n = 8, căutăm în tabelul pentru inversa funcţiei lui Kolmogorov acel x1−α; 8 =
x0.9; 8 astfel încât K(x1−α; 8 ) = 1 − α. Găsim că x0.9; 8 = 0.411.
5.1 Tipuri de teste statistice 81

Pe de altă parte, F(x) = Θ( x−1 √ ), unde Θ(x) este funcţia de repartiţie pentru legea normală
2
N (0, 1). √ √
Ipoteza că X urmează repartiţia normală N (1, 2) este acceptată dacă n dn < x1−α . Calculele
pentru determinarea valorii dn sunt date de Tabelul 5.4. În Figura 5.1, putem observa reprezentările
acestor două funcţii pentru setul de date observate.

xi −∞ −2 −0.5 0 1 2 3 ∞
F(xi ) 0 0.0169 0.1444 0.2398 0.5 0.7602 0.9214 1
Fn∗ (xi − 0) 0 0 0.125 0.25 0.375 0.625 0.875 1
Fn∗ (xi ) 0 0.125 0.25 0.375 0.625 0.875 1 1
|Fn∗ (xi − 0) − F(xi )| 0 0.0169 0.0194 0.0102 0.125 0.1352 0.0464 0
|Fn∗ (xi ) − F(xi )| 0 0.1081 0.1056 0.1352 0.125 0.1148 0.0786 0

Table 5.4: Tabel de valori pentru testul Kolmogorov-Smirnov.

Pentru a calcula dn , notăm faptul că cea mai mare diferenţă între F(x) şi Fn∗ (x) poate fi realizată
ori înainte de salturile funcţiei Fn∗ , ori după acestea, i.e.,
(
|F(xi ) − Fn∗ (xi − 0)|, înainte de saltul i;
sup |F(x) − Fn∗ (x)| = max
x∈R i |F(xi ) − Fn∗ (xi + 0)|, după saltul i.
√ √
Din tabel, observăm că dn = 0.1352. Deoarece n · dn = 8 · 0.1352 = 0.3824 < 0.411, con-
cluzionăm că putem accepta ipoteza (H0 ) la pragul de semnificaţie α = 0.1.
Observaţia 5.1 În cazul în care avem de comparat două repartiţii, procedăm astfel. Să pre-
supunem că Fm∗ (z) este funcţia de repartiţie empirică pentru o selecţie de volum m dintr-o populaţie
ce are funcţia teoretică de repartiţie F(z)) şi că G∗n (z) este funcţia de repartiţie empirică pentru o
selecţie de volum n dintr-o populaţie ce are funcţia teoretică de repartiţie G(z). Dorim să testăm

(H0 ) : F = G versus (H1 ) : F 6= G.

(eventual, în (H1 ) putem considera F > G sau F < G.) Considerăm statistica

dm,n = sup |Fm∗ (z) − G∗n (z)|,


z

ce reprezintă diferenţa maximă între cele două funcţii (vezi Figura 5.2). Etapele testului urmează
îndeaproape pe cele din testul K-S cu o singură selecţie. Decizia se face pe baza criteriului
r
mn
dm,n < qα .
m+n
Testul Kolmogorov-Smirnov pentru două selecţii este unul dintre cele mai utile teste de contin-
genţă pentru compararea a două selecţii. Acest test nu poate specifica natura celor două repartiţii.

Etapele aplicării testului lui Kolmogorov-Smirnov pentru două selecţii:


• Se dau α, x1 < x2 < · · · < xm şi y1 < y2 < · · · < yn . Considerăm cunoscute (intuim) F(x) şi G(x);
• Ipotezele statistice sunt:
(H0 ) F = G vs. (H1 ) F 6= G.
82 Chapter 5. Teste statistice

• Determinam pragul teoretic qα corespunzator valorii α din tabelul urmator:

α 0.10 0.05 0.025 0.01 0.005 0.001


qα 1.22 1.36 1.48 1.63 1.73 1.95

• Se calculează dm,n = sup |Fm∗ (z) − G∗n (z)|.


z q
mn
• Dacă dm,n satisface inegalitatea m+n dm,n < qα , atunci admitem ipoteza (H0 ), altfel ipoteza nulă
este respinsă la acest prag de semnificaţie.

Figure 5.1: Fn∗ (x) şi F(x) pentru testul Figure 5.2: Exemplu de funcţiile empirice
Kolmogorov-Smirnov cu o selectie. de repartiţie în testul K-S cu două selecţii.
6. Corelaţie şi regresie

6.1 Punerea problemei


În acest capitol vom discuta măsuri şi tehnici de determinare a legăturii între două sau mai
multe variabile aleatoare. Primele metode utilizate în studiul relaţiilor dintre două sau mai multe
variabile au apărut de la începutul secolului al XIX-lea, în lucrările lui Legendre1 şi Gauss2 , în
ce priveşte metoda celor mai mici pătrate pentru aproximarea orbitelor astrelor în jurul Soarelui.
Un alt mare om de ştiinţă al timpului, Francis Galton3 , a studiat gradul de asemănare între copii
şi părinţi, atât la oameni, cât şi la plante, observând că înălţimea medie a descendenţilor este
legată liniar de înălţimea ascendenţilor. Este primul care a utilizat conceptele de corelaţie şi
regresie ( (lat.) regressio - întoarcere). Astfel, a descoperit că din părinţi a căror înălţime este
mai mică decât media colectivităţii provin copii cu o înălţime superioară lor şi vice-versa. Astfel,
a concluzionat că înălţimea copiilor ce provin din părinţi înalţi tinde să "regreseze" spre înălţimea
medie a populaţiei. Din lucrările lui Galton s-a inspirat un student de-al său, Karl Pearson, care
a continuat ideile lui Galton şi a introdus coeficientul (empiric) de corelaţie ce îi poartă numele.
Acest coeficient a fost prima măsură importantă introdusă ce cuantifica tăria legăturii dintre două
variabile ale unei populaţii statistice.
Un ingredient fundamental în studiul acestor două concepte este diagrama prin puncte, aşa-numita
scatter plot. În probleme de regresie în care apare o singură variabila răspuns şi o singură
variabilă observată, diagrama scatter plot (răspuns vs. predictor) este punctul de plecare pentru
studiul regresiei. O diagramă scatter plot ar trebui reprezentată pentru orice problemă de analiză
regresională; aceasta va oferi o primă idee despre ce tip de regresie vom folosi. Exemple de astfel
de diagrame sunt cele din Figura 3.2.
Regresia este o metodă statistică utilizată pentru descrierea naturii relaţiei între variabile. De
fapt, regresia stabileşte modul prin care o variabilă depinde de altă variabilă, sau de alte variabile.
1 Adrien-Marie Legendre (1752 − 1833), matematician francez
2 Johann Carl Friedrich Gauss (1777 − 1855), matematician şi fizician german
3 Sir Francis Galton (1822 − 1911), om de ştiinţă britanic
84 Chapter 6. Corelaţie şi regresie

Analiza regresională cuprinde tehnici de modelare şi analiză a relaţiei dintre o variabilă dependentă
(variabila răspuns) şi una sau mai multe variabile independente. De asemenea, răspunde la
întrebări legate de predicţia valorilor viitoare ale variabilei răspuns pornind de la o variabilă dată
sau mai multe. În unele cazuri se poate preciza care dintre variabilele de plecare sunt importante
în prezicerea variabilei răspuns. Se numeşte variabilă independentă o variabilă ce poate fi
manipulată (numită şi variabilă predictor, stimul sau comandată), iar o variabilă dependentă (sau
variabila prezisă) este variabila care dorim să o prezicem, adică o variabilă cărei rezultat depinde
de observaţiile făcute asupra variabilelor independente.
Să luăm exemplul unei cutii negre (black box) (vezi
Figura 6.1). În aceasta cutie intră (sunt înregistrate) in-
formaţiile x1 , x2 , . . . , xm , care sunt prelucrate (în tim-
pul prelucrării apar anumiţi parametri, β1 , β2 , . . . , βk ),
iar rezultatul final este înregistrat într-o singură vari-
abila răspuns, y. Figure 6.1: Black box.
De exemplu, se doreşte a se stabili o relaţie între valoarea pensiei (y) în funcţie de numărul de
ani lucraţi (x1 ) şi salariul avut de-alungul carierei (x2 ). Variabilele independente sunt măsurate
exact, fără erori. În timpul prelucrării datelor sau după aceasta pot apăra distorsiuni în sistem,
de care putem ţine cont dacă introducem un parametru ce să cuantifice eroarea ce poate apărea
la observarea variabilei y. Se stabileşte astfel o legătură între o variabilă dependentă, y, şi una
sau mai multe variabile independente, x1 , x2 , . . . , xm , care, în cele mai multe cazuri, are forma
matematică generală

y = f (x1 , x2 , . . . , xm ; β1 , β2 , . . . , βk ) + ε, (6.1.1)

unde β1 , β2 , . . . , βk sunt parametri reali necunoscuţi a priori (denumiţi parametri de regresie) şi ε
este o perturbaţie aleatoare. În cele mai multe aplicaţii, ε este o eroare de măsură, considerată
modelată printr-o variabilă aleatoare normală de medie zero. Funcţia f se numeşte funcţie de
regresie. Dacă aceasta nu este cunoscută a priori, atunci poate fi greu de determinat iar utilizatorul
analizei regresionale va trebui să o intuiască sau să o aproximeze utilizând metode de tip trial and
error (prin încercări). Dacă avem doar o variabila independentă (un singur x), atunci spunem că
avem o regresie simplă. Regresia multiplă face referire la situaţia în care avem multe variabile
independente.
Dacă observarea variabilei dependente s-ar face fără vreo eroare, atunci relaţia (6.1.1) ar deveni
(cazul ideal):

y = f (x1 , x2 , . . . .., xm ; β1 , β2 , . . . , βk ). (6.1.2)

Forma vectorială a dependenţei (6.1.1) este:

y = f (x; β ) + ε. (6.1.3)

Pentru a o analiză completă a regresiei (6.1.1), va trebui sa intuim forma funcţiei f şi apoi să
determinăm (aproximăm) valorile parametrilor de regresie. În acest scop, un experimentalist va
face un număr suficient de observaţii (experimente statistice), în urma cărora va aproxima aceste
valori. Dacă notăm cu n numărul de experimente efectuate, atunci le putem contabiliza pe acestea
în următorul sistem stochastic de ecuaţii:

yi = f (x, β ) + εi , i = 1, 2, . . . , n. (6.1.4)
6.1 Punerea problemei 85

În ipoteze uzuale, erorile εi sunt variabile aleatoare identic repartizate normal, independente de
medie µ = 0 si deviatie standard σ > 0. Astfel, sistemul (6.1.4) cu n ecuaţii are necunoscutele
{β j } j şi σ .
În cazul în care numărul de experimente este mai mic decât numărul parametrilor ce trebuie
aproximaţi (n < k), atunci nu avem suficiente informaţii pentru a determina aproximările. Dacă
n = k, atunci problema se reduce la a rezolva n ecuaţii cu n necunoscute. În cel de-al treilea caz
posibil, n > k, atunci avem un sistem cu valori nedeterminate.

Exemple de regresii:

În funcţie de forma funcţiei de regresie f , putem avea:


• regresie liniară simplă, în cazul în care avem doar o variabilă independentă şi

f (x; β ) = β0 + β1 x.

• regresie liniară multiplă, dacă

f (x; β ) = β0 + β1 x1 + β2 x2 + · · · + βm xm .

• regresie pătratică multiplă (cu două variabile), dacă

f (x; β ) = β0 + β1 x1 + β2 x2 + β11 x12 + β12 x1 x2 + β22 x22 .

• regresie polinomială, dacă

f (x; β ) = β0 + β1 x + β2 x2 + β3 x3 + · · · + βk xk .

Vom avea regresie pătratică pentru k = 2, regresie cubică pentru k = 3 etc.


• regresie exponenţială, când
f (x; β ) = β0 eβ1 x .
• regresie logaritmică, dacă
f (x; β ) = β0 · logβ1 x.
• şi altele.
De remarcat faptul că primele patru modele sunt liniare în parametri, pe când ultimele două nu
sunt liniare în parametri. Modelele determinate de aceste funcţii se vor numi modele de regresie
(curbe, suprafeţe etc).
În cadrul analizei regresionale, se cunosc datele de intrare, {xi }i , şi căutăm să estimăm parametrii
de regresie {β j } j şi deviaţia standard a erorilor, σ . De regula, functia f este necunoscută si va
trebui sa fie intuită de statistician.
7. Metode de interpolare spaţială

Dupa cum am mentionat anterior, in Geostatistica, datele observate sunt legate de pozitie. Spunem
astfel ca au un caracter spatial. Pozitia spatiala poate fi unu, doi sau trei-dimensionala. Vom
considera aici doar date bi-dimensionale. Vom nota generic cu x = (ζ1 , ζ2 ) vectorul de coordonate
bidimensionale. Dintre aceste metode, distingem metodele deterministe si cele geostatistice (sau
stochastice). In cazul metodelor deterministe nu se tine cont de erorile cu care pot fi colectate
masuratorile si de corelatiile dintre valorile masurate. In cazul metodelor stochastice, tinem cont
de erorile masuratorilor si de corelatiile dintre date.

7.1 Metode deterministe de interpolare spatiala


Generic, vom nota prin b
z o valoare prezisa a variabilei Z. O formula generala de estimare a valorii
z0 = z(x0 ) pe baza masuratorilor este media ponderata:

n
z(x0 ) = ∑ λi z(xi ),
b (7.1.1)
i=1

unde λi sunt ponderile ce trebuie determinate.

1. Metoda diagramei Voronoi (sau Thiessen, sau Dirichlet): Pentru un camp aleator R, vom
numi o diagrama Voronoi indusa de un set de locatii x1 , x2 , . . . , xn (numite si situri) o
diviziune a lui R in subregiuni, astfel incat pentru fiecare locatie, regiunea care o contine
este formata din punctele cele mai apropiate locatiei. Pentru fiecare punct xi , sa notam cu Vi
regiunea ce o contine. Se considera ca zi este valoarea variabilei Z pentru fiecare locatie din
regiunea Vi .
88 Chapter 7. Metode de interpolare spaţială
In cazul unei diagrame Voronoi, se pot considera ponder-
ile λi ca fiind
(
1 , daca xi ∈ Vi ,
λi =
0 , daca xi ∈ 6 Vi .

Totusi, astfel de predictii sunt grosiere, deoarece in


fiecare subregiune avem doar o valoare si nicio indicatie
a erorii cu care a fost observata. De asemenea, nu se tine
cont de configuratia locatiilor masuratorilor.
Figure 7.1: O diagrama Voronoi
2. Metoda triangularii (Delaunay):
Pentru o regiune R in care avem un set de locatii x1 , x2 , . . . , xn , o triangulare Delaunay este
o impartire a regiunii R in subregiuni triunghiulare, astfel incat nicio locatie data nu se afla
in cercul circumscris vreunui triunghi din diviziune.

O astfel de triangulare este unica pentru un set de locatii


aflate in pozitie generala (nu se afla pe o aceeasi linie).
In cazul unei triangulari, ponderile pentru fiecare regiune
triunghiulara sunt obtinute prin interpolarea liniara a co-
ordonatelor varfurilor triunghiului. Aceasta forma de
interpolare este mai buna decat cea anterioara, dar nu su-
ficient de folositoare. De asemenea, o predictie folosind
aceasta metoda nu tine cont de erorile de masurare.

Figure 7.2: O triangulare Delaunay


3. Metoda vecinilor naturali:
Este o metoda de interpolare introdusa de matematicianul Robin Sibson, care se bazeaza
pe diagrama Voronoi. Pe baza locatiilor unde au fost facute masuratori, se construieste
diagrama Voronoi.

Presupunem ca se doreste prezicerea valorii z0 a variabilei


Z intr-o alta locatie decat cea deja observata, fie ea x0 .
Pe baza locatiilor x0 , x1 , . . . , xn , se construieste o alta dia-
grama Voronoi, care incorporeaza si aceasta noua locatie.
Vom nota cu A aria regiunii care contine locatia x0 (este
regiunea hasurata din Figura 7.3) si, pentru fiecare i, notez
cu Ai intersectia regiunii care contine pe x0 cu regiunea ce
contine locatia xi din vechea retea Voronoi. Presupunem
ca regiunea de arie A intersecteaza r astfel de regiuni. In
mod clar, avem ca A1 + A2 + . . . + Ar = A. Figure 7.3: Diagrama pentru
metoda vecinilor
Ponderile λi sunt considerate astfel:

Ai
λi = ,
A1 + A2 + . . . + Ar
7.1 Metode deterministe de interpolare spatiala 89

unde suma se face dupa indicii locatiilor invecinate locatiei x0 . Astfel, ponderea λi va fi
nenula daca locatia xi este vecin natural cu x0 , si λi = 0 daca xi nu este vecin natural cu x0 .

4. Metoda ponderilor inverselor distantelor:

Notam cu di distanta dintre punctele xi si x0 . Aceasta metoda foloseste interpolarea (7.1.1)


cu ponderile
di−r
λi = n , i = 1, 2, . . . , n,
−r
∑ di
i=1
unde r > 0 este o valoare aleasa de investigator. Valoarea cea mai utilizata este r = 2.
Rezultatul acestei interpolari este ca punctele mai apropiate de punctul de interpolare au
o pondere mai mare decat cele mai indepartate. Cu cat r este mai mare, cu atat ponderea
punctelor apropiate creste. Astfel, valoarea variabilei in locatia x0 poate fi estimata prin:
di−r
n
zi , daca di 6= 0,

∑ n


i=1 −r
bz(x0 ) = ∑ di


 i=1
zi , daca di = 0.

Pentru r = 2, valoarea variabilei in locatia x0 poate fi estimata prin:


n

 λi zi , daca distanta dintre xi si x este nenula,
b

z(x0 ) = i=1
0

 zi , daca distanta dintre xi si x0 este0,
unde
1
di2
λi = , pentru fiecare i = 1, 2, . . . , n.
1 1 1
2
+ 2 +···+ 2
d1 d2 dn
Un mare dezavantaj al acestui tip de interpolare este ca nu tine cont de configuratia selectiei
alese.

5. Metoda determinarii suprafetelor de raspuns (regresie sau trend):

Aceasta metoda este asemanatoare cu metoda regresiei multiple. Sa presupunem ca dorim


sa dorim sa prezicem valorile pe care o variabila Z le ia intr-o anumita regiune R pe baza
masuratorilor facute in n locatii din aceasta regiune. Sa presupunem ca aceste locatii sunt
x1 , x2 , . . . , xn . Deoarece aceste puncte sunt planare, pentru a determina exact fiecare locatie
este nevoie de cate doua coordonate. Vom nota generic prin (xi1 , xi2 ) coordonatele locatiei
xi , pentru fiecare i = 1, 2, . . . , n. Dorim sa prezicem valoarea variabilei Z intr-o locatie
generica x din R, tinand cont de valorile cunoscute z(x1 ), z(x2 ), . . . , z(xn ). Presupunem ca
pentru locatia x avem coordonatele (x1 , x2 ). In general, valoarea prezisa de o suprafata de
raspuns va fi de forma:
z(x) := z(x1 , x2 ) = f (x1 , x2 ) + εx , (7.1.2)
90 Chapter 7. Metode de interpolare spaţială

unde f (x) este o functie de coordonatele spatiale ale locatiei investigate si εx este o eroare
de masurare. Aceasta eroare este presupusa a fi normala, de medie 0 si deviatie standard σ .
Mai mult, se presupune ca erorile observate in diferite locatii sa fie independente intre ele.
Exemple de suprafete de trend:
• (trend liniar, adica un plan):

f (x1 , x2 ) = β0 + β1 x1 + β2 x2 .

• (trend cuadratic pur):

f (x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 x12 + β4 x22 .

• (trend cuadratic cu interactiuni):

f (x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 x1 x2 + β4 x12 + β5 x22 .

• (trend cubic):
f (x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 x1 x2 + β4 x12 + β5 x22 + β6 x12 x2 + β7 x1 x23 + β8 x13 + β9 x23 .
Pe baza masuratorilor deja facute, se estimeaza parametrii βi , obtinandu-se astfel suprafata
de raspuns care se apropie cel mai mult de datele observate. O metoda de estimare a acestor
parametri este metoda celor mai mici patrate (se minimizeaza supa patratelor erorilor de
aproximare). De indata ce acesti coeficienti (se mai numesc si coeficienti de regresie) sunt
determinati, vom cunoaste forma exacta a functiei f (x1 , x2 ), si astfel putem estima valoarea
variabilei in locatia x = (x1 , x2 ) prin

z(x) = f (x1 , x2 ).
b

Spre exemplu, in cazul unui trend liniar cu β0 , β1 , β2 cunoscuti, estimam b


z(x) prin

z(x) = β0 + β1 x1 + β2 x2 .
b

De indata ce functia de regresie f este determinata si parametrii sunt estimati pe baza


observatiilor, se poate folosi modelul de regresie in predictii in locatii de unde nu s-au
facut masuratori. Insa, aceste predictii trebuie folosite cu mare atentie, deoarece estimarile
pot fi total neadecvate in cazul in care locatiile sunt din afara regiunii (ariei) acoperite de
observatii.

6. Metoda functiilor spline

O functie spline este o functie definita pe portiuni, iar in fiecare portiune avem un polinom.
Daca toate polinoamele au grad unu, vom spune ca avem o functie spline liniara, daca
toate polinoamele au gradul doi, atunci avem o functie spline patratica etc. Pentru un
set de locatii, putem determina o functie spline care interpoleaza aceste valori. Pe baza
acestei functii putem estima valoarea unei variabile intr-o locatie x0 prin valoarea functiei
in x0 . Interpolarea cu functii spline a fost introdusa de matematicianul roman Isaac Jacob
Schoenberg care a sustinut teza sa de doctorat la Universitatea din Iasi in 1926.
7.1 Metode deterministe de interpolare spatiala 91

Figure 7.4: Funcţii spline


8. Procese stochastice spaţiale

Pentru o regiune R, dorim sa caracterizam varabila de interes Z. In acest scop, se considera un set
de locatii x1 , x2 , . . . , xn . Valorile variabilei in aceste locatii sunt masurate, obtinandu-se valorile
z(x1 ), z(x2 ), . . ., z(xn ). In realitate, aceste masuratori sunt facute cu anumite erori, fapt care ne
indreptateste sa consideram variabilele aleatoare Z(x1 ), Z(x2 ), . . . , Z(xn ). In mod generic, prin
Z(xi ) intelegem variabila Z in locatia xi , iar z(xi ) este o valoare observata a sa. Pentru fiecare
locatie x din campul R, variabila Z(x) este o variabila aleatoare care are o anumita repartitie care
poate sa difere in functie de locatie.
Sirul de variabile aleatoare {Z(x); x ∈ R} se numeste proces stochastic sau câmp aleator sau
functie aleatoare.

Acesta este un sir infinit, deoarece exista o infinitate


de locatii x intr-o regiune. O realizare a functiei
aleatoare (sau variabila regionalizata) este formata
din multimea valorilor obtinute in urma unei masurari
a fiecarei variabile in parte. Este cunoscut faptul ca
valorile observate in locatii apropiate sunt apropiate
iar cele observate in locatii indepartate sunt diferite,
aceasta insemnand ca aceste variabile Z(xi ) sunt
corelate intre ele. Acest aspect nu este comun
Statisticii clasice, unde variabilele ce corespund
selectiei sunt independente intre ele si, mai mult,
identic repartizate. In Figura 8.1 am reprezentat 5
realizari ale unui proces stochastic. Figure 8.1: 5 realizari ale unei functii
aleatoare
Un camp aleator este cunoscut in totalitate daca pentru orice configuratie de locatii, z(x1 ), z(x2 ), . . .,
z(xn ), s-ar cunoaste repartitia variabilei vectoriale n−dimentionale V (x) = (Z(x1 ), Z(x2 ), . . . , Z(xn )),
lucru care este practic imposibil. In unele cazuri se poate presupune ca repartitia vectorului V (x)
94 Chapter 8. Procese stochastice spaţiale

este normala n−dimensionala, caz in care cunoastem mediile, dispersiile si corelatiile dintre
componentele vectorului. Insa, din nou, acest caz este doar un un caz particular. In cazul general
este greu de prezis repartitia exacta a acestui vector, dar putem face anumite presupuneri legate de
momentele variabilelor ce-l compun.
Presupunem ca variabila de interes, Z, admite valoare medie in orice locatie x. Pentru a descrie re-
latia intre doua variabile Z(xi ) si Z(x j ) (unde locatiile xi si x j sunt diferite), vom utiliza conceptele
de covarianta si corelatie. Reamintim aceste doua concepte in cazul variabilelor spatiale.
Pentru doua locatii x1 si x2 din R, definim covarianţa variabilelor Z(x1 ) şi Z(x2 ), notată prin
cov(x1 , x2 ), cantitatea

cov(Z(x1 ), Z(x2 )) = E[(Z(x1 ) − µ(x1 ))(Z(x2 ) − µ(x2 )], (8.0.1)

unde µ(x1 ) si µ(x2 ) sunt mediile variabilelor in locatiile x1 , respectiv, x2 .


Covarianta detectează doar dependenţe liniare între două variabile aleatoare. Daca cele doua
locatii coincid (scriem ca x1 = x2 = x), atunci obtinem varianta a priori a procesului:

cov(Z(x), Z(x)) = E[(Z(x) − µ)(Z(x) − µ)] = E[(Z(x) − µ)2 ] = σZ(x)


2
.

O măsură (adimensionala) a corelaţiei dintre două variabile este coeficientul de corelaţie (sau
corelatia, in unele carti). Acesta este utilizat ca fiind o măsură a dependenţei liniare între două
variabile. Se numeşte corelaţie a variabilelor Z(x1 ) şi Z(x2 ) cantitatea

cov(Z(x1 ), Z(x2 ))
ρ= ,
σ1 σ2

unde σ1 si σ2 sunt deviatiile standard pentru Z(x1 ), respectiv, Z(x2 ).


Un estimator pentru covarianta variabilelor Z(x1 ) şi Z(x2 ), bazat pe un set de n observatii perechi,
{(z1,1 , z2,1 ), (z1,2 , z2,2 ), . . . , (z1,n , z2,n )}, este:

1 n
c 1 , x2 ) =
cov(x ∑ [(z1,i − z1)(z2,i − z2)],
n i=1

unde z1 si z2 sunt mediile pentru fiecare selectie in parte..


Dupa cum se observa din relatia (8.0.1), pentru a evalua covarianta variabilelor Z(x1 ) şi Z(x2 )
avem nevoie de mediile acestor variabile. Din pacate, aceste valori nu sunt cunoscute. Pentru a
simplifica formula, trebuie sa facem presupuneri suplimentare. Una dintre acestea este legata de
invarianta mediei µ(x) de locatia x, pe care o tratam in cele ce urmeaza.

8.1 Procese stochastice stationare


Stationaritatea este o presupunere fundamentala in Geostatistica. Un proces stochastic (functie
aleatoare) {Z(x); x ∈ R} se numeste proces stationar daca repartitia variabilei Z(x) nu depinde
de locatia x. Cu alte cuvinte, daca pentru orice configuratie de locatii, x1 , x2 , . . ., xn , repartitia
variabilei vectoriale n−dimentionale V (x) = (Z(x1 ), Z(x2 ), . . . , Z(xn )) este independenta de lo-
catii. Aceasta inseamna ca pentru orice locatie x, variabila Z(x) urmeaza aceeasi repartitie. O
consecinta a acestui fapt este ca media µ(x), dispersia σ 2 (x), dar si momentele de ordin superior
8.2 Functia de covarianţă 95

(daca ele exista!) sunt independente de locatie. Scriem asta astfel: µ(x) = µ, σ 2 (x) = σ 2 , pentru
orice locatie x. Daca procesul aleator Z(x) este stationar, atunci putem scrie ca

Z(x) = µ + ε(x),

unde ε(x) sunt erori normal repartizate, ε(x) ∼ N (µ, σ ), pentru orice x din regiune.
Totusi, stationaritatea procesului este o ipoteza prea restrictiva in Geostatistica, deoarece in
general repartitia variabilei Z depinde de locatie. Pentru a indeparta acest inconvenient, vom
face o presupunere mai putin restrictiva (mai slaba), si anume ca procesul aleator sa admita doar
momente de ordinul 1 si 2 independente de locatie.
Suntem in cazul in care procesul stationar admite momente de ordinul intai si doi (adica, medie,
dispersie, covarianta). Un proces stochastic (functie aleatoare) {Z(x); x ∈ R} se numeste proces
slab stationar sau stationar de ordinul doi daca media procesului, varianta si covariantele nu
variaza cu locatia, iar covariantele depind doar de distanta dintre valori (lag) si nu de valorile in
sine. Valoarea lag este un vector care reprezinta distanta si directia dintre doua locatii. Matematic,
scriem astfel:

µ(x) = µ, σ 2 (x) = σ 2 , cov(Z(xi ), Z(x j )) = C (xi − x j ), pentru orice locatie x ∈ R,

unde C (xi − x j ) este o functie ce depinde doar de xi − x j si pe care o vom preciza la momentul
potrivit. Aceasta functie ne va spune cum sunt corelate valorile din doua locatii ale variabilei Z.

8.1.1 Ergodicitate
Dupa cum am vazut mai sus, un set de date statistice este doar un set de masuratori pe care le-am
observat dintr-o infinitate de posibile realizari ale unei functii aleatoare. Pentru a avea o idee cat
mai fidela despre functia aleatoare, ar fi necesar sa avem foarte multe astfel de realizari (variabile
regionalizate). In practica poate fi imposibil de obtinut, asa ca va trebui sa ne multumim doar cu o
singura variabila regionalizata.
Un proces stochastic se numeste proces ergodic daca proprietatile sale statistice (e.g., media,
varianta, momente) pot fi deduse dintr-o singura realizare (variabile regionalizate), de volum
suficient de mare. In Geostatistica, ergodicitatea este doar o presupunere si, in general, nu poate fi
testata.

8.2 Functia de covarianţă


Un rezultat important ar fi sa descriem covarianta dintre variabilele Z(x1 ) şi Z(x2 ) macar intr-un
caz restrictiv, dar nu foarte simplist. Sa presupunem ca functia aleatoare Z(x) este stationara
de ordinul al doilea si, pentru doua locatii x1 si x j din R, sa notam variabila lag cu h = xi − x j .
Deoarece functia aleatoare este slab stationara, covariantele vor depinde doar de lag si nu de
pozitii. Pentru o locatie x generica, vom scrie ca:
cov(Z(x), Z(x + h)) = E[(Z(x) − µ) · (Z(x + h) − µ)]
= C (h).
Functia C (h) se va numi functia de covarianta. De multe ori, i se atribuie denumirea de functie
de autocovarianta, deoarece in calcularea covariantei apare aceeasi variabila, desi in diverse
96 Chapter 8. Procese stochastice spaţiale

locatii. Aceasta functie descrie legatura dintre valorile variabilei Z atunci cand se schimba locatia.
Unitatea de masura a functiei de covarianta este unitatea de masura pentru variabila Z. Pentru un
proces stationar, functia de covarianta define
C (h) = E[(µ + ε(x) − µ) · (µ + ε(x + h) − µ)] = E[ε(x) · ε(x + h))].
Pentru a adimensionaliza relatia dintre valorile variabilei Z in diferite locatii, se foloseste valoarea
urmatoare:
C (h) C (h)
ρ(h) = = ,
C (0) σ2
unde prin C (0) am notat covarianta pentru valoarea de lag h = 0. Functia ρ(h) se numeste functie
de corelatie sau corelograma.

8.3 Variograma
O alta notiune fundamentala in Geostatistica este variograma. Aceasta va reprezenta variabilitatea
(continuitatea) variabilei spatiale in functie de variabila lag h. Este posibil ca doua variabile, sa le
numim Z1 si Z2 , sa aiba parametrii teoretici foarte apropiati sau chiar identici (vezi Tabelul 8.1
pentru aproximarile parametrilor respectivi si Figura 8.2 pentru o reprezentare cu histograme a
datelor observate), si totusi repartitiile lor sa arate complet diferit. Dupa cum se poate observa din
Figura 8.3, repartitiile celor doua variabile sunt complet diferite. Se poate observa ca reprezentarea
variabilei Z2 este mai "grosiera" decat cea reprezentata de variabila Z1 . Variabila Z1 se modifica
mai rapid in spatiu, pe cand, pentru a doua variabila, exista regiuni mai vaste in care valorile
variabilei par a fi neschimbate. Totodata, nu putem spune ca Z2 are o variatie mai mare decat Z1 ,
deoarece varianţele sunt egale. Mai mult, deoarece mediile sunt egale, atunci si coeficientii de
variatie sunt egali.
valori numerice variabila Z1 variabila Z2
media x 101 101
mediana Me 100.73 100.80
varianţa s2 400 400
prima cuartila q1 87.3 87.93
a treia cuartila q3 116.3 116.78
volumul n 15625 15625

Table 8.1: Valori numerice pentru doua


variabile spatiale
8.3 Variograma 97

Figure 8.2: Reprezentarile cu histograme pentru cele doua variabile

Figure 8.3: Reprezentarile 2D pentru variabilele Z1 si Z2

In acest caz, valorile numerice asociate celor doua seturi de date nu pot identifica variabilitatea
celor doua caracteristici. Daca am fi luat o decizie doar bazandu-ne pe valorile din Tabelul 8.1,
am fi cochis ca Z1 si Z2 au aceeasi repartitie, concluzie care este evident falsa.
Pentru a putea descrie (explica) aceasta variabilitate, este nevoie reprezentarile variogramelor
asociate celor doua variabile. In Figura 8.4, se observa ca variogramele asociate celor doua
variabile difera.

Figure 8.4: Reprezentarile variogramelor empirice si teoretice pentru variabilele Z1 si Z2

Vom discuta aici despre 3 tipuri de variograme: variograma teoretica, variograma regionala si
variograma empirica. Variograma teoretica este variograma bazata pe toate realizarile posibile ale
unei variabile spatiale. Cum o variabila spatiala are, in general, o infinitate de realizari, aceasta
variograma este imposibil de obtinut in practica. Variograma empirica este cea construita pe
baza masuratorilor observate. Este o estimare a variogramei teoretice. Plecand de la variograma
empirica, vom face inferente referitoare la variograma teoretica. Variograma regionala este
variograma formata cu o anumita realizare a procesului stochastic intr-o regiune finita, daca am
avea acces la toate informatiile legate de acea regiune. Variograma teoretica este o medie a tuturor
variabilelor regionale legate de procesul stochastic studiat.
Daca procesul stochastic Z(x) nu este stationar, atunci E(Z(x)) = µ(x) depinde de locatie si
Var(Z(x)) poate creste fara limita in cazul in care regiunea este mare. Georges Matheron a cautat
98 Chapter 8. Procese stochastice spaţiale

sa rezolve aceasta problema prin considerarea unor ipoteze simplificatoare. Cel putin pentru valori
mici ale valorii lag |h|, media variatiei procesului stochastic intre doua locatii x si x + h este 0,
iar dispersia acestei variatii este dependenta doar de h, independenta de locatie. Cu alte cuvinte,
procesul stochastic se comporta ca un proces stationar de ordinul al doilea. Matematic, vom scrie
astfel:
E[Z(x + h) − Z(x)] = 0; (8.3.2)
si
E[(Z(x + h) − Z(x))2 ] = 2γ(h), (8.3.3)
unde γ(h) este o functie ce depinde doar de h. Aceasta functie se numeste variograma. Prin
definitie, formula pentru variograma este:
1
γ(h) = Var[Z(x + h) − Z(x)]. (8.3.4)
2
Deoarece E[Z(x + h) − Z(x)] = 0 si

Var[Z(x + h) − Z(x)] = E[(Z(x + h) − Z(x))2 ] − (E[Z(x + h) − Z(x)])2 ,

gasim va variograma poate fi exprimata si astfel:


1
γ(h) = E[(Z(x + h) − Z(x))2 ]. (8.3.5)
2
Daca variabila Z(x) este 1-dimensionala (x = x, h = h), atunci formula din definitie se scrie astfel:

1
γ(h) = Var[Z(x + h) − Z(x)]. (8.3.6)
2
Daca variabila Z(x) este 2-dimensionala (x = (x1 , x2 ), h = (h1 , h2 )), atunci formula din definitie
se scrie astfel:
1
γ(h) = Var[Z(x1 + h1 , x2 + h2 ) − Z(x1 , x2 )]. (8.3.7)
2
Daca variabila Z(x) este 3-dimensionala (x = (x1 , x2 , x3 ), h = (h1 , h2 , h3 )), atunci formula din
definitie se scrie astfel:
1
γ(h) = Var[Z(x1 + h1 , x2 + h2 , x3 + h3 ) − Z(x1 , x2 , x3 )]. (8.3.8)
2
Datorita termenului 1/2 din fata, se mai foloseste si termenul (in unele carti) de semivariograma.
Legatura sa cu functia de covarianta este urmatoarea:

γ(h) = C(0) − C(h). (8.3.9)

Legatura variogramei cu corelatia (sau it corelograma) este data de:

γ(h) = σ 2 [1 − ρ(h)]. (8.3.10)

In Geostatistica, o variograma poate fi caracterizata de urmatorii parametri:


8.4 Modelarea variogramei teoretice 99

1. sill, care este valoarea asimptotica a variogramei, adica valoarea dupa care nu mai exista
crestere. Este egala cu C(0). Matematic, scriem ca C(0) = lim γ(h). In cuvinte, pentru
h→∞
doua locatii foarte indepartate, covarianta este aproape 0.
2. range, sau prima valoare (daca exista!) pentru lag (h) pentru care variograma atinge valoarea
sill. Aceasta valoare reprezinta, de fapt, distanta dupa care valorile variabilei spatiale nu
mai sunt autocorelate. Asadar, valorile variabilei sunt autocorelate doar pentru un lag h
mai mic decat valoarea range. Zona ce contine locatia x si pentru care valorile lui Z sunt
corelate cu Z(x) se numeste zona de influenta a locatiei x.
3. nugget (sau efectul nugget), ce reprezintă valoarea variogramei pentru h foarte apropiat de
zero, dar nu 0. Aceasta valoare reprezinta eroarea de masurare a variatiei spatiale. Valoarea
nugget poate aparea atunci cand nu exista masuratori culese din locatii foarte apropiate,
care ar putea dovedi continuitatea in h = 0. In cazul in care lim γ(h) = 0, atunci variograma
h&0
va pleca din origine.

Figure 8.5: Variograma si covarianta

Variograma este o unealta importanta in studiul corelatiei datelor spatiale, de aceea este impor-
tanta aproximarea acesteia. Dupa cum vom vedea, exista diverse modele de aproximare pentru
variograma teoretica definita prin formula (8.3.4).

8.4 Modelarea variogramei teoretice


8.4.1 Proprietati ale functiilor de corelatie spatiale
Prezentam mai jos proprietati ale covariantei, corelogramei, sau variogramei:
• γ(0) = 0.
• Cand h creste suficient de mult, γ(h) tinde sa devina constant. Aceasta insemna lipsa de
corelatie intre valorile variabilei din locatii indepartate.
• Variograma γ(h) poate sa nu fie continua doar in h = 0 (origine). In acest caz, saltul
discontinuitatii se numeste efect nugget. Efectul nugget este r = C(0) = Var[Z(x)] = σ 2 > 0.
100 Chapter 8. Procese stochastice spaţiale

• C(h) = C(−h) si γ(h) = γ(−h) pentru orice lag h, adica functia de corelatie si variograma
sunt functii pare.
• Corelograma are intotdeauna valori intre 0 si 1. Pentru h = 0, gasim ca ρ(0) = C(0)C(0) = 1.
• Functiile C(h) si γ(h) sunt functii continue de h, mai putin, eventual, in origine.
• Matricea de covarianta
 
C(x1 , x1 ) C(x1 , x2 ) · · · C(x1 , xn )
C(x2 , x1 ) C(x2 , x2 ) · · · C(x2 , xn )
 
 .. .. 
 . . ... ··· 
C(xn , x1 ) C(xn , x2 ) · · · C(xn , xn )

este pozitiv definita, in sensul ca toti determinantii minorilor principali sunt nenegativi.
Astfel, variograma este negativ semidefinita.
• Este posibil ca variatia spatiala sa se modifice in functie de directia dintre locatiile x si
x + h, fenomen numit anizotropie. Un exemplu de anizotropie
q este mineralizarea. Daca
x = (x1 , x2 , x3 ) (regiune 3−dimensionala), atunci h = h21 + h22 + h23 si γ(h) va reprezenta
o familie de variograme γ(|h|, α), unde α este directia.
• Ca functie de variabila lag h, variograma creste mai incet decat creste h2 . Daca ar creste
mai rapid decat aceasta functie, aceasta ar indica prezenta unui trend in campul aleator.

Figure 8.6: Diverse tipuri de variograma: (a) nemarginita (procesul nu este slab stationar); (b)
constanta (nu exista corelatii spatiale), (c) fara efect nugget, (d) fluctuanta.

8.4.2 Comportamentul variogramei in jurul originii


Cand variabila lag h se apropie de 0, forma variogramei poate fi una dintre cele reprezentate in
Figura 8.7. Putem avea un comportament liniar care trece prin 0. In acest caz, pentru h suficient
de mic, variograma are forma γ(h) = a|h|. Este posibil ca variograma sa aiba o forma aproximativ
8.4 Modelarea variogramei teoretice 101

liniara cand h este suficient de mic, insa sa nu treaca prin 0. Este cazul figurii (b), in care se
observa efectul nugget. In cazul (c), variograma are o forma parabolica pentru h suficient de mic,
de forma γ(h) = a|h|2 . In figura (c), variograma trece prin 0, dar exista cazuri in care se poate
observa un efect nugget si pentru forma parabolica. O variograma cu un comportament parabolic
in jurul originii sugereaza existenta unui trend in variabila spatiala Z(x).

Figure 8.7: Diverse tipuri de comportament in jurul originii unei variograme:


(a) liniar; (b) efect nugget; (c) parabolic.

8.4.3 Modele de variograma


Nu orice functie care se apropie suficient de mult de variograma empirica poate fi o variograma
teoretica. O variograma teoretica va trebui sa satisfaca anumite conditii, dupa cum urmeaza:
• functia ia doar valori pozitive (mai putin, eventual, in cazul h = 0);
• functia trebuie sa fie crescatoare in h;
• pentru h suficient de mare, functia atinge un maximum (sill);
• uneori, aceasta functie nu porneste din 0, caz in care valoarea γ(0) se numeste efect nugget;
• exista cazuri in care functia fluctueaza periodic (apar zone numite holes);
Modelele de variograma prezentate mai jos sunt modele izotropice, astfel ca functiile depind doar
de h = |h|. Putem construi modele marginite sau nemarginite. Un exemplu de model nemarginit
este urmatorul:
γ(h) = u hα , cu 0 < α < 2,
si u este un numar real ce reprezinta intensitatea variatiei. Constanta α reprezinta curbura. Pentru
α = 1 avem o variograma liniara; pentru 0 < α < 1 avem o variograma concava si pentru α > 1
avem o variograma convexa.
Exista o clasa de modele de variograma teoretica care garanteaza existenta unei solutii unice.
Acestea se numesc modele valide de variograma si sunt urmatoarele:
• modelul exponential, pentru care
h
 

γ(h) = c 1 − e ar  , daca h > 0.

• modelul sferic, pentru care


 "  3 #
c 3h − 1 h

, daca 0 < h ≤ r;
γ(h) = 2r 2 r

c , daca h > r.

102 Chapter 8. Procese stochastice spaţiale

• modelul Gaussian, pentru care


  2 
1 h

 a r 
1 − e
γ(h) = c   , daca h > 0.

Aici, am notat c = s − n, s = sill, n = nugget si a este o constanta folosita cu diferite valori in


carti. O valoare des folosita este a = 1/3.

Figure 8.8: Modele valide de variograma


Alte modele de variograma:
• modelul liniar marginit, folosit doar pentru variatii intr-o singura dimensiune. Variograma
corespunzatoare este:   
c h , daca 0 < h ≤ r;
γ(h) = r
c , daca h > r.

• modelul circular, pentru care


 " r #
2
 
c 1 − 2 arccos h + 2h 1 − h

, daca 0 < h ≤ r;
γ(h) = π r πr r2

c , daca h > r.

• modelul pentasferic, pentru care


 "  3  5 #
15 h 5 h 3 h
− , daca 0 < h ≤ r;

c +
γ(h) = 8 r 4 r 8 r

c , daca h > r.

• modelul cubic, pentru care


 "  2  3  5  7 #
c 7 h − 35 h + 7 h − 3 h

, daca 0 < h ≤ r;
γ(h) = r 4 r 2 r 4 r

c , daca h > r.

8.4 Modelarea variogramei teoretice 103

• modele compuse;
Acestea pot fi compuse din doua sau mai multe modele de mai sus. Sunt folosite mai ales cand
avem multe date si variogramele par a fi mai complexe. Sunt folosite in special atunci cand
variograma prezinta efect nugget. Exemple: modelul exponential cu nugget, modelul dublu sferic,
modelul dublu exponential etc.
Pentru modelul exponential cu nugget, variograma (cea desenata cu albastru in primul grafic
alaturat) este:
h
 

γ(h) = c0 + c 1 − e ar  , daca h > 0.

Pentru modelul dublu sferic cu nugget (format din compunerea a doua modele sferice plus un
model nugget) desenat in al doilea grafic, variograma (cea desenata cu albastru) este:
"   # "   #
3h 1 h 3 3h 1 h 3

− − , 0 < h ≤ r1 ;


c0 + c1 + c2



 2r1 2 r1 2r2 2 r2
"   #
γ(h) = 3h 1 h 3
c0 + c1 − , r1 < h ≤ r2 ;



 2r1 2 r1

c1 + c2 , h > r2 .

Figure 8.9: Modele compuse

• modelul pure nugget, pentru care


(
0 , daca h = 0;
γ(h) =
c , daca h > 0.

Este modelul desenat in Figura 8.6 (b).


• modele cu functii oscilante (vezi Figura 8.6 (d)), e.g.:
 
sin h
γ(h) = c 1 − .
h
104 Chapter 8. Procese stochastice spaţiale

8.4.4 Estimator pentru variograma

In practica, un geostatistician are la indemana un set de date spatiale (masuratori), pe baza carora
doreste sa creeze o harta a regiunii de unde au fost facute aceste masuratori, care sa indice variatia
variabilei de interes. Determinarea variogramei este unul dintre lucrurile importante pe care
trebuie sa le intreprinda pentru a-si atinge scopul. Folosind aceste masuratori, el poate estima
variograma procedand astfel.
Presupunem ca valorile masurate (x1 , x2 , . . . xn ):

z1 = z(x1 ), z2 = z(x2 ), . . . , zn = z(xn ).

n(n−1)
orice pereche de locatii (xi , x j ) (exista 2 astfel de perechi), se calculeaza (semi)varianţele:

1
γ(xi , x j ) = [zi − z j ]2 .
2

Reprezentarea grafica a acestora in functie de lag se numeste norul variogramei.


Deoarece este dificil (daca nu imposibil) de examinat variatia spatiala din aceasta reprezentare,
se va face o medie a tuturor variantelor pentru fiecare valoare de lag h, obtinandu-se variograma
empirica.

Figure 8.10: Semivarianţele in functie de lag (norul variogramei)

Pentru a ne face o idee despre cum sunt corelate datele pentru diferite nivele de lag, se pot construi
asa-numitele h−scattergrame. Acestea sunt reprezentari grafice ale valorilor z(x + h) versus z(x)
(vezi Figura 8.11).
8.4 Modelarea variogramei teoretice 105

Figure 8.11: Exemple de h−scattergrame

Pentru un nivel de lag h, calculam


1
γb(h) = ∑ [zi − z j ]2,
2|N(h)| (i, j)∈N(h)
(8.4.11)

unde N(h) reprezinta multimea tuturor perechilor de observatii i, j care satisfac conditia de lag,
|xi − x j | = h si |N(h)| este numarul acestor perechi. In general, valoarea lui h este admisa cu o
anumita toleranta.

Pentru fiecare nivel de lag h, valorile γb(h) le scriem in ordine crescatoare, obtinand astfel vari-
ograma empirica (sau variograma experimentala). Formula (8.4.11) este cunoscuta sub numele
de estimator obtinut prin metoda momentelor si a fost introdus de (G. Matheron).

Variograma empirica este un estimator nedeplasat pentru variograma teoretica γ(h). Daca Z(x) este
ergodic, atunci γb(h) → γ(h) cand n → ∞. Un analist nu poate trage concluzii despre variabilitatea
spatiala doar bazandu-se pe variograma experimentala, deoarece variograma experimentala nu
poate prezice valorile variatiei spatiale in locatiile nemasurate a priori. Aceste valori pot fi prezise
doar dupa ce o variograma teoretica este potrivita; pe baza acesteia se utilizeaza metode de kriging
pentru predictie.

8.4.5 Pasi in estimarea variogramei


Constructia unei variograme presupune urmatorii pasi:
106 Chapter 8. Procese stochastice spaţiale

• Determinam pasul lag, h. Un pas h este practic daca pentru aceasta valoare avem cel putin
30 de perechi (xi , x j ) care sa se situeze la aceasta distanta. Este de dorit ca h sa fie mai mic
decat jumatate din range-ul datelor observate.
• Stabilirea unei tolerante pentru determinarea lui h. Aceasta valoare va preciza acuratetea cu
care o anumita distanta este aproximata cu h. Cu alte cuvinte, toleranta determina latimea
clasei h stabilite.
• Stabilirea numarului de pasi h pentru care vom calcula variograma experimentala;
• Stabilirea unui unghi si determinarea unei tolerante pentru unghi;

Figure 8.12: Construirea variogramei experimentale

• Pentru un h fixat si pentru fiecare pereche de noduri (x, x + h) ale retelei de locatii, calculam
valoarea

1
γb(h) = ∑ [Z(x) − Z(x + h)]2 ,
2|N(h)| (x, x+h)

• Pentru toate valorile lui h, sa spunem ca acestea sunt h1 , h2 , . . . , hm , vom obtine valorile
corespunzatoare γb(h1 ), γb(h2 ), . . . , γb(hm ).
• Reprezentam valorile (hi , γb(hi )) intr-un grafic si obtinem astfel variograma experimentala
(empirica).
• Daca se observa anizotropie, se va repeta procedura pentru un alt unghi, construindu-se
astfel o noua variograma.
8.4 Modelarea variogramei teoretice 107

Figure 8.13: Variograma experimentala (puncte albastre) si cea teoretica (cu linie rosie)

Exemplu: Variograma pentru o singura dimensiune spatiala

Intr-o singura dimensiune, toate locatiile de unde se fac masuratori sunt situate pe o dreapta.
Presupunem ca locatiile masuratorilor, x1 , x2 , . . . , xn , sunt cele din Figura 8.14 (a). Cerculetele
goale reprezinta lipsa de masuratori din respectivele locatii. Figurile 8.14 (b), (c) si (d) arata cum
se formeaza perechile pentru valorile de lag 1, 2, respectiv 3. In cazul 1 dimensional, formula
8.4.11 devine:
n−h
1
γb(h) = ∑ [zi − zi+h]2.
2(n − h) i=1
(8.4.12)

Pentru h = 1, calculam valoarea γb(1) pentru toate perechile care se afla la o distanta de o lungime,
folosind formula 8.4.12. Similar, pentru h = 2, 3, . . . , n, calculam valoarile γb(2), γb(3), . . . , γb(n),
pentru toate perechile care se afla la o distanta de, respectiv, 2 lungimi, 3 lungimi, etc., n lungimi.
Reprezentam grafic valorile γb(1), γb(2), . . . , γb(n) intr-un grafic, obtinand astfel variograma experi-
mentala 1-dimesionala.

Figure 8.14: Variograma experimentala 1−dimensionala (cerculetele goale sunt locatii neselectate)
108 Chapter 8. Procese stochastice spaţiale

8.4.6 Sfaturi practice pentru construirea unei variograme


• Priviti in ansamblu datele observate. Pot aparea unele erori de masurare, virgule omise, alte
tipuri de date etc;
• Observati orice tip de clustere in date. In caz ca sunt prezente, trebuie indepartate;
• In cazul in care datele par a nu fi observatii normale, o transformare a lor ar fi necesara (e.g.,
logaritmare);
• Variograma ar trebui determinata in cel putin 3 directii diferite;
• Detectati daca este prezent vreun trend in varianta experimentala. Daca este posibil,
determinati variograma fara trend;
• Verificati prezenta izotropiei.

8.4.7 Indicatorul Akaike


Tendinta unui analist este de a crea modele statistice cat mai apropiate de datele observate. Pentru
a realiza acest deziderat, se poate folosi, spre exemplu, metoda celor mai mici patrate. Daca
modelul este prea simplist (modelul contine putini parametri necunoscuti), rezultatul poate fi unul
nesatisfacator. De aceea, de multe ori in practica suntem tentati sa introducem noi parametri in
model, imbunatatind considerabil apropierea datelor de modelul teoretic. Insa, odata cu cresterea
numarului de parametri, apare problema urmatoare: modelul astfel obtinut va avea performante
foarte slabe in a face predictii. Un model prea complex va ”memora” valorile caracteristicii in
locatiile observate pentru a le reproduce cu precizie, insa nu va avea capabilitati de a prezice valori
pentru date neobservate, nefiind ”antrenat” sa o faca. Daca modelul ar fi fost mai putin complex,
s-ar fi folosit de valorile observate pentru a prezice eventuale valori pentru variabila cercetata.
Indicatorul Akaike realizeaza un compromis intre complexitatea unui model (care, de obicei, este
reprezentata de numarul de parametri; mai multi parametri implica un model mai complex) si cea
mai buna potrivire a modelului (determinata de metoda celor mai mici patrate). Acest indicator se
defineste astfel:

AIK = 2p − 2 ln L, (8.4.13)

unde p este numarul de parametri din model si L este functia de verosimilitate a modelului. Pentru
un model statistic, o functie de verosimilitate (in engleza, likelihood) este o functie de parametrii
modelului, care este egala cu probabilitatea de a observa datele masurate pentru parametrii dati.
Un estimator pentru indicele teoretic AIK este urmatorul:
   

AIK = 2p + 2 ln(MSE) + n ln +n+2 , (8.4.14)
n
unde n este numarul de puncte de pe variograma si MSE este media patratelor erorilor de aproxi-
mare (mean squared error).

8.4.8 Metode de estimare a variogramei teoretice


Pentru a stabili un model teoretic de variograma care se potriveste cel mai bine datelor masurate,
este nevoie de a estima parametrii modelului teoretic. Spre exemplu, daca dorim sa determinam o
variograma teoretica exponentiala, atunci avem de estimat 2 parametri, si anume: c (lungimea de
variatie) si r (range). In cazul in care modelul include si o valoare nugget, atunci mai avem, in
plus, un parametru de determinat, si anume c0 . Exista doua metode uzuale folosite in estimarea
8.4 Modelarea variogramei teoretice 109

acestor parametri: metoda celor mai mici patrate si metoda cu ponderi a celor mai mici patrate.
In cazul metodei celor mai mici patrate, se cauta sa se minimizeze suma patratelor erorilor dintre
valorile estimate pentru variograma si cele masurate a priori. Matematic, problema se scrie astfel:
determinati acea valoare pentru vectorul de parametri, θb, care este solutia problemei de optim:

min ∑{[γ(hi , θ ) − γb(hi )]2 }.


θ i

Pentru metoda cu ponderi a celor mai mici patrate, se determina acea valoare pentru vectorul de
parametri, θb care este solutia problemei de optim:

{[γ(hi , θ ) − γb(hi )]2 }


min ∑ ,
θ i Var(γb(hi ))

unde
2
Var(γb(h)) ≈ (γ(h, θ ))2 .
|N(h)|
Astfel, ponderile sunt
1 |N(hi )|
wi = ≈ .
Var(γb(hi )) 2(γ(hi , θ ))2

8.4.9 Anizotropia
In multe cazuri, variograma empirica difera in functie de directia spatiala, fapt ce se numeste
anizotropie (geometrica). Cu alte cuvinte, anizotropia este variatia variogramei cu directia spatiala
a observate. In caz de anizotropie, se pot observa diferite pante ale variogramei in diferite directii
spatiale. In multe cazuri insa este posibil de a modela anizotropia printr-o transformare liniara de
coordonate carteziene.

Figure 8.15: Directii spatiale diferite


Figure 8.16: Variograme pentru directii diferite
9. Kriging

9.1 Introducere
Dupa cum am discutat anterior, un teren pentru care un geostatistician doreste sa studieze pro-
prietatile unor anumite variabile are o infinitate de locatii. Masuratorile pe care acestea le poate
efectua sunt in numar finit. De fapt, din consideratii practice si economice, el va considera doar
cateva locatii unde va efectua masuratori. In restul de locatii, el va dori sa faca predictii pe baza
datelor deja culese. O metoda de baza in Geostatistica folosita in predictia valorilor in locatiile
neselectate pentru masurare se numeste kriging. Kriging este o forma (generalizata) de regresie
liniara prin care se determina un estimator (predictor) spatial. In contrast cu regresia liniara
multipla, metoda de kriging tine cont de volumul observatiilor si de corelatiile dintre aceste valori.
Metoda functioneaza cel mai bine intr-un domeniu convex (un domeniu in care, odata cu doua
puncte, va contine si segmentul ce le uneste). In mod uzual, rezultatele unei interpolari de tip
kriging sunt: valoarea asteptata (media de kriging) si dispersia (varianta de kriging), estimate in
punctul dorit din regiune. Numele de kriging deriva de la numele inginerului minier Danie Krige,
nume atribuit de G. Mangeron. Exista atat metode liniare, cat si neliniare de interpolare spatiala de
gen kriging. Fiecare dintre aceste metode face presupuneri diferite relativ la fluctuatiile variabilei.
Dintre aceste metode, amintim urmatoarele: kriging ordinar, kriging simplu, kriging lognormal,
kriging cu drift, kriging factorial, cokriging, kriging indicator, kriging disjunctiv, kriging bayesian
etc. Metoda generala de kriging este urmatoarea.

Presupunem ca dorim sa prezicem valorile caracteristicii Z(x) intr-o regiune R. Aceasta regiune
poate fi 1−, 2− sau 3− dimensionala. Se efectuaza observatii asupra acestei variabile in locatiile
x1 , x2 , . . . , xn ale regiunii R. Pe baza acestor masuratori, dorim sa prezicem valorile lui Z in
celelalte locatii din regiune. O formula generala a unui estimator pentru valoarea variabilei Z
intr-o locatie generica din R, sa zicem x0 , este:
n
b 0 ) = ∑ λi Z(xi ),
Z(x (9.1.1)
i=1

unde λi sunt ponderile ce trebuie determinate.


112 Chapter 9. Kriging

9.2 Kriging simplu


Este cea mai restrictiva metoda kriging. In cazul unei metode de interpolare geostatistica de tip
kriging simplu se fac urmatoarele presupuneri relativ la variabila Z:
• valorile observate formeaza o realizare partiala a procesului aleator generat de Z(x).
• variabila Z(x) se considera a fi stationara de ordinul al doilea (slab stationara), i.e.,
E(Z(x)) = µ si cov(Z(x), Z(x + h)) = C (h), pentru orice locatie x din R.
• valoarea constanta µ si covarianta C (h) sunt presupuse a fi cunoscute a priori.

Predictiile metodei kriging simplu sunt


bazate pe urmatorul model de camp
aleator:

Z(x) = µ + ε(x), (9.2.2)

unde µ este o constanta cunoscuta si ε(x)


este partea aleatoare a variabilei, reprezen-
tand eroarea de aproximare a variabilei cu
valoarea µ. Aceasta eroare este presupusa
a fi normala, de medie 0.
Figure 9.1: Variabila Z(x) pentru kriging simplu
In cazul unui kriging simplu, se prezice valoarea variabilei Z in locatia necunoscuta x0 folosind
relatia:
n
ZbSK (x0 ) = µ + ∑ λi (Z(xi ) − µ) , (9.2.3)
i=1
unde λi sunt ponderile asociate erorilor masuratorilor obtinute in locatiile selectate. Putem rescrie
relatia precedenta sub forma echivalenta:
!
n n
ZbSK (x0 ) = ∑ λi Z(xi ) + 1 − ∑ λi µ.
i=1 i=1
Pentru simplitate, putem presupune ca media cunoscuta este µ = 0. In caz ca aceasta este diferita
de zero, efectuam calculele pentru µ = 0, obtinem valoarea prezisa, dupa care adaugam µ la final.
Obtinem ca
n
ZbSK (x0 ) = ∑ λi Z(xi ). (9.2.4)
i=1

Vom determina ponderile λi astfel incat sa minimizeze varianta estimatorului ZbSK . Aceasta este:
" #
n
Var[ZbSK (x0 )] = Var Z(x0 ) − ∑ λi Z(xi )
i=1
n n n
= Var[Z(x0 )] − 2 ∑ λ j cov(Z(x0 ), Z(x j )) + ∑ ∑ λiλ j cov(Z(xi), Z(x j ))
j=1 i=1 j=1
n n n
= C (0) − 2 ∑ λ j cov(Z(x0 ), Z(x j )) + ∑ ∑ λiλ j cov(Z(xi), Z(x j ))
j=1 i=1 j=1
9.2 Kriging simplu 113

Pentru a determina ponderile λi ce realizeaza minimumul lui Var[ZbSK (x0 )], se cauta punctele
critice in raport cu λi , adica rezolvam sistemul de ecuatii:


Var[ZbSK (x0 )] = 0, pentru orice j = 1, 2, . . . , n.
∂λj

Se va obtine sistemul de ecuatii algebrice (n ecuatii cu n necunoscute):

n
cov(Z(x0 ), Z(x j )) = ∑ λi cov(Z(xi ), Z(x j )), pentru orice j = 1, 2, . . . , n. (9.2.5)
i=1

Cu solutiile λiSK astfel obtinute, se estimeaza valoarea Z0 folosind formula (9.2.4). Dispersia de
kriging va fi data de:
n
2
σSK (x0 ) = C (0) − ∑ λiSK cov(Z(x0 ), Z(xi )).
i=1

Estimarile obtinute prin kriging simplu sunt nedeplasate. De notat faptul ca valorile ponderilor λi
depind doar de locatii si de covariante, dar nu si de datele observate. In cazul metodei kriging
simplu, suma acestor ponderi nu este neaparat egala cu 1.

Dupa ce prezicem prin kriging simplu valorile variabilei Z in toate locatiile regiunii de interes, se
pune problema urmatoare: Ce se intampla cand prezicem valoarea intr-un punct unde avem deja
masuratori?

Când un punct x0 in care prezicem valoarea variabilei se apropie de un punct x0 + h in care am


masurat deja valoarea lui Z, si daca variograma este fara nugget (i.e., este continua), atunci

h→0
C (h) = cov(Z(x0 ), Z(x0 + h)) −→ cov(Z(x0 ), Z(x0 )) = C (0) = 0.

Astfel daca punctul x0 este foarte apropiat de punctul xi (din selectie), putem aproxima cov(Z0 , Zi )
prin cov(Z0 , Z0 ) = C (0). In acest caz, dispersia pentru kriging simplu devine
!
n n
2
σSK (x0 ) = C (0) − ∑ λiSK C (0) = 1 − ∑ λiSK C (0) = 0. (9.2.6)
i=1 i=1

Mai mult,
lim ZbSK (x0 ) = Z(xi ).
x0 →xi

In cazul in care nu exista efect nugget, atunci metoda kriging simplu pastreaza valorile masurate
b i ) = Z(xi ): valorile estimate prin kriging simplu in locatiile stabilite a priori sunt chiar
(i.e., Z(x
cele masurate). Pentru doua locatii apropiate, aceasta metoda va prezice valori apropiate ale
variabilei Z.
114 Chapter 9. Kriging

Figure 9.2: 5 simulari ale variabilei Z(x) ce pastreaza cinci valori masurate initial

Exerciţiu 9.1 (preluat din [olea]) Pentru o variabila Z s-au observat valorile sale in locatiile
precizate cu buline rosii in Figura 9.3 de mai jos. Pe baza acestor valori, se cere sa se prezica
valoarea variabilei Z in locatia x0 si dispersia pentru aceasta valoare. Se cunosc: µ = 110 si
γ(h) = 2000 (1 − e−h/250 ) pentru h > 0. (model exponential de variograma).

Figure 9.4: Tabel cu date observate

Figure 9.3: Locatii intr-un camp aleator

Rezolvare Distantele di j dintre locatiile masurate, calculate cu formula


q
di j = d(xi , x j ) = (xi1 − x j1 )2 + (xi2 − x j2 )2 ,

sunt
   
d11 d12 d13 d14 0 260.8 264 364
 = 260.8 0 266.3 366.7
d21 d22 d23 d24  
 
d31 d32 d33 d34   264 266.3 0 110.4
d41 d42 d43 d44 364 366.7 110.4 0
Distantele d0i de la x0 la xi sunt:

[d01 , d02 , d03 , d04 ] = [197.2, 219.3, 70.7, 180].


9.2 Kriging simplu 115

Din formula γ(h) = C (0) − C (h), gasim covariantele. Aici, C (0) = 2000 si

C (x0 , x1 ) = 2000e−d01 /250 = 2000e−197.2/250 = 908.78,

C (x0 , x2 ) = 2000e−d02 /250 = 2000e−219.3/250 = 831.89,

C (x1 , x2 ) = 2000e−d12 /250 = 2000e−260.8/250 = 704.65 etc.


Sistemul de ecuatii (9.2.5) care determina ponderile λi devine:

λ1 C (x1 , x1 ) + λ2 C (x2 , x1 ) + λ3 C (x3 , x1 ) + λ4 C (x4 , x1 ) = C (x0 , x1 );


λ1 C (x1 , x2 ) + λ2 C (x2 , x2 ) + λ3 C (x3 , x2 ) + λ4 C (x4 , x2 ) = C (x0 , x2 );
λ1 C (x1 , x3 ) + λ2 C (x2 , x3 ) + λ3 C (x3 , x3 ) + λ4 C (x4 , x3 ) = C (x0 , x3 );
λ1 C (x1 , x4 ) + λ2 C (x2 , x4 ) + λ3 C (x3 , x4 ) + λ4 C (x4 , x4 ) = C (x0 , x4 ).

Inlocuind valorile covariantelor, obtinem:

2000λ1 + 704.65λ2 + 695.68λ3 + 466.33λ4 = 908.78;


704.65λ1 + 2000λ2 + 689.31λ3 + 461.32λ4 = 831.89;
695.68λ1 + 689.31λ2 + 2000λ3 + 1286.01λ4 = 1507.34;
466.33λ1 + 461.32λ2 + 1286.01λ3 + 2000λ4 = 973.50.

Dupa rezolvarea sistemului, obtinem ponderile:

λ1SK = 0.1847, λ2SK = 0.1285, λ3SK = 0.6460, λ4SK = −0.0013.

Folosind formula (9.2.2), determinam estimarea valorii lui Z in x0 :

zSK (x0 ) = µ + λ1SK (z(x1 ) − µ) + λ2SK (z(x2 ) − µ) + λ3SK (z(x3 ) − µ) + λ4SK (z(x4 ) − µ)
b
= 110 + 0.1847 · (40 − 110) + 0.1285 · (130 − 110) + 0.6460 · (90 − 110) −
−0.0013 · (160 − 110)
= 86.6560.

Dispersia estimatorului in acest punct poate fi calculata cu formula (9.2.6). Obtinem:


n
2
σSK (x0 ) = C (0) − ∑ λiSK cov(Z(x0 ), Z(xi ))
i=1
= 2000 − 0.1847 · 908.78 − 0.1285 · 831.89 − 0.6460 · 1507.34 + 0.0013 · 973.50
= 752.7744.

In cazul in care valoarea µ din formula (9.2.2) nu este cunoscuta, avem doua posibilitati de a
prezice valorile variabilei Z in celelalte valori decat cele masurate:
n
• Estimam valoarea µ pe baza observatiilor prin µ = ∑ zi, apoi folosim metoda kriging
i=1
simplu. Insa, aceasta metoda nu tine cont de variabilitatea valorilor zi in prezicerea lui µ.
• Folosim o alta metoda de kriging, numita kriging ordinar.
116 Chapter 9. Kriging

9.3 Kriging ordinar


Este cea mai uzuala metoda de kriging (interpolare geospatiala). In cazul unui kriging ordinar,
campul aleator este considerat a fi tot de forma (9.2.2), insa de aceasta data constanta µ este
necunoscuta si va trebui estimata. Valoarea prezisa a lui Z in x0 este
n
ZbOK (x0 ) = ∑ λi Z(xi ), (9.3.7)
i=1

n
unde ponderile λi satisfac constrangerea ∑ λi = 1. Aceasta constrangere asigura nedeplasarea es-
i=1
b 0 ) − Z(x0 )] = 0. Dispersia estimatorului
timatorului ZbOK , in sensul ca valoarea asteptata este E[Z(x
este:
 2  h i
Var[ZOK (x0 )] = E ZOK (x0 ) − Z(x0 )
b b = Var ZbOK (x0 ) − Z(x0 )
" #
n
= Var ∑ λiZ(xi) − Z(x0)
i=1
n n n
= Var[Z(x0 )] −2 ∑ λi cov(Z(x0 ), Z(xi )) + ∑ ∑ λi λ j cov(Z(xi ), Z(x j ))
| {z } i=1 i=1 j=1
= C (0)
n n n
= 2 ∑ λi γ(x0 , xi ) − ∑ ∑ λiλ j γ(xi, x j ),
i=1 i=1 j=1

unde γ(xi , x j ) sunt (semi)variatiile intre valorile campului aleator Z observate in locatiile xi si
x j si γ(xi , x j ) sunt (semi)variatiile intre valoarea observata a campului aleator Z in locatia xi si
valoarea lui Z in locatia de estimat x0 .
Scopul este de a determina ponderile λi ce realizeaza minimul lui Var[ZbOK (x0 )] cu constrangerea
n
∑ λi = 1. Metoda de lucru este metoda multiplicatorilor lui Lagrange. Se considera functia
i=1
!
n
F(α, λi ) = Var[ZbOK (x0 )] + α ∑ λi − 1 ,
i=1

unde α este o constanta ce urmeaza a fi determinata, numita multiplicator Lagrange. Se considera


sistemul format din anularea derivatelor functiei F(α, λi ) in raport cu α si λi , i.e.,
∂ F(α, λi )
= 0;
∂ λ1
∂ F(α, λi )
= 0;
∂ λ2
...
∂ F(α, λi )
= 0;
∂ λn
∂ F(α, λi )
= 0.
∂α
9.3 Kriging ordinar 117

Vom obtine sistemul :

n
cov(Z(x0 ), Z(x j )) = ∑ λicov(Z(xi), Z(x j )) + α, pentru orice j = 1, 2, . . . , n.(9.3.8)
i=1
n
∑ λi = 1. (9.3.9)
i=1

Aceste sistem de n + 1 ecuatii si n + 1 necunoscute, si anume λ1 , λ2 , . . . , λn , α. Solutiile λiOK ale


acestui sistem sunt ponderile cautate. Folosind aceste ponderi, determinam estimaa valorii lui Z
in x0 prin:
n
ZbOK (x0 ) = ∑ λiOK Z(xi ).
i=1

Dispersia pentru kriging ordinar se calculeaza similar ca in cazul metodei kriging simplu si are
formula:
n
2
σOK (x0 ) = C (0) − ∑ λiOK cov(Z(x0), Z(xi)) − α. (9.3.10)
i=1

Observatii:
• Ponderile λiOK vor avea valori mai mari pentru punctele apropiate lui x0 . In general, cele
mai apropiate 4 sau 5 valori contribuie cu cca 80% din ponderea totala in prezicerea valorii
lui Z in x0 , iar urmatoarele 10 puncte invecinate cu cca 20%.
• In general, σOK 2 (x ) este un pic mai mare decat σ 2 (x ) din cauza incertitudinii legate de
0 SK 0
valoarea reala a lui µ.
• Daca variograma prezinta efect nugget, atunci cresterea dispersiei pentru nugget va conduce
la o crestere a dispersiei pentru valorile prezise prin kriging.
• Daca locatiile masuratorilor nu sunt regulat raspandite, atunci punctele izolate au in general
ponderi mai mari decat cele adunate in palcuri (clustere).
• Punctele care sunt ecranate (mascate) de alte puncte din regiune pot avea ponderi negative.
• Am vazut ca, pentru un punct x0 , doar o multime mica de puncte vecine vor avea ponderi
nenule semnificative, restul ponderilor fiind aproape egale cu 0. Din acest motiv, am putea
reduce sistemul de kriging (implicit formula (9.3.7) doar la punctele vecine. Daca numarul
acestor puncte vecine este semnificativ mai mic decat n, atunci procedeul numeric de calcul
al ponderilor se va desfasura intr-un timp mult mai mic. Este posibil ca, pentru un n mare,
ponderile calculate sa prezinte erori mari, din cauza complexitatii sistemului de ecuatii care
au ca solutii aceste ponderi. De aceea, se recomanda calcularea ponderilor doar pentru o
multime mica de vecini ai lui x0 .
• Pentru a determina vecinatatea lui x0 pentru care este practic sa calculam ponderile, se poate
proceda astfel:
– Pentru o variograma marginita si date dense in jurul lui x0 , aceasta vecinatate poate
avea dimensiunea range-ului de la variograma. Oricum, punctele care ies din acest
range aproape ca nu sunt corelate cu x0 .
– Daca datele sunt rarefiate, atunci punctele indepartate pot avea ponderi importante,
asa ca ar fi necesara o vecinatate care sa le includa.
118 Chapter 9. Kriging

– Pentru un efect nugget mare, punctele indepar-


tate vor avea ponderi semnificative, deci veci-
natatea lui x0 ar trebui sa le includa.
– Pentru o retea neregulata de date selectate, nu-
marul minim de puncte din vecinatatea unui
x0 este 3 si numarul maxim nu ar trebui sa de-
paseasca 25.
– Daca datele din selectie sunt foarte neregulate,
atunci este utila impartirea spatiului din jurul lui
x0 in octanti si sa fie alese cele mai apropiate 2
puncte din fiecare octant (vezi Figura 9.5).
Figure 9.5: Impartirea in octanti pen-
tru determinarea vecinilor
Exerciţiu 9.2 Folosind metoda de interpolare geostatistica kriging ordinar, determinati o predictie
si dispersia acesteia pentru valoarea in locatia x0 din Exercitiul 9.1.

Rezolvare: Valorile pentru distante sunt aceleasi ca in Exercitiul 9.1. Sistemul de ecuatii
(9.3.8)&(9.3.9) care determina ponderile λi si multiplicatorul Lagrange α este:

λ1 C (x1 , x1 ) + λ2 C (x2 , x1 ) + λ3 C (x3 , x1 ) + λ4 C (x4 , x1 ) + λ1 = C (x0 , x1 );


λ1 C (x1 , x2 ) + λ2 C (x2 , x2 ) + λ3 C (x3 , x2 ) + λ4 C (x4 , x2 ) + λ2 = C (x0 , x2 );
λ1 C (x1 , x3 ) + λ2 C (x2 , x3 ) + λ3 C (x3 , x3 ) + λ4 C (x4 , x3 ) + λ3 = C (x0 , x3 );
λ1 C (x1 , x4 ) + λ2 C (x2 , x4 ) + λ3 C (x3 , x4 ) + λ4 C (x4 , x4 ) + λ4 = C (x0 , x4 );
λ1 + λ2 + λ3 + λ4 = 1.

Inlocuind valorile covariantelor, obtinem:

2000λ1 + 704.65λ2 + 695.68λ3 + 466.33λ4 + α = 908.78;


704.65λ1 + 2000λ2 + 689.31λ3 + 461.32λ4 + α = 831.89;
695.68λ1 + 689.31λ2 + 2000λ3 + 1286.01λ4 + α = 1507.34;
466.33λ1 + 461.32λ2 + 1286.01λ3 + 2000λ4 + α = 973.50;
λ1 + λ2 + λ3 + λ4 = 1.

Dupa rezolvarea sistemului, obtinem ponderile λi si multiplicatorul Lagrange α:

λ1OK = 0.1971, λ2OK = 0.1410, λ3OK = 0.6506, λ4OK = 0.0113, α = −42.6936.

Folosind formula (9.3.7), determinam estimarea valorii lui Z in x0 :

zOK (x0 ) = λ1OK z(x1 ) + λ2OK z(x2 ) + λ3OK z(x3 ) + λ4OK z(x4 )
b
= 0.1971 · 40 + 0.1410 · 130 + 0.6506 · 90 + 0.0113 · 160
= 86.576.
9.4 Kriging lognormal 119

Dispersia estimatorului in acest punct poate fi calculata cu formula (9.3.10). Obtinem:


n
2
σOK (x0 ) = C (0) − ∑ λiOK cov(Z(x0 ), Z(xi )) − α
i=1
= 2000 − 0.1971 · 908.78 − 0.1410 · 831.89 − 0.6506 · 1507.34 −
−0.0113 · 973.50 + 42.6936
= 754.60.

9.4 Kriging lognormal


Daca datele observate z(x1 ), z(x2 ), . . . , z(xn ) sunt pozitive dar nu par a fi normale (acest fapt
se poate observa dintr-un indice de skewness mai mare decat 1), atunci o practica utila este
logaritmarea datelor. Vom obtine astfel setul de date y(x1 ), y(x2 ), . . . , y(xn ), cu y(xi ) = ln(z(xi )).
Cu alte cuvinte, in loc sa analizam variabila initiala Z(x), vom lucra cu variabila transformata
Y (x) = ln Z(x). Daca presupunem ca procesul aleator generat de Y (x) este stationar de ordinul al
doilea (slab stationar), atunci putem aplica metodele anterioare (kriging simplu sau kriging ordinar)
pentru valorile transformate. Vom obtine astfel valori prezise pentru Y in locatiile neconsiderate
in selectie si dispersii pentru aceste valori. Dupa aceasta, aceste valori se vor transforma inapoi in
valori prezise pentru variabila originala, Z(x).
Sa notam prin YbSK (x0 ) si σ c2 (x ) estimatori punctuali pentru, respectiv, valoarea prezisa si
SK 0
dispersia sa obtinute prin kriging simplu in x0 . Similar, notam prin YbOK (x0 ) si σc2 (x ) estimatori
OK 0
punctuali pentru, respectiv, valoarea prezisa si dispersia sa obtinute prin kriging ordinar in x0 .
Atunci, estimatorii corespunzatori pentru variabila Z sunt:
1 c2
ZbSK (x0 ) = eYSK (x0 )+ 2 σ SK (x0 ) pentru kriging simplu
b

si
1 c2
ZbOK (x0 ) = eYOK (x0 )+ 2 σ OK (x0 )−α(x0 ) pentru kriging ordinar,
b

unde α(x0 ) este multiplicatorul Lagrange. Dispersia pentru variabila originata poate fi estimata
doar pentru metoda kriging simplu, pentru care µ este cunoscut. Aceasta este:
c SK (x0 ) = µ 2 eσc2 SK (x0 ) [eσc2 SK (x0 ) − 1].
Var

9.5 Kriging universal (sau kriging cu drift)

Este posibil ca valoarea µ din relatia (9.2.2) sa nu fie


nici cunoscuta, nici constanta, indicand prezenta unui
trend (sau drift). In acest caz,

Z(x) = u(x) + ε(x), (9.5.11)

unde u(x) este o functie determinista si ε(x) este partea


aleatoare a variabilei, reprezentand eroarea de aproxi-
mare a variabilei cu valoarea µ.
Figure 9.6: Variabila cu trend neliniar
120 Chapter 9. Kriging

Aceasta eroare este presupusa a fi normala, de medie 0 si variograma γ(h). Cantitatea ε(x) =
Z(x) − u(x) se mai numeste si reziduu de trend. Expresia lui u(x) este de obicei un polinom de
coordonatele geografice, de forma:
m
u(x) = ∑ β j f j (x),
j=0

unde β j sunt niste numere reale necunoscute si f j (x) niste functii necunoscute. Acest trend poate fi
estimat pe baza observatiilor z(x1 ), z(x2 ), . . . , z(xn ). Spre exemplu, un trend liniar 2−dimensional
arata de forma
u(x) = β0 + β1 x1 + β2 x2 .
Un trend neliniar parabolic 1−dimensional care ar putea fi un model pentru cel din Figura 9.6
este de forma
u(x) = β0 + β1 x + β2 x2 .
Coeficientii β0 , β1 , β2 pot fi obtinuti prin metoda celor mai mici patrate (regresie liniara multiple).
In prezenta unui trend, G. Matheron a sugerat estimarea variabilei Z in x0 prin
n
ZbUK (x0 ) = ∑ λi Z(xi ),
i=1

n
cu λi verificand constrangerea ∑ λi = 1. Valoarea medie a acestui estimator este
i=1

n m
E[ZbUK (x0 ]) = ∑ ∑ λiβ j f j (xi)
i=1 j=0

Conditia de nedeplasare a estimatorului este:


n
∑ λi f j (xi) = f j (x0), pentru orice j = 0, 1, 2, . . . , m.
i=1

Folosind metoda multiplicatorilor lui Lagrange, se pot determina ponterile λiUK si parametrii
necunoscuti β j . Astfel, un estimator pentru valoarea lui Z in x0 va fi
n
ZbUK (x0 ) = ∑ λiUK Z(xi ),
i=1

iar dispersia acestui estimator este


n m
c UK (x0 ) = C (0) − ∑ λi C (x0 , xi ) − ∑ β j f j (x0 ).
Var
i=1 j=0

9.6 Kriging indicator


Aceasta medota de kriging este folosita pentru variabilele de tip binar (Bernoulli), adica acele
variabile discrete care pot lua doar doua valori: 1 (prezenta) sau 0 (absenta). Este utila in practica
atunci cand pentru variabila de interes se doreste sa se estimeze probabilitatea ca aceasta sa
9.6 Kriging indicator 121

depaseeasca o anumita valoare prag, notata aici prin zc . Spre exemplu, am dori sa determinam
probabilitatea ca, intr-o anumita regiune, apa de baut sa aiba o concentratie de nitrati sub pragul
critic zc = 50mg/l. Un alt exemplu este determinarea probabilitatii ca intr-o regiune solul sa aiba
o valoare pH sub o valoare critica.
Fie Z o variabila de interes. Pentru aceasta variabila construim functia indicatoare
(
1 daca Z(x) ≤ zc ;
χzc (x) =
0 daca Z(x) > zc .

Aceasta functie indicatoare este o variabila binara. Valoarea medie a acestei variabile este chiar
probabilitatea ca valorile variabilei Z(x) sa nu depaseasca pragul critic zc , care este totuna cu
functia de repartitie a acestei variabile in valoarea zc . Matematic, scriem astfel:

E[χzc (x)] = P(Z(x) ≤ zc ) = FZ(x) (zc ).

Pentru variabila indicatoare se poate estima variograma teoretica

1 h i
γzc (h) = E (χzc (x) − χzc (x + h))2
2
pe baza unei variograme experimentale:

1 N(h) h 2
i
γbzc (h) = (χ (x )
∑ zc i zc i − χ (x + h)) .
2|N(h)| i=1

Pe baza variogramei teoretice se pot prezice valori ale variabilei Z in punctele neselectate. O
metoda de kriging indicator bazata pe n observatii {χzc (xi )}i=1, n are la baza formula de estimare:

n
χbzc (x0 ) = ∑ λi χzc (xi ). (9.6.12)
i=1

Pentru estimare se poate proceda ca in metoda kriging simplu. Ponderile pot fi obtinute ca solutii
ale sistemului de n ecuatii si n necunoscute:
n
∑ λiγzc (xi, x j ) = γzc (x0, x j ) pentro orice j = 1, 2, . . . , n,
i=1

unde γzc (xi , x j ) sunt semivariantele calculate in punctele xi si x j . Dupa ce se determina ponderile
λiIK , se estimeaza valoarea
n
χbzc (x0 ) = ∑ λiIK χzc (xi ).
i=1

Valoarea prezisa χbzc (x0 ) va fi o valoare intre 0 si 1, reprezentand probabilitatea ca, pentru datele
observate, variabila Z(x) ia valori sub pragul critic zc . Matematic, scriem ca

χbzc (x0 ) = P( Z(x) ≤ zc | zi , i = 1, n ).
122 Chapter 9. Kriging

9.7 Cokriging
Aceasta metoda ofera posibilitatea de a prezice simultan valorile a doua sau mai multe variabile
pentru un acelasi domeniu. Se mai numeste si coregionalizare. Nu este necesar ca toate variabilele
sa fie masurate in aceleasi locatii, insa ar fi indicat sa fie un minim de valori observate perechi
in aceleasi locatii din regiune de interes. Aceasta metoda poate fi utila atunci cand una dintre
variabile, variabila primara, a fost observata in putine locatii, insa corelatia sa cu alte variabile
(secundare) de interes in regiune poate duce la o precizie mai mare a estimarilor celei dintai
variabile.
Presupunem ca Z1 (x), Z2 (x), . . . , Z p (x) sunt p variabile ce se doresc a fi masurate pentru un
acelasi domeniu. Putem crea matricea aleatoare:

Z(x) = [Z1 (x), Z2 (x), . . . , Z p (x)].

Vom nota prin Λi matricea ponderilor corespunzatoare fiecarei valori a fiecarei variabile. O vom
scrie sub forma:
 i i i 
λ11 λ12 . . . λ1p
λ i λ i . . . λ i 
Λi =  21 22 2p 
 ... ... ... ... 
i
λ41 i
λ42 i
. . . λ pp

Scopul principal al metodei cokriging este de a determina (prin metoda celor mai mici patrate)
ponderile Λi pentru estimatorul:
n
ZbCK (x0 ) = ∑ Λi Z(xi ),
i=1

cu constrangerea
n
∑ Λi = In matricea identitate de ordin n.
i=1
Modelul cokriging va furniza un numar de p estimatori liniari in x0 , cate unul pentru fiecare
variabila in parte, si p dispersii corespunzatoare estimatorilor. Metoda este asemanatoare cu
metoda kriging ordinara, insa executata pentru p variabile simultan.

9.8 Cross-validare (validarea incrucisata)


Cross-validarea este o metoda de verificare sau de a alege dintre mai multe modele de kriging
pentru aceleasi date observate. Precizam mai jos detaliile validarii incrucisate:
• Se calculeaza variograma experimentala si apoi se potrivesc diverse variograme teoretice
potrivite;
• Se scoate un punct dintre cele n initiale si se estimeaza valoarea in acest punct pe baza
celorlalte n − 1 puncte. Aceasta valoare prezisa este comparata cu valoarea masurata initial.
Se repeta procedura pentru toate valorile observate.
• Diagnosticarea se face fie prin grafice sau prin masurarea erorilor de predictie. Graficele sunt
de forma valori prezise versus valori masurate. Pentru o predictie cat mai buna,
valorile prezise trebuie sa fie cat mai apropiate de cele masurate, aceasta observandu-se in
grafic daca punctele rosii sunt apropiate de dreapta 1:1.
9.8 Cross-validare (validarea incrucisata) 123

• Pentru a face un diagnostic numeric al preciziei estimarii, se folosesc urmatoarele masuri


ale erorilor de interpolare:
• Eroarea medie (Mean error in ArcGIS):

1 n
ME = ∑ [z(xi ) − b
z(xi )].
n i=1

• Eroarea medie standardizata (Mean Standardized Error in ArcGIS):

1 n [z(xi ) − b
z(xi )]
SME = ∑ .
n i=1 σb (xi )

• Eroarea medie patratica (Mean-Square Error):

1 n
MSE = ∑ [z(xi) − bz(xi)]2.
n i=1

• Radacina mediei erorilor patratice (Root-Mean-Square Error in ArcGIS):

s
1 n
RMSE = ∑ [z(xi) − bz(xi)]2.
n i=1

• Eroarea standard medie (Average Standard Error in ArcGIS):

v
u n
b (xi )
u
u∑σ
t i=1
ASE = .
n

• Radacina mediei erorilor patratice standardizate (Root-Mean-Square Standardized Error in


ArcGIS):
s
z(xi ) 2
1 n z(xi ) − b
 
RMSSE = ∑ σb (xi) .
n i=1
124 Chapter 9. Kriging

Figure 9.7: Compararea a doua metode kriging.

Pentru o precizie foarte buna este de dorit ca primele erorile ME, SME si MSE sa fie cat mai apropiate
de valoarea 0, eroarea RMSSE va trebui sa fie apropiate de valoarea 1, iar erorile RMSE si ASE sa
fie similare. Figura 9.7 contine doua grafice pentru doua metode de interpolare kriging ordinar;
prima metoda este fara trend iar a doua cu trend. Fiecare figura reprezinta valorile prezise vs.
valorile masurate. Pentru o apropiere cat mai buna, punctele rosii ar trebui sa fie cat mai apropiate
de dreapta 1:1 (prima bisectoare). Pentru a determina care dintre cele doua metode este mai buna,
ne uitam la erorile afisate si cautam metoda ce da erorile cele mai mici.

9.9 Simulare stochastica


Dupa cum am vazut mai sus, metodele kriging sunt utilizate pentru a estima valorile posibile
ale unei variabile in locatiile neobservate. Estimarile obtinute sunt optimizate astfel incat in
acele locatii variantele sunt minime. Totusi, nu este nicio garantie ca o harta obtinuta printr-o
metoda kriging va avea aceeasi variatie (sau variograma) ca si datele observate initial. Daca se
doreste a construi o harta care sa pastreze intocmai caracteristicile datelor observate, atunci trebuie
considerate metode alternative la metodele kriging. O astfel de metoda este simularea stochastica.
Simularea stochastica ofera posibilitatea de a crea valorile uneia sau mai multor variabile care sa
aiba aceleasi caracteristici ca si datele observate in realitate. Variabilele pentru care putem obtine
simulari pot fi atat discrete cat si continue.
Presupunem ca {z(xi )}i=1,n sunt valorile observate pentru variabila Z(x). Dupa cum am discutat
anterior, putem privi Z(x) ca fiind un proces stochastic. Daca acest proces este stationar de ordinul
al doilea, atunci el poate fi descris prin media si functia de covarianta. Acesti parametri ii putem
estima cu statistici specifice obtinute pe baza datelor observate. Principiul simularii stochastice
este simularea pe calculator de valori posibile pentru variabila Z(x) ce au media şi functia de
9.9 Simulare stochastica 125

covarianta stabilite. Se pot astfel crea oricate (o infinitate) simulari se doreste, toate realizarile
avand aceeasi probabilitate de aparitie, aceeasi medie si aceeasi functie caracteristica. Din punct
de vedere teoretic, valoarea medie a unui numar mare de simulari va arata similar cu harta obtinuta
prin metoda kriging. Simularile stochastice ofera posibilitatea de a obtine predictii realiste ale
valorile unei variabile, pe cand estimarile obtinute prin metoda kriging se preocupa mai mult de
acuratetea statistica a predictiilor.
In concluzie, metoda kriging ofera estimari locale de varianta minima, fara a se preocupa de
distributia in ansamblu a valorilor prezise. Pe de alta parte, simularea stochastica are ca scop
reproducerea distributiei datelor observate, fara a se preocupa de acuratetea locala a valorilor
prezise.
Simularile stochastice pot fi facute in doua moduri: neconditionate si conditionate.
O simulare stochastica neconditionata nu are alte constrangeri asupra valorilor simulate decat
faptul ca media si o functia de covarianta a acestor valori sa fie cea specificată a priori. O simulare
stochastica conditionata are, pe langa constrangerile de medie si functie de covarianta, cerinta ca
valorile observate pentru variabila aleatoare sa fie pastrate in urma simularii. Cu alte cuvinte, o
simulare conditionata este o procedure ce reproduce valorile si locatiile tuturor datelor observate,
pe cand una neconditionata nu are aceasta cerinta.
In cazul unei simulari stochastice neconditionata, metoda de simulare este metoda Monte Carlo.
Exista diverse software care pot simula valori aleatoare ce au media si functia de covarianta
specificate.
In cazul unei simulari conditionate, varianta valorilor simulate este dublul variantei valorilor
estimate prin metoda kriging. Asadar, daca scopul este o precizie mai buna a valorilor simulate,
metoda kriging este mai buna. Daca scopul este realizarea unei harti pentru care caracteristicile
observatiilor sa fie pastrate, atunci metoda de simulare este cea potrivita.
Exista mai multe tipuri de simulari stochastice, si anume:
• simulare gaussiană secvenţială (fiecare valoare este simulata secvential in concordanta cu
functia sa de repartitie conditionata normala, care se determina in fiecare locatie simulata);
• metode de descompunere LU (bazata pe descompunerea Cholesky a oricarei matrice pozitiv
definite C in produs de doua matrice triunghiulare, inferior si superior, i.e., C = LU.);
• simulare annealing (bazata pe algoritmi de optimizare);
• metode orientate pe obiect;
Metoda de simulare gaussiana secventiala este cea mai folosita. Pasii de implementare a metodei
sunt:
• Asigurarea ca datele sunt normale. In caz ca nu sunt normale, datele ar putea fi transformate
in date normale standard;
• Se determina un model de variograma;
• Se formeaza un grid cu punctele in care urmeaza sa determinam simulari;
• Se determina ordinea (o secventa) locatiilor {xi } in care vom obtine simulari.
b i ) si σ 2 (xi ) prin metoda kriging simpla. Apoi, se
• Pentru fiecare locatie xi se determina Z(x K
va genera aleator o valoare normala ce are media Z(x b i ) si varianta σ 2 (xi ). Aceasta valoare
K
simulata se va adauga la setul de date observate, apoi se trece la simularea urmatoarei valori.
Se repeta procedeul de kriging (incluzand in setul de date toate valorile simulate anterior)
pana ce toate valorile pentru punctele din grid au fost simulate.
• Daca datele originale au fost transformate, se va aplica transformarea inversa pentru a
determina simularile valorilor variabilei de interes.
Chapter 9. Kriging
Figure 9.8: Etape pentru interpolarea prin kriging
126
10. Anexe

10.1 Tabele cu cuantile pentru repartiţii uzuale

α 0.9 0.95 0.975 0.99 0.995 0.999


zα 1.282 1.645 1.960 2.326 2.576 3.090

Table 10.1: Cuantile pentru repartitia N (0, 1). Pentru un α, tabelul afiseaza cuantila zα pentru care
P(Z ≤ zα ) = α, unde Z ∼ N (0, 1). De remarcat faptul ca: z1−α = −zα .
Chapter 10. Anexe

n\α 0.9 0.95 0.975 0.99 0.995 0.999 n \ α 0.9 0.95 0.975 0.99 0.995 0.999
1 3.078 6.314 12.706 31.821 63.657 318.313 21 1.323 1.721 2.080 2.518 2.831 3.527
2 1.886 2.920 4.303 6.965 9.925 22.327 22 1.321 1.717 2.074 2.508 2.819 3.505
3 1.638 2.353 3.182 4.541 5.841 10.215 23 1.319 1.714 2.069 2.500 2.807 3.485
4 1.533 2.132 2.776 3.747 4.604 7.173 24 1.318 1.711 2.064 2.492 2.797 3.467
5 1.476 2.015 2.571 3.365 4.032 5.893 25 1.316 1.708 2.060 2.485 2.787 3.450
6 1.440 1.943 2.447 3.143 3.707 5.208 26 1.315 1.706 2.056 2.479 2.779 3.435
7 1.415 1.895 2.365 2.998 3.499 4.782 27 1.314 1.703 2.052 2.473 2.771 3.421
8 1.397 1.860 2.306 2.896 3.355 4.499 28 1.313 1.701 2.048 2.467 2.763 3.408
9 1.383 1.833 2.262 2.821 3.250 4.296 29 1.311 1.699 2.045 2.462 2.756 3.396
10 1.372 1.812 2.228 2.764 3.169 4.143 30 1.310 1.697 2.042 2.457 2.750 3.385
11 1.363 1.796 2.201 2.718 3.106 4.024 32 1.309 1.694 2.037 2.449 2.738 3.365
12 1.356 1.782 2.179 2.681 3.055 3.929 34 1.307 1.691 2.032 2.441 2.728 3.348
13 1.350 1.771 2.160 2.650 3.012 3.852 36 1.306 1.688 2.028 2.434 2.719 3.333
14 1.345 1.761 2.145 2.624 2.977 3.7870 38 1.304 1.686 2.024 2.429 2.712 3.319
15 1.341 1.753 2.131 2.602 2.947 3.733 40 1.303 1.684 2.021 2.423 2.704 3.307
16 1.337 1.746 2.120 2.583 2.921 3.686 50 1.299 1.676 2.009 2.403 2.678 3.261
17 1.333 1.740 2.110 2.567 2.898 3.646 60 1.296 1.671 2.000 2.390 2.660 3.232
18 1.330 1.734 2.101 2.552 2.878 3.610 80 1.292 1.664 1.990 2.374 2.639 3.195
19 1.328 1.729 2.093 2.539 2.861 3.579 100 1.290 1.660 1.984 2.364 2.626 3.174
20 1.325 1.725 2.086 2.528 2.845 3.552 ∞ 1.282 1.645 1.960 2.326 2.576 3.090
Table 10.2: Cuantile pentru repartitia Student t(n). Pentru un α si un n, tabelul afiseaza cuantila tα, n pentru care P(Z ≤ tα, n ) = α, unde Z ∼ t(n). Daca n
este mai mare de 100, se poate utiliza tabelul de la repartitia normala.
128
Fournit les quantiles xp tels que
P(X≤xp )= p
pour X ∼ χ2n
10.2 Exemplu de date statistice spatiale 129

n/p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995
n
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19
11 2,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
1
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49
60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104,2
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116,3
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128,3
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2

Table 10.3: Cuantile pentru repartitia χ 2 (n). Pentru un α = p si un n, tabelul afiseaza cuantila χα,
2
n
2 ) = α, unde Z ∼ χ 2 (n).
pentru care P(Z ≤ χα, n

10.2 Exemplu de date statistice spatiale


Chapter 10. Anexe
Figure 10.1: Exemplu de date statistice spatiale.
130
10.3 Tabel cu intervale de încredere 131

10.3 Tabel cu intervale de încredere


Param. Alţi param. Interval de încredere cu nivelul de semnificaţie α
 
X − z1− α √σn , X + z1− α √σn
2 2

σ2
 
µ X − z1−α √σn , +∞
cunoscut
 
−∞, X + z1−α √σn
 
X − t1− α ; n−1 √sn , X + t1− α ; n−1 √sn
2 2

σ2
 
µ X − t1−α; n−1 √σn , ∞ ;
necunoscut
 
−∞, X − tα; n−1 √sn
!
n n
χ2 α
s2 , χ 2α
s2
1− 2 ; n 2 ;n
 
µ n
s2 , +∞
σ2 cunoscut 
2
χα; n

n 2
−∞, χ2
s
1−α; n
!
(n−1) (n−1)
χ2 α
s2 , χ 2α
s2
1− 2 ; n−1 2 ; n−1
 
µ n−1
s2 , +∞
σ2 necunoscut χ2
 α; n−1 
n−1
−∞, 2
χ1−α;
s2
 n−1 
q q
pb(1− pb) pb(1− pb)
p n pb − z1− α n , pb + z1− α n
mare 2 2

µ1 , µ2
σ12 / s21 s21
 
σ22 f α
1 −1, n2 −1; 2
, f α
necunoscuţi  s22 ns s22 n1 −1, n2 −1; 1− 2s 
2 2 2 2
µ1 − µ2 σ12 , σ22 σ 1 σ σ σ
X1 − X2 − z1− α + 2 , X1 − X2 + z1− α 1
+ 2
2 n1 n2 2 n1 n2
cunoscuţi  
s s
2 2 2 2
µ1 − µ2 σ12 6= σ22 s 1 s s s
X1 − X2 − t1− α ; N + 2 , X1 − X2 + t1− α ; N 1
+ 2
2 n1 n2 2 n1 n2
necunoscuţi
σ12 = σ22  
µ1 − µ2 X1 − X2 − t1− α ; n1 +n2 −2 d(X1 , X2 ), X1 − X2 + t1− α ; n1 +n2 −2 d(X1 , X2 )
necunoscuţi 
2 2

q q
p1 (1−cp1 ) p2 (1−cp2 ) p1 (1−cp1 ) p2 (1−cp2 )
p1 − p2 n1 , n2 pb1 − pb2 − z1− α c n1 + c
n2 , p
b1 − p
b2 + z1− α
c
n1 + c
n2
2 2

mari

Table 10.4: Tabel cu intervale de încredere.

Mai sus, prin d(X1 , X2 ) am notat:


!− 1
2
n1 + n2 − 2
q
d(X1 , X2 ) = (n1 − 1)s21 + (n2 − 1)s22 1 1
.
n1 + n2
Bibliography

[1] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.
[2] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with
CD-ROM), Duxbury Press, 2006.
[3] Clayton V. Deutsch, Geostatistical reservoir modeling, Oxford University Press, 2002.
[4] ESRI, Introduction to the ArcGIS Geostatistical Analyst Tutorial (online tutorial notes)
[5] Pierre Goovaerts, Geostatistics for natural resources evaluation, Oxford University Press,
1997.
[6] T Hengl, A Practical Guide to Geostatistical Mapping of Environmental Variables, JRC
Scientific and Technical Research series, Office for Official Publications of the European
Comunities, Luxembourg, EUR 22904 EN, 143 pp, 2009
[7] Peter K. Kitanidis, Introduction to Geostatistics, Applications in Hydrogeology, Cambridge
University Press, 1997.
[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mică enciclope-
die de statistică, Editura ştiinţifică şi enciclopedică, Bucureşti, 1985.
[9] K. Johnston, JM Ver Hoef, K. Krivoruchko, N. Lucas, Using ArcGIS Geostatistical Analyst,
2001
[10] S. McKillup, M Darby Dyar, Geostatistics Explained. An Introductory Guide for Earth
Scientists, Cambridge University Press, 396 pp, 2010
[11] Georges Matheron, Principles of Geostatistics, Economic Geology 58, 1963, pp. 1246-1266.
[12] Georges Matheron, Les variables régionalisées et leur estimation, Masson, Paris, 1965.
134 BIBLIOGRAPHY

[13] Gheorghe Mihoc, N. Micu, Teoria probabilităţilor şi statistica matematică, Bucuresti, 1980.

[14] Ricardo A. Olea, Geostatistics for Engineers and Earth Scientists, Kluwer Academic Pub-
lishers, Boston, 1999

[15] MJ Smith, MF Goodchild, PA Longley, Geospatial Analysis. A Comprehensive Guide to


Principles, Techniques and Software Tools, Second Edition, Matador, Troubador Publishing
Ltd., online version: http://www.spatialanalysisonline.com/

[16] Iulian Stoleriu, Statistică prin M ATLAB. MatrixRom, Bucureşti, 2010.

[17] Richard Webster, Margaret Oliver, Geostatistics for environmental scientists, John Wiley
and Sons, Ltd., 2007.

[18] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge
University Press, 2001.
Index

amplitudinea, 34 diagrama probabilitate-probabilitate, 32


dispersia, 33
box-and-whiskers plot, 36 dispersia teoretică, 15, 55
caracteristică, 14 distribuţie empirică de selecţie, 23
clasă mediană, 38 eroare în medie pătratică, 66
clopotul lui Gauss, 61 estimator nedeplasat, 66
coeficient de aplatizare, 35, 56 eveniment aleator, 49
coeficient de asimetrie, 16, 35, 56 eveniment aleator compus, 49
coeficient de corelaţie, 16 eveniment aleator elementar, 49
coeficient de corelaţie, 94 evenimente dependente, 59
coeficient de corelaţie teoretic, 16, 58 evenimente independente, 59
coeficientul de corelaţie empiric, 32 excesul, 16
coeficientul de variaţie , 33 experienţă aleatoare, 49
colectivitate statistică, 13
corelaţia, 16, 34 frecvenţă cumulată, 26
corelaţia teoretică, 16, 58 frecvenţa absolută, 23, 51
covarianţa, 16 frecvenţa cumulată, 23
cuantile, 16, 57 frecvenţa relativă cumulată, 23
frecvenţa relativă, 23
date continue, 18, 22
frontierele unei clase, 29
date discrete, 18, 22
funcţie de probabilitate, 14
date interval, 18
funcţia de probabilitate (de frecvenţă), 53
date raport, 19
funcţie de repartiţie (cumulată), 54
densităţi de frecvenţă, 28
funcţie de repartiţie empirică, 34
densitate de repartiţie, 14
deplasarea unui estimator, 66 histogramă, 28
deviaţia standard, 33
diagrama cuantilă-cuantilă, 32 indicator statistic, 19
136 INDEX

indicatori statistici, 32 UMVUE, 67


interval de încredere, 68
ipoteză statistică, 73 variabilă aleatoare, 52
variabila aleatoare standardizată, 56
kriging, 111, 112 variograma, 96
kriging ordinar, 116 variograma empirica, 97, 105
kurtosis, 16, 35, 56 variograma regionala, 97
variograma teoretica, 97
media, 33
media teoretică, 55
metoda celor mai mici patrate, 109
modul, 57
momente, 33
momente centrate ale unei v.a., 15, 56
mulţime de selecţie, 49

nivel de semnificaţie, 69, 74

ogivă, 31

P-valoare, 74
populaţie statistică, 13
probabilitate, 50
probabilitate de risc, 69

recensământ, 16
regula celor 3σ , 55
repartiţia χ 2 , 62
repartiţia normală standard, 61
riscul beneficiarului, 74
riscul furnizorului, 74

scatter plot, 83
selecţie, 16
serie de timpi, 24
simulare stochastica, 124
simulare stochastica conditionata, 125
simulare stochastica neconditionata, 125
skewness, 16, 35, 56
Statistică, 12
statistică, 19
stem-and-leaf, 26

tabel de frecvenţe, 23
test bilateral, 75
test de concordanţă, 78
test statistic, 75
test unilateral dreapta, 75
test unilateral stânga, 75

S-ar putea să vă placă și