Documente Academic
Documente Profesional
Documente Cultură
Iulian Stoleriu
Copyright © 2019 Iulian Stoleriu
Cuprins
1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Elemente de Statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Scurt istoric 11
2.2 Modelare Statistică 13
2.3 Populaţie şi selecţie 13
2.4 Organizarea şi descrierea datelor 16
2.5 Gruparea datelor 17
2.6 Reprezentarea datelor statistice 20
2.6.1 Reprezentare prin puncte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6.2 Reprezentarea stem-and-leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6.3 Reprezentarea cu bare (bar charts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6.5 Reprezentare prin sectoare de disc (pie charts) . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.6 Poligonul frecvenţelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.7 Ogive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.8 Diagrama Q-Q sau diagrama P-P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.9 Diagrama scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7 Măsuri descriptive ale datelor statistice (indicatori statistici) 26
2.7.1 Date negrupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7.2 Date grupate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.8 Transformari de date 34
3 Noţiuni teoretice de Statistică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.1 Evenimente aleatoare 39
3.1.1 Operatii cu evenimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.2 Relatii intre evenimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2 Probabilitate 40
3.3 Variabile aleatoare 42
3.3.1 Funcţia de repartiţie (sau funcţia de repartiţie cumulată) . . . . . . . . . . . . . . . . . . 44
3.3.2 Caracteristici numerice ale unei variabile aleatoare (parametri) . . . . . . . . . . . 44
3.3.3 Independenţa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.4 Teorema limita centrala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.5 Repartiţii probabilistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4 Estimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1 Estimatori punctuali 56
4.1.1 Exemple de estimatori punctuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2 Estimarea parametrilor prin intervale de încredere 58
4.2.1 Intervale de încredere pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.2 Interval de încredere pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.3 Interval de încredere pentru proportie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5 Teste statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.1 Tipuri de teste statistice 65
5.1.1 Testul t pentru medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.1.2 Test pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1.3 Testul χ 2 de concordanţă . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.1.4 Testul de concordanţă Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
9 Kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
9.1 Introducere 101
9.2 Kriging simplu 102
9.3 Kriging ordinar 106
9.4 Kriging lognormal 109
9.5 Kriging universal (sau kriging cu drift) 109
9.6 Kriging indicator 110
9.7 Cokriging 112
9.8 Cross-validare (validarea incrucisata) 112
9.9 Simulare stochastica 114
10 Anexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
10.1 Tabele cu cuantile pentru repartiţii uzuale 117
10.2 Exemplu de date statistice spatiale 119
10.3 Tabel cu intervale de încredere 121
Bibliografie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Index 125
1. Introducere
Obiectivul principal al acestei discipline este caracterizarea sistemelor spatiale care sunt incomplet
cunoscute/descrise. In acest scop, Geostatistica contine o colectie de tehnici numerice si matema-
tice care se ocupa cu caracterizarea sistemelor (datelor) spatiale sau spatio-temporale care nu sunt
complet cunoscute, cum ar fi sistemele spatiale ce apar in Geologie. Prin date spatiale intelegem
acele date statistice ce sunt asociate cu o locatie in spatiu; pentru datele spatio-temporale mai
apare si referirea la variabila timp (datele observate depind de momentul cand au fost culese).
Spre deosebire de Statististica clasica, in care masuratorile (observatiile statistice) sunt privite
ca fiind observatii independente si identic repartizate asupra unei aceleiasi caracteristici, datele
de interes din Geostatistica sunt spatial corelate (i.e., ipoteza de independenta a datelor nu este
satisfacuta). Daca nu ar exista o asemenea corelare spatiala, aplicarea metodelor geostatistice nu
ar fi oportuna; Statistica clasica singura ar putea oferi raspunsurile necesare. Totodata, vom ve-
dea ca datele spatiale din Geostatistica nu pot fi toate generate de o aceeasi repartitie probabilistica.
Spre exemplu, se doreste a realiza o harta a ratei infiltrarii apei intr-o anumita regiune, ce cuprinde
atat zone rurale cat si urbane. Deoarece solul nu este acelasi in interiorul regiunii, rata infiltrarii
apei va avea diverse valori in acest areal. Este de asteptat ca masuratorile obtinute din locatii foarte
apropiate sa fie similare, fapt foarte familiar geologilor. In termeni statistici, acest fapt se traduce
printr-o corelare a valorilor ratelor infiltrarii apei masurate in locatii diferite. Vom vedea mai tarziu
ca in analiza acestor date va trebui sa tinem cont de corelatiile dintre ele, fapt ce va fi realizat
prin analiza variogramei (sau a corelogramei) datelor empirice. Totodata, datorita variabilitatii
solului, este de asteptat ca ratele astfel masurate sa nu urmeze toate o aceeasi repartitie normala.
Din acest motiv, fiecare data spatiala din Geostatistica poate privita ca fiind o singura observatie
(masurare) a unei anumite repartitii, nu neaparat una normala. Astfel, Geostatistica tine cont atat
de repartitiile datelor obtinute cat si de corelatiile intre aceste date, nefiind constransa sa considere
faptul ca toate datele observate au o aceeasi repartitie probabilistica.
Unul dintre scopurile Geostatisticii este ca, plecand de la o colectie de valori observate (masurate)
pentru o anumita caracteristica de interes, sa poata prezice repartitia spatiala intr-un punct de unde
nu avem date observate (nu s-au facut masuratori). Spre exemplu, in Figura 1.1 sunt reprezentate
7 masuratori efectuate intr-un regiune in care valorile masurate ale caracteristicii de interes sunt
aleatoare.
Deoarece datele statistice spatiale pot fi foarte numeroase, pentru analiza lor este nevoie de ajutorul
computerelor si de un software specializat. Exemple de software ce analizeaza date geostatistice
sunt: ArcMap, M ATLAB (M AThematics L ABoratory), R, GSLIB (Geostatistical Software Library),
Gstat, SGeMS (Stanford Geostatistical Modeling Software), GS+, Geopack, GeoEAS, Variowin
etc.
2. Elemente de Statistică
În general, prin date (sau date statistice) înţelegem o mulţime de numere sau caractere ce au o
anumită însemnătate pentru utilizator. Utilizatorul este interesat în a extrage informaţii legate de
mulţimea de date pe care o are la îndemână. Datele statistice pot fi legate între ele sau nu. Suntem
interesaţi de studiul acestor date, cu scopul de a înţelege anumite relaţii între diverse trăsături ce
măsoară datele culese. De regulă, oamenii au anumite intuiţii despre realitatea ce ne înconjoară,
pe care le doresc a fi confirmate într-un mod cât mai exact.
De exemplu, dacă într-o anumită zonă a ţării rata şomajului este ridicată, este de aşteptat ca în
acea zonă calitatea vieţii persoanelor de acolo să nu fie la standarde ridicate. Totuşi, ne-am dori să
fim cât mai precişi în evaluarea legăturii dintre rata somajului şi calitatea vieţii, de aceea ne-am
dori să construim un model matematic ce să ne confirme intuiţia. Un alt gen de problemă: ardem
de nerăbdare să aflăm cine va fi noul preşedinte, imediat ce secţiile de votare au închis porţile
(exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea şi unificarea tuturor datelor
într-un timp record nu este o măsură deloc practică. În ambele probleme menţionate, observaţiile
şi culegerea de date au devenit prima treaptă spre înţelegerea fenomenului studiat. De cele mai
multe ori, realitatea nu poate fi complet descrisă de un astfel de model, dar scopul este de a oferi o
aproximare cât mai fidelă şi cu costuri limitate.
În ambele situaţii menţionate apar erori în aproximare, erori care ţin de întâmplare. De aceea,
ne-am dori să putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecând de la
12 Capitolul 2. Elemente de Statistică
colecţiile de date obţinute dintr-o colectivitate, Statistica introduce metode de predicţie şi prognoză
pentru descrierea şi analiza proprietăţilor întregii colectivităţi. Aria de aplicabilitate a Statisticii
este foarte mare: ştiinţe exacte sau sociale, umanistică sau afaceri etc. O disciplină strâns legată
de Statistică este Econometria. Aceasta ramură a Economiei se preocupă de aplicaţii ale teoriilor
economice, ale Matematicii şi Statisticii în estimarea şi testarea unor parametri economici, sau în
prezicerea unor fenomene economice.
Statistica a apărut în secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre
populaţiile pe care le reprezentau sau de a studia mersul economiei locale, în vederea unei mai
bune administrări. Datorită originii sale, Statistica este considerată de unii ca fiind o ştiinţă de sine
stătătoare, ce utilizează aparatul matematic, şi nu este privită ca o subramură a Matematicii. Dar
nu numai originile sale au fost motivele pentru care Statistica tinde să devină o ştiinţă separată de
Teoria Probabilităţilor. Datorită revoluţiei computerelor, Statistica a evoluat foarte mult în direcţia
computaţională, pe când Teoria Probabilităţilor foarte puţin. Aşa cum David Williams scria în
[williams], "Teoria Probabilităţilor şi Statistica au fost odată căsătorite; apoi s-au separat; în cele
din urmă au divorţat. Acum abia că se mai întâlnesc".
Din punct de vedere etimologic, cuvântului statistică îşi are originile în expresia latină statisticum
collegium (însemnând consiliul statului) şi cuvântul italian statista, însemnând om de stat sau
politician. În 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat
pentru a analiza datele referitoare la stat. Mai târziu, în secolul al XIX-lea, Sir John Sinclair a
extrapolat termenul la colecţii şi clasificări de date.
Metodele statistice sunt astăzi aplicate într-o gamă largă de discipline. Amintim aici doar câteva
exemple:
• în Geografie, spre exemplu, pentru a studia efectul incalzirii globale asupra repartitiei
padurilor pe glob;
• în Geologie, pentru a determina o harta a ratei infiltrarii apei intr-o anumita zona ubana;
• în Agricultură, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a fi folosite
pe un anumit teren arabil;
• în Economie, pentru studiul rentabilităţii unor noi produse introduse pe piaţă, pentru
corelarea cererii cu ofertă, sau pentru a analiza cum se schimbă standardele de viaţă;
• în Contabilitate, pentru realizarea operaţiunilor de audit pentru clienţi;
• în Biologie, pentru clasificarea din punct de vedere ştiinţific a unor specii de plante sau
pentru selectarea unor noi specii;
• în Ştiinţele educaţiei, pentru a găsi cel mai eficient mod de lucru pentru elevi sau pentru a
studia impactul unor teste naţionale asupra diverselor caregorii de persoane ce lucrează în
învăţământ;
• în Meteorologie, pentru a prognoza vremea într-un anumit ţinut pentru o perioadă de timp,
sau pentru a studia efectele încălzirii globale;
• în Medicină, pentru testarea unor noi medicamente sau vaccinuri;
• în Psihologie, în vederea stabilirii gradului de corelaţie între timiditate şi singurătate;
• în Politologie, pentru a verifica dacă un anumit partid politic mai are sprijinul populaţiei;
• în Ştiinţele sociale, pentru a studia impactul crizei economice asupra unor anumite clase
sociale;
• etc.
2.2 Modelare Statistică 13
Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identifica mai întâi
care este colectivitatea asupra căreia se doreşte studiul. Această colectivitate (sau populaţie) poate
fi populaţia unei ţări, sau numai elevii dintr-o şcoală, sau totalitatea produselor agricole cultivate
într-un anumit ţinut, sau toate bunurile produse într-o uzină. Dacă se doreşte studiul unei trăsături
comune a tuturor membrilor colectivităţii, este de multe ori aproape imposibil de a observa această
trăsătură la fiecare membru în parte, de aceea este mult mai practic de a strânge date doar despre
o submulţime a întregii populaţii şi de a căuta metode eficiente de a extrapola aceste observaţii
la toată colectivitatea. Există o ramură a statisticii ce se ocupă cu descrierea acestei colecţii de
date, numită Statistică descriptivă. Această descriere a trăsăturilor unei colectivităţi poate fi
făcută atât numeric (media, dispersia, mediana, cuantile, tendinţe etc), cât şi grafic (prin puncte,
bare, histograme etc). De asemenea, datele culese pot fi procesate într-un anumit fel, încât să
putem trage concluzii foarte precise despre anumite trăsături ale întregii colectivităţi. Această
ramură a Statisticii, care trage concluzii despre caracteristici ale întregii colectivităţi, studiind
doar o parte din ea, se numeşte Statistică inferenţială. În contul Statisticii inferenţiale putem trece
şi următoarele: luarea de decizii asupra unor ipoteze statistice, descrierea gradului de corelare
între diverse tipuri de date, estimarea caracteristicilor numerice ale unor trăsături comune întregii
colectivităţi, descrierea legăturii între diverse caracteristici etc.
unde f este o funcţie ce verifică anumite proprietăţi şi este specifică modelului, x este vectorul
ce conţine variabilele măsurate şi θ este un parametru (sau un vector de parametri), care poate fi
determinat sau nedeterminat. Termenul de eroare apare deseori în pratică, deoarece unele date
culese au caracter stochastic (nu sunt deterministe, in sensul ca valorile lor nu pot fi prevazute a
priori). Modelul astfel creat este testat, şi eventual revizuit, astfel încât să se potrivească într-o
măsură cât mai precisă datelor culese.
Prin variabila (sau caracteristica) unei populaţii statistice înţelegem o anumită proprietate urmă-
rită la indivizii ei în procesul prelucrării statistice şi care constituie obiectul măsurării. Din punct
de vedere statistic, ea este o trasatura sau cantitate legata de populatia studiata, ce poate lua orice
valoare dintr-o multime data, fiecarei valori atribuindu-se o anumita pondere (frecventa relativa).
Spre exemplu: numarul de clienti ce intra intr-un magazin intr-o anumita zi de lucru, inaltimea
barbatilor dintr-o anumita tara, rata infiltrarii apei in solul urban, media la Bacalaureat, altitudinea,
culoarea frunzelor, nationalitatea participantilor la un congres international etc. Variabilele pot
fi: cantitative (măsurabile) (e.g., 2, 3, 5, 7, 11, . . . ) şi calitative (sau categoriale) (e.g., albastru,
foarte bine, german etc). La rândul lor, variabilele cantitative pot fi discrete (numărul de sosiri
ale unui tramvai în staţie) sau continue (timpul de aşteptare între două sosiri ale tramvaiului în
staţie). Datele calitative mai pot fi nominale sau ordinale. Variabilele nominale au nivele distincte,
fara a avea o anumita ordine. De exemplu, culoarea parului, sau genul unei persoane. Pe de alta
parte, valorile ordinale fac referinta la ordinea lor. De exemplu: schimbarea starii unui pacient
dupa un anumit tratamen (aceasta poate fi: imbunatatire semnificativa, imbunatatire moderata,
nicio schimbare, inrautatire moderata, inrautatire semnificativa).
Parametrii populaţiei sunt masuri descriptive numerice ce reprezinta populatia. Deoarece nu avem
acces la intreaga populatie, parametrii sunt niste constante necunoscute, ce urmeaza a fi explicate
sau estimate pe baza datelor. Spre exemplu, daca populatia formata este formata din multimea
persoanelor dintr-o anumita tara, parametrii pot fi: inaltimea medie, culoarea predominanta a
ochilor, deviata standard a masei corporale, varsta medie, procentul de someri, coeficientul de
corelatie dintre conditiile de trai pentru cei care locuiesc in mediul urban si cei din mediul rural
etc. Pentru variabilele cantitative ale populatiei, putem avea urmatoarele tipuri de parametri: para-
metri care sa descrie tendinta centrala a populatiei (e.g., media, mediana, momente), parametri
care descriu gradul de imprastiere a datelor in jurul unei valori centrale (e.g., dispersia, deviatia
standard, coeficient de variatie), parametri de pozitie (e.g., cuantile), parametri ce descriu forma
(e.g., skewness, kurtosis).
De asemenea, pot fi definiti parametri ce descriu legatura intre doua variabile ce caracterizeaza
populatia de interes. De exemplu corelatia sau coeficientul de corelatie dintre nivelul de studii si
salariul net.
Pentru date calitative (categoriale), cei mai des utilizati parametri sunt: π− proportia din populatie
ce are caracteristica de interes (e.g., proportia de fumatori din tara), cote (sanse teoretica pentru
observarea caracteristicii de interes la intreaga populatie) (e.g., exista 70% sanse sa ploua maine).
O variabila a unei populatii poate depinde de unul sau mai multi parametri, parametrii fiind astfel
trasaturi ce descriu colectivitatea. Spre exemplu, o variabila normala poate fi descrisa de doi
parametri: media si deviatia standard.
Suntem interesaţi în a măsura una sau mai multe variabile relative la o populaţie, însă aceasta s-ar
putea dovedi o muncă extrem de costisitoare, atât din punctul de vedere al timpului necesar, cât
şi din punctul de vedere al depozitării datelor culese, în cazul în care volumul colectivităţii este
mare sau foarte mare (e.g., colectivitatea este populaţia cu drept de vot a unei ţări şi caracteristica
urmărită este candidatul votat la alegerile prezidenţiale). De aceea, este foarte întemeiată alegerea
unei selecţii de date din întreaga populaţie şi să urmărim ca pe baza datelor selectate să putem
trage o concluzie în ceea ce priveşte variabila colectivităţii.
O selecţie (sau eşantion) este o colectivitate parţială de elemente extrase (la întâmplare sau nu) din
2.3 Populaţie şi selecţie 15
colectivitatea generală, în scopul cercetării lor din punctul de vedere al unei caracteristici. Dacă
extragerea se face la întâmplare, atunci spunem că am facut o selecţie întâmplătoare. Numărul
indivizilor din selecţia aleasă se va numi volumul selecţiei. Dacă se face o enumerare sau o
listare a fiecărui element component al unei a populaţii statistice, atunci spunem că am facut un
recensământ. Numim o selecţie repetată (sau cu repetiţie) o selecţie în urma căreia individul ales
a fost reintrodus din nou în colectivitate. Altfel, avem o selecţie nerepetată. Selecţia nerepetată
nu prezintă interes dacă volumul colectivităţii este finit, deoarece în acest caz probabilitatea ca
un alt individ să fie ales într-o extragere nu este aceeaşi pentru toţi indivizii colectivităţii. Pe de
altă parte, dacă volumul întregii populaţii statistice este mult mai mare decât cel al eşantionului
extras, atunci putem presupune că selecţia efectuată este repetată, chiar dacă în mod practic ea
este nerepetată. Spre exemplu, dacă dorim să facem o prognoză a cine va fi noul preşedinte în
urma alegerilor din toamnă, eşantionul ales (de altfel, unul foarte mic comparativ cu volumul
populaţiei cu drept de vot) se face, în general, fără repetiţie, dar îl putem considera a fi o selecţie
repetată, în vederea aplicării testelor statistice.
Selecţiile aleatoare se pot realiza prin diverse metode, în funcţie de următorii factori: disponibili-
tatea informaţiilor necesare, costul operaţiunii, nivelul de precizie al informaţiilor etc. Mai jos
prezentăm câteva metode de selecţie.
• selecţie simplă de un volum dat, prin care toţi indivizii ce compun populaţia au aceeaşi
şansă de a fi aleşi. Această metodă mininimizează riscul de a fi părtinitor sau favorabil
unuia dintre indivizi. Totuşi, această metodă are neajunsul că, în anumite cazuri, nu reflectă
componenţa întregii populaţii. Se aplică doar pentru colectivităţi omogene din punctul
de vedere al trăsăturii studiate. In cazul datelor spatiale, se pot alege prin selectie simpla
coordonatele locatiilor de unde se vor efectua masuratori pentru caracteristica de interes.
• selecţie sistematică, ce presupune aranjarea populaţiei studiate după o anumită schemă
ordonată şi selectând apoi elementele la intervale regulate. (e.g., alegerea a fiecărui al 10-lea
număr dintr-o carte de telefon, primul număr fiind ales la întâmplare (simplu) dintre primele
10 din listă).
• selecţie stratificată, în care populaţia este separată în categorii, iar alegerea se face la
întâmplare din fiecare categorie. Acest tip de selecţie face ca fiecare grup ce compune
populaţia să poata fi reprezentat în selecţie. Alegerea poate fi facută şi în funcţie de mărimea
fiecărui grup ce compune colectivitatea totală (e.g., aleg din fiecare judeţ un anumit număr
de persoane, proporţional cu numărul de persoane din fiecare judeţ).
• selecţie ciorchine, care este un eşantion stratificat construit prin selectarea de indivizi din
anumite straturi (nu din toate).
• selecţia de tip experienţă, care ţine cont de elementul temporal în selecţie. (e.g., diverşi
timpi de pe o encefalogramă).
• selecţie de convenienţă: de exemplu, alegem dintre persoanele care trec prin faţa universită-
ţii.
• selecţie de judecată: cine face selecţia decide cine ramâne sau nu în selecţie.
• selecţie de cotă: selecţia ar trebui să fie o copie a întregii populaţii, dar la o scară mult mai
mică. Aşadar, putem selecta proporţional cu numărul persoanelor din fiecare rasă, de fiecare
gen, origine etnică etc) (e.g., persoanele din Parlament ar trebui să fie o copie reprezentativă
a persoanelor întregii ţări, la o scară mai mică).
Pe baza unei selectii, putem construi diversi indicatori statistici care sa estimeze parametrii ne-
cunoscuti, obtinand descrieri numerice sau calitative pentru populatie. Astfel de indicatori se
16 Capitolul 2. Elemente de Statistică
numesc statistici. Prin intermeniul statisticilor putem trage concluzii despre populaţia din care a
provenit eşantionul observat. Teoria probabilităţilor ne oferă procedee de determinare a repartiţiei
asimptotice a unei statistici, sau chiar, in anumite cazuri, a statisticii exacte. Repartiţia exactă
este acea repartiţie ce poate fi determinată pentru orice volum al selecţiei. În general, dacă se
lucrează cu selecţii de volum redus (sub 30 de masuratori), atunci repartiţia exactă ar trebui să
fie cunoscută a priori, dacă se doreşte luarea de decizii prin inferenţă. Repartiţia asimptotică
este repartiţia limită a statisticii când volumul esantionului tinde la volumul populatiei. Practic,
utilizarea repartitiei asimptotice conduce la rezultate bune doar pentru un esantion suficient de
mare (peste 30 de masuratori).
In concluzie, plecand de la o multime de date, Statistica isi propune sa extraga anumite informatii
din acestea. Mai concret, Statistica detine uneltele si metodele necesare de a realiza urmatoarele
cerinte: sa descrie cat mai fidel si sugestiv acele date (prin grafice sau indicatori statistici), sa
estimeze anumiti parametri de interes (e.g., media teoretica, deviatia standard, asimetria ale
caracteristicii), sa verifice prin inferenta ipotezele ce se pot face referitoare la anumiti parametri ai
caracteristicii sau chiar la forma acesteia.
Vom numi date (sau date statistice) informaţiile obţinute în urma observarii valorilor acestei
caracteristici. In cazul mentionat mai sus, datele sunt mediile la licenţă observate. În general,
datele pot fi calitative (se mai numesc şi categoriale) sau cantitative, după cum caracteristica (sau
variabila) observată este calitativă (exprima o calitate sau o categorie) sau, respectiv, cantitativă
(are o valoare numerica). Totodata, aceste date pot fi date de tip discret, dacă sunt obţinute în
urma observării unei caracteristici discrete (o variabila aleatoare discretă, sau o variabila ale
carei posibile valori sunt in numar finit sau cel mult numarabil), sau date continue, dacă această
caracteristică este continuă (o variabilă aleatoare de tip continuu, sau o variabila ce poate lua orice
valoare dintr-un interval sau chiar de pe axa reala). În cazul din exemplul de mai sus, datele vor fi
cantitative şi continue.
notam cu Z variabila medie la licenta, atunci un anume z observat va fi media la licenta pentru un
student din colectivitate ales aleator.
În Geostatistică, datele observate au caracter spatial, adica sunt legate de pozitie. Pozitia spatiala
poate fi unu, doi sau trei-dimensionala. Majoritatea datelor spatiale din acest curs vor avea pozitie
doi-dimensionala (sau bidimensionala). Vom nota cu x = (x1 , x2 ) vectorul de coordonate bidimen-
sionale. Astfel prin Z(x) sau Z(x1 , x2 ) vom nota variabila Z in locatia x, iar prin z(x) sau z(x1 , x2 )
vom nota valoarea variabilei Z in locatia x. Daca avem mai multe valori ale variabilei Z, le vom
nota prin z1 , z2 , z3 , . . . . În Geostatistica, se foloseste termenul de variabila pentru a caracteriza o
valoare necunoscuta pe care o trasatura unei populatii o poate lua in locatii spatio-temporale.
Primul pas în analiza datelor empirice observate este o analiza descriptiva, ce consta in ordonarea
şi reprezentarea grafica a datelor, dar şi în calcularea anumitor caracteristici numerice pentru
acestea. Datele înainte de prelucrare, adică exact aşa cum au fost culese, se numesc date negrupate.
Un exemplu de date negrupate (de tip continuu) sunt cele observate in Tabelul 2.1, reprezentând
timpi (în min.sec) de aşteptare pentru primii 100 de clienţi care au aşteptat la un ghişeu până au
fost serviţi.
1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63
0.13 5.32 3.97 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77
2.98 4.33 5.08 4.67 0.79 3.14 0.99 0.78 2.34 4.51 3.53 4.55 1.89
0.94 3.44 1.35 3.64 2.92 2.67 2.86 2.41 3.19 5.41 5.14 2.75 1.67
1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 1.50 0.83 3.74
3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80
3.12 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98
5.36 1.32 1.76 2.14 3.28 3.89 4.85 4.12 0.88
Tabela 2.1: Date statistice negrupate
De cele mai multe ori, enumerarea tuturor datelor culese este dificil de realizat, de aceea se
urmăreşte a se grupa datele, pentru o mai uşoară gestionare. Imaginaţi-vă că enumerăm toate
voturile unei selecţii întâmplătoare de 15000 de votanţi, abia ieşiţi de la vot. Mai degrabă, ar fi
mai util şi practic să grupăm datele după numele candidaţilor, precizând numărul de voturi ce l-a
primit fiecare. Asadar, pentru o mai buna descriere a datelor, este necesara gruparea lor in clase
de interes.
(1) Date de tip discret: Dacă datele de selecţie sunt discrete (e.g., {z1 , z2 , . . . , zn }), este posibil
ca multe dintre ele sa se repete. Presupunem ca valorile distincte ale acestor date sunt z01 , z02 , . . . , z0r ,
r ≤ n. Atunci, putem grupa datele într-un aşa-numit tabel de frecvenţe (vezi exemplul din Tabelul
2.2). Alternativ, putem organiza datele negrupate într-un tabel de frecvenţe, după cum urmează:
data z01 z02 ... z0r
(2.5.2)
frecventa f1 f2 ... fr
18 Capitolul 2. Elemente de Statistică
nota frecvenţa absolută frecvenţa cumulată frecvenţa relativă frecvenţa relativă cumulată
2 2 2 2.22% 2.22%
3 4 6 4.44% 6.66%
4 8 14 8.89% 15.55%
5 15 29 16.67% 32.22%
6 18 47 20.00% 52.22%
7 17 64 18.89% 71.11%
8 15 79 16.67% 87.78%
9 7 86 7.78% 95.56%
10 4 90 4.44% 100%
Total 90 - 100% -
unde fi este frecvenţa apariţiei valorii z0i , (i = 1, 2, . . . , r), şi se va numi distribuţia empirică de
selecţie a lui Z. Aceste frecvenţe pot fi absolute sau de relative. Un tabel de frecvenţe (sau o
distribuţie de frecvenţe) conţine cel puţin două coloane: o coloană ce reprezintă datele observate
(grupate în clase) şi o coloană de frecvenţe. În prima coloană apar clasele, adică toate valorile
distincte observate. Datele din această coloană nu se repetă. Prin frecvenţa absolută a clasei
înţelegem numărul de elemente ce aparţine fiecărei clase în parte. De asemenea, un tabel de
frecvenţe mai poate conţine frecvenţe relative sau cumulate. O frecvenţă relativă se obţine prin
împărţirea frecvenţei absolute a unei categorii la suma tuturor frecvenţelor din tabel. Astfel, suma
tuturor frecvenţelor relative este egală cu 1. Frecvenţa (absolută) cumulată a unei clase se obţine
prin cumularea tuturor frecvenţelor absolute până la (inclusiv) clasa respectivă. Frecvenţa relativă
cumulată a unei clase se obţine prin cumularea tuturor frecvenţelor relative până la (inclusiv)
clasa respectivă.
Aşadar, elementele unui tabel de frecvenţe pot fi: clasele (ce conţin valori pentru variabile),
frecvenţe absolute, frecvenţe relative sau cumulate. Într-un tabel, nu este obligatoriu să apară
toate coloanele cu frecvenţe sau ele să apară în această ordine.
Vom numi o serie de timpi (sau serie dinamică ori cronologică) un set de date culese la momente
diferite de timp. O putem reprezenta sub forma unui tablou de forma
z1 z2 . . . zn
data : ,
t1 t2 . . . tn
unde zi sunt valorile caracteristicii, iar ti momente de timp (e.g., răspunsurile citite de un electro-
cardiograf).
În Tabelul 2.2, sunt prezentate notele studenţilor din anul al III-lea la examenul de Statistică.
Acesta este exemplu de tabel ce reprezentă o caracteristică discretă.
"Offf... dragă domnule pacient, am două veşti: una foarte proastă şi una bună. Mai întâi vă aduc la
cunoştinţă vestea proastă: suferiţi de o boală groaznică. Statistic vorbind, din zece pacienţi ce contractează
această boală, doar unul scapă."
Pacientul, deja în culmea disperării, este totuşi consolat de doctor cu vestea cea bună:
"Dar, fiţi pe pace! Dumneavoastră aţi venit la mine, şi asta vă face tare norocos", continuă optimist doctorul.
"Am avut deja nouă pacienţi ce au avut aceeaşi boală şi toţi au murit, aşa că... veţi supravieţui!"
(2) Date de tip continuu: Dacă datele statistice sunt realizări ale unei variabile Z de tip continuu,
atunci se obişnuieste să se facă o grupare a datelor de selecţie în clase. Datele de tip continuu pot
fi grupate într-un tablou de distribuţie sau sub forma unui tabel de distribuţie, dupa cum urmeaza:
clasa frecvenţa valoare medie
[a0 , a1 ) f1 z01
[a1 , a2 ) f2 z02
.. .. ..
data [a0 , a1 ) [a1 , a2 ) ... [ar−1 , ar ) . . .
frecventa f1 f2 ... fr [ar−1 , ar ) fr z0r
Aceasta grupare nu este unica; intervalele ce reprezinta clasele pot fi modificate dupa cum doreste
utilizatorul. Uneori, tabelul de distribuţie pentru o caracteristică de tip continuu mai poate fi scris
şi sub forma unui tabel ca in (2.5.2), unde
ai−1 + ai
• z0i = este elementul de mijloc al clasei [ai−1 , ai );
2
r
• fi este frecvenţa apariţiei valorilor din [ai−1 , ai ), (i = 1, 2, . . . , r), ∑ fi = n.
i=1
Pentru definirea claselor unui tabel de frecvenţe, nu există o regulă precisă. Fiecare utilizator
de date îşi poate crea propriul tabel de frecvenţe. Scopul final este ca acest tabel să scoată în
evidenţă caracteristicele datelor, cum ar fi: existenţa unor grupe (clase) naturale, variabilitatea
datelor într-un anumit grup (clasă), informaţii legate de existenţa unor anumite date statistice care
nu au fost observate in selecţia dată etc. În general, aceste caracteristici nu ar putea fi observate
privind direct setul de date negrupate. Totuşi, pentru crearea tabelelor de frecvenţe, se recomandă
următorii paşi:
1. Determinarea numărului de clase (disjuncte). Este recomandat ca numărul claselor să fie
între 5 şi 20. Dacă volumul datelor este mic (e.g., n < 30), se recomandă constituirea a 5
sau 6 clase. De asemenea, dacă este posibil, ar fi util ca fiecare clasă să fie reprezentată de
cel puţin 5 valori (pentru un număr mic de clase). Dacă numărul claselor este mai mare,
putem avea şi mai puţine date într-o clasă, dar nu mai puţin de 3. O clasă cu prea puţine
valori (0, 1 sau 2) poate să nu fie reprezentativă.
2. Determinarea lăţimii claselor. Dacă este posibil, ar fi bine dacă toate clasele ar avea aceeaşi
lăţime. Acest pas depinde, în mare măsuraă, de alegerea din pasul anterior.
3. Determinarea frontierelor claselor. Frontierele claselor sunt construite astfel încât fiecare
dată statistică să aparţine unei singure clase.
20 Capitolul 2. Elemente de Statistică
În practică, un tabel de frecvenţe se realizează prin încercări, până avem convingerea că gruparea
făcută poate surprinde cât mai fidel datele observate.
Aşadar, dacă ne este dată o înşiruire de date ale unei caracteristici discrete sau continue, atunci
le putem grupa imediat în tabele sau tablouri de frecvenţe. Invers (avem tabelul sau tabloul de
repartiţie şi vrem să enumerăm datele) nu este posibil, decât doar în cazul unei caracteristici de tip
discret. De exemplu, dacă ni se dă Tabelul 2.4, ce reprezintă rata somajului într-o anumită regiune
a ţării pe categorii de vârste, nu am putea şti cu exactitate vârsta exactă a persoanelor care au fost
selecţionate pentru studiu.
Observăm că acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi
valoare de mijloc pentru o clasă, valoarea obţinută prin media valorilor extreme ale clasei. În
cazul Tabelului 2.4, valorile de mijloc sunt scrise în coloana cu vârsta medie. Frecvenţa cumulată
a unei clase este suma frecvenţelor tuturor claselor cu valori mai mici.
2.6.4 Histograme
Cuvântul "histogramă" a fost introdus pentru prima oară de Karl Pearson2 în 1895. Acesta derivă
din cuvintele greceşti histos (gr., ridicat în sus) şi gramma (gr., desen, înregistrare). O histogramă
este o formă pictorială a unui tabel de frecvenţe, foarte utilă pentru selecţii mari de date de tip
continuu. Se aseamănă cu reprezentarea prin bare, cu următoarele două diferenţe: nu există spaţii
între bare (deşi, pot apărea bare de înalţime zero ce arată a fi spaţiu liber) şi ariile barelor sunt
proporţionale cu frecvenţele corespunzătoare. Numărul de dreptunghiuri este egal cu numărul
de clase, lăţimea dreptunghiului este intervalul clasei, iar înălţimea este aşa încât aria fiecărui
dreptunghi reprezintă frecvenţa. Aria totală a tuturor dreptunghiurilor este egală cu numărul total
de observaţii. Dacă barele unei histograme au toate aceeaşi lăţime, atunci înălţimile lor sunt
proporţionale cu frecvenţele. Înălţimile barelor unei histogramei se mai numesc şi densităţi de
frecvenţă.
În cazul în care lăţimile barelor nu sunt toate egale, atunci înălţimile lor satisfac:
frecvenţa
înălţimea = k · , k = factor de proporţionalitate.
lăţimea clasei
Să presupunem că am fi grupat datele din Tabelul 2.5 într-o altă manieră, în care clasele nu sunt
echidistante (vezi Tabelul 2.7). În Tabelul 2.7, datele din ultimele două clase au fost cumulate
într-o singură clasă, de lăţime mai mare decât celelalte, deoarece ultima clasă din Tabelul 2.5
nu avea suficiente date. Histograma ce reprezintă datele din Tabelul 2.7 este cea din Figura 2.8.
Conform cu regula proporţionalităţii ariilor cu frecvenţele, se poate observa că primele patru bare
au înălţimi egale cu frecvenţele corespunzătoare, pe când înălţimea ultimei bare este jumătate din
valoarea frecvenţei corespunzătoare, deoarece lăţimea acesteia este dublul lăţimii celorlalte.
2.6.7 Ogive
1 n
z= ∑ zi,
n i=1
ca fiind media datelor observate. Aceasta medie empirica este un estimator pentru media
teoretica, µ = EZ, daca aceasta exista.
• Momentele
Pentru fiecare k ∈ N∗ , momentele centrate de ordin k se definesc astfel:
1 n
mk = ∑ (zi − z)k .
n i=1
• Dispersia
Aceasta este o măsură a gradului de împrăştiere a datelor în jurul valorii medii. Este un
estimator pentru dispersia populatiei. Pentru o selecţie {z1 , z2 , . . . , zn }, definim dispersia
astfel: !
n n
1 1
s2 = m2 = ∑ (zi − z)2 = [ ∑ z2i − n(z)2 ] .
n − 1 i=1 n − 1 i=1
z−z
ζ= .
s
• Corelaţia (covarianţa)
28 Capitolul 2. Elemente de Statistică
1 n
cove = ∑ (zi − z)(z0i − z0).
n − 1 i=1
(2.7.3)
In cazul în care lucrăm cu mai multe variabile şi pot exista confuzii, vom nota covarianţa
prin cove (Z1 , Z2 ). Daca Z1 si Z2 coincid, sa spunem ca Z1 = Z2 = Z, atunci cove (Z, Z) = s2 .
O relaţie liniară între două variabile este acea relaţie ce poate fi reprezentată cel mai bine
printr-o linie. Corelaţia detectează doar dependenţe liniare între două variabile aleatoare.
Putem avea o corelaţie pozitivă, însemnând că Z1 şi Z2 cresc sau descresc împreună (pentru
cove > 0), sau o corelaţie negativă, însemnând că Z1 şi Z2 se modifică în direcţii opuse
(pentru cove < 0). În cazul în care cove = 0, putem banui ca variabilele nu sunt corelate.
• Coeficientul de corelaţie
cove
r= .
sx sy
In cazul în care lucrăm cu mai multe variabile şi pot exista confuzii, vom nota coeficientul
de corelaţie prin r(Z1 , Z2 ). La fel ca în cazul coeficientulul de corelaţie teoretic, r ia valori
între −1 şi 1. După cum vom vedea mai târziu, pe baza valorii lui r putem testa valoarea
reală aparametrului ρ (coeficientul teoretic de corelaţie, care reprezintă întreaga populaţie).
• Funcţia de repartiţie empirică
Se numeşte funcţie de repartiţie empirică asociată unei variabile aleatoare Z şi unei selecţii
{z1 , z2 , . . . , zn }, funcţia Fn∗ : R −→ [0, 1], definită prin
Când volumul selectiei (n) este suficient de mare, funcţia de repartiţie empirică (Fn∗ (z))
aproximează funcţia de repartiţie teoretică F(z) (vezi Figura 2.13). Insa, pentru a stabili
exact daca ele sunt semnificativ apropiate, este nevoie de un test statistic.
Figura 2.13: Funcţia de repartiţie empirică şi funcţia de repartiţie teoretică pentru distribuţia normală.
defineşte prin
n
µ3
1
n ∑ (zi − z)3
i=1
g1 = =" #3/2 .
s3 n
1
n−1 ∑ (zi − z)2
i=1
Putem spera ca o repartiţie să fie simetrică dacă g1 este foarte apropiat de valoarea 0. Vom
spune că asimetria este pozitivă (sau la dreapta) dacă g1 > 0 şi negativă (sau la stânga) dacă
g1 < 0. Coeficientul empiric de asimetrie g1 va fi utilizat în estimarea coeficientului teoretic
de asimetrie γ1 , care este un parametru al populaţiei.
• Excesul (coeficientul de aplatizare sau boltire) (en., kurtosis) se defineşte prin
n
µ4
1
n ∑ (zi − z)4
i=1
κ= = !2 .
s4 n
1
n ∑ (zi − z)2
i=1
Este o măsură a boltirii distribuţiei (al patrulea moment standardizat). Indicele kurtosis al
distribuţiei normale este egal cu 3. Vom avea o repartiţie mezocurtică pentru κ = 3 (sau
foarte apropiat de această valoare), leptocurtică (boltită) pentru κ > 3 sau platocurtică
pentru κ < 3. Un indice κ > 3 semnifică faptul că, în vecinătatea modului, curba densităţii
de repartiţie are o boltire (ascuţire) mai mare decât clopotul lui Gauss. Pentru κ < 3, în acea
vecinătate curba densităţii de repartiţie este mai plată decât curba lui Gauss. Coeficientul
empiric de aplatizare κ va fi utilizat în estimarea coeficientului teoretic de aplatizare K, care
este un parametru al populaţiei.
• Cuantile
Cuantilele (de ordin r) sunt valori ale unei variabile aleatoare care separă repartiţia ordonată
în r părţi egale. Aceste valori sunt estimari pentru cuantilele teoretice (parametrii). Vom
utiliza notatia cu litera mica pentru cuantilele empirice, pentru a le diferentia de parametrii
corespunzatori.
Pentru r = 2, cuantila ce imparte setul de date in doua clase cu acelasi numar de valori se
numeşte mediană (empirica), notată prin me.
Presupunem că observaţiile sunt ordonate, z1 < z2 < · · · < zn . Pentru această ordine, definim
valoarea mediană:
(
z , dacă n = impar;
me = (n+1)/2
(zn/2 + zn/2+1 )/2 , dacă n = par.
Pentru r = 4, cuantilele se numesc cuartile (sunt în număr de 3). Prima cuartilă, notată q1 ,
se numeşte cuartila inferioară, a doua cuartilă este mediana, iar ultima cuartilă, notată prin
q3 , se numeşte cuartila superioară. Diferenţa q3 − q1 se numeşte distanţa intercuartilică.
Pentru r = 10 se numesc decile (sunt în număr de 9), pentru r = 100 se numesc percentile
(sunt în număr de 99), pentru r = 1000 se numesc permile (sunt în număr de 999). Sunt
măsuri de poziţie, ce măsoară locaţia unei anumite observaţii faţă de restul datelor.
• Modul
Modul (sau valoarea modală) este acea valoare z∗ din setul de date care apare cel mai des
(adica are frecventa cea mai mare). Un set de date poate avea mai multe module. Dacă apar
30 Capitolul 2. Elemente de Statistică
două astfel de valori, atunci vom spune că setul de date este bimodal, pentru trei astfel de
valori avem un set de date trimodal etc. În cazul în care toate valorile au aceeaşi frecvenţă
de apariţie, atunci spunem că nu există mod. De exemplu, setul de date
1 3 5 6 3 2 1 4 4 6 2 5
nu admite valoare modală. Nu există un simbol care să noteze distinctiv modul unui set de
date.
• Valori aberante (en. outliers)
Dupa cum am vazut anterior, teorema lui Cebâşev ne asigura ca probabilitatea ca o data
observata sa devieze de la medie cu mai mult de k deviatii standard este mai mica decat k12 .
Valorile aberante sunt valori statistice observate care sunt îndepărtate de marea majoritate a
celorlalte observaţii. Ele pot apărea din cauza unor măsurători defectuoase sau în urma unor
erori de măsurare. De cele mai multe ori, ele vor fi excluse din analiza statistică. Din punct
de vedere matematic, valorile aberante sunt valorile ce nu aparţin intervalului următor:
unde iqr = q3 − q1 este distanţa intercuartilică. Daca valoarea 1.5 se inlocuieste cu 3, atunci
orice valoare care iese din acest interval se va numi valoare aberanta extrema.
• Sinteza prin cele cinci valori statistice (five number summary)
Reprezintă cinci măsuri statistice empirice caracteristice unui set de date statistice. Acestea
sunt:
valoarea minimă < prima cuartilă (q1 ) < mediana (me) < a treia cuartilă (q3 ) < valoarea maximă
Aceşti cinci indicatori pot fi reprezentaţi grafic într-o diagramă numită box-and-whiskers plot.
Datele din Tabelul 2.4 sunt reprezentate în prima figură de mai jos prin două diagrame box-and-
whiskers. În prima diagramă (numerotată cu 1) am folosit datele negrupate; în a doua diagramă
am folosit reprezentarea datelor din acelaşi tabel prin centrele claselor. Reprezentările sunt cele
clasice, cu dreptunghiuri. Valorile aberante sunt reprezentate prin puncte în diagrama box-and-
whisker plot.
măresc media şi o fac mai puţin reprezentativă pentru celelalte date.
1 r
z̄ f = ∑ zi fi , media (empirică) de selecţie, (sau, media ponderată)
n i=1
!
r r
1 1
s2 = ∑ fi(zi − z f )2 = n − 1 ∑ z2i fi − n z2f , dispersia empirică,
n − 1 i=1 i=1
√
s = s2 , deviaţia empirică standard.
Mediana pentru un set de date grupate este acea valoare ce separă toate datele în două părţi egale.
Se determină mai întâi clasa ce conţine mediana (numită clasă mediană), apoi presupunem că în
interiorul fiecărei clase datele sunt uniform distribuite. O formulă după care se calculează mediana
este: n
− Fme
me = l + 2 c,
fme
unde: l este limita inferioară a clasei mediane, n este volumul selecţiei, Fme este suma frecvenţelor
până la (exclusiv) clasa mediană, fme este frecvenţa clasei mediane şi c este lăţimea clasei.
Similar, formulele pentru cuartile sunt:
n 3n
4− Fq1 4 − Fq3
q1 = l1 + c şi q3 = l3 + ,
fq1 f q3
unde l1 si l3 sunt valorile inferioare ale intervalelor in care se gasesc cuartilele respective, iar Fq
este suma frecvenţelor până la (exclusiv) clasa ce contine cuartila, fq este frecvenţa clasei unde se
gaseste cuartila.
2.7 Măsuri descriptive ale datelor statistice (indicatori statistici) 33
Pentru a afla modul unui set de date grupate, determinăm mai întâi clasa ce conţine această valoare
(clasă modală), iar modul va fi calculat după formula:
d1
mod = l + c,
d1 + d2
unde d1 şi d2 sunt frecvenţa clasei modale minus frecvenţa clasei anterioare şi, respectiv, frecvenţa
clasei modale minus frecvenţa clasei posterioare, l este limita inferioară a clasei modale şi c este
lăţimea clasei modale.
Exerciţiu 2.2 Datele din Tabelul 2.12 reprezinta inaltimile (in cm) pentru o selectie de 70 de
plante dintr-o anumita regiune.
(a) Reprezentati datele printr-o histograma.
(b) Folosind formulele pentru indicatori statistici pentru date grupate, determinaţi amplitudinea,
media, mediana, modul, dispersia si distanta intercuartilică.
(b) Desenaţi diagrama box-and-whiskers şi comentaţi-o. Exista valori aberante?
Soluţie: Amplitudinea este A = 30. Folosind centrele claselor, media este
1
z = (1.52 × 5 + 4.52 × 9 + 7.52 × 8 + 10.52 × 14 + 13.52 × 15 +
100
+16.52 × 19 + 19.52 × 15 + 22.52 × 8 + 25.52 × 4 + 28.52 × 3) = 14.31.
Dispersia este:
1
s2 = ( (z2 · f ) − n · z2 )
n−1 ∑
1
= (1.52 × 5 + 4.52 × 9 + 7.52 × 8 + 10.52 × 14 + 13.52 × 15 + 16.52 × 19 +
69
+19.52 × 15 + 22.52 × 8 + 25.52 × 4 + 28.52 × 3 − 70 · 14.312 )
= 44.5191.
unde C > 0 este o constanta ce poate fi determinata astfel incat datele transformate sa aiba
un skewness cat mai aproape de 0. Aceasta constanta va fi aleasa astfel incat functia ce face
transformarea este definita.
De exemplu, presupunem ca datele observate sunt z1 , z2 , . . . , zn si acestea nu sunt toate pozitive,
cu un coeficient de asimetrie (skewness) γ1 = 1.3495. Ne uitam la valoarea minima a datelor;
aceasta este zmin = −0.8464. Pentru a obtine un set de valori pozitive, vom adauga valoarea
1 la toate datele observate. Apoi, logaritmam valorile obtinute. Cele doua procedee cumulate
sunt echivalente cu folosirea directa a formulei ln(1 + zi ) (adunand valoarea 1, am facut toate
argumentele logaritmului pozitive). Obtinem astfel un nou set de date, si anume y1 , y2 , . . . , yn ,
unde yi = ln(1 + zi ). Un exemplu este cel din Figura 2.19. Se observa ca datele logaritmate sunt
aproape normale. O analiza statistica poate fi condusa pentru datele yi , urmand ca, eventual, la
final sa aplicam transformarea inversa zi = eyi − 1 pentru a transforma rezultatele pentru datele
initiale.
Dupa transformarea datelor si analiza datelor transformate (de exemplu, prezicerea valorilor
in punctele neselectate), de multe ori este necesara transformarea inversa a datelor, pentru a
determina proprietatile datelor originale. De aceea, ar fi potrivit de a exprima indicatorii statistici
atat pentru datele transformate, cat si pentru datele originale. Un exemplu este cel din Tabelul
2.15.
36 Capitolul 2. Elemente de Statistică
Tabela 2.15: Indicatori pentru datele originale si pentru datele transformate 2.12
2.8 Transformari de date 37
3. Noţiuni teoretice de Statistică
aparitiei unui numar impar si B =evenimentul aparitiei unui numar prim sunt compatibile.
• Spunem ca A si B sunt evenimente echiprobabile daca ele au aceeasi sansa de realizare.
Spre exemplu, la aruncarea unei monede ideale, orice fata are aceeasi şansă de aparitie.
3.2 Probabilitate
Pentru a putea cuantifica şansele de realizare a unui eveniment aleator, s-a introdus noţiunea
de probabilitate. Presupunem că pentru un anume experiment, am construit spaţiul de selecţie
Ω. Atunci, fiecărui eveniment A în putem asocia un număr P(A), numit probabilitatea realizării
evenimentului A (sau, simplu, probabilitatea lui A), fiind o măsură precisă a şanselor ca A
să se realizeze. Probabilitatea este o valoare cuprinsa intotdeauna intre 0 si 1, cu P(∅) = 0
(probabilitatea ca evenimentul imposibil sa se realizeze este 0) si P(Ω) = 1 (probabilitatea ca
evenimentul sigur sa se realizeze este 1).
T S
Daca evenimentele A si B nu se pot realiza simultan (i.e., A B = ∅), atunci P(A B) = P(A) +
P(B). Daca A si B se pot realiza simultan, atunci P(A B) = P(A) + P(B) − P(A B).
S T
În literatura de specialitate, probabilitatea este definită în mai multe moduri: cu definiţia clasică
(apare pentru prima oară în lucrările lui P. S. Laplace1 ), folosind o abordare statistică (cu frecvenţe
relative), probabilitatea definită geometric, probabilitatea bayesiană (introdusă de Thomas Bayes2 )
sau utilizând definiţia axiomatică (Kolmogorov). Aici vom prezenta doar primele trei moduri.
(I) Probabilitatea clasică este definită doar pentru cazul în care experienţa aleatoare are un
număr finit de cazuri posibile şi echiprobabile (toate au aceeaşi şansă de a se realiza). În acest caz,
probabilitatea de realizare a unui eveniment A este
numarul cazurilor favorabile realizarii evenimentului
P(A) = .
numarul cazurilor egal posibile
1 Pierre-Simon, marquis de Laplace (1749 − 1827), matematician şi astronom francez
2 Thomas Bayes (1701 − 1761), statistician şi filosof englez
3.2 Probabilitate 41
De exemplu, dorim să determinăm probabilitatea obţinerii unei duble la o singură aruncare
a unei perechi de zaruri ideale. Mulţimea cazurilor posibile este mulţimea tuturor perechilor
{(i, j); i, j = 1, 6}, care are 36 de elemente. Mulţimea cazurilor favorabile este formată din adică
6 elemente, şi anume: {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}. Probabilitatea apariţiei unei
6
duble este P = 36 = 16 .
Sunt însă foarte multe cazuri în care definiţia clasică nu mai poate fi utilizată. Spre exemplu, în
cazul în care se cere probabilitatea ca, alegând la întâmplare un punct din pătratul [0, 1] × [0, 1],
acesta să se situeze deasupra primei bisectoare. În acest caz, atât numărul cazurilor posibile, cât şi
numărul cazurilor favorabile este infinit, făcând definiţia clasică a probabilităţii inutilizabilă.
adica limită şirului frecvenţelor relative de producere a respectivului eveniment când numărul de
probe tinde la infinit.
(III) Probabilitate definită geometric Să presupunem că am dispune de un procedeu prin care
putem alege la întâmplare un punct dintr-un interval [a, b]. În plus, vom presupune că acest
procedeu ne asigură că nu există porţiuni privilegiate ale intervalului [a, b], i.e., oricare ar fi două
subintervale de aceeaşi lungime, este la fel de probabil ca punctul să cadă în oricare dintre aceste
intervale. Dacă am folosi de mai multe ori procedeul pentru a alege un număr mare de puncte,
acestea vor fi repartizate aproximativ uniform în [a, b], i.e., nu vor există puncte în vecinătatea
cărora punctul ales să cadă mai des, ori de câte ori este ales. De aici reiese că probabilitatea ca un
punct să cadă într-un subinterval al lui [a, b] este dependentă de lungimea acelui subinterval şi
nu de poziţia sa în interiorul lui [a, b]. Mai mult, aceasta este chiar proporţională cu lungimea
subintervalului. Se poate observa analogia cu experienţa alegerii dintr-un număr de cazuri egal
posibile.
Dacă [a, b] e mulţimea cazurilor egal posibile şi [c, d] ⊂ [a, b] este mulţimea cazurilor favorabile,
atunci probabilitatea ca punctul ales să cadă în [c, d] este
lungimea ([c, d]) d − c
P(A) = = .
lungimea ([a, b]) b − a
În particular, dacă z ∈ (c, d), atunci probabilitatea ca punctul ales aleator dintr-un interval să
42 Capitolul 3. Noţiuni teoretice de Statistică
coincidă cu un punct dinainte stabilit este zero şi, astfel, întrezărim posibilitatea teoretică ca un
eveniment să aibă probabilitatea nulă, fară ca el să fie evenimentul imposibil ∅.
Exemplu 3.1 Să presupunem că experimentul aleator constă în alegerea la întâmplare a unui
număr real din intervalul (0, 1), aşa încât fiecare punct din acest interval are aceeaşi şansă de a
fi ales. Dacă notăm cu Z v.a. care reprezintă numărul ales, atunci Z va urma repartiţia uniform
continuă U (0, 1). Notăm cu A evenimentul ca Z să nu ia valoarea 0.5. Matematic, scriem
evenimentul astfel:
A = {ω ∈ Ω; Z(ω) 6= 0.5} sau, prescurtat, {Z 6= 0.5}.
Atunci, P(A) = 1, dar A nu este evenimentul sigur, ci doar un eveniment aproape sigur. Practic,
este posibil ca, din mai multe probe independente ale experimentului, să obţinem valoarea 0.5.
În mod cu totul analog, dacă se alege la întâmplare şi în mod uniform un punct dintr-o regiune
planara R, astfel ca să nu existe puncte sau porţiuni privilegiate în aceasta regiune, atunci
R0
probabilitatea ca punctul să cadă în subregiunea R 0 ⊂ R este aria aria R .
În trei dimensiuni, o probabilitate similară este raportul a două volume: volumul mulţimii cazurilor
favorabile realizarii experimentului şi volumul mulţimii cazurilor egal posibile.
Exemplu 3.2 Un exemplu simplu de variabila aleatoare este următorul. Considerăm experimentul
aleator al aruncării unei monede. Acest experiment poate avea doar două rezultate posibile, notate
S (stema) şi B (banul). Aşadar, spaţiul selecţiilor este Ω = {S, B}. Acestui experiment aleator
îi putem ataşa variabila aleatoare reală Z, care asociază feţei S valoarea 1 şi feţei B valoarea 0.
Matematic, scriem astfel: Z : Ω → R, Z(S) = 1, Z(B) = 0. Astfel, valorile 1 şi 0 pentru Z vor
indica faţa apărută la aruncarea monedei. O astfel de variabilă aleatoare se numeşte variabilă
aleatoare Bernoulli şi poate fi ataşată oricărui eveniment aleator ce are doar două rezultate posibile,
numite generic succes şi eşec.
Variabilele aleatoare (prescurtat v.a.) pot fi discrete sau continue. Variabilele aleatoare discrete
sunt cele care pot lua o mulţime finită sau cel mult numărabilă (adica, o multime care poate fi
numarata) de valori. O variabilă aleatoare se numeşte variabilă aleatoare continuă (sau de tip
continuu) dacă mulţimea tuturor valorilor sale este totalitatea numerelor dintr-un interval real
3.3 Variabile aleatoare 43
(posibil infinit) sau toate numerele dintr-o reuniune disjunctă de astfel de intervale, cu precizarea
că pentru orice posibilă valoare c, P(Z = c) = 0.
Exemple de v.a. discrete: numărul feţei apărute la aruncarea unui zar, numărul de apariţii ale unui
tramvai într-o staţie într-un anumit interval, numărul de insuccese apărute până la primul succes
etc. Din clasa v.a. de tip continuu amintim: timpul de aşteptare la un ghişeu până la servire, preţul
unui activ financiar într-o perioadă bine determinată.
Pentru a specifica o v.a. discretă, va trebui să enumerăm toate valorile posibile pe care aceasta le
poate lua, împreună cu probabilităţile corespunzatoare. Suma tuturor acestor probabilităţi va fi
întotdeauna egală cu 1, care este probabilitatea realizarii evenimentului sigur. Când se face referire
la repartiţia unei v.a. discrete, se înţelege modul în care probabilitatea totală 1 este distribuită
între toate posibilele valori ale variabilei aleatoare. Pentru o scriere compactă, adeseori unei v.a.
discrete i se atribuie următoarea reprezentare schematica:
tabelul de repartiţie
Z z1 z2 z3 ... zn
(3.3.1)
pk p1 p2 p3 ... zn
unde pk este probabilitatea cu care variabila Z ia valoarea zk (matematic, scriem pk = P(Z = zk ))
şi suma tuturor probabilităţilor corespunzătoare variabilei discrete este egală cu 1 (scriem ca
n
∑ pi = 1).
i=1
Exemplu 3.3
Presupunem că Z este v.a. ce reprezintă tabelul de repartiţie
numărul de puncte ce apare la aruncarea
unui zar ideal. Această variabila o putem Z 1 2 3 4 5 6
reprezenta schematic ca in tabelul alaturat. pk 1/6 1/6 1/6 1/6 1/6 1/6
Dacă Z este o v.a. discretă de forma (3.3.1), atunci definim funcţia de probabilitate (de frecvenţă)
(en., probability mass function) ataşată variabilei aleatoare discrete Z ca fiind o funcţie ce ata-
seaza fiecarei realizari ale unei variabile probabilitatea cu care aceasta realizare este observata.
Matematic, scriem ca
f (zi ) = pi , i ∈ {1, 2, . . . , n}.
În cuvinte, pentru fiecare posibilă valoare a unei v.a. discrete, funcţia de probabilitate ataşează
probabilitatea cu care Z ia această valoare. Funcţia de probabilitate este pentru o v.a. discreta ceea
ce o densitate de repartiţie este pentru o variabilă aleatoare continuă.
Dupa cum am mentionat anterior, o variabila aleatoare continua poate lua orice valoare intr-un
interval a chiar din R. Deoarece in aceste multimi exista o infinitate de valori, nu mai putem
defini o variabila aleatoare continua la fel ca in cazul discret, precizandu-i fiecare valoare pe care
o ia si ponderea corespunzatoare. In schimb, pentru o variabila aleatoare continua, putem preciza
multimea in care aceasta ia valori si o functie care sa descrie repartizarea acestor valori. O astfel
de functie se numeste functie de densitate a repartitiei, sau simplu, densitate de repartiţie (en.,
probability density function).
Exemplu 3.4 Vom spune că o variabila aleatoare Z are o repartitie (sau distributie) normala de
medie µ şi deviatie standard σ (notam aceasta prin Z ∼ N (µ, σ )) dacă Z poate lua orice valoare
reala si are densitatea de repartitie data de:
1 (x−µ)2
−
f (x; µ, σ ) = √ e 2σ 2 , pentro orice x ∈ R.
σ 2π
44 Capitolul 3. Noţiuni teoretice de Statistică
Aceasta repartitie se mai numeşte şi repartiţia gaussiană sau distribuţia gaussiană.
Funcţia de probabilitate sau densitatea de repartiţie poate depinde de unul sau mai mulţi parametri
reali. Spre exemplu, repartitia normala are doi parametri, µ si σ .
adică suma tuturor probabilităţilor corespunzătoare valorilor lui Z care nu-l depăşesc pe z.
Dacă Z este o variabilă aleatoare continuă şi f este densitatea sa de repartiţie, atunci funcţia de
repartiţie este dată de formula:
Zz
F(z) = f (t) dt, z ∈ R. (3.3.3)
−∞
Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) se defineste prin
n
E(U(Z)) = ∑ U(zi )pi .
i=1
3.3 Variabile aleatoare 45
• Dacă Z este o v.a. de tip continuu, cu densitatea de repartiţie f (z), atunci media (teoretică)
acestei v.a., dacă există (!), se defineşte astfel:
Z ∞
µ= z f (z)dz. (3.3.5)
−∞
Daca U(z) este o functie, atunci media pentru variabila aleatoare U(Z) (dacă există!) se
defineste prin Z ∞
E(U(Z)) = U(z) f (z)dz.
−∞
Notaţii: În cazul în care poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai
multe variabile în acelaşi timp), vom folosi notaţia µZ . Pentru media teoretică a unei variabile
aleatoare se mai folosesc şi notaţiile: m, M(Z) sau E(Z).
Dispersia (sau varianţa) (en., variance) şi abaterea standard (en., standard deviation)
Consideram Z o variabilă aleatoare care admite medie finita µ. Dorim sa stim in ce masura
valorile aceste variabile sunt imprastiate in jurul valorii medii. Variabila aleatoare Z0 = Z − µ
(numită abaterea lui Z de la media sa), atunci E(Z0 ) = 0. Aşadar, nu putem măsură gradul de
împrăştiere a valorilor lui Z în jurul mediei sale doar calculând Z − µ. Avem nevoie de o altă
măsură. Aceasta este dispersia variabilei aleatoare, notată prin σZ2 sau Var(Z). În cazul în care
poate fi pericol de confuzie (spre exemplu, atunci când lucrăm cu mai multe variabile în acelaşi
timp), vom folosi notaţia σZ2 .
n Z ∞
σ2 = ∑ (zi − µ)2 pi σ2 = (z − µ)2 f (z) dz
i=1 −∞
(in cazul unei v.a. discrete). (in cazul unei v.a. continue).
În conformitate cu teorema lui Cebâşev3 , pentru orice variabila aleatoare Z ce admite medie si
orice a > 0, are loc inegalitatea:
1
P({|Z − µ| ≥ kσ }) ≤ 2 . (3.3.6)
k
În cuvinte, probabilitatea ca valorile variabilei Z sa devieze de la medie cu mai mult de k deviatii
standard este mai mica decat k12 . În cazul particular k = 3, obţinem regula celor 3σ :
1
P({|Z − µ| ≥ 3σ }) ≤ ≈ 0.1.
9
3 Pafnuty Lvovich Chebyshev (1821 − 1894), matematician rus
46 Capitolul 3. Noţiuni teoretice de Statistică
sau
8
P({µ − 3σ < Z < µ + 3σ }) ≥ , (3.3.7)
9
semnificând că o mare parte din valorile posibile pentru Z se află în intervalul [µ − 3σ , µ + 3σ ].
Coeficientul de variaţie
σ σ
Este definit prin CV = sau, sub forma de procente, CV = 100 %. Este util in compararea
µ µ
variatiilor a doua sau mai multe seturi de date ce tin de aceeasi variabila. Daca variatiile sunt
egale, atunci vom spune ca setul de observatii ce are media mai mica este mai variabil decat cel
cu media mai mare.
Momente centrate
Pentru o v.a. Z (discretă sau continuă), ce admite medie, momentele centrate sunt valorile aşteptate
ale puterilor lui Z − µ. Definim astfel µk (Z) = E((Z − µ)k ). In particular,
Z ∞
n
µk (Z) = (x − µ)k f (x) dx;
µk (Z) = ∑ (zi − µ)k pi; −∞
i=1 (in cazul unei v.a. continue).
(in cazul unei v.a. discrete).
Momente speciale:
Cuantile
Fie o v.a. Z ce are funcţia de repartiţie F(z). Pentru un α ∈ (0, 1), definim cuantila de ordin α
acea valoare reala zα ∈ R pentru care
F(zα ) = P(Z ≤ zα ) = α. (3.3.8)
Este valoarea cea mai probabila pe care o lua variabila aleatoare Z. Cu alte cuvinte, este acea
valoare x∗ pentru care f (x∗ ) (densitatea de repartiţie sau funcţia de probabilitate) este maximă. O
repartiţie poate să nu aibă niciun mod, sau poate avea mai multe module.
Conceptul de corelaţie (sau covarianţă) este legat de modul în care două variabile aleatoare tind
să se modifice una faţă de cealaltă; ele se pot modifica fie în aceeaşi direcţie (caz în care vom
48 Capitolul 3. Noţiuni teoretice de Statistică
spune că Z1 şi Z2 sunt direct <sau pozitiv> corelate) sau în direcţii opuse (Z1 şi Z2 sunt invers <sau
negativ> corelate).
Consideram variabilele Z1 , Z2 ce admit mediile, respectiv, µ1 , µ2 .
Definim corelaţia (sau covarianţa) variabilelor Z1 şi Z2 , notată prin cov(Z1 , Z2 ), cantitatea
3.3.3 Independenţa
Conceptul de independenţă a variabilelor aleatoare sau a evenimentelor este foarte important din
punctul de vedere al calculului statistic, atunci cand avem de calculat probabilităţile evenimentelor
compuse din evenimente mai simple.
3.3 Variabile aleatoare 49
Deoarece în relaţia (3.3.10) nu mai este nevoie de condiţie suplimentara pentru P(B), este
preferabil să definim independenţă a două evenimente arbitrare astfel:
Două evenimente A si B se numesc independente dacă relaţia (3.3.10) are loc. Altfel, ele sunt
dependente, in sensul ca realizarea uneia depinde de realizarea/nerealizarea celeilalte.
In general, o multime de evenimente se numesc independente daca oricum am alege evenimente
din aceasta multime, probabilitatea ca acestea sa se realizeze simultan este egala cu produsul
probabilitatilor fiecarui eveniment in parte.
Doua variabile aleatoare Z1 si Z2 sunt independente daca realizarile lor sunt evenimente indepen-
dente intre ele. De asemenea, vom spune ca o multime variabile aleatoare sunt independente daca
realizarile oricarei submultimi dintre ele sunt evenimente independente intre ele.
Exemplu: Să considerăm aruncarea unui zar. Aruncăm zarul de două ori şi notăm cu Z1 , respectiv,
Z2 , v.a. ce reprezintă numărul de puncte apărute la fiecare aruncare. Evident, valorile acestor v.a.
sunt din mulţimea {1, 2, 3, 4, 5, 6}. Aceste doua variabile aleatoare sunt independente, deoarece
aparitia unei fete la aruncarea primului zar este independenta de aparitia oricarei fete la aruncarea
celui de-al doilea.
O consecinta importanta a independentei variabilelor este faptul ca media produsului a doua
sau mai multe variable independente este egala cu produsul mediilor celor doua variabile. De
asemenea, daca variabilele sunt independente, dispersia sumei variabilelor este egala cu suma
dispersiilor fiecarei variabile in parte. Aceste proprietati nu au loc in cazul in care ipoteza de
independenta nu este verificata.
De remarcat faptul ca independenta a doua variabile implica faptul ca ele sunt necorelate, adica
cov(Z1 , Z2 ) = 0 si, implicit, ρZ1 , Z2 = 0. Propozitia reciproca nu este adevarata. Aceasta inseamna
ca exista variabile care sunt necorelate dar nu sunt independente.
Este important de notat faptul ca in Geostatistica datele spatiale sunt necorelate, deci nu pot fi
independente. Observatiile facute in locatii apropiate tind sa aiba valori apropiate.
În acest caz spunem că Z urmează repartiţia normală standard, N (0, 1).
Graficul densităţii de repartiţie pentru repartiţia normală este clopotul lui Gauss (vezi Figura
3.3). Din grafic (pentru σ = 1), se observă că majoritatea valorilor nenule ale repartiţiei
normale standard se află în intervalul (µ − 3σ , µ + 3σ ) = (−3, 3). Această afirmaţie rezulta
din relaţia (3.3.7).
z−µ
F(z) = Θ , z ∈ R. (3.3.13)
σ
Repartiţia log-normală este foarte utilă în practica atunci cand observatiile nu sunt normale.
In acest caz, este posibil ca logaritmul acestor observatii sa urmeze o repartitie normala.
In general, daca datele observate sunt asimetrice (coeficientul skewness este mare), atunci
este necesara o logaritmare a datelor. Majoritatea mineralelor sau elementelor chimice au
repartitii lognormale. Vom spune ca variabila Z urmeaza o repartitie log-normala, scriem
Z ∼ logN (µ, σ ), daca variabila ln Z urmeaza o repartitie normala, adica ln Z ∼ N (µ, σ ).
52 Capitolul 3. Noţiuni teoretice de Statistică
(ln z − µ)2
−
f (z) = 1
√ e 2σ 2 , dacă z > 0;
zσ 2π
, dacă z ≤ 0.
0
2 /2 2 2
µZ = eµ+σ , σZ2 = e2µ+σ (eσ − 1).
• Repartiµia χ 2 , χ 2 (n)
Repartitia χ 2 (n) (cu n grade de liberate) apare in urma insumarii unui numar de n variabile
normale standard independente. Vom spune ca o variabila Z urmeaza repartitia χ 2 (n)
(scriem ca Z ∼ χ 2 (n) si se citeşte repartiţia hi-pătrat cu n grade de libertate) dacă densitatea
sa de repartiţie este:
1 n z
z 2 −1 e− 2 , dacă z > 0,
n
f (z; n) = Γ( 2n )2 2
, dacă z ≤ 0.
0
unde Γ este funcţia lui Euler. Graficul acestei repartiţii (pentru diverse valori ale lui n) este
reprezentat în Figura 3.4.
(a) Media şi dispersia unei repartitii χ 2 (n) sunt:
E(χ 2 ) = n, D2 (χ 2 ) = 2n.
(c) În particular, dacă variabila Z este normala standard, atunci patratul acesteia este o
variabila χ 2 (1). Matematic, scriem astfel:
Spunem că Z ∼ t(n) (cu n grade de libertate) dacă densitatea de repartiţie este:
n+1
Γ − n+1
z2
2
2
f (z; n) = √ n 1 + , z ∈ R.
nπ Γ n
2
n
Media şi dispersia unei repartitii t(n) sunt: µZ = 0, σZ2 = .
n−2
• Repartiµia Fisher5 , F (m, n)
Spunem că Z ∼ F (m, n) (cu m, n grade de libertate) dacă densitatea de repartiţie este:
m
m 2 m+n
Γ
m 2n z 2 −1 1 + mn z − 2
n
m m+n
f (z) = , z > 0;
Γ Γ
2 2
, z ≤ 0.
0
n 2n2 (n + m − 2)
Media şi dispersia unei repartitii F (m, n) sunt: µZ = , σZ2 = .
n−2 m(n − 2)2 (n − 4)
4 William Sealy Gosset (1876 − 1937), statistician britanic, care a publicat sub pseudonimul Student
5 Sir Ronald Aylmer Fisher (1890 − 1962), statistician, eugenist, biolog şi genetician britanic
4. Estimatori
Presupunem ca Z este variabila de interes a unei colectivitati statistice si ca, in urma unor
masuratori, am obtinut rezultatele z1 , z2 , . . . , zn . Deoarece in urma acestor masuratori pot aparea
erori, in Statistica se considera ca aceste date sunt realizarile unor variabile Z1 , Z2 , . . . , Zn . Se
presupune ca aceste variabile sunt independente si au toate aceeasi repartitie (adica sunt toate copii
independente ale aceleasi variabile). Aceste variabile le vom numi variabile aleatoare de selectie.
Pe baza acestor observatii, dorim sa estimam anumiti parametri ai colectivitatii, de exemplu media
µ sau deviatia standard σ ale lui Z.
O functie f (Z1 , Z2 , . . . , Zn ) ce depinde de variabilele de selectie se va numi generic statistică.
In caz ca nu este pericol de confuzie, valoarea statisticii pentru un esantion, f (z1 , z2 , . . . , zn ), se
numeste tot statistică. Exemple de statistici:
1. Media selectiei:
1 n
Z = ∑ Zi .
n i=1
1 n
O valoare observata pentru Z este z = ∑ zi .
n i=1
(∗ ) Daca variabilele de selectie Zi au media µ si deviatia standard σ , atunci media mediei
selectiei este tot µ si deviatia sa standard este √σn . Scriem asta astfel:
σ
µZ = µ si σZ = √ .
n
(∗∗ ) In cazul in care variabilele Zi sunt normale N (µ, σ ), atunci media selectiei este tot
o variabila normala, Z ∼ N (µ, √σn ).
(∗∗∗ ) Daca numarul variabilelor de selectie este suficient de mare, atunci variabila Z este
normala, fara ca Zi sa fie neaparat normale. Acest fapt este o consecinta a teoremei limita
centrala.
56 Capitolul 4. Estimatori
2. Dispersia selecţiei,
1 n
S2 = ∑ [Zi − Z]2
n − 1 i=1
1 n
O valoare observata pentru S2 este s2 = ∑ [zi − z]2.
n − 1 i=1
√ √
3. Deviatia standard a selecţiei, S = S2 . O valoare observata pentru S este s = s2 .
• Pentru un anumit parametru pot exista mai mulţi estimatori nedeplasati. Dintre acestia, cel
mai bun estimator va fi acela care are varianta minima.
1 nk
s2k = ∑ [zik − zk ]2.
nk − 1 i=1
58 Capitolul 4. Estimatori
1 m s2k
s2z = 2 ∑ .
k j=1 nk
q
O estimatie pentru eroarea standard a lui z este sz = s2z .
6. Presupunem acum ca avem doua variabile de interes, Z si Z 0 . Am vazut anterior ca legatura
dintre aceste variabile poate fi descrisa de covarianta, cov(Z, Z 0 ) = E [(Z − µZ )(Z 0 − µZ 0 )].
Pentru a construi un estimator pentru covarianta este avem nevoie de n perechi de observaţii.
Presupunem ca acestea sunt {(z1 , z01 ), (z2 , z02 ), . . . , (zn , z0n )}. O estimatie pentru cov(Z, Z 0 )
este covarianta (sau corelatia) empirica,
1 n
cove = ∑ (zi − z)(z0i − z0),
n − 1 i=1
unde
1 n 1 n 0
z= ∑ zi si z0 = ∑ zi.
n i=1 n i=1
După cum am văzut anterior, putem determina estimaţii punctuale pentru parametrii unei populatii
însă, o estimaţie punctuală, nu precizează cât de aproape se găseşte estimaţia θ̂ (x1 , x2 , . . . , xn )
faţă de valoarea reală a parametrului θ . De exemplu, dacă dorim să estimăm valoarea medie a
pH din sol, atunci putem găsi un estimator punctual (e.g., media de selecţie) care să ne indice că
aceasta este de 8.1. Ideal ar fi dacă această informaţie ar fi prezentată sub forma: pH mediu din
sol este 8 ± 0.2.
Putem obţine astfel de informaţii dacă vom construi un interval în care, cu o probabilitate destul
de mare, să găsim valoarea reală a lui θ .
Dorim să determinam un interval (aleator) care să acopere cu o probabilitate mare (e.g., 0.95,
0.98, 0.99 etc) valoarea posibilă a parametrului necunoscut.
Pentru un α ∈ (0, 1), foarte apropiat de 0 (de exemplu, α = 0.01, 0.02, 0.05 etc). Numim interval
de încredere (en., confidence interval) pentru parametrul θ cu probabilitatea de încredere 1 − α,
un interval aleator (θ , θ ), astfel încât
se numeşte valoare a intervalului de încredere pentru θ . Pentru simplitate însă, vom folosi
termenul de "interval de încredere" atât pentru intervalul propriu-zis, cât şi pentru valoarea
4.2 Estimarea parametrilor prin intervale de încredere 59
1 n
z= ∑ zi .
n i=1
(1) daca n ≥ 40, atunci un interval de incredere pentru medie la nivelul de semnificatie α este
s s
z − z1− α2 √ , z + z1− α2 √ , (4.2.2)
n n
unde z1− α2 este cuantila de ordin 1 − α2 pentru repartitia N (0, 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05, atunci din Tabelul 10.1 gasim ca z0.975 = 1.96.
(2) pentru observatii normale de volum mic, un interval pentru medie la nivelul de semnificatie
α este
s s
z − t1− α2 ; n−1 √ , z + t1− α2 ; n−1 √ . (4.2.3)
n n
si t1− α2 , n−1 este cuantila de ordin 1 − α2 pentru repartitia t(n − 1). Spre exemplu, daca
nivelul de semnificatie este α = 0.05 si volumul selectiei este n = 35, atunci din Tabelul
10.2 gasim ca t0.975, 34 = 2.032.
60 Capitolul 4. Estimatori
Când volumul n este mare, atunci va fi o diferenţă foarte mică între valorile z1− α2 şi t1− α2 ; n−1 , de
aceea am putea folosi z1− α2 în locul valorii t1− α2 ; n−1 .
Intervalele de încredere de mai sus sunt valide pentru selecţia (repetată sau nerepetată) dintr-o
populaţie infinită, sau pentru selecţii repetate dintr-o populaţie finită. În cazul selecţiilor nerepetate
din colectivităţi finite, în estimarea intervalelor de încredere vom ţine cont şi de volumul N al
populaţiei. Spre exemplu, dacă selecţia de volum n se face dintr-o populaţie finită de volum N şi
n ≥ 0.05N, atunci un inteval de încredere centrat pentru media populaţiei este:
r r !
s N −n s N −n
z − t1− α2 ; n−1 √ , z + t1− α2 ; n−1 √ . (4.2.4)
n N −1 n N −1
q
Factorul N−n N−1 va fi aproximativ egal cu 1 atunci cand N este infinit sau N n, obtinandu-se
astfel intervalul (4.2.3). Formula (4.2.4) nu este practica in Geostatistica, deoarece un camp
aleator are o multime infinita de puncte, asadar selectia de masuratori se face dintr-o populatie de
volum N = ∞.
O alta observatie este faptul ca este posibil ca σ sa fie un parametru cunoscut pentru Z, caz in care
pentru intervalul de incredere pentru medie se foloseste formula (4.2.2) cu σ inlocuindu-l pe s.
Exemplu 4.1 O maşină de îngheţată umple cupe cu îngheţată. Se doreşte ca îngheţată din cupe
să aibă masa de µ = 250g. Desigur, este practic imposibil să umplem fiecare cupă cu exact 250g
de îngheţată. Presupunem că masa conţinutului din cupă este o variabilă aleatoare repartizată
normal. Pentru a verifica dacă maşina este ajustată bine, se aleg la întâmplare 30 de înghetate
şi se cântăreşte conţinutul fiecăreia. Obţinem astfel o selecţie repetată, z1 , z2 , . . . , z30 după cum
urmează:
257 249 251 251 252 251 251 249 248 248 251 253 248 245 251
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253
Se cere să se scrie un interval de încredere pentru µ, cu nivelul de incredere de 0.99.
Soluţie: După cum am văzut mai sus, un interval de încredere pentru µ este (deoarece N este
necunoscut, il presupunem mult mai mare decat n):
s s
x − t1− α2 ; n−1 √ , x + t1− α2 ; n−1 √ .
n n
Aici, nivelul de risc este α = 0.01, cuantila teoretica este t1− α2 ; n−1 = t0.995, 29 = 2.7564, media
valorilor este z = 250.0667 si deviatia standard este s = 2.9704. Astfel, obţinem intervalul de
încredere pentru µ:
(248.572, 251.561).
Intervale de încredere pentru deviaţia standard se obţin prin extragerea rădăcinii pătrate din
capetele de la intervalele de încredere pentru dispersie.
Exemplu 4.2 Găsiţi un interval de încredere (cu α = 0.05) pentru deviaţia standard a conţinutului
de nicotină pentru un anumit tip de ţigări, stiind ca pentru o selecţie de 25 de bucăţi, deviaţia
standard a conţinutului de nicotină este de 1.6mg.
Soluţie: Observam ca s = 1.6mg. Din tabele, găsim ca:
2 2
χ0.975; 24 = 39.3641; χ0.025; 24 = 12.4012.
(σ 2 , σ 2 ) = (1.5608, 4.9544).
Acest interval de încredere este valabil pentru selecţie dintr-o populaţie infinită (sau n N,
de regulă n < 0.05N) sau pentru selecţia cu repetiţie dintr-o populaţie finită. Dacă selecţia se
realizează fără repetiţie dintr-o populaţie finită (cu N astfel înât n ≥ 0.05N), atunci intervalul de
încredere este:
r r r r !
pb(1 − pb) N − n pb(1 − pb) N − n
pb − z1− α2 , pb + z1− α2 . (4.2.7)
n N −1 n N −1
62 Capitolul 4. Estimatori
Exemplu 4.3 Dintr-o selecţie de 200 de elevi ai unei şcoli cu 1276 de elevi, 65% afirmă că deţin
cel puţin un telefon mobil. Să se găsească un interval de încredere pentru procentul de copii din
respectiva şcoală ce deţin cel puţin un telefon mobil, la nivelul de semnificaţie α = 0.05.
Soluţie: Avem: n = 200, N = 1276, p = 0.65. Deoarece n ≥ 0.05N, găsim că un interval de
încredere la nivelul de semnificaţie 0.05 este
r r r r !
0.65 (1 − 0.65) 1276 − 200 0.65 (1 − 0.65) 1276 − 200
0.65 − 1.96 , 0.65 + 1.96
200 1276 − 1 200 1276 − 1
= (58.93%, 71.07%).
Exemplu 4.4 Într-un institut politehnic, s-a determinat că dintr-o selecţie aleatoare de 100 de
studenţi înscrişi, doar 67 au terminat studiile, obţinând o diplomă. Găsiţi un interval de încredere
care, cu o confidenţă de 90%, să determine procentul de studenţi absolvenţi dintre toţi studenţii ce
au fost înscrişi.
67
Soluţie: Mai întâi, observăm că α = 0.1, n > 30, pb = 100 = 0.67, n pb = 67 > 5 şi n(1 − pb) =
33 > 5. Deoarece nu ni se dă vreo informaţie despre N (numărul total de studenţi înscrişi), putem
presupune că n < 0.05N. Cuantila teoretica este z0.95 = 1.6449. Găsim că intervalul de încredere
căutat este:
r r !
0.67 (1 − 0.67) 0.67 (1 − 0.67)
0.67 − 1.6449 , 0.67 + 1.6449 = (57.78%, 76.22%).
100 100
5. Teste statistice
Testarea ipotezelor statistice este o metodă prin care se iau decizii statistice, utilizând datele
experimentale culese. Testele prezentate mai jos au la bază noţiuni din teoria probabilităţilor.
Aceste teste ne permit ca, plecând de la un anumit sau anumite seturi de date culese experimental,
să se putem valida anumite estimări de parametri ai unei repartiţii sau chiar putem prezice forma
legii de repartiţie a caracteristicii considerate.
Presupunem că Z este variabila de interes a unei populaţii statistice şi că legea sa de probabilitate
este dată de depinde de un parametru θ . In general, o repartitie poate depinde de mai multi
parametri, insa aici vom discuta doar cazul unui singur parametru. De asemenea, să presupunem
că (zk )k=1, n sunt datele observate relativ la caracteristica Z.
• Numim ipoteză statistică o presupunere relativă la valorile parametului θ sau chiar referi-
toare la tipul legii caracteristicii.
• O ipoteză neparametrică este o presupunere relativă la repartitia lui Z. De exemplu, o
ipoteză de genul Z ∼ Normală.
• Numim ipoteză parametrică o presupunere făcută asupra valorii parametrilor unei repartiţii.
Dacă mulţimea la care se presupune că aparţine parametrul necunoscut este formată dintr-un
singur element, avem de-a face cu o ipoteză parametrică simplă. Altfel, avem o ipoteză
parametrică compusă.
• O ipoteză nulă este acea ipoteză pe care o intuim a fi cea mai apropiată de realitate şi o
presupunem a priori a fi adevărată. Cu alte cuvinte, ipoteza nulă este ceea ce doreşti să
crezi, în cazul în care nu există suficiente evidenţe care să sugereze contrariul. Un exemplu
de ipoteză nulă este următoarul: "presupus nevinovat, până se găsesc dovezi care să ateste o
vină". O ipoteză alternativă este orice altă ipoteză admisibilă cu care poate fi confruntată
ipoteza nulă.
• A testa o ipoteză statistică (en., statistical inference) înseamnă a lua una dintre deciziile:
− ipoteza nulă se respinge (caz in care ipoteza alternativa este admisa)
− ipoteza nulă se admite (sau, nu sunt motive pentru respingerea ei)
• În Statistică, un rezultat se numeşte semnificativ din punct de vedere statistic dacă este
64 Capitolul 5. Teste statistice
improbabil ca el să se fi realizat datorită şansei. Între două valori există o diferenţă
semnificativă dacă există suficiente dovezi statistice pentru a dovedi diferenţa, şi nu datorită
faptului că diferenţa ar fi mare.
• Numim nivel de semnificaţie probabilitatea de a respinge ipoteza nulă când, de fapt, aceasta
este adevărată. În general, nivelul de semnificaţie este o valoare pozitiva apropiata de 0,
e.g., una dintre valorile: α = 0.01, 0.02, 0.05 etc. Intr-o analiza statistica sau soft statistic,
valoarea implicita pentru α este 0.05.
• În urma unui test statistic pot aparea două tipuri de erori:
1. eroarea de speţa (I) sau riscul furnizorului (en., false positive) − este eroarea care se
poate comite respingând o ipoteză (în realitate) adevărată. Se mai numeşte şi risc de
genul (I). Probabilitatea acestei erori este egala chiar nivelul de semnificaţie α, adică:
2. eroarea de speţa a (II)-a sau riscul beneficiarului (en., false negative) − este eroarea
care se poate comite acceptând o ipoteză (în realitate) falsă. Se mai numeşte şi risc de
genul al (II)-lea. Probabilitatea acestei erori este
Gravitatea comiterii celor două erori depinde de problema studiată. De exemplu, riscul de
genul (I) este mai grav decât riscul de genul al (II)-lea dacă verificăm calitatea unui articol
de îmbracăminte, iar riscul de genul al (II)-lea este mai grav decât riscul de genul (I) dacă
verificăm concentraţia unui medicament.
• Denumim valoare P sau P−valoare sau nivel de semnificaţie observat (en., P-value) proba-
bilitatea de a obţine un rezultat cel puţin la fel de extrem ca cel observat, presupunând că
ipoteza nulă este adevărată. Valoarea P este cea mai mică valoare a nivelului de semnificaţie
α pentru care ipoteza (H0 ) ar fi respinsă, bazându-ne pe observaţiile culese. Dacă Pv ≤ α,
atunci respingem ipoteza nulă la nivelul de semnificaţie α, iar dacă Pv > α, atunci admitem
(H0 ). Cu cât Pv este mai mică, cu atât mai mari şanse ca ipoteza nulă să fie respinsă. De
exemplu, dacă valoarea P este Pv = 0.045 atunci, bazându-ne pe observaţiile culese, vom
respinge ipoteza (H0 ) la un nivel de semnificaţie α = 0.05 sau α = 0.1, dar nu o putem
respinge la un nivel de semnificaţie α = 0.02. Dacă ne raportăm la P−valoare, decizia
într-un test statistic poate fi făcută astfel: dacă aceasta valoare este mai mică decât nivelul
de semnificaţie α, atunci ipoteza nulă este respinsă, iar dacă P−value este mai mare decât
α, atunci ipoteza nulă nu poate fi respinsă.
Un exemplu simplu de test este testul de sarcină. Acest test este, de fapt, o procedură statistică ce
ne dă dreptul să decidem dacă există sau nu suficiente evidenţe să concluzionăm că o sarcină este
prezentă. Ipoteza nulă ar fi lipsa sarcinii. Majoritatea oamenilor în acest caz vor cădea de acord
cum că un false negative este mai grav decât un false positive.
Să presupunem că suntem într-o sală de judecată şi că judecătorul trebuie să decidă dacă un
inculpat este sau nu vinovat. Are astfel de testat următoarele ipoteze:
(
(H0 ) inculpatul este nevinovat;
(H1 ) inculpatul este vinovat.
[2] inculpatul este vinovat (H0 este falsă şi H1 este adevărată)
Deciziile posibile (asupra cărora avem control − putem lua o decizie corectă sau una falsă) sunt:
[i] H0 se respinge (dovezi suficiente pentru a încrimina inculpatul);
[ii] H0 nu se respinge (dovezi insuficiente pentru a încrimina inculpatul);
În realitate, avem următoarele posibilităţi, sumarizate în Tabelul 5.1:
Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 [1]&[i] [2]&[i]
Acceptă H0 [1]&[ii] [2]&[ii]
Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 închide o persoana nevinovată închide o persoana vinovată
Accepta H0 eliberează o persoana nevinovată eliberează o persoana vinovată
Situaţie reală
Decizii H0 - adevărată H0 - falsă
Respinge H0 α judecată corectă
Accepta H0 judecată corectă β
• Calculam statistica ce masoara discrepanta dintre valoarea medie observata si valoarea medie pe
care o testam:
z − µ0
T0 = s . (5.1.1)
√
n
• Calculam cuantila de ordin 1 − α2 pentru repartitia t(n − 1), notata aici prin t1− α2 ; n−1 Este un prag
teoretic ce poate fi determinat din tabelele pentru repartitia Student sau calculat cu un soft matematic
(e.g., M ATLAB). Decizia se ia astfel:
– dacă |T0 | < t1− α2 ; n−1 (adica T0 este suficient de mic in valoare absoluta), atunci admitem (H0 ).
– dacă |T0 | ≥ t1− α2 ; n−1 , atunci respingem (H0 ).
Metoda a II-a: O altă modalitate de testare a unei ipoteze statistice parametrice este prin
intermediul P−valorii, Pv . Reamintim, P−valoarea este probabilitatea de a obţine un rezultat cel
puţin la fel de extrem ca cel observat, presupunând că ipoteza nulă este adevărată. Aceasta valoare
este afisata de orice soft statistic folosit in testarea ipotezelor. Utilizând P−valoarea, testarea se
face astfel:
Ipoteza nulă va fi respinsă dacă Pv < α şi va fi admisă dacă Pv ≥ α. Aşadar, cu cât Pv este mai
mic, cu atât mai multe dovezi de respingere a ipotezei nule.
Exemplu 5.1 Pentru a determina media notelor la teza de Matematica a elevilor dintr-un anumit
oras, s-a facut un sondaj aleator de volum n = 90 printre elevii din oras. Notele observate in urma
sondajului sunt grupate in Tabelul 2.2. Dorim să testăm, la nivelul de semnificaţie α = 0.05, dacă
media tuturor notelor la teza de Matematică a elevilor din oras este µ = 6.5.
Soluţie: Aşadar, avem de testat
z = 6.3667, s = 1.8570.
5.1 Tipuri de teste statistice 67
Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata de
un soft statistic, valoarea ei fiind Pv = 0.4975, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.
• Calculam statistica
n−1 2
χ02 = S , (5.1.2)
σ2
• Determinam cuantilele de ordine α/2 si 1 − α/2 pentru repartitia χ 2 (n − 1) (se pot obtine din tabele
χ 2 ). Luarea decizieise face astfel:
pentru repartitia
– dacă χ02 ∈ χ 2α ; n−1 , χ1−
2
α , atunci admitem (H0 ) (i.e., σ 2 = σ02 );
2 2 ; n−1
(H0 ) : σ 2 = 0.003,
χ 2α ; n−1 = 3.9403; 2
χ1− α
; n−1 = 18.3070.
2 2
68 Capitolul 5. Teste statistice
Cum valoarea χ02 = 7.2727 se afla in acest interval, tragem concluzia ca ipoteza nula nu poate fi
respinsa. (o acceptam).
Metoda a II-a: Decizia testului putea fi luată şi pe baza P−valorii. Aceasta poate fi calculata de
un soft statistic, valoarea ei fiind Pv = 0.6995, care este mai mare decat valoarea lui α. Astfel,
ipoteza nula este admisa in acest caz.
(136 − 450 · 0.34)2 (201 − 450 · 0.41)2 (82 − 450 · 0.19)2 (31 − 450 · 0.06)2
χ 20 = + + +
450 · 0.34 450 · 0.41 450 · 0.19 450 · 0.06
(136 − 153.5) 2 (201 − 184.5) 2 (82 − 85)2 (31 − 27)2
= + + +
153.5 184.5 85 27
= 4.1004.
√ ∞
2 x2
lim P( n · dn < x) = K(x) = ∑ (−1)k e−2 k , x > 0. (5.1.3)
n→∞
k=−∞
70 Capitolul 5. Teste statistice
În cazul în care ipotezele testului sunt satisfăcute, acest test este mai puternic decât testul χ 2 .
Avem un set de date statistice independente, pe care le ordonăm crescator, x1 < x2 < · · · < xn .
Aceste observaţii independente provin din aceeaşi populaţie caracterizată de variabila aleatoare
X, pentru care urmărim să îi stabilim repartiţia. Mai întâi, cautăm să stabilim ipoteza nulă. De
exemplu, dacă intuim că funcţia de repartiţie teoretică a lui X ar fi F(x), atunci stabilim:
(H0 ) : funcţia de repartiţie teoretică a variabilei aleatoare X este F(x).
Ipoteza alternativă (H1 ) este, de regulă, ipoteza ce afirmă că (H0 ) nu este adevărată. Alegem un
nivel de semnificaţie α 1.
În criteriul K-S pentru o singură selecţie, se compară funcţia F(x) intuită a priori cu funcţia de
repartiţie empirică, Fn∗ (z). Reamintim,
card{i; xi ≤ x}
Fn∗ (x) = .
n
Studiind funcţia empirică de repartiţie a acestui set de date, Kolmogorov a găsit că distanţa
dn = sup |Fn∗ (x) − F(x)| satisface relaţia (5.1.3)), unde K(λ ), λ > 0, este funcţia lui Kolmogo-
x∈R
rov (tabelată). În testul K-S, măsura dn caracterizează concordanţa dintre F(x) şi Fn∗ (x). Dacă
ipoteza (H0 ) este adevărată, atunci diferenţele dn nu vor depăşi anumite valori.
Pentru α = 0.1 şi n = 8, căutăm în tabelul pentru inversa funcţiei lui Kolmogorov acel x1−α; 8 =
x0.9; 8 astfel încât K(x1−α; 8 ) = 1 − α. Găsim că x0.9; 8 = 0.411.
5.1 Tipuri de teste statistice 71
Pe de altă parte, F(x) = Θ( x−1 √ ), unde Θ(x) este funcţia de repartiţie pentru legea normală
2
N (0, 1). √ √
Ipoteza că X urmează repartiţia normală N (1, 2) este acceptată dacă n dn < x1−α . Calculele
pentru determinarea valorii dn sunt date de Tabelul 5.4. În Figura 5.1, putem observa reprezentările
acestor două funcţii pentru setul de date observate.
xi −∞ −2 −0.5 0 1 2 3 ∞
F(xi ) 0 0.0169 0.1444 0.2398 0.5 0.7602 0.9214 1
Fn∗ (xi − 0) 0 0 0.125 0.25 0.375 0.625 0.875 1
Fn∗ (xi ) 0 0.125 0.25 0.375 0.625 0.875 1 1
|Fn∗ (xi − 0) − F(xi )| 0 0.0169 0.0194 0.0102 0.125 0.1352 0.0464 0
|Fn∗ (xi ) − F(xi )| 0 0.1081 0.1056 0.1352 0.125 0.1148 0.0786 0
Pentru a calcula dn , notăm faptul că cea mai mare diferenţă între F(x) şi Fn∗ (x) poate fi realizată
ori înainte de salturile funcţiei Fn∗ , ori după acestea, i.e.,
(
|F(xi ) − Fn∗ (xi − 0)|, înainte de saltul i;
sup |F(x) − Fn∗ (x)| = max
x∈R i |F(xi ) − Fn∗ (xi + 0)|, după saltul i.
√ √
Din tabel, observăm că dn = 0.1352. Deoarece n · dn = 8 · 0.1352 = 0.3824 < 0.411, conclu-
zionăm că putem accepta ipoteza (H0 ) la pragul de semnificaţie α = 0.1.
Observaţia 5.1 În cazul în care avem de comparat două repartiţii, procedăm astfel. Să presupu-
nem că Fm∗ (z) este funcţia de repartiţie empirică pentru o selecţie de volum m dintr-o populaţie
ce are funcţia teoretică de repartiţie F(z)) şi că G∗n (z) este funcţia de repartiţie empirică pentru o
selecţie de volum n dintr-o populaţie ce are funcţia teoretică de repartiţie G(z). Dorim să testăm
(eventual, în (H1 ) putem considera F > G sau F < G.) Considerăm statistica
ce reprezintă diferenţa maximă între cele două funcţii (vezi Figura 5.2). Etapele testului urmează
îndeaproape pe cele din testul K-S cu o singură selecţie. Decizia se face pe baza criteriului
r
mn
dm,n < qα .
m+n
Testul Kolmogorov-Smirnov pentru două selecţii este unul dintre cele mai utile teste de contin-
genţă pentru compararea a două selecţii. Acest test nu poate specifica natura celor două repartiţii.
Figura 5.1: Fn∗ (x) şi F(x) pentru testul Figura 5.2: Exemplu de funcţiile empirice
Kolmogorov-Smirnov cu o selectie. de repartiţie în testul K-S cu două selecţii.
6. Corelaţie şi regresie
Analiza regresională cuprinde tehnici de modelare şi analiză a relaţiei dintre o variabilă dependentă
(variabila răspuns) şi una sau mai multe variabile independente. De asemenea, răspunde la
întrebări legate de predicţia valorilor viitoare ale variabilei răspuns pornind de la o variabilă dată
sau mai multe. În unele cazuri se poate preciza care dintre variabilele de plecare sunt importante
în prezicerea variabilei răspuns. Se numeşte variabilă independentă o variabilă ce poate fi
manipulată (numită şi variabilă predictor, stimul sau comandată), iar o variabilă dependentă (sau
variabila prezisă) este variabila care dorim să o prezicem, adică o variabilă cărei rezultat depinde
de observaţiile făcute asupra variabilelor independente.
Să luăm exemplul unei cutii negre (black box) (vezi Fi-
gura 6.1). În aceasta cutie intră (sunt înregistrate) infor-
maţiile x1 , x2 , . . . , xm , care sunt prelucrate (în timpul
prelucrării apar anumiţi parametri, β1 , β2 , . . . , βk ), iar
rezultatul final este înregistrat într-o singură variabila
răspuns, y. Figura 6.1: Black box.
De exemplu, se doreşte a se stabili o relaţie între valoarea pensiei (y) în funcţie de numărul de
ani lucraţi (x1 ) şi salariul avut de-alungul carierei (x2 ). Variabilele independente sunt măsurate
exact, fără erori. În timpul prelucrării datelor sau după aceasta pot apăra distorsiuni în sistem,
de care putem ţine cont dacă introducem un parametru ce să cuantifice eroarea ce poate apărea
la observarea variabilei y. Se stabileşte astfel o legătură între o variabilă dependentă, y, şi una
sau mai multe variabile independente, x1 , x2 , . . . , xm , care, în cele mai multe cazuri, are forma
matematică generală
y = f (x1 , x2 , . . . , xm ; β1 , β2 , . . . , βk ) + ε, (6.1.1)
unde β1 , β2 , . . . , βk sunt parametri reali necunoscuţi a priori (denumiţi parametri de regresie) şi ε
este o perturbaţie aleatoare. În cele mai multe aplicaţii, ε este o eroare de măsură, considerată
modelată printr-o variabilă aleatoare normală de medie zero. Funcţia f se numeşte funcţie de
regresie. Dacă aceasta nu este cunoscută a priori, atunci poate fi greu de determinat iar utilizatorul
analizei regresionale va trebui să o intuiască sau să o aproximeze utilizând metode de tip trial and
error (prin încercări). Dacă avem doar o variabila independentă (un singur x), atunci spunem că
avem o regresie simplă. Regresia multiplă face referire la situaţia în care avem multe variabile
independente.
Dacă observarea variabilei dependente s-ar face fără vreo eroare, atunci relaţia (6.1.1) ar deveni
(cazul ideal):
y = f (x; β ) + ε. (6.1.3)
Pentru a o analiză completă a regresiei (6.1.1), va trebui sa intuim forma funcţiei f şi apoi să
determinăm (aproximăm) valorile parametrilor de regresie. În acest scop, un experimentalist va
face un număr suficient de observaţii (experimente statistice), în urma cărora va aproxima aceste
valori. Dacă notăm cu n numărul de experimente efectuate, atunci le putem contabiliza pe acestea
în următorul sistem stochastic de ecuaţii:
yi = f (x, β ) + εi , i = 1, 2, . . . , n. (6.1.4)
6.1 Punerea problemei 75
În ipoteze uzuale, erorile εi sunt variabile aleatoare identic repartizate normal, independente de
medie µ = 0 si deviatie standard σ > 0. Astfel, sistemul (6.1.4) cu n ecuaţii are necunoscutele
{β j } j şi σ .
În cazul în care numărul de experimente este mai mic decât numărul parametrilor ce trebuie
aproximaţi (n < k), atunci nu avem suficiente informaţii pentru a determina aproximările. Dacă
n = k, atunci problema se reduce la a rezolva n ecuaţii cu n necunoscute. În cel de-al treilea caz
posibil, n > k, atunci avem un sistem cu valori nedeterminate.
Exemple de regresii:
f (x; β ) = β0 + β1 x.
f (x; β ) = β0 + β1 x1 + β2 x2 + · · · + βm xm .
f (x; β ) = β0 + β1 x + β2 x2 + β3 x3 + · · · + βk xk .
Dupa cum am mentionat anterior, in Geostatistica, datele observate sunt legate de pozitie. Spunem
astfel ca au un caracter spatial. Pozitia spatiala poate fi unu, doi sau trei-dimensionala. Vom
considera aici doar date bi-dimensionale. Vom nota generic cu x = (ζ1 , ζ2 ) vectorul de coordonate
bidimensionale. tre aceste metode, distingem metodele deterministe si cele geostatistice (sau
stochastice). In cazul metodelor deterministe nu se tine cont de erorile cu care pot fi colectate
masuratorile si de corelatiile dintre valorile masurate. In cazul metodelor stochastice, tinem cont
de erorile masuratorilor si de corelatiile dintre date.
n
z(x0 ) = ∑ λi z(xi ),
b (7.1.1)
i=1
1. Metoda diagramei Voronoi (sau Thiessen, sau Dirichlet): Pentru un camp aleator R, vom
numi o diagrama Voronoi indusa de un set de locatii x1 , x2 , . . . , xn (numite si situri) o
diviziune a lui R in subregiuni, astfel incat pentru fiecare locatie, regiunea care o contine
este formata din punctele cele mai apropiate locatiei. Pentru fiecare punct xi , sa notam cu Vi
regiunea ce o contine. Se considera ca zi este valoarea variabilei Z pentru fiecare locatie din
regiunea Vi .
78 Capitolul 7. Metode de interpolare spaţială
In cazul unei diagrame Voronoi, se pot considera ponde-
rile λi ca fiind
(
1 , daca xi ∈ Vi ,
λi =
0 , daca xi ∈
6 Vi .
Ai
λi = ,
A1 + A2 + . . . + Ar
7.1 Metode deterministe de interpolare spatiala 79
unde suma se face dupa indicii locatiilor invecinate locatiei x0 . Astfel, ponderea λi va fi
nenula daca locatia xi este vecin natural cu x0 , si λi = 0 daca xi nu este vecin natural cu x0 .
unde f (x) este o functie de coordonatele spatiale ale locatiei investigate si εx este o eroare
de masurare. Aceasta eroare este presupusa a fi normala, de medie 0 si deviatie standard σ .
Mai mult, se presupune ca erorile observate in diferite locatii sa fie independente intre ele.
Exemple de suprafete de trend:
• (trend liniar, adica un plan):
f (x1 , x2 ) = β0 + β1 x1 + β2 x2 .
• (trend cubic):
f (x1 , x2 ) = β0 + β1 x1 + β2 x2 + β3 x1 x2 + β4 x12 + β5 x22 + β6 x12 x2 + β7 x1 x23 + β8 x13 + β9 x23 .
Pe baza masuratorilor deja facute, se estimeaza parametrii βi , obtinandu-se astfel suprafata
de raspuns care se apropie cel mai mult de datele observate. O metoda de estimare a acestor
parametri este metoda celor mai mici patrate (se minimizeaza supa patratelor erorilor de
aproximare). De indata ce acesti coeficienti (se mai numesc si coeficienti de regresie) sunt
determinati, vom cunoaste forma exacta a functiei f (x1 , x2 ), si astfel putem estima valoarea
variabilei in locatia x = (x1 , x2 ) prin
z(x) = f (x1 , x2 ).
b
z(x) = β0 + β1 x1 + β2 x2 .
b
O functie spline este o functie definita pe portiuni, iar in fiecare portiune avem un polinom.
Daca toate polinoamele au grad unu, vom spune ca avem o functie spline liniara, daca
toate polinoamele au gradul doi, atunci avem o functie spline patratica etc. Pentru un
set de locatii, putem determina o functie spline care interpoleaza aceste valori. Pe baza
acestei functii putem estima valoarea unei variabile intr-o locatie x0 prin valoarea functiei
in x0 . Interpolarea cu functii spline a fost introdusa de matematicianul roman Isaac Jacob
Schoenberg care a sustinut teza sa de doctorat la Universitatea din Iasi in 1926.
7.1 Metode deterministe de interpolare spatiala 81
Pentru o regiune R, dorim sa caracterizam varabila de interes Z. In acest scop, se considera un set
de locatii x1 , x2 , . . . , xn . Valorile variabilei in aceste locatii sunt masurate, obtinandu-se valorile
z(x1 ), z(x2 ), . . ., z(xn ). In realitate, aceste masuratori sunt facute cu anumite erori, fapt care ne
indreptateste sa consideram variabilele aleatoare Z(x1 ), Z(x2 ), . . . , Z(xn ). In mod generic, prin
Z(xi ) intelegem variabila Z in locatia xi , iar z(xi ) este o valoare observata a sa. Pentru fiecare
locatie x din campul R, variabila Z(x) este o variabila aleatoare care are o anumita repartitie care
poate sa difere in functie de locatie.
Sirul de variabile aleatoare {Z(x); x ∈ R} se numeste proces stochastic sau câmp aleator sau
functie aleatoare.
este normala n−dimensionala, caz in care cunoastem mediile, dispersiile si corelatiile dintre
componentele vectorului. Insa, din nou, acest caz este doar un un caz particular. In cazul general
este greu de prezis repartitia exacta a acestui vector, dar putem face anumite presupuneri legate de
momentele variabilelor ce-l compun.
Presupunem ca variabila de interes, Z, admite valoare medie in orice locatie x. Pentru a descrie re-
latia intre doua variabile Z(xi ) si Z(x j ) (unde locatiile xi si x j sunt diferite), vom utiliza conceptele
de covarianta si corelatie. Reamintim aceste doua concepte in cazul variabilelor spatiale.
Pentru doua locatii x1 si x2 din R, definim covarianţa variabilelor Z(x1 ) şi Z(x2 ), notată prin
cov(x1 , x2 ), cantitatea
O măsură (adimensionala) a corelaţiei dintre două variabile este coeficientul de corelaţie (sau
corelatia, in unele carti). Acesta este utilizat ca fiind o măsură a dependenţei liniare între două
variabile. Se numeşte corelaţie a variabilelor Z(x1 ) şi Z(x2 ) cantitatea
cov(Z(x1 ), Z(x2 ))
ρ= ,
σ1 σ2
1 n
c 1 , x2 ) =
cov(x ∑ [(z1,i − z1)(z2,i − z2)],
n i=1
(daca ele exista!) sunt independente de locatie. Scriem asta astfel: µ(x) = µ, σ 2 (x) = σ 2 , pentru
orice locatie x. Daca procesul aleator Z(x) este stationar, atunci putem scrie ca
Z(x) = µ + ε(x),
unde ε(x) sunt erori normal repartizate, ε(x) ∼ N (µ, σ ), pentru orice x din regiune.
Totusi, stationaritatea procesului este o ipoteza prea restrictiva in Geostatistica, deoarece in
general repartitia variabilei Z depinde de locatie. Pentru a indeparta acest inconvenient, vom
face o presupunere mai putin restrictiva (mai slaba), si anume ca procesul aleator sa admita doar
momente de ordinul 1 si 2 independente de locatie.
Suntem in cazul in care procesul stationar admite momente de ordinul intai si doi (adica, medie,
dispersie, covarianta). Un proces stochastic (functie aleatoare) {Z(x); x ∈ R} se numeste proces
slab stationar sau stationar de ordinul doi daca media procesului, varianta si covariantele nu
variaza cu locatia, iar covariantele depind doar de distanta dintre valori (lag) si nu de valorile in
sine. Valoarea lag este un vector care reprezinta distanta si directia dintre doua locatii. Matematic,
scriem astfel:
unde C (xi − x j ) este o functie ce depinde doar de xi − x j si pe care o vom preciza la momentul
potrivit. Aceasta functie ne va spune cum sunt corelate valorile din doua locatii ale variabilei Z.
8.1.1 Ergodicitate
Dupa cum am vazut mai sus, un set de date statistice este doar un set de masuratori pe care le-am
observat dintr-o infinitate de posibile realizari ale unei functii aleatoare. Pentru a avea o idee cat
mai fidela despre functia aleatoare, ar fi necesar sa avem foarte multe astfel de realizari (variabile
regionalizate). In practica poate fi imposibil de obtinut, asa ca va trebui sa ne multumim doar cu o
singura variabila regionalizata.
Un proces stochastic se numeste proces ergodic daca proprietatile sale statistice (e.g., media,
varianta, momente) pot fi deduse dintr-o singura realizare (variabile regionalizate), de volum
suficient de mare. In Geostatistica, ergodicitatea este doar o presupunere si, in general, nu poate fi
testata.
locatii. Aceasta functie descrie legatura dintre valorile variabilei Z atunci cand se schimba locatia.
Unitatea de masura a functiei de covarianta este unitatea de masura pentru variabila Z. Pentru un
proces stationar, functia de covarianta define
C (h) = E[(µ + ε(x) − µ) · (µ + ε(x + h) − µ)] = E[ε(x) · ε(x + h))].
Pentru a adimensionaliza relatia dintre valorile variabilei Z in diferite locatii, se foloseste valoarea
urmatoare:
C (h) C (h)
ρ(h) = = ,
C (0) σ2
unde prin C (0) am notat covarianta pentru valoarea de lag h = 0. Functia ρ(h) se numeste functie
de corelatie sau corelograma.
8.3 Variograma
O alta notiune fundamentala in Geostatistica este variograma. Aceasta va reprezenta variabilitatea
(continuitatea) variabilei spatiale in functie de variabila lag h. Este posibil ca doua variabile, sa le
numim Z1 si Z2 , sa aiba parametrii teoretici foarte apropiati sau chiar identici (vezi Tabelul 8.1
pentru aproximarile parametrilor respectivi si Figura 8.2 pentru o reprezentare cu histograme a
datelor observate), si totusi repartitiile lor sa arate complet diferit. Dupa cum se poate observa din
Figura 8.3, repartitiile celor doua variabile sunt complet diferite. Se poate observa ca reprezentarea
variabilei Z2 este mai "grosiera" decat cea reprezentata de variabila Z1 . Variabila Z1 se modifica
mai rapid in spatiu, pe cand, pentru a doua variabila, exista regiuni mai vaste in care valorile
variabilei par a fi neschimbate. Totodata, nu putem spune ca Z2 are o variatie mai mare decat Z1 ,
deoarece varianţele sunt egale. Mai mult, deoarece mediile sunt egale, atunci si coeficientii de
variatie sunt egali.
valori numerice variabila Z1 variabila Z2
media x 101 101
mediana Me 100.73 100.80
varianţa s2 400 400
prima cuartila q1 87.3 87.93
a treia cuartila q3 116.3 116.78
volumul n 15625 15625
In acest caz, valorile numerice asociate celor doua seturi de date nu pot identifica variabilitatea
celor doua caracteristici. Daca am fi luat o decizie doar bazandu-ne pe valorile din Tabelul 8.1,
am fi cochis ca Z1 si Z2 au aceeasi repartitie, concluzie care este evident falsa.
Pentru a putea descrie (explica) aceasta variabilitate, este nevoie reprezentarile variogramelor
asociate celor doua variabile. In Figura 8.4, se observa ca variogramele asociate celor doua
variabile difera.
Vom discuta aici despre 3 tipuri de variograme: variograma teoretica, variograma regionala si
variograma empirica. Variograma teoretica este variograma bazata pe toate realizarile posibile ale
unei variabile spatiale. Cum o variabila spatiala are, in general, o infinitate de realizari, aceasta
variograma este imposibil de obtinut in practica. Variograma empirica este cea construita pe
baza masuratorilor observate. Este o estimare a variogramei teoretice. Plecand de la variograma
empirica, vom face inferente referitoare la variograma teoretica. Variograma regionala este
variograma formata cu o anumita realizare a procesului stochastic intr-o regiune finita, daca am
avea acces la toate informatiile legate de acea regiune. Variograma teoretica este o medie a tuturor
variabilelor regionale legate de procesul stochastic studiat.
Daca procesul stochastic Z(x) nu este stationar, atunci E(Z(x)) = µ(x) depinde de locatie si
Var(Z(x)) poate creste fara limita in cazul in care regiunea este mare. Georges Matheron a cautat
88 Capitolul 8. Procese stochastice spaţiale
sa rezolve aceasta problema prin considerarea unor ipoteze simplificatoare. Cel putin pentru valori
mici ale valorii lag |h|, media variatiei procesului stochastic intre doua locatii x si x + h este 0,
iar dispersia acestei variatii este dependenta doar de h, independenta de locatie. Cu alte cuvinte,
procesul stochastic se comporta ca un proces stationar de ordinul al doilea. Matematic, vom scrie
astfel:
E[Z(x + h) − Z(x)] = 0; (8.3.2)
si
E[(Z(x + h) − Z(x))2 ] = 2γ(h), (8.3.3)
unde γ(h) este o functie ce depinde doar de h. Aceasta functie se numeste variograma. Prin
definitie, formula pentru variograma este:
1
γ(h) = Var[Z(x + h) − Z(x)]. (8.3.4)
2
Deoarece E[Z(x + h) − Z(x)] = 0 si
1
γ(h) = Var[Z(x + h) − Z(x)]. (8.3.6)
2
Daca variabila Z(x) este 2-dimensionala (x = (x1 , x2 ), h = (h1 , h2 )), atunci formula din definitie
se scrie astfel:
1
γ(h) = Var[Z(x1 + h1 , x2 + h2 ) − Z(x1 , x2 )]. (8.3.7)
2
Daca variabila Z(x) este 3-dimensionala (x = (x1 , x2 , x3 ), h = (h1 , h2 , h3 )), atunci formula din
definitie se scrie astfel:
1
γ(h) = Var[Z(x1 + h1 , x2 + h2 , x3 + h3 ) − Z(x1 , x2 , x3 )]. (8.3.8)
2
Datorita termenului 1/2 din fata, se mai foloseste si termenul (in unele carti) de semivariograma.
Legatura sa cu functia de covarianta este urmatoarea:
1. sill, care este valoarea asimptotica a variogramei, adica valoarea dupa care nu mai exista
crestere. Este egala cu C(0). Matematic, scriem ca C(0) = lim γ(h). In cuvinte, pentru
h→∞
doua locatii foarte indepartate, covarianta este aproape 0.
2. range, sau prima valoare (daca exista!) pentru lag (h) pentru care variograma atinge valoarea
sill. Aceasta valoare reprezinta, de fapt, distanta dupa care valorile variabilei spatiale nu
mai sunt autocorelate. Asadar, valorile variabilei sunt autocorelate doar pentru un lag h
mai mic decat valoarea range. Zona ce contine locatia x si pentru care valorile lui Z sunt
corelate cu Z(x) se numeste zona de influenta a locatiei x.
3. nugget (sau efectul nugget), ce reprezintă valoarea variogramei pentru h foarte apropiat de
zero, dar nu 0. Aceasta valoare reprezinta eroarea de masurare a variatiei spatiale. Valoarea
nugget poate aparea atunci cand nu exista masuratori culese din locatii foarte apropiate,
care ar putea dovedi continuitatea in h = 0. In cazul in care lim γ(h) = 0, atunci variograma
h&0
va pleca din origine.
Variograma este o unealta importanta in studiul corelatiei datelor spatiale, de aceea este impor-
tanta aproximarea acesteia. Dupa cum vom vedea, exista diverse modele de aproximare pentru
variograma teoretica definita prin formula (8.3.4).
• C(h) = C(−h) si γ(h) = γ(−h) pentru orice lag h, adica functia de corelatie si variograma
sunt functii pare.
• Corelograma are intotdeauna valori intre 0 si 1. Pentru h = 0, gasim ca ρ(0) = C(0)C(0) = 1.
• Functiile C(h) si γ(h) sunt functii continue de h, mai putin, eventual, in origine.
• Matricea de covarianta
C(x1 , x1 ) C(x1 , x2 ) · · · C(x1 , xn )
C(x2 , x1 ) C(x2 , x2 ) · · · C(x2 , xn )
.. ..
. . ... ···
C(xn , x1 ) C(xn , x2 ) · · · C(xn , xn )
este pozitiv definita, in sensul ca toti determinantii minorilor principali sunt nenegativi.
Astfel, variograma este negativ semidefinita.
• Este posibil ca variatia spatiala sa se modifice in functie de directia dintre locatiile x si
x + h, fenomen numit anizotropie. Un exemplu de anizotropie
q este mineralizarea. Daca
x = (x1 , x2 , x3 ) (regiune 3−dimensionala), atunci h = h21 + h22 + h23 si γ(h) va reprezenta
o familie de variograme γ(|h|, α), unde α este directia.
• Ca functie de variabila lag h, variograma creste mai incet decat creste h2 . Daca ar creste
mai rapid decat aceasta functie, aceasta ar indica prezenta unui trend in campul aleator.
Figura 8.6: Diverse tipuri de variograma: (a) nemarginita (procesul nu este slab stationar); (b)
constanta (nu exista corelatii spatiale), (c) fara efect nugget, (d) fluctuanta.
liniara cand h este suficient de mic, insa sa nu treaca prin 0. Este cazul figurii (b), in care se
observa efectul nugget. In cazul (c), variograma are o forma parabolica pentru h suficient de mic,
de forma γ(h) = a|h|2 . In figura (c), variograma trece prin 0, dar exista cazuri in care se poate
observa un efect nugget si pentru forma parabolica. O variograma cu un comportament parabolic
in jurul originii sugereaza existenta unui trend in variabila spatiala Z(x).
• modele compuse;
Acestea pot fi compuse din doua sau mai multe modele de mai sus. Sunt folosite mai ales cand
avem multe date si variogramele par a fi mai complexe. Sunt folosite in special atunci cand
variograma prezinta efect nugget. Exemple: modelul exponential cu nugget, modelul dublu sferic,
modelul dublu exponential etc.
Pentru modelul exponential cu nugget, variograma (cea desenata cu albastru in primul grafic
alaturat) este:
h
−
γ(h) = c0 + c 1 − e ar , daca h > 0.
Pentru modelul dublu sferic cu nugget (format din compunerea a doua modele sferice plus un
model nugget) desenat in al doilea grafic, variograma (cea desenata cu albastru) este:
" # " #
3h 1 h 3 3h 1 h 3
− − , 0 < h ≤ r1 ;
c0 + c1 + c2
2r1 2 r1 2r2 2 r2
" #
γ(h) = 3h 1 h 3
c0 + c1 − , r1 < h ≤ r2 ;
2r1 2 r1
c1 + c2 , h > r2 .
In practica, un geostatistician are la indemana un set de date spatiale (masuratori), pe baza carora
doreste sa creeze o harta a regiunii de unde au fost facute aceste masuratori, care sa indice variatia
variabilei de interes. Determinarea variogramei este unul dintre lucrurile importante pe care
trebuie sa le intreprinda pentru a-si atinge scopul. Folosind aceste masuratori, el poate estima
variograma procedand astfel.
Presupunem ca valorile masurate (x1 , x2 , . . . xn ):
n(n−1)
orice pereche de locatii (xi , x j ) (exista 2 astfel de perechi), se calculeaza (semi)varianţele:
1
γ(xi , x j ) = [zi − z j ]2 .
2
Pentru a ne face o idee despre cum sunt corelate datele pentru diferite nivele de lag, se pot construi
asa-numitele h−scattergrame. Acestea sunt reprezentari grafice ale valorilor z(x + h) versus z(x)
(vezi Figura 8.11).
8.4 Modelarea variogramei teoretice 95
unde N(h) reprezinta multimea tuturor perechilor de observatii i, j care satisfac conditia de lag,
|xi − x j | = h si |N(h)| este numarul acestor perechi. In general, valoarea lui h este admisa cu o
anumita toleranta.
Pentru fiecare nivel de lag h, valorile γb(h) le scriem in ordine crescatoare, obtinand astfel vario-
grama empirica (sau variograma experimentala). Formula (8.4.11) este cunoscuta sub numele de
estimator obtinut prin metoda momentelor si a fost introdus de (G. Matheron).
Variograma empirica este un estimator nedeplasat pentru variograma teoretica γ(h). Daca Z(x) este
ergodic, atunci γb(h) → γ(h) cand n → ∞. Un analist nu poate trage concluzii despre variabilitatea
spatiala doar bazandu-se pe variograma experimentala, deoarece variograma experimentala nu
poate prezice valorile variatiei spatiale in locatiile nemasurate a priori. Aceste valori pot fi prezise
doar dupa ce o variograma teoretica este potrivita; pe baza acesteia se utilizeaza metode de kriging
pentru predictie.
• Determinam pasul lag, h. Un pas h este practic daca pentru aceasta valoare avem cel putin
30 de perechi (xi , x j ) care sa se situeze la aceasta distanta. Este de dorit ca h sa fie mai mic
decat jumatate din range-ul datelor observate.
• Stabilirea unei tolerante pentru determinarea lui h. Aceasta valoare va preciza acuratetea cu
care o anumita distanta este aproximata cu h. Cu alte cuvinte, toleranta determina latimea
clasei h stabilite.
• Stabilirea numarului de pasi h pentru care vom calcula variograma experimentala;
• Stabilirea unui unghi si determinarea unei tolerante pentru unghi;
• Pentru un h fixat si pentru fiecare pereche de noduri (x, x + h) ale retelei de locatii, calculam
valoarea
1
γb(h) = ∑ [Z(x) − Z(x + h)]2 ,
2|N(h)| (x, x+h)
• Pentru toate valorile lui h, sa spunem ca acestea sunt h1 , h2 , . . . , hm , vom obtine valorile
corespunzatoare γb(h1 ), γb(h2 ), . . . , γb(hm ).
• Reprezentam valorile (hi , γb(hi )) intr-un grafic si obtinem astfel variograma experimentala
(empirica).
• Daca se observa anizotropie, se va repeta procedura pentru un alt unghi, construindu-se
astfel o noua variograma.
8.4 Modelarea variogramei teoretice 97
Figura 8.13: Variograma experimentala (puncte albastre) si cea teoretica (cu linie rosie)
Exemplu: Variograma pentru o singura dimensiune spatiala
Intr-o singura dimensiune, toate locatiile de unde se fac masuratori sunt situate pe o dreapta.
Presupunem ca locatiile masuratorilor, x1 , x2 , . . . , xn , sunt cele din Figura 8.14 (a). Cerculetele
goale reprezinta lipsa de masuratori din respectivele locatii. Figurile 8.14 (b), (c) si (d) arata cum
se formeaza perechile pentru valorile de lag 1, 2, respectiv 3. In cazul 1 dimensional, formula
8.4.11 devine:
n−h
1
γb(h) = ∑ [zi − zi+h ]2 . (8.4.12)
2(n − h) i=1
Pentru h = 1, calculam valoarea γb(1) pentru toate perechile care se afla la o distanta de o lungime,
folosind formula 8.4.12. Similar, pentru h = 2, 3, . . . , n, calculam valoarile γb(2), γb(3), . . . , γb(n),
pentru toate perechile care se afla la o distanta de, respectiv, 2 lungimi, 3 lungimi, etc., n lun-
gimi. Reprezentam grafic valorile γb(1), γb(2), . . . , γb(n) intr-un grafic, obtinand astfel variograma
experimentala 1-dimesionala.
Figura 8.14: Variograma experimentala 1−dimensionala (cerculetele goale sunt locatii neselectate)
98 Capitolul 8. Procese stochastice spaţiale
AIK = 2p − 2 ln L, (8.4.13)
unde p este numarul de parametri din model si L este functia de verosimilitate a modelului. Pentru
un model statistic, o functie de verosimilitate (in engleza, likelihood) este o functie de parametrii
modelului, care este egala cu probabilitatea de a observa datele masurate pentru parametrii dati.
Un estimator pentru indicele teoretic AIK este urmatorul:
2π
AIK = 2p + 2 ln(MSE) + n ln +n+2 , (8.4.14)
n
unde n este numarul de puncte de pe variograma si MSE este media patratelor erorilor de aproxi-
mare (mean squared error).
acestor parametri: metoda celor mai mici patrate si metoda cu ponderi a celor mai mici patrate.
In cazul metodei celor mai mici patrate, se cauta sa se minimizeze suma patratelor erorilor dintre
valorile estimate pentru variograma si cele masurate a priori. Matematic, problema se scrie astfel:
determinati acea valoare pentru vectorul de parametri, θb, care este solutia problemei de optim:
Pentru metoda cu ponderi a celor mai mici patrate, se determina acea valoare pentru vectorul de
parametri, θb care este solutia problemei de optim:
unde
2
Var(γb(h)) ≈ (γ(h, θ ))2 .
|N(h)|
Astfel, ponderile sunt
1 |N(hi )|
wi = ≈ .
Var(γb(hi )) 2(γ(hi , θ ))2
8.4.9 Anizotropia
In multe cazuri, variograma empirica difera in functie de directia spatiala, fapt ce se numeste
anizotropie (geometrica). Cu alte cuvinte, anizotropia este variatia variogramei cu directia spatiala
a observate. In caz de anizotropie, se pot observa diferite pante ale variogramei in diferite directii
spatiale. In multe cazuri insa este posibil de a modela anizotropia printr-o transformare liniara de
coordonate carteziene.
9.1 Introducere
Dupa cum am discutat anterior, un teren pentru care un geostatistician doreste sa studieze pro-
prietatile unor anumite variabile are o infinitate de locatii. Masuratorile pe care acestea le poate
efectua sunt in numar finit. De fapt, din consideratii practice si economice, el va considera doar
cateva locatii unde va efectua masuratori. In restul de locatii, el va dori sa faca predictii pe baza
datelor deja culese. O metoda de baza in Geostatistica folosita in predictia valorilor in locatiile
neselectate pentru masurare se numeste kriging. Kriging este o forma (generalizata) de regresie
liniara prin care se determina un estimator (predictor) spatial. In contrast cu regresia liniara
multipla, metoda de kriging tine cont de volumul observatiilor si de corelatiile dintre aceste valori.
Metoda functioneaza cel mai bine intr-un domeniu convex (un domeniu in care, odata cu doua
puncte, va contine si segmentul ce le uneste). In mod uzual, rezultatele unei interpolari de tip
kriging sunt: valoarea asteptata (media de kriging) si dispersia (varianta de kriging), estimate in
punctul dorit din regiune. Numele de kriging deriva de la numele inginerului minier Danie Krige,
nume atribuit de G. Mangeron. Exista atat metode liniare, cat si neliniare de interpolare spatiala de
gen kriging. Fiecare dintre aceste metode face presupuneri diferite relativ la fluctuatiile variabilei.
Dintre aceste metode, amintim urmatoarele: kriging ordinar, kriging simplu, kriging lognormal,
kriging cu drift, kriging factorial, cokriging, kriging indicator, kriging disjunctiv, kriging bayesian
etc. Metoda generala de kriging este urmatoarea.
Presupunem ca dorim sa prezicem valorile caracteristicii Z(x) intr-o regiune R. Aceasta regiune
poate fi 1−, 2− sau 3− dimensionala. Se efectuaza observatii asupra acestei variabile in locatiile
x1 , x2 , . . . , xn ale regiunii R. Pe baza acestor masuratori, dorim sa prezicem valorile lui Z in
celelalte locatii din regiune. O formula generala a unui estimator pentru valoarea variabilei Z
intr-o locatie generica din R, sa zicem x0 , este:
n
b 0 ) = ∑ λi Z(xi ),
Z(x (9.1.1)
i=1
Vom determina ponderile λi astfel incat sa minimizeze varianta estimatorului ZbSK . Aceasta este:
" #
n
Var[ZbSK (x0 )] = Var Z(x0 ) − ∑ λi Z(xi )
i=1
n n n
= Var[Z(x0 )] − 2 ∑ λ j cov(Z(x0 ), Z(x j )) + ∑ ∑ λiλ j cov(Z(xi), Z(x j ))
j=1 i=1 j=1
n n n
= C (0) − 2 ∑ λ j cov(Z(x0 ), Z(x j )) + ∑ ∑ λiλ j cov(Z(xi), Z(x j ))
j=1 i=1 j=1
9.2 Kriging simplu 103
Pentru a determina ponderile λi ce realizeaza minimumul lui Var[ZbSK (x0 )], se cauta punctele
critice in raport cu λi , adica rezolvam sistemul de ecuatii:
∂
Var[ZbSK (x0 )] = 0, pentru orice j = 1, 2, . . . , n.
∂λj
n
cov(Z(x0 ), Z(x j )) = ∑ λi cov(Z(xi ), Z(x j )), pentru orice j = 1, 2, . . . , n. (9.2.5)
i=1
Cu solutiile λiSK astfel obtinute, se estimeaza valoarea Z0 folosind formula (9.2.4). Dispersia de
kriging va fi data de:
n
2
σSK (x0 ) = C (0) − ∑ λiSK cov(Z(x0 ), Z(xi )).
i=1
Estimarile obtinute prin kriging simplu sunt nedeplasate. De notat faptul ca valorile ponderilor λi
depind doar de locatii si de covariante, dar nu si de datele observate. In cazul metodei kriging
simplu, suma acestor ponderi nu este neaparat egala cu 1.
Dupa ce prezicem prin kriging simplu valorile variabilei Z in toate locatiile regiunii de interes, se
pune problema urmatoare: Ce se intampla cand prezicem valoarea intr-un punct unde avem deja
masuratori?
h→0
C (h) = cov(Z(x0 ), Z(x0 + h)) −→ cov(Z(x0 ), Z(x0 )) = C (0) = 0.
Astfel daca punctul x0 este foarte apropiat de punctul xi (din selectie), putem aproxima cov(Z0 , Zi )
prin cov(Z0 , Z0 ) = C (0). In acest caz, dispersia pentru kriging simplu devine
!
n n
2
σSK (x0 ) = C (0) − ∑ λiSK C (0) = 1 − ∑ λiSK C (0) = 0. (9.2.6)
i=1 i=1
Mai mult,
lim ZbSK (x0 ) = Z(xi ).
x0 →xi
In cazul in care nu exista efect nugget, atunci metoda kriging simplu pastreaza valorile masurate
b i ) = Z(xi ): valorile estimate prin kriging simplu in locatiile stabilite a priori sunt chiar
(i.e., Z(x
cele masurate). Pentru doua locatii apropiate, aceasta metoda va prezice valori apropiate ale
variabilei Z.
104 Capitolul 9. Kriging
Figura 9.2: 5 simulari ale variabilei Z(x) ce pastreaza cinci valori masurate initial
Exerciţiu 9.1 (preluat din [olea]) Pentru o variabila Z s-au observat valorile sale in locatiile
precizate cu buline rosii in Figura 9.3 de mai jos. Pe baza acestor valori, se cere sa se prezica
valoarea variabilei Z in locatia x0 si dispersia pentru aceasta valoare. Se cunosc: µ = 110 si
γ(h) = 2000 (1 − e−h/250 ) pentru h > 0. (model exponential de variograma).
sunt
d11 d12 d13 d14 0 260.8 264 364
= 260.8 0 266.3 366.7
d21 d22 d23 d24
d31 d32 d33 d34 264 266.3 0 110.4
d41 d42 d43 d44 364 366.7 110.4 0
Distantele d0i de la x0 la xi sunt:
Din formula γ(h) = C (0) − C (h), gasim covariantele. Aici, C (0) = 2000 si
zSK (x0 ) = µ + λ1SK (z(x1 ) − µ) + λ2SK (z(x2 ) − µ) + λ3SK (z(x3 ) − µ) + λ4SK (z(x4 ) − µ)
b
= 110 + 0.1847 · (40 − 110) + 0.1285 · (130 − 110) + 0.6460 · (90 − 110) −
−0.0013 · (160 − 110)
= 86.6560.
In cazul in care valoarea µ din formula (9.2.2) nu este cunoscuta, avem doua posibilitati de a
prezice valorile variabilei Z in celelalte valori decat cele masurate:
n
• Estimam valoarea µ pe baza observatiilor prin µ = ∑ zi, apoi folosim metoda kriging
i=1
simplu. Insa, aceasta metoda nu tine cont de variabilitatea valorilor zi in prezicerea lui µ.
• Folosim o alta metoda de kriging, numita kriging ordinar.
106 Capitolul 9. Kriging
n
unde ponderile λi satisfac constrangerea ∑ λi = 1. Aceasta constrangere asigura nedeplasarea es-
i=1
b 0 ) − Z(x0 )] = 0. Dispersia estimatorului
timatorului ZbOK , in sensul ca valoarea asteptata este E[Z(x
este:
2 h i
Var[ZOK (x0 )] = E ZOK (x0 ) − Z(x0 )
b b = Var ZbOK (x0 ) − Z(x0 )
" #
n
= Var ∑ λiZ(xi) − Z(x0)
i=1
n n n
= Var[Z(x0 )] −2 ∑ λi cov(Z(x0 ), Z(xi )) + ∑ ∑ λi λ j cov(Z(xi ), Z(x j ))
| {z } i=1 i=1 j=1
= C (0)
n n n
= 2 ∑ λi γ(x0 , xi ) − ∑ ∑ λiλ j γ(xi, x j ),
i=1 i=1 j=1
unde γ(xi , x j ) sunt (semi)variatiile intre valorile campului aleator Z observate in locatiile xi si
x j si γ(xi , x j ) sunt (semi)variatiile intre valoarea observata a campului aleator Z in locatia xi si
valoarea lui Z in locatia de estimat x0 .
Scopul este de a determina ponderile λi ce realizeaza minimul lui Var[ZbOK (x0 )] cu constrangerea
n
∑ λi = 1. Metoda de lucru este metoda multiplicatorilor lui Lagrange. Se considera functia
i=1
!
n
F(α, λi ) = Var[ZbOK (x0 )] + α ∑ λi − 1 ,
i=1
n
cov(Z(x0 ), Z(x j )) = ∑ λicov(Z(xi), Z(x j )) + α, pentru orice j = 1, 2, . . . , n.(9.3.8)
i=1
n
∑ λi = 1. (9.3.9)
i=1
Dispersia pentru kriging ordinar se calculeaza similar ca in cazul metodei kriging simplu si are
formula:
n
2
σOK (x0 ) = C (0) − ∑ λiOK cov(Z(x0), Z(xi)) − α. (9.3.10)
i=1
Observatii:
• Ponderile λiOK vor avea valori mai mari pentru punctele apropiate lui x0 . In general, cele
mai apropiate 4 sau 5 valori contribuie cu cca 80% din ponderea totala in prezicerea valorii
lui Z in x0 , iar urmatoarele 10 puncte invecinate cu cca 20%.
• In general, σOK 2 (x ) este un pic mai mare decat σ 2 (x ) din cauza incertitudinii legate de
0 SK 0
valoarea reala a lui µ.
• Daca variograma prezinta efect nugget, atunci cresterea dispersiei pentru nugget va conduce
la o crestere a dispersiei pentru valorile prezise prin kriging.
• Daca locatiile masuratorilor nu sunt regulat raspandite, atunci punctele izolate au in general
ponderi mai mari decat cele adunate in palcuri (clustere).
• Punctele care sunt ecranate (mascate) de alte puncte din regiune pot avea ponderi negative.
• Am vazut ca, pentru un punct x0 , doar o multime mica de puncte vecine vor avea ponderi
nenule semnificative, restul ponderilor fiind aproape egale cu 0. Din acest motiv, am putea
reduce sistemul de kriging (implicit formula (9.3.7) doar la punctele vecine. Daca numarul
acestor puncte vecine este semnificativ mai mic decat n, atunci procedeul numeric de calcul
al ponderilor se va desfasura intr-un timp mult mai mic. Este posibil ca, pentru un n mare,
ponderile calculate sa prezinte erori mari, din cauza complexitatii sistemului de ecuatii care
au ca solutii aceste ponderi. De aceea, se recomanda calcularea ponderilor doar pentru o
multime mica de vecini ai lui x0 .
• Pentru a determina vecinatatea lui x0 pentru care este practic sa calculam ponderile, se poate
proceda astfel:
– Pentru o variograma marginita si date dense in jurul lui x0 , aceasta vecinatate poate
avea dimensiunea range-ului de la variograma. Oricum, punctele care ies din acest
range aproape ca nu sunt corelate cu x0 .
– Daca datele sunt rarefiate, atunci punctele indepartate pot avea ponderi importante,
asa ca ar fi necesara o vecinatate care sa le includa.
108 Capitolul 9. Kriging
Rezolvare: Valorile pentru distante sunt aceleasi ca in Exercitiul 9.1. Sistemul de ecuatii
(9.3.8)&(9.3.9) care determina ponderile λi si multiplicatorul Lagrange α este:
zOK (x0 ) = λ1OK z(x1 ) + λ2OK z(x2 ) + λ3OK z(x3 ) + λ4OK z(x4 )
b
= 0.1971 · 40 + 0.1410 · 130 + 0.6506 · 90 + 0.0113 · 160
= 86.576.
9.4 Kriging lognormal 109
si
1 c2
ZbOK (x0 ) = eYOK (x0 )+ 2 σ OK (x0 )−α(x0 ) pentru kriging ordinar,
b
unde α(x0 ) este multiplicatorul Lagrange. Dispersia pentru variabila originata poate fi estimata
doar pentru metoda kriging simplu, pentru care µ este cunoscut. Aceasta este:
c SK (x0 ) = µ 2 eσc2 SK (x0 ) [eσc2 SK (x0 ) − 1].
Var
Aceasta eroare este presupusa a fi normala, de medie 0 si variograma γ(h). Cantitatea ε(x) =
Z(x) − u(x) se mai numeste si reziduu de trend. Expresia lui u(x) este de obicei un polinom de
coordonatele geografice, de forma:
m
u(x) = ∑ β j f j (x),
j=0
unde β j sunt niste numere reale necunoscute si f j (x) niste functii necunoscute. Acest trend poate fi
estimat pe baza observatiilor z(x1 ), z(x2 ), . . . , z(xn ). Spre exemplu, un trend liniar 2−dimensional
arata de forma
u(x) = β0 + β1 x1 + β2 x2 .
Un trend neliniar parabolic 1−dimensional care ar putea fi un model pentru cel din Figura 9.6
este de forma
u(x) = β0 + β1 x + β2 x2 .
Coeficientii β0 , β1 , β2 pot fi obtinuti prin metoda celor mai mici patrate (regresie liniara multiple).
In prezenta unui trend, G. Matheron a sugerat estimarea variabilei Z in x0 prin
n
ZbUK (x0 ) = ∑ λi Z(xi ),
i=1
n
cu λi verificand constrangerea ∑ λi = 1. Valoarea medie a acestui estimator este
i=1
n m
E[ZbUK (x0 ]) = ∑ ∑ λiβ j f j (xi)
i=1 j=0
Folosind metoda multiplicatorilor lui Lagrange, se pot determina ponterile λiUK si parametrii
necunoscuti β j . Astfel, un estimator pentru valoarea lui Z in x0 va fi
n
ZbUK (x0 ) = ∑ λiUK Z(xi ),
i=1
depaseeasca o anumita valoare prag, notata aici prin zc . Spre exemplu, am dori sa determinam
probabilitatea ca, intr-o anumita regiune, apa de baut sa aiba o concentratie de nitrati sub pragul
critic zc = 50mg/l. Un alt exemplu este determinarea probabilitatii ca intr-o regiune solul sa aiba
o valoare pH sub o valoare critica.
Fie Z o variabila de interes. Pentru aceasta variabila construim functia indicatoare
(
1 daca Z(x) ≤ zc ;
χzc (x) =
0 daca Z(x) > zc .
Aceasta functie indicatoare este o variabila binara. Valoarea medie a acestei variabile este chiar
probabilitatea ca valorile variabilei Z(x) sa nu depaseasca pragul critic zc , care este totuna cu
functia de repartitie a acestei variabile in valoarea zc . Matematic, scriem astfel:
1 h i
γzc (h) = E (χzc (x) − χzc (x + h))2
2
pe baza unei variograme experimentale:
1 N(h) h 2
i
γbzc (h) = (χ (x )
∑ zc i zc i − χ (x + h)) .
2|N(h)| i=1
Pe baza variogramei teoretice se pot prezice valori ale variabilei Z in punctele neselectate. O
metoda de kriging indicator bazata pe n observatii {χzc (xi )}i=1, n are la baza formula de estimare:
n
χbzc (x0 ) = ∑ λi χzc (xi ). (9.6.12)
i=1
Pentru estimare se poate proceda ca in metoda kriging simplu. Ponderile pot fi obtinute ca solutii
ale sistemului de n ecuatii si n necunoscute:
n
∑ λiγzc (xi, x j ) = γzc (x0, x j ) pentro orice j = 1, 2, . . . , n,
i=1
unde γzc (xi , x j ) sunt semivariantele calculate in punctele xi si x j . Dupa ce se determina ponderile
λiIK , se estimeaza valoarea
n
χbzc (x0 ) = ∑ λiIK χzc (xi ).
i=1
Valoarea prezisa χbzc (x0 ) va fi o valoare intre 0 si 1, reprezentand probabilitatea ca, pentru datele
observate, variabila Z(x) ia valori sub pragul critic zc . Matematic, scriem ca
χbzc (x0 ) = P( Z(x) ≤ zc | zi , i = 1, n ).
112 Capitolul 9. Kriging
9.7 Cokriging
Aceasta metoda ofera posibilitatea de a prezice simultan valorile a doua sau mai multe variabile
pentru un acelasi domeniu. Se mai numeste si coregionalizare. Nu este necesar ca toate variabilele
sa fie masurate in aceleasi locatii, insa ar fi indicat sa fie un minim de valori observate perechi
in aceleasi locatii din regiune de interes. Aceasta metoda poate fi utila atunci cand una dintre
variabile, variabila primara, a fost observata in putine locatii, insa corelatia sa cu alte variabile
(secundare) de interes in regiune poate duce la o precizie mai mare a estimarilor celei dintai
variabile.
Presupunem ca Z1 (x), Z2 (x), . . . , Z p (x) sunt p variabile ce se doresc a fi masurate pentru un
acelasi domeniu. Putem crea matricea aleatoare:
Vom nota prin Λi matricea ponderilor corespunzatoare fiecarei valori a fiecarei variabile. O vom
scrie sub forma:
i i i
λ11 λ12 . . . λ1p
λ i λ i . . . λ i
Λi = 21 22 2p
... ... ... ...
i
λ41 i
λ42 i
. . . λ pp
Scopul principal al metodei cokriging este de a determina (prin metoda celor mai mici patrate)
ponderile Λi pentru estimatorul:
n
ZbCK (x0 ) = ∑ Λi Z(xi ),
i=1
cu constrangerea
n
∑ Λi = In matricea identitate de ordin n.
i=1
Modelul cokriging va furniza un numar de p estimatori liniari in x0 , cate unul pentru fiecare
variabila in parte, si p dispersii corespunzatoare estimatorilor. Metoda este asemanatoare cu
metoda kriging ordinara, insa executata pentru p variabile simultan.
1 n
ME = ∑ [z(xi ) − b
z(xi )].
n i=1
1 n [z(xi ) − b
z(xi )]
SME = ∑ .
n i=1 σb (xi )
1 n
MSE = ∑ [z(xi) − bz(xi)]2.
n i=1
s
1 n
RMSE = ∑ [z(xi) − bz(xi)]2.
n i=1
v
u n
b (xi )
u
u∑σ
t i=1
ASE = .
n
Pentru o precizie foarte buna este de dorit ca primele erorile ME, SME si MSE sa fie cat mai apropiate
de valoarea 0, eroarea RMSSE va trebui sa fie apropiate de valoarea 1, iar erorile RMSE si ASE sa
fie similare. Figura 9.7 contine doua grafice pentru doua metode de interpolare kriging ordinar;
prima metoda este fara trend iar a doua cu trend. Fiecare figura reprezinta valorile prezise vs.
valorile masurate. Pentru o apropiere cat mai buna, punctele rosii ar trebui sa fie cat mai apropiate
de dreapta 1:1 (prima bisectoare). Pentru a determina care dintre cele doua metode este mai buna,
ne uitam la erorile afisate si cautam metoda ce da erorile cele mai mici.
covarianta stabilite. Se pot astfel crea oricate (o infinitate) simulari se doreste, toate realizarile
avand aceeasi probabilitate de aparitie, aceeasi medie si aceeasi functie caracteristica. Din punct
de vedere teoretic, valoarea medie a unui numar mare de simulari va arata similar cu harta obtinuta
prin metoda kriging. Simularile stochastice ofera posibilitatea de a obtine predictii realiste ale
valorile unei variabile, pe cand estimarile obtinute prin metoda kriging se preocupa mai mult de
acuratetea statistica a predictiilor.
In concluzie, metoda kriging ofera estimari locale de varianta minima, fara a se preocupa de
distributia in ansamblu a valorilor prezise. Pe de alta parte, simularea stochastica are ca scop
reproducerea distributiei datelor observate, fara a se preocupa de acuratetea locala a valorilor
prezise.
Simularile stochastice pot fi facute in doua moduri: neconditionate si conditionate.
O simulare stochastica neconditionata nu are alte constrangeri asupra valorilor simulate decat
faptul ca media si o functia de covarianta a acestor valori sa fie cea specificată a priori. O simulare
stochastica conditionata are, pe langa constrangerile de medie si functie de covarianta, cerinta ca
valorile observate pentru variabila aleatoare sa fie pastrate in urma simularii. Cu alte cuvinte, o
simulare conditionata este o procedure ce reproduce valorile si locatiile tuturor datelor observate,
pe cand una neconditionata nu are aceasta cerinta.
In cazul unei simulari stochastice neconditionata, metoda de simulare este metoda Monte Carlo.
Exista diverse software care pot simula valori aleatoare ce au media si functia de covarianta
specificate.
In cazul unei simulari conditionate, varianta valorilor simulate este dublul variantei valorilor
estimate prin metoda kriging. Asadar, daca scopul este o precizie mai buna a valorilor simulate,
metoda kriging este mai buna. Daca scopul este realizarea unei harti pentru care caracteristicile
observatiilor sa fie pastrate, atunci metoda de simulare este cea potrivita.
Exista mai multe tipuri de simulari stochastice, si anume:
• simulare gaussiană secvenţială (fiecare valoare este simulata secvential in concordanta cu
functia sa de repartitie conditionata normala, care se determina in fiecare locatie simulata);
• metode de descompunere LU (bazata pe descompunerea Cholesky a oricarei matrice pozitiv
definite C in produs de doua matrice triunghiulare, inferior si superior, i.e., C = LU.);
• simulare annealing (bazata pe algoritmi de optimizare);
• metode orientate pe obiect;
Metoda de simulare gaussiana secventiala este cea mai folosita. Pasii de implementare a metodei
sunt:
• Asigurarea ca datele sunt normale. In caz ca nu sunt normale, datele ar putea fi transformate
in date normale standard;
• Se determina un model de variograma;
• Se formeaza un grid cu punctele in care urmeaza sa determinam simulari;
• Se determina ordinea (o secventa) locatiilor {xi } in care vom obtine simulari.
b i ) si σ 2 (xi ) prin metoda kriging simpla. Apoi, se
• Pentru fiecare locatie xi se determina Z(x K
va genera aleator o valoare normala ce are media Z(x b i ) si varianta σ 2 (xi ). Aceasta valoare
K
simulata se va adauga la setul de date observate, apoi se trece la simularea urmatoarei valori.
Se repeta procedeul de kriging (incluzand in setul de date toate valorile simulate anterior)
pana ce toate valorile pentru punctele din grid au fost simulate.
• Daca datele originale au fost transformate, se va aplica transformarea inversa pentru a
determina simularile valorilor variabilei de interes.
Capitolul 9. Kriging
Figura 9.8: Etape pentru interpolarea prin kriging
116
10. Anexe
Tabela 10.1: Cuantile pentru repartitia N (0, 1). Pentru un α, tabelul afiseaza cuantila zα pentru care
P(Z ≤ zα ) = α, unde Z ∼ N (0, 1). De remarcat faptul ca: z1−α = −zα .
Capitolul 10. Anexe
n\α 0.9 0.95 0.975 0.99 0.995 0.999 n \ α 0.9 0.95 0.975 0.99 0.995 0.999
1 3.078 6.314 12.706 31.821 63.657 318.313 21 1.323 1.721 2.080 2.518 2.831 3.527
2 1.886 2.920 4.303 6.965 9.925 22.327 22 1.321 1.717 2.074 2.508 2.819 3.505
3 1.638 2.353 3.182 4.541 5.841 10.215 23 1.319 1.714 2.069 2.500 2.807 3.485
4 1.533 2.132 2.776 3.747 4.604 7.173 24 1.318 1.711 2.064 2.492 2.797 3.467
5 1.476 2.015 2.571 3.365 4.032 5.893 25 1.316 1.708 2.060 2.485 2.787 3.450
6 1.440 1.943 2.447 3.143 3.707 5.208 26 1.315 1.706 2.056 2.479 2.779 3.435
7 1.415 1.895 2.365 2.998 3.499 4.782 27 1.314 1.703 2.052 2.473 2.771 3.421
8 1.397 1.860 2.306 2.896 3.355 4.499 28 1.313 1.701 2.048 2.467 2.763 3.408
9 1.383 1.833 2.262 2.821 3.250 4.296 29 1.311 1.699 2.045 2.462 2.756 3.396
10 1.372 1.812 2.228 2.764 3.169 4.143 30 1.310 1.697 2.042 2.457 2.750 3.385
11 1.363 1.796 2.201 2.718 3.106 4.024 32 1.309 1.694 2.037 2.449 2.738 3.365
12 1.356 1.782 2.179 2.681 3.055 3.929 34 1.307 1.691 2.032 2.441 2.728 3.348
13 1.350 1.771 2.160 2.650 3.012 3.852 36 1.306 1.688 2.028 2.434 2.719 3.333
14 1.345 1.761 2.145 2.624 2.977 3.7870 38 1.304 1.686 2.024 2.429 2.712 3.319
15 1.341 1.753 2.131 2.602 2.947 3.733 40 1.303 1.684 2.021 2.423 2.704 3.307
16 1.337 1.746 2.120 2.583 2.921 3.686 50 1.299 1.676 2.009 2.403 2.678 3.261
17 1.333 1.740 2.110 2.567 2.898 3.646 60 1.296 1.671 2.000 2.390 2.660 3.232
18 1.330 1.734 2.101 2.552 2.878 3.610 80 1.292 1.664 1.990 2.374 2.639 3.195
19 1.328 1.729 2.093 2.539 2.861 3.579 100 1.290 1.660 1.984 2.364 2.626 3.174
20 1.325 1.725 2.086 2.528 2.845 3.552 ∞ 1.282 1.645 1.960 2.326 2.576 3.090
Tabela 10.2: Cuantile pentru repartitia Student t(n). Pentru un α si un n, tabelul afiseaza cuantila tα, n pentru care P(Z ≤ tα, n ) = α, unde Z ∼ t(n). Daca
n este mai mare de 100, se poate utiliza tabelul de la repartitia normala.
118
Fournit les quantiles xp tels que
P(X≤xp )= p
pour X ∼ χ2n
10.2 Exemplu de date statistice spatiale 119
n/p 0,005 0,010 0,025 0,050 0,100 0,250 0,500 0,750 0,900 0,95 0,975 0,990 0,995
n
1 0,00 0,00 0,00 0,00 0,02 0,10 0,45 1,32 2,71 3,84 5,02 6,64 7,88
2 0,01 0,02 0,05 0,10 0,21 0,58 1,39 2,77 4,61 5,99 7,38 9,21 10,60
3 0,07 0,11 0,22 0,35 0,58 1,21 2,37 4,11 6,25 7,82 9,35 11,35 12,84
4 0,21 0,30 0,48 0,71 1,06 1,92 3,36 5,39 7,78 9,49 11,14 13,28 14,86
5 0,41 0,55 0,83 1,15 1,61 2,67 4,35 6,63 9,24 11,07 12,83 15,09 16,75
6 0,68 0,87 1,24 1,64 2,20 3,45 5,35 7,84 10,64 12,59 14,45 16,81 18,55
7 0,99 1,24 1,69 2,17 2,83 4,25 6,35 9,04 12,02 14,07 16,01 18,48 20,28
8 1,34 1,65 2,18 2,73 3,49 5,07 7,34 10,22 13,36 15,51 17,53 20,09 21,95
9 1,74 2,09 2,70 3,33 4,17 5,90 8,34 11,39 14,68 16,92 19,02 21,67 23,59
10 2,16 2,56 3,25 3,94 4,87 6,74 9,34 12,55 15,99 18,31 20,48 23,21 25,19
11 2,60 3,05 3,82 4,58 5,58 7,58 10,34 13,70 17,28 19,68 21,92 24,72 26,76
12 3,07 3,57 4,40 5,23 6,30 8,44 11,34 14,85 18,55 21,03 23,34 26,22 28,30
13 3,57 4,11 5,01 5,89 7,04 9,30 12,34 15,98 19,81 22,36 24,74 27,69 29,82
14 4,08 4,66 5,63 6,57 7,79 10,17 13,34 17,12 21,06 23,68 26,12 29,14 31,32
15 4,60 5,23 6,26 7,26 8,55 11,04 14,34 18,25 22,31 25,00 27,49 30,58 32,80
16 5,14 5,81 6,91 7,96 9,31 11,91 15,34 19,37 23,54 26,30 28,85 32,00 34,27
17 5,70 6,41 7,56 8,67 10,09 12,79 16,34 20,49 24,77 27,59 30,19 33,41 35,72
18 6,27 7,02 8,23 9,39 10,87 13,68 17,34 21,61 25,99 28,87 31,53 34,81 37,16
19 6,84 7,63 8,91 10,12 11,65 14,56 18,34 22,72 27,20 30,14 32,85 36,19 38,58
20 7,43 8,26 9,59 10,85 12,44 15,45 19,34 23,83 28,41 31,41 34,17 37,57 40,00
21 8,03 8,90 10,28 11,59 13,24 16,34 20,34 24,94 29,62 32,67 35,48 38,93 41,40
22 8,64 9,54 10,98 12,34 14,04 17,24 21,34 26,04 30,81 33,92 36,78 40,29 42,80
23 9,26 10,20 11,69 13,09 14,85 18,14 22,34 27,14 32,01 35,17 38,08 41,64 44,18
24 9,89 10,86 12,40 13,85 15,66 19,04 23,34 28,24 33,20 36,42 39,36 42,98 45,56
25 10,52 11,52 13,12 14,61 16,47 19,94 24,34 29,34 34,38 37,65 40,65 44,31 46,93
26 11,16 12,20 13,84 15,38 17,29 20,84 25,34 30,43 35,56 38,89 41,92 45,64 48,29
27 11,81 12,88 14,57 16,15 18,11 21,75 26,34 31,53 36,74 40,11 43,19 46,96 49,64
28 12,46 13,56 15,31 16,93 18,94 22,66 27,34 32,62 37,92 41,34 44,46 48,28 50,99
1
29 13,12 14,26 16,05 17,71 19,77 23,57 28,34 33,71 39,09 42,56 45,72 49,59 52,34
30 13,79 14,95 16,79 18,49 20,60 24,48 29,34 34,80 40,26 43,77 46,98 50,89 53,67
40 20,71 22,16 24,43 26,51 29,05 33,66 39,34 45,62 51,81 55,76 59,34 63,69 66,77
50 27,99 29,71 32,36 34,76 37,69 42,94 49,33 56,33 63,17 67,50 71,42 76,15 79,49
60 35,53 37,48 40,48 43,19 46,46 52,29 59,33 66,98 74,40 79,08 83,30 88,38 91,95
70 43,28 45,44 48,76 51,74 55,33 61,70 69,33 77,58 85,53 90,53 95,02 100,4 104,2
80 51,17 53,54 57,15 60,39 64,28 71,14 79,33 88,13 96,58 101,9 106,6 112,3 116,3
90 59,20 61,75 65,65 69,13 73,29 80,62 89,33 98,65 107,6 113,1 118,1 124,1 128,3
100 67,33 70,06 74,22 77,93 82,36 90,13 99,33 109,1 118,5 124,3 129,6 135,8 140,2
Tabela 10.3: Cuantile pentru repartitia χ 2 (n). Pentru un α = p si un n, tabelul afiseaza cuantila χα,
2
n
2 ) = α, unde Z ∼ χ 2 (n).
pentru care P(Z ≤ χα, n
σ2
µ X − z1−α √σn , +∞
cunoscut
−∞, X + z1−α √σn
X − t1− α ; n−1 √sn , X + t1− α ; n−1 √sn
2 2
σ2
µ X − t1−α; n−1 √σn , ∞ ;
necunoscut
−∞, X − tα; n−1 √sn
!
n n
χ2 α
s2 , χ 2α
s2
1− 2 ; n 2 ;n
µ n
s2 , +∞
σ2 cunoscut
2
χα; n
n 2
−∞, χ2
s
1−α; n
!
(n−1) (n−1)
χ2 α
s2 , χ 2α
s2
1− 2 ; n−1 2 ; n−1
µ n−1
s2 , +∞
σ2 necunoscut χ2
α; n−1
n−1
−∞, 2
χ1−α;
s2
n−1
q q
pb(1− pb) pb(1− pb)
p n pb − z1− α n , pb + z1− α n
mare 2 2
µ1 , µ2
σ12 / s21 s21
σ22 f α
1 −1, n2 −1; 2
, f α
necunoscuţi s22 ns s22 n1 −1, n2 −1; 1− 2s
2 2 2 2
µ1 − µ2 σ12 , σ22 σ 1 σ σ σ
X1 − X2 − z1− α + 2 , X1 − X2 + z1− α 1
+ 2
2 n1 n2 2 n1 n2
cunoscuţi
s s
2 2 2 2
µ1 − µ2 σ12 6= σ22 s 1 s s s
X1 − X2 − t1− α ; N + 2 , X1 − X2 + t1− α ; N 1
+ 2
2 n1 n2 2 n1 n2
necunoscuţi
σ12 = σ22
µ1 − µ2 X1 − X2 − t1− α ; n1 +n2 −2 d(X1 , X2 ), X1 − X2 + t1− α ; n1 +n2 −2 d(X1 , X2 )
necunoscuţi
2 2
q q
p1 (1−cp1 ) p2 (1−cp2 ) p1 (1−cp1 ) p2 (1−cp2 )
p1 − p2 n1 , n2 pb1 − pb2 − z1− α c n1 + c
n2 , p
b1 − p
b2 + z1− α
c
n1 + c
n2
2 2
mari
[1] David Brink, Statistics compendium, David Brink & Ventus Publishing ApS, 2008.
[2] Jay L. DeVore, Kenneth N. Berk, Modern Mathematical Statistics with Applications (with
CD-ROM), Duxbury Press, 2006.
[3] Clayton V. Deutsch, Geostatistical reservoir modeling, Oxford University Press, 2002.
[4] ESRI, Introduction to the ArcGIS Geostatistical Analyst Tutorial (online tutorial notes)
[5] Pierre Goovaerts, Geostatistics for natural resources evaluation, Oxford University Press,
1997.
[6] T Hengl, A Practical Guide to Geostatistical Mapping of Environmental Variables, JRC
Scientific and Technical Research series, Office for Official Publications of the European
Comunities, Luxembourg, EUR 22904 EN, 143 pp, 2009
[7] Peter K. Kitanidis, Introduction to Geostatistics, Applications in Hydrogeology, Cambridge
University Press, 1997.
[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu, Mică enciclope-
die de statistică, Editura ştiinţifică şi enciclopedică, Bucureşti, 1985.
[9] K. Johnston, JM Ver Hoef, K. Krivoruchko, N. Lucas, Using ArcGIS Geostatistical Analyst,
2001
[10] S. McKillup, M Darby Dyar, Geostatistics Explained. An Introductory Guide for Earth
Scientists, Cambridge University Press, 396 pp, 2010
[11] Georges Matheron, Principles of Geostatistics, Economic Geology 58, 1963, pp. 1246-1266.
[12] Georges Matheron, Les variables régionalisées et leur estimation, Masson, Paris, 1965.
124 BIBLIOGRAFIE
[13] Gheorghe Mihoc, N. Micu, Teoria probabilităţilor şi statistica matematică, Bucuresti, 1980.
[14] Ricardo A. Olea, Geostatistics for Engineers and Earth Scientists, Kluwer Academic Pu-
blishers, Boston, 1999
[17] Richard Webster, Margaret Oliver, Geostatistics for environmental scientists, John Wiley
and Sons, Ltd., 2007.
[18] David Williams, Weighing the Odds: A Course in Probability and Statistics, Cambridge
University Press, 2001.
Glosar
media teoretică, 45
metoda celor mai mici patrate, 99
modul, 47
momente, 27
momente centrate ale unei v.a., 46
mulţime de selecţie, 39
ogivă, 25
P-valoare, 64
populaţie statistică, 13
probabilitate, 40
probabilitate de risc, 59
recensământ, 15
regula celor 3σ , 45
repartiţia χ 2 , 52
repartiţia normală standard, 51
riscul beneficiarului, 64
riscul furnizorului, 64
scatter plot, 73
selecţie, 14
serie de timpi, 18
simulare stochastica, 114
simulare stochastica conditionata, 115
simulare stochastica neconditionata, 115
skewness, 28, 46
Statistică, 12
stem-and-leaf, 21
tabel de frecvenţe, 17
test bilateral, 65
test de concordanţă, 68
test statistic, 65
test unilateral dreapta, 65
test unilateral stânga, 65
UMVUE, 57
variabilă aleatoare, 42
variabila aleatoare standardizată, 46
variograma, 86
variograma empirica, 87, 95
variograma regionala, 87
variograma teoretica, 87