Documente Academic
Documente Profesional
Documente Cultură
STATISTIC DESCRIPTIV
Curs 1: Scurt istoric
ntr-o prim concepie, statistica echivala cu descrierea statului, expunerea situaiei
geografice, economice i politice. Acest gen de statistic a fost cultivat mai nti de italieni. nc
din sec. XIII - XIV n Republica Veneia se elaborau diferite rapoarte care conineau informaii
privitoare la partenerii si comerciali i au fost utilizate n politica comercial oficial.
Curentul "descrierea statului" a atins apogeul n sec. XVII- XVII cnd, n Germania, s-a
constituit o adevrat coal cunoscut sub denumirea de coala descriptiv german.
Descrierea statului a devenit disciplin de predare acadamic, ncadrat ntr-un sistem
construit dup norme teoretice i practice, care s-au elaborat i dezvoltat n universitile germane.
Noua disciplin (Staatskunde), a primit numele de statistic (Statistik).
Pe vremea constituirii statisticii ca disciplin descriptiv a statului, se ntea n Anglia, n
afara universitilor, o statistic cunoscut sub numele de aritmetica politic, a crui scop era:
analiza datelor de observaie prin procedee matematice, desprinderea regularitilor n fenomenul
social i chiar formularea de previziuni. Studiile demografice lsau s se ntrevad c previziunea
fenomenelor colective ar putea avea o nsemntate practic; dealtfel tabelele de mortalitate,
ntocmite n sec. XVIII au constituit punctul de plecare al nfloritoarei industrii de asigurri.
Folosirea metodei statistice, recurgerea la instrumentul matematic i cutarea legitilor marcau un
substanial progres, prefigurnd statistica modern.
Este dificil s se dea o definiie satisfctoare statisticii. n limbaj uzual termenul este
folosit pentru a desemna o colecie de numere referitoare la un anumit domeniu (demografie,
precipitaii, debite). n sens tehnic (mai precis matematic) statistica este un instrument al
matematicii utilizat pentru prelucrarea i interpretarea informaiilor numerice.
Scopul statisticii
Statistica poate fi clasificat n dou mari categorii:
- statistica descriptiv
- statistica analitic.
corelaiei statistice, ale crei aplicaii au permis identificarea unor noi legi de dependen, specific
statistice i adaptate la formele complexe i variate pe care le ofer natura n diferitele sale
manifestri.
n cercetrile moderne se pornete de la ipoteze statistice asupra fenomenului sau procesului
observat, consecinele lor logic deduse se compar apoi cu datele disponibile i dac sunt n
concordan, ipotezele sunt justificate, cel puin pn la noi observaii mai riguroase.
Unul din obiectivele eseniale ale statisticii se consider tocmai msurarea incertitudinii
concluziilor inductive. De la un timp ns, gndirea statistic tinde s se preocupe mai puin de
msurarea incertitudinii i mai mult de determinarea riscului de eroare i a pierderilor implicate de
orice decizie ntemeiat pe o informaie care, prin natura sa, nu poate fi exhaustiv.
Aplicarea calculelor statistice la datele empirice, oferite de observare a fenomenului,
permite desprinderea de legiti statistice.
Fenomenele sunt n interconexiune unele cu altele, n sensul c se genereaz i se
influeneaz reciproc. Acest fapt conduce la noiunea de cauzalitate care exprim interaciunea
dintre cauz i efect astfel nct ntotdeauna cauza s precead efectul. Desfurarea fenomenelor
const astfel ntr-un ir nentrerupt de momente, ntr-o succesiune cauz-efect, efectul fiind la
rndul lui cauz pentru un alt efect .a.m.d. Astfel se formeaz un lan cauzal. Orice ntrerupere a
lanului cauzal nseamn de fapt existena unui efect care s nu aib cauz. Nici un fenomen nu se
abate de la acest principiu care poart numele de principiul cauzalitii. Cunoaterea desfurrii
fenomenelor deoarece exprim raporturile eseniale, necesare, generale, relativ stabile i repetabile
ale fenomenelor i ale desfurrii lor. Putem deosebi dou mari categorii de legi:
- legi fizice, care se aplic fenomenelor i proceselor individuale luate n parte (ex. legea
atraciei universale, legile I, II, III ale dinamicii etc.) i
- legi statistice, care se aplic numai fenomenelor de mas, ansamblurilor de obiecte (ex.
legea gazelor perfecte, legea dezintegrrii radioactive, etc.) i care exprim anumite caracteristici
ale ansamblului considerat.
Legile fizice permit cunoaterea perfect a desfurrii viitoare a fenomenelor pe baza
cunoaterii la momentul iniial a unor mrimi. Astfel, n mecanic, legea a II-a a lui Newton
permite cunoaterea perfect a micrii unui obiect atunci cnd se cunosc la momentul iniial
poziia (trei coordonate) i viteza sau impulsul (trei proiecii) obiectului.
Legile statistice permit cunoaterea desfurrii viitoare a fenomenelor doar n termeni
probabilistici (probabiliti, valori medii, erori statistice etc.). Acest lucru indic de la nceput c
informaia pe care o d o lege statistic este mai srac dect cea dat de legea dinamic. Cu toate
acestea, legea statistic permite cunoaterea desfurrii viitoare a fenomenelor i poate fi tot att
de determinist ca i cea dinamic.
Particularitatea esenial a legilor statistice izvort din faptul c ele acioneaz n
fenomenele de mas, unde ntregul este determinat de unitatea prilor componente, o constituie
exprimarea comportrii ansamblului de uniti omogene i nu a fiecrei uniti n parte. n mod
corespunztor, legea statistic se realizeaz ca o tendin predominant, ca o necesitate care i
croiete drum printr-un numr foarte mare de contingene i care se manifest n aceste contingene
ca media unui numr mare de abateri ntmpltoare. De aici i principiul verificat deseori n
practic: legea statistic poate fi evideniat dac i numai dac este considerat i supus observrii
un numr mare sau suficient de mare de uniti elementare ale ansamblului considerat.
Noiuni elementare
Investigarea statistic presupune, prin definiie, considerarea fenomenelor n multiplicitatea
i variabilitatea lor. Un ansamblu de fenomene formeaz un fenomen de mas, sau, ceea ce numim
populaie statistic, n msura n care elementele componente (indivizi) sunt de aceai natur, adic
au toate o proprietate comun i se deosebesc unele de altele n raport cu aspectele sau valorile
caracteristice luate n studiu. Populaia cu care lucreaz statistica trebuie s fie global omogen - s
includ doar elementele similare, aparinnd de aceeai "categorie" i intern
structurat -
fracionare), cum ar fi numrul membrilor unei familii, nr. de staii hidrologice etc. Variabilele
continue sunt cele care pot lua orice valoare dintr-un anumit interval (nlimea unui individ,
nivelul unui ru etc.). Totui, n practic nu se ntlnete o informaie privind adncimea unui ru
de forma: 1m, 3 cm, 17 microni. Acest lucru nu se va ntmpla fie c precizia aparatelor cu care
efectum msurtorile este limitat, fie c o precizie exagerat nu este ntotdeauna folositoare
pentru ceea ce urmrim n investigaie. Astfel, msurtorile sau datele de observaie se grupeaz n
cadrul unei anumite uniti i deci din punct de vedere practic se lucreaz cu forma discret chiar
dac variabilele sunt de tip continuu. Distincia ntre caracterul cantitativ i cel calitativ, precum i
ntre variabilele discrete i variabilele continue este fundamental deoarece ele recurg la tehnici de
analiz foarte diferite.
Aici trebuie s lmurim un lucru care d deseori natere la confuzii: muli sunt nclinai s
cread c variabilele discrete trebuie s ia numai valori ntregi i c numerele fracionare sunt tipice
pentru variabilele continue; cu alte cuvinte diferena dintre continuu i discret se confund cu
diferena dintre msurtorile cu numere ntregi i cele fracionare. S lum exemplul urmtor: o
variabil ia valorile: 1,041; 1,065; 1,077. Aceasta este o variabil discret deoarece trecerea de la o
valoare la alta se face fr vreo alt valoare intermediar.
Cercetarea statistic a unei colectiviti poate fi:
-exhaustiv (total), cnd fiecare individ este analizat, de exemplu n cazul recensmintelor;
-parial (selectiv), cnd sunt examinai numai anumii indivizi, alei aleator. Ea este cea
mai frecvent folosit, n majoritatea cazurilor fiind i singura posibil.
Partea examinat din colectivitate se numete selecie sau eantion. Numrul indivizilor
examinai se numete volumul seleciei.
Repartiii de frecvene
Exist diferene ntre analiza seriilor dinamice i problemele legate de gruparea i analizarea
materialelor pentru care factorul timp nu are importan. La cercetarea seriilor dinamice problema
de baz o reprezint analiza variabilei timp.
Metodele de analiz folosite n aceste dou cazuri se deosebesc sensibil. n cele ce urmeaz
ne vom ocupa de problemele gruprii i analizei prealabile a datelor numerice pentru care ordinea
de aezare n timp nu conteaz.
Datele statistice n stare brut reprezint o mas dezordonat de materiale. Prima problem
este aceea de a face o asemenea grupare a datelor cu ajutorul creia s se poat aprecia valoarea lor
n legtur cu problema propus, s se poat nlesni comparaia cu alte date de acelai gen i s se
poat obine posibilitatea unei analize ulterioare. nainte ca materialul statistic s fie supus analizei
ulterioare i generalizrilor care vor permite s se fac anumite deducii, el trebuie s capete o
anumit form i o structur clar. Cu alte cuvinte n cadrul analizei datelor statistice trebuie s se
ia n considerare att valorile individuale ct i frecvenele de apariie ale acestora.
n urma observrii caracteristicii cantitative X n n probe se obin urmtoarele date primare:
x1, x2,..., xn
(1)
n cazul n care volumul seleciei este mic aceste date sunt uor de manipulat i nu este nevoie de o
grupare a lor. Dac ns avem o selecie de volum mare este greu de lucrat cu aceste date. n plus
tabelele de date primare nu sugereaz nimic referitor la referitor la repartiia variabilei X. De aceea
este nevoie de o grupare (centralizare) a datelor.
Gruparea datelor se face n funcie de tipul caracteristicii X. Astfel, dac X este o variabil
discret ce poate lua valorile distincte v1, v2 ,..., vn , atunci n locul datelor iniiale se va reine
repartiia empiric:
v1.v2 ...vm
n1.n2 ...nm
(2)
Unde ni, (i=1, m) reprezint frecvena apariiei (numrul de apariii) valorii vi, iar n reprezint
numrul valorilor din irul iniial (1) i se numete frecven absolut a valorii v. Valoare m
reprezint numrul de clase.
Raportul fj =nj/n dintre frecvena absolut i numrul total de probe se numete frecven
relativ. Se observ c
f1 + f2 ++ fm =1 ntruct n1 +n2 + ... +nm = n.
Frecvenele relative, numite impropriu i probabiliti de apariie, stau la baza calculrii densitii
de repartiie a frecvenelor i a indicatorilor care exprim gradul de concentrare. De asemenea
permit compararea a dou repartiii construite pe aceeai variabil, care difer numai prin numrul
unitilor pe grupe.
Dac X este o variabil continu care poate lua valori ntr-un interval [a,b] atunci acest
interval este mprit n m subintervale [aj, aj+1], j=1, m , cu a1 = a i am+1 = b. Pentru fiecare din
aceste subintervale se determin numrul n al valorilor din irul (1) care se afl n acest interval
numit frecven absolut a subintervalului.
Subintervalele [aj, aj+1] se pot lua arbitrar. De cele mai multe ori extremitile se iau
echidistante, deci subintervalele au lungimi egale. ns numrul m al subintervalelor nu se alege la
ntmplare. Este important ca prin gruparea datelor s nu se piard caracterul global al repartiiei
(dac m este prea mic se poate denatura repartiia real a variabilei X). Astfel, dup unii autori
numrul subintervalelor, m, trebuie alese n conformitate cu formula lui Sturges:
m=[1 + 3,322logn]
Mrimea intervalului va fi dat de formula:
xmax xmin
m
hj C
fj
a j 1 a j
constanta C fiind un factor de scar. n cazul cnd subintervalele gruprii au lungimi egale,
nlimea hj va fi proporional cu frecvena relativ, deci hj =C*fj .
Poligonul frecvenelor este o diagram n care pe axa absciselor se iau mijloacele vj ale
intervalelor (aj, aj+1) folosite n grupare, iar pe axa ordonatelor valorile hj definite n construirea
histogramei. Linia frnt care unete punctele de coordonate (vj, hj) se numete poligonul
frecvenelor. El se poate obine din histogram unind mijloacele laturilor superioare ale
drptunghiurilor. n fig 1 poligonul frecvenelor este trasat printr-o linie punctat.
Mrimile c1, c2, ..., cm definite prin:
c j fi
i 1
Quantile
Fiecare clas conine un numr egal de valori. O astfel de clasificare este foarte potrivit n
cazul datelor liniare. Din cauz c datele sunt grupate dup numr n fiecare clas, diagrama
rezultat poate fi neltoare. Datele similare pot fi plasate n clase diferite, sau valori foarte diferite
pot fi grupate mpreun. Aceast distorsiune poate fi evitat mrind numrul de clase.
10
Intervale egale
Aceast schem de clasificare divide irul de valori atribut n subiruri egale. Spre exemplu
n cazul unui ir de valori de la 1 la 300 i a trei clase, fiecare clas reprezint un ir de 100 ( 1-100,
101-200, 201-300). Aceast metod accentueaz cantitatea de valori atribut relativ la celelalte
valori, spre exemplu pentru arta c un magazin este parte a unui lan de magazine care a realizat o
treime din vnzri. Cel mai bine se utilizeaz pentru iruri de date dintr-un anumit domeniu cum ar
fi temperatura i procentele.
11
Deviaia standard
Aceast schem de clasificare arat cu ct variaz o valoare de la medie. Se calculeaz
media i apoi se genereaz clasele adugnd sau scznd din ea deviaia standard.
12
x1 x2 ... xn 1 n
xi
n
n i 1
care se mai numete medie aritmetic ponderat. Numrul care arat de cte ori se repet fiecare
valoare (nj) este "ponderea" valorii respective.
Observaia 1. Media aritmetic are dezavantajul c este sensibil la valori extreme, iar dac
termenii sunt prea "mprtiai", tinde s devin o valoare nereprezentativ. Media aritmetic este o
valoare lipsit de coninut dac elementele sunt deosebite din punct de vedere calitativ, caz n care
este mai util s se fac medii pariale pentru fiecare tip de colectivitate.
Observaia 2. Dac avem mai multe medii, fiecare referindu-se la o anumit categorie,
fiecare medie va fi ponderat n funcie de importana categoriei sale.
13
Media geometric
Media geometric este mai puin sensibil la valorile extreme dect celelalte medii, deci se
ntrebuineaz cnd dorim s atenum divergenele mari dintr-o serie de determinri cu frecvene
egale, fiind dup o expresie "cea mai exact medie". Se utilizeaz cnd valorile au o evoluie (de
cretere sau scdere) permanent, nentrerupt, sau o raie din ce n ce mai mare, termenii fiind
legai ntre ei printr-o relaie de produs. De asemenea se mai ntrebuineaz cnd vrem s dm o
importan mai mare termenilor mai mici, n valoare absolut, sau cnd diferenele ntre termeni
sunt foarte mari. Are dezavantajul c nu se poate ntrebuina cnd avem valori nule sau negative.
Definiia 2. Dac x1, x2,..., xn sunt n valori, media geometric se definete prin
M g n x1 x2 ...xn
lg M g
1 n
lg xi
n i 1
Datorit faptului c se calculeaz mai uor cu ajutorul logarimilor, se mai numete "medie
logaritmic". Ea se utilizeaz i la calcularea ritmului (de cretere sau descretere) numindu-se
astfel i "medie de ritm". n rezumat, se ntrebuineaz cnd:
- seria are o mare dinamicitate;
- termenii au variaii mari;
- distribuia are un caracter pronunat de asimetrie.
Observaia 3. Media geometric se folosete atunci cnd prezint importan variaiile
relative. De asemenea media geometric poate fi folositoare pentru calculul unor rapoarte.
Media ptratica se ntrebuineaz cnd valorile prezint creteri din ce n ce mai mari. Ea
constituie modelul matematic pentru abaterea medie ptratic. Media este sensibil la valori
extreme, din care cauz este ntotdeauna mai mare dect celelalte medii. Are avantajul c se poate
14
aplica i n cazul valorilor nule sau negative (care prin ridicare la ptrat devin pozitive). Se
ntrebuinzeaz cnd dm importan valorilor mari.
Definiia 3. Media ptratic este definit prin formula:
1 n 2
xi
n i 1
x patr, s
1 n
ni vi2
n i 1
x patr, p
Media Armonic
Definiia 4. Media armonic este valoarea invers a mediei aritmetice ale valorilor inverse
datelor de observaie:
Mh
n
n
x
i 1
Exprim caracterul sintetic al unor valori ce se afl n raport invers. Se utilizeaz cnd
frecvenele sunt egale. Pentru o repartiie de frecven, media armonic se folosete rar. Se
utilizeaz cu predilecie n economie.
Media glisant numit i "medie mobil", se utilizeaz n cazul n care irul valorilor
prezint fluctuaii mari, brute i e greu de apreciat tendina (trendul). Se presupune c media
glisant corespunde mijlocului intervalului sintetic. Calculul se face mediind 3 sau 5 valori
alturate.
Definiia 5. Media glisant pentru 3, respectiv 5 valori alturate sunt date de formulele
xglis,3
xi 1 xi xi 1
3
15
xglis,5
xi 2 xi 1 xi xi 1 xi 2
5
Mediana
Definiia 6. Mediana este elementul dintr-un ir de date statistice care ar mpri intervalul n dou
grupe egale ca numr, dup ce acestea au fost ordonate dup mrimea lor. Dac seria are 2n+1
elemente, atunci mediana este elementul n+1, iar dac are 2n elemente mediana este media
aritmetic a celor doi termeni din mijloc.
Indicatorii variaiei
O medie este reprezentativ numai atunci cnd se calculeaz din valori omogene ntre ele.
Cu ct fenomenele sunt mai complexe (dependente de mai multi factori), cu att variaia este mai
mare i utilizarea mrimilor medii devine insuficient. De aceea este important de cunoscut ct de
departe sunt valorile sumei statistice fa de medie. Comparaia se face cu media seriei,
considerat ca fiind valoarea cea mai reprezentativ pentru populaia statistic.
Analiza statistic a unei repartiii poate fi aprofundat prin calculul indicatorilor de variaie.
Aceti indicatori trebuie s serveasc la:
-verificarea reprezentativitii mediei ca valoare tipic a unei populaii statistice;
-verificarea gradului de omogenitate a seriei;
-caracterizarea statistic a formei i gradului de variaie a unui indicator;
-cunoasterea gradului de influen a factorilor dup care s-a facut gruparea unitilor observate.
16
Aa
100
x
Abaterile individuale absolute (di) se calculeaz ca diferena ntre fiecare valoare i media
aritmetic:
di = xi - x , i = 1,...,n
Abaterile individuale relative (dr) se calculeaz ca raportul dintre abaterile individuale absolute i
media aritmetic (se exprima n procente):
dr =
di
x
100 , i = 1,...,n
17
Abaterea medie liniar se calculeaz ca o medie aritmetic simpl sau ponderat, luate n
valoare absolut:
Pentru o serie simpl
| x x |
i 1
Abaterea medie liniar prezint dezavantajul c nu ine seama de faptul c abaterile mai
mari n valoare absolut influenteaz n mai mare masur gradul de variaie a unei caracteristici, n
comparaie cu abaterile mici. n plus, nu este indicat s se renune n mod arbitrar la semnul
valorilor din care se calculeaz o valoare medie. Din aceste considerente se folosete ca principal
indicator sintetic al variaiei abaterea medie patratic.
Abaterea medie patratic sau abaterea standard () se calculeaz ca o medie patratic din
abaterile tuturor elementelor seriei de la media lor aritmetic:
n
(x
i 1
x)2
Acest indicator este mai concludent dect abaterea medie liniar. Prin ridicarea la ptrat se d o
importan mai mare abaterilor mari n valoare absolut, acestea influennd ntr-o msura mai
mare gradul de variaie al variabilelor analizate.
n literatura de specialitate se apreciaz ca pentru o serie de distribuie normal abaterea
medie liniar este egal cu 4/5 din valoarea abaterii medii ptratice.
Abaterea medie ptratic este un indicator de baz, care se folosete la analiza variaiei, la
estimarea erorilor de selecie n calculul de corelaie.
La fel ca abaterea medie liniar, abaterea medie ptratic se exprim n unitatea de masur a
variabilei a crei variaie o caracterizeaz. Prin urmare cei doi indicatori nu se pot folosi pentru
compararea gradului de variaie i n aceasta situaie se recurge la un alt indicator de variaie:
coeficientul de variaie.
18
100
Semnificaie. Cu ct valoarea lui v este mai aproape de zero cu att variaia este mai slab,
colectivitatea este mai omogen, media avnd un grad ridicat de reprezentativitate. Cu ct valoarea
lui v este mai mare cu att variaia este mai intens, colectivitatea este mai eterogen, iar media are
un nivel de semnificaie sczut.
Se apreciaz c la un coeficient de peste 35-40%, media nu mai este reprezentativ i datele
trebuie separate n serii de componente, pe grupe, n funcie de variaia unei alte caracteristici de
grupare.
Se poate afirma c acest indicator poate fi folosit ca un test n aplicarea metodei gruprii.
Dac media aritmetic este aproape de zero, coeficientul de variaie nu are semnificaie.
Dispersia ( 2 ) este media ptratelor abaterilor de la media aritmetic:
2
1
xi x .
Msura dispersiei se refer la mprtierea valorilor dintr-un set de date. Media nu are
semnificaie dac se aplic pe un set de date foarte dispersate. De exemplu dac lum valoarea
medie a oraelor mari (peste 200.000 locuitori) va da o valoare de peste 400.000 datorit
Bucuretiului care are 2.000.000. ns rezultatul nu are nici o semnificaie (nici un ora nu area
aceast valoare).
Msurile dispersiei, exprimate sub forma unitilor de msur ale fenomenului cercetat, nu
sunt ntotdeauna utile atunci cnd se compar dispersiile a dou sau mai multe serii. Compararea
dispersiilor a dou sau mai multe serii d rezultate n urmtoarele 2 situaii:
a) irurile care se compar pot fi exprimate n aceleai uniti, iar mediile pot fi aceleai sau
au dimensiuni aproape egale.
b) irurile care se compar pot fi exprimate n aceleai uniti, ns mediile difer.
Dac seriile se exprim n uniti diferite, dispersiile nu pot fi comparate direct. De aceea de multe
ori se folosete abaterea medie ptratic n loc de dispersie.
19
n unele lucrri aceast mrime se numete varian (din l. engl. variance). Variana este o msur
important n special cnd se studiaz variaia a dou sau mai multe eantioane. O tehnic statistic
foarte puternic este cunoscut sub numele de analiza de varian i utilizeaz dispersia pentru a
decide dac un numr de eantioane difer semnificativ unul de altul.
Skewness i kurtosis
Skewness
Abaterea medie ptratic i dispersia sunt indicatori care dau o msur a mprtierii
valorilor ntr-o distribuie de frecven. ntr-un anume sens ele ofer o msur a limii
distribuiei. Aceasta ns nu ofer nici o informaie privind caracteristicile formei distribuiei de
frecven. Figura de mai jos nfieaz 6 distribuii utiliznd histograma. Aceasta reprezint un set
de date care au acelai numr de valori. Pe orizontal avem o unitate de msur exprimat n abateri
medii patratice (), iar pe vertical avem media aritmetic. Dup cum se observ, se poate face o
comparaie direct.
Aparent cele ase distribuii de frecven sunt foarte diferite. Cele din partea dreapt (b, d, i
f) sunt similare dintr-un singur punct de vedere, anume ele sunt asimetrice, vrful este plasat n
stnga sau dreapta mediei. Spunem c avem o distribuie distorsionat sau asimetric (skewed).
Cele din stnga (a, c, e) au un grad mic de distorsiune (asimetrie). n toate cazurile vrful este n
apropierea mediei. Toate acestea sunt distribuite simetric.
Pe de alt parte cele dou distribuii de pe fiecare rnd pot fi considerate similare, n sensul c au un
anumit grad de ascuire sau kurtosis. Cele din primul rnd sunt foarte ascuite; ele au aceleai
grad de kurtosis. Cele din al doilea rnd au ascuimea mai moderat, iar cele din al treilea rnd
sunt relative plate.
Distorsiunea msoar, deci, volumul de valori din distribuia concentrat de o parte i de
alta a mediei. Dac acest volum de valori este mai mic dect media, spunem c distribuia este
pozitiv distorsionat (b). Dac exist mai multe valori mai mari dect media, spunem c distribuia
este negativ distorsionat (d).
20
n 3
unde la numrtor avem deviaia cubic a valorilor fa de medie, iar este abaterea medie
ptratic.
n rezumat, avem urmtoarele situaii:
-dac S <0 avem distorsiune negativ;
-dac S >0 avem distorsiune pozitiv.
Skewness este un concept cu aplicaii importante n geografie deoarece foarte multe
variabile n geografie au o distribuie accentuat distorsionat. Cu alte cuvinte distribuia de
frecven seamn foarte mult cu cele nfiate n b, d sau f.
n al doilea rnd ali indicatori cum ar fi media sau dispersia pot conduce la interpretri
greite dac se folosesc izolat.
Kurtosis
Kurtosis d o msur a extinderii nspre valorile care sunt concentrate ntr-o parte a
distribuiei de frecven. Dac o clas ntr-o distribuie de frecven conine o foarte mare parte din
21
valorile din distribuie, atunci distribuia prezint un mare grad de kurtosis, iar forma este mai
ascuit.
ntr-o distribuie cu un grad mic de kurtosis (distribuie plat) fiecare clas conine o
proporie similar din toate valorile.
Formula folosit pentru Kurtosis (K) este:
(x x)
K
n 4
Pentru distribuia normal avem K=3, pentru o distribuie ascuita K>3, iar pentru o
distribuie plat K<3.
Din pcate acest indicator nu este folosit n studii geografice asa cum ar fi de dorit. Ca i
skewness kurtosis ofer informaii preioase asupra distribuiei unui set de date suplimentare celor
date de medie i dispersie.
Trebuie remarcat faptul ca multe variabile statistice ntlnite n geografie au o distorsiune
mare dar i un K mare (>3). Cnd se aplic acestor variabile media aritmetica i dispersia, acestea
pot conduce la informaii eronate. Mai mult n aceste condiii datele nu prezint o distribuie
normal astfel c nu pot fi aplicate testele parametrice.
22
Repartiii de frecven
Asocierea dintre distribuia observat i cea teoretic a fost mult timp neglijat n geografie.
Un studiu statistic nu poate fi fcut (nu are sens) fr aceast asociere. Forma unei distribuii
permite gsirea parametrilor descriptivi cei mai potrivii pentru fenomenul urmrit. Recunoaterea
formei unei distribuii este un indiciu pentru procedurile de transformare a datelor n mod
corespunztor. Totodat ncadrarea ntr-o lege de distribuie teoretic permite att operaii de
interpolare ct i de extrapolare.
Ajustarea unei distribuii observate la o distribuie teoretic-adic la modele probabiliste
propriu-zise-implic acceptarea a priori c legile se ncadreaz n repartiia observat/msurat a
fenomenului n cauz.
O cantitate msurabila care poate varia de la un element la altul se numete caracteristic
cantitativ. Uneori se mai folosete termenul de variabil. Ansamblul noiunilor consacrate acestor
caracteristici poart numele generic de teoria caracteristicilor cantitative.
Reamintim c, caracteristicile care pot lua orice valoare numeric ntre anumite limite sunt
numite caracteristici cantitative (variabile) continue. Caracteristicile care pot lua numai anumite
valori se numesc caracteristici cantitative (variabile) discrete (discontinue).
Dac mai multe sute sau mii de valori ale unei variabile au fost notate ntr-o ordine cu totul
arbitrar n care au aprut ele n realitate, va fi dificil s tragem vreo concluzie cu privire la
semnificaia acestor date. De aceea va trebui s condensm datele cu ajutorul unor anumite metode
de ordonare sau grupare astfel ca proprietaile datelor s poat fi uor evideniate. De regul
valorile alese pentru a defini grupele succesive vor fi echidistante, astfel ca numerele provenite din
observaii i care aparin la diferite grupe s poat fi comparabile.
Modul n care frecvenele de grup sunt repartizate n intervale succesive se numete
repartiia de frecven a variabilei.
23
Histograma
De observat c oricare ar fi aceste diagrame (orice form ar avea), o anumit arie reprezint un
numr de observaii.
24
Numarul de observaii care cad n intervalul [x1, x2] este proporional cu aria delimitat de
curb i cele dou drepte.
Dac intervalele de grup sunt micorate, n acelai timp numrul de observaii crete, astfel
nct frecvenele de grup s rmn finite, poligonul i histograma se apropie din ce n ce mai mult
de o curb neted.
O astfel de linie ideal a poligonului i histogramei se numete curb de frecven. Este un
concept esenial n statistic.
Cnd vom aborda teoria seleciei va trebui s privim curba de frecven ca reprezentnd o
populaie din care datele reale reprezint un eantion. Poligonul frecvenelor i histograma vor fi
aproximate cu o curb, dar se vor ndeprta de ea n anumite poriuni, datorit fluctuaiilor seleciei.
Atunci cnd numrul de observaii este considerabil, s zicem 1000, poligonul frecvenelor este
suficient de neted pentru a da o bun imagine a formei repartiiei ideale.
25
26
27
7 i mai mult.
24
Nr. succese
28
SS SI IS II
p2+2pq+q2
de N ori
SSS SSI
ISS
SSS
3SSI
3SII
III
1
1
, q= .
2
2
10
1 1
100 . Termenul care d frecvena a 7 succese i a 3 insuccese este:
2 2
7
1 1
100 C 12
2 2
7
10
29
E Exemplul 2. Acelai text cu ntrebarea: n cte cazuri ne ateptm s obinem cel puin de
7 ori stema.
R. Cutm suma termenilor corespunzatori la 7,8,9 i 10 succese:
100
8
10
C107 C10
C109 C10
17
210
Forma general a repartiiei binomial depinde de valorile lui p i q i de valorile
exponentului n (numrul de ncercri din fiecare serie).
Dac p i q sunt egali, repartiia este evident simetric, deoarece p i q pot fi permutai ntre
ei, fr a schimba valoarea vreunui termen i prin urmare termenii echidistani de la cele dou
capete ale seriei sunt egali. Dac p i q nu sunt egali, repartiia este asimetric.
30
Se demonstreaz c valoarea maxim este atins ntr-un anumit punct pe care l vom nota cu
pk i care este dat de
pk
1
2 npq
Astfel funcia care aproximeaz foarte bine valorile repartiiei binomiale este
1
f ( x)
e
2 npq
( x np) 2
2 npq
unde
y y0e
x2
2 2
31
i a crei forme este determinat de valoarea lui . Aceast curb mai este numit i curba lui
Gauss. n figura de mai jos sunt prezentate dou curbe normale pentru diferite valori ale lui m i .
y e
x2
2 2
dx y 0 2
Dac lum y0
1
, aria este egal cu unitatea.
2
n aceast situaie putem obine imediat forma corespunztoare unei repartiii de orice
frecven dat. Astfel, dac frecvena este N, curba normal corespunzatoare este:
x2
2 2
Media curbei normale, aa cum am vzut, este localizat n origine. Dac dorim s scriem
expresia curbei, n raport cu un alt punct ca origine, obinem forma:
1
xm
1
2
e 2
,
2
32
2 este dispersia;
33
Sondajul statistic
Una dintre cele mai importante probleme este investigarea unei populaii mari ntr-un timp
redus i cu rezultate de cunoatere imediat. Din ansamblul populaiei se alege o parte, numit
colectivitate de selecie sau eantion, parte care va fi supus n mod nemijlocit investigaiei.
Alegerea trebuie fcut de aa manier nct prin intermediul acestui studiu redus s se obin
concluzii cu valabilitate general asupra ntregii populaii. Eantionul trebuie s aib capacitatea de
a reproduce ct mai fidel structurile i caracteristicile populaiei din care este extras.
n cele mai multe situaii, studiile selective constituie o soluie necesar deoarece o
investigare complet a ntregii populaii este imposibil de fcut. Cu alte cuvinte, n loc s se culeag
informaii de la toi indivizii din populaie, se face o prelevare de la o mic parte a ei. Acest gen de
studiu, aa cum vom vedea, asigur un control mai bun al activitii conducnd la o anumit
superioritate pe planul cunoaterii. Dei pare paradoxal, o investigare selectiv poate conine mai
multe caracteristici, spre deosebire de abordarea unei populaii mari care implic o investigare
simplificat. Pe de alt parte studiile arat c dac eantionul este ales corespunztor acesta se va
confunda cu populaia. Un exemplu de anchet naional exhaustiv este recensmntul.
n studiul statistic al fenomenelor se folosete foarte frecvent perechea de noiuni valoare
calculat i valoare estimat. Valorile calculate sunt rezultatul unei cercetri empirice. Acestea
sunt folosite pentru a evalua indicatorii din eantioane care vor deveni estimatori ai colectivitii
generale.
Pentru ca cercetarea selectiv s fie eficient eantionul trebuie s posede o calitate numit
reprezentativitate, care const n capacitatea lui de a reproduce ct mai fidel structurile i
carcateristicile populaiei din care a fost extras. Aceast definiie este destul de imprecis, dar ea
capt o semnificaie exact prin aplicarea tehnicilor teoriei probabilitilor. n acest context
exprimarea cantitativ a gradului de reprezentativitate a unui eantion se face prin dou mrimi:
Eroarea maxim (E) care exprim diferena dintre valoarea calculat din eantion (ve) i
valoarea corespunztoare v a populaiei totale (necunoscut).
E=|v-ve|
Nivelul de ncredere sau nivelul de probabilitate (P) care exprim o msur a ansei ca
eroarea comis s nu depeasc valoarea E.
34
35
36
Dup cum se vede n figur reprezentativitatea atinge foarte repede un nivel suficient de
ridicat, aa nct o cretere suplimentar a numrului de indivizi din eantion nu mai aduce un spor
notabil de reprezentativitate. Cu alte cuvinte valorile calculate nu se mai schimb aproape deloc.
Trebuie fcut remarca important: eantionul format din n indivizi are aceeai
reprezentativitate indiferent de mrimea populaiei din care el a fost extras. De aceea expresii de
genul ce proporie din populaie trebuie s reprezinte un eantion bun sunt lipsite de sens.
Mrimea absolut a eantionului este deciziv.
37
2.Eantionarea prin stratificare. Procedeul, n forma sa cea mai simpl, are la baz
urmtoarea idee: se efectueaz o diviziune a populaiei dup caracteristici, n s clase: N1, N2, ..., Ns
(Ni=N). Alegerea eantionului de volum n se va face n s etape selectnd cu o procedur aleatoare
simpl s subeatioane de mrime n1, n2, ..., ns, fiecare provenind din cte o clas, fiind proporional
cu mrimea clasei respective:
38
39
Estimarea parametrilor
Parametrii calculai pentru o colectivitate de selecie pot fi generalizai la ntreaga
colectivitate n anumite condiii. Aceast generalizare se refer, n particular, la estimarea
parametrilor necunoscui ai colectivitii iniiale (generale). Determinnd un anumit parametru, ne
propunem s obinem o mrime, care ntr-o msur oarecare s fie ct mai apropiat de valoarea
real a parametrului necunoscut. n caz contrar cutm nite limite n interiorul crora, cu o
anumit probabilitate, putem afirma c se afl mrimea real a parametrului necunoscut. n acest
caz avem de-a face cu un interval de ncredere pentru parametrul necunoscut.
Considerm c populaia statistic satisface legea normal. Astfel toi parametri estimai fac
referire la o distribuie normal de frecven.
Estimarea mediei
Vom nota cu 2 dispersia colectivitii generale, cu s2 dispersia colectivitii de selecie (a
eantionului).
Msura erorii standard pentru medie este
Em
s
n
40
X x Em cu o probabilitate de 0,682
X x 2 Em cu o probabilitate de 0,954
Es
s
2n
s Es cu o probabilitate de 0,682
Estimarea proporiilor
Formulele pentru erorile standard pot fi aplicate doar pentru a estima media i abaterea
medie ptratic. Sunt situaii cnd avem exprimri procentuale, cum ar fi procentul de persoane
care au optat pentru o anumit situaie (care au votat pentru un partid). Astfel eroarea standard
pentru estimarea procentelor este:
E%
pq
n
41
unde p este procentul din eantion care posed un anumit atribut, q este procentul din eantion care
nu posed acel atribut, iar n este numarul de indivizi din eantion.
Exemplu. Pe un eantion de 50 indivizi s-a evaluat c 86% dintre acetia au televizoare (p).
Procentul pentru cei care nu au televizoare (q) este de 100 86 = 14 (nu au fost numrai ci
dedui). Avem:
E%
86 14
24,08 4,91
50
Aa cum am procedat la celelalte estimri aceast eroare standard pote fi folosit pentru a
stabili limitele de confiden a procentului estimat al colectivitii generale. Astfel avem :
Populaia gen % = eantion % E% cu probabilitate 0,682
Populaia gen % = eantion % 2 E% cu probabilitate 0,954
Populaia gen % = eantion % 3 E% cu probabilitate 0,997
Pentru exemplul de mai sus semnificaia este urmtoarea. Avem o probabilitate de 0,682 ca
deintorii de aparate TV s fie undeva ntre 81,09% i 90,91% (adic 86-4,91 i 86 + 4,91). La un
nivel de confiden de 0,954, procentele vor fi ntre 76,18% i 95,82% (86-24,91 i 86+24,91).
Mrimea eantionului
n cele expuse mai sus am introdus erorile standard pentru anumite mrimi estimate.
Acestea permit evaluarea limitelor de confiden pe baza unor ipoteze (distribuia normal a
populaiei i un eantion obinut ntr-o manier aleatoare). Pentru evaluarea efectiv a acestora
trebuie s tim doar dou lucruri : mrimea (n) i abaterea medie ptratic (s) a eantionului. n cele
ce urmeaz vom revedea problema invers : ct de mic trebuie s fie eantionul (n) astfel nct
media i abaterea medie ptratic s aibe nite limite de confiden specificate.
Din formula erorii pentru medie
Em
s
n
explicitm pe n:
42
n
E
m
Ex. Dac vrem s avem o eroare pentru medie de 0,25 i o dispersie de 2 => n = 64
Estimri provenite din eantioane mici
n general cel care face estimri pe baz de eantioane este o persoan prudent. Dac
eantioanele sunt mici aceast pruden trebuie mrit. Aa cum am vzut pn acum abaterea
medie ptratic a eantionului (s) este foarte important pentru stabilirea limitelor de confiden ale
mediei i abaterii medii ptratice pentru colectivitatea general. Cnd se lucreaz cu eantioane
mici, de 10 sau mai mici, trebuie s adoptm nite limite de confiden mai mari.
Astfel estimarea abaterii standard va fi nlocuit cu cea mai bun estimare a abaterii
notat cu i care se calculeaz din formula
n
n 1
(x x)
i 1
n 1
Se observ c pentru eantioane mari aceast valoare nu difer prea mult de s, dar pentru
valori mici ale lui n aceast diferen poate fi semnificativ. Valoarea lui este ceva mai mare
dect s i astfel limitele de confiden vor fi mai largi. Toate calculele privitoare la erori se vor face
cu i nu cu s.
43
Corelaia statistic
n procesul de cercetare a legturilor cauzale existente ntre fenomenele naturale avem de-a
face cu contopirea aciunilor unei multitudini de factori (cauze), dintre care unii eseniali, alii
neeseniali, unii pot fi determinai, alii nu. Tocmai de aceea, n cercetarea legturii reciproce dintre
dou fenomene apar dificulti mari deoarece pot s existe cauze necunoscute. n astfel de situaii
este util s determinm gradul de corelare i apoi s analizm separat unele din aceste cauze. Cu
alte cuvinte, trebuie s definim relaii posibile ntre diferii factori, evenimente, atribute sau
caracteristici care ar putea avea o influen, cel puin parial asupra datelor experimentale. n acest
mod este posibil stabilirea unui tablou al condiiilor n care se desfoar un anumit fenomen
natural, fapt care duce la modelarea matematic a sa. Astfel de probleme se cerceteaz cu mult
succes prin metodele statisticii, unde teoria corelaiei are o pondere nsemnat.
Eficiena aplicrii metodei corelaiei depinde de punerea (enunarea) corect a problemei n
studiu precum i de aplicarea corect a statisticii matematice.
Caracterul complex al dependenei statistice pune pe primul plan problema identificrii
existenei legturilor. Calculul indicatorilor de corelaie este admis cu condiia stabilirii anticipate a
unei legturi cauzale reale ntre fenomenele cercetate. Statistica nu poate s rezolve o astfel de
problem fr ajutorul tiinei din domeniul creia face parte fenomenul studiat. Cu alte cuvinte,
specialistul din domeniul respectiv trebuie s cunoasc temeinic noiunile analizei statistice
implicate pentru a da o interpretare corect a rezultatelor. Pentru a asigura deducii suficient de
ntemeiate, este necesar includerea n cercetare, dac este posibil, a tuturor factorilor cu aciune
esenial.
n multe procese naturale, pe lng complexa ntreptrundere cu alte fenomene (procese),
acestea mai sunt supuse unor evoluii care la prima vedere pot fi considerate probabiliste
(aleatoare). De aceea, pentru cunoaterea modului de evoluie probabil n viitor - prognoza unui
anumit fenomen - trebuie s ne bazm pe cunoaterea evoluiei trecute, precum i pe situaia
prezent. Experiena unui mare numr de observaii (probe) au dus la concluzia c ntre diferitele
mrimi variabile pot exista urmtoarele tipuri de relaii:
a) Relaia de dependen, Y depinde de X sau invers. O modificare a unei variabile duce la
o modificare a celei de-a doua. n cazul unei astfel de relaii s-ar putea aminti existena relaiei
44
cauzale n care o variabil este cauza, iar cealalt este efectul, cauza fiind un fenomen sau un
complex de fenomene care provoac, genereaz sau determin un alt fenomen - efectul. Operaia
logic prin care efectul este dedus din cauz se numete inferen cauzal.
b) Relaia de interdependen, Y depinde de X i X depinde de Y. n acest caz modificarea
unei variabile provoac modificarea celei de-a doua variabile, iar modificarea acesteia din urm are
influen asupra primei variabile.
c) Relaia de tranziie, X se transform parial sau total n Y i invers.
d) Corelaia statistic sau covariana. Pentru X exist ntotdeauna Y i invers. Este o relaie
reciproc dintre dou variabile, dintre care una n mod logic apeleaz la alta i pe baza analizei
datelor experimentale se poate pune n evidenz o asociere ntre ele.
e) Relaia stochastic; dac se realizeaz X atunci cu o anumit probabilitate se realizeaz i
Y, sau invers.
n cele ce urmeaz vom analiza cu precdere corelaia statistic.
O problem important pentru cercetarea corelaiilor este problema determinrii funciei de
regresie, care s exprime relaia cantitativ dintre fenomenul efect i fenomenul cauz. Forma
legturii dintre fenomene i descrierea printr-o ecuaie analitic, pe baza crora se definesc valorile
fenomenului efect, n funcie numai de factorul sau factorii luai n considerare (cauze).
Pentru ajustarea seriei de valori empirice trebuie s se aleag acea ecuaie care oglindete n
modul cel mai corespunztor caracterul legturii cercetate. De buna alegere a funciei de regresie
depinde rezultatele analizei de corelaie, valoarea estimaiilor variabilei dependente. Stabilirea
formei legturii ine seama de natura dependenei fenomenului cercetat (de obicei se reprezint
grafic).
La fenomenele simple, unde cauzele acioneaz separat, relaia dintre fenomenul-efect i
fenomenul-cauz se reprezint sub forma:
y=f(x)
unde x reprezint cauza, iar y efectul.
La fenomenele complexe, dependena se exprim sub forma general:
y = f(x1 , x2 ,..., xn)
45
Fenomenul y este generat de aciunea comun a factorilor x1 ,x2 ,.., xn (cauze), din care lum
ns n calcul numai o parte.
S admitem c am luat n calcul factorul x1. ntrebarea care se pune este urmtoarea: n ce
condiii indicatorii corelaiei obinui exprim msura real a influenei variabilei x1 asupra
variabilei y? Numai cu condiia ca factorul x1 s fie hotrtor n determinarea lui y, ceilali fiind
nesemnificativi. n cazul n care fenomenul este sub aciunea unui complex de factori eseniali i
aceasta este situaia obinuit, pentru a exprima influena i gradul de intensitate a legturilor n
raport cu un singur factor trebuie s eliminm influena celorlai.
S considerm o colectivitate statistic caracterizat prin mrimile X i Y. Efectund o serie
de determinri experimentale (sau observaii) asupra acestei colectiviti, putem ntocmi tabela
datelor respective:
X | x1, x2 , ..., xn
Y | y1 , y2 , ..., yn
Repartiia empiric a celor dou variabile se poate afia grafic, ntr-un sistem de axe XOY,
unde vom reprezenta punctele de coordonate xi i yi. Un ansamblu de astfel de puncte se numete
cmp de corelaie, tabel de corelaie sau nor statistic.
Dac punctele Mi(xi ,yi) sunt distribuite de-a lungul unei fii, care n general, urmeaz o
curb determinat, spunem c ntre mrimile respective exist o dependen funcional. Dac
punctele Mi(xi ,yi) nu arat o dependen funcional strict, dar exist o tendin ca valorile lui Y s
depind de cele ale lui X dei nu n mod riguros, ntre mrimile X i Y exist o corelaie Aceasta
poate s fie liniar (fig. 1) sau neliniar (fig. 2). n cazul cnd ntre X i Y nu exist nici un fel de
dependen, cmpul de distribuie se va prezenta asemntor cu acela artat n fig. 3, 4. Cele dou
caracteristici sunt independente.
46
47
y = ax + b ,
y = ax2 + bx + c ,
y = aebx + c ,
48
y = a + h sin( t + )
S [ yk f ( xk ; a0 , a1 ,..., an )]2
k 1
s ia valoarea minim.
Consideraia formulat se pstreaz i pentru determinarea estimaiilor parametrilor unei
funcii de mai multe variabile. Adic un efect i dou cauze. De exemplu, pentru funcia z de dou
variabile x i y, estimaiile parametrilor a0, a1,..., an se determin din condiia ca expresia:
n
S [ zk f ( xk , yk ; a0 , a1 ,..., an )]2
k 1
s fie minim.
Aflarea valorilor parametrilor a0, a1,..., an, care conduc la cea mai mic valoare a funciei
s s(a0 , a1,..., an )
revine la rezolvarea sistemului de ecuaii
S
S
S
0,
0
0 ,,
a0
an
a1
Dac formula empiric depinde liniar de parametrii necunoscui atunci sistemul de mai sus va fi de
asemenea liniar.
49
Dreapta de regresie.
n cazul cel mai simplu se studiaz numai dou variabile X, Y i se dorete gsirea
dependenei:
Y = aX + b
n ipoteza c X este cauza i Y este efectul.
n urma celor n probe se cunosc datele (xi ,yi), i=1,..., n i trebuie s determinm coeficienii
a i b astfel nct suma
n
S (a, b) (axi b yi ) 2
i 1
c xy
2
x
y c xy
y
rxy
x x y x
b y ax
Yy
y
rxy ( X x )
x
Dreapta de regresie
50
X x
x
rxy (Y y )
y
Se observ c cele dou drepte de regresie coincid dac i numai dac rxy2 1 .
Observaii.
1. Trebuie s facem observaia c, indiferent de gradul de mprtiere al punctelor,
ntotdeauna se poate gsi o dreapt de regresie, dar n cazul unei dispersii mari aceasta devine
inutil. De aceea un studiu preliminar a distribuiei punctelor n plan sau spaiu se impune cu
necesitate.
2. Coeficientul de corelaie este o mrime foarte important n cadrul regresiei liniare. El
msoar gradul de dependen liniar ntre cauz i efect i are o valoare cuprins ntre 1 i 1.
Apropierea de 1 implic o dependen liniar puternic ntre mrimi, iar apropierea de zero indic o
lips a corelatiei. Valorile negative semnific o corelaie invers.
EXEMPLE
n cele ce urmeaz vom lua dou exemple. n primul exemplu vom determina o dreapt de
regresie, corespunztoare debitului i al pH-ului, msurate n perioada ianuarie -decembrie 1993
pe rul Arie. Datele au fost obinute de la R.A. Apele Romne.
PH
Debit 13 40 80 23 50 30 25
60
7.6 7.8
10 28 15
59
Variatia debit-pH
120
100
80
60
40
20
0
y = -32.633x + 284.03
debit
Linear (debit)
10
51
68
Se observ c pH-ul scade odat cu creterea debitului. La debite mai mari procesele hidrice
(dizolvare, diluie etc) fiind mai accentuate. La valori mai mici ale debitului, pH-ul crete devenind
uor acid (7,6 7,9) sau acid (8,7). Coeficientul de corelaie este r=-0,87946; avem astfel o
corelaie invers strns.
n al doilea exemplu am determinat curba de regresie corespunztoare variaiei debitului i
suspensiilor. Datele au fost obinute n urma analizelor fizico-chimice efectuate pe Valea Zalului,
de pe teritoriul municipiului Zalu n anul 1995.
debit 251 190 308 375 165 357 369 280 469 640 215 150 169 550 460
susp. 75 68 157 200 69 134 125 67 205 270 48 90 88 125 145
Variatia debit-suspensii
300
y = 46.436e0.0026x
250
200
susp.
150
Expon. (susp.)
100
50
0
0
500
1000
i 1
52
sx2 s y2 cxy2
1 rxy2
sx
b
sx2 s y2 cxy2
1 rxy2
sx
i ecuaia de regresie:
Z z a( X x ) b(Y y )
Reprezentat geometric aceast ecuaie este un plan n spaiul oxyz. Interpretarea este
urmtoatrea: acest plan este planul care ajusteaz cel mai bine irurile xi i yi, i=1,..., n. Cu alte
cuvinte, dac Z reprezint efectul, X i Y reprezint cauzele, n consecin, Z arat dependena
liniar de cele dou variabile X i Y luate mpreun.
53
Corelaia rangurilor
Exist cazuri n care ne intereseaz gradul de corelaie dintre dou serii de mrimi, dar cnd
nu putem efectua msurtorile respective. n anumite tipuri de probleme avem de-a face cu
caracteristici care nu pot fi exprimate prin cifre, dar pot fi ordonate dup un aumit criteriu. n astfel
de cazuri vom lua n considerare ordinea lor i nu evaluarea numeric.
n cazul n care rangul anumitor caracteristici este mai accesibil dect msurtorile efective,
pentru examinarea legturilor dintre anumii parametrii, putem cerceta corelaia rangurilor
respective. Prezentm mai jos cteva procedee de evaluare a anumitor corelaii n care se ine
seama de ordonarea mrimilor caracteristice, adic n care se utilizeaz rangul sau poziia pe care
le au anumite mrimi, una n raport cu alta. Vom determina deci coeficientul de corelaie al
rangurilor.
Coeficientul lui Spearman
Fie n numrul de elemnte ale unei mulimi ordonate dup caracteristici calitativ diferite.
Pentru c avem n uniti statistice A1, A2, ... , An, fiecare dintre ele avnd dou caracteristici
(x1, y1), (x2 , y2),...,(xn, yn)
Pentru caracteristica x dispunem de ordonarea: x1 , x2 ,...,xn, iar pentru caracteristica y avem:
y1, y2 ,...,yn, unde x i y sunt simple permutari ale celor n numere naturale. Notm:
di = xi yi
(k=1, 2,...,n)
unde vectorul de componente di este o mrime a gradului de apropiere pe care o poate avea
corespondena dintre x i y. Dac d=0, nseamn c toi indivizii considerai au cele dou
caracteristici n aceeai ordine, avem deci o coresponden perfect. Cu ct diferenele di sunt mai
mari, cu att mai mare este discordana ntre cele dou caracteristici.
Pentru o cercetare a corelaiei rangurilor, vom considera scrise n ordine cresctoare sau
descresctoare toate valorile lui xi iar alturi scriem valorile corespunztoare ale lui yi, acestea din
urm putnd fi sau nu n vreo anumit ordine. Prin urmare, n cadrul ordonrii dup rang, x ia
valorile: 1,2,3,..., n ntr-o anumit ordine, pe cnd y ia aceleai numere dar ordonate dup aceast
caracteristic. Pentru ca s nu existe compensri ntre valorile di se va lua ptratul acestor valori.
Astfel se definete coefficient de corelaie al rangurilor (coeficientul lui Spearman) ca fiind
expresia:
54
6 d i2
n(n 2 1)
Dac =1 avem concordan maxim, iar dac =-1 avem discordan maxim.
Pentru o ilustrare mai sugestiv vom lua un exeplu. Considerm c A1, A2, ... , An
reprezint n persoane, caracteristicile x1 , x2 ,...,xn, fiind nlimea lor msurat n cm, iar
caracteristicile y1, y2 ,...,yn greutatea lor msura n kg. Se pune problema dac exist o corelaie
ntre aceste dou caracteristici. Pentru simplificare vom lua n=10. Aceast clasificare are urmtorul
rezultat.
A1
A2
A3
A4
A5
A6
A7
A8
A9
A10
10
10
n prima linie sunt cele 10 persoane, n linia a doua ordinea pe care o ocup fiecare persoan
dup nlime (cresctoare), iar n linia a treia ordinea lor dup greutate. Aceast ordonare ne
permite s dm un criteriu privind legtura ntre aceste dou caracteristici.
Vom deosebi dou situaii extreme. Situaia cea mai strns legat (cel mai nalt este cel mai
mare n greutate):
A1
A2
A3
A4
A5
A6
A7
A8
A9
A10
10
10
i situaia cu legtura cea mai slab (cel mai nalt este cel mai mic n greutate).
A1
A2
A3
A4
A5
A6
A7
A8
A9
A10
10
10
Rangurile obinute n cele dou clasificri pot oferi o indicaie asupra corelaiei dintre cele dou
caracteristici. Diferenele dintre cele dou valori sunt (primul ir minus al doilea ir):
-1
-1
-2
55
-2
-1
d
i 1
2
i
=0,862
Apropierea de 1 lui indic o corelaie destul de mare ntre carcatristicile luate n considerare.
56
PARTEA IIa
INTRODUCERE N TEORIA PROBABILITATILOR
Noiunea de probabilitate este un concept fundamental n statistic. Toate testele statistice
implic calculul probabilitilor, fie direct, fie indirect. Statistica nu lucreaz cu certitudini, ci cu
probabiliti. Ipotezele statistice nu pot fi considerate n totalitate adevrate sau false.
Raionamentul probabilist explic evenimentele fundamentale ale universului fizic n care
trim precum i o mare parte din evenimentele petrecute n lumea fiinelor vii. Utilitatea aproape
nelimitat a raionamentului probabilist este unul din aspectele cele mai importante i mai izbitoare
ale tiinei moderne. Acest punct de vedere a fost dezvoltat i acceptat mai ales n ultimii 80 de ani,
cu toate c teoria probabilitilor s-a nscut cu peste trei secole n urm.
Vom examina n acest capitol numai acel tip de raionament, n care un pas conduce n mod
ordonat la pasul urmtor, ntregul proces succesiv conducnd n final la o concluzie. Acest gen de
gndire ajunge la un nivel foarte rafinat n matematic, precizia sa depinznd de mai muli factori:
modul precis n care sunt definii termenii, rigoarea cu care definiiile sunt respectate i atenia cu
care toate regulile de aciune sunt puse n eviden i clar exprimate. Acest mod de a gndi
constituie gndirea logic, iar logica nsi poate fi definit astfel drept studiul sistematic al
condiiilor i procedeelor care permit o judecare valabil, cu alte cuvinte care permit s se
porneasc de la una sau mai multe afirmaii i s se deduc din aceasta una sau mai multe concluzii,
sau propoziii noi care s fie valabile, n sensul justificrii lor de ctre propoziiile iniiale ale cror
consecine sunt de fapt. Este extrem de important faptul c logica nu afirm ceva din nimic ci
scoate la iveal afirmaii, propoziii i relaii cuprinse n propoziiile iniiale. Ceea ce are
importan, prin urmare, ntr-o ntr-o astfel de gndire logic nu este adevrul, ci mai degrab
valabilitatea sa. O concluzie logic poate s merite pe drept cuvnt adjectivele : corect, sntoas
sau precis, toate acestea nsemnnd c ea a fost dedus n mod riguros din materialul iniial. Dar
faptul c a fost dedus prin metode logice corecte nu nseamn ctui de puin c ea este n mod
necesar adevrat. Dac afirmaiile (ipotezele) iniiale sunt adevrate, atunci consecinele logice
deduse trebuie s fie adevrate.
Logica probabilist ia n considerare o serie ntreag de afirmaii, dintre care nici una nu
este total fals sau total adevrat, ordonndu-le n raport cu gradul lor de adevr, spunnd cu ct
57
este mai plauzibil sau mai puin plauzibil una fa de cealalt. Logica probabilist nu se limiteaz
numai la dou valori de adevr 0 i 1, ci utilizeaz o infinitate de valori exprimate ca numere situate
ntre 0 i 1.
Teoria probabilitilor poate s analizeze acele situaii n care nu avem suficiente informaii
care s permit aplicarea logicii clasice; ea este capabil s ne dea un cel mai bun tip de rspuns pe
care-l justific o informaie incomplet. ntr-un mare numr de cazuri, teoria probabilitilor nu ne
spune numai "sfatul meu este aa i aa", ci poate s ne indice gradul de ncredere pe care suntem
ndreptii s-l acordm sfatului dat.
n diferite stadii ale dezvoltrii tiinei se poate considera un ansamblu de fenomene reale i
se poate cuta pentru el un model matematic. De exemplu o familie de ipoteze plus teoria pur care
rezult pe baza acestora i care se aplic cu strict precizie unui sistem fizic idealizat - suficient de
asemntor sistemului fizic real - n aa fel nct teoria sistemului idealizat va "explica" sau mcar
va organiza i simplifica fenomenele reale.
Primii experi n teoria probabilitilor vorbeau despre extragerea de bile colorate din urne.
Aceasta nu pentru c lumea ar fi ntr-adevr interesat n urne cu bile ci pentru c deseori acestea
puteau fi folosite ca modele utile ale unor situaii reale. Calculele probabilistice se aplic strict la
modele fictive pe care ele sunt bazate. Dac ele se aplic sau nu n mod util situaiilor reale este o
chestiune la care trebuie s reflectm cu grij.
Cmp de evenimente
n teoria probabilitilor sunt studiate experienele cu rezultat ntmpltor, numite
experiene aleatoare; pe scurt experiene (experimente).
Definiie. Prin experien n teoria probabilitilor se nelege orice act care poate fi repetat n
condiii date.
Nu se poate preciza rezultatul exact al unei experiene. De exemplu la aruncarea unei
monede nu se poate ti dinainte ce fa a monedei va apare. De asemenea la aruncarea unui zar nu
se poate ti dinainte ce fa a zarului va apare. Orice eveniment aleator depinde de aciunea
combinat a mai multor factori ntmpltori.
Rezultatele posibile ale experienei se numete prob.
58
Definiie. Orice situaie legate de experien i despre care putem spune c s-a produs sau
nu, dup efectuarea experienei, poart numele de eveniment. aleator
Cu alte cuvinte, un eveniment aleator sau pe scurt eveniment (ataat experienei) este orice situaie
care se poate realiza prin una sau mai multe probe.
Deci un eveniment este determinat prin mulimea probelor prin care se realizeaz, prin
urmare l putem interpreta ca o submulime a mulimii tuturor probelor experienei.
Exemple
1. Aruncarea unei monezi este un experiment. Apartiia oricrei fee o prob. Apariia unei
anumite fee este un eveniment.
2. Aruncarea zar este un experiment. Apartiia oricrei fee o prob. Apariia unei anumite
fee este un eveniment. Apariia feelor 2, 3, 4, este de asemenea un eveniment.
Evenimentele aleatoare se supun unor legi, cunoscute sub numele de legi statistitice, teoria
probabilitilor stabilind forma lor de manifestare i permind s se prevad desfurarea lor.
Evenimentele care se realizeaz printr-o singur prob se numesc evenimente elementare,
celelalte se numesc evenimente compuse.
Evenimentul care se realizeaz prin oricare din probe se numete eveniment sigur (notat
prin E).
Exemplu. Apariia oricrei fee la o moned sau la un zar.
Evenimentul care nu se realizeaz prin nici o prob se numete eveniment imposibil, notat
cu .
Exemplu. Apariia niciunei fee la o moned sau la un zar.
Evenimentul contrar lui A sau non-A (sau ) este evenimentul care se realizeaz atunci i
numai atunci cnd nu se realizeaz A.
Exemplu. Apariia unei fee cu numr par la un zar i apariia unei fee cu numr impar sunt
evenimente contrare.
ntotdeauna unui eveniment i corespunde un eveniment contrar, a crui producere nseamn
nerealizarea primului.
Definiie. Spaiul de selecie asociat cu o expereien este mulimea de elemente cu
proprietatea c orice eveniment rezultat n urma experienei corespunde unui singur element al
acestei mulimi.
59
60
P(n; m) Cnm p m q n m
Deoarece probabilitatea P(n;m) este coeficientul lui xm din dezvoltarea (q+px)n acesat
schem se mai numete schema binomial.
Schema lui Bernoulli mai poate fi realizat printr-o urn cu bile de dou culori (albe i negre), se
extrage pe rnd cte o bil din urn, dar de fiecare dat bila se pune napoi, motiv pentru care se
mai numete schema bilei revenite (ntoarse).
2. Schema bilei nerevenite
Dintr-o urn cu a bile albe i b bile negre se extrag n bile, na+b. Probabilitatea Pa,b(,) ca
62
Pa ,b ( , )
Ca Cb
Cab
P(A)=p1p2plq1q2qm,
l+m=n
Variabil aleatoare.
Pn acum ne-am ocupat de apariia sau neapariia unor evenimente, aadar de latura
calitativ a fenomenului aleator. Pentru studiul matematic al fenomenelor aleatoare este necesar ca
descrierea acestora s aib expresii cantitative, care s poat fi tratate din punct de vedere
matematic. Aceast expresie cantitativ este dat de variabila aleatoare. Deoarece noiunea de
variabil aleatoare este foarte important trebuie s-i acordm o atenie deosebit. Pentru a se
nelege mai bine aceast noiune i vom da, la nceput, o definiie intuitiv.
Numim variabil aleatoare o mrime care drept rezultat al unui experiment- poate lua o
valoare oarecare, fr s se poat preciza dinainte care anume. Adic mulimea de evenimente este
discret (avem un numr finit de evenimente) vom avea o variabil aleatoare discret, iar n caz
contrar o variabil aleatoare continu. Valorile posibile ale variabilelor aleatoare disrete pot fi
enumerate dinainte, spre deosebire de variabilelor aleatoare continue, care pot lua orice valoare
ntr-un anumit interval.
Definiia riguroas a variabilei aleatoare este urmtoarea.
Definiie. O variabil aleatoare este o funcie (msurabil) definit pe mulimea
evenimentelor E cu valori n mulimea numerelor reale.
Aa cum am amintit, dac E={A1 , A2 , , An} avem o variabil aleatoare discret i ea,
notat cu X, ia valoarea x1 dac se verific evenimentu A1 , ia valoarea x2 dac se verific
evenimentu A2 .a.m.d. Fiecare din valorile x1, x2,, xn este posibil dar nici una sigur. De aceea
se spune c probabilitatea ca variabila aleatoare X s ia valoarea xi este pi=P(X=xi), unde P este
funcia de probabilitate definit mai sus axiomatic.
63
Variabila aleatoare va fi mult mai bine precizat atunci cnd se cunoate probabilitatea cu
care este luat fiecare valoare.
Definiie. Numim distribuia sau repartiia variabilei aleatoare X, tabloul
x1 x2 ...xn
X
p
p
...
p
1 2 n
Unde pi sunt probabilitile de apariie ale vaorilor xi, i=1,n i se mai scrie pi = P(X= xi) ;
deci X= xi este un eveniment.
Distribuia unei variabile aleatoare X poate fi reprezentat grafic n plan, prin poligonul de
repartiie, care se obine unind printr-o linie poligonal punctele de coordonate (xi, pi), i=1,n ; n
general pe cele dou axe se iau msuri diferite.
Distribuii clasice de probabilitate
1. Distribuia corespunztoare schemei lui Bernoulli (binomial).
Se ataeaz schemei lui Bernoulli o variabil aleatoare X care reprezint numrul de apariii
ale evenimentului A atunci cnd se efectueaz n experiene. X are urmtorul tablou de distribuie
0 1 2 k n
X n 1 n 1 2 2 n 2
k k nk
n
q
C
pq
C
p
q
C
p
q
p
n
n
k
C
k 1
k
n
p k q n k ( p q) n 1
0 1 k n
Cak Cbn k
1
n
k 1 Ca b
n
0 1 2 k n
X
p0 p1 p2 pk pn
unde pk este coeficientul lui xm din polinomul
P(x)=(p1x+q1) (p2x+q2)(pnx+qn),
pn=1
64
Funcia de repartiie.
Definiie. Fie X o variabil aleatoare i F(x) probabilitatea ca X s ia valori mai mici dect
x, adic F(x) = P(Xx). Funcia F(x) se numete funcie de repartiie a variabilei aleatoare X.
n cazul n care variabila aleatoare X este o variabil aleatoare discret i are repartiia
x1 x2 ...xn
X
p1 p2 ... pn
funcia de repartiie F este o funcie n scar definit prin:
0, a x1
p ,x a x
2
1 1
p2 , x2 a x3
...
F (a)
p1 p2 ... pi , xi a xi 1
...
p1 p2 ... pn 1 , xn 1 a xn
1, a x
i
65
Bibliografie
1. Bot E., Leonhard W, 2002, Microsoft Office XP, Ed. Teora.
2. Baron T., Korka M., Pecican E., 1981, Stnescu Maria, Statistic pentru comer i
turism, Ed. Did. i Ped. Bucureti
3. Ciucu B., Craiu V., 1971, Introducere n teoria probabilitilor i statistic
matematic, Ed. Didactic i Pedagogic, Bucureti.
4. Ebdon D., 1989, Statistics in Geography, Blackwell Inc., New-York .
5. Person R., 1997, Utilizare Excel, Ed. Teora
6. Petcu Nicoleta, 2000, Stastistic n turism. Teorie i aplicaii, Ed. Albastr (Grupul
Microinformatica), Cluj-Napoca.
7. Rotaru T., Bdescu G., Culic Irina, Mezei E., Murean Cornelia, 1999, Metode
statistice aplicate n tiine sociale, Ed. Polirom, Iai.
8. Yule G.U., Kendall M.G., 1969, Introducere n teoria statisticii, Ed. St., Bucureti.
66