Sunteți pe pagina 1din 66

PARTEA I

STATISTIC DESCRIPTIV
Curs 1: Scurt istoric
ntr-o prim concepie, statistica echivala cu descrierea statului, expunerea situaiei
geografice, economice i politice. Acest gen de statistic a fost cultivat mai nti de italieni. nc
din sec. XIII - XIV n Republica Veneia se elaborau diferite rapoarte care conineau informaii
privitoare la partenerii si comerciali i au fost utilizate n politica comercial oficial.
Curentul "descrierea statului" a atins apogeul n sec. XVII- XVII cnd, n Germania, s-a
constituit o adevrat coal cunoscut sub denumirea de coala descriptiv german.
Descrierea statului a devenit disciplin de predare acadamic, ncadrat ntr-un sistem
construit dup norme teoretice i practice, care s-au elaborat i dezvoltat n universitile germane.
Noua disciplin (Staatskunde), a primit numele de statistic (Statistik).
Pe vremea constituirii statisticii ca disciplin descriptiv a statului, se ntea n Anglia, n
afara universitilor, o statistic cunoscut sub numele de aritmetica politic, a crui scop era:
analiza datelor de observaie prin procedee matematice, desprinderea regularitilor n fenomenul
social i chiar formularea de previziuni. Studiile demografice lsau s se ntrevad c previziunea
fenomenelor colective ar putea avea o nsemntate practic; dealtfel tabelele de mortalitate,
ntocmite n sec. XVIII au constituit punctul de plecare al nfloritoarei industrii de asigurri.
Folosirea metodei statistice, recurgerea la instrumentul matematic i cutarea legitilor marcau un
substanial progres, prefigurnd statistica modern.
Este dificil s se dea o definiie satisfctoare statisticii. n limbaj uzual termenul este
folosit pentru a desemna o colecie de numere referitoare la un anumit domeniu (demografie,
precipitaii, debite). n sens tehnic (mai precis matematic) statistica este un instrument al
matematicii utilizat pentru prelucrarea i interpretarea informaiilor numerice.

Scopul statisticii
Statistica poate fi clasificat n dou mari categorii:
- statistica descriptiv
- statistica analitic.

Statistica descriptiv se ocup de prezentarea, clasificarea i sintetizarea datelor de


observaie. Aceasta concentreaz informaia existent n datele respective cu ajutorul anumitor
indicatori statistici care, n fond, sunt nite numere ce exprim caracteristici sau tendine ale
fenomenului studiat.
Statistica analitic folosete metode matematice (teoria probabilitilor) pentru extragerea
i prelucrea informaiei statistice; n multe cazuri aceste metode pun n eviden legiti statistice.
Depirea stadiului descriptiv, al simplei metode cantitative, a nsemnat, istoric vorbind,
deplasarea gndirii statistice spre interpretarea analitic a fenomenului i obinerea de concluzii
inductive, pe baza observaiilor empirice. Aceast schimbare de coninut a fcut ca statistica s se
ntreptrund n mod constant cu matematica, n cutarea de metode corespunztoare obiectivelor
sale.
Transpus ntr-un limbaj matematic statistica s-a

construit ntr-o teorie numit teoria

corelaiei statistice, ale crei aplicaii au permis identificarea unor noi legi de dependen, specific
statistice i adaptate la formele complexe i variate pe care le ofer natura n diferitele sale
manifestri.
n cercetrile moderne se pornete de la ipoteze statistice asupra fenomenului sau procesului
observat, consecinele lor logic deduse se compar apoi cu datele disponibile i dac sunt n
concordan, ipotezele sunt justificate, cel puin pn la noi observaii mai riguroase.
Unul din obiectivele eseniale ale statisticii se consider tocmai msurarea incertitudinii
concluziilor inductive. De la un timp ns, gndirea statistic tinde s se preocupe mai puin de
msurarea incertitudinii i mai mult de determinarea riscului de eroare i a pierderilor implicate de
orice decizie ntemeiat pe o informaie care, prin natura sa, nu poate fi exhaustiv.
Aplicarea calculelor statistice la datele empirice, oferite de observare a fenomenului,
permite desprinderea de legiti statistice.
Fenomenele sunt n interconexiune unele cu altele, n sensul c se genereaz i se
influeneaz reciproc. Acest fapt conduce la noiunea de cauzalitate care exprim interaciunea
dintre cauz i efect astfel nct ntotdeauna cauza s precead efectul. Desfurarea fenomenelor
const astfel ntr-un ir nentrerupt de momente, ntr-o succesiune cauz-efect, efectul fiind la
rndul lui cauz pentru un alt efect .a.m.d. Astfel se formeaz un lan cauzal. Orice ntrerupere a
lanului cauzal nseamn de fapt existena unui efect care s nu aib cauz. Nici un fenomen nu se
abate de la acest principiu care poart numele de principiul cauzalitii. Cunoaterea desfurrii

evenimentelor este asigurat de cunoaterea legilor care guverneaz fenomenul i a ansamblului de


condiii n care se desfoar acesta. Deci legea este un

element primordial n cunoaterea

fenomenelor deoarece exprim raporturile eseniale, necesare, generale, relativ stabile i repetabile
ale fenomenelor i ale desfurrii lor. Putem deosebi dou mari categorii de legi:
- legi fizice, care se aplic fenomenelor i proceselor individuale luate n parte (ex. legea
atraciei universale, legile I, II, III ale dinamicii etc.) i
- legi statistice, care se aplic numai fenomenelor de mas, ansamblurilor de obiecte (ex.
legea gazelor perfecte, legea dezintegrrii radioactive, etc.) i care exprim anumite caracteristici
ale ansamblului considerat.
Legile fizice permit cunoaterea perfect a desfurrii viitoare a fenomenelor pe baza
cunoaterii la momentul iniial a unor mrimi. Astfel, n mecanic, legea a II-a a lui Newton
permite cunoaterea perfect a micrii unui obiect atunci cnd se cunosc la momentul iniial
poziia (trei coordonate) i viteza sau impulsul (trei proiecii) obiectului.
Legile statistice permit cunoaterea desfurrii viitoare a fenomenelor doar n termeni
probabilistici (probabiliti, valori medii, erori statistice etc.). Acest lucru indic de la nceput c
informaia pe care o d o lege statistic este mai srac dect cea dat de legea dinamic. Cu toate
acestea, legea statistic permite cunoaterea desfurrii viitoare a fenomenelor i poate fi tot att
de determinist ca i cea dinamic.
Particularitatea esenial a legilor statistice izvort din faptul c ele acioneaz n
fenomenele de mas, unde ntregul este determinat de unitatea prilor componente, o constituie
exprimarea comportrii ansamblului de uniti omogene i nu a fiecrei uniti n parte. n mod
corespunztor, legea statistic se realizeaz ca o tendin predominant, ca o necesitate care i
croiete drum printr-un numr foarte mare de contingene i care se manifest n aceste contingene
ca media unui numr mare de abateri ntmpltoare. De aici i principiul verificat deseori n
practic: legea statistic poate fi evideniat dac i numai dac este considerat i supus observrii
un numr mare sau suficient de mare de uniti elementare ale ansamblului considerat.

Noiuni elementare
Investigarea statistic presupune, prin definiie, considerarea fenomenelor n multiplicitatea
i variabilitatea lor. Un ansamblu de fenomene formeaz un fenomen de mas, sau, ceea ce numim
populaie statistic, n msura n care elementele componente (indivizi) sunt de aceai natur, adic
au toate o proprietate comun i se deosebesc unele de altele n raport cu aspectele sau valorile
caracteristice luate n studiu. Populaia cu care lucreaz statistica trebuie s fie global omogen - s
includ doar elementele similare, aparinnd de aceeai "categorie" i intern

structurat -

elementele ei s poat fi ordonate potrivit unui sistem de clasificare.


Aa cum rezult din cele de mai sus, o nsuire specific statisticii este aceea c statistica nu
se ocup cu un element (individ) luat ca atare, ci cu colectiviti, cu grupuri de elemente ce posed
o anumit trstur comun. Aceast trstur se numete caracteristic. Denumirea de "populaie"
s-a pstrat din timpurile n care statistica se ocupa cu precdere de populaii n sensul propriu al
cuvntului. O populaie poate fi mpit n subpopulaii sau populaii pariale, care sunt: clase,
grupe i eantioane.
O clas este un subansamblu de elemente ale unei populaii care conin o variabli
determinat de aceeai msur.
Un grup este un subansamblu de elemente ale unei populaii care se distinge printr-o
manier de tratare comun.
Un eantion este un subansamblu de elemente ale unei populaii ales la ntmplare. Se
apeleaz la acest gen de populaie parial atunci cnd populaia n studiu este prea mare pentru a fi
tratat n ansamblul ei. Studiul asupra eantionului va fi atribuit ntregii populaii.
Indivizii unei populaii statistice sunt cercetai pentru una sau mai multe caracteristici.
Caracteristicile ntlnite se clasific n caracteristici cantitative i calitative. Caracteristicile
cantitative sunt cele care se a cror msur au o exprimare numeric (nlime, greutate, lungimea
unui ru etc.) i se mai numesc variabile statistice. Caracteristicile calitative nu se msoar numeric
(culoare, sexul unei persoane etc.). Ele nu reprezint o msur a unei entiti. Dac se convine s se
reprezinte unele din ele prin numere ataate la categoriile ce le determin, nu este vorba dect de o
"codificare", procedeul nejustificnd operaiile aritmetice. Aceste caracteristici se mai numesc
atribute.
La rndul lor, caracteristicile cantitative pot fi discrete sau continue. Variabilele discrete
sunt cele care pot lua un numr finit (sau cel mult numrabil) de valori distincte (ntregi,

fracionare), cum ar fi numrul membrilor unei familii, nr. de staii hidrologice etc. Variabilele
continue sunt cele care pot lua orice valoare dintr-un anumit interval (nlimea unui individ,
nivelul unui ru etc.). Totui, n practic nu se ntlnete o informaie privind adncimea unui ru
de forma: 1m, 3 cm, 17 microni. Acest lucru nu se va ntmpla fie c precizia aparatelor cu care
efectum msurtorile este limitat, fie c o precizie exagerat nu este ntotdeauna folositoare
pentru ceea ce urmrim n investigaie. Astfel, msurtorile sau datele de observaie se grupeaz n
cadrul unei anumite uniti i deci din punct de vedere practic se lucreaz cu forma discret chiar
dac variabilele sunt de tip continuu. Distincia ntre caracterul cantitativ i cel calitativ, precum i
ntre variabilele discrete i variabilele continue este fundamental deoarece ele recurg la tehnici de
analiz foarte diferite.
Aici trebuie s lmurim un lucru care d deseori natere la confuzii: muli sunt nclinai s
cread c variabilele discrete trebuie s ia numai valori ntregi i c numerele fracionare sunt tipice
pentru variabilele continue; cu alte cuvinte diferena dintre continuu i discret se confund cu
diferena dintre msurtorile cu numere ntregi i cele fracionare. S lum exemplul urmtor: o
variabil ia valorile: 1,041; 1,065; 1,077. Aceasta este o variabil discret deoarece trecerea de la o
valoare la alta se face fr vreo alt valoare intermediar.
Cercetarea statistic a unei colectiviti poate fi:
-exhaustiv (total), cnd fiecare individ este analizat, de exemplu n cazul recensmintelor;
-parial (selectiv), cnd sunt examinai numai anumii indivizi, alei aleator. Ea este cea
mai frecvent folosit, n majoritatea cazurilor fiind i singura posibil.
Partea examinat din colectivitate se numete selecie sau eantion. Numrul indivizilor
examinai se numete volumul seleciei.

Curs 2: Analiza seriilor statistice


Evaluarea anumitor indicatori (parametri) statistici implic stabilirea caracteristicilor
(proprietilor) principale ale seriilor statistice. Acestea sunt: variabilitatea, omogenitatea,
independena i concentrarea/mprtierea (dispersia) ctre/fa de un una sau mai multe valori ale
seriei.
Variabilitatea termenilor unei serii statistice este determinat de faptul c fenomenul pe
care l reprezint nu este univoc determinat, ci apare ca un rezultat al aciunii combinate a mai
multor cauze (permanente sau ntmpltoare). Cu ct aciunea cauzelor ntmpltoare este mai
mare, cu att variabilitatea este mai mare i gradul de omogenitate mai mic.
Omogenitatea presupune o variaie minim ntre termeni. Dac n urma analizei se constat
c o serie nu prezint omogenitate, nseamn c n acest caz colectivitatea este format din mai
multe tipuri calitative i seria trebuie descompus n subserii componente.
Independena termenilor unei serii provine din faptul c fiecare valoare individual
reprezint un element distinct i obiectiv al unei populaii statistice. Termenii ce aparin aceleiai
colectiviti se supun acelorai legi care se manifest sub form de tendin.
Concentrarea/mprtierea (dispersia) ctre/fa de un una sau mai multe valori ale seriei
apare ca rezultat al intensitii unui efect produs de cauze eseniale i ntmpltoare. Acest lucru
determin frecvenele diferite de apariie a diferitelor valori din serie. Dac intensitatea factorilor
este uniform, frecvenele de apariie sunt apropiate. n caz contrar, frecvenele de apariie se
concentreaz fie la un singur capt al seriei, fie ctre o valoare central.

Repartiii de frecvene
Exist diferene ntre analiza seriilor dinamice i problemele legate de gruparea i analizarea
materialelor pentru care factorul timp nu are importan. La cercetarea seriilor dinamice problema
de baz o reprezint analiza variabilei timp.
Metodele de analiz folosite n aceste dou cazuri se deosebesc sensibil. n cele ce urmeaz
ne vom ocupa de problemele gruprii i analizei prealabile a datelor numerice pentru care ordinea
de aezare n timp nu conteaz.
Datele statistice n stare brut reprezint o mas dezordonat de materiale. Prima problem
este aceea de a face o asemenea grupare a datelor cu ajutorul creia s se poat aprecia valoarea lor
n legtur cu problema propus, s se poat nlesni comparaia cu alte date de acelai gen i s se

poat obine posibilitatea unei analize ulterioare. nainte ca materialul statistic s fie supus analizei
ulterioare i generalizrilor care vor permite s se fac anumite deducii, el trebuie s capete o
anumit form i o structur clar. Cu alte cuvinte n cadrul analizei datelor statistice trebuie s se
ia n considerare att valorile individuale ct i frecvenele de apariie ale acestora.
n urma observrii caracteristicii cantitative X n n probe se obin urmtoarele date primare:

x1, x2,..., xn

(1)

n cazul n care volumul seleciei este mic aceste date sunt uor de manipulat i nu este nevoie de o
grupare a lor. Dac ns avem o selecie de volum mare este greu de lucrat cu aceste date. n plus
tabelele de date primare nu sugereaz nimic referitor la referitor la repartiia variabilei X. De aceea
este nevoie de o grupare (centralizare) a datelor.
Gruparea datelor se face n funcie de tipul caracteristicii X. Astfel, dac X este o variabil
discret ce poate lua valorile distincte v1, v2 ,..., vn , atunci n locul datelor iniiale se va reine
repartiia empiric:

v1.v2 ...vm

n1.n2 ...nm

(2)

Unde ni, (i=1, m) reprezint frecvena apariiei (numrul de apariii) valorii vi, iar n reprezint
numrul valorilor din irul iniial (1) i se numete frecven absolut a valorii v. Valoare m
reprezint numrul de clase.
Raportul fj =nj/n dintre frecvena absolut i numrul total de probe se numete frecven
relativ. Se observ c
f1 + f2 ++ fm =1 ntruct n1 +n2 + ... +nm = n.
Frecvenele relative, numite impropriu i probabiliti de apariie, stau la baza calculrii densitii
de repartiie a frecvenelor i a indicatorilor care exprim gradul de concentrare. De asemenea
permit compararea a dou repartiii construite pe aceeai variabil, care difer numai prin numrul
unitilor pe grupe.

Dac X este o variabil continu care poate lua valori ntr-un interval [a,b] atunci acest
interval este mprit n m subintervale [aj, aj+1], j=1, m , cu a1 = a i am+1 = b. Pentru fiecare din
aceste subintervale se determin numrul n al valorilor din irul (1) care se afl n acest interval
numit frecven absolut a subintervalului.
Subintervalele [aj, aj+1] se pot lua arbitrar. De cele mai multe ori extremitile se iau
echidistante, deci subintervalele au lungimi egale. ns numrul m al subintervalelor nu se alege la
ntmplare. Este important ca prin gruparea datelor s nu se piard caracterul global al repartiiei
(dac m este prea mic se poate denatura repartiia real a variabilei X). Astfel, dup unii autori
numrul subintervalelor, m, trebuie alese n conformitate cu formula lui Sturges:

m=[1 + 3,322logn]
Mrimea intervalului va fi dat de formula:

xmax xmin
m

Reprezentarea grafic a repartiiilor statistice


Exist mai multe tipuri de reprezentri grafice a datelor statistice. Dintre acestea prezentm
histograma, poligonul frecvenelor i graficul frecvenelor cumulate.
Histograma este o figur ntr-un sistem de coordonate rectangualre care reprezint
distribuia empiric prin dreptunghiuri. Bazele acestor dreptunghiuri, construite pe axa absciselor,
reprezint subintervalele folosite n centralizarea datelor. nlimea hj a dreptunghiului cu baza (aj,
aj+1) este proporional cu raportul dintre frecvena relativ a intervalului i lungimea sa:

hj C

fj
a j 1 a j

constanta C fiind un factor de scar. n cazul cnd subintervalele gruprii au lungimi egale,
nlimea hj va fi proporional cu frecvena relativ, deci hj =C*fj .

Poligonul frecvenelor este o diagram n care pe axa absciselor se iau mijloacele vj ale
intervalelor (aj, aj+1) folosite n grupare, iar pe axa ordonatelor valorile hj definite n construirea
histogramei. Linia frnt care unete punctele de coordonate (vj, hj) se numete poligonul
frecvenelor. El se poate obine din histogram unind mijloacele laturilor superioare ale
drptunghiurilor. n fig 1 poligonul frecvenelor este trasat printr-o linie punctat.
Mrimile c1, c2, ..., cm definite prin:

c j fi
i 1

se numesc frecvene cumulate.


Linia frnt obinut prin unirea punctelor de coordonate (aj+1, cj ] se numete graficul frecvenelor
cumulate.

Modaliti de clasificare a datelor


Modul de stabilire a claselor determinarea pragurilor minime i maxime ale fiecrei clase
determin maniera n care sunt atribuite valorile fiecrei clase i deci felul n care va arta
distribuia. Prin schimbarea claselor se creaz diagrame cu aspect diferit. n general se urmrete ca
valori similare s fie n aceeai clas.
Exist doi factori cheie n clasificarea datelor: schema de clasificare utilizat i numrul de
clase ce se dorete a fi creat. Dac datele sunt bine cunoscute se poate predetermina manual
numrul de clase. n caz contrar se utilizeaz schemele clasice. Cele mai frecvente scheme de
clasificare sunt: natural breaks, quantile, intervale egale i deviaia standard. Acestea sunt descrise
n cele ce urmeaz.

Scheme standard de clasificare


Natural breaks (Jenks)
Datele se clasific pe baza gruprii naturale a valorilor. Se identific punctele de ruptur
cutnd acele modele de grupare implicite ale datelor. Valorile sunt mprite n clase acolo unde
graniele sunt marcate prin salturi mari de la o valoare la alta.

Quantile
Fiecare clas conine un numr egal de valori. O astfel de clasificare este foarte potrivit n
cazul datelor liniare. Din cauz c datele sunt grupate dup numr n fiecare clas, diagrama
rezultat poate fi neltoare. Datele similare pot fi plasate n clase diferite, sau valori foarte diferite
pot fi grupate mpreun. Aceast distorsiune poate fi evitat mrind numrul de clase.

10

Intervale egale
Aceast schem de clasificare divide irul de valori atribut n subiruri egale. Spre exemplu
n cazul unui ir de valori de la 1 la 300 i a trei clase, fiecare clas reprezint un ir de 100 ( 1-100,
101-200, 201-300). Aceast metod accentueaz cantitatea de valori atribut relativ la celelalte
valori, spre exemplu pentru arta c un magazin este parte a unui lan de magazine care a realizat o
treime din vnzri. Cel mai bine se utilizeaz pentru iruri de date dintr-un anumit domeniu cum ar
fi temperatura i procentele.

11

Deviaia standard
Aceast schem de clasificare arat cu ct variaz o valoare de la medie. Se calculeaz
media i apoi se genereaz clasele adugnd sau scznd din ea deviaia standard.

Caracterizarea repartiiilor de frecven


Datele (care se refer la diferite domenii ale cunoaterii) odat aranjate ntr-o repartiie de
frecvene, scot n eviden trsturile commune ale tuturor curbelor de repartiie i care se supun
unor legi generale. Acest lucru ne permite ca experiena ctigat ntr-un anumit domeniu al
cunoaterii s poat fi extins i n alt domeniu.
La toate curbele ns trebuie s observm variabilitatea mrimilor care se obin ca rezultat al
unor msurtori. Cu toate c exist variabilitate, se observ o tendin a datelor de a se grupa n
centrul curbei (tendina central). Dac se msoar mrimea abaterii de la punctul de concentrare
maxim a frecvenelor, se constat c sunt mai frecvente abaterile mici dect cele mari, c abaterile
n ambele pri fa de punctul de concentrare maxim se echilibreaz aproape complet i c
abaterile foarte mari sunt foarte rare. Deoarece frecvena variaz, vom alege acea mrime care se
ntlnete cel mai des. Ea va fi msura tendinei centrale a repartiiei. Aceast mrime, ca i altele
asemntoare se numesc indicatori (sau parametrii) de poziie, deoarece arat poziia elementelor
principale ale repartiiei pe axa absciselor.
Caracterul reprezentativ al oricrui indicator de poziie depinde de ct de strns i se altur
celelalte valori, sau cu alte cuvinte, de gradul de concentrare a datelor n jurul tendinei centrale.

12

Indicatorii tendinei centrale


Atenuarea datelor, care accidental sunt prea mari sau prea mici dintr-o populaie statistic se
face prin calcularea unor medii, n felul acesta fcndu-se o compensare a valorilor individuale.
Acest calcul ne arat o anumit tendin a fenomenului studiat, media statistic fiind o valoare ce
sintetizeaz ntr-o singur expresie numeric toate valorile din seria msurtori sau observaii.
Termenii seriei difer de medie deoarece au fost influenai de diferii factori.
Media aritmetic
Media aritmetic simpl exprim un nivel mediu, anihilnd abaterile individuale, netipice.
Ea este cuprins ntre valoraea cea mai mare i cea mai mic.
Definiia 1. Dac n urma unei selecii apar valorile distincte x1, x2,..., xn, atunci media aritmetic
este dat de formula:

x1 x2 ... xn 1 n
xi
n
n i 1

n cazul datelor centralizate (n care avem repartiia de frecven (2)):

n1v1 n2v2 ... nn vn 1 n


ni vi
n
n i 1

care se mai numete medie aritmetic ponderat. Numrul care arat de cte ori se repet fiecare
valoare (nj) este "ponderea" valorii respective.
Observaia 1. Media aritmetic are dezavantajul c este sensibil la valori extreme, iar dac
termenii sunt prea "mprtiai", tinde s devin o valoare nereprezentativ. Media aritmetic este o
valoare lipsit de coninut dac elementele sunt deosebite din punct de vedere calitativ, caz n care
este mai util s se fac medii pariale pentru fiecare tip de colectivitate.
Observaia 2. Dac avem mai multe medii, fiecare referindu-se la o anumit categorie,
fiecare medie va fi ponderat n funcie de importana categoriei sale.

13

Media geometric
Media geometric este mai puin sensibil la valorile extreme dect celelalte medii, deci se
ntrebuineaz cnd dorim s atenum divergenele mari dintr-o serie de determinri cu frecvene
egale, fiind dup o expresie "cea mai exact medie". Se utilizeaz cnd valorile au o evoluie (de
cretere sau scdere) permanent, nentrerupt, sau o raie din ce n ce mai mare, termenii fiind
legai ntre ei printr-o relaie de produs. De asemenea se mai ntrebuineaz cnd vrem s dm o
importan mai mare termenilor mai mici, n valoare absolut, sau cnd diferenele ntre termeni
sunt foarte mari. Are dezavantajul c nu se poate ntrebuina cnd avem valori nule sau negative.
Definiia 2. Dac x1, x2,..., xn sunt n valori, media geometric se definete prin

M g n x1 x2 ...xn

Calculul se face mai uor cu ajutorul logaritmilor:

lg M g

1 n
lg xi
n i 1

Datorit faptului c se calculeaz mai uor cu ajutorul logarimilor, se mai numete "medie
logaritmic". Ea se utilizeaz i la calcularea ritmului (de cretere sau descretere) numindu-se
astfel i "medie de ritm". n rezumat, se ntrebuineaz cnd:
- seria are o mare dinamicitate;
- termenii au variaii mari;
- distribuia are un caracter pronunat de asimetrie.
Observaia 3. Media geometric se folosete atunci cnd prezint importan variaiile
relative. De asemenea media geometric poate fi folositoare pentru calculul unor rapoarte.
Media ptratica se ntrebuineaz cnd valorile prezint creteri din ce n ce mai mari. Ea
constituie modelul matematic pentru abaterea medie ptratic. Media este sensibil la valori
extreme, din care cauz este ntotdeauna mai mare dect celelalte medii. Are avantajul c se poate

14

aplica i n cazul valorilor nule sau negative (care prin ridicare la ptrat devin pozitive). Se
ntrebuinzeaz cnd dm importan valorilor mari.
Definiia 3. Media ptratic este definit prin formula:

1 n 2
xi
n i 1

x patr, s

sau n cazul datelor centralizate (media ponerat):

1 n
ni vi2
n i 1

x patr, p

Media Armonic
Definiia 4. Media armonic este valoarea invers a mediei aritmetice ale valorilor inverse
datelor de observaie:

Mh

n
n

x
i 1

Exprim caracterul sintetic al unor valori ce se afl n raport invers. Se utilizeaz cnd
frecvenele sunt egale. Pentru o repartiie de frecven, media armonic se folosete rar. Se
utilizeaz cu predilecie n economie.
Media glisant numit i "medie mobil", se utilizeaz n cazul n care irul valorilor
prezint fluctuaii mari, brute i e greu de apreciat tendina (trendul). Se presupune c media
glisant corespunde mijlocului intervalului sintetic. Calculul se face mediind 3 sau 5 valori
alturate.
Definiia 5. Media glisant pentru 3, respectiv 5 valori alturate sunt date de formulele

xglis,3

xi 1 xi xi 1
3
15

xglis,5

xi 2 xi 1 xi xi 1 xi 2
5

Mediana
Definiia 6. Mediana este elementul dintr-un ir de date statistice care ar mpri intervalul n dou
grupe egale ca numr, dup ce acestea au fost ordonate dup mrimea lor. Dac seria are 2n+1
elemente, atunci mediana este elementul n+1, iar dac are 2n elemente mediana este media
aritmetic a celor doi termeni din mijloc.

Indicatorii variaiei
O medie este reprezentativ numai atunci cnd se calculeaz din valori omogene ntre ele.
Cu ct fenomenele sunt mai complexe (dependente de mai multi factori), cu att variaia este mai
mare i utilizarea mrimilor medii devine insuficient. De aceea este important de cunoscut ct de
departe sunt valorile sumei statistice fa de medie. Comparaia se face cu media seriei,
considerat ca fiind valoarea cea mai reprezentativ pentru populaia statistic.
Analiza statistic a unei repartiii poate fi aprofundat prin calculul indicatorilor de variaie.
Aceti indicatori trebuie s serveasc la:
-verificarea reprezentativitii mediei ca valoare tipic a unei populaii statistice;
-verificarea gradului de omogenitate a seriei;
-caracterizarea statistic a formei i gradului de variaie a unui indicator;
-cunoasterea gradului de influen a factorilor dup care s-a facut gruparea unitilor observate.

Indicatorii simpli ai variaiei


Indicatorii simpli ai variaiei servesc la caracterizarea gradului de mpratiere a mrimilor seriei
statistice. Se pot exprima att n mrimi absolute ct i n mrimi relative.
Din aceasta grup fac parte:
-amplitudinea variaiei (absolut i relativ);
-abaterile individuale (absolute i relative).

16

Amplitudinea absolut se calculeaza ca diferena dintre valoarea maxim i valoarea minim al


caracteristicii:
Aa = xmax xmin
Amplitudinea relativ se exprima de regul n procente i se calculeaz ca un raport ntre
amplitudinea absolut i media aritmetic:
Ar=

Aa
100
x

Abaterile individuale absolute (di) se calculeaz ca diferena ntre fiecare valoare i media
aritmetic:
di = xi - x , i = 1,...,n
Abaterile individuale relative (dr) se calculeaz ca raportul dintre abaterile individuale absolute i
media aritmetic (se exprima n procente):
dr =

di
x

100 , i = 1,...,n

Gradul de variaie al unei caracteristici depinde de toate abaterile variantelor nregistrate i


de frecvena lor de apariie i prin urmare indicatorii simpli ai variaiei nu pot exprima ntreaga
variaie a unei populaii statistice. De aceea a fost necesar introducerea indicatorilor sintetici ai
variaiei.

Indicatorii sintetici ai variaiei


Indicatorii sintetici ai variaiei, la fel ca i indicatorii tendintei centrale trebuie s se bazeze
pe toate observaiile, sa fie uor de calculat, uor de nteles i s fie ct mai puin afectai de
fluctuaiile de selecie.
Indicatorii sintetici ai variaiei sunt:
-abaterea medie liniar ;
-abaterea medie patratic;
-dispersia;
-coeficientul de variaie.

17

Abaterea medie liniar se calculeaz ca o medie aritmetic simpl sau ponderat, luate n
valoare absolut:
Pentru o serie simpl

| x x |
i 1

Abaterea medie liniar prezint dezavantajul c nu ine seama de faptul c abaterile mai
mari n valoare absolut influenteaz n mai mare masur gradul de variaie a unei caracteristici, n
comparaie cu abaterile mici. n plus, nu este indicat s se renune n mod arbitrar la semnul
valorilor din care se calculeaz o valoare medie. Din aceste considerente se folosete ca principal
indicator sintetic al variaiei abaterea medie patratic.
Abaterea medie patratic sau abaterea standard () se calculeaz ca o medie patratic din
abaterile tuturor elementelor seriei de la media lor aritmetic:
n

(x
i 1

x)2

Acest indicator este mai concludent dect abaterea medie liniar. Prin ridicarea la ptrat se d o
importan mai mare abaterilor mari n valoare absolut, acestea influennd ntr-o msura mai
mare gradul de variaie al variabilelor analizate.
n literatura de specialitate se apreciaz ca pentru o serie de distribuie normal abaterea
medie liniar este egal cu 4/5 din valoarea abaterii medii ptratice.
Abaterea medie ptratic este un indicator de baz, care se folosete la analiza variaiei, la
estimarea erorilor de selecie n calculul de corelaie.
La fel ca abaterea medie liniar, abaterea medie ptratic se exprim n unitatea de masur a
variabilei a crei variaie o caracterizeaz. Prin urmare cei doi indicatori nu se pot folosi pentru
compararea gradului de variaie i n aceasta situaie se recurge la un alt indicator de variaie:
coeficientul de variaie.

18

Coeficientul de variaie (v) se calculeaza ca un raport ntre abaterea medie ptratic i


media aritmetic. De obicei se exprim sub form de procente:
v=

100

Semnificaie. Cu ct valoarea lui v este mai aproape de zero cu att variaia este mai slab,
colectivitatea este mai omogen, media avnd un grad ridicat de reprezentativitate. Cu ct valoarea
lui v este mai mare cu att variaia este mai intens, colectivitatea este mai eterogen, iar media are
un nivel de semnificaie sczut.
Se apreciaz c la un coeficient de peste 35-40%, media nu mai este reprezentativ i datele
trebuie separate n serii de componente, pe grupe, n funcie de variaia unei alte caracteristici de
grupare.
Se poate afirma c acest indicator poate fi folosit ca un test n aplicarea metodei gruprii.
Dac media aritmetic este aproape de zero, coeficientul de variaie nu are semnificaie.
Dispersia ( 2 ) este media ptratelor abaterilor de la media aritmetic:

2
1
xi x .

Msura dispersiei se refer la mprtierea valorilor dintr-un set de date. Media nu are
semnificaie dac se aplic pe un set de date foarte dispersate. De exemplu dac lum valoarea
medie a oraelor mari (peste 200.000 locuitori) va da o valoare de peste 400.000 datorit
Bucuretiului care are 2.000.000. ns rezultatul nu are nici o semnificaie (nici un ora nu area
aceast valoare).
Msurile dispersiei, exprimate sub forma unitilor de msur ale fenomenului cercetat, nu
sunt ntotdeauna utile atunci cnd se compar dispersiile a dou sau mai multe serii. Compararea
dispersiilor a dou sau mai multe serii d rezultate n urmtoarele 2 situaii:
a) irurile care se compar pot fi exprimate n aceleai uniti, iar mediile pot fi aceleai sau
au dimensiuni aproape egale.
b) irurile care se compar pot fi exprimate n aceleai uniti, ns mediile difer.
Dac seriile se exprim n uniti diferite, dispersiile nu pot fi comparate direct. De aceea de multe
ori se folosete abaterea medie ptratic n loc de dispersie.

19

n unele lucrri aceast mrime se numete varian (din l. engl. variance). Variana este o msur
important n special cnd se studiaz variaia a dou sau mai multe eantioane. O tehnic statistic
foarte puternic este cunoscut sub numele de analiza de varian i utilizeaz dispersia pentru a
decide dac un numr de eantioane difer semnificativ unul de altul.

Skewness i kurtosis
Skewness
Abaterea medie ptratic i dispersia sunt indicatori care dau o msur a mprtierii
valorilor ntr-o distribuie de frecven. ntr-un anume sens ele ofer o msur a limii
distribuiei. Aceasta ns nu ofer nici o informaie privind caracteristicile formei distribuiei de
frecven. Figura de mai jos nfieaz 6 distribuii utiliznd histograma. Aceasta reprezint un set
de date care au acelai numr de valori. Pe orizontal avem o unitate de msur exprimat n abateri
medii patratice (), iar pe vertical avem media aritmetic. Dup cum se observ, se poate face o
comparaie direct.
Aparent cele ase distribuii de frecven sunt foarte diferite. Cele din partea dreapt (b, d, i
f) sunt similare dintr-un singur punct de vedere, anume ele sunt asimetrice, vrful este plasat n
stnga sau dreapta mediei. Spunem c avem o distribuie distorsionat sau asimetric (skewed).
Cele din stnga (a, c, e) au un grad mic de distorsiune (asimetrie). n toate cazurile vrful este n
apropierea mediei. Toate acestea sunt distribuite simetric.
Pe de alt parte cele dou distribuii de pe fiecare rnd pot fi considerate similare, n sensul c au un
anumit grad de ascuire sau kurtosis. Cele din primul rnd sunt foarte ascuite; ele au aceleai
grad de kurtosis. Cele din al doilea rnd au ascuimea mai moderat, iar cele din al treilea rnd
sunt relative plate.
Distorsiunea msoar, deci, volumul de valori din distribuia concentrat de o parte i de
alta a mediei. Dac acest volum de valori este mai mic dect media, spunem c distribuia este
pozitiv distorsionat (b). Dac exist mai multe valori mai mari dect media, spunem c distribuia
este negativ distorsionat (d).

20

O distribuie perfect simetric nu are distorsiune (skewness=0).


Exist mai multe metode de msurare a distorsiunii. Cea mai uzitat este formula:
(x x)
S

n 3

unde la numrtor avem deviaia cubic a valorilor fa de medie, iar este abaterea medie
ptratic.
n rezumat, avem urmtoarele situaii:
-dac S <0 avem distorsiune negativ;
-dac S >0 avem distorsiune pozitiv.
Skewness este un concept cu aplicaii importante n geografie deoarece foarte multe
variabile n geografie au o distribuie accentuat distorsionat. Cu alte cuvinte distribuia de
frecven seamn foarte mult cu cele nfiate n b, d sau f.
n al doilea rnd ali indicatori cum ar fi media sau dispersia pot conduce la interpretri
greite dac se folosesc izolat.

Kurtosis
Kurtosis d o msur a extinderii nspre valorile care sunt concentrate ntr-o parte a
distribuiei de frecven. Dac o clas ntr-o distribuie de frecven conine o foarte mare parte din

21

valorile din distribuie, atunci distribuia prezint un mare grad de kurtosis, iar forma este mai
ascuit.
ntr-o distribuie cu un grad mic de kurtosis (distribuie plat) fiecare clas conine o
proporie similar din toate valorile.
Formula folosit pentru Kurtosis (K) este:

(x x)
K

n 4

Pentru distribuia normal avem K=3, pentru o distribuie ascuita K>3, iar pentru o
distribuie plat K<3.
Din pcate acest indicator nu este folosit n studii geografice asa cum ar fi de dorit. Ca i
skewness kurtosis ofer informaii preioase asupra distribuiei unui set de date suplimentare celor
date de medie i dispersie.
Trebuie remarcat faptul ca multe variabile statistice ntlnite n geografie au o distorsiune
mare dar i un K mare (>3). Cnd se aplic acestor variabile media aritmetica i dispersia, acestea
pot conduce la informaii eronate. Mai mult n aceste condiii datele nu prezint o distribuie
normal astfel c nu pot fi aplicate testele parametrice.

22

Repartiii de frecven
Asocierea dintre distribuia observat i cea teoretic a fost mult timp neglijat n geografie.
Un studiu statistic nu poate fi fcut (nu are sens) fr aceast asociere. Forma unei distribuii
permite gsirea parametrilor descriptivi cei mai potrivii pentru fenomenul urmrit. Recunoaterea
formei unei distribuii este un indiciu pentru procedurile de transformare a datelor n mod
corespunztor. Totodat ncadrarea ntr-o lege de distribuie teoretic permite att operaii de
interpolare ct i de extrapolare.
Ajustarea unei distribuii observate la o distribuie teoretic-adic la modele probabiliste
propriu-zise-implic acceptarea a priori c legile se ncadreaz n repartiia observat/msurat a
fenomenului n cauz.
O cantitate msurabila care poate varia de la un element la altul se numete caracteristic
cantitativ. Uneori se mai folosete termenul de variabil. Ansamblul noiunilor consacrate acestor
caracteristici poart numele generic de teoria caracteristicilor cantitative.
Reamintim c, caracteristicile care pot lua orice valoare numeric ntre anumite limite sunt
numite caracteristici cantitative (variabile) continue. Caracteristicile care pot lua numai anumite
valori se numesc caracteristici cantitative (variabile) discrete (discontinue).
Dac mai multe sute sau mii de valori ale unei variabile au fost notate ntr-o ordine cu totul
arbitrar n care au aprut ele n realitate, va fi dificil s tragem vreo concluzie cu privire la
semnificaia acestor date. De aceea va trebui s condensm datele cu ajutorul unor anumite metode
de ordonare sau grupare astfel ca proprietaile datelor s poat fi uor evideniate. De regul
valorile alese pentru a defini grupele succesive vor fi echidistante, astfel ca numerele provenite din
observaii i care aparin la diferite grupe s poat fi comparabile.
Modul n care frecvenele de grup sunt repartizate n intervale succesive se numete
repartiia de frecven a variabilei.

23

Reprezentarea grafica: poligonul frecvenelor i histograma.


Deseori este convenabil s reprezentm o repartiie de frecven cu ajutorul unei diagrame
care s sugereze configuraia observaiilor.

Histograma

-poligonul frecvenei: unirea punctelor marcate pe vertical pe mijlocul intervalului.

De observat c oricare ar fi aceste diagrame (orice form ar avea), o anumit arie reprezint un
numr de observaii.

24

Numarul de observaii care cad n intervalul [x1, x2] este proporional cu aria delimitat de
curb i cele dou drepte.

Dac intervalele de grup sunt micorate, n acelai timp numrul de observaii crete, astfel
nct frecvenele de grup s rmn finite, poligonul i histograma se apropie din ce n ce mai mult
de o curb neted.
O astfel de linie ideal a poligonului i histogramei se numete curb de frecven. Este un
concept esenial n statistic.
Cnd vom aborda teoria seleciei va trebui s privim curba de frecven ca reprezentnd o
populaie din care datele reale reprezint un eantion. Poligonul frecvenelor i histograma vor fi
aproximate cu o curb, dar se vor ndeprta de ea n anumite poriuni, datorit fluctuaiilor seleciei.
Atunci cnd numrul de observaii este considerabil, s zicem 1000, poligonul frecvenelor este
suficient de neted pentru a da o bun imagine a formei repartiiei ideale.

25

Cteva tipuri uzuale de repartiii de frecven.


Formele histogramelor corespunzatoare diferitelor date statistice sunt aproape fr sfrit n
varietatea lor, dar printre ele putem distinge un numr relativ mic de tipuri fundamentale.
1) Repartiia simetric. Valoarea medie este valoarea maxim i centrat, iar extremele
descresc i tind spre zero (distribuia normal) ideal.

2) Repartiia moderat-asimetric (oblic). Frecvenele de grup descresc cu mare


rapiditate ntr-o parte i mai lent n cealalt parte. Este cazul cel mai frecvent.

26

3) Repartiia n forma de U. Frecvenele maxime sunt la capetele intervalului de variaie.


Este rar.

4) Repartiia extrem asimetric.

27

Repartiii teoretice importante


Repartiia binomial
Legea binomial permite descrierea probabilitilor asociate cu privire la dou experimente
exclusive.
Pentru evitarea unor exemple particulare (monede, zaruri), vom folosi termenul de succes
pentru apariia unui eveniment (probabilitatea_1=p) i insucces pentru neapariia sa
(probabilitatea_2=q). Evident vom avea p+q=1.
Considerm c toate evenimentele ntr-un numr de ncercri sunt independente, adic
probabilitile p i q sunt aceleai pentru fiecare eveniment i rmn constante de-a lungul
ncercrilor.
Presupunem c efectum un numar de N serii n care efectum cte n ncercri n fiecare din
cele N serii i determinm numrul de succese din fiecare serie (ex. aruncm o moneda de 10 ori
pentru fiecare serie, observnd de cte ori apare stema la fiecare serie).
n general, vor exista unele serii la care nu vom observa succese, altele la care vom observa
un succes, altele cu dou succese .a.m.d. Prin urmare dac grupm seriile n raport cu numrul de
succese vom obine o repartiie de frecven.
Ex. 12 zaruri aruncate de 4096 de ori, apariia lui 6 fiind considerat un succes, conduce la
urmtorul rezultat.

7 i mai mult.

Nr. aruncri 447 1145 1181 796 380 115

24

Nr. succese

Vom arta c, folosind ipotezele de independen a experienelor succesive vom putea


determina teoretic natura acestei repartiii.
n cazul seriilor cu o singur ncercare, estimm ca n N astfel de serii s obinem Np
succese i Nq insuccese.
Cnd avem dou ncercri, posibilitile sunt:

28

SS SI IS II
p2+2pq+q2

de N ori

Cnd avem trei ncercri:

SSS SSI

ISS

IIS ISI SII III

Deoarece nu conteaz ordinea n care au aprut succesele i insuccesele, putem scrie

SSS

3SSI

3SII

III

p3 + 3p2q + 3pq2 + q3 sau


p3 + C31p2q + C32pq2+q3
Pentru n ncercri, obinem formula general (dezvoltarea binomial):
N{pn+ C n1 pn-1q+...+ C nk pn-kqk+...+ C nn 1 pqn-1+qn}
Exmplul1.Dac lum 100 de serii cu cte10 aruncri ale unei monezi perfecte, n cte cazuri
ne ateptm s obinem de 7 ori stema i de 3 ori valoarea?
R. Aici avem p=

1
1
, q= .
2
2

Frecvenele a celor 0,1,...,10 succese sunt termenii din dezvoltarea binomial,

10

1 1
100 . Termenul care d frecvena a 7 succese i a 3 insuccese este:
2 2
7

1 1
100 C 12
2 2
7
10

29

E Exemplul 2. Acelai text cu ntrebarea: n cte cazuri ne ateptm s obinem cel puin de
7 ori stema.
R. Cutm suma termenilor corespunzatori la 7,8,9 i 10 succese:

100
8
10
C107 C10
C109 C10
17
210
Forma general a repartiiei binomial depinde de valorile lui p i q i de valorile
exponentului n (numrul de ncercri din fiecare serie).
Dac p i q sunt egali, repartiia este evident simetric, deoarece p i q pot fi permutai ntre
ei, fr a schimba valoarea vreunui termen i prin urmare termenii echidistani de la cele dou
capete ale seriei sunt egali. Dac p i q nu sunt egali, repartiia este asimetric.

Forma limit a repartiiei binomial. Cnd n crete, fiecare termen al repartiiei


binomial scade. ns suma unor termeni care cad ntre anumite limite nu va fi mic.
Chiar dac p nu este egal cu q, cnd n devine din ce n ce mai mare, repartiia binomial tinde ctre
forma unei curbe continue simetrice. n figura de mai jos am exemplificat (Yule, Kendal, 1969)
tendina spre simetrie pe care o are repartiia binomial (0,9+0,1)n pentru diferite valori ale lui n.

30

Se demonstreaz c valoarea maxim este atins ntr-un anumit punct pe care l vom nota cu
pk i care este dat de

pk

1
2 npq

Astfel funcia care aproximeaz foarte bine valorile repartiiei binomiale este

1
f ( x)
e
2 npq

( x np) 2
2 npq

unde

np= valoarea mediei

npq = = abaterea medie patratic

Astfel la modul general putem scrie funcia sub forma

y y0e

x2
2 2

Aceast funcie se numete curba normal. De parametri m i i se noteaz N(m,).


Reprezentarea grafic a acestei distribuii este o curb n form de clopot simetric fa de axa Oy

31

i a crei forme este determinat de valoarea lui . Aceast curb mai este numit i curba lui
Gauss. n figura de mai jos sunt prezentate dou curbe normale pentru diferite valori ale lui m i .

Proprieti ale curbei normale.


Curba normal este simetric n jurul punctului x=0, n acest punct i atinge valoarea
maxim. Curba normal este complet specificat dac se definete media (originea lui x), abaterea
standard i valoarea y 0 . n practic, dac dorim s obinem o curb normal cu ajutorul unor
date cunoscute, valoarea lui y 0 nu se d direct, ci se calculeaz folosind faptul c aria curbei
trebuie s fie egal pe scala aleas, cu numarul total de observaii.
Aria determinat de curba normal i axa Ox este:

y e

x2
2 2

dx y 0 2

Dac lum y0

1
, aria este egal cu unitatea.
2

n aceast situaie putem obine imediat forma corespunztoare unei repartiii de orice
frecven dat. Astfel, dac frecvena este N, curba normal corespunzatoare este:

x2
2 2

Media curbei normale, aa cum am vzut, este localizat n origine. Dac dorim s scriem
expresia curbei, n raport cu un alt punct ca origine, obinem forma:
1

xm
1
2
e 2
,
2

32

Unde m este abaterea de la medie a valorii alese ca origine.

2 este dispersia;

este abaterea medie ptratic (abaterea standard).


Proprietile curbei normale.
Curba normal este evident simetric n jurul punctului x=0, deoarece ecuaia ei este
independent de semnul lui x. n acest punct ordonata i atinge valoarea maxim. Valoarea medie,
mediana i modulul coincid. Este considerat o curba simetric ideal.
Curba normal este complet specificat dac se definete media (originea lui x), abaterea
medie ptratic i valoarea y 0 . n practic, dac dorim s obinem o curb normal cu ajutorul
unor date cunoscute, valoarea lui y 0 nu se d direct, ci se calculeaz folosind faptul c aria curbei
trebuie sa fie egal, pe scara aleas, cu numrul total de observaii.

33

Sondajul statistic
Una dintre cele mai importante probleme este investigarea unei populaii mari ntr-un timp
redus i cu rezultate de cunoatere imediat. Din ansamblul populaiei se alege o parte, numit
colectivitate de selecie sau eantion, parte care va fi supus n mod nemijlocit investigaiei.
Alegerea trebuie fcut de aa manier nct prin intermediul acestui studiu redus s se obin
concluzii cu valabilitate general asupra ntregii populaii. Eantionul trebuie s aib capacitatea de
a reproduce ct mai fidel structurile i caracteristicile populaiei din care este extras.
n cele mai multe situaii, studiile selective constituie o soluie necesar deoarece o
investigare complet a ntregii populaii este imposibil de fcut. Cu alte cuvinte, n loc s se culeag
informaii de la toi indivizii din populaie, se face o prelevare de la o mic parte a ei. Acest gen de
studiu, aa cum vom vedea, asigur un control mai bun al activitii conducnd la o anumit
superioritate pe planul cunoaterii. Dei pare paradoxal, o investigare selectiv poate conine mai
multe caracteristici, spre deosebire de abordarea unei populaii mari care implic o investigare
simplificat. Pe de alt parte studiile arat c dac eantionul este ales corespunztor acesta se va
confunda cu populaia. Un exemplu de anchet naional exhaustiv este recensmntul.
n studiul statistic al fenomenelor se folosete foarte frecvent perechea de noiuni valoare
calculat i valoare estimat. Valorile calculate sunt rezultatul unei cercetri empirice. Acestea
sunt folosite pentru a evalua indicatorii din eantioane care vor deveni estimatori ai colectivitii
generale.
Pentru ca cercetarea selectiv s fie eficient eantionul trebuie s posede o calitate numit
reprezentativitate, care const n capacitatea lui de a reproduce ct mai fidel structurile i
carcateristicile populaiei din care a fost extras. Aceast definiie este destul de imprecis, dar ea
capt o semnificaie exact prin aplicarea tehnicilor teoriei probabilitilor. n acest context
exprimarea cantitativ a gradului de reprezentativitate a unui eantion se face prin dou mrimi:
Eroarea maxim (E) care exprim diferena dintre valoarea calculat din eantion (ve) i
valoarea corespunztoare v a populaiei totale (necunoscut).
E=|v-ve|
Nivelul de ncredere sau nivelul de probabilitate (P) care exprim o msur a ansei ca
eroarea comis s nu depeasc valoarea E.

34

Pentru a evalua eroarea E trebuie s avem n vedere o caracteristic a populaiei ce urmeaz a fi


estimat. Aceasta poate fi de exemplu vrsta, iar valoarea poate fi media aritmetic. n acest caz
eroarea E ne spune cu ct se abate vrsta medie a indivizilor din populaia general de la vrsta
medie a indivizilor din populaia de selecie. Cu alte cuvinte, cu ajutorul erorii E se construiete un
interval (ve-E, ve+E) n interiorul cruia se afl valoarea cutat v.
Ali indicatori statistici care mai pot fi evaluai sunt abaterea medie ptratic, coeficientul de
corelaie, dar mai pot fi evaluate i proporii, diferene etc.
Pentru nelegerea corect a reprezentatitivitii unui eantion vom detalia cteva aspecte privind
aceast noiune.
1. Niciodat nu putem fi siguri c eroarea de eantionare este mai mic de o valoare E, sau altfel
spus plasarea lui v pe intervalul menionat nu este niciodat cert. Aceasta nseamn c trebuie
evaluat att eroarea E ct i nivelul de probabilitate P. Deci nivelul de reprezentatitivitate este dat
de cuplul (E,P).
2. Nu se poate vorbi de o reprezentativitate a unui eantion n general, ci numai n raport cu o
caracteristic dat. Aadar un eantion are o reprezentativitate n raport cu vrsta, (adic un cuplu
(E,P)), o alt reprezentativitate n raport cu numrul de turiti, (adic un alt cuplu (E,P)) .a.m.d.
3. Reprezentativitatea este o noiune relativ, n sensul c un eantion este mai mult sau mai
puin reprezentativ i nu reprezentativ sau nereprezentativ. De exemplu, pentru o aceeai
caracteristic i un nivel de probabilitate dat avem o eroare mic E ntr-un eantion dect n alt
eantion. Atunci primul eantion este mai reprezentativ. Dac la o aceeai eroare, P este mai mare
ntr-un eantion acesta este din nou mai reprezentativ. Dac pentru un eantion avem o eroare mic
i o probabilitate mare acesta va fi mai reprezentativ fa de cel cu care se compar. Desigur c pot
s existe situaii care nu pot fi comparate cum ar fi o eroare mare i o probabilitate mare. Aceste
situaii va determina cercettorul s aduc lucrurile la acelai numitor, pentru uniformizarea
idicatorilor.
4. Cele dou mrimi E i P nu sunt independente, astfel c nu se poate spune direct ce nivel de
probabilitate i corespunde unei erori date. Fixnd una din ele, cealalt rezult din calcul. n condiii
egale scderea erorii antreneaz scderea probabilitii, adic un ctig dobndit pe de o parte
constituie o pierdere de cealalt parte. Nu putem ameliora simultan i precizia estimrii i sigurana
acesteia, pstrnd totodat restul condiiilor identice.

35

5. n activitatea practic se folosete expresia eantion reprezentativ sau eantion


nereprezentativ chiar dac, aa cum am precizat este vorba de o nsuire gradual a
reprezentativitii. n conformitate cu exigenele studiului se accept c o anumit eroare este
suficient de mic iar o anumit probabilitate este este suficient de mare. Pentru nivelul de
probabilitate valoarea minim acceptat este de obicei 0,95 ceea ce nseamn c ansa de a grei
estimarea trebuie s fie mai mare sau egal cu 5%.
n majoritea studiilor se obinuiete s se evidenieze aceast probabilitate de a grei notat cu
p care este complementar adic p=1-P.
n consecin folosirea expresiei eantion reprezentativ este justificat dac prin aceasta se
nelege c, n raport cu toate caracteristicile cercetate eroarea E este sub o limit acceptabil, iar
mrimea p se afl sub pragul de 5%.
Gradul de reprezentativitate al eantionului depinde de: caracteristicile populaiei, mrimea
eantionului i procedura de eantionare.
Pentru a caracteriza nivelul de omogenitate (eterogenitate) a unei populaii se folosete
indicatorul abaterea medie ptratic (). Majoritatea formulelor prin care se exprim eroarea de
eantionare arat c aceasta este direct proporional cu , deci cu nivelul de mprtiere fa de
medie.
n ceea ce privete mrimea eantionului reprezentativitatea crete odat cu creterea numrului
de indivizi din eantion. Numai c sporul de reprezentativitate nu este direct proporional cu
creterea volumului eantionului, adic dependena nu este liniar. S-au fcut numeroase studii i sa ajuns la concluzia c dependena dintre reprezentativitatea i mrimea eantionului este o curb
(vezi figura de mai jos)

36

Dup cum se vede n figur reprezentativitatea atinge foarte repede un nivel suficient de
ridicat, aa nct o cretere suplimentar a numrului de indivizi din eantion nu mai aduce un spor
notabil de reprezentativitate. Cu alte cuvinte valorile calculate nu se mai schimb aproape deloc.
Trebuie fcut remarca important: eantionul format din n indivizi are aceeai
reprezentativitate indiferent de mrimea populaiei din care el a fost extras. De aceea expresii de
genul ce proporie din populaie trebuie s reprezinte un eantion bun sunt lipsite de sens.
Mrimea absolut a eantionului este deciziv.

Procee clasice de eantionare


Exist dou metode de eantionare: aleatoare (probabilist) i seleciile subiectiv
organizate sau seleciile dirijate (nealeatoare).
Reprezentativitatea se poate calcula numai pentru eantioane strict probabilistice i fiecare
tehnic de eantionare aleatoare presupune formule specifice de estimare a erorii.
1.Eantionarea aleatoare simpl.
Indivizii sunt alei cu o probabilitate identic. Procedura tipic este tragerea la sori.
Acest luru se face atunci cnd avem la dispoziie ntreaga populaie i putem stabili o regula pentru
tragerea la sori.
Procedeul tragerii la sori este bazat pe schemele de probabilitate: al bilei revenite i cel al
bilei nerevenite. Schema bilei revenite presupune o urn cu N bile de N culori, evenimentul
constnd din extragerea unei bile. Probabilitatea de a extrage o bil de o anumita culoare este 1/N.
dup ce s-a efectuat evenimentul, se introduce bila napoi i experimentul se repet. ntotdeauna
vom avea probabiliti 1/N. n cazul schemei cu bila nerevenit, experimentul const n extragerea
unei bile (probabilitatea_1 este = 1/N), nu mai punem bila napoi i repetm experimentul
(probabilitatea_2=1/(N-1)). La al treilea experiment vom avea probabilitatea_3=1/(N-3). Datorit
faptului c n cazul seleciei nerepetate este exclus posibilitatea extragerii de mai multe ori a
aceleai unitai, erorile sunt mai mici.
O alt tehnic este generarea de numere aleatoare care se asociaz cu populaia n studiu. Se
presupune c exist o list cu toi indivizii din populaie i fiecruia i se atribuie un numr de ordine
i apoi se face asocierea cu tabelul generat automat.

37

2.Eantionarea prin stratificare. Procedeul, n forma sa cea mai simpl, are la baz
urmtoarea idee: se efectueaz o diviziune a populaiei dup caracteristici, n s clase: N1, N2, ..., Ns
(Ni=N). Alegerea eantionului de volum n se va face n s etape selectnd cu o procedur aleatoare
simpl s subeatioane de mrime n1, n2, ..., ns, fiecare provenind din cte o clas, fiind proporional
cu mrimea clasei respective:

n1/N1 = n2/N2 = ... = ns/Ns


3.Eantionarea multistadial.
Acest procedeu este asociat cu statistica spaial adic o statistic ale cror elemente au
referin spaial. Esena procedeului se bazeaz pe urmtoarea idee. ntreaga populaie poate fi
privit ca fiind format din grupuri repartizate pe un teritoriu. ntr-un prim stadiu se alege
(probabilistic) un eantion de grupuri de cel mai nalt rang (1), apoi din fiecare din acestea se alege
un eantion de grupuri de rang 2 .a.m.d. n final se va ajunge la un eantion de indivizi. Denumirea
multisadial provine de la faptul c exist mai multe stadii n alegerea eantionului final
corespunztor fiecrui nivel de eantionare.
Exemplu. Dac populaia studiat este ntreaga ar, primul pas este alegerea unuiu eantion
de judee, apoi de comune etc.
De remarcat este faptul c dintr-o anumit populaie pot fi extrase mai multe eantioane,
care difer ntre ele att ca volum ct i ca structur. Din aceast cauz indicatorii statistici cu care
caracterizm colectivitatea de sondaj pot fi considerai de forma unor variabile aleatoare pentru care
se pot stabili distribuii de frecven cunoscute, spre deosebire de media i dispersia din
colectivitatea general, pentru care exist o singur valoare.
Cercetarea selectiv se face pe baza unui plan care trebuie s cuprind:
- delimitarea n timp i spaiu a colectivitii generale prin identificarea tuturor cazurilor
individuale sub care se manifest fenomenul respectiv;
- verificarea gradului de omogenitate al colectivitii generale (se utilizeaz studii vechi);
- alegerea sau stabilirea bazei de sondaj;
(Prin baz de sondaj se ntelege orice sistematizare a unitilor - liste, hri- astfel nct s
permit alegerea ntmpltoare a unitilor ce vor fi supuse prelucrrii n eantion).
- alegerea tipului i a procedeului de selecie;

38

- stabilirea periodicitii efecturii sondajului;


- stabilirea planului observrii;
- stabilirea planului de prelucrare a datelor de selecie din punct de vedere metodologic i
organizatoric;
- alegerea procedeelor de verificare a semnificaiei indicatorilor de selecie i de extindere a
rezultatelor seleciei asupra ntregului ansamblu.
Etapele importante n cercetarea prin sondaj sunt.
Etapa 1. Se stabilete modul de eantionare.
Etapa 2. Se culeg i se prelucreaz date statistice din eantioane din care rezult indicatori derivai:
mrimi relative, medii, indici etc. care descriu statistic eantionul folosit.
Etapa 3. Indicatorii obinui se extind, cu o anumit probabilitate P i o eroare E, asupra ntregii
colectiviti.

39

Estimarea parametrilor
Parametrii calculai pentru o colectivitate de selecie pot fi generalizai la ntreaga
colectivitate n anumite condiii. Aceast generalizare se refer, n particular, la estimarea
parametrilor necunoscui ai colectivitii iniiale (generale). Determinnd un anumit parametru, ne
propunem s obinem o mrime, care ntr-o msur oarecare s fie ct mai apropiat de valoarea
real a parametrului necunoscut. n caz contrar cutm nite limite n interiorul crora, cu o
anumit probabilitate, putem afirma c se afl mrimea real a parametrului necunoscut. n acest
caz avem de-a face cu un interval de ncredere pentru parametrul necunoscut.
Considerm c populaia statistic satisface legea normal. Astfel toi parametri estimai fac
referire la o distribuie normal de frecven.

Estimarea mediei
Vom nota cu 2 dispersia colectivitii generale, cu s2 dispersia colectivitii de selecie (a
eantionului).
Msura erorii standard pentru medie este

Em

s
n

Unde n este mrimea eantionului (nr. elementelor care formez eantionul).


n aceast situaie estimarea pentru media colectivitii generale este:

40

X x Em cu o probabilitate de 0,682

X x 2 Em cu o probabilitate de 0,954

X x 3Em cu o probabilitate de 0,997

Estimarea pentru abaterea medie ptratic ()


Limitele de confiden pentru o abatere medie ptratic pot fi estimate ntr-o manier
similar. Pentru aceasta introducem noiunea de eroare standard a abaterii medii ptratice

Es

s
2n

n mod analog intervalele de ncredere sunt date de

s Es cu o probabilitate de 0,682

s 2Es cu o probabilitate de 0,954

s 3Es cu o probabilitate de 0,997

Estimarea proporiilor
Formulele pentru erorile standard pot fi aplicate doar pentru a estima media i abaterea
medie ptratic. Sunt situaii cnd avem exprimri procentuale, cum ar fi procentul de persoane
care au optat pentru o anumit situaie (care au votat pentru un partid). Astfel eroarea standard
pentru estimarea procentelor este:

E%

pq
n

41

unde p este procentul din eantion care posed un anumit atribut, q este procentul din eantion care
nu posed acel atribut, iar n este numarul de indivizi din eantion.
Exemplu. Pe un eantion de 50 indivizi s-a evaluat c 86% dintre acetia au televizoare (p).
Procentul pentru cei care nu au televizoare (q) este de 100 86 = 14 (nu au fost numrai ci
dedui). Avem:

E%

86 14
24,08 4,91
50

Aa cum am procedat la celelalte estimri aceast eroare standard pote fi folosit pentru a
stabili limitele de confiden a procentului estimat al colectivitii generale. Astfel avem :
Populaia gen % = eantion % E% cu probabilitate 0,682
Populaia gen % = eantion % 2 E% cu probabilitate 0,954
Populaia gen % = eantion % 3 E% cu probabilitate 0,997
Pentru exemplul de mai sus semnificaia este urmtoarea. Avem o probabilitate de 0,682 ca
deintorii de aparate TV s fie undeva ntre 81,09% i 90,91% (adic 86-4,91 i 86 + 4,91). La un
nivel de confiden de 0,954, procentele vor fi ntre 76,18% i 95,82% (86-24,91 i 86+24,91).
Mrimea eantionului
n cele expuse mai sus am introdus erorile standard pentru anumite mrimi estimate.
Acestea permit evaluarea limitelor de confiden pe baza unor ipoteze (distribuia normal a
populaiei i un eantion obinut ntr-o manier aleatoare). Pentru evaluarea efectiv a acestora
trebuie s tim doar dou lucruri : mrimea (n) i abaterea medie ptratic (s) a eantionului. n cele
ce urmeaz vom revedea problema invers : ct de mic trebuie s fie eantionul (n) astfel nct
media i abaterea medie ptratic s aibe nite limite de confiden specificate.
Din formula erorii pentru medie

Em

s
n

explicitm pe n:

42

n
E
m

Ex. Dac vrem s avem o eroare pentru medie de 0,25 i o dispersie de 2 => n = 64
Estimri provenite din eantioane mici
n general cel care face estimri pe baz de eantioane este o persoan prudent. Dac
eantioanele sunt mici aceast pruden trebuie mrit. Aa cum am vzut pn acum abaterea
medie ptratic a eantionului (s) este foarte important pentru stabilirea limitelor de confiden ale
mediei i abaterii medii ptratice pentru colectivitatea general. Cnd se lucreaz cu eantioane
mici, de 10 sau mai mici, trebuie s adoptm nite limite de confiden mai mari.
Astfel estimarea abaterii standard va fi nlocuit cu cea mai bun estimare a abaterii
notat cu i care se calculeaz din formula

n
n 1

sau dac calculm direct din eantion


n

(x x)
i 1

n 1

Se observ c pentru eantioane mari aceast valoare nu difer prea mult de s, dar pentru

valori mici ale lui n aceast diferen poate fi semnificativ. Valoarea lui este ceva mai mare
dect s i astfel limitele de confiden vor fi mai largi. Toate calculele privitoare la erori se vor face

cu i nu cu s.

43

Corelaia statistic
n procesul de cercetare a legturilor cauzale existente ntre fenomenele naturale avem de-a
face cu contopirea aciunilor unei multitudini de factori (cauze), dintre care unii eseniali, alii
neeseniali, unii pot fi determinai, alii nu. Tocmai de aceea, n cercetarea legturii reciproce dintre
dou fenomene apar dificulti mari deoarece pot s existe cauze necunoscute. n astfel de situaii
este util s determinm gradul de corelare i apoi s analizm separat unele din aceste cauze. Cu
alte cuvinte, trebuie s definim relaii posibile ntre diferii factori, evenimente, atribute sau
caracteristici care ar putea avea o influen, cel puin parial asupra datelor experimentale. n acest
mod este posibil stabilirea unui tablou al condiiilor n care se desfoar un anumit fenomen
natural, fapt care duce la modelarea matematic a sa. Astfel de probleme se cerceteaz cu mult
succes prin metodele statisticii, unde teoria corelaiei are o pondere nsemnat.
Eficiena aplicrii metodei corelaiei depinde de punerea (enunarea) corect a problemei n
studiu precum i de aplicarea corect a statisticii matematice.
Caracterul complex al dependenei statistice pune pe primul plan problema identificrii
existenei legturilor. Calculul indicatorilor de corelaie este admis cu condiia stabilirii anticipate a
unei legturi cauzale reale ntre fenomenele cercetate. Statistica nu poate s rezolve o astfel de
problem fr ajutorul tiinei din domeniul creia face parte fenomenul studiat. Cu alte cuvinte,
specialistul din domeniul respectiv trebuie s cunoasc temeinic noiunile analizei statistice
implicate pentru a da o interpretare corect a rezultatelor. Pentru a asigura deducii suficient de
ntemeiate, este necesar includerea n cercetare, dac este posibil, a tuturor factorilor cu aciune
esenial.
n multe procese naturale, pe lng complexa ntreptrundere cu alte fenomene (procese),
acestea mai sunt supuse unor evoluii care la prima vedere pot fi considerate probabiliste
(aleatoare). De aceea, pentru cunoaterea modului de evoluie probabil n viitor - prognoza unui
anumit fenomen - trebuie s ne bazm pe cunoaterea evoluiei trecute, precum i pe situaia
prezent. Experiena unui mare numr de observaii (probe) au dus la concluzia c ntre diferitele
mrimi variabile pot exista urmtoarele tipuri de relaii:
a) Relaia de dependen, Y depinde de X sau invers. O modificare a unei variabile duce la
o modificare a celei de-a doua. n cazul unei astfel de relaii s-ar putea aminti existena relaiei

44

cauzale n care o variabil este cauza, iar cealalt este efectul, cauza fiind un fenomen sau un
complex de fenomene care provoac, genereaz sau determin un alt fenomen - efectul. Operaia
logic prin care efectul este dedus din cauz se numete inferen cauzal.
b) Relaia de interdependen, Y depinde de X i X depinde de Y. n acest caz modificarea
unei variabile provoac modificarea celei de-a doua variabile, iar modificarea acesteia din urm are
influen asupra primei variabile.
c) Relaia de tranziie, X se transform parial sau total n Y i invers.
d) Corelaia statistic sau covariana. Pentru X exist ntotdeauna Y i invers. Este o relaie
reciproc dintre dou variabile, dintre care una n mod logic apeleaz la alta i pe baza analizei
datelor experimentale se poate pune n evidenz o asociere ntre ele.
e) Relaia stochastic; dac se realizeaz X atunci cu o anumit probabilitate se realizeaz i
Y, sau invers.
n cele ce urmeaz vom analiza cu precdere corelaia statistic.
O problem important pentru cercetarea corelaiilor este problema determinrii funciei de
regresie, care s exprime relaia cantitativ dintre fenomenul efect i fenomenul cauz. Forma
legturii dintre fenomene i descrierea printr-o ecuaie analitic, pe baza crora se definesc valorile
fenomenului efect, n funcie numai de factorul sau factorii luai n considerare (cauze).
Pentru ajustarea seriei de valori empirice trebuie s se aleag acea ecuaie care oglindete n
modul cel mai corespunztor caracterul legturii cercetate. De buna alegere a funciei de regresie
depinde rezultatele analizei de corelaie, valoarea estimaiilor variabilei dependente. Stabilirea
formei legturii ine seama de natura dependenei fenomenului cercetat (de obicei se reprezint
grafic).
La fenomenele simple, unde cauzele acioneaz separat, relaia dintre fenomenul-efect i
fenomenul-cauz se reprezint sub forma:
y=f(x)
unde x reprezint cauza, iar y efectul.
La fenomenele complexe, dependena se exprim sub forma general:
y = f(x1 , x2 ,..., xn)

45

Fenomenul y este generat de aciunea comun a factorilor x1 ,x2 ,.., xn (cauze), din care lum
ns n calcul numai o parte.
S admitem c am luat n calcul factorul x1. ntrebarea care se pune este urmtoarea: n ce
condiii indicatorii corelaiei obinui exprim msura real a influenei variabilei x1 asupra
variabilei y? Numai cu condiia ca factorul x1 s fie hotrtor n determinarea lui y, ceilali fiind
nesemnificativi. n cazul n care fenomenul este sub aciunea unui complex de factori eseniali i
aceasta este situaia obinuit, pentru a exprima influena i gradul de intensitate a legturilor n
raport cu un singur factor trebuie s eliminm influena celorlai.
S considerm o colectivitate statistic caracterizat prin mrimile X i Y. Efectund o serie
de determinri experimentale (sau observaii) asupra acestei colectiviti, putem ntocmi tabela
datelor respective:
X | x1, x2 , ..., xn
Y | y1 , y2 , ..., yn
Repartiia empiric a celor dou variabile se poate afia grafic, ntr-un sistem de axe XOY,
unde vom reprezenta punctele de coordonate xi i yi. Un ansamblu de astfel de puncte se numete
cmp de corelaie, tabel de corelaie sau nor statistic.
Dac punctele Mi(xi ,yi) sunt distribuite de-a lungul unei fii, care n general, urmeaz o
curb determinat, spunem c ntre mrimile respective exist o dependen funcional. Dac
punctele Mi(xi ,yi) nu arat o dependen funcional strict, dar exist o tendin ca valorile lui Y s
depind de cele ale lui X dei nu n mod riguros, ntre mrimile X i Y exist o corelaie Aceasta
poate s fie liniar (fig. 1) sau neliniar (fig. 2). n cazul cnd ntre X i Y nu exist nici un fel de
dependen, cmpul de distribuie se va prezenta asemntor cu acela artat n fig. 3, 4. Cele dou
caracteristici sunt independente.

46

Figura 1 Distribuie liniar

Figura 2 Distribuie neliniar

Figura 3 Distribuie aleatoare


Figura 4 Distribuie grupat

47

ntr-un caz particular, dependena corelaionar se poate transforma ntr-o dependen


funcional, dar cu un anumit grad de certitudine. Apare problema de stabili cantitativ (numeric) n
ce msur dependena corelaional se apropie sau se deprteaz de dependena funcional.
n foarte multe cazuri, din observarea fenomenelor naturale sau a proceselor sociale, fr a
cunoate natura exact a acestora i nici cauzele prin care este pus n eviden o anumit
caracteristic, se pot trage concluzii foarte importante prin examinarea corelaiei dintre aceste
trsturi i alte evenimente. n acest mod se poate aprecia existena unei relaii statistice ntre dou
sau mai multe variabile, adic, n astfel de cazuri se vorbete despre corelaii dintre mrimile care
indic o dependen reciproc.
n cazul cnd se consider numai dou variabile, se pot stabili corelaii simple, iar cnd
numrul variabilelor este mai mare de doi, avem corelaii multiple.
Din punct de vedere al formei unei relaii statistice, spunem c ea este direct atunci cnd
creterea unei variabile, duce la o cretere a celeilalte variabile, i o denumim invers cnd o
cretere a unei variabile duce la o descretere a celeilalte.
Relaiile statistice definite prin corelaii pot avea aspect liniar sau neliniar; prin urmare vom
distinge corelaii liniare i corelaii neliniare sau curbilinii.
n cazul n care sunt implicate mai multe variabile vom avea corelaie parial cnd se
consider constante unele variabile i corelaie parial cnd se iau n considerare variaiile tuturor
mrimilor.
Metoda celor mai mici ptrate.
Dependena funcional a unei variabile y fa de alt variabil x poate fi studiat empiric,
pe cale experimental, efectundu-se o serie de msurtori asupra variabilei y pentru diferite valori
ale lui x. Rezultatele se pot prezenta sub form de tabel sau grafic.
Problema care se pune n acest caz este de a gsi reprezentarea analitic a dependenei
funcionale cutate, adic de a alege o formul care s descrie rezultatele experimentului.
Formula se alege dintr-o mulime de formule de tip determinat, de exemplu.

y = ax + b ,

y = ax2 + bx + c ,

y = aebx + c ,

48

y = a + h sin( t + )

Cu alte cuvinte, problema const n a determina parametrii a, b, c, ai formulei, n timp ce


tipul formulei este cunoscut dinainte ca urmare a unor considerente teoretice sau dup forma
prezentrii grafice a materialului empiric.
S notm, la modul general cnd avem n parametrii, dependena funcional prin:
y = f(x; a0 ,a1 ,...,an)
Parametrii a0, a1,..., an nu se pot determina exact pe baza valorilor empirice y1, y2,...,yn ale
funciei, deoarece acestea din urm conin erori aleatoare. Este vorba de obinerea unei estimaii
"suficient de bune".
Formularea problemei
Dac toate msurtorile valorilor funciei sunt y1, y2,...,yn atunci estimaiile parametrilor a0,
a1,..., an se determin din condiia ca suma ptratelor abaterilor valorilor msurate yk de la cele
calculate f(xk; a0, a1,..., an), adic expresia
n

S [ yk f ( xk ; a0 , a1 ,..., an )]2
k 1

s ia valoarea minim.
Consideraia formulat se pstreaz i pentru determinarea estimaiilor parametrilor unei
funcii de mai multe variabile. Adic un efect i dou cauze. De exemplu, pentru funcia z de dou
variabile x i y, estimaiile parametrilor a0, a1,..., an se determin din condiia ca expresia:
n

S [ zk f ( xk , yk ; a0 , a1 ,..., an )]2
k 1

s fie minim.
Aflarea valorilor parametrilor a0, a1,..., an, care conduc la cea mai mic valoare a funciei

s s(a0 , a1,..., an )
revine la rezolvarea sistemului de ecuaii

S
S
S
0,
0
0 ,,
a0
an
a1
Dac formula empiric depinde liniar de parametrii necunoscui atunci sistemul de mai sus va fi de
asemenea liniar.

49

Dreapta de regresie.
n cazul cel mai simplu se studiaz numai dou variabile X, Y i se dorete gsirea
dependenei:
Y = aX + b
n ipoteza c X este cauza i Y este efectul.
n urma celor n probe se cunosc datele (xi ,yi), i=1,..., n i trebuie s determinm coeficienii
a i b astfel nct suma
n

S (a, b) (axi b yi ) 2
i 1

s fie minim. Se obine

c xy

2
x

y c xy
y

rxy
x x y x

b y ax

unde x2 este dispersia variabilei x, iar y2 este dispersia variabilei y.


Mrimea
cxy xy x y

se mumete corelaia variabilelor X i Y. Raportul rxy c xy / x y se numete coeficient de


corelaie a variabilelor X, Y i msoar intensitatea dependenei liniare dintre variabilele X i Y.
n n final se va obine ecuaia de regresie:

Yy

y
rxy ( X x )
x

Aceast dependen reprezint o dreapt numit dreapt de regresie a variabilei Y n raport cu


variabila X.

Dreapta de regresie
50

Observaie. Se poate vorbi i de dependena variabilei X n funcie de Y. Urmnd un calcul


asemntor se ajunge la dreapta de regresie a variabilei X n raport cu Y:

X x

x
rxy (Y y )
y

Se observ c cele dou drepte de regresie coincid dac i numai dac rxy2 1 .
Observaii.
1. Trebuie s facem observaia c, indiferent de gradul de mprtiere al punctelor,
ntotdeauna se poate gsi o dreapt de regresie, dar n cazul unei dispersii mari aceasta devine
inutil. De aceea un studiu preliminar a distribuiei punctelor n plan sau spaiu se impune cu
necesitate.
2. Coeficientul de corelaie este o mrime foarte important n cadrul regresiei liniare. El
msoar gradul de dependen liniar ntre cauz i efect i are o valoare cuprins ntre 1 i 1.
Apropierea de 1 implic o dependen liniar puternic ntre mrimi, iar apropierea de zero indic o
lips a corelatiei. Valorile negative semnific o corelaie invers.
EXEMPLE
n cele ce urmeaz vom lua dou exemple. n primul exemplu vom determina o dreapt de
regresie, corespunztoare debitului i al pH-ului, msurate n perioada ianuarie -decembrie 1993
pe rul Arie. Datele au fost obinute de la R.A. Apele Romne.
PH

8.7 7.8 6.6 7.9 7.3 7.5 7.5 7.3 6

Debit 13 40 80 23 50 30 25

60

7.6 7.8

10 28 15

7 6.8 6.6 6.4


74 45

59

Variatia debit-pH
120
100
80
60
40
20
0

y = -32.633x + 284.03
debit
Linear (debit)

10

Figura 45 Dreapta de regresie

51

68

Se observ c pH-ul scade odat cu creterea debitului. La debite mai mari procesele hidrice
(dizolvare, diluie etc) fiind mai accentuate. La valori mai mici ale debitului, pH-ul crete devenind
uor acid (7,6 7,9) sau acid (8,7). Coeficientul de corelaie este r=-0,87946; avem astfel o
corelaie invers strns.
n al doilea exemplu am determinat curba de regresie corespunztoare variaiei debitului i
suspensiilor. Datele au fost obinute n urma analizelor fizico-chimice efectuate pe Valea Zalului,
de pe teritoriul municipiului Zalu n anul 1995.
debit 251 190 308 375 165 357 369 280 469 640 215 150 169 550 460
susp. 75 68 157 200 69 134 125 67 205 270 48 90 88 125 145

Variatia debit-suspensii
300

y = 46.436e0.0026x

250
200
susp.

150

Expon. (susp.)

100
50
0
0

500

1000

Figura 46 Curba exponenial de regresie

n figura 46 se distinge faptul c odat cu creterea debitului cantitatea de suspensii din ap


crete exponenial. Datorit curentului, particulele de dimensiuni mari de pe fundul albiei sunt
antrenate n micare, devenind suspensii. n cazul unor debite mai mici, cnd scurgerea este mai
lin, doar particulele de dimesiuni mici sunt antrenate n micare. Facem observaia c acest lege
nu este att de reprezentativ ca i cea din exemplul precedent.
Calculele au fost fcute cu programul de calcul tabelar Excel.
Regresia multipl.
Considerm cazul n care variabila Z depinde de dou variabile X i Y. Se dorete obinerea
dependenei
Z=aX+bY+c
astfel nct suma
n

S (a, b, c) (axi byi c zi ) 2

s fie minim. Se obine

i 1

52

s y2cxz cxy c yz rxy rxy ryz sz


a

sx2 s y2 cxy2
1 rxy2
sx
b

sx2c yz cxy c yz rxy rxy rzx sz

sx2 s y2 cxy2
1 rxy2
sx

i ecuaia de regresie:

Z z a( X x ) b(Y y )
Reprezentat geometric aceast ecuaie este un plan n spaiul oxyz. Interpretarea este
urmtoatrea: acest plan este planul care ajusteaz cel mai bine irurile xi i yi, i=1,..., n. Cu alte
cuvinte, dac Z reprezint efectul, X i Y reprezint cauzele, n consecin, Z arat dependena
liniar de cele dou variabile X i Y luate mpreun.

53

Corelaia rangurilor
Exist cazuri n care ne intereseaz gradul de corelaie dintre dou serii de mrimi, dar cnd
nu putem efectua msurtorile respective. n anumite tipuri de probleme avem de-a face cu
caracteristici care nu pot fi exprimate prin cifre, dar pot fi ordonate dup un aumit criteriu. n astfel
de cazuri vom lua n considerare ordinea lor i nu evaluarea numeric.
n cazul n care rangul anumitor caracteristici este mai accesibil dect msurtorile efective,
pentru examinarea legturilor dintre anumii parametrii, putem cerceta corelaia rangurilor
respective. Prezentm mai jos cteva procedee de evaluare a anumitor corelaii n care se ine
seama de ordonarea mrimilor caracteristice, adic n care se utilizeaz rangul sau poziia pe care
le au anumite mrimi, una n raport cu alta. Vom determina deci coeficientul de corelaie al
rangurilor.
Coeficientul lui Spearman
Fie n numrul de elemnte ale unei mulimi ordonate dup caracteristici calitativ diferite.
Pentru c avem n uniti statistice A1, A2, ... , An, fiecare dintre ele avnd dou caracteristici
(x1, y1), (x2 , y2),...,(xn, yn)
Pentru caracteristica x dispunem de ordonarea: x1 , x2 ,...,xn, iar pentru caracteristica y avem:
y1, y2 ,...,yn, unde x i y sunt simple permutari ale celor n numere naturale. Notm:
di = xi yi

(k=1, 2,...,n)

unde vectorul de componente di este o mrime a gradului de apropiere pe care o poate avea
corespondena dintre x i y. Dac d=0, nseamn c toi indivizii considerai au cele dou
caracteristici n aceeai ordine, avem deci o coresponden perfect. Cu ct diferenele di sunt mai
mari, cu att mai mare este discordana ntre cele dou caracteristici.
Pentru o cercetare a corelaiei rangurilor, vom considera scrise n ordine cresctoare sau
descresctoare toate valorile lui xi iar alturi scriem valorile corespunztoare ale lui yi, acestea din
urm putnd fi sau nu n vreo anumit ordine. Prin urmare, n cadrul ordonrii dup rang, x ia
valorile: 1,2,3,..., n ntr-o anumit ordine, pe cnd y ia aceleai numere dar ordonate dup aceast
caracteristic. Pentru ca s nu existe compensri ntre valorile di se va lua ptratul acestor valori.
Astfel se definete coefficient de corelaie al rangurilor (coeficientul lui Spearman) ca fiind
expresia:

54

6 d i2
n(n 2 1)

Dac =1 avem concordan maxim, iar dac =-1 avem discordan maxim.
Pentru o ilustrare mai sugestiv vom lua un exeplu. Considerm c A1, A2, ... , An
reprezint n persoane, caracteristicile x1 , x2 ,...,xn, fiind nlimea lor msurat n cm, iar
caracteristicile y1, y2 ,...,yn greutatea lor msura n kg. Se pune problema dac exist o corelaie
ntre aceste dou caracteristici. Pentru simplificare vom lua n=10. Aceast clasificare are urmtorul
rezultat.
A1

A2

A3

A4

A5

A6

A7

A8

A9

A10

10

10

n prima linie sunt cele 10 persoane, n linia a doua ordinea pe care o ocup fiecare persoan
dup nlime (cresctoare), iar n linia a treia ordinea lor dup greutate. Aceast ordonare ne
permite s dm un criteriu privind legtura ntre aceste dou caracteristici.
Vom deosebi dou situaii extreme. Situaia cea mai strns legat (cel mai nalt este cel mai
mare n greutate):
A1

A2

A3

A4

A5

A6

A7

A8

A9

A10

10

10

i situaia cu legtura cea mai slab (cel mai nalt este cel mai mic n greutate).
A1

A2

A3

A4

A5

A6

A7

A8

A9

A10

10

10

Rangurile obinute n cele dou clasificri pot oferi o indicaie asupra corelaiei dintre cele dou
caracteristici. Diferenele dintre cele dou valori sunt (primul ir minus al doilea ir):

-1

-1

-2

55

-2

-1

iar suma ptratelor diferenelor este dat de


10

d
i 1

2
i

22 iar coeficientul lui Spearman

=0,862

Apropierea de 1 lui indic o corelaie destul de mare ntre carcatristicile luate n considerare.

56

PARTEA IIa
INTRODUCERE N TEORIA PROBABILITATILOR
Noiunea de probabilitate este un concept fundamental n statistic. Toate testele statistice
implic calculul probabilitilor, fie direct, fie indirect. Statistica nu lucreaz cu certitudini, ci cu
probabiliti. Ipotezele statistice nu pot fi considerate n totalitate adevrate sau false.
Raionamentul probabilist explic evenimentele fundamentale ale universului fizic n care
trim precum i o mare parte din evenimentele petrecute n lumea fiinelor vii. Utilitatea aproape
nelimitat a raionamentului probabilist este unul din aspectele cele mai importante i mai izbitoare
ale tiinei moderne. Acest punct de vedere a fost dezvoltat i acceptat mai ales n ultimii 80 de ani,
cu toate c teoria probabilitilor s-a nscut cu peste trei secole n urm.
Vom examina n acest capitol numai acel tip de raionament, n care un pas conduce n mod
ordonat la pasul urmtor, ntregul proces succesiv conducnd n final la o concluzie. Acest gen de
gndire ajunge la un nivel foarte rafinat n matematic, precizia sa depinznd de mai muli factori:
modul precis n care sunt definii termenii, rigoarea cu care definiiile sunt respectate i atenia cu
care toate regulile de aciune sunt puse n eviden i clar exprimate. Acest mod de a gndi
constituie gndirea logic, iar logica nsi poate fi definit astfel drept studiul sistematic al
condiiilor i procedeelor care permit o judecare valabil, cu alte cuvinte care permit s se
porneasc de la una sau mai multe afirmaii i s se deduc din aceasta una sau mai multe concluzii,
sau propoziii noi care s fie valabile, n sensul justificrii lor de ctre propoziiile iniiale ale cror
consecine sunt de fapt. Este extrem de important faptul c logica nu afirm ceva din nimic ci
scoate la iveal afirmaii, propoziii i relaii cuprinse n propoziiile iniiale. Ceea ce are
importan, prin urmare, ntr-o ntr-o astfel de gndire logic nu este adevrul, ci mai degrab
valabilitatea sa. O concluzie logic poate s merite pe drept cuvnt adjectivele : corect, sntoas
sau precis, toate acestea nsemnnd c ea a fost dedus n mod riguros din materialul iniial. Dar
faptul c a fost dedus prin metode logice corecte nu nseamn ctui de puin c ea este n mod
necesar adevrat. Dac afirmaiile (ipotezele) iniiale sunt adevrate, atunci consecinele logice
deduse trebuie s fie adevrate.
Logica probabilist ia n considerare o serie ntreag de afirmaii, dintre care nici una nu
este total fals sau total adevrat, ordonndu-le n raport cu gradul lor de adevr, spunnd cu ct

57

este mai plauzibil sau mai puin plauzibil una fa de cealalt. Logica probabilist nu se limiteaz
numai la dou valori de adevr 0 i 1, ci utilizeaz o infinitate de valori exprimate ca numere situate
ntre 0 i 1.
Teoria probabilitilor poate s analizeze acele situaii n care nu avem suficiente informaii
care s permit aplicarea logicii clasice; ea este capabil s ne dea un cel mai bun tip de rspuns pe
care-l justific o informaie incomplet. ntr-un mare numr de cazuri, teoria probabilitilor nu ne
spune numai "sfatul meu este aa i aa", ci poate s ne indice gradul de ncredere pe care suntem
ndreptii s-l acordm sfatului dat.
n diferite stadii ale dezvoltrii tiinei se poate considera un ansamblu de fenomene reale i
se poate cuta pentru el un model matematic. De exemplu o familie de ipoteze plus teoria pur care
rezult pe baza acestora i care se aplic cu strict precizie unui sistem fizic idealizat - suficient de
asemntor sistemului fizic real - n aa fel nct teoria sistemului idealizat va "explica" sau mcar
va organiza i simplifica fenomenele reale.
Primii experi n teoria probabilitilor vorbeau despre extragerea de bile colorate din urne.
Aceasta nu pentru c lumea ar fi ntr-adevr interesat n urne cu bile ci pentru c deseori acestea
puteau fi folosite ca modele utile ale unor situaii reale. Calculele probabilistice se aplic strict la
modele fictive pe care ele sunt bazate. Dac ele se aplic sau nu n mod util situaiilor reale este o
chestiune la care trebuie s reflectm cu grij.
Cmp de evenimente
n teoria probabilitilor sunt studiate experienele cu rezultat ntmpltor, numite
experiene aleatoare; pe scurt experiene (experimente).
Definiie. Prin experien n teoria probabilitilor se nelege orice act care poate fi repetat n
condiii date.
Nu se poate preciza rezultatul exact al unei experiene. De exemplu la aruncarea unei
monede nu se poate ti dinainte ce fa a monedei va apare. De asemenea la aruncarea unui zar nu
se poate ti dinainte ce fa a zarului va apare. Orice eveniment aleator depinde de aciunea
combinat a mai multor factori ntmpltori.
Rezultatele posibile ale experienei se numete prob.

58

Definiie. Orice situaie legate de experien i despre care putem spune c s-a produs sau
nu, dup efectuarea experienei, poart numele de eveniment. aleator
Cu alte cuvinte, un eveniment aleator sau pe scurt eveniment (ataat experienei) este orice situaie
care se poate realiza prin una sau mai multe probe.
Deci un eveniment este determinat prin mulimea probelor prin care se realizeaz, prin
urmare l putem interpreta ca o submulime a mulimii tuturor probelor experienei.
Exemple
1. Aruncarea unei monezi este un experiment. Apartiia oricrei fee o prob. Apariia unei
anumite fee este un eveniment.
2. Aruncarea zar este un experiment. Apartiia oricrei fee o prob. Apariia unei anumite
fee este un eveniment. Apariia feelor 2, 3, 4, este de asemenea un eveniment.
Evenimentele aleatoare se supun unor legi, cunoscute sub numele de legi statistitice, teoria
probabilitilor stabilind forma lor de manifestare i permind s se prevad desfurarea lor.
Evenimentele care se realizeaz printr-o singur prob se numesc evenimente elementare,
celelalte se numesc evenimente compuse.
Evenimentul care se realizeaz prin oricare din probe se numete eveniment sigur (notat
prin E).
Exemplu. Apariia oricrei fee la o moned sau la un zar.
Evenimentul care nu se realizeaz prin nici o prob se numete eveniment imposibil, notat
cu .
Exemplu. Apariia niciunei fee la o moned sau la un zar.
Evenimentul contrar lui A sau non-A (sau ) este evenimentul care se realizeaz atunci i
numai atunci cnd nu se realizeaz A.
Exemplu. Apariia unei fee cu numr par la un zar i apariia unei fee cu numr impar sunt
evenimente contrare.
ntotdeauna unui eveniment i corespunde un eveniment contrar, a crui producere nseamn
nerealizarea primului.
Definiie. Spaiul de selecie asociat cu o expereien este mulimea de elemente cu
proprietatea c orice eveniment rezultat n urma experienei corespunde unui singur element al
acestei mulimi.

59

Definiie. Fie mulimea E={E1, E2,...,En} mulimea tuturor evenimentelor elementare


corespunztoare unei experiene. Se numete cmp finit de evenimente, mulimea tuturor
submulimilor lui E, la care se adaug mulimea E nsi i .
Exemple: La aruncarea unei monezi avem urmtoarele situaii (evenimente): apariia unei
fee, apariia celeilalte fee, apariia oricrei fee (E) i apariia nici uneia din fee (). n total sunt
4 evenimente
Un cmp de evenimente se noteaz cu {E,K} unde prin E nelegem evenimentele, iar K
semnific numrul evenimentelor.
Observaie: Ori de cte ori ntr-o relaie vor intra mai multe evenimente, vom presupune c
ele aparin aceluiai cmp i nu vom mai specifica acest lucru.
Operaii cu evenimente.
Cnd n cadrul unei experiene ne fixm atenia asupra unui eveniment, de fapt, ne fixm
atenia asupra unei pri din mulimea rezultatelor experienei.
Exemplu. La aruncarea unui zar ne intereseaz evenimentul A care const n apariia uneia
din feele 2, 4 sau 6. Evenimentul A este perfect determinat de mulimea format din aceste dou
rezultate i deci l putem identifica cu aceasta. Vom scrie
A={2,4,6}
Considerm c evenimentul B const numai din apariia feei 2 i 4.
Se observ c evenimentul A se produce ori de cte ori se produce evenimentul B. Astfel putem
scrie:
BA
Definiie. Fiind date dou evenimente A i B, numim reuniunea lor, AB, evenimentul a
crei producere const n producerea a cel puin unul din cele dou evenimente.
Exemplu. La aruncarea unui zar se consider evenimentele:
A={1,2,4}, B={2,4,5}
Evenimentul A se produce dac obinem unul din rezultatele {1}, {2} sau {4}, iar B dac se
obine unul din rezultatele {2}, {4} sau {5}
AB={1,2,4,5}
Definiia 3. Intersecia evenimentelor A i B const n producerea simultan a
evenimentelor A i B.

60

Pentru exemplul de mai sus, avem urmtoarea expresie:


AB={2,4}
Definiia 4. Spunem c dou evenimente sunt compatibile dac se pot produce simultan.
Exemplu. Apariia feei {1} i apariia feelor impare.
Definiia 5. Spunem c dou evenimente sunt incompatibile dac nu se pot produce
simultan.
Exemplu. Apariia unei fee pare i apariia unei feelor impare.
Se folosete expresia
AB=
Definiie. Fie A un eveniment; dac ntr-o serie de n probe, evenimentul A s-a realizat de nA
ori, numim frecven relativ a evenimentului A numrul f(A) = nA/n.
Cmp de probabilitate
Considerm o experien cu n evenimente elementare (deci n probe) egal posibile i fie A
un eveniment oarecare, care se poate realiza prin m probe; m n.
Definiie (definiia clasic a probabilitii). Se numete probabilitatea evenimentului A,
numrul P(A)=m/n, adic raportul dintre numrul cazurilor favorabile i numrul cazurilor egal
posibile.
Probabilitatea unui eveniment elementar este 1/n (n fiind numrul probelor).
Proprieti:
1) 0 P(A) 1
2) P()=0
3) P(E)=1, m=n
4) P() = 1-P(A)
5) P(AB) = P(A)+P(B), dac AB= (evenimente incompatibile)
6) P(A)P(B) dac AB.
Definiie (definiia axiomatic aprobabilitii). O probabilitate P definit pe cmpul de
evenimente {E,K} este o funcie care asociaz fiecrui eveniment A{E,K} un numr real P(A)
care satisface urmtoarele axiome:
1) P(A)0 , A{E,K}
2) P(E)=1, E fiind elementul sigur
61

3) P(AB)=P(A)+P(B), A,B{E,K}, AB=


Observaie. Definiia clasic a probabilitii satisface toate axiomele definiiei de mai sus.
Definiia 8. Numim cmp finit de probabilitate un cmp finit de evenimente {E,K} nzestrat
cu o probabilitate; se noteaz {E,K,P}.
Evenimente independente. Dou evenimente A, B sunt independente dac:
P(AB) = P(A) P(B)
Evenimente incompatibile. Dou evenimente se numesc incompatibile dac
AB= deci P(AB) = P() = 0
Scheme calsice de probabilitate.
Calculul probabilitilor de apariie a unor evenimente este acelai pentru o clas larg de
experimente. Din acest motiv se construiete un model matematic pentru o astfel de clas, care se
numete schem de probabilitate. Pentru o astfel de schem se determin formulele
corespunztoare de calcul, ce depind de anumii parametri, formule care se aplic pentru fiecare
experiment din clasa respectiv, prin particularizarea acestor parametri. n cele ce urmeaz vom
prezenta principalele scheme de probabilitate cele mai de ntlnite.
1. Schema lui Bernoulli (schema binomial sau schema bilei revenite)
n urma efecturii unei experiene poate aprea evenimentul A cu probabilitatea p, sau
evenimentul contrar () cu probabilitatea q=1-p. Se repet experiena de n ori n condiii identice.
Probabilitatea P(n;m) ca n cele n experiene evenimentul A s apa de m ori este

P(n; m) Cnm p m q n m
Deoarece probabilitatea P(n;m) este coeficientul lui xm din dezvoltarea (q+px)n acesat
schem se mai numete schema binomial.
Schema lui Bernoulli mai poate fi realizat printr-o urn cu bile de dou culori (albe i negre), se
extrage pe rnd cte o bil din urn, dar de fiecare dat bila se pune napoi, motiv pentru care se
mai numete schema bilei revenite (ntoarse).
2. Schema bilei nerevenite
Dintr-o urn cu a bile albe i b bile negre se extrag n bile, na+b. Probabilitatea Pa,b(,) ca

din bilele extrase s fie albe i negre, + =n, este

62

Pa ,b ( , )

Ca Cb
Cab

3. Schema lui Poisson


Se fac n experiene independente. n urma experienei de rang k poate aprea evenimentul A
cu probabilitile pk sau evenimentul cu probabilitatea qk = 1- pk. Probabilitatea pm ca n cele n
experiene evenimentul A s apar de m ori este coeficientul lui xm din polinomul
P(x)=(p1x+q1) (p2x+q2)(pnx+qn),

P(A)=p1p2plq1q2qm,

l+m=n

Variabil aleatoare.
Pn acum ne-am ocupat de apariia sau neapariia unor evenimente, aadar de latura
calitativ a fenomenului aleator. Pentru studiul matematic al fenomenelor aleatoare este necesar ca
descrierea acestora s aib expresii cantitative, care s poat fi tratate din punct de vedere
matematic. Aceast expresie cantitativ este dat de variabila aleatoare. Deoarece noiunea de
variabil aleatoare este foarte important trebuie s-i acordm o atenie deosebit. Pentru a se
nelege mai bine aceast noiune i vom da, la nceput, o definiie intuitiv.
Numim variabil aleatoare o mrime care drept rezultat al unui experiment- poate lua o
valoare oarecare, fr s se poat preciza dinainte care anume. Adic mulimea de evenimente este
discret (avem un numr finit de evenimente) vom avea o variabil aleatoare discret, iar n caz
contrar o variabil aleatoare continu. Valorile posibile ale variabilelor aleatoare disrete pot fi
enumerate dinainte, spre deosebire de variabilelor aleatoare continue, care pot lua orice valoare
ntr-un anumit interval.
Definiia riguroas a variabilei aleatoare este urmtoarea.
Definiie. O variabil aleatoare este o funcie (msurabil) definit pe mulimea
evenimentelor E cu valori n mulimea numerelor reale.
Aa cum am amintit, dac E={A1 , A2 , , An} avem o variabil aleatoare discret i ea,
notat cu X, ia valoarea x1 dac se verific evenimentu A1 , ia valoarea x2 dac se verific
evenimentu A2 .a.m.d. Fiecare din valorile x1, x2,, xn este posibil dar nici una sigur. De aceea
se spune c probabilitatea ca variabila aleatoare X s ia valoarea xi este pi=P(X=xi), unde P este
funcia de probabilitate definit mai sus axiomatic.

63

Variabila aleatoare va fi mult mai bine precizat atunci cnd se cunoate probabilitatea cu
care este luat fiecare valoare.
Definiie. Numim distribuia sau repartiia variabilei aleatoare X, tabloul

x1 x2 ...xn

X
p
p
...
p
1 2 n
Unde pi sunt probabilitile de apariie ale vaorilor xi, i=1,n i se mai scrie pi = P(X= xi) ;
deci X= xi este un eveniment.
Distribuia unei variabile aleatoare X poate fi reprezentat grafic n plan, prin poligonul de
repartiie, care se obine unind printr-o linie poligonal punctele de coordonate (xi, pi), i=1,n ; n
general pe cele dou axe se iau msuri diferite.
Distribuii clasice de probabilitate
1. Distribuia corespunztoare schemei lui Bernoulli (binomial).
Se ataeaz schemei lui Bernoulli o variabil aleatoare X care reprezint numrul de apariii
ale evenimentului A atunci cnd se efectueaz n experiene. X are urmtorul tablou de distribuie

0 1 2 k n

X n 1 n 1 2 2 n 2
k k nk
n
q

C
pq

C
p
q

C
p
q

p
n
n
k

C
k 1

k
n

p k q n k ( p q) n 1

2. Distribuia corespunztoare schemei bilei nentoarse


Se ataeaz schemei bilei nentoarse variabila aleatoare X care reprezint numrul de bile
albe din cele n bile extrase din urn. X are repartiia :

0 1 k n

X Ca0Cbn Ca1Cbn 1 Cak Cbn k


CanCb0
n
Cn Cn Cn
Ca b
a b
a b
a b

Cak Cbn k
1

n
k 1 Ca b
n

3. Distribuia corespunztoare schemei lui Poisson


Se ataeaz schemei lui Poisson variabila aleatoare X care reprezint numrul numrul de apariii
ale evenimentului A, atunci cnd se efectueaz n experiene. X are distribuia

0 1 2 k n

X
p0 p1 p2 pk pn
unde pk este coeficientul lui xm din polinomul
P(x)=(p1x+q1) (p2x+q2)(pnx+qn),

pn=1

64

Funcia de repartiie.
Definiie. Fie X o variabil aleatoare i F(x) probabilitatea ca X s ia valori mai mici dect
x, adic F(x) = P(Xx). Funcia F(x) se numete funcie de repartiie a variabilei aleatoare X.
n cazul n care variabila aleatoare X este o variabil aleatoare discret i are repartiia

x1 x2 ...xn

X
p1 p2 ... pn
funcia de repartiie F este o funcie n scar definit prin:

0, a x1
p ,x a x
2
1 1
p2 , x2 a x3

...
F (a)
p1 p2 ... pi , xi a xi 1
...

p1 p2 ... pn 1 , xn 1 a xn
1, a x
i

65

Bibliografie
1. Bot E., Leonhard W, 2002, Microsoft Office XP, Ed. Teora.
2. Baron T., Korka M., Pecican E., 1981, Stnescu Maria, Statistic pentru comer i
turism, Ed. Did. i Ped. Bucureti
3. Ciucu B., Craiu V., 1971, Introducere n teoria probabilitilor i statistic
matematic, Ed. Didactic i Pedagogic, Bucureti.
4. Ebdon D., 1989, Statistics in Geography, Blackwell Inc., New-York .
5. Person R., 1997, Utilizare Excel, Ed. Teora
6. Petcu Nicoleta, 2000, Stastistic n turism. Teorie i aplicaii, Ed. Albastr (Grupul
Microinformatica), Cluj-Napoca.
7. Rotaru T., Bdescu G., Culic Irina, Mezei E., Murean Cornelia, 1999, Metode
statistice aplicate n tiine sociale, Ed. Polirom, Iai.
8. Yule G.U., Kendall M.G., 1969, Introducere n teoria statisticii, Ed. St., Bucureti.

66