Sunteți pe pagina 1din 42

STATISTIC

Scurt istoric
ntr-o prim concepie, statistica echivala cu descrierea statului, expunerea situaiei geografice, economice i politice. Acest gen de statistic a fost cultivat mai nti de italieni. nc din sec. XIII - XIV n Republica Veneia se elaborau diferite rapoarte care conineau informaii privitoare la partenerii si comerciali i au fost utilizate n politica comercial oficial. Curentul "descrierea statului" a atins apogeul n sec. XVII- XVII cnd, n Germania, s-a constituit o adevrat coal cunoscut sub denumirea de coala descriptiv german. Descrierea statului a devenit disciplin de predare acadamic, ncadrat ntr-un sistem construit dup norme teoretice i practice, care s-au elaborat i dezvoltat n univeritile germane. Noua disciplin (Staatskunde), a primit numele de statistic (Statistik). Pe vremea constituirii statisticii ca disciplin descriptiv a statului, se ntea n Anglia, n afara universitilor, o statistic cunoscut sub numele de aritmetica politic, a crui scop era: analiza datelor de observaie prin procedee matematice, desprinderea regularitilor n fenomenul social i chiar formularea de previziuni. Studiile demografice lsau s se ntrevad c previziunea fenomenelor colective ar putea avea o nsemntate practic; dealtfel tabelele de mortalitate, ntocmite n sec. XVIII au constituit punctul de plecare al nfloritoarei industrii de asigurri. Folosirea metodei statistice, recurgerea la instrumentul matematic i cutarea legitilor marcau un substanial progres, prefigurnd statistica modern. Este dificil s se dea o definiie satisfctoare statisticii. n limbaj uzual termenul este folosit pentru a desemna o colecie de numere referitoare la un anumit domeniu (demografie, precipitaii, debite). n sens tehnic (mai precis matematic) statistica este un instrument al matematicii utilizat pentru prelucrarea i interpretarea informaiilor numerice.

Scopul statisticii
Statistica poate fi clasificat n dou mari categorii: - statistica descriptiv - statistica analitic. Statistica descriptiv se ocup de prezentarea, clasificarea i sintetizarea datelor de observaie. Aceasta concentreaz informaia existent n datele respective cu ajutorul anumitor indicatori statistici care, n fond, sunt nite numere ce exprim caracteristici sau tendine ale fenomenului studiat. Statistica analitic folosete metode matematice (teoria probabilitilor) pentru extragerea i prelucrea informaiei statistice; n multe cazuri aceste metode pun n eviden legiti statistice. Depirea stadiului descriptiv, al simplei metode cantitative, a nsemnat, istoric vorbind, deplasarea gndirii statistice spre interpretarea analitic a fenomenului i obinerea de concluzii inductive, pe baza observaiilor empirice. Aceast schimbare de coninut a

fcut ca statistica s se ntreptrund n mod constant cu matematica, n cutarea de metode corespunztoare obiectivelor sale. Transpus ntr-un limbaj matematic statistica s-a construit ntr-o teorie numit teoria corelaiei statistice, ale crei aplicaii au permis identificarea unor noi legi de dependen, specific statistice i adaptate la formele complexe i variate pe care le ofer natura n diferitele sale manifestri. n cercetrile moderne se pornete de la ipoteze statistice asupra fenomenului sau procesului observat, consecinele lor logic deduse se compar apoi cu datele disponibile i dac sunt n concordan, ipotezele sunt justificate, cel puin pn la noi observaii mai riguroase. Unul din obiectivele eseniale ale statisticii se consider tocmai msurarea incertitudinii concluziilor inductive. De la un timp ns, gndirea statistic tinde s se preocupe mai puin de msurarea incertitudinii i mai mult de determinarea riscului de eroare i a pierderilor implicate de orice decizie ntemeiat pe o informaie care, prin natura sa, nu poate fi exhaustiv. Aplicarea calculelor statistice la datele empirice, oferite de observarea fenomenului, permite desprinderea de legiti statistice. Fenomenele sunt n interconexiune unele cu altele, n sensul c se genereaz i se influeneaz reciproc. Acest fapt conduce la noiunea de cauzalitate care exprim interaciunea dintre cauz i efect astfel nct ntotdeauna cauza s precead efectul. Desfurarea fenomenelor const astfel ntr-un ir nentrerupt de momente, ntr-o succesiune cauz-efect, efectul fiind la rndul lui cauz pentru un alt efect .a.m.d. Astfel se formeaz un lan cauzal. Orice ntrerupere a lanului cauzal nseamn de fapt existena unui efect care s nu aib cauz. Nici un fenomen nu se abate de la acest principiu care poart numele de principiul cauzalitii. Cunoaterea desfurrii evenimentelor este asigurat de cunoaterea legilor care guverneaz fenomenul i a ansamblului de condiii n care se desfoar acesta. Deci legea este un element primordial n cunoaterea fenomenelor deoarece exprim raporturile eseniale, necesare, generale, relativ stabile i repetabile ale fenomenelor i ale desfurrii lor. Putem deosebi dou mari categorii de legi: - legi fizice, care se aplic fenomenelor i proceselor individuale luate n parte (ex. legea atraciei universale, legile I, II, III ale dinamicii etc.) i - legi statistice, care se aplic numai fenomenelor de mas, ansamblurilor de obiecte (ex. legea gazelor perfecte, legea dezintegrrii radioactive, etc.) i care exprim anumite caracteristici ale ansamblului considerat. Legile fizice permit cunoaterea perfect a desfurrii viitoare a fenomenelor pe baza cunoaterii la momentul iniial a unor mrimi. Astfel, n mecanic, legea a II-a a lui Newton permite cunoaterea perfect a micrii unui obiect atunci cnd se cunosc la momentul iniial poziia (trei coordonate) i viteza sau impulsul (trei proiecii) obiectului. Legile statistice permit cunoaterea desfurrii viitoare a fenomenelor doar n termeni probabilistici (probabiliti, valori medii, erori statistice etc.). Acest lucru indic de la nceput c informaia pe care o d o lege statistic este mai srac dect cea dat de legea dinamic. Cu toate acestea, legea statistic permite cunoaterea desfurrii viitoare a fenomenelor i poate fi tot att de determinist ca i cea dinamic. Particularitatea esenial a legilor statistice izvort din faptul c ele acioneaz n fenomenele de mas, unde ntregul este determinat de unitatea prilor componente, o constituie exprimarea comportrii ansamblului de uniti omogene i nu a fiecrei uniti n

parte. n mod corespunztor, legea statistic se realizeaz ca o tendin predominant, ca o necesitate care i croiete drum printr-un numr foarte mare de contingene i care se manifest n aceste contingene ca media unui numr mare de abateri ntmpltoare. De aici i principiul verificat deseori n practic: legea statistic poate fi evideniat dac i numai dac este considerat i supus observrii un numr mare sau suficient de mare de uniti elementare ale ansamblului considerat.

Nooiuni elementare
Investigarea statistic presupune, prin definiie, considerarea fenomenelor n multiplicitatea i variabilitatea lor. Un ansamblu de fenomene formeaz un fenomen de mas, sau, ceea ce numim populaie statistic, n msura n care elementele componente (indivizi) sunt de aceai natur, adic au toate o proprietate comun i se deosebesc unele de altele n raport cu aspectele sau valorile caracteristice luate n studiu. Populaia cu care lucreaz statistica trebuie s fie global omogen - s includ doar elementele similare, aparinnd de aceeai "categorie" i intern structurat - elementele ei s poat fi ordonate potrivit unui sistem de clasificare. Aa cum rezult din cele de mai sus, o nsuire specific statisticii este aceea c statistica nu se ocup cu un element (individ) luat ca atare, ci cu colectiviti, cu grupuri de elemente ce posed o anumit trstur comun. Aceast trstur se numete caracteristic. Denumirea de "populaie" s-a pstrat din timpurile n care statistica se ocupa cu precdere de populaii n sensul propriu al cuvntului. O populaie poate fi mpit n subpopulaii sau populaii pariale, care sunt : clase, grupe i eantioane. O clas este un subansamblu de elemente ale unei populaii care conin o variabli determinat de aceeai msur. Un grup este un subansamblu de elemente ale unei populaii care se distinge printro manier de tratare comun. Un eantion este un subansamblu de elemente ale unei populaii ales ntmplare. Se apeleaz la acest gen de populaie parial atunci cnd populaia n studiu este prea mare pentrua fi tratat n ansamblul ei. Studiul asupra eantionului va fi atribuit ntregii populaii. Indivizii unei populaii statistice sunt cercetai pentru una sau mai multe caracteristici. Caracteristicile ntlnite se clasific n caracteristici cantitative i calitative. Caracteristicile cantitative sunt cele care se msoar numeric (nlime, greutate, lungimea unui ru etc.) i se mai numesc variabile statistice. Caracteristicile calitative nu se msoar numeric (culoare, sexul unei persoane etc.). Ele nu reprezint o msur a unei entiti. Dac se convine s se reprezinte unele din ele prin numere ataate la categoriile ce le determin, nu este vorba dect de o "codificare" procedeul nejustificnd operaiile aritmetice. Aceste caracteristici se mai numesc atribute. La rndul lor, caracteristicile cantitative pot fi discrete sau continue. Variabilele discrete sunt cele care pot lua un numr finit (sau cel mult numrabil) de valori distincte (ntregi, fracionare), cum ar fi numrul membrilor unei familii, nr. de staii hidrologice etc. Variabilele continue sunt cele care pot lua orice valoare dintr-un anumit interval (nlimea unui individ, nivelul unui ru etc.). Totui, n practic nu se ntlnete o informaie privind

adncimea unui ru de forma: 1m, 3 cm, 17 microni. Acest lucru nu se va ntmpla fie c precizia aparatelor cu care efectum msurtorile este limitat, fie c o precizie exagerat nu este ntotdeauna folositoare pentru ceea ce urmrim n investigaie. Astfel, msurtorile sau datele de observaie se grupeaz n cadrul unei anumite uniti i deci din punct de vedere practic se lucreaz cu forma discret chiar dac variabilele sunt de tip continuu. Distincia ntre caracterul cantitativ i cel calitativ, precum i ntre variabilele discrete i variabilele continue este fundamental deoarece ele recurg la tehnici de analiz foarte diferite. Aici trebuie s lmurim un lucru care d deseori natere la confuzii: muli sunt nclinai s cread c variabilele discrete trebuie s ia numai valori ntregi i c numerele fracionare sunt tipice pentru variabilele continue; cu alte cuvinte diferena dintre continuu i discret se confund cu diferena dintre msurtorile cu numere ntregi i cele fracionare. S lum exemplul urmtor: o variabil ia valorile: 1,041; 1,065; 1,077. Aceasta este o variabil discret deoarece trecerea de la o valoare la alta se face fr vreo alt valoare intermediar. Cercetarea statistic a unei colectiviti poate fi: - exhaustiv (total), cnd fiecare individ este analizat, de exemplu n cazul recensmintelor; - parial (selectiv), cnd sunt examinai numai anumii indivizi, alei aleator. Ea este cea mai frecvent folosit, n majoritatea cazurilor fiind i singura posibil. Partea examinat din colectivitate se numete selecie sau eantion. Numrul indivizilor examinai se numete volumul seleciei.

Analiza seriilor statistice


Evaluarea anumitor indicatori (parametri) statistici implic stabilirea caracteristicilor (proprietilor) principale ale seriilor statistice. Acestea sunt: variabilitatea, omogenitatea, independena i concentrarea/mprtierea (dispersia) ctre/faa de un una sau mai multe valori ale seriei. Variabilitatea termenilor unei serii statistice este determinat de faptul c fenomenul pe care l reprezint nu este univoc determinat, ci apare ca un rezultat al aciunii combinate a mai multor cauze (permanente sau ntmpltoare). Cu ct aciunea cauzelor ntmpltoare este mai mare, cu att variabilitatea este mai mare i gradul de omogenitate mai mic. Omogenitatea presupune o variaie minim ntre termeni. Dac n urma analizei se constat c o serie nu prezint omogenitate, nseamn c n acest caz colectivitatea este format din mai multe tipuri calitative i seria trebuie descompus n subserii componente. Independena termenilor unei serii provine din faptul c fiecare valoare individual reprezint un element distinct i obiectiv al unei populaii statistice. Termenii ce aparin aceleiai colectiviti se supun acelorai legi care se manifest sub form de tendin. Concentrarea/mprtierea (dispersia) ctre/fa de un una sau mai multe valori ale seriei apare ca rezultat al intensitii unui efect produs de cauze eseniale i ntmpltoare. Acest lucru determin fercvenele diferite de apariie a diferitelor valori din serie. Dac

intensitatea factorilor este uniform, frecvenele de apariie sunt apropiate. n caz contrar, frecvenele de apariie se concentreaz fie la un singur capt al seriei, fie ctre o valoare central.

Repartiii de frecvene
Exist diferene ntre analiza seriilor dinamice i problemele legate de gruparea i analizarea materialelor pentru care factorul timp nu are importan. La cercetarea seriilor dinamice problema de baz o reprezint analiza variabilei timp. Metodele de analiz folosite n aceste dou cazuri se deosebesc sensibil. n cele ce urmeaz ne vom ocupa de problemele gruprii i analizei prealabile a datelor numerice pentru care ordinea de aezare n timp nu conteaz. Datele statistice n stare brut reprezint o mas dezordonat de materiale. Prima problem este aceea de a face o asemenea grupare a datelor cu ajutorul creia s se poat aprecia valoarea lor n legtur cu problema propus, s se poat nlesni comparaia cu alte date de acelai gen i s se poat obine posibilitatea unei analize ulterioare. nainte ca materialul statistic s fie supus analizei ulterioare i generalizrilor care vor permite s se fac anumite deducii, el trebuie s capete o anumit form i o structur clar. Cu alte cuvinte n cadrul analizei datelor statistice trebuie s se ia n considerare att valorile individuale ct i frecvenele de apariie ale acestora. n urma observrii caracteristicii cantitative X n n probe se obin urmtoarele date primare: x1, x2,..., xn (1) n cazul n care volumul seleciei este mic aceste date sunt uor de manipulat i nu este nevoie de o grupare a lor. Dac ns avem o selecie de volum mare este greu de lucrat cu aceste date. n plus tabelele de date primare nu sugereaz nimic referitor la referitor la repartiia variabilei X. De aceea este nevoie de o grupare (centralizare) a datelor. Gruparea datelor se face n funcie de tipul caracteristicii X. Astfel, dac X este o variabil discret ce poate lua valorile distincte v1, v2 ,..., vn , atunci n locul datelor iniiale se va reine repartiia empiric: v1.v2 ...vm n .n ...n 1 2 m (2) Unde ni, (i=1, m) reprezint frecvena apariiei (numrul de apariii) valorii vi, iar n reprezint numrul valorilor din irul iniial (1) i se numete frecven absolut a valorii v. Valoare m reprezint numrul de clase. Raportul fj =nj/n dintre frecvena absolut i numrul total de probe se numete frecven relativ. Se observ c f1 + f2 ++ fm =1 ntruct n1 +n2 + ... +nm = n. Frecvenele relative, numite i impropriu probabiliti de apariie, stau la baza calculrii densitii de repartiie a fercvenelor i a indicatorilor care exprim gradul de concentrare.

De asemenea permit compararea a dou repartiii construite pe aceeai variabil, care difer numai prin numrul unitilor pe grupe. Dac X este o variabil continu care poate lua valori ntr-un interval [a,b] atunci acest interval este mprit n m subintervale [aj, aj+1], j=1, m , cu a1 = a i am+1 = b. pentru fiecare din aceste subintervale se determin numrul n al valorilor din irul (1) care se afl n acest interval numit frecven absolut a subintervalului. Subintervalele [aj, aj+1] se pot lua arbitrar. De cele mai multe ori extremitile se iau echidistante, deci subintervalele au lungimi egale. ns numrul m al subintervalelor nu se alege la ntmplare. Este important ca prin gruparea datelor s nu se piard caracterul global al repartiiei (dac m este prea mic se poate denatura repartiia real a variabilei X). Astfel, dup unii autori numrul subintervalelor, m, trebuie alese n conformitate cu formula lui Sturges : m=[1 + 3,322logn] Mrimea intervalului va fi dat de formula:
i= xmax xmin m

N 11-30 31-100 101-500 501-3000 3001-

m 3-4 4-6 6-9 9-13 13-20

Tabelul 1. Reprezentarea grafic a repartiiilor statistice Exist mai multe tipuri de reprezentri grafice a datelor statistice. Dintre acestea prezentm histograma, poligonul frecvenelor i graficul frecvenelor cumulate. Histograma este o figur ntr-un sistem de coordonate rectangualre care reprezint distribuia empiric prin dreptunghiuri. Bazele acestor dreptunghiuri, construite pe axa absciselor, reprezint subintervalele folosite n centralizarea datelor. nlimea hj a dreptunghiului cu baza (aj, aj+1) este proporional cu raportul dintre frecvena relativ a intervalului i lungimea sa: hj = C fj a j +1 a j

constanta C fiind un factor de scar. n cazul cnd subintervalele gruprii au lungimi egale, nlimea hj va fi proporional cu frecvena relativ, deci hj =C*fj . Poligonul frecvenelor este o diagram n care pe axa absciselor se iau mijloacele vj ale intervalelor (aj, aj+1) folosite n grupare, iar pe axa ordonatelor valorile hj definite n construirea histogramei. Linia frnt care unete punctele de coordonate (vj, hj) se numete poligonul frecvenelor. El se poate obine din histogram unind mijloacele laturilor superioare ale drptunghiurilor. n fig 1 poligonul frecvenelor este trasat printr-o linie punctat. Mrimile c1, c2, ..., cm definite prin: c j = fi
i =1 j

se numesc frecvene cumulate. Linia frnt obinut prin unirea punctelor de coordonate (aj+1, cj ] se numete graficul frecvenelor cumulate.

Caracterizarea repartiiilor de frecven


Datele (care se refer la diferite domenii ale cunoaterii) odat aranjate ntr-o repartiie de frecvene, scot n eviden trsturile commune ale tuturor curbelor de repartiie i care se supun unor legi generale. Acest lucru ne permite ca experiena ctigat ntr-un anumit domeniu al cunoaterii s poat fi extins i n alt domeniu. La toate curbele ns trebuie s observm variabilitatea mrimilor care se obin ca rezultat al unor msurtori. Cu toate c exist variabilitate, se observ o tendin a datelor de a se grupa n centrul curbei (tendina central). Dac se msoar mrimea abaterii de la punctul de concentrare maxim a frecvenelor, se constat c sunt mai frecvente abaterile mici dect cele mari, c abaterile n ambele pri fa de punctul de concentrare maxim se echilibreaz aproape complet i c abaterile foarte mari sunt foarte rare. Deoarece frecvena variaz, vom alege acea mrime care se ntlnete cel mai des. Ea va fi msura tendinei centrale a repartiiei. Aceast mrime, ca i altele asemntoare se numesc indicatori (sau parametrii) de poziie, deoarece arat poziia elementelor principale ale repartiiei pe axa absciselor. Caracterul reprezentativ al oricrui indicator de poziie depinde de ct de strns i se altur celelalte valori, sau cu alte cuvinte, de gradul de concentrare a datelor n jurul tendinei centrale.

Indicatorii tendinei centrale


Atenuarea datelor, care accidental sunt prea mari sau prea mici dintr-o populaie statistic se face prin calcularea unor medii, n felul acesta fcndu-se o compensare a valorilor individuale. Acest calcul ne arat o anumit tendin a fenomenului studiat, media statistic fiind o valoare ce sintetizeaz ntr-o singur expresie numeric toate valorile din seria

msurtori sau observaii. Termenii seriei difer de medie deoarece au fost influenai de diferii factori. Media aritmetic Media aritmetic simpl exprim un nivel mediu, anihilnd abaterile individuale, netipice. Ea este cuprins ntre valoraea cea mai mare i cea mai mic. Definiia 1. Dac n urma unei selecii apar valorile distincte x1, x2,..., xn, atunci media aritmetic este dat de formula: x= x1 + x2 + ... + xn 1 n = xi n n i =1

n cazul datelor centralizate (n care avem repartiia de frecven (2)): x= n1v1 + n2 v2 + ... + nn vn 1 n = ni vi n n i =1

care se mai numete medie aritmetic ponderat. Numrul care arat de cte ori se repet fiecare valoare (nj) este "ponderea" valorii respective. Observaia 1. Media aritmetic are dezavantajul c este sensibil la valori extreme, iar dac termenii sunt prea "mprtiai", tinde s devin o valoare nereprezentativ. Media aritmetic este o valoare lipsit de coninut dac elementele sunt deosebite din punct de vedere calitativ, caz n care este mai util s se fac medii pariale pentru fiecare tip de colectivitate. Observaia 2. Dac avem mai multe medii, fiecare referindu-se la o anumit categorie, fiecare medie va fi ponderat n funcie de importana categoriei sale. Media geometric Media geometric este mai puin sensibil la valorile extreme dect celelalte medii, deci se ntrebuineaz cnd dorim s atenum divergenele mari dintr-o serie de determinri cu frecvene egale, fiind dup o expresie "cea mai exact medie". Se utilizeaz cnd valorile au o evoluie (de cretere sau scdere) permanent, nentrerupt, sau o raie din ce n ce mai mare, termenii fiind legai ntre ei printr-o relaie de produs. De asemenea se mai ntrebuineaz cnd vrem s dm o importan mai mare termenilor mai mici, n valoare absolut, sau cnd diferenele ntre termeni sunt foarte mari. Are dezavantajul c nu se poate ntrebuina cnd avem valori nule sau negative. Definiia 2. Dac x1, x2,..., xn sunt n valori, media geometric se definete prin M g = n x1 x2 ...xn Calculul se face mai uor cu ajutorul logaritmilor: lg M g = 1 n lg xi n i =1

Datorit faptului c se calculeaz mai uor cu ajutorul logarimilor, se mai numete "medie logaritmic". Ea se utilizeaz i la calcularea ritmului (de cretere sau descretere) numindu-se astfel i "medie de ritm". n rezumat, se ntrebuineaz cnd: - seria are o mare dinamicitate; - termenii au variaii mari; - distribuia are un caracter pronunat de asimetrie. Observaia 3. Media geometric se folosete atunci cnd prezint importan variaiile relative. De asemenea media geometric poate fi folositoare pentru calculul unor rapoarte. Media ptratica se ntrebuineaz cnd valorile prezint creteri din ce n ce mai mari. Ea constituie modelul matematic pentru abaterea medie ptratic. Media este sensibil la valori extreme, din care cauz este ntotdeauna mai mare dect celelalte medii. Are avantajul c se poate aplica i n cazul valorilor nule sau negative (care prin ridicare la ptrat devin pozitive). Se ntrebuinzeaz cnd dm importan valorilor mari. Definiia 3. Media ptratic este definit prin formula: x patr ,s = 1 n 2 xi n i =1

sau n cazul datelor centralizate (media ponerat): x patr , p = 1 n ni vi2 n i =1

Definiia 4. Media armonic este valoarea invers a mediei aritmetice ale valorilor inverse datelor de observaie: Mh = n

x
i =1

1
i

Exprim caracterul sintetic al unor valori ce se afl n raport invers. Se utilizeaz cnd frecvenele sunt egale. Pentru o repartiie de frecven, media armonic se folosete rar. Se utilizeaz cu predilecie n economie. Media glisant numit i "medie mobil", se utilizeaz n cazul n care irul valorilor prezint fluctuaii mari, brute i e greu de apreciat tendina (trendul). Se presupune c media glisant corespunde mijlocului intervalului sintetic. Calculul se face mediind 3 sau 5 valori alturate.

Definiia 5. Media glisant pentru 3, respectiv 5 valori alturate sunt date de formulele xglis ,3 = xi 1 + xi + xi +1 3 xi 2 + xi 1 + xi + xi +1 + xi + 2 5

xglis ,5 =

Definiia 6. Mediana este elementul dintr-un ir de date statistice care ar mpri intervalul n dou grupe egale ca numr, dup ce acestea au fost ordonate dup mrimea lor. Dac seria are 2n+1 elemente, atunci mediana este elementul n+1, iar dac are 2n elemente mediana este media aritmetic a celor doi termini din mijloc.

INDICATORII VARIATIEI
O medie este reprezentativ numai atunci cnd se calculeaz din valori omogene ntre ele. Cu ct fenomenele sunt mai complexe (dependente de mai multi factori), cu att variaia este mai mare i utilizarea mrimilor medii devine insuficient. De aceea este important de cunoscut ct de departe sunt valorile sumei statistice fa de medie. Comparaia se face cu media seriei, considerat ca fiind valoarea cea mai reprezentativ pentru populaia statistic. Analiza statistic a unei repartiii poate fi aprofundat prin calculul indicatorilor de variaie. Acesti indicatori trebuie s serveasc la : - verificarea reprezentativitii mediei ca valoare tipic a unei populaii statisatice; - verificarea gradului de omogenitate a seriei; - caracterizarea statistic a formei i gradului de variaie a unui indicator; - cunoasterea gradului de influen a factorilor dup care s-a facut gruparea unitilor observate.

Indicatorii simplii ai variaiei.


Indicatorii simplii ai variaiei servesc la caracterizarea gradului de mpratiere a mrimilor seriei statistice. Se pot exprima att n mrimi absolute ct i n mrimi relative. Din aceasta grupa fac parte : - amplitudinea variaiei (absolut i relativ); - abaterile individuale (absolute i relative). Amplitudinea absolut se calculeaza ca diferena dintre valoarea maxim i valoarea minim al caracteristicii : Aa = xmax xmin Amplitudinea relativa se exprima de regul n procente i se calculeaz ca un raport ntre amplitudinea absolut i media aritmetic : Aa 100 Ar= x Abaterile individuale absolute (di) se calculeaz ca diferena ntre fiecare valoare i media aritmetic :

di = xi - x , i = 1,...,n Abaterile individuale relative (di%) se calculeaz ca raportul dintre abaterile individuale absolute i media aritmetic (se exprima n procente) : d di% = i 100 , i = 1,...,n x Gradul de variaie al unei caracteristici depinde de toate abaterile variantelor nregistrate i de frecventa lor de aparitie i prin urmare indicatorii simplii ai variaiei nu pot exprima ntreaga variaie a unei populaii statistice. De aceea a fost necesar introducerea indicatorilor sintetici ai variaiei.

Indicatorii sintetici ai variaiei.


Indicatorii sintetici ai variaiei, la fel ca i indicatorii tendintei centrale trebuie s se bazeze pe toate observaiile, sa fie usor de calculat, usor de nteles i s fie ct mai puin afectati de fluctuaiile de selectie. Indicatorii sintetici ai variaiei sunt : - abaterea medie liniar ; - abaterea medie patratic; - dispersia; - coeficientul de variaie. Abaterea medie liniar se calculeaz ca o medie aritmetic simpl sau ponderat, luate n valoare absolut : - pentru o serie simpla

d =

| x x |
i =1 i

pentru o serie de frecvene absolute :

d=

|
i =1

i m

x | ni
i

n
i =1

Abaterea medie liniar prezint dezavantajul c nu ine seama de faptul c abaterile mai mari n valoare absolut influenteaz n mai mare masur gradul de variaie a unei

caracteristici, n comparaie cu abaterile mici. n plus, nu este indicat s se renune n mod arbitrar la semnul valorilor din care se calculeaz o valoare medie. Din aceste considerente se folosete ca principal indicator sintetic al variaiei abaterea medie patratic. Abaterea medie patratic sau abaterea standard () se calculeaz ca o medie patratic din abaterile tuturor elementelor seriei de la media lor aritmetic: n Acest indicator este mai concludent dect abaterea medie liniar. Prin ridicarea la ptrat se d o importan mai mare abaterilor mari n valoare absolut, acestea influennd ntr-o msura mai mare gradul de variatie al variabilelor analizate. n literatura de specialitate se apreciaz ca pentru o serie de distribuie normal abaterea medie liniar este egal cu 4/5 din valoarea abaterii medii ptratice. Abaterea medie ptratic este un indicator de baz, care se folosete la analiza variaiei, la estimarea erorilor de selecie n calculul de corelaie. La fel ca abaterea medie liniar, abaterea medie ptratic se exprim n unitatea de masur a variabilei a carei variaie o caracterizeaz. Prin urmare cei doi indicatori nu se pot folosi pentru compararea gradului de variaie i n aceasta situaie se recurge la un alt indicator de variaie : coeficientul de variaie. Coeficientul de variatie (v) se calculeaza ca un raport ntre abaterea medie ptratic i media aritmetic. De obicei se exprim sub form de procente : v = 100 x Se mai calculeaz i cu relaia : d v = 100 x Semnificaie. Cu ct valoarea lui v este mai aproape de zero cu att variaia este mai slab, colectivitatea este mai omogen, media avnd un grad ridicat de reprezentativitate. Cu ct valoarea lui v este mai mare cu att variaia este mai intens, colectivitatea este mai eterogen, iar media are un nivel de semnificaie sczut. Se apreciaz c la un coeficient de peste 35-40%, media nu mai este reprezentativ i datele trebuie separate n serii serii componente, pe grupe, n funcie de variaia unei alte caracteristici de grupare. Deci se poate afirma c acest indicator poate fi folosit ca un test n aplicarea metodei gruprii. Dac media aritmetic este aproape de zero, coeficientul de variaie nu are semnificaie. Dispersia( 2 ) este media ptratelor abaterilor de la media aritmetic : 2 1 2 = xi x . n =

(x

Msura dispersiei se refer la mprtierea valorilor dintr-un set de date. Media nu are semnificaie dac se aplic pe un set de date foarte dispersate. De exemplu dac lum valoarea medie a oraelor mari (peste 200.000 locuitori) va da o valoare de peste 400.000 datorit Bucuretiului care are 2.000.000. ns rezultatul nu are nici o semnificaie (nici un ora nu area aceast valoare).

Msurile dispersiei, exprimate sub forma unitilor de msur ale fenomenului cercetat, nu sunt ntotdeauna utile atunci cnd se compar dispersiile a dou sau mai multe serii. Compararea dispersiilor a dou sau mai multe serii d rezultate n urmtoarele 2 situaii: a) irurile care se compar pot fi exprimate n aceleai uniti, iar mediile pot fi aceleai sau au dimensiuni aproape egale. b) irurile care se compar pot fi exprimate n aceleai uniti, ns mediile difer. Dac seriile se exprim n uniti diferite, dispersiile nu pot fi comparate direct. De aceea de multe ori se folosete abaterea medie ptratic n loc de dispersie. n unele lucrri aceast mrime se numete varian (din l. engl. variance). Variana este o msur important n special cnd se studiaz variaia a dou sau mai multe eantioane. O tehnic statistic foarte puternic este cunoscut sub numele de analiza de varian i utilizeaz dispersia pentru a decide dac un numr de eantioane difer semnificativ unul de altul.

SONDAJUL STATISTIC Cercetarea prin sondaj are ca scop obinerea unor indicatori care s permit caracterizarea complet i real a ntregii colectiviti. Etapa 1. Se culeg i se prelucreaz date statistice din eantioane din care rezult indicatori derivai: mrimi relative, medii, indici etc. care descriu statistic eantionul folosit. Etapa 2. Indicatorii obtinui se extind, cu o anumit probabilitate, asupra ntregii colectivitati. Cercetarea prin sondaj implic folosirea unor noiuni perechi: colectivitate general colectivitate de selecie; media colectivitii generale media colectivitii de selecie; dispersia colectivitii generale dispersia colectivitii de selecie; valoarea statistic calculat valoarea statistic estimat. Colectivitatea general sau populaia reprezint totalitatea unitailor simple sau complexe care fac obiectul cercetrii. Volumul colectivitaii generale din care urmeaz s se extrag unitaile se noteaz de obicei cu N n cazul unitilor simple i cu R n cazul unitilor complexe. Dac s-au nregistrat i variabile alternative, atunci unitile care posed caracteristica se noteaza cu M. Colectivitatea de selecie (sondaj, prob, eantion) reprezint p[artea colectivitii generale din care se va colecta datele n scopul generalizrii rezultatelor la ntreaga colectivitate. Volumul colectivitii de selecie se noteaz cu n cnd este format din uniti simple i cu r cnd e format din uniti complexe. Pentru variabile alternative numrul unitilor care posed caracteristica se noteaza cu m. De remarcat este faptul c dintr-o anumit populaie pot fi extrase mai multe eantioane, care difer ntre ele att ca volum ct i ca structur. Din aceast cauz indicatorii statistici cu care caracterizm colectivitatea de sondaj pot fi considerai de forma unor variabile aleatoare pentru care se pot stabili distribuii de frecven cunoscute, spre deosebire de media i dispersia din colectivitatea general, pentru care exist o singur valoare. n studiul statistic al fenomenelor se folosete foarte frecvent perechea de noiuni valoare calculat i valoare estimat. Valorile calculate sunt rezultatul unei cercetri empirice. Acestea sunt folosite pentru a evalua indicatorii din eantioane care vor deveni estimatori ai colectivitaii generale. Cercetarea selectiv se face pe baza unui plan care trebuie s cuprind: - delimitarea n timp i spaiu a colectivitii generale prin identificarea tuturor cazurilor individuale sub care se manifest fenomenul respectiv; - verificarea gradului de omogenitate al colectivitii generale (se utilizeaz studii vechi); - alegerea sau stabilirea bazei de sondaj; (Prin baz de sondaj se ntelege orice sistematizare a unitilor - liste, hri- astfel nct s permit alegerea ntmpltoare a unitilor ce vor lucra n eantion). - alegerea tipului i a procedeului de selecie;

- stabilirea periodicitii efecturii sondajului; - stabilirea planului observrii; - stabilirea planului de prelucrare a datelor de selecie din punct de vedere metodologic i organizatoric; - alegerea procedeelor de verificare a semnificaiei indicatorilor de selecie i de extindere a rezultatelor seleciei asupra ntregului ansamblu. Rezolvarea problemelor cuprinse n planul de sondaj au drept scop asigurarea reprezentativitii eantionului. Un eantion este considerat corespunzator atunci cnd se produce n aceeai structur pe care o prezint colectivitatea general. Teoria i practica demonstreaz c asigurarea reprezentativitii eantionului presupune respectarea cu strictee a urmatoarelor condiii: - includerea n eantion a unitilor n mod obiecvtiv fr a acorda preferin uneia din ele; - eantionul trebuie s fie suficient de mare ca s permit redarea trsturilor eseniale ale populaiei originare; - includerea fiecrei uniti n eantion trebuie s se fac independent de alte uniti. De remarcat faptul c n cazul n care populaia originar (colectivitatea general) este mprit n grupe, eantionul trebuie s reproduc o structur corespunzatoare acestei componente. Practica sondajului demonstreaz c reprezentativitatea unui eantion depinde n primul rnd de alegerea corect a procedeelor i tipurilor de selecie. Procedee i tipuri de selecie folosite pentru constituirea eantionului. Procedeele utilizate pentru formarea eantionului sunt: seleciile aleatoare, seleciile subiectiv organizate sau seleciile dirijate i seleciile mixte. Selecia aleatoare se face de regul fie prin procedeul tragerii la sori, fie prin procedeul generrii de numere aleatoare. Procedeul aleator sau al tragerii la sori este bazat pe schemele de probabilitate: al bilei revenite i cel al bilei nerevenite. Schema bilei revenite presupune o urn cu N bile de N culori, evenimentul constnd din extragerea unei bile. Probabilitatea de a extrage o bil de o anumita culoare este 1/N. dup ce s-a efectuat evenimentul, se introduce bila napoi i experimentul se repet. ntotdeauna vom avea probabiliti 1/N. n cazul schemei cu bila nerevenit, experimentul const n extragerea unei bile (probabilitatea_1 este = 1/N), nu mai punem bila napoi i repetm experimentul (probabilitatea_2 = 1/(N-1)). La al treilea experiment vom avea probabilitatea_3=1/(N-3). Datorit faptului c n cazul seleciei nerepetate este exclus posibilitatea extragerii de mai multe ori a aceleai unitai, erorile sunt mai mici. Spre deosebire de seleciile aleatoare, n eantioanele dirijate alegerea unitilor se face de ctre persoanele care culeg datele. Prezena unui element oarecare care favorizeaz alegerea subiectiv implic primejdia producerii de distorsiuni. Acest lucru trebuie evitat. Selecia mixt combin principiile sondajului aleator cu cel dirijat. Se mparte colectivitatea n grupe tipice dup o anumit caracteristic i apoi se extrage ntmpltor cte un eantion din fiecare grup. Erorile cercetarii prin sondaj.

Se consider eroare de selecie abaterea care exist ntre valorile calculate prin prelucrarea datelor din eantion i ceea ce s-ar fi obinut dac s-ar fi organizat o observare total i se prelucrau toate datele. Avem: erori sistematice i erori ntmpltoare. Erorile sistematice se cunosc dinainte i pot fi nlturate cauzele care duc la producerea lor. Erorile ntmpltoare apar indiferent de persoanele care fac sondajul sau de metodele folosite. Ele deriv din nsi esena metodei de cercetare prin sondaj. Ele pot fi calculate dac selecia este probabilistic. Eroarea medie de reprezentativitate are expresia: P(1 P ) N = n pentru selecia repetat i

N =

P(1 P ) n 1 n N

pentru selecia nerepetat. Unde N = numarul populaiei din populaia total; n = numarul populaiei din eantion; P = probabilitatea apariiei unui eveniment.

Corelaia statistic
n procesul de cercetare a legturilor cauzale existente ntre fenomenele naturale avem de-a face cu contopirea aciunilor unei multitudini de factori (cauze), dintre care unii eseniali, alii neeseniali, unii pot fi determinai, alii nu. Tocmai de aceea, n cercetarea legturii reciproce dintre dou fenomene apar dificulti mari deoarece pot s existe cauze necunoscute. n astfel de situaii este util s determinm gradul de corelare i apoi s analizm separat unele din aceste cauze. Cu alte cuvinte, trebuie s definim relaii posibile ntre diferii factori, evenimente, atribute sau caracteristici care ar putea avea o influen, cel puin parial asupra datelor experimentale. n acest mod este posibil stabilirea unui tablou al condiiilor n care se desfoar un anumit fenomen natural, fapt care duce la modelarea matematic a sa. Astfel de probleme se cerceteaz cu mult succes prin metodele statisticii, unde teoria corelaiei are o pondere nsemnat. Eficiena aplicrii metodei corelaiei depinde de punerea (enunarea) corect a problemei studiate precum i de aplicarea corect a statisticii matematice. Caracterul complex al dependenei statistice pune pe primul plan problema identificrii existenei legturilor. Calculul indicatorilor de corelaie este admis cu condiia stabilirii anticipate a unei legturi cauzale reale ntre fenomenele cercetate. Statistica nu poate s rezolve o astfel de problem fr ajutorul tiinei din domeniul creia face parte fenomenul studiat. Cu alte cuvinte, specialistul din domeniul respectiv trebuie s cunoasc temeinic noiunile analizei statistice implicate pentru a da o interpretare corect a rezultatelor. Pentru a asigura deducii suficient de ntemeiate, este necesar includerea n cercetare, dac este posibil, a tuturor factorilor cu aciune esenial. n multe procese naturale, pe lng complexa ntreptrundere cu alte fenomene (procese), acestea mai sunt supuse unor evoluii care la prima vedere pot fi considerate probabiliste (aleatoare). De aceea, pentru cunoaterea modului de evoluie probabil n viitor - prognoza unui anumit fenomen - trebuie s ne bazm pe cunoaterea evoluiei trecute, precum i pe situaia prezent. Experiena unui mare numr de observaii (probe) au dus la concluzia c ntre diferitele mrimi variabile pot exista urmtoarele tipuri de relaii: a) Relaia de dependen, Y depinde de X sau invers. O modificare a unei variabile duce la o modificare a celei de-a doua. n cazul unei astfel de relaii s-ar putea aminti existena relaiei cauzale n care o variabil este cauza, iar cealalt este efectul, cauza fiind un fenomen sau un complex de fenomene care provoac, genereaz sau determin un alt fenomen - efectul. Operaia logic prin care efectul este dedus din cauz se numete inferen cauzal. b) Relaia de interdependen, Y depinde de X i X depinde de Y. n acest caz modificarea unei variabile provoac modificarea celei de-a doua variabile, iar modificarea acesteia din urm are influen asupra primei variabile. c) Relaia de tranziie, X se transform parial sau total n Y i invers. d) Corelaia statistic sau covariana. Pentru X exist ntotdeauna Y i invers. Este o relaie reciproc dintre dou variabile, dintre care una n mod logic apeleaz la alta i pe baza analizei datelor experimentale se poate pune n evidenz o asociere ntre ele.

e) Relaia stochastic; dac se realizeaz X atunci cu o anumit probabilitate se realizeaz i Y, sau invers. n cele ce urmeaz vom analiza cu precdere corelaia statistic. O problem important pentru cercetarea corelaiilor este problema determinrii funciei de regresie, care s exprime relaia cantitativ dintre fenomenul efect i fenomenul cauz. Forma legturii dintre fenomene i descrierea printr-o ecuaie analitic, pe baza crora se definesc valorile fenomenului efect, n funcie numai de factorul sau factorii luai n considerare (cauze). Pentru ajustarea seriei de valori empirice trebuie s se aleag acea ecuaie care oglindete n modul cel mai corespunztor caracterul legturii cercetate. De buna alegere a funciei de regresie depinde rezultatele analizei de corelaie, valoarea estimaiilor variabilei dependente. Stabilirea formei legturii ine seama de natura dependenei fenomenului cercetat (de obicei se reprezint grafic). La fenomenele simple, unde cauzele acioneaz separat, relaia dintre fenomenulefect i fenomenul-cauz se reprezint sub forma: y=f(x) unde x reprezint cauza, iar y efectul. La fenomenele complexe, dependena se exprim sub forma general: y = f(x1 , x2 ,..., xn) Fenomenul y este generat de aciunea comun a factorilor x1 ,x2 ,.., xn (cauze), din care lum ns n calcul numai o parte. S admitem c am luat n calcul factorul x1. ntrebarea care se pune este urmtoarea: n ce condiii indicatorii corelaiei obinui exprim msura real a influenei variabilei x1 asupra variabilei y? Numai cu condiia ca factorul x1 s fie hotrtor n determinarea lui y, ceilali fiind nesemnificativi. n cazul n care fenomenul este sub aciunea unui complex de factori eseniali i aceasta este situaia obinuit, pentru a exprima influena i gradul de intensitate a legturilor n raport cu un singur factor trebuie s eliminm influena celorlai. S considerm o colectivitate statistic caracterizat prin mrimile X i Y. Efectund o serie de determinri experimentale (sau observaii) asupra acestei colectiviti, putem ntocmi tabela datelor respective: X | x1, x2 , ..., xn Y | y1 , y2 , ..., yn Repartiia empiric a celor dou variabile se poate afia grafic, ntr-un sistem de axe XOY, unde vom reprezenta punctele de coordonate xi i yi. Un ansamblu de astfel de puncte se numete cmp de corelaie, tabel de corelaie sau nor statistic. Dac punctele Mi(xi ,yi) sunt distribuite de-a lungul unei fii, care n general, urmeaz o curb determinat, spunem c ntre mrimile respective exist o dependen

funcional. Dac punctele Mi(xi ,yi) nu arat o dependen funcional strict, dar exist o tendin ca valorile lui Y s depind de cele ale lui X dei nu n mod riguros, ntre mrimile X i Y exist o corelaie Aceasta poate s fie liniar (fig. 1) sau neliniar (fig. 2). n cazul cnd ntre X i Y nu exist nici un fel de dependen, cmpul de distribuie se va prezenta asemntor cu acela artat n fig. 3, 4. Cele dou caracteristici sunt independente.

Figura 1 Distribuie liniar

Figura 2 Distribuie neliniar

Figura 3 Distribuie aleatoare

Figura 4 Distribuie grupat

ntr-un caz particular, dependena corelaionar se poate transforma ntr-o dependen funcional, dar cu un anumit grad de certitudine. Apare problema de stabili cantitativ (numeric) n ce msur dependena corelaional se apropie sau se deprteaz de dependena funcional. n foarte multe cazuri, din observarea fenomenelor naturale sau a proceselor sociale, fr a cunoate natura exact a acestora i nici cauzele prin care este pus n eviden o anumit caracteristic, se pot trage concluzii foarte importante prin examinarea corelaiei dintre aceste trsturi i alte evenimente. n acest mod se poate aprecia existena unei relaii statistice ntre dou sau mai multe variabile, adic, n astfel de cazuri se vorbete despre corelaii dintre mrimile care indic o dependen reciproc. n cazul cnd se consider numai dou variabile, se pot stabili corelaii simple, iar cnd numrul variabilelor este mai mare de doi, avem corelaii multiple. Din punct de vedere al formei unei relaii statistice, spunem c ea este direct atunci cnd creterea unei variabile, duce la o cretere a celeilalte variabile, i o denumim invers cnd o cretere a unei variabile duce la o descretere a celeilalte. Relaiile statistice definite prin corelaii pot avea aspect liniar sau neliniar; prin urmare vom distinge corelaii liniare i corelaii neliniare sau curbilinii. n cazul n care sunt implicate mai multe variabile vom avea corelaie parial cnd se consider constante unele variabile i corelaie parial cnd se iau n considerare variaiile tuturor mrimilor. Meoda celor mai mici ptrate. Dependena funcional a unei variabile y fa de alt variabil x poate fi studiat empiric, pe cale experimental, efectundu-se o serie de msurtori asupra variabilei y pentru diferite valori ale lui x. Rezultatele se pot prezenta sub form de tabel sau grafic. Problema care se pune n acest caz este de a gsi reprezentarea analitic a dependenei funcionale cutate, adic de a alege o formul care s descrie rezultatele experimentului. Formula se alege dintr-o mulime de formule de tip determinat, de exemplu. y = ax + b , y = ax2 + bx + c , y = aebx + c , y = a + h sin( t + )

Cu alte cuvinte, problema const n a determina parametrii a, b, c, ai formulei, n timp ce tipul formulei este cunoscut dinainte ca urmare a unor considerente teoretice sau dup forma prezentrii grafice a materialului empiric. S notm, la modul general cnd avem n parametrii, dependena funcional prin: y = f(x; a0 ,a1 ,...,an)

Parametrii a0, a1,..., an nu se pot determina exact pe baza valorilor empirice y1, y2,...,yn ale funciei, deoarece acestea din urm conin erori aleatoare. Este vorba de obinerea unei estimaii "suficient de bune". Formularea problemei Dac toate msurtorile valorilor funciei sunt y1, y2,...,yn atunci estimaiile parametrilor a0, a1,..., an se determin din condiia ca suma ptratelor abaterilor valorilor msurate yk de la cele calculate f(xk; a0, a1,..., an), adic expresia S = [ yk f ( xk ; a0 , a1 ,..., an )]2
k =1 n

s ia valoarea minim. Consideraia formulat se pstreaz i pentru determinarea estimaiilor parametrilor unei funcii de mai multe variabile. Adic un efect i dou cauze. De exemplu, pentru funcia z de dou variabile x i y, estimaiile parametrilor a0, a1,..., an se determin din condiia ca expresia: S = [ zk f ( xk , yk ; a0 , a1 ,..., an )]2
k =1 n

s fie minim. Aflarea valorilor parametrilor a0, a1,..., an, care conduc la cea mai mic valoare a funciei s = s (a0 , a1 ,..., an ) revine la rezolvarea sistemului de ecuaii S S S = 0, = 0 ,, =0 a0 a1 an Dac formula empiric depinde liniar de parametrii necunoscui atunci sistemul de mai sus va fi de asemenea liniar. Dreapta de regresie. n cazul cel mai simplu se studiaz numai dou variabile X, Y i se dorete girea dependenei: Y = aX + b n ipoteza c X este cauza i Y este efectul. n urma celor n probe se cunosc datele (xi ,yi), i=1,..., n i trebuie s determinm coeficienii a i b astfel nct suma

S (a, b) = (axi + b yi ) 2
i =1

s fie minim. Se obine a= c xy =

2 x

x x y

c xy

y x

rxy

b = y ax

unde x2 este dispersia variabilei x, iar y2 este dispersia variabilei y. Mrimea cxy = x y x y se mumete corelaia variabilelor X i Y. Raportul rxy = c xy / x y se numete coeficient de corelaie a variabilelor X, Y i msoar intensitatea dependenei liniare dintre variabilele X i Y. n n final se va obine ecuaia de regresie: Yy=

y x

rxy ( X x )

Aceast dependen reprezint o dreapt numit dreapt de regresie a variabilei Y n raport cu variabila X.

Dreapta de regresie Observaie. Se poate vorbi i de dependena variabilei X n funcie de Y. Urmnd un calcul asemntor se ajunge la dreapta de regresie a variabilei X n raport cu Y: X x =

x rxy (Y y ) y

2 Se observ c cele dou drepte de regresie coincid dac i numai dac rxy = 1 .

Observaii. 1. Trebuie s facem observaia c, indiferent de gradul de mprtiere al punctelor, ntotdeauna se poate gsi o dreapt de regresie, dar n cazul unei dispersii mari aceasta devine inutil. De aceea un studiu preliminar a distribuiei punctelor n plan sau spaiu se impune cu necesitate. 2. Coeficientul de corelaie este o mrime foarte important n cadrul regresiei liniare. El msoar gradul de dependen liniar ntre cauz i efect i are o valoare cuprins ntre 1 i 1. Apropierea de 1 implic o dependen liniar puternic ntre mrimi, iar apropierea de zero indic o lips a corelatiei. Valorile negative semnific o corelaie invers. EXEMPLE n cele ce urmeaz vom lua dou exemple. n primul exemplu vom determina o dreapt de regresie, corespunztoare debitului i al pH-ului, msurate n perioada ianuarie -decembrie 1993 pe rul Arie. Datele au fost obinute de la R.A. Apele Romne. PH 8.7 7.8 6.6 7.9 7.3 7.5 7.5 7.3 6 7.6 7.8 Debit 13 40 80 23 50 30 25 60 10 28 15 7 6.8 6.6 6.4 74 45 59 68

Variatia debit-pH 120 100 80 60 40 20 0 0 5

y = -32.633x + 284.03 debit Linear (debit)

10

Figura 45 Dreapta de regresie Se observ c pH-ul scade odat cu creterea debitului. La debite mai mari procesele hidrice (dizolvare, diluie etc) fiind mai accentuate. La valori mai mici ale debitului, pH-ul

crete devenind uor acid (7,6 7,9) sau acid (8,7). Coeficientul de corelaie este r=0,87946; avem astfel o corelaie invers strns. n al doilea exemplu am determinat curba de regresie corespunztoare variaiei debitului i suspensiilor. Datele au fost obinute n urma analizelor fizico-chimice efectuate pe Valea Zalului, de pe teritoriul municipiului Zalu n anul 1995. debit 251 190 308 375 165 357 369 280 469 640 215 150 169 550 460 susp. 75 68 157 200 69 134 125 67 205 270 48 90 88 125 145
Variatia debit-suspensii 300 250 200 150 100 50 0 0 500 1000 susp. E xpon. (susp.) y = 46.436e
0.0026x

Figura 46 Curba exponenial de regresie

n figura 46 se distinge faptul c odat cu creterea debitului cantitatea de suspensii din ap crete exponenial. Datorit curentului, particulele de dimensiuni mari de pe fundul albiei sunt antrenate n micare, devenind suspensii. n cazul unor debite mai mici, cnd scurgerea este mai lin, doar particulele de dimesiuni mici sunt antrenate n micare. Facem observaia c acest lege nu este att de reprezentativ ca i cea din exemplul precedent. Calculele au fost fcute cu programul de calcul tabelar Excel.

CORELATIA RANGURILOR Exist cazuri n care ne intereseaz gradul de corelaie dintre dou serii de mrimi, dar cnd nu putem efectua msurtorile respective. n anumite tipuri de probleme avem de-a face cu caracteristici care nu pot fi exprimate prin cifre, dar pot fi ordonate dup un aumit criteriu. n astfel de cazuri vom lua n considerare ordinea lor i nu evaluarea numeric. n cazul n care rangul anumitor caracteristici este mai accesibil dect msurtorile efective, pentru examinarea legturilor dintre anumii parametrii, putem cerceta corelaia rangurilor respective. Prezentm mai jos cteva procedee de evaluare a anumitor corelaii n care se ine seama de ordonarea mrimilor caracteristice, adic n care se utilizeaz rangul sau poziia pe care le au anumite mrimi, una n raport cu alta. Vom determina deci coeficientul de corelaie al rangurilor. Coeficientul lui Spearman Fie n numrul de elemnte ale unei mulimi ordonate dup caracteristici calitativ diferite. Pentru c avem n uniti statistice A1, A2, ... , An, fiecare dintre ele avnd dou caracteristici (x1, y1), (x2 , y2),...,(xn, yn) Pentru caracteristica x dispunem de ordonarea: x1 , x2 ,...,xn, iar pentru caracteristica y avem: y1, y2 ,...,yn, unde x i y sunt simple permutari ale celor n numere naturale. Notm: di = xi yi (k=1, 2,...,n)

unde vectorul de componente di este o mrime a gradului de apropiere pe care o poate avea corespondena dintre x i y. Dac d=0, nseamn c toi indivizii considerai au cele dou caracteristici n aceeai ordine, avem deci o coresponden perfect. Cu ct diferenele di sunt mai mari, cu att mai mare este discordana ntre cele dou caracteristici. Pentru o cercetare a corelaiei rangurilor, vom considera scrise n ordine cresctoare sau descresctoare toate valorile lui xi iar alturi scriem valorile corespunztoare ale lui yi, acestea din urm putnd fi sau nu n vreo anumit ordine. Prin urmare, n cadrul ordonrii dup rang, x ia valorile: 1,2,3,..., n ntr-o anumit ordine, pe cnd y ia aceleai numere dar ordonate dup aceast caracteristic. Pentru ca s nu existe compensri ntre valorile di se va lua ptratul acestor valori. Astfel se definete coefficient de corelaie al rangurilor (coeficientul lui Spearman) ca fiind expresia :

n(n 2 1) Dac =1 avem concordan maxim, iar dac =-1 avem discordan maxim. Pentru o ilustrare mai sugestiv vom lua un exeplu. Considerm c A1, A2, ... , An reprezint n persoane, caracteristicile x1 , x2 ,...,xn, fiind nlimea lor msurat n cm, iar caracteristicile y1, y2 ,...,yn greutatea lor msura n kg. Se pune problema dac exist o

= 1

6 d i2

corelaie ntre aceste dou caracteristici. Pentru simplificare vom lua n=10. Aceast clasificare are urmtorul rezultat. A1 3 1 A2 1 2 A3 10 9 A4 6 7 A5 2 4 A6 5 3 A7 7 6 A8 8 10 A9 4 5 A10 9 8

n prima linie sunt cele 10 persoane, n linia a doua ordinea pe care o ocup fiecare persoan dup nlime (cresctoare), iar n linia a treia ordinea lor dup greutate. Aceast ordonare ne permite s dm un criteriu privind legtura ntre aceste dou caracteristici. Vom deosebi dou situaii extreme. Situaia cea mai strns legat (cel mai nalt este cel mai mare n greutate) : A1 3 3 A2 1 1 A3 10 10 A4 6 6 A5 2 2 A6 5 5 A7 7 7 A8 8 8 A9 4 4 A10 9 9

i situaia cu legtura cea mai slab (cel mai nalt este cel mai mic n greutate). A1 3 8 A2 1 10 A3 10 1 A4 6 5 A5 2 9 A6 5 6 A7 7 4 A8 8 3 A9 4 7 A10 9 2

Rangurile obinute n cele dou clasificri pot oferi o indicaie asupra corelaiei dintre cele dou caracteristici. Diferenele dintre cele dou valori sunt (primul ir minus al doilea ir) : 2 -1 1 -1 -2 2 1 -2 -1 1

iar suma ptratelor diferenelor este dat de

d
i =1

10

2 i

= 22 iar coeficientul lui Spearman

=0,862

Apropierea de 1 lui indic o corelaie destul de mare ntre carcatristicile luate n considerare.

REPARTIIE DE FRECVEN Asocierea dintre distribuia observat i cea teoretic a fost mult timp neglijat n geografie. Un studiu statistic nu poate fi fcut (nu are sens) fr aceast asociere. Forma unei distribuii permite gsirea parametrilor descriptivi cei mai potrivii pentru fenomenul urmrit. Recunoaterea formei unei distribuii este un indiciu pentru procedurile de transformare a datelor n mod corespunztor. Totodat ncadrarea ntr-o lege de distribuie teoretic permite att operaii de interpolare ct i de extrapolare. Ajustarea unei distribuii observate la o distribuie teoretic-adic la modele probabiliste propriu-zise-implic acceptarea a priori c legile se ncadreaz n repartiia observat/msurat a fenomenului n cauz. O cantitate msurabila care poate varia de la un element la altul se numete caracteristic cantitativ. Uneori se mai folosete termenul de variabil. Ansamblul noiunilor consacrate acestor caracteristici poart numele generic de teoria caracteristicilor cantitative. Caracteristicile care pot lua orice valoare numeric ntre anumite limite sunt numite caracteristici cantitative (variabile) continue. Caracteristicile care pot lua numai anumite valori se numesc caracteristici cantitative (variabile) discrete (discontinue). Dac mai multe sute sau mii de valori ale unei variabile au fost notate ntr-o ordine cu totul arbitrar n care au aprut ele n realitate, va fi dificil s tragem vreo concluzie cu privire la semnificaia acestor date. De aceea va trebui s condensm datele cu ajutorul unor anumite metode de ordonare sau grupare astfel ca proprietaile datelor s poata fi uor evideniate. De regul valorile alese pentru a defini grupele succesive vor fi echidistante, astfel ca numerele provenite din observaii i care aparin la diferite grupe s poat fi comparabile. Modul n care frecvenele de grup sunt repartizate n intervale succesive se numete repartiia de frecven a variabilei. Reprezentarea grafica: poligonul frecvenelor i histograma. Deseori este convenabil s reprezentm o repartiie de frecven cu ajutorul unei diagrame care s sugereze configuraia observaiilor. Histograma

- poligonul frecvenei: unirea punctelor marcate pe vertical pe mijlocul intervalului.

De observat c oricare ar fi aceste diagrame (orice form ar avea), o anumit arie reprezint un numr de observaii.

Numarul de observaii care cad n intervalul [x1, x2] este proporional cu aria delimitat de curb i cele dou drepte.

Dac intervalele de grup sunt micorate, n acelai timp numrul de observaii crete, astfel nct frecvenele de grup s rmn finite, poligonul i histograma se apropie din ce n ce mai mult de o curb neted. O astfel de linie ideal a poligonului i histogramei se numete curb de frecven. Este un concept capital n statistic. Cnd vom aborda teoria seleciei va trebui s privim curba de frecven ca reprezentnd o populaie din care datele reale reprezint un eantion. Poligonul frecvenelor i histograma vor fi aproximate cu o curb, dar se vor ndeprta de ea n anumite poriuni, datorit fluctuaiilor seleciei. Atunci cnd numrul de observaii este considerabil, s zicem 1000, poligonul frecvenelor este suficient de neted pentru a da o bun imagine a formei repartiiei ideale. Cteva tipuri uzuale de repartiii de frecven. Formele histogramelor corespunzatoare diferitelor date statistice sunt aproape fr sfrit n varietatea lor, dar printre ele putem distinge un numr relativ mic de tipuri fundamentale. 1) Repartiia simetric. Valoarea medie este valoarea maxim i centrat, iar extremele descresc i tind spre zero (distribuia normal) ideal.

2) Repartiia moderat-asimetric (oblic). Frecvenele de grup descresc cu mare rapiditate ntr-o parte i mai lent n cealalt parte. Este cazul cel mai frecvent.

3) Repartiia n forma de U. Frecvenele maxime sunt la capetele intervalului de variaie. Este rar.

4) Repartiia extrem asimetric.

Repartiii teoretice importante. Repartiia binomial. (Benoulli, 1700). Legea binomial permite descrierea probabilitilor asociate cu privire la dou experimente exclusive. Pentru evitarea unor exemple particulare (monede, zaruri), vom folosi termenul de succes pentru apariia unui eveniment (probabilitatea_1=p) i insucces pentru neapariia sa (probabilitatea_2=q). Evident vom avea p+q=1. Considerm c toate evenimentele ntr-un numr de ncercri sunt independente, adic probabilitile p i q sunt aceleai pentru fiecare eveniment i rmn constante de-a lungul ncercrilor. Presupunem c efectum un numar de N serii n care efectum cte n ncercri n fiecare din cele N serii i determinm numrul de succese din fiecare serie (ex. Aruncm o moneda de 10 ori pentru fiecare serie, observnd de cte ori apare stema la fiecare serie). n general, vor exista unele serii la care nu vom observa succese, altele la care vom observa un succes, altele cu dou succese .a.m.d. Prin urmare dac grupm seriile n raport cu numrul de succese vom obine o repartiie de frecven. Ex. 12 zaruri aruncate de 4096 de ori, apariia lui 6 fiind considerat un succes, conduce la urmtorul rezultat. Nr. succese 0 1 2 3 4 5 Nr. aruncri 447 1145 1181 796 380 115 6 24 7 i mai mult. 8

Vom arta c, folosind ipotezele de independen a experienelor succesive vom putea determina teoretic natura acestei repartiii. n cazul seriilor cu o singur ncercare, estimm ca n N astfel de serii s obinem Np succese i Nq insuccese. Cnd avem dou ncercri, posibilitile sunt: SS SI IS II p2+2pq+q2 de N ori

Cnd avem trei ncercri: SSS SSI ISS IIS ISI SII III Deoarece nu conteaz ordinea n care au aprut succesele i insuccesele, putem scrie SSS 3SSI 3SII III p3 + 3p2q + 3pq2 + q3 sau p3 + C31p2q + C32pq2+q3 Pentru n ncercri, obinem formula general (dezvoltarea binomial): 1 k n 1 N{pn+ C n pn-1q+...+ C n pn-kqk+...+ C n pqn-1+qn} Ex.1 dac lum 100 de serii cu cte10 aruncri ale unei monezi perfecte, n cte cazuri ne ateptm s obinem de 7 ori stema i de 3 ori valoarea? 1 1 R. Aici avem p= , q= . 2 2 Frecvenele a celor 0,1,...,10 succese sunt termenii din dezvoltarea binomial, 1 1 100 + . Termenul care d frecvena a 7 succese i a 3 insuccese este: 2 2
7 1 1 100 C10 12 2 2 7 3 10

Ex.2 acelai text cu ntrebarea: n cte cazuri ne ateptm s obinem cel puin de 7 ori stema. R. Cutm suma termenilor corespunzatori la 7,8,9 i 10 succese: 100 7 8 9 10 C10 + C10 + C10 + C10 17 10 2

Forma general a repartiiei binomial depinde de valorile lui p i q i de valorile exponentului n (numrul de ncercri din fiecare serie). Dac p i q sunt egali, repartiia este evident simetric, deoarece p i q pot fi permutai ntre ei, fr a schimba valoarea vreunui termen i prin urmare termenii echidistani de la cele dou capete ale seriei sunt egali. Dac p i q nu sunt egali, repartiia este asimetric. Valoarea mediei = np. Abaterea medie patratic = npq = Forma limit a repartiiei binomial. Cnd n crete, fiecare termen al repartiiei binomial scade. ns suma unor termeni care cad ntre anumite limite nu va fi mic. Chiar dac p nu este egal cu q, cnd n devine din ce n ce mai mare, repartiia binomial tinde ctre forma unei curbe continue de ecuaie:

y = y0 e

x2 2 2

, numit curba normal.

Proprieti ale curbei normale. Curba normal este simetric n jurul punctului x=0, n acest punct i atinge valoarea maxim. Curba normal este complet specificat dac se definete media (originea lui x), abaterea standard i valoarea y 0 . n practic, dac dorim s obinem o curb normal cu ajutorul unor date cunoscute, valoarea lui y 0 nu se d direct, ci se calculeaz folosind faptul c aria curbei trebuie s fie egal pe scala aleas, cu numarul total de observaii. Aria determinat de curba normal i axa ox este:

y e
0

x2 2 2

dx = y 0 2

1 , aria este egal cu unitatea. 2 n aceast situaie putem obine imediat forma corespunzatoare unei repartiii de orice frecven dat. Astfel, dac frecvena este N, curba normal corespunzatoare este: Dac lum y0 = . 2 Media curbei normale, aa cum am vzut, este localizat n origine. Dac dorim s scriem expresia curbei, n raport cu un alt punct ca origine, obinem forma: 1 ( xm) 2 1 , 2 2 y= e 2 Unde m este abaterea de la medie a valorii alese ca origine. 2 este dispersia; este abaterea medie ptratic (abaterea standard). e Proprietile curbei normale. Curba normal este evident simetric n jurul punctului x=0, deoarece ecuaia ei este independent de semnul lui x. n acest punct ordonata i atinge valoarea maxim. Valoarea medie, mediana i modulul coincid. Este considerat o curba simetric ideal. Curba normal este complet specificat dac se definete media (originea lui x), abaterea medie ptratic i valoarea y 0 . n practic, dac dorim s obinem o curb normal cu ajutorul unor date cunoscute, valoarea lui y 0 nu se d direct, ci se calculeaz folosind faptul c aria curbei trebuie sa fie egal, pe scara aleas, cu numrul total de observaii. y= N
x2 2 2

TEORIA PROBABILITATILOR INTRODUCERE

Noiunea de probabilitate este un concept fundamental n statistic. Toate testele statistice implic calculul probabilitilor, fie direct, fie indirect. Statistica nu lucreaz cu certitudini, ci cu probabiliti. Ipotezele statistice nu pot fi considerate n totalitate adevrate sau false. Raionamentul probabilist explic evenimentele fundamentale ale universului fizic n care trim precum i o mare parte din evenimentele petrecute n lumea fiinelor vii. Utilitatea aproape nelimitat a raionamentului probabilist este unul din aspectele cele mai importante i mai izbitoare ale tiinei moderne. Acest punct de vedere a fost dezvoltat i acceptat mai ales n ultimii 80 de ani, cu toate c teoria probabilitilor s-a nscut cu peste trei secole n urm. Vom examina n acest capitol numai acel tip de raionament, n care un pas conduce n mod ordonat la pasul urmtor, ntregul proces succesiv conducnd n final la o concluzie. Acest gen de gndire ajunge la un nivel foarte rafinat n matematic, precizia sa depinznd de mai muli factori: modul precis n care sunt definii termenii, rigoarea cu care definiiile sunt respectate i atenia cu care toate regulile de aciune sunt puse n eviden i clar exprimate. Acest mod de a gndi constituie gdirea logic, iar logica nsi poate fi definit astfel drept studiul sistematic al condiiilor i procedeelor care permit o judecare valabil, cu alte cuvinte care permit s se porneasc de la una sau mai multe afirmaii i s se deduc din aceasta una sau mai multe concluzii, sau propoziii noi care s fie valabile, n sensul justificrii lor de ctre propoziiile iniiale ale cror consecine sunt de fapt. Este extrem de important faptul c logica nu afirm ceva din nimic ci scoate la iveal afirmaii, propoziii i relaii cuprinse n propoziiile iniiale. Ceea ce are importan, prin urmare, ntr-o ntr-o astfel de gndire logic nu este adevrul, ci mai degrab valabilitatea sa. O concluzie logic poate s merite pe drept cuvnt adjectivele : corect, sntoas sau precis, toate acestea nsemnnd c ea a fost dedus n mod riguros din materialul iniial. Dar faptul c a fost dedus prin metode logice corecte nu nseamn ctui de puin c ea este n mod necesar adevrat. Dac afirmaiile (ipotezele) iniiale sunt adevrate, atunci consecinele logice deduse trebuie s fie adevrate. Logica probabilist ia n considerare o serie ntreag de afirmaii, dintre care nici una nu este total fals sau total adevrat, ordonndu-le n raport cu gradul lor de adevr, spunnd cu ct este mai plauzibil sau mai puin plauzibil una fa de cealalt. Logica probabilist nu se limiteaz numai la dou valori de adevr 0 i 1, ci utilizeaz o infinitate de valori exprimate ca numere situate ntre 0 i 1. Teoria probabilitilor poate s analizeze acele situaii n care nu avem suficiente informaii care s permit aplicarea logicii clasice; ea este capabil s ne dea un cel mai bun tip de rspuns pe care-l justific o informaie incomplet. ntr-un mare numr de cazuri, teoria probabilitilor nu ne spune numai "sfatul meu este aa i aa", ci poate s ne indice gradul de ncredere pe care suntem ndreptii s-l acordm sfatului dat.

n diferite stadii ale dezvoltrii tiinei se poate considera un ansamblu de fenomene reale i se poate cuta pentru el un model matematic. De exemplu o familie de ipoteze plus teoria pur care rezult pe baza acestora i care se aplic cu strict precizie unui sistem fizic idealizat - suficient de asemntor sistemului fizic real - n aa fel nct teoria sistemului idealizat va "explica" sau mcar va organiza i simplifica fenomenele reale. Primii experi n teoria probabilitilor vorbeau despre extragerea de bile colorate din urne. Aceasta nu pentru c lumea ar fi ntr-adevr interesat n urne cu bile ci pentru c deseori acestea puteau fi folosite ca modele utile ale unor situaii reale. Calculele probabilistice se aplic strict la modele fictive pe care ele sunt bazate. Dac ele se aplic sau nu n mod util situaiilor reale este o chestiune la care trebuie s reflectm cu grij. Cmp de evenimente n teoria probabilitilor sunt studiate experienele cu rezultat ntmpltor, numite experiene aleatoare; pe scurt experiene (experimente). Rezultatele posibile ale experienei se numete prob. n legtur cu o experien, numim eveniment aleator sau pe scurt eveniment (ataat experienei) orice situaie care se poate realiza prin una sau mai multe probe. Deci un eveniment este determinat prin mulimea probelor prin care se realizeaz, prin urmare l putem interpreta ca o submulime a mulimii tuturor probelor experienei. Exemple 1. Aruncarea unei monezi este un experiment. Apartiia oricrei fee o prob. Apariia unei anumite fee este un eveniment. 2. Aruncarea zar este un experiment. Apartiia oricrei fee o prob. Apariia unei anumite fee este un eveniment. Evenimentele care se realizeaz printr-o singur prob se numesc evenimente elementare, celelalte se numesc evenimente compuse. Evenimentul care se realizeaz prin oricare din probe se numete eveniment sigur (notat prin E). Exemplu. Apariia oricrei fee la o moned sau la un zar. Evenimentul care nu se realizeaz prin nici o prob se numete eveniment imposibil, notat cu . Exemplu. Apariia niciunei fee la o moned sau la un zar. Evenimentul contrar lui A sau non-A (sau ) este evenimentul care se realizeaz atunci i numai atunci cnd nu se realizeaz A. Exemplu. Apariia unei fee cu numr par la un zar i apariia unei fee cu numr impar sunt evenimente contrare.

Definiia 1. Fie mulimea E={E1, E2,...,En} mulimea tuturor evenimentelor elementare corespunztoare unei experiene. Se numete cmp finit de evenimente, mulimea tuturor submulimilor lui E, la care se adaug mulimea E nsi i . Exemple: La aruncarea unei monezi avem urmtoarele situaii (evenimente) : apariia unei fee, apariia celeilalte fee, apariia oricrei fee (E) i apariia nici uneia din fee (). n total sunt 4 evenimente Un cmp de evenimente se noteaz cu {E,K} unde prin E nelegem evenimentele, iar K semnific numrul evenimentelor. Observaie: Ori de cte ori ntr-o relaie vor intra mai multe evenimente, vom presupune c ele aparin aceluiai cmp i nu vom mai specifica acest lucru. Operaii cu evenimente. Cnd n cadrul unei experiene ne fixm atenia asupra unui eveniment, de fapt, ne fixm atenia asupra unei pri din mulimea rezultatelor experienei. Exemplu. La aruncarea unui zar ne intereseaz evenimentul A care const n apariia uneia din feele 2, 4 sau 6. Evenimentul A este perfect determinat de mulimea format din aceste dou rezultate i deci l putem identifica cu aceasta. Vom scrie A={2,4,6} Considerm c evenimentul B const numai din apariia feei 2 i 4. Se observ c evenimentul A se produce ori de cte ori se produce evenimentul B. Astfel putem scrie : BA Definiia 2. Fiind date dou evenimente A i B, numim reuniunea lor, AB, evenimentul a crei producere const n producerea a cel puin unul din cele dou evenimente. Exemplu. La aruncarea unui zar se consider evenimentele A={1,2,4}, B={2,4,5} Evenimentul A se produce dac obinem unul din rezultatele {1}, {2} sau {4}, iar B dac se obine unul din rezultatele {2}, {4} sau {5} AB={1,2,4,5} Definiia 3. Intersecia evenimentelor A i B const n producerea simultan a evenimentelor A i B. Pentru exemplul de mai sus, avem urmtoarea expresie :

AB={2,4} Definiia 4. Spunem c dou evenimente sunt compatibile dac se pot produce simultan. Exemplu. Apariia feei {1} i apariia feelor impare. Definiia 5. Spunem c dou evenimente sunt incompatibile dac nu se pot produce simultan. Exemplu. Apariia unei fee pare i apariia unei feelor impare. Se folosete expresia AB= Definiia 5. Fie A un eveniment; dac ntr-o serie de n probe, evenimentul A s-a realizat de nA ori, numim frecven relativ a evenimentului A numrul f(A) = nA/n. Cmp de probabilitate Considerm o experien cu n evenimente elementare (deci n probe) egal posibile i fie A un eveniment oarecare, care se poate realiza prin m probe; m n. Definiia 6 (definiia clasic a probabilitii). Se numete probabilitatea evenimentului A, numrul P(A)=m/n, adic raportul dintre numrul cazurilor favorabile i numrul cazurilor egal posibile. Probabilitatea unui eveniment elementar este 1/n (n fiind numrul probelor). Proprieti: 1) 0 P(A) 1 2) P()=0 3) P(E)=1, m=n 4) P() = 1-P(A) 5) P(AB) = P(A)+P(B), dac AB= (evenimente incompatibile) 6) P(A) P(B) dac AB. Definiia 7 (definiia axiomatic aprobabilitii). O probabilitate P definit pe cmpul de evenimente {E,K} este o funcie care asociaz fiecrui eveniment A{E,K} un numr real P(A) care satisface urmtoarele axiome: 1) P(A) 0 , A{E,K} 2) P(E)=1, E fiind elementul sigur 3) P(AB)=P(A)+P(B), A,B{E,K}, AB= Observaie. Definiia clasic a probabilitii satisface toate axiomele definiiei 5.

Definiia 8. Numim cmp finit de probabilitate un cmp finit de evenimente {E,K} nzestrat cu o probabilitate; se noteaz {E,K,P}. Evenimente independente. Dou evenimente A, B sunt independente dac: P(AB) = P(A) P(B) Evenimente incompatibile. Dou evenimente se numesc incompatibile dac AB= deci P(AB) = P() = 0 Scheme calsice deprobabilitate. Calculul probabilitilor de apariie a unor evenimente este acelai pentru o clas larg de experimente. Din acest motiv se construiete un model matematic pentru o astfel de clas, care se numete schem de probabilitate. Pentru o astfel de schem se determin formulele corespunztoare de calcul, ce depind de anumii parametri, formule care se aplic pentru fiecare experiment din clasa respectiv, prin particularizarea acestor parametri. n cele ce urmeaz vom prezenta principalele scheme de probabilitate cele mai de ntlnite. 1. Schema lui Bernoulli (schema binomial sau schema bilei revenite) n urma efecturii unei experiene poate aprea evenimentul A cu probabilitatea p, sau evenimentul contrar () cu probabilitatea q=1-p. Se repet experiena de n ori n condiii identice. Probabilitatea P(n;m) ca n cele n experiene evenimentul A s apa de m ori este
m P (n; m) = Cn p m q n m

Deoarece probabilitatea P(n;m) este coeficientul lui xm din dezvoltarea (q+px)n acesat schem se mai numete schema binomial. Schema lui Benoulli mai poate fi realizat printr-o urn cu bile de dou culori (albe i negre), se extrage pe rnd cte o bil din urn, dar de fiecare dat bila se pune napoi, motiv pentru care se mai numete schema bilei revenite (ntoarse). 2. Schema bilei nerevenite Dintr-o urn cu a bile albe i b bile negre se extrag n bile, n a+b. Probabilitatea Pa,b(,) ca din bilele extrase s fie albe i negre, + =n, este Pa ,b ( , ) =
Ca Cb Ca ++b

Estimarea parametrilor
Parametrii calculai pentru o colectivitate de selecie pot fi generalizai la ntreaga colectivitate n anumite condiii. Aceast generalizare se refer, n particular, la estimarea parametrilor necunoscui ai colectivitii iniiale (generale). Determinnd un anumit parametru, ne propunem s obinem o mrime, care ntr-o msur oarecare s fie ct mai apropiat de valoarea real a parametrului necunoscut.In caz contrar cutm nite limite n interiorul crora, cu o anumit probabilitate, putem afirma c se afl mrimea real a parametrului necunoscut. In acest caz avem de-a face cu un interval de ncredere pentru parametrul necunoscut. Estimarea mediei Vom nota cu 2 dispersia colectivitii generale, cu s2 dispersia colectivitii de selecie (a eantionului). Msura erorii standard pentru medie este

Em =

s n

Unde n este mrimea eantionului (nr. elementelor care formez eantionul). Considerm c populaia statistic satisface legea normal. In acest situaie estimarea pentru media colectivitii generale este : X = x E m cu o probabilitate de 0,682 X = x 2 Em cu o probabilitate de 0,954 X = x 3Em cu o probabilitate de 0,997 Estimarea pentru abaterea medie ptratic () Limitele de confiden pentru o abatere medie ptratic pot fi estimate ntr-o manier similar. Pentru aceasta introducem noiunea de eroare standard a abaterii medii ptratice

Es =

s 2n

In mod analog intervalele de ncredere sunt date de

= s Es cu o probabilitate de 0,682 = s 2 Es cu o probabilitate de 0,954

= s 3Es cu o probabilitate de 0,997


Estimarea proporiilor Formulele pentru erorile standard pot fi aplicate doar pentru a estima media i abaterea medie ptratic. Sunt situaii cnd avem exprimri procentuale, cum ar fi procentul de persoane care au optat pentru o anumit situaie (care au votat pentru un partid). Astfel eroarea standard pentru estimarea procentelor este : E% = pq n

unde p este procentul din eantion care posed un anumit atribut, q este procentul din eantion care nu posed acel atribut, iar n este numarul de indivizi din eantion. Exemplu. Pe un eantion de 50 indivizi s-a evaluat c 86% dintre acetia au televizoare (p). Procentul pentru cei care nu au televizoare (q) este de 100 86 = 14 (nu au fost numrai ci dedui). Avem : E% = 86 14 = 24,08 = 5,91 50

Aa cum am procedat la celelalte estimri aceast eroare standard pote fi folosit pentru a stabili limitele de confiden a procentului estimat al colectivitii generale. Astfel avem : Populaia gen % = eantion % E% cu probabilitate 0,682 Populaia gen % = eantion % 2 E% cu probabilitate 0,954 Populaia gen % = eantion % 3 E% cu probabilitate 0,997 Pentru exemplul de mai sus semnificaia este urmtoarea. Avem o probabilitate de 0,682 ca deintorii de aparate TV s fie undeva ntre 81,09% i 90,91% (adic 86-4,91 i 86 + 4,91). La un nivel de confiden de 0,954, procentele vor fi ntre 76,18% i 95,82% (862x4,91 i 86+2x4,91). Mrimea eantionului In cele expuse mai sus am introdus erorile standard pentru anumite mrimi estimate. Acestea permit evaluarea limitelor de confiden pe baza unor ipoteze (distribuia normal a populaiei i eantion obinut ntr-o manier aleatoare). Pentru evaluarea efectiv a acestora trebuie s tim doar dou lucruri : mrimea lui (n) i abaterea medie ptratic (s) a eantionului. In cele ce urmeaz vom revedea problema invers : ct de mic trebuie s fie eantionul (n) astfel nct media i abaterea medie ptratic s aibe nite limite de confiden specificate.

Din formula erorii pentru medie

Em =
explicitm, pe n :

s n
2

s n= E m

Ex. Dac vrem s avem o eroare pentru medie de 0,25 i o dispersie de 2 => n = 64 Estimri provenite din eantioane mici In general cel care face estimri pe baz de eantioane este o persoan prudent. Dac eantioanele sunt mici aceast pruden trebuie mrit. Aa cum am vzut pn acum abaterea medie ptratic a eantionului (s) este foarte important pentru stabilirea limitelor de confiden ale mediei i abaterii medii ptratice pentru colectivitatea general. Cnd se lucreaz cu eantioane mici, de 10 sau mai mici, trebuie s adoptm nite limite de confiden mai mari. Astfel estimarea abaterii standard va fi nlocuit cu cea mai bun estimare a abaterii notat cu i care se calculeaz din formula =s n n 1

sau dac calculm direct din eantion

=s

(x x)
i =1 i

n 1

Se observ c pentru eantioane mari aceast valoare nu difer prea mult de s, dar pentru valori mici ale lui n aceast diferen poate fi semnificativ. Valoarea lui este ceva mai mare dect s i astfel limitele de confiden vor fi mai largi. Toate calculele privitoare la erori se vor face cu i nu cu s.