Sunteți pe pagina 1din 17

STATISTIC

Scurt istoric
ntr-o prim concepie, statistica echivala cu descrierea statului, expunerea situaiei geografice, economice i politice. Acest gen de statistic a fost cultivat mai nti de italieni. nc din sec. XIII XIV n Republica Veneia se elaborau diferite rapoarte care conineau informaii privitoare la partenerii si comerciali i au fost utilizate n politica comercial oficial. Curentul "descrierea statului" a atins apogeul n sec. XVII- XVII cnd, n Germania, s-a constituit o adevrat coal cunoscut sub denumirea de coala descriptiv german. Descrierea statului a devenit disciplin de predare acadamic, ncadrat ntr-un sistem construit dup norme teoretice i practice, care s-au elaborat i dezvoltat n univeritile germane. Noua disciplin (Staatskunde), a primit numele de statistic (Statistik). Pe vremea constituirii statisticii ca disciplin descriptiv a statului, se ntea n Anglia, n afara universitilor, o statistic cunoscut sub numele de aritmetica politic, a crui scop era: analiza datelor de observaie prin procedee matematice, desprinderea regularitilor n fenomenul social i chiar formularea de previziuni. Studiile demografice lsau s se ntrevad c previziunea fenomenelor colective ar putea avea o nsemntate practic; dealtfel tabelele de mortalitate, ntocmite n sec. XVIII au constituit punctul de plecare al nfloritoarei industrii de asigurri. Folosirea metodei statistice, recurgerea la instrumentul matematic i cutarea legitilor marcau un substanial progres, prefigurnd statistica modern. Este dificil s se dea o definiie satisfctoare statisticii. n limbaj uzual termenul este folosit pentru a desemna o colecie de numere referitoare la un anumit domeniu (demografie, precipitaii, debite). n sens tehnic (mai precis matematic) statistica este un instrument al matematicii utilizat pentru prelucrarea i interpretarea informaiilor numerice.

Scopul statisticii
Statistica poate fi clasificat n dou mari categorii: - statistica descriptiv - statistica analitic. Statistica descriptiv se ocup de prezentarea, clasificarea i sintetizarea datelor de observaie. Aceasta concentreaz informaia existent n datele respective cu ajutorul anumitor indicatori statistici care, n fond, sunt nite numere ce exprim caracteristici sau tendine ale fenomenului studiat. Statistica analitic folosete metode matematice (teoria probabilitilor) pentru extragerea i prelucrea informaiei statistice; n multe cazuri aceste metode pun n eviden legiti statistice. Depirea stadiului descriptiv, al simplei metode cantitative, a nsemnat, istoric vorbind, deplasarea gndirii statistice spre interpretarea analitic a fenomenului i obinerea de concluzii inductive, pe baza observaiilor empirice. Aceast schimbare de coninut a fcut ca statistica s se ntreptrund n mod constant cu matematica, n cutarea de metode corespunztoare obiectivelor sale. Transpus ntr-un limbaj matematic statistica s-a construit ntr-o teorie numit teoria corelaiei statistice, ale crei aplicaii au permis identificarea unor noi legi de dependen, specific statistice i adaptate la formele complexe i variate pe care le ofer natura n diferitele sale manifestri.
1

n cercetrile moderne se pornete de la ipoteze statistice asupra fenomenului sau procesului observat, consecinele lor logic deduse se compar apoi cu datele disponibile i dac sunt n concordan, ipotezele sunt justificate, cel puin pn la noi observaii mai riguroase. Unul din obiectivele eseniale ale statisticii se consider tocmai msurarea incertitudinii concluziilor inductive. De la un timp ns, gndirea statistic tinde s se preocupe mai puin de msurarea incertitudinii i mai mult de determinarea riscului de eroare i a pierderilor implicate de orice decizie ntemeiat pe o informaie care, prin natura sa, nu poate fi exhaustiv. Aplicarea calculelor statistice la datele empirice, oferite de observarea fenomenului, permite desprinderea de legiti statistice. Fenomenele sunt n interconexiune unele cu altele, n sensul c se genereaz i se influeneaz reciproc. Acest fapt conduce la noiunea de cauzalitate care exprim interaciunea dintre cauz i efect astfel nct ntotdeauna cauza s precead efectul. Desfurarea fenomenelor const astfel ntr-un ir nentrerupt de momente, ntr-o succesiune cauz-efect, efectul fiind la rndul lui cauz pentru un alt efect .a.m.d. Astfel se formeaz un lan cauzal. Orice ntrerupere a lanului cauzal nseamn de fapt existena unui efect care s nu aib cauz. Nici un fenomen nu se abate de la acest principiu care poart numele de principiul cauzalitii. Cunoaterea desfurrii evenimentelor este asigurat de cunoaterea legilor care guverneaz fenomenul i a ansamblului de condiii n care se desfoar acesta. Deci legea este un element primordial n cunoaterea fenomenelor deoarece exprim raporturile eseniale, necesare, generale, relativ stabile i repetabile ale fenomenelor i ale desfurrii lor. Putem deosebi dou mari categorii de legi: - legi fizice, care se aplic fenomenelor i proceselor individuale luate n parte (ex. legea atraciei universale, legile I, II, III ale dinamicii etc.) i - legi statistice, care se aplic numai fenomenelor de mas, ansamblurilor de obiecte (ex. legea gazelor perfecte, legea dezintegrrii radioactive, etc.) i care exprim anumite caracteristici ale ansamblului considerat. Legile fizice permit cunoaterea perfect a desfurrii viitoare a fenomenelor pe baza cunoaterii la momentul iniial a unor mrimi. Astfel, n mecanic, legea a II-a a lui Newton permite cunoaterea perfect a micrii unui obiect atunci cnd se cunosc la momentul iniial poziia (trei coordonate) i viteza sau impulsul (trei proiecii) obiectului. Legile statistice permit cunoaterea desfurrii viitoare a fenomenelor doar n termeni probabilistici (probabiliti, valori medii, erori statistice etc.). Acest lucru indic de la nceput c informaia pe care o d o lege statistic este mai srac dect cea dat de legea dinamic. Cu toate acestea, legea statistic permite cunoaterea desfurrii viitoare a fenomenelor i poate fi tot att de determinist ca i cea dinamic. Particularitatea esenial a legilor statistice izvort din faptul c ele acioneaz n fenomenele de mas, unde ntregul este determinat de unitatea prilor componente, o constituie exprimarea comportrii ansamblului de uniti omogene i nu a fiecrei uniti n parte. n mod corespunztor, legea statistic se realizeaz ca o tendin predominant, ca o necesitate care i croiete drum printr-un numr foarte mare de contingene i care se manifest n aceste contingene ca media unui numr mare de abateri ntmpltoare. De aici i principiul verificat deseori n practic: legea statistic poate fi evideniat dac i numai dac este considerat i supus observrii un numr mare sau suficient de mare de uniti elementare ale ansamblului considerat.

Nooiuni elementare
Investigarea statistic presupune, prin definiie, considerarea fenomenelor n multiplicitatea i variabilitatea lor. Un ansamblu de fenomene formeaz un fenomen de mas, sau, ceea ce numim populaie statistic, n msura n care elementele componente (indivizi) sunt de aceai natur, adic au toate o proprietate comun i se deosebesc unele de altele n raport cu aspectele sau valorile caracteristice luate n studiu. Populaia cu care lucreaz statistica trebuie s fie global omogen - s includ doar elementele similare, aparinnd de aceeai "categorie" i intern structurat elementele ei s poat fi ordonate potrivit unui sistem de clasificare. Aa cum rezult din cele de mai sus, o nsuire specific statisticii este aceea c statistica nu se ocup cu un element (individ) luat ca atare, ci cu colectiviti, cu grupuri de elemente ce posed o anumit trstur comun. Aceast trstur se numete caracteristic. Denumirea de "populaie" s-a pstrat din timpurile n care statistica se ocupa cu precdere de populaii n sensul propriu al cuvntului. O populaie poate fi mpit n subpopulaii sau populaii pariale, care sunt : clase, grupe i eantioane. O clas este un subansamblu de elemente ale unei populaii care conin o variabli determinat de aceeai msur. Un grup este un subansamblu de elemente ale unei populaii care se distinge printr-o manier de tratare comun. Un eantion este un subansamblu de elemente ale unei populaii ales ntmplare. Se apeleaz la acest gen de populaie parial atunci cnd populaia n studiu este prea mare pentrua fi tratat n ansamblul ei. Studiul asupra eantionului va fi atribuit ntregii populaii. Indivizii unei populaii statistice sunt cercetai pentru una sau mai multe caracteristici. Caracteristicile ntlnite se clasific n caracteristici cantitative i calitative. Caracteristicile cantitative sunt cele care se msoar numeric (nlime, greutate, lungimea unui ru etc.) i se mai numesc variabile statistice. Caracteristicile calitative nu se msoar numeric (culoare, sexul unei persoane etc.). Ele nu reprezint o msur a unei entiti. Dac se convine s se reprezinte unele din ele prin numere ataate la categoriile ce le determin, nu este vorba dect de o "codificare" procedeul nejustificnd operaiile aritmetice. Aceste caracteristici se mai numesc atribute. La rndul lor, caracteristicile cantitative pot fi discrete sau continue. Variabilele discrete sunt cele care pot lua un numr finit (sau cel mult numrabil) de valori distincte (ntregi, fracionare), cum ar fi numrul membrilor unei familii, nr. de staii hidrologice etc. Variabilele continue sunt cele care pot lua orice valoare dintr-un anumit interval (nlimea unui individ, nivelul unui ru etc.). Totui, n practic nu se ntlnete o informaie privind adncimea unui ru de forma: 1m, 3 cm, 17 microni. Acest lucru nu se va ntmpla fie c precizia aparatelor cu care efectum msurtorile este limitat, fie c o precizie exagerat nu este ntotdeauna folositoare pentru ceea ce urmrim n investigaie. Astfel, msurtorile sau datele de observaie se grupeaz n cadrul unei anumite uniti i deci din punct de vedere practic se lucreaz cu forma discret chiar dac variabilele sunt de tip continuu. Distincia ntre caracterul cantitativ i cel calitativ, precum i ntre variabilele discrete i variabilele continue este fundamental deoarece ele recurg la tehnici de analiz foarte diferite. Aici trebuie s lmurim un lucru care d deseori natere la confuzii: muli sunt nclinai s cread c variabilele discrete trebuie s ia numai valori ntregi i c numerele fracionare sunt tipice pentru variabilele continue; cu alte cuvinte diferena dintre continuu i discret se confund cu diferena dintre msurtorile cu numere ntregi i cele fracionare. S lum exemplul urmtor: o variabil ia valorile: 1,041; 1,065; 1,077. Aceasta este o variabil discret deoarece trecerea de la o valoare la alta se face fr vreo alt valoare intermediar.

Cercetarea statistic a unei colectiviti poate fi: - exhaustiv (total), cnd fiecare individ este analizat, de exemplu n cazul recensmintelor; - parial (selectiv), cnd sunt examinai numai anumii indivizi, alei aleator. Ea este cea mai frecvent folosit, n majoritatea cazurilor fiind i singura posibil. Partea examinat din colectivitate se numete selecie sau eantion. Numrul indivizilor examinai se numete volumul seleciei.

Analiza seriilor statistice


Evaluarea anumitor indicatori (parametri) statistici implic stabilirea caracteristicilor (proprietilor) principale ale seriilor statistice. Acestea sunt: variabilitatea, omogenitatea, independena i concentrarea/mprtierea (dispersia) ctre/faa de un una sau mai multe valori ale seriei. Variabilitatea termenilor unei serii statistice este determinat de faptul c fenomenul pe care l reprezint nu este univoc determinat, ci apare ca un rezultat al aciunii combinate a mai multor cauze (permanente sau ntmpltoare). Cu ct aciunea cauzelor ntmpltoare este mai mare, cu att variabilitatea este mai mare i gradul de omogenitate mai mic. Omogenitatea presupune o variaie minim ntre termeni. Dac n urma analizei se constat c o serie nu prezint omogenitate, nseamn c n acest caz colectivitatea este format din mai multe tipuri calitative i seria trebuie descompus n subserii componente. Independena termenilor unei serii provine din faptul c fiecare valoare individual reprezint un element distinct i obiectiv al unei populaii statistice. Termenii ce aparin aceleiai colectiviti se supun acelorai legi care se manifest sub form de tendin. Concentrarea/mprtierea (dispersia) ctre/fa de un una sau mai multe valori ale seriei apare ca rezultat al intensitii unui efect produs de cauze eseniale i ntmpltoare. Acest lucru determin fercvenele diferite de apariie a diferitelor valori din serie. Dac intensitatea factorilor este uniform, frecvenele de apariie sunt apropiate. n caz contrar, frecvenele de apariie se concentreaz fie la un singur capt al seriei, fie ctre o valoare central.

Repartiii de frecvene
Exist diferene ntre analiza seriilor dinamice i problemele legate de gruparea i analizarea materialelor pentru care factorul timp nu are importan. La cercetarea seriilor dinamice problema de baz o reprezint analiza variabilei timp. Metodele de analiz folosite n aceste dou cazuri se deosebesc sensibil. n cele ce urmeaz ne vom ocupa de problemele gruprii i analizei prealabile a datelor numerice pentru care ordinea de aezare n timp nu conteaz. Datele statistice n stare brut reprezint o mas dezordonat de materiale. Prima problem este aceea de a face o asemenea grupare a datelor cu ajutorul creia s se poat aprecia valoarea lor n legtur cu problema propus, s se poat nlesni comparaia cu alte date de acelai gen i s se poat obine posibilitatea unei analize ulterioare. nainte ca materialul statistic s fie supus analizei ulterioare i generalizrilor care vor permite s se fac anumite deducii, el trebuie s capete o

anumit form i o structur clar. Cu alte cuvinte n cadrul analizei datelor statistice trebuie s se ia n considerare att valorile individuale ct i frecvenele de apariie ale acestora. n urma observrii caracteristicii cantitative X n n probe se obin urmtoarele date primare: x1, x2,..., xn (1)

n cazul n care volumul seleciei este mic aceste date sunt uor de manipulat i nu este nevoie de o grupare a lor. Dac ns avem o selecie de volum mare este greu de lucrat cu aceste date. n plus tabelele de date primare nu sugereaz nimic referitor la referitor la repartiia variabilei X. De aceea este nevoie de o grupare (centralizare) a datelor. Gruparea datelor se face n funcie de tipul caracteristicii X. Astfel, dac X este o variabil discret ce poate lua valorile distincte v1, v2 ,..., vn , atunci n locul datelor iniiale se va reine repartiia empiric: v1.v2 ...vm n .n ...n 1 2 m (2)

Unde ni, (i=1, m) reprezint frecvena apariiei (numrul de apariii) valorii vi, iar n reprezint numrul valorilor din irul iniial (1) i se numete frecven absolut a valorii v. Valoare m reprezint numrul de clase. Raportul fj =nj/n dintre frecvena absolut i numrul total de probe se numete frecven relativ. Se observ c f1 + f2 ++ fm =1 ntruct n1 +n2 + ... +nm = n. Frecvenele relative, numite i impropriu probabiliti de apariie, stau la baza calculrii densitii de repartiie a fercvenelor i a indicatorilor care exprim gradul de concentrare. De asemenea permit compararea a dou repartiii construite pe aceeai variabil, care difer numai prin numrul unitilor pe grupe. Dac X este o variabil continu care poate lua valori ntr-un interval [a,b] atunci acest interval este mprit n m subintervale [aj, aj+1], j=1, m , cu a1 = a i am+1 = b. pentru fiecare din aceste subintervale se determin numrul n al valorilor din irul (1) care se afl n acest interval numit frecven absolut a subintervalului. Subintervalele [aj, aj+1] se pot lua arbitrar. De cele mai multe ori extremitile se iau echidistante, deci subintervalele au lungimi egale. ns numrul m al subintervalelor nu se alege la ntmplare. Este important ca prin gruparea datelor s nu se piard caracterul global al repartiiei (dac m este prea mic se poate denatura repartiia real a variabilei X). Astfel, dup unii autori numrul subintervalelor, m, trebuie alese n conformitate cu formula lui Sturges : m=[1 + 3,322logn] Mrimea intervalului va fi dat de formula:
i= xmax xmin m

N 11-30 31-100 101-500 501-3000 3001-

m 3-4 4-6 6-9 9-13 13-20

Tabelul 1. Reprezentarea grafic a repartiiilor statistice Exist mai multe tipuri de reprezentri grafice a datelor statistice. Dintre acestea prezentm histograma, poligonul frecvenelor i graficul frecvenelor cumulate. Histograma este o figur ntr-un sistem de coordonate rectangualre care reprezint distribuia empiric prin dreptunghiuri. Bazele acestor dreptunghiuri, construite pe axa absciselor, reprezint subintervalele folosite n centralizarea datelor. nlimea hj a dreptunghiului cu baza (aj, aj+1) este proporional cu raportul dintre frecvena relativ a intervalului i lungimea sa: hj = C fj a j +1 a j

constanta C fiind un factor de scar. n cazul cnd subintervalele gruprii au lungimi egale, nlimea hj va fi proporional cu frecvena relativ, deci hj =C*fj . Poligonul frecvenelor este o diagram n care pe axa absciselor se iau mijloacele vj ale intervalelor (aj, aj+1) folosite n grupare, iar pe axa ordonatelor valorile hj definite n construirea histogramei. Linia frnt care unete punctele de coordonate (vj, hj) se numete poligonul frecvenelor. El se poate obine din histogram unind mijloacele laturilor superioare ale drptunghiurilor. n fig 1 poligonul frecvenelor este trasat printr-o linie punctat. Mrimile c1, c2, ..., cm definite prin: c j = fi
i =1 j

se numesc frecvene cumulate. Linia frnt obinut prin unirea punctelor de coordonate (aj+1, cj ] se numete graficul frecvenelor cumulate.

Modaliti de clasificare a datelor


Modul de stabilire a claselor determinarea pragurilor minime i maxime ale fiecrei clase determin modul n care sunt atribuite valorile fiecrei clase i deci felul n care va arta distribuia. Prin schimbarea claselor se creaz diagrame cu aspect diferit. n general se urmrete ca valori similare s fie n aceeai clas. Exist doi factori cheie n clasificarea datelor : schema de clasificare utilizat i numrul de clase ce se dorete a fi creat. Dac datele sunt bine cunoscute se poate predetermina manual numrul de clase. n caz contrar se utilizeaz schemele clasice. Cele mai frecvente scheme de clasificare sunt: natural breaks, quantile, intervale egale i deviaia standard. Acestea sunt descrise n cele ce urmeaz. Scheme standard de clasificare Natural breaks (Jenks) Datele se clasific pe baza gruprii naturale a valorilor. Se identific punctele de ruptur cutnd acele modele de grupare implicite ale datelor. Valorile sunt mprite n clase acolo unde graniele sunt marcate prin salturi mari de la o valoare la alta.

Quantile Fiecare clas conine un numr egal de valori. O astfel de clasificare este foarte potrivit n cazul datelor liniare. Din cauz c datele sunt grupate dup numr n fiecare clas, diagrama rezultat poate fi neltoare. Datele similare pot fi plasate n clase diferite, sau valori foarte diferite pot fi grupate mpreun. Aceast distorsiune poate fi evitat mrind numrul de clase.

Intervale egale Aceast schem de clasificare divide irul de valori atribut n subiruri egale. Spre exemplu n cazul unui ir de valori de la 1 la 300 i a trei clase, fiecare clas reprezint un ir de 100 ( 1-100, 101200, 201-300). Aceast metod accentueaz cantitatea de valori atribut relativ la celelalte valori, spre exemplu pentru arta c un magazin este parte a unui lan de magazine care a realizat o treime din vnzri. Cel mai bine se utilizeaz pentru iruri de date dintr-un anumit domeniu cum ar fi tempertura i procentele.

Standard deviation Aceast schem de clasificare arat cu ct variaz o valoare de la medie. Se calculeaz media i apoi se genereaz clasele adugnd sau scznd din ea deviaia standard.

Caracterizarea repartiiilor de frecven


Datele (care se refer la diferite domenii ale cunoaterii) odat aranjate ntr-o repartiie de frecvene, scot n eviden trsturile commune ale tuturor curbelor de repartiie i care se supun unor legi generale. Acest lucru ne permite ca experiena ctigat ntr-un anumit domeniu al cunoaterii s poat fi extins i n alt domeniu. La toate curbele ns trebuie s observm variabilitatea mrimilor care se obin ca rezultat al unor msurtori. Cu toate c exist variabilitate, se observ o tendin a datelor de a se grupa n centrul curbei (tendina central). Dac se msoar mrimea abaterii de la punctul de concentrare maxim a frecvenelor, se constat c sunt mai frecvente abaterile mici dect cele mari, c abaterile n ambele pri fa de punctul de concentrare maxim se echilibreaz aproape complet i c abaterile foarte mari sunt foarte rare. Deoarece frecvena variaz, vom alege acea mrime care se ntlnete cel mai des. Ea va fi msura tendinei centrale a repartiiei. Aceast mrime, ca i altele asemntoare se numesc indicatori (sau parametrii) de poziie, deoarece arat poziia elementelor principale ale repartiiei pe axa absciselor. Caracterul reprezentativ al oricrui indicator de poziie depinde de ct de strns i se altur celelalte valori, sau cu alte cuvinte, de gradul de concentrare a datelor n jurul tendinei centrale.

Indicatorii tendinei centrale


Atenuarea datelor, care accidental sunt prea mari sau prea mici dintr-o populaie statistic se face prin calcularea unor medii, n felul acesta fcndu-se o compensare a valorilor individuale. Acest calcul ne arat o anumit tendin a fenomenului studiat, media statistic fiind o valoare ce sintetizeaz ntr-o singur expresie numeric toate valorile din seria msurtori sau observaii. Termenii seriei difer de medie deoarece au fost influenai de diferii factori. Media aritmetic Media aritmetic simpl exprim un nivel mediu, anihilnd abaterile individuale, netipice. Ea este cuprins ntre valoraea cea mai mare i cea mai mic. Definiia 1. Dac n urma unei selecii apar valorile distincte x1, x2,..., xn, atunci media aritmetic este dat de formula: x= x1 + x2 + ... + xn 1 n = xi n n i =1

n cazul datelor centralizate (n care avem repartiia de frecven (2)): x= n1v1 + n2 v2 + ... + nn vn 1 n = ni vi n n i =1

care se mai numete medie aritmetic ponderat. Numrul care arat de cte ori se repet fiecare valoare (nj) este "ponderea" valorii respective. Observaia 1. Media aritmetic are dezavantajul c este sensibil la valori extreme, iar dac termenii sunt prea "mprtiai", tinde s devin o valoare nereprezentativ. Media aritmetic este o valoare lipsit de coninut dac elementele sunt deosebite din punct de vedere calitativ, caz n care este mai util s se fac medii pariale pentru fiecare tip de colectivitate.

10

Observaia 2. Dac avem mai multe medii, fiecare referindu-se la o anumit categorie, fiecare medie va fi ponderat n funcie de importana categoriei sale. Media geometric Media geometric este mai puin sensibil la valorile extreme dect celelalte medii, deci se ntrebuineaz cnd dorim s atenum divergenele mari dintr-o serie de determinri cu frecvene egale, fiind dup o expresie "cea mai exact medie". Se utilizeaz cnd valorile au o evoluie (de cretere sau scdere) permanent, nentrerupt, sau o raie din ce n ce mai mare, termenii fiind legai ntre ei printr-o relaie de produs. De asemenea se mai ntrebuineaz cnd vrem s dm o importan mai mare termenilor mai mici, n valoare absolut, sau cnd diferenele ntre termeni sunt foarte mari. Are dezavantajul c nu se poate ntrebuina cnd avem valori nule sau negative. Definiia 2. Dac x1, x2,..., xn sunt n valori, media geometric se definete prin M g = n x1 x2 ...xn Calculul se face mai uor cu ajutorul logaritmilor: lg M g = 1 n lg xi n i =1

Datorit faptului c se calculeaz mai uor cu ajutorul logarimilor, se mai numete "medie logaritmic". Ea se utilizeaz i la calcularea ritmului (de cretere sau descretere) numindu-se astfel i "medie de ritm". n rezumat, se ntrebuineaz cnd: - seria are o mare dinamicitate; - termenii au variaii mari; - distribuia are un caracter pronunat de asimetrie. Observaia 3. Media geometric se folosete atunci cnd prezint importan variaiile relative. De asemenea media geometric poate fi folositoare pentru calculul unor rapoarte. Media ptratica se ntrebuineaz cnd valorile prezint creteri din ce n ce mai mari. Ea constituie modelul matematic pentru abaterea medie ptratic. Media este sensibil la valori extreme, din care cauz este ntotdeauna mai mare dect celelalte medii. Are avantajul c se poate aplica i n cazul valorilor nule sau negative (care prin ridicare la ptrat devin pozitive). Se ntrebuinzeaz cnd dm importan valorilor mari. Definiia 3. Media ptratic este definit prin formula: x patr ,s = 1 n 2 xi n i =1

sau n cazul datelor centralizate (media ponerat): x patr , p = 1 n ni vi2 n i =1


11

Definiia 4. Media armonic este valoarea invers a mediei aritmetice ale valorilor inverse datelor de observaie: Mh = n

x
i =1

1
i

Exprim caracterul sintetic al unor valori ce se afl n raport invers. Se utilizeaz cnd frecvenele sunt egale. Pentru o repartiie de frecven, media armonic se folosete rar. Se utilizeaz cu predilecie n economie. Media glisant numit i "medie mobil", se utilizeaz n cazul n care irul valorilor prezint fluctuaii mari, brute i e greu de apreciat tendina (trendul). Se presupune c media glisant corespunde mijlocului intervalului sintetic. Calculul se face mediind 3 sau 5 valori alturate. Definiia 5. Media glisant pentru 3, respectiv 5 valori alturate sunt date de formulele xglis ,3 = xi 1 + xi + xi +1 3 xi 2 + xi 1 + xi + xi +1 + xi + 2 5

xglis ,5 =

Definiia 6. Mediana este elementul dintr-un ir de date statistice care ar mpri intervalul n dou grupe egale ca numr, dup ce acestea au fost ordonate dup mrimea lor. Dac seria are 2n+1 elemente, atunci mediana este elementul n+1, iar dac are 2n elemente mediana este media aritmetic a celor doi termini din mijloc.

INDICATORII VARIATIEI
O medie este reprezentativ numai atunci cnd se calculeaz din valori omogene ntre ele. Cu ct fenomenele sunt mai complexe (dependente de mai multi factori), cu att variaia este mai mare i utilizarea mrimilor medii devine insuficient. De aceea este important de cunoscut ct de departe sunt valorile sumei statistice fa de medie. Comparaia se face cu media seriei, considerat ca fiind valoarea cea mai reprezentativ pentru populaia statistic. Analiza statistic a unei repartiii poate fi aprofundat prin calculul indicatorilor de variaie. Acesti indicatori trebuie s serveasc la : - verificarea reprezentativitii mediei ca valoare tipic a unei populaii statisatice; - verificarea gradului de omogenitate a seriei; - caracterizarea statistic a formei i gradului de variaie a unui indicator; - cunoasterea gradului de influen a factorilor dup care s-a facut gruparea unitilor observate.

12

Indicatorii simpli ai variaiei.


Indicatorii simpli ai variaiei servesc la caracterizarea gradului de mpratiere a mrimilor seriei statistice. Se pot exprima att n mrimi absolute ct i n mrimi relative. Din aceasta grupa fac parte : - amplitudinea variaiei (absolut i relativ); - abaterile individuale (absolute i relative). Amplitudinea absolut se calculeaza ca diferena dintre valoarea maxim i valoarea minim al caracteristicii : Aa = xmax xmin Amplitudinea relativa se exprima de regul n procente i se calculeaz ca un raport ntre amplitudinea absolut i media aritmetic : A Ar= a 100 x Abaterile individuale absolute (di) se calculeaz ca diferena ntre fiecare valoare i media aritmetic : di = xi - x , i = 1,...,n Abaterile individuale relative (dr) se calculeaz ca raportul dintre abaterile individuale absolute i media aritmetic (se exprima n procente) : d dr = i 100 , i = 1,...,n x Gradul de variaie al unei caracteristici depinde de toate abaterile variantelor nregistrate i de frecventa lor de apariie i prin urmare indicatorii simpli ai variaiei nu pot exprima ntreaga variaie a unei populaii statistice. De aceea a fost necesar introducerea indicatorilor sintetici ai variaiei.

Indicatorii sintetici ai variaiei.


Indicatorii sintetici ai variaiei, la fel ca i indicatorii tendintei centrale trebuie s se bazeze pe toate observaiile, sa fie usor de calculat, uor de nteles i s fie ct mai puin afectai de fluctuaiile de selecie. Indicatorii sintetici ai variaiei sunt : - abaterea medie liniar ; - abaterea medie patratic; - dispersia; - coeficientul de variaie. Abaterea medie liniar se calculeaz ca o medie aritmetic simpl sau ponderat, luate n valoare absolut : Pentru o serie simpl

13

d =

| x x |
i =1 i

Abaterea medie liniar prezint dezavantajul c nu ine seama de faptul c abaterile mai mari n valoare absolut influenteaz n mai mare masur gradul de variaie a unei caracteristici, n comparaie cu abaterile mici. n plus, nu este indicat s se renune n mod arbitrar la semnul valorilor din care se calculeaz o valoare medie. Din aceste considerente se folosete ca principal indicator sintetic al variaiei abaterea medie patratic. Abaterea medie patratic sau abaterea standard () se calculeaz ca o medie patratic din abaterile tuturor elementelor seriei de la media lor aritmetic: n Acest indicator este mai concludent dect abaterea medie liniar. Prin ridicarea la ptrat se d o importan mai mare abaterilor mari n valoare absolut, acestea influennd ntr-o msura mai mare gradul de variatie al variabilelor analizate. n literatura de specialitate se apreciaz ca pentru o serie de distribuie normal abaterea medie liniar este egal cu 4/5 din valoarea abaterii medii ptratice. Abaterea medie ptratic este un indicator de baz, care se folosete la analiza variaiei, la estimarea erorilor de selecie n calculul de corelaie. La fel ca abaterea medie liniar, abaterea medie ptratic se exprim n unitatea de masur a variabilei a carei variaie o caracterizeaz. Prin urmare cei doi indicatori nu se pot folosi pentru compararea gradului de variaie i n aceasta situaie se recurge la un alt indicator de variaie : coeficientul de variaie. Coeficientul de variatie (v) se calculeaza ca un raport ntre abaterea medie ptratic i media aritmetic. De obicei se exprim sub form de procente : v = 100 x Semnificaie. Cu ct valoarea lui v este mai aproape de zero cu att variaia este mai slab, colectivitatea este mai omogen, media avnd un grad ridicat de reprezentativitate. Cu ct valoarea lui v este mai mare cu att variaia este mai intens, colectivitatea este mai eterogen, iar media are un nivel de semnificaie sczut. Se apreciaz c la un coeficient de peste 35-40%, media nu mai este reprezentativ i datele trebuie separate n serii de componente, pe grupe, n funcie de variaia unei alte caracteristici de grupare. Se poate afirma c acest indicator poate fi folosit ca un test n aplicarea metodei gruprii. Dac media aritmetic este aproape de zero, coeficientul de variaie nu are semnificaie. Dispersia ( 2 ) este media ptratelor abaterilor de la media aritmetic : =

(x

14

2 =

2 1 xi x . n

Msura dispersiei se refer la mprtierea valorilor dintr-un set de date. Media nu are semnificaie dac se aplic pe un set de date foarte dispersate. De exemplu dac lum valoarea medie a oraelor mari (peste 200.000 locuitori) va da o valoare de peste 400.000 datorit Bucuretiului care are 2.000.000. ns rezultatul nu are nici o semnificaie (nici un ora nu area aceast valoare). Msurile dispersiei, exprimate sub forma unitilor de msur ale fenomenului cercetat, nu sunt ntotdeauna utile atunci cnd se compar dispersiile a dou sau mai multe serii. Compararea dispersiilor a dou sau mai multe serii d rezultate n urmtoarele 2 situaii: a) irurile care se compar pot fi exprimate n aceleai uniti, iar mediile pot fi aceleai sau au dimensiuni aproape egale. b) irurile care se compar pot fi exprimate n aceleai uniti, ns mediile difer. Dac seriile se exprim n uniti diferite, dispersiile nu pot fi comparate direct. De aceea de multe ori se folosete abaterea medie ptratic n loc de dispersie. n unele lucrri aceast mrime se numete varian (din l. engl. variance). Variana este o msur important n special cnd se studiaz variaia a dou sau mai multe eantioane. O tehnic statistic foarte puternic este cunoscut sub numele de analiza de varian i utilizeaz dispersia pentru a decide dac un numr de eantioane difer semnificativ unul de altul.

Skewness i kurtosis
Skewness Abaterea medie ptratic i dispersia sunt indicatori care dau o msur a mprtierii valorilor ntr-o distribuie de frecven. ntr-un anume sens ele ofer o msur a limii distribuiei. Aceasta ns nu ofer nici o informaie privind caracteristicile formei distribuiei de frecven. Figura de mai jos nfieaz 6 distribuii utiliznd histograma. Aceasta reprezint un set de date care au acelai numr de valori. Pe orizontal avem o unitate de msur exprimat n abateri medii patratice (), iar pe vertical avem media aritmetic. Dup cum se observ, se poate face o comparaie direct. Aparent cele ase distribuii de frecven sunt foarte diferite. Cele din partea dreapt (b,d, i f) sunt similare dintr-un singur punct de vedere, anume ele sunt asimetrice, vrful este plasat n stnga sau dreapta mediei. Spunem c avem o distribuie distorsionat sau asimetric (skewed). Cele din stnga (a,c,e) au un grad mic de distorsiune (asimetrie). n toate cazurile vrful este n apropierea mediei. Toate acestea sunt distribuite simetric. Pe de alt parte cele dou distribuii de pe fiecare rnd pot fi considerate similare, n sensul c au un anumit grad de ascuire sau kurtosis. Cele din primul rnd sunt foarte ascuite; ele au aceleai grad de kurtosis. Cele din al doilea rnd au ascuimea mai moderat, iar cele din al treilea rnd sunt relative plate. Distorsiunea msoar, deci, volumul de valori din distribuia concentrat de o parte i de alta a mediei. Dac acest volum de valori este mai mic dect media, spunem c distribuia este pozitiv distorsionat (b). Daca exist mai multe valori mai mari dect media, spunem c distribuia este negativ distorsionat (d).

15

O distribuie perfect simetric nu are distorsiune (skewness=0). Exist mai multe metode de msurare a distorsiunii. Cea mai uzitat este formula: (x x) S= n 3
3

unde la numrtor avem deviaia cubic a valorilor fa de medie, iar este abaterea medie ptratic. Avem urmtoarele situaii: -dac S <0 avem distorsiune negativ; -dac S >0 avem distorsiune pozitiv. Skewness este un concept cu aplicaii importante n geografie deoarece foarte multe variabile n geografie au o distribuie accentuat distorsionat. Cu alte cuvinte distribuia de frecven seamn foarte mult cu cele nfiate n b,d sau f.

16

n al doilea rnd ali indicatori cum ar fi media sau dispersia pot conduce la interpretri greite dac se folosesc izolat. Kurtosis Kurtosis d o msura a extinderii nspre valorile care sunt concentrate ntr-o parte a distribuiei de frecven. Dac o clas ntr-o distribuie de frecven conine o foarte mare parte din valorile din distribuie, atunci distribuia prezint un mare grad de kurtosis, iar forma este mai ascuit. ntr-o distribuie cu un grad mic de kurtosis (distribuie plat) fiecare clas conine o proporie similar din toate valorile. Formula folosit pentru k este : (x x) K= n 4
4

Pentru distribuia normal avem K=3, pentru o distribuie ascuita K>3, iar pentru o distribuie plat K<3. Din pcate acest indicator nu este folosit n studii geografice asa cum ar fi de dorit. Ca i distorsiunea K ofer informaii preioase asupra distribuiei unui set de date suplimentare celor date de medie i dispersie. Trebuie remarcat faptul ca multe variabile statistice ntlnite n geografie au o distorsiune mare dar i un K mare (>3). Cnd se aplic acestor variabile media aritmetica i dispersia, acestea pot conduce la informaii eronate. Mai mult n aceste condiii datele nu prezint o distribuie normal astfel c nu pot fi aplicate testele parametrice.

17