Sunteți pe pagina 1din 42

Statistic urban

Recapitularea noiunilor de statistic. Clarificarea problemelor.

Cursul 7. Statistic urban


Coninut:
Recapitularea

noiunilor de statistic urban Clarificarea problemelor

Scopul statisticii. Populaii i eantioane

Statistica are ca scop studiul unei mulimi de observaii efectuate asupra unei mulimi de obiecte de aceeai natur, denumite uniti statistice i care prezint caracteristici variabile (numite simplu variabile) susceptibile de a fi clasate, ordonate sau msurate. Mulimea acestor obiecte se numete serie statistic sau ir statistic (Dragomirescu L., op. cit.).

Populaii i eantioane

Mulimile de uniti statistice sunt de dou tipuri:

Populaiile statistice sunt mulimi de uniti statistice (obiecte, indivizi, fenomene, evenimente, idei, opinii, numere etc.) la care se limiteaz interesul cercettorilor. Sunt foarte mari, majoritatea fiind infinite, i de aceea studiul lor exhaustiv nu este economic sau este imposibil. Eantioanele sunt submulimi ale populaiilor statistice considerate pentru a obine informaii despre populaiile respective (Dragomirescu L., op. cit.).

Statistic descriptiv i inductiv (inferenial)

Statistica descriptiv

Sintetizeaz grafic i numeric informaia culeas exhaustiv dintro populaie statistic Descrie fr s explice esenialul din date Se realizeaz prin sinteze grafice i numerice, n care se renun la o parte din informaie pentru a ctiga n relevan paradigma central a statisticii, dup P. Benzecri Cuprinde: teoria eantionajului, teoria estimaiei, verificarea ipotezelor statistice i planificarea experimentelor Este o cercetare selectiv, prin eantioane Are ca obiectiv obinerea unui maximum de informaie asupra populaiei cu un minimum de efort mbuntirea reprezentativitii eantioanelor (Dragomirescu L., op. cit.)

Statistica inductiv sau inferenial


Inferen statistic

Studiile efectuate asupra populaiilor de ctre statistica descriptiv produc rezultate certe, iar cele efectuate asupra eantioanelor de ctre statistica inductiv/inferenial produc rezultate incerte. Exprimarea tiinific a gradului de incertitudine este fcut n statistica inductiv prin inferen statistic. Inferena statistic reprezint extrapolarea judecilor obinute pe eantioane (prelevate prin anumite procedee statistico-matematice) la populaiile statistice din care au fost extrase (Dragomirescu L., op. cit.).

Inferen statistic (continuare)

Tentativa de a explica una sau mai multe observaii tiinifice se numete ipotez tiinific. Pentru a fi susinute au nevoie de seturi de date (observaii, experimente) i de o susinere statistic. Ipotezele statistice sunt afirmaii privind una sau mai multe populaii statistice pentru verificarea ipotezelor tiinifice. O ipotez statistic este format dintr-o ipotez nul (formulat de regul sub forma nu exist diferene) i o ipotez alternativ care o contrazice i care corespunde ipotezei tiinifice (Dragomirescu L., op. cit.). n urma aplicrii unui test statistic, se respinge ipoteza nul dac au fost detectate diferene semnificative sau nu, n caz contrar. Diferenele semnificative sunt att de mari (comparate cu un nivel de semnificaie notat cu a), nct ele nu pot fi atribuite fluctuaiilor datorate extragerii aleatoare a eantioanelor, ci provin dintr-un motiv semnificativ, mai exact cel precizat de ipoteza tiinific. De remarcat faptul c n statistica inductiv ipoteza nul nu este acceptat dac nu au fost detectate diferene semnificative (Dragomirescu L., op. cit.).

Probabilitate obiectiv i subiectiv.


Probabilitatea poate fi obiectiv sau subiectiv. Probabilitatea obiectiv are dou definiii:

Definiia clasic: raportul dintre numrul de cazuri favorabile producerii unui eveniment i numrul total de cazuri.

Aceast probabilitate poate fi calculat nainte de producerea unui eveniment se numete probabilitate a priori sau teoretic.

Definiia empirist (von Mieses): numrul spre care tinde s se stabilizeze frecvena relativ a evenimentului respectiv pe msur ce evenimentul se repet de un numr ct mai mare de ori.

Este o probabilitate a posteriori.

Probabilitatea subiectiv reprezint o codificare subiectiv de informaii efectuat de o persoan interesat de a o evalua traducerea bunului sim n cifre (Dragomirescu L., op. cit.)

Tipuri de scale

Dac A i B sunt dou uniti statistice, iar x o variabil cu caracteristicile xA i xB,


Scala nominal realizeaz doar o distincie: xA = xB sau xA xB. Scala ordinal are n plus o ordine. Dac xA xB, atunci xA > xB sau xA < xB. Scala de intervale egale are n plus o msur semnificativ a diferenei dintre dou valori. Dac xA > xB, atunci spunem c A este mai mare dect B cu xA xB. Scala de proporii egale are n plus un zero absolut, implicit i o msur semnificativ a proporiei dintre dou valori. Astfel, putem spune c A este mai mare dect B de xA / xB ori (Dragomirescu L., op. cit.).

Clasificarea variabilelor i seriilor statistice

Clasificarea grosier Variabile calitative cele de pe scala nominal. Prezint variante care se claseaz. Variabile cantitative cele de pe scalele ordinal, de intervale egale sau de proporii egale. Prezint valori care se ordoneaz sau se msoar (Dragomirescu L., op. cit.). Clasificarea de lucru (Dragomirescu L., op. cit.) Variabile calitative cele de pe scala nominal, inclusiv cele binare Variabile tip rang cele de pe scala ordinal Variabile tip msurtoare/dimensiuni cele de pe scalele interval sau raport Clasificarea seriilor statistice O prim clasificare, n funcie de exhaustivitatea datelor, a fost deja studiat. Aceasta mparte seriile statistice n populaii i eantioane statistice. n funcie de numrul de variabile luate n consideraie simultan, seriile statistice pot fi univariate, bivariate sau multivariate.

Sinteza grafic univariat

Sinteza grafic univariat se face pentru evidenierea intuitiv i aproximativ a aspectelor de variabilitate dintr-o serie statistic n dou etape: Construirea tabelelor statistice simple/cu simpl intrare Reprezentri grafice adecvate tipului de variabil (Dragomirescu L., op. cit.) Sinteza grafic n tabele statistice se poate face prin: Grupare fr pierdere de informaie tabelele conin distribuiile de frecvene ale variantelor sau valorilor Grupare cu pierdere de informaie tabelele conin distribuiile de frecvene ale claselor sau intervalelor de grupare Distribuii de frecvene O distribuie de frecvene conine aceeai informaie ca i seria din care provine, dar este mai intuitiv O distribuie de frecvene grupate conine mai puin informaie dect seria din care provine, dar este mai relevant (Dragomirescu L., op. cit.)

Distribuii de frecvene. Sintez grafic univariat

Distribuii de frecvene

Numrul de apariii ale fiecrei variante/valori distincte este numit frecvena absolut a variantei/valorii respective. Proporia reprezentat de frecvena relativ din volumul irului este numit frecvena relativ a variantei/valorii respective.

Numrul total de valori este numit volumul irului i notat N. Sinteza grafic univariat se realizeaz prin diferite instrumente n funcie de tipul variabilelor. Pentru variabilele calitative se recomand diagramele circulare, pentru cele tip rang se recomand diagramele n batoane sau poligoanele sau curbele de frecvene, iar pentru variabilele tip msurtoare se recomand diagramele n batoane, poligoanele sau curbele de frecvene i, n special, histogramele (Dragomirescu L., op. cit.).

Reprezentri grafice

Se numete diagram n batoane reprezentarea cartezian plan n care pe axa orizontal sunt marcate variantele sau valorile, fiecreia dintre acestea corespunzndu-i pe vertical o coloan de nlime proporional cu frecvena corespunztoare. Se numete diagram circular cercul format din sectoare pentru fiecare variant sau valoare, astfel nct unghiul, respectiv aria fiecrui sector s fie proporional() cu frecvena respectiv.
Se numete histogram reprezentarea cartezian plan a unei distribuii grupate (n care se specific valorile i frecvenele acestora), format din dreptunghiuri alipite, cu bazele plasate pe intervalele de grupare i cu ariile proporionale cu frecvenele claselor.

Histograma: reguli de grupare

Exist doar reguli empirice de grupare (Dragomirescu L., op. cit.):


Grupm doar serii cu volume mai mari sau egale cu 50 n funcie de autor, grupm n: 20-40, 10-15, 8-20, 15-25 sau 8-15 intervale Intervalele de grupare pot fi egale sau inegale n cazul intervalelor egale, se folosete formula lui Sturges: nc 1 + 10 / 3 log10N, unde N este volumul seriei Valoarea nc se rotunjete la un numr ntreg convenabil. Lungimea intervalului de clas, ic, este: ic = (xmax xmin) / nc, unde xmax i xmin sunt valoarea maxim, respectiv minim din seria respectiv. ic se rotunjete la un numr ntreg convenabil (Dragomirescu L., op. cit.).

Piramida populaiei (pe vrste i sexe)

n demografie, volumele celor dou sexe (m / f) pe vrste sau grupe de vrst dintr-o populaie uman sunt reprezentate prin dou histograme cu bazele reprezentnd vrsta alipite pe vertical. Datorit faptului c odat cu naintarea n vrst, generaiile scad ca volum din cauza mortalitii, reprezentarea are aspectul unei piramide numit piramida vrstelor (Dragomirescu L., op. cit.). n dreapta: structura populaiei Romniei pe vrste i sexe la recensmntul din 18 martie 2002

Reprezentri grafice (continuare)

n funcie de forma acesteia, se disting 3 tipuri: (1) baza ngustat indic o populaie n declin, fenomen denumit i cretere negativ sau mbtrnirea populaiei volumul total este n scdere; (2) forma ideal a piramidei indic o populaie n echilibru staionar volumul total rmne constant (3) baza lrgit indic o populaie n cretere prin ntinerire volumul total este n cretere (Dragomirescu L., op. cit.).

Reprezentri grafice (continuare)

Se numete poligon de frecvene linia frnt format din segmentele care unesc mijloacele laturilor din vrfurile coloanelor consecutive figurate n diagrama prin batoane, fr a mai reprezenta i coloanele, sau mijloacele laturilor superioare ale dreptunghiurilor prin care sunt reprezentate clasele sau intervalele de grupare n histograme, fr a reprezenta i dreptunghiurile. Poligoanele de frecvene se construiesc astfel:

Se pornete de la construcia unei diagrame prin batoane sau a unei histograme i se aleg centrele intervalelor, respectiv mijloacele laturilor superioare ale dreptunghiurilor prin care sunt reprezentate clasele sau intervalele de grupare (majoritatea programelor le evideniaz) Pentru poligoanele de frecvene, se unesc mijloacele bazelor superioare ale batoanelor care compun diagrama prin batoane (corespunznd centrelor intervalelor) Pentru histograme, se unesc mijloacele laturilor superioare ale dreptunghiurilor prin care sunt reprezentate clasele sau intervalele de grupare.

Reprezentri grafice (continuare)


Poligoanele de frecvene tind odat cu creterea preciziei i a numrului de msurtori ctre o curb neted numit curb de frecvene (Dragomirescu L., op. cit.). Curbele de frecvene se strvd n spatele diagramelor prin batoane, histogramelor sau poligoanelor de frecvene i nu se obin direct, ci prin creterea numrului de observaii sau a preciziei. Aceste curbe sunt curbe teoretice. Exist programe care netezesc poligoanele de frecvene. Se obin astfel curbe care sunt, de fapt, o form convenional de reprezentare a poligoanelor de frecvene, i pot eventual sugera aspectul curbelor teoretice. Curbele obinute prin netezirea poligoanelor de frecvene sunt mai intuitive, dar curbele teoretice sunt mai relevante.

Curba erorilor de msurare aleatoare

Curba erorilor de msurare ntmpltoare, curba erorilor de msurare aleatoare sau curba lui Gauss forma de clopot ilustreaz urmtoarele aspecte: Marea majoritate a msurtorilor au valori apropiate de centrul distribuiei (care este, cel mai probabil, valoarea corect sau real) Numrul msurtorilor care se abat de la centru scade odat cu creterea abaterii de la centru Numrul msurtorilor cu o anumit abatere pozitiv este relativ egal cu numrul msurtorilor cu aceeai abatere, dar de semn negativ (Dragomirescu L., op. cit.). Procesul de msurare este afectat de dou tipuri de erori: Erori aleatoare, care sunt mici, se produc n ambele sensuri i se compenseaz reciproc Erori sistematice, grosolane, care se produc sistematic n acelai sens i produc o deplasare sistematic a valorii cutate (Dragomirescu L., op. cit.).

Limbajul repartiiilor

Limbajul repartiiilor

De ce grupm?

Pentru a ctiga n relevan. Pentru a sesiza una dintre urmtoarele forme:


Distribuie simetric sau asimetric Distribuie uor asimetric de stnga i de dreapta Distribuie extrem asimetric de stnga (i) i de dreapta (j) Distribuii bi i multimodale decuparea lor Distribuie n u Distribuie uniform

Pentru ce grupm?

Limbajul repartiiilor (continuare)

Interpretare Distribuiile concentrate ntr-un punct exprim omogenitate absolut. Distribuiile simetrice exprim cel mai bine o tendin central. Distribuiile bi sau multimodale exprim eterogenitate ca amestec de distribuii omogene Distribuiile uniforme exprim eterogenitate absolut. Consecine Distribuiile multimodale vor fi decupate n distribuii unimodale, care vor fi analizate separat Distribuiile asimetrice vor fi transformate n distribuii simetrice cu ajutorul unor instrumente matematice (Dragomirescu L., op. cit.).

Sintez numeric univariat

Sinteza numeric univariat se face pentru evidenierea obiectiv i exact a aspectelor eseniale ale variabilitii unei serii statistice, perceput ca mprtiere n jurul unei tendine centrale. Paradigma central a statisticii (n special descriptive) este renunarea la o parte din informaie pentru ctig n relevan. Condiiile lui Yule asupra unui indicator de tendin central

1. S fie definit n mod obiectiv, indiferent de aprecierea subiectiv a cercettorului; 2. S fie expresia tuturor termenilor seriei; 3. S posede proprieti simple, evidente, al cror sens general poate fi uor neles; 4. S poat fi calculat rapid i cu uurin; 5. S se preteze uor la calcule algebrice ulterioare; 6. S fie afectat ct mai puin de valorile extreme, n particular de cele aberante.

Indicatori de tendin central media

Media aritmetic se noteaz cu M i se calculeaz folosind una dintre formulele:

unde N este numrul total de observaii Xj i p ( N) numrul de observaii distincte Xi, iar fi este frecvena relativ a valorii Xi.

Proprietile mediei

Dup Dragomirescu L., op. cit.


Proprieti negative 1. Este relativ dificil de calculat manual; 2. Este sensibil la valorile aberante.

Proprieti pozitive 1. Media unei serii poate fi exprimat ca o medie a mediilor subseriei proprietatea de aditivitate; 2. Se preteaz la calcule algebrice ulterioare; 3. Ia n considerare toate valorile seriei, cu ntreaga lor informaie.

Mediana

Mediana se noteaz cu Me i este:

punctul care mparte aria de sub curba de frecvene n 2 arii egale

o valoare care mparte seria statistic ordonat n 2 subserii de volume egale, msurate ca numr de uniti statistice sau fraciuni ale acestora (Dragomirescu L., op. cit.)

Calculul medianei

Calculul medianei

Media de via

n cazul unei serii cu N = 2k + 1 valori (numr impar), mediana este valoarea Xk+1 din seria ordonat. n cazul unei serii cu un numr par de valori N = 2k, prin convenie mediana este media aritmetic (semisuma) valorilor Xk i Xk+1 (Dragomirescu L., op. cit.).
Mortalitatea populaiei n funcie de vrst pe o curb de frecvene are

o median care reprezint vrsta pn la care au murit 50% din indivizii populaiei respective, i care se numete media de vrst a populaiei. Calculul acesteia reprezint o situaie de excepie n care se calculeaz un indicator de tendin central pentru o distribuie multimodal (Dragomirescu L., op. cit.).

Proprietile medianei

Dup Dragomirescu L., op. cit. Proprieti negative 1. Nu se preteaz la calcule algebrice.

Proprieti pozitive 1. Este relativ uor de calculat; 2. Exprim cel mai bine tendina central (n special la distribuii asimetrice); 3. Nu ia n considerare valorile seriei (le trateaz ca ranguri), ci doar ordinea lor renun la o parte din informaie pentru ctig n relevan; 4. Nu este sensibil la valorile aberante; 5. Poate fi calculat i dac nu se cunosc toate valorile seriei; 6. Este element al irurilor cu un numr impar de termeni; 7. Poate fi determinat prin comparaii i ordonare, nefiind nevoie s fie efectuate toate msurtorile.

Moda

Moda este:

un punct de maxim local n cazul unei curbe de frecvene valoarea cu frecvena maxim local n distribuia de frecvene (Dragomirescu L., op. cit.).

Proprieti pozitive

Proprieti negative

1. Nu este sensibil la valorile aberante. 2. Induce clasificarea distribuiilor n uni , bi i multimodale

1. Nu se preteaz la calcule algebrice.

Indicatori de preferin ntre indicatorii de tendin central, dup Steinbach


1. Moda unic indic omogenitatea; n absena omogenitii nu au sens indicatorii de tendin central. 2. O distribuie simetric cere o medie dac va fi supus ulterior unor prelucrri statistice. 3. Pentru o orientare rapid la o serie mare se folosete moda. 4. Pentru considerarea tuturor valorilor se folosete media. 5. Pentru a face abstracie de valorile extreme sau aberante se folosesc mediana i/sau moda. 6. Pentru o serie de volum redus se prefer mediana, pentru c moda nu se vede. 7. Mediana este indicatorul cel mai sugestiv de tendin central pentru toate distribuiile unimodale, n special pentru cele asimetrice. 8. Dac se cunosc doar rangurile valorilor se folosete mediana.

Indicatorii de mprtiere

Indicatorii de mprtiere se bazeaz pe: indicatorii de tendin central dispersia, abaterea standard i coeficientul (procentual) de variaie indicatorii de tendin extrem amplitudinea Dispersia se noteaz cu S2 i se calculeaz folosind una dintre formulele:

unde M este media aritmetic, N este numrul total de observaii Xj i p ( N) numrul de observaii distincte Xi, iar fi este frecvena relativ a valorii Xi (Dragomirescu L., op. cit.). Numrtorul dispersiei se numete varian.

Proprietile dispersiei

1. S2 0 (egalitate doar pentru serii constante) 2. Permite compararea (Dragomirescu L., op. cit.):

variabilitii unui caracter n n 2 populaii, dac datele au acelai ordin de mrime (i medii apropiate) a n 2 caractere ale aceleiai populaii dac se folosesc aceleai uniti de msur i datele au acelai ordin de mrime (i medii apropiate)

Proprieti pozitive 1. ine cont de toate valorile din cadrul seriei; 2. Numrtorul expresiei ndeplinete o proprietate de aditivitate.

Proprieti negative 1. Este sensibil la valorile aberante; 2. Are alt ordin de mrime fa de datele iniiale i medie i se exprim n ptratul unitii de msur a datelor.

Abaterea standard

Abaterea standard se noteaz cu S i este rdcina ptrat a dispersiei. Proprieti (Dragomirescu L., op. cit.) 1. S 0 (egalitate doar pentru serii constante) 2. Permite compararea:

variabilitii unui caracter n n 2 populaii, dac datele au acelai ordin de mrime (i medii apropiate) a n 2 caractere ale aceleiai populaii dac se folosesc aceleai uniti de msur i datele au acelai ordin de mrime (i medii apropiate) Proprieti negative 1. Este sensibil la valorile aberante; 2. Are acelai ordin de mrime fa de datele iniiale i medie i se exprim n unitatea de msur a datelor.

Proprieti pozitive 1. ine cont de toate valorile din cadrul seriei. 2. ndeplinete o proprietate de aditivitate.

Coeficientul (procentual) de variabilitate

Coeficientul (procentual) de variabilitate, notat cu CV, reprezint procentul reprezentat de abaterea standard S din media M:

Proprieti

1. CV% 0 (deoarece S 0 i, pentru c msurtorile se situeaz pe o scar raport, M > 0). CV=0 dac i numai dac S=0, adic irul este constant. 2. Permite compararea:

variabilitii unui caracter n n 2 populaii, dac datele au ordine de mrime (i medii) diferite a n 2 caractere ale aceleiai populaii dac se folosesc uniti de msur diferite sau aceleai uniti de msur, dar datele au ordine de mrime diferite (Dragomirescu L., op. cit.)

Coeficientul (procentual) de variabilitate (continuare)


Proprieti pozitive 1. Poate fi utilizat i n cazurile recomandate pentru dispersie sau abaterea standard, deci este indicatorul universal de comparare a variabilitii pentru variabile pe scara raport; 2. Numrtorul expresiei ndeplinete o proprietate de aditivitate; 3. Este independent de unitatea de msur folosit pentru valorile seriei, fiind adimensional. Proprieti negative 1. Este sensibil la valorile aberante; 2. Este valabil doar pentru msurtorile pe scar raport, nu i interval.

Reguli empirice referitoare la coeficientul (procentual) de variaie

CV% < 10% populaie omogen CV% > 30% populaie eterogen 10% < CV% < 20% populaie relativ omogen sau chiar omogen, n funcie de variabil 20% < CV% < 30% populaie relativ eterogen (Dragomirescu L., op. cit.)

Amplitudinea

Reprezint diferena dintre valoarea maxim i valoarea minim dintr-o serie (Dragomirescu L., op. cit.):

A = Xmax Xmin Proprieti negative 1. Consider doar valorile extreme; 2. Este sensibil la valorile aberante; 3. Nu este sensibil la alte valori dect cele aberante. 4. Nu se preteaz la calcule algebrice.
(Dragomirescu L., op. cit.)

Proprieti pozitive 1. Ofer o imagine general asupra mprtierii.

Valori aberante

Sunt sensibile la valorile aberante:


Media Dispersia Abaterea standard Coeficientul (procentual) de variaie Amplitudinea

Prin urmare, aceste valori trebuie eliminate dac dorim s folosim aceti indicatori (i dorim, datorit proprietilor matematice, de exemplu aditivitatea). Pentru a le elimina, este necesar identificarea lor.

Distribuia normal

Se mai numete curba erorilor de msurare ntmpltoare, curba erorilor de msurare aleatoare sau curba lui Gauss. Forma de clopot ilustreaz urmtoarele aspecte:

Marea majoritate a msurtorilor au valori apropiate de centrul distribuiei (care este, cel mai probabil, valoarea corect sau real) Numrul msurtorilor care se abat de la centru scade odat cu creterea abaterii de la centru Numrul msurtorilor cu o anumit abatere pozitiv este relativ egal cu numrul msurtorilor cu aceeai abatere, dar de semn negativ (Dragomirescu L., op. cit.).

Distribuia normal (continuare)


Este o distribuie unimodal i simetric, cu dou cozi care tind asimptotic ctre infinit. Este caracterizat de doi parametri: media m abaterea standard s Are dou puncte de inflexiune situate simetric fa de verticala x = m la distana s, respectiv x + s i x s. M = Me = Mo = m. m poate fi orice numr real, iar s orice numr real pozitiv, deci exist o infinitate de distribuii normale. Distribuia normal de medie m i abatere standard s se noteaz: N(m, s).

Distribuia normal standard

Dac m = 0 i s = 1, avem de-a face cu distribuia normal N(0, 1), care se numete distribuia normal standard. Se obine o distribuie normal standard dac pentru distribuia normal N(m, s) se aplic simultan transformrile:

Transformarea z = (x m) / s se numete standardizare, iar rezultatul scor z (Dragomirescu L., op. cit.).

x' = x m (centrare) x" = x' / s (reducere), sau x" = (x m) / s,

Regula 3 sigma de eliminare a valorilor aberante


Pentru serii de volum mare (N > 30) se utilizeaz regula 3 sigma de eliminare a valorilor aberante. Regula se bazeaz pe:

inegalitatea lui Cebev: orice distribuie se ntinde ntre media sa plus / minus 6 abateri standard, faptul c aria cuprins ntre media unei distribuii normale plus / minus 3 abateri standard reprezint cca. 99,7% din aria total. Valorile situate n afara acestor limite sunt improbabile sau aberante, i neglijabile.

Aplicarea regulii presupune existena unei distribuii normale a datelor / fenomenului. Dac acest lucru nu este cunoscut, se aplic regula 6 sigma (Dragomirescu L., op. cit.).

ntrebri

Atept ntrebri.