Sunteți pe pagina 1din 13

CE ESTE STATISTICA

•Statistici – numere, grafice, tabele etc.

•Statistica – stiinta, disciplina de studiu

• Statistica : culegere,prelucrare, analiza, interpretare a datelor

Statistica este o modalitate de obtinere a informatiilor din date studiind colectivitati/populatii mari

•Colectivitati mari – variatie

Statistica pune in evidenta caracteristici/proprietati stabile- legi statistice/stochastice

•Lege statistica – poate fi aplicata doar la nivelul intregii colectivitati.

•Stochastic vs deterministic

Descriptiv vs Inferential

•Statistica descriptiva – implica sistematizarea gruparea,calculul unor indicatori derivati, prezentarea


rezultatelor pentru a obtine informatii suport pentru decizii

•Metodele Statisticii descriptive

●Grafice

●Indicatori descriptivi numerici.

•Metodele pot fi utilizate

●La nivel de populatie

●La nivel de esantion

Statistica inferentiala– un set de proceduri folosite pentru a face predictii referitoare la o populatie
studiind proprietatile unei parti a populatiei ( esantion)

POPULATIE – totalitatea elementelor supuse cercetarii statistice


•ESANTION - o parte a populatiei selectata pentru studiu

•PARAMETRU – indicator la nivelul populatiei

•STATISTICA/ESTIMATOR – indicator la nivelul esantionului

Concepte de bază utilizate în statistică

POPULAŢIA STATISTICĂ (colectivitate generală)= totalitatea elementelor de aceeaşi natură care au


trăsături esenţiale comune şi care sunt supuse unui studiu statistic.

➢Termenul de populaţie se referă o colectivitate de obiecte, persoane, păreri, gânduri, evenimente,


opinii etc.

➢O colectivitate devine, în general, finită, prin delimitarea sa în timp, spaţiu şi ca formă


organizatorică.

➢Unele colectivităţi, deşi finite, sunt atât de numeroase, încât pot fi considerate infinite.

•EŞANTIONUL (colectivitate parţială, colectivitate de selecţie)= submulţimea de elemente selectate


dintr-o colectivitate statistică.

•UNITATEA STATISTICĂ = elementul constitutiv al unei colectivităţi statistice care este purtătorul unui
nivel al fiecărei caracteristici supuse observării şi cercetării statistice.

➢Unitatea statistică trebuie definită clar pentru a face posibilă atât identificarea ei exactă, cât şi
înregistrarea datelor.

➢Unităţile statistice pot fi simple sau complexe. Unităţile complexe sunt rezultate ale organizării
sociale ori economice a colectivităţii statistice (exemplu: familia).

VARIABILA (CARACTERISTICA) STATISTICĂ = trăsătura, proprietatea, însuşirea comună tuturor


unităţilor unei colectivităţi şi care variază, ca nivel, variantă sau valoare, de la o unitate a colectivităţii
la alta. Este denumită şi variabilă .

●Variabilele statistice sunt CALITATIVE şi CANTITATIVE

➢Caracteristicile calitative (nenumerice) oferă răspunsuri categoriale la întrebari de tipul:

„Aveţi asigurare de viaţă?” (variantele de răspuns sunt limitate la „da” şi „nu”)


„Ce ziar cotidian cumpăraţi în mod frecvent?” (sunt mai multe variante de răspuns)

➢Caracteristici cantitative (numerice) oferă răspunsuri sub formă de valori numerice la întrebări de
tipul

„Ce înălţime aveţi?”

„La câte ziare sunteţi abonat?”

●Variabilele cantitative pot fi de tip continuu sau discret

➢Datele discrete sunt răspunsuri numerice care apar în urma unui proces de numărare (date a căror
variaţie se manifestă prin salturi, pot lua doar anumite valori pe scara lor de variaţie care este o
submulţime a mulţimii numerelor întregi).

numărul de copii pe care îi are o familie

numărul de oraşe dintr-un judeţ

numărul de abonamente la ziare

➢Datele continue sunt răspunsuri numerice care apar în urma unui proces de măsurare (date care
pot lua orice valoare din scara lor de variaţie care este un interval de numere reale).

greutatea unei persoane

cifra de afaceri a unei firme

rata şomajului la nivel de judeţ

înălţimea unei persoane

➢În practică, continuitatea unor variabile poate să fie limitată de precizia măsurătorilor (exemplu:
vârsta în ani împliniţi). Unele variabile, deşi discrete, au salturile discontinuităţii atât de mici în raport
cu ordinul de mărime al lor, încât pot fi considerate continue (exemplu: populaţia unei ţări).

Variabilele statistice sunt, în funcţie de numărul variantelor de răspuns, alternative (binare) sau
nealternative

➢Variabilele alternative sunt acelea care pot avea două variante de răspuns, după modelul
adevărat/fals din logică:

sex (M/F),

stagiul militar (efectuat/neefectuat),

mediul de rezidenţă (urban/rural);

➢Variabilele nealternative sunt cele care pot lua mai multe valori/variante de răspuns:
salariu,

profesie,

cifră de afaceri,

categorie de confort hotelieră etc.

➢O caracteristică nealternativă poate fi transformată într-una alternativă, printr-un proces de


dihotomizare: salariul până la 4000 lei/peste 4000 lei.

DATELE STATISTICE pot fi clasificate:

A) După numărul de variabile cu care caracterizăm o unitate statistică:

●Datele univariate se referă la o singură variabilă statistică, adică înregistrăm o singură valoare
pentru fiecare unitate statistică.

Metodele statistice vor fi folosite pentru:

- sistematizarea datelor,

- analiza trăsăturilor esenţiale ale setului de date (tendinţa centrală)

- analiza variabilităţii datelor

- analiza distribuţiei valorilor observate în raport cu valorile tipice determinate.

●Datele bivariate sunt cele care se referă la două variabile statistice şi pentru fiecare unitate
statistică din colectivitate avem exact câte două valori.

Metodele statistice vor fi folosite pentru a caracteriza separat datele pentru fiecare variabilă (ca în
cazul datelor univariate), dar şi pentru a studia legătura, dependenţa dintre cele două variabile
considerate.

●Datele multivariate sunt cele care se referă la trei sau mai multe variabile statistice, obţinând deci
câte trei sau mai multe valori pentru fiecare unitate statistică din colectivitatea studiată.

Deşi sunt multivariate, datele pot fi analizate separat (pentru fiecare variabilă), sau în
interdependenţă unele cu altele.

Pentru angajaţii unei firme, salariul, sexul, vechimea, profesia reprezintă un set de date
multivariate, ce pot fi folosite în explicarea diferenţelor dintre venituri.

B) Din punct de vedere cronologic în:

●Datele de tip profil (date de tip secvenţă sau de tip secţiune) reprezintă rezultatul unor măsurători
efectuate la un anumit moment dat de timp asupra uneia sau mai multor variabile de interes pentru
populaţia studiată.
Acest tip de date constituie „tăieturi informaţionale” transversale în raport cu axa timpului (adică
nu includ influenţa timpului asupra caracteristicilor studiate), efectuate într-o populaţie statistică la
un moment dat.

Numărul observaţiilor concide, în acest caz, cu numărul unităţilor statistice din colectivitatea
studiată.

●Datele de tip serii de timp (serii cronologice) reprezintă rezultate ale unor măsurători efectuate
asupra caracteristicilor unităţilor populaţiei studiate, la momente succesive sau la anumite intervale
de timp.

Aceste date sunt clasificate în date de tip stoc sau de tip flux şi reprezintă secţiuni informaţionale
longitudinale în raport cu axa timpului.

●Datele de tip panel sunt combinaţii ale datelor de tip profil şi serii de timp.

Aceste date reprezintă rezultate ale măsurătorilor efectuate asupra caracteristicilor unităţilor
statistice dintr-un panel (eşantion fix), la anumite momente succesive de timp. Se obţin astfel,
tăieturi informaţionale transversale şi longitudinale în raport cu axa timpului, trăsătura principală a
acestor date fiind simultaneitatea.

FRECVENŢA DE APARIŢIE a unei variante/valori reprezintă numărul de apariţii al acestei


variante/valori în colectivitate.

•STATISTICA DESCRIPTIVĂ poate fi definită ca totalitatea metodelor de culegere, prezentare şi


caracterizare a unui set de date, în scopul de a descrie principalele trăsături ale setului de date.

•STATISTICA INFERENŢIALĂ poate fi definită ca totalitatea metodelor ce permit estimări, luarea unor
decizii, realizarea unor previziuni sau alte generalizări pentru colectivitatea generală, pe baza
rezultatelor obţinute pe un eşantion.

•PARAMETRUL STATISTIC reprezintă un indicator statistic descriptiv calculat pentru o colectivitate


totală (generală). Indicatorul statistic ce este calculat într-un eşantion şi pe baza căruia se estimează
parametrul colectivităţii generale se numeşte statistică.

•ESTIMATORUL reprezintă un indicator statistic calculat pe un eşantion care reprezintă aproximarea


valorii adevărate şi necunoscute a unui parametru ce caracterizează colectivitatea generală.

Măsurarea in statistica. Tipuri de scale

●Prelucrarea statistică ţine cont de tipul datelor şi de scala pe care acestea sunt măsurate.

●Toate datele statistice colectate sunt transpuse pe o scală de măsurare

●Măsurarea presupune, în anumite cazuri, asocierea unor numere variantelor/valorilor variabilei de


interes

●Indicatorii statistici calculaţi pentru o variabilă depind de nivelul de scalare utilizat.

●Patru niveluri de măsurare sunt utilizate (de la cea mai slabă la cea mai puternică:

•scala nominală,
•scala ordinală

•scala de interval

•scala de raport.

●Prelucrarea datelor statistice se va face în mod distinct, în funcţie de gradul de „rafinament” al


scalei.

SCALA NOMINALĂ (de clasificare sau scala denumirilor) este utilizată pentru măsurarea variabilelor
de tip nenumeric (calitativ) .

●Ea clasifică subiecţii în grupe ai căror membri diferă după caracteristica scalară (nenumerică), fără
să implice existenţa unei gradări sau distanţe între grupe.

●Numerele ataşate unor observaţii reprezintă eticheta categoriei respective.

●Scala nominală oferă cea mai slabă formă de măsurare, deoarece nu se pot determina diferenţe
între clase şi nici nu se poate face o ordonare între categorii.

●Exemple: ocupaţia, sexul, statutul marital, tipul de asigurare etc.

●Deşi variantele sunt convertite în numere, caracteristicile rămân de tip nenumeric, calitativ şi orice
prelucrare aritmetică este lipsită de sens.

Presupunem că pentru variabila „ocupaţia”, s-au stabilit variantele de răspuns codificate: actor – 1,
muncitor – 2, inginer – 3, economist – 4, şi 10 persoane au fost întrebate ce ocupaţie au,
înregistrându-se variantele: 3; 1; 3; 4; 4; 2; 4; 3; 2; 2. Media acestor valori este 2,8 – valoare lipsită
complet de semnificaţie. Tot ceea ce putem face cu aceste date este să numărăm de câte ori apare
fiecare variantă de răspuns şi să calculăm (în acest exemplu) proporţia persoanelor care se
încadrează în fiecare categorie ocupaţională.

SCALA ORDINALĂ este utilizată pentru măsurarea variabilelor de tip nenumeric (calitativ) ale căror
variante de răspuns pot fi ordonate.

●Unităţile pot fi înşiruite una relativ cu cealaltă şi se poate realiza, astfel, o ierarhizare, dar distanţa
între numerele acordate nu este obligatoriu egală.

●Numerele pe scala ordinală nu reprezintă intervale egale pe scala de măsurare.

SCALA DE INTERVALE (sau cardinală) este prima scală numerică, ce foloseşte unităţi de măsurare
egale.

●Permite nu numai interpretarea ordinii notărilor pe scală, dar şi a diferenţelor dintre ele.

●În plus, faţă de scala nominală şi cea ordinală, intervalele dintre categoriile de pe scală sunt
presupuse a fi egale.
●O caracteristică a scalei de interval este absenţa unui punct zero absolut.

●Pe scala de interval, numerele stabilite pe scală sunt arbitrare. Chiar dacă unui punct de pe scală i se
atribuie valoarea „0“, acest lucru nu reprezintă absenţa absolută a caracteristicii măsurate.

Punctul „0“ pe scala de temperatură Celsius sau Fahrenheit ilustrează acest lucru.

●Judecăţi comparative ca „de două ori mai mult”, „de patru ori mai puţin” etc. nu pot fi făcute
pentru compararea valorilor specifice măsurate pe o scală de interval.

●Nu are sens multiplicarea sau divizarea valorilor.

SCALA DE RAPORT (proporţională) se utilizează pentru măsurarea variabilelor numerice, fiind scala
care permite ca afirmaţiile făcute pe baza operaţiilor de adunare, diferenţă, multiplicare sau divizare
să aibă sens.

●Pentru variabilele măsurate pe această scală putem afirma, cu precizie, că, de pildă, o persoană cu
vârsta de 30 ani are de două ori mai mult decât cea de 15. Punctul zero nu este neapărat necesar să
fie o valoare măsurată a variabilei; este suficient să existe efectiv pe scală.

●Timpul de alergare pe distanţa de 50 metri este măsurat pe o scală de raport (proporţională), deşi
nimeni nu poate practic parcurge distanţa de 50 metri în 0,00 secunde.

●Un punct zero absolut sugerează absenţa totală a caracteristicii sau însuşirii care este studiată.

Prezentarea şi reprezentarea datelor univariate (II)

Exemplu

●Sistematizarea datelor pentru o variabilă numerică continuă se realizează prin construirea


intervalelor de variaţie (similar cazului variabilei numerice discrete cu număr mare de valori) şi
stabilirea frecvenţei fiecărui interval.

●Se obţine o serie de distribuţie de frecvenţe pe intervale de variaţie de forma:


unde x1, x2, ..., xr reprezintă centrele intervalelor de grupare.

Histograma

●O serie de distribuţie de frecvenţe pe intervale de variaţie se reprezintă grafic cu ajutorul


histogramei şi a poligonului frecvenţelor.

●Datele cantitative se pot reprezenta grafic utilizând histograma frecvenţelor absolute sau relative,
construită într-un sistem de coordonate rectangulare.

●Pe abscisă sunt reprezentate intervalele de variaţie, iar pe ordonată sunt reprezentate frecvenţele.

●Histograma se construieşte prin ridicarea unor dreptunghiuri, fiecare dreptunghi fiind de lăţime
egală cu mărimea intervalului de grupare şi de înălţime egală cu frecvenţa intervalului

Histograma oferă o primă imagine asupra distribuţiei valorilor variabilei

●Histograma nu permite vizualizarea valorilor individuale ci a numărului valorilor dintr-o grupă şi a


numărului intervalelor de grupare

●Pentru o imagine grafică corectă, lungimea axei OY este de aproximativ trei pătrimi din lungimea
axei OX.

●Dacă valoarea minimă reprezentată pe una din axe este mult prea depărtată de punctul de origine a
axelor (0), comparativ cu amplitudinea variaţiei, se poate face o întrerupere de scară.

●Prin analiza histogramei şi a poligonului frecvenţelor se pot obţin informaţii privind:

- proporţia din aria totală de sub histogramă corespunzătoare unui anumit interval, proporţie egală
cu frecvenţa relativă a intervalului

- normalitatea sau tendinţa de normalitate a unei serii de distribuţie de frecvenţe (dacă n creşte se
poate obţine o mai bună descriere a datelor micşorând mărimea intervalelor. Dacă intervalele devin
suficient de mici, iar numărul de cazuri rămâne finit pe fiecare interval, poligonul frecvenţelor apare
ca o curbă netedă şi aproximează curba distribuţiei normale.
DISTRIBUTIA NORMALA

Distribuţia normală, perfect simetrică, în forma clopotului lui Gauss-Laplace este foarte rar întâlnită
în practică, fiind de fapt o distribuţie teoretică de referinta in analiza statistica

DISTRIBUTII ASIMETRICE

In cele mai multe cazuri, distribuţiile de frecvenţe empirice au tendinţă de normalitate, dar un
anumit grad de asimetrie

Distribuţia în formă de J este o distribuţie profund asimetrică, în care frecvenţa maximă se întâlneşte
în primul ori în ultimul interval, pentru ca apoi frecvenţele să descrească spre zero

Măsuri statistice descriptive pentru date univariate (VI)

Dacă variabila studiată este de tip alternativ celor două variante de răspuns li se vor acorda,
convenţional, valorile numerice 1 şi, respectiv, 0.

●Datele pot fi sistematizate astfel:


Media este proporţia răspunsurilor afirmative (care posedă caracteristica studiată), în totalul
unităţilor statistice:

●Dispersia este:

●Dispersia maximă pentru o variabilă alternativă este 0,25, (ponderea răspunsurilor afirmative este
egală cu cea a răspunsurilor negative

200 de turişti dintr-o staţiune balneară au fost întrebaţi dacă sunt mulţumiţi de serviciile de cazare.
Dintre aceştia 160 au răspuns afirmativ (m) şi 40 negativ.

Media variabilei alternative este:

f=m/n=160/200=0,8,

adică 80% dintre persoanele anchetate sunt mulţumite de serviciile de cazare.

Dispersia este:

●Abaterea standard oferă şi informaţii privind modul de distribuţie şi de împrăştiere a valorilor într-o
serie de distribuţie de frecvenţe aproximativ normală

●Regula lui Cebâşev (o regulă empirică), aplicată distribuţiei normale simetrice sau moderat
asimetrice, ne spune că:
- aprox. 68% din valori se situează în intervalul , adică la cel mult o abatere medie pătratică faţă
de medie ;

- aprox. 95% din valori se situează în intervalul , adică la cel mult două abateri medii pătratice
faţă de medie ;

- aprox. 99,8% din valori se situează în intervalul , adică la cel mult trei abateri medii pătratice
faţă de medie.

Proprietarul unui parc de distracţii ştie că distribuţia încasărilor (pe un vizitator) este aproximativ
normal distribuită, în medie de 20,5 Eur şi o abatere standard de 7 Eur.

Dacă, într-o seară, s-au vândut 2700 bilete de intrare în parcul de distracţii, el se aşteaptă ca:

- de la un număr aproximativ de 1836 (0,68·2700) vizitatori, să încaseze între 13,5 Eur (20,5 - 7) şi
27,5 Eur (20,5 + 7);

- de la un număr aproximativ de 2565 (0,95·2700) vizitatori, să încaseze între 6,5 Eur (20,5-2·7) şi
34,5 Eur (20,5+2·7), altfel spus:

- de la un număr aproximativ de 68 persoane (0.025·2700) să încaseze mai puţin de 6,5 Eur, iar de la
un număr aproximativ de 68 persoane să încaseze mai mult de 34,5 Eur.

SCORURILE Z

Pentru compara variabile cu unităţi de măsură diferite se recurge la transformarea datelor, operaţie
numită standardizarea variabilelor (calcularea scorurilor z).

●Scorul z reprezintă o modalitate de a exprima semnificaţia unei anumite valori dintr-o serie de date
în relaţie cu parametrii distribuţiei (medie şi abatere standard).

●Scorul z reprezintă distanţa dintre o anumită valoare şi medie, în unităţi ale abaterii standard:

●Se obţine astfel o nouă variabilă, numită variabilă standardizată, care are media zero şi dispersia
unu.

●Dacă pentru o anumită unitate statistică scorul z are semnul ”-” înseamnă că individul respectiv
înregistrează o performanţă sub medie, iar dacă scorul z are semnul „+” atunci individul are o
performanţă peste medie.
Regula empirică a lui Cebâşev

Indicatori ai formei distribuţiei

●În cazul variabilelor numerice ne interesează şi forma distribuţiei

●Distribuţia datelor se compară, în general, cu distribuţia normală teoretică şi se analizează două


aspecte:

- oblicitatea = măsura în care distribuţia se abate de la forma perfectă de simetrie a valorilor în jurul
tendinţei centrale

- boltirea sau aplatizarea = măsura în care distribuţia este mai plată sau mai boltită în raport cu
distribuţia normală teoretică

Regula empirică a lui Cebâşev

●aproximativ 68% dintre observaţii înregistrează pentru scorurile z valori cuprinse între -1 şi 1.

●aproximativ 95% dintre observaţii înregistrează pentru scorurile z valori cuprinse între -2 şi 2.

●aproximativ 99,8% dintre observaţii înregistrează pentru scorurile z valori cuprinse între -3 şi 3.

●Amplitudinea absolută a variaţiei într-o astfel de distribuţie este de patru ori mai mare decât
abaterea standard:

sau

●Se poate estima aşadar, relativ uşor, în cazul unei distribuţii aproximativ normale, valoarea abaterii
standard/dispersiei dacă se cunoaşte amplitudinea absolută a variaţiei.

Regula de compunere a variabilităţii


Dacă o serie statistica este alcătuită din mai multe grupe componente, variaţia totală se poate calcula
dupa o schemă cunoscută sub numele de “regula de compunere a variabilităţii totale”.

●Abaterea fiecărei valori de la media totală a seriei este explicată prin influenţa factorului de grupare
şi a altor factori ce acţionează la nivelul fiecărei grupe.

●Putem cuantifica, astfel, cât din variaţia caracteristicii studiate este explicată de factorul de grupare
ales

Regula de compunere a variabilităţii

●Dacă variatia dintre grupe SSB are o pondere mai mare în variatia totală SST atunci înseamnă că
factorul de grupare explică mai mult variaţia caracteristicii studiate.

●Dacă variatia din interiorul grupelor SSW are o pondere mai mare în variatia totală SST atunci
înseamnă că variaţia caracteristicii studiate este influenţată de alţi factori

●Se poate calcula coeficientul/gradul de nedeterminaţie:

S-ar putea să vă placă și