Documente Academic
Documente Profesional
Documente Cultură
STEC - Capitolul 1
STEC - Capitolul 1
Una din definiiile destul de generale spune c statistica este tiina colectrii,
clasificrii, prezentrii i interpretrii datelor, dar i a folosirii acestora pentru a
formula concluzii i a lua decizii.
Obiectul de studiu al statisticii l reprezint fenomenele de mas fenomene
complexe, atipice, rezultate din aciunea combinat a unui numr mare de factori de
influen. Statistica studiaz fenomenele de mas din punct de vedere cantitativ i le
interpreteaz ca fenomene probabile folosind raionamente de tip inductiv i
utiliznd detaliul individual pentru a propune caracterizri de ansamblu. Prin urmare,
generalizrile deduse dintr-o investigaie statistic sunt adevrate doar n medie,
fiind pus n eviden doar comportamentul tipic al tuturor obiectelor luate n studiu,
nu comportamentul elementelor individuale, luate separat.
Noiuni fundamentale ale statisticii
o Colectivitatea statistic
Colectivitatea statistic, denumit n mod frecvent i populaia statistic,
reprezint principala form sub care se delimiteaz i se definesc fenomenele de
mas, desemnnd totalitatea elementelor de aceeai natur care sunt supuse
studiului statistic. Dat fiind modul de definire al populaiei statistice, elementele care
formeaz colectivitatea sunt (sau ar trebui s fie) omogene. Astfel, chiar dac
populaia statistic prezint variabilitate, iar unitile statistice sunt diferite,
informaiile culese de la aceste uniti trebuie s fie comparabile. De aceea, una
dintre problemele eseniale ale unei cercetri statistice o reprezint delimitarea
colectivitii statistice n timp i spaiu.
Exemplu: Dac scopul unui sondaj l reprezint msurarea preferinelor electorale la
nivelul rii la un anumit moment dat, atunci colectivitatea statistic va fi
reprezentat doar de persoanele cu drept de vot (rezideni cu vrsta peste 18 ani).
Prin urmare, persoanele minore, cu domiciliul n strintate sau alte persoane care
nu au drept de vot, ar trebui excluse din populaia statistic.
Exemplu: Dac dorim s colectm opinii ale consumatorilor privind calitatea unui
anumit tip de telefon mobil, atunci populaia statistic va trebui probabil s cuprind
acele persoane care au folosit sau folosesc acel tip de telefon, nu toi utilizatorii de
telefoane mobile. Dac ns se are n vedere lansarea unui nou tip de telefon, un
sondaj care s ncerce msurarea ateptrilor consumatorilor ar trebui s se
adreseze tuturor clienilor poteniali (att celor care posed un telefon mobil,
indiferent de model, productor etc., ct i celor care nu au n acest moment un
telefon mobil).
4
o Unitatea statistic
Unitatea statistic este entitatea (persoana, obiectul, evenimentul, agentul
economic etc.) purttoare a informaiei. Unitile statistice pot fi simple (de
exemplu, persoana fizic, angajatul, produsul etc.) sau complexe, formate din mai
multe uniti simple, organizate n funcie de anumite criterii (de exemplu,
gospodria, grupa de studeni, firma, judeul etc.).
o Caracteristica statistic
Denumit i variabila statistic, caracteristica statistic desemneaz nsuirea,
trstura sau proprietatea comun tuturor unitilor statistice dintr-o populaie, care
capt valori diferite de la o unitate la alta i care este msurat prin investigaia
statistic.
Exemple: Vrsta, greutatea, nlimea, nivelul studiilor sau nivelul venitului unei
persoane, cifra de afaceri a unei ntreprinderi.
Caracteristicile statistice se mai numesc variabile statistice, ntruct au
proprietatea de a-i modifica valoarea de la o unitate la alta. Variabilele statistice se
pot clasifica dup anumite o serie de criterii.
Astfel, dup modul de exprimare putem distinge variabile calitative,
exprimate prin cuvinte care desemneaz apartenena la o categorie, i variabile
cantitative, exprimate numeric). La rndul lor, variabilele calitative pot fi nominale
sau ordinale. Variabilele calitative nominale nu implic o anumit ordine ntre valori,
n timp ce variabilele calitative ordinale presupun existena unei relaii de ordine, a
unei ierarhii.
Exemplu: Starea civil este o variabil calitativ, deseori definit binar, respectiv
cstorit sau necstorit. Starea civil poate fi definit i mai detaliat, putnd lua
valorile celibatar/niciodat cstorit, cstorit, vduv, divorat, detalierea
fiind decis de cercettor, n conformitate cu scopurile analizei. ntruct ntre aceste
valori nu exist o ordine anume, variabila stare civil este o variabil calitativ
nominal. Alte exemple de variabile calitative nominale: culoarea ochilor, sexul,
ocupaia.
Exemplu: Nivelul studiilor poate fi exprimat prin numrul de ani petrecui n sistemul
de nvmnt, caz n care avem de-a face cu o variabil cantitativ, sau prin
alegerea unuia din posibilele rspunsuri posibile:
studii primare;
studii gimnaziale;
studii liceale;
5
studii postliceale;
studii universitare;
studii postuniversitare masterat;
studii postuniversitare doctorat,
n cel de-al doilea caz, avem de-a face cu o variabil calitativ ordinal, alegerea unei
valori superioare corespunznd unui nivel superior al studiilor.
Atenie! Este de dorit s se evite atribuirea unor valori numerice variabilelor
calitative, fie ele i ordinale. De exemplu, pentru nivelul studiilor unei persoane, dac
atribuim studiilor liceale valoarea 3 i celor universitare valoarea 5, putem afirma c
facultatea ofer un nivel de studii cu 67% mai ridicat dect liceul? n aceeai ordine
de idei, dac atribuim studiilor doctorale valoarea 7, nseamn acest lucru c
diferena de instruire dintre aceste studii i cele universitare (valoarea numeric a
diferenei este 2) este egal cu diferena de pregtire dintre studiile universitare i
cele liceale (pentru care valoarea diferenei este tot 2)? Evident, nu.
Concluzia care se poate trage de aici este aceea c variabilele calitative ordinale
implic existena unei ierarhii, dar c pe aceste scale nu are sens definirea distanei
ntre valorile variabilei calitative ordinale.
Dup cardinalul mulimii observaiilor, exist variabile statistice binare
(numite i alternative, dihotomice sau booleene), cnd spaiul de observaii e
compus din dou valori (0/1, masculin/feminin, rural/urban), variabile statistice cu
un numr finit de valori numerice (aici se ncadreaz variabilele calitative i cele
cantitative discrete) i variabile cantitative continue, cnd mulimea specific a
valorilor individuale este un interval de numere reale. Acest ultim tip de variabile
statistice este rar folosit din raionamente practice i datorit impreciziei msurrii.
Exemplu: Teoretic vorbind, nlimea unei persoane este o variabil cantitativ
continu, nlimea putnd lua orice valoare ntr-un interval. n practic se va aplica
ns o aproximare suficient de bun, de exemplu n centimetri, i se va folosi ca o
variabil cantitativ discret (s zicem, ntre 140cm i 230cm).
o Variabilele aleatoare
Variabilele aleatoare reprezint o clas distinct de variabile ntlnit n
cercetrile statistice, prin intermediul crora evenimentele pot fi descrise cu ajutorul
unor valori numerice reale. n general, prin variabil aleatoare se nelege o funcie
real de evenimente elementare care, n raport cu rezultatul unui eveniment, poate
lua o valoare real dintr-o mulime bine definit. Din cauza factorilor ntmpltori
care influeneaz evenimentul, valoarea variabilei aleatoare nu poate fi cunoscut
naintea realizrii experimentului.
6
x x 2 ... x n
, unde pi reprezint probabilitatea ca variabila X
face sub forma X 1
p1 p 2 ... p n
s ia valoarea xi. pi=1 este probabilitatea evenimentului sigur, pi=0 este
probabilitatea evenimentului imposibil. Pentru exemplul de mai sus, al aruncrii
zarului, variabila aleatoare este complet determinat (se numete astfel cnd se
cunosc toate valorile i toate probabilitile), dar acest lucru nu este foarte des
ntlnit n practic.
Culegerea datelor statistice
Orice investigaie statistic se bazeaz pe date, iar culegerea acestor date se
realizeaz prin diverse metode: observri totale, numite i exhaustive, care cuprind
n cercetarea statistic toate unitile colectivitii statistice, sau observri pariale,
care presupun culegerea de date de la un numr redus de uniti din populaie, dar
numrul este stabilit dup criterii precise.
Culegerea datelor se poate realiza prin observri directe (field research), cnd
nregistrarea datelor se face de ctre operator de la unitile colectivitii, sau prin
observri indirecte (desk research), cnd datele se preiau de la surse care au
consemnat anterior fenomenul studiat.
Principalele metode de culegere a datelor sunt:
-
Unitatea i
xi
yi
Unitatea n
xn
yn
Exemplu: La un anumit moment dat, un grup de 50 de indivizi este chestionat
i se culeg date privind nlimea (variabila x) si greutatea (variabila y) fiecrui
respondent. Organizate sub forma unui tabel ca cel de mai sus, aceste date
vor forma un set de date longitudinale.
Reprezentarea grafic a acestui tip de date se poate face, printre altele, prin
grafice tip plcint (piechart: diagram cu structur radial) i histograme
(bar chart: grafice cu coloane).
10
Fig. 1.3 Evoluia lunar a vnzrilor retail de carburant n perioada 2009-2012, mii de tone
Date de tip panel (n englez, panel data) Sunt structuri complexe de date,
care combin avantajele seriilor cronologice cu cele ale datelor longitudinale,
oferind spre analiz o cantitate suplimentar de informaii. Astfel, valorile
variabilelor statistice sunt msurate pentru fiecare unitate statistic repetat,
pentru o anumit perioad de timp. n Statele Unite, unul din cele mai
elaborate proiecte care a condus la realizarea unui panel uria l reprezint
PSID (Panel Study of Income Dynamics) al University of Michigan. Acest
studiu a nceput n 1968, eantionul fiind reprezentativ att pentru populaia
SUA (brbai, femei i copii), ct i la nivel de gospodrie. Sondajul a fost
repetat asupra acelorai indivizi, PSID colectnd astfel informaii de la
aproximativ 65.000 de indivizi pe parcursul a 36 de ani. Studiul s-a axat
asupra aspectelor economice (n principal urmrirea dinamicii veniturilor),
dar i sociale (mobilitatea populaiei, educaie, formarea familiei).
Tabelul din dreapta ilustreaz
un set de date de tip panel,
cu precizarea c acesta este
un panel echilibrat (fiecare
unitate
statistic
este
observat
pe
aceeai
perioad, deci lungimea
seriei cronologice este egal
pentru fiecare unitate).
Unitatea 1
Unitatea 1
Unitatea 1
Unitatea 2
Unitatea 2
Unitatea 2
11
timp
t1
t2
t3
t1
t2
t3
Variabila x
x11
x12
x13
x21
x22
x23
Variabila y
y11
y12
y13
y21
y22
y23
12