Documente Academic
Documente Profesional
Documente Cultură
– suport de curs –
Radu A. Păun
1
Cuprins
Cap. 1 – Introducere în statistică ............................................................................................... 3
Cap. 2 – Descrierea numerică şi grafică a datelor ..................................................................... 9
Indicatori pentru caracterizarea tendinţei centrale a seriilor de distribuţie ...................... 13
Mărimi medii ................................................................................................................... 14
Indicatori medii de poziţie ............................................................................................... 17
Indicatori pentru caracterizarea dispersării unei serii de distribuţie .................................. 20
Indicatori pentru caracterizarea formei distribuţiei............................................................ 26
Indicatori ai asimetriei ..................................................................................................... 26
Indicatori ai aplatizării ..................................................................................................... 28
Teste grilă ................................................................................................................................ 29
Cap. 3 – Probabilităţi şi distribuţii ........................................................................................... 32
Conceptele de experiment, eveniment şi probabilitate...................................................... 32
Variabile aleatoare .............................................................................................................. 35
Legea normală: N(m, σ2) ...................................................................................................... 37
Elemente suplimentare ....................................................................................................... 41
Cap. 4 – Sondajul statistic........................................................................................................ 42
Noţiuni generale .................................................................................................................. 42
Tipuri de sondaj ................................................................................................................... 45
Procesul de estimare ........................................................................................................... 51
Determinarea volumului eşantionului ................................................................................ 54
Cap. 5 – Analiza corelaţiei dintre variabile ............................................................................. 59
Testul χ2 (hi pătrat) .............................................................................................................. 60
Metoda tabelului frecvenţelor (a tabelului de corelaţie sau de contingenţă) .................... 65
Metoda grafică .................................................................................................................... 66
Covarianţa ........................................................................................................................... 67
Coeficientul corelaţiei liniare .............................................................................................. 68
Cap. 6 – Analiza de regresie .................................................................................................... 72
Modelul simplu de regresie (cu o singură variabilă independentă) .................................... 75
Principalele două surse pe care este bazat acest suport de curs sunt Statistică, Teorie şi AplicaŃii de Tudorel
Andrei, Stelian Stancu şi Daniel Traian Pele, Editura Economică, ed. 2, 2002 şi Statistică de Alexandru Isaic-
Maniu, Constantin MitruŃ şi Vergil Voineagu, Editura Universitară, 2003. Alte surse pentru acest curs le-au
constituit Statistică, de Eugenia Lilea, Mihaela Vatui, Doina Boldeanu şi Zizi Goschin, Principles of Statistics de
M.G. Bulmer, Dover Publications, 1979 şi A Guide to Econometrics de Peter Kennedy, The MIT Press, ed. 5, 2003
2
Cap. 1 – Introducere în statistică
Exemplu: Dacă scopul unui sondaj îl reprezintă măsurarea preferinţelor electorale la nivelul
unui oraş la un anumit moment, atunci colectivitatea statistică va fi reprezentată doar de
persoanele cu drept de vot din acel oraş (rezidenţi ai oraşului cu vârsta peste 18 ani). Prin
urmare, persoanele minore sau cu domiciliul în afara localităţii respective, care nu au drept
de vot, ar trebui excluse din populaţia statistică.
Exemplu: Dacă dorim să colectăm opinii ale consumatorilor privind calitatea unui anumit tip
de telefon mobil, atunci populaţia statistică va trebui probabil să cuprindă acele persoane
care au folosit sau folosesc acel tip de telefon, nu toţi utilizatorii de telefoane mobile. Dacă
însă se are în vedere lansarea unui nou tip de telefon, un sondaj care să încerce măsurarea
aşteptărilor consumatorilor ar trebui să se adreseze atât celor care posedă un telefon mobil
(indiferent de model, producător etc.), cât şi clienţilor potenţiali.
o Unitatea statistică
Unitatea statistică este entitatea (persoana, obiectul, evenimentul, agentul
economic etc.) purtătoare a informaţiei. Unităţile statistice pot fi simple (de exemplu,
persoana fizică, angajatul, produsul etc.) sau complexe, formate din mai multe unităţi
simple, organizate în funcţie de anumite criterii (de exemplu, gospodăria, grupa de studenţi,
firma, judeţul etc.).
o Caracteristica statistică
Denumită şi variabila statistică, caractestistica statistică desemnează însuşirea,
trăsătura sau proprietatea comună tuturor unităţilor statistice dintr-o populaţie, care capătă
valori diferite de la o unitate la alta şi care este măsurată prin investigaţia statistică.
3
Exemple: Vârsta, greutatea, înălţimea, nivelul studiilor sau nivelul venitului unei perdoane,
cifra de afaceri a unei întreprinderi.
Exemplu: Nivelul studiilor poate fi exprimat prin numărul de ani petrecuţi în sistemul de
învăţământ, caz în care avem de-a face cu o variabilă cantitativă, sau prin alegerea unuia din
posibilele răspusuri: „studii primare”, „studii gimnaziale”, „studii liceale”, „studii postliceale”,
„studii universitare”, „studii postuniversitare – masterat” şi „studii postuniversitare –
doctorat”, caz în care avem de-a face cu o variabilă calitativă ordinală.
Atenţie însă, este de dorit să se evite atribuirea unor valori numerice variabilelor
calitative, fie ele şi ordinale. De exemplu, pentru nivelul studiilor unei persoane, dacă
atribuim studiilor liceale valoarea 3 şi celor universitare valoarea 5, putem afirma că
facultatea oferă un nivel de studii cu 67% mai ridicat decât liceul? În aceeaşi ordine de idei,
dacă atribuim studiilor doctorale valoarea 7, înseamnă acest lucru că diferenţa de instruire
dintre aceste studii şi cele universitare (valoare numerică a diferenţei 2) este egală cu
diferenţa de pregătire dintre studiile universitare şi cele liceale (valoarea diferenţei tot 2)?
Evident, nu. Concluzia care se poate trage de aici este aceea că variabilele calitative ordinale
implică existenţa unei ierarhii, dar că pe aceste scale nu are sens definirea distanţei între
valorile variabilei calitative ordinale.
După cardinalul mulţimii observaţiilor, există variabile statistice binare (alternative),
când spaţiul de observaţii e compus din două valori (0/1, masculin/feminin, rural/urban),
variabile statistice cu un număr finit de valori numerice (aici se încadrează variabilele
calitative şi cele cantitative discrete) şi variabile cantitative continue, când mulţimea
specifică a valorilor individuale este un interval de numere reale. Acest ultim tip de variabile
statistice este rar folosit din raţionamente practice şi datorită impreciziei măsurării.
Exemplu: Teoretic vorbind, înălţimea unei persoane este o variabilă cantitativă continuă. În
practică se va aplica însă o aproximare suficient de bună, de exemplu în centimetri, şi se va
folosi ca o variabilă cantitativă discretă (să zicem, între 140cm şi 230cm).
o Variabilele aleatoare
Variabilele aleatoare reprezintă o clasă distinctă de variabile întâlnită în cercetările
statistice, prin intermediul cărora evenimentele pot fi descrise cu ajutorul unor valori
4
numerice reale. În general, prin variabilă aleatoare se înţelege o funcţie reală de evenimente
elementare care, în raport cu rezultatul unui eveniment, poate lua o valoare reală dintr-o
mulţime bine definită. Din cauza factorilor întâmplători care influenţează evenimentul,
valoarea variabilei aleatoare nu poate fi cunoscută înaintea realizării experimentului.
Datorită celor de mai sus, reprezentarea unei variabile aleatoare se poate face sub
x1 x 2 ... xn
forma X , unde pi reprezintă probabilitatea ca variabila X să ia valoarea xi.
p1 p 2 ... p n
pi=1 este probabilitatea evenimentului sigur, pi=0 este probabilitatea evenimentului
imposibil. Pentru exemplul zarului de mai sus, variabila aleatoare este complet determinată
(se numeşte astfel când se cunosc toate valorile şi toate probabilităţile), dar acest lucru nu
este foarte întâlnit în practică.
5
- Ancheta statistică: Formă de observare parţială care, spre deosebire de sondaj, nu
presupune reprezentativitatea eşantionului. De exemplu, chestionarul este
completat în cadrul târgurilor şi expoziţiilor.
- Observarea părţii principale (a masivului principal): Metodă operativă de culegere
parţială a datelor doar de la cele mai semnificative unităţi ale colectivităţii (masivul
principal). Evident, subiectivitatea criteriilor după care este ales masivul principal,
cât şi subiectivitatea unităţilor din acest masiv, pot constitui impedimente majore în
alegerea acestei metode. Pe de altă parte, avantajul principal îl constituie
operativitatea şi rapiditatea observării.
- Monografia: Metodă de observare aprofundată a fenomenelor şi progreselor care
au loc în activitatea unui agent economic sau grup de agenţi economici. Monografia
presupune nu doar culegerea, ci şi interpretarea datelor.
Cercetarea statistică
Cercetarea statistică reprezintă un ansamblu complex de activităţi. Paşii ce sunt
urmaţi, în general, în cercetările statistice pot fi rezumaţi după cum urmează:
- Observarea statistică a fenomenului studiat (culegerea datelor). Aceasta este o
etapă fundamentală în procesul cercetării statistice, deoarece calitatea cercetării
depinde într-o mare măsură de cantitatea şi calitatea informaţiilor culese.
- Prelucrarea şi modelarea statistică a datelor culese, pe baza unei teorii adecvate
fenomenului studiat. Astfel, asupra datelor pot fi aplicate metode din categoria
statisticii descriptive şi analizei primare a datelor sau a statisticii inferenţiale.
- Analiza şi interpretarea rezultatelor obţinute.
Serii de date
Seriile de date pot fi de mai multe feluri, în funcţie de cercetarea statistică efectuată.
Astfel, statisticianul poate lucra cu:
- Date cronologice, numite şi serii de timp (eng. time series data) – Culese, în general,
din aria macroeconomică, acestea reprezintă evoluţia unor caracteristici (variabile)
în timp. Forma uzuală a seriilor de timp este:
6
Timp t 1 t2 … tj … tm
Variabila x x1 x2 … xj … xm
Variabila y y1 y2 … yj … ym
- Date longitudinale (eng. cross-section data) – Culese prin diverse modalităţi, una
dintre acestea fiind sondajul statistic, aceste serii ilustrează situaţia la un moment
dat pentru un anumit număr de unităţi statistice (observaţii). Forma uzuală a seriilor
longitudinale este:
Variabila x Variabila y
Unitatea 1 x1 y1
Unitatea 2 x2 y2
… … …
Unitatea i xi yi
… … …
Unitatea n xn yn
- Date de tip panel (eng. panel data) – Sunt structuri complexe de date, care combină
avantajele seriilor cronologice cu cele ale datelor longitudinale, oferind spre analiză
o cantitate suplimentară de informaţii. Astfel, valorile variabilelor statistice sunt
măsurate pentru fiecare unitate statistică repetat, pentru o anumită perioadă de
timp. În Statele Unite, unul din cele mai elaborate proiecte care a condus la
realizarea unui panel uriaş îl reprezintă PSID (Panel Study of Income Dynamics) al
University of Michigan. Acest studiu a început în 1968, eşantionul fiind reprezentativ
atât pentru populaţia SUA (bărbaţi, femei şi copii), cât şi la nivel de gospodărie.
Sondajul a fost repetat asupra aceloraşi indivizi, PSID colectând astfel informaţii de la
aproximativ 65.000 de indivizi pe parcursul a 36 de ani. Studiul s-a axat asupra
aspectelor economice (în principal urmărirea dinamicii veniturilor), dar şi sociale
(mobilitatea populaţiei, educaţie, formarea familiei).
Tabelul de mai jos ilustrează un set de date de tip panel, cu precizarea că acesta este
un panel echilibrat (fiecarea unitate statistică este observată pe aceeaşi perioadă,
deci lungimea seriei cronologice este egală pentru fiecare unitate).
7
Unitatea 1 t3 x13 y13
Unitatea 2 t1 x21 y21
Unitatea 2 t2 x22 y22
Unitatea 2 t3 x23 y23
Tabelul de mai jos reprezintă un panel neechilibrat. Un astfel de set de date se obţine atunci
când lungimea seriei de timp este diferită pentru diverse unităţi statistice. Astfel, în tabelul
de mai jos, prima unitate este observată pentru două momente de timp, a doua unitate
statistică este observată pentru trei momente de timp, în vreme ce a treia unitate statistică
este observată doar o dată.
8
Cap. 2 – Descrierea numerică şi grafică a datelor
Pe parcursul acestui curs voi face referire în mod repetat la un proiect de statistică
ce poate fi găsit în cadrul Bibliotecii Digitale de pe site-ul Academiei de Studii Economice,
secţiunea Finanţe, Asigurări, Bănci şi Burse de Valori. Este vorba de unul dintre ultimele
capitole ale cărţii Statistică, de E. Lilea, M. Vatui, D. Boldeanu şi Z. Goschin1. Cred că ar fi util
să descărcaţi acest proiect pentru că vom acoperi o parte semnificativă a lui.
Clasificarea datelor (gruparea unităţilor elementare ale unei populaţii după anumite
criterii) ocupă un loc important în cadrul statisticii descriptive. În funcţie de modul de
constituire al claselor, avem de-a face cu:
• Clasificări artificiale, atunci când, pentru sistematizarea informaţiilor disponibile,
clasele sunt definite pe baza unor criterii pragmatice. De cele mai multe ori, criteriile
alese nu sunt esenţiale, putând fi considerate chiar arbitrare. Un exemplu de
clasificare artificială este cel al prezentării locuitorilor cu drept de vot dintr-o
localitate prin liste zonale (în ideea că această grupare nu are nimic în comun cu
intenţiile de vot).
• Clasificări naturale, care permit definirea claselor în funcţie de criterii esenţiale. În
acest caz se asigură atât sistematizarea datelor statistice, cât şi surprinderea unor
caracteristici esenţiale ale populaţiei statistice. Un exemplu de clasificare naturală îl
reprezintă clasificarea firmelor din economie (sau dintr-un eşantion) pe ramuri de
activitate sau după dimensiunea acestora, după forma de proprietate etc.
Cea mai comună metodă de grupare este cea pe intervale de variaţie egale, în acest
sens trebuind parcurşi următorii doi paşi:
1
Link: http://www.biblioteca-digitala.ase.ro/biblioteca/model/index2.asp Pe 14.02.2011, această
carte era la numărul 33 în listă.
9
1. Definirea grupelor – Se consideră că fiecare grupă este complet definită dacă sunt
precizate limita inferioară (xinf) şi limita superioară (xsup). Diferenţa dintre valoarea
minimă şi maximă a unei serii de date poartă numele de amplitudine a acelei serii
(As), fapt pentru care, în mod similar, în cazul grupelor vorbim de amplitudinea
grupei (Ag). Întrucât discutăm acum cazul intervalelor de variaţie egale, amplitudinea
tuturor grupelor va fi aceeaşi.
În teoria statistică s-au propus mai multe formule de calcul pentru determinarea
amplitudinii grupelor. Menţionăm aici doar câteva din aceste propuneri:
• Propunerea lui D. V. Huntsberger (alte surse atribuie această propunere lui
H. A. Sturges), potrivit căreia Ag = As/p, unde p = 1 + 3,3 lg n iar n reprezintă
numărul de observaţii al seriei.
De exemplu, pentru n = 40, lg 40 = 1,6, fapt pentru care p = 6,28. Cum
numărul de grupe (p) nu poate fi decât un număr întreg, alegem p = 6.
Dacă avem în vedere datele din proiectul de statistică menţionat mai sus,
pentru variabila vechime, Ag = As/6 = 35/6 = 5,83 ≈ 6. Atenţie: dacă este
cazul, rotunjirea trebuie făcută prin adaos. Altfel, riscăm ca cea mai mare
valoare a seriei de date să nu fie inclusă în ultimul interval definit, ceea ce ar
contraveni primului dintre cele patru principii enunţate mai sus.
Exerciţiu: Determinaţi amplitudinea grupelor pentru variabila producţie din acelaşi proiect
de statistică.
Am văzut mai sus cum o serie de date poate fi grupată pe intervale egale, existând
mai multe propuneri pentru determinarea numărului de grupe şi, implicit, a amplitudinii
acestora. Pe lângă aceasta metodă uzuală de prezentare a datelor observate, se pot folosi şi
alte criterii pentru formarea grupelor, criterii care nu decurg dintr-o aplicare mecanică a
unor reguli de calcul, ci apar ca urmare a anumitor moduri de organizare din economie.
Exemplu: Dacă seria de observaţii reprezintă mărimea firmelor dintr-un anumit sector de
activitate, exprimată prin numărul de angajaţi, statisticianul poate grupa aceste observaţii în
10
mai multe modalităţi. Aşa cum am văzut, acesta poate folosi diverse propuneri pentru
determinarea numărului de grupe egale, dar mărimea acestor grupe va fi determinată în
mod oarecum artificial. Pe de altă parte, se pot folosi clasificări deja existente şi uzuale în
economie pentru descrierea numerică şi grafică a datelor. Astfel, din punct de vedere al
numărului de angajaţi, EUROSTAT, biroul de statistică al Uniunii Europene, defineşte:
- microîntreprinderile: acele firme cu până la 9 angajaţi (inclusiv);
- întreprinderile mici: acele firme care au între 10 şi 99 de angajaţi (inclusiv);
- întreprinderile mijlocii: acele firme care au între 100 şi 249 de angajaţi (inclusiv);
- întreprinderile mari: firmele cu peste 250 de angajaţi.
Prin urmare, putem folosi aceste grupe (inegale), care însă conduc la o grupare uzuală (chiar
naturală) a datelor. Prezentarea acestei grupări se realizează similar cu cea a grupărilor în
intervale egale: prin intermediul tabelelor de repartiţie sau prin grafice adecvate (diagrama
prin bare sau prin coloane inegale, asemănătoare histogramei).
MC
MR = 10 k , k = 0,1,2,K
MBC
unde MR este mărimea relativă, MC mărimea comparată, iar MBC defineşte mărimea bază
de comparaţie.
Rezultatul obţinut în urma raportării poate fi un număr întreg sau un număr
fracţionar, care exprimă câte unităţi din indicatorul raportat (mărimea comparată) revin la o
unitate a indicatorului bază de raportare (mărimea bază de comparaţie). Atunci când cei doi
termeni ai raportului sunt de aceeaşi natură (valori ale aceleiaşi măsuri economice),
mărimea relativă obţinută este adimensională, reprezentând în esenţă un coeficient. În
situaţia contrară, când cei doi termeni ai raportului au unităţi de măsură diferite, mărimea
relativă obţinută va avea o unitate de măsură compusă. Astfel, exprimarea densităţii
populaţiei României (locuitori/km2), a productivităţii muncii (cantitatea de produse/oră), a
vitezei de circulaţie a banilor (numărul de rotaţii/an) etc. sunt doar câteva exemple de
mărimi relative.
Exerciţiu: Tabelul de mai jos conţine datele cu privire la producţia (Q) şi numărul de angajaţi
(T) din doi ani diferiţi, de la trei filiale ale unei întreprinderi. Determinaţi mărimile relative
posibile şi interpretaţi rezultatele.
Se pot calcula ponderea Q şi T pentru fiecare filială în totalul întregii firme în cei doi ani
(mărime relativă adimensională), evoluţia Q şi T între anul 1 şi 2 (creştere sau scădere
exprimată în procente) şi productivitatea angajaţilor din fiecare filială (mărime relativă cu
unitate de măsură compusă, unităţi/angajat) în cei doi ani.
11
Volum producţie (Q) Număr angajaţi (T)
Filiale Anul 1 Anul 2 Anul 1 Anul 2
F1 600 1000 130 150
F2 700 500 200 250
F3 500 500 250 200
Total firmă 1800 2000 580 600
Serii statistice
Seriile statistice reprezintă o modalitate frecventă de prezentare a datelor, care
rezultă din sistematizarea şi/sau gruparea datelor primare. Aceste serii definesc
corespondenţa dintre două şiruri de date statistice, în care primul reprezintă variaţia
caracteristicii urmărite, iar al doilea şir cuprinde frecvenţele de apariţie a variantelor
caracteristicii (frecvenţele putând fi absolute sau relative). Astfel, o serie statistică cu o
singură caracteristică are următoarea formă:
x x2 K x p
x 1
n1 n2 K n p
unde x1, x2, ..., xp sunt variantele înregistrate pentru caracteristica X, iar n1, n2, …, np sunt
frecvenţele de apariţie ale variantelor caracteristicii X. Aşa cum spuneam mai sus, aceste
frecvenţe pot fi absolute, reprezentând numărul efectiv de observaţii pentru fiecare valoare
xi, sau relative, reprezentând ponderea observaţiilor care au valoarea xi în numărul total de
observaţii.
Seriile statistice sunt clasificate în:
- serii de distribuţie, pentru care caracteristica urmărită este numerică;
- serii cronologice, care prezintă evoluţia în timp a unui fenomen;
- serii teritoriale, care prezintă variaţia în spaţiu a caracteristicii analizate, valorile
caracteristicii referindu-se la unităţile teritoriale din care fac parte;
- serii enumerative, care se prezintă sub forme de liste a unităţilor după o anumită
caracteristică.
Cel mai frecvent întâlnite în practică sunt seriile de distribuţie, în particular cele
unidimensionale (când este urmărită o singură caracteristică). Cu toate acestea, vom trece
succint în revistă câteva caracteristici ale seriilor de distribuţie bidimensionale.
În mod uzual, seriile de distribuţie bidimensionale sunt prezentate prin intermediul
tabelelor de contingenţă precum cel de mai jos.
Y
y1 y2 ... yj ... yp Total
X
x1 n11 n12 ... n1j ... n1p n1.
x2 n21 n22 ... n2j ... n2p n2.
... ... ... ... ... ... ... ...
xi ni1 ni2 ... nij ... nip ni.
... ... ... ... ... ... ... ...
xk nk1 nk2 ... nkj ... nkp nk.
Total n.1 n.2 ... n.j ... n.p n..
12
În acest tabel, x1, x2, ..., xi, ...,xk reprezintă variantele înregistrate după caracteristica
X, y1, y2, ..., yj, ..., yp reprezintă variantele înregistrate după caracteristica Y, nij reprezintă
frecvenţa absolută a observaţiilor pentru care X = xi şi Y = yj, ni. reprezintă numărul total de
observaţii pentru care X = xi, indiferent de valorile lui Y, în timp ce n.j reprezintă numărul
total de observaţii pentru care Y = yj, indiferent de valorile lui X.
Tabelul de mai sus conţine p + k + 3 distribuţii, după cum urmează:
- o distribuţie bidimensională de frecvenţe absolute;
- p + k distribuţii condiţionate, unidimensionale, de frecvenţe absolute. Acestea sunt
reprezentate de cele k linii şi p coloane ale tabelului de mai sus (n1j, n2j, ..., nij, ..., nkj
reprezintă distribuţia valorilor lui X condiţionată de yj, j=1, 2,..., p, iar ni1, ni2, ..., nij, ...,
nip reprezintă distribuţia valorilor lui Y condiţionată de xi, i=1, 2, ..., k);
- două distribuţii marginale, unidimensionale, de frecvenţe absolute. Acestea sunt
reprezentate de ultimul rând şi ultima coloană din tabelul de mai sus. n1., n2., ..., ni.,
..., nk. reprezintă distribuţia marginală a valorilor lui X, iar n.1, n.2, ..., n.j, ..., n.p
reprezintă distribuţia marginală a valorilor lui Y.
Exerciţiu: Pentru datele din proiectul de statistică, construiţi un tabel care să evidenţieze
distribuţia bidimensională a vechimii în muncă şi a producţiei, folosind gruparea pe 6
intervale egale realizată anterior. Reprezentaţi grafic distribuţia bidimensională astfel
determinată prin graficul norului de puncte şi trageţi eventualele concluzii.
Aşa cum spuneam mai sus, seriile de distribuţie unidimensionale sunt printre cele
mai frecvente în practică, fapt pentru care în continuare ne vom concentra asupra
caracterizării acestora. Astfel, analiza primară (grafică şi numerică) a datelor cuprinde
calcularea mai multor indicatori:
- Indicatori pentru caracterizarea tendinţei centrale a unei serii de distribuţie:
o mărimi medii (media aritmetică, pătratică, geometrică, armonică),
o indicatori medii de poziţie (mediana, valoarea modală, cuartilele);
- Indicatori pentru caracterizarea gradului de dispersare a unei serii de distribuţie faţă
de tendinţa centrală: abaterea medie absolută, dispersia, abaterea medie pătratică,
coeficientul de variaţie;
- Indicatori pentru caracterizarea asimetriei şi aplatizării unei serii de distribuţie.
În 1945, statisticianul britanic George Udny Yule a definit şase proprietăţi pe care ar
trebui să le aibă un indicator al tendinţei centrale:
a) Să fie o măsură definită obiectiv, independent de dorinţa utilizatorului şi, în
acelaşi timp, invariabilă în timp şi spaţiu.
b) Să ţină seama de toate valorile înregistrate.
13
c) Să aibă o semnificaţie concretă şi uşor de înţeles chiar şi de nespecialişti.
d) Să aibă o formulă de calcul simplă şi rapidă.
e) Să fie o măsură puţin sensibilă la fluctuaţia eşantionului (să nu prezinte valori
semnificativ diferite dacă se calculează pe baza mai multor eşantioane de acelaşi
volum, extrase prin acelaşi procedeu din aceeaşi colectivitate).
f) Să se preteze la calcule algebrice, care să asigure comparabilitatea mai multor serii
statistice.
Din păcate, în statistica descriptivă nu există o măsură a tendinţei centrale care să
satisfacă simultan toate cele şase proprietăţi. De aceea, orice rezultat va fi interpretat cu
precauţie, luând în considerare caracteristicile valorilor observate.
Mărimi medii
2. Dacă în cadrul seriei sunt observate două sau mai multe grupe de valori ce au
caracteristici diferite, atunci se recomandă calcularea indicatorilor medii la nivelul
fiecărei grupe, aceşti indicatori fiind mai aproape de trăsătura seriei, decât o singură
mărime, ce nu caracterizează niciuna dintre grupele de valori.
Altfel spus, mediile se calculează numai atunci când există o valoare centrală în jurul
căreia gravitează valorile individuale ale seriei. Dacă în urma reprezentării grafice (de
exemplu, prin histogramă) se observă mai multe “centre” în jurul cărora se grupează
valorile, se recomandă calcularea mediei pentru fiecare subgrupă şi, numai dacă
este cazul, se calculează un indicator mediu pentru întreaga serie.
Exemplu: Reţeaua de distribuţie carburanţi a unei companii petroliere conţine staţii
(benzinării) mai bune şi unele mai puţin performante. Staţiile mai bune sunt, în mod evident,
cele localizate în zone cu potenţial economic ridicat, cu trafic intens (atât autoturisme, cât şi
utilitare şi camioane), cu acces facil şi benficiind de o bună vizibilitate din trafic. Alte staţii
însă nu întrunesc toate aceste conditţii, rezultatul observându-se în vânzările de carburanţi.
Presupunând că o companie are o reţea polarizată, în care un grup de staţii sunt
performante, cu vânzări ridicate, în timp ce un grup distinct sunt localizate mai prost sau mai
greu accesibile, care au vânzări reduse, atunci calcularea vânzării medii zilnice pe staţie nu
are o mare semnificaţie. Aceasta pentru că valoarea medie obţinută nu va reprezenta în mod
real performanţa medie a reţelei, niciuna dintre staţiile existente nefiind reprezentată de
media calculată. Calcularea a două medii, una pentru grupul de staţii performante şi una
pentru grupul de staţii cu vânzări reduse ar putea oferi informaţii mai valoroase
managementului companiei, care ar putea adopta decizii adecvate pentru creşterea
vânzărilor reţelei prin impulsionarea vânzărilor unora dintre staţiile mai puţin performante.
14
3. Indicatorii medii sunt sensibili în ceea ce priveşte existenţa valorilor aberante (acele
valori care se îndepărtează în mare măsură de ansamblul seriei de date). De aceea,
înainte de calcularea acestor indicatori, valorile aberante trebuie eliminate, dar
această eliminare trebuie făcută cu mare precauţie şi doar pentru acele valori pentru
care există certitudinea că sunt într-adevăr aberante. Continuând exemplul de mai
sus, unele condiţii speciale şi/sau temporare pot face ca una sau mai multe staţii să
aibă vânzări extraordinare pe o anumită perioadă de timp. O astfel de staţie, cu o
valoare foarte mare a vânzărilor, ar trebui probabil lăsată în afara calculului mediei
celorlalte staţii. Cu toate acestea, decizia privind excluderea uneia sau mai multor
staţii din calculul mediei trebuie să ţină cont de caracteristicile particulare ale
acesteia şi de valorile înregistrate efectiv – până la urmă, decizia de excludere este
subiectivă şi bazată pe cunoaşterea fenomenului studiat.
Exemplu: Se cunosc următoarele date reprezentând notele unei grupe de studenţi la cursul
de statistică. Să se calculeze media artimetică a acestei serii de distribuţie.
Note (xi): 4 5 6 7 8 9 10
Frecvenţe (ni): 6 8 16 17 8 3 0
15
Exemplu: Starea civilă curentă a persoanelor dintr-un eşantion poate fi încadrată în categoria
“căsătorit” sau “necăsătorit” (fără a ţine deci cont de diversele categorii în care o persoană
necăsătorită se poate afla: nicioadată căsătorit, văduv, divorţat).
Presupunem că avem următoarele date:
Stare civilă (xi): Căsătorit (x1=1) Necăsătorit (x2=0)
Frecvenţe (ni): n1=50 n2=100
Media aritmetică a acestei caracteristici va fi calculată folosind formula prezentată mai sus,
fapt pentru care media este (1*50+0*100)/150=50/150=0,33.
1 p 2
pătratice este x p = ∑ x i ni
n i=1
Media pătratică se foloseşte atunci când se doreşte acordarea unei importanţe mai
mari valorilor mari absolute din cadrul unei serii. În calcularea mediei pătratice, valorile
pozitive şi cele negative din cadrul seriei nu se compensează (aşa cum se întâmplă în calculul
mediei aritmetice). De fapt, întrucât ridicarea la pătrat a valorilor caracteristicii elimină
semnul acestora, calcularea mediei pătratice are sens doar pentru serii de distribuţie cu
valori pozitive.
Exerciţiu: Calculaţi media pătratică pentru datele din exemplul de pe pagina anterioară
(notele unei grupe de studenţi la cursul de statistică).
Media armonică
n
Pentru o serie simplă de valori, media armonică se determină astfel: x h = n
1
∑x
i =1 i
n
Pentru o serie de distribuţie, media armonică se calculează astfel: x h = p
1
∑
i =1 xi
ni
Media armonică se aplică pentru cazuri speciale de serii de date, înlocuind media
aritmetică, în special în domeniul indicilor statistici. În plus, media armonică este egală cu
media aritmetică, calculată din valorile inverse ale termenilor seriei de distribuţie.
16
Datorită metodei de calcul, în determinarea mediei armonice valorile pozitive se
compensează cu cele negative.
Exerciţiu: Calculaţi media armonică pentru aceleaşi date folosite mai sus.
Media geometrică
n
Formula de calcul a mediei geometrice pentru o serie simplă este x g = n ∏x
i =1
i
p
În cazul unei serii de distribuţie, formula de calcul este x g = n ∏x
i =1
ni
i
Inegalitatea mediilor
Între mediile prezentate mai sus există următoarea relaţie de ordine: x h ≤ x g ≤ x a ≤ x p .
n i =1
În funcţie de valorile parametrului k se obţin o serie de cazuri particulare:
- pentru k=1 se obţine formula de calcul a mediei aritmetice;
- pentru k=2 se obţine formula mediei pătratice;
- pentru k=-1 se obţine relaţia de calcul a mediei armonice;
- pentru k→0 se obţine formula de calcul a mediei geometrice.
Avantajul indicatorilor medii de poziţie este oferit de faptul că aceştia ţin seama nu
numai de valorile seriei de date, dar şi de forma de distribuţie a acestora. În plus, indicatorii
medii de poziţie se pot determina şi pentru variabile nenumerice.
17
- În primul rând, se determină intervalul modal ca fiind cel cu frecvenţa cea mai
ridicată. Notăm acest interval prin IMo=[xiinf, xisup).
- Apoi, Mo se calculează folosind diverse formule de interpolare, bazate pe anumite
presupuneri. Cele mai uzitate sunt:
i) Mo =(xiinf+xisup)/2, dacă se consideră că în cadrul tuturor intervalelor, deci şi al
intervalului modal, frecvenţele sunt distribuite uniform. Prin urmare, în acest caz Mo
coincide cu centrul intervalului modal;
ii) Mo=xiinf + li∆1/(∆1+∆2), unde li=xisup-xiinf reprezintă mărimea intervalului modal,
∆1=ni-ni-1 reprezintă diferenţa dintre frecvenţa intervalului modal şi frecvenţa
intervalului precedent, iar ∆2=ni-ni+1 reprezintă diferenţa dintre frecvenţa intervalului
modal şi cea a intervalului următor. Această formulă de interpolare se aplică atunci
când se presupune că valorile din distribuţia iniţială urmează o repartiţie normală.
Observaţie: Dacă nu avem indicii privind distribuţia valorilor în cadrul intervalelor, aplicarea
uneia dintre metodele de interpolare de mai sus poate duce la rezultate eronate. De
exemplu, date fiind datele din tabel, este posibil ca valoarea 5 să apară de 28 de ori în cadrul
seriei iniţiale de date, în timp ce valorile 6 şi 7 să apară de 20, respectiv 25 ori. Calculele
precedente indică Mo ca fiind 7 sau 6,67, nu 5. Această eroare apare datorită faptului că nu
beneficiem de observaţiile originale, ci de datele agregate. Lipsa de informaţie este suplinită
de ipoteze, care pot fi adevărate sau nu.
18
- Dacă seria ordonată crescător este formată dintr-un număr par de termeni atunci, în
mod convenţional, Me se determină ca medie aritmetică între valoarea individuală
de rang n/2 şi cea de rang n/2+1.
Exemplu: În seria (13, 28, 34, 40, 58, 61), Me=(34+40)/2=37.
Observaţie: În cazul seriei simple cu număr impar de valori, mediana determinată respectă
pe deplin definiţia de mai sus, în timp ce în cazul seriei cu număr par de valori, mediana se
determină în mod convenţional şi nu respectă pe deplin definiţia dată.
În cazul unei serii de distribuţie pe intervale (când datele îşi pierd individualitatea),
Me se determină în mod aproximativ printr-un procedeu de interpolare liniară bazat pe
ipoteza repartizării uniforme a frecvenţelor în intervalul median. Procedeul de determinare a
valorii mediane se desfăşoară în următoarele etape:
- Se identifică intervalul median, cel care corespunde primei frecvenţe cumulate
crescător care depăşeşte (n+1)/2. Notăm acest interval prin IMe=[xiinf, xisup).
n + 1 i −1
− ∑nj
2 j =1
- Me se determină cu ajutorul relaţiei Me = xiinf + li , unde li=xisup-xiinf
ni
reprezintă mărimea intervalului median, ni este frecvenţa intervalului median, iar
i −1
∑n
j =1
j este suma frecvenţelor precedente intervalului median.
Vom determina valoarea mediană pentru datele din exemplul de la pagina 19 (date privind
notele obţinute la un examen). Pentru aceasta, trebuie mai întâi să calculăm frecvenţele
absolute cumulate crescător.
19
Intervalul median este [6, 8), întrucât frecvenţa cumulată Grupe ni Frecvenţe
crescător pentru acesta este prima care depăşeşte valoarea de note cumulate
(100+1)/2=50,5. Apoi, folosind relaţia de mai sus, Me=6+(8-
[2-4) 10 10
6)*(50,5-40)/45=6+2*10,5/45=6,47.
[4-6) 30 40
[6-8) 45 85
Cuartilele (cuantilele de ordinul 4)
[8-10] 15 100
Cuartilele sunt valori localizate într-o serie ordonată,
Total 100
care împart această serie în patru părţi egale, astfel încât
fiecare diviziune conţine 25% din valorile individuale
înregistrate pentru acea variabilă numerică. Procedeul de determinare a celor 3 cuartile (Q1,
Q2, Q3) este asemănător cu cel de determinare a valorii mediane.
Observaţie: Q2=Me
Mult mai rar folosite sunt decilele (cuantilele de ordinul 10) şi centilele (cuantilele de
ordinul 100). Cele 9 decile împart seria de distribuţie în 10 grupe, fiecare dintre acestea
cuprinzând 10% din numărul de observaţii, iar cele 99 de centile împart seria în 100 de
grupe, fiecare dintre acestea cuprinzând 1% din numărul de observaţii.
Indicatorii împrăştierii utilizaţi în analizele statistice sunt de mai multe feluri. Astfel,
în funcţie de numărul de variante luate în calcul (sau după gradul lor de sinteză) există
indicatori simpli şi indicatori sintetici.
20
Indicatorii simpli ai dispersării sunt măsuri statistice obţinute dintr-un număr redus
de valori individuale, în general prin compararea sub formă de diferenţă cu indicatorul
tendinţei centrale, fapt pentru care se exprimă în unitatea de măsură a variabilei observate.
Un exemplu de indicator simplu al dispersării este amplitudinea seriei, calculată în valoare
absolută (xmax-xmin) sau în procente, relativ la media seriei de distribuţie. Un alt exemplu îl
reprezintă abaterea intercuantilică, calculată ca diferenţă între cuantila superioară şi cea
inferioară, ambele având acelaşi ordin. Întrucât informaţiile despre variabilitate oferite sunt
relativ reduse, indicatorii simpli ai împrăştierii sunt folosiţi destul de rar.
Spre deosebire de indicatorii simpli, indicatorii sintetici ai împrăştierii exprimă printr-
o singură valoare numerică variaţia tuturor valorilor individuale faţă de tendinţa centrală. La
baza determinării indicatorilor sintetici stau abaterile individuale dar, pentru a se evita
compensarea celor cu valori pozitive cu cele cu valori negative, abaterile vor fi luate în
modul sau se va opera cu pătratele acestora. Principalii indicatori sintetici ai împrăştierii faţă
de tendinţa centrală sunt abaterea medie absolută, dispersia, abaterea medie pătratică şi
coeficientul de variaţie.
Exemplu: Se consideră seria simplă (1,2,4,5,7,8,9,10,11,13). Media acestei serii este 7, iar
mediana este 7,5. Tabelul de mai jos conţine abaterile absolute faţă de medie şi mediană,
precum şi sumele corespunzătoare.
xi 1 2 4 5 7 8 9 10 11 13 Total
|xi-7| 6 5 3 2 0 1 2 3 4 6 32
|xi-7,5| 6,5 5,5 3,5 2,5 0,5 0,5 1,5 2,5 3,5 5,5 32
Potrivit formulelor de mai sus, d x = d Me = 3,2 . Această egalitate nu are loc foarte
frecvent, în general cei doi indicatori având valori distincte. De fapt, d Me ≤ d x .
21
Dispersia (varianţa)
Varianţa unei serii de distribuţie se calculează ca medie aritmetică a pătratelor
abaterilor valorilor individuale de la media aritmetică a acesteia.
Prin urmare, pentru o serie simplă de repartiţie, formula de calcul a dispersiei este
n p
2
∑ (x
i =1
i − x) 2
2
∑ (x
i =1
i − x ) 2 ni
σ = , iar pentru o serie de distribuţie de frecvenţe σ = .
n n
Date fiind aceste formule, se poate observa că, la fel ca în cazul mediei, dispersia
este sensibilă la prezenţa valorilor aberante.
Varianţa este un indicator intermediar pentru aprecierea gradului de dispersare al
unei serii de distribuţie. Acest indicator sintetic al împrăştierii nu se exprimă într-o unitate
concretă de măsură (se exprimă în pătratul unităţii de măsură a seriei), iar mărimea varianţei
este influenţată direct de ordinul de mărime al valorilor seriei de distribuţie (varianţa nu este
o măsură normalizată). De exemplu, dacă valorile individuale ale unei serii sunt multiplicate
cu 10, valoarea calculată a varianţei va fi de 100 de ori mai mare decât cea obţinută din
datele originale.
Pentru o serie de distribuţie simplă sau de frecvenţe, cu cât valoarea varianţei este
mai apropiată de zero, cu atât dispersarea acestei serii în jurul mediei este mai redusă
(varianţa unei serii de valori constante este egală cu zero).
Temă: Calculaţi valoarea varianţei pentru datele din exemplul de pe pagina precedentă.
Pentru o populaţie împărţită în p grupe, dacă σ2x reprezintă varianţa totală, calculată
pentru ansamblul seriei, σ2xi, cu i=1, 2, ..., p reprezintă varianţele la nivelul grupelor, ni
reprezintă numărul de valori din cadrul fiecărei grupe i, iar x i media caracteristicilor la
nivelul grupei i, atunci
p p
∑ σ xi2 ni ∑ (x i − x) 2 ni
σ x2 = i =1
+ i =1 2
= σ int 2
+ σ ext
n n
σ2int reprezintă media varianţelor grupelor. Aceasta cuantifică dispersia din interiorul
grupelor, deci dispersia datorată acţiunii factorilor locali, ce au impact la nivelul grupelor.
σ2ext, varianţa mediilor de grupă, este un indicator al dispersării acestor medii în jurul mediei
seriei de date. σ2ext cuantifică deci dispersarea datorată factorului de grupare, prin
intermediul acestui factor măsurându-se disimilarităţile dintre grupe.
Pe baza egalităţii de mai sus a fost enunţată regula de adunare a dispersiilor, care
spune că dispersia totală este egală cu suma dintre media dispersiilor şi dispersia mediilor.
Următorii indicatori relativi sunt calculaţi şi interpretaţi în practica statistică:
o Coeficientul de determinare, k1=σ2ext/σ2x. Acest indicator măsoară influenţa
factorului de grupare, în funcţie de care s-a structurat colectivitatea generală, asupra
varianţei caracteristicii urmărite.
o Coeficientul de nedeterminare, k2=σ2int/σ2x=1-k1. Acest indicator exprimă măsura în
care variaţia caracteristicii urmărite (dispersia totală) este influenţată de variaţia
factorilor aleatori, care acţionează în interiorul subcolectivităţilor.
22
Exemplu: Considerăm valorile variabilei X (productivitatea muncii) pentru două grupe (două
secţii ale unei întreprinderi), sub forma seriilor următoare:
Grupa A (20, 30, 27, 9, 6, 40, 50, 32, 39, 43, 26, 15, 18), n1=13
Grupa B (10, 20, 31, 37, 39, 40, 20, 6, 8, 25, 31, 10, 10, 22, 21, 30, 5), n2=17
23
Dacă notăm p=P/N, atunci dispersia variabilei binare poate fi scrisă ca p(1-p), reprezentând
produsul dintre ponderea în totalul unităţilor populaţiei a unităţilor care posedă
proprietatea şi ponderea unităţilor care nu posedă acea proprietate.
24
media şi abaterea standard calculate pentru o serie ce se referă la vânzarea unui produs, cu
valori exprimate fizic, cu măsurile similare ale altei serii exprimate în unităţi monetare.
Coeficientul de variaţie înlătură acest inconvenient, întrucât este o mărime
adimensională ce se calculează prin raportarea abaterii standard la nivelul mediu al seriei de
distribuţie: CV = σ / x ⋅100.
Datorită modului de calcul, o valoare mai mică a coeficientului de variaţie va indica o
omogenitate ridicată a seriei supuse analizei. În practică se consideră că CV<30-35%
reprezintă o colectivitate omogenă, în timp ce CV<17% reprezintă o populaţie foarte
omogenă.
Coeficientul de variaţie este şi un indicator al reprezentativităţii mediei. Astfel, dacă
valoarea acestui coeficient este sub pragul de 30-35% (în mod ideal sub 17%), caz în care
colectivitatea este apreciată drept omogenă (foarte omogenă), acest lucru indică existenţa
unei singure tendinţe în cadrul seriei, ceea ce înseamnă că media calculată are semnificaţia
dorită (este o măsură reprezentativă pentru tendinţa centrală a seriei de distribuţie).
25
n + 1 i −1
− ∑nj
2 j =1
Formula pentru determinarea medianei este Me = xiinf + li , fapt pentru care
ni
Me=5+(70,5-59)/64=5+11,5/64=5,18 (mii lei).
Abaterea medie absolută faţă de media aritmetică este 121,02/140=0,864 (mii lei).
(Nu am mai calculat abaterea medie absolută faţă de mediană, dar aceasta se poate
determina în mod similar.)
1 p
Formula de calcul a dispersiei este σ 2 = ∑
n i =1
( xi − x) 2 ni = 159,993 / 140 = 1,143 .
Abaterea medie pătratică se calculează ca radical din dispersie, deci σ=1,069 (mii lei).
Coeficientul de variaţie se calculează conform formulei CV = σ / x ⋅100, fapt pentru care
CV=1,069/5,09*100=21%.
Întrucât coeficientul de variaţie este inferior pragului de 30%, populaţia care a produs seria
de distribuţie de mai sus poate fi considerată drept omogenă. Prin urmare, media aritmetică
determinată anterior (5,09 mii lei) poate fi folosită cu încredere drept o măsură a tendinţei
centrale a seriei de distribuţie.
Indicatori ai asimetriei
O distribuţie este simetrică dacă valorile sale, reprezentate prin frecvenţe (absolute
sau relative), sunt egal dispersate de o parte şi de alta a valorii centrale. Într-o distribuţie
simetrică, cele trei valori cu care se exprimă tendinţa centrală, valoarea modală (Mo),
mediană (Me) şi medie ( x ), sunt egale. Distribuţiile mai pot fi asimetrice spre dreapta, caz în
care x < Me < Mo , sau asimetrice spre stânga, caz în care Mo < Me < x.
26
Coeficientul de asimetrie Yulle-Kendall, definit pe baza celor trei cuartile ale seriei
(Q3 − Me) − ( Me − Q1 )
de date. Relaţia de calcul este C asYK = .
(Q3 − Me) + ( Me − Q1 )
Valoarea CasYK este cuprinsă în intervalul [-1, 1]. Semnul coeficientului indică direcţia
asimetriei. Astfel, CasYK>0 indică asimetrie spre stânga, respectiv etalarea frecvenţelor în
partea dreaptă a distribuţiei (altfel spus “coada” din dreapta a distribuţiei este mai lungă
decât “coada” din stânga), în timp ce CasYK<0 indică asimetrie spre dreapta, respectiv etalarea
frecvenţelor în partea stângă a distribuţiei. CasYK=0 este caracteristică unei serii simetrice
(pentru care cuartilele sunt echidistante).
În afara semnului CasYK, mărimea acestui coeficient indică intensitatea asimetriei.
Astfel, o valoare absolută a acestui coeficient sub 0,1 corespunde unei serii moderat
asimetrice, în timp ce |CasYK|>0,3 indică o serie cu un pronunţat caracter asimetric.
Coeficientul de asimetrie Yulle-Kendall nu poate fi utilizat în compararea asimetriei
mai multor serii de distribuţie de frecvenţe.
27
indică faptul că seria de distribuţie este simetrică. Intensitatea asimetriei seriei de distribuţie
este indicată de mărimea coeficientului CasF.
Indicatori ai aplatizării
O serie de distribuţie este aplatizată dacă la variaţii mari ale valorii caracteristicii
observăm variaţii limitate ale frecvenţelor. Aprecierea gradului de aplatizare (de boltire) a
seriei se face, într-o primă etapă, prin compararea curbei frecvenţelor acesteia cu cea a
repartiţiei normale (Gauss-Laplace) ce are aceeaşi medie şi abatere standard cu a seriei de
date investigate. Acest raţionament este vizualizat în figura de mai jos, unde curba indicată
prin linia roşie continuă este curba normală (denumită şi mezocurtică), cea indicată prin linia
albastră punctată este o curbă leptocurtică, iar cea indicată de linia mov punctată fin este o
curbă platicurtică. Rădăcinile etimologice ale denumirilor utilizate sunt greceşti: kurtos =
cocoşat, platys = larg, lat, leptos = îngust, subţire.
28
Coeficientul lui Fisher pentru aplatizare, o transformare a coeficientului lui Pearson.
Astfel, CapF= μ4/μ22-3=CapP-3, interpretarea acestui indicator fiind evidentă.
Teste grilă
Se cunosc datele din tabelul alăturat, care vor fi folosite pentru Grupe de Număr de
întrebările 6, 7 şi 8. vârstă observaţii
6. Valoarea modală a acestor date este… [10-20) 16
[20-30) 12
a) 15 b) 20 c) 35 d) 45 e) 55
[30-40) 7
[40-50) 13
7. Media aritmetică a acestor date este... [50-60] 8
a) 11,2 b) 32,3 c) 35 d) 56 e) 16
29
9. Valoarea mediană se poate determina pentru variabile calitative nominale? a) Da b) Nu
13. Dacă o distribuţie este anormal de înaltă şi îngustă, atunci această distribuţie se spune că
este… a) mezocurtică b) platicurtică c) leptocurtică d) pirocurtică e) simetrică
14. Dacă o serie de date este caracterizată de o medie egală cu 14 şi de o abatere standard
egală cu 5, care este valoarea coeficientului de variaţie?
a) 2,8% b) 60,4% c) 48,3% d) 35,7% e)27,8%
15. Care dintre următoarele măsuri nu reprezintă indicatori ai dispersării unei serii de date?
a) abaterea medie absolută b) amplitudinea c) varianţa d) abaterea medie pătratică
e) cuartilele
16. Care este valoarea mediană în seria (40, 61, 13, 20, 6, 5, 34, 18, 2, 19, 10)?
a) 13 b) 18 c) 19 d) 19,5 e) acest indicator nu se poate calcula pentru seria dată
17. Care este valoarea modală în seria (40, 61, 13, 20, 6, 5, 34, 18, 2, 19, 10)?
a) 13 b) 18 c) 19 d) 19,5 e) acest indicator nu se poate calcula pentru seria dată
Se cunosc datele din tabelul alăturat, care vor fi folosite pentru întrebarea X Y
18. 12 31
17 47
18. Care este abaterea standard a lui X, respectiv a lui Y? 24 39
a) 70,24, respectiv 28,16 b) 8,38 respectiv 5,31 c) 23,4 respectiv 39,2 28 42
d) 24, respectiv 16 e) aceşti indicatori nu se pot calcula pentru aceste date 36 37
20. Abaterea standard este: a) numită şi abatere medie pătratică b) o măsură a împrăştierii
c) un indicator aproximativ al felului în care valorile individuale variază în jurul mediei
d) rădăcină pătrată din dispersie e) toate cele de mai sus
30
Datele din tabelul alăturat vor fi folosite pentru întrebările 22 şi
Frecvenţe
23. Intervale relative
22. Care este frecvenţa relativă pentru cel de-al treilea interval? cumulate
[0, 5) 0,23
a) 0,41 b) 0,59 c) 0,11 d) 1 e) 0,07
[5, 10) 0,34
[10, 15) 0,41
23. Dacă aceste date sunt calculate pe baza a 800 de observaţii, [15, 20] 1
care este frecvenţa absolută pentru cel de-al doilea interval?
a) 34 b) 272 c) 80 d) 88 e) 456
24. Un eşantion de 99 de distanţe are o medie de 24km şi o mediană de 24,5km. Din păcate,
s-a descoperit ulterior măsurătorilor că o observaţie care fusese în mod eronat înregistrată
drept “30km” avea în realitate o valoare de 35km. Dacă se face această corectură asupra
datelor, atunci:
a) media rămâne neschimbată, dar mediana va creşte
b) atât media, cât şi mediana rămân neschimbate
c) mediana rămâne neschimbată, dar media creşte
d) atât media, cât şi mediana vor creşte
e) nu putem aprecia cum vor fi afectate media şi mediana, dar sigur dispersia va creşte
25. Scorurile la un test de statistică pentru o grupă de 17 studenţi au fost: 4, 6, 7, 7, 9, 10, 11,
13, 14, 15, 15, 15, 17, 17, 19, 19, 20. După ce s-au calculat media, mediana şi valoarea
modală, s-a descoperit o eroare: un student despre care se ştia că obţinuse un scor egal cu
15 obţinuse de fapt un scor egal cu 17. Indicatorii tendinţei centrale care vor fi afectaţi de
această modificare sunt: a) doar media b) doar valoarea modală c) doar mediana d)
mediana şi valoarea modală e) toţi trei indicatorii
27. În cadrul unui studiu, un om de ştiinţă a cântărit 30 de peşti, obţinând o medie de 30g şi
o abatere standard de 2g. După efectuarea acestor măsurători, cercetătorul şi-a dat seama
că folosise un cântar descentrat, care indica greutăţi mai mici cu 2g faţă de realitate (de
exemplu, pentru un peşte care cântărea în realitate 26g, cântarul a indicat 24g). Date fiind
aceste informaţii, care sunt valorile mediei şi abaterii standard după ce s-a corectat eroarea
de cântărire? a) 28g, 2g b) 30g, 4g c) 32g, 2g d) 32g, 4g e) 28g, 4g
Răspunsuri:
1. a, 2. e, 3. a, 4. d, 5. c, 6. a, 7. b, 8. b, 9. b, 10. a,
11. b, 12. b, 13. c, 14. d, 15. e, 16. b, 17. e, 18. b, 19. a, 20. e,
21. d, 22. e, 23. d, 24. c, 25. a, 26. d, 27. c.
31