Documente Academic
Documente Profesional
Documente Cultură
I. Introducere
Obiectul de studiu pe care vi-l propunem în cadrul acestui curs este acela al
statisticii, o disciplină ştiinţifică care se ocupă cu analiza, interpretarea şi sintetizarea
datelor numerice (statistice). Încă din cele mai vechi timpuri statistica a fost inclusă în
cadrul mai general al ştiinţelor sociale, însă începând cu secolul trecut ea a trecut treptat
şi în sfera ştiinţelor naturale. Tocmai de aceea astăzi ea se distinge sub titulatura de
statistică economico-socială vizându-se din start aspecte foarte concrete ale realităţii
sociale imediate. Trebuie să subliniem că în sfera noastră de interes intră în primul rând
statistica socială pe care o putem gândi ca o ramură de sine stătătoare a statisticii deşi, în
fapt, nu se pot face despărţiri nete între statistica socială şi cea economică. Considerăm
totuşi că orice analist social trebuie să stăpânească ramura socială a statisticii, ramură
care ar include după V. Şora, I. Hristache, C. Mihăilescu [1996; 428]: statistica
populaţiei, statistica muncii şi asistenţei sociale, statistica sănătăţii, statistica
gospodăriei comunale şi de locuinţe, statistica învăţământului, ştiinţei şi culturii,
statistica justiţiei şi ordinii publice, statistica mediului înconjurător, statistica
organizațiilor politice, de masă şi obşteşti, statistica nivelului de trai şi a calităţii vieţii
etc. Toate aceste domenii pot face oricând obiectul unor cursuri separate ceea ce ne
determină să ne limităm doar la câteva elemente de bază ale statisticii, urmând ca cei
interesaţi să le aplice mai departe pe anumite domenii distincte. (avertizăm lectorul că
este necesară în această întreprindere reluarea unor cunoştinţe matematice de bază).
Încercând din nou să definim statistica, putem spune odată cu V. Trebici [1985; 16] că
aceasta este ştiinţa care se ocupă cu descrierea şi analiza fenomenelor de masă,
dezvăluind particularităţile lor de volum, structură, dinamică, conexiune, precum
şi regularităţile sau legile ce le guvernează.
Pentru sociologie sau asistenţă socială importantă este focalizarea statisticii asupra
proceselor şi fenomenelor sociale. În acest caz obiectul statisticii se va mărgini la
colectivităţile umane şi mai puţin la realităţile economice, deşi nu se poate face
abstracţie de acestea. Statistica socială este interesată şi de tipurile de mişcări care duc
la transformări în întreaga viaţă socială. Principiul metodologic al statisticii sociale
este regăsit şi în tehnica principală a sociologiei aceasta fiind observaţia faptică sau
observaţia socială.
Nu întâmplător etapele cercetării statistice se apropie, cu diferenţele de rigoare de
etapele unei investigaţii sociologice. Al. Bărbat [1972] schiţează etapele unei astfel de
cercetări:
a) pregătirea cercetării (documentare, metodologie, instrumente de lucru)
b) recoltarea datelor statistice
c) prelucrarea datelor
d) analiza indicatorilor statistici.
Categoriile cu care operează însă statistica socială se referă la mărimile care măsoară
nivelul mediu al unei caracteristici într-o colectivitate, mărimi care arată structura unei
colectivităţi pe grupe de elemente, mărimi care măsoară în timp variaţia fenomenelor
sociale, mărimi care privesc relaţiile între fenomene etc. Criteriul de bază este acela de
caracterizare “în medie” a fenomenelor colective.
Autorul mai sus citat ne dă şi o definiţie a statisticii sociale. Astfel aceasta este
ştiinţa care se ocupă de formele de mişcare privind evoluţia curentă-continuă a
colectivităţilor şi proceselor sociale având ca scop elaborarea unui sistem de indicatori
numerici cu caracter de mărimi reprezentative prin care se acumulează informaţia
statistică şi se scot în evidenţă legităţile specifice ale variaţiei şi legăturilor în lumea
fenomenelor sociale.
Din cele spuse până acum se deduce că statistica în general culege şi prelucrează:
1. Date cu privire la populaţie (numărul, structura şi repartiţia teritorială
a acesteia, procese demografice, etc.)
2. Date economico-sociale (agenţi economici, activităţi social-culturale,
ramurile şi economia naţională în ansamblu etc.)
Ambele direcţii privesc însă fenomenele sociale în ansamblu şi tocmai de aceea
statistica socială este totuşi greu de diferenţiat net faţă de statistică în general. De
exemplu, o analiză sociologică poate utiliza date de statistică industrială, agricolă,
sanitară etc. Caracterul “social” al statisticii îl putem mai degrabă sublinia prin
exemplele folosite sau prin sprijinul dat unor metode curent folosite în sociologie
(eşantionări, analiza raportului între variabile, analiza path, analiza cluster etc.). În
concluzie se poate vorbi despre o ştiinţă unică, statistica iar abordările pot fi
preponderent economice sau preponderent sociale.
Termeni cheie:
statistică; statistică socială; perioada pre-statistică; perioada descriptivă;
aritmetica politică; perioada probabilistă; perioada modernă a statisticii
Teme de verificare
1. Lecturaţi volumul Descriptio Moldavie de Dimitrie Cantemir şi observaţi în ce
măsură se încadrează în etapa statisticii descriptive!
?
2. Lecturaţi unul din studiile monografice a lui Ion Ionescu de la Brazi şi observaţi
cum înţelege el să aplice tehnica monografică!
3. Pentru alte date privind istoria statisticii lecturaţi C. Moineagu, I. Negur, V.
Urseanu, Statistica, Ed. Ştiinţific şi Enciclopedic, Bucureşti, 1976, pp. 13-39
II. Noţiuni de bază în statistica socială
Prin această noţiune desemnăm un element din mulţimea statistică. Acest element
poate fi simplu (un student, o locuinţă, o opinie etc.) sau complex (o familie, o
întreprindere etc.).
În orice cercetare statistică se obţin date asupra unor caracteristici bine precizate
ale unităţilor statistice. Dacă aceste unităţi au unele caracteristici considerate în cadrul
cercetării ca fiind fixe, altele sunt considerate ca variind de la o unitate la alta de unde şi
denumirea de variabilă. De exemplu dacă unităţile statistice sunt reprezentate de
cetăţenii români cu drept de vot, între aceştia apar diferenţieri după sex, venit,
apartenenţă religioasă, profesie, nivelul de educaţie, număr de copii, opţiunea politică
etc. Toate acestea din urmă sunt caracteristici sau variabile statistice. Fiecare din
variabile se distinge prin mulţimea valorilor pe care le ia. După cum se vede şi din
enumerarea de mai sus aceste variabile se exprimă prin mărimi total diferite ceea ce a
impus clasificarea lor de o manieră precisă. Astfel, pentru Michèle Colin et alii [1995;
32] variabilele sunt de două feluri:
· calitative (desemnează feluri de a fi: sex, culoarea ochilor, opiniile etc.)
· cantitative (provin dintr-o măsurare: talia, greutatea, vârsta etc.)
Obs: intuitiv diferenţa dintre cele două tipuri ar putea fi dată de modul cum parcurgem,
în matematică mulţimea R, a numerelor reale şi mulţimea N, a numerelor naturale!
Diferenţa dintre cele două scale este importantă. Astfel, în cazul scalei de
intervale gradaţia de început (ex. 00 Celsius) este convenţională pe când în cazul scalei
de raporturi gradaţia de început este reală (ex. venitul de 0 lei desemnează lipsa oricărei
surse financiare). O altă diferenţă provine din faptul că scala de intervale nu ne permite
să stabilim raporturi între valorile unei variabile (de ex. nu putem spune că la
temperatura de 400 Celsius este de 40 de ori mai cald decât la temperatura de 10
Celsius). În cazul celei de-a doua scale se pot stabili aceste raporturi (de ex. un individ
de 100 de Kg. este ce două ori mai greu decât unul de 50 Kg.). Având în vedere că
diferenţele dintre aceste scale sunt imediat percepute rareori pot apare anumite confuzii.
Se impune totuşi precizarea că unii indicatori statistici nu au sens prin folosirea de scale
de intervale.
Încercând o recapitulare iată cum arată o tabelare a variabilelor după Michèle
Colin [1995;34]:
Termeni cheie
populaţie statistică; unitate statistică; variabilă cantitativă; variabilă
calitativă; scală nominală; scală ordinală ; scală de intervale; scală de
raporturi
Teme de verificare
?
1. Studiem rata şomajului anual în România între 1991-2016. Să se precizeze:
populaţia statistică, unitatea statistică, eşantionul, variabila, valorile acestei
variabile, tipul de scală folosit şi tipul de variabilă.
2. 250 de elevi de la liceele din Iaşi sunt testaţi la limba engleză, rezultatele fiind
consemnate ca valori întregi între 0 şi 100. Să se precizeze: populaţia statistică,
unitatea statistică, eşantionul, variabila, valorile acesteia, scala folosită, tipul de
variabilă.
Seria statistică este, după accepţia lui Al. Bărbat [1972] o mulţime de date grupate
după unul din criteriile generale din statistică: grupare în timp, grupare în spaţiu şi
grupare calitativă (autorul subsumează aici şi seriile cantitative!). Grafic, seria statistică
se prezintă sub forma a două coloane sau linii care cuprind:
1. variaţia variabilei respective
2. frecvenţele corespunzătoare fiecărei grupe de valori a variabilei.
Seria statistică stă la baza calculelor, tabelelor şi graficelor statistice şi poate fi de două
feluri:
a) serie pe variante (când variabilele sunt de tip discret, deci iau un nr. finit de valori)
b) serie pe intervale (când variabilele sunt de tip continuu)
Observaţie: şi variabilele de tip discret pot fi supuse grupărilor pe intervale (de ex.
notele la un test pot fi grupate pe categoriile 20-40, 40-70, 70-100).
Exemple:
a). Serie pe variante forma generală:
Note obţinute Nr. de
Variabila X Frecvenţele fi
la examen studenţi
5 3 x1 f1
6 8 x2 f2
7 10 x3 f3
8 15 . .
9 6 . .
10 4 . .
Total 46 xi fi
. .
. .
xn fn
Total S fi
Total Sfi
Lectura unor astfel de tabele este deosebit de simplă iar modul lor de construire se
raportează la o problemă de ordin practic, care va facilita analiza statistică. Aceste tipuri
de serii statistice le putem găsi în lucrările de specialitate şi în reprezentare orizontală.
Iată un exemplu pentru o serie calitativă pe variante: medaliile obţinute de români la
Jocurile olimpice între 1896 şi 1998:
Canotaj
Disci- Gimnas-
Caiac- Atletism Lupte Tir Haltere Box Scrimă Altele Total
plină tică
canoe
Nr.
51 60 26 32 13 11 22 11 14 240
medalii
Sursa: Anuarul statistic al României, 1998, p.330
Iată acum alt exemplu pentru serii pe intervale: distribuţia femeilor căsătorite în anul
2016 în funcţie de categorii de vârstă:
sub 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 peste 60
Vârsta Total
20 ani ani ani ani ani ani ani ani ani ani
Frec-
7464 34214 46021 20730 10936 5864 4121 1701 1113 1019 133183
venţe
Sursa: INSSE.
· serii spaţiale (ne arată diverse date statistice dispuse după unităţi de spaţiu
sau de teritoriu)
De exemplu: consumul anual de energie pe cap de locuitor (KWh), în 1999:
Ţara Cehia Ungaria Polonia Bulgaria F. Rusă România Croaţia
Consum 5656 3604 3532 4892 5661 2621 2965
Sursa: ABN Amro
La acestea se pot adăuga seriile statistice mai complexe obţinute fie din
combinarea unor serii cu o singură variabilă fie prin analizarea unor tabele cu mai multe
variabile sau prin încrucişarea variabilelor dihotomice (ex: sex), trihotomice etc. În ce
ne priveşte ne vom rezuma în cea mai mare parte din aceste pagini la analiza univariată
adică a variabilelor care distribuie o singură valoare unei unităţi statistice sau unui
interval al caracteristicii. Cât priveşte reprezentarea seriilor statistice este recomandat ca
vizualizarea tabelelor să fie cât mai sugestivă incluzând tema, sursa de date, unităţile de
măsură, numerotarea acestora etc.
Pentru a exemplifica aceste precizări să luăm în discuţie o serie citată mai sus:
Ani de vechime Mai puţin
6-10 10-14 14-18 Peste 18 Total
în muncă de 6
Număr de
6 7 9 3 4 29
angajaţi
În exemplele de până acum intervalele utilizate erau de obicei egale dar pot fi
alese şi inegale în funcţie de scopul cercetării. În general mărimea şi numărul acestor
intervale sunt foarte importante. Iată un exemplu negativ dat de T. Rotariu [1999; 32]:
Tabel. Distribuţia comunelor din România după numărul de locuitori, în 1995
Intervale
Sub 1000 1000-1999 2000-4999 5000-9999 10.000 şi peste Total
de mărime
Plecând de la acest exemplu trebuie spus că în orice serie statistică deşi este
uneori importantă intuiţia autorului, este util să se calculeze mărimea intervalelor. Acest
calcul se face astfel:
· se calculează mai întâi Amplitudinea variaţiei= Xmax – Xmin (diferenţa dintre
capetele extreme ale tuturor intervalelor)
· se împarte amplitudinea la numărul de intervale ales cu formula:
Xmax – Xmin
i=
nr. de grupe
Xmax – Xmin
însă de obicei se foloseşte formula lui Sturges: i = , formulă în care
1+ 3,322* lg n
lg n reprezintă logaritmul zecimal din n (nr. unităţilor statistice).
Exemplu de calcul:
Frecvenţele pe care le-am întâlnit până acum se mai numesc frecvenţe absolute
reprezentând valori efective înregistrate în cazul fiecărei variante. Există însă situaţii
când trebuie să facem aprecieri asupra unor frecvenţe ca fiind părţi dintr-un întreg.
Acest întreg poate fi considerat alcătuit din 1, 10, 100, 1000, etc. de unităţi. Pentru 1 se
obţin părţi dintr-un întreg şi care adunate dau 1, la fel pentru 10. Pentru 100 rezultatele
obţinute se numesc procente şi sunt cel mai des utilizate în statistică. Pentru 1000
rezultatele se numesc promile cu semnul ‰. Calculul efectiv se face prin regula de trei
simplă după fiecare caz. Se obţin astfel ceea ce numim frecvenţe relative care
desemnează proporţia indivizilor care intră într-o clasă sau alta!
După cum se observă din săgeţi prima frecvenţă se scrie identic apoi se adună cu
următoarea pe diagonală şi tot aşa până la rezultatul final, în mod obligatoriu egal cu
suma frecvenţelor (aici 200)! Făcând aceste calcule putem aprecia de exemplu că 100 de
firme au cifra de afaceri de până în 40 de miliarde sau în procente că 50% din firmele
respective au afaceri de până în acea sumă! Operaţii similare se pot face pentru seria
respectivă însă în sens invers, ascendent!
Grupe de firme
(după cifra de Frecvenţe Frecvenţe Frecvenţe Frecvenţe relative
afaceri în absolute absolute cumulate relative cumulate
miliarde lei)
10-20 10 200 5 100
20-30 30 190 15 95
30-40 60 160 30 80
40-50 80 100 40 50
50-60 20 20 10 10
Total 200 - 100 -
Din acest tabel se poate vedea că însumarea se face de jos în sus, ultima frecvenţă este
lăsată pe loc apoi este adunată cu frecvenţa de mai sus etc., rezultatul cumulării trebuind
să fie suma tuturor frecvenţelor . După aceste calcule se poate citi de exemplu că 160 de
firme au o cifră de afacere de peste 30 de miliarde sau, procentual, că 80% dintre firme
au o cifră de afaceri de peste 30 de miliarde!
Termeni cheie:
serie statistică, serie pe variante, serie pe intervale, serii cronologice, serii spaţiale,
formula lui Sturges, frecvenţe relative, frecvenţe cumulate.
Teme de verificare
1. Într-o întreprindere s-au
au notat vârstele celor care lucrau într
obţinute au fost următoarele:
într-o
o anumit secţie. Datele
?
53, 46, 50, 43, 52, 43, 50, 45, 56, 42
43, 34 , 45, 46, 47, 49, 45, 44, 48, 48
36, 44, 38, 47, 42, 46, 43, 55, 44, 42
42, 48, 38, 54, 40, 44, 46, 48, 41, 49
55, 45, 47, 34, 43, 41, 41, 46, 43, 46
47, 46,
6, 44, 44, 47, 48, 40, 48, 49, 42
48, 43, 46, 42, 50, 44, 55, 41, 55, 43
50, 46, 42, 44, 44, 43, 42, 41, 43, 54
49, 44, 47, 48, 50, 34, 48, 52, 44, 45
43, 42, 49, 55, 45, 55, 55, 44, 46, 58.
2. Într-un
un sondaj de opinie un grup de studenţi din Universitate au fost interogaţi asupra
gradului lor de mulţumire privind ivind forma de învăţământ pe care o urmează.
Răspunsurile au fost următoarele:
Opinia despre învăţământ Număr de studenţi
Foarte mulţumiţi 87
Mulţumiţi 48
Nici mulţumiţi/Nici nemulţumiţi 32
Puţin mulţumiţi 20
Nemulţumiţi 13
Total 200
Întrebări: Care este variabila? Care este tipul de variabilă şi de scală? Este vorba de o
populaţie sau de un eşantion? Care este unitatea statistică? Care este procentaj
procentajul
ul celor
care nu sunt mulţumiţi? Alcătuiţi coloanele cu frecvenţele cumulate şi comentaţi
comentaţi-le!
Nu stiu, nu raspund
20% 20%
63% 63%
În sectorul privat
17% 17%
În sectorul de stat
III. Grafice utilizate în analizele statistice
Acest tip de grafice, numite şi grafice sectoriale sau diagrame de structură, sunt
reprezentate de obicei prin împărţirea unui cerc sau dreptunghi în sectoare
proporţionale ca mărime plecând de la considerarea lor ca 100% (în cazul cercului se
ia în calcul şi nr. de grade - 360).
Exemplul 1: Răspunsurile în cadrul unui sondaj de opinie la întrebarea “După părerea
dv. cei mai mulţi oameni care sunt corupţi se află…. ?” Prezentăm două variante, pe
care le puteți vedea pe pagina anterioară.
Exemplul 2: Diagramă sub formă de dreptunghi: Forme de învăţământ absolvite pentru
persoanele de peste 10 ani?
Postliceale 3%
Liceu 67%
CDR 22%
PDSR 39%
PRM 10%
PD 7%
APR 11%
UDMR 6%
Altele 5%
În cazul unor variabile discrete putem folosi graficul cu bare verticale la fel ca la
variabile calitative.. Valorile (modalităţile) sunt plasate pe orizontală în timp ce
frecvenţele sunt pe axa verticală (vezi exemplul 4). În cazul variabilelor cantitative
continue există o varietate largă de grafice. Acestea sunt: histograma, poligonul de
frecvenţă şi curba
ba frecvenţelor cumulate
cumulate.
Exemplul 4:
Care este situaţia donaţiilor din sponsori ?
15
16 13 13
14
12
Numărul de 10
sponsori 8 7 7
6
4 5 5
3
2 2
0
20 35 50 65 80 95 110 125 130
b. Poligonul frecvenţelor
sau
Obs. 1: Din modul cum este construit acest poligon se observă că aria cuprinsă între axa OX şi
linia poligonală este egală cu aria pe care o au toate dreptunghiurile histogramei!
Obs. 2: Construcţia grafică este identică şi pentru serii statistice cu intervale neegale.
c. Curba frecvenţelor cumulate
Acest grafic este direct legat de frecvenţele cumulate fie ele absolute fie relative
fie în sens crescător fie în sens descrescător. Curba ascendentă obţinută se mai numeşte
ogivă iar cea descendentă poartă denumirea de ogiva lui Galton.
De exemplu: într-un cartier de locuinţe se desemnează o serie statistică repartizând
familiile după spaţiul locuit (în m2 ):
Spaţiul locuibil ( m2) Nr. de familii F↓ F↑
48,0-48,9 8 8 100
49,0-49,9 13 21 92
50,0-50,9 25 46 79
51,0-51,9 26 72 54
52,0-52,9 17 89 28
53,0-53,9 11 100 11
Total 100 - -
Valorile din acest tabel au fost obţinute după regulile simple pe care le-am
prezentat deja. Lectura datelor se dovedeşte foarte utilă pentru analizele statistice. Astfel
din coloana F↓ putem citi faptul că de ex. 46 de familii au o suprafaţă locuibilă de până
în 50,9 m2. Din cealaltă coloană putem afla că de ex. 54 de familii au suprafaţa locuibilă
de peste 51 m2. Se observă că la coloana F↓, lectura se bazează pe termenii din dreapta
ai intervalelor seriei pe când la coloana F↑ lectura se bazează pe termenii din stânga
intervalelor. Graficele se fac după combinarea primei coloane de date cu cele
corespunzătoare lui F↓ şi F↑. Graficele arată astfel:
100 100
80 80
60 60
40 40
20 20
48 49 50 51 52 53 54 48 49 50 51 52 53 54
Graficul pentru F↓ Graficul pentru F↑
III.3. Alte tipuri de grafice
6
5
5 555
6 4
3
3 4 2
2 1
1
Obs.: în tabelul de mai sus ultima coloană este formată din rădăcinile pătrate din
valorile reale, operaţie făcută doar pentru a uşura reprezentarea grafică. Radicalul
reprezintă proporţional laturile pătratelor din grafic. Importantă este deci proporţia
ariilor şi nu dimensiunile exacte. Cel de-al doilea grafic, cu cercuri concentrice se referă
la aceleaşi date din tabel. Aceleaşi date puteau fi folosite pentru diverse obiecte în
miniatură (ziarele cu ştiri economice folosesc deseori astfel de grafice).
Termeni cheie:
grafice pentru variabile calitative, histogramă, poligonul frecvenţelor, curba
frecvenţelor cumulate, diagrama semicirculară, diagrama prin suprafeţe.
4. Construiţi curbele frecvenţelor cumulate pentru seria următoare care conţine numărul
de ore consacrat de către un grup de copii pregătirii temelor :
Dintre toate acestea, media aritmetică, mediana şi modul se mai numesc mărimi
medii fundamentale, celelalte fiind considerate mărimi medii cu aplicaţii speciale.
x1 + x2 + x3 + ....... + x1n
=
åx i
=x
n n
n
Obs: 1. Prin termenul S înţelegem de fapt å sau suma tuturor termenilor X după
i =1
n
cum urmeaz: åx
i =1
i = x1 + x2 + x3 + .....xn .
Obs. 2: Pentru că vom întâlni deseori acest simbol trebuie să ştim că că el se bucură de
proprietăţile care derivă din proprietăţile fundamentale ale operaţiilor:
n n
1) S a = n*a (pentru că S = 1+1+1+…..+1 = n iar a este un parametru care nu
i=1 i=1
depinde de n)
n n
2) S ( xi+ a ) = S xi + n*a = ( x1+a ) + ( x2 +a ) +………………(xn+ a )
i=1 i=1
n termeni
n n
3) S a*xi = a S xi (o constantă iese în faţa sumei)
i=1 i=1
Valoarea Frecvenţa
4 5
7 2
8 4
Total 11
În acest ultim tabel apar o serie de noutăţi pe care trebuie să le lămurim. Până
acum am văzut că media aritmetică înseamnă în cea mai simplă aproximare, suma
tuturor unităţilor împărţită la numărul acestora. La o serie cu variante se aplică formula
mediei aritmetice ponderate. Dacă în seria este cu intervale, formula este aceeaşi, cum
formula respectivă cuprinde termenii Xi de data aceasta s-a convenit ca termenii Xi să
fie mijloacele intervalelor seriei şi să fie notaţi cu Xi’: de ex. valoarea 13 din coloana lui
Xi’ nu este altceva decât mijlocul intervalului 10-16 etc. În ultima coloană nu am făcut
decât să înmulţim fiecare fi cu fiecare Xi’ după care am făcut suma totală a acestor
produse. Această sumă nu e decât numărătorul de la formula mediei!
În concluzie pentru media aritmetică avem următoarele formule:
S Xi
X = , pentru seriile simple
n
S Xi * f i
X = , pentru seriile pe variante sau cu intervale
S fi (numite şi serii ponderate)
Obs. Cele două formule sunt echivalente dar se folosesc diferit pentru
rapiditatea calculelor
Media aritmetică se bucură la rândul ei de o serie de proprietăţi care pot fi foarte utile
tuturor celor ce fac analize statistice sau care vor să aprofundeze această disciplină,
proprietăţi pe care le enunţăm fără demonstraţie:
a). Media aritmetică este o medie internă, adică are loc relaţia: x1 < X < xn .
b). Dacă x1 = x2 =…………=xn = k atunci rezultă că X = k!
d).
å (x i ± a)
= x ± a , pentru serii simple şi
n
å ( x ± a) · f
i i
= x ± a , pentru serii ponderate.
åf i
Enunţ: dacă din toţi termenii unei serii se scade / se adună acelaşi număr a ≠ 0 atunci şi
media aritmetică a acelei serii se va modifica cu acea valoare a!
x
S
k =
e). unde k este un parametru real
Enunţ: dacă toţi termenii unei serii se împart prin acelaşi număr k ≠ 0 atunci şi media
aritmetică a seriei va fi de k ori mai mică!
S
f). =
S
Enunţ (numai pentru serii ponderate): dacă în formula de calcul a mediei aritmetice
frecvenţele se împart la un nr. m ≠ 0 şi la numitor şi la numărător atunci valoarea
mediei nu se schimbă!
g). Proprietăţile de mai sus se pot cumula în formule noi de calcul a mediei aritmetice,
formule utile pentru serii care cuprind un număr mare de valori. Iată aceste formule:
S ∗ S ∗
= ∗ ; = ∗ +
S S
x −a f
S ∗m
= k ∗ + , unde k, m ≠ 0
f
Sm
coloana a patra conţine seria xi-a; valoarea lui a fiind aleasă de către statistician
de obicei ca valoarea de mijloc din coloana a treia. În cazul nostru a = 35, iar apoi se fac
scăderile respective, de ex. 15-35= - 20 etc.
· coloana a cincea conţine seria termenilor (xi-a) / k, unde k este ales de statistician ca
c. m. m. d. c. pentru termenii seriei xi-a. Aici k= 10.
· în coloana a şasea se foloseşte m= 20, care este c.m.m.d.c. pentru termenii coloanei
fi !
· în ultima coloană se fac produsele necesare numitorului din formula de mai sus.
· rezultatul calculelor devine :
5
x= · 10 + 35 = 37,1 puncte
23
Observaţie: În cazurile seriilor pe care le-am citat până acum nu am avut cazuri în care
unele valori să fie foarte îndepărtate de valoarea mediei aritmetice. Există însă şi cazuri
în care o valoare “aberantă” să aibă o influenţă decisivă atunci când calculăm
principalele mărimi statistice! Fie de exemplu seria X= (5, 7, 10, 15, 18, 33, 2500) .
Sxi
Conform formulei X = = 2588/7=369,7
n
Se observă însă că termenul 2500 este foarte îndepărtat de celelalte elemente şi se
consideră că el influenţează în mod abuziv valoarea mediei. De aceea se foloseşte în
statistică media trunchiată de ordin t cu ajutorul formulei:
1 n-1
X (t) = * S xi
n-2t i= t+1
Această formulă calculează media aritmetică excluzând termenii extremi ai
seriei ordonate crescător (n este numărul de termeni ai seriei). În exemplul nostru,
media trunchiată de ordinul unu va fi:
1 n-1 1
X(1)= * S xi = (7+10+15+18+33) = 16,6
n-2*1 i=2 7-2
Valoarea rezultată este mult mai firească raportată la valorile seriei.
Teme de verificare
1. O echipă de fotbal a marcat următoarele goluri:
Goluri 0 1 2 3 4 5 6 7 8 Total
?
Meciuri 5 6 8 8 10 5 2 1 1 46
Să se calculeze media de goluri pe meci pentru această echipă!
2. Candidaţii la un concurs au obţinut următoarele rezultate:
Rezultate 20-30 30-40 40-50 50-60 60-70 70-80 80-90 Total
Nr. de
35 45 95 145 125 60 33 538
candidaţi
a). Să se calculeze media aritmetică a rezultatelor obţinute
b). Să se traseze histograma şi să se plaseze media pe histogramă
3. Se dă seria următoare:
Rezultate 40-60 60-80 80-100 100-120 120-140 Total
Studenţi 30 40 60 35 15 180
Să se calculeze media aritmetică cu formula finală explicitată în notele de curs!
1
xp =
n
å xi2 , pentru serii simple şi
xp = åx i · fi åf i , pentru serii ponderate.
x g = n P xi
***
Obs. Întotdeauna Xg< X ! De asemenea trebuie observat că dacă un termen al seriei
este nul atunci media geometrică este nulă. Se justifică şi în exemplul de mai înainte: cu
toate notele foarte bune, nota zero pentru inimă face ca media să fie zero!
x1 x
+ x 2 + x3 + ........ n
Xc = 2 2
n -1
Exemplu: fie o serie statistică a economiilor unei persoane (în milioane lei) de
la o banc aşa cum a rezultat prin consultarea contului de trei ori într-un an deci la
intervale egale de câte o lună. Să se calculeze valoarea medie a economiilor !
Folosind media armonică pentru o serie ponderată să se calculeze care este numărul
mediu de ani vechime pentru colectivul în cauză.
2. Folosind aceeaşi serie statistică calculaţi media geometrică.
3. În studiile de demografie (a se vedea Sora V. et al., 1987) se foloseşte noţiunea de
populaţie medie ca o aproximare a numărului populaţiei. Populaţia medie se
calculează ca medie cronologică. Iată un exemplu de măsurare pentru populaţia unui
judeţ. Calculați populația medie!
Data 01.01.2000 10.02.2000 1.04.2000 8.09.2000 25.11.2000 31.12.2000
Efectiv 600.600 622.300 642.300 644.300 648.530 649.300
Să se calculeze populaţia medie având în vedere că t1= 40 de zile; t2=50 zile; t3= 160
zile; t4= 78 zile; t5= 37 zile!
Pentru seria de mai sus Ume= (115+1) / 2 = 58. Se observă că 58 Î (29, 79) din
coloana F ↓. Corespunzătoare limitei superioare a acestui interval (79) avem în prima
coloană valoarea 8. Această valoare este chiar mediana.
Obs.1: Din acest exemplu se vede că mediana este acea valoare a caracteristicii pentru
care colectivitatea respectivă este împărţită în două grupe egale. Pentru exemplul nostru
mediana se poate citi astfel: jumătate din muncitorii respectivi au fabricat cel puţin 8
piese.
Obs. 2: Atragem atenţia asupra diferenţei dintre unitatea mediană şi mediană (adică
valoarea corespunzătoare intervalului median în coloana X).
Obs. 3: Mulţi autori recomandă folosirea a două formule pentru calculul unităţii
mediane după cum S fi este par sau impar. Pe scurt aceste formule ar fi:
Obs.: Mediana se poate reprezenta pe grafice foarte uşor, fie găsind valoarea respectivă
în graficul frecvenţelor cumulate fie observând verticala dintr-o histogramă care împarte
aria acesteia în două părţi egale. În cazul distribuţiei normale a unei serii statistice (o
distribuţie care este simetrică) mediana este chiar axa de simetrie (sau valoarea
corespunzătoare acesteia pe axa OX). O altă modalitate este de a reprezenta ambele
curbe ale frecvenţelor cumulate pe acelaşi grafic iar la intersecţia acestora se află
mediana.
Modul sau dominanta exprimă nivelul cel mai frecvent (dominant ca frecvenţă) ce se
întâlneşte într-o colectivitate pentru o caracteristică dată. Modul se stabileşte în mod diferit
pentru serii simple sau pentru serii cu intervale (se citeşte cu accent pe o: Módul)
În această serie se observă că Mo =3 deoarece cel mai mare nr. de elevi (8) au citit câte
trei cărţi.
b) Pentru serii cu intervale unii autori folosesc o metodă de calcul aproximativă,
apreciind modul sau dominanta ca fiind egal cu centrul intervalului care are frecvenţa
cea mai mare. Ex: se consideră seria câştigurilor în $ ale unui număr de 1500 de
angajaţi într-o firmă din Est:
Venit 0-200 200-400 400-600 600-800 800-1000 1000-1200 1200-1400 Total
(USD)
Angajaţi 30 390 675 315 60 21 9 1500
Se observă că frecvenţa cea mai mare este de 675. Numim intervalul modal
(400-600). Modul se calculează simplu Mo= (400+600) / 2 =500.
O modalitate mai precisă este aceea folosind formula:
∆
M = x + d∆ ∆
, unde
Ex: [ din Al. Bărbat ; 1972] :se consideră seria distribuţiei sălilor de cinema, după nr. de
spectatori:
Capacit. sălilor 0-100 100-200 200-300 300-400 400-500 500-600
(nr. spectatori)
Nr. de săli 399 1836 2757 642 64 13
Se observă că: – intervalul dominant este ( 200-300)
– x0 = 200
– d = 100 ( 300-200)
– D1= 2757-1836 = 921
– D2 = 2757-642 = 2115
921
Mo = 200 + 100 = 200+ 100* 0,3 = 230
921+2115
Obs.: din punctul de vedere al reprezentării grafice, modul sau dominanta se
evidenţiază uşor pe curba sau poligonul frecvenţelor. Astfel ea corespunde pe axa OX
punctului din care ridicând o perpendiculară aceasta atinge valoarea maximă pe axa
ordonatelor. În cazul histogramei modul se va plasa în zona dreptunghiului cel mai mare
din grafic. Dacă reprezentăm grafic seria de mai sus vom avea următoarea situaţie:
3000
2500
2000
1500
1000
500
Mo=230
0 230 200
100 300 400 500 600
Obs.: se demonstrează riguros matematic faptul că modul este proiecţia intersecţiei
celor două segmente punctate din cadrul histogramei pe axa OX!
Recapitulare:
După cum se vede şi din acest tabel mărimile tendinţei centrale se pot utiliza după tipul
de variabilă pe care îl întâlnim în diverse aplicaţii statistice. M. Colin et alii [1995; 165]
face chiar o schemă sugestivă:
Ce măsură a tendinţei
centrale putem utiliza ?
Tip de variabilă
Teme de verificare
1. Un grup de elevi au obţinut la un examen notele: 7, 8, 7, 9, 9, 10, 6, 7, 8, 9, 11, 7, 8,
9, 10, 10, 7, 5, 10, 6, 6, 9, 10. Să se calculeze mediana! Cum interpretăm rezultatul?
?
2. Se dă seria următoare care reprezintă înălţimea a 452 de copii:
Înălţime 120-125 125-130 130-135 135-140 140-145 145-150 Total
Nr. de copii 40 84 128 107 53 40 452
a). Să se determine Mediana cu ajutorul formulei prezentate
b). Să se reprezinte mediana pe graficul frecvenţelor cumulate
Valorile mărimilor centrale sunt utile pentru a caracteriza ceea ce este comun şi
tipic pentru o serie statistică. Se pune însă întrebarea în ce măsură media este
reprezentativă pentru întreaga masă de valori individuale. Altfel spus ne interesează şi
modul cum variază valorile individuale în jurul mediei. În general valoarea mediei este
reprezentativă doar în cazul în care colectivitatea este suficient de omogenă, deci
variaţia respectivă nu poate fi oricât de mare. Tocmai de aceea ne interesează anumiţi
indicatori care dau o imagine asupra variaţiei valorilor unei serii.
S ½xi- x ½* fi
a= , pentru serii ponderate.
S fi
Exemplu: fie seria anterioară ( 4,6,5,2,8,9,9). Pentru această serie x = 43/7 = 6,1. În
acest caz abaterea medie liniară devine:
½4- 6,1½+ ½6 –6,1½+ ……………..+ ½9 – 6,1½ 15,1
a= =
= 2,15.
7 7
rezultatul obţinut are o semnificaţie importantă: ne arată cu cât se abate, în medie,
fiecare variantă de la media considerată (aici media aritmetic). Să observăm că
introducerea modulului este importantă, altfel toate sumele ar fi fost egale cu zero!
s2 =
å (x i - x) 2
, pentru serii simple şi
n
s 2
=
å (x i - x) 2 · f i
, pentru serii ponderate.
åf i
Să dăm un exemplu după T. Andrei şi S. Stancu [1995; 119] pentru o serie simplă:
(1,2,4,7,9,10, 11, 12). La această serie se calculează imediat x = 7. Apoi se fac calculele
din tabelul următor:
X 1 2 4 7 9 10 11 12 Total
xi - x -6 -5 -3 0 2 3 4 5 0
(xi –x) 2 36 25 9 0 4 6 16 25 124
Deoarece varianţa introduce o mrire a valorilor s-a decis s se extrag rdcin ptrat
din aceast valoare:
Abaterea standard sau abaterea medie pătratică se calculează ca rădăcină pătrată din varianţă.
1
Pentru serii simple: s =
n
å ( xi - x) 2 .
Dacă am lua exemplul de mai sus atunci σ = 1,45 = 1,20.
Aceeaşi procedură are loc şi pentru seriile cu frecvenţă. Raţiunea introducerii
acestei mărimi este aceea că la valori mici ale ei putem trage concluzia că media seriei
caracterizează bine seria. De asemenea abaterea standard are un mare grad de precizie
şi este foarte utilă în reprezentările grafice.
Observaţii:
1.Varianţa şi abaterea medie pătratică se pot calcula raportându-ne la orice valoare a (o
constantă reală). Prin înlocuire cu x , se obţin formulele de mai sus!
2. Vom întâlni aceste mărimi sub denumiri destul de diferite deşi se referă la acelaşi
lucru. Astfel noţiunea de abatere standard se mai numeşte deviaţie standard (engl.
standard deviation), ecart tip (în franceza: écart-type) etc. De asemenea se pot întâlni
diverse notaţii pentru aceste mărimi.
3. Abaterea standard se măsoară cu unităţile de măsură ale variabilei. Aceasta ne
împiedică să facem comparaţii între variabile. De exemplu, spune T. Rotariu [1999] nu
putem compara dispersia salariilor din Anglia (măsurate în lire sterline) şi cea a
salariilor din Italia (măsurate în lire italiene) calculând abaterile standard pentru cele
două distribuţii ale salariaţilor din ţările respective. Pentru uşurarea comparaţiilor s-a
introdus coeficientul de variaţie.
Cu cât v are o valoare mai mică cu atât colectivitatea respectivă este mai
omogenă şi, la fel ca în cazul varianţei, cu cât valoarea este mai mare cu atât seria este
mai eterogenă. A. Novak [1995] precizează că valoarea lui v<35 % ne îndreptăţeşte să
afirmăm că respectiva colectivitate este omogenă iar x este reprezentativă. Alţi autori
vorbesc doar de o slabă omogenitate a seriei pentru valori mari ale acestui coeficient.
Ex.: în ultimul caz analizat aveam o serie cu datele următoare:
X = 8 ; σ2 = 1,45 ; σ = 1,20 şi putem calcula şi coeficientul de variaţie:
V = 1,20/ 8 * 100= 15 % !
Putem spune că respectiva serie statistică este omogenă.
Să exemplificăm şi modul cum este util acest coeficient în comparaţiile statistice. Seriile
următoare le puteţi găsi explicitate în T. Andrei, S. Stancu [1995] şi este vorba de două
bunuri de larg consum, total diferite între ele, distribuite pe o piaţă anume, în primele
cinci luni ale anului:
· bunul I (măsurat în tone) distribuit astfel: 4,7,14,9,7
· bunul II (măsurat în mil. lei) : 6,9,16, 11, 5.
Pentru cele două serii se obţin următoarele date:
1
I. x1 =8,25 tone ; s1 =
n
å ( xi - x) 2 = 3,31 tone
Variabilele dihotomice sunt cele care au doar două modalităţi cum ar fi sexul
(masculin/ feminin), mediul (rural/urban) o atitudine oarecare (pentru/contra) etc. În
cazul acestor variabile calcularea mediei aritmetice şi calcularea probabilităţii de
apariţie reprezint acelaşi lucru. De exemplu dacă dintr-o populaţie 70% votează actualul
primar vom avea două clase distincte: p = 70 % cei cu votul pentru şi q = 30% cei cu
votul contra! Se observă că p + q = 100 sau cu 1 (întregul) şi de asemenea că p=1-q.
Citim şi faptul c sunt 70% şanse ca un individ luat la întâmplare s voteze respectivul
primar.
Pentru o variabilă dihotomică s2 = p*q deci s = p·q .
Exemplu: din 500 de solicitanţi doar 295 au fost selecţionaţi pentru a munci într-o ţară
străină. Dacă luăm un subiect oarecare şansa ca acesta să fi câştigat dreptul de muncă
este de :
295
p= = 0,59 sau în procente este de 59 %!
500
Temă de verificare
Încercând o definiţie, putem spune că curba de distribuţie a unei serii se obţine prin
rotunjirea poligonului frecvenţelor. Există în statistică mai multe tipuri de distribuţii:
1. Distribuţia normală sau curba lui Gauss şi care are forma unui clopot:
Această distribuţie se bucură de o serie de proprietăţi : Me= Mo = X ; este
perfect simetrică; valorile cele mai mari ale frecvenţei se situează în zona
centrală/mediană a seriei etc. În practică acest tip de distribuţie “perfectă”, nu se
întâlneşte dar ea poate fi un instrument foarte util în analizele statistice !
2. Distribuţiile asimetrice – sunt acele distribuţii în care valorile maxime ale seriei
sunt uşor deplasate spre stânga sau spre dreapta. Situaţia în care se află o
distribuţie de acest gen o putem caracteriza prin compararea mediei aritmetice cu
mediana seriei:
Me X X Me
În primul caz se observă că X > Me iar distribuţia are o asimetrie la dreapta (sau
asimetrie pozitivă) pe când în cel de-al doilea caz constatăm o asimetrie la stânga
(asimetrie negativă). În general când vârful este deplasat spre stânga avem relaţia Mo <
Me < X iar când vârful este deplasat spre dreapta dubla inegalitate se inversează : X <
Me < Mo ! În general pentru distribuţii uşor asimetrice este valabilă formula Mo = Me
– 3( X – Me ).
3. Distribuţii în formă de I şi J (a se vedea pe larg în A. Novak, 1995)
În aceste serii valorile maxime se concentrează în capetele extreme, curbele
obţinute fiind crescătoare sau descrescătoare:
S ( xi – x ) k S ( xi – x ) kfi
mk = , sau mk = pentru serii cu frecvenţă.
n n
În general momentul de ordin k reprezintă media abaterilor valorilor de la o anumită
valoare ridicate la o anumită putere. Momentul se numeşte centrat dacă se raportează la
abaterile faţă de medie. Momentul centrat de ordinul 1 este nul [deoarece există o
proprietate a mediei după care S ( xi – x ) fi = 0 ]. Momentul centrat de ordin doi este
chiar varianţa (revedeţi aceste precizări în cursurile anterioare). Pentru oblicitate se
reţine momentul de ordin 3 care va fi împărţit la abaterea standard ridicată şi ea la
puterea a treia:
S ( xi – x )3 m3
S= = .
s 3
ns 3
VI.1.2. Indicatorul boltirii
Distribuţie leptocurtică
distribuţie platicurtică
dacă B > 0 distribuţia este leptocurtică iar dacă B < 0 distribuţia este platicurtică. pentru
B ®0 se obţine o distribuţie mezocurtică sau apropiată de distribuţia normală.
Probabilitate ca valorile
variabilei să fie cuprinse
între a şi b
34,13
13,59
2,15
68,26%
95,44%
99,74 %
Interpretarea acestei scheme este foarte simplă. Se observă că 99,74 % din
valorile seriei sunt incluse în intervalul [m - 3 s, m + 3 s] cu alte cuvinte, practic toate
valorile seriei se abat de la medie cu pînă la trei abateri standard. De asemenea
observăm că în intervalul generat de numai o abatere standard în plus şi în minus sunt
incluse 68,26 % din valorile seriei. Trebuie să atragem atenţia că deşi aici am lucrat cu
multiplii întregi ai lui s în realitate 95,44 % din valori le găsim în intervalul m ± 1,96s
iar 99,74 % din valori le găsim în intervalul m ± 2,58s sau mai pe scurt 95% din valori
le găsim în intervalul m ± 1,96s iar 99% din valori le găsim în intervalul m±2,58s. De
aici se deduce că în primul caz 5% din valori rămân pe dinafara intervalului iar în al
doilea caz doar 1% din valori. Aceste precizări pot fi citite, după cum am mai spus, în
limbaj de probabilităţi: dacă extragem un caz la întâmplare din colectivitatea statistică
atunci există probabilitatea de 95% ca valoarea respectivă să fie în intervalul m ± 1,96 s
şi de asemenea există probabilitatea de 99% ca valoarea respectivă să fie în intervalul m
±2,58s. De aici provine şi noţiunea de prag de semnificaţie, noţiune deosebit de
importantă în statistică. Prin prag de semnificaţie înţelegem de fapt probabilitatea de
eroare sau riscul luat în calcul atunci când facem o estimare statistică. În cele mai multe
cazuri, în statistică se lucrează cu două praguri de semnificaţie: 0,05 pentru intervalul de
încredere [-1,96s; 1,96s] şi 0,01 pentru intervalul de încredere [-2,58s; 2,58s]. Pentru
confirmarea unei ipoteze statistice trebuie ca pragul de semnificaţie să fie mai mic de
0,05. Revenind la graficul de mai sus, trebuie spus că folosirea multiplilor întregi ai lui
s este folosită şi ea şi nu se introduc astfel erori de calcul.
Trebuie subliniat că nu orice fenomen social se distribuie după o lege normală
(ex. distribuţia veniturilor, vârsta studenţilor din Universitate etc.) dar dacă ele au
această tendinţă atunci trebuie să analizăm în primul rând histograma şi vom aprecia
dacă aceasta este simetrică, dacă mărimile tendinţei centrale sunt suficient de apropiate,
dacă valorile seriei descresc spre margini. De asemenea, se poate aprecia direct pe
graficul histogramei cât la sută din valorile seriei sunt cuprinse în intervalul m ± s, m ±
2s etc. Semnificaţiile curbei normale sunt deosebit de importanta pentru analizele
statistice. Să dăm un exemplu din N. Luduşan, F. Voiculescu [1997; 310-311].
Presupunem că într-o clasă cu 36 de elevi se cunosc media aritmetică (m = 7,8) şi
abaterea standard (s =0,70) a notelor şcolare iar distribuţia acestora este normală.
Atunci, pe baza acestor două date putem afla:
· Amplitudinea absolută care este dată de limitele intervalului m± 3s adică 7,8 ±
3*0,7. Limitele sunt deci 7,8 –2,1= 5,6 şi 7,8+ 2,1 = 9,90. Cu alte cuvinte elevii din
clasa respectivă au notele cuprinse în intervalul [5,60 ; 9,90].
· Intervalele în care se încadrează elevii respectivi:
– 2,5% au note între 5,40 şi 6,40 (»1 elev)
– 13,86% au note între 6,40 şi 7,10 ( » 5 elevi )
– 34% au note între 7,10 şi 7,80 ( » 12 elevi)
– 34% au note între 7,80 şi 8,50 ( » 12 elevi)
– 13,86% au note între 8,50 şi 9,20 ( » 5 elevi)
– 2,5% au note între 9,20 şi 9,90 ( » 1 elev).
· Poziţia aproximativă a unui elev în cadrul colectivului
Din cele spuse până acum am dedus că media şi abaterea standard pot fi foarte
utile în analizele statistice asupra unei variabile anumite. Se pune însă de multe ori
problema comparării unor valori din serii diferite şi pentru aceasta se cere un indicator
statistic care să ne dea o imagine directă asupra poziţiei pe care o are un subiect faţă de
media colectivităţii respective cât şi faţă de dispersia datelor. Acest indicator se numeşte
măsura standard sau nota Z şi ne arată cu câte deviaţii standard se abate o valoare
de la medie. Nota Z are formula următoare:
x-x
z=
s
51 59 67 75 83 91 99
-3 -2 -1 0 1 2 3
Vom calcula notele Z pentru principalele valori din problemă:
Zm=( 75-75)/8 = 0 Z1 = (X – 75) / 8 Z2= (95 –75)/ 8= 2,50
Dacă rezumăm pe scurt problema noastră cu enunţul P ( 75< X < 95) [a se citi
probabilitatea …] atunci în limbajul notelor Z acest enunţ devine P (0< Z < 2,50).
Căutând în tabelul legii normale se găseşte valoarea 0,4938 care reprezintă proporţia din
suprafaţa delimitată de către curba normală, axa OX şi perpendicularele ridicate în
punctele 0 şi 2,5. Această valoare se poate scrie şi 49,38 % şi reprezintă chiar
probabilitatea căutată: sunt 49,38 % şanse ca studentul respectiv să aibă calificativul
cuprins între 75 şi 95. Practic s-a făcut următorul transfer:
49,38
49,38
75 95 0 2,5
25% din date 25% din date 25% din date 25% din date
Q1 Q2 Q3
Dacă numărul de grupe ar fi 10 am obţine decilele:
10% din date 10% din date 10% din date ………….... 10% din date
D1 D2 D3 D9
Se observă foarte uşor că Q2 = Me sau D5 = Me!
Dacă împărţim datele în 100 de grupe obţinem centilele care vor fi în număr de 99:
C1,C2,……..C99. Evident că C50= Q2= Me.
Modul de obţinere al cuantilelor este asemănător cu metodele de la mediană.
Exemplu pentru o serie statistică unor date oarecare:
Intervale Nr. de subiecţi Frecv. Relative % Frecv. cumulate
10-20 17 3,2 3,2
20-30 35 6,6 9,8
30-40 87 16,6 26,4
40-50 162 30,9 57,3
50-60 125 23,9 81,2
60-70 78 14,9 96,1
70-80 19 3,9 100
Total 523 100% -
Să construim, plecând de la acest tabel, curba frecvenţelor cumulate:
100 %
90
80
70
60
50
40
30
20
10
20 30 40 50 60 70 80
Q1 Q2 D9
Termeni cheie:
distribuţie statistică, distribuţie normală, oblicitate, boltire, prag de semnificaţie,
cotele Z, cuantile
Teme de verificare
Faceţi graficul frecvenţelor relative cumulate şi apoi identificaţi pe acest grafic Q1, Q2,
Q3, C10, C90, D2 ! Folosiţi eventual o hârtie milimetrică pentru o mai mare precizie!
VII. Studierea legăturii dintre variabile
Toate aceste relaţii sunt de tip funcţional, gen cauză-efect însă pe lângă acestea
există şi raporturi de tip statistic prin care se caută anumite tendinţe la nivelul
ansamblului. Legăturile statistice dintre variabile se clasifică, după A. Novak [1995] în
funcţie de următoarele criterii:
a) După numărul caracteristicilor:
1. legături simple (o caracteristică factorială şi o caracteristică rezultativă)
2. legături multiple (mai multe caracteristici factoriale şi o caracteristică
rezultativă)
xi yi xi – x yi – y P (xi – x )2 (yi – y )2
1
sx =
n
å ( xi - x ) 2
1
sy =
n
å ( yi - y ) 2
1
sy = · 36 = 2,12
8
In acest caz urmărind formula iniţială obţinem :
27
r= = 0,85
8 · 1,86 · 2,12
Concluzia este următoarea: între cele două variabile există o corelaţie puternică
de acelaşi sens (valorile mari din prima variabilă tind să se coreleze cu valorile mari din
cea de a doua variabilă).
Calculul coeficientului de corelaţie pentru seriile cu intervale este destul de
complex şi poate fi urmărit în volumele de specialitate ( vezi de exemplu T. Andrei; S.
Stancu [1995]), tocmai de aceea nu vom insista aici asupra acestui subiect. Cu titlu
facultativ amintim totuşi formula de calcul şi în aceste cazuri:
S n Ux U y - Q* Q* / n
r=
SQRT [ ( S fx Ux2 – Q2/n ) ( S fy Uy2 – Q* 2 /n ) ]
Aceste grafice se pot reprezenta direct în plan XOY pentru serii cu un număr redus de
date. Se poate folosi şi calea Scatterplot din Excel. Din cele trei situații se poate vedea
tendința punctelor din plan de a se grupa în jurul primei bisectoare (pentru o corelație
puternică şi de acelaşi sens) şi de asemenea în jurul celei de a doua bisectoare atunci
când corelația este puternică dar de sens contrar. Punctele se dispersează în plan atunci
când corelația nu există sau este foarte slabă. Statisticienii recomandă reprezentarea
grafică pentru cele două variabile supuse analizei şi examinarea atentă a respectivului
grafic deoarece calcului corelației este valid doar pentru cazul în care dependența dintre
cele două variabile este liniară şi nu curbilinie. În cursul de față vom detalia doar
cazurile simple cu legătură liniară între cele două variabile.
Dreapta care aproximează norul de puncte se numeşte dreapta de regresie, un
instrument în cadrul mai larg al analizei de regresie. Această analiză este o continuare a
analizei de corelație diferența constând în faptul că analiza de corelație nu poate fi
interpretată ca o analiză cauzală (variabila X este cauza variabilei Y) ci doar ca estimare
a evoluției concomitente a valorilor celor două variabile: fie cresc sau scad în acelaşi
timp fie evoluează în sensuri diferite. Doar analiza de regresie poate determina relația
cauzală dintre cele două variabile, cât la sută din varianța variabilei dependente depinde
de varianța variabilei independente, care este ecuația dreptei de regresie, care este
evoluția reziduurilor (a diferențelor dintre valorile modelului şi cele ale variabilelor) etc.
Dependența dintre cele două variabile poate fi liniară sau curbilinie după cum vedem în
graficele următoare:
yi*
yi
xi
În funcţie de numărul factorilor care influenţează variabila dependentă se
disting: regresia simplă (unifactorială) şi regresia multiplă (multifactorială). În cadrul
acestui curs ne vom mărgini doar la regresia unifactorială liniară.
Din aceste grafice se observă că o dreaptă sau o curbă poate aproxima destul de
bine un nor de puncte şi bineînţeles măsura în care cele două variabile sunt corelate. De
asemenea trebuie precizat că pentru fiecare xi din seria statistică corespunde un yi, cel
real dar şi un yi* adică valoarea care corespunde pe dreapta sau curba de regresie.
Scopul măsurărilor în cazul regresiei este acela de a găsi ecuaţia dreptei (curbei) pentru
care distanţele yi –yi* sunt minime (se poate demonstra de fapt că acea dreaptă sau
curbă este unică).
Ne vom ocupa în acest curs doar de regresia liniară, urmând ca cei interesaţi să
parcurgă în continuare în volumele de specialitate regresia multiliniară cât şi regresia
non-liniară (graficul nu este o dreaptă). Amănunte despre aceste teme se pot găsi în
capitolele 8 şi 9 din T. Rotariu [1999].
După cum am spus, principiul aflării ecuaţiei dreptei de regresie pleacă de la
minimizarea unei expresii de tipul R = S ( yi – yi*)2, această expresie reprezentând suma
tuturor diferenţelor dintre valorile reale ale seriei şi cele aşteptate (de pe dreapta de
regresie), ridicarea la pătrat făcându-se pentru a nu apare în plus problema semnului
acestor diferenţe. O altă problemă este aceea a determinării ecuaţiei unei drepte de tipul
y* = a + bx , determinare care înseamnă în fapt calcularea celor doi parametri a şi b. În
acest moment putem înlocui în prima relaţie expresia lui y*. Vom obţine relaţia:
R = S ( yi – a – bxi )2
S-a obţinut practic o ecuaţie cu două necunoscute al cărei minim înseamnă anularea
celor două derivate parţiale după a şi b. Se obţin astfel două ecuaţii care formează un
sistem:
na + b S x = S y
a S x +b S x2 = S xy
În aceste formule coeficientul a sau 'intercept' este punctul unde dreapta intersectează
axa OY deci x=0. Coeficientul b se mai numeşte coeficient de regresie şi semnifică
"cum se modifică în medie variabila dependentă în cazul în care variabila independentă
variază cu o unitate". După calcularea lui a şi b se reprezintă grafic dreapta y = a + b x
pentru fiecare valoare a lui x.
Exemplu:
X Y x2 xy
1 3,8 1 3,8
2 4,6 4 9,2
3 5,7 9 17,1
4 6,9 16 27,6
5 8,0 25 40
6 9,0 36 54
21 38 91 151.7
În tabelul de mai sus observăm că am calculat mărimile care apar chiar în sistemul de
ecuaţii stabilit anterior. Le înlocuim şi obţinem:
6 a + b 21 = 38
a 21 + b 91 = 151.7 de unde a= -22.7 şi b = 8.30
Ecuaţia de regresie este y = -22.7+ 8.30x
Se pune problema în ce măsură ajustarea dată de această ecuaţie este fidelă
pentru că dacă înlocuim valorile lui x în această ecuaţie obţinem cu totul alte valori care
constituie practic o serie ajustată, teoretică.
Concluzie: în cazul acestei ajustări se observă că b> 0 deci există o corelaţie de acelaşi
sens între variabile.
Observaţie: numeroşi autori atrag atenţia asupra faptului că studiul corelaţiei şi
regresiei trebuie să fie judicios interpretat deoarece două variabile pot fi corelate
dar nu este obligatoriu să avem imediat o semnificaţie explicativă sau cauzală.
Există deci şi ceea ce s-a numit corelaţie aparentă atunci când de exemplu o
variabilă se modifică de fapt sub influenţa unei alte variabile necunoscute
(variabilă test). P. Lazarsfeld amintea de exemplu de cazul urmărit de un
statistician care a constatat că atunci când rata naşterilor dintr-o regiune era
ridicată atunci şi numărul cuiburilor de barză creştea spectaculos. Covariaţia
acestor două fenomene este absolut întâmplătoare şi intervenţia unei a treia
variabile care separă rural/urbanul poate anula respectiva corelaţie!
Termeni cheie:
relaţie între variabile, coeficient de asociere, coeficient de concordanţă, coeficient
de corelaţie a rangurilor, corelaţie, regresie
Teme de verificare
1. Într-un grup de 14 elevi s-au luat următoarele note la matematică (8, 10, 9, 7, 8, 9, 6,
4, 9, 8, 7, 6, 8, 5) iar la fizică (8, 9, 10, 9, 9, 8, 7, 3, 8, 6, 6, 6, 8, 8 ). Să se calculeze
?
coeficientul de corelaţie Pearson cu ambele formule prezentate în curs. Care este
valoarea corelaţiei şi ce concluzie trageţi după acest calcul?
I. Coeficientul de asociere
Această metodă este utilizată în cazul variabilelor cu două modalităţi (de tipul
da/nu; acord/dezacord; admis/respins; prezent/absent etc.). Se foloseşte un tabel de
forma [T. Rotariu, 1999; 121]:
K11 K12
K21 K22
Aceasta este schema simplificată a unui tabel în care celula K11 sau K22
desemnează faptul că ambele variabile au aceeaşi valoare, celula K12 reuneşte valorile
cu semn opus la fel ca şi celula K21. După ce aceste scoruri au fost precizate se pot
calcula mai mulţi coeficienţi care ne pot ajuta să analizm asocierea variabilelor. Ne vom
opri aici numai asupra coeficientului lui Yule:
k11k 22 - k12 k 21
Q=
k11k 22 + k12 k 21
Principiul acestui coeficient este acela că produsele de la numărător vor
determina semnul lui Q (se observă că avem produsele termenilor pe diagonale a
termenilor pozitivi şi negativi) iar intervalul de variaţie este [-1, +1]. Evident că gradul
de intensitate al asocierii este mai puternică la valori pozitive mai apropiate de ±1.
Atunci când variabilele statistice sunt independente adică nu există o asociere între
acestea valoarea lui Q tinde la 0. T. Rotariu [1999;131] dă şi alte amănunte interesante
despre acest coeficient.
Exemplu : dintr-un lot de 85 de şomeri, 53 aveau studii superioare iar 32 doar
studii medii. După căutarea unui loc de muncă 55 dinte aceştia şi-au găsit iar 30 nu şi-au
găsit acel loc de muncă. Studiind asocierea dintre cele două variabile a rezultat tabelul
următor :
Studii superioare
Loc de muncă Da Nu Total
Da 45 10 55
Nu 8 22 30
Total 53 32 85
Conform schemei de mai sus avem valorile: k11=45; k12=10; k21=8; k22=22
45*22 – 8*10 5544-80 5464
Q= = = = 0,97
45*22 + 8*10 5544 + 80 5624
Asocierea dintre cele două variabile (studii şi loc de muncă) este foarte puternică.
Studiile superioare sunt o premisă a găsirii unui loc de muncă.
Obs.: coeficientul Q poate lua valori la extreme doar atunci când una din frecvenţele
din tabel se anulează.
. . .
In n kn
6
r = 1-
n(n 2
- 1)
åd 2
Metoda lui Sperman se recomandă atunci când seriile de date cantitative sunt
neomogene sau au valori extreme (outliers). De asemenea se recomandă în cayul
eşantioanelor de mici dimensiuni. Premisa legăturii liniare între variabile se menține. În
formula de mai înainte d reprezintă diferenţa între rangurile perechi iar n este numărul
de cazuri.
Algoritmul de calcul este următorul:
· se ordonează prima serie ( crescător sau descrescător) şi se dau valori: 1 pentru
rangul 1, 2 pentru rangul 2 etc.
· dacă mai mulţi subiecţi au acelaşi rezultat li se distribuie un rang mediu. De
exemplu dacă trei subiecţi trebuie să ocupe locurile 4,5,6 atunci toţi vor primi
rangul 5.
· aceleaşi operaţii se fac şi pentru seria a doua
· se calculează diferenţele dintre rangurile perechi şi se calculează S d2
· se urmăreşte formula lui r.
6 6
r = 1-
10(10 - 1)
2 å d 2 = 1-
990
· 21 = 0,88
Cazul a două variabile dihotomice (ambele cu câte două valori) este tratat pe
larg în T. Rotariu (1999; 121-133) şi a fost deja explicitat în acest curs. Vom
exemplifica şi cazuri în care cel puțin o variabilă are minim trei categorii.
Să presupunem că într-un chestionar avem întrebarea :Cum evaluați viața pe
care o duceți în prezent? (cu opțiunile a. Plictisitoare b. Normală c. Interesantă). Să
presupunem că am aplicat respectiva întrebare pe un eşantion de 997 subiecți (dintr-un
exemplu a unei cercetări General Social Survey). La final ne-a interesat care sunt
repartițiile răspunsurilor după genul subiecților. Situația a fost următoarea:
Cum evaluați viața... Total
Sex Plictisitoare Normală Interesantă
Masculin 20 202 204 426
Feminin 45 257 269 571
Total 65 459 473 997
După cum se observă 20 persoane de sex masculin consideră viața pe care o duc
ca fiind plictisitoare sau 257 de femei consideră că viața pe care o duc este normală. Se
pune întrebarea dacă cele două variabile sunt asociate. Pentru aceasta se aplică testul
c 2 care înseamnă calcularea unui coeficient cu formula:
c2 = å
( f o- f t )2
ft
c2 = å
( f o- ft )2 =
(20 - 27.8) 2 (202 - 196.1) 2
+ + .......... +
(269 - 270.9) 2
= 4.137
ft 27.8 196.1 270.9
Teme de verificare
1. La două teste un grup de 10 studenţi au obţinut rezultatele: pentru testul T1 (8,
7, 10, 9, 5, 4, 6, 8, 10, 9) iar pentru T2 ( 7, 6, 7, 10, 8, 5, 9, 10, 10, 8). Să se calculeze în
?
acest caz coeficientul de asociere, coeficientul de concordanţă şi coeficientul de
corelaţie al rangurilor. Cum interpretaţi rezultatele obţinute?
2. Într-o expoziţie sunt prezentate 6 variante ale unui nou produs, variante notate
A, B, C, D, E, F, G, H în ordinea descrescătoare a preţului de vânzare. Un sondaj
efectuat în cadrul expoziţiei a stabilit că variantele respective au fost preferate de către
cei anchetaţi în ordinea: C, F, G, E, B, D, H, A. Se cere să se stabilească dacă preţul a
influenţat preferinţele vizitatorilor anchetaţi (se foloseşte coeficientul de corelaţie).
3. Într-o cercetare de tip GSS s-a pus următoarea întrebare: Cât de des citiți
ziare? Repartiția răspunsurilor după genul subiecților a fost următoarea:
Sunt cele două variabile asociate? Există diferențe semnificative după genuri în ceea ce
priveşte lectura ziarelor?
VIII. Cercetarea selectivă în statistica social
Se pune în mod firesc întrebarea: cum putem garanta precizia unei estimări, cum
putem fi siguri că valoarea pe care o are o variabilă pentru un eşantion este valabilă şi
pentru populaţia întreagă? Apoi mulţi ar putea reproşa faptul că în anumite condiţii
extragem un eşantion de 1200 de oameni, de exemplu, iar imediat am putea extrage,
prin aceleaşi procedee un alt eşantion, tot de 1200 de oameni şi ale cărui rezultate să fie
cu totul altele! Analizele statistice aduc însă o rezolvare surprinzătoare acestor
suspiciuni! De exemplu să presupunem că într-o populaţie o variabilă anume are media
m, medie care este necunoscută cercetătorului. Media aceleiaşi variabile în eşantion se
dovedeşte apoi ca fiind m’. Evident că m ¹ m’ iar m’ este doar o estimare pentru m. Să
presupunem acum că extragem din populaţia mare mai multe eşantioane, fiecare din
aceste eşantioane având valori diferite pentru m’. S-ar obţine un şir de astfel de medii:
m’1, m’2, m’3, ………mk’……… Toate aceste valori le putem grupa într-o serie pe care
putem să o numim distribuţie de eşantioane (să o numim seria m’).
Această serie are şi ea la rândul ei proprietăţile oricărei serii statistice, dar şi
anumite proprietăţi particulare:
· media acestei serii este identică cu media populaţiei din care am extras
eşantioanele!
· dacă în populaţia mare media m are o abatere standard anumită, în noua serie
obţinută abaterea standard este de radical din n (SQRT[n]) de ori mai mică! Cu
alte cuvinte, dacă notăm abaterea standard a seriei m’ cu litera e (şi care se mai
numeşte eroare standard) atunci există relaţia:
=
√
= ∗ = ∗
√
În această formulă t poate lua diferite valori care se găsesc în tabele statistice
însă cele mai curente sunt următoarele:
t = 1,96 pentru p= 0,05 (uneori este luat t=2)
t = 2,58 pentru p = 0,01
t= 3,3 pentru p = 0,001.
Lectura acestor valori este simplă. De exemplu: există 95% şanse ca o valoare
medie determinată pe eşantion să se abată cu mai puţin de 2e (două erori standard) de la
valoarea medie în populaţie. Să vedem cum se folosesc aceste mărimi într-o aplicaţie
practică (vezi în A. Novak [1998]): să se stabilească eroarea limită şi intervalul de
încredere ştiind că media eşantionului de 400 de subiecţi este 8, iar abaterea medie
pătratică este 0,85 (cu o probabilitate de 95%).
0.85
= 1.96 ∗ = 0.08
√400
Din acest calcul rezultă că media generală se aşteaptă să fie cuprinsă între valorile date
de 8 ± 0,083 adică în intervalul [7,917; 8,083].
O problematică importantă este aceea a metodelor de eşantionare asupra cărora
nu vom insista aici dar le vom face o scurtă prezentare. Un prim tip de eşantionare este
eşantionarea simplă aleatoare în cadrul căreia orice individ statistic are aceeaşi şansă
să facă parte din eşantion, iar selectarea lui se face absolut la întâmplare. Există şi aici
două variante: unitatea statistică este reintrodusă sau nu este reintrodusă în populaţia de
bază. O altă variantă este eşantionarea stratificată prin care populaţia este împărţită în
mai multe straturi iar apoi este ales câte un subeşantion din fiecare strat. De exemplu, un
eşantion de 1200 de studenţi din Universitatea “Al. I. Cuza” poate fi repartizat pe cele
14 facultăţi componente urmând să selectăm proporţional din fiecare facultate (strat) un
nr. de studenţi. Eşantionarea multistadială înseamnă alegeri succesive ale unor baze
de sondare. De exemplu la o anchetă de nivel naţional se pot selecta un nr. de judeţe,
apoi un nr. de oraşe, comune şi la final persoanele respective. Există de asemenea
eşantionarea cluster (un tip de stratificare în care componentele nu mai sunt omogene
ci eterogene), eşantionare multifazică (anumite subpopulaţii putând fi studiate în
profunzime), eşantionarea tip panel (este supusă investigaţiei aceeaşi populaţie, dar la
perioade de timp diferite) . Aceste tehnici de eşantionare fac apel la anumite procedee
de eşantionare. Dintre aceste procedee amintim:
Procedee aleatoare:
Procedeul loteriei (extragere din urnă cu sau fără revenire)
Procedeul numerelor aleatoare (se folosesc tabele cu numere aleatoare)
Procedeul eşantionării semi-aleatorie sau mecanice (având lista subiecţilor vom alege
eşantionul conform unui pas a cărui mărime este raportul dintre volumul populaţiei şi
cel al eşantionului respectiv)
Procedee non-aleatoare (se pune problema reprezentativității eşantionului)
Procedeul cotelor (din eşantion se repartizează o cotă fiecărui operator de teren, acesta
urmând să aleagă efectiv persoanele respective)
Procedeul voluntariatului (se aşteaptă ca subiecţii să răspundă singuri la un chestionar)
Procedeul eşantionării “la faţa locului” (ales mai ales în aglomerări umane).
Procedeul itinerariilor (subiecţii sunt aleşi după harta localităţii, a “spaţiului” populaţiei
respective)
Procedeul bulgăre de zăpadă (subiecții sunt aleşi din aproape în aproape în cadrul unor
rețele sociale)
∗
=
Această formulă devine pentru variabile dihotomice (de tip da/nu, prezent/absent,
pentru/contra):
∗ ∗ (1 − )
=
În această formulă p este considerat proporţia din populaţie care este de exemplu
pentru în timp ce p-1 este proporţia din populaţie care este contra.
O corecţie importantă suportă prima dintre formule în cazul în care se consideră
extragerea fiecărei unităţi statistice fără revenire (nu este reintrodusă în populaţie după
extragere). În acest caz prima formulă devine:
=
+
Obs: în cazul variabilelor dihotomice când nu se poate face nici o estimaţie prealabilă
se iau de obicei p şi q = 1-p ca fiind egale cu 0,5 sau 50%.
Exemplu: să se calculeze volumul unui eşantion estimându-se că cei ce-l vor vota din
nou pe actualul primar sunt aproximativ 60%, probabilitatea este de 0,95 iar E.L.
admisă este de ±3%.
Conform celei de a doua formule expuse mai sus suntem în cazul unei variabile
dihotomice, respectiv cei ce votează actualul primar (60%) şi cei care nu-l votează
(40%).
Aplicând formula rezultă:
1.96 ∗ 60 ∗ 40
= = 917
3
Termeni cheie:
eroare maximă admisă, nivel de încredere, reprezentativitate, metode şi procedee
de eşantionare, volumul eşantionului.
?
1. Stabiliţi intervalul de încredere, cu o probabilitate de 0,99 ştiind că media unui
eşantion de 825 de elevi a fost 6,5 iar dispersia ( varianţa ) de 1,33.
2. Estimându-se că nici un partid nu va depăşi 37% din voturi, să se stabilească
volumul eşantionului astfel încât eroarea să nu depăşească ±2,5%. Faceţi calculele
pentru p= 0,01 şi pentru p= 0,05.
& Bibliografie generală selectivă
1. Şora V., Hristache I., Mihăilescu C., Demografie şi statistică socială, Editura
Economică, Bucureşti, 1996
2. Trebici V. (coord.), Mică enciclopedie de statistică, Editura Ştiinţifică şi
Enciclopedică, bucureşti 1985
3. Bărbat Al., Statistică socială, Editura Didactică şi Pedagogică, Bucureşti, 1972
4. Pascal A., Les techniques de sondage, Editura Technip, Paris, 1994
5. Rotariu T. ( coord.), Metode statistice aplicate în ştiinţele sociale, Editura Polirom,
Iaşi, 1999
6. Porojan D., Statistica şi teoria sondajului, Editura Şansa SRL, Bucureşti, 1993
7. Colin M. et alii, Initiation aux méthodes quantitatives en sciences humaines, Editura
Gaëtan Morin, Montreal, 1995
8. Novak A., Statistică socială aplicată, Editura Hyperion XXI, Bucureşti, 1995
9. Andrei T., Stancu S., Statistică, Editura All, Bucureşti, 1995
10. Ţarcă M., Probleme de statistică, Editura Univ. “Al. I. Cuza”, Iaşi, 1972
11. Luduşan N., Voiculescu F., Măsurarea şi analiza statistică în ştiinţele educaţiei,
Editura Imago, sibiu, 1997
12. Hoover K., The Elements of Social Scientific Thinking, St. Martin’s Press, N. York,
1988
13. Zetterberg H., On Theory and Verification In Sociology, The Bedminster Press,
1965
14. Hoffman O., Sisteme conceptuale operaţionale în sociologie, Editura Ştiinţifică şi
Enciclopedică, Bucureşti, 1977
15. Cazacu A., Bădescu I., Metode şi tehnici de cercetare sociologică, Bucureşti, 1981
16. Chelcea S., Experimentul în psihosociologie, Editura Ştiinţifică şi Enciclopedică,
Bucureşti, 1982
17. Moineagu, I. Negură, V. Urseanu, Statistica, Editura Ştiinţifică şi Enciclopedică,
Bucureşti, 1976
18. Novak A., Sondajul de opinie, Editura Oscar Print, Bucureşti, 1998
19. Sora V., Hristache I., Ivan I., Despa M. Culegere de probleme şi studii de caz pentru
demografie. ASE, Bucureşti, 1987
20. Jaba E., Statistică descriptivă, Ed. UAIC, Iaşi, 2004