Sunteți pe pagina 1din 77

Statistica sociala curs

I. Introducere

Obiectul de studiu pe care vi-l propunem în cadrul acestui curs este acela al
statisticii, o disciplină ştiinţifică care se ocupă cu analiza, interpretarea şi sintetizarea
datelor numerice (statistice). Încă din cele mai vechi timpuri statistica a fost inclusă în
cadrul mai general al ştiinţelor sociale, însă începând cu secolul trecut ea a trecut treptat
şi în sfera ştiinţelor naturale. Tocmai de aceea astăzi ea se distinge sub titulatura de
statistică economico-socială vizându-se din start aspecte foarte concrete ale realităţii
sociale imediate. Trebuie să subliniem că în sfera noastră de interes intră în primul rând
statistica socială pe care o putem gândi ca o ramură de sine stătătoare a statisticii deşi, în
fapt, nu se pot face despărţiri nete între statistica socială şi cea economică. Considerăm
totuşi că orice analist social trebuie să stăpânească ramura socială a statisticii, ramură
care ar include după V. Şora, I. Hristache, C. Mihăilescu [1996; 428]: statistica
populaţiei, statistica muncii şi asistenţei sociale, statistica sănătăţii, statistica
gospodăriei comunale şi de locuinţe, statistica învăţământului, ştiinţei şi culturii,
statistica justiţiei şi ordinii publice, statistica mediului înconjurător, statistica
organizațiilor politice, de masă şi obşteşti, statistica nivelului de trai şi a calităţii vieţii
etc. Toate aceste domenii pot face oricând obiectul unor cursuri separate ceea ce ne
determină să ne limităm doar la câteva elemente de bază ale statisticii, urmând ca cei
interesaţi să le aplice mai departe pe anumite domenii distincte. (avertizăm lectorul că
este necesară în această întreprindere reluarea unor cunoştinţe matematice de bază).

Încercând din nou să definim statistica, putem spune odată cu V. Trebici [1985; 16] că
aceasta este ştiinţa care se ocupă cu descrierea şi analiza fenomenelor de masă,
dezvăluind particularităţile lor de volum, structură, dinamică, conexiune, precum
şi regularităţile sau legile ce le guvernează.

I.1. Izvoare istorice

Încă din vechime s-a impus necesitatea numărării populaţiei, a terenurilor, a


diverselor bunuri etc., în vederea unor politici statale sau pur şi simplu pentru evaluarea
potenţialului de rzboi. Cu 2300 de ani î. H. chinezii consemnau astfel de date în Cartea
istoriei (Shu-King). La rândul lor, egiptenii, deţineau de exemplu tehnica măsurătorilor
cadastrale, alte genuri de numărări fiind preluate de către evrei, ilustrările putând fi
regăsite în Vechiul Testament (1 Cronici, 21; 1-6). În secolul 6 î. H. se instituie în
imperiul roman census-ul (recensământul), fiecare cetăţean fiind obligat să-şi declare
numele, vârsta, familia, bunurile de orice fel. Începând cu anul 150 d. H. declararea
naşterilor a devenit obligatorie. În aceeaşi perioadă se constată primele date despre
mişcarea naturală a populaţiei. Respectând regulile censului roman astfel de investigaţii
au continuat în Evul Mediu ajungându-se la descrieri foarte minuţioase ale resurselor
umane şi materiale din acea epocă. Această perioadă istorică o putem numi pre-statistică
deoarece nu asistăm încă la o veritabilă analiză a datelor culese.
A urmat perioada descriptivă cu începuturi în Italia secolelor 13-14. În
perioada Republica Veneţiană au devenit curente acele relazioni (descrieri
descriptivă
amănunţite ale partenerilor de tipul “notelor” de comerţ exterior!). H.
Conring (1606-1681) pune bazele şcolii descriptive germane. Atât el cât şi cei care i-au
urmat au aprofundat statistica din punctul de vedere al conducerii politice, economice şi
administrative a statului. În acest context s-a impus însuşi termenul de statistică
(provenit din combinarea latinescului status [stat] cu italianul statista [om politic versat
în problemele statului]). Acest termen se pare că a fost folosit pentru prima dată de către
germanul G. Achenwall pe când A. L. Schlozer, un discipol al acestuia, a fost autorul
unui renumit aforism: “statistica este istorie în repaus, istoria este statistică în
mişcare”. Toţi autorii mai sus amintiţi au şi meritul de a fi impus această ştiinţă ca
disciplină universitară. O contribuţie românească a acestei perioade poate fi considerată
şi celebra lucrare a Descriptio Moldavie lui D. Cantemir.
Perioada imediat următoare a fost aceea a aritmeticii politice. Începuturile
perioada acesteia le găsim în Anglia, principalii reprezentanţi fiind John Graunt
aritmeticii
(1620-1674) care a avut contribuţii în demografie, William Petty (1623-
politice
1687) întemeietorul economiei politice moderne şi al şcolii aritmeticii
politice, Edmund Halley (1656-1742) cel care a conceput tabelele de mortalitate, Ch.
Davenant şi Gr. King care au extins rezultatele la analize economice complexe.
Succesul acestei şcoli s-a extins şi în Germania unde J.P. Süssmilch a continuat studiile
privind legile care guvernează viaţa umană, privind corelarea fenomenelor demografice
şi economice etc.
Faza aritmeticii politice este urmată de cea probabilistă fiind reprezentată
perioada de celebrii matematicieni J. Bernoulli (1654-1705) autorul celebrei legi a
probabilistică
numerelor mari P.S. Laplace (1749-1827) care a dezvoltat calculul
probabilităţilor K. F. Gauss (1667-1754) care a definit legea normală de repartiţie etc.
Epoca a fost însă dominată de savantul francez Adolphe Quételet (1796-1874) de
numele căruia se leagă noţiunea de homo statisticus sau “omul mediu”, acea entitate
statistică teoretică în jurul căreia oamenii reali s-ar distribui la întâmplare. Noţiunea de
“om mediu” a implicat şi alte noţiuni care au devenit fundamentale în statistică:
repartiţie, medie, dispersie, observare de masă etc. Quételet este şi autorul lucrării La
méthode statistique unde este expusă pentru prima oară o teorie sintetică asupra acestei
ştiinţe. Acelaşi autor este iniţiatorul congreselor mondiale de statistică. De altfel, în
această perioadă se dezvoltă mai multe şcoli naţionale de statistică printre care şi cea din
România. Toate aceste acumulări au făcut posibilă trecerea la o nouă fază, aceea a
statisticii moderne.
În etapa modernă aportul matematicilor devine crucial. S-a impus o
perioada
nouă şcoală engleză formată din F. Galton şi K. Pearson continuată apoi de statisticii
R. A. Fisher şi alţii. Aceşti autori au fundamentat teoria corelaţiei, au moderne
precizat că punctul de plecare în analize trebuie să fie ipotezele statistice, au
accentuat rolul cercetărilor selective, pe eşantioane etc. Mai târziu autori precum G. U.
Yule, C. E. Spearman au dezvoltat în continuare noi căi de cercetare. Astăzi asistăm la
o explozie a statisticii, aceasta fiind practic în culisele oricărei analize sociale,
economice sau politice. Orice decizie importantă se ia consultând statisticile valide!

I.2. Tradiţiile statisticii în România

Prima lucrare cu caracter statistico-demografic publicată în ţara noastră în 1849


poartă semnătura lui Nicolae Şuţu şi se intitulează “Notions statistiques sur la
Moldavie”. La rândul lui, Dionisie Pop Marţian este cel care a organizat
recensământul populaţiei din Tara Românească în anii 1859-1860. Acelaşi lucru era
întreprins în Moldova de către Ion Ionescu de la Brazi în aceeaşi perioadă şi explicitat
în lucrarea acestuia “Povăţuiri pentru catagrafia Moldovei, precedate de oarecare
elemente de statistică”.
După o perioadă de stagnare, în anul 1912 dr. Leonida Colescu conduce
recensământul iar în anul 1944 apar, sub numele acestuia, datele recensământului din
1899. Acest cercetător se remarcă prin analizele consacrate influenţei factorilor
economici asupra fenomenelor demografice şi prin ancheta industrială efectuată în anul
1902. Recensământul din 1930 (coordonat de către D. Gusti) a cuprins şi inventarierea
intreprinderilor din întreaga ţară. El a fost urmat în 1941 de Recensământul agricol,
primul de acest gen realizat în ţara noastră şi care a fost utilizat în reforma agrară din
1945. Recensămintele populaţiei s-au efectuat şi în anii 1948, 1956, 1966, 1977, 1992,
2002.
Începând cu 1922 Anuarul statistic al României apare regulat, fiind urmat şi de
alte publicaţii lunare sau anuale (elaborate de Institutul Naţional de Statistic).
Remarcabil a fost şi este interesul sociologilor români pentru cercetarea statistică.
Dimitrie Gusti o includea în sociologia monografică iar Petre Andrei o vedea ca parte
componentă a metodologiei sociologice. Se observă astfel că statistica deşi este o ştiinţă
în sine ea poate fi folosită ca metodă şi pentru alte ştiinţe. Se remarcă de asemenea
aportul matematicienilor români la dezvoltarea statisticii: O. Onicescu, Ghe. Mihoc
etc. Astăzi statistica socială dispune de autori de referinţă precum T. Rotariu, V. Sora,
P. Wagner A. Novak, E. Jaba, I. Culic, G. Bădescu etc. Aceşti autori fac parte din
puternice colective didactice de statistică din marile centre universitare.
I.3. Pentru o statistică socială?

Pentru sociologie sau asistenţă socială importantă este focalizarea statisticii asupra
proceselor şi fenomenelor sociale. În acest caz obiectul statisticii se va mărgini la
colectivităţile umane şi mai puţin la realităţile economice, deşi nu se poate face
abstracţie de acestea. Statistica socială este interesată şi de tipurile de mişcări care duc
la transformări în întreaga viaţă socială. Principiul metodologic al statisticii sociale
este regăsit şi în tehnica principală a sociologiei aceasta fiind observaţia faptică sau
observaţia socială.
Nu întâmplător etapele cercetării statistice se apropie, cu diferenţele de rigoare de
etapele unei investigaţii sociologice. Al. Bărbat [1972] schiţează etapele unei astfel de
cercetări:
a) pregătirea cercetării (documentare, metodologie, instrumente de lucru)
b) recoltarea datelor statistice
c) prelucrarea datelor
d) analiza indicatorilor statistici.

Categoriile cu care operează însă statistica socială se referă la mărimile care măsoară
nivelul mediu al unei caracteristici într-o colectivitate, mărimi care arată structura unei
colectivităţi pe grupe de elemente, mărimi care măsoară în timp variaţia fenomenelor
sociale, mărimi care privesc relaţiile între fenomene etc. Criteriul de bază este acela de
caracterizare “în medie” a fenomenelor colective.
Autorul mai sus citat ne dă şi o definiţie a statisticii sociale. Astfel aceasta este
ştiinţa care se ocupă de formele de mişcare privind evoluţia curentă-continuă a
colectivităţilor şi proceselor sociale având ca scop elaborarea unui sistem de indicatori
numerici cu caracter de mărimi reprezentative prin care se acumulează informaţia
statistică şi se scot în evidenţă legităţile specifice ale variaţiei şi legăturilor în lumea
fenomenelor sociale.

Din cele spuse până acum se deduce că statistica în general culege şi prelucrează:
1. Date cu privire la populaţie (numărul, structura şi repartiţia teritorială
a acesteia, procese demografice, etc.)
2. Date economico-sociale (agenţi economici, activităţi social-culturale,
ramurile şi economia naţională în ansamblu etc.)
Ambele direcţii privesc însă fenomenele sociale în ansamblu şi tocmai de aceea
statistica socială este totuşi greu de diferenţiat net faţă de statistică în general. De
exemplu, o analiză sociologică poate utiliza date de statistică industrială, agricolă,
sanitară etc. Caracterul “social” al statisticii îl putem mai degrabă sublinia prin
exemplele folosite sau prin sprijinul dat unor metode curent folosite în sociologie
(eşantionări, analiza raportului între variabile, analiza path, analiza cluster etc.). În
concluzie se poate vorbi despre o ştiinţă unică, statistica iar abordările pot fi
preponderent economice sau preponderent sociale.

Termeni cheie:
statistică; statistică socială; perioada pre-statistică; perioada descriptivă;
aritmetica politică; perioada probabilistă; perioada modernă a statisticii

Teme de verificare
1. Lecturaţi volumul Descriptio Moldavie de Dimitrie Cantemir şi observaţi în ce
măsură se încadrează în etapa statisticii descriptive!
?
2. Lecturaţi unul din studiile monografice a lui Ion Ionescu de la Brazi şi observaţi
cum înţelege el să aplice tehnica monografică!
3. Pentru alte date privind istoria statisticii lecturaţi C. Moineagu, I. Negur, V.
Urseanu, Statistica, Ed. Ştiinţific şi Enciclopedic, Bucureşti, 1976, pp. 13-39
II. Noţiuni de bază în statistica socială

Din cursul introductiv ne-am familiarizat puţin cu limbajul utilizat de către


statistică. În continuare vom defini principalele noţiuni cu care operează statistica:

II.1. Colectivitate (populaţie) statistică

Prin această noţiune desemnăm totalitatea elementelor sau faptelor individuale


care formează obiectul cercetării statistice. După Al. Bărbat, populaţia sau colecti-
vitatea statistică poate fi alcătuită din:
• un ansamblu de persoane (ex.: la recensământ)
• obiecte (ex. : stocul de mărfuri de pe piaţă)
• evenimente (ex.: căsătoriile dintr-o anumită perioadă)
• idei, opinii (ex.: opinia asupra unor alegeri locale)

Acelaşi autor atrage atenţia că trebuie avută în vedere omogenitatea populaţiei


statistice. Această omogenitate este de trei feluri: calitativă, de timp şi de spaţiu.
Calitativă în sensul în care elementele populaţiei sunt de acelaşi gen d.p.d.v. al unei
variabile, respectiv de a aparţine aceloraşi perioade de timp sau spaţiu. După Pascal
Ardilly [ 1994; 3] o populaţie statistică e definită prin patru factori:
• natura sa (indivizi, întreprinderi etc.)
• caracteristici (sex, sector de activitate etc.)
• localizare (oraş, judeţ etc.)
• data (momentul cercetării)

Din aceste consideraţii se constată că populaţia statistică nu se referă doar la


fiinţe umane iar pe de altă parte ea trebuie bine delimitată în timp şi spaţiu înainte de a
fi supusă cercetării. Cât priveşte dimensiunea populaţiei statistice este îndeobşte admis
că în majoritatea cazurilor se cercetează “populaţii mari”. De altfel pentru un statistician
italian C. Gini (vezi în T. Rotariu [1999; 23]) statistica este o metodă de studiere a
fenomenelor colective sau de masă (în sens pur cantitativ). Motivaţia studiului pe
populaţii mari vine şi din faptul că analiza statistică se foloseşte de rezultatele teoriei
probabilităţilor. În acest sens este bine de precizat că “toate fenomenele de masă se află
sub incidenţa numerelor mari, potrivit căreia variaţiile întâmplătoare de la tendinţa
generală se compensează reciproc, într-un număr mare de cazuri individuale luate în
studiu” (D. Porojan [1993; 20]) S-a pus totuşi problema unui minim al dimensiunii
populaţiei statistice dar nu există un consens din acest punct de vedere (min. 30-50 de
cazuri!). Oricum concluziile statistice stabilite pe un nr. redus de cazuri pot fi irelevante
pentru orice cercetare socială. La polul opus, cercetări pe populaţii foarte mari (ca în
cazul recensământului) ridică probleme tehnice serioase şi tocmai de aceea mult mai
frecvente sunt cercetările selective (pe eşantioane bine delimitate). Un caz special îl
reprezintă cercetările experimentale psiho-sociologice care se fac pe colectivităţi mici
de câteva zeci de indivizi.

În cazul cercetărilor selective se pune problema testelor de semnificaţie, pentru a


vedea în ce măsură rezultatele obţinute sunt semnificative şi se pot extinde pentru
populaţii mai mari.

II.2. Unitatea statistică

Prin această noţiune desemnăm un element din mulţimea statistică. Acest element
poate fi simplu (un student, o locuinţă, o opinie etc.) sau complex (o familie, o
întreprindere etc.).

II.3. Caracteristica (variabila) statistică

În orice cercetare statistică se obţin date asupra unor caracteristici bine precizate
ale unităţilor statistice. Dacă aceste unităţi au unele caracteristici considerate în cadrul
cercetării ca fiind fixe, altele sunt considerate ca variind de la o unitate la alta de unde şi
denumirea de variabilă. De exemplu dacă unităţile statistice sunt reprezentate de
cetăţenii români cu drept de vot, între aceştia apar diferenţieri după sex, venit,
apartenenţă religioasă, profesie, nivelul de educaţie, număr de copii, opţiunea politică
etc. Toate acestea din urmă sunt caracteristici sau variabile statistice. Fiecare din
variabile se distinge prin mulţimea valorilor pe care le ia. După cum se vede şi din
enumerarea de mai sus aceste variabile se exprimă prin mărimi total diferite ceea ce a
impus clasificarea lor de o manieră precisă. Astfel, pentru Michèle Colin et alii [1995;
32] variabilele sunt de două feluri:
• calitative (desemnează feluri de a fi: sex, culoarea ochilor, opiniile etc.)
• cantitative (provin dintr-o măsurare: talia, greutatea, vârsta etc.)

În ce priveşte variabilele calitative, acestea pot fi specificate atunci când iau


anumite valori pe două tipuri de scale:
1) Scală nominală (ex. Sexul poate fi masculin/ feminin; starea civilă poate fi
doar într-una din situaţiile: necăsătorit, căsătorit, văduv, divorţat)
2) Scală ordinală (ex. Răspunsul la întrebarea “ Cât de mulţumit sunteţi de şeful
dv. direct?”, răspuns: a). absolut de loc; b). puţin ; c) aşa şi aşa; d). mult e). foarte mult).
Diferenţa dintre cele două scale este evidentă. Astfel, în cazul primului tip nu
există o relaţie de ordine iar valorile variabilei sunt exprimate prin cuvinte (de unde şi
denumirea de scală nominală!), cuvinte care nu fac decât să împartă colectivitatea
statistică în mai multe grupe sau categorii. În cel de al doilea caz subiectul care
răspunde este rugat să se plaseze singur pe o treaptă a unei scale care poate fi
ascendentă sau descendentă, dar în orice caz este presupusă aici o relaţie de ordine
(fiecare din variantele a, b, c, …e este plasată pe un continuum crescător, din care
trebuie aleasă una). Din moment ce ele semnifică o ordine atunci ele pot fi notate şi cu
numere naturale ca în exemplul următor:
Întrebare: ”De câte ori mergeţi la biserica din confesiunea dumneavoastră?”
Răspuns: 1). Cel puţin o dată pe săptămână ; 2). Cel puţin o dată pe lună; 3). Destul de
rar ; 4). Practic niciodată. Acest exemplu l-am dat pentru a aminti, odată cu T. Rotariu
[1999; 28], că scala utilizată se distinge prin folosirea variantelor 1,2,3… dar numai în
sens ordinal şi nu pur numeric, cantitativ. Variantele 1,2,3… generează de fapt tot clase
sau categorii de răspunsuri! Precizările acestea sunt foarte importante pentru a nu se
confunda acest tip de variabile cu cele cantitative!

În concluzie, se poate face distincţia între variabile calitative nominale şi variabile


calitative ordinale.

Cât priveşte variabilele cantitative, acestea provin dintr-o măsurare efectivă,


exprimată printr-un număr cardinal şi se împart şi ele în două categorii:
• variabile cantitative continui (ex. Înălțimea unei persoane poate fi orice
valoare din intervalul [140, 220] cm.)
• variabile cantitative discrete (ex: o familie poate avea 0, 1, 2, 3, 4,….copii,
dar nu şi un număr exprimat printr-o valoare intermediară ex. 1,5 ; 2,3 etc.)

Obs: intuitiv diferenţa dintre cele două tipuri ar putea fi dată de modul cum parcurgem,
în matematică mulţimea R, a numerelor reale şi mulţimea N, a numerelor naturale!

Variabilele cantitative uzează de două tipuri de scale:


1) Scală de intervale (ex. gradaţia unui termometru, anul naşterii etc.)
2) Scală de raporturi (ex. greutatea, salariile, vârsta etc.)

Diferenţa dintre cele două scale este importantă. Astfel, în cazul scalei de
intervale gradaţia de început (ex. 00 Celsius) este convenţională pe când în cazul scalei
de raporturi gradaţia de început este reală (ex. venitul de 0 lei desemnează lipsa oricărei
surse financiare). O altă diferenţă provine din faptul că scala de intervale nu ne permite
să stabilim raporturi între valorile unei variabile (de ex. nu putem spune că la
temperatura de 400 Celsius este de 40 de ori mai cald decât la temperatura de 10
Celsius). În cazul celei de-a doua scale se pot stabili aceste raporturi (de ex. un individ
de 100 de Kg. este ce două ori mai greu decât unul de 50 Kg.). Având în vedere că
diferenţele dintre aceste scale sunt imediat percepute rareori pot apare anumite confuzii.
Se impune totuşi precizarea că unii indicatori statistici nu au sens prin folosirea de scale
de intervale.
Încercând o recapitulare iată cum arată o tabelare a variabilelor după Michèle
Colin [1995;34]:

Clasificarea variabilelor după tip


Tip de varibilă Scala Exemple
Nominală Sex, profesiune
Calitativă
Ordinală Opinie
Discretă: anul de naştere
De intervale
Cantitativă Continuă: temperatură
(discretă sau continuă) Discretă: nr. de copii, vârsta
De rapoarte
Continuă: înălţime, greutate

Să precizăm în final că diferenţierea dintre variabile (caracteristici) duce în fapt la


distingerea a două direcţii în analiza statistică: statistica non-parametrică (pentru
variabilele calitative) şi cea parametrică (pentru variabilele cantitative). Să mai
amintim că în literatura de specialitate se întâlneşte noţiunea de variabilă categorială
uneori cu sens calitativ alteori cu sens cantitativ.
Precizările din acest curs sunt foarte importante pentru oricine care va
întreprinde o analiză statistică. Vom da un exemplu după Michèle Colin [1995; 34-39]:
pentru a determina mijloacele de transport utilizate de către muncitorii dintr-o uzină au
fost chestionaţi primii 100 de muncitori care au venit la muncă. Se cere să se precizeze:
populaţia statistică, unitatea statistică, eşantionul, variabila, valorile variabilei, tipul de
scală şi tipul de variabilă. După o analiză atentă se observă că populaţia statistică
reprezintă muncitorii din uzină, unitatea statistică este muncitorul, eşantionul e
reprezentat de primii 100 de muncitori, variabila poartă numele “mijloc de transport”,
valorile acesteia sunt: tren, autobuz, automobil, moto, bicicletă, pe jos, altele; tipul de
scală: nominală iar variabila este calitativă. După acest model încercaţi să rezolvaţi
problemele enunţate cu precizarea că acestea sunt subiecte de examen.

Termeni cheie
populaţie statistică; unitate statistică; variabilă cantitativă; variabilă
calitativă; scală nominală; scală ordinală ; scală de intervale; scală de
raporturi

Teme de verificare

?
1. Studiem rata şomajului anual în România între 1991-2016. Să se precizeze:
populaţia statistică, unitatea statistică, eşantionul, variabila, valorile acestei
variabile, tipul de scală folosit şi tipul de variabilă.

2. 250 de elevi de la liceele din Iaşi sunt testaţi la limba engleză, rezultatele fiind
consemnate ca valori întregi între 0 şi 100. Să se precizeze: populaţia statistică,
unitatea statistică, eşantionul, variabila, valorile acesteia, scala folosită, tipul de
variabilă.

3. În cadrul unui sondaj de opinie s-a pus următoarea întrebare: în ultima


săptămână câte ore aţi acordat lecturii?
- mai puţin de 4 ore 1
- de la 4 la 5 ore 2
- între 5 şi 6 ore 3
- între 6 şi 7 ore 4
- între 7 şi 8 ore 5
- între 8 şi 9 ore 6
- între 9 şi 10 ore 7

Să se precizeze variabila, valorile acesteia, tipul de variabilă, scala folosită!

II.4. Seria statistică

Seria statistică este, după accepţia lui Al. Bărbat [1972] o mulţime de date grupate
după unul din criteriile generale din statistică: grupare în timp, grupare în spaţiu şi
grupare calitativă (autorul subsumează aici şi seriile cantitative!). Grafic, seria statistică
se prezintă sub forma a două coloane sau linii care cuprind:
1. variaţia variabilei respective
2. frecvenţele corespunzătoare fiecărei grupe de valori a variabilei.

Seria statistică stă la baza calculelor, tabelelor şi graficelor statistice şi poate fi de două
feluri:
a) serie pe variante (când variabilele sunt de tip discret, deci iau un nr. finit de valori)
b) serie pe intervale (când variabilele sunt de tip continuu)

Observaţie: şi variabilele de tip discret pot fi supuse grupărilor pe intervale (de ex.
notele la un test pot fi grupate pe categoriile 20-40, 40-70, 70-100).
Exemple:
a). Serie pe variante forma generală:
Note obţinute Nr. de
Variabila X Frecvenţele fi
la examen studenţi
5 3 x1 f1
6 8 x2 f2
7 10 x3 f3
8 15 . .
9 6 . .
10 4 . .
Total 46 xi fi
. .
. .
xn fn

Total  fi

b) Serie pe intervale formă generală:


Ani de vechime Număr de
X fi
în muncă angajaţi
mai puţin de 6 6 x1 – x2 f1
6-10 7 x2 – x3 f2
10-14 9 . .
. .
14-18 3
. .
peste 18 4 xi-1-xi fi-1
Total 29 . .
. .
xn-1-xn fn

Total fi

Lectura unor astfel de tabele este deosebit de simplă iar modul lor de construire se
raportează la o problemă de ordin practic, care va facilita analiza statistică. Aceste tipuri
de serii statistice le putem găsi în lucrările de specialitate şi în reprezentare orizontală.
Iată un exemplu pentru o serie calitativă pe variante: medaliile obţinute de români la
Jocurile olimpice între 1896 şi 1998:

Canotaj
Disci- Gimnas-
Caiac- Atletism Lupte Tir Haltere Box Scrimă Altele Total
plină tică
canoe
Nr.
51 60 26 32 13 11 22 11 14 240
medalii
Sursa: Anuarul statistic al României, 1998, p.330
Iată acum alt exemplu pentru serii pe intervale: distribuţia femeilor căsătorite în anul
2016 în funcţie de categorii de vârstă:

sub 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 peste 60
Vârsta Total
20 ani ani ani ani ani ani ani ani ani ani
Frec-
7464 34214 46021 20730 10936 5864 4121 1701 1113 1019 133183
venţe
Sursa: INSSE.

Din aceste exemplificări se poate observa că libertatea noastră de a concepe astfel de


serii este foarte mare, în funcţie de scopul analizei şi caracterul datelor statistice. Astfel
întâlnim:

• serii cronologice de momente


Ex. : Numărul de societăţi cu participare străină în perioada 1991-1999 în România:
Anul 1991 1992 1993 1994 1995 1996 1997 1998 1999
Nr.
6239 12200 10800 11535 3764 4001 5731 9158 7199
soc.
Sursa: Oficiul Naţional al Registrului Comerţului, 1999

• serii cronologice de intervale


Se constituie ca şi cea precedentă cu observaţia că vor apare grupări de intervale, de
exemplu: 1991-1992, 1992-1993,........1998-1999 etc.

• serii spaţiale (ne arată diverse date statistice dispuse după unităţi de spaţiu
sau de teritoriu)
De exemplu: consumul anual de energie pe cap de locuitor (KWh), în 1999:
Ţara Cehia Ungaria Polonia Bulgaria F. Rusă România Croaţia
Consum 5656 3604 3532 4892 5661 2621 2965
Sursa: ABN Amro

La acestea se pot adăuga seriile statistice mai complexe obţinute fie din
combinarea unor serii cu o singură variabilă fie prin analizarea unor tabele cu mai multe
variabile sau prin încrucişarea variabilelor dihotomice (ex: sex), trihotomice etc. În ce
ne priveşte ne vom rezuma în cea mai mare parte din aceste pagini la analiza univariată
adică a variabilelor care distribuie o singură valoare unei unităţi statistice sau unui
interval al caracteristicii. Cât priveşte reprezentarea seriilor statistice este recomandat ca
vizualizarea tabelelor să fie cât mai sugestivă incluzând tema, sursa de date, unităţile de
măsură, numerotarea acestora etc.
În cazul seriilor de intervale se ridică anumite probleme metodologice privind
numărul de intervale alese, mărimea acestora, stabilirea modului în care intervalele sunt
distincte în mod clar, ajustarea intervalelor extreme. În acest sens, unii autori recomandă
respectarea unor reguli clare (vezi în A. Novak [1995; 8]):
1. exprimarea intervalelor, pe cât posibil, prin numere întregi
2. alegerea unui număr suficient de intervale pentru a facilita analiza statistică
3. evitarea alegerii unor intervale cu frecvenţe mici sau foarte mici
4. stabilirea capetelor intervalelor (prin precizări clare în cazul când limita
superioară a unui interval este identică cu limita inferioară a intervalului
următor, sau când respectivele limite sunt diferite). De asemenea se vor
rotunji valorile intervalelor extreme până la mărimi egale cu celelalte
intervale.
5. stabilirea mărimii intervalelor

Pentru a exemplifica aceste precizări să luăm în discuţie o serie citată mai sus:
Ani de vechime Mai puţin
6-10 10-14 14-18 Peste 18 Total
în muncă de 6
Număr de
6 7 9 3 4 29
angajaţi

În această serie statistică se observă:


• intervalele sunt exprimate prin numere întregi
• numărul de intervale este suficient de mare
• intervalele extreme se pot rotunji cu mărimi egale cu ale celorlalte intervale:
intervalul numit “mai puţin de şase ani” devine “2-6 ani” iar intervalul numit
“peste 18 ani” devine “18-22 ani”.
• se poate preciza în mod clar faptul că aceste intervale sunt complet distincte.
Astfel putem considera intervalele 2-6 ani, 6-10 ani, etc. cu valoarea din dreapta
neîncheiată, cu alte cuvinte vom considera valorile 6, 10, 14 ,18 ani ca fiind ani
neîncheiaţi. În acest caz în realitate intervalele din tabel sunt [2-6), [6-10), [10-
14), [14-18) etc. De exemplu o persoană cu 14 ani împliniţi de vechime va intra
în grupa a patra şi numai în acea grupă. Se exclude astfel posibilitatea ca o
unitate statistică să aparţină la două intervale distincte! În literatura de
specialitate de multe ori aceste limite nu sunt precizate sau se consideră
subânţelese, ceea ce poate naşte unele confuzii!
Cu precizările de mai sus seria statistică ar arăta de fapt astfel:
Ani de
[2- 6) [6-10) [10-14) [14-18) [18-22) Total
vechime
Număr de
6 7 9 3 4 29
angajaţi

În exemplele de până acum intervalele utilizate erau de obicei egale dar pot fi
alese şi inegale în funcţie de scopul cercetării. În general mărimea şi numărul acestor
intervale sunt foarte importante. Iată un exemplu negativ dat de T. Rotariu [1999; 32]:
Tabel. Distribuţia comunelor din România după numărul de locuitori, în 1995
Intervale
Sub 1000 1000-1999 2000-4999 5000-9999 10.000 şi peste Total
de mărime

Frecvenţe 44 385 1662 563 32 2686


Sursa: Anuarul demografic al României, 1996, pag.50

În acest tabel se constată următoarele:


• nr. de grupe (5) este foarte mic
• grupa de mijloc concentrează peste 60% din totalul comunelor
• grupele marginale au efective nesemnificative
• intervalele folosite sunt inegale dar şi inconfortabile la lectură!

Plecând de la acest exemplu trebuie spus că în orice serie statistică deşi este
uneori importantă intuiţia autorului, este util să se calculeze mărimea intervalelor. Acest
calcul se face astfel:
• se calculează mai întâi Amplitudinea variaţiei= Xmax – Xmin (diferenţa dintre
capetele extreme ale tuturor intervalelor)
• se împarte amplitudinea la numărul de intervale ales cu formula:
Xmax – Xmin
i=
nr. de grupe
Xmax – Xmin
însă de obicei se foloseşte formula lui Sturges: i = , formulă în care
1+ 3,322* lg n
lg n reprezintă logaritmul zecimal din n (nr. unităţilor statistice).

Exemplu de calcul:

La efectuarea unor măsurători antropometrice un număr de 18 subiecţi şi-au declarat


propria greutate în Kg după cum urmează : 47, 45, 67, 110, 85, 90, 44, 77, 65, 67, 89,
112, 49, 55, 62, 79, 58, 83. Se cere să se organizeze subiecţii: a) în trei grupe şi b) într-
un nr. de grupe după formula lui Sturges.
112 − 44 68
Rezolvare: se observă că X min=44 iar X max=112 apoi i = = = 22,6
3 3
In acest caz mărimea unui interval este de 23 unităţi. În acest caz seria se poate scrie:
Grupe 44-67 67-90 90-113 Total
Frecvenţe 8 7 3 18

La punctul b) se foloseşte formula lui Sturges:


112-44 68 68
i= = =  14(măr. interv.)
1+ 3,322* lg 18 1+ 3,322 * 1,2 4,98
În acest caz seria statistică va arăta astfel:
Grupe 44-58 58-72 72-86 86-100 100-114 Total
Frecvenţe 6 5 3 2 2 18

Observaţie: capetele intervalelor pot fi considerate [44-58), [58-72) etc. Precizăm că nu


vom mai specifica în acest curs aceste limitări urmând ca cititorul să aibă în vedere
acest lucru!

II.5. Frecvenţe relative şi frecvenţe cumulate

Frecvenţele pe care le-am întâlnit până acum se mai numesc frecvenţe absolute
reprezentând valori efective înregistrate în cazul fiecărei variante. Există însă situaţii
când trebuie să facem aprecieri asupra unor frecvenţe ca fiind părţi dintr-un întreg.
Acest întreg poate fi considerat alcătuit din 1, 10, 100, 1000, etc. de unităţi. Pentru 1 se
obţin părţi dintr-un întreg şi care adunate dau 1, la fel pentru 10. Pentru 100 rezultatele
obţinute se numesc procente şi sunt cel mai des utilizate în statistică. Pentru 1000
rezultatele se numesc promile cu semnul ‰. Calculul efectiv se face prin regula de trei
simplă după fiecare caz. Se obţin astfel ceea ce numim frecvenţe relative care
desemnează proporţia indivizilor care intră într-o clasă sau alta!

Exemplu: să se calculeze frecvenţele relative, procentuale ale seriei următoare:


distribuţia a 200 de firme după cifra de afaceri în miliarde lei:
Grupe de 10-20 20-30 30-40 40-50 50-60 Total
firme miliarde miliarde miliarde miliarde miliarde
Frecvenţe
10 30 60 80 20 200
absolute
Frecvenţe
5 15 30 40 10 100%
relative
Frecvenţele relative s-au calculat cu regula de trei simplă. de exemplu:
200……………..100%
10………………?% x= 10*100/ 200= 1000/200= 5 %
200……………..100%
30………………?% x= 30*100/ 200= 3000/200= 15%
Obs. : În cazul frecvenţelor relative totalul poate fi după caz 1, 10, 100, 1000 etc.
La seriile statistice se pot ataşa de asemenea noi linii sau coloane care să
reprezinte frecvenţele cumulate (foarte des utilizate în analizele statistice). Cumularea
frecvenţelor se poate face ascendent sau descendent! Să reluăm exemplul de mai sus
pentru o cumulare descendentă, transcriind însă tabelul pe verticală pentru a fi mai
expresiv!
Grupe de firme
(după cifra de Frecvenţe Frecvenţe Frecvenţe Frecvenţe relative
afaceri în absolute absolute cumulate relative cumulate
miliarde lei)
10-20 10 10 5 5
20-30 30 40 15 20
30-40 60 100 30 50
40-50 80 180 40 90
50-60 20 200 10 100
Total 200 - 100 -

După cum se observă din săgeţi prima frecvenţă se scrie identic apoi se adună cu
următoarea pe diagonală şi tot aşa până la rezultatul final, în mod obligatoriu egal cu
suma frecvenţelor (aici 200)! Făcând aceste calcule putem aprecia de exemplu că 100 de
firme au cifra de afaceri de până în 40 de miliarde sau în procente că 50% din firmele
respective au afaceri de până în acea sumă! Operaţii similare se pot face pentru seria
respectivă însă în sens invers, ascendent!
Grupe de firme
(după cifra de Frecvenţe Frecvenţe Frecvenţe Frecvenţe relative
afaceri în absolute absolute cumulate relative cumulate
miliarde lei)
10-20 10 200 5 100
20-30 30 190 15 95
30-40 60 160 30 80
40-50 80 100 40 50
50-60 20 20 10 10
Total 200 - 100 -

Din acest tabel se poate vedea că însumarea se face de jos în sus, ultima frecvenţă este
lăsată pe loc apoi este adunată cu frecvenţa de mai sus etc., rezultatul cumulării trebuind
să fie suma tuturor frecvenţelor . După aceste calcule se poate citi de exemplu că 160 de
firme au o cifră de afacere de peste 30 de miliarde sau, procentual, că 80% dintre firme
au o cifră de afaceri de peste 30 de miliarde!

Obs: uneori coloanele cu frecvenţele cumulate se mai notează F ↓sau F ↑ .

Termeni cheie:
serie statistică, serie pe variante, serie pe intervale, serii cronologice, serii spaţiale,
formula lui Sturges, frecvenţe relative, frecvenţe cumulate.
Teme de verificare
1. Într-o întreprindere s-au notat vârstele celor care lucrau într-o anumit secţie. Datele
obţinute au fost următoarele:
?
53, 46, 50, 43, 52, 43, 50, 45, 56, 42
43, 34 , 45, 46, 47, 49, 45, 44, 48, 48
36, 44, 38, 47, 42, 46, 43, 55, 44, 42
42, 48, 38, 54, 40, 44, 46, 48, 41, 49
55, 45, 47, 34, 43, 41, 41, 46, 43, 46
47, 46, 44, 44, 47, 48, 40, 48, 49, 42
48, 43, 46, 42, 50, 44, 55, 41, 55, 43
50, 46, 42, 44, 44, 43, 42, 41, 43, 54
49, 44, 47, 48, 50, 34, 48, 52, 44, 45
43, 42, 49, 55, 45, 55, 55, 44, 46, 58.

Să se stabilească tabelul seriei statistice, delimitând mărimea intervalelor cu


ajutorul formulei lui Sturges.
Să se construiască şi tabelul frecvenţelor relative (procentuale).

2. Într-un sondaj de opinie un grup de studenţi din Universitate au fost interogaţi asupra
gradului lor de mulţumire privind forma de învăţământ pe care o urmează.
Răspunsurile au fost următoarele:
Opinia despre învăţământ Număr de studenţi
Foarte mulţumiţi 87
Mulţumiţi 48
Nici mulţumiţi/Nici nemulţumiţi 32
Puţin mulţumiţi 20
Nemulţumiţi 13
Total 200
Întrebări: Care este variabila? Care este tipul de variabilă şi de scală? Este vorba de o
populaţie sau de un eşantion? Care este unitatea statistică? Care este procentajul celor
care nu sunt mulţumiţi? Alcătuiţi coloanele cu frecvenţele cumulate şi comentaţi-le!

Nu stiu, nu raspund

20% 20%
63% În sectorul privat 63%
17% 17%

În sectorul de stat
III. Grafice utilizate în analizele statistice

III.1. Grafice ataşate variabilelor calitative

Acest tip de grafice, numite şi grafice sectoriale sau diagrame de structură, sunt
reprezentate de obicei prin împărţirea unui cerc sau dreptunghi în sectoare
proporţionale ca mărime plecând de la considerarea lor ca 100% (în cazul cercului se
ia în calcul şi nr. de grade - 360).
Exemplul 1: Răspunsurile în cadrul unui sondaj de opinie la întrebarea “După părerea
dv. cei mai mulţi oameni care sunt corupţi se află…. ?” Prezentăm două variante, pe
care le puteți vedea pe pagina anterioară.
Exemplul 2: Diagramă sub formă de dreptunghi: Forme de învăţământ absolvite pentru
persoanele de peste 10 ani?

Studii superioare 15%

Postliceale 3%
Liceu 67%

Școala primară 15%

Sursa: INS, Recensământul Românei, 2011


Exemplul 3: Diagrame sub formă de dreptunghiuri (orizontale sau verticale)

CDR 22%
PDSR 39%
PRM 10%
PD 7%
APR 11%
UDMR 6%
Altele 5%
Sursa: Metromedia,
0% 10% 20% 30% 40% 50%
Barometrul de opinie
publică, mai, 1999
Din aceste exemple se observă că variabilele calitative se reprezintă grafic după
principiul divizării unui întreg în părţi proporţionale iar figurile geometrice alese nu
trebuie să aibă dimensiuni perfect urmărite (cum ar fi în ultimul exemplu unde doar
lungimile contează nu şi lăţimile respectivelor dreptunghiuri).
În practica jurnalistică astfel de grafice apar într-o multitudine de variante,
practic imposibil de inventariat!

III.2. Grafice ataşate variabilelor cantitative

În cazul unor variabile discrete putem folosi graficul cu bare verticale la fel ca la
variabile calitative. Valorile (modalităţile) sunt plasate pe orizontală în timp ce
frecvenţele sunt pe axa verticală (vezi exemplul 4). În cazul variabilelor cantitative
continue există o varietate largă de grafice. Acestea sunt: histograma, poligonul de
frecvenţă şi curba frecvenţelor cumulate.
Exemplul 4:
Care este situaţia donaţiilor din sponsori ?

15
16 13 13
14
12
Numărul de 10
sponsori 8 7 7
6
4 5 5
3
2 2
0
20 35 50 65 80 95 110 125 130

Sumele donate (în milioane lei)

a) Histograma

Histograma este formată dintr-un şir de dreptunghiuri, lipite între ele. Fiecare
dreptunghi are o bază care reprezintă o clasă anumită (un interval) iar aria este
proporţională cu frecvenţele referitoare la clasa respectivă.

Exemplu: Care este situaţia bolnavilor din Spitalul X, după vârstele pe care le au?
Vârsta Nr. Frecvenţa % Situaţia bolnavilor
bolnavi
10-20 10 8,9
40
20-30 18 16,0
30-40 36 32,2
30
40-50 25 22,4
50-60 15 13,3
20
60-70 8 7,2
Total 112 100%
10
numărul de
bolnavi
0
10 20 30 40 50 60 70
vârsta bolnavilor

După cum se vede, histograma reuneşte un număr de dreptunghiuri egal cu cel al


claselor (intervalelor) din seria statistică iar înălţimea acestor dreptunghiuri este dată de
frecvenţele respective. Repetăm faptul că spre deosebire de graficele anterioare
dreptunghiurile sunt lipite iar dimensiunea lor este importantă. Acelaşi grafic se poate
face şi pentru frecvenţele relative respectând valorile din tabelul de mai sus (faceţi
singuri acest grafic!).
În exemplul de mai sus se observă că clasele, intervalele erau egale (10-20,20-
30….) dar există şi cazuri când aceste intervale sunt inegale. În acest caz lăţimea
dreptunghiurilor din histogramă trebuie să fie proporţională cu dimensiunea
intervalelor. Iată un exemplu (vezi în T. Andrei, S. Stancu [1995; 21]) pentru
următoarea serie statistică: se consideră 20 de firme grupate după cifra de afaceri în trei
clase. Pentru că intervalele sunt inegale se procedează la o serie de operaţii suplimentare
ca în tabelul următor:
Grupe de firme Numărul mărimea fiecărui Raportul de Frecvenţa
după cifra de firmelor (fi ) interval (hi) mărime dintre redusă (fi *)
afaceri (mld. lei) intervale (ri/l)
10-30 4 20 2 2
30-40 6 10 1 6
40-60 10 20 2 5
TOTAL 20 - - -

În acest tabel coloana a patra se obţine după ce am considerat intervalul de


mijloc ca fiind unitar sau altfel spus am considerat intervalul a cărui mărime este cel
mai mic multiplu comun al mărimilor intervalelor. Aici valoarea “unitară” este 10 iar
apoi am împărţit valorile din coloana a treia la 10 rezultând valorile 2, 1, 2. Ultima
coloană se obţine făcând rapoartele dintre valorile coloanei a doua şi cele ale coloanei a
patra: 4/2=2, 6/1=6, 10/2=5. Când construim graficul axa OX are delimitările normale
de la 10 la 60 însă axa OY va conţine frecvenţele reduse:
8
Nr. de 7
firme 6
5
4
3
2
1
10 20 30 40 50 60
Cifre de afaceri
După cum rezultă şi din acest grafic, în cazul histogramelor există o relaţie de
proporţionalitate între mărimile statistice şi suprafaţa pe care ele o acoperă în plan. Cele
trei dreptunghiuri obţinute în acest caz reprezintă în ultimă analiză tot valorile
frecvenţelor absolute 4, 6, 10 dar iată că şi suprafaţa dreptunghiurilor intră în calcul
pentru ca graficul să fie sugestiv.

b. Poligonul frecvenţelor

Se construieşte pornind de la histogramă prin unirea mijloacelor superioare ale


dreptunghiurilor, după care, opţional, se poate renunţa la reprezentarea grafică a
acestora. Se obţine o linie frântă, neîntreruptă. În capetele graficului se uneşte linia
poligonală obţinută cu mijloacele intervalelor învecinate pentru a se obţine o linie
închisă. Scopul acestei întreprinderi: de a sugera repartiţia continuă a valorilor în cazul
unei serii statistice fapt care nu este vizibil pe o histogramă. Graficul în cauză poate fi
de forma:

sau

Obs. 1: Din modul cum este construit acest poligon se observă că aria cuprinsă între axa OX şi
linia poligonală este egală cu aria pe care o au toate dreptunghiurile histogramei!
Obs. 2: Construcţia grafică este identică şi pentru serii statistice cu intervale neegale.
c. Curba frecvenţelor cumulate
Acest grafic este direct legat de frecvenţele cumulate fie ele absolute fie relative
fie în sens crescător fie în sens descrescător. Curba ascendentă obţinută se mai numeşte
ogivă iar cea descendentă poartă denumirea de ogiva lui Galton.
De exemplu: într-un cartier de locuinţe se desemnează o serie statistică repartizând
familiile după spaţiul locuit (în m2 ):
Spaţiul locuibil ( m2) Nr. de familii F↓ F↑
48,0-48,9 8 8 100
49,0-49,9 13 21 92
50,0-50,9 25 46 79
51,0-51,9 26 72 54
52,0-52,9 17 89 28
53,0-53,9 11 100 11
Total 100 - -

Valorile din acest tabel au fost obţinute după regulile simple pe care le-am
prezentat deja. Lectura datelor se dovedeşte foarte utilă pentru analizele statistice. Astfel
din coloana F↓ putem citi faptul că de ex. 46 de familii au o suprafaţă locuibilă de până
în 50,9 m2. Din cealaltă coloană putem afla că de ex. 54 de familii au suprafaţa locuibilă
de peste 51 m2. Se observă că la coloana F↓, lectura se bazează pe termenii din dreapta
ai intervalelor seriei pe când la coloana F↑ lectura se bazează pe termenii din stânga
intervalelor. Graficele se fac după combinarea primei coloane de date cu cele
corespunzătoare lui F↓ şi F↑. Graficele arată astfel:

100 100

80 80

60 60

40 40

20 20

48 49 50 51 52 53 54 48 49 50 51 52 53 54
Graficul pentru F↓ Graficul pentru F↑
III.3. Alte tipuri de grafice

Modalităţile de prezentare grafică a datelor statistice sunt foarte diverse deşi


regulile sunt aceleaşi pentru toate. Iată doar două exemple:
a) diagrama semicirculară
Ex. : Structura gospodăriilor populaţiei după numărul de camere:

I - locuințe 1-2 camere (45.7%)


II - locuinte 3-5 camere (52.3%)
II III- locuințe >5 camere (2.1%)
I III

Sursa: INSSE, 2016

Obs: în astfel de grafice sectoarele de cerc se pot determina cu precizie. Plecând de la


observaţia că unghiul la centru este de 1800 atunci prin regula de trei simplă se
determină unghiul la centru corespunzător fiecărui sector! De exemplu pentru grupa II
vom avea 52.3 % din 1800 adică 940 .
b) diagrame prin suprafeţe
Suprafeţele respective pot fi pătrate, cercuri etc. având arii proporţionale cu
valorile reprezentate. Exemplu: volumul de vânzări ale firmelor:
Nr.
Numele firmei Volum de
crt.
vînzari (v) v
(milioane USD)
1. Expres 9 3
2. Business LTD 144 12
3. America LTD 361 19
4. Mondo 225 15
5. Avicenna 7921 89
6. Galactic 9409 97

6
5
5 555
6 4
3
3 4 2
2 1
1
Obs.: în tabelul de mai sus ultima coloană este formată din rădăcinile pătrate din
valorile reale, operaţie făcută doar pentru a uşura reprezentarea grafică. Radicalul
reprezintă proporţional laturile pătratelor din grafic. Importantă este deci proporţia
ariilor şi nu dimensiunile exacte. Cel de-al doilea grafic, cu cercuri concentrice se referă
la aceleaşi date din tabel. Aceleaşi date puteau fi folosite pentru diverse obiecte în
miniatură (ziarele cu ştiri economice folosesc deseori astfel de grafice).

Termeni cheie:
grafice pentru variabile calitative, histogramă, poligonul frecvenţelor, curba
frecvenţelor cumulate, diagrama semicirculară, diagrama prin suprafeţe.

Teme pentru examen:

? 1. Să se reprezinte grafic printr-un cerc de structură următoarea serie care reprezintă


sectoarele de activitate ale firmelor dintr-un oraş:
Sector de Trans- Sect. Artiza-
Comerţ Finanţe Servicii Altele Total
activitate port primar nat
Nr. de
159 61 295 60 102 55 17 749
firme

2. Să se reprezinte prin dreptunghiuri orizontale seria statistică rezultată în urma


întrebării: cum credeţi că au reuşit majoritatea oamenilor care au făcut avere în
România? (sursa Metromedia Transilvania, 1999).
Răspuns Nu ştiu/ Încălcarea Relaţii Muncă şi Alte Total
Noroc
nu răsp. legii merit mijloace
Frevenţe 5% 48% 24% 9% 11% 3% 100%

3. Se dă următoarea serie statistică a situaţiei orelor de muncă prestate în folosul


comunităţii de către 100 de beneficiari de ajutoare sociale.
Numărul de ore Număr de subiecţi
[ 0, 6 [ 7
[ 6, 12 [ 22
[12, 18 [ 35
[ 18, 24 [ 16
[ 24, 30 [ 15
[ 30, 36 [ 5
Total 100
Răspundeţi la următoarele întrebări:
1. Care este unitatea statistică? Care este variabila studiată?
2. Ce reprezintă intervalul [6, 12 [ ? Dar valoarea 22 din coloana a doua?
3. Care este mijlocul clasei a treia?
4. Câţi subiecţi fac mai puţin de 24 de ore de muncă pe săptămână?
5. Construiţi histograma seriei!
Obs.: în această serie se foloseşte de ex. notaţia [0, 6[ care desemnează un interval
închis la stânga şi deschis la dreapta. Este echivalentul intervalului [0, 6)!

4. Construiţi curbele frecvenţelor cumulate pentru seria următoare care conţine numărul
de ore consacrat de către un grup de copii pregătirii temelor :

Nr. de ore 0-2 2-4 4-6 6-8 8-10 Total


Nr. de copii 15,3 29,4 31,8 15,5 8 100 %
(%)

Plecând de la acest grafic să se precizeze proporţia copiilor care acord temelor


mai puţin de trei ore din timpul lor? Câte ore au acordat pregătirii temelor primii 50%
din elevi? Dar ceilalţi 50%?
IV. Mărimile medii în statistica socială

În cadrul înregistrărilor statistice, descompunerea colectivităţilor în elemente


individuale reprezintă doar o necesitate metodică însă scopul principal este acela de a
determina în acel ansamblu elementul caracteristic, reprezentativ, al întregului. Se
ajunge astfel la o generalizare, adică la o imagine simplificată a colectivităţii sub
aspectul caracteristicii date. În acest scop sunt folosite în statistică mărimile medii (sau
numite mărimile tendinţei centrale).

În funcţie de modalităţile tehnice de determinare mărimile medii sunt de două feluri:


• mărimi medii de poziţie: mediana şi modul
• mărimi medii de calcul : media aritmetică, media armonică, media pătratică,
media geometrică, media cronologică.

Dintre toate acestea, media aritmetică, mediana şi modul se mai numesc mărimi
medii fundamentale, celelalte fiind considerate mărimi medii cu aplicaţii speciale.

IV.1. Media aritmetică

Pornim de la un exemplu simplu pentru a înţelege repede cele expuse.


Presupunem că 10 elevi au fost interogaţi asupra numărului de fraţi şi surori pe care îi
au. Răspunsurile au fost: 0, 1, 2, 4, 2, 2, 3, 2, 4, 1. Numărul mediu de fraţi şi surori se
calculează simplu:
0 +1+ 2 + 4 + 2 + 2 + 3 + 2 + 4 +1 x1 + x2 + x3 + ....... + x10
= 2,1 sau = 2,1
10 10
Din acest exemplu tragem concluzia că modul general de calcul este:

x1 + x2 + x3 + ....... + x1n
=
x i
=x
n n
n
Obs: 1. Prin termenul  înţelegem de fapt  sau suma tuturor termenilor X după
i =1
n
cum urmeaz: x
i =1
i = x1 + x2 + x3 + ..... xn .

Obs. 2: Pentru că vom întâlni deseori acest simbol trebuie să ştim că că el se bucură de
proprietăţile care derivă din proprietăţile fundamentale ale operaţiilor:
n n
1)  a = n*a (pentru că  = 1+1+1+…..+1 = n iar a este un parametru care nu
i=1 i=1
depinde de n)

n n
2)  ( xi+ a ) =  xi + n*a = ( x1+a ) + ( x2 +a ) +………………(xn+ a )
i=1 i=1
n termeni
n n
3)  a*xi = a  xi (o constantă iese în faţa sumei)
i=1 i=1

Obs. 3: Suma tuturor produselor de forma Xi*fi reprezintă de fapt expresia:


 Xi*fi = X1*f1+ X2*f2+………Xn*fn
Revenind la cazul de mai sus, se observă că nr. de surori (fraţi) corespundea câte unui
singur elev şi de aceea am obţinut o medie aritmetică a unei serii simple.
Fie acum seria: 4, 4, 4, 4, 4, 7, 7, 8, 8, 8, 8. Din calculele de mai sus media
aritmetică este: x = (4+4+4+4+4+7+7+8+8+8+8) /11= 66/11= 6
Această serie mai poate fi scrisă astfel:

Valoarea Frecvenţa
4 5
7 2
8 4
Total 11

şi putem calcula x = (4*5+2*7+8*4) / 11 = (20+14+32) / 11 = 6 (rezultat identic). În


general,
 Xi * fi Aceasta este formula de calcul pentru o
x = serie pe variante şi se mai numeşte
 fi medie aritmetică ponderată.
Un al treilea caz corespunde seriei cu intervale. Iată un exemplu al unei serii care
cuprinde un număr de 150 de subiecţi distribuiţi după vârste:

Vârsta subiecţi Nr. de subiecţi (fi) Xi’ Xi’* fi


10-16 ani 1 13 13
16-22 ani 41 19 779
22-28 ani 61 25 1525
28-34 ani 30 31 930
34-40 ani 9 37 333
40-46 ani 5 43 215
46-52 ani 2 49 98
52-58 ani 1 55 55
Total 150 - 3948
x=
x • fi i
= 3948/ 150 = 26,32 ani
f i

În acest ultim tabel apar o serie de noutăţi pe care trebuie să le lămurim. Până
acum am văzut că media aritmetică înseamnă în cea mai simplă aproximare, suma
tuturor unităţilor împărţită la numărul acestora. La o serie cu variante se aplică formula
mediei aritmetice ponderate. Dacă în seria este cu intervale, formula este aceeaşi, cum
formula respectivă cuprinde termenii Xi de data aceasta s-a convenit ca termenii Xi să
fie mijloacele intervalelor seriei şi să fie notaţi cu Xi’: de ex. valoarea 13 din coloana lui
Xi’ nu este altceva decât mijlocul intervalului 10-16 etc. În ultima coloană nu am făcut
decât să înmulţim fiecare fi cu fiecare Xi’ după care am făcut suma totală a acestor
produse. Această sumă nu e decât numărătorul de la formula mediei!
În concluzie pentru media aritmetică avem următoarele formule:

 Xi
X = , pentru seriile simple
n

 Xi * fi
X = , pentru seriile pe variante sau cu intervale
 fi (numite şi serii ponderate)

Obs. Cele două formule sunt echivalente dar se folosesc diferit pentru
rapiditatea calculelor

Media aritmetică se bucură la rândul ei de o serie de proprietăţi care pot fi foarte utile
tuturor celor ce fac analize statistice sau care vor să aprofundeze această disciplină,
proprietăţi pe care le enunţăm fără demonstraţie:
a). Media aritmetică este o medie internă, adică are loc relaţia: x1 < X < xn .
b). Dacă x1 = x2 =…………=xn = k atunci rezultă că X = k!
c).  ( xi – x ) = 0 , pentru o serie simplă

 ( xi – x )*fi = 0, pentru serii ponderate!


Această proprietate se enunţă astfel: suma abaterilor valorilor faţă de medie este nulă.

d).
 ( x  a) = x  a
i
, pentru serii simple şi
n

 ( x  a) • f
i i
= x  a , pentru serii ponderate.
f i

Enunţ: dacă din toţi termenii unei serii se scade / se adună acelaşi număr a ≠ 0 atunci şi
media aritmetică a acelei serii se va modifica cu acea valoare a!
xi

k =𝑥
e). 𝑛 𝑘 unde k este un parametru real

Enunţ: dacă toţi termenii unei serii se împart prin acelaşi număr k ≠ 0 atunci şi media
aritmetică a seriei va fi de k ori mai mică!

f
 xi i
m
f). fi =𝑥

m

Enunţ (numai pentru serii ponderate): dacă în formula de calcul a mediei aritmetice
frecvenţele se împart la un nr. m ≠ 0 şi la numitor şi la numărător atunci valoarea
mediei nu se schimbă!
g). Proprietăţile de mai sus se pot cumula în formule noi de calcul a mediei aritmetice,
formule utile pentru serii care cuprind un număr mare de valori. Iată aceste formule:

x x −a
 i ∗fi  i ∗fi
k k
𝑥= ∗𝑘 ; 𝑥 = ∗𝑘+𝑎
fi fi

xi − a f
 ∗ i
𝑥= k m ∗ 𝑘 + 𝑎, unde k, m ≠ 0
fi

m

Ultima dintre formule este cea mai cuprinzătoare şi se foloseşte deseori în


calculele statistice. Deşi pare complicată ea sugerează în fapt că putem face o serie de
operaţii asupra termenilor seriei statistice pentru simplificarea finală a calculelor!
Atragem atenţia că dacă din termenii unei serii se scade valoarea a, atunci ea trebuie să
fie adăugată la finalul formulei; dacă frecvenţele fi se împart toate la acelaşi număr m,
este de aşteptat ca el să fie cel mai mare divizor comun (c. m. m. d. c.) lucru valabil şi
pentru valoarea k!
Să utilizăm această formulă pentru a calcula media aritmetică în cazul unei serii
statistice (după un exemplu din A. Novak, 1995; pag. 26):
Punctaje Frecvenţe xi Xi-a xi-a/ fi/ xi-a fi
( X) (fi ) k m k * m
10-20 20 15 -20 -2 1 -2
20-30 80 25 -10 -1 4 -4
30-40 200 35 0 0 10 0
40-50 100 45 10 1 5 5
50-60 60 55 20 2 3 6
Total 460 - - 23 5
Să explicităm acest tabel:
• primele două coloane cuprind seria statistică
• coloana a treia cuprinde seria xi care sunt mijloacele intervalelor primei coloane
• începând cu coloana a patra se urmăreşte pas cu pas formula generală specificată
anterior:
x −a f
 i ∗i
• 𝑥= k
f
m
∗ 𝑘 + 𝑎, unde k, m ≠ 0
 i
m

coloana a patra conţine seria xi-a; valoarea lui a fiind aleasă de către statistician
de obicei ca valoarea de mijloc din coloana a treia. În cazul nostru a = 35, iar apoi se fac
scăderile respective, de ex. 15-35= - 20 etc.
• coloana a cincea conţine seria termenilor (xi-a) / k, unde k este ales de statistician ca
c. m. m. d. c. pentru termenii seriei xi-a. Aici k= 10.
• în coloana a şasea se foloseşte m= 20, care este c.m.m.d.c. pentru termenii coloanei
fi !
• în ultima coloană se fac produsele necesare numitorului din formula de mai sus.
• rezultatul calculelor devine :
5
x= • 10 + 35 = 37,1 puncte
23
Observaţie: În cazurile seriilor pe care le-am citat până acum nu am avut cazuri în care
unele valori să fie foarte îndepărtate de valoarea mediei aritmetice. Există însă şi cazuri
în care o valoare “aberantă” să aibă o influenţă decisivă atunci când calculăm
principalele mărimi statistice! Fie de exemplu seria X= (5, 7, 10, 15, 18, 33, 2500) .
xi
Conform formulei X = = 2588/7=369,7
n
Se observă însă că termenul 2500 este foarte îndepărtat de celelalte elemente şi se
consideră că el influenţează în mod abuziv valoarea mediei. De aceea se foloseşte în
statistică media trunchiată de ordin t cu ajutorul formulei:

1 n-1
X (t) = *  xi
n-2t i= t+1
Această formulă calculează media aritmetică excluzând termenii extremi ai
seriei ordonate crescător (n este numărul de termeni ai seriei). În exemplul nostru,
media trunchiată de ordinul unu va fi:
1 n-1 1
X(1)= *  xi = (7+10+15+18+33) = 16,6
n-2*1 i=2 7-2
Valoarea rezultată este mult mai firească raportată la valorile seriei.
Teme de verificare
1. O echipă de fotbal a marcat următoarele goluri:
Goluri 0 1 2 3 4 5 6 7 8 Total
?
Meciuri 5 6 8 8 10 5 2 1 1 46
Să se calculeze media de goluri pe meci pentru această echipă!
2. Candidaţii la un concurs au obţinut următoarele rezultate:
Rezultate 20-30 30-40 40-50 50-60 60-70 70-80 80-90 Total
Nr. de
35 45 95 145 125 60 33 538
candidaţi
a). Să se calculeze media aritmetică a rezultatelor obţinute
b). Să se traseze histograma şi să se plaseze media pe histogramă

3. Se dă seria următoare:
Rezultate 40-60 60-80 80-100 100-120 120-140 Total
Studenţi 30 40 60 35 15 180
Să se calculeze media aritmetică cu formula finală explicitată în notele de curs!

IV.2. Alte medii de calcul

IV.2.1. Media pătratică

Vom exemplifica media pătratică şi celelalte medii de calcul cu unele modele


simple. Să presupunem că avem o serie X = (10, 15, 14, 13, 5, 2) care reprezintă piesele
executate de un muncitor în decurs de o săptămână. Media aritmetică se calculează
foarte simplu:
10 + 15 + 14 + 13 + 5 + 2
x= = 9,8 piese
6
Cum respectivul muncitor s-a remarcat deseori prin anumite performanţe,
calculul de mai înainte ne face să credem că media aritmetică nu reflectă în mod real
calităţile angajatului. Tocmai de aceea s-a introdus media pătratică, aceasta acordând o
mai mare importanţă valorilor mari ale seriei. Calculul efectiv al acestei medii se face
prin extragerea radicalului sau rădăcină pătrată din suma pătratelor valorilor seriei
împărţită la nr. de valori n :

1
xp =
n
 xi2 , pentru serii simple şi
xp = x i • fi f i , pentru serii ponderate.

În cazul nostru x p = (102 + 152 + 142 + 132 + 5 2 + 2 2 ) / 6 = 11 piese !


Rezultatul obţinut îl putem considera mai apropiat de posibilităţile subiectului în
condiţiile în care piesele executate în ultimile două zile micşorau media calculată! Să
observăm şi faptul că întotdeauna x p  x !

IV.2.2. Media geometrică

Această medie se bazează pe produse ale termenilor seriei şi se utilizează când


se acordă importanţă valorilor mai mici ale seriei sau când între termenii seriei există o
relaţie de produs. Iată un exemplu dat de A. Novak [1995 ; 29]: unui pacient, pentru
organele interne i se dau o serie de note (10 pentru ficat, 10 pentru rinichi, 10 pentru
plămâni şi 1 pentru inimă). Dacă s-ar calcula media aritmetică se obţine valoarea de 7,
75! Se pune întrebarea dacă această medie reflectă în mod just starea de sănătate a
pacientului şi tocmai de aceea s-a introdus media geometrică (calculat cu radical de
ordin n din produsul tuturor valorilor seriei) şi care accentueaz valorile mici. Pentru
serii simple vom avea deci formula:

x g = n  xi

În formula de mai sus precizăm că radicalul de ordin n desemnează de fapt


puterea la care trebuie ridicat rezultatul pentru a obţine cantitatea de sub radical.
Radicalul obişnuit pe care îl cunoaştem este radicalul de ordin doi. De ex. radical din 9
este egal cu 3 şi ştim că 3 ridicat la puterea a doua (ordinul radicalului) ne dă rezultatul
9. La fel 3
27 =3 deoarece 33 dă rezultatul 27. În cazul seriei noastre radicalul este de
ordin patru deoarece seria are patru valori. Mai precizăm că în formula de mai sus apare
semnul  (citit pi), literă grecească ce desemnează produsul mai multor factori:
n
 xi=  xi = x1*x2*x3*………*xn.
i=1

În cazul nostru x g = 4 10 *10 *10 *1 = 5,6 Valoarea în sine se observă în tabele


matematice. Valoarea calculată pare să fie în exemplul nostru mult mai apropiată de
situaţia reală a pacientului!

***
Obs. Întotdeauna Xg< X ! De asemenea trebuie observat că dacă un termen al seriei
este nul atunci media geometrică este nulă. Se justifică şi în exemplul de mai înainte: cu
toate notele foarte bune, nota zero pentru inimă face ca media să fie zero!

IV.2.3. Media cronologică

Media cronologică se aplică la determinarea nivelului mediu al unei serii


dinamice de momente. Notăm cu xi ( i= 1, 2…n) termenii unei serii dinamice şi cu ti ( i=
1,2…n-1) intervalele dintre momente. Iată o reprezentare grafică sugestivă:
t1 t2 tn-1
. . . .
x1 x2 x3 ……………………………………xn

Acest grafic poate reprezenta de exemplu operaţia de numărare a populaţiei


dintr-un oraş, populaţie care are dimensiunile x1, x2, …………xn iar numărarea se face
după perioade de timp fie ele şi inegale : t1 = 60 de zile, t2= 120 de zile etc.
Într-o serie cronologică pentru a calcula nivelul mediu trebuie ca seria să fie
transformată într-o serie de intervale prin calcularea mediilor aritmetice simple parţiale
după cum urmează:
x1 + x 2 x 2 + x3 x3 + x 4 x + xn
, , , ……………………… n−1 ,
2 2 2 2
Introducând aceste rapoarte în formula de calculare a unei medii obişnuite
obţinem:

x1 x
+ x2 + x3 + ........ n
Xc = 2 2
n −1

Exemplu: fie o serie statistică a economiilor unei persoane (în milioane lei) de
la o banc aşa cum a rezultat prin consultarea contului de trei ori într-un an deci la
intervale egale de câte o lună. Să se calculeze valoarea medie a economiilor !

Luna iunie iulie august septembrie


cont (mil. lei) 700 650 860 550

În această serie x1=700, x2 = 650, x3 = 860, x4= 550 şi n =4.


700/2+ 650+ 860+ 550/2
Xc= = 711,6 mil lei.
3
Acest exemplu este pentru seriile care au intervale egale. Pentru seriile cu
intervale inegale formula de calcul este:
x1 t +t t +t x
• t1 + x2 • 1 2 + x3 • 2 3 + ........ n • t n −1
Xc = 2 2 2 2
t1 + t 2 + t 3 + ...... + t n −1
Teme de verificare

? 1. Se dă următoarea serie statistică al cărei tabel grupează un număr de 20 de muncitori


după vechimea în muncă.
Grupe de ani
0 2-7 8-13 14-19 20-25 26-31 Total
vechime
Nr. de muncitori 1 3 4 6 5 2 20

Folosind media armonică pentru o serie ponderată să se calculeze care este numărul
mediu de ani vechime pentru colectivul în cauză.
2. Folosind aceeaşi serie statistică calculaţi media geometrică.
3. În studiile de demografie (a se vedea Sora V. et al., 1987) se foloseşte noţiunea de
populaţie medie ca o aproximare a numărului populaţiei. Populaţia medie se
calculează ca medie cronologică. Iată un exemplu de măsurare pentru populaţia unui
judeţ. Calculați populația medie!
Data 01.01.2000 10.02.2000 1.04.2000 8.09.2000 25.11.2000 31.12.2000
Efectiv 600.600 622.300 642.300 644.300 648.530 649.300
Să se calculeze populaţia medie având în vedere că t1= 40 de zile; t2=50 zile; t3= 160
zile; t4= 78 zile; t5= 37 zile!

IV.3. Mediana (Me)

În calculele statistice, mediana (Me) este valoarea ataşată subiectului care


împarte seria statistică în două părţi egale.
Pentru serii simple determinarea medianei coincide cu aflarea termenului din mijloc
al acelei serii (după ce am ordonat elementele acesteia în ordine crescătoare sau
descresctoare). Fie de exemplu seria de note obţinute de 11 elevi la o materie: 6,5,4,
7,7,7,8,5,7,9,8. Această serie trebuie ordonată: 4,5,5,6,7,7,7,7,8,8,9. Se observă că
termenul median (al cincilea) este 7. Dacă seria are însă un număr par de valori atunci
mediana este media aritmetică a celor doi termeni centrali. De ex. pentru seria
4,5,5,6,6,7,8,9,10,10 Me=(6+7)/2=6,5. Pentru serii pe variante se parcurg mai multe
etape:
a) Se identifică mai întâi unitatea mediană, notată cu Ume şi care se calculează cu
formula:
 fi +1
Ume = , unde fi sunt frecvenţele adunate.
2
b) Se identifică valoarea xi corespunzătoare intervalului din şirul frecvenţelor
cumulate în care se află unitatea mediană.
Exemplu: se consideră seria statistică a numărului de piese executate de 115 muncitori:
Numărul de piese Număr de muncitori F↓
5 2 2
6 7 9
7 20 29
8 50 79
9 36 115
total 115 -

Pentru seria de mai sus Ume= (115+1) / 2 = 58. Se observă că 58  (29, 79) din
coloana F ↓. Corespunzătoare limitei superioare a acestui interval (79) avem în prima
coloană valoarea 8. Această valoare este chiar mediana.
Obs.1: Din acest exemplu se vede că mediana este acea valoare a caracteristicii pentru
care colectivitatea respectivă este împărţită în două grupe egale. Pentru exemplul nostru
mediana se poate citi astfel: jumătate din muncitorii respectivi au fabricat cel puţin 8
piese.
Obs. 2: Atragem atenţia asupra diferenţei dintre unitatea mediană şi mediană (adică
valoarea corespunzătoare intervalului median în coloana X).
Obs. 3: Mulţi autori recomandă folosirea a două formule pentru calculul unităţii
mediane după cum  fi este par sau impar. Pe scurt aceste formule ar fi:

 fi/2 , pentru fi par


Ume =
( fi +1)/ 2 , pentru  fi impar

În cazul seriilor cu intervale raţionamentul general rămâne acelaşi dar


modalitatea de calcul este mai complicată. Astfel, după primele etape se aplică formula:
Ume -  fia
Me = x0 + d , în care :
fm

– Me = mediana ; fm=frecventa interv. median


– x0 = limita inferioară a intervalului media
– d = mărimea intervalului median
–  fia = frecvenţa cumulată anterioară celei corespunzătoare intervalului
median.
Exemplu: La un test de cunoştinţe s-au obţinut rezultatele conform tabelului:
Punctaj (xi ) Frecvenţe (fi ) F↓
20-30 14 14
30-40 22 36
40-50 38 74
50-60 49 123
60-70 23 146
80-90 9 155
Total 155 -
Ume= (155+1)/2 = 78 deci Ume  (74, 123)
Se stabileşte intervalul median adică intervalul care conţine mediana. În acest caz al 78-lea
subiect are un punctaj cuprins în intervalul (50-60) de puncte. Acesta este deci
intervalul median. În acest caz: - x0 = limita inferioară a intervalului median = 50;
 fia= 74 ; d= 60-50= 10 ; fm = 49
78-74 4
Deci, Me = 50 + 10 = 50+10 = 50,8.
49 49
Se poate deci deduce că jumătate dintre subiecţi au obţinut un calificativ de până în 50,8
puncte iar cealaltă jumătate a avut rezultate superioare acestui prag!

Obs.: Mediana se poate reprezenta pe grafice foarte uşor, fie găsind valoarea respectivă
în graficul frecvenţelor cumulate fie observând verticala dintr-o histogramă care împarte
aria acesteia în două părţi egale. În cazul distribuţiei normale a unei serii statistice (o
distribuţie care este simetrică) mediana este chiar axa de simetrie (sau valoarea
corespunzătoare acesteia pe axa OX). O altă modalitate este de a reprezenta ambele
curbe ale frecvenţelor cumulate pe acelaşi grafic iar la intersecţia acestora se află
mediana.

IV.4. Modul (Mo)

Modul sau dominanta exprimă nivelul cel mai frecvent (dominant ca frecvenţă) ce se
întâlneşte într-o colectivitate pentru o caracteristică dată. Modul se stabileşte în mod diferit
pentru serii simple sau pentru serii cu intervale (se citeşte cu accent pe o: Módul)

a) Într-o serie în care caracteristica ia valori simple, fără intervale, se identifică


termenul căruia îi corespunde cea mai mare frecvenţă.

Ex. : Un grup de elevi grupaţi după numărul de cărţi citite:


Nr. Cărţi 0 1 2 3 4 5 6 7 8
Nr. Elevi 0 1 7 8 4 0 2 0 0

În această serie se observă că Mo =3 deoarece cel mai mare nr. de elevi (8) au citit câte
trei cărţi.
b) Pentru serii cu intervale unii autori folosesc o metodă de calcul aproximativă,
apreciind modul sau dominanta ca fiind egal cu centrul intervalului care are frecvenţa
cea mai mare. Ex: se consideră seria câştigurilor în $ ale unui număr de 1500 de
angajaţi într-o firmă din Est:
Venit 0-200 200-400 400-600 600-800 800-1000 1000-1200 1200-1400 Total
(USD)
Angajaţi 30 390 675 315 60 21 9 1500
Se observă că frecvenţa cea mai mare este de 675. Numim intervalul modal
(400-600). Modul se calculează simplu Mo= (400+600) / 2 =500.
O modalitate mai precisă este aceea folosind formula:

∆1
Mo = x 0 + d ∆ , unde
1 +∆2

– xo = limita inferioară a intervalului modal


– d = mărimea intervalului dominant
– 1 = diferenţa dintre frecvenţa intervalului dominant şi frecvenţa
intervalului precedent
– 2 = diferenţa dintre frecvenţa intervalului dominant şi frecvenţa
interrvalului următor.

Ex: [ din Al. Bărbat ; 1972] :se consideră seria distribuţiei sălilor de cinema, după nr. de
spectatori:
Capacit. sălilor 0-100 100-200 200-300 300-400 400-500 500-600
(nr. spectatori)
Nr. de săli 399 1836 2757 642 64 13
Se observă că: – intervalul dominant este ( 200-300)
– x0 = 200
– d = 100 ( 300-200)
– 1= 2757-1836 = 921
– 2 = 2757-642 = 2115
921
Mo = 200 + 100 = 200+ 100* 0,3 = 230
921+2115
Obs.: din punctul de vedere al reprezentării grafice, modul sau dominanta se
evidenţiază uşor pe curba sau poligonul frecvenţelor. Astfel ea corespunde pe axa OX
punctului din care ridicând o perpendiculară aceasta atinge valoarea maximă pe axa
ordonatelor. În cazul histogramei modul se va plasa în zona dreptunghiului cel mai mare
din grafic. Dacă reprezentăm grafic seria de mai sus vom avea următoarea situaţie:

3000

2500

2000

1500

1000

500

Mo=230
0 230 200
100 300 400 500 600
Obs.: se demonstrează riguros matematic faptul că modul este proiecţia intersecţiei
celor două segmente punctate din cadrul histogramei pe axa OX!

Recapitulare:

În cadrul analizelor statistice mărimile tendinţei centrale sunt de maximă


importanţă. Să recapitulăm pe scurt funcţiile acestora:

Tip de măsură Notaţie Semnificaţie; observaţii


Nu are sens decât pentru variabile cantitative
Media aritmetică X
Desemnează o calitate în medie a unei serii
Împarte seria de date statistice în două părţi egale
Mediana Me
Are sens doar pentru variabile cantitative sau var.
calitative ordinale
Indică modalitatea (valoarea) cea mai frecventă
Modul Mo
Are sens pentru orice tip de variabilă

După cum se vede şi din acest tabel mărimile tendinţei centrale se pot utiliza după tipul
de variabilă pe care îl întâlnim în diverse aplicaţii statistice. M. Colin et alii [1995; 165]
face chiar o schemă sugestivă:

Ce măsură a tendinţei
centrale putem utiliza ?

Tip de variabilă

Calitativă Scală nominală Modul

Scală ordinală Modul şi mediana

Cantitativă Modul, mediana şi media


Chiar din această schemă putem trage concluzia că în cazul variabilelor
calitative cu scală nominală sau ordinală, modul este mărimea reprezentativă. În cazul
variabilelor cantitative mărimea cea mai des uzitată este media aritmetică deoarece ea
ţine cont de toate datele seriei şi este utilizată în majoritatea aplicaţiilor statistice. După
cum am văzut, totuşi media aritmetică poate fi influenţată de către valorile extreme ale
seriei şi atunci poate fi preferată mediana.

Teme de verificare
1. Un grup de elevi au obţinut la un examen notele: 7, 8, 7, 9, 9, 10, 6, 7, 8, 9, 11, 7, 8,
9, 10, 10, 7, 5, 10, 6, 6, 9, 10. Să se calculeze mediana! Cum interpretăm rezultatul?
?
2. Se dă seria următoare care reprezintă înălţimea a 452 de copii:
Înălţime 120-125 125-130 130-135 135-140 140-145 145-150 Total
Nr. de copii 40 84 128 107 53 40 452
a). Să se determine Mediana cu ajutorul formulei prezentate
b). Să se reprezinte mediana pe graficul frecvenţelor cumulate

3. Se dă următoarea serie statistică ce reprezintă suprafaţa unor apartamente în care


locuiesc un număr de 388 familii:
Suprafaţa
25-50 50-75 75-100 100-125 125-150 150-175 175-200 200-225 Total
(m2)
Nr. de
23 86 80 74 34 69 13 9 388
familii
a). Să se calculeze Mo în cele două modalităţi specificate în curs (direct şi cu ajutorul
formulei)
b). Să se identifice Mo pe histogramă.
V. Indicatorii variaţiei

Valorile mărimilor centrale sunt utile pentru a caracteriza ceea ce este comun şi
tipic pentru o serie statistică. Se pune însă întrebarea în ce măsură media este
reprezentativă pentru întreaga masă de valori individuale. Altfel spus ne interesează şi
modul cum variază valorile individuale în jurul mediei. În general valoarea mediei este
reprezentativă doar în cazul în care colectivitatea este suficient de omogenă, deci
variaţia respectivă nu poate fi oricât de mare. Tocmai de aceea ne interesează anumiţi
indicatori care dau o imagine asupra variaţiei valorilor unei serii.

V.1. Indicatorii simpli ai variaţiei


In acest subcapitol urmăm sugestiile din A. Novak (1995; pp. 42-56) şi E. Jaba
(2004, pp. 96-106) Teoria este urmată de exemple practice diferite.

V.1.1. Amplitudinea absolută

Este in indicator statistic foarte general calculat ca diferenţa dintre valorile


maxim şi minim ale distribuţiei statistice :
A= xmax-xmin

Exemplu: într-o serie de valori precum următoarele : 4,6,5,2,8,9,9 A= 9-4=5.


Amplitudinea este o valoare care aproximează variaţia valorilor (astfel pentru
serii total diferite se poate obţine aceeaşi valoare pt. A).
A
Obs: se mai poate calcula şi amplitudinea relativă cu formula A% = • 100 . In general
x
valoarea amplitudinii ne ajută să calculăm intervalele în aplicaţii de tip Sturges!

V.1.2. Abaterile individuale absolute ( ai) şi relative (ai%)

Aceste abateri se referă la distanţele între fiecare valoare individuală şi valoarea


medie, formula fiind:
ai = xi-x ; în exemplul de mai sus putem calcula
a1= 4 - 6,1 = -2,1; a2= 6 – 6,1 = 0,1 ; a3=5-6,1=-1,1 etc.

Se pot calcula de asemenea şi abaterile individuale relative cu formula:


ai xi - x
ai% = 100 = 100
x x
Calculul acestor abateri individuale ne poate da o imagine despre poziţia unei
modalităţi faţă de medie. Ne referim aici la media aritmetică dar la fel de bine se pot
calcula abaterile faţă de mediană (în formule va apare mediana).

V.2. Indicatori sintetici ai variaţiei

V.2.1. Abaterea medie liniară (a)

Această abatere reprezint media aritmetică a tuturor abaterilor termenilor seriei


de la media lor, luate în valoare absolută (sau în modul), formulele fiind următoarele:
 xi –x 
a= , pentru serii simple
n

 xi- x * fi
a= , pentru serii ponderate.
 fi
Exemplu: fie seria anterioară ( 4,6,5,2,8,9,9). Pentru această serie x = 43/7 = 6,1. În
acest caz abaterea medie liniară devine:
4- 6,1+ 6 –6,1+ ……………..+ 9 – 6,1 15,1
a= = = 2,15.
7 7
rezultatul obţinut are o semnificaţie importantă: ne arată cu cât se abate, în medie,
fiecare variantă de la media considerată (aici media aritmetic). Să observăm că
introducerea modulului este importantă, altfel toate sumele ar fi fost egale cu zero!

V.2.2. Dispersia (varianţa)

Acest indicator se calculează ca o medie aritmetică a pătratelor abaterilor


termenilor faţă de media lor şi de aceea ea se mai numeşte abaterea medie iar unii autori
o numesc varianţă. Scopul introducerii acestei mărimi este acela de a caracteriza
omogenitatea seriei respective, omogenitate care creşte odată ce scade σ2 ( se citeşte
sigma):

 2
=
 (x i − x) 2
, pentru serii simple şi
n

 2
=
 (x i − x) 2 • f i
, pentru serii ponderate.
f i
Să dăm un exemplu după T. Andrei şi S. Stancu [1995; 119] pentru o serie simplă:
(1,2,4,7,9,10, 11, 12). La această serie se calculează imediat Media = 7. Apoi se fac
calculele din tabelul următor:

X 1 2 4 7 9 10 11 12 Total
xi - x -6 -5 -3 0 2 3 4 5 -
(xi –x) 2 36 25 9 0 4 9 16 25 124

Revenind la formulă se obţine σ2 = 124/8 = 15,5.

Pentru seriile cu frecvenţă calculele sunt ceva mai laborioase, după cum rezultă
din tabelul următor:
X pe Frecvenţe
Intervale (fi) xi xifi xi- x (xi- x )2 (xi- x )2fi
5-6 5 5,5 27,5 -2,5 6,25 31,25
6-7 8 6,5 52 -1,5 2,25 18
7-8 18 7,5 135 -0,5 0,25 4,50
8-9 33 8,5 280,5 0,5 0,25 8,25
9-10 9 9,5 85,5 1,5 2,25 20,25
10-11 5 10,5 52,5 2,5 6,25 31,25
Total 78 633 - - 113,50
În acest tabel se observă că se fac operaţiile din aproape în aproape pentru a se ajunge la
formula finală. Mai întâi se calculează media aritmetică:
 xi fi
x = = 633/78 ≈8
 fi
Dispersia va avea valoarea:
 ( xi – x )2 * fi 113,5
σ =2
= = 1,45
 fi 78
Pentru calculul dispersiei se pot folosi şi alte două formule care simplifică tabelele de
mai sus, rezultatele fiind identice. Se poate deci demonstra că :
 xi2  xi2 fi
σ =2
-x 2
sau σ = 2
- x2 .
n  fi
V.2.3. Abaterea standard sau abaterea medie pătratică (D)

Deoarece varianţa introduce o marire a valorilor s-a decis s se extrag rădcin


pătrată din această valoare:

Abaterea standard sau abaterea medie pătratică se calculează ca rădăcină pătrată din varianţă.

1
Pentru serii simple:  =
n
 ( xi − x) 2 .
Dacă am lua exemplul de mai sus atunci σ = 1,45 = 1,20.
Aceeaşi procedură are loc şi pentru seriile cu frecvenţă. Raţiunea introducerii
acestei mărimi este aceea că la valori mici ale ei putem trage concluzia că media seriei
caracterizează bine seria. De asemenea abaterea standard are un mare grad de precizie
şi este foarte utilă în reprezentările grafice.
Observaţii:
1.Varianţa şi abaterea medie pătratică se pot calcula raportându-ne la orice valoare a (o
constantă reală). Prin înlocuire cu x , se obţin formulele de mai sus!
2. Vom întâlni aceste mărimi sub denumiri destul de diferite deşi se referă la acelaşi
lucru. Astfel noţiunea de abatere standard se mai numeşte deviaţie standard (engl.
standard deviation), ecart tip (în franceza: écart-type) etc. De asemenea se pot întâlni
diverse notaţii pentru aceste mărimi.
3. Abaterea standard se măsoară cu unităţile de măsură ale variabilei. Aceasta ne
împiedică să facem comparaţii între variabile. De exemplu, spune T. Rotariu [1999] nu
putem compara dispersia salariilor din Anglia (măsurate în lire sterline) şi cea a
salariilor din Italia (măsurate în lire italiene) calculând abaterile standard pentru cele
două distribuţii ale salariaţilor din ţările respective. Pentru uşurarea comparaţiilor s-a
introdus coeficientul de variaţie.

V.2.4. Coeficientul de variaţie

Acest coeficient se calculează prin împărţirea abaterii standard la media


colectivităţii, se va exprima în procente iar unitatea de măsură a variabilei dispare:

v= • 100
x

Cu cât v are o valoare mai mică cu atât colectivitatea respectivă este mai
omogenă şi, la fel ca în cazul varianţei, cu cât valoarea este mai mare cu atât seria este
mai eterogenă. A. Novak [1995] precizează că valoarea lui v<35 % ne îndreptăţeşte să
afirmăm că respectiva colectivitate este omogenă iar x este reprezentativă. Alţi autori
vorbesc doar de o slabă omogenitate a seriei pentru valori mari ale acestui coeficient.
Ex.: în ultimul caz analizat aveam o serie cu datele următoare:
X = 8 ; σ2 = 1,45 ; σ = 1,20 şi putem calcula şi coeficientul de variaţie:
V = 1,20/ 8 * 100= 15 % !
Putem spune că respectiva serie statistică este omogenă.
Să exemplificăm şi modul cum este util acest coeficient în comparaţiile statistice. Seriile
următoare le puteţi găsi explicitate în T. Andrei, S. Stancu [1995] şi este vorba de două
bunuri de larg consum, total diferite între ele, distribuite pe o piaţă anume, în primele
cinci luni ale anului:
• bunul I (măsurat în tone) distribuit astfel: 4,7,14,9,7
• bunul II (măsurat în mil. lei) : 6,9,16, 11, 5.
Pentru cele două serii se obţin următoarele date:
1
I. x1 =8,25 tone ; 1 =
n
 ( xi − x) 2 = 3,31 tone

II. x2 = 9,4 mil. lei ; 2 = 3,93 mil. lei


Coeficienţii de variaţie sunt:
V1 = 1/ x1* 100 = 3,31 / 8,25 * 100 = 40,12 %
V2 = 2/ x2* 100 = 3,93 / 9,4 * 100 = 41,81 %
Se observă că V1< V2 ceea ce înseamnă că prima serie este mai omogenă decât a doua!

V.2.5. Caz special: dispersia şi abaterea medie pătratică


la variabile dihotomice

Variabilele dihotomice sunt cele care au doar două modalităţi cum ar fi sexul
(masculin/ feminin), mediul (rural/urban) o atitudine oarecare (pentru/contra) etc. În
cazul acestor variabile calcularea mediei aritmetice şi calcularea probabilităţii de
apariţie reprezint acelaşi lucru. De exemplu dacă dintr-o populaţie 70% votează actualul
primar vom avea două clase distincte: p = 70 % cei cu votul pentru şi q = 30% cei cu
votul contra! Se observă că p + q = 100 sau cu 1 (întregul) şi de asemenea că p=1-q.
Citim şi faptul că sunt 70% şanse ca un individ luat la întâmplare s voteze respectivul
primar.
Pentru o variabilă dihotomică 2 = p*q deci = p•q .

Exemplu: din 500 de solicitanţi doar 295 au fost selecţionaţi pentru a munci într-o ţară
străină. Dacă luăm un subiect oarecare şansa ca acesta să fi câştigat dreptul de muncă
este de :
295
p= = 0,59 sau în procente este de 59 %!
500

Şansa de a nu avea drept de muncă 1- 0,59 = 0,41 sau 41 %.


În acest caz  2 = p*q = 0, 59* 0,41 = 0,24 iar   0,49 .
Termeni cheie:
indicatorii variaţiei, amplitudinea, abateri individuale, abatere medie liniară,
dispersia, abatere medie pătratică, coeficient de variaţie

Temă de verificare

? 1. Se dă următoarea serie statistică:


X 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 Total
fi 25 33 35 38 64 44 22 16 277
a). să se calculeze media, mediana, modul
b). să se calculeze dispersia, abaterea medie pătratică şi coeficientul de variaţie !
c). reprezentaţi grafic histograma şi poligonul frecvenţelor pentru această serie!
VI. Distribuţia statistică

Noţiunea de distribuţie statistică reprezintă în fapt graficul seriei statistice.


După cum ştim, intenţia analizei statistice este de a scoate în evidenţă continuitatea
valorilor seriei şi tocmai de aceea a fost introdus poligonul frecvenţelor, deoarece, în
cazul unui număr mare de valori, acesta apare ca o curbă în plan (sau tinde asimptotic la
o curbă în plan). Evident că această curbă sau reprezentare grafică a seriei, poate lua
diferite forme iar acestea pot fi interpretate de către statisticieni.

Încercând o definiţie, putem spune că curba de distribuţie a unei serii se obţine prin
rotunjirea poligonului frecvenţelor. Există în statistică mai multe tipuri de distribuţii:

1. Distribuţia normală sau curba lui Gauss şi care are forma unui clopot:
Această distribuţie se bucură de o serie de proprietăţi : Me= Mo = X ; este
perfect simetrică; valorile cele mai mari ale frecvenţei se situează în zona
centrală/mediană a seriei etc. În practică acest tip de distribuţie “perfectă”, nu se
întâlneşte dar ea poate fi un instrument foarte util în analizele statistice !

2. Distribuţiile asimetrice – sunt acele distribuţii în care valorile maxime ale seriei
sunt uşor deplasate spre stânga sau spre dreapta. Situaţia în care se află o
distribuţie de acest gen o putem caracteriza prin compararea mediei aritmetice cu
mediana seriei:
Me X X Me

În primul caz se observă că X > Me iar distribuţia are o asimetrie la dreapta (sau
asimetrie pozitivă) pe când în cel de-al doilea caz constatăm o asimetrie la stânga
(asimetrie negativă). În general când vârful este deplasat spre stânga avem relaţia Mo <
Me < X iar când vârful este deplasat spre dreapta dubla inegalitate se inversează : X <
Me < Mo ! În general pentru distribuţii uşor asimetrice este valabilă formula Mo = Me
– 3( X – Me ).
3. Distribuţii în formă de I şi J (a se vedea pe larg în A. Novak, 1995)
În aceste serii valorile maxime se concentrează în capetele extreme, curbele
obţinute fiind crescătoare sau descrescătoare:

Distribuţie în formă de I Distribuţie în formă de J

4. Distribuţii bimodale sau multimodale


Colectivităţile statistice neomogene care, din punct de vedere grafic, se prezintă
cu mai multe puncte de inflexiune. Este cazul unor colectivităţi care în mod normal se
divizează în două sau mai multe sub-colectivităţi şi care trebuie studiate separat.

Distribuţie bimodală Distribuţie multimodală


VI.1. Indicatori ai formei distribuţiei

O problematică interesantă de studiu este aceea a indicatorilor formei


distribuţiei, indicatori care sunt raportaţi la o distribuţie normală: fie că o distribuţie
statistică este asimetrică la stânga sau la dreapta fie că este mai plată sau mai boltită faţă
de o distribuţie normală. Acestea fiind spuse se disting deci, indicatori ai oblicităţii şi
indicatori ai boltirii.

VI.1.1. Indicatori ai oblicităţii

Noţiunea de oblicitate (în engl. skewness, şi de aceea o vom nota cu S) a fost


teoretizată de K. Pearson cel care a introdus formula :
x - Mo
S= . Dacă S> 0 distribuţia este alungită spre dreapta, dacă S< 0
 distribuţia este alungită spre stânga iar dacă S → 0 atunci
distribuţia tinde a fi una normală.
Dacă în această formulă se înlocuieşte modul cu relaţia Mo = Me –3 ( x –Me)
atunci se obţine formula:

3 ( x – Me )
S= .

O altă modalitate de calcul se face prin implicarea noţiunii de moment centrat
de ordin k ( mk). Prin moment centrat de ordin k se înţelege expresia:

 ( xi – x ) k  ( xi – x ) kfi
mk = , sau mk = pentru serii cu frecvenţă.
n n
În general momentul de ordin k reprezintă media abaterilor valorilor de la o anumită
valoare ridicate la o anumită putere. Momentul se numeşte centrat dacă se raportează la
abaterile faţă de medie. Momentul centrat de ordinul 1 este nul [deoarece există o
proprietate a mediei după care  ( xi – x ) fi = 0 ]. Momentul centrat de ordin doi este
chiar varianţa (revedeţi aceste precizări în cursurile anterioare). Pentru oblicitate se
reţine momentul de ordin 3 care va fi împărţit la abaterea standard ridicată şi ea la
puterea a treia:

 ( xi – x )3 m3
S= = .
 3
n 3
VI.1.2. Indicatorul boltirii

Noţiunea de boltire este strâns legată de forma distribuţiei normale. Faţă de


această distribuţie o altă distribuţie relativ simetrică poate fi mai înaltă sau mai plată
decât cea normală. Boltirea [ o notăm cu k de la egl. kurtosis ] se poate constata şi din
graficul următor:

Distribuţie leptocurtică

distribuţie platicurtică

Din acest grafic se distinge distribuţia platicurtică (mai aplatizată decât


distribuţia normală) precum şi distribuţia leptocurtică (mai înaltă decât cea normală).
boltirea se deduce cu ajutorul momentului de ordinul patru din formula:
m4  ( xi – x )4
B= -3= - 3.
 4
n 4

dacă B > 0 distribuţia este leptocurtică iar dacă B < 0 distribuţia este platicurtică. pentru
B →0 se obţine o distribuţie mezocurtică sau apropiată de distribuţia normală.

VI.2. Proprietăţile curbei normale

Aceste proprietăţi sunt strâns legate, în analiza statistică, de noţiuni funda-


mentale din teoria probabilităţilor, noţiuni care nu vor fi reluate aici în amănunt dar la
care se va face trimitere. De exemplu sunt consacrate legile de probabilitate care fac
trimitere directă la legea normală. Aceste legi fac o corespondenţă între valorile unei
variabile şi probabilitatea lor de apariţie, după un număr suficient de mare observaţii. O
lege probabilistă este normală dacă se respectă condiţiile [M. Colin et alii,1995; 288]:
1. Mărimea măsurată depinde de un număr mare de factori
2. Fiecare din aceşti factori intervin la întâmplare şi independent unul de altul
3. Fiecare din aceşti factori variază foarte puţin
4. Variaţia unui factor tinde să fie anulată de variaţia altui factor.
Să luăm ca exemplu măsurarea înălţimii unei populaţii suficient de mari. Vom
constata că indivizii cu înălţimi extreme sunt foarte puţini, restul grupându-se în jurul
unei înălţimi medii care caracterizează populaţia respectivă. Distribuţia acestei serii se
configurează grafic ca o lege normală (clopotul lui Gauss). Legătura care se poate face
cu probabilitatea de apariţie o vedem din schema următoare:

Probabilitate ca valorile
variabilei să fie cuprinse
între a şi b

a b Valorile luate de variabilă

În această schemă se observă o suprafaţă haşurată. Această suprafaţă reprezintă


chiar probabilitatea ca variabila să fie cuprinsă între a şi b, cu observaţia că suprafaţa
dintre curbă şi axa ox este considerată 100%. Graficul curbei normale este şi simetric iar
valorile se distribuie după următoarele proporţii (cu  -media şi  - abaterea standard ).

34,13
%

13,59
%

2,15
%
-3 -2 -  + +2 +3

68,26%

95,44%

99,74 %
Interpretarea acestei scheme este foarte simplă. Se observă că 99,74 % din
valorile seriei sunt incluse în intervalul [ - 3 ,  + 3 ] cu alte cuvinte, practic toate
valorile seriei se abat de la medie cu pînă la trei abateri standard. De asemenea
observăm că în intervalul generat de numai o abatere standard în plus şi în minus sunt
incluse 68,26 % din valorile seriei. Trebuie să atragem atenţia că deşi aici am lucrat cu
multiplii întregi ai lui  în realitate 95,44 % din valori le găsim în intervalul  ± 1,96
iar 99,74 % din valori le găsim în intervalul  ± 2,58 sau mai pe scurt 95% din valori
le găsim în intervalul  ± 1,96 iar 99% din valori le găsim în intervalul ±2,58. De
aici se deduce că în primul caz 5% din valori rămân pe dinafara intervalului iar în al
doilea caz doar 1% din valori. Aceste precizări pot fi citite, după cum am mai spus, în
limbaj de probabilităţi: dacă extragem un caz la întâmplare din colectivitatea statistică
atunci există probabilitatea de 95% ca valoarea respectivă să fie în intervalul  ± 1,96 
şi de asemenea există probabilitatea de 99% ca valoarea respectivă să fie în intervalul 
±2,58. De aici provine şi noţiunea de prag de semnificaţie, noţiune deosebit de
importantă în statistică. Prin prag de semnificaţie înţelegem de fapt probabilitatea de
eroare sau riscul luat în calcul atunci când facem o estimare statistică. În cele mai multe
cazuri, în statistică se lucrează cu două praguri de semnificaţie: 0,05 pentru intervalul de
încredere [-1,96; 1,96] şi 0,01 pentru intervalul de încredere [-2,58; 2,58]. Pentru
confirmarea unei ipoteze statistice trebuie ca pragul de semnificaţie să fie mai mic de
0,05. Revenind la graficul de mai sus, trebuie spus că folosirea multiplilor întregi ai lui
 este folosită şi ea şi nu se introduc astfel erori de calcul.
Trebuie subliniat că nu orice fenomen social se distribuie după o lege normală
(ex. distribuţia veniturilor, vârsta studenţilor din Universitate etc.) dar dacă ele au
această tendinţă atunci trebuie să analizăm în primul rând histograma şi vom aprecia
dacă aceasta este simetrică, dacă mărimile tendinţei centrale sunt suficient de apropiate,
dacă valorile seriei descresc spre margini. De asemenea, se poate aprecia direct pe
graficul histogramei cât la sută din valorile seriei sunt cuprinse în intervalul  ± ,  ±
2 etc. Semnificaţiile curbei normale sunt deosebit de importanta pentru analizele
statistice. Să dăm un exemplu din N. Luduşan, F. Voiculescu [1997; 310-311].
Presupunem că într-o clasă cu 36 de elevi se cunosc media aritmetică (m = 7,8) şi
abaterea standard ( =0,70) a notelor şcolare iar distribuţia acestora este normală.
Atunci, pe baza acestor două date putem afla:
• Amplitudinea absolută care este dată de limitele intervalului m± 3 adică 7,8 ±
3*0,7. Limitele sunt deci 7,8 –2,1= 5,7 şi 7,8+ 2,1 = 9,90. Cu alte cuvinte elevii din
clasa respectivă au notele cuprinse în intervalul [5,7 ; 9,9].
• Intervalele în care se încadrează elevii respectivi:
– 2,5% au note între 5,40 şi 6,40 (1 elev)
– 13,86% au note între 6,40 şi 7,10 (  5 elevi )
– 34% au note între 7,10 şi 7,80 (  12 elevi)
– 34% au note între 7,80 şi 8,50 (  12 elevi)
– 13,86% au note între 8,50 şi 9,20 (  5 elevi)
– 2,5% au note între 9,20 şi 9,90 (  1 elev).
• Poziţia aproximativă a unui elev în cadrul colectivului

VI.3. Notele (cotele) Z

Din cele spuse până acum am dedus că media şi abaterea standard pot fi foarte
utile în analizele statistice asupra unei variabile anumite. Se pune însă de multe ori
problema comparării unor valori din serii diferite şi pentru aceasta se cere un indicator
statistic care să ne dea o imagine directă asupra poziţiei pe care o are un subiect faţă de
media colectivităţii respective cât şi faţă de dispersia datelor. Acest indicator se numeşte
măsura standard sau nota Z şi ne arată cu câte deviaţii standard se abate o valoare
de la medie. Nota Z are formula următoare:

x−x
z=

Pentru a înţelege importanţa acestei mărimi să preluăm un exemplu din O.


Lungu [2001 ; 57]. Astfel, dacă la un test de inteligenţă într-o populaţie s-a obţinut
media x =100 şi σ =15 dacă o persoană este de două ori mai inteligentă decât ceilalţi nu
are un coeficient de 200 ci dacă are Z=2 (ceea ce corespunde unei valori xI=130).
***

Pentru a înţelege astfel de aplicaţii să dăm un exemplu, după M. Colin et alii


[1995]: într-o universitate rezultatele obţinute la un test se distribuie după o lege
normală cu m=75 şi =8. Dacă luăm un student la întâmplare care sunt şansele ca el să
aibă un rezultat cuprins între 75 şi 95 ?

Dacă am reprezenta grafic această serie atunci ea ar fi de forma următoare:


m-3 m-2 m- m m+ m+2 m+3

51 59 67 75 83 91 99

Fiind o distribuţie normală putem spune că 68,26% din rezultatele la examen se


găsesc între [67; 83] etc. Acest grafic poate fi reprezentat şi în note Z.
Dacă am reprezenta grafic această serie atunci ea ar fi de forma următoare:

-3 -2 -1 0 1 2 3
Vom calcula notele Z pentru principalele valori din problemă:
Zm=( 75-75)/8 = 0 Z1 = (X – 75) / 8 Z2= (95 –75)/ 8= 2,50
Dacă rezumăm pe scurt problema noastră cu enunţul P ( 75< X < 95) [a se citi
probabilitatea …] atunci în limbajul notelor Z acest enunţ devine P (0< Z < 2,50).
Căutând în tabelul legii normale se găseşte valoarea 0,4938 care reprezintă proporţia din
suprafaţa delimitată de către curba normală, axa OX şi perpendicularele ridicate în
punctele 0 şi 2,5. Această valoare se poate scrie şi 49,38 % şi reprezintă chiar
probabilitatea căutată: sunt 49,38 % şanse ca studentul respectiv să aibă calificativul
cuprins între 75 şi 95. Practic s-a făcut următorul transfer:

49,38
%
49,38
%

75 95 0 2,5

VI.4. Măsuri ale poziţiei. Cuantilele

Cu ajutorul cotelor Z dar şi a rangului putem căuta poziţia individului în grupul


statistic din care face parte. Însă problematica poziţiei se poate extinde şi la întreaga
colectivitate statistică: se pot fixa anumite poziţii după care se pot situa indivizii
(valorile) în raport cu acele poziţii. În acest caz se utilizează cuantilele. Folosim aici
graficele sugerate de M. Colin [1995] pentru simplitatea şi sugestibilitatea lor.
Un exemplu de cuartilă este mediana care împarte colectivitatea statistică în 50%
şi 50%. Aşadar mediana împarte colectivitatea statistică în două colectivităţi, însă
numărul lor poate fi mai mare. De exemplu dacă fiecare grupă ar conţine 25% din date
avem quartilele, acestea fiind în număr de trei după schema următoare:

25% din date 25% din date 25% din date 25% din date
Q1 Q2 Q3

Dacă numărul de grupe ar fi 10 am obţine decilele:

10% din date 10% din date 10% din date ………….... 10% din date
D1 D2 D3 D9
Se observă foarte uşor că Q2 = Me sau D5 = Me!
Dacă împărţim datele în 100 de grupe obţinem centilele care vor fi în număr de 99:
C1,C2,……..C99. Evident că C50= Q2= Me.
Modul de obţinere al cuantilelor este asemănător cu metodele de la mediană.
Exemplu pentru o serie statistică unor date oarecare:
Intervale Nr. de subiecţi Frecv. Relative % Frecv. cumulate
10-20 17 3,2 3,2
20-30 35 6,6 9,8
30-40 87 16,6 26,4
40-50 162 30,9 57,3
50-60 125 23,9 81,2
60-70 78 14,9 96,1
70-80 19 3,9 100
Total 523 100% -
Să construim, plecând de la acest tabel, curba frecvenţelor cumulate:

100 %

90

80

70

60

50

40

30

20

10

20 30 40 50 60 70 80
Q1 Q2 D9

Să identificăm, de exemplu, pe acest grafic Q1, Q2, D9.


Pentru Q1 se duce o paralelă la OX prin punctul 25 % iar în locul unde
intersectează graficul se coboară o dreaptă perpendiculară pe OX  punctul 38.
Concluzia este că 25 % din subiecţi au cote mai mici decât 38.
Pentru Q2 (sau Me) se duce o paralelă la OX prin punctul 50 % iar în locul
unde intersectează graficul se coboară o dreaptă perpendiculară pe OX  punctul 49.
Concluzia este că 50 % din subiecţi au cote mai mici decât 49.
Pentru D9 se duce o paralelă la OX prin punctul 90 % iar în locul unde
intersectează graficul se coboară o dreaptă perpendiculară pe OX  punctul
69. Concluzia este că 90 % din elevi au note mai mici decât 69.

Termeni cheie:
distribuţie statistică, distribuţie normală, oblicitate, boltire, prag de semnificaţie,
cotele Z, cuantile

Teme de verificare

1. Luaţi o serie statistică din exerciţiile anterioare şi calculaţi coeficienţii de oblicitate


şi de boltire.
?
2. Într-o grupă de studenţi s-au dat trei teste: matematică, română, istorie. La cele trei
teste s-au obţinut rezultatele: m1 = 8,5 şi 1= 1,3; m2 = 55 şi 2= 8; m3 = 96 şi 3=
15. Un student a obţinut rezultatele : 7; 44; 75 iar un al doilea a avut rezultatele: 8;
49; 85. Să se compare rezultatele obţinute de către cei doi studenţi.

3. Se dă o serie statistică ce desemnează situaţia obţinută după aplicarea unui test de


cunoştinţe asupra unui lor de 161 de subiecţi:
Punctaj 40-50 50-60 60-70 70-80 80-90 90-100 Total
Frecv. 32 44 55 42 23 11 207

Faceţi graficul frecvenţelor relative cumulate şi apoi identificaţi pe acest grafic Q1, Q2,
Q3, C10, C90, D2 ! Folosiţi eventual o hârtie milimetrică pentru o mai mare precizie!
VII. Studierea legăturii dintre variabile

Studiul legăturii dintre variabile se dovedeşte a fi crucial în cercetarea socială în


general şi bineînţeles în cercetarea statistică în special. Pentru a lămuri aceaste
avertismente vom aminti mai întâi unele aspecte ale subiectului în ştiinţele sociale în
general. Un prim aspect priveşte formularea ipotezelor oricărei cercetări sociale, ipoteze
pe care trebuie să le înţelegem ca şi combinaţii între două sau mai multe variabile.
Tocmai de aceea, un analist american K. Hoover [1988; 73] spunea că “una dintre
problemele centrale ale dezvoltării unor ipoteze puternice stă în înţelegerea relaţiilor
dintre variabile”. Cazul cel mai direct în ştiinţele sociale este acela al relaţiei dintre o
variabilă independentă şi una dependentă. După H. Zetterberg [1965; 69-74] există
cinci tipuri de legături :

1. Relaţie ● reversibilă: dacă X atunci Y şi dacă Y atunci X


sau
● ireversibilă : dacă X atunci Y dar dacă Y atunci nu putem trage
nici o concluzie despre X).
Exemplu de relaţie reversibilă (Homans): cu cât frecvenţa interacţiunilor dintre două
sau mai multe persoane e mai mare cu atât legăturile dintre ei sunt mai strânse şi
reciproc.

2. Relaţie ● deterministă: Dacă X atunci Y


sau
● stohastică: Dacă X atunci probabil Y.
Zetterberg atrage atenţia că relaţiile deterministe sunt foarte rare în cercetarea socială, în
schimb cele stohastice sunt foarte frecvente.
Exemplu de relaţie deterministă (Simmel): cu cât creşte numărul de membri într-un
grup nestructurat atunci întotdeauna va creşte anonimitatea acţiunilor de grup.
Exemplu de relaţie stohastică: dacă o persoană trebuie să aleagă între conformarea la
norme şi abandonarea unei poziţii sociale înalte este preferabil să-şi păstreze
poziţia. În marea majoritate însă, indivizii vor devia de la norme dar vor dori şi
menţinerea poziţiei.

3. Relaţie ● secvenţială: dacă X atunci mai târziu Y


sau
● coextensivă: dacă X atunci deasemenea Y.
Exemplu de relaţie secvenţială (Lazarsfeld): Dacă votanţii sunt supuşi unor influenţe
contradic-torii în grupurile primare din care fac parte atunci este probabilă
amânarea deciziei de vot.
Exemplu de relaţie coextensivă ( Sombart): cu cât creşte rata mobilităţii sociale cu
atât scade gradul în care clasele de jos acceptă ideologia comunistă.

4. Relaţie ● suficientă: dacă X atunci Y şi numai Y


sau
● contingentă: dacă X atunci Y dar numai dacă Z
H. Zetterberg spune că relaţiile suficiente sunt rare în cercetarea socială pe când
cele contingente sunt des întâlnite. De exemplu: nivelul de educaţie asigură o
poziţie socială foarte înaltă doar corelată cu statutul familial.

5. Relaţie ● necesară: dacă X şi numai X atunci Y


sau
● de substituţie: dacă X atunci Y dar dacă Z atunci de asemenea Y.
Recomandăm pentru aprofundarea lecturilor în acest sens volumele lui O.
Hoffman [1977], A. Cazacu; I. Bădescu [1981], S. Chelcea [1982] etc.

Toate aceste relaţii sunt de tip funcţional, gen cauză-efect însă pe lângă acestea
există şi raporturi de tip statistic prin care se caută anumite tendinţe la nivelul
ansamblului. Legăturile statistice dintre variabile se clasifică, după A. Novak [1995] în
funcţie de următoarele criterii:
a) După numărul caracteristicilor:
1. legături simple (o caracteristică factorială şi o caracteristică rezultativă)
2. legături multiple (mai multe caracteristici factoriale şi o caracteristică
rezultativă)

b) După felul de exprimare:


1. legături între variabile exprimate numeric (cantitative)
2. legături între variabile exprimate prin cuvinte (calitative)

Legăturile dintre variabilele numerice se numesc corelaţii statistice iar cele


dintre variabilele calitative se numesc asocieri statistice.

c) După direcţia legăturii:


1. legături directe (când la o creştere sau descreştere a valorilor unei variabile îi
corespunde o creştere sau descreştere a variabilei rezultative).
2. legături inverse (cînd unei creşteri a unei variabile îi urmează scăderea celeilalte)

d) După expresia analitică a legăturilor:


1. legături liniare – când se exprimă prin ecuaţia unei drepte
2. legături curbilinii – se exprimă prin parabole, hiperbole etc.
VII.1. Metode parametrice

Noţiunea centrală a acestor metode este aceea de corelaţie. Problema corelaţiei se


pune doar pentru variabile cantitative.
Dacă se iau de exemplu două seturi de valori pentru variabilele X şi Y se pune problema
dacă cele două seturi sunt sau nu concordante sau de a vedea, de exemplu, dacă valorile
mari obţinute pentru o variabilă se asociază cu valorile mari corespunzătoare celeilalte
variabile. Dacă cele două seturi de date au mediile aritmetice mx şi my atunci se pot lua
în discuţie, de exemplu, abaterile valorilor x i şi yi prin diferenţele xi – mx şi yi – my.
Aceste diferenţe care privesc un individ statistic oarecare pot fi înmulţite între ele iar
semnul acestui produs va da seama de concordanţa sau discordanţa dintre seturile
respective de valori. toate produsele de acest fel însumate şi împărţite la n poartă
numele de covarianţă iar formula va fi:
 ( xi- mx) (yi – my)
cov ( X, Y ) = .
n
Formula covarianţei este folosită în calculul coeficientului de corelaţie Bravais-
Pearson, coeficient valabil atât pentru serii simple cât şi pentru serii cu frecvenţă.
Formula acestui coeficient este:
cov ( X, Y )  ( xi – x ) ( yi – y)
r= sau dezvoltat: r =
 x * y n x y
s t
  fij ( xi – x ) ( yi – y )
i=1 j=1
Pentru serii cu frecvenţă r =
nx  y
Coeficientul de corelaţie are intervalul de variaţie [ –1, + 1]. În capete corelaţia se
numeşte perfectă cu observaţia că pentru –1 sensul legăturii este invers. Când r → 0
variabilele sunt necorelate (mai corect : nu sunt liniar corelate) sau corelația este foarte slabă.
Exemplu: un lot de 8 studenţi au luat la două teste următoarele note:

xi yi xi – x yi – y P (xi – x )2 (yi – y )2

9 10 2,4 3 7,2 5,76 9


7 6 0,4 -1 -0,4 0,16 1
8 7 1,4 0 0 1,96 0
8 9 1,4 2 2,8 1,96 4
5 6 -1,6 -1 1,6 2,56 1
4 3 -2,6 -4 10,4 6,76 16
8 9 1,4 2 2,8 1,96 4
4 6 -2,6 -1 2,6 6,76 1

xI=53 yi=56 27 27,88 36


Se observă imediat că mediile aritmetice sunt x = 6,6 şi y = 7.
Apoi tabelul urmează pas cu pas formula corelaţiei pentru serii simple:
 ( xi – x ) ( yi – y)
r=
n x y
Astfel după ce s-au calculat diferenţele xi – x; yi – y se face apoi produsul
acestora notat cu P suma finală a acestuia fiind de 31. Se calculează apoi x şi y cu
formulele consacrate:

1
x =
n
 ( xi − x ) 2
1
y =
n
 ( yi − y) 2

Cu datele din tabelul de mai sus se calculează :


1
x = • 27,88 = 1,86
8

1
y = • 36 = 2,12
8
In acest caz urmărind formula iniţială obţinem :

27
r= = 0,85
8 • 1,86 • 2,12

Concluzia este următoarea: între cele două variabile există o corelaţie puternică
de acelaşi sens (valorile mari din prima variabilă tind să se coreleze cu valorile mari din
cea de a doua variabilă).
Calculul coeficientului de corelaţie pentru seriile cu intervale este destul de
complex şi poate fi urmărit în volumele de specialitate ( vezi de exemplu T. Andrei; S.
Stancu [1995]), tocmai de aceea nu vom insista aici asupra acestui subiect. Cu titlu
facultativ amintim totuşi formula de calcul şi în aceste cazuri:
 n Ux U y - Q* Q* / n
r=
SQRT [ (  fx Ux2 – Q2/n ) (  fy Uy2 – Q* 2 /n ) ]

În această formulă întâlnim următoarele notaţii:


• Ux = ( x – x0 ) / k , unde x0 este mijlocul intervalului care corespunde frecvenţei
celei mai mari iar k este amplitudinea ( mărimea intervalului ): Absolut identic
este modul de calcul pentru Uy.
• Q =  fi* Ux şi Q* =  fi* Uy.
În acest caz cele două variabile se pot înscrie într-un tabel cu dublă intrare numit
tabel de contingenţă. Iată un exemplu de astfel de tabel după N. Luduşan, F. Voiculescu
[1997; 288], tabel în care cele două variabile prezintă corelaţia între rezultate la
învăţătură şi numărul de ore dedicate studiului:
Media Ore de studiu individual Total
obţinută 6-10 11-15 16-20 21-25 25-30
9-10 - - 1 2 5 8
7-8 - 3 12 6 1 22
5-6 2 9 3 - - 14
3-4 4 1 - - - 5
1-2 1 - - - - 1
Total 7 13 16 8 6 50

VII.3. Graficul corelației. Dreapta de regresia

Analiza corelaţiei dintre variabile dispune şi de metode grafice. Se pleacă de la


ideea că, de exemplu un subiect statistic, din moment ce are valoarea xi pentru variabila
X şi valoarea yi pentru variabila Y, atunci acestea se pot reprezenta în plan, într-un
sistem de coordonate, rezultând astfel un nor de puncte. S-a pus apoi problema de a se
găsi ecuaţia unei drepte sau a unei curbe care să aproximeze cât mai bine acest nor sau
să treacă cât mai aproape de acest nor. Grafic se consideră că axa OX este a variabilei
independente iar axa OY a celei dependente. Iată reprezentate grafic doar trei situații pe
care le considerăm esențiale pentru înțelegerea corelației:

Aceste grafice se pot reprezenta direct în plan XOY pentru serii cu un număr redus de
date. Se poate folosi şi calea Scatterplot din Excel. Din cele trei situații se poate vedea
tendința punctelor din plan de a se grupa în jurul primei bisectoare (pentru o corelație
puternică şi de acelaşi sens) şi de asemenea în jurul celei de a doua bisectoare atunci
când corelația este puternică dar de sens contrar. Punctele se dispersează în plan atunci
când corelația nu există sau este foarte slabă. Statisticienii recomandă reprezentarea
grafică pentru cele două variabile supuse analizei şi examinarea atentă a respectivului
grafic deoarece calcului corelației este valid doar pentru cazul în care dependența dintre
cele două variabile este liniară şi nu curbilinie. În cursul de față vom detalia doar
cazurile simple cu legătură liniară între cele două variabile.
Dreapta care aproximează norul de puncte se numeşte dreapta de regresie, un
instrument în cadrul mai larg al analizei de regresie. Această analiză este o continuare a
analizei de corelație diferența constând în faptul că analiza de corelație nu poate fi
interpretată ca o analiză cauzală (variabila X este cauza variabilei Y) ci doar ca estimare
a evoluției concomitente a valorilor celor două variabile: fie cresc sau scad în acelaşi
timp fie evoluează în sensuri diferite. Doar analiza de regresie poate determina relația
cauzală dintre cele două variabile, cât la sută din varianța variabilei dependente depinde
de varianța variabilei independente, care este ecuația dreptei de regresie, care este
evoluția reziduurilor (a diferențelor dintre valorile modelului şi cele ale variabilelor) etc.
Dependența dintre cele două variabile poate fi liniară sau curbilinie după cum vedem în
graficele următoare:

yi*

yi

xi
În funcţie de numărul factorilor care influenţează variabila dependentă se
disting: regresia simplă (unifactorială) şi regresia multiplă (multifactorială). În cadrul
acestui curs ne vom mărgini doar la regresia unifactorială liniară.

Din aceste grafice se observă că o dreaptă sau o curbă poate aproxima destul de
bine un nor de puncte şi bineînţeles măsura în care cele două variabile sunt corelate. De
asemenea trebuie precizat că pentru fiecare xi din seria statistică corespunde un yi, cel
real dar şi un yi* adică valoarea care corespunde pe dreapta sau curba de regresie.
Scopul măsurărilor în cazul regresiei este acela de a găsi ecuaţia dreptei (curbei) pentru
care distanţele yi –yi* sunt minime (se poate demonstra de fapt că acea dreaptă sau
curbă este unică).

VII.3.1. Dreapta de regresie

Ne vom ocupa în acest curs doar de regresia liniară, urmând ca cei interesaţi să
parcurgă în continuare în volumele de specialitate regresia multiliniară cât şi regresia
non-liniară (graficul nu este o dreaptă). Amănunte despre aceste teme se pot găsi în
capitolele 8 şi 9 din T. Rotariu [1999].
După cum am spus, principiul aflării ecuaţiei dreptei de regresie pleacă de la
minimizarea unei expresii de tipul R =  ( yi – yi*)2, această expresie reprezentând suma
tuturor diferenţelor dintre valorile reale ale seriei şi cele aşteptate (de pe dreapta de
regresie), ridicarea la pătrat făcându-se pentru a nu apare în plus problema semnului
acestor diferenţe. O altă problemă este aceea a determinării ecuaţiei unei drepte de tipul
y* = a + bx , determinare care înseamnă în fapt calcularea celor doi parametri a şi b. În
acest moment putem înlocui în prima relaţie expresia lui y*. Vom obţine relaţia:
R =  ( yi – a – bxi )2

S-a obţinut practic o ecuaţie cu două necunoscute al cărei minim înseamnă anularea
celor două derivate parţiale după a şi b. Se obţin astfel două ecuaţii care formează un
sistem:

na + b  x =  y
a  x +b  x2 =  xy

În aceste formule coeficientul a sau 'intercept' este punctul unde dreapta intersectează
axa OY deci x=0. Coeficientul b se mai numeşte coeficient de regresie şi semnifică
"cum se modifică în medie variabila dependentă în cazul în care variabila independentă
variază cu o unitate". După calcularea lui a şi b se reprezintă grafic dreapta y = a + b x
pentru fiecare valoare a lui x.

Exemplu:
X Y x2 xy
1 3,8 1 3,8
2 4,6 4 9,2
3 5,7 9 17,1
4 6,9 16 27,6
5 8,0 25 40
6 9,0 36 54
21 38 91 151.7

În tabelul de mai sus observăm că am calculat mărimile care apar chiar în sistemul de
ecuaţii stabilit anterior. Le înlocuim şi obţinem:
6 a + b 21 = 38
a 21 + b 91 = 151.7 de unde a= -22.7 şi b = 8.30
Ecuaţia de regresie este y = -22.7+ 8.30x
Se pune problema în ce măsură ajustarea dată de această ecuaţie este fidelă
pentru că dacă înlocuim valorile lui x în această ecuaţie obţinem cu totul alte valori care
constituie practic o serie ajustată, teoretică.
Concluzie: în cazul acestei ajustări se observă că b> 0 deci există o corelaţie de acelaşi
sens între variabile.
Observaţie: numeroşi autori atrag atenţia asupra faptului că studiul corelaţiei şi
regresiei trebuie să fie judicios interpretat deoarece două variabile pot fi corelate
dar nu este obligatoriu să avem imediat o semnificaţie explicativă sau cauzală.
Există deci şi ceea ce s-a numit corelaţie aparentă atunci când de exemplu o
variabilă se modifică de fapt sub influenţa unei alte variabile necunoscute
(variabilă test). P. Lazarsfeld amintea de exemplu de cazul urmărit de un
statistician care a constatat că atunci când rata naşterilor dintr-o regiune era
ridicată atunci şi numărul cuiburilor de barză creştea spectaculos. Covariaţia
acestor două fenomene este absolut întâmplătoare şi intervenţia unei a treia
variabile care separă rural/urbanul poate anula respectiva corelaţie!

Termeni cheie:
relaţie între variabile, coeficient de asociere, coeficient de concordanţă, coeficient
de corelaţie a rangurilor, corelaţie, regresie

Teme de verificare
1. Într-un grup de 14 elevi s-au luat următoarele note la matematică (8, 10, 9, 7, 8, 9, 6,
4, 9, 8, 7, 6, 8, 5) iar la fizică (8, 9, 10, 9, 9, 8, 7, 3, 8, 6, 6, 6, 8, 8 ). Să se calculeze
?
coeficientul de corelaţie Pearson. Care este valoarea corelaţiei şi ce concluzie trageţi
după acest calcul?

2. Reprezentaţi grafic seria statistică care are pentru variabilele X şi Y următoarele


valori: X (2,3,4,6,7,8,9,5,4,6) iar pentru Y (3,7,6,10,12,11,12,9,8,10). Să se
calculeze care este dreapta de regresie.
VII.2. Metode neparametrice de studiere a legăturii dintre variabile

I. Coeficientul de asociere

Această metodă este utilizată în cazul variabilelor cu două modalităţi (de tipul
da/nu; acord/dezacord; admis/respins; prezent/absent etc.). Se foloseşte un tabel de
forma [T. Rotariu, 1999; 121]:
K11 K12
K21 K22

Aceasta este schema simplificată a unui tabel în care celula K11 sau K22
desemnează faptul că ambele variabile au aceeaşi valoare, celula K12 reuneşte valorile
cu semn opus la fel ca şi celula K21. După ce aceste scoruri au fost precizate se pot
calcula mai mulţi coeficienţi care ne pot ajuta să analizm asocierea variabilelor. Ne vom
opri aici numai asupra coeficientului lui Yule:
k11k 22 − k12 k 21
Q=
k11 k 22 + k12 k 21
Principiul acestui coeficient este acela că produsele de la numărător vor
determina semnul lui Q (se observă că avem produsele termenilor pe diagonale a
termenilor pozitivi şi negativi) iar intervalul de variaţie este [-1, +1]. Evident că gradul
de intensitate al asocierii este mai puternică la valori pozitive mai apropiate de ±1.
Atunci când variabilele statistice sunt independente adică nu există o asociere între
acestea valoarea lui Q tinde la 0. T. Rotariu [1999;131] dă şi alte amănunte interesante
despre acest coeficient.
Exemplu : dintr-un lot de 85 de şomeri, 53 aveau studii superioare iar 32 doar
studii medii. După căutarea unui loc de muncă 55 dinte aceştia şi-au găsit iar 30 nu şi-au
găsit acel loc de muncă. Studiind asocierea dintre cele două variabile a rezultat tabelul
următor :
Studii superioare
Loc de muncă Da Nu Total
Da 45 10 55
Nu 8 22 30
Total 53 32 85

Conform schemei de mai sus avem valorile: k11=45; k12=10; k21=8; k22=22
45*22 – 8*10 5544-80 5464
Q= = = = 0,97
45*22 + 8*10 5544 + 80 5624
Asocierea dintre cele două variabile (studii şi loc de muncă) este foarte puternică.
Studiile superioare sunt o premisă a găsirii unui loc de muncă.
Obs.: coeficientul Q poate lua valori la extreme doar atunci când una din frecvenţele
din tabel se anulează.

II. Coeficientul γ (gama)

Acest coeficient pleacă de la analiza concordanţei/neconcordanţei dintre


variabile. Se are în vedere modul cum se abat valorile variabilelor de la scorurile medii.
Formula de calcul este
C−D
 = (Goodman, Kruskal)
C+D
În această formulă C reprezint toate valorile unităţilor ale căror abateri perechi
de la medie au acelaşi semn (sunt concordante) iar D desemnează toate valorile
unităţilor ale căror abateri perechi de la medie nu au acelaşi semn (sunt discordante).
Lipsa discordanţelor face ca γ s tind la 1. Cînd numărul concordanţelor şi discordanţelor
este egal γ tinde la 0.
Iată un exemplu: La două teste s-au obţinut următoarele rezultate:

X1 X2 m1 = 7,4 m2 = 7,8 În acest tabel


8 9 + + ultimele două
coloane conţin
5 6 - -
semnele + sau
10 9 + + – în funcţie de
6 7 - - abaterea pe
9 10 + + care o au
8 6 + - valorile
seriilor faţă de
6 7 - -
propriile
9 10 + + medii.
6 7 - -
Se observă că C=8 iar D= 1 (se numără perechile din coloane care au fie aceleaşi semne
fie semne contrare). Înlocuind în formula de mai înainte rezult :
8 −1 7
= = = 0,77 . Această valoare ne asigură de gradul mare de concordanţă al
8 +1 9
variabilelor. Pe larg despre acest coeficient în T. Rotariu (1999), A. Novak (1995).

III. Coeficientul de corelaţie a rangurilor

Acest coeficient se bazează pe faptul că un individ statistic analizat din


perspectiva celor două variabile va primi un rang anumit, cu precizarea că numerele
cardinale folosite 1,2,3… sunt folosite în accepţie ordinală: primul, al doilea, etc. Mai
precis se poate desemna un tabel de genul:
Indivizi Rangul după var. X Rangul după var. Y
I1 1 k1
I2 2 k2
I3 3 k3
. . .
. . .
In n kn

Se foloseşte următoarea formulă de calcul (stabilită de Ch. Spearman):

6
r = 1−
n( n 2
− 1)
d 2

Metoda lui Sperman se recomandă atunci când seriile de date cantitative sunt
neomogene sau au valori extreme (outliers). De asemenea se recomandă în cazul
eşantioanelor de mici dimensiuni. Premisa legăturii liniare între variabile se menține. În
formula de mai înainte d reprezintă diferenţa între rangurile perechi iar n este numărul
de cazuri.
Algoritmul de calcul este următorul:
• se ordonează prima serie ( crescător sau descrescător) şi se dau valori: 1 pentru
rangul 1, 2 pentru rangul 2 etc.
• dacă mai mulţi subiecţi au acelaşi rezultat li se distribuie un rang mediu. De
exemplu dacă trei subiecţi trebuie să ocupe locurile 4,5,6 atunci toţi vor primi
rangul 5.
• aceleaşi operaţii se fac şi pentru seria a doua
• se calculează diferenţele dintre rangurile perechi şi se calculează  d2
• se urmăreşte formula lui r.
Iată un exemplu de aplicare a acestei tehnici, asupra rezultatelor obţinute de 10 studenţi
la două teste diferite:

Nr. Testul Rangurile Distanţele


crt. 1 2 R1 R2 d d2
1 7 6 4 2,5 1,5 2,25
2 8 9 6 8 2 4
3 9 8,5 8,5 6 2,5 6,25
4 7,5 8 5 5 0 0
5 5 4 1 1 0 0
6 8,5 9 7 8 -1 1
7 6 6 2 2,5 -0,5 0,25
8 6,5 7 3 4 -1 1
9 9 9,5 8,5 10 -1,5 2,25
10 10 9 10 8 2 4
Total 21
Se observă în acest tabel cum, de exemplu, subiectul nr. 5 cu notele cele mai mici la
ambele teste ia poziţia 1 şi la R1 şi la R2. Subiecţii 2, 6 şi 10 la testul doi sunt cu
aceeaşi notă dar vor lua toţi rangul 8. La final se fac diferenţele, de ex 4-2,5=1,5. Dup
calculul sumei d2 se calculează formula :

6 6
r = 1−
10(10 − 1)
2  d 2 = 1−
990
• 21 = 0,88

Interpretarea acestui coeficient este identică cu interpretarea coeficientului


Pearson: r → +1 asocierea dintre variabile este puternică cu ambele variabile în
concordanţă; r → -1 asocierea este puternică dar variabilele sunt invers legate; r → 0
indică lipsa legăturii dintre variabile. În cazul de mai sus r= 0,88 indică o legătură
puternic între variabile.

IV. Coeficientul de asociere  2 (Chi pătrat)

Dacă pentru variabilele cantitative vorbim de corelaţie atunci pentru variabile


categoriale (calitative) vorbim de asociere. Exemple de astfel de variabile sunt foarte
frecvente în analizele sociale: sexul respondenţilor, religia respondenţilor, statut marital,
aprecierea despre şeful direct (1. foarte bună, 2. bună, 3.proastă, 4. foarte proastă) etc.
În toate aceste variabile subiecţii sunt împărţiţi în mai multe categorii după o
caracteristică (sau răspuns dat) cu precizarea că fiecare subiect va intra într-o singură
categorie. Se pune deci problema de a vedea în ce măsură două variabile de acest fel
sunt asociate. De exemplu, dacă sexul respondenţilor influenţează opinia despre şeful
direct (sau altfel spus: există diferențe semnificative între bărbați şi femei în ce priveşte
aprecierea privind şeful direct). Datele obţinute în urma anchetelor sau cercetărilor se
introduc în ceea ce se numeşte tabel de contingenţă asemănător cu o matrice în care pe
linie intră categoriile unei variabile iar pe coloană categoriile celeilalte variabile.
Cazul a două variabile dihotomice (ambele cu câte două valori) este tratat pe
larg în T. Rotariu (1999; 121-133) şi a fost deja explicitat în acest curs. Vom
exemplifica şi cazuri în care cel puțin o variabilă are minim trei categorii.
Să presupunem că într-un chestionar avem întrebarea :Cum evaluați viața pe
care o duceți în prezent? (cu opțiunile a. Plictisitoare b. Normală c. Interesantă). Să
presupunem că am aplicat respectiva întrebare pe un eşantion de 997 subiecți (dintr-un
exemplu a unei cercetări General Social Survey). La final ne-a interesat care sunt
repartițiile răspunsurilor după genul subiecților. Situația a fost următoarea:
Cum evaluați viața... Total
Sex Plictisitoare Normală Interesantă
Masculin 20 202 204 426
Feminin 45 257 269 571
Total 65 459 473 997

După cum se observă 20 persoane de sex masculin consideră viața pe care o duc
ca fiind plictisitoare sau 257 de femei consideră că viața pe care o duc este normală. Se
pune întrebarea dacă cele două variabile sunt asociate. Pentru aceasta se aplică testul
 2 care înseamnă calcularea unui coeficient cu formula:

( f o− f t )2
 =
2

ft

In această formulă fo şi ft reprezintă frecvențele observate (cele din teren) şi


frecvențele teoretice (care se calculează prin raportul dintre produsul frecvențelor
marginale şi totalul cazurilor). Practic orice valoare din tabelul de mai sus are şi o
valoare teoretică ataşată. De exemplu pentru valoarea 20 frecvența teoretică este:
65 ∗ 426
𝑓𝑡 = = 27.8
997
La fel se calculează pentru toate celelalte celule. Să trecem valorile teoretice în
tabelul de mai sus în paranteze:
Cum evaluați viața... Total
Sex Plictisitoare Normală Interesantă
Masculin 20 (27.8) 202 (196.1) 204 (202.1) 426
Feminin 45 (37.2) 257 (262.9) 269 (270.9) 571
Total 65 459 473 997
Facem observația ca toate valorile din paranteze reprezintă situația de
independență: variabilele nu sunt asociate. Testul măsoară în ce măsură cele două seturi
de date sunt semnificativ diferite sau dacă nu există diferențe. În primul caz variabilele
sunt asociate în cel de al doilea variabilele sunt independente. Pentru început calculăm
valoarea testului  2

2 = 
( f o− ft )2 =
(20 − 27.8)2 (202 − 196.1) 2
+ + .......... +
(269 − 270.9) 2
= 4.137
ft 27.8 196.1 270.9

Atunci când analizăm problematica asocierii de fapt urmăm


raţionamentul unei ipoteze statistice:
H0: variabilele calitative nu sunt asociate
H1: variabilele sunt asociate.
Se pleacă de la ideea că cu cât acest coeficientul  2 este mai mic cu atât cresc
şansele ca variabilele să fie independente şi cu cât coeficientul este mai mare cu atât mai
sigur variabilele sunt asociate. Pentru că aceste aprecieri au nevoie de intervale precise
de fapt se impune compararea valorilor coeficientului cu alte valori, considerate
teoretice şi care se găsesc în tabele statistice speciale. De fapt se ajunge la reformularea
ipotezei statistice de care vorbeam:
1. Dacă  2 calculat   2 teoretic atunci resping H1 şi admit H0
2. Dacă  2 calculat   2 teoretic atunci resping H0 şi admit H1.
Aceste raţionamente trebuie să ţină seama de următoarele condiţii:
a. relaţiile de mai sus se specifică pentru un anumit prag de semnificaţie

b. trebuie avute în vedere gradele de libertate ale tabelului de contingenţă. Se


notează cu df (degree of freedom) şi se calculează cu formula: df= (n-1)(m-1), unde n
este numărul de linii ale tabloului iar m numărul de coloane. În cazul nostru df=(3-1)(2-
1)=2
c. valorile teoretice (sau critice) ale coeficientului sunt cele din următoarea listă:

Df\ Praguri semnif .10 .05 .02 .01 .001


1 2.71 3.84 5.41 6.64 10.83
2 4.60 5.99 7.82 9.21 13.82
3 6.25 7.82 9.84 11.34 16.27
4 7.78 9.49 11.67 13.28 18.46
5 9.24 11.07 13.39 15.09 20.52
6 10.64 12.59 15.03 16.81 22.46
7 12.02 14.07 16.62 18.48 24.32
8 13.36 15.51 18.17 20.09 26.12
9 14.68 16.92 19.68 21.67 27.88
10 15.99 18.31 21.16 23.21 29.59
11 17.28 19.68 22.62 24.72 31.26
12 18.55 21.03 24.05 26.22 32.91
13 19.81 22.36 25.47 27.69 34.53
14 21.06 23.68 26.87 29.14 36.12
15 22.31 25.00 28.26 30.58 37.70
16 23.54 26.30 29.63 32.00 39.25
17 24.77 27.59 31.00 33.41 40.79
18 25.99 28.87 32.35 34.80 42.31
19 27.20 30.14 33.69 36.19 43.82
20 28.41 31.41 35.02 37.57 45.32
21 29.62 32.67 36.34 38.93 46.80
22 30.81 33.92 37.66 40.29 48.27
23 32.01 35.17 38.97 41.64 49.73
24 33.20 36.42 40.27 42.98 51.18
25 34.38 37.65 41.57 44.31 52.62
26 35.56 38.88 42.86 45.64 54.05
27 36.74 40.11 44.14 46.96 55.48
28 37.92 41.34 45.42 48.28 .56.89
29 39.09 42.56 46.69 49.59 58.30
30 40.26 43.77 47.96 50.89 59.70

Se obsevă în acest tabel pe prima linie orizontală pragurile de semnificaţie de la 0.1 la


0.001. Pe prima coloană se găsesc gradele de libertate. Valoarea critică a lui  se citeşte la
2

intersecţia unui prag de semnificaţie şi a unui anumit număr de grade de libertate. Se compară
apoi valoarea coeficientului cu valoarea calculată (de către computer) şi se urmăreşte
raţionamentul de mai sus. Valoarea lui  2 =4.137 se compară cu cea din tabelul de mai
înainte şi anume cu valoarea 5,99 (pentru df=2 şi p=0.05). Deducem următoarele:

 2 calculat=4.137<  2 teoretic=5.99 din care cauză vom respinge H1 şi admitem H0.


În concluzie nu există o asociere între sexul respondenţilor şi aprecierea privind
viața personală deci nu avem diferenţe majore în răspunsurile respondenţilor
diferenţiate după sexul acestora.

Teme de verificare
1. La două teste un grup de 10 studenţi au obţinut rezultatele: pentru testul T1 (8,
7, 10, 9, 5, 4, 6, 8, 10, 9) iar pentru T2 ( 7, 6, 7, 10, 8, 5, 9, 10, 10, 8). Să se calculeze în
?
acest caz coeficientul de asociere, coeficientul de concordanţă şi coeficientul de
corelaţie al rangurilor. Cum interpretaţi rezultatele obţinute?
2. Într-o expoziţie sunt prezentate 6 variante ale unui nou produs, variante notate
A, B, C, D, E, F, G, H în ordinea descrescătoare a preţului de vânzare. Un sondaj
efectuat în cadrul expoziţiei a stabilit că variantele respective au fost preferate de către
cei anchetaţi în ordinea: C, F, G, E, B, D, H, A. Se cere să se stabilească dacă preţul a
influenţat preferinţele vizitatorilor anchetaţi (se foloseşte coeficientul de corelaţie).

3. Într-o cercetare de tip GSS s-a pus următoarea întrebare: Cât de des citiți
ziare? Repartiția răspunsurilor după genul subiecților a fost următoarea:

Cât de des citiți ziare... Total


Sex In fiecare zi De trei ori pe O data pe Mai rar Niciodată
săptămâna săptămâna
Masculin 237 115 53 27 21 453
Feminin 228 152 77 63 37 557
Total 465 267 130 90 58 1010

Sunt cele două variabile asociate? Există diferențe semnificative după genuri în ceea ce
priveşte lectura ziarelor?
VIII. Cercetarea selectivă în statistica social

După cum am mai afirmat, majoritatea cercetărilor sociale şi analize statistice se


fac de fapt pe populaţii mult mai restrânse decât populaţiile numeroase sau la nivel
naţional. Singurele analize exhaustive se fac cu ocazia recensămintelor, însă pentru
acestea sunt alocate sume corespunzătoare şi alte resurse importante. În rest, cercetările
se fac pe eşantioane, iar dacă acestea sunt bine alese şi sunt reprezentative (în sensul că
ele reproduc în mic structurile populaţiei mari), atunci rezultatele obţinute pe eşantion
pot fi inferate peste populaţia întreagă din care a fost extras eşantionul. Mulţi autori au
subliniat în repetate rânduri avantajele cercetărilor selective: costuri reduse, control
sporit asupra tuturor celor care le realizează etc. În definitiv, spune C. Moineagu
[1976; 154] “obiectivul fundamental al cercetării pe bază de sondaje a populaţiilor
statistice este acela de a obţine cu efort minim un volum maxim de informaţie asupra
populaţiei originare luate în studiu”.
Atunci când efectuăm o cercetare selectivă trebuie să ne luăm o serie de
precauţii metodologice foarte importante. Astfel intră în discuţie două noţiuni
importante: eroarea maximă admisă şi nivelul de încredere (sau nivel de
probabilitate), acestea fiind două mărimi pe care statisticianul trebuie să le specifice cu
precizie. Pentru a înţelege cele două noţiuni vom spune că întotdeauna se încearcă
estimarea unei anumite caracteristici a populaţiei (câţi votează cu partidul X, câţi sunt
de acord cu măsura Y etc.) care, iniţial, este necunoscută. Atunci valoarea obţinută pe
eşantionul ales ar putea să se abată de la valoarea populaţiei până la, cel mult, eroarea
maximă admisă. De exemplu, dacă în urma unui sondaj de opinie personalitatea publică
X întruneşte 51% din preferinţe, iar eroarea maximă admisă este de ±2,5% atunci scorul
real al candidatului, adică scorul care ar ieşi după numărarea tuturor voturilor ar fi în
realitate cuprins undeva între [48,5%, 53,5%], cu alte cuvinte nu e sigur că respectivele
alegeri sunt şi câştigate din primul tur! Acestea fiind spuse se impun în continuare o
serie de precauţii, amintite de altfel şi de T. Rotariu [1999]:
• întotdeauna reprezentativitatea înseamnă cuplul: eroarea maximă admisă şi nivelul
de încredere! De asemenea reprezentativitatea se referă şi la: caracteristicile
populaţiei care va fi studiată, mărimea eşantionului şi procedeul de eşantionare
folosit. Referitor la populaţia în sine trebuie spus că aceasta poate fi mai mult sau
mai puţin omogenă, iar această omogenitate este dată, după cum am văzut, de
abaterea standard, adică de gradul de împrăştiere a valorilor în jurul mediei. De
exemplu dacă se iau în calcul veniturile atunci acestea vor fi mult mai dispersate
pentru o populaţie mare decât în cazul unei categorii anume de salariaţi care au
retribuţii relativ apropiate. Mărimea eşantionului este şi ea importantă şi trebuie
precizat că cu cât creşte volumul eşantionului cu atât ne aşteptăm să crească precizia
şi reprezentativitatea, însă de la un prag încolo această creştere în precizie este
nesemnificativă. Cu alte cuvinte există un prag de saturaţie după care nu este
obligatoriu să creştem volumul eşantionului oricât de mult. Pe de altă parte, volumul
eşantionului nu depinde de mărimea populaţiei din care este extras. De exemplu, un
eşantion de 1200 de persoane, reprezentativ, are aceeaşi valoare ştiinţifică indiferent
de mărimea populației.
• reprezentativitatea unui eşantion este valabilă doar legat de o variabilă anume
(vârstă, sex, opinie etc.)
• eroarea maximă admisă şi nivelul de încredere nu sunt independente între ele ci se
intercondiţionează reciproc în calculele statistice!
• în cercetările sociale se admite cel mai des un nivel de probabilitate de 0,95 cu alte
cuvinte marja de eroare nu trebuie să depăşească 5%. Notaţia statistică a încrederii se
notează cu p (care vine de la pragul de semnificaţie) şi care înseamnă de fapt “probabili-
tatea de a greşi”. În general p trebuie să se afle deci sub pragul de 5% sau p < 0,05.

Se pune în mod firesc întrebarea: cum putem garanta precizia unei estimări, cum
putem fi siguri că valoarea pe care o are o variabilă pentru un eşantion este valabilă şi
pentru populaţia întreagă? Apoi mulţi ar putea reproşa faptul că în anumite condiţii
extragem un eşantion de 1200 de oameni, de exemplu, iar imediat am putea extrage,
prin aceleaşi procedee un alt eşantion, tot de 1200 de oameni şi ale cărui rezultate să fie
cu totul altele! Analizele statistice aduc însă o rezolvare surprinzătoare acestor
suspiciuni! De exemplu să presupunem că într-o populaţie o variabilă anume are media
m, medie care este necunoscută cercetătorului. Media aceleiaşi variabile în eşantion se
dovedeşte apoi ca fiind m’. Evident că m  m’ iar m’ este doar o estimare pentru m. Să
presupunem acum că extragem din populaţia mare mai multe eşantioane, fiecare din
aceste eşantioane având valori diferite pentru m’. S-ar obţine un şir de astfel de medii:
m’1, m’2, m’3, ………mk’……… Toate aceste valori le putem grupa într-o serie pe care
putem să o numim distribuţie de eşantioane (să o numim seria m’).
Această serie are şi ea la rândul ei proprietăţile oricărei serii statistice, dar şi
anumite proprietăţi particulare:
• media acestei serii este identică cu media populaţiei din care am extras
eşantioanele!
• dacă în populaţia mare media m are o abatere standard anumită, în noua serie
obţinută abaterea standard este de radical din n (SQRT[n]) de ori mai mică! Cu
alte cuvinte, dacă notăm abaterea standard a seriei m’ cu litera e (şi care se mai
numeşte eroare standard) atunci există relaţia:
𝜎
𝑒=
√𝑛

• distribuţia valorilor seriei m’ urmează o curbă normală (care are proprietăţile


enunţate într-un curs anterior!)
• abaterea standard a variabilei în populaţia mare  poate fi aproximată de
abaterea standard ’ din cadrul eşantionului
• eroarea maximă admisă (sau eroarea limită = E.L.) este produsul dintre eroarea
standard şi un coeficient t, coeficient care este corespunzător probabilităţii cu
care se garantează rezultatele. Cu alte cuvinte este valabilă formula:

𝜎′
𝐸𝐿 = 𝑡 ∗ 𝑒 = 𝑡 ∗
√𝑛
În această formulă t poate lua diferite valori care se găsesc în tabele statistice
însă cele mai curente sunt următoarele:
t = 1,96 pentru p= 0,05 (uneori este luat t=2)
t = 2,58 pentru p = 0,01
t= 3,3 pentru p = 0,001.

Lectura acestor valori este simplă. De exemplu: există 95% şanse ca o valoare
medie determinată pe eşantion să se abată cu mai puţin de 2e (două erori standard) de la
valoarea medie în populaţie. Să vedem cum se folosesc aceste mărimi într-o aplicaţie
practică (vezi în A. Novak [1998]): să se stabilească eroarea limită şi intervalul de
încredere ştiind că media eşantionului de 400 de subiecţi este 8, iar abaterea medie
pătratică este 0,85 (cu o probabilitate de 95%).
0.85
𝐸𝐿 = 1.96 ∗ = 0.08
√400
Din acest calcul rezultă că media generală se aşteaptă să fie cuprinsă între valorile date
de 8 ± 0,083 adică în intervalul [7,917; 8,083].
O problematică importantă este aceea a metodelor de eşantionare asupra cărora
nu vom insista aici dar le vom face o scurtă prezentare. Un prim tip de eşantionare este
eşantionarea simplă aleatoare în cadrul căreia orice individ statistic are aceeaşi şansă
să facă parte din eşantion, iar selectarea lui se face absolut la întâmplare. Există şi aici
două variante: unitatea statistică este reintrodusă sau nu este reintrodusă în populaţia de
bază. O altă variantă este eşantionarea stratificată prin care populaţia este împărţită în
mai multe straturi iar apoi este ales câte un subeşantion din fiecare strat. De exemplu, un
eşantion de 1200 de studenţi din Universitatea “Al. I. Cuza” poate fi repartizat pe cele
14 facultăţi componente urmând să selectăm proporţional din fiecare facultate (strat) un
nr. de studenţi. Eşantionarea multistadială înseamnă alegeri succesive ale unor baze
de sondare. De exemplu la o anchetă de nivel naţional se pot selecta un nr. de judeţe,
apoi un nr. de oraşe, comune şi la final persoanele respective. Există de asemenea
eşantionarea cluster (un tip de stratificare în care componentele nu mai sunt omogene
ci eterogene), eşantionare multifazică (anumite subpopulaţii putând fi studiate în
profunzime), eşantionarea tip panel (este supusă investigaţiei aceeaşi populaţie, dar la
perioade de timp diferite) . Aceste tehnici de eşantionare fac apel la anumite procedee
de eşantionare. Dintre aceste procedee amintim:

Procedee aleatoare:
Procedeul loteriei (extragere din urnă cu sau fără revenire)
Procedeul numerelor aleatoare (se folosesc tabele cu numere aleatoare)
Procedeul eşantionării semi-aleatorie sau mecanice (având lista subiecţilor vom alege
eşantionul conform unui pas a cărui mărime este raportul dintre volumul populaţiei şi
cel al eşantionului respectiv)
Procedee non-aleatoare (se pune problema reprezentativității eşantionului)
Procedeul cotelor (din eşantion se repartizează o cotă fiecărui operator de teren, acesta
urmând să aleagă efectiv persoanele respective)
Procedeul voluntariatului (se aşteaptă ca subiecţii să răspundă singuri la un chestionar)
Procedeul eşantionării “la faţa locului” (ales mai ales în aglomerări umane).
Procedeul itinerariilor (subiecţii sunt aleşi după harta localităţii, a “spaţiului” populaţiei
respective)
Procedeul bulgăre de zăpadă (subiecții sunt aleşi din aproape în aproape în cadrul unor
rețele sociale)

O altă problemă importantă este aceea a mărimii eşantionului. Volumul acestuia


se stabileşte în directă legătură cu eroarea de reprezentativitate (’), cu probabilitatea cu
care se garantează rezultatele (t) şi limitele intervalului în care trebuie să se încadreze
rezultatele (vezi formula pentru EL). Formula generală de calcul a volumului
eşantionului este:

𝑡2 ∗ 𝜎
𝑛=
𝐸𝐿2
Această formulă devine pentru variabile dihotomice (de tip da/nu, prezent/absent,
pentru/contra):

𝑡 2 ∗ 𝑝 ∗ (1 − 𝑝)
𝑛=
𝐸𝐿2
În această formulă p este considerat proporţia din populaţie care este de exemplu
pentru în timp ce p-1 este proporţia din populaţie care este contra.
O corecţie importantă suportă prima dintre formule în cazul în care se consideră
extragerea fiecărei unităţi statistice fără revenire (nu este reintrodusă în populaţie după
extragere). În acest caz prima formulă devine:

𝑡2𝜎2
𝑛=
𝑡2𝜎
𝐸𝐿2 + 𝑁

formulă în care n este volumul colectivităţii generale şi se observă că atunci când N →


 atunci fracţia de la numitor tinde la 0 de unde şi aprecierea că volumul eşantionului
nu depinde de mărimea populaţiei de bază. Dacă însă populația este restrânsă ultimul
termen devine un factor important de corecție.

Obs: în cazul variabilelor dihotomice când nu se poate face nici o estimaţie prealabilă
se iau de obicei p şi q = 1-p ca fiind egale cu 0,5 sau 50%.

Exemplu: să se calculeze volumul unui eşantion estimându-se că cei ce-l vor vota din
nou pe actualul primar sunt aproximativ 60%, probabilitatea este de 0,95 iar E.L.
admisă este de ±3%.
Conform celei de a doua formule expuse mai sus suntem în cazul unei variabile
dihotomice, respectiv cei ce votează actualul primar (60%) şi cei care nu-l votează
(40%).
Aplicând formula rezultă:

1.96 ∗ 60 ∗ 40
𝑛= = 917
32

Intrebare: dacă nu ar fi existat nici o estimare care ar fi fost volumul eşantionului?


Răspuns: în acest caz formula ar fi devenit:
1,96 * 50 *50
n= = 1067
32

Termeni cheie:
eroare maximă admisă, nivel de încredere, reprezentativitate, metode şi procedee
de eşantionare, volumul eşantionului.

Teme pentru examen:

?
1. Stabiliţi intervalul de încredere, cu o probabilitate de 0,99 ştiind că media unui
eşantion de 825 de elevi a fost 6,5 iar dispersia ( varianţa ) de 1,33.

2. Estimându-se că nici un partid nu va depăşi 37% din voturi, să se stabilească


volumul eşantionului astfel încât eroarea să nu depăşească ±2,5%. Faceţi calculele
pentru p= 0,01 şi pentru p= 0,05.
 Bibliografie generală selectivă

1. Şora V., Hristache I., Mihăilescu C., Demografie şi statistică socială, Editura
Economică, Bucureşti, 1996
2. Trebici V. (coord.), Mică enciclopedie de statistică, Editura Ştiinţifică şi
Enciclopedică, bucureşti 1985
3. Bărbat Al., Statistică socială, Editura Didactică şi Pedagogică, Bucureşti, 1972
4. Pascal A., Les techniques de sondage, Editura Technip, Paris, 1994
5. Rotariu T. ( coord.), Metode statistice aplicate în ştiinţele sociale, Editura Polirom,
Iaşi, 1999
6. Porojan D., Statistica şi teoria sondajului, Editura Şansa SRL, Bucureşti, 1993
7. Colin M. et alii, Initiation aux méthodes quantitatives en sciences humaines, Editura
Gaëtan Morin, Montreal, 1995
8. Novak A., Statistică socială aplicată, Editura Hyperion XXI, Bucureşti, 1995
9. Andrei T., Stancu S., Statistică, Editura All, Bucureşti, 1995
10. Ţarcă M., Probleme de statistică, Editura Univ. “Al. I. Cuza”, Iaşi, 1972
11. Luduşan N., Voiculescu F., Măsurarea şi analiza statistică în ştiinţele educaţiei,
Editura Imago, sibiu, 1997
12. Hoover K., The Elements of Social Scientific Thinking, St. Martin’s Press, N. York,
1988
13. Zetterberg H., On Theory and Verification In Sociology, The Bedminster Press,
1965
14. Hoffman O., Sisteme conceptuale operaţionale în sociologie, Editura Ştiinţifică şi
Enciclopedică, Bucureşti, 1977
15. Cazacu A., Bădescu I., Metode şi tehnici de cercetare sociologică, Bucureşti, 1981
16. Chelcea S., Experimentul în psihosociologie, Editura Ştiinţifică şi Enciclopedică,
Bucureşti, 1982
17. Moineagu, I. Negură, V. Urseanu, Statistica, Editura Ştiinţifică şi Enciclopedică,
Bucureşti, 1976
18. Novak A., Sondajul de opinie, Editura Oscar Print, Bucureşti, 1998
19. Sora V., Hristache I., Ivan I., Despa M. Culegere de probleme şi studii de caz pentru
demografie. ASE, Bucureşti, 1987
20. Jaba E., Statistică descriptivă, Ed. UAIC, Iaşi, 2004

S-ar putea să vă placă și