Sunteți pe pagina 1din 64

Metode cantitative de analiza in stiintele politice

Suport curs Invatamant la Distanta1


2013-2014

Facultatea de Stiinte Politice, Administrative i ale Comunicrii


Specializarea tiine Politice
Anul universitar 2013 - 2014
Semestrul II
Informaii generale
Date de identificare a cursului:
Titlul disciplinei: Metode cantitative de cercetare in tiinele politice
Codul: ULR1415
Numrul de credite: 5
Locul de desfurare: Facultatea de tiine Politice, Administrative i ale Comunicrii,
str. General Traian Mooiu, nr. 71
Nume, titlul tiinific: Dr. Daniela Angi
Birou: Facultatea de tiine Politice, Administrative i ale Comunicrii, str. General
Traian Mooiu, nr. 71
Informaii de contact (adres e-mail): angi@fspac.ro
Ore de audien: Luni 18.00 20.00
Condiionri i cunotine prerechizite:
Fr condiionri
Descrierea cursului:
1

Suport de curs elaborate de catre Conf. Dr. Cosmin Marian FSPAC, UBB Cluj si adaptat de dr. Daniela Angi,
FSPAC, UBB Cluj.
1

Acest curs este o continuare a cursului "Metode de cercetare in stiintele sociale" din anul
Cursul pune accentul asupra invatarii unor metode de analiza cantitativa a datelor (metodele de
culegere a datelor cantitative au fost predate in anul 1, si vor fi recapitulate sumar in acest
semestru). Studentii vor nvata (i) sa formuleze ipoteze de cercetare, (ii) sa operationalizeze
concepte, (iii) sa realizeze o analiza descriptiva a datelor, si (iv) sa analizeze relatii de cauzalitate
ntre fenomenele sociale. Structura cursului, precum si modalitatea de lucru in cadru acestuia, sunt
alese astfel incit sa faciliteze interactiunea dintre profesor si studenti. Cursul va fi axat pe realizarea
unor cercetari, avand deci un caracter aplicat pronuntat iar studentii vor fi incurajati sa lucreze
independent, intr-un mod creativ.
Organizarea temelor n cadrul cursului:
1. Exemple de cercetri n tiinele politice. Etapele unui proces de cercetare.
2. Populaie i eantion. Tipuri de eantioane.
3. Aspecte matematice ale eantionrii. Teste de semnificaie
4. Variabile. Tipuri de variabile.
5. Analiza univariat a datelor
6. Analiza univariat a datelor. Aplicaii.
7. Analiza bivariat a datelor.
8. Analiza bivariat a datelor. Aplicaii.
9. Regresia liniar.
10. Regresia liniar. Aplicaii.
11. Regresia multiliniar
12. Regresia multiliniar. Aplicaii.
Formatul i tipul activitilor implicate de curs:
Pentru unele dintre aplicatii va fi folosit calculatorul. Cursul va presupune comunicarea intre
profesori si studenti cu ajutorul calculatorului: email, intra-net si internet. Studentii vor avea acces
la materiale scrise care vor fi salvate pe server sau vor fi trimise fiecarui student prin e-mail.
Deasemenea, lucrarile scrise de catre studenti vor fi predate profesorilor prin e-mail la urmatoarele
adrese: ds_angi@yahoo.com
Materiale bibliografice obligatorii:
1. Babbie, Earl. Learning from the field: A guide from experience. London: Sage
Publication. 1984.
2. Babbie, Earl. Survey Research Methods, 2nd ed. Belmont, CA: Wadsworth
Publishing Co. 1990
3. Dalton, Rusell. Citizen Politics: Public Opinion and Political Parties in Advanced
Western Democracies. Chatham House Publishers. 1988.
4. Johnson J., Joslyn R., Political science research methods, 1991
5. King, G., R. Keohane, S. Verba, Designing Social Inquiry, 1994
6. Nachmias C., Nachmias D., Research methods in the social sciences, 1996
7. Rotariu T., Metode si tehnici de cercetare in stiintele sociale
8. Rotariu T., Petru Ilut, Ancheta sociologica, Polirom, 1997
9. Rotariu T. (coord.). Metode statistice aplicate in stiintele sociale. Polirom, 2000
10.White L., Political Analysis. Technique and Practice, 1994
Materiale i instrumente necesare pentru curs
Pentru unele dintre aplicatii va fi folosit calculatorul.
2

Calendar al cursului
Tema 1
Argumentare in stiintele sociale. Cercetare in stiintele politice vs. cercetare in alte stiinte
sociale. Metode cantitative vs. metode calitative. Inferente descriptive si inferente
cauzale.
Bibliografie:
King, R. Strategia cercetarii. Polirom. 2005. Cap. 1 si Cap. 2
sau
White, L. Political analysis. Technique and Practice. Cap. 2
Tema 2
Ipoteze de cercetare. Operationalizarea conceptelor. Variabile. Scale de masura.
Indicatori multipli. Eroare de masurare.
Bibliografie:
King, R. Strategia cercetarii. p. 197-205
Rotariu & al. Metode statistice. Polirom. 1999. Cap. 2
Bibliografie optionala:
Culic, Irina. Metode avansate in cercetarea sociala. Polirom. 2005. p. 29-50
Tema 3
Statistica descriptiva. Indicatori ai tendintei centrale: media, mediana, modus. Indicatori
de imprastiere: interval intercuartilic, abatere standar. Grafice: histograme, bar-charts,
scatterplots.
Bibliografie:
Rotariu & al. Metode statistice. Cap. 16
Tema 4
Relatii intre variabile. Asociere/corelatie si cauzalitate. Relatii false (spurious relations).
Modalitati de reprezentare grafica a asocierii.
Bibliografie:
King, R. Strategia cercetarii. Polirom. 2005. p. 71-84
Tema 5
Tabele de asociere cu doua dimensiuni. Indicatori de asociere pentru variabilele de tip
nominal.
Rotariu & al. Metode statistice. p. 119-152
http://www.policy.hu/badescu/handbook.zip Cap. 6
Tema 6
Tabele de asociere cu doua dimensiuni. Indicatori de asociere pentru variabilele de
ordinal si
de tip cantitativ.
Rotariu & al. Metode statistice. p. 119-152
http://www.policy.hu/badescu/handbook.zip Cap. 6
Tema 7
Analiza multivariata. Tabele de asociere cu mai mult de doua dimensiuni.
Bibliografie:
Rotariu & al. Metode statistice. p. 153-164
3

Tema 8
Studiul relatiilor ntre variabile cantitative. Corelatia. Regresia liniara.
Bibliografie:
http://www.policy.hu/badescu/handbook.zip Cap. 7
Rotariu & al. Metode statistice. Cap. 8
Tema 9
Regresia liniara (2).
Bibliografie:
http://www.policy.hu/badescu/handbook.zip Cap. 7
Rotariu & al. Metode statistice. Cap. 8
Tema 10
Teoria testarii. Elemente de baza ale testarii semnificatiei statistice.
Bibliografie:
King, R. Strategia cercetarii. p. 255-271
http://www.policy.hu/badescu/handbook.zip Cap. 5
Tema 11
Scrierea unui proiect de cercetare. Scrierea unui raport de cercetare.
Seminar:
Scrierea unui proiect de cercetare (1).
Bibliografie:
White, L. Political analysis. Technique and Practice. Cap. 14
Politica de evaluare i notare:
Examen final: 100%.
Elemente de deontologie academica
Notiunea de plagiat se defineste n conformitate cu normele deontologice definite la link-ul demai
jos http://fspac.ubbcluj.ro/resurse/formulare-regulamente/reguli-etice-si-deontologice/
Frauda la examenul final se pedepseste cu eliminarea de la examen.

Studenti cu dizabilitati
In cazul unor studenti cu dizabilitati motorii sau intelectuale pot fi contactat pe adresa de e-mail in
vederea gasirii unei solutii in vederea oferirii de sanse egale acestora.

Modul 1
Obiectiv: Prezentarea etapelor unui proces de cercetare n tiinele sociale.
Ghid de studiu:

Organizarea cercetrii

Exemple de cercetri n tiinele politice. Etapele unui proces de cercetare.

Culegerea datelor

Analiza i interpretarea rezultatelor

Unitatea 1
Obiectiv: Detalierea obiectivelor propuse n acest modul. Prezentarea etapelor unui proces de
cercetare n tiinele sociale.
Noiuni cheie: teorie, ipoteza, design de cercetare, date si tipuri de date.

Etapele unui proces de cercetare.


Organizarea cercetrii
Crearea teoriei
Scopul principal al acestui capitol este de a aduce n discuie o serie de elemente necesare
configurrii celei mai importante pri a unui proiect de cercetare: teoria care st la baza abordrii,
asumpiilor i presupoziiilor fcute; n funcie de construciile teoretice de la care se pleac sunt
construite ipotezele, este aleas abordarea i metodele de culegere i analiz a datelor i sunt
prezentate rezultatele la care se ajunge. Elementele care alctuiesc o teorie sunt: conceptele,
categoriile i propoziiile (Corbin i Strauss 1990, p.7).
Conceptele sunt unitile de baz ale analizei sau abordrii; de la modul n care sunt
conceptualizate datele, i nu de la datele n sine, este dezvoltat o teorie. Teoriile nu pot fi
construite pornind de la evenimente actuale sau de la activiti observate sau relatate, adic din
date brute. Circumstanele, evenimentele, faptele sunt luate ca i, sau analizate ca i, indicatori
poteniali ai fenomenelor, fenomene crora le sunt atribuite astfel etichete (Corbin i Strauss 1990,
p.7). Spre exemplu, dac un respondent afirm c face parte din sindicatul instituiei n care i
desfoar activitatea profesional, atunci acesta poate fi etichetat ca fiind membru al sindicatelor
i n analiz noastr, atunci cnd ne vom referi la el, l vom desemna folosind eticheta i nu prin
descrierea activitii lui zilnice de a participa la activitatea unui sindicat, adic nu referindu-ne la
evenimentele sau faptele observate. Conceptele sunt construite prin compararea faptelor brute i
desemnarea cu aceeai etichet a faptelor asemntoare.

Al doilea element important al unei construcii teoretice l constituie categoriile. Categoriile au un


nivel mai ridicat i sunt mai abstracte dect conceptele pe care le reprezint (Corbin and Strauss 1990,
p.7). Noile elemente teoretice sunt generate printr-un proces analitic similar celui prin care sunt
generate conceptele: realizarea comparaiilor i evidenierea similaritilor i diferenelor. Pentru a
ilustra modul n care conceptele sunt grupate pentru a forma categoriile vom continua exemplul de mai
sus. Astfel, pe lng cei care fac parte din sindicatul instituiei n care i desfoar activitatea
profesional, i pe care i-am etichetat ca fiind membri al sindicatelor, vom identifica ali indivizi
particip la activiti ale partidelor politice, ale asociaiilor non-guvernamentale, etc, iar acetia vor fi
etichetai membrii ai partidelor politice respectiv membrii ai asociaiilor non-guvernamentale.
Dei conceptele amintite sunt diferite n ceea ce privete forma, ele reprezint activiti legate de
acelai proces i pot fi grupate ntr-o categorie etichetat cei care iau parte la activiti participative.
Al treilea element al teoriei sunt propoziiile care pun n eviden relaii ntre categorii i
concepte sau ntre categorii diferite. Propoziiile sunt adeseori desemnate cu eticheta de ipoteze
(Glaser i Strauss 1967). Termenul de ipotez este ns considerat mai puin adecvat ntruct
aceasta implic relaii care pot fi msurate ntre concepte i categorii, ceea ce nu se ntmpl
ntotdeauna spre exemplu cazul unor abordri calitative (Whetten 1989, p. 492).
Formarea i dezvoltarea conceptelor, categoriilor i propoziiilor este un proces continuu si
mereu reluat / renceput. Teoria nu este generat a priori i ulterior testat, ci mai degrab este
derivat inductiv din studierea fenomenelor pe care aceasta o reprezint (Strauss i Corbin, 1990,
p. 23). Teoria este descoperit, dezvoltat i verificat prin colectare sistematic a datelor i analiza
acelor date care sunt legate de fenomenele studiate.
n procesul de creare a teoriei literatura de specialitate amintete patru etape analitice, etape
care nu sunt strict secveniale: design-ul de cercetare, culegerea datelor, analiza datelor i
compararea rezultatelor obinute cu rezultate similare din literatura de specialitate.
Design-ul cercetrii
Design-ul cercetrii, este definit ca fiind configurarea general a unei fragment de cercetare
(Easterby-Smith et al. 1990, p. 21) configurare care conine n general referiri la: datele sau
informaiile care urmeaz a fi colectate i la modul n care aceastea urmeaz a fi analizate pentru a
rspunde la ntrebrile sau cerinele de baz ale cercetrii. Rezult de aicia c primul pas n
construcia unui design de cercetare l constituie definirea sau formularea ntrebrilor la care
urmeaz a se rspunde n cercetare. Acestea trebuie formulate suficient de restrns innd cont de
faptul c design-ul cercetrii de obicei este acea parte a unei cercetri n care sunt anunate inteniile
de a cerceta o anumit problem i nu e o cercetare dus pn la rezultatele finale, dar pe de alt
parte acestea trebuie formulate suficient de larg pentru a permite o anumit flexibilitate necesar n
cazul analizelor n tiinele sociale unde fenomenele studiate sunt n continu evoluie. O surs
important de ntrebri o constituie literatura de specialitate (spre exemplu: rapoarte ale unor
studii, nscrisuri cu coninut specific diferitelor domenii studiate, etc).
Design-ul proiectelor de cercetare n tiinele sociale este destul de variat, depinznd de
paradigma care st la baza cercetrii, de metodele utilizate pentru culegerea i analiza datelor, i de
asumpiile de la care pornete cercettorul n abordarea problematicii care urmeaz a fi cercetate.
n general, o cercetare n tiinele sociale ncearc s descrie i / sau s interpreteze un
anumit fenomen uman, cel mai adesea pornind de la comportamente ale indivizilor sau de la relatri
ale acestora cu privire la comportamente adoptate n diferite situaii. Date fiind varietatea
interaciunilor umane i dinamica acestora, n construcia design-ului de cercetare trebuie inut cont
de distorsiunile care pot aprea, de presupoziiile fcute i de interpretrile care se dau diferitelor
comportamente analizate astfel nct cititorii s poat nelege i interpreta rezultatele la care ajunge

cercetarea. Aa cum ne putem da seama din aceste problematici, nu exist o configurare standard a
proiectelor sau a rapoartelor de cercetare.
n cele ce urmeaz vom prezenta structura unui proiect de cercetare, care ns nu are
pretenia de a fi complet sau exhaustiv cerin oricum greu de ndeplinit dat fiind, aa cum am
amintit i mai sus, varietatea subiectului analizat i a constrngerilor care trebuie avute n vedere n
analiza acestuia - ci mai degrab ncearc s fie un punct de plecare pentru pentru cercettorii care
ncearc s se decida asupra unei modaliti de organizare a datelor i de comunicare a ideilor. In
funcie de subiectul abordat, de datele disponibile cu privire la acesta, de metoda de cercetare
utilizat i de teoria de la care se pornete, cerinele enumerate mai jos sunt sau nu sunt prezente n
structura unui design de cercetare particular.

Structura unei cercetri


1. Introducere
Pornii la drum cu un citat sau cu o scurt povestire care s capteze atenia cititorului.
Incercai s gsii un citat sau o povestire care s aiba legtur cu subiectul abordat, fie cu
modalitatea de a pune problema, fie cu rezultatele la care se va ajunge.
Formulai propriile dumneavoastr ntrebri sau nelmuriri cu privire la problematica
abordat, descriei contextul n care aceste ntrebri sau nelmuriri au aprut si cum au
evaluat. Ce ai dori s tii sau sa v lmurii? Cum ai ajuns s fii interesat de problem?
Amintii i alti cercettori care consider c este necesar o abordare a tematicii avute n
vedere, prezentai rezultatele la care au ajuns acetia, sau, dac este cazul, atragei atenia
asupra faptului c o astfel de tematic nu trebuie ignorat.
Justificai alegerea fcut. De ce este important o abordare a fenomenului respectiv n
momentul de fa ( ex: este un fenomen care se manifest pentru prima dat ntr-o anumit
societate sau ntr-un anumit context, fenomenul a dobndit o anumit amploare, etc ).
Specificai ceea ce urmrii n cercetarea dumneavoastr (ex: lrgirea bazei de cunoatere,
deschiderea unor noi perspective de abordare, confirmarea unor rezultate anterioare,
verificarea unor asumpii, etc).
Descriei publicul cruia v adresai.
2. Paradigma care st la baza abordrii
Aceast seciune este necesar mai ales atunci cnd tematica abordat nu este suficient de
bine cunoscut de publicul cruia v adresai sau atunci cnd, indiferent de public, fie
tematica, fie abordarea, fie amndou sunt noi.
Prezentai propria paradigm i ncercai s o nscriei ntr-o anumit tendin de abordare
(ex: fenomenologic, hermeneutic, etc). Amintii ali cercettori care au definit paradigme
asemntoare n alte domenii ale tiinelor sociale. (Guba, E. 1990).
Prezentai i explicai asumpiile i presupoziiile pe care le formulai n legtur cu
subiectul abordat. Explicai modul n care acestea pot distorsiona rezultatele la care se va
ajunge.

Daca este cazul, mai ales pentru abordrilor calitative, prezentai poziia pe care se plaseaz
cercettorul n raport cu subiectul cercetat, spre exemplu: cercettor ca i membru complet,
cercettor ca i membru activ, cercettor ca i membru periferic (Adler si Adler, 1994).
Specificai criteriile adecvate pentru evaluarea rezultatelor cercetrii. (Atkinson, Heath, i
Chenail, 1991).
Discutai modul n care experiena dumneavoastr anterioar influeneaz modul n care
concepei abordarea subiectului studiat. Prezentai pe scurt experien profesional care v
apropie de tematic.

3. Metoda de cercetare
Identificati i descriei metoda pe care urmeaz s o utilizai (ex: analiz de caz; metoda
comparativ, metoda etnografic, observaie, experiment, etc.). Descriei modul n care ali
autori au utilizat metoda avut n vedere de dumneavoastr (Glaser, B., i Strauss, A. 1967).
Descriei n detaliu ceea ce urmeaz s facei. Prezentai modalitatea de selectare a
subiecilor de la care vor fi culese informaiile necesare cercetrii.
Descriei datele pe care intentinai s le culegei sau pe care intenionai s le utilizai si
procedura de culegere a acestora (ex: baze de date statistice, note de teren, date provenite
din examinarea unor documente, benzi audio sau video, etc). Dac sunt utilizate interviuri
(cum este cazul interviului individual, a celui de grup sau a anchetei, etc) prezentai
ntrebrile folosite (fie n context, fie ataate ntr-un appendix).
Descriei procedurile de culegere i analiz a datelor n ordinea cronologic a desfurrii
lor.
Descriei procedurile de analiz pe care inteionai s le utilizai (codarea datelor, sortarea
datelor, procedurile statistice cu ajutorul crora sunt puse in eviden relaiile existe ntre
date, etc). Prezentai, dac este cazul, programele statistice utilizate pentru modelarea
datelor.
Interpretai rezultatele obinute n funcie de teoria, asumpiile i presupoziiile formulate la
nceputul cercetrii.
4. Concluzii
Reluai pe scurt problematica de la care s-a pornit. Amintii asumpiile i presupoziiile
fcute, metoda de cercetare i rezultatele la care s-a ajuns.
Stabilii legturile existente ntre rezultatele cercetrii dumneavoastr i literatura de
specialitate. care prezint rezultate similare sau asemntoare.
Imaginai modul n care design-ul cercetrii poate evolua de la rezultatele pe care le-ai
obinut i innd cont de evoluiile ulterioare ale domeniului studiat. Specificai
deschiderile lsate de proiectul dumneavoastr i posibillee modaliti de valorificare a
informaiei acumulate ulterior.
Discutai validitatea i fidelitatea procedurilor utilizate n culegerea i analiza datelor.
Discutai posibilelele distorsiuni generate fie de asumpiile i de presupoziiile fcute, fie de
metodele de culegere i de analiz a datelor.
Prezentai modul n care literatura de specialitate v-a influeat n modalitile de abordare a
subiectului cercetat.
Discutai limitele cercetrii dumneavoastr i amintii limitele cu care se confrunt orice
subiect asemntor abordat i n alte studii.

Culegerea datelor
8

O dat formulate ntrebrile la care se intenioneaz a se rspunde prin cercetare, urmtorul pas este
alegerea cazurilor sau a indivizilor care urmeaz a fi investigai pentru a obine datele necesare
confirmrii sau infirmrii propoziiilor referitoare la problematica cercetat. In alegerea cazurilor
noastre putem avea un plan prestabilit, aa cum este cazul n cercetrile cantitative, sau putem s ne
selectm cazurile pe msur ce procesul de cercetare evolueaz, aa cum este cazul n cele mai
multe din cercetrile calitative (Strauss i Corbin, 1990, p. 192).
In faza iniial de culegere a datelor, atunci cnd sunt stabilite categoriile este necesar o
investigare extins i n profunzime a cazurilor pentru a obine date ct mai adecvate cu putin.
Atunci cnd cazurile sunt foarte multe i nu pot fi investigate toate se alege o procedur de
eantionare a populaiei noastre de cazuri. Pentru a stabili ct de multe cazuri vor intra n
atenia analizei noastre, cu alte cuvinte pentru a stabili unde ne oprim cu eantionarea din punct de
vedere teoretic, este nevoie s recurgem la teorie i la logica cercetrii noastre. Ne oprim cu
eantionarea acolo unde nu mai este identificat informaie suplimentar cu ajutorul crei
cercettorul s dezvolte proprieti sau caracteristici ale conceptelor sau categoriilor cu care
lucreaz (Glaser i Strauss 1967, p. 65). In alegerea cazurilor noastre trebuie inut seama de faptul
c nu toate cazurile au aceeai relevan raportat la problematica cercetat i la teoria pe care se
bazeaz cercetarea; astfel, n unele situaii, este suficient un caz pentru a pune n eviden o
anumit problematic, n alte situaii este nevoie de mai multe cazuri pentru a face acelai lucru.
Ca i regul general, alegem attea cazuri cte sunt necesare pentru a avea o imagine complet a
problemei cercetate din perspectivele relevante pentru cercetarea noastr. Adaugarea unui nou caz
trebuie s serveasc unor scopuri specifice ale cercetrii (Yin 1989, p. 53-54), iar aceste scopuri
specifice pot fi: a) identificarea unor concepte i categorii, b) alegerea unui caz pentru a
reproduce rezultatele obinute n alt caz, c) alegerea unui caz opus celui sau celor studiate pn n
acel moment.
Pentru o ct mai bun acoperire a unui fenomen sau fapt social este necesar utilizarea
unor surse multiple de date. Nu exist o singur categorie de date sau o singur tehnic de culegere
a datelor care poate fi etichetat ca adecvat (Glaser i Strauss 1967, p. 65). Diferite surse de date
ofer cercettorului perspective diferite asupra fenomenului studiat. Iniial abordarea unui fenomen
poate avea la baz o singur tehnic de culegere a datelor, ulterior ns este recomandat
identificarea i altor surse de date i a altor tehnici de investigare a acestor date. Utilizarea unor
surse multiple de date consolideaz validitatea abordrii.
Analiza datelor
Analiza datelor reprezint etapa cea mai important n dezvoltarea, confirmarea, extinderea sau
reproducerea unei teorii. Aceast analiz, pentru fiecare caz particular, implic n primul rnd
generarea unor concepte printr-un proces de observare a realitii, de descompunere a fenomenelor
n elementele lor componente i reasamblarea lor n modaliti noi (Strauss i Corbin, 1990).
Analiza datelor este n literatura de specialitate subiect al unei vii dispute ntre cei care consider c
aceasta trebuie fcut prin metode cantitative i cei susin abordrile calitative.
Compararea rezultatelor obinute cu rezultatele din literatura de specialitate.
O dat datele culese, analizate i interpretate problema care se pune este aceea de a compara
rezultatele obinute literatura de specialitate existent i examinarea a ceea ce este similar i a ceea
ce este diferit. Compararea unei teorii noi cu ceea ce deja exist va consolida validitatea intern, va

consolida de asemenea gradul de generalizare al rezultatelor obinute pentru cazurile studiate


(Eisenhardt, 1989, p. 545).
Bibliografie:
Corbin, J., & Strauss, A. (1990). Grounded theory research: Procedures, canons, and evaluative
criteria. Qualitative Sociology, 13, 3-21.
Easterby-Smith, M., Thorpe, R., & Lowe, A. (1991). Management research: An introduction.
London: Sage.
Eisenhardt, K. M. (1989). Building theories from case study research. Academy of Management
Review, 14, 532-550.
Glaser, B. G., & Strauss, A. L. (1967). The discovery of grounded theory. Chicago: Aldine.
Lee, R. M., & Fielding, N. G. (1991). Computing for qualitative research: Options, problems and
potential. In N. G. Fielding & R. M. Lee. (Eds.), Using computers in qualitative research (pp. 1-13).
London: Sage.
Martin, P. Y., & Turner, B. A. (1986). Grounded theory and organisational research. Journal of
Applied Behavioural Science, 22, 141-157.
Muhr, T. (1993) ATLAS Release 1.1E Users Manual. Berlin: Technical University of Berlin.
Pandit, N. R. (1995). Towards a grounded theory of corporate turnaround: A case study
approach. Unpublished doctoral thesis, University of Manchester, UK.
Pettigrew, A. M. (1987). Researching strategic change. In A. M. Pettigrew (Ed.), The
management of strategic change (pp. 1-14). Oxford: Blackwell.
PROMT users manual. (1989). Cleveland, OH: Predicasts.
Strauss, A. & Corbin, J. (1990). Basics of qualitative research: Grounded theory procedures and
techniques. London: Sage.
Tesch, R. (1991). Software for qualitative researchers: Analysis needs and program capabilities.
In N. G. Fielding & R. M. Lee (Eds.), Using computers in qualitative research (pp. 16-37). London:
Sage.
Textline reference guide. (1993). London: Reuters.
Turner, B. A. (1983). The use of grounded theory for the qualitative analysis of organisational
behaviour. Journal of Management Studies, 20, 333-348.
Whetten, D. A. (1989). What constitutes a theoretical contribution? Academy of Management
Review, 14, 490-495.
Yin, R. K. (1989). Case study research: Design and methods. London: Sage.
10

Modulul 2
Obiective: Introducerea notiunii de eantionare i a problematicii eantionrii
Ghid de studiu:
Cercetri selective: de la populaie la eantion
Reprezentativitatea eantioanelor: a alege civa pentru a i reprezenta pe toi.
Proceduri de eantionare. Tipuri de eantioane
Aspecte matematice ale eantionrii. Teste de semnificaie
Unitatea 1
Obiectiv: Prezentarea noiunii de eantionare
Cuvinte cheie: populaie, eantion, cadru de eantionare, populaie ideal
Eantionarea
Cercetri selective: de la populaie la eantion
Cine va ctiga alegerile prezideniale sau parlamentare? Sunt femeile o minoritate defavorizat n
societile moderne? O politic public sau o decizie administrativ produce modificri ale
comportamentelor indivizilor vizai de acea politic public sau de acea decizie? Cine este pentru i
cine este mpotriva introducerii unor noi msuri fiscale? Ct de popular este msura luat de
autoritile dintr-o anumit unitate administrativ de a construi o nou zon industruial? Toate
aceste ntrebri au n comun o caracteristic important i anume: se refer la populaii att de largi
nct este practic imposibil de obinut informaii cu privire la toate elementele care le compun. Cu
situaii asemantoare - imposibilitatea cuprinderii tuturor elementelor care compun un ntreg - se
confrunt i medicul care face analize de snge i care nu poate extrage tot sngele aflat n
organismul unui pacient pentru a l supune unei investigaii n laborator, cei care fac analize ale
unor elemente din mediul natural pentru a stabili nivelul de poluare, sau cercettorul din tiintele
naturale care taie un exemplar dintr-o specie de plante n scopul efecturii unor analize n laborator.
Att n aceste situaii, ct i n multe altele de acest fel, problema care se pune este aceea de
a culege informaiile necesare pentru a analiza temele avute n vedere doar de la o parte din indivizii
care compun o populaie i nu de la ntreaga populaie. Din punct de vedere tehnic, grupul sau
mulimea de indivizi care constituie obiectul de studiu sau de interes al cercettorului la un moment
dat este denumit populaie, iar grupul mai mic de indivizi de la care sunt culese informaiile
necesare cercetrii este denumit eantion. Setul de operaii cu ajutorul crora, din ansamblul
populaiei vizate de cercetare, se extrage o parte, numit eantion, parte ce va fi supus nemijlocit
investigaiei2 este desemnat ca fiind operaia de eantionare.
Decizia de a culege datele necesare unei cercetri de la un eantion sau de la o populaie
depinde de o serie de aspecte practice. Astfel, n unele situaii, dac timpul, resursele financiare i
Traian Rotariu, Petre Ilu, Ancheta sociologic i sondajul de opinie, Ed. Polirom, Iai, 1997,
p.122.
2

11

umane nu constituie o problem sau dac populaia int nu este foarte numeroas, atunci este multe
mai avantajoas culegerea datelor de la toi indivizii care compun o populaie vizat; n felul acesta
se obine o imagine exact a problematicii investigate. n alte situaii exist o serie de constrngeri
care l impiedic pe cercettor s ajung la toi indivizii care compun o populaie, aceste
constrngeri se refer n primul rnd la timp, resursele financiare i umane aflate la dispoziie,
dispersarea georgrafic a populaiei care urmeaz a fi cercetat, iar soluia cea mai la ndemn
pentru a culege informaiile necesare const selectarea unui eantion i investigarea indivizilor care
l compun. Din acest punct de vedere am putea spune ca eantionarea este un compromis datorat
insuficienei resurselor. Nu ntotdeauna este ns vorba numai de imposibilitatea fizic de a culege
informaii de la toi membrii unei populaii neajuns care n unele situaii poate fi depit ci i de
o lips de eficien practic spre exemplu, n cazul cercettorului din tiinele naturale, care, dac
ar tia toate exemplarele unei specii de plante pentru a le analiza n laborator ar determina dispariia
speciei respective. Pe de alt parte, concentrnd resursele existente doar pentru analiza unei pri
dintr-un ntreg se pot obine rezultate mai bune dect analiznd ntregul, mai ales atunci cnd acest
ntreg este format din muli indivizi a cror investigare implic utilizarea unui personal auxiliar
numeros care datorit lipsei de specializare poate genera erori mai grave dect dac ar fi analizat o
parte din acel ntreg utiliznd un personal specializat.
Unul dintre primele aspecte care trebuie luate n considerare atunci cnd se pune problema
realizrii unor cercetri practice este aceea a delimitrii populaiei care urmaz a fi studiat. n acest
context, prin populaie sunt desemnate toate elementele care pot sau trebuie s fie studiate.
Elementele pot fi indivizi umani, dar n acelai timp pot fi gospodrii, coli, spitale, intreprinderi
economice, orae, organizaii sociale sau profesionale, ziare, articole de pres, discursuri ale unor
oameni politici, etc. Indiferent ns de cine sau ce constituie elementele populaiei vizate, aceasta
trebuie s fie atent delimitat n funcie de obiectivele cercetrii, ntruct rezultatele finale vor
depinde de acest punct de referin stabilit iniial. Spre exemplu, s ne imaginm c ntr-un ora se
pune problema adoptrii unui nou sistem de transport n comun, iar ceea ce ne intereseaz este
acordul sau dezacordul cetenilor cu privire la modul practic de realizare a acestuia. n acest caz,
populaia vizat este compus doar din cei care locuiesc n oraul respectiv? sau trebuie avut n
vedere i populaia care nu locuiete n ora, dar care ntr-o msur sau alta beneficiaz de
transportul n comun din acel ora? care este vrsta minim i maxim a celor care vor fi
chestionai?, etc. Intrebri asemntoare acestora se ivesc de fiecare dat cnd se pune problema
definirii unei populaii care urmeaz a fi cercetate, iar de rspunsurile date vor depinde n mod
evident rezultatele finale. Un prim pas n definirea unei populaii vizate este acela de a stabili o
populaie ideal, adic toi cei care ipotetic ar trebui s fie luai n considerare atunci cnd se
cerceteaz o problematic anume. Dup care n funcie de constrngerile practice identificate spre
exemplu, n cazul n care elementele populaiei sunt indivizi umani, astfel de constrngeri ar putea
fi date de imposibilitatea de a i investiga pe cei aflai n nchisori, uniti militare, spitale, hoteluri,
n strintate, etc populaia ideal poate fi restrns la o populaie vizat care poate fi abordat n
cadrul cercetrii. Avantajele lurii n considerare n faza iniial a unei populaii ideale este acela c
excluderea unor segmente din aceasta este explicit, iar neajunsurile rezultate de aici pot fi luate n
considerare.
O dat stabilit populaia vizat, poate fi pus i problema alegerii unui eantion. Pentru
aceasta, elementele populaiei vizate sunt traspuse ntr-o list numit cadru de eantionare, list din
care vor fi extrase ulterior potrivit unor proceduri clar definite acele elemente care vor compune
eantionul. Spre exemplu, dac se realizeaz o anchet telefonic al crui scop este investigarea
modului n care dotarea cu utiliti publice a unei localiti acoper necesitile existente, populaia
ideal este constituit din toate gospodriile care au acces la utiliti publice, iar cadrul de
eantionare este format din toate gospodriile care au acces la utiliti publice i au telefon.
Constrngerea n acest caz este dat de existena unui post telefonic n gospodrie. Gospodriile
12

care au acces la utiliti dar care nu au telefon neputnd fi investigate, populaia vizat este format
doar din acele gospodrii care au acces la utiliti publice i au telefon (Figura 1.). n exemplul de
fa, astfel de liste care s se constituie n cadru de eantionare pot fi evidene ale companiilor
funizoare de utiliti publice i liste ale abonailor la servicii telefonice din localitatea avut n
vedere.
De la caz la caz, n funcie de problema investigat, pot constitui cadru de eantionare: lista
celor care sunt nscrii la un medic de familie sau la medicii de familie care opereaz ntr-o anumit
arie care urmeaz a fi acoperit de cercetare, lista celor abonai la o firm furnizioare de servicii de
televiziune prin cablu, lista celor abonai la o anumit publicaie, lista celor care figureaz n
registrul auto, lista celor care figureaz n registrul de carte funciar, etc. Ideal toate aceste liste ar
trebui s includ fiecare element al populaiei vizate doar o singur dat. n realitate ns exist o
serie de neajunsuri printre care cele mai importante sunt:

lipsa unor elemente: fie lista este inadecvat n sensul n care iniial nu a fost conceput pentru a
include toate elementele care pot face la un moment dat obiectul de interes al cercettorului, fie
este incomplet, adic nu include din diferite motive toate elementele care se presupune care c
ar trebui s le includ;
referine la grupuri de elemente i nu la elemente individuale; spre exemplu, liste care nu se
refer la numrul de persoane ci la numrul de familii care locuiesc ntr-o gospodrie, dar
cercetarea vizeaz persoane i nu familii;
existena unor elemente straine, adic existena n list a unor elemente care din diferite motive
nu fac obiectul de studiu la un moment dat;
exitena unor duplicate: cnd unele elemente ale populaiei apar de mai multe ori pe o list.

Remedierea tuturor acestor neajunsuri va duce n mod evident la obinerea unui eantion mai
bun. De la caz la caz prin remediere se nelege: identificarea elementelor lips i introducerea lor
n lista care constituie cadrul de eantionare, identificarea tuturor elementelor care fac parte dintr-un
grup, eliminarea unor elemente strine care nu au legtur cu tematica cercetrii, eliminarea
duplicatelor i pstrarea pe o list a unui element doar o singura dat.
O modalitate de a depi aceste neajunsuri const n redefinirea problematicii cercetate n
aa fel nct elementele populaiei care nu pot fi identificate s nu fac obiectul unei anumite
cercetri. Acest lucru evident nu este posibil n toate situaiile i nu este posibil mai ales n acele
situaii n care elementele care nu pot fi identificate constituie majoritatea elementelor unei
populaii.
Atunci cnd nu exist liste care s cuprind elementele unei populaii vizate prin cadru de
eantionare poate fi desemnat orice alt procedur care s permit idetificarea elementelor unei
populaii. Spre exemplu, o arie geografic poate juca rolul de cadru de eantionare, situaie n care
elementele populaiei vizate sunt asociate cu un anumit spaiu natural. Astfel, aria geografic
ocupat de o populaie vizat poate fi mprit n zone mai mici din care sunt alese aleator cteva,
care la rndul lor sunt divizate n arii mai mici dintre care vor fi selectate aleator cteva i aa mai
departe pn la utimul stadiu cnd din anumite zone astfel selectate sunt investigate toate
elementele.
Figura 1. Cadrul de eantionare pentru selectarea unui eantion n vederea investigrii printro anchet telefonic a gradului de satisfacere de ctre utilitile publice a nevoilor populaiei unei
localiti (exemplu ipotetic).

13

Unitatea 2

Obiectiv: Prezentarea problematicii reprezentativitii eantioanelor

Reprezentativitatea eantioanelor: a alege civa pentru a i reprezenta pe toi.


Un eantion bun este ntr-o oarecare msur o versiune n miniatur a unei populaii, un model al
unei populaii. Caracteristica cea mai important a unui eantion bun este dat de reprezentativitatea
acestuia. Un eantion este considerat reprezentetativ pentru populaia din care este extras dac
caracteristici importante sunt distribuite similar n amndou grupurile3 sau cu alte cuvinte, innd
cont de ordinea temporal a constituirii celor dou grupuri, un eantion trebuie s reproduc
caracteristici importante ale populaiei din care este extras. Aceste caracteristici importante pot fi
spre exemplu, vrsta, nivelul de educaie, mediul de reedin, sexul, venitul, etc. Spre exemplu,
dac populaia vizat este fi constituit n proporie de 51% din femei, dintre care 27% au studii
medii, atunci un eantion reprezentativ va fi compus n proporie de 51% din femei dintre care
aproximativ 27% vor avea studii medii.
Un eantion nu va reproduce niciodat cu exactitate toate caracteristicile unei populaii, ca
urmare aproximarea unei caracteristici existente n populaie recurgnd la msurtori efectuate pe
un eantion va produce o anumit eroare (d), iar ncadrarea rezultatului obinut ntr-o marj de
eroare rezonabil se face cu un anumit grad sau nivel de probabilitate (P). Eroarea obinut este
rezultatul diferenei reale existente ntre o caracteristic A dintr-o populaie i caracteristica
corespunztoare A* msurat pe un eantion extras din acea populaie. Nivelul de probabilitate este
msura n care eroarea pe care o facem aproximnd o valoare A din populaie prin valoarea
corespunztoare A* msurat pe un eantion este mai mic dect o eroare maxim admis.
Reprezentativitatea unui eantion este exprimat cantitativ de cele dou valori d i P, valori care
sunt determinate una de cealalt. Un eantion este cu att mai reprezentativ cu ct eroarea pe care o
facem este mai mic iar nivelul de probabilitate este mai mare.
Indiferent de modul n care selectat un eantion, acesta reproduce mai mult sau mai puin
caracteristici ale populaiei din care este extras, motiv pentru care nu exist eantioane
nereprezentative, ci doar eantioane mai mult sau mai puin reprezentative pentru o populaie n
funcie de msura n care caracteristici ale populaiei respective sunt regsite i n acete eantioane.
Astfel, un eantion care reproduce mai bine caracteristicile unei populaii dect un alt eantion, vom
spune care mai reprezentativ. Mai mult, unele caracteristici pot fi mai bine reproduse de un eantion
iar altele mai puin bine, ceea ce nseamn ca reprezentativitatea unui eantion este diferit n
3

Arlene Fink, How to Sample in Surveys, Sage Publications, Thousands Oaks, London, New York,
1995, p.1.
14

funcie de caracteristica care este avut n vedere. Cu alte cuvinte, un eantion nu este reprezentativ
n general, ci are o anumit reprezentativitate n raport cu o anumit caracteristic i o alt
reprezentativitate n raport cu o alt caracteristic.
Gradul de reprezentativitate al unui eantion depinde de trei factori importanti caracteristicile populaiei din care este extras, de mrimea eantionului i de procedura de
eantionare factori care au fost sintetizai de Rotariu i Ilu n lucrarea Ancheta sociologic i
sondajul de opinie i pe care i voi reaminti n cele ce urmeaz.
Cum am spus deja reprezentativitatea unui eantion este dat de capacitatea acestuia de a
reproduce o serie de caracterisitici existente n populaie. Dac o caracteristic este mai omogen
distribuit ntr-o populaie un acelai eantion va fi mai reprezentativ pentru acea caracteristic
dect pentru o alt caracteristic care este distribuit mai eterogen n aceeai populaie. Sau altfel
spus, pentru a obine o aceeai reprezentativitate, pentru o caracteristic n raport cu care populaia
este mai omegen este nevoie de un eantion de mrime mai mic dect pentru o caracteristic n
raport cu care populaia este mai eterogen.
Mrimea eantionului se refer la numrul de elemente care l compun i care trebuie
investigate pentru a obine rezultate ct mai precise. Intuitiv, un eantion este cu att mai
reprezentativ cu ct cuprinde mai multe elemente din populaia vizat, n felul acesta obinndu-se o
reproducere mai bun a acesteia. Dar creterea nivelul de reprezentativitate nu este direct
proporional cu creterea numrului de elemente din populaia vizat care sunt incluse n eantion,
adic nu avem o relaie linear ntre cele dou componente, dimpotriv aceast relaie poate fi
reprezentat sub forma unei curbe asemntoare celei din figura de mai jos (Figura 2.). Astfel, dac
modificm mrimea eantionului cu o cantitate K de elemente, iar eantionul cuprinde iniial un
numr mic de elemente, modificarea gradului de reprezentativitate este mai mare dect dac
modificm mrimea eantionului cu aceeai cantitate K de elemente dar eantionul este compus
iniial dintr-un numr mare de elemente.
Figura 2. Relaia dintre reprezentativitate i mrimea eantionului.

Mrimea eantionului este indepedent de mrimea populaiei din care este extras. Un
eantion de o anumit mrime i constituit dup aceleai proceduri are aceelai grad de
reprezentativitate i atunci cnd este extras din populaia unei ri i atunci cnd este extras din
populaia unui ora. Consecina faptului c reprezentativitatea unui eantion nu depinde de mrimea
popolaie din care este extra este aceea c acesta are un anumit grad de reprezentativitate pentru
ntreaga populaie, dar subeantioanele n care se mparte i care respect proporia diferitelor

15

segmente ale populaiei nu mai au acelai grad de reprezentativitate pentru aceste segmente ca i
eantionul iniial.
n ceea ce privete procedura de eantionare, aceasta influeneaz att gradul de
prezentativitate al unui eantion ct i posibilitatea exprimrii numerice a acesteia. Din punct de
vedere tehnic matematic, calcularea reprezentativitii unui eantion este posibil numai n cazul
eantioanelor probabilistice sau aleatoare. Un eantion probabilistic este acel eantion pentru care
fiecare element din populaia vizat are o ans calculabil i nonnul de a fi selectat n eantion.
Posibilitatea calcularii ansei ca un element din populaie s fie selectat n eantion permite
calcularea unei marje de eroare (d) i a unui nivel de probabilitate (P) prin care s fie exprimat
cantitativ reprezentativitatea eantionului. n cazul eantioanelor neprobabilistice, cele pentru care
ansa unui element al populaiei de a face parte din eantion nu este cunoscut, nu poate fi calculat
gradul de reprezentativitate i prin urmare nici nu se poate vorbi de reprezentativitatea lor.

Unitatea 3
Obiectiv: Proceduri de eantionare. Tipuri de eantioane
Cuvinte cheie: selecie la ntmplare, eantioane probabilistice, eantioane neprobabilistice
Proceduri de eantionare. Tipuri de eantioane
Distincia clasic n ceea ce privete tipurile de eantioane este aceea ntre eatioanele probabilistice
sau aleatoare i cele neprobabilistice.
n primul caz n procesul de selectare a unui element din populaie pentru a face parte din
eantion se presupune c se face la ntmplare fr s intervin n vreun un fel subiectivismul
celui care aplic procedura de eantionare i nici vreun alt fenomen care s afecteze ansa unuia
sau unor indivizi de a fi selectai. Dat fiind aceast constrngere, urmtoarele situaii: alegerea la
ntmplare a unui numr de oameni care intr ntr-o instituie de la orele 8.00 pn la orele 10.00
ale unei zile, constituirea unui eantion de gospodrii alese la ntmplare atunci cnd ne plimbm
pe cteva strzi dintr-o localitate, sau constituirea unui eantion format din localiti rurale ale unui
jude, selectnd tot ntmpltor localiti rurale care se afl pe oseau care leag dou orae ale
judeului respectiv, etc, nu vor duce la constituirea unor eantioane probabilistice. Motivul pentru
care nu vom obine n aceste cazuri eantioane aleatoare este acela c n alegerea pe care o facem
la ntmplare excludem fie intenionat, fie neintenionat o parte din elementele populaiei vizate.
Astfel n primul caz, dac vrem s alegem un eantion reprezentativ pentru cei care frecventeaz o
anumit instituie i vom selecta la ntmplare doar pe cei care intr n acea instituie n intervalul
orar amintit i vom exclude pe toi cei care la momentul respectiv nu au ansa de a intra n acea
instituie, similar vom exlude fr s vrem gospodriile care nu au ansa de a se gsi pe strzile pe
care ne plimbm sau localitile rurale care nu au ansa de a se afla pe oseaua care leag cele dou
orae ntre care ne deplasm. Mai mult, nu putem calcula ansa pe care fiecare element din cele trei
cazuri prezentate mai sus persoane, gospodrii, localiti rurale le are de fi selectat n eantion.
n toate aceste cazuri este clar c ntmplarea favorizeaz anumite elemente i anuleaz ansele
altor elemente care sunt exluse a priori ntruct nu au ansa de a se afla la locul sau pe traseul pe
care se deplaseaz cel care face selecia.
Pentru a evita aceste situaii ar trebui s avem o situaie clar a tuturor elementelor care
compun o populaie i s le putem identifica fr echivoc.
Aa cum am artat deja n paragraful anterior, n cazul procedurilor de eantionare
probabilistice fiecare element care compune o populaie trebuie s aib o ans diferit de zero i
16

calculabil de a face parte din eantion. Acesta este criteriul de baz n stabilirea dihotomiei:
eantioane probabilistice - eantioane neprobabilistice
De-a lungul timpului au fost dezvoltate o larg varietate de tehnici de eantionare, dintre
acestea cele mai frecvent ntlnite sunt: eantionarea simpl aleatoare, eantionarea aleatoare prin
stratificare, eantionarea aleatoare multistadial sau cluster, eantionarea pe cote, eantionarea tip
bulgre de zpad. n cele ce urmeaz vom prezenta o serie de aspecte legate de modul de
aplicare al fiecreia dintre aceste proceduri de eantionare.
Eantioane probabilistice
1. Eantionarea simpl aleatoare
Eantionarea simpl aleatoare este probabil procedura cea mai important i cea mai des
utilizat n domeniul cercetrilor practice i este considerat procedura de referin, ideal, atunci
cnd se pune problema stabilirii unor tehnici de eantionare. Asumpiile de baz ale acestei tehnici
sunt acelea c: fiecare element al populaie vizate are exact aceeai ans ca i oricare alt element al
aceleiai populaii de a fi selectat n eantion, iar selectarea unui element n eantion nu a influenat
n nici un fel ansele altui element de a fi selectat. Tehnica tipic sau modelul de realizare al acestui
tip de eantionare este reprezentat de metoda urnei, situaie n care fiecarui element dintr-o
populaie vizat i corespunde o bil; toate bilele corespunztoare unor membrii ai populaiei vizate
sunt introduse ntr-o urn dup care sunt amestecate i se extrage pe rnd cte una pn se ajunge la
un numr de bile egal cu numrul de elemente care vor compune eantionul. Simplu de pus n
practic din punct de vedere teoretic, procedura astfel definit ntmpin o serie de dificulti mai
ales atunci cnd se lucreaz cu populaii mari, situaie n care este practic imposibil de conceput o
urn n care s poate fi introdus un numr de bile egal cu numrul de indivizi care compun populaia
unei ri spre exemplu.
O a doua metod de realizare a unei eantionri simple aleatoare sunt tabelele cu numere
aleatoare. Procedura const n generarea unor iruri de numere aleatoare i introducerea lor ntr-un
tabel similar celui prezentat mai jos (Tabelul 1.). Fiecrui element din populaia vizat, care trebuie
identificat univoc, i se atribuie un numr de la 1 la N. Cel care realizeaz selecia, alege la
ntmplare un numr din irul de numere aleatoare i caut apoi n populaia vizat elemetul cu
numrul de ordine reprezentat de numrul aleator respectiv, element care va face parte din eantion.
Dup care din tabelul de numere aleatoare este ales numrul urmtor i se identific din nou n
populaia vizat elementul cu numrul de ordine identic cu numrul aleator, element care este i el
introdus n eantion. Procedura continu n acest fel pn la completarea numrului de elemente
necesare constituirii eantionului. n cazul n care unui numr aleator nu i corespunde un numr
atribuit unui element din populaia vizat, acest nu este utilizat i se trece la urmtorul.
Tabelul 1. Tabel de numere aleatoare (exemplu ipotetic).
67
53
45
76
23
09

21
32
27
90
07
11

03
75
41
83
47
23

17
72
98
78
63
49

03
77
86
26
19
15

89
33
05
92
94
28

73
10
40
77
11
48

81
01
50
13
43
85

Neajunsul acestei metodei tabelelor aleatoare const n posibilitatea ca un element s fie


selectat de mai multe ori n eantion. Situaie care este evitat n cazul utilizrii metodei urnei, dac
o bil o dat extras nu mai este introdus napoi n urn.
17

Numerele aleatoare pot fi compuse din start din mai mult de dou cifre, sau pot fi compuse,
n funcie de necesiti, din mai mult de dou cifre de ctre cel care face eantionarea prin adugarea
la o coloan a cte cifre este nevoie din coloana sau coloanele alturate. Astfel, n exemplul de mai
sus dac la prima coloana se adaugat prima cifr din coloana a doua se obin numerele: 672, 533.
452, 769, 230, 091.
O alt procedur de punere n practic a unei eantionri simple aletoare este cunoscut sub
denumirea de metoda pasului. n aceast situaie este necesar o list care s cuprind toate
elementele populaiei vizate, fiecrui element fiindu-i atribuit un numr de la 1 la N. Dup care se
stabilete un pas de eantionare, de obicei egal cu raportul dintre mrimea populaiei (N) i mrime
eantionului (n): N/n. Se alege la ntmplare un numr din lista care cuprinde toate elementele
populaiei vizate, elementul corespunztor acelui numr fiind primul element al eantionului, dup
care ncepnd de la acel element tot al N/n lea element din populaie este selectat n eantion. Pasul
de N/n se aplic de cte ori este nevoie pentru a selecta numrul de elemente care trebuie s fac
parte din eantion. Procedura pasului mai este cunoscut i sub denumirea de eantionare simpl
sistematic.
Spre exemplificare, s presupunem c populaia vizat este format din 5000 de gospodrii,
i dorim s constituim un eantion format din 250 de gospodrii. Pasul de eantionare n acest caz
va fi 5000/250 = 20. Gospodriile sunt ordonate pe o list, fiecreia atribuindu-i-se un numr de la
1 la 5000. Se alege la ntmplare o un numr de pe list, s spunem c acest numr este 27, iar
gospodria creia i-a fost atribuit acest numr este primul element al eantionului nostru.
Urmtoarele gospodrii care vor face parte din eantion sunt cele crora le corespund numerele: 52,
77, 102, 127, 152, 177 i aa mai departe pn la selectarea a 250 de gospodrii.

2. Eantionarea prin stratificare


Eantionarea prin stratificare are la baz tot o procedur de alegere aleatoare. Aceast
metod este utilizat atunci cnd cel care face eantionarea are motive s cread c populaia vizat
este compus din mai multe subpopulaii sau subgrupuri distincte, denumite tehnic straturi.
Realizarea din punct de vedere practic a unui eantion prin stratificare presupune urmtorii pai:
populaia vizat este mparit n subpopulaii n funcie de un anumit criteriu care este deja
cunoscut, dup care este constituit un eantion care la rndul lui va fi compus din attea
subeantioane cte subpopulaii exist n populaia vizat. n interiorul fiecrei subpopulaii
elementele care vor fi introduse n eantion sunt selectate aleator.
Spre exemplu, s presupunem c 30% din populaia unei regiuni locuiete n localiti
rurale, 20% locuiete n orae cu pn la 50.000 de locuitori, 15% locuiete n orae care au de la
50.001 la 100.000 de locuitori, iar restul de 35% locuiete n oree de peste 100.000 de locuitori. Un
eantion stratificat format din 1000 de persoane va cuprinde 300 de persoane din mediul rural, 200
de persoane care locuiesc n orae cu pn la 50.000 de locuitori, 150 de persoane care locuiesc n
orae care au ntre 51.001 i 100.000 de locuitori i 350 de persoane care locuiesc n orae de peste
100.000 de locuitori.
Principiul de baz al acestui tip de eantionare este acela c, cu ct o populaie este mai
omogen cu att este mai uor s se extrag din aceasta un eantion reprezentativ. De asemenea, cu
ct o populaie este mai omogen n raport cu o caracteristic, cu att mrimea eantionului necesar
pentru a reproduce cu o anumit acuratee acea caracteristic este mai mic n comparaie cu
mrimea unui eantion extras dintr-o populaie care este mai eterogen n raport cu aceeai
caracteristic.

18

Mrimea subeantioanelor poate s ptreze proporia subpopulaiilor, situaie n care vom


vorbi de eantionare prin stratificare proporional. n felul acesta se asigur pentru toate elementele
populaiei vizate o ans egal de a fi selectate n eantion.
Exist ns i situaii n care este recomandat ca subeantioanele s nu ptreze proporiile
subpopulaiilor. Acest lucru se ntmpl mai ales atunci cnd unele subpopulaii sunt reduse din
punct de vedere numeric i n consecin, dac ar fi pstrate proporiile, i subeantioanele ar fi
formate dintr-un numr mic de elemente care nu ar avea un nivel de reprezentativitate rezonabil. n
aceast situaie se recurge la o stratificare diproporionat a eantionului sau o stratificare ponderat,
prin suprareprezentarea n eantion a subpopulaiilor mai puin numeroase, urmnd ca la prelucrarea
datelor aceste abateri s fie corectate prin metode statistice. n aceast situaie ansele elementelor
aparinnd diferitelor subpopulaii de a intra n eantion sunt diferite: elementele care provin din
subpopulaiile mai puin numeroase avnd anse mai mari de fi selectai n eantion dect
elementele care provin din subpopulaiile mai numeroase.
Indiferent de modalitatea n care sunt constituite subeantioanele, pstrnd sau nu
proporiile, eantionarea prin stratificare presupune existena n momentul iniial al punerii n
practic a procedurii de eantionare a unei informaii suplimentare despre populaia vizat n
comparaie cu situaia n care este utilizat eantionarea simpl aleatoare. Aceast informaie poate
fi obinut cu ajutorul altor studii sau din alte surse de informare cu privire la populaia vizat.
n ceea ce privete gradul de reprezentativitate al eantionelor realizate prin stratificare n
comparaie cu gradul de reprezentativitte al eantioanelor simple aleatoare, se admite n general c
este mai bun. Mai clar spus, dintre dou eantioane de aceeai mrime unul obinut prin eantionare
prin stratificare iar altul prin eantionare simpl aleatoare, se consider c primul are o
reprezentativitate mai bun, n situaia n care criteriile pe baza crora se face eantionarea au o
legtur de tip statistic cu caracteristicile care fac obiectul cercetrii.
3. Eantionarea multistadial
Pn acum am prezentat situaii n care exist un anumit cadru de eantionare - liste care s
cuprind elementele unei populaii - i situaii n care pe lng faptul c exist un anumit cadru de
eantionare cercettorul mai are la ndemn i o serie de criterii pe baza crora o populaie poate fi
mprit n subpopulaii sau grupuri. n aceast din urm situaie din fiecare grup este extras un
subeantion care va face parte din eantionul final.
Exist ns i situaii n care nu exist un cadru de eantionare i nici nu este necesar
creerea unuia ntruct nu toate elementele acelei populaii vor fi incluse n eantion. Dac populaia
poate fi considerat ca fiind format din grupuri, iar ntre aceste grupuri exist o anumit
asemnare, atunci are sens s nu fie selectai n eantion indivizi din toate grupurile ci numai
indivizi din anumite grupuri. Procedura de eantionare care are la baz acest princpiu este denumit:
eantionare multistadial. n aceast situaie populaia vizat este mparit n grupuri n funcie de
un anumit criteriu, aceste grupuri la rndul lor pot fi considerate ca fiind formate din alte grupruri i
aa mai departe. Date fiind aceste condiii, selectarea elementelor care vor compune eantionul
poate ncepe prin selectarea grupurilor din care fac parte aceste elemente. Astfel, ntr-o prim faz
sunt selectate aleator o parte din grupurile populaiei vizate, dup care din fiecare grup selectat n
prima faz vor fi selectate tot aleator alte grupruri mai mici i aa mai departe pn cnd se ajunge
la nivelul elementului de baz din care este compus populaia vizat. Spre exemplu, dac dorim s
alegem un eantion din populaia unui ora, ntr-o prim faz putem selecta cartiere din acel ora,
apoi strzi, blocuri, apartamente i n cele din urm persoanele care ne intereseaz.
Avantajul unei astfel de proceduri de eantionare l constituie costurile reduse n raport cu
celelalte proceduri prezentate pn acum, n sensul n care efortul i timpul necesar identificrii
unui element care va fi inclus n eantion este mult mai redus.
19

n ceea ce privete reprezentativitatea unui astfel de eantion, se consider n general c, la


volum egal, este mai puin repezentativ n comparaie cu un eantion obinut prin stratificare sau n
comparaie cu un eantion obinut prin procedee simple aleatoare. Reprezentativitatea mai sczut
este rezultatul eliminrii la diferite nivele a unor grupuri de elemente din populaia vizat. Cu ct
aceste grupuri care sunt eliminate sunt mai mari i cu ct sunt mai diferite n comparaie cu
grupurile care nu au fost eliminate cu att este mai mare riscul de a grei.
Eantioane neprobabilistice
Alturi de aceste proceduri de eantionare probabilistice n practica de cercetare sunt utilizate i o
serie de tehnici mai puin riguroase n ceea ce privete selectarea celor care vor compune un
eantion. Lipsa de rigurozitate se refer mai ales la neacordarea unei atenii speciale calculrii sau
egalizrii anselor fiecrui individ din populaia vizat de a face parte din eantion. Eantioanele
obinute n acest fel sunt denumite eantioane neprobabilistice. Astfel de eantioane se constituie n
urmtoarele situaii :
persoane care se ofer voluntar pentru a fi investigae;
persoane care i desfoara activitatea ntr-o instituie anume care prezint interes
pentru cel care efectueaz cercetarea;
persoane care rspund la chestionare publicate n ziare;
persoane care apeleaz telefonic un post de radio sau de televiziune pentru a rspunde la
ntrebrile care sunt formulate de moderatorii unor emisiuni sau de ali participani la
emisiunile respective;
persoane intervievate pe strad sau n anumite spaii publice;
n cadrul acestor tehnici de eantionare neprobabilistic cele mai des utilizate sunt
eantionarea pe cote i eantionarea tip bulgre de zpad.
1. Eantionarea pe cote
Eantionarea pe cote este probabil cea mai des utilizat procedur de eantionare
neprobabilistic utilizat atunci cnd se lucreaz cu populaii numeroase. Din punct de vedere al
realizrii practice aceast procedur este similar eantionrii prin stratificare prin aceea c
populaia vizat este stratificat dup o serie de criterii ns n interiorul straturilor nu sunt selectai
aleator, ci selecia acestora este lsat la latitudinea operatorilor de anchet. Acestora le sunt
indicate numai anumite cote care indic frecvena cu care s fie selectai subiecii care au anumite
caracteristici. Spre exemplu dac n populaia vizat avem 49% brbai i 51% femei i 20% au
studii superioare iar restul de 80% nu au astfel de studii, iar eantionul este format 1000 de
persoane, atunci n cadrul acetuia vor fi cuprini 490 de barbai i 510 femei, 200 de persoane cu
studii superioare i 800 de persoane care nu au absolvit nvmntul superior. n aceast situaie
dac sunt utilizai 10 operatori de interviu fiecria i se cere s chestioneze 49 de brbai i 51 de
femei, 20 de absolveni de nvmnt superior i 80 de persoane care au absolvit o form de
nvmnt alta dect facultatea. Pentru a se limita subiectivitatea operatorilor n selecatarea celor
care vor fi inclui n eantion se recomand stabilirea a ct mai multor criterii de stratificare a
populaiei vizate.
Avantajul unui astfel de procedeu de stratificare este acela c nu necesit existena unui
cadru de eantionare, lucru care n unele situaii este greu de realizat, iar munca operatorilor este
mult uurat prin aceea ce nu trebuie s caute o persoan anume ci au libertatea de a alege pe cine
vor cu condiia deinerii anumitor caracteristici vizate de cercetare.
2. Eantionarea tip bulgre de zpad
20

Este o procedur de eantionare utilizat n situaia n care nu exist informaii suficiente


pentru a identifica toi indivizii care compun o anumit populaie, ci este posibil doar identificare
doar a ctorva astfel de indivizie. Date fiind aceste circumstane, analiza unui populaii vizate
ncepe cu investigarea indivizilor cunoscui dup care acestora li se cere s precizeze dac este
posibil i alte persoane care se presupune ca ntrunesc caracteristici vizate de cercetare. Procedeul
se desfoar n acest fel pn cnd sunt identificai atia indivizi ci sunt necesari constituirii unui
eantion. Se utilizeaz acest procedeu n cazul n care populaia vizat este format spre exemplu
din oameni care au aumite hobby-uri sau pasiuni, preocupri i despre care de obicei nu se cunosc
n faza iniial multe informaii i nu se tie nici cte astfel de persoane compun populaia vizat.

Concluzie
Eantionarea este un procedeu des utilizat n practica de cercetare n diferite domenii ale activitii
umane. De la medicul care face analize de laborator prelevnd o prob de snge de la un pacient i
pn la cei care sunt interesai de aspecte ale opinei publice n diferite domenii precum: preferinele
electorale, acordul sau dezacordul cu anumite politici publice sau decizii administrative, etc. n
funcie de tematica avut n vedere i de informaiile disponibile cu privire la populaia vizat
procedurile de eantionare respect mai mult sau mai puin anumite rigori n ceea ce privete
selectarea elementelor din populaie care vor constitui eantionul.
n practic procedurile de eantionare prezentate pe parcursul acestui capitol sufero serie de
abateri i de adaptri sau ajustri . De cele mai multe ori acestea constau n combinarea mai multor
tehnici de eantionare n felul acesta sperndu-se obinerea unor informaii ct mai corecte i mai
precise despre populaia avut n vedere.

ntrebri:
1. Ct de multe elemente trebuie s cuprind un eantion extras dintr-o populaie perfect omogen?
2. ntre un eantion simplu aleator i unul prin stratificare este mai reprezentativ: a) cel simplu
aleator, b) cel prin stratificare c) amndou eantioanele au acelai nivel de reprezentativitate.
3. S presupunem c se realizeaz un eantion utiliznd metoda pasului. Mrimea eantionului
este de 200 de elemente iar cea a populaiei vizate este de 2800 de elemente. Care este mrimea
pasului utilizat? De la al ctelea element al populaiei poate ncepe punerea n practic a pasului
de eantionare?

Bibliografie:
1. Babbie, E. Survey Research Methods, Belmont, Calif. Wadsworth, 1973
2. Fink, A., How to sample in surveys, Sage Publications, Thousands Oaks, London, New York,
1995.
21

3. Johnson, J., Joslyn, R., Political science research methods, CQ Press, Washington, 1995.
4. Kalton, G., Introduction to survey sampling, Sage University Press, 1983.
5. Rotariu, T., (coord.). Metode statistice aplicate n tiinele sociale. Ed. Polirom, Iai, 1999.
6. Rotariu, T., Ilu P., Ancheta sociologic i sondajul de opinie. Ed. Polirom, Iai, 1997.
7. Schimdt, M., Understanding and using statistics. Basic concepts, Second Edition, Lexington,
Massachusetts, Toronto, 1979.

Unitatea 4
Obiectiv: Prezentarea aspectelor matematice ale eantionrii
Cuvinte cheie: intervale de conficen, teste de seminificaie, testul t, testul Z, testul 2 (hi ptrat)

Aspecte matematice ale eantionrii. Teste de semnificaie


Valori msurate pe populaie i pe eantion. Intervale de confiden
Extrgnd un eantion dintr-o populaie i msurnd pe acesta valoarea medie a unei caracteristici
sau variabile putem spune ntr-o oarecare msur c aceast valoare aproximeaz o valoare a
aceleiai caracteristici din populaie. Cu toate acestea ntreabarea care se ridic este: ct de siguri
putem fi de rezultatele obinute dat fiind c eantionul extras la un moment dat este doar unul din
multele eantioane care pot fi extrase dintr-o populaie? Spre exemplu, dorim s estimm nivelul de
inteligen al elevilor unei coli i pentru aceasta extragem aleator un eantion format din 25 de
elevi crora le aplicm un test de inteligen i obinem o valoare medie a indicelui de inteligen de
108 i o abatere standard de 12. Bazndun-ne pe aceste rezultate, ce putem spune despre nivelul de
inteligen al elevilor colii respective? Eantionul de 25 de elevi este evident doar unul din
eantioanele care ar fi putut fi extrase i prin urmare i media de 108 obinut de cei care au fcut
parte din eantion este doar una din posibilele medii. Mai clar spus, 108 este doar una dintre mediile
din distribuia de medii care ar putea fi obinut extrgnd multe eantioane formate din 25 de elevi
ai colii respective. Problema este: ct de aproape este aceast medie de valoarea real a indicelui
de inteligen a tuturor elevilor acelei coli? i care este valoarea medie a indicelui de inteligen
pentru ntreaga populaie de elevi vizat? - valoare evident necunoscut, altfel ce rost ar mai avea s
facem cercetarea!
Pentru a rspunde la aceast ntrebare trebuie s facem apel la o teorem statistic, denumit
teorema limitei centrale, care afirm c pentru eantioane suficient de mari distribuia mediilor
msurate pe aceste eantioane este ntotdeuna normal, chiar dac valorile caracteristicii iniiale
sunt sau nu normal distribuite ntr-o populatie vizat. Mediile unei caracterisitici msurate pe multe
eantioane pot fi privite ca formnd o nou variabil pentru care vom putea calcula evident o medie
i o abatere standard. Valoarea medie a noii variabile (media mediilor msurate pe eantioanele
extrase din populaia vizat) este egal cu media valorii din populaie a caracteristicii vizate, iar
abaterea standard a acestei variabile, n cazul n care eantioanele sunt extrase printr-o simpl
aleatoare cu reintroducerea elementului extras n populaie (acordnd deci o ans egal fiecrui
element de a fi extras), este egal cu abaterea standard a variabilei urmrite msurat pe un eantion

22

oarecare mprit la rdcin ptrat din mrimea eantionului. Abaterea standard a noii variabile
este denumit eroare standard (e):

Revenind la ntrebarea din exemplul de mai sus: care este valoarea medie a indicelui de
inteligen pentru ntreaga populaie de elevi vizat? Un rspuns exact nu poate fi dat ntruct nu a
fost investigat ntreaga populaie. tiind ns c distribuia valorilor medii msurate pe multe
eantioane extrase din populaia de elevi vizat este normal putem calcula un interval despre care
s spunem c, cu probabilitate de 95% include media indicelui de inteligen din ntrega populaie
vizat. Acest inteval este cuprins ntre plus dou i minus dou erori standard (e = 12/5 = 2,4) n
jurul valorii medii obinute pe un eantion oarecare extras din acea populaie, adic ntre 108 4,8
i 108 + 4,8. Intervalul astfel construit poart denumirea de interval de confiden.
Teste de semnificaie. Inferena statistic
Adeseori observm diferene ntre rezultatele obinute atunci cnd se fac msurtori pe dou
eantioane diferite extrase din aceeai populaie. Spre exemplu, 17% dintre cei chestionai n cadrul
unei anchete sociale sunt de acord cu o anumit decizie a administraie publice locale la un anumit
moment dat de timp, dar numai 11% au aceeai opinie la un alt moment de timp. Problema care se
pune n aceast situaie este: ct de real sau de semnificativ este diferena ntre cele dou grupuri
cei chestionai la un moment de timp i cei chestionai la un moment de timp ulterior? Este
aceast diferen autentic sau sau este rezultatul fluctuaiilor fireti ale eantionrii?
Similar ne putem ntreba: ce se poate spune despre valoarea unei caracteristici dintr-o
populaie pe baza rezultatelor obinute atunci cnd este investigat un eantion? vor fi rezultatele
obinute atunci cnd se fac msurtori pe un eantion identice cu rezultatele obinute atunci cnd se
fac msurtori pe ntreaga populaie? iar dac nu, diferenele identificate sunt semnificative sau nu?
mrimea eantionului influeneaz modul n care rezultatele obinute reflect caracteristici ale
populaiei?
Toate aceste ntrebri sunt justificate ntruct, aa cum am artat n capitolul dedicat
eantionrii, eantioanele nu reproduc exact caracteristicile unei populaii, ci exist o anumit
diferen ntre valoarea unei caracteristici msurat pe un eantion i valoarea aceleiai caracteristici
msurat pe populaia din care este extras eantionul. Cu toate acestea de multe ori suntem pui n
situaia de a trage concluzii cu privire la starea unei populaii pornind de la msurtori efectuate la
nivelul unui eantion, cu alte cuvinte se pune problema de a face inferene de la eantion la
populaie. Bazate pe numere utilizate pentru a sumariza, evalua sau analiza un set de informaii cu
privire la un fenomen analizat, numere care n literatura de specialitate sunt denumite statistici,
inferenele de acest fel sunt i ele denumite inferene statistice. Inferenele statistice, ca urmare a
faptului c eantioanele pe baza crora sunt realizate constituie doar aproximri ale unei populaii,
prezint neajunsul de a putea produce concluzii eronate. Prin urmare, atunci cnd se compar dou
valori ale unor caracteritici dintre care cel puin una a fost obinut prin msurtori efectuate pe un
eantion, se pune problema semnificaiei diferenei dintre ele.
Din punct de vedere cantitativ, vom spune c diferena ntre dou valori, fie c una este
msurat pe un eantion i alta pe o populaie, fie c amndou valorile sunt msurate pe
eantioane, este semnificativ atunci cnd nu poate fi ncadrat cu un anumit nivel de probabilitate
acceptabil ntr-o limit maxim prestabilit. Pe de alt parte, o diferen care nu este semnificativ
potrivit definiiei de mai sus nu nseamn n mod automat c nu poate fi real, ci doar c nu se poate
spune cu un nivel de probabilitate acceptabil c este real.
23

Pentru a facilita munca n domeniul practic au fost elaborate seturi de reguli pe baza crora
se stabilete dac diferenele ntre valori sunt sau nu semnificative statistic. Fiecare set de astfel de
reguli poart denumirea de test de semnificaie i are scopul de a ajuta la stabilirea unei concluzii
statistice cu privire la starea unor caracteristici ale populaiei investigate. Testele de semnificaie nu
sunt probe absolute ale existenei sau non-existenei unei diferene semnificative ntre dou valori,
ele doar permit estimarea n raport cu o ipotez prealabil a probabilitii prezenei unei diferene
reale ntre valori. Cel mai adesea astfel de ipoteze n care sunt enunate predicii cu privire la
valorile unor caracteristici avute n vedere n cercetare iau forma ipotezei nule, adic a afirmrii
inexistenei unei diferene semnificative ntre dou valori comparate. Mai clar spus, ipoteza nul
este ipoteza care afirm c dou mrimi A i B msurate pe eantioane diferite sau una msurat pe
un eantion i una pe o populaie, sunt egale. innd cont de toate aceste un test de semnicaie poate
fi definit ca fiind msura diferenei dintre dou valori n raport cu ipoteza nul.
Ipoteza nul este testat n felul urmtor: dac cu un anumit nivel de probabilitate diferena
dintre cele dou valori comparate este mai mare dect o valoare maxim prestabilit atunci ipoteza
nul este respins i vom spune ca acea diferen este semnificativ. n caz contrar cu un anumit
nivel de probabilitate diferena ntre valori este mai mic dect o valoare maxim prestabilit
ipoteza nul este susinut i vom spune c diferena respectiv nu este semnificativ. O ntrebare
fiereasc este: ct de mare trebuie s fie nivelul de probabilitate pentru a accepta sau respinge
ipoteza nul? Alegerea depinde n general de ipoteza care urmeaz a fi testat. Practica a consacrat
ns ca nivel de probabilitate cel mai des utilizat pragul de 0.95 (95%) spunndu-se despre o
diferen care cu o probabilitate de 95% nu depete o valoare maxim prestabilit c este
semnificativ statistic.
Valorile comparate pot fi dup caz: medii, proporii, sau orice alte msuri. Una din valorile
avute n vedere n cazul n care sunt efectuate teste de semnificaie poate fi zero, ceea ce nseamn
c practic testm semnificaia unei singure mrimi n comparaie cu valoarea zero.
n funcie de mrimea grupurile pe care sunt msurate valorile caracteristicilor urmrite i de
modul de msurare a acestora avem mai multe teste de semnificaie. n cele ce urmeaz vom
prezenta testul Z, testul Student (t), i testul 2 (hi ptrat).

Testul Z
Este un test de semnificaie utilizat n cazul n care se compar valorile unor caracteristici msurate
pe eantioane mari (de ordinul a sute sau mii de indivizi). Cele dou valori comparate pot fi
msurate fie una pe o populaie i una pe un eantion, fie amndou valorile sunt msurate pe
eantioane diferite.
n prima situaie, fie a i b cele dou valori ale aceleiai caracteristici, dintre care valoarea a
este msurat pe o populaie iar valoarea b este msurat pe un eantion i fie e eroarea standard a
caracteristicii luate n considerare. Testul Z este definit dup formula:

ab
e

i exprim de fapt diferena dintre valorile a i b n erori standard. Dac valoarea testului Z
este mai mare de 1.96 atunci diferena dintre cele dou valori este semnificativ din punct de vedere
statistic la un nivel de probabilitate de 0,95 (95%). Sau altfel spus, cu o probabilitate de 95%
24

diferena ntre cele dou valori este semnificativ din punct de vedere statistic. Alturi de nivelul de
probabilitate de 0.95 mai sunt utilizate nivelele de probabilitate de 0.99 (Z=2,6) i 0,999 (Z=3,3).
Valorile pragurilor de probabilitate pentru testul Z sunt prezentate n Tabelul 1.
Pentru a ilustra modul de aplicare a testului Z vom utiliza un exemplu. S presupunem c n
cadrul unui referendum 42% dintre cetenii unei localiti sunt de acord cu introducerea unui nou
sistem de impozite. Cu toate acestea ntr-un sondaj de opinie realizat anterior referendumului pe un
eantion de 900 de persoane indic c doar 37% dintre ceteni vor fi de acord cu noua gril de
impozitare. Este diferena ntre cele dou valori autentic sau nu? Sau altfel spus, este diferena
dintre cele dou valori semnificativ?
Pentru a pune n eviden acest lucru calculm:
2 = 0,37(1 0,37) = 0,2331

sau

0,48
900

= 0,48

e 1,6%

0,016

nlocuind n formula lui Z obinem: (42 - 37)/1,6 = 3,12


Cautnd n tabel pragurile de probabilitate ale lui Z (Tabelul 1.) n dreptul lui 3,1 i pe
coloana 0,02 (cea care indic sutimile numrului 3,12) gsim numrul 4991 care redus la unitate
devine 0,4991 i reprezint jumtate din nivelul de probabilitate cautat (este de fapt jumtate din
aria determinat de curba normal). nmulind cu 2 obinem numrul 0,9982 (P = 0,9982) care ne
spune c sunt aproximativ 99,8% anse ca diferen dintre cele dou valori s fie real.
n cazul n care cele dou valori ale unei caracteristici sunt msurate pe dou eantioane
distincte formula testului Z este aceeai cu precizarea c eroarea standard se calculeaz dup
formula

12
n1

22
n2

unde n1 i n2 sunt mrimile celor dou eantioane, iar 1 i 2 sunt abaterile standard ale
valorilor caracteristicii pentru fiecare dintre cele dou eantioane.

Testul Student ( t )
Atunci cnd se pune problema de a compara valori ale unor caracterisitici dintre care cel puin una
este obinut prin msurtori efectuate pe eantioane de mrimi mici (pna la 30 de indivizi)
corespondetul testului Z este testul Student (t). Formula de calcul a testului Student este identic cu
aceea a testului Z:

a b
e
25

Deosebirea fa de testul Z const n modul de calcul al erorii standard (e) care se face dup
formula:

xx
n 1
n

dac una dintre valori este msurat pe o un eantion de mrime n i una pe o populaie, i
dup formula:

x1

x
2

x2

n1 n2 2

dac cele dou valori sunt msurate pe eantioane ale cror mrimi sunt n1 respectiv n2.
La fel ca i n cazul testului Z i pentru testul Student sunt utilizate diferite praguri de
probabilitate (Tabelul 2.) care reclam i specificarea numrului de grade de libertate, care se
calculeaz dup formulele:
respectiv

n 1

n1 n2 2

Testul 2 (hi ptrat)


Testele Z si Student sunt utilizate pentru a testa ipoteze care se refer la valori, sau parametrii
(medii sau proporii), msurate pe populaii sau pe eantioane, motiv pentru care sunt adeseori
cunoscute i sub denumirea mai larg de teste parametrice. Exist ns multe situaii n care
ipotezele nu pot fi testate utiliznd doar medii sau propori. Acest lucru se ntmpla spre exemplu
atunci cnd datele cu care se lucreaz nu sunt de tip cantitativ. Exist apoi i alte condiii care
trebuiesc ndeplinite n cazul testelor parametrice - utilizarea unor eantioane mari sau a unor
eantioane extrase din populaii normal distribuite astfel nct i forma ditribuiei de eantionare s
fie cunoscut - condiii care nu ntotdeauna pot fi ndeplinite.
Pentru a depi acest tip de neajunsuri au fost construite i o serie de teste a cror mod de
operare nu presupune existen unor asumpii cu privire la populaia vizat sau cu privire la datele
pe care le avem la dispoziie cu privire la aceasta. Acest tip de teste sunt denumite teste nonparametrice. Unul dintre cele mai des utilizate teste de acest fel este testul 2 (hi ptrat).
Scopul principal al acestui test este similar testelor Z i Student i anume ncearc s ofere
un rspuns ntrebrii: dat fiind o mulime de valori observate ale unei caracteristici, modul de
distribuire a acestor valori poate fi atribuit n ntregime fluctuaiilor fireti ale eantionrii sau exist
o serie de ali factori care influeneaz aceast distribuire? i n acest caz, pentru a rspunde acestei
ntrebri, punctul de plecare este o ipotez nul care afirm c nu exist ali factori care s
influeneze distribuia valorilor observate ale unei variabile.
Pentru a ilustra modul de operare al testului 2 (hi ptrat) vom utiliza exemplu urmtor. Fie
urmtoarea situaie ipotetic: 100 de funcionari ai unei instituii publice sunt ntrebai cu privire la

26

ceea ce i nemulumete cel mai mult la locul de munc, rspunsurile oferite avnd urmtoarele
frecvene:
frecvena
24
10
27
11
28

modul de organizare al activitilor


modul n care sunt tratai de ef
existena unui program fix de lucru
lipsa unui spirit de echip
lipsa unor rezultate vizibile

ntrebarea care se pune n aceast situaie este: exist un motiv de nemulumire care este mai
acut dect altele?
Ipoteza nul n aceast situaie ar fi aceea c fiecare dintre motivele enumerate mai sus
nemultumete n egal msur pe funcionarii acelei instituii, adic fiecare dintre cele cinci
rspunsuri avnd aceeai probabilitate de a fi indicat de ctre respondei. Din punct de vedere
statistic aceasta ar nsemna c frecvenele observate ale rspunsurilor primite pot fi considerate
egale cu frecvenele ateptate. Dac ipoteza nul este susinut atunci rspunsurile ar trebui s fie
distribuite aleator pe cele cinci categorii de rspunsuri luate n considerare.
Pentru a testa aceast ipotez s utilizm testul 2 (hi ptrat) care este definit dup formula:

(Oi Ai )
Ai
i
unde Oi reprezint frecvenele observate, iar Ai reprezint frecvenele ateptate (adic
distribuia aleatoare a rspunsurilor pe cele cinci categorii ale caracteristicii analizate motiv de
nemulumire).
n

n cazul nostru cele dou frecvene sunt:

Oi
24
10
27
11
28

modul de organizare al activitilor


modul n care sunt tratai de ef
existena unui program fix de lucru
lipsa unui spirit de echip
lipsa unor rezultate vizibile

Ai
20
20
20
20
20

Oi - Ai
4
-10
7
-9
8

nlocuind n formula lui 2 (hi ptrat) obinem:

(24 20) 2 (10 20) 2 (27 20) 2 (11 20) 2 (28 20) 2

20
20
20
20
20

4 2 10 2 7 2 9 2 8 2

20 20 20 20 20
27

2 15
.50 5.00 2.45 4.05 3.20
0.80
Valoarea obinut pentru 2 (15.50) se compar cu valorile critice ale distibuiei hi ptrat
(Tabelul 3.) pentru diferite nivele de probabilitate, dintre care cel mai des utilizat este i de aceast
dat pragul de 0,95 (95%) .Ca i n cazul testului Student compararea valorilor critice ale unei
distribuii observate cu ditribuia hi ptrat reclam specificarea numrului de grade de libertate,
numr care se calculeaz dup formula df = k 1, unde k reprezint numrul de categorii ale
caracteristicii analizate. n exemplul de mai sus k = 5-1 = 4 i cutnd n tabelul cu valori critice ale
lui hi ptrat gsim c pentru nivelul de probabilitate de 95% i 4 grade de libertate valoarea critic
este 9,488. Cum 15.50 este mai mare dect aceast valoare critic, vom spune c ipoteza nul se
respinge cu o probabilitate de 95% sau, cu alte cuvinte, rspunsurile date de funcionari nu se
distribuie aleator ci exist un anumit motiv de nemulumire care este mai acut dect celelalte, iar
acest rezultat nu este generat de fluctuaiile de eantionare.
Hi ptrat poate fi utilizat i pentru a testa dac dou variabile sunt sau nu asociate. Fie, spre
exemplu, urmtoarea situaie ipotetic: 600 de locuitori ai unei localiti sunt ntrebai dac vor
sprijini sau nu o schimbare a modului de alocare a veniturilor bugetare ale localitii lor au rspuns
dup cum urmeaz:
Frecvene observate
cei cu vrsta sub 25
cei cu vrst ntre 26 i 45 de ani
cei cu varsta peste 45 de ani
Total

Da
110
40
50
200

Nu
40
100
80
220

Nu tiu
30
60
90
180

Total
180
200
220
600

n aceast situaie se poate pune ntrebarea: exist sau nu o preferin a unei anumite
categorii de vrst pentru schimbarea modului de alocare a veniturilor? Cu alte cuvinte exist o
relaie ntre vrst i acordul cu aceast schimbare? Pentru a rspunde la aceast ntrebare trebuie s
vedem cum ar trebui s arate distribuia n situaia n care nu exist asociere. Astfel, dac nu ar
exista o relaie ntre variabile, atunci preferinele ar trebui s se distribuie uniform pentru fiecare
categorie de vrst n parte; cu alte cuvinte, o treime dintre indivizii din fiecare categorie de vrst
s fie de acord cu schimbarea, o treime s nu fie de acord i o treime s rspund c nu tiu. Acest
lucru raportat la frecvenele din tabelul de mai sus ar nsemna: 60 de persoane cu vrsta sub 25 de
ani s fie de acord cu schimbare (adic o treime din cele 180 de persoane cu vrsta sub 25 de ani
cuprinse n eantionul nostru), 66,67 persoane cu vrsta cuprins ntre 26 i 45 de ani i aa mai
departe:
Frecvene ateptate
Da
Nu
Nu tiu
Total
cei cu vrsta sub 25
60
66
54
180
cei cu vrst ntre 26 i 45 de ani
66,67 73,33
60
200
cei cu varsta peste 45 de ani
73,33 80,67
66
220
Total
200
220
180
600
Calculndu-l pe hi ptrat obinem:
(110 60) 2 (40 66) 2
(40 66,7) 2 (100 73,332 )
(90 66) 2

...

...
60
66
66,728
73,33
66
2

Numrul gradelor de libertate n acest caz se calculeaz dup formula:

2 99,11

df ( j 1)(k 1)

unde j reprezint numrul de rnduri ale tabelului n care sunt dispuse frecvenele i k
reprezint numrul de coloane. n acest caz df = 4. Cautnd n tabelul cu valori critice pentru 2
observm c unui nivel de probabilitate de 95% i 4 grade de libertate i corespunde valoarea 9,488,
valoare mai mic dect valoarea calculat a lui 2 . n aceast situaie vom spune c ipoteza potrvit
creia nu exist asociere ntre vrst i preferina pentru schimbarea modului de alocare a
veniturilor se respinge.
Teste parametrice sau non-parametrice?
Cnd utilizm teste parametrice i cnd utilizm teste non-parametrice pentru a analiza un
set de date? Rspunsul la aceast ntrebare nu este ntotdeun foarte tranant.
Astfel, nu vom putea utiliza teste parametrice dac datele pe care le avem la dispoziie sunt
de tip calitativ, motivul este acel c testele parametrice opereaz de cele mai multe ori cu valori
medii, valori care evident nu pot fi calculate pentru date de tip calitativ. n aceast situaie un test
non-parametric este singura alternativ posibil. Pe de alt parte testele parametrice sunt considerate
a avea o putere statistic mai mare dect testele non-parametrice i aceasta pentru c modul lor de
operare ia n considerare mai mult informaie despre caracteristica avut n vedere. Dar acest lucru
se face cu anumite asumpii, dintre care cea mai important este distribuia normal a valorilor
caracteristicii analizate.
Ct de puternice sunt testele paramentrice n raport cu cele non-parametrice? Raspunsul
trebuie i de aceast dat nuanat. Puterea statistic a unui test este de fapt probabiliatea de a
respinge ipoteza nul atunci cnd aceasta nu este adevrat. Dar i n acest caz situaiile depind de
modul de formulare a ipotezei nule i de mrimea entionului extras. Dac una dintre aceste dou
variabile sufer modificri i puterea statistic a unui test este afectat.
Practica a demonstrat c amndou tipurile de teste pot fi utilizate cu acelai succes cu
condiia lurii n calcul a avantajelor i dezavantajelor fiecruia.

Probleme:
1. S presupunem c 35,4% dintre cetenii unei localiti au votat partidul X la alegerile locale. Un
sondajele de opine realizat n perioada pre-electoral pe un eantion de 1000 de persoane acorda
ns acestui partid 39% dintre inteniile de vot ale electoratului. Este diferena ntre cele dou valori
autentic sau nu?
2. Dintre 200 de elevii ai unei coli intevievai cu privire la dificultile de nvre pe care le
ntmpin : 38 au rspuns c acestea i au originea n programul ncrcat de la coala, 62 au
rspuns c lipsa unei dotri adcvate a colii le creaz astfel de dificulti, 56 au rspuns c modul de
structurare a materiilor nvte este cauza dificultilor de nvre, iar 46 au pus c dificultile de
nvre se datoreaz unor cauze externe colii. Exist un motiv care s determine ntr-o mai mare
msur dificuli de nvre pentru elevii colii avute n vedere?
29

3. Testele de semnificaie nu sunt probe absolute ale existenei sau non-existenei unei diferene
semnificative ntre dou valori. Comentai aceast afirmaie.
Tabelul 1. Proporia din aria total (10.000) ce corespunde distanei dintre medie i Z abateri
standard de la medie (Valorile pragurilor de probabilitate pentru testul Z).
Z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4

0.00
0000
0398
0793
1179
1554
1915
2257
2580
2881
3159
3413
3643
3849
4032
4192
4332
4452
4554
4641
4713
4773
4821
4861
4893
4918
4938
4953
4965
4974
4981
4986,5
4990,0
4993,12
9
4995,16
6
4996,63
1

0.01
0040
0438
0832
1217
1591
1950
2291
2612
2910
3186
3438
3665
3869
4049
4207
4345
4463
4564
4649
4719
4778
4826
4865
4896
4920
4940
4955
4966
4975
4982
4986
4991

0.02
0080
0478
0871
1255
1628
1985
2324
2642
2939
3212
3461
3686
3888
4066
4222
4357
4474
4573
4656
4726
4783
4830
4868
4898
4922
4941
4956
4967
4976
4983
4987
4991

0.03
0120
0517
0910
1293
1664
2019
2357
2673
2967
3238
3485
3718
3907
4083
4236
4370
4485
4582
4664
4732
4788
4834
4871
4901
4925
4943
4957
4968
4977
4984
4988
4991

0.04
0159
0557
0948
1331
1700
2054
2389
2704
2995
3264
3508
3729
3925
4099
4251
4382
4495
4591
4671
4738
4793
4838
4875
4904
4927
4945
4959
4969
4977
4984
4988
4992

0.05
0199
0596
0987
1368
1736
2088
2422
2734
3023
3289
3531
3749
3944
4115
4265
4394
4505
4599
4678
4744
4798
4842
4878
4906
4929
4946
4960
4970
4978
4984
4988
4992

30

0.06
0239
0636
1026
1406
1772
2123
2454
2764
3051
3315
3554
3770
3962
4131
4279
4406
4515
4608
4686
4750
4803
4846
4881
4909
4931
4948
4961
4971
4979
4985
4989
4992

0.07
0279
0675
1064
1443
1808
2157
2486
2794
3078
3340
3577
3790
3980
4147
4292
4418
4525
4616
4693
4756
4808
4850
4884
4911
4932
4949
4962
4972
4980
4985
4989
4992

0.08
0319
0714
1103
1480
1844
2190
2518
2823
3106
3365
3599
3810
3997
4162
4306
4430
4535
4625
4699
4762
4812
4854
4887
4913
4934
4951
4963
4973
4980
4986
4989
4993

0.09
0359
0735
1141
1517
1879
2224
2549
2852
3133
3389
3621
3830
4015
4177
4319
4441
4545
4633
4706
4767
4817
4857
4890
4916
4936
4952
4964
4974
4981
4986
4990
4993

Sursa: Mohr, L.B., Understanding Significance Testing. Sage Publications, Newbury


Park/London, New Delhi, Sage Publications, 1990.
Tabelul 2. . Valorile critice pentru testul Student (t), pentru nivelurile de probabilitate de 0.05, 0.02
i 0.01, n funcie de numrul gradelor de libertate ()

1
2
3
4
5

p=0.05
12.71
4.30
3.18
2.78
2.57

p=0.02
31.82
6.97
4.54
3.75
3.37

p=0.01
63.66
9.93
5.84
4.60
4.03

6
7
8
9
10

2.45
2.73
2.31
2.26
2.23

3.14
3.00
2.90
2.82
2.76

3.71
3.50
3.36
3.25
3.17

11
12
13
14
15

2.20
2.18
2.16
2.15
2.13

2.72
2.68
2.65
2.62
2.60

3.11
3.06
3.01
2.98
2.95

16
17
18
19
20

2.12
2.11
2.10
2.09
2.09

2.58
2.57
2.55
2.54
2.53

2.98
2.90
2.88
2.86
2.85

21
22
23
24
25

2.08
2.07
2.07
2.06
2.06

2.52
2.51
2.50
2.49
2.49

2.83
2.82
2.81
2.80
2.79

26
27
28
29
30

2.06
2.05
2.05
2.05
2.04

2.48
2.47
2.47
2.46
2.46

2.78
2.77
2.76
2.75
2.75

1.96

2.33

2.58

Sursa: Pinty, J.J., Gaultier Claude, Dictionnaire pratique de mathmatiques et statistiques en


sciences humaines, dition Universitaire, Paris, 1971.
31

Tabelul 3. Valorile critice pentru testul 2, pentru nivelurile de probabilitate de 0.05, 0.02 i
0.01, n funcie de numrul gradelor de libertate ()

1
2
3
4
5

p=0.05
3.84
5.99
7.82
9.49
11.07

p=0.02
5.41
7.82
9.84
11.67
13.39

p=0.01
6.64
9.21
11.35
13.28
15.09

6
7
8
9
10

12.59
14.07
15.51
16.92
18.31

15.03
16.62
18.17
19.68
21.16

16.81
18.48
20.09
21.67
23.21

11
12
13
14
15

19.68
21.03
22.36
23.69
25.00

22.62
24.05
25.47
26.87
28.26

24.72
26.22
27.69
29.14
30.58

16
17
18
19
20

26.30
27.59
28.87
30.14
31.41

29.63
31.00
32.35
33.69
35.02

32.00
33.41
34.81
36.19
37.57

21
22
23
24
25

32.67
33.92
35.17
36.42
37.65

36.34
37.66
38.97
40.27
41.57

38.93
40.29
41.64
42.98
44.31

26
27
28
29
30

38.89
40.11
41.34
42.56
43.77

42.86
44.14
45.42
46.69
47.96

45.64
46.96
48.28
49.59
50.89

Sursa: Yule, G.U., Kendall, M.G.


Bucureti, 1969.
Bibliografie:
1

Introducere n teoria statisticii, Editura tiinific,

Rotariu, T., (coord.). Metode statistice aplicate n tiinele sociale. Ed. Polirom, Iai, 1999.
32

Rotariu, T., Ilu P., Ancheta sociologic i sondajul de opinie. Ed. Polirom, Iai, 1997.

Schimdt, M., Understanding and using statistics. Basic concepts, Second Edition, Lexington,
Massachusetts, Toronto, 1979.

Freedman D., Pisani R., Purves R., Adhikari A., Statistics, Second Edition, New York, London ,
1991;

Modulul 3
Obiectiv: prezentarea tipurilor de variabile utilizate n tiinele sociale i modelelor de analiz a
acestora
Ghid de studiu:
Variabile. Tipuri de variabile.
Analiza univariat a datelor
Analiza bivariat a datelor

Unitatea 1
Obiectiv: Introducerea noiunii de variabil i a tipurilor de variabile
Cuvinte cheie: parametrii, variabile, estimare, variabile continue, variabile discrete

Variabile. Tipuri de variabile.


Caracteristicile populaiei despre care facem ineferene pe baza eantionului se numesc parametrii.
Caracteristicile eantionului pe baza crora inferm se numesc pur i simplu statistici. n exemplul
de mai sus, 55% reprezint o statistic descriptiv, deoarece ea descrie sintetic o caracteristic a
eantionului. Cele mai multe studii sunt ns interesate n aflarea parametrilor, care n general sunt
necunoscui (exemple: Ci sraci exista n Romnia? Care este procentul din populaie de
susintori ai unui partid? etc.). Eantioanele i statisticile descriptive sunt utile n msura n care ele
pot oferi informaii despre parametrii de interes. Statistica inferenial este aceea care permite
obinerea unei masuri a acurateei statisticilor folosite pentru estimarea valorii parametrilor. n
consecin, atunci cnd ntreaga populaie este cuprins ntr-un studiu, statistica inferenial nu este
necesar.
n final ne vom opri asupra unei ultime noiuni deosebit de importante pentru studiul
statisticii, i anume asupra variabilelor. Vom defini variabila ca fiind orice caracteristic a
membrilor unei populaii sau unui eantion care variaz (n respectiva populaie/eantion). Astfel,
culoarea prului indivizilor dintr-o populaie este o variabil n msura n care indivizii care
compun respectiva populaie au pr de culori diferite. Dac toi indivizii ar fi blonzi, s zicem,
33

atunci culoarea prului ar fi constant n respectiva populaie. Cu ct o caracteristic are o variaie


mai mare, cu att respectiva populaie este mai eterogen i, invers, cu ct o caracteristic dat are o
variaie mai mic, cu att respectiva populaie va fi mai omogen, din perspectiva respectivei
caracteristici. n exemplul de mai sus, valorile posibile ale variabilei "culoarea prului" ar fi
"brunet", "blond", "rocat" etc.. Fiecare individ (statistic) poate lua o singur valoare pentru o
variabil..
Variabilele pot fi clasificate n funcie de multe criterii. Una din distinciile importante este
aceea dintre variabile discrete i variabile continue. Att variabilele discrete ct i variabilele
continue pot lua o infinitate de valori. Diferena dintre ele const n faptul c n timp ce n cazul
variabilelor continue ntre dou valori succesive ale variabilei pot exista o infinitate de valori, n
cazul variabilelor discrete acest lucru nu se ntmpl. Un exemplu de variabil continu este
nlimea cldirilor unui ora masurat n metri, iar un exemplu de variabil discret l reprezint
veniturile indivizilor dintr-o populaie, msurate n lei. n cazul primei variabile, ntre doua valori
succesive ale acesteia (de exemplu 5 i 6 m) exist o infinitate de alte valori deoarece metrii se
subdivid n centimetri, apoi n milimetri etc., n cazul veniturilor acest lucru nu mai este posibil,
ntre 5 lei i 6 lei nemaiexistnd subdiviziuni.
Nivelul de msurare al variabilelor este un alt criteriu de clasificare a acestora, de o mare
importan pentru studiul statisticii. Putem distinge ntre patru niveluri de msurare (nominal,
ordinal, de interval i de raport), n funcie de trei criterii:
a) posibilitatea de a ordona valorile variabilei,
b) egalitatea intervalelor dintre valorile variabilei (sau altfel spus existena unei uniti de msur),
c) existena unei "origini" a variabilei sau, cu alte cuvinte, a unui "zero absolut".
Tabelul I.1 - Niveluri de masurare a variabilelor

Nominal
Ordinal
De interval
De raport

a) ordonare
nu
da
da
da

b) unitate de masur
nu
nu
da
da

c) zero absolut
nu
nu
nu
da

1. Nivelul de msurare nominal presupune clasificarea unor atribute, caracteristici, fenomene etc.
n categorii care trebuie s fie distincte, mutual exclusive i exhaustive. Acest tip de variabile
(respectiv scalele folosite n msurare) indic numai faptul c exista o diferen calitativ ntre
categoriile studiate, nu i magnitudinea acestei diferene. La limit, putem privi aceste variabile
ca pe nite tipologii. Cteva exemple de variabile msurate la nivel nominal sunt: statutul
ocupaional al indivizilor (agricultor, salariat, mic ntreprinzator, omer etc.), religia (ortodox,
romano-catolic, greco-catolic etc.) apartenena etnic (romn, maghiar, rrom etc.), mediul de
reziden (rural, urban) .a.m.d.. Valorile acestui tip de variabile nu pot fi ordonate, sau cu alte
cuvinte nu exist o ierarhie (dect eventual conform unor criterii extrinseci) i n consecin
problema "distanei" sau a intervalelor dintre valori nici nu poate fi pus. Cu att mai puin
putem discuta despre existena unui "zero absolut" (exemplu: fiecare individ are un statut
ocupaional sau aparine unei etnii, sau altfel spus absena caracteristicilor "statut ocupaional"
sau "apartenen etnic" este imposibil).
2. Nivelul de masurare ordinal implic nu numai clasificarea elementelor n categorii ci i
posibilitatea ordonrii acestora de la minim la maxim (existena tranzitivitii: dac a>b i b>c,
atunci a>c). Totui, la acest nivel de msurare nu este oferit nici o informaie cu privire la
34

"distana" dintre valorile scalei de msur. Cu alte cuvinte, diferena dintre prima valoare i cea
de-a doua poate fi diferit de diferena dintre a patra i a cincea. Exemple de variabile msurate
la nivel ordinal sunt calificativele colare (cu valorile "insuficient", "suficient", "bine" i "foarte
bine"), satisfacia fa de anumite aspecte (cu valorile "foarte nesatisfcut", "nesatisfcut",
"satisfcut", "foarte satisfcut") etc..
3. Msurarea la nivel de interval, ofer n plus faa de nivel anterior (cel ordinal) i informaie
referitoare la distana dintre valorile scalei i este caracterizat de existena unor intervale egale.
Totui, la acest nivel de msurare nu exist un zero absolut, ci mai degrab unul convenional.
Exemple de astfel de scale de msurare sunt temperatura masurat n grade Celsius (intervalele
dintre valori sunt egale, dar punctul 0 este convenional ales ca fiind temperatura la care apa
inghea), coeficientul de inteligen - IQ - (daca dou persoane au scoruri de 100 i respectiv
150, putem spune ca diferena dintre cei doi este de 50 de puncte, dar nu putem spune c cel deal doilea este cu 1/2 mai inteligent dect primul sau c scorul 0 semnific absena inteligenei).
4. Msurarea la nivel de raport include toate caracteristicile nivelurilor anterioare (ordonare i
intervale egale), plus existena unei "origini" sau zero absolut. Acest lucru permite formularea
unor afirmaii n termeni de proporii (raporturi) ntre valori. De exemplu, vitezele de raspuns a
doi subieci la un acelai stimul pot fi comparate n termeni de "timpul de rspuns a fost de dou
ori mai mare" etc.. Exemple de variabile masurate la acest nivel sunt vrsta, greutatea,
nlimea, distana, numrul de copii din gospodrie etc.
Corecta identificare a nivelului de msurare utilizat este foarte important n alegerea
procedurilor satistice de analiz. Dup cum se poate observa din descrierea de mai sus, pentru
fiecare nivel exista operaii matematice permise i operaii interzise. Astfel, la primul nivel, cel
nominal nu sunt permise nici ordonarea, nici adunarea/scderea i nici nmulirea/mprirea. La
nivelul ordinal este permis numai ordonarea, la cel de interval sunt permise n plus i operaiile de
adunare/scdere, iar la ultimul nivel, cel de raport sunt permise toate operaiile.
n funcie de nivelul de msurare, vom vorbi despre variabile msurate la nivel nominal,
variabile msurate la nivel ordinal etc., sau, mai pe scurt, variabile nominale, ordinale, de interval i
de raport. Reducnd cele patru clase la dou, putem vorbi de variabile calitative (nivelurile nominal
i ordinal) i variabile cantitative (interval i raport). Datorita caracterului "ierarhic" i cumulativ al
nivelurilor de msurare (de la multe restricii ctre nici o restricie n ceea ce privete operaiile
permise, sau de la "calitativ" la "cantitativ"), vom putea ntotdeauna trata o variabil aflat la un
nivel "superior" de msurare ca i cum ar fi fost msurat la un nivel "inferior". De exemplu, vrsta
masurata n ani de via va putea oricnd fi tratat ca o variabil ordinal, dac i grupm valorile
(sub 20, 21-30, 31-50, peste 50). Niciodat ns nu vom putea trata o variabil aflat la un nivel
"inferior" ca pe una aflat "mai sus" n ierarhie. (Cteodat, cercettorii fac excepie de la aceast
regul, tratnd variabilele ordinale ca i cum ar fi msurate la nivel de interval. Totui, o dat cu
dezvoltarea unor noi tehnici de analiz, dedicate special nivelelor de msurare "calitativ", aceste
practici devin din ce n ce mai rare.)

Bibliografie:

Clocotici V., Stan, A., Statistic aplicat n psihologie, Polirom, 2000


- capitolele 1-8
Rotariu Traian (coordonator), Metode statistice aplicate n tiinele sociale, Polirom, 1999
-capitolele 1-8
Sandu, Dumitru, Statistic n tiinele sociale , Universitatea Bucureti, 1992
- capitolele 1, 2, 3, 6, 7
35

Unitatea 2

Obiectiv: prezentarea analizei univariate a datelor


Cuvinte cheie: tendina central, indicatori ai tendinei centrale, indicatori de dispersie sau variaie
Analiza univariat a datelor
2.2 Tendina central, variaia i forma distribuiei
n general, o descriere complet a unei variabile se face urmrind trei caracteristici ale
acesteia:
a) tendina central (sau centrul distribuei) - adic valoarea "tipic" a acelei variabile
b) variaia variabilei - ca indicator al gradului de "mpratiere" a datelor
c) forma distribuiei
2.2.1 Indicatori (msuri) ai tendinei centrale
Pentru a descrie centrul unei distribuii, sau tendina centrala a unei variabile, exist mai
multe msuri. n aceasta seciune vor fi discutate cele mai des utilizate: modul, mediana i media.

Modul este definit ca fiind valoarea cu frecvena cea mai mare a unei distribuii. Altfel spus,
modul este acea valoare a variabilei care apare cel mai des ntr-un eantion sau ntr-o
populaie.
Termenul deriv din francezul "mode", adic mod. n cazul distribuiei variabilei "starea civil a
capului gospodriei" reprezentat n Graficul 1.2, modul este valoarea "csatorit()" (cu frecvena
relativ 80%). De cele mai multe ori, pentru a simplifica lucrul cu datele, valorilor variabilelor
nominale li se acord convenional coduri numerice. De exemplu, pentru datele din Graficul 1.2,
putem acorda codul 1 pentru valoarea "csatorit()", codul 2 pentru valoarea "uniune consensual",
codul 3 pentru valoarea "divorat()" etc.. Chiar dac aceste coduri sunt numerice, ele trebuie privite
ca nite simple simboluri convenionale. Utilizarea lor nu nseamn c valorile pot fi ordonate sau
c intervalele dintre valori sunt egale. n cazul n care valorile variabilei "stare civil" ar fi fost
codificate ca mai sus, modul ar fi fost valoarea (codul) 1.
Pentru datele din Tabelul 1.2, care prezint date grupate n intervale, vom vorbi despre un
interval modal - i anume categoria "2001-3000 locuitori", deoarece aceasta este "valoarea" (de fapt
intervalul de valori) cu frecvena cea mai mare (651).
Grafic, modul este valoarea variabilei creia i corespunde "vrful" distribuiei.

36

frecvente absolute

Dei simplu de obinut, modul


nu este ntotdeauna cea mai bun
msur a tendinei centrale, deoarece
de multe ori depinde de gruparea
arbitrar a datelor (de exemplu, pentru
datele din Tabelul 1.2 am fi obinut un
alt mod dac datele ar fi fost altfel
grupate). De asemenea, nu rareori se
ntlnesc distribuii bimodale, n care
exist dou valori diferite ale variabilei
care apar cu o aceeai "cea mai mare"
frecven. Grafic, o distribuie
bimodal este o distribuie cu dou
"vrfuri" (Graficul 1.3).

Graficul 1.3 Distribuie bimodal - histograma variabilei


"nivel de educaie", pentru angajaii unei bnci
200

100

0
8

10

12

14

16

18

20

22

Numar de ani de scoala

Mediana este acea valoare a unei variabile care mparte seria ordonat de date n dou pri
egale, astfel nct 50% din observaii se vor situa deasupra valorii mediane iar 50% dedesubtul
ei.
S lum de exemplu notele pe care 7 studeni le primesc la examenul de statistic (dup ce le-am
ordonat n prealabil de la minim la maxim): 5, 5, 6, 8, 9, 9, 10. Mediana acestei serii de date este 8,
deoarece ea divide seria de date n dou pari egale: 3 dintre studeni (observaii) au note mai mici
dect 8 i trei dintre ei au note mai mari. Nota 8 este exact la "mijlocul" seriei de date (dup
ordonare). Este important de reinut c ceea ce conteaza pentru stabilirea medianei este numrul de
observaii pe care se face analiza, i nu numrul de valori ale variabilei.
Calculul medianei este relativ simplu atunci cnd avem de-a face cu un numr mic i impar
de observaii. Lucrurile se complic puin atunci cnd numrul de observaii este par, sau dac
numrul de observaii e foarte mare i e nevoie s apelm la tabele de frecvene. Lucrurile se
complic i mai mult dac datele de care dispunem sunt date grupate n intervale, ca n Tabelul 1.2.
n cazul n care avem de-a face cu un numr par de observaii nu va mai exista o singur
valoare la mijlocul seriei de date, ci vom avea dou valori. n aceast situaie, mediana se afl la
mijlocul "distanei" dintre aceste valori, sau cu alte cuvinte, este media lor. S presupunem c am
dori sa calculm mediana pentru o serie de 8 studeni, deci un numr par de observaii. Dup
ordonare, datele arat astfel: 5, 5, 6, 7, 8, 9, 9, 10. La mijlocul seriei se afl valorile 7 i 8. Mediana
va fi deci 7,5.
Pentru situaiile n care suntem nevoii s calculm mediana pe baza datelor oferite de un
tabel de frecvene, vom utiliza frecvenele
cumulate, i vom cuta acea valoare a Tabelul 1.3 Distribuia notelor pentru 80 de studeni
variabilei sub care se afl 50% din cazuri.
Nota Frecvene
Frecvene Frecvene relative
Pentru datele din Tabelul 1.3, 28,75% din
absolute
relative (%) cumulate (%)
observaii iau valoarea 6 sau o valoare
2
2,5
2,5
3
mai mic, 46,25% iau valoarea 7 sau mai
4
5
7,5
4
7
8,75
16,25
5
puin, iar 75% iau valoarea 8 sau o
10
12,5
28,75
6
valoare mai mic. Rezult de aici c nota
14
17,5
46,25
7
median nu poate fi 7 sau alt not mai
23
28,75
75
8
mic (deoarece numai 46,25% dintre
14
17,5
92,5
9
studeni iau nota 7 sau mai puin).
6
7,5
100
10
Mediana va fi n consecin 8, deoarece, Total
80
100
chiar dac avem un numr par de
37

observaii, ambele valori care se gsesc la mijlocul seriei de date sunt egale cu 8.
n cazul n care avem de-a face cu un tabel de frecvene care conine date grupate n
intervale de valori (aa cum este Tabelul 1.2), valoarea medianei poate fi calculat cu ajutorul
formulei:
N
nc
2
Me l
L
n
unde:
- Me este mediana,
- l este limita inferioar a intervalului care conine mediana
- N este numrul total de observaii
- nc este frecvena absolut cumulat a tuturor categoriilor care preced intervalul care conine
mediana (adic numrul de observaii care iau valori mai mici dect l)
- n este frecvena intervalului care conine mediana
- L este lrgimea sau mrimea intervalului care conine mediana
Exemplu de calcul al medianei pe baza datelor din Tabelul 1.2:
Din tabel reiese ca mediana este coninut n intervalul 3001-4000 locuitori, deoarece frecvenele
relative cumulate ale categoriilor precedente sunt mai mici de 50%, iar frecvena cumulat a
intervalului 3001-4000 este aproximativ 63%. Limita inferioar a acestui interval este deci l = 3001.
Observaia creia i corespunde mediana (numit i individ median) este observaia care se afl
exact la mijlocul seriei ordonate de date, cu alte cuvinte este observaia N/2, n cazul nostru
observaia cu numrul 1343. Dac scdem din acest numr numrul total de observaii care au
valori mai mici dect 3001, obinem 1343 - 1084 = 259, unde 1084 = 54 + 379 + 651 este valoarea
lui nc din formula medianei (obinut prin cumularea frecvenelor categoriilor precedente
intervalului care conine mediana). Cu alte cuvinte, observaia creia i corespunde mediana este cea
de-a 259-a observaie din categoria "3001-4000 locuitori", categorie care apare cu frecvena n =
602. Am putea acum s ne ntrebm: dac la 602 comune corespunde o cretere a numrului de
locuitori cu L=1000 (de la 3001 la 4000), atunci la 259 de comune ct va corespunde? Rspunsul e
259
dat de regula de trei simpl, coninut oarecum i n formula medianei:
1000 430,2 . Cu alte
602
cuvinte, mediana este egala cu 3001 + 430 = 3431 locuitori.
Mediana este un caz special de msur a localizrii. Msurile localizrii sunt de obicei cunoscute
sub numele de percentile sau quantile. Pentru cazul general, numim percentila p acea valoare sub
care se afl p% din cazuri i deasupra creia se afl (100-p)% din cazuri. De exemplu, mediana este
percentila 50. Cele mai cunoscute msuri ale localizrii sunt quartilele, quintilele i decilele.
Quartilele sunt acele valori ale seriei de date care o mpart n patru pri egale, quintilele sunt
valorile care o mpart n cinci pri egale, iar decilele n 10. Sub quartila 1 se afl 25% din cazuri,
iar deasupra ei 75%. Sub quartila 2 se afla 50% din cazuri, de unde reiese ca aceast quartil este
chiar mediana. n sfrit, sub quartila 3 se afl 75% din cazuri, iar deasupra ei se afl 25% din
cazuri (observaii). Din aceast scurt prezentare reiese c exist numai 3 quartile (Q1, Q2 i Q3),
deoarece pentru a mpri o serie de date n m pri egale sunt suficiente m-1 valori. n statistic
quartilele, decilele etc. se refer la valori ale variabilei. Totui, n tiinele sociale sunt folosite
destul de des expresii cum ar fi "decila 10 de venituri", "cea mai srac quintil", "persoanele
aparinnd primei decile" etc. Aceste expresii se refer ns la observaiile care iau valori cuprinse
ntre anumite percentile (quantile) i nu la valorile variabilei.

38

Media este probabil cea mai important i totodat cea mai popular msur a tendinei
centrale a unei distribuii. Ea se calculeaz ca sum a tuturor valorilor observate ale seriei de
date mprit la numrul de observaii:
N

xi
x1 x 2 x3 ....... x N
i 1
X

N
N

unde:
X este media
xi reprezint valoarea variabilei pe care o ia observaia i
N este numrul total de observaii
(sigma) este simbolul folosit pentru a indica o sum
De exemplu, pentru cei 7 studeni de mai sus, cu notele 5, 5, 6, 8, 9, 9, 10, suma notelor este 52,
numrul total de observaii este 7, iar media va fi 52 mprit la 7, adic 7,43.
n cazul n care media trebuie calculat pe baza unui tabel de frecvene, formula devine:
k

f
j 1

xj

unde:
k este numrul de categorii (valori) ale variabilei
fj reprezint frecvena de apariie a categoriei j
xj este valoarea categoriei j
N este numrul total de observaii
De exemplu, pentru datele din Tabelul 1.3, media este:
X

2 3 4 4 7 5 10 6 14 7 23 8 14 9 6 10
7,31
80

Pentru cazurile n care media trebuie calculat pentru date grupate n intervale, ca n Tabelul 1.2, se
aplic formula de mai sus, considerndu-se ca "valori ale variabilei" centrele de interval. Exemplu:
pentru categoria "1001-2000 locuitori", centrul de interval este (1001 + 2000) / 2 = 1500,5.
Bineneles c, pentru un astfel de exemplu, la finalul calculelor media se va rotunji, deoarece atunci
cnd vorbim despre populaia unei comune nu o putem exprima dect n numere ntregi. Atunci
cnd avem de-a face cu date grupate n intervale, probleme pot aprea la calculul centrului de
interval pentru prima i respectiv ultima categorie: n Tabelul 1.2, categoriile "1000 sau mai puini
locuitori", respectiv "peste 8000 de locuitori". Dac se ntmpl ca valoarea minim i respectiv cea
maxim a seriei de date s fie cunoscute, atunci nu exist practic nici o problem. Dac aceste
valori nu sunt cunoscute, rmne la latitudinea cercettorului s decid ce valori urmeaz s atribuie
respectivelor centre de interval.
Cnd folosim una sau alta dintre msurile tendinei centrale?
39

frecvente absolute

Decizia de a utiliza una sau alta dintre msurile tendinei centrale este strns legat n primul
rnd de nivelul de msurare a variabilelor. Aa cum ne putem da seama, modul poate fi utilizat
pentru toate cele patru niveluri de msurare. Mediana ns nu poate fi utilizat dect pentru
nivelele care permit o ordonare prealabil a datelor, adic numai pentru variabilele ordinale, de
interval i de raport. n ceea ce privete media, aceasta poate fi calculat numai pentru variabilele
masurate la ultimele dou nivele, adic cel de interval i respectiv cel de raport, deoarece n cazul
celorlalte nivele operaiile de adunare/scdere a valorilor variabilelor nu sunt permise.
Un alt element important pentru a decide ce msur a tendinei centrale merit folosit este
existena observaiilor care au valori extreme. De fapt acest aspect este n strns legatur cu forma
distribuiei.
S considerm de exemplu distribuia consumului per capita al gospodriilor, aa cum este
ea reprezentat n Graficul 1.4. Media acestei distribuii este 103087 lei iar mediana este 87354 lei
lei (valorile sunt exprimate n preuri 1995). n ceea ce privete modul, valoarea exact a acestuia
nu are sens s fie calculat deoarece exist relativ puine situaii n care mai multe gospodrii au
exact aceeai valoare a consumului per capita. Putem ns vorbi despre un interval modal, care se
afl undeva n jur de 72000 lei.
Graficul 1.4 Distributia consumului per capita al gospodriilor
1400000

1200000

1000000

800000

600000

400000

200000

0
67
16
49 00
50
47 333
8
45 67
16
44 00
50
42 33
83
40 67
16
39 00
50
37 33
83
35 67
16
34 00
50
32 333
8
30 67
16
29 00
50
27 33
83
25 67
16
24 00
50
22 33
83
20 67
16
19 000
5
17 33
83
15 67
16
14 00
50
12 33
83
10 7
66
91 0
00
75 3
33
58 67
6
41 0
00
25
33
83

consumul per capita al gospodariilor (lei), in 1995

Dac dorim s aflm valoarea "tipic" a


consumului per capita ntr-o gospodrie
pentru o distribuie ca cea din Graficul 1.4,
este mai indicat s utilizm mediana,
deoarece modul de calcul al acesteia este
mai apropiat n acest caz de ceea ce
nelegem noi n mod obinuit prin "centrul
distribuiei": 50% dintre cazuri dedesubt i
50% deasupra. Mediana are avantajul de a
nu fi influenat de valorile "extreme" ale
seriei de date. Media seriei de date
reprezentate n Graficul 1.4 este mai mare
dect mediana tocmai datorit existenei
unui numr relativ mic de gospodrii cu
valori foarte mari ale consumului per
capita, valori care "trag" media spre
dreapta (sau cu alte cuvinte conduc ctre o
valoare mai ridicat a acesteia n raport cu

mediana).
n concluzie, putem afirma c modul nu e o msur foarte adecvat a centrului unei
distribuii. El este util mai ales atunci cnd avem de-a face cu variabile msurate la nivel nominal,
dar i n cazurile n care distribuiile studiate sunt bi- sau multi-modale. Mediana este indicat mai
ales n cazurile n care dorim identificarea "valorilor tipice" ale unor distribuii asimetrice (vezi
Graficul 1.5, b i c), care au valori extreme. Media, pe de alt parte, prezint marele avantaj de a lua
n calcul toate valorile unei serii de date. Aceasta este unul din motivele pentru care ea continu s
fie cea mai utilizat msur a tendinei centrale. n plus ea mai are i alte proprieti utile, care vor fi
discutate n capitolele urmtoare.
2.2.2 Msuri ale variaiei

40

Msurile tendinei centrale sunt eseniale pentru descrierea unei caracteristici a unui eantion
sau a unei populaii, ns ele nu sunt suficiente. Pentru descrierea complet a unei variabile este
foarte important s tim deasemenea i ct de "mprtiate" sunt valorile acesteia n jurul tendinei
centrale sau, cu alte cuvinte, ct de omogen respectiv eterogen este populaia (eantionul) studiat
n raport cu o anumit caracteristic. S lum ca exemplu performana la o anumit materie a unei
grupe de 80 studeni, msurat cu note de la 1 la 10 (datele sunt prezentate n Tabelul 1.3). Nota
medie a respectivei grupe este 7,31. Aceast informaie ns pare a fi insuficient pentru a ne putea
pronuna asupra performanei respectivei grupe. ntrebarea pe care ne-o punem n mod natural este:
ct de omogen este respectiva grup n ceea ce privete performana colar?

Un prim rspuns la aceast ntrebare l putem da prin simpla examinare a intervalului n care
sunt cuprinse notele respectivilor studeni, sau mai bine zis prin calcularea amplitudinii
variabilei. Amplitudinea unei variabile este diferena dintre valoarea maxim i valoarea
minim a acelei variabile. Pentru exemplul nostru, amplitudinea este 10 - 3 = 7 puncte. Deci,
cei 80 de studeni sunt distribuii de-a lungul unui interval de apte puncte.
O msur a variaiei mai rafinat dect amplitudinea o reprezint abaterea interquartil, care se
calculeaz ca diferen ntre quartila 3 i quartila 1. Abaterea interquartil msoar
mprtierea celor 50% din observaii aflate la mijlocul distribuiei. Ea are practic aceleai
avantaje pe care le are i mediana ca msur a tendinei centrale, i anume nu este influenat de
existena cazurilor extreme.
De cele mai multe ori suntem ns interesai s folosim o msur a variaiei unei variabile care
s includ toate observaiile, nu numai dou dintre ele ca n cazul amplitudinii i abaterii
interquartile. n plus, suntem interesai s examinm variaia n raport cu o msur a tendinei
centrale. De obicei, msurile care satisfac aceste dou cerine sunt bazate pe abaterile
observaiilor de la medie. Abaterea de la medie a unei observaii este diferena dintre valoarea
pe care o ia respectiva observaie i media variabilei ( xi X ).Una din proprietile mediei este
ns aceea c suma tuturor abaterilor individuale de la medie este egal cu 0:

(x
i 1

X) 0

(sau cu alte cuvinte, abaterile pozitive se vor anula cu cele negative). n consecin, pentru a
obine o msur a variaiei la nivelul ntregului eantion sau a ntregii populaii trebuie utilizat
fie suma valorilor absolute ale abaterilor individuale de la medie, fie suma ptratelor acestor
abateri.
Abaterea medie absolut este definit ca medie aritmetic a abaterilor individuale absolute
(ignornd semnul acestora) de la media variabilei:
1
AMA xi X
N
O alt msur, mult mai rspndit, este variana variabilei. Variana (sau dispersia) se
definete ca fiind media aritmetic a ptratelor abaterilor individuale de la medie:
1
Varianta ( xi X ) 2
N

Din motive teoretice care nu vor fi expuse n acest manual, pentru calcularea varianei la nivel de
eantion se folosete formula:
1
s2
( xi X ) 2 ,

N 1
iar pentru date grupate n tabele de frecvene (ca n Tabelul 1.3):

41

s2

1
(x j X )2 f j

N 1

unde:
xj este valoarea variabilei pe care o ia grupa j
fj este frecvena absolut de apariie a lui xj

Deoarece variana, datorit ridicrii la ptrat, este destul de dificil de interpretat, cea mai
utilizat msur a variaiei unei variabile, pentru scopuri descriptive, este abaterea standard,
definit ca radical de ordinul doi (rdcin ptrat) din varian:

s s2
Din formula abaterii standard reiese clar c abaterea standard va fi cu att mai mare cu ct
valorile pe care le iau observaiile se abat mai mult de la medie. S considerm de exemplu notele la
o materie a dou grupe mici de elevi, ambele serii de date avnd media 6 i amplitudinea 8:
Grupa 1:
Grupa 2:

2, 4, 6, 6, 8, 10
2, 2, 5, 7, 10, 10

ntrebarea pe care ne-o putem pune este: ct de omogene sunt cele dou grupe? Calculul
abaterilor standard arat c n prima grup s1 = 2,8, iar n a doua s2 = 3,6. Este clar deci c prima
grup e mai omogen dect a doua, n care variabilitatea performanei e mai mare.
n exemplul de mai sus am comparat dou grupe de subieci din punct de vedere al
omogenitii pentru o aceeai caracteristic. ns atunci cnd trebuie analizm omogenitatea unei
singure populaii sau a unui eantion apar ntrebari al cror rspuns e mai dificil de dat: "cum
interpretm magnitudinea abaterii standard?", "cnd putem spune c avem o abatere standard mic
sau una mare?", "cum putem compara omogenitatea unei populaii pentru dou variabile diferite?".
Practic, rspunsul la prima ntrebare depinde n mare msur i de alte caracteristici ale distribuiei.
Pentru un anumit tip de distribuii interpretarea magnitudinii abaterii standard este mai uoar, i
acest lucru va fi tratat n Capitolul 2 al acestui manual. n cazul celorlalte dou ntrebri un rspuns
satisfctor poate fi dat cu ajutorul unei alte msuri, numite coeficient de variaie, calculat ca raport
ntre abaterea standard i media unei varibile:

CV

s
X

Prin modul de calcul, coeficientul de variaie are avantajul de a fi o msur adimensional


(fr unitate de msur), deoarece unitatea de msur a abaterii standard este aceeai cu cea a
mediei. n consecin, el este foarte util n compararea variaiei a dou variabile msurate pe aceai
populaie/eantion. Putem astfel trage concluzii de tipul: "populaia A este mai eterogen n privina
caracteristicii X dect n privina caracteristicii Y", concluzii imposibil de formulat numai cu
ajutorul abaterii standard deoarece abaterea standard este o msur dimensional i deci nu putem
compara "mere cu pere" (de exemplu abaterea standard a performanei colare cu abaterea standard
a veniturilor familiei). Prin modul su de calcul coeficientul de variaie indic practic ct la sut din
medie corespunde unei abateri standard, ceea ce face mai uor de evaluat gradul de omogenitate a
populaiei studiate. O populaie cu o abatere standard egal sau mai mare dect media poate fi
considerat n cele mai multe cazuri o populaie eterogen, n timp ce o populaie a crei abatere
standard reprezint 0,3 (30%) din medie poate fi considerat o populaie relativ omogen. Este
important ns de reinut faptul c acest coeficient nu poate fi calculat dect n cazul variabilelor
42

msurate la nivel de raport, deoarece n cazul variabilelor nominale i ordinale abaterea standard nu
poate fi calculat, iar n cazul variabilelor msurate la nivel de interval media este una
convenional, ceea ce face posibil transformarea variabilei prin adunarea unei constante la
valorile acesteia, fr ca semnificaia valorilor variabilei s se modifice O astfel de transformare ar
lsa nemodificat abaterea standard (lucru care poate fi demonstrat matematic) ns ar modifica
media variabilei. Ori aceasta nseamn c pentru aceeai caracteristic am putea calcula coeficieni
de variaie diferii ca valoare.
Exerciii i probleme
1. Veniturile gospodriilor locuitorilor rii Alfa, care cuprinde 87 de milioane de gospodrii, sunt
distribuite n jurul unei valori medii de 27000 Alfa-lei i o median de 22000 Alfa-lei.
a. Ce se poate spune despre simetria distribuiei veniturilor?
b. Care este venitul ntregii ri (toate cele 87 de milioane de gospodrii)?
Pentru urmtoarele ntrebri, s se ncercuiasc varianta corect /variantele corecte:
2.

Decila 5 este o masura a:

1.
2.
3.
4.

tendintei centrale
variatiei
formei distributiei
nici una dintre acestea

3.

Valoarea sub care se afla 50% dintre cazurile seriei


de date ordonate de la minim la maxim este:

1.
2.
3.
4.
5.

media
quartila 2
modul
abaterea standard
nici una dintre acestea

4.

Valorile variabilei ocupatie, intr-un grup de 5


persoane, sunt: 1, 3, 3, 4, 5. Tendinta centrala in
acest grup, pentru variabila ocupatie, poate fi
descrisa prin:

1.
2.
3.
4.
5.

media egala cu 3,2


mod egal cu 3
mod egal cu 2
mediana egala cu 3
nici una dintre acestea

Unitatea 3

Obiectiv: prezentarea analizei bivariate a datelor


Cuvinte cheie: intensitatea relaiilor dintre variabile, reducere proporional a erorii, ranguri
Analiza bivariat a datelor.

43

Intensitatea relaiilor dintre variabilele calitative


n seciunea anterioar am vzut cum putem testa ipoteza existenei unei relaii (de asociere)
ntre dou variabile calitative. Testul 2 ne ofer ns informaii numai despre existena/inexistena
unei relaii de asociere ntre dou variabile, dar nu i despre intensitatea respectivei relaii, atunci
cnd ea exist. Pentru a rspunde la ntrebarea "Ct de puternic e relaia de asociere dintre dou
variabile?" avem nevoie de msuri specifice. Dou dintre acestea vor fi prezentate n seciunea care
urmeaz.
Cazul variabilelor nominale - coeficientul (lambda)
S ne ntoarcem la datele din Tabelul 6.1 i s presupunem de aceast dat c nu cunoatem
dect distribuia marginal a atitudinii fa de schimbarea modului de alocare a bugetului (cu alte
cuvinte nu tim dect c 200 de indivizi sunt pentru, 220 sunt mpotriv, iar 180 sunt nehotri).
Dac vom ncerca s prezicem atitudinea unui individ oarecare, vom spune firete c repsectivul
individ va fi mpotriva schimbrii modului de alocare a bugetului, deoarece cu o astfel de predicie
avem cele mai reduse anse de a grei. Cu alte cuvinte, ne-am bazat predicia pe frecvena modal
(cea mai mare frecven). n cazul n care am face o astfel de afirmaie pentru fiecare din cei 600 de
indivizi, predicia noastr ar fi corect pentru 220 dintre ei (37%), i fals pentru ceilali 380. S
presupunem acum c la un moment dat primim o informaie n plus, i anume distribuia atitudinilor
fa de schimbarea modului de alocare a bugetului n funcie de grupele de vrst de care aparin
indivizii (adic exact informaia prezentat n Tabelul 6.1). S zicem c vom considera ca plauzibil
ipoteza n care atitudinile fa de modificarea modului de alocare a bugetului sunt dependente de
grupa de vrst a individului. n acest caz, variabila vrst se va numi variabil independent, iar
atitudinea fa de schimbarea modului de alocare a bugetului se va numi variabil dependent. S
zicem acum c vom repeta raionamentul de mai sus (predicia atitudinii unui individ pe baza
frecvenei modale) pentru fiecare grup de vrst n parte. Vom avea deci, din nou, un numr de
predicii corecte i un numr de predicii eronate. Coeficientul reprezint tocmai proporia cu
care se reduce numrul de erori prin introducerea variabilei independente. S calculm acum
pentru datele din Tabelul 6.1:

Tabelul 6.1 Relaia dintre dou variabile categoriale


Frecvene observate
Da
Nu
cei cu vrsta sub 25
110
40
cei cu vrst ntre 26 i 45 de ani 40
100
cei cu varsta peste 45 de ani
50
80
Total
200
220

Nu tiu
30
60
90
180

Total
180
200
220
600

Aa cum am artat, n absena variabilei independente, numarul de erori e1 a fost 380. S vedem
acum cte erori am facut prezicnd variabila dependent pe baza valorilor variabilei independente
(pentru a uura urmarirea calculelor, am copiat nc o dat mai jos datele Tabelului 6.1):
- pentru grupa de vrst sub 25 de ani, vom prezice corect pe baza frecvenei modale n 110
cazuri, i vom face erori n 70 de cazuri.
- pentru grupa de vrst 26 - 45 de ani, vom prezice corect pe baza frecvenei modale n 100
cazuri, i vom face erori n alte 100 de cazuri.
- pentru grupa de vrst peste 45 de ani, vom prezice corect pe baza frecvenei modale n 90
cazuri, i vom face erori n 130 de cazuri.

44

Deci totalul erorilor fcute este e2 = 70 + 100 + 130 =200.


S l calculm acum pe lambda, dup o formul utilizat i pentru calculul altor msuri ale asocierii
i cunoscut sub numele de "reducere proporional a erorii":

e1 e2 380 200

0,47
e1
380

Coeficientul poate lua, prin modul de construcie numai valori ntre 0 i 1, 0 nsemnnd
absena oricrei relaii ntre variabile, adic independen, iar 1 nsemnnd intensitate maxim a
asocierii (asociere puternic). El este o msur asimetric (avem o variabil independent pe baza
creia se fac predicii i o variabil dependent, ale crei valori sunt prezise), ns exist formule de
calcul i pentru varianta simetric a acestui coeficient. Avantajul lui const n modul relativ uor i
intuitiv de calcul. Principalul dezavantaj al acestei msuri este faptul c n condiiile n care o
categorie a unei variabile conine un numr foarte mare de indivizi, poate fi egal cu 0 chiar dac
cele dou variabile nu sunt independente.

Cazul variabilelor ordinale

n cazul variabilelor ordinale, aa cum am vzut n introducerea acestui manual, exist


posibilitatea de ordonare a valorilor variabilelor, i n consecin exist posibilitatea de a da ranguri
indivizilor n funcie de valorile pe care acetia le au pentru o variabil. Msurile Ca urmare, n
analiza acestui tip de variabile vom putea vorbi de un semn al asocierii (sau sensul asocierii).
Msurile de asociere a variabilelor ordinale pot lua valori cuprinse ntre -1 i 1. La modul general
vorbind, o msur a asocierii dintre dou variabile ordinale va fi pozitiv dac un individ cu un rang
mare pentru variabila X tinde s aib un rang mare i pentru variabila Y, iar indivizii cu ranguri
mici pe variabila X au de asemenea ranguri mici i pentru Y. asocierea negativ apare atunci cnd
indivizii cu rang mare pentru variabila X tind s aib ranguri mici pentru Y i invers. Dac o msur
a asocierii dintre dou variabile ordinale ia valoarea 0, atunci vom spune c cele dou variabile sunt
independente. Cu ct o relaie de asociere ntre dou variabile ordinale va fi mai puternic, cu att
msura asocierii va fi mai mare n valoare absolut (mai aproape de 1). n cele ce urmeaz ne vom
rezuma la a prezenta cteva noiuni de baz care se refer la msurile de asociere ntre variabile
ordinale i la a arta modul de calcul pentru o astfel de msur.
O pereche de observaii se numete concordant dac individul care are un rang mai nalt pe o
variabil are un rang mai nalt i pe a doua variabil.
O pereche de observaii se numete discordant dac individul care are un rang mai nalt pe o
variabil are un rang mai cobort pe cealalt variabil.
S presupunem c avem 4 elevi, ierarhizai dup calificativele la dou materii:
Elevii
A
B
C
D

Materia X
Foarte bine
Bine
Satisfctor
Suficient

Materia Y
Bine
Foarte bine
Satisfctor
Suficient

S ncercm acum s numrm perechile concordante i perechile discordante, i pentru aceasta


s ncepm cu toate perechile de observaii pe care le putem forma cu elevul A: Acestea sunt:
perechea AB (discordant, deoarece A are un rang mai nalt dect B pe variabila X, dar un rang
mai cobort dect B pe variabila Y), perechea AC (concordant) i perechea AD (concordant).
45

S trecem acum la perechile lui B: Acestea sunt BC (concordant) i BD (concordant). n fine,


trecem acum la perechile lui C, adic la CD (concordant). n total am avut 6 perechi, din care
una discordant iar 5 concordante. S calculm acum o msur simpl de asociere ntre cele
dou variabile (calificativele la materiile X i Y), numit coeficientul a al lui Kendall:

nc nd
nt

unde
nt este numrul total de perechi
nc este numrul de perechi concordante
nd este numrul de perechi discordante
n concluzie, pentru exemplul nostru (care este unul pur didactic), a = 4/6 = 0,66.
Aceasta a fost practic cea mai simpl ilustrare de msur de asociere a dou variabile
ordinale. n practic ns, lucrurile stau puin mai complicat, pentru c deseori apar ceea ce se
numesc ranguri "legate" sau egale. Acest lucru complic destul de mult calculele i formulele,
ns principiul rmne acelai, al comparrii numrului de perechi concordante cu numrul de
perechi discordante.
Exerciii i probleme
1. ntr-un studiu asupra modului n care ocupaia se asociaz cu educaia, s-a realizat urmtorul
eantion aleator de 500 de brbai anagajai.
Educaia
4 sau mai muli ani de liceu
(incluznd i formarea
vocaional)
Mai puin de patru ani de
liceu

Funciona
ri
194

Ocupaia
Muncitori n Angajai n
fabric
servicii
146
27

Agriculto
ri
10

18

79

18

a. Explicitai n cuvinte ipoteza de nul H0


b. Calculai 2 i valoarea p pentru H0
2. Se da tabelul:
sex

femei
barbati
total

somaj
da
nu
30%
30%
30%

total
70%
70%
70%

100%
100%
100%

Care din propozitiile urmatoare sunt adevarate?


1. 30% dintre femei sunt somere
2. 30% dintre someri sunt barbati
3. 70% din totalul populatiei se afla in somaj
46

4. probabilitatea ca o persoana din populatie sa fie in somaj este de 0.3


nici una dintre acestea
3. Dac variabilele nominale x i y nu sunt independente statistic atunci este de ateptat ca:
1. Distribuiile condiionate ale lui y funcie de x s fie diferite de distribuia marginal a lui y
2. Distribuiile condiionate ale lui y , funcie de x s fie egale ntre ele
3. Corelaia Bravais-Pearson dintre x i y s fie semnificativ diferit de 0
4. Statistica test chi-patrat s difere semnficativ de 0
5. Rspunsurile 1,2,3,4 s fie incorecte

Modulul 4
Obiectiv: prezentarea problematicii regresiei lineare n analiza datelor
Ghid de studiu:
Regresia linear simpl
Construcia dreptei de regresie
Regresia linear multipl
Interpretarea coeficienilor dreptei de regresie

Unitatea 1
Obiectiv: prezentarea problematicii regresiei lineare simple
Cuvinte cheie: dreapt de regresie, criteriul celor mai mici ptrate, panta asociat variabilei
independente, coeficientul de determinaie i coeficientul de corelaie Pearson
Regresia linear simpl
Fiind cunoscute valorile a dou variabile cantitative pentru o mulime de uniti de analiz, este
posibil s reprezentm complet aceast informaie printr-un grafic. Variabilei dependente i
corespunde axa vertical, iar celei independente i corespunde axa orizontal. Fiecare unitate de
analiz este reprezentat printr-un punct care se afl la o distan de axa vertical proporional cu
valoarea variabilei independente luat de acea unitate, i la o distan de axa orizontal
proporional cu valoarea variabilei dependente. Astfel, n exemplul precizat anterior, dac variabila
DIF are valorile exprimate n valori procentuale, iar variabila SUM este exprimat n mii de lei, o
localitate n care s-au cheltuit 5000 de lei pe cap de locuitor, i n care omajul a sczut cu dou
procente, se afl cu dou uniti deasupra axei orizontale i la cinci uniti n dreapta axei verticale.
Foarte adesea, informaia cuprins ntr-un grafic de acest tip este prea bogat pentru a putea fi
analizat direct. La fel cum n cazul unei singure variabile este util s reducem informaia
47

reprezentat de distribuia sa la o singur valoare, cea a tendinei centrale, exprimat prin medie,
median sau un alt indicator, i n cazul considerrii simultane a dou variabile ar fi de folos s
putem descrie ntr-un mod ct mai succint relaia dintre acestea.
O soluie simpl este aceea de a nlocui norul de puncte de pe grafic printr-o singur dreapt
care s i aproximeze forma ct mai bine. n seciunea care urmeaz, 7.1.1., vom arta cum poate fi
construit o astfel de dreapt, numit dreapt de regresie. Vom prezenta apoi interpretarea
coeficienilor prin care este descris dreapta de regresie. n seciunea 7.1.2. vor fi definii indicatori
prin care poate fi apreciat gradul de acuratee prin care o dreapt de regresie descrie relaia dintre
dou variabile. n ultima seciune a acestei pri, 7.1.3., va fi discutate una dintre condiiile mai
importante care trebuie ndeplinit pentru ca modelele de regresie s poat fi aplicate.
Construcia dreptei de regresie
Fie un grafic pe care sunt reprezentai mai muli indivizi statistici, n funcie de valorile a dou
variabile cantitative, X i Y, i fie o dreapt dus la ntmplare pe acest grafic. Poziia fiecrui
individ i este fixat de valorile pe care iau cele dou variabile, notate cu xi i yi.
Poziia dreptei n raport cu cele dou axe ale graficului este complet precizat de urmtoarea relaie:
Y' = a + bX.
(1)
Relaia exprim faptul c orice punct k de pe dreapt, are coordonatele xk i y'k astfel nct y'k = a +
bxk. Mai mult, orice punct de pe grafic pentru care are loc relaia anterioar ntre coordonatele sale,
se afl pe dreapt.
De aici rezult faptul c orice dreapt este identificat complet prin doar dou valori, cea a
constantei a, i cea a constantei b. Dac ar fi posibil nlocuirea unui nor de n puncte, care ofer o
reprezentare precis a n perechi de valori, printr-o dreapt care s indice forma de ansamblu a
mulimii de puncte, atunci ar fi obinut o simplificare remarcabil a modului n care este descris
relaia.
n Figura 7.1 sunt reprezentate localitile din exemplul discutat anterior, caracterizate de valorile
variabilei dependente DIF, respectiv a variabilei independente SUM. Pe grafic este trasat i o
dreapt (d) precum i o mulime de segmente verticale, fiecare fiind construit astfel nct s uneasc
punctul care corespunde unei localiti cu dreapta (d).
Figura 7.1. Reprezentarea grafic a variabilelor DIF i SUM, care iau valori pentru 25 de localiti.

48

Dac pentru dou variabile cantitative am putea construi o dreapt astfel nct toate punctele care
corespund unitilor de analiz s se afle pe dreapt, atunci dreapta ar oferi o descriere complet a
formei norului de puncte. ntr-un astfel de caz, fiecare dintre segmentele verticale dintre puncte i
dreapt ar avea lungimea zero.
Este clar c n exemplul considerat aici nu exist o astfel de dreapt, care s descrie perfect relaia
dintre cele dou variabile. Ar fi de dorit atunci, s fie determinat acea dreapt pentru care
lungimile segmentelor verticale dintre puncte i dreapt s fie ct mai apropiate de zero.
Prin definiie, dreapta cu proprietatea c ptratele lungimilor segmentelor dintre puncte i dreapt
au suma minim este numit dreapt de regresie.
Datorit modului n care este definit, se spune despre dreapta de regresie c satisface criteriul celor
mai mici ptrate.
Se poate demonstra matematic faptul c pentru dou variabile date exist o dreapt unic de
regresie, iar aceasta poate fi determinat. Cu alte cuvinte, oricare ar fi dou variabile X i Y, care
iau valori pentru n uniti de analiz, pot fi deteminate n mod unic constantele a i b astfel nct
dreapta
Y' = a + bX,

(2)

s ofere o cea mai bun aproximare a relaiei dintre X i Y--din perspectiva criteriului celor mai
mici ptrate--, dintre toate dreptele posibile.
Y' este o variabil care se obine din intersecia segmentelor verticale care trec prin punctele
(xi, yi) de pe grafic i dreapta de regresie, iar punctele de intersecie sunt de forma (xi, y'i). Datorit
modului n care este construit variabila Y', valorile sale sunt identice cu ale lui Y atunci cnd
punctele sunt pe o dreapt, i sunt cu att mai diferite de cele ale lui Y cu ct punctele sunt mai
dispersate n jurul dreptei de regresie.
Un alt mod de a scrie expresia (2) este urmtorul:
49

Y = a + bX + U,
unde U = Y - Y'.
U este o variabil care pentru fiecare unitate de analiz ia o valoare egal cu lungimea segmentului
vertical dintre punctul care i corespunde pe grafic i dreapta de regresie.
n exemplul anterior, a = -5,86, b = 0,67. Ecuaia dreptei de regresie este
DIF = - 5,86 + 0,67SUM.
Interpretarea coeficienilor dreptei de regresie
Coeficientul b este numit panta asociat variabilei X i, aa cum se poate vedea din expresia
dreptei de regresie, reprezint numrul de uniti cu care variaz Y' atunci cnd X crete cu o
unitate:
dac avem dou puncte (x1, y'1) i (x2, y'2), x2 = x1 + 1, i ambele puncte sunt pe dreapta
Y' = a + bX,
atunci, nlocuind n formula dreptei se obine
y'2 = a + bx2 = a + b(x1 + 1) = a + bx1 + b = y'1 + b.
n exemplul discutat anterior, valoarea lui b indic faptul c o cretere a sumei cheltuite pe
cap de locuitor cu o mie de lei conduce n medie la o cretere a diferenei cu 0,67, adic la o scdere
a ratei omajului cu 0,67 de puncte procentuale.
Semnul plus al lui b indic faptul c ntre X i Y are loc o relaie pozitiv--adic valorilor mici
ale lui X tind s le corespund valori mici ale lui Y, iar valorilor mari ale lui X tind s le corespund
valori mari ale lui Y--, n timp semnul minus semnaleaz prezena unei relaii negative.
bi = 0 se obine atunci cnd forma norului de puncte nu poate fi aproximat printr-o dreapt. O
situaie de acest gen apare atunci cnd cele dou variabile estimeaz fenomene independente, fr
legtur, dar i n cazul n care variabilele sunt ntr-o relaie a crei form nu este liniar (de
exemplu, atunci cnd punctele sunt pe o curb n form de parabol). Cele dou cazuri sunt ilustrate
n
Figura
7.2.,
respectiv
n
Figura 7.3.
Figura 7.2. Exemplul a dou variabile cantitative ntre care nu are loc o relaie.

50

Figura 7.3. Exemplul a dou variabile ntre care exist o relaie (de forma Y' = X2) care nu poate fi

aproximat printr-o dreapt de regresie.


Coeficientul b are urmtoarea proprietate important: valoarea sa depinde de unitile de
msur ale celor dou variabile.
Astfel, dac SUM din exemplul anterior ar fi exprimat n uniti monetare / numrul de locuitori,
adic ntr-o unitate de msur de o mie de ori mai mic dect cea din exemplu, b1 ar fi de 1000 de
ori mai mic. n general, se poate arta c,
dac n loc de X avem cX + d, atunci n loc de b avem b / c.
Din aceast proprietate rezult faptul c panta de regresie nu poate fi folosit drept un indicator
al intensitii relaiei dintre variabila dependent i variabila independent.
Constanta a din ecuaia dreptei de regresie indic valoarea y' pe care o ia un punct pentru care
x = 0 i care este aflat pe dreapt.
Indicatori ai intensitii relaiei dintre dou variabile cantitative: coeficientul de determinaie
i coeficientul de corelaie Pearson
51

Dreapta de regresie asociat relaiei dintre dou variabile cantitative ofer o imagine sintetic
despre forma acestei relaii, ns nu ofer informaii despre ct de asemntoare este aceast
imaginea simplificat cu cea real. Am ntlnit o situaie similar n cazul mediei: acest indicator
descrie succint tendina central a distribuiei unei variabile cantitative, ns nu cuprinde informaii
despre ct de complet este aceast reprezentare. n acest caz, exist un indicator care arat ct de
dispersate sunt valorile luate de variabil n jurul mediei: abaterea standard. Cu ct valorile sale
sunt mai mici cu att media descrie mai precis distribuia variabilei.
n Figura 7.4. i n Figura 7.5. sunt reprezentate relaiile dintre cte dou perechi de variabile
cantitative. n ambele cazuri ecuaia dreptei de regresie este aceeai:
Y = 2 - 2,5 X.
Se observ ns c unitile de analiz din Figura 7.5. sunt mai dispersate n raport cu dreapta
de regresie dect cele din Figura 7.4. Acest fapt arat c dintre cele dou drepte, cea din Figura 7.4.
ofer reprezentarea cea mai precis a relaiei dintre perechea de variabile crora le corespunde.
Figura 7.4. Distribuia a dou variabile cantitative i dreapta lor de regresie (A).
20

10

Y1

-10

-20
-3

-2

-1

X1

Figura 7.5. Distribuia a dou variabile cantitative i dreapta lor de regresie (B).

52

20

10

Y2

-10

-20
-3

-2

-1

X2

Puterea explicativ a unui model de regresie simpl poate fi evaluat cu ajutorul mai multor
indicatori. Coeficientul R2, numit coeficient de determinaie, este definit de urmtoarea formul:

(Y 'Y )
(Y Y )

R2

Numrtorul expresiei reprezint variaia lui Y care este "explicat" de ecuaia de regresie, n
timp ce valoarea de la numitor este egal cu variaia total a lui Y. Deci, R2 indic proporia din
variaia lui Y care este "explicat" de variabila independent.
Din modul n care este definit rezult c R2 poate s ia valori ntre 0 i 1. R2 este egal cu 1
atunci cnd distribuia punctelor se face dup o dreapt. Valoarea sa este zero n situaii cum sunt
cele ilustrate n Figura 7.2. i n Figura 7.3., adic atunci cnd distribuia punctelor nu poate fi
aproximat printr-o dreapt. n general, cu ct valorile lui R2 sunt mai apropiate de 1, cu att relaia
dintre cele dou variabile este mai intens iar reprezentarea sa grafic este mai apropiat de o
dreapt.
n exemplul din seciunea anterioar R2 = 0,53.
R2 care corespunde relaiei reprezentate n Figura 7.4. are valoarea 0,95, n timp ce R2 din Figura
7.5. are valoarea 0,58.
Un alt indicator al intensitii relaiei dintre dou variabile cantitative este coeficientul de
corelaie Pearson, notat cu r i definit prin urmtoarea formul:
r = b X / Y.
X i Y reprezint abaterea standard a variabilei X, respectiv abaterea standard a variabilei Y.
Coeficientul de corelaie are dou proprieti din care poate fi dedus i modul su de
interpretare:
1. r2 = R2 --coeficientul de corelaie Pearson ridicat la ptrat este egal cu coeficientul de
determinaie.
2. r are acelai semn cu b, deoarece cele dou abateri standard din definiia sa au ntotdeauna semn
pozitiv.
53

Astfel, din proprietatea (1) rezult c r ia valori n intervalul [-1, 1], iar valorile extreme sunt
luate n acelai situaii n care R2 ia valoarea 1: atunci cnd relaia dintre cele dou variabile
cantitative este de intensitate maxim i punctele care reprezint grafic unitile de analiz sunt
distribuite pe o dreapt. n mod similar, r ia valoarea 0 atunci cnd R2 este nul, adic n situaiile n
care distribuia unitilor de analiz nu poate fi aproximat printr-o dreapt (Figurile 2. i 3.
ilustreaz situaii n care r este 0).
Din proprietatea (2) rezult c r ia valori pozitive atunci cnd dreapta de regresie are o
nclinaie ascendent de la stnga spre dreapta, i valori negative atunci cnd inclinaia este
descendent.

Unitatea 2
Obiectiv: prezentarea problematicii regresiei lineare multiple
Cuvinte cheie: coeficienii de regresie standardizai, coeficient de determinaie multipl,
multicoliniaritate, variabile "dummy".

Regresia linear multipl


Modelul de regresie simpl este folosit pentru a descrie relaia dintre dou variabile cantitative. n
cazul n care sunt disponibile date despre mai muli factori cu potenial explicativ, iar acetia sunt
estimai prin variabile cantitative, este de dorit ca analiza s cuprind simultan toate variabilele i nu
doar dou dintre acestea. Utilizarea regresiei simple ntr-un astfel de caz, prin ignorarea unora dintre
variabilele independente, ori prin aplicarea succesiv pentru fiecare dintre variabilele independente,
poate s conduc la rezultate eronate.
Exemplul urmtor ilustreaz o situaie de acest tip.
S presupunem c n evaluarea unui program prin care s-a urmrit reducerea omajului se
cunoate variaia ratei omajului (DIF), suma cheltuit raportat la numrul de locuitori (SUM), i,
n plus, fa de exemplu similar descris n seciunea precedent, fiecare localitate este descris de un
indicator global al calitii administrrii programelor locale, altele dect cel evaluat aici. Acest din
urm indicator, notat CALIT, este de tip cantitativ, si are trei valori: 1 desemneaz un nivel sczut,
2 un nivel mediu, iar 3 un nivel ridicat al calitii administrrii programelor.
n Figura 7.7 sunt reprezentate localitile cuprinse n studiu, n funcie de cele trei variabile.
La fel ca i n Figura 7.8 valorile lui DIF sunt pe axa vertical, iar cele ale lui SUM pe axa
orizontal. Marcarea localitilor pe grafic se face prin simboluri grafice diferite n funcie de
valorile celei de a treia variabile.
Analiza legturii dintre DIF i SUM printr-o regresie simpl conduce la concluzia c relaia
dintre cele dou variabile este direct, i destul de intens (R2 = 0,53).
Dac, ns, relaia dintre cele dou variabile este studiat separat pe grupele de localiti
desemnate prin valorile celei de-a treia variabile, concluzia este diferit. n locul unui singur model,
vom urmri parametrii a trei modele de regresie simpl, cte unul pentru fiecare dintre valorile
variablei CALIT. Valorile lui R2 care se obin sunt 0,006 pentru CALIT = 1, 0,005 pentru CALIT =
2, i 0,004 pentru CALIT = 3. Cele trei valori indic faptul c intensitatea relaiilor dintre DIF i
SUM pentru fiecare dintre cele trei categorii de localiti este foarte aproape de zero. Altfel spus,
54

cnd sunt comparate localiti care sunt asemntoare din punctul de vedere al performanei
administrrii de programe, cheltuirea unei sume mari pe cap de locuitor nu este asociat, n medie,
unei scderi mai accentuate a ratei omajului dect n localitile n care suma a fost mai mic.
Acest rezultat indic, contrar celui obinut din analiza doar a primelor dou variabile, c programul
de reducere a omajului nu a fost eficient.

Figura 7.7. Relaia dintre variabilele DIF, SUM, i CALIT pentru 25 de localiti.
1.5

1.0

.5

0.0

-.5

-1.0

Calit. adm .
3 .00

-1.5

2 .00
-2.0

1 .00
T oate local it.

-2.5
6.0

6.5

7.0

7.5

8.0

8.5

9.0

9.5

10.0

su ma cheltu ita / nr. de locuito ri

Problema general pe care ncercm s o rezolvm prin modelare statistic poate fi redus
adesea la urmtoarea exprimare:
B este un fenomen care trebuie explicat iar A1, A2, ... sunt factori explicativi poteniali; Care este
efectul independent al fiecrui Ai asupra lui B? Care este ierarhia importanei factorilor A1, A2, ...
n explicarea lui B?
Exemplul de mai sus arat faptul c numai prin modele care cuprind simultan toate variabilele
relevante pentru fenomenul studiat poate fi evaluat efectul independent al fiecreia. Modelele
multivariate cele mai simple i de aceea cel mai usor de interpretat sunt cele de regresie multipl.
Vom arta modul n care acestea sunt definite (7.2.1), felul n care pot fi interpretate relaiile dintre
variabilele cuprinse n model (7.2.2.) i cum poate fi evaluat eficiena de ansamblu a modelelor
(7.2.3). n seciunea (7.2.4.) vor fi discutate modalitaile de generalizare a rezultatelor obinute pe
un eantion iar n sectiunea (7.2.5) va fi descris problema multicoliniaritii. n seciunea (7.2.6) va
fi prezentat o extindere a modelelor de regresie pentru variabile nominale i ordinale.

55

Definirea modelelor de regresie multipl


Fie Y, X1, X2, ..., Xm, variabile cantitative. Y este variabila a crei variaie incercm s o explicm
iar X1, X2,..., Xm, sunt variabilele independente. Putem scrie urmtoarea relaie ntre variabile:
Y = a + b1X1 + b2X2 + ... + bmXm + U

(3)

unde a, b1, b2, ..., bm sunt numere iar U este o variabil.


Se observ c pentru orice combinaie de numere a, b1, b2, ..., bm, relaia (3) este asevrat,
pentru c acestea mpreun cu valorile lui Y, X1, X2, ..., Xm determin U.
Figura 7.8. Reprezentarea grafic n trei dimensiuni a unor cazuri caracterizate de trei variabile.
Y

(X1 1,X21,Y1)

(X1 2,X2 2,Y2)


(X1 3,X23,Y3)
(X1 4,X2 4,Y4)
Y5
(X1 5,X2 5,Y5)
X15

X1

X25

X2

Dac m=2 relaia (3) poate fi descris grafic printr-un desen tridimensional. Fiecrui individ
statistic i corespunde un punct de coordonate (X1,X2,Y) (Figura 7.8.), iar a, b1 i b2 definesc un
plan descris de ecuaia
Y' = a + b1X1 + b2X2.
Variabila U este determinat de acest plan i de punctele de forma (X1,X2,Y) ntr-un mod
analog cazului cu dou dimensiuni:
valoarea Ui care i corespunde unui individ statistic care a luat valorile X1i, X2i,Yi, este egal cu
lungimea segmentului paralel cu axa OY care are la extremiti punctul care i corespunde n spaiu
(X1i,X2i,Yi), respectiv punctul de intersecie cu planul (si care are coordonatele (X1i,X2i,Y'i)).
Expresia (3) indic faptul c Y poate fi exprimat ca o combinaie liniar de X1, X2, ..., Xm, i o
variabil U numita variabil rezidual. Dac fixm a, b1, b2,..., bm atunci U poate fi exprimat n
funcie de aceste numere i Y, X1, X2,...Xm:
U = Y - (a + b1X1 + b2X2 + ... + bmXm)
Dac notm expresia din paranteza cu Y' atunci
U = Y - Y'.

56

(4)

Vom alege din mulimea (infinit) a expresiilor de forma (3) acea combinaie liniar pentru
care U (determinat din (4)) are valori minime. Pentru c U este o variabil, atunci cnd expresia (3)
se aplic unui numr de n indivizi statistici, U este un ir de n numere. Avem nevoie s definim un
criteriu dup care variabilele U s poat fi comparate astfel nct s putem alege un U avnd
valorile cele mai mici. Principiul folosit pentru modelele de regresie liniar multipl este, la fel ca i
n cazul bivariat, cel al celor mai mici ptrate:
Unei variabile U i corespunde un numr u obinut din aplicarea formulei
u = u12 + u22 + ... + un2, unde ui este valoarea luat de U pentru cazul statistic i;
este ales U pentru care u este cel mai mic. Din (3) rezult c problema este echivalent cu
determinarea valorilor a, b1, b2, ..., bm astfel nct u s fie minim. Este important de reinut c
pentru orice numr de variabile independente m, a, b1, b2, ..., bm sunt determinai n mod unic de
condiia de a avea u minim.
Ecuaia
Y' = a + b1X1 + b2X2 + ... + bmXm,
(5)
n care a, b1, b2, ..., bm sunt determinate n urma aplicrii principiului celor mai mici ptrate
este un model de regresie multipl.
Dac avem o singura variabil independent (m=1) ecuaia (5) descrie un model de regresie
simpl.
n exemplul de mai sus, planul care aproximeaza cel mai bine - dup criteriul celor mai mici
ptrate -, distribuia punctelor din spaiu asociate celor 25 de uniti de analiz (localiti cuprinse n
studiu) are ecuaia
DIF = -2,61 + 0,05 SUM + 1,00 CALIT.
Interpretarea modelelor de regresie multipl
Coeficientul bi, numit panta asociat variabilei Xi, reprezint numrul de uniti cu care variaz
Y' atunci cnd Xi crete cu o unitate iar celelalte variabile independente sunt meninute constante.
Altfel spus, bi arat cum se modific valoarea ateptat a variabilei dependente atunci cnd Xi
variaz iar Xj sunt constante, ji.
Deasemenea, n msura n care datele satisfac anumite proprieti (dintre care un principiu
important este cel al distribuiilor apropiate de cele normale, iar un alt principiu, al
multicoliniaritii, va fi discutat n seciunea 7.2.5.) este corect s afirmm c bi indic variaia n
mediile valorilor lui Y care corespund punctelor de forma (X1,...,Xi,...,Xm) respectiv (X1,...,Xi +
1,...,Xm). La fel, a arat care este media lui Y atunci cnd X1 = X2 = ... = Xm = 0.
Semnul plus al lui bi indic faptul c ntre Xi i Y are loc o relaie pozitiv n condiii de
control al efectului celorlalte variabile, n timp ce semnul minus indic prezena unei relaii
negative.
In exemplul anterior, b1 = 0,05 arat c dac vom compara dou localiti unde diferena dintre
sumele cheltuite n program / numrul de locuitori este 1000 lei, i care sunt identice din
perspectiva variabilei CALIT, ne ateptm ca, n medie, rata omajului s fi sczut cu 0,05 puncte
procentuale n localitatea n care s-a suma / locuitor a fost mai mare. b2 = 1,00 arat c pentru
aceeai valoare a lui SUM, localitile cu o evaluare a calitii administrrii programelor mai bun
57

cu o unitate au, n medie, o scdere mai mare cu o unitate procentual. Aceast interpretare este
consistent cu rezultatul obinut dup aplicarea de regresii simple pentru fiecare din subeantioanele
definite de CALIT, dar aduce un plus de precizie n exprimarea relaiilor dintre variabila
dependent i cele dou variabile independente.
Din interpretarea coeficienilor bi se vede cum regresia multipl permite compararea de perechi
de grupe de indivizi statistici care sunt identici din perspectiva tuturor variabilelor independente cu
excepia unei singure variabile. Diferena observat n valorile variabilei dependente este atribuit
variaiei n variabila independent care ia valori diferite pentru grupe diferite.
Asemeni pantei pentru cazul bivariat, coeficienii modelului de regresie multipl depind de
unitile de msur ale variabilelor i este adevrat proprietatea
dac n loc de Xi avem cXi + d, atunci n loc de bi avem bi / c.

(6)

Aceast proprietate arat faptul c panta de regresie nu poate fi folosit drept un indicator al
intensitii relaiei dintre variabila dependent i variabila independent corespunztoare, i nici nu
permite ierarhizarea variabilelor independente n funcie de contribuia fiecreia la explicaia
variaiei variabilei dependente.
Pentru a descrie nu doar forma ci i intensitatea relaiilor liniare ntre variabilele independente
i variabila dependent sunt folosii coeficienii de regresie standardizai. Modul n care sunt
definii este intuitiv: variabilele Y, X1, X2, ..., Xm sunt standardizate folosind formula scorului z
prezentat n Capitolul 1.
Noile variabile, obinute n urma aplicrii formulei, au media egal cu zero iar abaterea
standard egal cu unitatea. Coeficienii de regresie din modelul determinat de variabilele
standardizate, se noteaz n mod obisnuit cu 1, 2, ..., m. Aplicnd proprietatea (6) avem
urmtoarea formul pentru coeficienii standardizai:

i bi

n cazul bivariat (m = 1), 1 coincide cu coeficientul de corelaie Pearson. n cazul general, i


arat cu cte abateri standard variaz Y atunci cnd Xi crete cu o abatere standard. Din formul
reiese i faptul c i are acelai semn cu bi, iar i = 0 este echivalent cu bi = 0.
Atunci cnd m > 1 coeficienii de regresie standardizai au cteva proprieti diferite fa de
cazul bivariat:
1. i poate s ia valori i n afara intervalului [-1, 1]. i n valoare absolut este supraunitar atunci
cnd relaia dintre Xi i Y este foarte intens i n plus, exist o relaie liniar strns ntre Xi i cel
puin una dintre celelalte variabile independente.
2. n timp ce n cazul bivariat U = 0 implic faptul c 1 = +1, atunci cnd m > 1, condiia
U = 0 nu restrnge valorile posibile pentru i.
Coeficienii de regresie standardizai permit ierarhizarea variabilelor independente n funcie de
importana pe care o are fiecare n explicarea variaiei variabilei dependente printr-o relaie direct.
Sunt necesare dou precizri privind limitele n utilizarea acestor coeficieni:

58

1. Dac ntr-un model teoretic n care X1, X2, ..., Xm sunt variabile independente pentru Y, Xi este o
variabil explicativ i pentru unul sau mai multi Xj, ji, atunci modelul de regresie n care Y este
variabila dependent ne permite numai estimarea efectului direct pe care l are Xi asupra lui Y, nu i
a celui mediat de alte variabile din model. De exemplu, variabila care exprim proporia celor care
au absolvit liceul din populaia unei localiti poate avea un efect direct nul asupra numrului de
infraciuni pe cap de locuitor (bliceu =0), ns un efect indirect substanial, mediat de o alt variabil
independent cuprins n modelul de regresie multipl (de exemplu, venitul pe cap de locuitor).
2. Atunci cnd avem dou modele cu aceleai variabile, dar care descriu date diferite, coeficienii
standardizai nu sunt comparabili ntre modele dect dac variabilele care le corespund au dispersii
asemntoare. De aceea, este de preferat ca n comparaiile dintre populaii diferite s fie folosii
coeficienii nestandardizai, dup ce n prealabil datele au fost transformate astfel nct variabilele
Xi s aib aceeai unitate de msur n ambele modele.
Eficiena unui model de regresie multipl
La fel ca i n cazul bivariat, puterea explicativ a unui model multivariat poate fi evaluat cu
ajutorul unor indicatori. Coeficientul R2, numit coeficient de determinaie multipl, este definit la
fel ca i atunci cnd avem o singur variabil independent i are o interpretare similar:

(Y * Y )

(Y Y )

Numrtorul expresiei reprezint variaia lui Y care este "explicat" de ecuaia de regresie, n
timp ce valoarea de la numitor este egal cu variaia total a lui Y. Deci, R2 indic proporia din
variaia lui Y care este "explicat" de toate variabilele independente din model. Din definiie rezult
c R2 poate s ia valori ntre 0 i 1.
n exemplul din aceast seciune avem R2 = 0,69.
Desigur, valorile ridicate ale lui R2 sunt de dorit n locul celor sczute pentru c implic faptul
c explicaia este n mai mare msur complet. Totui, aceast afirmaie necesit cteva precizri:
R2 are proprietatea de a crete cu fiecare variabil care este introdus n model i de aceea
valorile lui R2 trebuie judecate i n raport cu numrul de variabile independente. La limit, este
posibil s avem R2 = 1 dac avem un numr de variabile independente suficient de mare, chiar dac
acestea sunt generate aleator.
Concluzia care se desprinde este c alegerea variabilelor care urmeaz s fie incluse n model
nu poate fi decis folosind exclusiv informaia de natur statistic (chiar dac exist procedee
complexe prin care putem mbogi aceast informaie). Numai prin luarea n considerare i a unor
aspecte de natur teoretic poate fi decis includerea sau eliminarea unor variabile n analiz.
S vedem ce semnificaie au valorile extreme pe care le poate lua R2, 0 i 1, pentru c
interpretarea valorilor intermediare este posibil prin raportarea la situaiile maximale.
R2 este egal cu 1 atunci cnd valorile lui Y sunt complet determinate de combinaiile liniare ale
valorilor variabilelor independente. n cazul bivariat, distribuia punctelor se face dup o dreapt,
iar atunci cnd sunt dou variabile independente, dup un plan.
La fel ca i n cazul bivariat, R2 = 0 nu indic n mod necesar absena unor relaii ntre
variabilele independente i variabila dependent:
1. Y poate s fie determinat complet de variabilele independente prin relaii neliniare iar R2 s fie
egal cu zero. De exemplu, dac
59

Y =

10 - X 2 1 - X 2 2 ) ,

se obine distribuia din Figura 7.9. n care toate punctele sunt pe o suprafata curb (cele mai multe
sunt pe o semisfer), iar R2 = 0.
2. Mai mult, este posibil s avem R2 = 0 chiar i atunci cnd ntre una dintre variabilele
independente i Y exista o relaie liniar, n condiii de control, ns forma (panta) acestei relaii nu
este constant pe categoriile celorlalte variabile.
Figura 7.9. Exemplul unei distribuii n spaiu pentru care variabila dependent este reprezentat pe
axa vertical i R2 = 0.

3,5
3,0
2,5

2,0
1,5
1,0
4

0 -1
-2

X1

-3

-2

-3

-1 0

X2

Figura 7.10. Exemplul unei distribuii n spaiu pentru care variabila dependent este reprezentat
pe axa vertical, au loc relaii bivariate cu variabila dependent de intensitate maxim i R 2 = 0
pentru modelul multivariat.

12
10
8

Y1

6
4
2
0
1,2

12
8
1,0

,8

,6

,4

X1

4
,2 0,0

10

X2

Generalizarea rezultatelor obinute pe eantion (inferena)

60

Atunci cnd avem la dispozitie date dintr-un eantion probabilistic i construim pe acestea un
model de regresie multipl ne punem problema de a generaliza rezultatele obinute pentru populaia
din care provine eantionul. S presupunem c am obinut bi > 0 i dorim s tim dac panta
corespunztoare variabilei Xi este pozitiv i la nivelul ntregii populaii. Pentru a afla acest lucru
vom construi un interval de ncredere n jurul valorii lui bi. Determinarea intervalului de ncredere
presupune ndeplinirea de ctre datele analizate a unor proprieti, aceleai cu condiiile specifice
cazului bivariat, la care se adaug condiia de absen a multicoliniaritii (pe care o vom defini i
analiza n sectiunea 6). n continuare, presupunem ndeplinite toate aceste proprieti. Pentru un
nivel de incredere de 0,95 avem intervalul
(bi - tn - m - 1, 0,975bi, bi + tn - m - 1, 0,975bi),
unde n este numrul de cazuri n eantion, m este numrul de variabile independente, numrul tn - m,
0,975 poate fi gsit n tabelele pentru distributia t (pentru n - m - 1 = 60 ia valoarea 2,0, iar pentru un
numr care tinde la infinit ia valoarea 1,96) iar bi este eroarea standard a lui bi.
Dac intervalul de ncredere nu l conine pe zero atunci ipoteza de nul, adic afirmaia
conform creia ntre Xi i Y nu avem o relaie liniar direct, poate fi respins (un mod mai riguros
de a exprima ipoteza de nul n cazul regresiei este acela de a spune c parametrul - coeficientul de
regresie din populaie - este egal cu 0).
O alt modalitate prin care poate fi realizat generalizarea valorilor bi const n determinarea
valorii maxime a nivelului de semnificatie statistic pentru care 0 aparine intervalului de ncredere.
Dac nivelul de semnificaie observat este mai mic dect 0,05 atunci vom respinge ipoteza de nul,
conform regulilor de testare a ipotezelor statistice.
Deasemenea, putem calcula valoarea t asociat lui bi
t = bi / bi.
Putem gsi n tabelele statistice care este nivelul de ncredere ce corespunde valorii determinate
n acest fel.
Pentru exemplul din aceast seciune, tabelul urmtor conine coeficienii de regresie,
coeficienii standardizai, erorile standard, valorile t i nivelele de semnificatie statistic.

SUM
CALIT

Coef icienti
ne-standardizat i
Eroare
B
standard
0,048
0,212
0,994
0,291

Coef icienti
standardizat i
Beta
0,052
0,786

t
0,229
3,412

Niv el de
semnif .
stat.
0,820
0,002

Pentru a doua variabil independent din exemplu, CALIT, putem respinge ipoteza de nul (p =
0,002<0,05).
Un model de regresie multipl poate fi folosit atit n explicaie cit i n predicie. Astfel, din
modelul anterior rezult c, n medie, localitile n care ar fi aplicat un program similar cu cel
studiat iar suma cheltuit ar fi de 8000 de lei / locuitor, i care ar fi evaluate prin scorul 3 pentru
calitatea administrrii programelor, vor avea n medie o scdere a ratei omajului cu o valoare dat
de urmtoarea formul
61

DIF0 = -2,61 + 0,05 * 8 + 1,00 * 3 = 0.79.


Mai mult, putem determina cu o probabilitate p intervalul cruia i apartine valoarea variabilei DIF
pentru care cunoatem valorile variabilelor SUM i CALIT. Acesta este
(DIF0 - tn - m - 1, 0,975DIF, DIF0 + tn - m - 1, 0,975DIF),
unde DIF0 este valoarea medie "prezis" de model, DIF este eroarea standard a valorii estimate
DIF0.
n exemplul anterior, DIF este cu o probabilitate de 0,95 n intervalul de incredere
(0,79 - 2*0,59, 0,79 + 2*0,59) = (-1,57, 3,15).
Problema multicoliniaritii
Situaia n care o variabil independent poate fi exprimat ca o combinaie liniar perfect a
celorlalte variabile independente, este numit multicoliniaritate perfect:
De exemplu, dac variabilele independente sunt X1, X2, i X3, iar
X2 = 3X1 + 2X3, se spune c X2 este exprimat printr-o combinaie liniar a variabilelor X1 i X3,
iar variabilele X1, X2 i X3 sunt ntr-o relaie de multicoliniaritate perfect.
Atunci cnd variabilele independente sunt ntr-o situaie de multicoliniaritate perfect coeficienii
de regresie nu pot fi determinai, i analiza de regresie nu poate fi aplicat.
n practic, o situaie de acest tip este rar ntlnit i este uor de detectat. n schimb, sunt mai
frecvente cazurile de multicoliniaritate ridicat, n care o variabila independent poate fi
exprimat aproape perfect printr-o combinatie liniar a celorlalte variabile independente. Cnd se
intimpl acest lucru, coeficienii pot fi determinai n mod unic ns sunt instabili: valoarea pantei
unui anumit coeficient difer foarte mult de la un eantion la altul pentru o anumit populaie. Din
acest motiv, att comparaiile ntre valorile coeficienilor dintr-un model ct i comparaiile pentru
aceeai coeficieni ai unor modele pe eantioane diferite sunt nesigure.
Care este pragul peste care multicoliniaritatea este considerat a fi ridicat i poate s ridice
probleme n interpretarea modelului? O metod frecvent folosit const n realizarea de regresii n
care, pe rnd, fiecare dintre Xi este variabil dependent iar ceilali Xj sunt variabile independente.
Valoarea cea mai ridicat pentru un R2 obinut n acest fel este o msur a nivelui de
multicoliniaritate din model, iar limita convenional sub care se consider c multicoliniaritatea nu
afecteaz interpretabilitatea modelului este 0,8.
Atunci cnd este ntlnit o situaie de multicoliniaritate ridicat sunt mai multe moduri prin care
pot fi atenuate efectele ei:
1. Este mrit volumul eantionului astfel nct ipoteza de nul s poat fi respins pentru o parte
dintre coeficieni.
2. Variabilele care sunt puternic corelate sunt combinate n indicatori unici. De exemplu, ntr-o
analiz n care seciile de vot sunt uniti statistice, rata de participare n primul tur de scrutin al
alegerilor din 1996 este o variabil independent i rata de participare n al doilea tur de scrutin al
alegerilor din 1996 este o alt variabil independent, coeficientul de corelaie ntre cele dou
variabile este r = 0,91. Un model realizat pe un eantion ales dintre seciile de vot i n care cele

62

dou variabile sunt independente va fi afectat de o problem de multicoliniaritate ridicat. O soluie


ar fi includerea n analiz a mediei n locul celor dou variabile.
3. Sunt realizate mai multe modele fiecare avnd doar o parte dintre variabilele care produc
multicoliniaritate. Pentru exemplul anterior, ar nsemna considerarea a dou modele, unul cu rata de
participare pentru primul tur, al doilea cu rata de participare pentru al doilea tur.

Variabile "dummy"
Regula general conform creia analiza de regresie poate fi aplicat numai variabilelor de interval
sau de rapoarte are o excepie important: toate proprietile pe care le au valorile estimate ale unui
model de regresie se pstreaz i n cazul n care una sau mai multe dintre variabilele independente
sunt dihotomice (adic variabile care iau dou valori).
Consecinele acestei proprieti sunt importante deoarece permit nu doar estimarea efectelor unor
variabilele care n mod obisnuit sunt dihotomice (exemplu sexul, mediul de rezident -- urban /
rural, etc.) asupra variabilei dependente ci i includerea ntr-o analiz de regresie a unor variabile
nominale sau ordinale cu mai mult de dou categorii. Acest lucru este posibil n urma transformrii
unei variabile cu n categorii n n - 1 variabile dihotomice.
Ca o ilustrare, s presupunem c datele despre programul de reducere a omajului din exemplul
discutat n aceast seciune cuprind informaii despre nc o variabil independent: judeul n care
se afl localitatea (JUDET). Mai presupunem c localitile din studiu provin din trei judee, notate
cu A, B, C. Variabila JUDET este transformat n dou variabile dihotomice: JUDET1 i JUDET2.
JUDET1 este definit astfel: localitile care sunt n judeul A au valoarea 1, iar toate celelalte au
valoarea 0.
JUDET2 este definit asemntor: localitile care sunt n judeul B au valoarea 1, iar toate celelalte
au valoarea 0.
Cunoscnd valorile celor dou variabile pentru o localitate, tim sigur n ce jude se afl aceasta,
deci informaia oferit de JUDET1 i JUDET2 este egal cu cea oferit de variabila iniial,
JUDET.
Prin introducerea celor dou variabile dihotomice n analiz putem verifica dac scderea omajului
a fost influenat i de factori care s-au manifestat la nivel de jude, independeni de condiiile de
nivel local. Dac coeficientul b, respectiv beta, care corespunde uneia dintre aceste variabile este
diferit de 0, atunci rezult c variaia variabilei DIF poate fi explicat mai bine n urma includerii ei.
Exerciii i probleme
1. Presupunem cunoscute pentru mai multe localiti urmtoarele dou variabile: diferena ntre
venitul pe cap de locuitor n ultimul an i cel din anul anterior (VENIT)--msurat n mii lei--, i
proporia celor din localitate care au absolvit cel mult 10 clase (SCOALA)--estimat n procente.
O analiz de regresie prin care se ncearc explicarea efectului variabilei SCOALA asupra variabilei
VENIT conduce la urmtoarele rezultate:
r = -0,55, R2 = 0,30, iar ecuaia de regresie este
VENIT = -7,5 - 12 SCOALA.
Care dintre urmtoarele afirmaii este adevrat?
a. Localitile n care SCOALA are valori mici au, n medie, valori mai mici ale variabilei VENIT.

63

b. Localitile n care sunt 20% locuitori care nu au absolvit 10 clase au, n medie, diferena ntre
veniturile anuale pe cap de locuitor (VENIT) cu 12 mii de lei mai mare dect localitile n care sunt
30% locuitori care nu au absolvit 10 clase.
2. Presupunem c, n plus, avem i date despre proporia locuitorilor care au mai puin de 18 ani
(MINORI)-- estimat n procente. Ecuaia de regresie multipl care include variabilele SCOALA i
MINORI ca variabile independente este urmtoarea:
VENIT = 12 - 4 SCOALA - 0,2 MINORI.
SCOALA = -0,08, iar MINORI = -0,25.
Care dintre urmtoarele afirmaii este adevrat?
a. Variabila MINORI explic mai puin din variaia variabilei dependente dect variabila SCOALA.
b. Conform modelului de regresie, localitile n care SCOALA = 5, iar MINORI = 20, au avut n
medie o scdere a venitului pe cap de locuitor cu 12 mii de lei.
Pentru urmtoarea ntrebare, s se ncercuiasc varianta corect /variantele corecte:
3. Se da ecuatia de regresie cu coeficienti nestandardizati (n parantez sunt prezentate erorile
standard ale coeficienilor de regresie:
Y = -40 + 0.72x1 + 1.29x2 0.15x3
ES
(0.13) (0.37) (0.16)
R=0.9
Care din coeficientii ecuatiei de regresie difera semnificativ de zero pentru un nivel de semnificatie
p=0.05?
1. cel al lui x1
2. cel al lui x2
3. cel al lui x3
4. niciunul

64

S-ar putea să vă placă și