Documente Academic
Documente Profesional
Documente Cultură
Suport de curs elaborate de catre Conf. Dr. Cosmin Marian FSPAC, UBB Cluj si adaptat de dr. Daniela Angi,
FSPAC, UBB Cluj.
1
Acest curs este o continuare a cursului "Metode de cercetare in stiintele sociale" din anul
Cursul pune accentul asupra invatarii unor metode de analiza cantitativa a datelor (metodele de
culegere a datelor cantitative au fost predate in anul 1, si vor fi recapitulate sumar in acest
semestru). Studentii vor nvata (i) sa formuleze ipoteze de cercetare, (ii) sa operationalizeze
concepte, (iii) sa realizeze o analiza descriptiva a datelor, si (iv) sa analizeze relatii de cauzalitate
ntre fenomenele sociale. Structura cursului, precum si modalitatea de lucru in cadru acestuia, sunt
alese astfel incit sa faciliteze interactiunea dintre profesor si studenti. Cursul va fi axat pe realizarea
unor cercetari, avand deci un caracter aplicat pronuntat iar studentii vor fi incurajati sa lucreze
independent, intr-un mod creativ.
Organizarea temelor n cadrul cursului:
1. Exemple de cercetri n tiinele politice. Etapele unui proces de cercetare.
2. Populaie i eantion. Tipuri de eantioane.
3. Aspecte matematice ale eantionrii. Teste de semnificaie
4. Variabile. Tipuri de variabile.
5. Analiza univariat a datelor
6. Analiza univariat a datelor. Aplicaii.
7. Analiza bivariat a datelor.
8. Analiza bivariat a datelor. Aplicaii.
9. Regresia liniar.
10. Regresia liniar. Aplicaii.
11. Regresia multiliniar
12. Regresia multiliniar. Aplicaii.
Formatul i tipul activitilor implicate de curs:
Pentru unele dintre aplicatii va fi folosit calculatorul. Cursul va presupune comunicarea intre
profesori si studenti cu ajutorul calculatorului: email, intra-net si internet. Studentii vor avea acces
la materiale scrise care vor fi salvate pe server sau vor fi trimise fiecarui student prin e-mail.
Deasemenea, lucrarile scrise de catre studenti vor fi predate profesorilor prin e-mail la urmatoarele
adrese: ds_angi@yahoo.com
Materiale bibliografice obligatorii:
1. Babbie, Earl. Learning from the field: A guide from experience. London: Sage
Publication. 1984.
2. Babbie, Earl. Survey Research Methods, 2nd ed. Belmont, CA: Wadsworth
Publishing Co. 1990
3. Dalton, Rusell. Citizen Politics: Public Opinion and Political Parties in Advanced
Western Democracies. Chatham House Publishers. 1988.
4. Johnson J., Joslyn R., Political science research methods, 1991
5. King, G., R. Keohane, S. Verba, Designing Social Inquiry, 1994
6. Nachmias C., Nachmias D., Research methods in the social sciences, 1996
7. Rotariu T., Metode si tehnici de cercetare in stiintele sociale
8. Rotariu T., Petru Ilut, Ancheta sociologica, Polirom, 1997
9. Rotariu T. (coord.). Metode statistice aplicate in stiintele sociale. Polirom, 2000
10.White L., Political Analysis. Technique and Practice, 1994
Materiale i instrumente necesare pentru curs
Pentru unele dintre aplicatii va fi folosit calculatorul.
2
Calendar al cursului
Tema 1
Argumentare in stiintele sociale. Cercetare in stiintele politice vs. cercetare in alte stiinte
sociale. Metode cantitative vs. metode calitative. Inferente descriptive si inferente
cauzale.
Bibliografie:
King, R. Strategia cercetarii. Polirom. 2005. Cap. 1 si Cap. 2
sau
White, L. Political analysis. Technique and Practice. Cap. 2
Tema 2
Ipoteze de cercetare. Operationalizarea conceptelor. Variabile. Scale de masura.
Indicatori multipli. Eroare de masurare.
Bibliografie:
King, R. Strategia cercetarii. p. 197-205
Rotariu & al. Metode statistice. Polirom. 1999. Cap. 2
Bibliografie optionala:
Culic, Irina. Metode avansate in cercetarea sociala. Polirom. 2005. p. 29-50
Tema 3
Statistica descriptiva. Indicatori ai tendintei centrale: media, mediana, modus. Indicatori
de imprastiere: interval intercuartilic, abatere standar. Grafice: histograme, bar-charts,
scatterplots.
Bibliografie:
Rotariu & al. Metode statistice. Cap. 16
Tema 4
Relatii intre variabile. Asociere/corelatie si cauzalitate. Relatii false (spurious relations).
Modalitati de reprezentare grafica a asocierii.
Bibliografie:
King, R. Strategia cercetarii. Polirom. 2005. p. 71-84
Tema 5
Tabele de asociere cu doua dimensiuni. Indicatori de asociere pentru variabilele de tip
nominal.
Rotariu & al. Metode statistice. p. 119-152
http://www.policy.hu/badescu/handbook.zip Cap. 6
Tema 6
Tabele de asociere cu doua dimensiuni. Indicatori de asociere pentru variabilele de
ordinal si
de tip cantitativ.
Rotariu & al. Metode statistice. p. 119-152
http://www.policy.hu/badescu/handbook.zip Cap. 6
Tema 7
Analiza multivariata. Tabele de asociere cu mai mult de doua dimensiuni.
Bibliografie:
Rotariu & al. Metode statistice. p. 153-164
3
Tema 8
Studiul relatiilor ntre variabile cantitative. Corelatia. Regresia liniara.
Bibliografie:
http://www.policy.hu/badescu/handbook.zip Cap. 7
Rotariu & al. Metode statistice. Cap. 8
Tema 9
Regresia liniara (2).
Bibliografie:
http://www.policy.hu/badescu/handbook.zip Cap. 7
Rotariu & al. Metode statistice. Cap. 8
Tema 10
Teoria testarii. Elemente de baza ale testarii semnificatiei statistice.
Bibliografie:
King, R. Strategia cercetarii. p. 255-271
http://www.policy.hu/badescu/handbook.zip Cap. 5
Tema 11
Scrierea unui proiect de cercetare. Scrierea unui raport de cercetare.
Seminar:
Scrierea unui proiect de cercetare (1).
Bibliografie:
White, L. Political analysis. Technique and Practice. Cap. 14
Politica de evaluare i notare:
Examen final: 100%.
Elemente de deontologie academica
Notiunea de plagiat se defineste n conformitate cu normele deontologice definite la link-ul demai
jos http://fspac.ubbcluj.ro/resurse/formulare-regulamente/reguli-etice-si-deontologice/
Frauda la examenul final se pedepseste cu eliminarea de la examen.
Studenti cu dizabilitati
In cazul unor studenti cu dizabilitati motorii sau intelectuale pot fi contactat pe adresa de e-mail in
vederea gasirii unei solutii in vederea oferirii de sanse egale acestora.
Modul 1
Obiectiv: Prezentarea etapelor unui proces de cercetare n tiinele sociale.
Ghid de studiu:
Organizarea cercetrii
Culegerea datelor
Unitatea 1
Obiectiv: Detalierea obiectivelor propuse n acest modul. Prezentarea etapelor unui proces de
cercetare n tiinele sociale.
Noiuni cheie: teorie, ipoteza, design de cercetare, date si tipuri de date.
cercetarea. Aa cum ne putem da seama din aceste problematici, nu exist o configurare standard a
proiectelor sau a rapoartelor de cercetare.
n cele ce urmeaz vom prezenta structura unui proiect de cercetare, care ns nu are
pretenia de a fi complet sau exhaustiv cerin oricum greu de ndeplinit dat fiind, aa cum am
amintit i mai sus, varietatea subiectului analizat i a constrngerilor care trebuie avute n vedere n
analiza acestuia - ci mai degrab ncearc s fie un punct de plecare pentru pentru cercettorii care
ncearc s se decida asupra unei modaliti de organizare a datelor i de comunicare a ideilor. In
funcie de subiectul abordat, de datele disponibile cu privire la acesta, de metoda de cercetare
utilizat i de teoria de la care se pornete, cerinele enumerate mai jos sunt sau nu sunt prezente n
structura unui design de cercetare particular.
Daca este cazul, mai ales pentru abordrilor calitative, prezentai poziia pe care se plaseaz
cercettorul n raport cu subiectul cercetat, spre exemplu: cercettor ca i membru complet,
cercettor ca i membru activ, cercettor ca i membru periferic (Adler si Adler, 1994).
Specificai criteriile adecvate pentru evaluarea rezultatelor cercetrii. (Atkinson, Heath, i
Chenail, 1991).
Discutai modul n care experiena dumneavoastr anterioar influeneaz modul n care
concepei abordarea subiectului studiat. Prezentai pe scurt experien profesional care v
apropie de tematic.
3. Metoda de cercetare
Identificati i descriei metoda pe care urmeaz s o utilizai (ex: analiz de caz; metoda
comparativ, metoda etnografic, observaie, experiment, etc.). Descriei modul n care ali
autori au utilizat metoda avut n vedere de dumneavoastr (Glaser, B., i Strauss, A. 1967).
Descriei n detaliu ceea ce urmeaz s facei. Prezentai modalitatea de selectare a
subiecilor de la care vor fi culese informaiile necesare cercetrii.
Descriei datele pe care intentinai s le culegei sau pe care intenionai s le utilizai si
procedura de culegere a acestora (ex: baze de date statistice, note de teren, date provenite
din examinarea unor documente, benzi audio sau video, etc). Dac sunt utilizate interviuri
(cum este cazul interviului individual, a celui de grup sau a anchetei, etc) prezentai
ntrebrile folosite (fie n context, fie ataate ntr-un appendix).
Descriei procedurile de culegere i analiz a datelor n ordinea cronologic a desfurrii
lor.
Descriei procedurile de analiz pe care inteionai s le utilizai (codarea datelor, sortarea
datelor, procedurile statistice cu ajutorul crora sunt puse in eviden relaiile existe ntre
date, etc). Prezentai, dac este cazul, programele statistice utilizate pentru modelarea
datelor.
Interpretai rezultatele obinute n funcie de teoria, asumpiile i presupoziiile formulate la
nceputul cercetrii.
4. Concluzii
Reluai pe scurt problematica de la care s-a pornit. Amintii asumpiile i presupoziiile
fcute, metoda de cercetare i rezultatele la care s-a ajuns.
Stabilii legturile existente ntre rezultatele cercetrii dumneavoastr i literatura de
specialitate. care prezint rezultate similare sau asemntoare.
Imaginai modul n care design-ul cercetrii poate evolua de la rezultatele pe care le-ai
obinut i innd cont de evoluiile ulterioare ale domeniului studiat. Specificai
deschiderile lsate de proiectul dumneavoastr i posibillee modaliti de valorificare a
informaiei acumulate ulterior.
Discutai validitatea i fidelitatea procedurilor utilizate n culegerea i analiza datelor.
Discutai posibilelele distorsiuni generate fie de asumpiile i de presupoziiile fcute, fie de
metodele de culegere i de analiz a datelor.
Prezentai modul n care literatura de specialitate v-a influeat n modalitile de abordare a
subiectului cercetat.
Discutai limitele cercetrii dumneavoastr i amintii limitele cu care se confrunt orice
subiect asemntor abordat i n alte studii.
Culegerea datelor
8
O dat formulate ntrebrile la care se intenioneaz a se rspunde prin cercetare, urmtorul pas este
alegerea cazurilor sau a indivizilor care urmeaz a fi investigai pentru a obine datele necesare
confirmrii sau infirmrii propoziiilor referitoare la problematica cercetat. In alegerea cazurilor
noastre putem avea un plan prestabilit, aa cum este cazul n cercetrile cantitative, sau putem s ne
selectm cazurile pe msur ce procesul de cercetare evolueaz, aa cum este cazul n cele mai
multe din cercetrile calitative (Strauss i Corbin, 1990, p. 192).
In faza iniial de culegere a datelor, atunci cnd sunt stabilite categoriile este necesar o
investigare extins i n profunzime a cazurilor pentru a obine date ct mai adecvate cu putin.
Atunci cnd cazurile sunt foarte multe i nu pot fi investigate toate se alege o procedur de
eantionare a populaiei noastre de cazuri. Pentru a stabili ct de multe cazuri vor intra n
atenia analizei noastre, cu alte cuvinte pentru a stabili unde ne oprim cu eantionarea din punct de
vedere teoretic, este nevoie s recurgem la teorie i la logica cercetrii noastre. Ne oprim cu
eantionarea acolo unde nu mai este identificat informaie suplimentar cu ajutorul crei
cercettorul s dezvolte proprieti sau caracteristici ale conceptelor sau categoriilor cu care
lucreaz (Glaser i Strauss 1967, p. 65). In alegerea cazurilor noastre trebuie inut seama de faptul
c nu toate cazurile au aceeai relevan raportat la problematica cercetat i la teoria pe care se
bazeaz cercetarea; astfel, n unele situaii, este suficient un caz pentru a pune n eviden o
anumit problematic, n alte situaii este nevoie de mai multe cazuri pentru a face acelai lucru.
Ca i regul general, alegem attea cazuri cte sunt necesare pentru a avea o imagine complet a
problemei cercetate din perspectivele relevante pentru cercetarea noastr. Adaugarea unui nou caz
trebuie s serveasc unor scopuri specifice ale cercetrii (Yin 1989, p. 53-54), iar aceste scopuri
specifice pot fi: a) identificarea unor concepte i categorii, b) alegerea unui caz pentru a
reproduce rezultatele obinute n alt caz, c) alegerea unui caz opus celui sau celor studiate pn n
acel moment.
Pentru o ct mai bun acoperire a unui fenomen sau fapt social este necesar utilizarea
unor surse multiple de date. Nu exist o singur categorie de date sau o singur tehnic de culegere
a datelor care poate fi etichetat ca adecvat (Glaser i Strauss 1967, p. 65). Diferite surse de date
ofer cercettorului perspective diferite asupra fenomenului studiat. Iniial abordarea unui fenomen
poate avea la baz o singur tehnic de culegere a datelor, ulterior ns este recomandat
identificarea i altor surse de date i a altor tehnici de investigare a acestor date. Utilizarea unor
surse multiple de date consolideaz validitatea abordrii.
Analiza datelor
Analiza datelor reprezint etapa cea mai important n dezvoltarea, confirmarea, extinderea sau
reproducerea unei teorii. Aceast analiz, pentru fiecare caz particular, implic n primul rnd
generarea unor concepte printr-un proces de observare a realitii, de descompunere a fenomenelor
n elementele lor componente i reasamblarea lor n modaliti noi (Strauss i Corbin, 1990).
Analiza datelor este n literatura de specialitate subiect al unei vii dispute ntre cei care consider c
aceasta trebuie fcut prin metode cantitative i cei susin abordrile calitative.
Compararea rezultatelor obinute cu rezultatele din literatura de specialitate.
O dat datele culese, analizate i interpretate problema care se pune este aceea de a compara
rezultatele obinute literatura de specialitate existent i examinarea a ceea ce este similar i a ceea
ce este diferit. Compararea unei teorii noi cu ceea ce deja exist va consolida validitatea intern, va
Modulul 2
Obiective: Introducerea notiunii de eantionare i a problematicii eantionrii
Ghid de studiu:
Cercetri selective: de la populaie la eantion
Reprezentativitatea eantioanelor: a alege civa pentru a i reprezenta pe toi.
Proceduri de eantionare. Tipuri de eantioane
Aspecte matematice ale eantionrii. Teste de semnificaie
Unitatea 1
Obiectiv: Prezentarea noiunii de eantionare
Cuvinte cheie: populaie, eantion, cadru de eantionare, populaie ideal
Eantionarea
Cercetri selective: de la populaie la eantion
Cine va ctiga alegerile prezideniale sau parlamentare? Sunt femeile o minoritate defavorizat n
societile moderne? O politic public sau o decizie administrativ produce modificri ale
comportamentelor indivizilor vizai de acea politic public sau de acea decizie? Cine este pentru i
cine este mpotriva introducerii unor noi msuri fiscale? Ct de popular este msura luat de
autoritile dintr-o anumit unitate administrativ de a construi o nou zon industruial? Toate
aceste ntrebri au n comun o caracteristic important i anume: se refer la populaii att de largi
nct este practic imposibil de obinut informaii cu privire la toate elementele care le compun. Cu
situaii asemantoare - imposibilitatea cuprinderii tuturor elementelor care compun un ntreg - se
confrunt i medicul care face analize de snge i care nu poate extrage tot sngele aflat n
organismul unui pacient pentru a l supune unei investigaii n laborator, cei care fac analize ale
unor elemente din mediul natural pentru a stabili nivelul de poluare, sau cercettorul din tiintele
naturale care taie un exemplar dintr-o specie de plante n scopul efecturii unor analize n laborator.
Att n aceste situaii, ct i n multe altele de acest fel, problema care se pune este aceea de
a culege informaiile necesare pentru a analiza temele avute n vedere doar de la o parte din indivizii
care compun o populaie i nu de la ntreaga populaie. Din punct de vedere tehnic, grupul sau
mulimea de indivizi care constituie obiectul de studiu sau de interes al cercettorului la un moment
dat este denumit populaie, iar grupul mai mic de indivizi de la care sunt culese informaiile
necesare cercetrii este denumit eantion. Setul de operaii cu ajutorul crora, din ansamblul
populaiei vizate de cercetare, se extrage o parte, numit eantion, parte ce va fi supus nemijlocit
investigaiei2 este desemnat ca fiind operaia de eantionare.
Decizia de a culege datele necesare unei cercetri de la un eantion sau de la o populaie
depinde de o serie de aspecte practice. Astfel, n unele situaii, dac timpul, resursele financiare i
Traian Rotariu, Petre Ilu, Ancheta sociologic i sondajul de opinie, Ed. Polirom, Iai, 1997,
p.122.
2
11
umane nu constituie o problem sau dac populaia int nu este foarte numeroas, atunci este multe
mai avantajoas culegerea datelor de la toi indivizii care compun o populaie vizat; n felul acesta
se obine o imagine exact a problematicii investigate. n alte situaii exist o serie de constrngeri
care l impiedic pe cercettor s ajung la toi indivizii care compun o populaie, aceste
constrngeri se refer n primul rnd la timp, resursele financiare i umane aflate la dispoziie,
dispersarea georgrafic a populaiei care urmeaz a fi cercetat, iar soluia cea mai la ndemn
pentru a culege informaiile necesare const selectarea unui eantion i investigarea indivizilor care
l compun. Din acest punct de vedere am putea spune ca eantionarea este un compromis datorat
insuficienei resurselor. Nu ntotdeauna este ns vorba numai de imposibilitatea fizic de a culege
informaii de la toi membrii unei populaii neajuns care n unele situaii poate fi depit ci i de
o lips de eficien practic spre exemplu, n cazul cercettorului din tiinele naturale, care, dac
ar tia toate exemplarele unei specii de plante pentru a le analiza n laborator ar determina dispariia
speciei respective. Pe de alt parte, concentrnd resursele existente doar pentru analiza unei pri
dintr-un ntreg se pot obine rezultate mai bune dect analiznd ntregul, mai ales atunci cnd acest
ntreg este format din muli indivizi a cror investigare implic utilizarea unui personal auxiliar
numeros care datorit lipsei de specializare poate genera erori mai grave dect dac ar fi analizat o
parte din acel ntreg utiliznd un personal specializat.
Unul dintre primele aspecte care trebuie luate n considerare atunci cnd se pune problema
realizrii unor cercetri practice este aceea a delimitrii populaiei care urmaz a fi studiat. n acest
context, prin populaie sunt desemnate toate elementele care pot sau trebuie s fie studiate.
Elementele pot fi indivizi umani, dar n acelai timp pot fi gospodrii, coli, spitale, intreprinderi
economice, orae, organizaii sociale sau profesionale, ziare, articole de pres, discursuri ale unor
oameni politici, etc. Indiferent ns de cine sau ce constituie elementele populaiei vizate, aceasta
trebuie s fie atent delimitat n funcie de obiectivele cercetrii, ntruct rezultatele finale vor
depinde de acest punct de referin stabilit iniial. Spre exemplu, s ne imaginm c ntr-un ora se
pune problema adoptrii unui nou sistem de transport n comun, iar ceea ce ne intereseaz este
acordul sau dezacordul cetenilor cu privire la modul practic de realizare a acestuia. n acest caz,
populaia vizat este compus doar din cei care locuiesc n oraul respectiv? sau trebuie avut n
vedere i populaia care nu locuiete n ora, dar care ntr-o msur sau alta beneficiaz de
transportul n comun din acel ora? care este vrsta minim i maxim a celor care vor fi
chestionai?, etc. Intrebri asemntoare acestora se ivesc de fiecare dat cnd se pune problema
definirii unei populaii care urmeaz a fi cercetate, iar de rspunsurile date vor depinde n mod
evident rezultatele finale. Un prim pas n definirea unei populaii vizate este acela de a stabili o
populaie ideal, adic toi cei care ipotetic ar trebui s fie luai n considerare atunci cnd se
cerceteaz o problematic anume. Dup care n funcie de constrngerile practice identificate spre
exemplu, n cazul n care elementele populaiei sunt indivizi umani, astfel de constrngeri ar putea
fi date de imposibilitatea de a i investiga pe cei aflai n nchisori, uniti militare, spitale, hoteluri,
n strintate, etc populaia ideal poate fi restrns la o populaie vizat care poate fi abordat n
cadrul cercetrii. Avantajele lurii n considerare n faza iniial a unei populaii ideale este acela c
excluderea unor segmente din aceasta este explicit, iar neajunsurile rezultate de aici pot fi luate n
considerare.
O dat stabilit populaia vizat, poate fi pus i problema alegerii unui eantion. Pentru
aceasta, elementele populaiei vizate sunt traspuse ntr-o list numit cadru de eantionare, list din
care vor fi extrase ulterior potrivit unor proceduri clar definite acele elemente care vor compune
eantionul. Spre exemplu, dac se realizeaz o anchet telefonic al crui scop este investigarea
modului n care dotarea cu utiliti publice a unei localiti acoper necesitile existente, populaia
ideal este constituit din toate gospodriile care au acces la utiliti publice, iar cadrul de
eantionare este format din toate gospodriile care au acces la utiliti publice i au telefon.
Constrngerea n acest caz este dat de existena unui post telefonic n gospodrie. Gospodriile
12
care au acces la utiliti dar care nu au telefon neputnd fi investigate, populaia vizat este format
doar din acele gospodrii care au acces la utiliti publice i au telefon (Figura 1.). n exemplul de
fa, astfel de liste care s se constituie n cadru de eantionare pot fi evidene ale companiilor
funizoare de utiliti publice i liste ale abonailor la servicii telefonice din localitatea avut n
vedere.
De la caz la caz, n funcie de problema investigat, pot constitui cadru de eantionare: lista
celor care sunt nscrii la un medic de familie sau la medicii de familie care opereaz ntr-o anumit
arie care urmeaz a fi acoperit de cercetare, lista celor abonai la o firm furnizioare de servicii de
televiziune prin cablu, lista celor abonai la o anumit publicaie, lista celor care figureaz n
registrul auto, lista celor care figureaz n registrul de carte funciar, etc. Ideal toate aceste liste ar
trebui s includ fiecare element al populaiei vizate doar o singur dat. n realitate ns exist o
serie de neajunsuri printre care cele mai importante sunt:
lipsa unor elemente: fie lista este inadecvat n sensul n care iniial nu a fost conceput pentru a
include toate elementele care pot face la un moment dat obiectul de interes al cercettorului, fie
este incomplet, adic nu include din diferite motive toate elementele care se presupune care c
ar trebui s le includ;
referine la grupuri de elemente i nu la elemente individuale; spre exemplu, liste care nu se
refer la numrul de persoane ci la numrul de familii care locuiesc ntr-o gospodrie, dar
cercetarea vizeaz persoane i nu familii;
existena unor elemente straine, adic existena n list a unor elemente care din diferite motive
nu fac obiectul de studiu la un moment dat;
exitena unor duplicate: cnd unele elemente ale populaiei apar de mai multe ori pe o list.
Remedierea tuturor acestor neajunsuri va duce n mod evident la obinerea unui eantion mai
bun. De la caz la caz prin remediere se nelege: identificarea elementelor lips i introducerea lor
n lista care constituie cadrul de eantionare, identificarea tuturor elementelor care fac parte dintr-un
grup, eliminarea unor elemente strine care nu au legtur cu tematica cercetrii, eliminarea
duplicatelor i pstrarea pe o list a unui element doar o singura dat.
O modalitate de a depi aceste neajunsuri const n redefinirea problematicii cercetate n
aa fel nct elementele populaiei care nu pot fi identificate s nu fac obiectul unei anumite
cercetri. Acest lucru evident nu este posibil n toate situaiile i nu este posibil mai ales n acele
situaii n care elementele care nu pot fi identificate constituie majoritatea elementelor unei
populaii.
Atunci cnd nu exist liste care s cuprind elementele unei populaii vizate prin cadru de
eantionare poate fi desemnat orice alt procedur care s permit idetificarea elementelor unei
populaii. Spre exemplu, o arie geografic poate juca rolul de cadru de eantionare, situaie n care
elementele populaiei vizate sunt asociate cu un anumit spaiu natural. Astfel, aria geografic
ocupat de o populaie vizat poate fi mprit n zone mai mici din care sunt alese aleator cteva,
care la rndul lor sunt divizate n arii mai mici dintre care vor fi selectate aleator cteva i aa mai
departe pn la utimul stadiu cnd din anumite zone astfel selectate sunt investigate toate
elementele.
Figura 1. Cadrul de eantionare pentru selectarea unui eantion n vederea investigrii printro anchet telefonic a gradului de satisfacere de ctre utilitile publice a nevoilor populaiei unei
localiti (exemplu ipotetic).
13
Unitatea 2
Arlene Fink, How to Sample in Surveys, Sage Publications, Thousands Oaks, London, New York,
1995, p.1.
14
funcie de caracteristica care este avut n vedere. Cu alte cuvinte, un eantion nu este reprezentativ
n general, ci are o anumit reprezentativitate n raport cu o anumit caracteristic i o alt
reprezentativitate n raport cu o alt caracteristic.
Gradul de reprezentativitate al unui eantion depinde de trei factori importanti caracteristicile populaiei din care este extras, de mrimea eantionului i de procedura de
eantionare factori care au fost sintetizai de Rotariu i Ilu n lucrarea Ancheta sociologic i
sondajul de opinie i pe care i voi reaminti n cele ce urmeaz.
Cum am spus deja reprezentativitatea unui eantion este dat de capacitatea acestuia de a
reproduce o serie de caracterisitici existente n populaie. Dac o caracteristic este mai omogen
distribuit ntr-o populaie un acelai eantion va fi mai reprezentativ pentru acea caracteristic
dect pentru o alt caracteristic care este distribuit mai eterogen n aceeai populaie. Sau altfel
spus, pentru a obine o aceeai reprezentativitate, pentru o caracteristic n raport cu care populaia
este mai omegen este nevoie de un eantion de mrime mai mic dect pentru o caracteristic n
raport cu care populaia este mai eterogen.
Mrimea eantionului se refer la numrul de elemente care l compun i care trebuie
investigate pentru a obine rezultate ct mai precise. Intuitiv, un eantion este cu att mai
reprezentativ cu ct cuprinde mai multe elemente din populaia vizat, n felul acesta obinndu-se o
reproducere mai bun a acesteia. Dar creterea nivelul de reprezentativitate nu este direct
proporional cu creterea numrului de elemente din populaia vizat care sunt incluse n eantion,
adic nu avem o relaie linear ntre cele dou componente, dimpotriv aceast relaie poate fi
reprezentat sub forma unei curbe asemntoare celei din figura de mai jos (Figura 2.). Astfel, dac
modificm mrimea eantionului cu o cantitate K de elemente, iar eantionul cuprinde iniial un
numr mic de elemente, modificarea gradului de reprezentativitate este mai mare dect dac
modificm mrimea eantionului cu aceeai cantitate K de elemente dar eantionul este compus
iniial dintr-un numr mare de elemente.
Figura 2. Relaia dintre reprezentativitate i mrimea eantionului.
Mrimea eantionului este indepedent de mrimea populaiei din care este extras. Un
eantion de o anumit mrime i constituit dup aceleai proceduri are aceelai grad de
reprezentativitate i atunci cnd este extras din populaia unei ri i atunci cnd este extras din
populaia unui ora. Consecina faptului c reprezentativitatea unui eantion nu depinde de mrimea
popolaie din care este extra este aceea c acesta are un anumit grad de reprezentativitate pentru
ntreaga populaie, dar subeantioanele n care se mparte i care respect proporia diferitelor
15
segmente ale populaiei nu mai au acelai grad de reprezentativitate pentru aceste segmente ca i
eantionul iniial.
n ceea ce privete procedura de eantionare, aceasta influeneaz att gradul de
prezentativitate al unui eantion ct i posibilitatea exprimrii numerice a acesteia. Din punct de
vedere tehnic matematic, calcularea reprezentativitii unui eantion este posibil numai n cazul
eantioanelor probabilistice sau aleatoare. Un eantion probabilistic este acel eantion pentru care
fiecare element din populaia vizat are o ans calculabil i nonnul de a fi selectat n eantion.
Posibilitatea calcularii ansei ca un element din populaie s fie selectat n eantion permite
calcularea unei marje de eroare (d) i a unui nivel de probabilitate (P) prin care s fie exprimat
cantitativ reprezentativitatea eantionului. n cazul eantioanelor neprobabilistice, cele pentru care
ansa unui element al populaiei de a face parte din eantion nu este cunoscut, nu poate fi calculat
gradul de reprezentativitate i prin urmare nici nu se poate vorbi de reprezentativitatea lor.
Unitatea 3
Obiectiv: Proceduri de eantionare. Tipuri de eantioane
Cuvinte cheie: selecie la ntmplare, eantioane probabilistice, eantioane neprobabilistice
Proceduri de eantionare. Tipuri de eantioane
Distincia clasic n ceea ce privete tipurile de eantioane este aceea ntre eatioanele probabilistice
sau aleatoare i cele neprobabilistice.
n primul caz n procesul de selectare a unui element din populaie pentru a face parte din
eantion se presupune c se face la ntmplare fr s intervin n vreun un fel subiectivismul
celui care aplic procedura de eantionare i nici vreun alt fenomen care s afecteze ansa unuia
sau unor indivizi de a fi selectai. Dat fiind aceast constrngere, urmtoarele situaii: alegerea la
ntmplare a unui numr de oameni care intr ntr-o instituie de la orele 8.00 pn la orele 10.00
ale unei zile, constituirea unui eantion de gospodrii alese la ntmplare atunci cnd ne plimbm
pe cteva strzi dintr-o localitate, sau constituirea unui eantion format din localiti rurale ale unui
jude, selectnd tot ntmpltor localiti rurale care se afl pe oseau care leag dou orae ale
judeului respectiv, etc, nu vor duce la constituirea unor eantioane probabilistice. Motivul pentru
care nu vom obine n aceste cazuri eantioane aleatoare este acela c n alegerea pe care o facem
la ntmplare excludem fie intenionat, fie neintenionat o parte din elementele populaiei vizate.
Astfel n primul caz, dac vrem s alegem un eantion reprezentativ pentru cei care frecventeaz o
anumit instituie i vom selecta la ntmplare doar pe cei care intr n acea instituie n intervalul
orar amintit i vom exclude pe toi cei care la momentul respectiv nu au ansa de a intra n acea
instituie, similar vom exlude fr s vrem gospodriile care nu au ansa de a se gsi pe strzile pe
care ne plimbm sau localitile rurale care nu au ansa de a se afla pe oseaua care leag cele dou
orae ntre care ne deplasm. Mai mult, nu putem calcula ansa pe care fiecare element din cele trei
cazuri prezentate mai sus persoane, gospodrii, localiti rurale le are de fi selectat n eantion.
n toate aceste cazuri este clar c ntmplarea favorizeaz anumite elemente i anuleaz ansele
altor elemente care sunt exluse a priori ntruct nu au ansa de a se afla la locul sau pe traseul pe
care se deplaseaz cel care face selecia.
Pentru a evita aceste situaii ar trebui s avem o situaie clar a tuturor elementelor care
compun o populaie i s le putem identifica fr echivoc.
Aa cum am artat deja n paragraful anterior, n cazul procedurilor de eantionare
probabilistice fiecare element care compune o populaie trebuie s aib o ans diferit de zero i
16
calculabil de a face parte din eantion. Acesta este criteriul de baz n stabilirea dihotomiei:
eantioane probabilistice - eantioane neprobabilistice
De-a lungul timpului au fost dezvoltate o larg varietate de tehnici de eantionare, dintre
acestea cele mai frecvent ntlnite sunt: eantionarea simpl aleatoare, eantionarea aleatoare prin
stratificare, eantionarea aleatoare multistadial sau cluster, eantionarea pe cote, eantionarea tip
bulgre de zpad. n cele ce urmeaz vom prezenta o serie de aspecte legate de modul de
aplicare al fiecreia dintre aceste proceduri de eantionare.
Eantioane probabilistice
1. Eantionarea simpl aleatoare
Eantionarea simpl aleatoare este probabil procedura cea mai important i cea mai des
utilizat n domeniul cercetrilor practice i este considerat procedura de referin, ideal, atunci
cnd se pune problema stabilirii unor tehnici de eantionare. Asumpiile de baz ale acestei tehnici
sunt acelea c: fiecare element al populaie vizate are exact aceeai ans ca i oricare alt element al
aceleiai populaii de a fi selectat n eantion, iar selectarea unui element n eantion nu a influenat
n nici un fel ansele altui element de a fi selectat. Tehnica tipic sau modelul de realizare al acestui
tip de eantionare este reprezentat de metoda urnei, situaie n care fiecarui element dintr-o
populaie vizat i corespunde o bil; toate bilele corespunztoare unor membrii ai populaiei vizate
sunt introduse ntr-o urn dup care sunt amestecate i se extrage pe rnd cte una pn se ajunge la
un numr de bile egal cu numrul de elemente care vor compune eantionul. Simplu de pus n
practic din punct de vedere teoretic, procedura astfel definit ntmpin o serie de dificulti mai
ales atunci cnd se lucreaz cu populaii mari, situaie n care este practic imposibil de conceput o
urn n care s poate fi introdus un numr de bile egal cu numrul de indivizi care compun populaia
unei ri spre exemplu.
O a doua metod de realizare a unei eantionri simple aleatoare sunt tabelele cu numere
aleatoare. Procedura const n generarea unor iruri de numere aleatoare i introducerea lor ntr-un
tabel similar celui prezentat mai jos (Tabelul 1.). Fiecrui element din populaia vizat, care trebuie
identificat univoc, i se atribuie un numr de la 1 la N. Cel care realizeaz selecia, alege la
ntmplare un numr din irul de numere aleatoare i caut apoi n populaia vizat elemetul cu
numrul de ordine reprezentat de numrul aleator respectiv, element care va face parte din eantion.
Dup care din tabelul de numere aleatoare este ales numrul urmtor i se identific din nou n
populaia vizat elementul cu numrul de ordine identic cu numrul aleator, element care este i el
introdus n eantion. Procedura continu n acest fel pn la completarea numrului de elemente
necesare constituirii eantionului. n cazul n care unui numr aleator nu i corespunde un numr
atribuit unui element din populaia vizat, acest nu este utilizat i se trece la urmtorul.
Tabelul 1. Tabel de numere aleatoare (exemplu ipotetic).
67
53
45
76
23
09
21
32
27
90
07
11
03
75
41
83
47
23
17
72
98
78
63
49
03
77
86
26
19
15
89
33
05
92
94
28
73
10
40
77
11
48
81
01
50
13
43
85
Numerele aleatoare pot fi compuse din start din mai mult de dou cifre, sau pot fi compuse,
n funcie de necesiti, din mai mult de dou cifre de ctre cel care face eantionarea prin adugarea
la o coloan a cte cifre este nevoie din coloana sau coloanele alturate. Astfel, n exemplul de mai
sus dac la prima coloana se adaugat prima cifr din coloana a doua se obin numerele: 672, 533.
452, 769, 230, 091.
O alt procedur de punere n practic a unei eantionri simple aletoare este cunoscut sub
denumirea de metoda pasului. n aceast situaie este necesar o list care s cuprind toate
elementele populaiei vizate, fiecrui element fiindu-i atribuit un numr de la 1 la N. Dup care se
stabilete un pas de eantionare, de obicei egal cu raportul dintre mrimea populaiei (N) i mrime
eantionului (n): N/n. Se alege la ntmplare un numr din lista care cuprinde toate elementele
populaiei vizate, elementul corespunztor acelui numr fiind primul element al eantionului, dup
care ncepnd de la acel element tot al N/n lea element din populaie este selectat n eantion. Pasul
de N/n se aplic de cte ori este nevoie pentru a selecta numrul de elemente care trebuie s fac
parte din eantion. Procedura pasului mai este cunoscut i sub denumirea de eantionare simpl
sistematic.
Spre exemplificare, s presupunem c populaia vizat este format din 5000 de gospodrii,
i dorim s constituim un eantion format din 250 de gospodrii. Pasul de eantionare n acest caz
va fi 5000/250 = 20. Gospodriile sunt ordonate pe o list, fiecreia atribuindu-i-se un numr de la
1 la 5000. Se alege la ntmplare o un numr de pe list, s spunem c acest numr este 27, iar
gospodria creia i-a fost atribuit acest numr este primul element al eantionului nostru.
Urmtoarele gospodrii care vor face parte din eantion sunt cele crora le corespund numerele: 52,
77, 102, 127, 152, 177 i aa mai departe pn la selectarea a 250 de gospodrii.
18
Concluzie
Eantionarea este un procedeu des utilizat n practica de cercetare n diferite domenii ale activitii
umane. De la medicul care face analize de laborator prelevnd o prob de snge de la un pacient i
pn la cei care sunt interesai de aspecte ale opinei publice n diferite domenii precum: preferinele
electorale, acordul sau dezacordul cu anumite politici publice sau decizii administrative, etc. n
funcie de tematica avut n vedere i de informaiile disponibile cu privire la populaia vizat
procedurile de eantionare respect mai mult sau mai puin anumite rigori n ceea ce privete
selectarea elementelor din populaie care vor constitui eantionul.
n practic procedurile de eantionare prezentate pe parcursul acestui capitol sufero serie de
abateri i de adaptri sau ajustri . De cele mai multe ori acestea constau n combinarea mai multor
tehnici de eantionare n felul acesta sperndu-se obinerea unor informaii ct mai corecte i mai
precise despre populaia avut n vedere.
ntrebri:
1. Ct de multe elemente trebuie s cuprind un eantion extras dintr-o populaie perfect omogen?
2. ntre un eantion simplu aleator i unul prin stratificare este mai reprezentativ: a) cel simplu
aleator, b) cel prin stratificare c) amndou eantioanele au acelai nivel de reprezentativitate.
3. S presupunem c se realizeaz un eantion utiliznd metoda pasului. Mrimea eantionului
este de 200 de elemente iar cea a populaiei vizate este de 2800 de elemente. Care este mrimea
pasului utilizat? De la al ctelea element al populaiei poate ncepe punerea n practic a pasului
de eantionare?
Bibliografie:
1. Babbie, E. Survey Research Methods, Belmont, Calif. Wadsworth, 1973
2. Fink, A., How to sample in surveys, Sage Publications, Thousands Oaks, London, New York,
1995.
21
3. Johnson, J., Joslyn, R., Political science research methods, CQ Press, Washington, 1995.
4. Kalton, G., Introduction to survey sampling, Sage University Press, 1983.
5. Rotariu, T., (coord.). Metode statistice aplicate n tiinele sociale. Ed. Polirom, Iai, 1999.
6. Rotariu, T., Ilu P., Ancheta sociologic i sondajul de opinie. Ed. Polirom, Iai, 1997.
7. Schimdt, M., Understanding and using statistics. Basic concepts, Second Edition, Lexington,
Massachusetts, Toronto, 1979.
Unitatea 4
Obiectiv: Prezentarea aspectelor matematice ale eantionrii
Cuvinte cheie: intervale de conficen, teste de seminificaie, testul t, testul Z, testul 2 (hi ptrat)
22
oarecare mprit la rdcin ptrat din mrimea eantionului. Abaterea standard a noii variabile
este denumit eroare standard (e):
Revenind la ntrebarea din exemplul de mai sus: care este valoarea medie a indicelui de
inteligen pentru ntreaga populaie de elevi vizat? Un rspuns exact nu poate fi dat ntruct nu a
fost investigat ntreaga populaie. tiind ns c distribuia valorilor medii msurate pe multe
eantioane extrase din populaia de elevi vizat este normal putem calcula un interval despre care
s spunem c, cu probabilitate de 95% include media indicelui de inteligen din ntrega populaie
vizat. Acest inteval este cuprins ntre plus dou i minus dou erori standard (e = 12/5 = 2,4) n
jurul valorii medii obinute pe un eantion oarecare extras din acea populaie, adic ntre 108 4,8
i 108 + 4,8. Intervalul astfel construit poart denumirea de interval de confiden.
Teste de semnificaie. Inferena statistic
Adeseori observm diferene ntre rezultatele obinute atunci cnd se fac msurtori pe dou
eantioane diferite extrase din aceeai populaie. Spre exemplu, 17% dintre cei chestionai n cadrul
unei anchete sociale sunt de acord cu o anumit decizie a administraie publice locale la un anumit
moment dat de timp, dar numai 11% au aceeai opinie la un alt moment de timp. Problema care se
pune n aceast situaie este: ct de real sau de semnificativ este diferena ntre cele dou grupuri
cei chestionai la un moment de timp i cei chestionai la un moment de timp ulterior? Este
aceast diferen autentic sau sau este rezultatul fluctuaiilor fireti ale eantionrii?
Similar ne putem ntreba: ce se poate spune despre valoarea unei caracteristici dintr-o
populaie pe baza rezultatelor obinute atunci cnd este investigat un eantion? vor fi rezultatele
obinute atunci cnd se fac msurtori pe un eantion identice cu rezultatele obinute atunci cnd se
fac msurtori pe ntreaga populaie? iar dac nu, diferenele identificate sunt semnificative sau nu?
mrimea eantionului influeneaz modul n care rezultatele obinute reflect caracteristici ale
populaiei?
Toate aceste ntrebri sunt justificate ntruct, aa cum am artat n capitolul dedicat
eantionrii, eantioanele nu reproduc exact caracteristicile unei populaii, ci exist o anumit
diferen ntre valoarea unei caracteristici msurat pe un eantion i valoarea aceleiai caracteristici
msurat pe populaia din care este extras eantionul. Cu toate acestea de multe ori suntem pui n
situaia de a trage concluzii cu privire la starea unei populaii pornind de la msurtori efectuate la
nivelul unui eantion, cu alte cuvinte se pune problema de a face inferene de la eantion la
populaie. Bazate pe numere utilizate pentru a sumariza, evalua sau analiza un set de informaii cu
privire la un fenomen analizat, numere care n literatura de specialitate sunt denumite statistici,
inferenele de acest fel sunt i ele denumite inferene statistice. Inferenele statistice, ca urmare a
faptului c eantioanele pe baza crora sunt realizate constituie doar aproximri ale unei populaii,
prezint neajunsul de a putea produce concluzii eronate. Prin urmare, atunci cnd se compar dou
valori ale unor caracteritici dintre care cel puin una a fost obinut prin msurtori efectuate pe un
eantion, se pune problema semnificaiei diferenei dintre ele.
Din punct de vedere cantitativ, vom spune c diferena ntre dou valori, fie c una este
msurat pe un eantion i alta pe o populaie, fie c amndou valorile sunt msurate pe
eantioane, este semnificativ atunci cnd nu poate fi ncadrat cu un anumit nivel de probabilitate
acceptabil ntr-o limit maxim prestabilit. Pe de alt parte, o diferen care nu este semnificativ
potrivit definiiei de mai sus nu nseamn n mod automat c nu poate fi real, ci doar c nu se poate
spune cu un nivel de probabilitate acceptabil c este real.
23
Pentru a facilita munca n domeniul practic au fost elaborate seturi de reguli pe baza crora
se stabilete dac diferenele ntre valori sunt sau nu semnificative statistic. Fiecare set de astfel de
reguli poart denumirea de test de semnificaie i are scopul de a ajuta la stabilirea unei concluzii
statistice cu privire la starea unor caracteristici ale populaiei investigate. Testele de semnificaie nu
sunt probe absolute ale existenei sau non-existenei unei diferene semnificative ntre dou valori,
ele doar permit estimarea n raport cu o ipotez prealabil a probabilitii prezenei unei diferene
reale ntre valori. Cel mai adesea astfel de ipoteze n care sunt enunate predicii cu privire la
valorile unor caracteristici avute n vedere n cercetare iau forma ipotezei nule, adic a afirmrii
inexistenei unei diferene semnificative ntre dou valori comparate. Mai clar spus, ipoteza nul
este ipoteza care afirm c dou mrimi A i B msurate pe eantioane diferite sau una msurat pe
un eantion i una pe o populaie, sunt egale. innd cont de toate aceste un test de semnicaie poate
fi definit ca fiind msura diferenei dintre dou valori n raport cu ipoteza nul.
Ipoteza nul este testat n felul urmtor: dac cu un anumit nivel de probabilitate diferena
dintre cele dou valori comparate este mai mare dect o valoare maxim prestabilit atunci ipoteza
nul este respins i vom spune ca acea diferen este semnificativ. n caz contrar cu un anumit
nivel de probabilitate diferena ntre valori este mai mic dect o valoare maxim prestabilit
ipoteza nul este susinut i vom spune c diferena respectiv nu este semnificativ. O ntrebare
fiereasc este: ct de mare trebuie s fie nivelul de probabilitate pentru a accepta sau respinge
ipoteza nul? Alegerea depinde n general de ipoteza care urmeaz a fi testat. Practica a consacrat
ns ca nivel de probabilitate cel mai des utilizat pragul de 0.95 (95%) spunndu-se despre o
diferen care cu o probabilitate de 95% nu depete o valoare maxim prestabilit c este
semnificativ statistic.
Valorile comparate pot fi dup caz: medii, proporii, sau orice alte msuri. Una din valorile
avute n vedere n cazul n care sunt efectuate teste de semnificaie poate fi zero, ceea ce nseamn
c practic testm semnificaia unei singure mrimi n comparaie cu valoarea zero.
n funcie de mrimea grupurile pe care sunt msurate valorile caracteristicilor urmrite i de
modul de msurare a acestora avem mai multe teste de semnificaie. n cele ce urmeaz vom
prezenta testul Z, testul Student (t), i testul 2 (hi ptrat).
Testul Z
Este un test de semnificaie utilizat n cazul n care se compar valorile unor caracteristici msurate
pe eantioane mari (de ordinul a sute sau mii de indivizi). Cele dou valori comparate pot fi
msurate fie una pe o populaie i una pe un eantion, fie amndou valorile sunt msurate pe
eantioane diferite.
n prima situaie, fie a i b cele dou valori ale aceleiai caracteristici, dintre care valoarea a
este msurat pe o populaie iar valoarea b este msurat pe un eantion i fie e eroarea standard a
caracteristicii luate n considerare. Testul Z este definit dup formula:
ab
e
i exprim de fapt diferena dintre valorile a i b n erori standard. Dac valoarea testului Z
este mai mare de 1.96 atunci diferena dintre cele dou valori este semnificativ din punct de vedere
statistic la un nivel de probabilitate de 0,95 (95%). Sau altfel spus, cu o probabilitate de 95%
24
diferena ntre cele dou valori este semnificativ din punct de vedere statistic. Alturi de nivelul de
probabilitate de 0.95 mai sunt utilizate nivelele de probabilitate de 0.99 (Z=2,6) i 0,999 (Z=3,3).
Valorile pragurilor de probabilitate pentru testul Z sunt prezentate n Tabelul 1.
Pentru a ilustra modul de aplicare a testului Z vom utiliza un exemplu. S presupunem c n
cadrul unui referendum 42% dintre cetenii unei localiti sunt de acord cu introducerea unui nou
sistem de impozite. Cu toate acestea ntr-un sondaj de opinie realizat anterior referendumului pe un
eantion de 900 de persoane indic c doar 37% dintre ceteni vor fi de acord cu noua gril de
impozitare. Este diferena ntre cele dou valori autentic sau nu? Sau altfel spus, este diferena
dintre cele dou valori semnificativ?
Pentru a pune n eviden acest lucru calculm:
2 = 0,37(1 0,37) = 0,2331
sau
0,48
900
= 0,48
e 1,6%
0,016
12
n1
22
n2
unde n1 i n2 sunt mrimile celor dou eantioane, iar 1 i 2 sunt abaterile standard ale
valorilor caracteristicii pentru fiecare dintre cele dou eantioane.
Testul Student ( t )
Atunci cnd se pune problema de a compara valori ale unor caracterisitici dintre care cel puin una
este obinut prin msurtori efectuate pe eantioane de mrimi mici (pna la 30 de indivizi)
corespondetul testului Z este testul Student (t). Formula de calcul a testului Student este identic cu
aceea a testului Z:
a b
e
25
Deosebirea fa de testul Z const n modul de calcul al erorii standard (e) care se face dup
formula:
xx
n 1
n
dac una dintre valori este msurat pe o un eantion de mrime n i una pe o populaie, i
dup formula:
x1
x
2
x2
n1 n2 2
dac cele dou valori sunt msurate pe eantioane ale cror mrimi sunt n1 respectiv n2.
La fel ca i n cazul testului Z i pentru testul Student sunt utilizate diferite praguri de
probabilitate (Tabelul 2.) care reclam i specificarea numrului de grade de libertate, care se
calculeaz dup formulele:
respectiv
n 1
n1 n2 2
26
ceea ce i nemulumete cel mai mult la locul de munc, rspunsurile oferite avnd urmtoarele
frecvene:
frecvena
24
10
27
11
28
ntrebarea care se pune n aceast situaie este: exist un motiv de nemulumire care este mai
acut dect altele?
Ipoteza nul n aceast situaie ar fi aceea c fiecare dintre motivele enumerate mai sus
nemultumete n egal msur pe funcionarii acelei instituii, adic fiecare dintre cele cinci
rspunsuri avnd aceeai probabilitate de a fi indicat de ctre respondei. Din punct de vedere
statistic aceasta ar nsemna c frecvenele observate ale rspunsurilor primite pot fi considerate
egale cu frecvenele ateptate. Dac ipoteza nul este susinut atunci rspunsurile ar trebui s fie
distribuite aleator pe cele cinci categorii de rspunsuri luate n considerare.
Pentru a testa aceast ipotez s utilizm testul 2 (hi ptrat) care este definit dup formula:
(Oi Ai )
Ai
i
unde Oi reprezint frecvenele observate, iar Ai reprezint frecvenele ateptate (adic
distribuia aleatoare a rspunsurilor pe cele cinci categorii ale caracteristicii analizate motiv de
nemulumire).
n
Oi
24
10
27
11
28
Ai
20
20
20
20
20
Oi - Ai
4
-10
7
-9
8
(24 20) 2 (10 20) 2 (27 20) 2 (11 20) 2 (28 20) 2
20
20
20
20
20
4 2 10 2 7 2 9 2 8 2
20 20 20 20 20
27
2 15
.50 5.00 2.45 4.05 3.20
0.80
Valoarea obinut pentru 2 (15.50) se compar cu valorile critice ale distibuiei hi ptrat
(Tabelul 3.) pentru diferite nivele de probabilitate, dintre care cel mai des utilizat este i de aceast
dat pragul de 0,95 (95%) .Ca i n cazul testului Student compararea valorilor critice ale unei
distribuii observate cu ditribuia hi ptrat reclam specificarea numrului de grade de libertate,
numr care se calculeaz dup formula df = k 1, unde k reprezint numrul de categorii ale
caracteristicii analizate. n exemplul de mai sus k = 5-1 = 4 i cutnd n tabelul cu valori critice ale
lui hi ptrat gsim c pentru nivelul de probabilitate de 95% i 4 grade de libertate valoarea critic
este 9,488. Cum 15.50 este mai mare dect aceast valoare critic, vom spune c ipoteza nul se
respinge cu o probabilitate de 95% sau, cu alte cuvinte, rspunsurile date de funcionari nu se
distribuie aleator ci exist un anumit motiv de nemulumire care este mai acut dect celelalte, iar
acest rezultat nu este generat de fluctuaiile de eantionare.
Hi ptrat poate fi utilizat i pentru a testa dac dou variabile sunt sau nu asociate. Fie, spre
exemplu, urmtoarea situaie ipotetic: 600 de locuitori ai unei localiti sunt ntrebai dac vor
sprijini sau nu o schimbare a modului de alocare a veniturilor bugetare ale localitii lor au rspuns
dup cum urmeaz:
Frecvene observate
cei cu vrsta sub 25
cei cu vrst ntre 26 i 45 de ani
cei cu varsta peste 45 de ani
Total
Da
110
40
50
200
Nu
40
100
80
220
Nu tiu
30
60
90
180
Total
180
200
220
600
n aceast situaie se poate pune ntrebarea: exist sau nu o preferin a unei anumite
categorii de vrst pentru schimbarea modului de alocare a veniturilor? Cu alte cuvinte exist o
relaie ntre vrst i acordul cu aceast schimbare? Pentru a rspunde la aceast ntrebare trebuie s
vedem cum ar trebui s arate distribuia n situaia n care nu exist asociere. Astfel, dac nu ar
exista o relaie ntre variabile, atunci preferinele ar trebui s se distribuie uniform pentru fiecare
categorie de vrst n parte; cu alte cuvinte, o treime dintre indivizii din fiecare categorie de vrst
s fie de acord cu schimbarea, o treime s nu fie de acord i o treime s rspund c nu tiu. Acest
lucru raportat la frecvenele din tabelul de mai sus ar nsemna: 60 de persoane cu vrsta sub 25 de
ani s fie de acord cu schimbare (adic o treime din cele 180 de persoane cu vrsta sub 25 de ani
cuprinse n eantionul nostru), 66,67 persoane cu vrsta cuprins ntre 26 i 45 de ani i aa mai
departe:
Frecvene ateptate
Da
Nu
Nu tiu
Total
cei cu vrsta sub 25
60
66
54
180
cei cu vrst ntre 26 i 45 de ani
66,67 73,33
60
200
cei cu varsta peste 45 de ani
73,33 80,67
66
220
Total
200
220
180
600
Calculndu-l pe hi ptrat obinem:
(110 60) 2 (40 66) 2
(40 66,7) 2 (100 73,332 )
(90 66) 2
...
...
60
66
66,728
73,33
66
2
2 99,11
df ( j 1)(k 1)
unde j reprezint numrul de rnduri ale tabelului n care sunt dispuse frecvenele i k
reprezint numrul de coloane. n acest caz df = 4. Cautnd n tabelul cu valori critice pentru 2
observm c unui nivel de probabilitate de 95% i 4 grade de libertate i corespunde valoarea 9,488,
valoare mai mic dect valoarea calculat a lui 2 . n aceast situaie vom spune c ipoteza potrvit
creia nu exist asociere ntre vrst i preferina pentru schimbarea modului de alocare a
veniturilor se respinge.
Teste parametrice sau non-parametrice?
Cnd utilizm teste parametrice i cnd utilizm teste non-parametrice pentru a analiza un
set de date? Rspunsul la aceast ntrebare nu este ntotdeun foarte tranant.
Astfel, nu vom putea utiliza teste parametrice dac datele pe care le avem la dispoziie sunt
de tip calitativ, motivul este acel c testele parametrice opereaz de cele mai multe ori cu valori
medii, valori care evident nu pot fi calculate pentru date de tip calitativ. n aceast situaie un test
non-parametric este singura alternativ posibil. Pe de alt parte testele parametrice sunt considerate
a avea o putere statistic mai mare dect testele non-parametrice i aceasta pentru c modul lor de
operare ia n considerare mai mult informaie despre caracteristica avut n vedere. Dar acest lucru
se face cu anumite asumpii, dintre care cea mai important este distribuia normal a valorilor
caracteristicii analizate.
Ct de puternice sunt testele paramentrice n raport cu cele non-parametrice? Raspunsul
trebuie i de aceast dat nuanat. Puterea statistic a unui test este de fapt probabiliatea de a
respinge ipoteza nul atunci cnd aceasta nu este adevrat. Dar i n acest caz situaiile depind de
modul de formulare a ipotezei nule i de mrimea entionului extras. Dac una dintre aceste dou
variabile sufer modificri i puterea statistic a unui test este afectat.
Practica a demonstrat c amndou tipurile de teste pot fi utilizate cu acelai succes cu
condiia lurii n calcul a avantajelor i dezavantajelor fiecruia.
Probleme:
1. S presupunem c 35,4% dintre cetenii unei localiti au votat partidul X la alegerile locale. Un
sondajele de opine realizat n perioada pre-electoral pe un eantion de 1000 de persoane acorda
ns acestui partid 39% dintre inteniile de vot ale electoratului. Este diferena ntre cele dou valori
autentic sau nu?
2. Dintre 200 de elevii ai unei coli intevievai cu privire la dificultile de nvre pe care le
ntmpin : 38 au rspuns c acestea i au originea n programul ncrcat de la coala, 62 au
rspuns c lipsa unei dotri adcvate a colii le creaz astfel de dificulti, 56 au rspuns c modul de
structurare a materiilor nvte este cauza dificultilor de nvre, iar 46 au pus c dificultile de
nvre se datoreaz unor cauze externe colii. Exist un motiv care s determine ntr-o mai mare
msur dificuli de nvre pentru elevii colii avute n vedere?
29
3. Testele de semnificaie nu sunt probe absolute ale existenei sau non-existenei unei diferene
semnificative ntre dou valori. Comentai aceast afirmaie.
Tabelul 1. Proporia din aria total (10.000) ce corespunde distanei dintre medie i Z abateri
standard de la medie (Valorile pragurilor de probabilitate pentru testul Z).
Z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
0.00
0000
0398
0793
1179
1554
1915
2257
2580
2881
3159
3413
3643
3849
4032
4192
4332
4452
4554
4641
4713
4773
4821
4861
4893
4918
4938
4953
4965
4974
4981
4986,5
4990,0
4993,12
9
4995,16
6
4996,63
1
0.01
0040
0438
0832
1217
1591
1950
2291
2612
2910
3186
3438
3665
3869
4049
4207
4345
4463
4564
4649
4719
4778
4826
4865
4896
4920
4940
4955
4966
4975
4982
4986
4991
0.02
0080
0478
0871
1255
1628
1985
2324
2642
2939
3212
3461
3686
3888
4066
4222
4357
4474
4573
4656
4726
4783
4830
4868
4898
4922
4941
4956
4967
4976
4983
4987
4991
0.03
0120
0517
0910
1293
1664
2019
2357
2673
2967
3238
3485
3718
3907
4083
4236
4370
4485
4582
4664
4732
4788
4834
4871
4901
4925
4943
4957
4968
4977
4984
4988
4991
0.04
0159
0557
0948
1331
1700
2054
2389
2704
2995
3264
3508
3729
3925
4099
4251
4382
4495
4591
4671
4738
4793
4838
4875
4904
4927
4945
4959
4969
4977
4984
4988
4992
0.05
0199
0596
0987
1368
1736
2088
2422
2734
3023
3289
3531
3749
3944
4115
4265
4394
4505
4599
4678
4744
4798
4842
4878
4906
4929
4946
4960
4970
4978
4984
4988
4992
30
0.06
0239
0636
1026
1406
1772
2123
2454
2764
3051
3315
3554
3770
3962
4131
4279
4406
4515
4608
4686
4750
4803
4846
4881
4909
4931
4948
4961
4971
4979
4985
4989
4992
0.07
0279
0675
1064
1443
1808
2157
2486
2794
3078
3340
3577
3790
3980
4147
4292
4418
4525
4616
4693
4756
4808
4850
4884
4911
4932
4949
4962
4972
4980
4985
4989
4992
0.08
0319
0714
1103
1480
1844
2190
2518
2823
3106
3365
3599
3810
3997
4162
4306
4430
4535
4625
4699
4762
4812
4854
4887
4913
4934
4951
4963
4973
4980
4986
4989
4993
0.09
0359
0735
1141
1517
1879
2224
2549
2852
3133
3389
3621
3830
4015
4177
4319
4441
4545
4633
4706
4767
4817
4857
4890
4916
4936
4952
4964
4974
4981
4986
4990
4993
1
2
3
4
5
p=0.05
12.71
4.30
3.18
2.78
2.57
p=0.02
31.82
6.97
4.54
3.75
3.37
p=0.01
63.66
9.93
5.84
4.60
4.03
6
7
8
9
10
2.45
2.73
2.31
2.26
2.23
3.14
3.00
2.90
2.82
2.76
3.71
3.50
3.36
3.25
3.17
11
12
13
14
15
2.20
2.18
2.16
2.15
2.13
2.72
2.68
2.65
2.62
2.60
3.11
3.06
3.01
2.98
2.95
16
17
18
19
20
2.12
2.11
2.10
2.09
2.09
2.58
2.57
2.55
2.54
2.53
2.98
2.90
2.88
2.86
2.85
21
22
23
24
25
2.08
2.07
2.07
2.06
2.06
2.52
2.51
2.50
2.49
2.49
2.83
2.82
2.81
2.80
2.79
26
27
28
29
30
2.06
2.05
2.05
2.05
2.04
2.48
2.47
2.47
2.46
2.46
2.78
2.77
2.76
2.75
2.75
1.96
2.33
2.58
Tabelul 3. Valorile critice pentru testul 2, pentru nivelurile de probabilitate de 0.05, 0.02 i
0.01, n funcie de numrul gradelor de libertate ()
1
2
3
4
5
p=0.05
3.84
5.99
7.82
9.49
11.07
p=0.02
5.41
7.82
9.84
11.67
13.39
p=0.01
6.64
9.21
11.35
13.28
15.09
6
7
8
9
10
12.59
14.07
15.51
16.92
18.31
15.03
16.62
18.17
19.68
21.16
16.81
18.48
20.09
21.67
23.21
11
12
13
14
15
19.68
21.03
22.36
23.69
25.00
22.62
24.05
25.47
26.87
28.26
24.72
26.22
27.69
29.14
30.58
16
17
18
19
20
26.30
27.59
28.87
30.14
31.41
29.63
31.00
32.35
33.69
35.02
32.00
33.41
34.81
36.19
37.57
21
22
23
24
25
32.67
33.92
35.17
36.42
37.65
36.34
37.66
38.97
40.27
41.57
38.93
40.29
41.64
42.98
44.31
26
27
28
29
30
38.89
40.11
41.34
42.56
43.77
42.86
44.14
45.42
46.69
47.96
45.64
46.96
48.28
49.59
50.89
Rotariu, T., (coord.). Metode statistice aplicate n tiinele sociale. Ed. Polirom, Iai, 1999.
32
Rotariu, T., Ilu P., Ancheta sociologic i sondajul de opinie. Ed. Polirom, Iai, 1997.
Schimdt, M., Understanding and using statistics. Basic concepts, Second Edition, Lexington,
Massachusetts, Toronto, 1979.
Freedman D., Pisani R., Purves R., Adhikari A., Statistics, Second Edition, New York, London ,
1991;
Modulul 3
Obiectiv: prezentarea tipurilor de variabile utilizate n tiinele sociale i modelelor de analiz a
acestora
Ghid de studiu:
Variabile. Tipuri de variabile.
Analiza univariat a datelor
Analiza bivariat a datelor
Unitatea 1
Obiectiv: Introducerea noiunii de variabil i a tipurilor de variabile
Cuvinte cheie: parametrii, variabile, estimare, variabile continue, variabile discrete
Nominal
Ordinal
De interval
De raport
a) ordonare
nu
da
da
da
b) unitate de masur
nu
nu
da
da
c) zero absolut
nu
nu
nu
da
1. Nivelul de msurare nominal presupune clasificarea unor atribute, caracteristici, fenomene etc.
n categorii care trebuie s fie distincte, mutual exclusive i exhaustive. Acest tip de variabile
(respectiv scalele folosite n msurare) indic numai faptul c exista o diferen calitativ ntre
categoriile studiate, nu i magnitudinea acestei diferene. La limit, putem privi aceste variabile
ca pe nite tipologii. Cteva exemple de variabile msurate la nivel nominal sunt: statutul
ocupaional al indivizilor (agricultor, salariat, mic ntreprinzator, omer etc.), religia (ortodox,
romano-catolic, greco-catolic etc.) apartenena etnic (romn, maghiar, rrom etc.), mediul de
reziden (rural, urban) .a.m.d.. Valorile acestui tip de variabile nu pot fi ordonate, sau cu alte
cuvinte nu exist o ierarhie (dect eventual conform unor criterii extrinseci) i n consecin
problema "distanei" sau a intervalelor dintre valori nici nu poate fi pus. Cu att mai puin
putem discuta despre existena unui "zero absolut" (exemplu: fiecare individ are un statut
ocupaional sau aparine unei etnii, sau altfel spus absena caracteristicilor "statut ocupaional"
sau "apartenen etnic" este imposibil).
2. Nivelul de masurare ordinal implic nu numai clasificarea elementelor n categorii ci i
posibilitatea ordonrii acestora de la minim la maxim (existena tranzitivitii: dac a>b i b>c,
atunci a>c). Totui, la acest nivel de msurare nu este oferit nici o informaie cu privire la
34
"distana" dintre valorile scalei de msur. Cu alte cuvinte, diferena dintre prima valoare i cea
de-a doua poate fi diferit de diferena dintre a patra i a cincea. Exemple de variabile msurate
la nivel ordinal sunt calificativele colare (cu valorile "insuficient", "suficient", "bine" i "foarte
bine"), satisfacia fa de anumite aspecte (cu valorile "foarte nesatisfcut", "nesatisfcut",
"satisfcut", "foarte satisfcut") etc..
3. Msurarea la nivel de interval, ofer n plus faa de nivel anterior (cel ordinal) i informaie
referitoare la distana dintre valorile scalei i este caracterizat de existena unor intervale egale.
Totui, la acest nivel de msurare nu exist un zero absolut, ci mai degrab unul convenional.
Exemple de astfel de scale de msurare sunt temperatura masurat n grade Celsius (intervalele
dintre valori sunt egale, dar punctul 0 este convenional ales ca fiind temperatura la care apa
inghea), coeficientul de inteligen - IQ - (daca dou persoane au scoruri de 100 i respectiv
150, putem spune ca diferena dintre cei doi este de 50 de puncte, dar nu putem spune c cel deal doilea este cu 1/2 mai inteligent dect primul sau c scorul 0 semnific absena inteligenei).
4. Msurarea la nivel de raport include toate caracteristicile nivelurilor anterioare (ordonare i
intervale egale), plus existena unei "origini" sau zero absolut. Acest lucru permite formularea
unor afirmaii n termeni de proporii (raporturi) ntre valori. De exemplu, vitezele de raspuns a
doi subieci la un acelai stimul pot fi comparate n termeni de "timpul de rspuns a fost de dou
ori mai mare" etc.. Exemple de variabile masurate la acest nivel sunt vrsta, greutatea,
nlimea, distana, numrul de copii din gospodrie etc.
Corecta identificare a nivelului de msurare utilizat este foarte important n alegerea
procedurilor satistice de analiz. Dup cum se poate observa din descrierea de mai sus, pentru
fiecare nivel exista operaii matematice permise i operaii interzise. Astfel, la primul nivel, cel
nominal nu sunt permise nici ordonarea, nici adunarea/scderea i nici nmulirea/mprirea. La
nivelul ordinal este permis numai ordonarea, la cel de interval sunt permise n plus i operaiile de
adunare/scdere, iar la ultimul nivel, cel de raport sunt permise toate operaiile.
n funcie de nivelul de msurare, vom vorbi despre variabile msurate la nivel nominal,
variabile msurate la nivel ordinal etc., sau, mai pe scurt, variabile nominale, ordinale, de interval i
de raport. Reducnd cele patru clase la dou, putem vorbi de variabile calitative (nivelurile nominal
i ordinal) i variabile cantitative (interval i raport). Datorita caracterului "ierarhic" i cumulativ al
nivelurilor de msurare (de la multe restricii ctre nici o restricie n ceea ce privete operaiile
permise, sau de la "calitativ" la "cantitativ"), vom putea ntotdeauna trata o variabil aflat la un
nivel "superior" de msurare ca i cum ar fi fost msurat la un nivel "inferior". De exemplu, vrsta
masurata n ani de via va putea oricnd fi tratat ca o variabil ordinal, dac i grupm valorile
(sub 20, 21-30, 31-50, peste 50). Niciodat ns nu vom putea trata o variabil aflat la un nivel
"inferior" ca pe una aflat "mai sus" n ierarhie. (Cteodat, cercettorii fac excepie de la aceast
regul, tratnd variabilele ordinale ca i cum ar fi msurate la nivel de interval. Totui, o dat cu
dezvoltarea unor noi tehnici de analiz, dedicate special nivelelor de msurare "calitativ", aceste
practici devin din ce n ce mai rare.)
Bibliografie:
Unitatea 2
Modul este definit ca fiind valoarea cu frecvena cea mai mare a unei distribuii. Altfel spus,
modul este acea valoare a variabilei care apare cel mai des ntr-un eantion sau ntr-o
populaie.
Termenul deriv din francezul "mode", adic mod. n cazul distribuiei variabilei "starea civil a
capului gospodriei" reprezentat n Graficul 1.2, modul este valoarea "csatorit()" (cu frecvena
relativ 80%). De cele mai multe ori, pentru a simplifica lucrul cu datele, valorilor variabilelor
nominale li se acord convenional coduri numerice. De exemplu, pentru datele din Graficul 1.2,
putem acorda codul 1 pentru valoarea "csatorit()", codul 2 pentru valoarea "uniune consensual",
codul 3 pentru valoarea "divorat()" etc.. Chiar dac aceste coduri sunt numerice, ele trebuie privite
ca nite simple simboluri convenionale. Utilizarea lor nu nseamn c valorile pot fi ordonate sau
c intervalele dintre valori sunt egale. n cazul n care valorile variabilei "stare civil" ar fi fost
codificate ca mai sus, modul ar fi fost valoarea (codul) 1.
Pentru datele din Tabelul 1.2, care prezint date grupate n intervale, vom vorbi despre un
interval modal - i anume categoria "2001-3000 locuitori", deoarece aceasta este "valoarea" (de fapt
intervalul de valori) cu frecvena cea mai mare (651).
Grafic, modul este valoarea variabilei creia i corespunde "vrful" distribuiei.
36
frecvente absolute
100
0
8
10
12
14
16
18
20
22
Mediana este acea valoare a unei variabile care mparte seria ordonat de date n dou pri
egale, astfel nct 50% din observaii se vor situa deasupra valorii mediane iar 50% dedesubtul
ei.
S lum de exemplu notele pe care 7 studeni le primesc la examenul de statistic (dup ce le-am
ordonat n prealabil de la minim la maxim): 5, 5, 6, 8, 9, 9, 10. Mediana acestei serii de date este 8,
deoarece ea divide seria de date n dou pari egale: 3 dintre studeni (observaii) au note mai mici
dect 8 i trei dintre ei au note mai mari. Nota 8 este exact la "mijlocul" seriei de date (dup
ordonare). Este important de reinut c ceea ce conteaza pentru stabilirea medianei este numrul de
observaii pe care se face analiza, i nu numrul de valori ale variabilei.
Calculul medianei este relativ simplu atunci cnd avem de-a face cu un numr mic i impar
de observaii. Lucrurile se complic puin atunci cnd numrul de observaii este par, sau dac
numrul de observaii e foarte mare i e nevoie s apelm la tabele de frecvene. Lucrurile se
complic i mai mult dac datele de care dispunem sunt date grupate n intervale, ca n Tabelul 1.2.
n cazul n care avem de-a face cu un numr par de observaii nu va mai exista o singur
valoare la mijlocul seriei de date, ci vom avea dou valori. n aceast situaie, mediana se afl la
mijlocul "distanei" dintre aceste valori, sau cu alte cuvinte, este media lor. S presupunem c am
dori sa calculm mediana pentru o serie de 8 studeni, deci un numr par de observaii. Dup
ordonare, datele arat astfel: 5, 5, 6, 7, 8, 9, 9, 10. La mijlocul seriei se afl valorile 7 i 8. Mediana
va fi deci 7,5.
Pentru situaiile n care suntem nevoii s calculm mediana pe baza datelor oferite de un
tabel de frecvene, vom utiliza frecvenele
cumulate, i vom cuta acea valoare a Tabelul 1.3 Distribuia notelor pentru 80 de studeni
variabilei sub care se afl 50% din cazuri.
Nota Frecvene
Frecvene Frecvene relative
Pentru datele din Tabelul 1.3, 28,75% din
absolute
relative (%) cumulate (%)
observaii iau valoarea 6 sau o valoare
2
2,5
2,5
3
mai mic, 46,25% iau valoarea 7 sau mai
4
5
7,5
4
7
8,75
16,25
5
puin, iar 75% iau valoarea 8 sau o
10
12,5
28,75
6
valoare mai mic. Rezult de aici c nota
14
17,5
46,25
7
median nu poate fi 7 sau alt not mai
23
28,75
75
8
mic (deoarece numai 46,25% dintre
14
17,5
92,5
9
studeni iau nota 7 sau mai puin).
6
7,5
100
10
Mediana va fi n consecin 8, deoarece, Total
80
100
chiar dac avem un numr par de
37
observaii, ambele valori care se gsesc la mijlocul seriei de date sunt egale cu 8.
n cazul n care avem de-a face cu un tabel de frecvene care conine date grupate n
intervale de valori (aa cum este Tabelul 1.2), valoarea medianei poate fi calculat cu ajutorul
formulei:
N
nc
2
Me l
L
n
unde:
- Me este mediana,
- l este limita inferioar a intervalului care conine mediana
- N este numrul total de observaii
- nc este frecvena absolut cumulat a tuturor categoriilor care preced intervalul care conine
mediana (adic numrul de observaii care iau valori mai mici dect l)
- n este frecvena intervalului care conine mediana
- L este lrgimea sau mrimea intervalului care conine mediana
Exemplu de calcul al medianei pe baza datelor din Tabelul 1.2:
Din tabel reiese ca mediana este coninut n intervalul 3001-4000 locuitori, deoarece frecvenele
relative cumulate ale categoriilor precedente sunt mai mici de 50%, iar frecvena cumulat a
intervalului 3001-4000 este aproximativ 63%. Limita inferioar a acestui interval este deci l = 3001.
Observaia creia i corespunde mediana (numit i individ median) este observaia care se afl
exact la mijlocul seriei ordonate de date, cu alte cuvinte este observaia N/2, n cazul nostru
observaia cu numrul 1343. Dac scdem din acest numr numrul total de observaii care au
valori mai mici dect 3001, obinem 1343 - 1084 = 259, unde 1084 = 54 + 379 + 651 este valoarea
lui nc din formula medianei (obinut prin cumularea frecvenelor categoriilor precedente
intervalului care conine mediana). Cu alte cuvinte, observaia creia i corespunde mediana este cea
de-a 259-a observaie din categoria "3001-4000 locuitori", categorie care apare cu frecvena n =
602. Am putea acum s ne ntrebm: dac la 602 comune corespunde o cretere a numrului de
locuitori cu L=1000 (de la 3001 la 4000), atunci la 259 de comune ct va corespunde? Rspunsul e
259
dat de regula de trei simpl, coninut oarecum i n formula medianei:
1000 430,2 . Cu alte
602
cuvinte, mediana este egala cu 3001 + 430 = 3431 locuitori.
Mediana este un caz special de msur a localizrii. Msurile localizrii sunt de obicei cunoscute
sub numele de percentile sau quantile. Pentru cazul general, numim percentila p acea valoare sub
care se afl p% din cazuri i deasupra creia se afl (100-p)% din cazuri. De exemplu, mediana este
percentila 50. Cele mai cunoscute msuri ale localizrii sunt quartilele, quintilele i decilele.
Quartilele sunt acele valori ale seriei de date care o mpart n patru pri egale, quintilele sunt
valorile care o mpart n cinci pri egale, iar decilele n 10. Sub quartila 1 se afl 25% din cazuri,
iar deasupra ei 75%. Sub quartila 2 se afla 50% din cazuri, de unde reiese ca aceast quartil este
chiar mediana. n sfrit, sub quartila 3 se afl 75% din cazuri, iar deasupra ei se afl 25% din
cazuri (observaii). Din aceast scurt prezentare reiese c exist numai 3 quartile (Q1, Q2 i Q3),
deoarece pentru a mpri o serie de date n m pri egale sunt suficiente m-1 valori. n statistic
quartilele, decilele etc. se refer la valori ale variabilei. Totui, n tiinele sociale sunt folosite
destul de des expresii cum ar fi "decila 10 de venituri", "cea mai srac quintil", "persoanele
aparinnd primei decile" etc. Aceste expresii se refer ns la observaiile care iau valori cuprinse
ntre anumite percentile (quantile) i nu la valorile variabilei.
38
Media este probabil cea mai important i totodat cea mai popular msur a tendinei
centrale a unei distribuii. Ea se calculeaz ca sum a tuturor valorilor observate ale seriei de
date mprit la numrul de observaii:
N
xi
x1 x 2 x3 ....... x N
i 1
X
N
N
unde:
X este media
xi reprezint valoarea variabilei pe care o ia observaia i
N este numrul total de observaii
(sigma) este simbolul folosit pentru a indica o sum
De exemplu, pentru cei 7 studeni de mai sus, cu notele 5, 5, 6, 8, 9, 9, 10, suma notelor este 52,
numrul total de observaii este 7, iar media va fi 52 mprit la 7, adic 7,43.
n cazul n care media trebuie calculat pe baza unui tabel de frecvene, formula devine:
k
f
j 1
xj
unde:
k este numrul de categorii (valori) ale variabilei
fj reprezint frecvena de apariie a categoriei j
xj este valoarea categoriei j
N este numrul total de observaii
De exemplu, pentru datele din Tabelul 1.3, media este:
X
2 3 4 4 7 5 10 6 14 7 23 8 14 9 6 10
7,31
80
Pentru cazurile n care media trebuie calculat pentru date grupate n intervale, ca n Tabelul 1.2, se
aplic formula de mai sus, considerndu-se ca "valori ale variabilei" centrele de interval. Exemplu:
pentru categoria "1001-2000 locuitori", centrul de interval este (1001 + 2000) / 2 = 1500,5.
Bineneles c, pentru un astfel de exemplu, la finalul calculelor media se va rotunji, deoarece atunci
cnd vorbim despre populaia unei comune nu o putem exprima dect n numere ntregi. Atunci
cnd avem de-a face cu date grupate n intervale, probleme pot aprea la calculul centrului de
interval pentru prima i respectiv ultima categorie: n Tabelul 1.2, categoriile "1000 sau mai puini
locuitori", respectiv "peste 8000 de locuitori". Dac se ntmpl ca valoarea minim i respectiv cea
maxim a seriei de date s fie cunoscute, atunci nu exist practic nici o problem. Dac aceste
valori nu sunt cunoscute, rmne la latitudinea cercettorului s decid ce valori urmeaz s atribuie
respectivelor centre de interval.
Cnd folosim una sau alta dintre msurile tendinei centrale?
39
frecvente absolute
Decizia de a utiliza una sau alta dintre msurile tendinei centrale este strns legat n primul
rnd de nivelul de msurare a variabilelor. Aa cum ne putem da seama, modul poate fi utilizat
pentru toate cele patru niveluri de msurare. Mediana ns nu poate fi utilizat dect pentru
nivelele care permit o ordonare prealabil a datelor, adic numai pentru variabilele ordinale, de
interval i de raport. n ceea ce privete media, aceasta poate fi calculat numai pentru variabilele
masurate la ultimele dou nivele, adic cel de interval i respectiv cel de raport, deoarece n cazul
celorlalte nivele operaiile de adunare/scdere a valorilor variabilelor nu sunt permise.
Un alt element important pentru a decide ce msur a tendinei centrale merit folosit este
existena observaiilor care au valori extreme. De fapt acest aspect este n strns legatur cu forma
distribuiei.
S considerm de exemplu distribuia consumului per capita al gospodriilor, aa cum este
ea reprezentat n Graficul 1.4. Media acestei distribuii este 103087 lei iar mediana este 87354 lei
lei (valorile sunt exprimate n preuri 1995). n ceea ce privete modul, valoarea exact a acestuia
nu are sens s fie calculat deoarece exist relativ puine situaii n care mai multe gospodrii au
exact aceeai valoare a consumului per capita. Putem ns vorbi despre un interval modal, care se
afl undeva n jur de 72000 lei.
Graficul 1.4 Distributia consumului per capita al gospodriilor
1400000
1200000
1000000
800000
600000
400000
200000
0
67
16
49 00
50
47 333
8
45 67
16
44 00
50
42 33
83
40 67
16
39 00
50
37 33
83
35 67
16
34 00
50
32 333
8
30 67
16
29 00
50
27 33
83
25 67
16
24 00
50
22 33
83
20 67
16
19 000
5
17 33
83
15 67
16
14 00
50
12 33
83
10 7
66
91 0
00
75 3
33
58 67
6
41 0
00
25
33
83
mediana).
n concluzie, putem afirma c modul nu e o msur foarte adecvat a centrului unei
distribuii. El este util mai ales atunci cnd avem de-a face cu variabile msurate la nivel nominal,
dar i n cazurile n care distribuiile studiate sunt bi- sau multi-modale. Mediana este indicat mai
ales n cazurile n care dorim identificarea "valorilor tipice" ale unor distribuii asimetrice (vezi
Graficul 1.5, b i c), care au valori extreme. Media, pe de alt parte, prezint marele avantaj de a lua
n calcul toate valorile unei serii de date. Aceasta este unul din motivele pentru care ea continu s
fie cea mai utilizat msur a tendinei centrale. n plus ea mai are i alte proprieti utile, care vor fi
discutate n capitolele urmtoare.
2.2.2 Msuri ale variaiei
40
Msurile tendinei centrale sunt eseniale pentru descrierea unei caracteristici a unui eantion
sau a unei populaii, ns ele nu sunt suficiente. Pentru descrierea complet a unei variabile este
foarte important s tim deasemenea i ct de "mprtiate" sunt valorile acesteia n jurul tendinei
centrale sau, cu alte cuvinte, ct de omogen respectiv eterogen este populaia (eantionul) studiat
n raport cu o anumit caracteristic. S lum ca exemplu performana la o anumit materie a unei
grupe de 80 studeni, msurat cu note de la 1 la 10 (datele sunt prezentate n Tabelul 1.3). Nota
medie a respectivei grupe este 7,31. Aceast informaie ns pare a fi insuficient pentru a ne putea
pronuna asupra performanei respectivei grupe. ntrebarea pe care ne-o punem n mod natural este:
ct de omogen este respectiva grup n ceea ce privete performana colar?
Un prim rspuns la aceast ntrebare l putem da prin simpla examinare a intervalului n care
sunt cuprinse notele respectivilor studeni, sau mai bine zis prin calcularea amplitudinii
variabilei. Amplitudinea unei variabile este diferena dintre valoarea maxim i valoarea
minim a acelei variabile. Pentru exemplul nostru, amplitudinea este 10 - 3 = 7 puncte. Deci,
cei 80 de studeni sunt distribuii de-a lungul unui interval de apte puncte.
O msur a variaiei mai rafinat dect amplitudinea o reprezint abaterea interquartil, care se
calculeaz ca diferen ntre quartila 3 i quartila 1. Abaterea interquartil msoar
mprtierea celor 50% din observaii aflate la mijlocul distribuiei. Ea are practic aceleai
avantaje pe care le are i mediana ca msur a tendinei centrale, i anume nu este influenat de
existena cazurilor extreme.
De cele mai multe ori suntem ns interesai s folosim o msur a variaiei unei variabile care
s includ toate observaiile, nu numai dou dintre ele ca n cazul amplitudinii i abaterii
interquartile. n plus, suntem interesai s examinm variaia n raport cu o msur a tendinei
centrale. De obicei, msurile care satisfac aceste dou cerine sunt bazate pe abaterile
observaiilor de la medie. Abaterea de la medie a unei observaii este diferena dintre valoarea
pe care o ia respectiva observaie i media variabilei ( xi X ).Una din proprietile mediei este
ns aceea c suma tuturor abaterilor individuale de la medie este egal cu 0:
(x
i 1
X) 0
(sau cu alte cuvinte, abaterile pozitive se vor anula cu cele negative). n consecin, pentru a
obine o msur a variaiei la nivelul ntregului eantion sau a ntregii populaii trebuie utilizat
fie suma valorilor absolute ale abaterilor individuale de la medie, fie suma ptratelor acestor
abateri.
Abaterea medie absolut este definit ca medie aritmetic a abaterilor individuale absolute
(ignornd semnul acestora) de la media variabilei:
1
AMA xi X
N
O alt msur, mult mai rspndit, este variana variabilei. Variana (sau dispersia) se
definete ca fiind media aritmetic a ptratelor abaterilor individuale de la medie:
1
Varianta ( xi X ) 2
N
Din motive teoretice care nu vor fi expuse n acest manual, pentru calcularea varianei la nivel de
eantion se folosete formula:
1
s2
( xi X ) 2 ,
N 1
iar pentru date grupate n tabele de frecvene (ca n Tabelul 1.3):
41
s2
1
(x j X )2 f j
N 1
unde:
xj este valoarea variabilei pe care o ia grupa j
fj este frecvena absolut de apariie a lui xj
Deoarece variana, datorit ridicrii la ptrat, este destul de dificil de interpretat, cea mai
utilizat msur a variaiei unei variabile, pentru scopuri descriptive, este abaterea standard,
definit ca radical de ordinul doi (rdcin ptrat) din varian:
s s2
Din formula abaterii standard reiese clar c abaterea standard va fi cu att mai mare cu ct
valorile pe care le iau observaiile se abat mai mult de la medie. S considerm de exemplu notele la
o materie a dou grupe mici de elevi, ambele serii de date avnd media 6 i amplitudinea 8:
Grupa 1:
Grupa 2:
2, 4, 6, 6, 8, 10
2, 2, 5, 7, 10, 10
ntrebarea pe care ne-o putem pune este: ct de omogene sunt cele dou grupe? Calculul
abaterilor standard arat c n prima grup s1 = 2,8, iar n a doua s2 = 3,6. Este clar deci c prima
grup e mai omogen dect a doua, n care variabilitatea performanei e mai mare.
n exemplul de mai sus am comparat dou grupe de subieci din punct de vedere al
omogenitii pentru o aceeai caracteristic. ns atunci cnd trebuie analizm omogenitatea unei
singure populaii sau a unui eantion apar ntrebari al cror rspuns e mai dificil de dat: "cum
interpretm magnitudinea abaterii standard?", "cnd putem spune c avem o abatere standard mic
sau una mare?", "cum putem compara omogenitatea unei populaii pentru dou variabile diferite?".
Practic, rspunsul la prima ntrebare depinde n mare msur i de alte caracteristici ale distribuiei.
Pentru un anumit tip de distribuii interpretarea magnitudinii abaterii standard este mai uoar, i
acest lucru va fi tratat n Capitolul 2 al acestui manual. n cazul celorlalte dou ntrebri un rspuns
satisfctor poate fi dat cu ajutorul unei alte msuri, numite coeficient de variaie, calculat ca raport
ntre abaterea standard i media unei varibile:
CV
s
X
msurate la nivel de raport, deoarece n cazul variabilelor nominale i ordinale abaterea standard nu
poate fi calculat, iar n cazul variabilelor msurate la nivel de interval media este una
convenional, ceea ce face posibil transformarea variabilei prin adunarea unei constante la
valorile acesteia, fr ca semnificaia valorilor variabilei s se modifice O astfel de transformare ar
lsa nemodificat abaterea standard (lucru care poate fi demonstrat matematic) ns ar modifica
media variabilei. Ori aceasta nseamn c pentru aceeai caracteristic am putea calcula coeficieni
de variaie diferii ca valoare.
Exerciii i probleme
1. Veniturile gospodriilor locuitorilor rii Alfa, care cuprinde 87 de milioane de gospodrii, sunt
distribuite n jurul unei valori medii de 27000 Alfa-lei i o median de 22000 Alfa-lei.
a. Ce se poate spune despre simetria distribuiei veniturilor?
b. Care este venitul ntregii ri (toate cele 87 de milioane de gospodrii)?
Pentru urmtoarele ntrebri, s se ncercuiasc varianta corect /variantele corecte:
2.
1.
2.
3.
4.
tendintei centrale
variatiei
formei distributiei
nici una dintre acestea
3.
1.
2.
3.
4.
5.
media
quartila 2
modul
abaterea standard
nici una dintre acestea
4.
1.
2.
3.
4.
5.
Unitatea 3
43
Nu tiu
30
60
90
180
Total
180
200
220
600
Aa cum am artat, n absena variabilei independente, numarul de erori e1 a fost 380. S vedem
acum cte erori am facut prezicnd variabila dependent pe baza valorilor variabilei independente
(pentru a uura urmarirea calculelor, am copiat nc o dat mai jos datele Tabelului 6.1):
- pentru grupa de vrst sub 25 de ani, vom prezice corect pe baza frecvenei modale n 110
cazuri, i vom face erori n 70 de cazuri.
- pentru grupa de vrst 26 - 45 de ani, vom prezice corect pe baza frecvenei modale n 100
cazuri, i vom face erori n alte 100 de cazuri.
- pentru grupa de vrst peste 45 de ani, vom prezice corect pe baza frecvenei modale n 90
cazuri, i vom face erori n 130 de cazuri.
44
e1 e2 380 200
0,47
e1
380
Coeficientul poate lua, prin modul de construcie numai valori ntre 0 i 1, 0 nsemnnd
absena oricrei relaii ntre variabile, adic independen, iar 1 nsemnnd intensitate maxim a
asocierii (asociere puternic). El este o msur asimetric (avem o variabil independent pe baza
creia se fac predicii i o variabil dependent, ale crei valori sunt prezise), ns exist formule de
calcul i pentru varianta simetric a acestui coeficient. Avantajul lui const n modul relativ uor i
intuitiv de calcul. Principalul dezavantaj al acestei msuri este faptul c n condiiile n care o
categorie a unei variabile conine un numr foarte mare de indivizi, poate fi egal cu 0 chiar dac
cele dou variabile nu sunt independente.
Materia X
Foarte bine
Bine
Satisfctor
Suficient
Materia Y
Bine
Foarte bine
Satisfctor
Suficient
nc nd
nt
unde
nt este numrul total de perechi
nc este numrul de perechi concordante
nd este numrul de perechi discordante
n concluzie, pentru exemplul nostru (care este unul pur didactic), a = 4/6 = 0,66.
Aceasta a fost practic cea mai simpl ilustrare de msur de asociere a dou variabile
ordinale. n practic ns, lucrurile stau puin mai complicat, pentru c deseori apar ceea ce se
numesc ranguri "legate" sau egale. Acest lucru complic destul de mult calculele i formulele,
ns principiul rmne acelai, al comparrii numrului de perechi concordante cu numrul de
perechi discordante.
Exerciii i probleme
1. ntr-un studiu asupra modului n care ocupaia se asociaz cu educaia, s-a realizat urmtorul
eantion aleator de 500 de brbai anagajai.
Educaia
4 sau mai muli ani de liceu
(incluznd i formarea
vocaional)
Mai puin de patru ani de
liceu
Funciona
ri
194
Ocupaia
Muncitori n Angajai n
fabric
servicii
146
27
Agriculto
ri
10
18
79
18
femei
barbati
total
somaj
da
nu
30%
30%
30%
total
70%
70%
70%
100%
100%
100%
Modulul 4
Obiectiv: prezentarea problematicii regresiei lineare n analiza datelor
Ghid de studiu:
Regresia linear simpl
Construcia dreptei de regresie
Regresia linear multipl
Interpretarea coeficienilor dreptei de regresie
Unitatea 1
Obiectiv: prezentarea problematicii regresiei lineare simple
Cuvinte cheie: dreapt de regresie, criteriul celor mai mici ptrate, panta asociat variabilei
independente, coeficientul de determinaie i coeficientul de corelaie Pearson
Regresia linear simpl
Fiind cunoscute valorile a dou variabile cantitative pentru o mulime de uniti de analiz, este
posibil s reprezentm complet aceast informaie printr-un grafic. Variabilei dependente i
corespunde axa vertical, iar celei independente i corespunde axa orizontal. Fiecare unitate de
analiz este reprezentat printr-un punct care se afl la o distan de axa vertical proporional cu
valoarea variabilei independente luat de acea unitate, i la o distan de axa orizontal
proporional cu valoarea variabilei dependente. Astfel, n exemplul precizat anterior, dac variabila
DIF are valorile exprimate n valori procentuale, iar variabila SUM este exprimat n mii de lei, o
localitate n care s-au cheltuit 5000 de lei pe cap de locuitor, i n care omajul a sczut cu dou
procente, se afl cu dou uniti deasupra axei orizontale i la cinci uniti n dreapta axei verticale.
Foarte adesea, informaia cuprins ntr-un grafic de acest tip este prea bogat pentru a putea fi
analizat direct. La fel cum n cazul unei singure variabile este util s reducem informaia
47
reprezentat de distribuia sa la o singur valoare, cea a tendinei centrale, exprimat prin medie,
median sau un alt indicator, i n cazul considerrii simultane a dou variabile ar fi de folos s
putem descrie ntr-un mod ct mai succint relaia dintre acestea.
O soluie simpl este aceea de a nlocui norul de puncte de pe grafic printr-o singur dreapt
care s i aproximeze forma ct mai bine. n seciunea care urmeaz, 7.1.1., vom arta cum poate fi
construit o astfel de dreapt, numit dreapt de regresie. Vom prezenta apoi interpretarea
coeficienilor prin care este descris dreapta de regresie. n seciunea 7.1.2. vor fi definii indicatori
prin care poate fi apreciat gradul de acuratee prin care o dreapt de regresie descrie relaia dintre
dou variabile. n ultima seciune a acestei pri, 7.1.3., va fi discutate una dintre condiiile mai
importante care trebuie ndeplinit pentru ca modelele de regresie s poat fi aplicate.
Construcia dreptei de regresie
Fie un grafic pe care sunt reprezentai mai muli indivizi statistici, n funcie de valorile a dou
variabile cantitative, X i Y, i fie o dreapt dus la ntmplare pe acest grafic. Poziia fiecrui
individ i este fixat de valorile pe care iau cele dou variabile, notate cu xi i yi.
Poziia dreptei n raport cu cele dou axe ale graficului este complet precizat de urmtoarea relaie:
Y' = a + bX.
(1)
Relaia exprim faptul c orice punct k de pe dreapt, are coordonatele xk i y'k astfel nct y'k = a +
bxk. Mai mult, orice punct de pe grafic pentru care are loc relaia anterioar ntre coordonatele sale,
se afl pe dreapt.
De aici rezult faptul c orice dreapt este identificat complet prin doar dou valori, cea a
constantei a, i cea a constantei b. Dac ar fi posibil nlocuirea unui nor de n puncte, care ofer o
reprezentare precis a n perechi de valori, printr-o dreapt care s indice forma de ansamblu a
mulimii de puncte, atunci ar fi obinut o simplificare remarcabil a modului n care este descris
relaia.
n Figura 7.1 sunt reprezentate localitile din exemplul discutat anterior, caracterizate de valorile
variabilei dependente DIF, respectiv a variabilei independente SUM. Pe grafic este trasat i o
dreapt (d) precum i o mulime de segmente verticale, fiecare fiind construit astfel nct s uneasc
punctul care corespunde unei localiti cu dreapta (d).
Figura 7.1. Reprezentarea grafic a variabilelor DIF i SUM, care iau valori pentru 25 de localiti.
48
Dac pentru dou variabile cantitative am putea construi o dreapt astfel nct toate punctele care
corespund unitilor de analiz s se afle pe dreapt, atunci dreapta ar oferi o descriere complet a
formei norului de puncte. ntr-un astfel de caz, fiecare dintre segmentele verticale dintre puncte i
dreapt ar avea lungimea zero.
Este clar c n exemplul considerat aici nu exist o astfel de dreapt, care s descrie perfect relaia
dintre cele dou variabile. Ar fi de dorit atunci, s fie determinat acea dreapt pentru care
lungimile segmentelor verticale dintre puncte i dreapt s fie ct mai apropiate de zero.
Prin definiie, dreapta cu proprietatea c ptratele lungimilor segmentelor dintre puncte i dreapt
au suma minim este numit dreapt de regresie.
Datorit modului n care este definit, se spune despre dreapta de regresie c satisface criteriul celor
mai mici ptrate.
Se poate demonstra matematic faptul c pentru dou variabile date exist o dreapt unic de
regresie, iar aceasta poate fi determinat. Cu alte cuvinte, oricare ar fi dou variabile X i Y, care
iau valori pentru n uniti de analiz, pot fi deteminate n mod unic constantele a i b astfel nct
dreapta
Y' = a + bX,
(2)
s ofere o cea mai bun aproximare a relaiei dintre X i Y--din perspectiva criteriului celor mai
mici ptrate--, dintre toate dreptele posibile.
Y' este o variabil care se obine din intersecia segmentelor verticale care trec prin punctele
(xi, yi) de pe grafic i dreapta de regresie, iar punctele de intersecie sunt de forma (xi, y'i). Datorit
modului n care este construit variabila Y', valorile sale sunt identice cu ale lui Y atunci cnd
punctele sunt pe o dreapt, i sunt cu att mai diferite de cele ale lui Y cu ct punctele sunt mai
dispersate n jurul dreptei de regresie.
Un alt mod de a scrie expresia (2) este urmtorul:
49
Y = a + bX + U,
unde U = Y - Y'.
U este o variabil care pentru fiecare unitate de analiz ia o valoare egal cu lungimea segmentului
vertical dintre punctul care i corespunde pe grafic i dreapta de regresie.
n exemplul anterior, a = -5,86, b = 0,67. Ecuaia dreptei de regresie este
DIF = - 5,86 + 0,67SUM.
Interpretarea coeficienilor dreptei de regresie
Coeficientul b este numit panta asociat variabilei X i, aa cum se poate vedea din expresia
dreptei de regresie, reprezint numrul de uniti cu care variaz Y' atunci cnd X crete cu o
unitate:
dac avem dou puncte (x1, y'1) i (x2, y'2), x2 = x1 + 1, i ambele puncte sunt pe dreapta
Y' = a + bX,
atunci, nlocuind n formula dreptei se obine
y'2 = a + bx2 = a + b(x1 + 1) = a + bx1 + b = y'1 + b.
n exemplul discutat anterior, valoarea lui b indic faptul c o cretere a sumei cheltuite pe
cap de locuitor cu o mie de lei conduce n medie la o cretere a diferenei cu 0,67, adic la o scdere
a ratei omajului cu 0,67 de puncte procentuale.
Semnul plus al lui b indic faptul c ntre X i Y are loc o relaie pozitiv--adic valorilor mici
ale lui X tind s le corespund valori mici ale lui Y, iar valorilor mari ale lui X tind s le corespund
valori mari ale lui Y--, n timp semnul minus semnaleaz prezena unei relaii negative.
bi = 0 se obine atunci cnd forma norului de puncte nu poate fi aproximat printr-o dreapt. O
situaie de acest gen apare atunci cnd cele dou variabile estimeaz fenomene independente, fr
legtur, dar i n cazul n care variabilele sunt ntr-o relaie a crei form nu este liniar (de
exemplu, atunci cnd punctele sunt pe o curb n form de parabol). Cele dou cazuri sunt ilustrate
n
Figura
7.2.,
respectiv
n
Figura 7.3.
Figura 7.2. Exemplul a dou variabile cantitative ntre care nu are loc o relaie.
50
Figura 7.3. Exemplul a dou variabile ntre care exist o relaie (de forma Y' = X2) care nu poate fi
Dreapta de regresie asociat relaiei dintre dou variabile cantitative ofer o imagine sintetic
despre forma acestei relaii, ns nu ofer informaii despre ct de asemntoare este aceast
imaginea simplificat cu cea real. Am ntlnit o situaie similar n cazul mediei: acest indicator
descrie succint tendina central a distribuiei unei variabile cantitative, ns nu cuprinde informaii
despre ct de complet este aceast reprezentare. n acest caz, exist un indicator care arat ct de
dispersate sunt valorile luate de variabil n jurul mediei: abaterea standard. Cu ct valorile sale
sunt mai mici cu att media descrie mai precis distribuia variabilei.
n Figura 7.4. i n Figura 7.5. sunt reprezentate relaiile dintre cte dou perechi de variabile
cantitative. n ambele cazuri ecuaia dreptei de regresie este aceeai:
Y = 2 - 2,5 X.
Se observ ns c unitile de analiz din Figura 7.5. sunt mai dispersate n raport cu dreapta
de regresie dect cele din Figura 7.4. Acest fapt arat c dintre cele dou drepte, cea din Figura 7.4.
ofer reprezentarea cea mai precis a relaiei dintre perechea de variabile crora le corespunde.
Figura 7.4. Distribuia a dou variabile cantitative i dreapta lor de regresie (A).
20
10
Y1
-10
-20
-3
-2
-1
X1
Figura 7.5. Distribuia a dou variabile cantitative i dreapta lor de regresie (B).
52
20
10
Y2
-10
-20
-3
-2
-1
X2
Puterea explicativ a unui model de regresie simpl poate fi evaluat cu ajutorul mai multor
indicatori. Coeficientul R2, numit coeficient de determinaie, este definit de urmtoarea formul:
(Y 'Y )
(Y Y )
R2
Numrtorul expresiei reprezint variaia lui Y care este "explicat" de ecuaia de regresie, n
timp ce valoarea de la numitor este egal cu variaia total a lui Y. Deci, R2 indic proporia din
variaia lui Y care este "explicat" de variabila independent.
Din modul n care este definit rezult c R2 poate s ia valori ntre 0 i 1. R2 este egal cu 1
atunci cnd distribuia punctelor se face dup o dreapt. Valoarea sa este zero n situaii cum sunt
cele ilustrate n Figura 7.2. i n Figura 7.3., adic atunci cnd distribuia punctelor nu poate fi
aproximat printr-o dreapt. n general, cu ct valorile lui R2 sunt mai apropiate de 1, cu att relaia
dintre cele dou variabile este mai intens iar reprezentarea sa grafic este mai apropiat de o
dreapt.
n exemplul din seciunea anterioar R2 = 0,53.
R2 care corespunde relaiei reprezentate n Figura 7.4. are valoarea 0,95, n timp ce R2 din Figura
7.5. are valoarea 0,58.
Un alt indicator al intensitii relaiei dintre dou variabile cantitative este coeficientul de
corelaie Pearson, notat cu r i definit prin urmtoarea formul:
r = b X / Y.
X i Y reprezint abaterea standard a variabilei X, respectiv abaterea standard a variabilei Y.
Coeficientul de corelaie are dou proprieti din care poate fi dedus i modul su de
interpretare:
1. r2 = R2 --coeficientul de corelaie Pearson ridicat la ptrat este egal cu coeficientul de
determinaie.
2. r are acelai semn cu b, deoarece cele dou abateri standard din definiia sa au ntotdeauna semn
pozitiv.
53
Astfel, din proprietatea (1) rezult c r ia valori n intervalul [-1, 1], iar valorile extreme sunt
luate n acelai situaii n care R2 ia valoarea 1: atunci cnd relaia dintre cele dou variabile
cantitative este de intensitate maxim i punctele care reprezint grafic unitile de analiz sunt
distribuite pe o dreapt. n mod similar, r ia valoarea 0 atunci cnd R2 este nul, adic n situaiile n
care distribuia unitilor de analiz nu poate fi aproximat printr-o dreapt (Figurile 2. i 3.
ilustreaz situaii n care r este 0).
Din proprietatea (2) rezult c r ia valori pozitive atunci cnd dreapta de regresie are o
nclinaie ascendent de la stnga spre dreapta, i valori negative atunci cnd inclinaia este
descendent.
Unitatea 2
Obiectiv: prezentarea problematicii regresiei lineare multiple
Cuvinte cheie: coeficienii de regresie standardizai, coeficient de determinaie multipl,
multicoliniaritate, variabile "dummy".
cnd sunt comparate localiti care sunt asemntoare din punctul de vedere al performanei
administrrii de programe, cheltuirea unei sume mari pe cap de locuitor nu este asociat, n medie,
unei scderi mai accentuate a ratei omajului dect n localitile n care suma a fost mai mic.
Acest rezultat indic, contrar celui obinut din analiza doar a primelor dou variabile, c programul
de reducere a omajului nu a fost eficient.
Figura 7.7. Relaia dintre variabilele DIF, SUM, i CALIT pentru 25 de localiti.
1.5
1.0
.5
0.0
-.5
-1.0
Calit. adm .
3 .00
-1.5
2 .00
-2.0
1 .00
T oate local it.
-2.5
6.0
6.5
7.0
7.5
8.0
8.5
9.0
9.5
10.0
Problema general pe care ncercm s o rezolvm prin modelare statistic poate fi redus
adesea la urmtoarea exprimare:
B este un fenomen care trebuie explicat iar A1, A2, ... sunt factori explicativi poteniali; Care este
efectul independent al fiecrui Ai asupra lui B? Care este ierarhia importanei factorilor A1, A2, ...
n explicarea lui B?
Exemplul de mai sus arat faptul c numai prin modele care cuprind simultan toate variabilele
relevante pentru fenomenul studiat poate fi evaluat efectul independent al fiecreia. Modelele
multivariate cele mai simple i de aceea cel mai usor de interpretat sunt cele de regresie multipl.
Vom arta modul n care acestea sunt definite (7.2.1), felul n care pot fi interpretate relaiile dintre
variabilele cuprinse n model (7.2.2.) i cum poate fi evaluat eficiena de ansamblu a modelelor
(7.2.3). n seciunea (7.2.4.) vor fi discutate modalitaile de generalizare a rezultatelor obinute pe
un eantion iar n sectiunea (7.2.5) va fi descris problema multicoliniaritii. n seciunea (7.2.6) va
fi prezentat o extindere a modelelor de regresie pentru variabile nominale i ordinale.
55
(3)
(X1 1,X21,Y1)
X1
X25
X2
Dac m=2 relaia (3) poate fi descris grafic printr-un desen tridimensional. Fiecrui individ
statistic i corespunde un punct de coordonate (X1,X2,Y) (Figura 7.8.), iar a, b1 i b2 definesc un
plan descris de ecuaia
Y' = a + b1X1 + b2X2.
Variabila U este determinat de acest plan i de punctele de forma (X1,X2,Y) ntr-un mod
analog cazului cu dou dimensiuni:
valoarea Ui care i corespunde unui individ statistic care a luat valorile X1i, X2i,Yi, este egal cu
lungimea segmentului paralel cu axa OY care are la extremiti punctul care i corespunde n spaiu
(X1i,X2i,Yi), respectiv punctul de intersecie cu planul (si care are coordonatele (X1i,X2i,Y'i)).
Expresia (3) indic faptul c Y poate fi exprimat ca o combinaie liniar de X1, X2, ..., Xm, i o
variabil U numita variabil rezidual. Dac fixm a, b1, b2,..., bm atunci U poate fi exprimat n
funcie de aceste numere i Y, X1, X2,...Xm:
U = Y - (a + b1X1 + b2X2 + ... + bmXm)
Dac notm expresia din paranteza cu Y' atunci
U = Y - Y'.
56
(4)
Vom alege din mulimea (infinit) a expresiilor de forma (3) acea combinaie liniar pentru
care U (determinat din (4)) are valori minime. Pentru c U este o variabil, atunci cnd expresia (3)
se aplic unui numr de n indivizi statistici, U este un ir de n numere. Avem nevoie s definim un
criteriu dup care variabilele U s poat fi comparate astfel nct s putem alege un U avnd
valorile cele mai mici. Principiul folosit pentru modelele de regresie liniar multipl este, la fel ca i
n cazul bivariat, cel al celor mai mici ptrate:
Unei variabile U i corespunde un numr u obinut din aplicarea formulei
u = u12 + u22 + ... + un2, unde ui este valoarea luat de U pentru cazul statistic i;
este ales U pentru care u este cel mai mic. Din (3) rezult c problema este echivalent cu
determinarea valorilor a, b1, b2, ..., bm astfel nct u s fie minim. Este important de reinut c
pentru orice numr de variabile independente m, a, b1, b2, ..., bm sunt determinai n mod unic de
condiia de a avea u minim.
Ecuaia
Y' = a + b1X1 + b2X2 + ... + bmXm,
(5)
n care a, b1, b2, ..., bm sunt determinate n urma aplicrii principiului celor mai mici ptrate
este un model de regresie multipl.
Dac avem o singura variabil independent (m=1) ecuaia (5) descrie un model de regresie
simpl.
n exemplul de mai sus, planul care aproximeaza cel mai bine - dup criteriul celor mai mici
ptrate -, distribuia punctelor din spaiu asociate celor 25 de uniti de analiz (localiti cuprinse n
studiu) are ecuaia
DIF = -2,61 + 0,05 SUM + 1,00 CALIT.
Interpretarea modelelor de regresie multipl
Coeficientul bi, numit panta asociat variabilei Xi, reprezint numrul de uniti cu care variaz
Y' atunci cnd Xi crete cu o unitate iar celelalte variabile independente sunt meninute constante.
Altfel spus, bi arat cum se modific valoarea ateptat a variabilei dependente atunci cnd Xi
variaz iar Xj sunt constante, ji.
Deasemenea, n msura n care datele satisfac anumite proprieti (dintre care un principiu
important este cel al distribuiilor apropiate de cele normale, iar un alt principiu, al
multicoliniaritii, va fi discutat n seciunea 7.2.5.) este corect s afirmm c bi indic variaia n
mediile valorilor lui Y care corespund punctelor de forma (X1,...,Xi,...,Xm) respectiv (X1,...,Xi +
1,...,Xm). La fel, a arat care este media lui Y atunci cnd X1 = X2 = ... = Xm = 0.
Semnul plus al lui bi indic faptul c ntre Xi i Y are loc o relaie pozitiv n condiii de
control al efectului celorlalte variabile, n timp ce semnul minus indic prezena unei relaii
negative.
In exemplul anterior, b1 = 0,05 arat c dac vom compara dou localiti unde diferena dintre
sumele cheltuite n program / numrul de locuitori este 1000 lei, i care sunt identice din
perspectiva variabilei CALIT, ne ateptm ca, n medie, rata omajului s fi sczut cu 0,05 puncte
procentuale n localitatea n care s-a suma / locuitor a fost mai mare. b2 = 1,00 arat c pentru
aceeai valoare a lui SUM, localitile cu o evaluare a calitii administrrii programelor mai bun
57
cu o unitate au, n medie, o scdere mai mare cu o unitate procentual. Aceast interpretare este
consistent cu rezultatul obinut dup aplicarea de regresii simple pentru fiecare din subeantioanele
definite de CALIT, dar aduce un plus de precizie n exprimarea relaiilor dintre variabila
dependent i cele dou variabile independente.
Din interpretarea coeficienilor bi se vede cum regresia multipl permite compararea de perechi
de grupe de indivizi statistici care sunt identici din perspectiva tuturor variabilelor independente cu
excepia unei singure variabile. Diferena observat n valorile variabilei dependente este atribuit
variaiei n variabila independent care ia valori diferite pentru grupe diferite.
Asemeni pantei pentru cazul bivariat, coeficienii modelului de regresie multipl depind de
unitile de msur ale variabilelor i este adevrat proprietatea
dac n loc de Xi avem cXi + d, atunci n loc de bi avem bi / c.
(6)
Aceast proprietate arat faptul c panta de regresie nu poate fi folosit drept un indicator al
intensitii relaiei dintre variabila dependent i variabila independent corespunztoare, i nici nu
permite ierarhizarea variabilelor independente n funcie de contribuia fiecreia la explicaia
variaiei variabilei dependente.
Pentru a descrie nu doar forma ci i intensitatea relaiilor liniare ntre variabilele independente
i variabila dependent sunt folosii coeficienii de regresie standardizai. Modul n care sunt
definii este intuitiv: variabilele Y, X1, X2, ..., Xm sunt standardizate folosind formula scorului z
prezentat n Capitolul 1.
Noile variabile, obinute n urma aplicrii formulei, au media egal cu zero iar abaterea
standard egal cu unitatea. Coeficienii de regresie din modelul determinat de variabilele
standardizate, se noteaz n mod obisnuit cu 1, 2, ..., m. Aplicnd proprietatea (6) avem
urmtoarea formul pentru coeficienii standardizai:
i bi
58
1. Dac ntr-un model teoretic n care X1, X2, ..., Xm sunt variabile independente pentru Y, Xi este o
variabil explicativ i pentru unul sau mai multi Xj, ji, atunci modelul de regresie n care Y este
variabila dependent ne permite numai estimarea efectului direct pe care l are Xi asupra lui Y, nu i
a celui mediat de alte variabile din model. De exemplu, variabila care exprim proporia celor care
au absolvit liceul din populaia unei localiti poate avea un efect direct nul asupra numrului de
infraciuni pe cap de locuitor (bliceu =0), ns un efect indirect substanial, mediat de o alt variabil
independent cuprins n modelul de regresie multipl (de exemplu, venitul pe cap de locuitor).
2. Atunci cnd avem dou modele cu aceleai variabile, dar care descriu date diferite, coeficienii
standardizai nu sunt comparabili ntre modele dect dac variabilele care le corespund au dispersii
asemntoare. De aceea, este de preferat ca n comparaiile dintre populaii diferite s fie folosii
coeficienii nestandardizai, dup ce n prealabil datele au fost transformate astfel nct variabilele
Xi s aib aceeai unitate de msur n ambele modele.
Eficiena unui model de regresie multipl
La fel ca i n cazul bivariat, puterea explicativ a unui model multivariat poate fi evaluat cu
ajutorul unor indicatori. Coeficientul R2, numit coeficient de determinaie multipl, este definit la
fel ca i atunci cnd avem o singur variabil independent i are o interpretare similar:
(Y * Y )
(Y Y )
Numrtorul expresiei reprezint variaia lui Y care este "explicat" de ecuaia de regresie, n
timp ce valoarea de la numitor este egal cu variaia total a lui Y. Deci, R2 indic proporia din
variaia lui Y care este "explicat" de toate variabilele independente din model. Din definiie rezult
c R2 poate s ia valori ntre 0 i 1.
n exemplul din aceast seciune avem R2 = 0,69.
Desigur, valorile ridicate ale lui R2 sunt de dorit n locul celor sczute pentru c implic faptul
c explicaia este n mai mare msur complet. Totui, aceast afirmaie necesit cteva precizri:
R2 are proprietatea de a crete cu fiecare variabil care este introdus n model i de aceea
valorile lui R2 trebuie judecate i n raport cu numrul de variabile independente. La limit, este
posibil s avem R2 = 1 dac avem un numr de variabile independente suficient de mare, chiar dac
acestea sunt generate aleator.
Concluzia care se desprinde este c alegerea variabilelor care urmeaz s fie incluse n model
nu poate fi decis folosind exclusiv informaia de natur statistic (chiar dac exist procedee
complexe prin care putem mbogi aceast informaie). Numai prin luarea n considerare i a unor
aspecte de natur teoretic poate fi decis includerea sau eliminarea unor variabile n analiz.
S vedem ce semnificaie au valorile extreme pe care le poate lua R2, 0 i 1, pentru c
interpretarea valorilor intermediare este posibil prin raportarea la situaiile maximale.
R2 este egal cu 1 atunci cnd valorile lui Y sunt complet determinate de combinaiile liniare ale
valorilor variabilelor independente. n cazul bivariat, distribuia punctelor se face dup o dreapt,
iar atunci cnd sunt dou variabile independente, dup un plan.
La fel ca i n cazul bivariat, R2 = 0 nu indic n mod necesar absena unor relaii ntre
variabilele independente i variabila dependent:
1. Y poate s fie determinat complet de variabilele independente prin relaii neliniare iar R2 s fie
egal cu zero. De exemplu, dac
59
Y =
10 - X 2 1 - X 2 2 ) ,
se obine distribuia din Figura 7.9. n care toate punctele sunt pe o suprafata curb (cele mai multe
sunt pe o semisfer), iar R2 = 0.
2. Mai mult, este posibil s avem R2 = 0 chiar i atunci cnd ntre una dintre variabilele
independente i Y exista o relaie liniar, n condiii de control, ns forma (panta) acestei relaii nu
este constant pe categoriile celorlalte variabile.
Figura 7.9. Exemplul unei distribuii n spaiu pentru care variabila dependent este reprezentat pe
axa vertical i R2 = 0.
3,5
3,0
2,5
2,0
1,5
1,0
4
0 -1
-2
X1
-3
-2
-3
-1 0
X2
Figura 7.10. Exemplul unei distribuii n spaiu pentru care variabila dependent este reprezentat
pe axa vertical, au loc relaii bivariate cu variabila dependent de intensitate maxim i R 2 = 0
pentru modelul multivariat.
12
10
8
Y1
6
4
2
0
1,2
12
8
1,0
,8
,6
,4
X1
4
,2 0,0
10
X2
60
Atunci cnd avem la dispozitie date dintr-un eantion probabilistic i construim pe acestea un
model de regresie multipl ne punem problema de a generaliza rezultatele obinute pentru populaia
din care provine eantionul. S presupunem c am obinut bi > 0 i dorim s tim dac panta
corespunztoare variabilei Xi este pozitiv i la nivelul ntregii populaii. Pentru a afla acest lucru
vom construi un interval de ncredere n jurul valorii lui bi. Determinarea intervalului de ncredere
presupune ndeplinirea de ctre datele analizate a unor proprieti, aceleai cu condiiile specifice
cazului bivariat, la care se adaug condiia de absen a multicoliniaritii (pe care o vom defini i
analiza n sectiunea 6). n continuare, presupunem ndeplinite toate aceste proprieti. Pentru un
nivel de incredere de 0,95 avem intervalul
(bi - tn - m - 1, 0,975bi, bi + tn - m - 1, 0,975bi),
unde n este numrul de cazuri n eantion, m este numrul de variabile independente, numrul tn - m,
0,975 poate fi gsit n tabelele pentru distributia t (pentru n - m - 1 = 60 ia valoarea 2,0, iar pentru un
numr care tinde la infinit ia valoarea 1,96) iar bi este eroarea standard a lui bi.
Dac intervalul de ncredere nu l conine pe zero atunci ipoteza de nul, adic afirmaia
conform creia ntre Xi i Y nu avem o relaie liniar direct, poate fi respins (un mod mai riguros
de a exprima ipoteza de nul n cazul regresiei este acela de a spune c parametrul - coeficientul de
regresie din populaie - este egal cu 0).
O alt modalitate prin care poate fi realizat generalizarea valorilor bi const n determinarea
valorii maxime a nivelului de semnificatie statistic pentru care 0 aparine intervalului de ncredere.
Dac nivelul de semnificaie observat este mai mic dect 0,05 atunci vom respinge ipoteza de nul,
conform regulilor de testare a ipotezelor statistice.
Deasemenea, putem calcula valoarea t asociat lui bi
t = bi / bi.
Putem gsi n tabelele statistice care este nivelul de ncredere ce corespunde valorii determinate
n acest fel.
Pentru exemplul din aceast seciune, tabelul urmtor conine coeficienii de regresie,
coeficienii standardizai, erorile standard, valorile t i nivelele de semnificatie statistic.
SUM
CALIT
Coef icienti
ne-standardizat i
Eroare
B
standard
0,048
0,212
0,994
0,291
Coef icienti
standardizat i
Beta
0,052
0,786
t
0,229
3,412
Niv el de
semnif .
stat.
0,820
0,002
Pentru a doua variabil independent din exemplu, CALIT, putem respinge ipoteza de nul (p =
0,002<0,05).
Un model de regresie multipl poate fi folosit atit n explicaie cit i n predicie. Astfel, din
modelul anterior rezult c, n medie, localitile n care ar fi aplicat un program similar cu cel
studiat iar suma cheltuit ar fi de 8000 de lei / locuitor, i care ar fi evaluate prin scorul 3 pentru
calitatea administrrii programelor, vor avea n medie o scdere a ratei omajului cu o valoare dat
de urmtoarea formul
61
62
Variabile "dummy"
Regula general conform creia analiza de regresie poate fi aplicat numai variabilelor de interval
sau de rapoarte are o excepie important: toate proprietile pe care le au valorile estimate ale unui
model de regresie se pstreaz i n cazul n care una sau mai multe dintre variabilele independente
sunt dihotomice (adic variabile care iau dou valori).
Consecinele acestei proprieti sunt importante deoarece permit nu doar estimarea efectelor unor
variabilele care n mod obisnuit sunt dihotomice (exemplu sexul, mediul de rezident -- urban /
rural, etc.) asupra variabilei dependente ci i includerea ntr-o analiz de regresie a unor variabile
nominale sau ordinale cu mai mult de dou categorii. Acest lucru este posibil n urma transformrii
unei variabile cu n categorii n n - 1 variabile dihotomice.
Ca o ilustrare, s presupunem c datele despre programul de reducere a omajului din exemplul
discutat n aceast seciune cuprind informaii despre nc o variabil independent: judeul n care
se afl localitatea (JUDET). Mai presupunem c localitile din studiu provin din trei judee, notate
cu A, B, C. Variabila JUDET este transformat n dou variabile dihotomice: JUDET1 i JUDET2.
JUDET1 este definit astfel: localitile care sunt n judeul A au valoarea 1, iar toate celelalte au
valoarea 0.
JUDET2 este definit asemntor: localitile care sunt n judeul B au valoarea 1, iar toate celelalte
au valoarea 0.
Cunoscnd valorile celor dou variabile pentru o localitate, tim sigur n ce jude se afl aceasta,
deci informaia oferit de JUDET1 i JUDET2 este egal cu cea oferit de variabila iniial,
JUDET.
Prin introducerea celor dou variabile dihotomice n analiz putem verifica dac scderea omajului
a fost influenat i de factori care s-au manifestat la nivel de jude, independeni de condiiile de
nivel local. Dac coeficientul b, respectiv beta, care corespunde uneia dintre aceste variabile este
diferit de 0, atunci rezult c variaia variabilei DIF poate fi explicat mai bine n urma includerii ei.
Exerciii i probleme
1. Presupunem cunoscute pentru mai multe localiti urmtoarele dou variabile: diferena ntre
venitul pe cap de locuitor n ultimul an i cel din anul anterior (VENIT)--msurat n mii lei--, i
proporia celor din localitate care au absolvit cel mult 10 clase (SCOALA)--estimat n procente.
O analiz de regresie prin care se ncearc explicarea efectului variabilei SCOALA asupra variabilei
VENIT conduce la urmtoarele rezultate:
r = -0,55, R2 = 0,30, iar ecuaia de regresie este
VENIT = -7,5 - 12 SCOALA.
Care dintre urmtoarele afirmaii este adevrat?
a. Localitile n care SCOALA are valori mici au, n medie, valori mai mici ale variabilei VENIT.
63
b. Localitile n care sunt 20% locuitori care nu au absolvit 10 clase au, n medie, diferena ntre
veniturile anuale pe cap de locuitor (VENIT) cu 12 mii de lei mai mare dect localitile n care sunt
30% locuitori care nu au absolvit 10 clase.
2. Presupunem c, n plus, avem i date despre proporia locuitorilor care au mai puin de 18 ani
(MINORI)-- estimat n procente. Ecuaia de regresie multipl care include variabilele SCOALA i
MINORI ca variabile independente este urmtoarea:
VENIT = 12 - 4 SCOALA - 0,2 MINORI.
SCOALA = -0,08, iar MINORI = -0,25.
Care dintre urmtoarele afirmaii este adevrat?
a. Variabila MINORI explic mai puin din variaia variabilei dependente dect variabila SCOALA.
b. Conform modelului de regresie, localitile n care SCOALA = 5, iar MINORI = 20, au avut n
medie o scdere a venitului pe cap de locuitor cu 12 mii de lei.
Pentru urmtoarea ntrebare, s se ncercuiasc varianta corect /variantele corecte:
3. Se da ecuatia de regresie cu coeficienti nestandardizati (n parantez sunt prezentate erorile
standard ale coeficienilor de regresie:
Y = -40 + 0.72x1 + 1.29x2 0.15x3
ES
(0.13) (0.37) (0.16)
R=0.9
Care din coeficientii ecuatiei de regresie difera semnificativ de zero pentru un nivel de semnificatie
p=0.05?
1. cel al lui x1
2. cel al lui x2
3. cel al lui x3
4. niciunul
64