Statistica Pop

Universitatea Bucure!
ti Facultatea de Filosofie CUPRINS
STATISTIC"
Coord. - Lector drd. Lucian Pop Introducere, Cap. #, 2, 6 - Lucian Pop Cap 3, 5 - Lucian Pop, Cosmin Marian Cap 4 - Asist. Cosmin Marian Cap 7 - Lector dr. Gabriel Badescu
Introducere !i concepte de baz" .................................................................................................................. 3 Capitolul # .................................................................................................................................................. 8 Descrierea variabilelor................................................................................................................................ 8 Capitolul 2 ................................................................................................................................................ 23 Distribu$ii de probabilitate........................................................................................................................ 23 Capitolul 3 ................................................................................................................................................ 32 E!antionarea. Distribu$ia de e!antionare. Intervale de ncredere .............................................................. 32 Capitolul 4 ................................................................................................................................................ 45 Proceduri de e!antionare........................................................................................................................... 45 Capitolul 5 ................................................................................................................................................ 54 Testarea ipotezelor statistice. Teste de semnifica$ie ................................................................................. 54 Capitolul 6 ................................................................................................................................................ 62 Asocierea variabilelor calitative ............................................................................................................... 62 Capitolul 7 ................................................................................................................................................ 69 Studiul rela$iilor ntre variabile cantitative ............................................................................................... 69 Anexa #. Distribu$ia normal" normat" (standard) .................................................................................... 87 Anexa 2. Valorile critice ale lui t pentru aria de sub curb" aflat" la dreapta valorii. ................................ 89 Anexa 3. Valorile critice ale lui 2 ........................................................................................................... 9#
200#
Introducere !i concepte de baz" Deseori, n via$a de zi cu zi, folosim sau auzim expresii cum ar fi: "statisticile arat" c" ", "o statistic" simpl" sugereaza c" " etc.. De multe ori, oamenii asociaz" statistica cu o simpl" "colec$ie" de numere. Totu!i, statistica reprezint" mult mai mult dect att, ea dezvoltndu-se ca o metod" !tiin$ific" de analiz" larg utilizat" n multe domenii. n !tiin$ele sociale, rolul ei a devenit din ce n ce mai important cu deosebire n ultimii 30-40 de ani. %i n acest domeniu, ca !i n multe altele, colectarea, organizarea !i analiza informa$iei sunt "instrumente" deosebit de utile. Tehnicile de culegere a informa$iei sunt variate, de la cercet"ri pe baz" de chestionar sau interviuri telefonice la experimente. Informa$iile astfel culese poart" numele generic de "date" !i se refer" n general la m"surarea unor atribute sau caracteristici ale "subiec$ilor" analiza$i. M"surarea este efectuat" prin clasificarea "observa$iilor" (subiec$ilor) conform unor reguli specifice (de exemplu, m"surarea vrstei const" n clasificarea indivizilor n func$ie de num"rul de ani de la na!tere). n general, statistica n !tiin$ele sociale se preocup" de trei mari aspecte: a) modul n care datele sunt culese, sau mai exact modul n care se face selec$ia observa$iilor care urmeaz" sa fie analizate, b) descrierea acestor date !i c) explicarea !i/sau predic$ia unor fenomene studiate. nainte ns" de a trece la tratarea pe larg a acestor aspecte este nevoie de introducerea unor concepte de baz", precum !i a ctorva distinc$ii. Una dintre acestea, !i cea mai important" poate, este aceea ntre statistica pur descriptiv" !i statistica inferen$ial". Practic, aceasta din urm" constituie "nucleul dur" al statisticii. Pentru a n$elege distinc$ia mai sus amintit", e nevoie ns" mai nti de clarificarea conceptelor de popula$ie (statistic%) !i e!antion. Termenul de popula$ie are o semnifica$ie aparte n statistic". Popula!ia statistic" reprezint" mul!imea tuturor obiectelor sau indivizilor care prezint" interes pentru studiu. De exemplu, dac" cineva dore!te sa studieze problema neparticip"rii !colare, atunci popula$ia va consta din totalitatea copiilor de vrst" !colar" din Romnia. Dac" ns" obiectul studiului este gradul de poluare a localita$ilor urbane, atunci popula$ia va consta din toate ora!ele Romniei. n statistic" a!adar, cnd ne referim la popula$ie avem n minte mul$imea unita$ilor de analiz", indiferent ce reprezint" acestea (!coli, ora!e, ntreprinderi, $"ri, oameni sau chiar procese, fenomene !i ac$iuni). Un e#antion nu este nimic altceva dect un subset sau o submul!ime a popula!iei analizate. Extragerea unui e!antion din popula$ie este util" !i chiar necesar" n condi$iile n care resursele (financiare, de timp etc.) de care dispun ini$iatorii studiului nu sunt suficiente pentru a asigura investigarea ntregii popula$ii. S" ne imagin"m c" cineva ar dori s" studieze problema s"r"ciei n Romnia. n absen$a unui e!antion, respectivul cercet"tor ar fi pus n situa$ia de a investiga peste 7 milioane de gospod"rii, ceea ce ar duce la costuri financiare imense !i la o extindere extraordinar" a timpului rezervat culegerii de informa$ii. n acela!i timp, un subset din popula$ia analizat", extras conform unei scheme de e!antionare riguroase, poate furniza toat" informa$ia necesar" la un nivel de acurate$e foarte ridicat. Putem acum clarifica distinc$ia dintre statistica descriptiv% !i cea inferen$ial%: n timp ce metodele statistice descriptive const" n descrierea sintetic" a informa!iei cuprinse ntr-un set de date, metodele statistice inferen!iale const" n acele tehnici #i proceduri folosite pentru a face generaliz"ri despre caracteristicile unei popula!ii, pe baza informa!iilor culese de la un e#antion extras din acea popula!ie. Practic marea
provocare a statisticii o constituie exact acest proces de inferen$" (generalizare) de la datele de e!antion la popula$ie. Exemplul I.# Primarul unui ora! dore!te nfiin$area unor noi locuri de joac" pentru copii. Pentru acest lucru ns", ar mai avea nevoie de fonduri suplimentare, pe care se gnde!te s" le ob$in" prin introducerea unei noi taxe. Totu!i, pentru c" alegerile se apropie, primarul ar dori s" !tie n ce m"sur" popula$ia cu drept de vot a ora!ului consider" ca legitim" introducerea acestei noi taxe. n acest caz, popula$ia vizat" este constituit" deci din toate persoanele n vrst" de peste #8 ani din respectivul ora!. Deoarece este practic imposibil ca primarul s" discute cu fiecare aleg"tor n parte, el va efectua (cu ajutorul unei firme specializate) un sondaj de opinie pe un e!antion de - s" zicem - 500 de persoane. Rezultatele sondajului arat" c" 55% din persoanele investigate sunt n favoarea introducerii acestei taxe. Totu!i acest rezultat nu reprezint" "adev"rata" valoare a procentului din popula$ia cu drept de vot care este dispus" s" sus$in" ini$iativa primarului. Pentru a afla "adev"ratul" procent din popula$ie, primarul (respectiv cei care au efectuat sondajul !i analizeaz" datele) va trebui sa apeleze la inferen$a statistic". Este momentul acum s" introducem dou" noi concepte, !i anume acelea de parametrii !i respectiv statistici la nivel de e!antion. Caracteristicile popula!iei despre care facem ineferen!e pe baza e#antionului se numesc parametrii. Caracteristicile e#antionului pe baza c"rora infer"m se numesc pur #i simplu statistici. n exemplul de mai sus, 55% reprezint" o statistic" descriptiv", deoarece ea descrie sintetic o caracteristic" a e!antionului. Cele mai multe studii sunt ns" interesate n aflarea parametrilor, care n general sunt necunoscu$i (exemple: C$i s"raci exista n Romnia? Care este procentul din popula$ie de sus$in"tori ai unui partid? etc.). E!antioanele !i statisticile descriptive sunt utile n m"sura n care ele pot oferi informa$ii despre parametrii de interes. Statistica inferen$ial" este aceea care permite ob$inerea unei masuri a acurate$ei statisticilor folosite pentru estimarea valorii parametrilor. n consecin$", atunci cnd ntreaga popula$ie este cuprins" ntr-un studiu, statistica inferen$ial" nu este necesar". n final ne vom opri asupra unei ultime no$iuni deosebit de importante pentru studiul statisticii, !i anume asupra variabilelor. Vom defini variabila ca fiind orice caracteristic" a membrilor unei popula!ii sau unui e#antion care variaz" (n respectiva popula!ie/e#antion). Astfel, culoarea p"rului indivizilor dintr-o popula$ie este o variabil" n m"sura n care indivizii care compun respectiva popula$ie au p"r de culori diferite. Dac" to$i indivizii ar fi blonzi, s" zicem, atunci culoarea p"rului ar fi constant" n respectiva popula$ie. Cu ct o caracteristic" are o varia$ie mai mare, cu att respectiva popula$ie este mai eterogen" !i, invers, cu ct o caracteristic" dat" are o varia$ie mai mic", cu att respectiva popula$ie va fi mai omogen", din perspectiva respectivei caracteristici. n exemplul de mai sus, valorile posibile ale variabilei "culoarea p"rului" ar fi "brunet", "blond", "ro!cat" etc.. Fiecare individ (statistic) poate lua o singur" valoare pentru o variabil".. Variabilele pot fi clasificate n func$ie de multe criterii. Una din distinc$iile importante este aceea dintre variabile discrete !i variabile continue. Att variabilele discrete ct !i variabilele continue pot lua o infinitate de valori. Diferen$a dintre ele
const" n faptul c" n timp ce n cazul variabilelor continue ntre dou" valori succesive ale variabilei pot exista o infinitate de valori, n cazul variabilelor discrete acest lucru nu se ntmpl". Un exemplu de variabil" continu" este n"l$imea cl"dirilor unui ora! masurat" n metri, iar un exemplu de variabil" discret" l reprezint" veniturile indivizilor dintr-o popula$ie, m"surate n lei. n cazul primei variabile, ntre doua valori succesive ale acesteia (de exemplu 5 !i 6 m) exist" o infinitate de alte valori deoarece metrii se subdivid n centimetri, apoi n milimetri etc., n cazul veniturilor acest lucru nu mai este posibil, ntre 5 lei !i 6 lei nemaiexistnd subdiviziuni. Nivelul de m%surare al variabilelor este un alt criteriu de clasificare a acestora, de o mare importan$" pentru studiul statisticii. Putem distinge ntre patru niveluri de m"surare (nominal, ordinal, de interval !i de raport), n func$ie de trei criterii: a) posibilitatea de a ordona valorile variabilei, b) egalitatea intervalelor dintre valorile variabilei (sau altfel spus existen$a unei unit"$i de m"sur"), c) existen$a unei "origini" a variabilei sau, cu alte cuvinte, a unui "zero absolut".
Tabelul I.# - Niveluri de masurare a variabilelor Nominal Ordinal De interval De raport a) ordonare nu da da da b) unitate de masur" nu nu da da c) zero absolut nu nu nu da
3. M"surarea la nivel de interval, ofer" n plus fa$a de nivel anterior (cel ordinal) !i informa$ie referitoare la distan$a dintre valorile scalei !i este caracterizat" de existen$a unor intervale egale. Totu!i, la acest nivel de m"surare nu exist" un zero absolut, ci mai degrab" unul conven$ional. Exemple de astfel de scale de m"surare sunt temperatura masurat" n grade Celsius (intervalele dintre valori sunt egale, dar punctul 0 este conven$ional ales ca fiind temperatura la care apa inghea$"), coeficientul de inteligen$" - IQ - (daca dou" persoane au scoruri de #00 !i respectiv #50, putem spune ca diferen$a dintre cei doi este de 50 de puncte, dar nu putem spune c" cel de-al doilea este cu #/2 mai inteligent dect primul sau c" scorul 0 semnific" absen$a inteligen$ei). 4. M"surarea la nivel de raport include toate caracteristicile nivelurilor anterioare (ordonare !i intervale egale), plus existen$a unei "origini" sau zero absolut. Acest lucru permite formularea unor afirma$ii n termeni de propor$ii (raporturi) ntre valori. De exemplu, vitezele de raspuns a doi subiec$i la un acela!i stimul pot fi comparate n termeni de "timpul de r"spuns a fost de dou" ori mai mare" etc.. Exemple de variabile masurate la acest nivel sunt vrsta, greutatea, n"l$imea, distan$a, num"rul de copii din gospod"rie etc. Corecta identificare a nivelului de m"surare utilizat este foarte important" n alegerea procedurilor satistice de analiz". Dup" cum se poate observa din descrierea de mai sus, pentru fiecare nivel exista opera$ii matematice permise !i opera$ii interzise. Astfel, la primul nivel, cel nominal nu sunt permise nici ordonarea, nici adunarea/sc"derea !i nici nmul$irea/mp"r$irea. La nivelul ordinal este permis" numai ordonarea, la cel de interval sunt permise n plus !i opera$iile de adunare/sc"dere, iar la ultimul nivel, cel de raport sunt permise toate opera$iile. n func$ie de nivelul de m"surare, vom vorbi despre variabile m"surate la nivel nominal, variabile m"surate la nivel ordinal etc., sau, mai pe scurt, variabile nominale, ordinale, de interval !i de raport. Reducnd cele patru clase la dou", putem vorbi de variabile calitative (nivelurile nominal !i ordinal) !i variabile cantitative (interval !i raport). Datorita caracterului "ierarhic" !i cumulativ al nivelurilor de m"surare (de la multe restric$ii c"tre nici o restric$ie n ceea ce prive!te opera$iile permise, sau de la "calitativ" la "cantitativ"), vom putea ntotdeauna trata o variabil" aflat" la un nivel "superior" de m"surare ca !i cum ar fi fost m"surat" la un nivel "inferior". De exemplu, vrsta masurata n ani de via$" va putea oricnd fi tratat" ca o variabil" ordinal", dac" i grup"m valorile (sub 20, 2#-30, 3#-50, peste 50). Niciodat" ns" nu vom putea trata o variabil" aflat" la un nivel "inferior" ca pe una aflat" "mai sus" n ierarhie. (Cteodat", cercet"torii fac excep$ie de la aceast" regul", tratnd variabilele ordinale ca !i cum ar fi m"surate la nivel de interval. Totu!i, o dat" cu dezvoltarea unor noi tehnici de analiz", dedicate special nivelelor de m"surare "calitativ"", aceste practici devin din ce n ce mai rare.) nainte de a ncheia aceast" scurt" introducere, ar mai fi necesare cteva cuvinte despre utilizarea calculatoarelor n analiza statistic%. Aplica$iile sau programele pentru computer care pot fi utilizate sunt foarte numeroase, ele variind n func$ie de complexitatea analizelor pe care le pot efectua !i n func$ie de u!urin$a n utilizare (sau altfel spus n func$ie de ct sunt de "prietenoase" cu utilizatorul). Pentru utilizatorii de
#. Nivelul de m"surare nominal presupune clasificarea unor atribute, caracteristici, fenomene etc. n categorii care trebuie s" fie distincte, mutual exclusive !i exhaustive. Acest tip de variabile (respectiv scalele folosite n m"surare) indic" numai faptul c" exista o diferen$" calitativ" ntre categoriile studiate, nu !i magnitudinea acestei diferen$e. La limit", putem privi aceste variabile ca pe ni!te tipologii. Cteva exemple de variabile m"surate la nivel nominal sunt: statutul ocupa$ional al indivizilor (agricultor, salariat, mic ntreprinzator, !omer etc.), religia (ortodox, romano-catolic, greco-catolic etc.) apartenen$a etnic" (romn, maghiar, rrom etc.), mediul de reziden$" (rural, urban) !.a.m.d.. Valorile acestui tip de variabile nu pot fi ordonate, sau cu alte cuvinte nu exist" o ierarhie (dect eventual conform unor criterii extrinseci) !i n consecin$" problema "distan$ei" sau a intervalelor dintre valori nici nu poate fi pus". Cu att mai pu$in putem discuta despre existen$a unui "zero absolut" (exemplu: fiecare individ are un statut ocupa$ional sau apar$ine unei etnii, sau altfel spus absen$a caracteristicilor "statut ocupa$ional" sau "apartenen$" etnic"" este imposibil"). 2. Nivelul de masurare ordinal implic" nu numai clasificarea elementelor n categorii ci !i posibilitatea ordon"rii acestora de la minim la maxim (existen$a tranzitivit"$ii: dac" a>b !i b>c, atunci a>c). Totu!i, la acest nivel de m"surare nu este oferit" nici o informa$ie cu privire la "distan$a" dintre valorile scalei de m"sur". Cu alte cuvinte, diferen$a dintre prima valoare !i cea de-a doua poate fi diferit" de diferen$a dintre a patra !i a cincea. Exemple de variabile m"surate la nivel ordinal sunt calificativele !colare (cu valorile "insuficient", "suficient", "bine" !i "foarte bine"), satisfac$ia fa$" de anumite aspecte (cu valorile "foarte nesatisf"cut", "nesatisf"cut", "satisf"cut", "foarte satisf"cut") etc..
Microsoft Office, unul dintre cele mai la ndemn" instrumente este MS Excel, care poate efectua o serie de analize statistice - mai ales descriptive, fiind ns" mai pu$in "dotat" la capitolul statistic" inferen$ial" (totu!i exist" module care i pot mbun"t"$i performan$a n aceast" privin$"). Dintre programele "dedicate" analizelor statistice, cel mai r"spndit la noi n $ar" pare a fi SPSS, datorit" interfe$ei foarte prietenoase !i deci u!urin$ei n utilizare. O alt" variant", mai pu$in r"spndit" dar care are avantajul de a fi complet gratuit" !i prietenoas" este VISTA ( http://www.visualstats.org ). Dezavantajul acesteia const" n viteza relativ redus" de lucru cu baze de date voluminoase (mai mult de o mie de cazuri). Bibliografie recomandat": Clocotici V., Stan, A., Statistic" aplicat" n psihologie, Polirom, 2000 - capitolele #-8 Rotariu Traian (coordonator), Metode statistice aplicate n !tiin$ele sociale, Polirom, #999 -capitolele #-8 Sandu, Dumitru, Statistic" n !tiin$ele sociale , Universitatea Bucure!ti, #992 - capitolele #, 2, 3, 6, 7
Capitolul # Descrierea variabilelor
De obicei, dup" colectarea datelor printr-o cercetare (fie ea de tip recens"mnt adic" prin investigarea ntregii popula$ii, fie de tip sondaj - adic" prin investigarea unui e!antion), informa$ia este organizat" ntr-o baz" de date care de cele mai multe ori are forma unui tabel n care pe rnduri sunt a!ezate observa$iile (unit"$ile de analiz" sau indivizii statistici), iar pe coloane variabilele (de obicei prima variabil" fiind un "identificator" al subiec$ilor):
Tabelul #.#: Baza de date con$innd indicatori demografici n mediul rural, la nivel de comune, #998 codul localit%$ii #07# 2#30 2309 238# 2577 2988 3039 3397 3459 376# 3805 3958 4008 4#06 . . . popula$ia (num%r de locuitori) CIUGUD 2463 ALBAC 2259 ALMASU MARE #873 ARIESENI #940 AVRAM IANCU 2083 BERGHIN 2048 BISTRA 5385 BLANDIANA ##60 BUCIUM 2009 CENADE #048 CERGAU #756 CETATEA DE BALTA 3468 CIURULEASA #463 CALNIC 3078 . . . . . . denumirea localit%$ii num%r na!teri 26 3# 2# 24 #9 23 57 6 #3 ## 26 57 #8 52 . . . . . . num%r decese 34 30 35 24 35 45 74 24 3# ## 34 48 #8 54 . . . numar sosi$i 65 4 #3 3 #8 44 33 22 23 4 22 4 #0 75 . . . num%r pleca$i 22 45 20 20 28 24 84 #0 22 #4 25 63 29 28
2.# Tabele de frecven$e !i grafice Prezentarea informa$iei con$inute ntr-o baz" de date se face de obicei sintetic, deoarece simpla listare a datelor "brute", primare - observa$ie cu observa$ie - nu poate oferi de cele mai multe ori o imagine de ansamblu a situa$iei analizate. Cel mai simplu mod de prezentare/descriere l reprezint" tabelele de frecven$e, sau mai bine zis distribu$ia frecven$elor. Distribu!ia de frecven!e este o list" a valorilor (categoriilor) posibile ale unei variabile, nso!ite de num"rul de observa!ii care iau respectivele valori (care se afl" n fiecare din respectivele categorii). n cazul variabilelor continue sau al celor discrete cu un num"r mare de valori, se recurge mai nti la o "grupare" a datelor n mai pu$ine categorii (exemplu: comune sub #000 de locuitori, ntre #00# !i 2000 locuitori, ntre 200# !i 3000, 300#-4000 etc.). Tabelul #.2 prezint" o distribu$ie de frecven$e a numarului de locuitori n comun", pentru comunele din Romnia. Cu ajutorul
acestui tabel vom introduce dou" no$iuni noi, !i anume acelea de frecven$e relative respectiv frecven$e cumulate (respectiv distribu$ie cumulativ%). Prima coloan" a tabelului con$ine valorile variabilei "num"r de locuitori", grupate n categorii. Cea de-a doua coloan" con$ine frecven$ele de apari$ie ale acestor valori, sau cu alte cuvinte num"rul de observa$ii (n cazul nostru comunele) aflate n fiecare categorie. Putem deci observa ca n #998 n Romnia existau 54 de comune cu #000 sau mai pu$ini locuitori, 379 de comune cu #00#-2000 locuitori !.a.m.d.. Ce-a de-a treia coloan" a tabelului con$ine frecven!ele relative, adic" ponderea sau propor!ia observa!iilor din fiecare categorie n totalul observa!iilor. Putem afirma pe baza acestei informa$ii ca n Romnia comunele cu mai pu$in de o mie de locuitori reprezint" 2,0#% din totalul comunelor, n timp ce ponderea comunelor cu #00#-2000 locuitori este de #4,##% !.a.m.d..
Tabelul #.2 Distribu$ia de frecven$e a num"rului de locuitori n comun", pentru comunele Romniei Numarul de frecven$a (absolut%) locuitori n comun% 54 #000 sau mai pu$ini 379 #00#-2000 65# 200#-3000 602 300#-4000 39# 400#-5000 267 500#-6000 #45 600#-7000 87 700#-8000 ##0 peste 8000 2686 Total frecven$a relativ% (%) 2,0# #4,## 24,24 22,4# #4,56 9,94 5,40 3,24 4,#0 #00 frecven$a relativ% cumulat% (%) 2,0# #6,#2 40,36 62,77 77,33 87,27 92,67 95,90 #00
Formula de calcul a frecven$elor relative este n n fri = i , sau fri = i #00 , dac" dorim s" o exprim"m n procente N N unde: fri este frecven$a relativ" a categoriei (valorii variabilei) i ni este frecven$a absolut" a categoriei i (numarul de cazuri sau observa$ii care apar$in respectivei categorii) N este num"rul total de observa$ii
orizontal" sunt reprezentate valorile variabilei analizate. Totu!i, cele dou" tipuri de grafice sunt utilizate diferen$iat: histograma este recomandat" numai n cazul variabilelor m"surate la nivel de interval sau de raport, n timp ce diagrama-bar" se folose!te de preferin$" pentru variabile nominale !i ordinale. Aceast" diferen$" provine din modul lor de construc$ie: - n cazul histogramei, fiecare bar" nu reprezint" o singur" valoare a variabilei ci un interval de valori. n Graficul #.# Histograma distan$elor de la centrul comunei pn" la consecin$", l"$imea barei cel mai apropiat ora! cu peste 30 de mii de locuitori variaz" odat" cu m"rimea 400 intervalului, aceasta din urm" fiind stabilit" de c"tre cercet"tor. Valorile de pe axa 300 orizontal" a graficului reprezint" centrele acestor intervale. Histograma este 200 recomandat" n cazul variabilelor "cantitative" tocmai pentru faptul c" acest 100 tip de variabile fie sunt continue, fie au un num"r foarte mare de valori chiar dac" 0 sunt discrete. Stabilirea 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 5 15 25 35 45 55 65 75 85 95 105 115 125 135 m"rimii intervalelor nu este o sarcin" u!oar": intervale prea Distanta (km) pina la cel mai apropiat oras cu peste 30000 de locuitori mari (adic" bare pu$ine) pot duce la pierderea de informa$ie, n timp ce intervale prea mici (adic" un num"r prea mare de bare) poate ascunde regularit"$ile distribu$iei. - n cazul diagramei-bar", fiecare bar" corespunde unei singure valori (categorii) a variabilei. n plus, pentru a Graficul #.2 Diagrama bar" - distribu$ia st"rii civile a capului de eviden$ia faptul c" datele nu gospod"rie ntr-un e!antion de 32200 de gospod"rii sunt continue, barele nu sunt 100 lipite ntre ele, ca n cazul histogramei.
Frecvente absolute Frecvente relative
80
Cea de-a patra coloan" a tabelului con$ine distribu!ia cumulativ" a frecven$elor relative, !i reprezint" suma dintre frecven!a relativ" a respectivei categorii #i frecven!ele relative ale categoriilor inferioare. Informa$ia oferit" de frecven$ele cumulate este foarte important", deoarece ea permite enun$area unor afirma$ii cum ar fi: "n #998, comunele cu o popula$ie sub 300# locuitori reprezentau 40,36% din totalul comunelor din Romnia". Este de la sine n$eles c" a calcula frecven$e cumulate pentru variabile nominale nu are nici un sens, din moment ce valorile acestui tip de variabile nu pot fi ordonate. Reprezentarea grafic" a unui tabel de frecven$e se face de obicei cu ajutorul unei histograme (Graficul #.#) sau a unei diagrame-bar" (Graficul #.2). n cazul ambelor tipuri de grafice, pe axa vertical" sunt reprezentate frecven$ele (absolute sau relative) iar pe axa
60
40
20
0 casatorit(a) divortat(a) vaduv(a) necasatorit(a) uniune consensuala
Starea civila a capului gospodariei
bimodal" este o distribu$ie cu dou" "vrfuri" (Graficul #.3). 2.2 Tendin$a central%, varia$ia !i forma distribu$iei n general, o descriere complet" a unei variabile se face urm"rind trei caracteristici ale acesteia: a) tendin$a central" (sau centrul distribu$ei) - adic" valoarea "tipic"" a acelei variabile b) varia$ia variabilei - ca indicator al gradului de "mpra!tiere" a datelor c) forma distribu$iei 2.2.1 Indicatori (m!suri) ai tendin"ei centrale Pentru a descrie centrul unei distribu$ii, sau tendin$a centrala a unei variabile, exist" mai multe m"suri. n aceasta sec$iune vor fi discutate cele mai des utilizate: modul, mediana !i media. Modul este definit ca fiind valoarea cu frecven!a cea mai mare a unei distribu!ii. Altfel spus, modul este acea valoare a variabilei care apare cel mai des ntr-un e#antion sau ntr-o popula!ie. Termenul deriv" din francezul "mode", adic" mod". n cazul distribu$iei variabilei "starea civil" a capului gospod"riei" reprezentat" n Graficul #.2, modul este valoarea "c"satorit(")" (cu frecven$a relativ" 80%). De cele mai multe ori, pentru a simplifica lucrul cu datele, valorilor variabilelor nominale li se acord" conven$ional coduri numerice. De exemplu, pentru datele din Graficul #.2, putem acorda codul # pentru valoarea "c"satorit(")", codul 2 pentru valoarea "uniune consensual"", codul 3 pentru valoarea "divor$at(")" etc.. Chiar dac" aceste coduri sunt numerice, ele trebuie privite ca ni!te simple simboluri conven$ionale. Utilizarea lor nu nseamn" c" valorile pot fi ordonate sau c" intervalele dintre valori sunt egale. n cazul n care valorile variabilei "stare civil"" ar fi fost codificate ca mai sus, modul ar fi fost valoarea (codul) #. Pentru datele din Tabelul #.2, care prezint" date grupate n intervale, vom vorbi despre un interval modal - !i anume categoria "200#-3000 locuitori", deoarece aceasta este "valoarea" (de fapt intervalul de valori) cu frecven$a cea mai mare (65#). Grafic, modul este valoarea variabilei c"reia i corespunde "vrful" distribu$iei. De!i simplu de ob$inut, modul Graficul #.3 Distribu$ie bimodal" - histograma variabilei nu este ntotdeauna cea mai bun" "nivel de educa$ie", pentru angaja$ii unei b"nci m"sur" a tendin$ei centrale, deoarece 200 de multe ori depinde de gruparea arbitrar" a datelor (de exemplu, pentru datele din Tabelul #.2 am fi ob$inut un alt mod dac" datele ar fi fost altfel grupate). De asemenea, nu rareori se 100 ntlnesc distribu!ii bimodale, n care exist" dou" valori diferite ale variabilei care apar cu o aceea!i "cea mai mare" frecven$". Grafic, o distribu$ie
frecvente absolute
0 8 10 12 14 16 18 20 22
Mediana este acea valoare a unei variabile care mparte seria ordonat" de date n dou" p"r!i egale, astfel nct 50% din observa!ii se vor situa deasupra valorii mediane iar 50% dedesubtul ei. S" lu"m de exemplu notele pe care 7 studen$i le primesc la examenul de statistic" (dup" ce le-am ordonat n prealabil de la minim la maxim): 5, 5, 6, 8, 9, 9, #0. Mediana acestei serii de date este 8, deoarece ea divide seria de date n dou" par$i egale: 3 dintre studen$i (observa$ii) au note mai mici dect 8 !i trei dintre ei au note mai mari. Nota 8 este exact la "mijlocul" seriei de date (dup" ordonare). Este important de re$inut c" ceea ce conteaza pentru stabilirea medianei este num"rul de observa$ii pe care se face analiza, !i nu num"rul de valori ale variabilei. Calculul medianei este relativ simplu atunci cnd avem de-a face cu un num"r mic !i impar de observa$ii. Lucrurile se complic" pu$in atunci cnd num"rul de observa$ii este par, sau dac" num"rul de observa$ii e foarte mare !i e nevoie s" apel"m la tabele de frecven$e. Lucrurile se complic" !i mai mult dac" datele de care dispunem sunt date grupate n intervale, ca n Tabelul #.2. n cazul n care avem de-a face cu un num"r par de observa$ii nu va mai exista o singur" valoare la mijlocul seriei de date, ci vom avea dou" valori. n aceast" situa$ie, mediana se afl" la mijlocul "distan$ei" dintre aceste valori, sau cu alte cuvinte, este media lor. S" presupunem c" am dori sa calcul"m mediana pentru o serie de 8 studen$i, deci un num"r par de observa$ii. Dup" ordonare, datele arat" astfel: 5, 5, 6, 7, 8, 9, 9, #0. La mijlocul seriei se afl" valorile 7 !i 8. Mediana va fi deci 7,5. Pentru situa$iile n care suntem nevoi$i s" calcul"m mediana pe baza datelor oferite de un tabel de frecven$e, vom utiliza frecven$ele Tabelul #.3 Distribu$ia notelor pentru 80 de studen$i cumulate, !i vom c"uta acea Nota Frecven$e Frecven$e Frecven$e relative valoare a variabilei sub care se absolute relative (%) cumulate (%) afl" 50% din cazuri. Pentru 2 2,5 2,5 3 4 5 7,5 4 datele din Tabelul #.3, 28,75% 7 8,75 #6,25 5 din observa$ii iau valoarea 6 #0 #2,5 28,75 6 sau o valoare mai mic", #4 #7,5 46,25 7 46,25% iau valoarea 7 sau mai 23 28,75 75 8 pu$in, iar 75% iau valoarea 8 #4 #7,5 92,5 9 sau o valoare mai mic". 6 7,5 #00 #0 Rezult" de aici c" nota Total 80 #00 median" nu poate fi 7 sau alt" not" mai mic" (deoarece numai 46,25% dintre studen$i iau nota 7 sau mai pu$in). Mediana va fi n consecin$" 8, deoarece, chiar dac" avem un num"r par de observa$ii, ambele valori care se g"sesc la mijlocul seriei de date sunt egale cu 8. n cazul n care avem de-a face cu un tabel de frecven$e care con$ine date grupate n intervale de valori (a!a cum este Tabelul #.2), valoarea medianei poate fi calculat" cu ajutorul formulei:
Numar de ani de scoala
N nc Me = l + 2 L n unde: Me este mediana, l este limita inferioar" a intervalului care con$ine mediana N este num"rul total de observa$ii nc este frecven$a absolut" cumulat" a tuturor categoriilor care preced intervalul care con$ine mediana (adic" num"rul de observa$ii care iau valori mai mici dect l) n este frecven$a intervalului care con$ine mediana L este l"rgimea sau m"rimea intervalului care con$ine mediana
"persoanele apar$innd primei decile" etc. Aceste expresii se refer" ns" la observa$iile care iau valori cuprinse ntre anumite percentile (quantile) !i nu la valorile variabilei.
Media este probabil cea mai important" #i totodat" cea mai popular" m"sur" a tendin!ei centrale a unei distribu!ii. Ea se calculeaz" ca sum" a tuturor valorilor observate ale seriei de date mp"r!it" la num"rul de observa!ii:
x + x 2 + x3 + ....... + x N X = # = N
x
i =#
Exemplu de calcul al medianei pe baza datelor din Tabelul #.2: Din tabel reiese ca mediana este con$inut" n intervalul 300#-4000 locuitori, deoarece frecven$ele relative cumulate ale categoriilor precedente sunt mai mici de 50%, iar frecven$a cumulat" a intervalului 300#-4000 este aproximativ 63%. Limita inferioar" a acestui interval este deci l = 300#. Observa$ia c"reia i corespunde mediana (numit" !i individ median) este observa$ia care se afl" exact la mijlocul seriei ordonate de date, cu alte cuvinte este observa$ia N/2, n cazul nostru observa$ia cu num"rul #343. Dac" sc"dem din acest num"r num"rul total de observa$ii care au valori mai mici dect 300#, ob$inem #343 - #084 = 259, unde #084 = 54 + 379 + 65# este valoarea lui nc din formula medianei (ob$inut prin cumularea frecven$elor categoriilor precedente intervalului care con$ine mediana). Cu alte cuvinte, observa$ia c"reia i corespunde mediana este cea de-a 259-a observa$ie din categoria "300#-4000 locuitori", categorie care apare cu frecven$a n = 602. Am putea acum s" ne ntreb"m: dac" la 602 comune corespunde o cre!tere a num"rului de locuitori cu L=#000 (de la 300# la 4000), atunci la 259 de comune ct va corespunde? R"spunsul e dat de regula de trei simpl", con$inut" oarecum !i n formula 259 #000 = 430,2 . Cu alte cuvinte, mediana este egala cu 300# + 430 = 343# medianei: 602 locuitori. Mediana este un caz special de m"sur" a localiz"rii. M"surile localiz"rii sunt de obicei cunoscute sub numele de percentile sau quantile. Pentru cazul general, numim percentila p acea valoare sub care se afl" p% din cazuri !i deasupra c"reia se afl" ($00-p)% din cazuri. De exemplu, mediana este percentila 50. Cele mai cunoscute m"suri ale localiz"rii sunt quartilele, quintilele #i decilele. Quartilele sunt acele valori ale seriei de date care o mpart n patru p"r$i egale, quintilele sunt valorile care o mpart n cinci p"r$i egale, iar decilele n #0. Sub quartila # se afl" 25% din cazuri, iar deasupra ei 75%. Sub quartila 2 se afla 50% din cazuri, de unde reiese ca aceast" quartil" este chiar mediana. n sfr!it, sub quartila 3 se afl" 75% din cazuri, iar deasupra ei se afl" 25% din cazuri (observa$ii). Din aceast" scurt" prezentare reiese c" exist" numai 3 quartile (Q#, Q2 !i Q3), deoarece pentru a mp"r$i o serie de date n m p"r$i egale sunt suficiente m-$ valori. n statistic" quartilele, decilele etc. se refer" la valori ale variabilei. Totu!i, n !tiin$ele sociale sunt folosite destul de des expresii cum ar fi "decila #0 de venituri", "cea mai s"rac" quintil"",
unde: X este media xi reprezint" valoarea variabilei pe care o ia observa$ia i N este num"rul total de observa$ii & (sigma) este simbolul folosit pentru a indica o sum" De exemplu, pentru cei 7 studen$i de mai sus, cu notele 5, 5, 6, 8, 9, 9, #0, suma notelor este 52, num"rul total de observa$ii este 7, iar media va fi 52 mp"r$it la 7, adic" 7,43. n cazul n care media trebuie calculat" pe baza unui tabel de frecven$e, formula devine:
X =
f
j =#
xj
unde: k este num"rul de categorii (valori) ale variabilei fj reprezint" frecven$a de apari$ie a categoriei j xj este valoarea categoriei j N este num"rul total de observa$ii De exemplu, pentru datele din Tabelul #.3, media este: X= 2 3 + 4 4 + 7 5 + #0 6 + #4 7 + 23 8 + #4 9 + 6 #0 = 7,3# 80
Pentru cazurile n care media trebuie calculat" pentru date grupate n intervale, ca n Tabelul #.2, se aplic" formula de mai sus, considerndu-se ca "valori ale variabilei" centrele de interval. Exemplu: pentru categoria "#00#-2000 locuitori", centrul de interval este (#00# + 2000) / 2 = #500,5. Binen$eles c", pentru un astfel de exemplu, la finalul calculelor media se va rotunji, deoarece atunci cnd vorbim despre popula$ia unei comune nu o putem exprima dect n numere ntregi. Atunci cnd avem de-a face cu date
grupate n intervale, probleme pot ap"rea la calculul centrului de interval pentru prima !i respectiv ultima categorie: n Tabelul #.2, categoriile "#000 sau mai pu$ini locuitori", respectiv "peste 8000 de locuitori". Dac" se ntmpl" ca valoarea minim" !i respectiv cea maxim" a seriei de date s" fie cunoscute, atunci nu exist" practic nici o problem". Dac" aceste valori nu sunt cunoscute, r"mne la latitudinea cercet"torului s" decid" ce valori urmeaz" s" atribuie respectivelor centre de interval. Cnd folosim una sau alta dintre m"surile tendin!ei centrale? Decizia de a utiliza una sau alta dintre m"surile tendin$ei centrale este strns legat" n primul rnd de nivelul de m"surare a variabilelor. A!a cum ne putem da seama, modul poate fi utilizat pentru toate cele patru niveluri de m"surare. Mediana ns" nu poate fi utilizat" dect pentru nivelele care permit o ordonare prealabil" a datelor, adic" numai pentru variabilele ordinale, de interval #i de raport. n ceea ce prive#te media, aceasta poate fi calculat" numai pentru variabilele masurate la ultimele dou" nivele, adic" cel de interval #i respectiv cel de raport, deoarece n cazul celorlalte nivele opera!iile de adunare/sc"dere a valorilor variabilelor nu sunt permise. Un alt element important pentru a decide ce m"sur" a tendin$ei centrale merit" folosit" este existen$a observa$iilor care au valori extreme. De fapt acest aspect este n strns" legatur" cu forma distribu"iei. S" consider"m de exemplu distribu$ia consumului per capita al gospod"riilor, a!a cum este ea reprezentat" n Graficul #.4. Media acestei distribu$ii este #03087 lei iar mediana este 87354 lei lei (valorile sunt exprimate n pre$uri #995). n ceea ce prive!te modul, valoarea exact" a acestuia nu are sens s" fie calculat" deoarece exist" relativ pu$ine situa$ii n care mai multe gospod"rii au exact aceea!i valoare a consumului per capita. Putem ns" vorbi despre un interval modal, care se afl" undeva n jur de 72000 lei.
Graficul #.4 Distributia consumului per capita al gospod"riilor
1400000
de gospod"rii cu valori foarte mari ale consumului per capita, valori care "trag" media spre dreapta (sau cu alte cuvinte conduc c"tre o valoare mai ridicat" a acesteia n raport cu mediana). n concluzie, putem afirma c" modul nu e Graficul #.5 Alungirea (oblicitatea) o m"sur" foarte adecvat" a centrului unei distribu$iilor distribu$ii. El este util mai ales atunci cnd avem de-a face cu variabile m"surate la nivel nominal, dar !i n cazurile n care distribu$iile studiate sunt bi- sau multi-modale. Mediana este indicat" mai ales n cazurile n care dorim identificarea "valorilor tipice" ale unor distribu$ii asimetrice (vezi Graficul #.5, b !i c), care au valori extreme. Media, pe de alt" parte, prezint" marele avantaj de a lua n calcul toate valorile unei serii de date. Aceasta este unul din motivele pentru care ea continu" s" fie cea mai utilizat" m"sur" a (a) modul, mediana !i media coincid (se tendin$ei centrale. n plus ea mai are !i alte suprapun) propriet"$i utile, care vor fi discutate n capitolele urm"toare. Pozi!iile relative ale modului, medianei #i mediei Graficul #.5(a) prezint" o distribu$ie simetric", n care modul, mediana !i media coincid, adic" au practic aceea!i valoare. Ce se ntmpl" n cazul distribu$iilor asimetrice? De exemplu, Graficul #.5 (b) prezint" o distribu$ie a c"rei parte din dreapta este alungit". Pentru a g"si mediana, va trebui s" ne deplas"m la dreapta "vrfului" distribu$iei, adic" a modului, cu cteva observa$ii. Mediana se va afla deci la dreapta modului. Mai mult dect att, datorit" influen$ei exercitate de cazurile aflate la extrema dreapt" a distribu$iei, valoarea medie va fi !i mai mare dect valoarea median", a!a cum am v"zut de altfel !i n exemplul distribu$iei consumului gospod"riilor. Putem deci trage concluzia c" fa$" de mod, mediana se va g"si n direc$ia alungirii distribu$iei, iar media se va g"si n aceea!i direc$ie, chiar mai departe dect mediana.
1200000
1000000
800000
600000
frecvente absolute
400000
200000
0
49 00 50 47 333 8 45 67 16 44 00 50 42 33 83 40 67 16 39 00 50 37 33 83 35 67 16 34 00 50 32 333 8 30 67 16 29 00 50 27 33 83 25 67 16 24 00 50 22 33 83 20 67 16 19 000 5 17 33 83 15 67 16 14 00 50 12 33 83 10 7 66 91 0 00 75 3 33 58 67 6 41 0 00 83 25 33
consumul per capita al gospodariilor (lei), in 1995
Dac" dorim s" afl"m valoarea "tipic"" a consumului per capita ntr-o gospod"rie pentru o distribu$ie ca cea din Graficul #.4, este mai indicat s" utiliz"m mediana, deoarece modul de calcul al acesteia este mai apropiat n acest caz de ceea ce n$elegem noi n mod obi!nuit prin "centrul distribu$iei": 50% dintre cazuri dedesubt !i 50% deasupra. Mediana are avantajul de a nu fi influen$at" de valorile "extreme" ale seriei de date. Media seriei de date reprezentate n Graficul #.4 este mai mare dect mediana tocmai datorit" existen$ei unui num"r relativ mic
(b) mediana se afl" la dreapta modului iar media se afl" la dreapta medianei
(c) mediana se afl" la stnga modului iar media se afl" la stnga medianei
2.2.2 M!suri ale varia"iei M"surile tendin$ei centrale sunt esen$iale pentru descrierea unei caracteristici a unui e!antion sau a unei popula$ii, ns" ele nu sunt suficiente. Pentru descrierea complet" a unei variabile este foarte important s" !tim deasemenea !i ct de "mpr"!tiate" sunt valorile acesteia n jurul tendin$ei centrale sau, cu alte cuvinte, ct de omogen" respectiv eterogen" este popula$ia (e!antionul) studiat" n raport cu o anumit" caracteristic". S" lu"m ca exemplu performan$a la o anumit" materie a unei grupe de 80 studen$i, m"surat" cu note de la # la #0 (datele sunt prezentate n Tabelul #.3). Nota medie a respectivei grupe este 7,3#. Aceast" informa$ie ns" pare a fi insuficient" pentru a ne putea pronun$a asupra performan$ei respectivei grupe. ntrebarea pe care ne-o punem n mod natural este: ct de omogen" este respectiva grup" n ceea ce prive!te performan$a !colar"? Un prim r"spuns la aceast" ntrebare l putem da prin simpla examinare a intervalului n care sunt cuprinse notele respectivilor studen$i, sau mai bine zis prin calcularea amplitudinii variabilei. Amplitudinea unei variabile este diferen!a dintre valoarea maxim" #i valoarea minim" a acelei variabile. Pentru exemplul nostru, amplitudinea este #0 - 3 = 7 puncte. Deci, cei 80 de studen$i sunt distribui$i de-a lungul unui interval de !apte puncte. O m"sur" a varia$iei mai rafinat" dect amplitudinea o reprezint" abaterea interquartil", care se calculeaz" ca diferen$" ntre quartila 3 !i quartila #. Abaterea interquartil" m"soar" mpr"#tierea celor 50% din observa!ii aflate la mijlocul distribu!iei. Ea are practic acelea!i avantaje pe care le are !i mediana ca m"sur" a tendin$ei centrale, !i anume nu este influen$at" de existen$a cazurilor extreme. De cele mai multe ori suntem ns" interesa$i s" folosim o m"sur" a varia$iei unei variabile care s" includ" toate observa$iile, nu numai dou" dintre ele ca n cazul amplitudinii !i abaterii interquartile. n plus, suntem interesa$i s" examin"m varia$ia n raport cu o m"sur" a tendin$ei centrale. De obicei, m"surile care satisfac aceste dou" cerin$e sunt bazate pe abaterile observa!iilor de la medie. Abaterea de la medie a unei observa!ii este diferen!a dintre valoarea pe care o ia respectiva observa!ie #i media variabilei ( xi X ).Una din propriet"$ile mediei este ns" aceea c" suma tuturor abaterilor individuale de la medie este egal" cu 0:
O alt" m"sur", mult mai r"spndit", este varian!a variabilei. Varian!a (sau dispersia) se define#te ca fiind media aritmetic" a p"tratelor abaterilor individuale de la medie: # Varianta = ( xi X ) 2 N
Din motive teoretice care nu vor fi expuse n acest manual, pentru calcularea varian!ei la nivel de e#antion se folose#te formula: # s2 = ( xi X ) 2 , N # iar pentru date grupate n tabele de frecven!e (ca n Tabelul $.3): # s2 = (x j X )2 f j N # unde: xj este valoarea variabilei pe care o ia grupa j fj este frecven$a absolut" de apari$ie a lui xj Deoarece varian$a, datorit" ridic"rii la p"trat, este destul de dificil de interpretat, cea mai utilizat" m"sur" a varia$iei unei variabile, pentru scopuri descriptive, este abaterea standard, definit" ca radical de ordinul doi (r"d"cin" p"trat") din varian!": s = s2 Din formula abaterii standard reiese clar c" abaterea standard va fi cu att mai mare cu ct valorile pe care le iau observa$iile se abat mai mult de la medie. S" consider"m de exemplu notele la o materie a dou" grupe mici de elevi, ambele serii de date avnd media 6 !i amplitudinea 8: Grupa #: Grupa 2: 2, 4, 6, 6, 8, #0 2, 2, 5, 7, #0, #0
(x
i =#
X ) = 0 (sau cu alte
cuvinte, abaterile pozitive se vor anula cu cele negative). n consecin$", pentru a ob$ine o m"sur" a varia$iei la nivelul ntregului e!antion sau a ntregii popula$ii trebuie utilizat" fie suma valorilor absolute ale abaterilor individuale de la medie, fie suma p"tratelor acestor abateri. Abaterea medie absolut" este definit" ca medie aritmetic" a abaterilor individuale absolute (ignornd semnul acestora) de la media variabilei: # AMA = xi X N
ntrebarea pe care ne-o putem pune este: ct de omogene sunt cele dou" grupe? Calculul abaterilor standard arat" c" n prima grup" s# = 2,8, iar n a doua s2 = 3,6. Este clar deci c" prima grup" e mai omogen" dect a doua, n care variabilitatea performan$ei e mai mare. n exemplul de mai sus am comparat dou" grupe de subiec$i din punct de vedere al omogenit"$ii pentru o aceea!i caracteristic". ns" atunci cnd trebuie analiz"m omogenitatea unei singure popula$ii sau a unui e!antion apar ntrebari al c"ror r"spuns e mai dificil de dat: "cum interpret"m magnitudinea abaterii standard?", "cnd putem spune c" avem o abatere standard mic" sau una mare?", "cum putem compara omogenitatea unei popula$ii pentru dou" variabile diferite?". Practic, r"spunsul la prima ntrebare depinde n mare m"sur" !i de alte caracteristici ale distribu$iei. Pentru un anumit tip de distribu$ii interpretarea magnitudinii abaterii standard este mai u!oar", !i acest lucru va fi tratat n Capitolul 2 al acestui manual. n cazul celorlalte dou" ntreb"ri un r"spuns satisf"c"tor poate fi dat cu ajutorul unei alte m"suri, numite coeficient de varia!ie, calculat ca raport ntre abaterea standard !i media unei varibile:
CV =
s X
Prin modul de calcul, coeficientul de varia$ie are avantajul de a fi o m"sur" adimensional" (f"r" unitate de m"sur"), deoarece unitatea de m"sur" a abaterii standard este aceea!i cu cea a mediei. n consecin$", el este foarte util n compararea varia$iei a dou" variabile m"surate pe acea!i popula$ie/e!antion. Putem astfel trage concluzii de tipul: "popula$ia A este mai eterogen" n privin$a caracteristicii X dect n privin$a caracteristicii Y", concluzii imposibil de formulat numai cu ajutorul abaterii standard deoarece abaterea standard este o m"sur" dimensional" !i deci nu putem compara "mere cu pere" (de exemplu abaterea standard a performan$ei !colare cu abaterea standard a veniturilor familiei). Prin modul s"u de calcul coeficientul de varia$ie indic" practic ct la sut" din medie corespunde unei abateri standard, ceea ce face mai u!or de evaluat gradul de omogenitate a popula$iei studiate. O popula$ie cu o abatere standard egal" sau mai mare dect media poate fi considerat" n cele mai multe cazuri o popula$ie eterogen", n timp ce o popula$ie a c"rei abatere standard reprezint" 0,3 (30%) din medie poate fi considerat" o popula$ie relativ omogen". Este important ns" de re$inut faptul c" acest coeficient nu poate fi calculat dect n cazul variabilelor m"surate la nivel de raport, deoarece n cazul variabilelor nominale !i ordinale abaterea standard nu poate fi calculat", iar n cazul variabilelor m"surate la nivel de interval media este una conven$ional", ceea ce face posibil" transformarea variabilei prin adunarea unei constante la valorile acesteia, f"r" ca semnifica$ia valorilor variabilei s" se modifice O astfel de transformare ar l"sa nemodificat" abaterea standard (lucru care poate fi demonstrat matematic) ns" ar modifica media variabilei. Ori aceasta nseamn" c" pentru aceea!i caracteristic" am putea calcula coeficien$i de varia$ie diferi$i ca valoare. 2.3 Transformarea unei variabile cu ajutorul scorului z n practica analizei de date se ntmpl" de multe ori s" dorim s" compar"m dou" observa$ii ntre ele, pentru o aceea!i variabil", din punct de vedere al distan$ei lor fa$" de medie. Dar acest tip de informa$ie asupra pozi$iei relative a unor observa$ii nu ofer" ntotdeauna o informa$ie mul$umitoare. Cercet"torul poate fi interesat s" evalueze magnitudinea distan$ei dintre valoarea pe care o ia o observa$ie !i medie n raport cu distan$a medie n e!antion. Cu alte cuvinte, el se poate ntreba: ct de mare este abaterea de la medie a unei (unor) observa$ii n raport cu abaterea medie observat" n popula$ie? De asemenea, se poate ntmpla s" dorim s" compar"m pozi$ia relativ" a aceleia!i observa$ii fa$" de mediile a dou" variabile. n acest caz ns", unit"$ile de m"sur" !i magnitudinea valorilor variabilelor ne pot mpiedica s" facem o compara$ie cu sens. O solu$ie a acestor probleme este transformarea sau standardizarea Tabelul #.4 Jude$ul Total jude$e variabilelor cu ajutorul scorului z. Br"ila Medie Abatere S" presupunem c" ne standard intereseaz" s" afl"m ce s-a Rata n !omajului #995 #0.8 9.705 3.384 ntmplat cu rata !omajului n Rata !omajului n #997 #3.5 9.088 2.960 jude$ul Br"ila n perioada #995 #997. n Tabelul #.4 sunt prezentate
valorile ratei !omajului n jude$ul Br"ila pentru anii #995 !i #997, precum !i mediile !i abaterile standard ale ratelor !omajului pe jude$e n anii men$iona$i. Dac" ne vom uita la evolu$ia !omajului numai pentru jude$ul analizat, vom sesiza o cre!tere considerabil" a ratei !omajului, f"r" s" putem spune nimic ns" despre evolu$ia acesteia n raport cu evolu$ia celorlate jude$e. Standardizarea celor doua variabile (rata !omajului n #995, respectiv rata !omajului n #997) ar putea s" ne ofere informa$ii n plus. Standardizarea valorilor unei variabile X se face dup" formula: zi = xi X s
unde: zi este valoarea pe care o ia observa$ia i dup" transformarea variabilei xi este valoarea pe care o ia observa$ia i pentru variabila X X este media variabilei X s este abaterea standard a variabilei X Rezultatul acestei transform"ri va fi o nou" variabil" Z care va avea ntotdeauna media egala cu 0 !i abaterea standard egal" cu #, datorita formulei de calcul. Practic, putem spune c" unitatea de m"sur" a noii variabile Z este chiar abaterea standard a variabilei X. Scorurile z ne vor informa asupra distan$ei la care se gase!te o observa$ie fa$" de media seriei de date, distan$" m"surat" n abateri standard ale variabilei originale X. Este important de re$inut faptul c" aceast" transformare nu modific" n nici un caz forma distribu$iei variabilei. Dac" aplic"m formula de mai sus pe datele din exemplul nostru vom ob$ine valorile standardizate ale ratelor !omajului n #995 !i #997 din jude$ul Br"ila: zs95B = 0,32 !i respectiv zs97B = #,49 De aici rezult" c" n #995 jude$ul Br"la se g"sea la numai 0,32 abateri standard fa$" de media !omajului pe jude$e, iar n #997 !omajul n respectivul jude$ era cu #,49 abateri standard mai mare dect media, ceea ce poate fi interpretat ca o nr"uta$ire semnificativ" a pozi$iei relative a acestui jude$ n privin$a ocup"rii for$ei de munc". 2.4 Variabile dihotomice n ultima sec$iune a acestui capitol ne vom ocupa de un tip mai special de variabile, !i anume variabilele dihotomice sau binare, adic" variabile care au dou" valori posibile. Exemple de astfel de variabile sunt inten$ia de a fi prezent la vot (da/nu), succesul sau e!ecul unui program de dezvoltare etc. Acest tip de variabile sunt deosebit de utile n practica analizelor statistice deoarece, la limit", ele pot fi considerate ca fiind m"surate la nivel de raport. Dac" vom codifica valorile unei astfel de variabile cu 0 respectiv # vom ob$ine o variabil" care practic m"soar" prezen$a sau absen$a caracteristicii studiate (inten$ia de a se prezenta la vot, succesul programului de dezvoltare etc.). Ele vor avea deci un 0 absolut (absen$a caracteristicii) !i o unitate de m"sur" (prezen$a caracteristicii). n aceste condi$ii ne putem ntreba cum se calculeaz" media !i respectiv abaterea standard ale acestor variabile.
Dac" lu"m ca punct de plecare formula de calcul a mediei pentru date grupate prezentat" n sec$iunea 2.2, atunci vom avea:
4.
X =
f
j =#
xj =
Valorile variabilei ocupatie, intr-un grup de 5 persoane, sunt: #, 3, 3, 4, 5. Tendinta centrala in acest grup, pentru variabila ocupatie, poate fi descrisa prin:
f 0 0 + f# # f # = = p, N N
#. 2. 3. 4. 5.
media egala cu 3,2 mod egal cu 3 mod egal cu 2 mediana egala cu 3 nici una dintre acestea
unde f0 este frecven$a absolut" de apari$ie a lui 0, iar f$ este frecven$a absolut" de apari$ie a lui #. Cu alte cuvinte, media unei variabile dihotomice este chiar frecven$a relativ" de apari$ie a valorii # (num"rul de observa$ii care iau valoarea # mp"r$it la num"rul total de observa$ii ale seriei de date), adic" frecven$a relativ" (notat" aici cu p) a cazurilor n care caracteristica studiat" este prezent". Dac" analiza este efectuat" pe o popula$ie !i nu pe un e!antion, atunci vom spune c" media unei variabile dihotomice este chiar probabilitatea de apari$ie a caracteristicii studiate (aceasta ns" numai n cazul n care respectiva variabil" este codificat" 0/#). Similar cu demonstra$ia n cazul mediei, se poate ar"ta ca formula abaterii standard pentru o variabil" dihotomic" este: s= p (# p ) ,
unde p este frecven$a relativ" a prezen$ei caracteristicii studiate. Exerci$ii !i probleme #. Veniturile gospod"riilor locuitorilor $"rii Alfa, care cuprinde 87 de milioane de gospod"rii, sunt distribuite n jurul unei valori medii de 27000 Alfa-lei !i o median" de 22000 Alfa-lei. a. Ce se poate spune despre simetria distribu$iei veniturilor? b. Care este venitul ntregii $"ri (toate cele 87 de milioane de gospod"rii)? Pentru urm"toarele ntreb"ri, s" se ncercuiasc" varianta corect" /variantele corecte: 2. Decila 5 este o masura a: #. 2. 3. 4. #. 2. 3. 4. 5. tendintei centrale variatiei formei distributiei nici una dintre acestea media quartila 2 modul abaterea standard nici una dintre acestea
3.
Valoarea sub care se afla 50% dintre cazurile seriei de date ordonate de la minim la maxim este:
Capitolul 2 Distribu$ii de probabilitate
2.# Probabilitate: no$iuni introductive Cel mai simplu !i mai des ntlnit exemplu pentru o definire intuitiv" a no$iunii de probabilitate este aruncarea zarului, care st" de altfel la baza teoriei probabilit"$ilor, cel pu$in din punct de vedere istoric. Ce s-ar ntmpla dac" am arunca un zar (ne-trucat) de 50 de ori? Dar daca l-am arunca de numai #0 ori? Dar dac" l-am arunca de cteva milioane de ori? Cum ar ar"ta distribu$ia frecven$elor relative pentru fiecare din cele trei cazuri de mai sus? Deoarece zarul nu este trucat, ne a!tept"m ca fiecare din cele 6 fe$e ale sale s" aib" aceea!i "probabilitate" de a c"dea n sus la fiecare aruncare. Cu alte cuvinte, "ntmplarea" va hot"r care fa$" va ie!i "c!tig"toare". n acest caz, am putea simula aruncarea zarului cu ajutorul unui tabel cu numere aleatoare, lund n considerare numai numerele de la # la 6. S" vedem cum arat" frecven$ele relative (de data aceasta nu le vom mai exprima n procente, ci le vom calcula simplu ca f/n, adica frecven$a absolut" (de apari$ie a unei fe$e a zarului) mpar$it" la num"rul total de arunc"ri. n acest caz putem privi fiecare aruncare ca pe o observa$ie, iar num"rul total de arunc"ri ca pe m"rimea e!antionului.
Tabelul 2.# Distribu$ia frecven$elor relative ale valorilor unui zar, pentru e!antioane de m"rime diferit" (num"r de arunc"ri) Frecven$e relative f/n, unde n este num"rul de arunc"ri cu zarul Num"r de puncte n = #0 n = 50 n=' # 0,#0 0,22 #/6 = 0,#67 2 0 0,#2 #/6 = 0,#67 3 0,#0 0,#4 #/6 = 0,#67 4 0,20 0,#4 #/6 = 0,#67 5 0,30 0,#4 #/6 = 0,#67 6 0,30 0,24 #/6 = 0,#67 $,00 $,00 $,00
rezultate mult mai complex. S" consider"m de exemplu un experiment care const" din aruncarea repetat" de trei ori a unei fise colorate cu albastru pe o parte !i cu galben pe cealalt". Un rezultat posibil al acestui experiment ar fi AGA, adica albastru, galben, albastru (culoarea fe$ei cu care fisa cade n sus). Care este probabilitatea acestui rezultat? Teoretic, ar trebui s" repet"m acest experiment de milioane !i milioane de ori !i s" calcul"m frecven$a relativ" de apari$ie a respectivului rezultat. Mai simplu ar fi ns" s" recurgem la un experiment mental. Care sunt rezultatele posibile ale acestui experiment? Iat" o listare a lor: AAA, AAG, AGA, AGG, GAA, GAG, GGA !i GGG, adic" 8 rezultate. S" presupunem c" fiecare fa$" a fisei are aceea!i probabilitate de apari$ie; aceasta nseamn" c" fiecare din rezultatele men$ionate va avea aceea!i probabilitate, adic" #/8. Deci, probabilitatea rezultatului AGA este #/8. Putem fi ns" interesa$i de un subset al setului complet de rezultate, sau cu alte cuvinte de un anumit eveniment, cum ar fi "cel pu$in de doua ori galben". Acest eveniment este format din subsetul de 4 rezultate {AGG, GAG, GGA, GGG}. Care este probabilitatea acestui eveniment? R"spunsul intuitiv !i corect este 4/8. Cu alte cuvinte, probabilitatea unui eveniment este suma probabilit"!ilor rezultatelor incluse n acel eveniment. Evenimente combinate S" presupunem acum c" ne intereseaz" probabilitatea de apari$ie a urm"toarei combina$ii: "mai pu$in de dou" ori galben sau toate de aceea!i culoare". S" not"m cu J evenimentul "mai pu$in de dou" ori galben" !i cu H evenimentul "toate de aceea!i culoare". Evenimentul J include rezultatele {AAA, AAG, AGA, GAA}, iar evenimentul H include rezultatele {GGG, AAA}. Evenimentul "J sau H", care ne intereseaza pe noi va include deci rezultatele {AAA, AAG, AGA, GAA, GGG} !i va avea probabilitatea 5/8, deoarece avem 5 rezultate din 8, iar rezultatele n exemplul nostru au probabilit"$i egale (#/8). Putem deci defini evenimentul "J sau H" ca fiind acel subset de rezultate care sunt incluse fie n J, fie n H, fie n amndou". Similar, vom defini evenimentul "J #i H" ca fiind acel subset de rezultate care se g"sesc att n J ct #i n H (n cazul nostru e vorba de {AAA}, deci probabilitatea lui "J !i H" este #/8). Conform exemplului de mai sus, am putea scrie: Pr(J sau H) = Pr(J) + Pr(H) - Pr(J #i H), deoarece n exemplul de mai sus nu am num"rat de dou" ori rezultatul {AAA}, ci numai o dat". Cu alte cuvinte, sc"derea probabilit"$ii lui "J !i H" a fost facut" tocmai pentru a elimina dubla num"rare a unor rezultate. n cazul n care avem de-a face cu dou" evenimente, s" zicem I #i K, mutual exclusive, adic" Pr(I #i K) = 0, atunci Pr(I sau K) = Pr(I) + Pr(K) Probabilit"!i condi!ionate S" presupunem acum c" n timpul celor 3 arunc"ri (deci pe parcursul experimentului) se !tie c" a ap"rut evenimentul J (mai pu$in de dou" apari$ii ale fe$ei galbene pe parcursul celor trei arunc"ri ale fisei). Care este probabilitatea ca H s" se ntmple? - adic" la toate arunc"rile s" apar" aceea!i culoare. Cu alte cuvinte, dac" ar fi s" ne imagin"m foarte multe repeti$ii ale experimentului !i s" luam n considerare numai
n tabelul de mai sus observ"m un un fenomen la care de altfel ne a!teptam: cu ct cre!te num"rul de arunc"ri, cu att frecven$ele relative se apropie de egalitate - !i aceasta deoarece, a!a cum am mai spus, dac" un zar e "cinstit" atunci fiecare fa$" a sa are aceea!i "!ans"" de apari$ie. Dac" num"rul de arunc"ri este mic, frecven$ele relative fluctueaz" puternic. Pe m"sur" ns" ce num"rul de arunc"ri (sau altfel spus m"rimea e!antionului) cre!te ele vor tinde c"tre o valoare pe care o numim probabilitate. Desigur, dac" zarul ar fi fost trucat, nu am mai fi putut "ghici" c" probabilitatea de apari$ie a unei fe$e este #/6, ci ar fi trebuit s" estim"m probabilitatea printr-un num"r de arunc"ri care s" tind" catre infinit. Putem considera aruncarea cu zarul din exemplul de mai sus ca pe un experiment cu 6 rezultate (cele 6 fe$e ale zarului). De obicei ns", un "experiment" are un set de
acele cazuri n care apare J, ct de des va ap"rea H? n termeni de probabilit"$i, aceasta nseamn" c" dorim s" afl"m probabilitatea lui H condi!ionat" de J, notat" cu Pr(H|J). S" presupunem c" repet"m experimentul de #00 de milioane de ori. Cum probabilitatea de apari$ie a lui J este de 4/8, aceasta nseamn" ca J apare de 50 de milioane de ori. Pe de alt" parte, din cele patru rezultate incluse n J, numai unul este inclus !i n H, !i anume {AAA}, care are probabilitatea #/8, deci apare de #2,5 milioane de ori. Deducem de aici c" H apare de #2,5 milioane de ori din 50 de milioane, sau altfel spus Pr(H|J) = #2,5/50 = #/4 = 0,25. S" ncerc"m acum s" scriem forma general" a unei probabilit"$i condi$ionate: Pr( H J ) = Pr( J si H ) Pr( J )
a) Pr (S) = 0,078 + 0,072 = 0,#5, sau cu alte cuvinte, rata !omajului n respectivul ora! este de #5%. La acela!i rezultat am fi ajuns !i dac" am fi calculat probabilitatea de a fi !omer mp"r$ind num"rul total de !omeri (#5600 + #4400) la totalul popula$iei de vrst" activ" (200000). Pr( S si F ) 0,078 = = 0,#5 b) Pr( S F ) = Pr( F ) 0,52 Deoarece probabilitatea calculat" la punctul a) este egal" cu probabilitatea calculat" la punctul b), putem spune ca probabilitatea de a fi !omer (S) nu este afectat" de faptul c" o persoan" este femeie (F). Acest tip de independen$", definit" n termeni de probabilit"$i, se nume!te independen!" statistic". Putem acum s" d"m defini$ia exact" a independen$ei: L se nume!te independent statistic de M dac" Pr(L|M) = Pr(L).
De aici putem deduce c": Pr(J #i H) = Pr(J)Pr(H|J) Independen!" Consecin$a acestei defini$ii este foarte important": de aici rezult" c" dac" avem doua evenimente independente J #i H, atunci: Pr(J #i H) = Pr(J)Pr(H|J) = Pr(J)Pr(H). n statistic" independen$a este un concept foarte precis, care se define!te cu ajutorul probabilit"$ilor. Vom ilustra aceasta cu ajutorul unui exemplu. ntr-un ora! situa$ia ocup"rii popula$iei de vrst" activ" (200.000 de persoane) arat" ca n tabelele prezentate n Exemplul 2.#. Primul tabel (a) reprezint" num"rul de indivizi !omeri, Exemplul 2.# Este !omajul dependent de sexul indivizilor? respectiv ocupa$i, n func$ie de sex. Cel de-al doilea tabel (b) reprezint" probabilit"$ile de (a) Frecven$e absolute apari$ie pentru fiecare din cele 4 situa$ii !omeri ocupa$i #5600 88400 posibile: a fi femeie #i a fi !omer - Pr (F !i S), femei #4400 8#600 a fi b"rbat #i a fi !omer - Pr(B !i S) etc. Suma b"rba$i probabilit"$ilor din cele 4 celule ale tabelului (b) Probabilit"$i este egal" cu # (orice probabilitate variaz" !omeri ocupa$i ntre 0 #i $). Probabilit"$ile din fiecare celul" femei 0.078 0.442 au fost calculate dupa formula fi/n, unde fi este b"rba$i 0.072 0.408 frecven$a absolut" a unei celule (de exemplu num"rul de femei !omere) iar n este totalul popula$iei de vrst" activ" (n exemplul nostru 200.000). S" ncerc"m acum s" r"spundem la ntrebarile: a) Care este probabilitatea ca o persoan" extras" la ntmplare din popula$ia de vrst" activ" s" fie !omer - Pr(S)? b) Care este probabilitatea ca o persoan" s" fie !omer, atunci cnd este femeie Pr(S|F)? Iat" !i solu$iile: Mai mult dect att, dac" H este independent de J, atunci #i J trebuie s" fie independent de H. 2.2 Variabile aleatoare Cazul variabilelor discrete S" ne imagin"m acum c" dorim s" analiz"m popula$ia familiilor cu trei copii, !i suntem interesa$i de num"rul de fete pe care o astfel de familie l-ar putea avea. Putem s" consider"m o familie cu trei copii ca pe un experiment oarecum similar cu cel din sec$iunea precedent": ntr-o familie care !i planific" s" aib" trei copii, rezultatele posibile sunt: b"iat, b"iat, b"iat (BBB), b"iat, b"iat, fat" (BBF) etc. ntr-o astfel de familie num"rul de fete poate fi 0, #, 2 sau 3. Dac" Tabelul 2.2 probabilitatea de a se na!te o fat" este egal" cu r Pr(r) probabilitatea de a se na!te un b"iat, atunci BBB 0,#66 fiecare din rezultatele posibile are aceea!i BBF 0,#36 BFB 0,#36 probabilitate #/8. S" complic"m pu$in lucrurile !i BFF 0,### s" presupunem c" probabilitatea de a se na!te o FBB 0,#36 fat" este de 0,45, iar probabilitatea de a se na!te FBF 0,### un b"iat este 0,55. Aceasta nseamn" ca FFB 0,### probabilitatea ca primul copil s" fie o fat" este de FFF 0,09# 0,45, iar probabilitatea ca al doilea copil s" fie o Not": totalul nu este exact egal cu # datorit" fat" este 0,45. De unde deducem ca probabilitatea rotunjirilor ca primii doi copii s" fie fete este egal" cu 0,45 din 0,45, adic" 0,45 x 0,45 = 0,202. Tot astfel putem calcula !i probabilitatea ca to$i trei copiii s" fie fete, adic" Pr(FFF) = 0,45 x 0,45 x 0,45 = 0,09#. n Tabelul 2.2 sunt prezentate probabilit"$ile de apari$ie ale rezultatelor acestui experiment. Revenind la
problema de la nceputul sec$iunii - num"rul de fete pe care o familie cu trei copii l poate avea - trebuie s" ob$inem distribu$ia de probabilit"$i a variabilei aleatoare "num"r de Tabelul 2.3 Distribu$ia variabilei aleatoare X = num"r de fete fete" (notat" cu X). Tabelul 2.3 prezint" aceast" x p(x) distribu$ie. Probabilitatea ca o familie s" nu aib" 0 0,#66 nici o fat" este Pr(BBB) = 0,#66; probabilitatea # 0,408 2 0,334 ca o familie s" aib" o singur" fat" este Pr(BBF) + 3 0,09# Pr(BFB) + Pr(FBB) = 0,#36*3 = 0,408 !.a.m.d. ": totalul nu este exact egal cu # datorit" O variabil" discret" aleatoare este deci acea Not rotunjirilor variabil" X care ia diferite valori x cu probabilit"$i specificate de distribu$ia sa de probabilitate p(x). Cazul variabilelor continue Pentru o variabil" continu" exist" un continuum de valori posibile. n capitolul #, Graficul #.#, am reprezentat histograma distan$elor de la centrul comunei pn" la cel mai apropiat ora! cu peste 30de mii de locuitori, folosindu-ne de intervale de valori. S" ne imagin"m acum c" lu"m o variabil" continu" aleatoare !i o reprezent"m ca n Figura 3.#(a), astfel nct suma ariilor tuturor barelor histogramei s" fie egal" cu # (#00%). Un astfel de grafic se nume!te densitate a frecven!elor relative. Dac" num"rul de observ$ii este foarte mare, frecven$ele relative vor tinde c"tre probabilitate !i, n acela!i timp, vom putea utiliza intervale din ce n ce mai mici, adic" bare din ce n ce mai nguste. n Figura 3.#(c) se poate vedea cum densitatea frecven$elor relative aproximeaz" o curb", cea a lui p(x), pe care o vom numi de acum nainte distribu$ie de probabilitate. Ariile de sub curb" reprezint" probabilit"$i, iar aria total" este egal" cu # (deoarece probabilitatea variaz" ntre 0 !i #, iar suma tuturor probabilit"$ilor este egal" cu #). Distribu!ia n popula!ie a unei variabile nu este nimic altceva dect distribu!ia de probabilitate a valorilor pe care o observa!e extras" la ntmplare din acea popula!ie le poate lua pentru respectiva variabil". De exemplu, dac" ntr-o popula$ie frecven$a relativ" a persoanelor cu o nal$ime de #,7 metri este 20%, atunci probabilitatea ca un individ extras la ntmplare
Figura 3.# De la frecven$e relative la densitatea de probabilitate
din respectiva popula$ie s" aib" #,7 m este de 0,2. ncepnd cu aceast" sec!iune vom face o distinc!ie clar" ntre statisticile calculate la nivel de e#antion #i parametrii, adic" valorile din popula!ie. Astfel, vom vorbi depre probabilitate (notat" cu %) numai atunci cnd ne referim la popula!ii, #i despre frecven!e relative (notate cu p sau fr) atunci cnd ne refeim la e#antioane. Este important de re"inut faptul c! ntotdeauna not!m statisticile la nivel de e#antion cu litere latine ( x , s, p etc.) iar parametrii (valorile n popula"ie)cu litere grece#ti (, $, % etc.) Orice distribu$ie de probabilitate (sau distribu$ie n popula$ie) poate fi caracterizat" cu ajutorul ctorva parametrii cum ar fi cei care descriu media acelei distribu$ii - notat" cu !i abaterea ei standard - notat" cu &. n studiul statisticii pot fi ntlnite multe tipuri sau familii de distribu$ii de probabilitate ale c"ror formule matematice sunt folosite pentru a calcula probabilit"$i. Multe dintre aceste familii de distribu$ii sunt deosebit de utile deoarece ele ofer" aproxim"ri bune ale unor distribu$ii des ntlnite n lumea real". Altele sunt deosebit de utile pentru statistica inferen$ial". n sec$iunea urm"toare ne vom ocupa de un astfel de tip de distribu$ie. Distribu!ia normal" n cazul multor variabile aleatorii distribu$ia de probabilitate are o form" specific", simetric", n form" de clopot, !i cu anumite propriet"$i particulare, care vor fi prezentate mai jos. Acest tip de distribu$ie se nume!te distribu$ie normal" !i este reprezentat" n Figura 3.2 (mpreun" cu formula matematic", care este ns" f"r" importan$" pentru obiectivele acestui curs). De fapt este vorba despre o familie de distribu$ii, caracterizat" de parametrii !i ( (medie !i abatere standard). Principala proprietate a acestei familii de distribu$ii este aceea c" pentru orice num"r constant z, probabilitatea concentrat" la dreapta lui + z( este aceea!i Figura 3.2 Distribu$ia normal" a unei variabile pentru toate distribu$iile normale. Datorit" faptului ca distribu$ia este simetric", probabilitatea concentrat" la dreapta lui + z( este egal" cu probabilitatea concentrat" la stnga lui - z(. Cu alte cuvinte aria de sub curb" aflat" la dreapta lui + z( este egal" cu aria aflat" la stnga lui - z(. Cnd z = #,96 (adic" aproximativ 2), aria cuprins" ntre - z( !i + z( este egal" cu 0,95. Cnd z = # (ca n Figura 3.2) aria cuprins" ntre - z( !i + z( este egal" cu aproximativ 0,68. Mai mult, n cazul distribu$iei normale aproape toat" aria de sub curb" este cuprins" ntre ntre - 3( !i + 3( (z=3). Acest gen de informa$ie este foarte util: s" presupunem c" scorurile unor elevi ai unei clase, nota$i pe o scal" de la 0 la #00, sunt normal distribuite n jurul mediei 60, cu o abatere standard
(a)
(b)
(c)
de 5 puncte. Aceasta nseamn" c" 68% dintre elevi au note ntre 55 !i 65, iar 95% dintre ei au note ntre aproximativ 50 !i aproximativ 70. Sau, mai corect spus, probabilitatea ca un elev extras la ntmplare din respectiva grup" s" aib" un scor ntre 50 !i 70 este de 0,95. Dac" notele elevilor nu a fi avut o distribu$ie normal", ci ar fi avut, s" zicem, o distribu$ie alungit" spe stnga, probabilitatea ca un elev s" aib" un scor cuprins ntre anumite limite ar fi fost extrem de dificil de calculat (practic ar fi trebuit calculat" aria de sub curb" dac" respectiva distribu$ie nu ar fi putut fi aproximat" de nici o form" func$ional" cunoscut"). A!a cum am mai ar"tat, n realitate exist" o familie de distribu$ii normale, fiecare caracterizat" de o medie !i o abatere standard (. De exemplu, greut"$ile locuitorilor unui ora! ipotetic se distribuie normal cu media 56 kg !i abaterea standard #8 kg; n"l$imile copiilor dintr-o !coal" se distribuie normal cu media #,5 m !i abaterea standard #0 cm etc.. Propriet"$ile distribu$iei normale ne permit ca pentru fiecare din aceste variabile s" g"sim exact probabilitatea ca un anumit individ s" aib" o greutate mai mare de, s" zicem, 64 de kg sau o n"l$ime cuprins" ntre #,45 m !i #,57 m. Acest lucru se poate face cu ajutorul unor tabele care con$in ariile dintre !i + z( pentru diferite valori ale lui z#. Deoarece propriet"$ile distribu$iei normale sunt acelea!i indiferent de valoarea mediei !i abaterii standard, se apeleaz" la un caz special al distribu$iei normale, !i anume la distribu!ia normal" normat" sau standard. Aceasta este o distribu!ie normal" cu media 0 #i abaterea standard $. n Anexa # a acestui manual este prezentat un tabel cu ajutorul c"ruia pot fi calculate ariile dintre !i + z( pentru Figura 3.3 Aria dintre 0 !i z diferite valori ale lui z, n cazul distribu$iei normale normate. Deoarece n acest caz = 0 iar ( = #, tabelul con$ine practic aria cuprins" ntre 0 !i z (vezi Figura 3.3). Aceast" arie este practic aceea!i cu aria cuprins" ntre !i + z( n cazul oric"rei distribu$ii normale (cazul general). n continuare este ilustrat" modalitatea de folosire a tabelului (Anexa #), pe care l vom numi de acum ncolo pentru convenien$" "tabel z": S" ne ntoarcem la exemplul de mai sus !i s" calcul"m probabilitatea ca un elev s" ob$in" un scor mai mare dect 70. Pentru aceasta este nevoie s" calcul"m aria aflat" la dreapta valorii 70. Tabelul nostru ofer" ns" valoarea ariei aflate ntre valorile !i + z(. Cum distribu$ia normal" este simetric", aceasta nseamn" ca aria aflat" la dreapta mediei este egal" cu jum"tate din aria totala aflat" sub curb", adic" cu 0,5 (deoarece aria total" a unei distribu$ii de probabilitate este ntotdeauna #). Pentru a afla aria aflat" la dreapta lui 70, va trebui s" c"utam n tabel aria cuprins" ntre medie (60) !i 70, !i apoi s" sc"dem aceast" arie din 0,5 (adic" din toat" aria aflat" la dreapta mediei). Pentru a afla aria cuprins" ntre 60 (adic" ) !i 70 ( + z() adic" , va trebui s" afl"m valoarea lui z: + z( = 70, de unde z = 70 70 60 = =2 5
Dac" ne uit"m atent la expresia utilizat" mai sus pentru calcularea lui z vom vedea c" este practic aceea!i cu formula scorului z prezentat" n Capitolul # (ceea ce difer" sunt
#
Unele manuale prezint" tabele aria din dreapta lui + z(, ns" algoritmul de calcul al probabilit"$ilor este este acela!i.
doar nota$iile folosite pentru medie !i abatere standard). Deci, ceea ce am f"cut nu este practic nimic altceva dect standardizarea cu scorul z a valorii 70. Nu ne mai r"mne acum dect s" caut"m n tabel aria cuprins" ntre 0 !i z. Tabelul este organizat n felul urm"tor: la capetele de rnd (n stnga) se g"sesc valorile care corespund unit"$ilor !i primei zecimale ale lui z; la capetele de coloan" (sus) se g"sesc valorile care corespund celei de-a doua zecimale ale lui z. De exemplu, dac" vom c"uta valoarea #,96, va trebui s" c"ut"m rndul cu valoarea #,9 !i coloana cu valoarea 0,06 (adunate, aceste dou" valori dau exact #,96). La intersec$ia rndului "#,9" cu coloana "0,06" vom g"si valoarea 0,4750, care este exact aria cuprins" ntre 0 !i z = #,96, sau altfel spus probabilitatea ca o observa$ie s" ia o valoare cuprins" ntre !i + #,96( (adic" ntre medie !i #,96 abateri standard). S" ne ntoarcem acum la exemplul nostru !i s" calcul"m aria cuprins" ntre 0 !i z = 2. n tabel, la intersec$ia rndului 2,0 !i a coloanei 0,00 se gase!te valoarea 0,4772. Aceasta este probabilitatea ca un elev ales la ntmplare s" ob$in" un scor ntre 60 !i 70. Pe noi ns" ne intereseaz" care este probabilitatea ca Figura 3.4 Probabilitatea ca un elev ales la un elev s" ob$in" un scor mai mare de 70, ntmplare s" ob$in" un scor mai mare de 70 adic" aria din dreapta lui z = 2. Pentru a o ob$ine va trebui s" efectu"m sc"derea 0,5 0,4772, ceea ce are ca rezultat 0,0228. Dac" am fi interesa$i s" afl"m !i probabilitatea ca un elev s" ob$in" un scor mai mic dect 50 (adic" 60 - #0) nu am avea nevoie de nici un calcul suplimentar, deoarece datorit" simetriei distribu$iei aria aflat" la stnga lui z = -2 este (a) distribu$ia normal", cazul general egal" cu aria aflat" la dreapta lui z = 2. S" ncerc"m acum s" recapitul"m cu ajutorul unui alt exemplu algoritmul de calcul al unei probabilit"$i cu ajutorul tabelului z. Exemplul 2.# S" presupunem c" n"l$imile copiilor dintro !coal" se distribuie normal cu media #,5 m !i abaterea standard #0 cm. Care este probabilitatea ca copil extras la ntmplare s" (b) distribu$ia normal" normat" aib" o n"$ime cuprins" ntre #,3 m !i #,4 m? Pentru a r"spunde, s" convertim mai nti cele dou" valori (#,3 m !i respectiv#,4 m) n scoruri z, pentru a m"sura distan$a lor fa$" de medie n abateri standard. Practic, aceast" convertire nseamn" o transformare a distribu$iei normale ini$iale (cu media = #50 cm !i abaterea standard ( = #0 cm) ntr-o distribu$ie normal" normat" (cu media 0 !i abaterea standard #). z#30 = ( #30 - #50)/#0 = -2 z#40 = (#40 - #50)/#0 = -# (calculele de mai sus au fost f"cute in cm) Trebuie deci s" g"sim aria de sub curba distribu$iei normale normate cuprins" ntre -2 !i -#. Aria cuprins" ntre -2 !i 0 este egal" cu aria cuprins" ntre 0 !i 2, !i conform tabelului z are valoarea 0,4772. n acela!i mod g"sim !i aria dintre -# !i 0, care este egal" cu 0,34#3. Cum pe noi ne intereseaz" aria dintre -2 !i -#, vom efectua sc"derea 0,4772 -
0,34#3= 0,#359. Deci, probabilitatea ca un elev selectat la ntmplare s" aib" ntre #,3 !i #,4 metri n"l$ime este de aproximativ 0,#4. Dac" not"m nal$imea cu X, atunci afirma$ia de mai sus se scrie: Pr(#,3<X<#,4) = 0,#359 nainte de a ncheia acest capitol este necesar s" atragem aten$ia asupra faptului c", deoarece probabilit"$ile pe care le putem calcula cu ajutorul distribu$iei normale reprezint" de fapt arii, este practic lipsit de sens s" ncerc"m s" calcul"m Pr(X), pur !i simplu - de exemplu Pr(#,3) - deoarece aceasta ar nsemna s" ncerc"m s" calcul"m aria unei drepte. Exerci$ii !i probleme #. S" presupunem c" A !i B sunt dou" evenimente independente, cu Pr(A) = 0,6 !i Pr(B) = 0,2. Care este: a. Pr (A|B)? b. Pr ( A !i B)? c. Pr (A sau B)? 2. O anchet" na$ional" asupra cuplurilor arat" c" 30% din neveste urm"reau un anumit program de televiziune !i la fel 50% dintre b"rba$i. Mai mult, dac" nevestele se uitau la televizor probabilitatea ca !i b"rba$ii s" urm"reasc" programul cre!tea cu 60%. Pentru un cuplu aleator ales care este probabilitatea ca: a. b. c. d. Ambii s" se uite la televizor? Cel pu$in unul s" se uite la televizor? Nici unul s" nu se uite la televizor? Dac" so$ul se uit" la televizor, s" se uite !i so$ia?
Capitolul 3 E!antionarea. Distribu$ia de e!antionare. Intervale de ncredere 3.# Cercet%ri selective: de la popula$ie la e!antion Cine va c!tiga alegerile preziden$iale sau parlamentare? Sunt femeile o minoritate defavorizat" n societ"$ile moderne? O politic" public" sau o decizie administrativ" produce modific"ri ale comportamentelor indivizilor viza$i de acea politic" public" sau de acea decizie? Cine este pentru !i cine este mpotriva introducerii unor noi m"suri fiscale? Ct de popular" este m"sura luat" de autorit"$ile dintr-o anumit" unitate administrativ" de a construi o nou" zon" industrial"? Toate aceste ntreb"ri au n comun o caracteristic" important" !i anume: se refer" la popula$ii att de largi nct este practic imposibil de ob$inut informa$ii cu privire la toate elementele care le compun. Cu situa$ii aseman"toare - imposibilitatea cuprinderii tuturor elementelor care compun un ntreg - se confrunt" !i medicul care face analize de snge !i care nu poate extrage tot sngele aflat n organismul unui pacient pentru a l supune unei investiga$ii n laborator, cei care fac analize ale unor elemente din mediul natural pentru a stabili nivelul de poluare, sau cercet"torul din !tiintele naturale care taie un exemplar dintr-o specie de plante n scopul efectu"rii unor analize n laborator. Att n aceste situa$ii, ct !i n multe altele de acest fel, problema care se pune este aceea de a culege informa$iile necesare pentru a analiza temele avute n vedere doar de la o parte din indivizii care compun o popula$ie !i nu de la ntreaga popula$ie. Din punct de vedere tehnic, grupul sau mul$imea de indivizi care constituie obiectul de studiu sau de interes al cercet"torului la un moment dat este denumit popula!ie, iar grupul mai mic de indivizi de la care sunt culese informa$iile necesare cercet"rii este denumit e#antion. Setul de opera$ii cu ajutorul c"rora, din ansamblul popula!iei vizate de cercetare, se extrage o parte, numit" e#antion, parte ce va fi supus" nemijlocit investiga$iei2 este desemnat ca fiind opera$ia de e#antionare. Decizia de a culege datele necesare unei cercet"ri de la un e!antion sau de la o popula$ie depinde de o serie de aspecte practice. Astfel, n unele situa$ii, dac" timpul, resursele financiare !i umane nu constituie o problem" sau dac" popula$ia $int" nu este foarte numeroas", atunci este multe mai avantajoas" culegerea datelor de la to$i indivizii care compun o popula$ie vizat"; n felul acesta se ob$ine o imagine exact" a problematicii investigate. n alte situa$ii exist" o serie de constrngeri care l impiedic" pe cercet"tor s" ajung" la to$i indivizii care compun o popula$ie, aceste constrngeri se refer" n primul rnd la timp, resursele financiare !i umane aflate la dispozi$ie, dispersarea georgrafic" a popula$iei care urmeaz" a fi cercetat", iar solu$ia cea mai la ndemn" pentru a culege informa$iile necesare const" selectarea unui e!antion !i investigarea indivizilor care l compun. Din acest punct de vedere am putea spune ca e!antionarea este un compromis datorat insuficien$ei resurselor. Nu ntotdeauna este ns" vorba numai de imposibilitatea fizic" de a culege informa$ii de la to$i membrii unei popula$ii neajuns care n unele situa$ii poate fi dep"!it ci !i de o lips" de eficien$" practic" spre exemplu, n cazul cercet"torului din !tiin$ele naturale, care, dac" ar t"ia toate exemplarele unei specii de
2
3. Dac" X are valori normal distribuite n jurul unei medii de #6 !i cu o abatere standard de 5 s" se calculeze: a. Pr (X>20) b. Pr (20<X<25) c. Pr (X<#0) d. Pr (#2<X<24) 4. Timpul necesar complet"rii unui test !colar s-a dovedit a fi distribuit normal, n jurul unei medii de ##0 minute !i avnd o abatere standard de 20 de minute. a. Care este propor$ia studen$ilor care termin" testul n dou" ore (#20 de minute)? b. Cnd ar trebui terminat testul pentru a permite exact unui procent de 90% dintre studen$i s" termine testul?
Traian Rotariu, Petre Ilu$, Ancheta sociologic" !i sondajul de opinie, Ed. Polirom, Ia!i, #997, p.#22.
plante pentru a le analiza n laborator ar determina dispari$ia speciei respective. Pe de alt" parte, concentrnd resursele existente doar pentru analiza unei p"r$i dintr-un ntreg se pot ob$ine rezultate mai bune dect analiznd ntregul, mai ales atunci cnd acest ntreg este format din mul$i indivizi a c"ror investigare implic" utilizarea unui personal auxiliar numeros care datorit" lipsei de specializare poate genera erori mai grave dect dac" ar fi analizat" o parte din acel ntreg utiliznd un personal specializat. 3.2 Valori m%surate pe popula$ie !i pe e!antion. Distribu$ia de e!antionare Vom ncepe discu$ia despre e!antioane cu cel mai simplu tip de e!antionare, !i anume cu e#antionarea simpl" aleatoare. Metoda sau metodele de a realiza practic un astfel de e!antion vor fi discutate pe larg ntr-o sec$iune ulterioar" a acestui capitol. Ceea ce ne intereseaz" n acest moment este numai principiul de selec$ie a indivizilor, specific acestui tip de e!antionare. S" ne imagin"m c" fiecarui individ care apar$ine popula$iei de interes (fie ea o popula$ie de persoane, organiza$ii etc.) i atribuim conven$ional un identificator, adic" un cod unic. S" presupunem acum c" not"m fiecare identificator pe o bil" !i introducem ntr-o urn" uria!" toate bilele corespunz"toare indivizilor care alc"tuiesc repectiva popula$ie. Bilele au toate acelea!i dimensiuni. Pentru a extrage un e!antion de indivizi nu avem nimic altceva de f"cut dect s" extragem un num"r de bile la ntmplare, egal cu m"rimea dorit" a e!antionului. Probabililitatea de a extrage un individ este egal" cu #/N, unde N este num"rul total de bile din urn". Ceea ce este important este ca dup" fiecare extragere s" introducem bila napoi n urn", astfel nct probabilitatea de extragere a fiec"rui individ s" fie aceea!i. De exemplu, dac" nu vom introduce prima bil" extras" napoi n urn", probabilitatea celei de-a doua bile de a fi extras" nu va fi #/N ci #/(N-#). Cu alte cuvinte, extragerile nu vor fi independente (vezi Capitolul 2). Un e#antion simplu aleator este deci un e#antion ale c"rui n observa!ii sunt independente. S" presupunem c" am extras un e!antion simplu aleator de m"rime n dintr-o popula$ie de m"rime N. ntrebarea care se ridic" n mod firesc este: ct" ncredere putem avea n rezultatele ob$inute dat fiind c" e!antionul extras la un moment dat este doar unul din multele e!antioane care pot fi extrase dintr-o popula$ie? Spre exemplu, s" presupunem c" extragem aleator un e!antion format din 25 de elevi dintr-o !coal" c"rora le aplic"m un test de inteligen$". S" mai presupunem c" media coeficientului de inteligen$" al tuturor elevilor din !coal" este = #32 !i abaterea standard ( = #2. Care este probabilitatea ca e!antionul extras de noi s" nu aproximeze bine situa$ia real"? E!antionul de 25 de elevi este evident doar unul din e!antioanele care ar fi putut fi extrase !i prin urmare !i media ob$inut" la nivel de e!antion este doar una din mediile posibile. Ne putem gndi la mediile tuturor e!antioanelor posibile ca la o variabil". Mai clar spus, media e!antionului nostru este doar una dintre valorile posibile ale distribu$iei de medii care ar putea fi ob$inut" extr"gnd multe e!antioane formate din cte 25 de elevi ai !colii respective. Problema este: ct de mare e probabilitatea ca media calculat" n e!antionul extras de noi s" nu aproximeze bine media din popula$ie? Pentru a r"spunde la aceast" ntrebare trebuie s" facem mai nti o distinc$ie clar" ntre trei tipuri de distribu$ii: distribu$ia unei variabile ntr-un e!antion de m"rime n, distribu$ia aceleia!i variabile n popula$ie !i distribu!ia mediilor tuturor e#antioanelor posibile de m"rime n, numit" !i distribu"ia de e#antionare a mediei.
Pentru a exemplifica, s" luam cazul unei unei caracteristici X ale unei popula$ii de m"rime N = #00.000. n popula$ie, caracteristica X va avea media , abaterea standard (, !i o anumit" form" a distribu$iei. S" presupunem acum c" extragem un e!antion de marime n = #0 din respectiva popula$ie. n acest e!antion, caracteristica va avea media X # , abaterea standard s# !i, de asemenea, o anumit" form" a distribu$iei, foarte probabil diferit" de cea din popula$ie. Dac" vom mai extrage un e!antion de m"rime n = #0, vom ob$ine o alt" medie, X 2 , o alt" abatere standard, s2, !i probabil !i o alt" form" a distribu$iei. Dac" vom extrage toate e!antioanele posibile de marime n = #0 din popula$ia de m"rime N = #00.000, vom ob$ine tot attea medii de e!antion cte e!antioane am extras. Distribu$ia acestor medii se nume!te distribu$ie Figura 3.# Distribu$ii ale mediilor unor de e!antionare a mediei !i dac" m"rimea e#antionului e!antioane aleatorii de m"rime n = 30 este suficient de mare, atunci distribu!ia de e#antionare este ntotdeauna normal", chiar dac" valorile caracteristicii ini!iale sunt sau nu normal distribuite n populatia vizat". Mai trebuie precizat c" un e!antion de marime n = 20 este de obicei suficient de mare pentru ca cele afirmate mai sus s" fie adev"rate. n Figura 3.# sunt reprezentate distribu$iile de frecven$e ale mediilor unor e!antioane aleatorii de (a) 3 e!antioane m"rime n = 30, extrase din aceea!i popula$ie, pentru o caracteristic" oarecare. n situa$ia (a), avem mediile primelor trei e!antioane extrase, cte o medie pentru fiecare e!antion (observ"m 3 bare de aceea!i n"l$ime, ceea ce nseamn" c" cele trei e!antioane au medii diferite). n situa$ia (b) observ"m c" distribu$ia frecven$elor relative ale celor #20 de medii de e!antion ncepe s" se apropie u!or de o distribu$ie normal", iar n situa$ia (c), n care am extras ##00 de (b) #20 de e!antioane e!antioane, histograma frecven$elor relative ale mediilor aproximeaz" foarte bine o distribu$ie normal". Dac" am fi continuat experimentul !i am fi extras toate e!antioanele posibile de m"rime n = 30 din respectiva popula$ie am fi ob$inut o distribu$ie de probabilitate - !i anume distribu$ia de e!antionare a mediei, cu toate propriet"$ile unei distribu$ii normale. S" ne ntoarcem ns" la problema noastr" cu media coeficientului de inteligen$" al elevilor: care e (c ) ##00 de e!antioane probabilitatea ca e!antionul extras de noi s" aib" o medie mult diferit" de media n popula$ie? %i ca s" lu"m un exemplu concret, ne putem ntreba: care e probabilitatea ca e!antionul nostru s" aib" o medie egal" cu #27 sau chir mai mic" dect att? Pentru a rezolva aceast" problem" trebuie s" apel"m la o teorem", numit" Teorema limit! central!, care afirm" c" distribu!ia de e#antionare a mediei, n cazul e#antioanelor simple aleatorii, este o distribu!ie normal" a c"rei medie este chiar media
din popula!ie, , #i a c"rei abatere standard, numit" eroare standard, este egal" cu (unde & este abaterea standard din popula!ie iar n este m"rimea e#antionului). n S" ncerc"m acum o mic" sintez" a celor prezentate mai sus: mediile unei caracteristici m"surate pe multe e!antioane pot fi privite ca formnd o nou" variabil" pentru care vom putea calcula evident o medie Figura 3.2 Distribu$ia de e!antionare a mediei !i o abatere standard. n cazul n care e!antioanele extrase sunt simple aleatorii, cu reintroducerea elementului extras n popula$ie (acordnd deci o !ans" egal" fiec"rui element de a fi extras), aceast" nou" variabil" este normal distribuit". Mai mult, valoarea medie a noii variabile (media mediilor m"surate pe e!antioanele extrase din popula$ia vizat") este egal" cu media din popula$ie a caracteristicii vizate, iar abaterea standard a acestei noi variabile este egal" cu valoarea din populatie a X# X2 abaterii standard a variabilei urm"rite, mp"r$it" la r"d"cina p"trat" din m"rimea e!antionului. Abaterea standard a noii variabile este denumit" eroare standard (e): e=
s" ob$inem un e!antion cu o medie de #27, dintr-o popula$ie cu media #32 !i abaterea standard #2 este de aproximativ 2%. Cazul propor!iilor
A!a cum am amintit deja n Capitolul # cnd am discutat cazul variabilelor dihotomice, propor$iile (sau frecven$ele relative) calculate pentru o variabil" binar" nu sunt nimic altceva dect media acelei variabile. Propor$ia calculat" ntr-un e!antion (pe care o vom nota cu P) nu este nimic altceva dect o estimare a propor$iei din popula$ie (notat" cu )). Ca !i n cazul mediei ( X ), !i P fluctueaz" de la e#antion la e#antion, iar distribu!ia propor!iilor calculate pentru toate e#antioanele posibile de m"rime n este de asemenea una normal". Prin analogie cu distribu!ia de e#antionare a mediei, vom spune c" propor!iile calculate n e#antion fluctueaz" n jurul propor!iei din popula!ie %, cu o eroare standard e = (# ) / n (deoarece abaterea standard pentru propor!ii este egal" cu (# ) ). Pentru a ilustra cazul propor$iilor, s" presupunem c" n Romnia 60% din electorat voteaz" cu partide de stnga !i 40% voteaz" cu partide de dreapta. Care e probabilitatea ca un e!antion simplu aleator de m"rime n = #00 s" con$in" o minoritate de votan$i cu stnga? Cu alte cuvinte, care e probabilitatea s" ob$inem un e!antion de o sut" de persoane care ne-ar conduce c"tre o concluzie gre!it" n ce prive!te orientarea politic" a electoratului? S" trecem la rezolvarea problemei: Mai nti, vom asuma c" o minoritate de votan$i cu stnga nseamn" c" mai pu$in de 50% din persoanele cuprinse n e!antion voteaz" cu stnga. Apoi, trebuie s" calcul"m eroarea standard, e. e=
Dac" a!a stau lucrurile, nseamn" c" datele problemei noastre arat" acum astfel: avem o distribu$ie de e!antionare a mediei, care este normal", cu media = #32 !i =#2/5 = 2,4. Deci r"spunsul la abaterea standard (numit" eroare standard) n problema noastr" se reduce la a calcula aria care se afl" la stnga lui #27 de sub o curb" normal" caracterizat" de !i e, calcule cu care suntem deja familiariza$i din Capitolul 2: Calcul"m mai nti scorul z pentru #27. S" vedem ns" mai nti cum arat" formula pentru zi n condi$iile n care acum observa$iile sunt medii de e!antion, media distribu$iei este media caracteristicii n popula$ie, iar abaterea standard a distribu$iei este eroarea standard: zi = Xi Xi = e n
(# ) / n = 0,6 0,4 / #00 0,05
Avnd n vedere faptul c" suntem interesa$i de votan$ii cu stnga, ) = 0,6 z50% = z0,50 = (P - ))/e = (0,5 - 0,6)/0,05 = -2,00 Deci, Pr(P<0,50) = Pr(z<-2,00) = 0,023 Cu ale cuvinte, probabilitatea de a trage concluzii gre!ite pe baza e!antionului este de aproximativ 2%. 3.3 Intervale de ncredere n sec$iunea anterioar" am r"spuns la ntrebarea: care e probabilitatea ca un e!antion simplu aleator s" ofere rezultate dep"rtate de valorile observate n popula$ie. n practic" ns", de cele mai multe ori, situa$iile cu care avem de-a face !i ntreb"rile la care trebuie s" raspundem sunt de alt" natur": de obicei, cercet"torul sau analistul nu cunoa!te valoarea real", din popula$ie, a parametrului, ci ncearc" s" o estimeze. Pentru a ilustra o astfel de situa$ie s" lu"m un exemplu similar cu cel din sec$iunea precedent" S"
n cazul nostru deci, z#27 = (#27 - #32)/2,4 = -5/2,4 = -2,08. S" calcul"m acum probabilitatea de apari$ie a unei valori egale sau mai mici dect -2,08, cu ajutorului tabelului z. Aceasta se reduce la a calcula probabilitatea de apari$ie a unei valori mai mari dect 2,08, de unde Pr( X <#20) = Pr(z<-2,08) = 0,0#9. Deci, !ansa
presupunem c" un cercet"tor dore!te s" estimeze nivelul de inteligen$" al elevilor unei !coli. Pentru aceasta el extrage aleator un e!antion format din 25 de elevi c"rora le aplic" un test de inteligen$" !i ob$ine o valoare medie a coeficientului de inteligen$" de #3#. Bazndu-se pe acest rezultat, ce poate el spune despre nivelul de inteligen$" al elevilor !colii respective? E!antionul de 25 de elevi este evident doar unul din e!antioanele care ar fi putut fi extrase, !i prin urmare !i media de #3# ob$inut" la nivel de e!antion este doar una din mediile posibile. Mai clar spus, #3# este doar una dintre mediile din distribu$ia de medii care ar putea fi ob$inut" extr"gnd multe e!antioane formate din 25 de elevi ai !colii respective. Se pune deci urm"toarea problem": care este valoarea medie a coeficientului de inteligen$" pentru ntreaga popula$ie de elevi vizat"? - valoare evident necunoscut" pentru cercet"tor, altfel ce rost ar mai fi avut s" fac" cercetarea! Este destul de evident c" dac" dorim s" facem o inferen!" despre pe Figura 3.3 Aria de sub curba distribu$iei de e!antionare baza lui X , !i dac" vrem s" putem avea ncredere c" aceast" inferen$" este corect", nu putem pretinde c" = X . Pare mult mai rezonabil s" accept"m c" exist" o oarecare eroare de e!antionare cu ajutorul c"reia sa construim o estimare de interval, sau, mai bine zis, un interval de ncredere: = X o eroare de e#antionare Ct de mare ar trebui s" fie ns" aceast" eroare? R"spunsul depinde binen$eles de distribu$ia de e!antionare a lui X , sau mai bine zis de m"sura n care acesta fluctueaz" n jurul mediei din popula$ie (Figura 3.3). S" ne aducem pu$in aminte de prezentarea distribu$iei normale f"cut" n Capitolul 2: acolo am afirmat c" pentru orice distribu$ie normal" aria de sub curb" aflat" ntre #,96( !i + #,96( este ntotdeauna 0,95 (vezi !i tabelul z). n cazul distribu$iei de e!antionare, care este de asemenea o distribu$ie normal", vom spune deci c" aria de sub curb" cuprins" ntre - #,96e !i + #,96e (unde e este eroarea standard) este egal" de asemenea cu 0,95, de vreme ce eroarea standard este abaterea standard a distribu$iei de e!antionare. Altfel spus, expresia Pr( - #,96e < X < + #,96e) = 0,95 este adev"rat" pentru orice distribu$ie de e!antionare. n cuvinte, probabilitatea ca media unui e!antion simplu aleator de m"rime n s" se g"seasc" ntre valorile - #,96e !i + #,96e, este egal" cu 0,95 (Figura 3.3). Inegalit"$ile din paranteza expresiei de mai sus pot fi rezolvate pentru , ob$inndu-se astfel expresia echivalent": Pr( X - #,96e < < X + #,96e) = 0,95
Aceasta nu nseamn" c" nu mai e o constant" - parametrul c"utat de noi n popula$ie. Expresia de mai sus nu este nimic altceva dect o "propozi$ie" probabilist" despre variabila aleatoare X . Media n popula$ie nu variaz". ntorcndu-ne la exemplul nostru pivitor la estimarea coeficientului de inteligen$", s" presupunem c" n paralel cu cercetarea prin e!antion a fost efectuat" !i o testare pe toat" popula$ia de elevi din !coala respectiv". Rezultatul a fost o medie a coeficientului de inteligen$" de #32, !i o abatere standard de #2. Cercet"torului nostru nu i s-a comunicat ns" dect abaterea standard, a!a c" el a fost n continuare nevoit s" estimeze media n popula$ie pe baza valorii ob$inute n e!antion. n consecin$", el va lua expresia de mai sus, !i, dup" calcularea erorii standard (e=2,4) va scrie: Pr(#3#- #,96 x 2,4 < < #3# + #,96 x 2,4) = 0,95, adic" Pr(#26,3 < < #35,7) = 0,95 n final deci, cercet"torul va afirma "cu un nivel de ncredere" de 95% c" media n popula$ie, , se g"se!te n intervalul #26 - #36. Acest interval se nume!te interval de ncredere. S" presupunem acum c", a!a cum e !i firesc de altfel, cercet"torul nu e foarte mul$umit de precizia estim"rii sale. El ar dori s" fac" o afirma$ie mai "exact"" n sensul unui interval mai restrns. Cum poate el s" fac" acest lucru? S" ne mai uit"m o dat" la propozi$ia probabilist" prezentat" anterior, ns" de data aceasta o vom scrie n forma sa general": Pr( X - zp/2e < < X + zp/2e) = n.i. unde n.i. este nivelul de ncredere iar zp/2 este valoarea din tabelul z corespunz"toare respectivului nivel de ncredere. n condi$iile n care cercet"torul dore!te s" ob$in" un interval de ncredere mai mic (mai restrns), el nu poate face acest lucru dect printr-un compromis, !i anume reducnd valoarea absolut" a lui z, sau altfel spus, reducnd nivelul de ncredere. Deoarece cercet"torul nu poate modifica nici X nici eroarea standard dect prin efectuarea unei alte cercet"ri, lui nu i r"mne dect s" !i aleag" un nivel de ncredere mai mic dect 95%, ceea ce va duce la o mic!orare a intervalului. De exemplu, dac" cercet"torul se mul$ume!te cu un nivel de ncredere de 68% - c"ruia i corespunde z0,34 = # (vezi tabelul z din Anexa #), atunci el va putea spune c", pentru un nivel de ncredere de 68%, va fi cuprins ntre #3# - 2,4 !i #3# + 2,4, adic" ntre #28,6 !i #33,4. Concluzia acestui scurt exerci$iu este c" estimarea constituie ntotdeauna un compromis ntre "exactitatea" #i "siguran!a" afirma!iei pe care dorim s" o facem despre parametrul n cauz". Mai riguros spus, dac" vom ncerca s" cre#tem nivelul de ncredere al estim"rii, m"rind astfel "siguran!a", va trebui s" cre#tem #i intervalul de ncredere, pierznd astfel din "exactitate". 'i invers, dac" dorim s" mic#or"m intervalul de ncredere, vom fi nevoi!i s" reducem #i nivelul de ncredere al estim"rii. Este totu#i legitim s" ne ntreb"m cum putem ob!ine estim"ri ct mai "sigure" #i ct mai "exacte"? R"spunsul nu este foarte greu de dat: prin m"rirea volumului e#antionului. Acest r"spuns decurge firesc din formula erorii standard:
e=
S" actualiz"m acum formulele !i expresiile utilizate n estimare, nlocuind pe ( cu s !i respectiv pe z cu t: e' = s n ; unde e' este eroarea standard estimat".
de unde reiese clar c" cu ct vom avea un e!antion mai mare cu att vom avea o eroare standard mai mic", !i deci intervale de ncredere mai mici, pentru acela!i nivel de ncredere. 3.4 Cazul e!antioanelor mici. De la z la t n ultimul exemplu din sec$iunea anterioar" am presupus, destul de nerealist, c" cercet"torul nostru, care nu avea cum s" m"soare abaterea standard n popula$ie, (, reu!e!te s" ob$in" valoarea acesteia datorit" unei coinciden$e fericite. n lumea real" astfel de coinciden$e sunt practic absente, iar cercet"torul, dac" dore!te ntr-adev"r s" ob$in" o estimare a lui , va trebui s" calculeze eroarea standard !i deci va fi obligat s" nlocuiasc" ( cu o estimare a ei. Dup" cum e !i foarte intuitiv, cea mai bun" estimare pentru ( este s, adic" abaterea standard n e!antion. Dar utilizarea lui s introduce o surs" adi$ional" de posibile distorsiuni sau erori, mai ales dac" e!antionul este mic (sub #20 de cazuri). Pentru a nu risca distorsiuni n ceea ce prive!te nivelul de ncredere, va trebui s" recurgem la o l"rgire a intervalului. Aceasta se face prin nlocuirea valorii z utilizate n sec$iunea anterioar" cu o valoare mai mare, t, care provine dintr-o distribu$ie similar" cu z, numit" distribu$ia t a lui Student, sau Student (t). Practic, marea diferen$" dintre distribu$ia z !i distribu$ia t este faptul c" aceasta din urm" ia n calcul !i ceea ce se cheam" "grade de libertate". Acestea, foarte intuitiv spus, reprezint" num"rul de elemente de informa$ie independente, necesare pentru definirea unui sistem. In cazul discutat de noi acum, aceste elemente sunt indivizii din care se compune e!antionul. Deoarece ntre observa$iile din e!antion exist" o rela$ie de dependen$", care este media, num"rul de grade de libertate va fi n-$. S" revenim la diferen$ele dintre z !i t: acestea sunt practic sesizabile numai n cazul e!antioanelor mici (mai mici de #20), adic" pentru un num"r mic de grade de libertate. Pentru peste #20 de grade de libertate, distribu$ia t este foarte similar" cu z. Pentru sub #20 de grade de libertate (notate de acum nainte g.l.), valorile t sunt mai mari dect valorile z, pentru a compensa, a!a cum ar"tam mai sus, nlocuirea lui ( cu s n formula erorii standard. Tabelul t este prezentat n Anexa 2. Deoarece citirea se face n func$ie de num"rul de grade de libertate, care se g"sesc la capetele rndurilor (n stnga), organizarea !i modul de citire ale unui tabel t sunt complet diferite fa$" de cele ale tabelului z. n tabelul t din Anexa 2 coloanele sunt definite de ariile de sub curb" aflate la dreapta valorii t, iar n celule, la intersec$ia dintre gradele de libertate !i nivelele de probabilitate (arii) se g"sesc valorile lui t. Astfel, pentru un e!antion de #0 persoane !i un nivel de ncredere de 95% va trebui s" c"utam valoarea lui t la intersec$ia dintre rndul cu 9 grade de libertate !i aria egala cu 0,025, deoarece 0,95 = # - 2 x 0,025 (sau, n cuvinte, pentru a ob$ine nivelul de 0,95 trebuie s" elimin"m 0,05 din ambele cozi ale distribu$iei, adic" cte 0,025 din fiecare coad" - !i din stnga !i din dreapta). Pe ultima linie a tabelului se poate observa c" atunci cnd num"rul de grade de libertate tinde c"tre infinit, valorile t sunt egale cu valorile z pentru acela!i num"r de g.l.
Pr( X - t(#-p)/2e' < < X + t(#-p)/2e' = n.i. ceea ce este totuna cu a spune c" = X t(#-p)/2e'), pentru un anumit n.i.
3.5 Reprezentativitatea e!antioanelor: a alege c$iva pentru a i reprezenta pe to$i. Un e!antion bun este ntr-o oarecare m"sur" o versiune n miniatur" a unei popula$ii, un model al unei popula$ii. Caracteristica cea mai important" a unui e!antion bun este dat de reprezentativitatea acestuia. Un e!antion este considerat reprezentativ pentru popula$ia din care este extras dac" caracteristici importante sunt distribuite similar n amndou" grupurile3 sau mai clar spus, un e!antion trebuie s" reproduc" caracteristici importante ale popula$iei din care este extras. Aceste caracteristici importante pot fi: vrsta, nivelul de educa$ie, mediul de re!edin$", sexul, venitul, etc. A!a cum am vazut n sec$iunile anterioare, un e!antion nu va reproduce niciodat" cu exactitate toate caracteristicile unei popula$ii, iar aceast" lips" de exactitate implic": existen$a unei erori de e#antionare numit" !i eroare limit" de sondaj !i care este exact produsul dintre valoarea lui t #i eroarea standard (( = te) existen$a unui nivel de ncredere, notat mai sus cu n.i., care este dependent de valoarea lui t.
Reprezentativitatea unui e!antion este exprimat" cantitativ de cele dou" valori & !i n.i, valori care sunt determinate una de cealalt". Un e!antion este cu att mai reprezentativ cu ct eroarea pe care o facem este mai mic" iar nivelul de ncredere este mai mare. Orice e!antion aleator reproduce mai mult sau mai pu$in caracteristici ale popula$iei din care este extras, motiv pentru care nu exist" e!antioane nereprezentative, ci doar e!antioane mai mult sau mai pu$in reprezentative pentru o popula$ie n func$ie de m"sura n care caracteristici ale popula$iei respective sunt reg"site !i n aceste e!antioane. Mai mult, unele caracteristici pot fi mai bine reproduse de un e!antion iar altele mai pu$in bine, ceea ce nseamn" ca reprezentativitatea unui e!antion este diferit" n func$ie de caracteristica care este avut" n vedere. Cu alte cuvinte, un e#antion nu este reprezentativ n general, ci are o anumit" reprezentativitate n raport cu o anumit" caracteristic" #i o alt" reprezentativitate n raport cu o alt" caracteristic". Gradul de reprezentativitate a unui e!antion depinde de trei factori importanti eterogenitatea sau omogenitatea caracteristicilor popula$iei din care este extras, de m"rimea e!antionului !i de procedura de e!antionare.
3
Arlene Fink, How to Sample in Surveys, Sage Publications, Thousands Oaks, London, New York, #995, p.#.
Cum am spus deja, reprezentativitatea unui e!antion este dat" de capacitatea acestuia de a reproduce o serie de caracterisitici existente n popula$ie. Dac" o caracteristic" este mai omogen distribuit" ntr-o popula$ie un acela!i e!antion va fi mai reprezentativ pentru acea caracteristic" dect pentru o alt" caracteristic" care este distribuit" mai eterogen n aceea!i popula$ie. Sau altfel spus, pentru a ob$ine o aceea!i reprezentativitate, pentru o caracteristic" n raport cu care popula$ia este mai omogen" este nevoie de un e!antion de m"rime mai mic" dect pentru o caracteristic" n raport cu care popula$ia este mai eterogen". M"rimea e!antionului se refer" la num"rul de elemente care l compun !i care trebuie investigate pentru a ob$ine rezultate ct mai precise. Intuitiv, un e!antion este cu att mai reprezentativ cu ct cuprinde mai multe elemente din popula$ia vizat", n felul acesta ob$inndu-se o reproducere mai bun" a acesteia. Dar cre!terea nivelul de reprezentativitate nu este direct propor$ional" cu cre!terea num"rului de elemente din popula$ia vizat" care sunt incluse n e!antion, adic" nu avem o rela$ie linear" ntre cele dou" componente; dimpotriv" aceast" rela$ie poate fi reprezentat" sub forma unei curbe asem"n"toare celei din figura de mai jos (Figura 3.4). Astfel, dac" modific"m m"rimea e!antionului cu o cantitate K de elemente, iar e!antionul cuprinde ini$ial un num"r mic de elemente, modificarea gradului de reprezentativitate este mai mare dect dac" modific"m m"rimea e!antionului cu aceea!i cantitate K de elemente dar e!antionul este compus ini$ial dintr-un num"r mare de elemente.
Figura 3.4 Rela$ia dintre reprezentativitate !i m"rimea e!antionului.
n ceea ce prive!te procedura de e!antionare, aceasta influen$eaz" att gradul de reprezentativitate al unui e!antion ct !i posibilitatea exprim"rii numerice a acesteia. Din punct de vedere tehnic matematic, calcularea reprezentativit"$ii unui e!antion este posibil" numai n cazul e!antioanelor probabiliste sau aleatoare. Un e!antion probabilist este acel e!antion pentru care fiecare element din popula$ia vizat" are o !ans" calculabil" !i non-nul" de a fi selectat n e!antion. Posibilitatea calcularii probabilit"$ii ca un element din popula$ie s" fie selectat n e!antion permite calcularea unei marje de eroare (*) !i a unui nivel de ncredere (n.i.) prin care s" fie exprimat" cantitativ reprezentativitatea e!antionului. n cazul e!antioanelor neprobabiliste, cele pentru care !ansa unui element al popula$iei de a face parte din e!antion nu este cunoscut", nu poate fi calculat gradul de reprezentativitate !i prin urmare nici nu se poate vorbi de reprezentativitatea lor. O ultim" provocare: ct de mare trebuie s" fie un e#antion?
n practic", aceasta este una din primele ntreb"ri pe care !i le pune orice cercet"tor sau analist nainte de a se lansa ntr-un sondaj. A!a cum am mai men$ionat, m"rimea e!antionului nu este dependent" de m"rimea popula$iei. Stabilirea m"rimii unui e!antion se face de obicei n func$ie de resursele avute la dispozi$ie (timp, bani, resurse umane etc.) !i de nivelul de reprezentativitate pe care cercet"torul dore!te s" l ating". Deducem de aici c" m"rimea e!antionului se va stabili n func$ie de nivelul de ncredere pe care care dorim s" l atingem !i de marja de eroare sau nivelul erorii limit" de sondaj pe care suntem dispu!i s" le accept"m. De obicei, aceste decizii se iau plecnd de la ipoteza unei popula$ii cu grad maxim de eterogenitate pe cteva caracteristici. Ipoteza eterogenit"$ii maxime este o precau$ie pe care cercet"torul trebuie s" !i-o ia; este un fel de a se a!tepta "la ce e mai r"u". n cazurile n care abaterile standard n popula$ie ale caracteristicilor de interes sunt cunoscute, se poate pleca de la acestea. n aceast" sec$iune, vom exemplifica cu ajutorul unei caracteristici dihotomice, pentru simplitatea calculelor: Eterogenitatea maxim" pentru o caracteristic" dihotomic" este atins" atunci cnd distribu$ia respectivei caracteristici n popula$ie este omogen", adic" 50% - 50%. M"rimea e!antionului poate fi extras" din formula erorii standard: e=
sau, n cazul variabilelor dihotomice, M"rimea e#antionului este indepedent" de m"rimea popula!iei din care este extras. Un e!antion de o anumit" m"rime !i constituit dup" acelea!i proceduri are aceela!i grad de reprezentativitate !i atunci cnd este extras din popula$ia unei $"ri !i atunci cnd este extras din popula$ia unui ora!. Consecin$a faptului c" reprezentativitatea unui e!antion nu depinde de m"rimea popula$iei din care este extras este aceea c" acesta are un anumit grad de reprezentativitate pentru ntreaga popula$ie, dar sube!antioanele n care se mparte !i care respect" propor$ia diferitelor segmente ale popula$iei nu mai au acela!i grad de reprezentativitate pentru aceste segmente ca !i e!antionul ini$ial (pe total popula$ie). e=
(# ) / n
de unde, n = (# ) / e 2 dar * = te, de unde rezult" c" e = */t deci n = (# ) t 2 / 2
S" presupunem acum c" dorim s" facem acest calcul pentru o variabil" de eterogenitate maxim" !i c" n final dorim s" ob$inem o marj" de eroare * = 2% (adic" de 0,02), pentru un nivel de ncredere de 95% (adic" 0,95). Cu alte cuvinte, dorim s" ne asigur"m acel volum al e!antionului care s" ne permit" s" spunem, pentru variabila noastr" (s" zicem starea de s"r"cie), c": P - 2% < ) < P + 2% (sau ) = P 2%), pentru un nivel de ncredere de 95% unde P este propor$ia (de s"raci) m"surat" n e!antion. Dac" nivelul de ncredere ales este de 95%, va trebui s" ne uit"m n tabel la valoarea lui t corespunz"toare acestui nivel. De fapt ne vom uita n tabelul z, deoarece am presupus c" lucr"m cu abaterea standard n popula$ie, !i oricum ar fi absurd s" vorbim n aceast" faz" despre num"rul de grade de libertate, care e dependent de n (g.l. = n-#). Deci, vom folosi valoarea t = #,96. Din cele de mai sus rezult" c": n = 0,5 x 0,5 x #,96 x #,96 / (0,02 x 0,02) = 240# subiec$i. Exerci$ii !i probleme #. O popula$ie de studen$i ntr-un campus studen$esc mare are o greutate medie de = 69 kilograme !i o abatere standard = 3,22 kilograme. Dac" se alege un e!antion aleator de n = #0 studen$i, care este !ansa ca media e!antionului X s" se plaseze n intervalul de +/- 2 kilograme fa$" de medie a popula$iei? 2. Un teleferic este astfel proiectat nct s" poat" suporta o greutate maxim" de #0000 de kilograme. n teleferic sunt nc"rcate la un transport 50 de butoaie. S" presupunem c" greut"$ile tuturor butoaielor care trebuie transportate cu telefericul au o medie de #90 kilograme !i o abatere standard de 25 de kilograme. Care este probabilitatea ca un e!antion aleator de 50 de butoaie s" aib" o greutate mai mare dect greutatea maxim" suportat" de teleferic? 3. n #998 aproximativ 50% dintre romni considerau c" infla$ia este cea mai important" problem" a $"rii. Dac" se aleg n mod aleator #500 de romni din totalul popula$iei care este !ansa ca propor$ia acestui e!antion s" reflecte n mod adecvat propor$ia popula$iei, considernd un interval de +/- 3 procente n jurul valorii din popula$ie? Pentru urm"toarele ntreb"ri, s" se ncercuiasc" varianta corect" /variantele corecte: 4. Eroarea limita de sondaj este #. populatia este mai eterogena cu atit mai mare cu cit: 2. esantionul este mai mic 3. abaterea standard a caracteristicii n e!antion este mai mica 4. media n e!antion este mai mare 5. volumul esantionului este mai mare 6. nici una dintre acestea 5. Volumul e!antionului trebuie #. m"rimea popula$iei din care se extrage s" fie direct propor$ional cu 2. varia$ia caracteristicii de e!antionare 3. eroarea limit" de reprezentativitate admis" nivelul de ncredere pentru care se garanteaz" rezultatele
Capitolul 4 Proceduri de e!antionare Unul dintre primele aspecte care trebuie luate n considerare atunci cnd se pune problema realiz"rii unor cercet"ri practice este aceea a delimit"rii popula$iei care urmaz" a fi studiat". n acest context, prin popula$ie sunt desemnate toate elementele care pot sau trebuie s" fie studiate. Elementele pot fi indivizi umani, dar n acela!i timp pot fi gospod"rii, !coli, spitale, intreprinderi economice, ora!e, organiza$ii sociale sau profesionale, ziare, articole de pres", discursuri ale unor oameni politici, etc. Indiferent ns" de cine sau ce constituie elementele popula$iei vizate, aceasta trebuie s" fie atent delimitat" n func$ie de obiectivele cercet"rii, ntruct rezultatele finale vor depinde de acest punct de referin$" stabilit ini$ial. Spre exemplu, s" ne imagin"m c" ntr-un ora! se pune problema adopt"rii unui nou sistem de transport n comun, iar ceea ce ne intereseaz" este acordul sau dezacordul cet"$enilor cu privire la modul practic de realizare a acestuia. n acest caz, popula$ia vizat" este compus" doar din cei care locuiesc n ora!ul respectiv? sau trebuie avut" n vedere !i popula$ia care nu locuie!te n ora!, dar care ntr-o m"sur" sau alta beneficiaz" de transportul n comun din acel ora!? care este vrsta minim" !i maxim" a celor care vor fi chestiona$i?, etc. Intreb"ri asem"n"toare acestora se ivesc de fiecare dat" cnd se pune problema definirii unei popula$ii care urmeaz" a fi cercetate, iar de r"spunsurile date vor depinde n mod evident rezultatele finale. Un prim pas n definirea unei popula$ii vizate este acela de a stabili o popula!ie ideal", adic" to$i cei care ipotetic ar trebui s" fie lua$i n considerare atunci cnd se cerceteaz" o problematic" anume. Dup" care n func$ie de constrngerile practice identificate spre exemplu, n cazul n care elementele popula$iei sunt indivizi umani, astfel de constrngeri ar putea fi date de imposibilitatea de a i investiga pe cei afla$i n nchisori, unit"$i militare, spitale, hoteluri, n str"in"tate, etc popula$ia ideal" poate fi restrns" la o popula$ie vizat" care poate fi abordat" n cadrul cercet"rii. Avantajele lu"rii n considerare n faza ini$ial" a unei popula$ii ideale este acela c" excluderea unor segmente din aceasta este explicit", iar neajunsurile rezultate de aici pot fi luate n considerare. O dat" stabilit" popula$ia vizat", poate fi pus" !i problema alegerii unui e!antion. Pentru aceasta, elementele popula$iei vizate sunt traspuse ntr-o list" numit" cadru de e#antionare, list" din care vor fi extrase ulterior potrivit unor proceduri clar definite acele elemente care vor compune e!antionul. Spre exemplu, dac" se realizeaz" o anchet" telefonic" al c"rui scop este investigarea modului n care dotarea cu utilit"$i publice a unei localit"$i acoper" necesit"$ile existente, popula$ia ideal" este constituit" din toate gospod"riile care au acces la utilit"$i publice, iar cadrul de e!antionare este format din toate gospod"riile care au acces la utilit"$i publice !i au telefon. Constrngerea n acest caz este dat" de existen$a unui post telefonic n gospod"rie. Gospod"riile care au acces la utilit"$i dar care nu au telefon neputnd fi investigate, popula$ia vizat" este format" doar din acele gospod"rii care au acces la utilit"$i publice !i au telefon (Figura #.). n exemplul de fa$", astfel de liste care s" se constituie n cadru de e!antionare pot fi eviden$e ale companiilor funizoare de utilit"$i publice !i liste ale abona$ilor la servicii telefonice din localitatea avut" n vedere.
De la caz la caz, n func$ie de problema investigat", pot constitui cadru de e!antionare: lista celor care sunt nscri!i la un medic de familie sau la medicii de familie care opereaz" ntr-o anumit" arie care urmeaz" a fi acoperit" de cercetare, lista celor abona$i la o firm" furnizioare de servicii de televiziune prin cablu, lista celor abona$i la o anumit" publica$ie, lista celor care figureaz" n registrul auto, lista celor care figureaz" n registrul de carte funciar", etc. Ideal toate aceste liste ar trebui s" includ" fiecare element al popula$iei vizate doar o singur" dat". n realitate ns" exist" o serie de neajunsuri printre care cele mai importante sunt: lipsa unor elemente: fie lista este inadecvat" n sensul n care ini$ial nu a fost conceput" pentru a include toate elementele care pot face la un moment dat obiectul de interes al cercet"torului, fie este incomplet", adic" nu include din diferite motive toate elementele care se presupune care c" ar trebui s" le includ"; referin$e la grupuri de elemente !i nu la elemente individuale; spre exemplu, liste care nu se refer" la num"rul de persoane ci la num"rul de familii care locuiesc ntr-o gospod"rie, dar cercetarea vizeaz" persoane !i nu familii; existen$a unor elemente straine, adic" existen$a n list" a unor elemente care din diferite motive nu fac obiectul de studiu la un moment dat; exiten$a unor duplicate: cnd unele elemente ale popula$iei apar de mai multe ori pe o list".
Remedierea tuturor acestor neajunsuri va duce n mod evident la ob$inerea unui e!antion mai bun. De la caz la caz prin remediere se n$elege: identificarea elementelor lips" !i introducerea lor n lista care constituie cadrul de e!antionare, identificarea tuturor elementelor care fac parte dintr-un grup, eliminarea unor elemente str"ine care nu au leg"tur" cu tematica cercet"rii, eliminarea duplicatelor !i p"strarea pe o list" a unui element doar o singura dat". O modalitate de a dep"!i aceste neajunsuri const" n redefinirea problematicii cercetate n a!a fel nct elementele popula$iei care nu pot fi identificate s" nu fac" obiectul unei anumite cercet"ri. Acest lucru evident nu este posibil n toate situa$iile !i nu este posibil mai ales n acele situa$ii n care elementele care nu pot fi identificate constituie majoritatea elementelor unei popula$ii. Atunci cnd nu exist" liste care s" cuprind" elementele unei popula$ii vizate prin cadru de e!antionare poate fi desemnat" orice alt" procedur" care s" permit" identificarea elementelor unei popula$ii. Spre exemplu, o arie geografic" poate juca rolul de cadru de e!antionare, situa$ie n care elementele popula$iei vizate sunt asociate cu un anumit spa$iu natural. Astfel, aria geografic" ocupat" de o popula$ie vizat" poate fi mp"r$it" n zone mai mici din care sunt alese aleator cteva, care la rndul lor sunt divizate n arii mai mici dintre care vor fi selectate aleator cteva !i a!a mai departe pn" la utimul stadiu cnd din anumite zone astfel selectate sunt investigate toate elementele.
Figura 4.#. Cadrul de e!antionare pentru selectarea unui e!antion n vederea investig"rii printr-o anchet" telefonic" a gradului de satisfacere de c"tre utilit"$ile publice a nevoilor popula$iei unei localit"$i (exemplu ipotetic).
anuleaz" !ansele altor elemente care sunt exluse a priori ntruct nu au !ansa de a se afla la locul sau pe traseul pe care se deplaseaz" cel care face selec$ia. Pentru a evita aceste situa$ii ar trebui s" avem o situa$ie clar" a tuturor elementelor care compun o popula$ie !i s" le putem identifica f"r" echivoc. A!a cum am ar"tat deja n paragraful anterior, n cazul procedurilor de e!antionare probabiliste fiecare element care compune o popula$ie trebuie s" aib" o !ans" diferit" de zero !i calculabil" de a face parte din e!antion. Acesta este criteriul de baz" n stabilirea dihotomiei: e!antioane probabiliste - e!antioane neprobabiliste De-a lungul timpului au fost dezvoltate o larg varietate de tehnici de e!antionare, dintre acestea cele mai frecvent ntlnite sunt: e!antionarea simpl" aleatoare, e!antionarea aleatoare prin stratificare, e!antionarea cluster, e!antionarea multistadial", e!antionarea pe cote, e!antionarea tip bulg"re de z"pad". n cele ce urmeaz" vom prezenta o serie de aspecte legate de modul de aplicare a fiec"reia dintre aceste proceduri de e!antionare. 4.#.# E!antioane probabiliste E!antionarea simpl% aleatoare E!antionarea simpl" aleatoare este probabil procedura cea mai important" !i cea mai des utilizat" n domeniul cercet"rilor practice !i este considerat" procedura de referin$", ideal", atunci cnd se pune problema stabilirii unor tehnici de e!antionare. Asump$iile de baz" ale acestei tehnici sunt acelea c": fiecare element al popula$ie vizate are exact aceea!i !ans" ca !i oricare alt element al aceleia!i popula$ii de a fi selectat n e!antion, iar selectarea unui element n e!antion nu a influen$at n nici un fel !ansele altui element de a fi selectat. Tehnica tipic" sau modelul de realizare al acestui tip de e!antionare este reprezentat de metoda urnei, situa$ie n care fiecarui element dintr-o popula$ie vizat" i corespunde o bil"; toate bilele corespunz"toare unor membrii ai popula$iei vizate sunt introduse ntr-o urn" dup" care sunt amestecate !i se extrage pe rnd cte una pn" se ajunge la un num"r de bile egal cu num"rul de elemente care vor compune e!antionul. Pentru a asigura probabilit"!i de extragere egale pentru toate bilele, dup" fiecare extragere bila este introdus" napoi n urn". Totu!i, dac" popula$ia este foarte mare (num"r foarte mare de bile) reintroducerea bilei n urn" nu mai este necesar" deoarece probabilitatea de extragere a bilelor r"mase nu este practic influen$at" dect ntr-o masur" extrem de mic", aproape insesizabil". Simplu de pus n practic" din punct de vedere teoretic, procedura astfel definit" ntmpin" o serie de dificult"$i mai ales atunci cnd se lucreaz" cu popula$ii mari, situa$ie n care este practic imposibil de conceput o urn" n care s" poate fi introdus un num"r de bile egal cu num"rul de indivizi care compun popula$ia unei $"ri spre exemplu. O a doua metod" de realizare a unei e!antion"ri simple aleatoare sunt tabelele cu numere aleatoare. Procedura const" n generarea unor !iruri de numere aleatoare !i introducerea lor ntr-un tabel. Fiec"rui element din popula$ia vizat", care trebuie identificat univoc, i se atribuie un num"r de la # la N. Cel care realizeaz" selec$ia, alege la ntmplare un num"r din !irul de numere aleatoare !i caut" apoi n popula$ia vizat" elemetul cu num"rul de ordine reprezentat de num"rul aleator respectiv, element care va face parte din e!antion. Dup" care din tabelul de numere aleatoare este ales num"rul urm"tor !i se identific" din nou n popula$ia vizat" elementul cu num"rul de ordine identic cu num"rul aleator, element care este !i el introdus n e!antion. Procedura
4.# Tipuri de e!antioane Distinc$ia clasic" n ceea ce prive!te tipurile de e!antioane este aceea ntre e!atioanele probabiliste sau aleatoare !i cele neprobabiliste. n primul caz n procesul de selectare a unui element din popula$ie pentru a face parte din e!antion se presupune c" se face la ntmplare f"r" s" intervin" n vreun un fel subiectivismul celui care aplic" procedura de e!antionare !i nici vreun alt fenomen care s" afecteze !ansa unuia sau unor indivizi de a fi selecta$i. Dat" fiind aceast" constrngere, situa$ii cum ar fi alegerea la ntmplare a unui num"r de oameni care intr" ntr-o institu$ie de la orele 8.00 pn" la orele #0.00 ale unei zile, constituirea unui e!antion de gospod"rii alese la ntmplare atunci cnd ne plimb"m pe cteva str"zi dintr-o localitate, sau constituirea unui e!antion format din localit"$i rurale ale unui jude$, selectnd tot ntmpl"tor localit"$i rurale care se afl" pe !oseau care leag" dou" ora!e ale jude$ului respectiv, etc, nu vor duce la constituirea unor e!antioane probabiliste. Motivul pentru care nu vom ob$ine n aceste cazuri e!antioane aleatoare este acela c" n alegerea pe care o facem la ntmplare excludem fie inten$ionat, fie neinten$ionat o parte din elementele popula$iei vizate. Astfel n primul caz, dac" vrem s" alegem un e!antion reprezentativ pentru cei care frecventeaz" o anumit" institu$ie !i vom selecta la ntmplare doar pe cei care intr" n acea institu$ie n intervalul orar amintit i vom exclude pe to$i cei care la momentul respectiv nu au !ansa de a intra n acea institu$ie, similar vom exlude f"r" s" vrem gospod"riile care nu au !ansa de a se g"si pe str"zile pe care ne plimb"m sau localit"$ile rurale care nu au !ansa de a se afla pe !oseaua care leag" cele dou" ora!e ntre care ne deplas"m. Mai mult, nu putem calcula !ansa pe care o are fiecare element din cele trei cazuri prezentate mai sus persoane, gospod"rii, localit"$i rurale de fi selectat n e!antion. n toate aceste cazuri este clar c" ntmplarea favorizeaz" anumite elemente !i
continu" n acest fel pn" la completarea num"rului de elemente necesare constituirii e!antionului. n cazul n care unui num"r aleator nu i corespunde un num"r atribuit unui element din popula$ia vizat", acesta nu este utilizat !i se trece la urm"torul. O alt" procedur" de punere n practic" a unei e!antion"ri simple aletoare este cunoscut" sub denumirea de metoda pasului. n aceast" situa$ie este necesar" o list" care s" cuprind" toate elementele popula$iei vizate, fiec"rui element fiindu-i atribuit un num"r de la # la N. Dup" care se stabile!te un pas de e!antionare, de obicei egal cu raportul dintre m"rimea popula$iei (N) !i m"rime e!antionului (n): N/n. Se alege la ntmplare un num"r din lista care cuprinde toate elementele popula$iei vizate, elementul corespunz"tor acelui num"r fiind primul element al e!antionului, dup" care, ncepnd de la acel element, este selectat n e!antion tot al N/n lea element din popula$ie. Pasul de N/n se aplic" de cte ori este nevoie pentru a selecta num"rul de elemente care trebuie s" fac parte din e!antion. Procedura pasului mai este cunoscut" !i sub denumirea de e#antionare simpl" sistematic" sau cvasi-aleatoare. Spre exemplificare, s" presupunem c" popula$ia vizat" este format" din 5000 de gospod"rii, !i dorim s" constituim un e!antion format din 250 de gospod"rii. Pasul de e!antionare n acest caz va fi 5000/250 = 20. Gospod"riile sunt ordonate pe o list", fiec"reia atribuindu-i-se un num"r de la # la 5000. Se alege la ntmplare o un num"r de pe list", s" spunem c" acest num"r este 7; gospod"ria c"reia i-a fost atribuit acest num"r este primul element al e!antionului nostru. Urm"toarele gospod"rii care vor face parte din e!antion sunt cele c"rora le corespund numerele: 27, 47, 67, 87, #07, #27, #47 !i a!a mai departe pn" la selectarea a 250 de gospod"rii. E!antionarea prin stratificare E!antionarea prin stratificare are la baz" tot o procedur" de alegere aleatoare. Aceast" metod" este utilizat" atunci cnd cel care face e!antionarea are motive s" cread" c" popula$ia vizat" este compus" din mai multe subpopula$ii sau subgrupuri distincte, denumite tehnic straturi. Realizarea din punct de vedere practic a unui e!antion prin stratificare presupune urm"torii pa!i: popula$ia vizat" este mpar$it" n subpopula$ii n func$ie de un anumit criteriu care este deja cunoscut, dup" care este constituit un e!antion care la rndul lui va fi compus din attea sube!antioane cte subpopula$ii exist" n popula$ia vizat". n interiorul fiec"rei subpopula$ii elementele care vor fi introduse n e!antion sunt selectate aleator. Spre exemplu, s" presupunem c" 30% din popula$ia unei regiuni locuie!te n localit"$i rurale, 20% locuie!te n ora!e cu pn" la 50.000 de locuitori, #5% locuie!te n ora!e care au de la 50.00# la #00.000 de locuitori, iar restul de 35% locuie!te n ore!e de peste #00.000 de locuitori. Un e!antion stratificat format din #000 de persoane va cuprinde 300 de persoane din mediul rural, 200 de persoane care locuiesc n ora!e cu pn la 50.000 de locuitori, #50 de persoane care locuiesc n ora!e care au ntre 5#.00# !i #00.000 de locuitori !i 350 de persoane care locuiesc n ora!e de peste #00.000 de locuitori. Principiul de baz" al acestui tip de e!antionare este acela c", cu ct o popula$ie este mai omogen" cu att este mai u!or s" se extrag" din aceasta un e!antion reprezentativ. De asemenea, cu ct o popula$ie este mai omogen" n raport cu o caracteristic", cu att m"rimea e!antionului necesar pentru a reproduce cu o anumit"
acurate$e acea caracteristic" este mai mic" n compara$ie cu m"rimea unui e!antion extras dintr-o popula$ie care este mai eterogen" n raport cu aceea!i caracteristic". M"rimea sube!antioanelor poate s" p"streze propor$ia subpopula$iilor, situa$ie n care vom vorbi de e!antionare prin stratificare propor$ional". n felul acesta se asigur" pentru toate elementele popula$iei vizate o !ans" egal" de a fi selectate n e!antion. Exist" ns" !i situa$ii n care este recomandat ca sube!antioanele s" nu p"streze propor$iile subpopula$iilor. Acest lucru se ntmpl" mai ales atunci cnd unele subpopula$ii sunt reduse din punct de vedere numeric !i n consecin$", dac" ar fi p"strate propor$iile, !i sube!antioanele ar fi formate dintr-un num"r mic de elemente care nu ar avea un nivel de reprezentativitate rezonabil. n aceast" situa$ie se recurge la o stratificare dipropor$ionat" a e!antionului sau o stratificare ponderat", prin suprareprezentarea n e!antion a subpopula$iilor mai pu$in numeroase, urmnd ca la prelucrarea datelor aceste abateri s" fie corectate prin metode statistice. n aceast" situa$ie !ansele elementelor apar$innd diferitelor subpopula$ii de a intra n e!antion sunt diferite: elementele care provin din subpopula$iile mai pu$in numeroase avnd !anse mai mari de fi selecta$i n e!antion dect elementele care provin din subpopula$iile mai numeroase. Indiferent de modalitatea n care sunt constituite sube!antioanele, p"strnd sau nu propor$iile, e!antionarea prin stratificare presupune existen$a n momentul ini$ial al punerii n practic" a procedurii de e!antionare a unei informa$ii suplimentare despre popula$ia vizat" n compara$ie cu situa$ia n care este utilizat" e!antionarea simpl" aleatoare. Aceast" informa$ie poate fi ob$inut" cu ajutorul altor studii sau din alte surse de informare cu privire la popula$ia vizat". n ceea ce prive!te gradul de reprezentativitate al e!antioanelor realizate prin stratificare n compara$ie cu gradul de reprezentativitte al e!antioanelor simple aleatoare, se admite n general c" este mai bun. Mai clar spus, dintre dou" e!antioane de aceea!i m"rime unul ob$inut prin e!antionare prin stratificare iar altul prin e!antionare simpl" aleatoare, se consider" c" primul are o reprezentativitate mai bun", n situa$ia n care criteriile pe baza c"rora se face e!antionarea au o leg"tur" de tip statistic cu caracteristicile care fac obiectul cercet"rii.
E!antionarea cluster !i e!antionarea multistadial% Pn" acum am prezentat situa$ii n care exist" un anumit cadru de e!antionare liste care s" cuprind" elementele unei popula$ii - !i situa$ii n care pe lng" faptul c" exist" un anumit cadru de e!antionare cercet"torul mai are la ndemn" !i o serie de criterii pe baza c"rora o popula$ie poate fi mp"r$it" n subpopula$ii sau grupuri. n aceast" din urm" situa$ie din fiecare grup este extras un sube!antion care va face parte din e!antionul final. Exist" ns" !i situa$ii n care nu exist" un cadru de e!antionare !i nici nu este necesar" creerea unuia ntruct nu toate elementele acelei popula$ii vor fi incluse n e!antion. Dac" popula$ia poate fi considerat" ca fiind format" din grupuri, iar ntre aceste grupuri exist" o anumit" asem"nare, atunci are sens s" nu fie selecta$i n e!antion indivizi din toate grupurile ci numai indivizi din anumite grupuri. n aceast" situa$ie popula$ia vizat" este mpar$it" n grupuri n func$ie de un anumit criteriu, aceste grupuri la rndul lor pot fi considerate ca fiind formate din alte grupuri !i a!a mai departe. Date fiind aceste
condi$ii, selectarea elementelor care vor compune e!antionul poate ncepe prin selectarea grupurilor din care fac parte aceste elemente. Astfel, ntr-o prim" faz" sunt selectate aleator o parte din grupurile popula$iei vizate, dup" care din fiecare grup selectat n prima faz" vor fi selectate tot aleator alte grupuri mai mici !i a!a mai departe pn" cnd se ajunge la nivelul elementului de baz" din care este compus" popula$ia vizat". Spre exemplu, dac" dorim s" alegem un e!antion din popula$ia unui ora!, ntr-o prim" faz" putem selecta cartiere din acel ora!, apoi str"zi, blocuri, apartamente !i n cele din urm" persoanele care ne intereseaz". Dac" toate elementele care fac parte dintr-un grup la un moment dat sunt incluse n e!antion, procedura de e!antionare astfel definit" este denumit" e#antionare cluster. Dac" doar o parte din elementele unui grup sunt incluse n e!antion, procedura de e!antionare este definit" ca multistadial". Avantajul unei astfel de proceduri de e!antionare l constituie costurile reduse n raport cu celelalte proceduri prezentate pn" acum, n sensul n care efortul !i timpul necesar identific"rii unui element care va fi inclus n e!antion este mult mai redus. n ceea ce prive!te reprezentativitatea unui astfel de e!antion, se consider" n general c", la volum egal, este mai pu$in repezentativ n compara$ie cu un e!antion ob$inut prin stratificare sau n compara$ie cu un e!antion ob$inut prin procedee simple aleatoare. Reprezentativitatea mai sc"zut" este rezultatul elimin"rii la diferite nivele a unor grupuri de elemente din popula$ia vizat". Cu ct aceste grupuri care sunt eliminate sunt mai mari !i cu ct sunt mai diferite n compara$ie cu grupurile care nu au fost eliminate cu att este mai mare riscul de a gre!i. Multe cercet"ri utilizeaz" o combina$ie ntre e!antionarea multistadial" (care este mai u!or de efectuat !i ale c"rei costuri sunt mai reduse) !i e!antionarea stratificat" (a c"rei acurate$e este mai mare). Astfel, selec$ia n cadrul fiec"rui stadiu nu este o selec$ie simpl" aleatoare ci mai degrab" o selec$ie aleatoare constrns" de un criteriu de stratificare. De exemplu, pentru un e!antion na$ional nu vom selecta n primul stadiu localit"$ile prin metoda simpl" aleatoare, ci vom folosi !i un criteriu de stratificare - s" zicem mp"r$irea n rural !i urban. 4.#.2 E!antioane neprobabiliste Al"turi de aceste proceduri de e!antionare probabiliste n practica de cercetare sunt utilizate !i o serie de tehnici mai pu$in riguroase n ceea ce prive!te selectarea celor care vor compune un e!antion. Lipsa de rigurozitate se refer" mai ales la neacordarea unei aten$ii speciale calcul"rii sau egaliz"rii !anselor fiec"rui individ din popula$ia vizat" de a face parte din e!antion. E!antioanele ob$inute n acest fel sunt denumite e!antioane neprobabiliste. Astfel de e!antioane se constituie n urm"toarele situa$ii : persoane care se ofer" voluntar pentru a fi investiga$e; persoane care !i desf"!oara activitatea ntr-o institu$ie anume care prezint" interes pentru cel care efectueaz" cercetarea; persoane care r"spund la chestionare publicate n ziare; persoane care apeleaz" telefonic un post de radio sau de televiziune pentru a r"spunde la ntreb"rile care sunt formulate de moderatorii unor emisiuni sau de al$i participan$i la emisiunile respective; persoane intervievate pe strad" sau n anumite spa$ii publice;
n cadrul acestor tehnici de e!antionare neprobabilist" cele mai des utilizate sunt e!antionarea pe cote !i e!antionarea tip bulg"re de z"pad". E!antionarea pe cote E!antionarea pe cote este probabil cea mai des utilizat" procedur" de e!antionare neprobabilist" utilizat" atunci cnd se lucreaz" cu popula$ii numeroase. Din punct de vedere al realiz"rii practice aceast" procedur" este similar" e!antion"rii prin stratificare prin aceea c" popula$ia vizat" este stratificat" dup" o serie de criterii ns" n interiorul straturilor indivizii nu sunt selecta$i aleator, ci selec$ia acestora este l"sat" la latitudinea operatorilor de anchet". Acestora le sunt indicate numai anumite cote care indic" frecven$a cu care s" fie selecta$i subiec$ii care au anumite caracteristici. Spre exemplu dac" n popula$ia vizat" avem 49% b"rba$i !i 5#% femei !i 20% au studii superioare iar restul de 80% nu au astfel de studii, iar e!antionul este format #000 de persoane, atunci n cadrul acetuia vor fi cuprin!i 490 de barba$i !i 5#0 femei, 200 de persoane cu studii superioare !i 800 de persoane care nu au absolvit nv"$"mntul superior. n aceast" situa$ie dac" sunt utiliza$i #0 operatori de interviu fiec"ria i se cere s" chestioneze 49 de b"rba$i !i 5# de femei, 20 de absolven$i de nv"$"mnt superior !i 80 de persoane care au absolvit o form" de nv"$"mnt alta dect facultatea. Pentru a se limita subiectivitatea operatorilor n selecatarea celor care vor fi inclu!i n e!antion se recomand" stabilirea a ct mai multor criterii de stratificare a popula$iei vizate. Avantajul unui astfel de procedeu de selec$ie este acela c" nu necesit" existen$a unui cadru de e!antionare, lucru care n unele situa$ii este greu de realizat, iar munca operatorilor este mult u!urat" prin aceea ce nu trebuie s" caute o persoan" anume ci au libertatea de a alege pe cine vor cu condi$ia de$inerii anumitor caracteristici vizate de cercetare. E!antionarea tip bulg%re de z%pad% Este o procedur" de e!antionare utilizat" n situa$ia n care nu exist" informa$ii suficiente pentru a identifica to$i indivizii care compun o anumit" popula$ie, ci este posibil" doar identificare doar a ctorva astfel de indivizi. Date fiind aceste circumstan$e, analiza unui popula$ii vizate ncepe cu investigarea indivizilor cunoscu$i dup" care acestora li se cere s" precizeze, dac" este posibil, !i alte persoane despre care se presupune c" ntrunesc caracteristici vizate de cercetare. Procedeul se desf"!oar" n acest fel pn" cnd sunt identifica$i at$ia indivizi c$i sunt necesari constituirii unui e!antion. Se utilizeaz" acest procedeu n cazul n care popula$ia vizat" este format" spre exemplu din oameni care au aumite hobby-uri sau pasiuni, preocup"ri !i despre care de obicei nu se cunosc n faza ini$ial" multe informa$ii !i nu se !tie nici cte astfel de persoane compun popula$ia vizat". 4.2 Concluzie E!antionarea este un procedeu des utilizat n practica de cercetare n diferite domenii ale activit"$ii umane. De la medicul care face analize de laborator prelevnd o prob" de snge de la un pacient !i pn" la cei care sunt interesa$i de aspecte ale opinei
publice n diferite domenii precum: preferin$ele electorale, acordul sau dezacordul cu anumite politici publice sau decizii administrative, etc. n func$ie de tematica avut" n vedere !i de informa$iile disponibile cu privire la popula$ia vizat" procedurile de e!antionare respect" mai mult sau mai pu$in anumite rigori n ceea ce prive!te selectarea elementelor din popula$ie care vor constitui e!antionul. Indiferent de procedura de e!antionare utilizat", cercet"torul trebuie s" $in" cont de limitele existente n fiecare situa$ie particular" !i s" fac" explicite neajunsurile existente. Una dintre cele mai frecvente erori ntlnite n practica de cercetare este aceea de pune problema reprezentativit"$ii statistice pentru e!antioanelor neprobabiliste, n cazul c"rora, a!a cum ar"tat, aceast" reprezentativitate nu se poate calcula n practic" procedurile de e!antionare prezentate pe parcursul acestui capitol sufer" o serie de abateri !i de adapt"ri sau ajust"ri. De cele mai multe ori acestea const" n combinarea mai multor tehnici de e!antionare n felul acesta sperndu-se ob$inerea unor informa$ii ct mai corecte !i mai precise despre popula$ia avut" n vedere. ntreb%ri: #. Ct de multe elemente trebuie s" cuprind" un e!antion extras dintr-o popula$ie perfect omogen"? 2. ntre un e!antion simplu aleator !i unul prin stratificare este mai reprezentativ: a) cel simplu aleator, b) cel prin stratificare c) amndou" e!antioanele au acela!i nivel de reprezentativitate. 3. S" presupunem c" se realizeaz" un e!antion utiliznd metoda pasului. M"rimea e!antionului este de 200 de elemente iar cea a popula$iei vizate este de 2800 de elemente. Care este m"rimea pasului utilizat? De la al ctelea element al popula$iei poate ncepe punerea n practic" a pasului de e!antionare?
Capitolul 5 Testarea ipotezelor statistice. Teste de semnifica$ie O ipotez" statistic" este pur !i simplu o afirma!ie despre o popula!ie care poate fi testat" cu ajutorul unui e!antion aleator. S" ne amintim exemplul din sec$iunea 3.3 (Capitolul 3) n care un cercet"tor dorea s" estimeze coeficientul mediu de inteligen$" pentru elevii unei !coli, pe baza unui e!antion. S" presupunem c" respectivul cercet"tor !i-a demarat studiul cu ipoteza c" n respectiva !coal" media coeficientului de inteligen$" este de #25. Dup" efectuarea studiului, respectivul cercet"tor a trecut la estimarea mediei n popula$ia de elevi !i a ajuns la concluzia c", pentru un nivel de ncredere de 95%, media coeficientului de inteligen$" n !coal" este cuprins" ntre #26 !i #36. Deci, ipoteza ini$ial", a unei medii n popula$ie de #25 nu este sus$inut" de aceste rezultate, iar cercat"torul o va respinge. n general, orice ipotez" care se afl" n afara unui interval de ncredere poate fi judecat" ca fiind implauzibil" !i poate fi deci respins". Reiese de aici c" un interval de ncredere poate fi privit ca un set de ipoteze acceptabile. S" ne ntoarcem acum la cercet"torul nostru !i la modul n care a construit intervalul de ncredere. A!a cum am reamintit deja, intervalul de ncredere a fost construit pentru un nivel de ncredere de 95%. De aici putem deduce c" exist" o probabilitate de 5% ca cercet"torul s" fi gre!it atunci cnd a respins ipoteza ini$ial", a mediei egale cu #25, sau, cu alte cuvinte, c" ipoteza a fost respins" cu o probabilitate de eroare de 5% (0,05). Nivel de semnifica!ie. Valoarea p n paragraful anterior am v"zut cum se poate testa o ipotez" statistic" cu ajutorul intervalelor de confiden$". n rndurile care urmeaz" vom ptivi lucrurile dintr-o alt" perspectiv", aceea a ipotezei de nul, H0. S" lu"m un exemplu: ntr-o comuitate rural" este implementat un program de dezvoltare care printre alte obiective urm"re!te mbun"t"$irea infrastructurii structurii fizice, mai precis a drumurilor. Unul din rezultatele a!teptate este o cre!tere a bun"st"rii gospod"riilor, datorit" accesului mai u!or c"tre "ie$ele marilor ora!e. nainte de implementarea programului, venitul mediu per capita al gospod"riilor din comunitate era de #200 mii lei, iar abaterea standard era de 300 mii lei. Dup" trei ani de la implementarea programului, o cercetare f"cut" pe un e!antion de #00 de gospod"rii, arat" c" media venitului per capita n gospod"riile din e!antion este de #265 mii lei. ntrebarea care se pune este: a crescut nivelul bun"st"rii n gospod"riile din comunitate? Pentru a afla acest lucru vom lansa o ipotez", pe care o vom numi ipoteza de nul, !i anume aceea c" nivelul bun"st"rii nu s-a modificat. Formal, aceasta se scrie: H0: = #200 sau, mai pe scurt, 0 = #200 Afirma$ia alternativ", sus$inut" de finan$atorii programului, !i anume aceea c" bun"starea a crescut, va fi considerat" ipoteza alternativ", Ha. Formal aceasta se scrie Ha: > #200, sau a = #200
ntrebarea pe care o pune statisticianul este: ct de consistent" este media de e!antion X =#265 cu ipoteza de nul? Sau cu alte cuvinte: dac" ipoteza de nul ar fi adev"rat", care e probabilitatea s" ob$inem o medie de e!antion egal" cu #265? Vom reolva aceast" problem" n acela!i mod n care am rezolvat probleme similare n Capitolul 3. Vom standardiza valoarea #265 cu scorul z, vom calcula eroarea standard, !i apoi ne vom pune ntrebarea: care e probabilitatea ca o medie de e#antion egal" sau mai mare dect $265 s" apar" ntr-o popula!ie cu o medie de $200? Rezultatul ob$inut este: z = 2,#7, Pr( X #265) = Pr(z 2,#7)=0,0#5 Cu alte cuvinte, dac" programul nu ar fi adus nici o mbun"ta$ire n nivelul de bun"stare, ar fi existat o probabilitate de numai #,5% s" observ"m o medie de e!antion la fel de mare sau mai mare dect #265. #,5% este de aceea numit valoarea p pentru H0, sau mai bine zis, nivelul de semnifica$ie al lui H0. Deoarece ipoteza noastr" a fost una n termeni de "mai mare" !i deoarece pentru a g"si probabilitatea ne-am uitat numai n partea dreapt" a distribu$iei, ipoteza noastr" alternativ" a fost una unilateral". Dac" am fi vrut s" test"m de exemplu nu o cre!tere a bun"st"rii ci pur !i simplu o modificare a ei (pozitiv" sau negativ") la trei ani de la program, ipoteza de alternativ" ar fi fost scris": Ha: #200 Pentru a rezuma, vom spune c" valoarea p este probabilitatea ca valoarea de e!antion s" aib" m"rimea calculat", dac" ipoteza de nul ar fi adev"rat". Regula pe care o putem generaliza dupa acest exemplu este : H0 se respinge dac" valoarea p este mai mic" dect un anumit nivel acceptat ), care de obicei este ales 0,05 . Alegerea acestui nivel (numit !i nivel de semnifica$ie teoretic sau critic) este n mare m"sur" arbitrar". El este practic complementul nivelului de ncredere. Dac" ne ntoarcem pu$in la exemplul de la nceputul acestui capitol, cel cu media coeficientului de inteligen$", ne vom da seama c" o a doua interpretare a lui ) este "probabilitatea de a gre!i respingnd ipoteza de nul". Din acest motiv p se mai nume!te pe scurt !i probabilitate de eroare. Valoarea de 0,05 este o valoare foarte des folosit" pentru testarea ipotezelor de nul n general. 5.# Teste de semnifica$ie. Inferen$a statistic% Testele de semnificatie constituie elemente esentiale ale statisticii inferentiale. In continuare sunt prezentate cateva exemple relevante de intrebari al caror raspuns este dat cu ajutorul testelor de semnificatie. Spre exemplu, #7% dintre cei chestiona$i n cadrul unei anchete sociale sunt de acord cu o anumit" decizie a administra$ie publice locale la un anumit moment dat de
timp, dar numai ##% au aceea!i opinie la un alt moment de timp. Problema care se pune n aceast" situa$ie este: ct de real" sau de semnificativ" este diferen$a ntre cele dou" grupuri cei chestiona$i la un moment de timp !i cei chestiona$i la un moment de timp ulterior? Este aceast" diferen$" autentic" sau sau este rezultatul fluctua$iilor fire!ti ale e!antion"rii? Adeseori observ"m diferen$e ntre rezultatele ob$inute atunci cnd se fac m"sur"tori pe dou" e!antioane diferite extrase din aceea!i popula$ie. Intrebarea care se pune de aceasta data este: exista distorsiuni in vreunul dintre esantioane? Cata incredere putem avea in rezultatele unuia sau altuia dintre esantioane? Toate aceste ntreb"ri sunt justificate ntruct, a!a cum am ar"tat n capitolul dedicat e!antion"rii, e!antioanele nu reproduc exact caracteristicile unei popula$ii, ci exist" o anumit" diferen$" ntre valoarea unei caracteristici m"surat" pe un e!antion !i valoarea aceleia!i caracteristici m"surat" pe popula$ia din este extras e!antionul. Cu toate acestea de multe ori suntem pu!i n situa$ia de a trage concluzii cu privire la starea unei popula$ii pornind de la m"sur"tori efectuate la nivelul unui e!antion, cu alte cuvinte se pune problema de a face inferen$e de la e!antion la popula$ie. Testul Z
Este un test de semnifica$ie utilizat n cazul n care se compar" valorile unor caracteristici m"surate pe e!antioane mari (de ordinul a sute sau mii de indivizi). Cele dou" valori comparate pot fi m"surate fie una pe o popula$ie !i una pe un e!antion, fie amndou" valorile sunt m"surate pe e!antioane diferite. n prima situa$ie, fie a !i b cele dou" valori ale aceleia!i caracteristici, dintre care valoarea a este m"surat" pe o popula$ie iar valoarea b este m"surat" pe un e!antion !i fie e eroarea standard a caracteristicii luate n considerare. Testul Z este definit dup" formula: Z= ab e
!i exprim" de fapt diferen$a dintre valorile a !i b n erori standard (s" ne aducem aminte c" n exemplul cu impactul programului de dezvoltare nu am f"cut nimic altceva dect s" "compar"m" valoarea ob$inut" n e!antion - notat" aici cu a, cu o medie n popula$ie notat" aici cu b). Dac" valoarea testului Z este mai mare de #.96 atunci diferen$a dintre cele dou" valori este semnificativ" din punct de vedere statistic la un nivel de ncredere de 0,95 (95%). Sau altfel spus, n termenii ipotezei de nul - vom respinge ipoteza de nul cu o probabilitate de eroare de 5%. Pentru a ilustra modul de aplicare a testului Z vom utiliza un exemplu. S" presupunem c" n cadrul unui referendum 42% dintre cet"$enii unei localit"$i sunt de acord cu introducerea unui nou sistem de impozite. Cu toate acestea ntr-un sondaj de opinie realizat anterior referendumului pe un e!antion de 900 de persoane indica c" doar 37% dintre cet"$eni vor fi de acord cu noua gril" de impozitare. Este diferen$a ntre cele dou" valori autentic" sau nu? Provine procentul de 37% dintr-o popula$ie cu un procent de 42%? Sau altfel spus, este diferen$a dintre valoarea n e!antion !i valoarea n popula$ie
semnificativ" statistic?, ceea ce este totuna cu a ne ntreba: este e!antionul reprezentativ pentru caracteristica dat"? Pentru a pune n eviden$" acest lucru calcul"m: 2 = 0,37(# 0,37) = 0,233# !i e= 0,48 900 = 0,0#6 sau !i = 0,48 e = #,6%
!i dup" formula: dac" cele dou" valori sunt m"surate pe dou" e!antioane independente ale c"ror m"rimi sunt n# respectiv n2 (cnd vrem s" test"m de n# + n 2 2 exemplu dac" exist" diferen$e semnificative ntre mediile a dou grupe: diferen$a de salarii ntre b"rba$ii !i femeile care lucreaz" ntr-o firm"). e=
i
(x
x#
) + (x
2
x2
nlocuind n formula lui Z ob$inem: (42 - 37)/#,6 = 3,#2 Cautnd n tabel pragurile de probabilitate ale lui Z n dreptul lui 3,# !i pe coloana 0,02 g"sim 0,499# !i reprezint" jum"tate din nivelul de ncredere cautat. Deoarece ipoteza alternativei este cea a diferen$ei, fiind deci bilateral", vom calcula probabilitatea pentru ambele cozi ale distribu$iei, adic" pentru regiunile de respingere a ipotezei de nul, care sunt complementare nivelului de ncredere. Vom g"si deci p=0,00#8, ceea ce conduce c"tre respingerea ipotezei de nul !i a accept"rii unei diferen$e semnificative statistic ntre valorile comparate. n cazul n care cele dou" valori ale unei caracteristici sunt m"surate pe dou" e!antioane distincte formula testului Z este aceea!i cu precizarea c" eroarea standard se calculeaz" dup" formula unde n# !i n2 sunt m"rimile celor dou" e!antioane, iar !# !i !2 sunt 2 abaterile standard ale valorilor caracteristicii pentru fiecare dintre #2 2 e= + cele dou" e!antioane (sau sub-e!antioane - de exemplu diferen$a de n# n2 vrst" ntre votan$ii cu dreapta !i votan$ii cu stnga dintr-un e!antion). Testul Student ( t )
La fel ca !i n cazul testului Z !i pentru testul Student sunt calculate diferite nivele de probabilitate care reclam" ns" !i specificarea num"rului de grade de libertate, care se calculeaz" dup" formulele: respectiv
= n #
Testul 2 (chi p"trat) de concordan!"
= n# + n2 2
Atunci cnd se pune problema de a compara valori ale unor caracterisitici dintre care cel pu$in una este ob$inut" prin m"sur"tori efectuate pe e!antioane de m"rimi mici (pna la 30 de indivizi) corespondetul testului Z este testul Student (t). Formula de calcul a testului Student este identic" cu aceea a testului Z: t= a b e sau t= estimat H 0 e
Deosebirea fa$" de testul Z const" n modul de calcul al erorii standard (e) care se face, datorit" estim"rii lui ( cu ajutorul lui s, dup" formula: dac" una dintre valori este m"surat" pe un e!antion de m"rime n !i una 2 xx pe o popula$ie (de exemplu, cnd vrem s" test"m dac" un e!antion este reprezentativ pe o caracteristic" cantitativ", a c"rei valoare din popula$ie n # e= este cunoscut"), n
Testele Z si Student sunt utilizate pentru a testa ipoteze care se refer" la valori sau parametrii (medii sau propor$ii), motiv pentru care sunt adeseori cunoscute !i sub denumirea mai larg" de teste parametrice. Exist" ns" multe situa$ii n care ipotezele nu pot fi testate utiliznd doar medii sau propor$ii. Acest lucru se ntmpla spre exemplu atunci cnd datele cu care se lucreaz" nu sunt de tip cantitativ. Exist" apoi !i alte condi$ii care trebuiesc ndeplinite n cazul testelor parametrice - utilizarea unor e!antioane mari sau a unor e!antioane extrase din popula$ii normal distribuite astfel nct !i forma distribu$iei de e!antionare s" fie cunoscut" - condi$ii care nu ntotdeauna pot fi ndeplinite. Pentru a dep"!i acest tip de neajunsuri au fost construite !i o serie de teste a c"ror mod de operare nu presupune existen$" unor asump$ii cu privire la popula$ia vizat" sau cu privire la datele pe care le avem la dispozi$ie despre aceasta. Acest tip de teste sunt denumite teste non-parametrice. Unul dintre cele mai des utilizate teste de acest fel este testul 2 (chi p%trat). Scopul principal al acestui test este oarecum similar testelor Z !i Student !i anume ncearc" s" ofere un r"spuns ntreb"rii: dat" fiind o mul$ime de valori observate ale unei caracteristici, modul de distribuire a acestor valori poate fi atribuit n ntregime fluctua$iilor fire!ti ale e!antion"rii sau exist" o serie de al$i factori care influen$eaz" aceast" distribuire? n acest caz, pentru a r"spunde la o astfel de ntrebare, punctul de plecare este o ipotez" nul" care afirm" c" nu exist" al$i factori care s" influen$eze distribu$ia valorilor observate ale unei variabile. Pentru a ilustra modul de operare al testului 2 (chi p"trat) de concordan$" vom utiliza exemplu urm"tor. Fie urm"toarea situa$ie ipotetic": #00 de func$ionari ai unei institu$ii publice sunt ntreba$i cu privire la ceea ce i nemul$ume!te cel mai mult la locul de munc", r"spunsurile oferite avnd urm"toarele frecven$e:
modul de organizare al activit"$ilor modul n care sunt trata$i de !ef existen$a unui program fix de lucru lipsa unui spirit de echip" lipsa unor rezultate vizibile
frecven$a 24 #0 27 ## 28
2 =
4 2 #0 2 7 2 9 2 8 2 + + + + 20 20 20 20 20
2 = #5.50
Valoarea ob$inut" pentru 2 (#5.50) se compar" cu valorile critice ale distibu$iei chi p"trat (Anexa 3) pentru diferite nivele de probabilitate, dintre care cel mai des utilizat este !i de aceast" dat" pragul de 0,05. Ca !i n cazul testului Student compararea valorilor critice ale unei distribu$ii observate cu ditribu$ia chi p"trat reclam" specificarea num"rului de grade de libertate, num"r care se calculeaz" dup" formula df = k #, unde k reprezint" num"rul de categorii ale caracteristicii analizate. n exemplul de mai sus k = 5# = 4 !i c"utnd n tabelul cu valori critice ale lui chi p"trat g"sim c" pentru nivelul de semnifica$ie de 0,05 !i 4 grade de libertate valoarea critic" este 9,488. Cum #5.50 este mai mare dect aceast" valoare critic", vom spune c" ipoteza nul" se respinge cu o probabilitate de eroare de 5% sau, cu alte cuvinte, r"spunsurile date de func$ionari nu se distribuie omogen ci exist" un anumit motiv de nemul$unire care este mai acut dect celelalte, iar acest rezultat nu este generat de fluctua$iile de e!antionare. Testul chi p"trat se folose!te !i n cazurile n care dorim s" verific"m dac" un e!antion este reprezentativ pentru o caracteristic" calitativ", cum ar fi ocupa$iile subiec$ilor, sau de exemplu reprezentativitatea unui e!antion pe regiuni istorice. n acest caz valorile a!teptate vor fi valorile din popula$ie, care sunt cunoscute din surse de date oficiale (distribu$ia pe ocupa$ii sau pe regiuni din date de recens"minte de exemplu) 5.2 Teste parametrice sau non-parametrice?
ntrebarea care se pune n aceast" situa$ie este: exist" un motiv de nemul$umire care este mai acut dect altele? Ipoteza nul" n aceast" situa$ie ar fi aceea c" fiecare dintre motivele enumerate mai sus nemultume!te n egal" m"sur" pe functionarii acelei institu$ii, fiecare dintre cele cinci r"spunsuri avnd aceea!i probabilitate de a fi indicat de c"tre responde$i. Din punct de vedere statistic aceasta ar nsemna c" frecven$ele observate ale r"spunsurilor primite pot fi considerate egale cu frecven$ele a!teptate. Dac" ipoteza nul" este sus$inut" atunci r"spunsurile ar trebui s" fie distribuite aleator pe cele cinci categorii de r"spunsuri luate n considerare. Pentru a testa aceast" ipotez" s" utiliz"m testul 2 (chi p"trat) care este definit dup" formula:
2 =
i
(Oi Ai ) 2 Ai
unde Oi reprezint" frecven$ele observate, iar Ai reprezint" frecven$ele a!teptate (adic" distribu$ia aleatoare a r"spunsurilor pe cele cinci categorii ale caracteristicii analizate motiv de nemul$umire). Ridicarea la patrat din formula lui chi patrat este necesara deoarece, prin definitie,
(O
i
Ai ) = 0
n cazul nostru cele dou" frecven$e sunt: modul de organizare al activit"$ilor modul n care sunt trata$i de !ef existen$a unui program fix de lucru lipsa unui spirit de echip" lipsa unor rezultate vizibile Oi 24 #0 27 ## 28 Ai 20 20 20 20 20 Oi - Ai 4 -#0 7 -9 8
nlocuind n formula lui 2 (chi p"trat) ob$inem:
2 =
(24 20) 2 (#0 20) 2 (27 20) 2 (## 20) 2 (28 20) 2 + + + + 20 20 20 20 20
Cnd utiliz"m teste parametrice !i cnd utiliz"m teste non-parametrice pentru a analiza un set de date? R"spunsul la aceast" ntrebare nu este ntotdeun" foarte tran!ant. Astfel, nu vom putea utiliza teste parametrice dac" datele pe care le avem la dispozi$ie sunt de tip calitativ, motivul este acel" c" testele parametrice opereaz" de cele mai multe ori cu valori medii, valori care evident nu pot fi calculate pentru date de tip calitativ. n aceast" situa$ie un test non-parametric este singura alternativ" posibil". Pe de alt" parte testele parametrice sunt considerate a avea o putere statistic" mai mare dect testele non-parametrice !i aceasta pentru c" modul lor de operare ia n considerare mai mult" informa$ie despre caracteristica avut" n vedere. Dar acest lucru se face cu anumite asump$ii, dintre care cea mai important" este distribu$ia normal" n popula$ie a valorilor caracteristicii analizate. Ct de puternice sunt testele paramentrice n raport cu cele non-parametrice? Raspunsul trebuie !i de aceast" dat" nuan$at. Puterea statistic" a unui test este de fapt probabilitatea de a respinge ipoteza nul" atunci c"nd aceasta nu este adev"rat". Dar !i n acest caz situa$iile depind de modul de formulare a ipotezei nule !i de m"rimea e!ntionului extras. Dac" una dintre aceste dou" variabile sufer" modific"ri !i puterea statistic" a unui test este afectat". Practica a demonstrat c" amndou" tipurile de teste pot fi utilizate cu acela!i succes cu condi$ia lu"rii n calcul a avantajelor !i dezavantajelor fiec"ruia.
Capitolul 6 Asocierea variabilelor calitative Exerci$ii !i probleme #. Tabelul de mai jos clasific" accidentele de munc" ntr-o ntreprindere pentru luna precedent" n patru perioade egale ale zilei. Considerndu-l ca un e!antion aleator a. identifica$i valoarea p pentru H0 (conform c"reia probabilitatea de producere a accidentelor este egal" n orice moment al zilei)? b. Poate fi respins" ipoteza H0 la un nivel eroare de 5%? Perioada din zi 8-#0 a.m. #0-#2 a.m. #-3 p.m. 3- 5 p.m. Num!rul de accidente 3# 30 4# 58 Cum putem testa daca intre doua variabile calitative exista o relatie? Sa ne imaginam de exemplu ca suntem interesati sa vedem daca impactul saraciei este acelasi pentru diferite grupuri Figura 6.# Relatia dintre saracie si statut ocupational din populatie, definite starea de saracie a gospodariei fie pe criterii spatiale ne-saraca saraca total (regiuni), fie pe criterii Salariat 834# 2536 #0877 statutul de apartenenta etnica, ocupational patron #72 #7 #89 religioasa etc., fie pe al capului de pe cont propriu 466 367 833 baza statutului lor gospodarie agricultor #553 #294 2847 ocupational etc.. Primul somer 709 795 #504 lucru pe care il trebuie pensionar #2959 2456 #54#5 alta 226 #63 389 sa il facem in momentul Total 24426 7628 32054 in care ne punem o a) frecvente absolute astfel de intrebare este starea de saracie a gospodariei construirea unui tabel ne-saraca saraca total cu dubla intrare, numit Salariat 77 23 #00 statutul si tabel de contingenta, ocupational patron 9# 9 #00 in care valorile uneia al capului de pe cont propriu 56 44 #00 dintre variabile apar pe gospodarie agricultor 55 45 #00 (%) coloane si valorile celei somer 47 53 #00 pensionar 84 #6 #00 de-a doua variabile apar alta 58 42 #00 pe randuri. In celulele Total 76 24 #00 unui astfel de tabel b) frecvente relative (procente) pe randuri putem avea patru tipuri starea de saracie a gospodariei (%) de informatii: ne-saraca saraca total a) freceventele Salariat 34 33 34 statutul absolute (numarul de ocupational patron # 0 # indivizi din fiecare al capului de pe cont propriu 2 5 3 gospodarie agricultor celula precum si 6 #7 9 somer 3 #0 5 numarul total de pensionar 53 32 48 indivizi care apartin alta # 2 # diverselor categorii ale Total #00 #00 #00 variabilelor) c) frecvente relative (procente) pe coloane b) frecventele relative % starea de saracie a gospodariei pe randuri (care ne ne-saraca saraca total indica ce procent din Salariat 26 8 34 statutul categoria care defineste ocupational patron # 0 # un rand apartine si al capului de pe cont propriu # # 3 gospodarie agricultor 5 4 9 categoriei care defineste somer 2 2 5 coloana) - de exemplu
pensionar 40 alta # Total 76 d) frecvente relative (procente) din total 8 # 24 48 # #00
2. ntr-o universitate mare profesorii b"rba$i !i femei au fost e!antiona$i independent, !i sau ob$inut urm"toarele observa$ii cu privire la salariile lor lunare: (n sute de mii) B!rba"i #6 #9 #2 ## 22 Femei 9 #2 8 #0 #6
a. Calcula$i un interval de ncredere de 95% pentru media diferen$e de salarii ntre b"rba$i !i femei b. Ct de bine ilustreaz" aceste date discriminarea practicat" de universitate fa$" de femei?
53% din gospodariile de someri sunt sarace c) frecventele relative pe coloane (care ne indica ce procent din categoria care defineste o coloana apartine si categoriei care defineste randul) - de exemplu #0% din gospodariile sarace sunt gospodarii de someri d) frecvente relative din total (care ne indica ce procent din totalul indivizilor analizati apartin simultan si categoriei de pe rind si categoriei de pe coloana) - de exemplu 2% din totalul gospodariilor studiate sunt sarace si sunt gospodarii de someri (sau altfel spus sunt gospodarii sarace de someri). Un astfel de tabel ofera informatii despre doua tipuri de distributii: distributii marginale si distributii conditionate. Distributiile marginale sunt practic distributiile de frecvente ale variabilelor. Astfel, in Figura 6.#(a) si (d) la "marginile" tabelelor, pe coloanele de "Total", se afla distributiile marginale ale frecventelor absolute, respectiv relative (%) ale starii de saracie si respectiv statutului ocupational al capului de gospodarie. In Figura 6.#(b), care contine frecvente relative pe randuri, ultimul rand ("Total") nu este nimic altceva decat distributia starii de saracie in totalul gospodariilor analizate. In acelasi tabel, avem pentru fiecare categorie de ocupatie distributia de frecvente relative a saraciei, adica distributia starii de saracie conditionata de statutul ocupational al capului de gospodarie. Astfel, pe rindul "salariat" avem distributia starii de saracie conditionata de statutul de salariat al capului de gospodarie. Similar, in Figura 6.#(d) pe coloane avem distributiile statutului ocuational al capului de gospodarie conditionate de starea de saracie (pe ultima coloana, cea de "Total" avem bineinteles distributia statutului ocupational pentru toate gospodariile analizate, adica distributia marginala a statutului ocupational). Prin compararea distributiilor conditionate cu distributia marginala ne putem face o prima impresie despre relatia dintre cele doua variabile. Cand distributiile conditionate difera mult de distributiile marginale, ne putem astepta ca intre cele doua variabile sa existe o relatie de asociere. In sectiunea urmatoare vom vedea cum putem testa existenta unei astfel de relatii. 6.# Testarea independentei dintre doua variabile: Testul 2 de independenta Chi p"trat este utilizat !i pentru a testa dac" dou" variabile sunt sau nu asociate. Fie, spre exemplu, urm"toarea situa$ie ipotetic": 600 de locuitori ai unei localit"$i care sunt ntreba$i dac" vor sprijini sau nu o schimbare a modului de alocare a veniturilor bugetare ale localit"$ii lor au r"spuns dup" cum urmeaz":
Tabelul 6.# Rela$ia dintre dou" variabile categoriale Frecven$e observate Da Nu cei cu vrsta sub 25 ##0 40 cei cu vrst" ntre 26 !i 45 de ani 40 #00 cei cu varsta peste 45 de ani 50 80 Total 200 220
aceast" ntrebare trebuie s" vedem cum ar trebui s" arate distribu$ia n situa$ia n care nu exist" asociere, adica in situatia de independenta. Sa ne aducem aminte de notiunile de probabilitati invatate in Capitolul 2. Am aratat acolo ca independenta se poate scrie in urmatorul fel: Pr(A si B) = Pr(A)Pr(B) Sa vedem acum cum am putea aplica aceste cunostinte in cazul independentei intre doua variabile. Sa consideram, in exemplul nostru, categoria celor de 25 de ani ca fiind evenimentul T, iar categoria celor care sunt in favoarea unei schimbari a modului de alocare a bugetului ca fiind evenimentul D. Care este probabilitatea ca evenimentele T si D sa se intimple simultan? Daca cele doua evenimente ar fi independente, atunci Pr(T si D) = Pr(T)Pr(D) Dar cat sunt Pr(T) respectiv Pr(D)? Din datele noastre, din frecventele marginale, rezulta ca Pr(T) = #80/600, iar Pr(D) = 200/600 Deci, daca cele doua evenimente ar fi independente, atunci Pr(T si D) = (#80 x 200) / (600 x 600) = #/#0 = #0% Cu alte cuvinte, numai #0% din cele 600 de persoane chestionate ar trebui sa se afle in celula din stinga sus a tabelului (persoane care au sub 25 de ani si care sunt in favoarea schimbarii). Sau mai exact spus, daca cele doua evenimente ar fi independente, frecventa absoluta a acelei celule ar trebui sa fie de numai 60. Daca vom calcula in acest mod frecventele pe care fiecare celula ar trebui sa le aiba in ipoteza independentei, am obtine datele din tabelul de mai jos:
Frecven$e a!teptate in ipoteza independentei cei cu vrsta sub 25 cei cu vrst" ntre 26 !i 45 de ani cei cu varsta peste 45 de ani Total Da 60 66,67 73,33 200 Nu 66 73,33 80,67 220 Nu !tiu 54 60 66 #80 Total #80 200 220 600
Calculndu-l pe chi p"trat dupa formula prezentata in Capitolul 5, ob$inem: (Oi Ai ) 2 Ai i (unde n este numarul total de celule ale tabelului)
Nu !tiu 30 60 90 #80
Total #80 200 220 600
2 =
2 =
(##0 60) 2 (40 66) 2 (40 66,7) 2 (#00 73,33 2 ) (90 66) 2 + + ... + + + ... + 60 66 66,7 73,33 66
n aceast" situa$ie se poate pune ntrebarea: exist" sau nu o preferin$" a unei anumite categorii de vrst" pentru schimbarea modului de alocare a veniturilor? Cu alte cuvinte exist" o rela$ie ntre vrst" !i acordul cu aceast" schimbare? Pentru a r"spunde la
2 = 99,##
Num"rul gradelor de libertate n acest caz se calculeaz" dup" formula: df = ( j #)(k #) unde j reprezint" num"rul de rnduri ale tabelului n care sunt dispuse frecven$ele !i k reprezint" num"rul de coloane. In acest caz df = 4. n tabelul cu valori critice pentru 2 (Anexa 3) observ"m c" unui nivel de probabilitate de 5% !i 4 grade de libertate i corespunde valoarea 9,488, valoare mai mic" dect valoarea calculat" a lui 2 . n aceast" situa$ie vom spune c" ipoteza de nul a independentei dintre vrst" !i preferin$a pentru schimbarea modului de alocare a veniturilor se respinge, cu o probabilitate de eroare de 0,05 (sau pentru un nivel de semnificatie de 5%). 6.2 Intensitatea rela$iilor dintre variabilele calitative n sec$iunea anterioar" am v"zut cum putem testa ipoteza existen$ei unei rela$ii (de asociere) ntre dou" variabile calitative. Testul 2 ne ofer" ns" informa$ii numai despre existen$a/inexisten$a unei rela$ii de asociere ntre dou" variabile, dar nu !i despre intensitatea respectivei rela$ii, atunci cnd ea exist". Pentru a r"spunde la ntrebarea "Ct de puternic" e rela$ia de asociere dintre dou" variabile?" avem nevoie de m"suri specifice. Dou" dintre acestea vor fi prezentate n sec$iunea care urmeaz". Cazul variabilelor nominale - coeficientul * (lambda) S" ne ntoarcem la datele din Tabelul 6.# !i s" presupunem de aceast" dat" c" nu cunoa!tem dect distribu$ia marginal" a atitudinii fa$" de schimbarea modului de alocare a bugetului (cu alte cuvinte nu !tim dect c" 200 de indivizi sunt pentru, 220 sunt mpotriv", iar #80 sunt nehot"r$i). Dac" vom ncerca s" prezicem atitudinea unui individ oarecare, vom spune fire!te c" repsectivul individ va fi mpotriva schimb"rii modului de alocare a bugetului, deoarece cu o astfel de predic$ie avem cele mai reduse !anse de a gre!i. Cu alte cuvinte, ne-am bazat predic$ia pe frecven$a modal" (cea mai mare frecven$"). n cazul n care am face o astfel de afirma$ie pentru fiecare din cei 600 de indivizi, predic$ia noastr" ar fi corect" pentru 220 dintre ei (37%), !i fals" pentru ceilal$i 380. S" presupunem acum c" la un moment dat primim o informa$ie n plus, !i anume distribu$ia atitudinilor fa$" de schimbarea modului de alocare a bugetului n func$ie de grupele de vrst" de care apar$in indivizii (adic" exact informa$ia prezentat" n Tabelul 6.#). S" zicem c" vom considera ca plauzibil" ipoteza n care atitudinile fa$" de modificarea modului de alocare a bugetului sunt dependente de grupa de vrst" a individului. n acest caz, variabila vrst" se va numi variabil" independent", iar atitudinea fa$" de schimbarea modului de alocare a bugetului se va numi variabil" dependent". S" zicem acum c" vom repeta ra$ionamentul de mai sus (predic$ia atitudinii unui individ pe baza frecven$ei modale) pentru fiecare grup" de vrst" n parte. Vom avea deci, din nou, un num"r de predic$ii corecte !i un num"r de predic$ii eronate. Coeficientul * reprezint" tocmai propor!ia cu care se reduce num"rul de erori prin introducerea variabilei independente. S" calcul"m acum + pentru datele din Tabelul 6.#:
A!a cum am ar"tat, n absen$a variabilei independente, numarul de erori e# a fost 380. S" vedem acum cte erori am facut prezicnd variabila dependent" pe baza valorilor variabilei independente (pentru a u!ura urmarirea calculelor, am copiat nc" o dat" mai jos datele Tabelului 6.#):
Tabelul 6.# Rela$ia dintre dou" variabile categoriale Frecven$e observate Da Nu cei cu vrsta sub 25 ##0 40 cei cu vrst" ntre 26 !i 45 de ani 40 #00 cei cu varsta peste 45 de ani 50 80 Total 200 220
Nu !tiu 30 60 90 #80
Total #80 200 220 600
pentru grupa de vrst" sub 25 de ani, vom prezice corect pe baza frecven$ei modale n ##0 cazuri, !i vom face erori n 70 de cazuri. pentru grupa de vrst" 26 - 45 de ani, vom prezice corect pe baza frecven$ei modale n #00 cazuri, !i vom face erori n alte #00 de cazuri. pentru grupa de vrst" peste 45 de ani, vom prezice corect pe baza frecven$ei modale n 90 cazuri, !i vom face erori n #30 de cazuri.
Deci totalul erorilor f"cute este e2 = 70 + #00 + #30 =200. S" l calcul"m acum pe lambda, dup" o formul" utilizat" !i pentru calculul altor m"suri ale asocierii !i cunoscut" sub numele de "reducere propor!ional" a erorii":
e# e2 380 200 = = 0,47 e# 380
Coeficientul + poate lua, prin modul de construc$ie numai valori ntre 0 !i #, 0 nsemnnd absen$a oric"rei rela$ii ntre variabile, adic" independen$", iar # nsemnnd intensitate maxim" a asocierii (asociere puternic"). El este o m"sur" asimetric" (avem o variabil" independent" pe baza c"reia se fac predic$ii !i o variabil" dependent", ale c"rei valori sunt prezise), ns" exist" formule de calcul !i pentru varianta simetric" a acestui coeficient. Avantajul lui const" n modul relativ u!or !i intuitiv de calcul. Principalul dezavantaj al acestei m"suri este faptul c" n condi$iile n care o categorie a unei variabile con$ine un num"r foarte mare de indivizi, + poate fi egal cu 0 chiar dac" cele dou" variabile nu sunt independente. Cazul variabilelor ordinale
n cazul variabilelor ordinale, a!a cum am v"zut n introducerea acestui manual, exist" posibilitatea de ordonare a valorilor variabilelor, !i n consecin$" exist" posibilitatea de a da ranguri indivizilor n func$ie de valorile pe care ace!tia le au pentru o variabil". M"surile Ca urmare, n analiza acestui tip de variabile vom putea vorbi de un semn al asocierii (sau sensul asocierii). M"surile de asociere a variabilelor ordinale pot lua valori cuprinse ntre -# !i #. La modul general vorbind, o m"sur" a asocierii dintre dou" variabile ordinale va fi pozitiv" dac" un individ cu un rang mare pentru variabila X
tinde s" aib" un rang mare !i pentru variabila Y, iar indivizii cu ranguri mici pe variabila X au de asemenea ranguri mici !i pentru Y. asocierea negativ" apare atunci cnd indivizii cu rang mare pentru variabila X tind s" aib" ranguri mici pentru Y !i invers. Dac" o m"sur" a asocierii dintre dou" variabile ordinale ia valoarea 0, atunci vom spune c" cele dou" variabile sunt independente. Cu ct o rela$ie de asociere ntre dou" variabile ordinale va fi mai puternic", cu att m"sura asocierii va fi mai mare n valoare absolut" (mai aproape de #). n cele ce urmeaz" ne vom rezuma la a prezenta cteva no$iuni de baz" care se refer" la m"surile de asociere ntre variabile ordinale !i la a ar"ta modul de calcul pentru o astfel de m"sur". O pereche de observa$ii se nume!te concordant" dac" individul care are un rang mai nalt pe o variabil" are un rang mai nalt !i pe a doua variabil". O pereche de observa$ii se nume!te discordant" dac" individul care are un rang mai nalt pe o variabil" are un rang mai cobort pe cealalt" variabil". S" presupunem c" avem 4 elevi, ierarhiza$i dup" calificativele la dou" materii: Elevii A B C D Materia X Foarte bine Bine Satisf"c"tor Suficient Materia Y Bine Foarte bine Satisf"c"tor Suficient
Exerci$ii !i probleme #. ntr-un studiu asupra modului n care ocupa$ia se asociaz" cu educa$ia, s-a realizat urm"torul e!antion aleator de 500 de b"rba$i anagaja$i.
Educa$ia 4 sau mai mul$i ani de liceu (incluznd !i formarea voca$ional") Mai pu$in de patru ani de liceu Func!ionari #94 #8 Ocupa$ia Muncitori n Angaja!i n fabric" servicii #46 27 79 #8 Agricultori #0 8
a. Explicita$i n cuvinte ipoteza de nul H0 b. Calcula$i 2 !i valoarea p pentru H0 2. Se da tabelul:

sex femei barbati total somaj da nu 30% 30% 30% total 70% 70% 70% 100% 100% 100%
S" ncerc"m acum s" num"r"m perechile concordante !i perechile discordante, !i pentru aceasta s" ncepm cu toate perechile de observa$ii pe care le putem forma cu elevul A: Acestea sunt: perechea AB (discordant", deoarece A are un rang mai nalt dect B pe variabila X, dar un rang mai cobort dect B pe variabila Y), perechea AC (concordant") !i perechea AD (concordant"). S" trecem acum la perechile lui B: Acestea sunt BC (concordant") !i BD (concordant"). n fine, trecem acum la perechile lui C, adic" la CD (concordant"). n total am avut 6 perechi, din care una discordant" iar 5 concordante. S" calcul"m acum o m"sur" simpl" de asociere ntre cele dou" variabile (calificativele la materiile X !i Y), numit" coeficientul ,a al lui Kendall:
Care din propozitiile urmatoare sunt adevarate? #. 30% dintre femei sunt somere 2. 30% dintre someri sunt barbati 3. 70% din totalul populatiei se afla in somaj 4. probabilitatea ca o persoana din populatie sa fie in somaj este de 0.3 nici una dintre acestea 3. Dac" variabilele nominale x !i y nu sunt independente statistic atunci este de a!teptat ca: #. Distribu$iile condi$ionate ale lui y func$ie de x s" fie diferite de distribu$ia marginal" a lui y 2. Distribu$iile condi$ionate ale lui y , func$ie de x s" fie egale ntre ele 3. Corela$ia Bravais-Pearson dintre x !i y s" fie semnificativ diferit" de 0 4. Statistica test chi-patrat s" difere semnficativ de 0 5. R"spunsurile #,2,3,4 s" fie incorecte
a =
nc nd nt
unde nt este num"rul total de perechi nc este num"rul de perechi concordante nd este num"rul de perechi discordante n concluzie, pentru exemplul nostru (care este unul pur didactic), ,a = 4/6 = 0,66. Aceasta a fost practic cea mai simpl" ilustrare de m"sur" de asociere a dou" variabile ordinale. n practic" ns", lucrurile stau pu$in mai complicat, pentru c" deseori apar ceea ce se numesc ranguri "legate" sau egale. Acest lucru complic" destul de mult calculele !i formulele, ns" principiul r"mne acela!i, al compar"rii num"rului de perechi concordante cu num"rul de perechi discordante.
Capitolul 7 Studiul rela$iilor ntre variabile cantitative

Pentru a oferi explica$ii sau pentru a realiza predic$ii este nevoie, cel mai adesea, s" fie analizate rela$ii ntre dou" sau mai multe variabile: ntre cea a c"rei varia$ie ncerc"m s" o explic"m, numit" !i variabila dependent", !i una sau mai multe variabile independente. S" lu"m ca exemplu cazul unui program de reducere a !omajului care urmeaz" a fi analizat la finalul aplic"rii sale n mai multe localit"$i. ntr-un astfel de studiu, pot fi considerate drept unit"$i de analiz" localit"$ile n care a fost aplicat programul, variabila dependent" este diferen$a dintre rata somajului nainte de aplicarea programului !i rata !omajului dup" terminarea programului (DIF), iar suma alocat" n program unei localit"$i mp"r$it" la num"rul de locuitori (SUM) este una dintre variabilele independente posibile, cu ajutorul c"reia puteam ncerca s" explic"m de ce !omajul a sc"zut mai mult n unele localit"$i dect n altele. Cunoscnd valorile luate de cele dou" variabile, notate DIF !i SUM, putem ncerca s" afl"m mai multe lucruri despre rela$ia care le caracterizeaz": #. Dac" exist" o leg"tur" ntre valorile variabilelor; altfel spus, dac" reu!im s" anticip"m rezultatul programului ntr-o localitate, cunoscnd care a fost suma alocat" din program, mai bine dect n absen$a acestei informa$ii. 2. Care este forma rela$iei, n cazul n care aceasta exist". Sunt mai multe moduri de a descrie forma rela$iilor dintre variabile: acestea pot s" fie liniare, atunci cnd valorile unei variabile tind s" se modifice cu o constant" n condi$iile n care valorile celeilalte variabile se modific" cu o constant"; Rela$iile liniare pot s" difere prin nclina$ia dreptei prin care sunt reprezentate. Rela$iile neliniare pot fi !i ele monotone, adic" pozitive sau negative. n exemplul considerat, este de a!teptat ca rela$ia s" fie pozitiv", adic" unei sume mai mari s" i corespund" o reducere mai accentuat" a !omajului. ns" n plus fa$" de semnul rela$iei--pozitiv" ori negativ"--, este important de !tiut ct de rapid" este varia$ia variabilei DIF atunci cnd variabila SUM !i schimb" valorile. Un program este cu att mai eficient cu ct, n medie, unei aceleia!i cre!teri a variabilei SUM i corespunde o cre!tere mai mare a variabilei DIF. 3. Care este intensitatea rela$iei. Ct de bine putem prezice valorile variabilei dependente atunci cnd le cunoa!tem pe cele ale variabilei independente? 4. Dac" este posibil" generalizarea rezultatelor. Cnd datele disponibile provin de pe un e!antion de localit"$i, poate fi extins rezultatul ob$inut pe aceste date la ntreaga mul$ime de localit"$i cuprins" n studiu? 5. Ct de mult temei avem s" afirm"m c" rela$ia este de tip cauzal. Ar fi posibil ca existen$a unei rela$ii ntre SUM !i DIF s" se datoreze unei a treia variabile, care nu este cuprins" n analiz", !i care le determin" pe amndou". Cum putem stabili dac" sc"derea ratei !omajului s-a datorat programului analizat, sau dac" sc"derea se datoreaz" exclusiv altor factori? Tehnicile statistice prezentate n capitolele anterioare ne permit adesea s" r"spundem unora dintre ntreb"rile formulate mai sus. n exemplul considerat ns", cele dou" variabile au, foarte probabil, un num"r ridicat de valori fiecare, fapt care face dificil studiul rela$iei dintre ele cu ajutorul unui tabel de asociere. O solu$ie este aceea a reducerii num"rului de valori prin recodificare. Astfel, am putea s" includem ntr-o aceea!i categorie, notat" cu "#", toate localit"$ile n care suma cheltuit" ca parte a programului, mp"r$it" la num"rul de locuitori, este ntre 0 !i #000 lei; ntr-o categorie notat" cu "2" ar fi incluse toate localit"$ile pentru care valorarea variabilei SUM este ntre #00# !i 2000 de lei, etc.; n mod similar se procedeaz" !i pentru variabila DIF. Avnd prin recodificare un num"r suficient de mic de categorii, rela$ia dintre cele dou" variabile poate fi analizat" printr-un tabel de asociere. Se pot ob$ine n acest mod, a!a cum s-a v"zut !i n Capitolul 6, informa$ii despre existen$a unei rela$ii ntre variabile, despre forma rela$iei, precum !i despre posibilitatea generaliz"rii de la e!antion la ntreaga mul$ime de localit"$i. Acest procedu are ns" un inconvenient major: o parte a informa$iei ini$iale este ignorat", iar rezultatul analizei este influen$at de modul n care este f"cut" recodificarea. ntrebarea care se pune n mod justificat, !i care nu are un r"spuns satisf"c"tor, este "cum trebuie definite categoriile reduse ale variabilei ini$iale?",
pentru c" evident avem mai multe op$iuni posibile: am putea, de exemplu, include n prima categorie toate localit"$ile pentru care SUM ia valori ntre 0 !i #500, ori cele ntre 0 !i #600. Cazul urm"tor ilustreaz" faptul c" recodificarea unor variabile cantitative cu multe categorii poate s" schimbe rezultatele analizei statistice. Fie X !i Y dou" variabile de raport, avnd cte #0 valori. Fiecare dintre cele dou" variabile este transformat" prin recodific"ri diferite n trei variabile: X#, X2, X3, respectiv Y#, Y2, Y3. Noile variabile au cte 3 valori, iar rela$iile dintre variabilele care provin din X cu fiecare dintre variabilele care provin din Y sunt analizate cu ajutorul unui indicator care corespunde tabelelor de asociere, Lambda. Valorile acestor indicatori sunt reprezentate n urm"torul tabel: Lambda y# 0.00 0.27 0,#0 Lambda y2 0.#8 0.23 0.6# Lambda y3 0.45 0.3# 0.67
x# x2 x3
Se observ" n tabel cum recodific"rile diferite ale variabilelor X !i Y conduc la varia$ii importante de intensitate a rela$iei dintre noile variabile, ob$inute prin transformarea lui X !i Y. Astfel, Lambda are valoarea 0,00 pentru rela$ia dintre X# !i Y#, !i valoarea 0,67 pentru rela$ia dintre X3 !i Y3. Concluzia care rezult" de aici este c" analiza rela$iilor dintre variabile cantitative nu si g"se!te o rezolvare satisf"c"toare prin aplicarea unor procedee specifice variabilelor calitative. Este nevoie s" fie aplicate tehnici statistice adaptate pentru variabilele cantitative, !i care folosindu-se de informa$ia descris" de aceste variabile, mai bogat" dect n cazul celor calitative, pot oferi un r"spuns mai complet ntreb"rilor formulate mai sus: exist" rela$ii, ce form" au, ce intensitate, pot fi generalizate, sunt cauzale? Procedeul cel mai des folosit n cazul n care variabilele sunt cantitative este cel al analizei de regresie. n cazul bivariat, cnd este studiat" rela$ia dintre o variabil" dependent" !i o singur" variabil" independent", regresia se nume!te regresie simpl%. O alt" denumire, echivalent", este cea de regresie bivariat". Atunci cnd este studiat efectul simultan al mai multor variabile independente asupra variabilei dependente, regresia se nume!te regresie multipl%. Denumirile echivalente sunt de regresie multivariat", sau regresie multiliniar". n sec$iunea care urmeaz" voi ar"ta cum sunt definite modelele de regresie linear" simpl", n ce fel sunt interpeta$i coeficien$ii care descriu aceste modele, !i n ce mod poate fi evaluat" eficien$a lor de ansamblu n descrierea rela$iilor dintre perechi de variabile. Ultima sec$iune a acestui capitol va prezenta, ntr-o structur" similar", modelele de regresie multipl". 7.# Regresia linear% simpl% Fiind cunoscute valorile a dou" variabile cantitative pentru o mul$ime de unit"$i de analiz", este posibil s" reprezent"m complet aceast" informa$ie printr-un grafic. Variabilei dependente i corespunde axa vertical", iar celei independente i corespunde axa orizontal". Fiecare unitate de analiz" este reprezentat" printr-un punct care se afl" la o distan$" de axa vertical" propor$ional" cu valoarea variabilei independente luat" de acea unitate, !i la o distan$" de axa orizontal" propor$ional" cu valoarea variabilei dependente. Astfel, n exemplul precizat anterior, dac" variabila DIF are valorile exprimate n valori procentuale, iar variabila SUM este exprimat" n mii de lei, o localitate n care s-au cheltuit 5000 de lei pe cap de locuitor, !i n care !omajul a sc"zut cu dou" procente, se afl" cu dou" unit"$i deasupra axei orizontale !i la cinci unit"$i n dreapta axei verticale. Foarte adesea, informa$ia cuprins" ntr-un grafic de acest tip este prea bogat" pentru a putea fi analizat" direct. La fel cum n cazul unei singure variabile este util s" reducem informa$ia reprezentat" de distribu$ia sa la o singur" valoare, cea a tendin$ei centrale, exprimat" prin medie, median" sau un alt indicator, !i n cazul consider"rii simultane a dou" variabile ar fi de folos s" putem descrie ntr-un mod ct mai succint rela$ia dintre acestea. O solu$ie simpl" este aceea de a nlocui norul de puncte de pe grafic printr-o singur" dreapt" care s" i aproximeze forma ct mai bine. n sec$iunea care urmeaz", 7.#.#., vom ar"ta cum poate fi construit" o astfel
de dreapt", numit" dreapt" de regresie. Vom prezenta apoi interpretarea coeficien$ilor prin care este descris" dreapta de regresie. n sec$iunea 7.#.2. vor fi defini$i indicatori prin care poate fi apreciat gradul de acurate$e prin care o dreapt" de regresie descrie rela$ia dintre dou" variabile. n ultima sec$iune a acestei p"r$i, 7.#.3., va fi discutate una dintre condi$iile mai importante care trebuie ndeplinit" pentru ca modelele de regresie s" poat" fi aplicate. 7.#.# Construc$ia dreptei de regresie Fie un grafic pe care sunt reprezenta$i mai mul$i indivizi statistici, n func$ie de valorile a dou" variabile cantitative, X !i Y, !i fie o dreapt" dus" la ntmplare pe acest grafic. Pozi$ia fiec"rui individ i este fixat" de valorile pe care iau cele dou" variabile, notate cu xi !i yi. Pozi$ia dreptei n raport cu cele dou" axe ale graficului este complet precizat" de urm"toarea rela$ie: Y' = a + bX. (# ) Rela$ia exprim" faptul c" orice punct k de pe dreapt", are coordonatele xk !i y'k astfel nct y'k = a + bxk. Mai mult, orice punct de pe grafic pentru care are loc rela$ia anterioar" ntre coordonatele sale, se afl" pe dreapt". De aici rezult" faptul c" orice dreapt" este identificat" complet prin doar dou" valori, cea a constantei a, !i cea a constantei b. Dac" ar fi posibil" nlocuirea unui nor de n puncte, care ofer" o reprezentare precis" a n perechi de valori, printr-o dreapt" care s" indice forma de ansamblu a mul$imii de puncte, atunci ar fi ob$inut" o simplificare remarcabil" a modului n care este descris" rela$ia. n Figura 7.# sunt reprezentate localit"$ile din exemplul discutat anterior, caracterizate de valorile variabilei dependente DIF, respectiv a variabilei independente SUM. Pe grafic este trasat" !i o dreapt" (d) precum !i o mul$ime de segmente verticale, fiecare fiind construit astfel nct s" uneasc" punctul care corespunde unei localit"$i cu dreapta (d). Figura 7.#. Reprezentarea grafic" a variabilelor DIF !i SUM, care iau valori pentru 25 de localit"$i.
Dac" pentru dou" variabile cantitative am putea construi o dreapt" astfel nct toate punctele care corespund unit"$ilor de analiz" s" se afle pe dreapt", atunci dreapta ar oferi o descriere complet" a formei norului de puncte. ntr-un astfel de caz, fiecare dintre segmentele verticale dintre puncte !i dreapt" ar avea lungimea zero. Este clar c" n exemplul considerat aici nu exist" o astfel de dreapt", care s" descrie perfect rela$ia dintre cele dou" variabile. Ar fi de dorit atunci, s" fie determinat" acea dreapt" pentru care lungimile segmentelor verticale dintre puncte !i dreapt" s" fie ct mai apropiate de zero. Prin defini$ie, dreapta cu proprietatea c" p"tratele lungimilor segmentelor dintre puncte #i dreapt" au suma minim" este numit" dreapt! de regresie. Datorit" modului n care este definit", se spune despre dreapta de regresie c" satisface criteriul celor mai mici p"trate. Se poate demonstra matematic faptul c" pentru dou" variabile date exist" o dreapt" unic" de regresie, iar aceasta poate fi determinat". Cu alte cuvinte, oricare ar fi dou" variabile X !i Y, care iau valori pentru n unit"$i de analiz", pot fi deteminate n mod unic constantele a !i b astfel nct dreapta Y' = a + bX, (2)
s" ofere o cea mai bun" aproximare a rela$iei dintre X !i Y--din perspectiva criteriului celor mai mici p"trate--, dintre toate dreptele posibile. Y' este o variabil" care se ob$ine din intersec$ia segmentelor verticale care trec prin punctele (xi, yi) de pe grafic !i dreapta de regresie, iar punctele de intersec$ie sunt de forma (xi, y'i). Datorit" modului n care este construit" variabila Y', valorile sale sunt identice cu ale lui Y atunci cnd punctele sunt pe o dreapt", !i sunt cu att mai diferite de cele ale lui Y cu ct punctele sunt mai dispersate n jurul dreptei de regresie. Un alt mod de a scrie expresia (2) este urm"torul: Y = a + bX + U, unde U = Y - Y'. U este o variabil" care pentru fiecare unitate de analiz" ia o valoare egal" cu lungimea segmentului vertical dintre punctul care i corespunde pe grafic !i dreapta de regresie. n exemplul anterior, a = -5,86, b = 0,67. Ecua$ia dreptei de regresie este DIF = - 5,86 + 0,67SUM. 7.#.2 Interpretarea coeficien$ilor dreptei de regresie Coeficientul b este numit panta asociat% variabilei X !i, a!a cum se poate vedea din expresia dreptei de regresie, reprezint" num"rul de unit"!i cu care variaz" Y' atunci cnd X cre#te cu o unitate: dac" avem dou" puncte (x#, y'#) !i (x2, y'2), x2 = x# + #, !i ambele puncte sunt pe dreapta Y' = a + bX, atunci, nlocuind n formula dreptei se ob$ine y'2 = a + bx2 = a + b(x# + #) = a + bx# + b = y'# + b. n exemplul discutat anterior, valoarea lui b indic" faptul c" o cre!tere a sumei cheltuite pe cap de locuitor cu o mie de lei conduce n medie la o cre!tere a diferen$ei cu 0,67, adic" la o sc"dere a ratei !omajului cu 0,67 de puncte procentuale.
Semnul plus al lui b indic" faptul c" ntre X !i Y are loc o rela$ie pozitiv"--adic" valorilor mici ale lui X tind s" le corespund" valori mici ale lui Y, iar valorilor mari ale lui X tind s" le corespund" valori mari ale lui Y--, n timp semnul minus semnaleaz" prezen$a unei rela$ii negative. bi = 0 se ob$ine atunci cnd forma norului de puncte nu poate fi aproximat" printr-o dreapt". O situa$ie de acest gen apare atunci cnd cele dou" variabile estimeaz" fenomene independente, f"r" leg"tur", dar !i n cazul n care variabilele sunt ntr-o rela$ie a c"rei form" nu este liniar" (de exemplu, atunci cnd punctele sunt pe o curb" n form" de parabol"). Cele dou" cazuri sunt ilustrate n Figura 7.2., respectiv n Figura 7.3. Figura 7.2. Exemplul a dou" variabile cantitative ntre care nu are loc o rela$ie.
Astfel, dac" SUM din exemplul anterior ar fi exprimat n unit"!i monetare / num"rul de locuitori, adic" ntr-o unitate de m"sur" de o mie de ori mai mic" dect cea din exemplu, b# ar fi de #000 de ori mai mic. n general, se poate ar"ta c", dac" n loc de X avem cX + d, atunci n loc de b avem b / c. Din aceast" proprietate rezult" faptul c" panta de regresie nu poate fi folosit" drept un indicator al intensit"$ii rela$iei dintre variabila dependent" !i variabila independent". Constanta a din ecua$ia dreptei de regresie indic" valoarea y' pe care o ia un punct pentru care x = 0 !i care este aflat pe dreapt". 7.#.3 Indicatori ai intensit%$ii rela$iei dintre dou% variabile cantitative: coeficientul de determina"ie !i coeficientul de corela"ie Pearson Dreapta de regresie asociat" rela$iei dintre dou" variabile cantitative ofer" o imagine sintetic" despre forma acestei rela$ii, ns" nu ofer" informa$ii despre ct de asem"n"toare este aceast" imaginea simplificat" cu cea real". Am ntlnit o situa$ie similar" n cazul mediei: acest indicator descrie succint tendin$a central" a distribu$iei unei variabile cantitative, ns" nu cuprinde informa$ii despre ct de complet" este aceast" reprezentare. n acest caz, exist" un indicator care arat" ct de dispersate sunt valorile luate de variabil" n jurul mediei: abaterea standard. Cu ct valorile sale sunt mai mici cu att media descrie mai precis distribu$ia variabilei. n Figura 7.4. !i n Figura 7.5. sunt reprezentate rela$iile dintre cte dou" perechi de variabile cantitative. n ambele cazuri ecua$ia dreptei de regresie este aceea!i: Y = 2 - 2,5 X. Se observ" ns" c" unit"$ile de analiz" din Figura 7.5. sunt mai dispersate n raport cu dreapta de regresie dect cele din Figura 7.4. Acest fapt arat" c" dintre cele dou" drepte, cea din Figura 7.4. ofer" reprezentarea cea mai precis" a rela$iei dintre perechea de variabile c"rora le corespunde.
Figura 7.3. Exemplul a dou" variabile ntre care exist" o rela$ie (de forma Y' = X2) care nu poate fi aproximat" printr-o dreapt" de regresie.
Figura 7.4. Distribu$ia a dou" variabile cantitative !i dreapta lor de regresie (A).
20
10
-10
Y1
-20 -3 X1 -2 -1 0 1 2 3
Coeficientul b are urm"toarea proprietate important": valoarea sa depinde de unit"!ile de m"sur" ale celor dou" variabile.
Figura 7.5. Distribu$ia a dou" variabile cantitative !i dreapta lor de regresie (B).
20
7.#.4 Problema distribu$iilor non-normale Pentru a putea studia rela$ia dintre dou" variabile cu ajutorul analizei de regresie este necesar ca acestea s" fie de tip cantitativ, adic" de interval sau de raport. n plus, exist" o alt" cerin$" care trebuie respectat" pentru ca rezultatele aplic"rii regresiei s" poat" fi interpretate n mod corect: distribu!ia fiec"reia dintre cele dou" variabile trebuie s" fie de tip normal (gaussian), sau, cel pu!in, s" nu se abat" n mod substan!ial de la aceast" form". Voi ilustra printr-un exemplu care sunt problemele care apar atunci cnd aceast" cerin$" nu este respectat": Presupunem c" avem date despre propor$ia cet"$enilor care au o p"rere foarte bun" despre calitatea drumurilor din localitatea n care locuiesc !i despre num"rul de locuitori din acea localitate. Datele (fictive) sunt reprezentate n Figura 7.6. Se observ" c" ambele variabile au distribu$ii asimitetrice iar unit"$ile de analiz" sunt concentrate mai mult la exteme dect n jurul unor valori centrale. Acest fapt este cel mai clar n ceea ce prive!te num"rul de locuitori, unde exist" o localitate cu o valoare mult diferit" de a celorlalte. Reprezentarea grafic" a dreptei de regresie, precum !i valorile lui r !i ale lui R2 indic" existen$a unei rela$ii de semn pozitiv ntre cele dou" variabile: r = 0,48, iar R2 = 0,23.
10
-10
Y2
-20 -3 X2 -2 -1 0 1 2 3
Puterea explicativ" a unui model de regresie simpl" poate fi evaluat" cu ajutorul mai multor indicatori. Coeficientul R2, numit coeficient de determina$ie, este definit de urm"toarea formul":
R2 =
(Y 'Y ) (Y Y )
2 2
Num"r"torul expresiei reprezint" varia$ia lui Y care este "explicat"" de ecua$ia de regresie, n timp ce valoarea de la numitor este egal" cu varia$ia total" a lui Y. Deci, R2 indic" propor$ia din varia$ia lui Y care este "explicat"" de variabila independent". Din modul n care este definit rezult" c" R2 poate s" ia valori ntre 0 !i #. R2 este egal cu # atunci cnd distribu$ia punctelor se face dup" o dreapt". Valoarea sa este zero n situa$ii cum sunt cele ilustrate n Figura 7.2. !i n Figura 7.3., adic" atunci cnd distribu$ia punctelor nu poate fi aproximat" printr-o dreapt". n general, cu ct valorile lui R2 sunt mai apropiate de #, cu att rela$ia dintre cele dou" variabile este mai intens" iar reprezentarea sa grafic" este mai apropiat" de o dreapt". n exemplul din sec$iunea anterioar" R2 = 0,53. R2 care corespunde rela$iei reprezentate n Figura 7.4. are valoarea 0,95, n timp ce R2 din Figura 7.5. are valoarea 0,58. Un alt indicator al intensit"$ii rela$iei dintre dou" variabile cantitative este coeficientul de corela$ie Pearson, notat cu r !i definit prin urm"toarea formul": r = b X / Y. X !i Y reprezint" abaterea standard a variabilei X, respectiv abaterea standard a variabilei Y. Coeficientul de corela$ie are dou" propriet"$i din care poate fi dedus !i modul s"u de interpretare: #. r2 = R2 --coeficientul de corela$ie Pearson ridicat la p"trat este egal cu coeficientul de determina$ie. 2. r are acela!i semn cu b, deoarece cele dou" abateri standard din defini$ia sa au ntotdeauna semn pozitiv. Astfel, din proprietatea (#) rezult" c" r ia valori n intervalul [-#, #], iar valorile extreme sunt luate n acela!i situa$ii n care R2 ia valoarea #: atunci cnd rela$ia dintre cele dou" variabile cantitative este de intensitate maxim" !i punctele care reprezint" grafic unit"$ile de analiz" sunt distribuite pe o dreapt". n mod similar, r ia valoarea 0 atunci cnd R2 este nul, adic" n situa$iile n care distribu$ia unit"$ilor de analiz" nu poate fi aproximat" printr-o dreapt" (Figurile 2. !i 3. ilustreaz" situa$ii n care r este 0). Din proprietatea (2) rezult" c" r ia valori pozitive atunci cnd dreapta de regresie are o nclina$ie ascendent" de la stnga spre dreapta, !i valori negative atunci cnd inclina$ia este descendent".
proportia celor multumiti
Figura 7.6. Rela$ia dintre m"rimea localit"$ii !i propor$ia locuitorilor care au o p"rere foarte bun" despre starea drumurilor din localitate.
.5
.4
.3
.2
.1
0.0 0 100000 200000 300000 400000
numarul de locuitori
Privind ns" graficul, se observ" c" dreapta de regresie nu aproximeaz" corect distribu$ia localit"$ilor pe grafic, ntruct nu exist" o tendin$" general" ca localit"$ile mai mari s" aib" propor$ii mai mari de cet"$eni mul$umi$i de starea drumurilor dect localit"$ile mai mici. Panta ascendent" a dreptei de regresie, precum !i valoarea pozitiv" a lui r, sunt urmarea includerii n analiz" a localit"$ii care are o popula$ie mult
mai mare dect a celorlalte (3#0000 locuitori, n timp ce urm"toarea localitatea ca m"rime are 47000). Dac" aceast" localitate este exclus", se ob$in valori pentru b !i R2 foarte aproape de zero: b = -0,05#, R2 = 0,003. 7.2 Regresia linear% multipl%
1.5
1.0
.5
rata somajului (2) - rata somajului (1)
Modelul de regresie simpl" este folosit pentru a descrie rela$ia dintre dou" variabile cantitative. n cazul n care sunt disponibile date despre mai mul$i factori cu poten$ial explicativ, iar ace!tia sunt estima$i prin variabile cantitative, este de dorit ca analiza s" cuprind" simultan toate variabilele !i nu doar dou" dintre acestea. Utilizarea regresiei simple ntr-un astfel de caz, prin ignorarea unora dintre variabilele independente, ori prin aplicarea succesiv" pentru fiecare dintre variabilele independente, poate s" conduc" la rezultate eronate. Exemplul urm"tor ilustreaz" o situa$ie de acest tip. S" presupunem c" n evaluarea unui program prin care s-a urm"rit reducerea !omajului se cunoa!te varia$ia ratei !omajului (DIF), suma cheltuit" raportat" la num"rul de locuitori (SUM), !i, n plus, fa$" de exemplu similar descris n sec$iunea precedent", fiecare localitate este descris" de un indicator global al calit"$ii administr"rii programelor locale, altele dect cel evaluat aici. Acest din urm" indicator, notat CALIT, este de tip cantitativ, si are trei valori: # desemneaz" un nivel sc"zut, 2 un nivel mediu, iar 3 un nivel ridicat al calit"$ii administr"rii programelor. n Figura 7.7 sunt reprezentate localit"$ile cuprinse n studiu, n func$ie de cele trei variabile. La fel ca !i n Figura 7.8 valorile lui DIF sunt pe axa vertical", iar cele ale lui SUM pe axa orizontal". Marcarea localit"$ilor pe grafic se face prin simboluri grafice diferite n func$ie de valorile celei de a treia variabile. Analiza leg"turii dintre DIF !i SUM printr-o regresie simpl" conduce la concluzia c" rela$ia dintre cele dou" variabile este direct", !i destul de intens" (R2 = 0,53). Dac", ns", rela$ia dintre cele dou" variabile este studiat" separat pe grupele de localit"$i desemnate prin valorile celei de-a treia variabile, concluzia este diferit". n locul unui singur model, vom urm"ri parametrii a trei modele de regresie simpl", cte unul pentru fiecare dintre valorile variablei CALIT. Valorile lui R2 care se ob$in sunt 0,006 pentru CALIT = #, 0,005 pentru CALIT = 2, !i 0,004 pentru CALIT = 3. Cele trei valori indic" faptul c" intensitatea rela$iilor dintre DIF !i SUM pentru fiecare dintre cele trei categorii de localit"$i este foarte aproape de zero. Altfel spus, cnd sunt comparate localit"$i care sunt asem"n"toare din punctul de vedere al performan$ei administr"rii de programe, cheltuirea unei sume mari pe cap de locuitor nu este asociat", n medie, unei sc"deri mai accentuate a ratei !omajului dect n localit"$ile n care suma a fost mai mic". Acest rezultat indic", contrar celui ob$inut din analiza doar a primelor dou" variabile, c" programul de reducere a !omajului nu a fost eficient. Figura 7.7. Rela$ia dintre variabilele DIF, SUM, !i CALIT pentru 25 de localit"$i.
0.0
-.5
-1.0
Calit. adm. 3.00
-1.5
2.00
-2.0
1.00 Toate localit.

6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0
-2.5 6.0
suma cheltuita / nr. de locuitori
Problema general" pe care ncerc"m s" o rezolv"m prin modelare statistic" poate fi redus" adesea la urm"toarea exprimare: B este un fenomen care trebuie explicat iar A1, A2, ... sunt factori explicativi poten!iali; Care este efectul independent al fiec"rui Ai asupra lui B? Care este ierarhia importan!ei factorilor A1, A2, ... n explicarea lui B? Exemplul de mai sus arat" faptul c" numai prin modele care cuprind simultan toate variabilele relevante pentru fenomenul studiat poate fi evaluat efectul independent al fiec"reia. Modelele multivariate cele mai simple !i de aceea cel mai usor de interpretat sunt cele de regresie multipl". Vom ar"ta modul n care acestea sunt definite (7.2.#), felul n care pot fi interpretate rela$iile dintre variabilele cuprinse n model (7.2.2.) !i cum poate fi evaluat" eficien$a de ansamblu a modelelor (7.2.3). n sec$iunea (7.2.4.) vor fi discutate modalita$ile de generalizare a rezultatelor ob$inute pe un e!antion iar n sectiunea (7.2.5) va fi descris" problema multicoliniarit"$ii. n sec$iunea (7.2.6) va fi prezentat" o extindere a modelelor de regresie pentru variabile nominale !i ordinale. 7.2.# Definirea modelelor de regresie multipl% Fie Y, X#, X2, ..., Xm, variabile cantitative. Y este variabila a c"rei varia$ie incerc"m s" o explic"m iar X#, X2,..., Xm, sunt variabilele independente. Putem scrie urm"toarea rela$ie ntre variabile: Y = a + b#X# + b2X2 + ... + bmXm + U (3)
unde a, b#, b2, ..., bm sunt numere iar U este o variabil". Se observ" c" pentru orice combina$ie de numere a, b#, b2, ..., bm, rela$ia (3) este asev"rat", pentru c" acestea mpreun" cu valorile lui Y, X#, X2, ..., Xm determin" U.
Figura 7.8. Reprezentarea grafic" n trei dimensiuni a unor cazuri caracterizate de trei variabile.
Y
n care a, b#, b2, ..., bm sunt determinate n urma aplic%rii principiului celor mai mici p%trate este un model de regresie multipl%. Dac" avem o singura variabil" independent" (m=#) ecua$ia (5) descrie un model de regresie simpl". n exemplul de mai sus, planul care aproximeaza cel mai bine - dup" criteriul celor mai mici p"trate -, distribu$ia punctelor din spa$iu asociate celor 25 de unit"$i de analiz" (localit"$i cuprinse n studiu) are ecua$ia DIF = -2,6# + 0,05 SUM + #,00 CALIT.
(X11,X21,Y1)
(X12,X22,Y2) (X13,X23,Y3) (X14,X24,Y4) Y5 (X15,X25,Y5) X15 X25
7.2.2 Interpretarea modelelor de regresie multipl%

X2
X1
Dac" m=2 rela$ia (3) poate fi descris" grafic printr-un desen tridimensional. Fiec"rui individ statistic i corespunde un punct de coordonate (X#,X2,Y) (Figura 7.8.), iar a, b# !i b2 definesc un plan descris de ecua$ia Y' = a + b#X# + b2X2. Variabila U este determinat" de acest plan !i de punctele de forma (X#,X2,Y) ntr-un mod analog cazului cu dou" dimensiuni: valoarea Ui care i corespunde unui individ statistic care a luat valorile X#i, X2i,Yi, este egal" cu lungimea segmentului paralel cu axa OY care are la extremit"$i punctul care i corespunde n spa$iu (X#i,X2i,Yi), respectiv punctul de intersec$ie cu planul (si care are coordonatele (X#i,X2i,Y'i)). Expresia (3) indic" faptul c" Y poate fi exprimat" ca o combina$ie liniar" de X#, X2, ..., Xm, !i o variabil" U numita variabil" rezidual". Dac" fix"m a, b#, b2,..., bm atunci U poate fi exprimat n func$ie de aceste numere !i Y, X#, X2,...Xm: U = Y - (a + b#X# + b2X2 + ... + bmXm) Dac" not"m expresia din paranteza cu Y' atunci U = Y - Y'. Vom alege din mul$imea (infinit") a expresiilor de forma (3) acea combina$ie liniar" pentru care U (determinat din (4)) are valori minime. Pentru c" U este o variabil", atunci cnd expresia (3) se aplic" unui num"r de n indivizi statistici, U este un !ir de n numere. Avem nevoie s" definim un criteriu dup" care variabilele U s" poat" fi comparate astfel nct s" putem alege un U avnd valorile cele mai mici. Principiul folosit pentru modelele de regresie liniar" multipl" este, la fel ca !i n cazul bivariat, cel al celor mai mici p"trate: Unei variabile U i corespunde un num"r u ob$inut din aplicarea formulei u = u#2 + u22 + ... + un2, unde ui este valoarea luat" de U pentru cazul statistic i; este ales U pentru care u este cel mai mic. Din (3) rezult" c" problema este echivalent" cu determinarea valorilor a, b#, b2, ..., bm astfel nct u s" fie minim. Este important de re$inut c" pentru orice num"r de variabile independente m, a, b#, b2, ..., bm sunt determina$i n mod unic de condi$ia de a avea u minim. Ecua$ia Y' = a + b#X# + b2X2 + ... + bmXm, (5) (4)
Coeficientul bi, numit panta asociat" variabilei Xi, reprezint" num"rul de unit"$i cu care variaz" Y' atunci cnd Xi cre!te cu o unitate iar celelalte variabile independente sunt men$inute constante. Altfel spus, bi arat" cum se modific" valoarea a!teptat" a variabilei dependente atunci cnd Xi variaz" iar Xj sunt constante, ji. Deasemenea, n m"sura n care datele satisfac anumite propriet"$i (dintre care un principiu important este cel al distribu$iilor apropiate de cele normale, iar un alt principiu, al multicoliniarit"$ii, va fi discutat n sec$iunea 7.2.5.) este corect s" afirm"m c" bi indic" varia$ia n mediile valorilor lui Y care corespund punctelor de forma (X#,...,Xi,...,Xm) respectiv (X#,...,Xi + #,...,Xm). La fel, a arat" care este media lui Y atunci cnd X# = X2 = ... = Xm = 0. Semnul plus al lui bi indic" faptul c" ntre Xi !i Y are loc o rela$ie pozitiv" n condi$ii de control al efectului celorlalte variabile, n timp ce semnul minus indic" prezen$a unei rela$ii negative. In exemplul anterior, b# = 0,05 arat" c" dac" vom compara dou" localit"$i unde diferen$a dintre sumele cheltuite n program / num"rul de locuitori este #000 lei, !i care sunt identice din perspectiva variabilei CALIT, ne a!tept"m ca, n medie, rata !omajului s" fi sc"zut cu 0,05 puncte procentuale n localitatea n care s-a suma / locuitor a fost mai mare. b2 = #,00 arat" c" pentru aceea!i valoare a lui SUM, localit"$ile cu o evaluare a calit"$ii administr"rii programelor mai bun" cu o unitate au, n medie, o sc"dere mai mare cu o unitate procentual". Aceast" interpretare este consistent" cu rezultatul ob$inut dup" aplicarea de regresii simple pentru fiecare din sube!antioanele definite de CALIT, dar aduce un plus de precizie n exprimarea rela$iilor dintre variabila dependent" !i cele dou" variabile independente. Din interpretarea coeficien$ilor bi se vede cum regresia multipl" permite compararea de perechi de grupe de indivizi statistici care sunt identici din perspectiva tuturor variabilelor independente cu excep$ia unei singure variabile. Diferen$a observat" n valorile variabilei dependente este atribuit" varia$iei n variabila independent" care ia valori diferite pentru grupe diferite. Asemeni pantei pentru cazul bivariat, coeficien$ii modelului de regresie multipl" depind de unit"$ile de m"sur" ale variabilelor !i este adev"rat" proprietatea dac" n loc de Xi avem cXi + d, atunci n loc de bi avem bi / c. (6)
Aceast" proprietate arat" faptul c" panta de regresie nu poate fi folosit" drept un indicator al intensit"$ii rela$iei dintre variabila dependent" !i variabila independent" corespunz"toare, !i nici nu permite ierarhizarea variabilelor independente n func$ie de contribu$ia fiec"reia la explica$ia varia$iei variabilei dependente. Pentru a descrie nu doar forma ci !i intensitatea rela$iilor liniare ntre variabilele independente !i variabila dependent" sunt folosi$i coeficien$ii de regresie standardiza$i. Modul n care sunt defini$i este intuitiv: variabilele Y, X#, X2, ..., Xm sunt standardizate folosind formula scorului z prezentat" n Capitolul #.
Noile variabile, ob$inute n urma aplic"rii formulei, au media egal" cu zero iar abaterea standard egal" cu unitatea. Coeficien$ii de regresie din modelul determinat de variabilele standardizate, se noteaz" n mod obisnuit cu #, 2, ..., m. Aplicnd proprietatea (6) avem urm"toarea formul" pentru coeficien$ii standardiza$i:
i = bi
Xi Y
R2 are proprietatea de a cre!te cu fiecare variabil" care este introdus" n model !i de aceea valorile lui R2 trebuie judecate !i n raport cu num"rul de variabile independente. La limit", este posibil s" avem R2 = # dac" avem un num"r de variabile independente suficient de mare, chiar dac" acestea sunt generate aleator. Concluzia care se desprinde este c" alegerea variabilelor care urmeaz" s" fie incluse n model nu poate fi decis" folosind exclusiv informa$ia de natur" statistic" (chiar dac" exist" procedee complexe prin care putem mbog"$i aceast" informa$ie). Numai prin luarea n considerare !i a unor aspecte de natur" teoretic" poate fi decis" includerea sau eliminarea unor variabile n analiz". S" vedem ce semnifica$ie au valorile extreme pe care le poate lua R2, 0 !i #, pentru c" interpretarea valorilor intermediare este posibil" prin raportarea la situa$iile maximale. R2 este egal cu # atunci cnd valorile lui Y sunt complet determinate de combina$iile liniare ale valorilor variabilelor independente. n cazul bivariat, distribu$ia punctelor se face dup" o dreapt", iar atunci cnd sunt dou" variabile independente, dup" un plan. La fel ca !i n cazul bivariat, R2 = 0 nu indic" n mod necesar absen$a unor rela$ii ntre variabilele independente !i variabila dependent": #. Y poate s" fie determinat" complet de variabilele independente prin rela$ii neliniare iar R2 s" fie egal cu zero. De exemplu, dac"
n cazul bivariat (m = #), # coincide cu coeficientul de corela$ie Pearson. n cazul general, i arat" cu cte abateri standard variaz" Y atunci cnd Xi cre!te cu o abatere standard. Din formul" reiese !i faptul c" i are acela!i semn cu bi, iar i = 0 este echivalent cu bi = 0. Atunci cnd m > # coeficien$ii de regresie standardiza$i au cteva propriet"$i diferite fa$" de cazul bivariat: #. i poate s" ia valori !i n afara intervalului [-#, #]. i n valoare absolut" este supraunitar atunci cnd rela$ia dintre Xi !i Y este foarte intens" !i n plus, exist" o rela$ie liniar" strns" ntre Xi !i cel pu$in una dintre celelalte variabile independente. 2. n timp ce n cazul bivariat U = 0 implic" faptul c" # = +#, atunci cnd m > #, condi$ia U = 0 nu restrnge valorile posibile pentru i. Coeficien$ii de regresie standardiza$i permit ierarhizarea variabilelor independente n func$ie de importan$a pe care o are fiecare n explicarea varia$iei variabilei dependente printr-o rela$ie direct". Sunt necesare dou" preciz"ri privind limitele n utilizarea acestor coeficien$i: #. Dac" ntr-un model teoretic n care X#, X2, ..., Xm sunt variabile independente pentru Y, Xi este o variabil" explicativ" !i pentru unul sau mai multi Xj, ji, atunci modelul de regresie n care Y este variabila dependent" ne permite numai estimarea efectului direct pe care l are Xi asupra lui Y, nu !i a celui mediat de alte variabile din model. De exemplu, variabila care exprim" propor$ia celor care au absolvit liceul din popula$ia unei localit"$i poate avea un efect direct nul asupra num"rului de infrac$iuni pe cap de locuitor (bliceu =0), ns" un efect indirect substan$ial, mediat de o alt" variabil" independent" cuprins" n modelul de regresie multipl" (de exemplu, venitul pe cap de locuitor). 2. Atunci cnd avem dou" modele cu acelea!i variabile, dar care descriu date diferite, coeficien$ii standardiza$i nu sunt comparabili ntre modele dect dac" variabilele care le corespund au dispersii asem"n"toare. De aceea, este de preferat ca n compara$iile dintre popula$ii diferite s" fie folosi$i coeficien$ii nestandardiza$i, dup" ce n prealabil datele au fost transformate astfel nct variabilele Xi s" aib" aceea!i unitate de m"sur" n ambele modele. 7.2.3 Eficien$a unui model de regresie multipl% La fel ca !i n cazul bivariat, puterea explicativ" a unui model multivariat poate fi evaluat" cu ajutorul unor indicatori. Coeficientul R2, numit coeficient de determina$ie multipl%, este definit la fel ca !i atunci cnd avem o singur" variabil" independent" !i are o interpretare similar":
Y =
#0 - X 2 # - X 2 2 ) ,
se ob$ine distribu$ia din Figura 7.9. n care toate punctele sunt pe o suprafata curb" (cele mai multe sunt pe o semisfer"), iar R2 = 0. 2. Mai mult, este posibil s" avem R2 = 0 chiar !i atunci cnd ntre una dintre variabilele independente !i Y exista o rela$ie liniar", n condi$ii de control, ns" forma (panta) acestei rela$ii nu este constant" pe categoriile celorlalte variabile. Figura 7.9. Exemplul unei distribu$ii n spa$iu pentru care variabila dependent" este reprezentat" pe axa vertical" !i R2 = 0.
3,5 3,0 2,5
Y 2,0
1,5 1,0 4 3 2 1 0 -1 -2 -3 X1 3
-1 0 -3 -2 X2
R2 =
(Y * Y ) (Y Y )
Num"r"torul expresiei reprezint" varia$ia lui Y care este "explicat"" de ecua$ia de regresie, n timp ce valoarea de la numitor este egal" cu varia$ia total" a lui Y. Deci, R2 indic" propor$ia din varia$ia lui Y care este "explicat"" de toate variabilele independente din model. Din defini$ie rezult" c" R2 poate s" ia valori ntre 0 !i #. n exemplul din aceast" sec$iune avem R2 = 0,69. Desigur, valorile ridicate ale lui R2 sunt de dorit n locul celor sc"zute pentru c" implic" faptul c" explica$ia este n mai mare m"sur" complet". Totu!i, aceast" afirma$ie necesit" cteva preciz"ri:
Figura 7.#0. Exemplul unei distribu$ii n spa$iu pentru care variabila dependent" este reprezentat" pe axa vertical", au loc rela$ii bivariate cu variabila dependent" de intensitate maxim" !i R2 = 0 pentru modelul multivariat.
12 10 8
SUM CALIT
Y1
6 4 2 0 1,2 8 1,0 ,8 ,6 ,4 4 ,2 0,0 2 6 10 12
Coeficienti ne-standardizati Eroare standard B 0,048 0,212 0,994 0,291
Coeficienti standardizati Beta 0,052 0,786 t 0,229 3,412
Nivel de semnif. stat. 0,820 0,002
Pentru a doua variabil" independent" din exemplu, CALIT, putem respinge ipoteza de nul (p = 0,002<0,05). Un model de regresie multipl" poate fi folosit atit n explica$ie cit !i n predic$ie. Astfel, din modelul anterior rezult" c", n medie, localit"$ile n care ar fi aplicat un program similar cu cel studiat iar suma cheltuit" ar fi de 8000 de lei / locuitor, !i care ar fi evaluate prin scorul 3 pentru calitatea administr"rii programelor, vor avea n medie o sc"dere a ratei !omajului cu o valoare dat" de urm"toarea formul" DIF0 = -2,6# + 0,05 * 8 + #,00 * 3 = 0.79. Mai mult, putem determina cu o probabilitate p intervalul c"ruia i apartine valoarea variabilei DIF pentru care cunoa!tem valorile variabilelor SUM !i CALIT. Acesta este (DIF0 - tn - m - #, 0,975DIF, DIF0 + tn - m - #, 0,975DIF), unde DIF0 este valoarea medie "prezis"" de model, DIF este eroarea standard a valorii estimate DIF0. n exemplul anterior, DIF este cu o probabilitate de 0,95 n intervalul de incredere (0,79 - 2*0,59, 0,79 + 2*0,59) = (-#,57, 3,#5). 7.2.5 Problema multicoliniarit%$ii Situa$ia n care o variabil" independent" poate fi exprimat" ca o combina$ie liniar" perfect" a celorlalte variabile independente, este numit" multicoliniaritate perfect%: De exemplu, dac" variabilele independente sunt X#, X2, !i X3, iar X2 = 3X# + 2X3, se spune c" X2 este exprimat printr-o combina$ie liniar" a variabilelor X# !i X3, iar variabilele X#, X2 !i X3 sunt ntr-o rela$ie de multicoliniaritate perfect". Atunci cnd variabilele independente sunt ntr-o situa$ie de multicoliniaritate perfect" coeficien$ii de regresie nu pot fi determina$i, !i analiza de regresie nu poate fi aplicat". n practic", o situa$ie de acest tip este rar ntlnit" !i este u!or de detectat. n schimb, sunt mai frecvente cazurile de multicoliniaritate ridicat%, n care o variabila independent" poate fi exprimat" aproape perfect printr-o combinatie liniar" a celorlalte variabile independente. Cnd se intimpl" acest lucru, coeficien$ii pot fi determina$i n mod unic ns" sunt instabili: valoarea pantei unui anumit coeficient difer" foarte mult de la un e!antion la altul pentru o anumit" popula$ie. Din acest motiv, att compara$iile ntre valorile coeficien$ilor dintr-un model ct !i compara$iile pentru aceea!i coeficien$i ai unor modele pe e!antioane diferite sunt nesigure. Care este pragul peste care multicoliniaritatea este considerat" a fi ridicat" !i poate s" ridice probleme n interpretarea modelului? O metod" frecvent folosit" const" n realizarea de regresii n care, pe rnd, fiecare dintre Xi este variabil" dependent" iar ceilal$i Xj sunt variabile independente. Valoarea cea mai ridicat" pentru un R2 ob$inut n acest fel este o m"sur" a nivelui de multicoliniaritate din model, iar limita conven$ional" sub care se consider" c" multicoliniaritatea nu afecteaz" interpretabilitatea modelului este 0,8.
X2
X1
7.2.4 Generalizarea rezultatelor ob$inute pe e!antion (inferen$a) Atunci cnd avem la dispozitie date dintr-un e!antion probabilistic !i construim pe acestea un model de regresie multipl" ne punem problema de a generaliza rezultatele ob$inute pentru popula$ia din care provine e!antionul. S" presupunem c" am ob$inut bi > 0 !i dorim s" !tim dac" panta corespunz"toare variabilei Xi este pozitiv" !i la nivelul ntregii popula$ii. Pentru a afla acest lucru vom construi un interval de ncredere n jurul valorii lui bi. Determinarea intervalului de ncredere presupune ndeplinirea de c"tre datele analizate a unor propriet"$i, acelea!i cu condi$iile specifice cazului bivariat, la care se adaug" condi$ia de absen!" a multicoliniarit"!ii (pe care o vom defini !i analiza n sectiunea 6). n continuare, presupunem ndeplinite toate aceste propriet"$i. Pentru un nivel de incredere de 0,95 avem intervalul (bi - tn - m - #, 0,975bi, bi + tn - m - #, 0,975bi), unde n este num"rul de cazuri n e!antion, m este num"rul de variabile independente, num"rul tn - m, 0,975 poate fi g"sit n tabelele pentru distributia t (pentru n - m - # = 60 ia valoarea 2,0, iar pentru un num"r care tinde la infinit ia valoarea #,96) iar bi este eroarea standard a lui bi. Dac" intervalul de ncredere nu l con$ine pe zero atunci ipoteza de nul, adic" afirma$ia conform c"reia ntre Xi !i Y nu avem o rela$ie liniar" direct", poate fi respins" (un mod mai riguros de a exprima ipoteza de nul n cazul regresiei este acela de a spune c" parametrul - coeficientul de regresie din popula$ie - este egal cu 0). O alt" modalitate prin care poate fi realizat" generalizarea valorilor bi const" n determinarea valorii maxime a nivelului de semnificatie statistic" pentru care 0 apar$ine intervalului de ncredere. Dac" nivelul de semnifica$ie observat este mai mic dect 0,05 atunci vom respinge ipoteza de nul, conform regulilor de testare a ipotezelor statistice. Deasemenea, putem calcula valoarea t asociat" lui bi t = bi / bi. Putem g"si n tabelele statistice care este nivelul de ncredere ce corespunde valorii determinate n acest fel. Pentru exemplul din aceast" sec$iune, tabelul urm"tor con$ine coeficien$ii de regresie, coeficien$ii standardiza$i, erorile standard, valorile t !i nivelele de semnificatie statistic".
Atunci cnd este ntlnit" o situa$ie de multicoliniaritate ridicat" sunt mai multe moduri prin care pot fi atenuate efectele ei: #. Este m"rit volumul e!antionului astfel nct ipoteza de nul s" poat" fi respins" pentru o parte dintre coeficien$i. 2. Variabilele care sunt puternic corelate sunt combinate n indicatori unici. De exemplu, ntr-o analiz" n care sec$iile de vot sunt unit"$i statistice, rata de participare n primul tur de scrutin al alegerilor din #996 este o variabil" independent" !i rata de participare n al doilea tur de scrutin al alegerilor din #996 este o alt" variabil" independent", coeficientul de corela$ie ntre cele dou" variabile este r = 0,9#. Un model realizat pe un e!antion ales dintre sec$iile de vot !i n care cele dou" variabile sunt independente va fi afectat de o problem" de multicoliniaritate ridicat". O solu$ie ar fi includerea n analiz" a mediei n locul celor dou" variabile. 3. Sunt realizate mai multe modele fiecare avnd doar o parte dintre variabilele care produc multicoliniaritate. Pentru exemplul anterior, ar nsemna considerarea a dou" modele, unul cu rata de participare pentru primul tur, al doilea cu rata de participare pentru al doilea tur. 7.2.6 Variabile "dummy" Regula general" conform c"reia analiza de regresie poate fi aplicat" numai variabilelor de interval sau de rapoarte are o excep$ie important": toate propriet"$ile pe care le au valorile estimate ale unui model de regresie se p"streaz" !i n cazul n care una sau mai multe dintre variabilele independente sunt dihotomice (adic" variabile care iau dou" valori). Consecin$ele acestei propriet"$i sunt importante deoarece permit nu doar estimarea efectelor unor variabilele care n mod obisnuit sunt dihotomice (exemplu sexul, mediul de rezident" -- urban / rural, etc.) asupra variabilei dependente ci !i includerea ntr-o analiz" de regresie a unor variabile nominale sau ordinale cu mai mult de dou" categorii. Acest lucru este posibil n urma transform"rii unei variabile cu n categorii n n - # variabile dihotomice. Ca o ilustrare, s" presupunem c" datele despre programul de reducere a !omajului din exemplul discutat n aceast" sec$iune cuprind informa$ii despre nc" o variabil" independent": jude$ul n care se afl" localitatea (JUDET). Mai presupunem c" localit"$ile din studiu provin din trei jude$e, notate cu A, B, C. Variabila JUDET este transformat" n dou" variabile dihotomice: JUDET# !i JUDET2. JUDET# este definit" astfel: localit"$ile care sunt n jude$ul A au valoarea #, iar toate celelalte au valoarea 0. JUDET2 este definit" asem"n"tor: localit"$ile care sunt n jude$ul B au valoarea #, iar toate celelalte au valoarea 0. Cunoscnd valorile celor dou" variabile pentru o localitate, !tim sigur n ce jude$ se afl" aceasta, deci informa$ia oferit" de JUDET# !i JUDET2 este egal" cu cea oferit" de variabila ini$ial", JUDET. Prin introducerea celor dou" variabile dihotomice n analiz" putem verifica dac" sc"derea !omajului a fost influen$at" !i de factori care s-au manifestat la nivel de jude$, independen$i de condi$iile de nivel local. Dac" coeficientul b, respectiv beta, care corespunde uneia dintre aceste variabile este diferit de 0, atunci rezult" c" varia$ia variabilei DIF poate fi explicat" mai bine n urma includerii ei. Exerci$ii !i probleme #. Presupunem cunoscute pentru mai multe localit"$i urm"toarele dou" variabile: diferen$a ntre venitul pe cap de locuitor n ultimul an !i cel din anul anterior (VENIT)--m"surat n mii lei--, !i propor$ia celor din localitate care au absolvit cel mult #0 clase (SCOALA)--estimat" n procente. O analiz" de regresie prin care se ncearc" explicarea efectului variabilei SCOALA asupra variabilei VENIT conduce la urm"toarele rezultate: r = -0,55, R2 = 0,30, iar ecua$ia de regresie este VENIT = -7,5 - #2 SCOALA. Care dintre urm"toarele afirma$ii este adev"rat"? a. Localit"$ile n care SCOALA are valori mici au, n medie, valori mai mici ale variabilei VENIT.
b. Localit"$ile n care sunt 20% locuitori care nu au absolvit #0 clase au, n medie, diferen$a ntre veniturile anuale pe cap de locuitor (VENIT) cu #2 mii de lei mai mare dect localit"$ile n care sunt 30% locuitori care nu au absolvit #0 clase. 2. Presupunem c", n plus, avem !i date despre propor$ia locuitorilor care au mai pu$in de #8 ani (MINORI)-- estimat" n procente. Ecua$ia de regresie multipl" care include variabilele SCOALA !i MINORI ca variabile independente este urm"toarea: VENIT = #2 - 4 SCOALA - 0,2 MINORI. SCOALA = -0,08, iar MINORI = -0,25. Care dintre urm"toarele afirma$ii este adev"rat"? a. Variabila MINORI explic" mai pu$in din varia$ia variabilei dependente dect variabila SCOALA. b. Conform modelului de regresie, localit"$ile n care SCOALA = 5, iar MINORI = 20, au avut n medie o sc"dere a venitului pe cap de locuitor cu #2 mii de lei. Pentru urm"toarea ntrebare, s" se ncercuiasc" varianta corect" /variantele corecte: 3. Se da ecuatia de regresie cu coeficienti nestandardizati (n parantez" sunt prezentate erorile standard ale coeficien$ilor de regresie: Y = -40 + 0.72x# + #.29x2 0.#5x3 ES (0.#3) (0.37) (0.#6) R=0.9 Care din coeficientii ecuatiei de regresie difera semnificativ de zero pentru un nivel de semnificatie p=0.05? #. cel al lui x# 2. cel al lui x2 3. cel al lui x3 4. niciunul
Anexa #. Distribu$ia normal" normat" (standard)

Aria dintre 0 !i z
3,4 3,5 3,6 3,7 3,8 3,9
0,49966 0,49977 0,49984 0,49989 0,49993 0,49995
0,49968 0,49978 0,49985 0,49990 0,49993 0,49995
0,49969 0,49978 0,49985 0,49990 0,49993 0,49996
0,49970 0,49979 0,49986 0,49990 0,49994 0,49996
0,4997# 0,49972 0,49973 0,49980 0,4998# 0,4998# 0,49986 0,49987 0,49987 0,4999# 0,4999# 0,49992 0,49994 0,49994 0,49994 0,49996 0,49996 0,49996
0,49974 0,49975 0,49976 0,49982 0,49983 0,49983 0,49988 0,49988 0,49989 0,49992 0,49992 0,49992 0,49995 0,49995 0,49995 0,49996 0,49997 0,49997
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0 0,# 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 #,0 # ,# #,2 #,3 #,4 #,5 #,6 #,7 #,8 #,9 2,0 2,# 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,# 3,2 3,3
0,0000 0,0398 0,0793 0,##79 0,#554 0,#9#5 0,2257 0,2580 0,288# 0,3#59 0,34#3 0,3643 0,3849 0,4032 0,4#92 0,4332 0,4452 0,4554 0,464# 0,47#3 0,4772 0,482# 0,486# 0,4893 0,49#8 0,4938 0,4953 0,4965 0,4974 0,498# 0,49865 0,49903 0,4993# 0,49952
0,0040 0,0438 0,0832 0,#2#7 0,#59# 0,#950 0,229# 0,26#2 0,29#0 0,3#86 0,3438 0,3665 0,3869 0,4049 0,4207 0,4345 0,4463 0,4564 0,4649 0,47#9 0,4778 0,4826 0,4864 0,4896 0,4920 0,4940 0,4955 0,4966 0,4975 0,4982 0,49869 0,49906 0,49934 0,49953
0,0080 0,0478 0,087# 0,#255 0,#628 0,#985 0,2324 0,2642 0,2939 0,32#2 0,346# 0,3686 0,3888 0,4066 0,4222 0,4357 0,4474 0,4573 0,4656 0,4726 0,4783 0,4830 0,4868 0,4898 0,4922 0,494# 0,4956 0,4967 0,4976 0,4982 0,49874 0,499#0 0,49936 0,49955
0,0#20 0,05#7 0,09#0 0,#293 0,#664 0,20#9 0,2357 0,2673 0,2967 0,3238 0,3485 0,3708 0,3907 0,4082 0,4236 0,4370 0,4484 0,4582 0,4664 0,4732 0,4788 0,4834 0,487# 0,490# 0,4925 0,4943 0,4957 0,4968 0,4977 0,4983 0,49878 0,499#3 0,49938 0,49957
0,0#60 0,0557 0,0948 0,#33# 0,#700 0,2054 0,2389 0,2704 0,2995 0,3264 0,3508 0,3729 0,3925 0,4099 0,425# 0,4382 0,4495 0,459# 0,467# 0,4738 0,4793 0,4838 0,4875 0,4904 0,4927 0,4945 0,4959 0,4969 0,4977 0,4984
0,0#99 0,0596 0,0987 0,#368 0,#736 0,2088 0,2422 0,2734 0,3023 0,3289 0,353# 0,3749 0,3944 0,4##5 0,4265 0,4394 0,4505 0,4599 0,4678 0,4744 0,4798 0,4842 0,4878 0,4906 0,4929 0,4946 0,4960 0,4970 0,4978 0,4984
0,0239 0,0636 0,#026 0,#406 0,#772 0,2#23 0,2454 0,2764 0,305# 0,33#5 0,3554 0,3770 0,3962 0,4#3# 0,4279 0,4406 0,45#5 0,4608 0,4686 0,4750 0,4803 0,4846 0,488# 0,4909 0,493# 0,4948 0,496# 0,497# 0,4979 0,4985 0,49889 0,4992# 0,49944 0,4996#
0,0279 0,0675 0,#064 0,#443 0,#808 0,2#57 0,2486 0,2794 0,3078 0,3340 0,3577 0,3790 0,3980 0,4#47 0,4292 0,44#8 0,4525 0,46#6 0,4693 0,4756 0,4808 0,4850 0,4884 0,49## 0,4932 0,4949 0,4962 0,4972 0,4979 0,4985 0,49893 0,49924 0,49946 0,49962
0,03#9 0,07#4 0,##03 0,#480 0,#844 0,2#90 0,25#8 0,2823 0,3#06 0,3365 0,3599 0,38#0 0,3997 0,4#62 0,4306 0,4429 0,4535 0,4625 0,4699 0,476# 0,48#2 0,4854 0,4887 0,49#3 0,4934 0,495# 0,4963 0,4973 0,4980 0,4986 0,49897 0,49926 0,49948 40,9964
0,0359 0,0753 0,##4# 0,#5#7 0,#879 0,2224 0,2549 0,2852 0,3#33 0,3389 0,362# 0,3830 0,40#5 0,4#77 0,43#9 0,444# 0,4545 0,4633 0,4706 0,4767 0,48#7 0,4857 0,4890 0,49#6 0,4936 0,4952 0,4964 0,4974 0,498# 0,4986 0,49900 0,49929 0,49950 0,49965
0,49882 0,49886 0,499#6 0,499#8 0,49940 0,49942 0,49958 0,49960
g.l. - Num"r de grade de libertate
Anexa 2. Valorile critice ale lui t pentru aria de sub curb" aflat" la dreapta valorii.
g.l.\p # 2 3 4 5 6 7 8 9 #0 ## #2 #3 #4 #5 #6 #7 #8 #9 20 2# 22 23 24 25 26 27 28 29 30 infinit 0.4 0.32492 0.288675 0.27667# 0.270722 0.267#8# 0.264835 0.263#67 0.26#92# 0.260955 0.260#85 0.259556 0.259033 0.25859# 0.2582#3 0.257885 0.257599 0.257347 0.257#23 0.256923 0.256743 0.25658 0.256432 0.256297 0.256#73 0.25606 0.255955 0.255858 0.255768 0.255684 0.255605 0.253347 0.25 # 0.8#6497 0.764892 0.740697 0.726687 0.7#7558 0.7###42 0.706387 0.702722 0.6998#2 0.697445 0.695483 0.693829 0.6924#7 0.69##97 0.690#32 0.689#95 0.688364 0.68762# 0.686954 0.686352 0.685805 0.685306 0.68485 0.68443 0.684043 0.683685 0.683353 0.683044 0.682756 0.67449 0.# 3.077684 #.8856#8 #.637744 #.533206 #.475884 #.439756 #.4#4924 #.3968#5 #.383029 #.372#84 #.36343 #.3562#7 #.350#7# #.34503 #.340606 #.336757 #.333379 #.33039# #.327728 #.32534# #.323#88 #.32#237 #.3#946 #.3#7836 #.3#6345 #.3#4972 #.3#3703 #.3#2527 #.3##434 #.3#04#5 #.28#552 0.05 6.3#3752 2.9#9986 2.353363 2.#3#847 2.0#5048 #.943#8 #.894579 #.859548 #.833##3 #.8#246# #.795885 #.782288 #.770933 #.76#3# #.75305 #.745884 #.739607 #.734064 #.729#33 #.7247#8 #.720743 #.7#7#44 #.7#3872 #.7#0882 #.708#4# #.7056#8 #.703288 #.70##3# #.699#27 #.69726# #.644854 0.025 #2.7062 4.30265 3.#8245 2.77645 2.57058 2.4469# 2.36462 2.306 2.262#6 2.228#4 2.20099 2.#788# 2.#6037 2.#4479 2.#3#45 2.##99# 2.#0982 2.#0092 2.09302 2.08596 2.0796# 2.07387 2.06866 2.0639 2.05954 2.05553 2.05#83 2.0484# 2.04523 2.04227 #.95996 0.0# 3#.82052 6.96456 4.5407 3.74695 3.36493 3.#4267 2.99795 2.89646 2.82#44 2.76377 2.7#808 2.68# 2.6503# 2.62449 2.60248 2.58349 2.56693 2.55238 2.53948 2.52798 2.5#765 2.50832 2.49987 2.492#6 2.485## 2.47863 2.47266 2.467#4 2.46202 2.45726 2.32635 0.005 63.65674 9.92484 5.8409# 4.60409 4.032#4 3.70743 3.49948 3.35539 3.24984 3.#6927 3.#058# 3.05454 3.0#228 2.97684 2.9467# 2.92078 2.89823 2.87844 2.86093 2.84534 2.83#36 2.8#876 2.80734 2.79694 2.78744 2.7787# 2.77068 2.76326 2.75639 2.75 0.0005 636.6#92 3#.599# #2.924 8.6#03 6.8688 5.9588 5.4079 5.04#3 4.7809 4.5869 4.437 4.3#78 4.2208 4.#405 4.0728 4.0#5 3.965# 3.92#6 3.8834 3.8495 3.8#93 3.792# 3.7676 3.7454 3.725# 3.7066 3.6896 3.6739 3.6594 3.646
2.57583 3.2905
8 22.65716 23.56659 24.47761 27.33623 28.33613 29.33603 32.62049 33.71091 34.79974 37.91592 39.08747 40.25602 41.33714 42.55697 43.77297 44.46079 45.72229 46.97924 48.27824 50.99338 49.58788 52.33562 50.89218 53.67196
Anexa 3. Valorile critice ale lui 2 Ariile din dreapta valorilor (.)
28 12.4613 13.5647 15.3078 16.9278 18.9392 4 1 6 8 4 29 13.1211 14.2564 16.0470 17.7083 19.7677 5 5 7 7 4 30 13.7867 14.9534 16.7907 18.4926 20.5992 2 6 7 6 3
g.l./a 0.995 0.99 0.975 0.95 0.9 ria 1 0.00004 0.00016 0.00098 0.00393 0.01579 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0.01003 0.0201 0.05064 0.10259 0.21072 0.2158 0.35185 0.58437 0.07172 0.11483 0.41174
0.75 0.10153 0.57536 1.21253 1.92256 2.6746 3.4546 4.25485 5.07064 5.89883 6.7372 7.58414 8.43842 9.29907 10.16531 11.03654 11.91222 12.79193 13.67529 14.562 15.45177
0.5 0.45494 1.38629 2.36597 3.35669 4.35146 5.34812 6.34581 7.34412 8.34283 9.34182 10.341 11.34032 12.33976 13.33927 14.33886 15.3385 16.33818 17.3379 18.33765 19.33743
0.25 1.3233 2.77259 4.10834 5.38527 6.62568 7.8408 9.03715 10.21885 11.38875 12.54886 13.70069 14.8454 15.98391 17.11693 18.24509 19.36886 20.48868 21.60489 22.71781 23.82769
0.1 2.70554 4.60517 6.25139 7.77944 9.23636 10.64464 12.01704 13.36157 14.68366 15.98718 17.27501 18.54935 19.81193 21.06414 22.30713 23.54183 24.76904 25.98942 27.20357 28.41198
0.05 3.84146 5.99146 7.81473 9.48773 11.0705 12.59159 14.06714 15.50731 16.91898 18.30704 19.67514 21.02607 22.36203 23.68479 24.99579 26.29623 27.58711 28.8693 30.14353 31.41043
0.025 5.02389 7.37776 9.3484 11.14329 12.8325 14.44938 16.01276 17.53455 19.02277 20.48318 21.92005 23.33666 24.7356 26.11895 27.48839 28.84535 30.19101 31.52638 32.85233 34.16961
0.01
0.005
6.6349 7.87944 9.21034 10.59663 11.34487 12.83816 13.2767 14.86026 15.08627 16.7496 16.81189 18.54758 18.47531 20.27774 20.09024 21.95495 21.66599 23.58935 23.20925 25.18818 24.72497 26.75685 26.21697 28.29952 27.68825 29.81947 29.14124 31.31935 30.57791 32.80132 31.99993 34.26719 33.40866 35.71847 34.80531 37.15645 36.19087 38.58226 37.56623 39.99685
0.20699 0.29711 0.48442 0.71072 1.06362 0.5543 0.83121 1.14548 1.61031
0.67573 0.87209 1.23734 1.63538 2.20413 0.98926 1.23904 1.68987 2.16735 2.83311 1.34441 1.73493 1.6465 2.17973 2.73264 3.48954 2.0879 2.70039 3.32511 4.16816 3.9403 4.86518
2.15586 2.55821 3.24697
2.60322 3.05348 3.81575 4.57481 5.57778 3.07382 3.57057 4.40379 5.22603 3.56503 4.10692 5.00875 5.89186 6.3038 7.0415
4.07467 4.66043 5.62873 6.57063 7.78953 4.60092 5.22935 6.26214 7.26094 8.54676 5.14221 5.81221 6.90766 7.96165 9.31224 5.69722 6.40776 7.56419 8.67176 10.0851 9 6.2648 7.01491 8.23075 9.39046 10.8649 4 6.84397 7.63273 8.90652 10.1170 11.6509 1 1 7.43384 8.2604 9.59078 10.8508 12.4426 1 1 8.03365 8.8972 10.2829 11.5913 1 12.3380 1 13.0905 1 13.8484 3 14.6114 1 13.2396 14.0414 9 14.8479 6 15.6586 8 16.4734 1
21 22
16.34438 17.23962 18.1373 19.03725 19.93934
20.33723 21.33704 22.33688 23.33673 24.33659
24.93478 26.03927 27.14134 28.24115 29.33885
29.61509 30.81328 32.0069 33.19624 34.38159
32.67057 33.92444 35.17246 36.41503 37.65248
35.47888 36.78071 38.07563 39.36408 40.64647
38.93217 41.40106 40.28936 42.79565 41.6384 44.18128 42.97982 45.55851 44.3141 46.92789
8.64272 9.54249 10.9823 2 23 9.26042 10.1957 11.6885 2 5 24 9.88623 10.8563 12.4011 6 5 25 10.5196 11.5239 13.1197 5 8 2
26 11.1602 12.1981 13.8439 15.3791 17.2918 4 5 6 8 27 11.8075 12.8785 14.5733 16.1514 18.1139
20.84343 21.7494
25.33646 26.33634
30.43457 31.52841
35.56317 36.74122
38.88514 40.11327
41.92317 43.19451
45.64168 48.28988 46.96294 49.64492

Statistica Pop

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Statistica Pop

Încărcat de

Drepturi de autor:

Formate disponibile

Universitatea Bucure!

ti Facultatea de Filosofie CUPRINS

Capitolul # Descrierea variabilelor

0 casatorit(a) divortat(a) vaduv(a) necasatorit(a) uniune consensuala

Starea civila a capului gospodariei

Numar de ani de scoala

consumul per capita al gospodariilor (lei), in 1995

Capitolul 2 Distribu$ii de probabilitate

(# ) / n = 0,6 0,4 / #00 0,05

de unde, n = (# ) / e 2 dar * = te, de unde rezult" c" e = */t deci n = (# ) t 2 / 2

nlocuind n formula lui 2 (chi p"trat) ob$inem:

Total #80 200 220 600

Total #80 200 220 600

e# e2 380 200 = = 0,47 e# 380

a. Explicita$i n cuvinte ipoteza de nul H0 b. Calcula$i 2 !i valoarea p pentru H0 2. Se da tabelul:

Capitolul 7 Studiul rela$iilor ntre variabile cantitative

0.0 0 100000 200000 300000 400000

rata somajului (2) - rata somajului (1)

Calit. adm. 3.00

1.00 Toate localit.

suma cheltuita / nr. de locuitori

(X12,X22,Y2) (X13,X23,Y3) (X14,X24,Y4) Y5 (X15,X25,Y5) X15 X25

7.2.2 Interpretarea modelelor de regresie multipl%

3,5 3,0 2,5

6 4 2 0 1,2 8 1,0 ,8 ,6 ,4 4 ,2 0,0 2 6 10 12

Coeficienti ne-standardizati Eroare standard B 0,048 0,212 0,994 0,291

Coeficienti standardizati Beta 0,052 0,786 t 0,229 3,412

Nivel de semnif. stat. 0,820 0,002

Anexa #. Distribu$ia normal" normat" (standard)

3,4 3,5 3,6 3,7 3,8 3,9

0,49966 0,49977 0,49984 0,49989 0,49993 0,49995

0,49968 0,49978 0,49985 0,49990 0,49993 0,49995

0,49969 0,49978 0,49985 0,49990 0,49993 0,49996

0,49970 0,49979 0,49986 0,49990 0,49994 0,49996

0,49882 0,49886 0,499#6 0,499#8 0,49940 0,49942 0,49958 0,49960

g.l. - Num"r de grade de libertate

0.20699 0.29711 0.48442 0.71072 1.06362 0.5543 0.83121 1.14548 1.61031

2.15586 2.55821 3.24697

16.34438 17.23962 18.1373 19.03725 19.93934

20.33723 21.33704 22.33688 23.33673 24.33659

24.93478 26.03927 27.14134 28.24115 29.33885

29.61509 30.81328 32.0069 33.19624 34.38159

32.67057 33.92444 35.17246 36.41503 37.65248

35.47888 36.78071 38.07563 39.36408 40.64647

45.64168 48.28988 46.96294 49.64492

S-ar putea să vă placă și