Introduce Re in Statistic A

Universitatea Bucureti Facultatea de Filosofie CUPRINS
STATISTIC
Coord. - Lector drd. Lucian Pop Introducere, Cap. 1, 2, 6 - Lucian Pop Cap 3, 5 - Lucian Pop, Cosmin Marian Cap 4 - Asist. Cosmin Marian Cap 7 - Lector dr. Gabriel Badescu
Introducere i concepte de baz.................................................................................................................. 3 Capitolul 1 .................................................................................................................................................. 8 Descrierea variabilelor................................................................................................................................ 8 Capitolul 2 ................................................................................................................................................ 23 Distribuii de probabilitate........................................................................................................................ 23 Capitolul 3 ................................................................................................................................................ 32 Eantionarea. Distribuia de eantionare. Intervale de ncredere .............................................................. 32 Capitolul 4 ................................................................................................................................................ 45 Proceduri de eantionare........................................................................................................................... 45 Capitolul 5 ................................................................................................................................................ 54 Testarea ipotezelor statistice. Teste de semnificaie ................................................................................. 54 Capitolul 6 ................................................................................................................................................ 62 Asocierea variabilelor calitative ............................................................................................................... 62 Capitolul 7 ................................................................................................................................................ 69 Studiul relaiilor ntre variabile cantitative ............................................................................................... 69 Anexa 1. Distribuia normal normat (standard) .................................................................................... 87 Anexa 2. Valorile critice ale lui t pentru aria de sub curb aflat la dreapta valorii. ................................ 89 Anexa 3. Valorile critice ale lui 2 ........................................................................................................... 91
2001
Introducere i concepte de baz Deseori, n viaa de zi cu zi, folosim sau auzim expresii cum ar fi: "statisticile arat c ", "o statistic simpl sugereaza c " etc.. De multe ori, oamenii asociaz statistica cu o simpl "colecie" de numere. Totui, statistica reprezint mult mai mult dect att, ea dezvoltndu-se ca o metod tiinific de analiz larg utilizat n multe domenii. n tiinele sociale, rolul ei a devenit din ce n ce mai important cu deosebire n ultimii 30-40 de ani. i n acest domeniu, ca i n multe altele, colectarea, organizarea i analiza informaiei sunt "instrumente" deosebit de utile. Tehnicile de culegere a informaiei sunt variate, de la cercetri pe baz de chestionar sau interviuri telefonice la experimente. Informaiile astfel culese poart numele generic de "date" i se refer n general la msurarea unor atribute sau caracteristici ale "subiecilor" analizai. Msurarea este efectuat prin clasificarea "observaiilor" (subiecilor) conform unor reguli specifice (de exemplu, msurarea vrstei const n clasificarea indivizilor n funcie de numrul de ani de la natere). n general, statistica n tiinele sociale se preocup de trei mari aspecte: a) modul n care datele sunt culese, sau mai exact modul n care se face selecia observaiilor care urmeaz sa fie analizate, b) descrierea acestor date i c) explicarea i/sau predicia unor fenomene studiate. nainte ns de a trece la tratarea pe larg a acestor aspecte este nevoie de introducerea unor concepte de baz, precum i a ctorva distincii. Una dintre acestea, i cea mai important poate, este aceea ntre statistica pur descriptiv i statistica inferenial. Practic, aceasta din urm constituie "nucleul dur" al statisticii. Pentru a nelege distincia mai sus amintit, e nevoie ns mai nti de clarificarea conceptelor de populaie (statistic) i eantion. Termenul de populaie are o semnificaie aparte n statistic. Populaia statistic reprezint mulimea tuturor obiectelor sau indivizilor care prezint interes pentru studiu. De exemplu, dac cineva dorete sa studieze problema neparticiprii colare, atunci populaia va consta din totalitatea copiilor de vrst colar din Romnia. Dac ns obiectul studiului este gradul de poluare a localitailor urbane, atunci populaia va consta din toate oraele Romniei. n statistic aadar, cnd ne referim la populaie avem n minte mulimea unitailor de analiz, indiferent ce reprezint acestea (coli, orae, ntreprinderi, ri, oameni sau chiar procese, fenomene i aciuni). Un eantion nu este nimic altceva dect un subset sau o submulime a populaiei analizate. Extragerea unui eantion din populaie este util i chiar necesar n condiiile n care resursele (financiare, de timp etc.) de care dispun iniiatorii studiului nu sunt suficiente pentru a asigura investigarea ntregii populaii. S ne imaginm c cineva ar dori s studieze problema srciei n Romnia. n absena unui eantion, respectivul cercettor ar fi pus n situaia de a investiga peste 7 milioane de gospodrii, ceea ce ar duce la costuri financiare imense i la o extindere extraordinar a timpului rezervat culegerii de informaii. n acelai timp, un subset din populaia analizat, extras conform unei scheme de eantionare riguroase, poate furniza toat informaia necesar la un nivel de acuratee foarte ridicat. Putem acum clarifica distincia dintre statistica descriptiv i cea inferenial: n timp ce metodele statistice descriptive const n descrierea sintetic a informaiei cuprinse ntr-un set de date, metodele statistice infereniale const n acele tehnici i proceduri folosite pentru a face generalizri despre caracteristicile unei populaii, pe baza informaiilor culese de la un eantion extras din acea populaie. Practic marea
provocare a statisticii o constituie exact acest proces de inferen (generalizare) de la datele de eantion la populaie. Exemplul I.1 Primarul unui ora dorete nfiinarea unor noi locuri de joac pentru copii. Pentru acest lucru ns, ar mai avea nevoie de fonduri suplimentare, pe care se gndete s le obin prin introducerea unei noi taxe. Totui, pentru c alegerile se apropie, primarul ar dori s tie n ce msur populaia cu drept de vot a oraului consider ca legitim introducerea acestei noi taxe. n acest caz, populaia vizat este constituit deci din toate persoanele n vrst de peste 18 ani din respectivul ora. Deoarece este practic imposibil ca primarul s discute cu fiecare alegtor n parte, el va efectua (cu ajutorul unei firme specializate) un sondaj de opinie pe un eantion de - s zicem - 500 de persoane. Rezultatele sondajului arat c 55% din persoanele investigate sunt n favoarea introducerii acestei taxe. Totui acest rezultat nu reprezint "adevrata" valoare a procentului din populaia cu drept de vot care este dispus s susin iniiativa primarului. Pentru a afla "adevratul" procent din populaie, primarul (respectiv cei care au efectuat sondajul i analizeaz datele) va trebui sa apeleze la inferena statistic. Este momentul acum s introducem dou noi concepte, i anume acelea de parametrii i respectiv statistici la nivel de eantion. Caracteristicile populaiei despre care facem ineferene pe baza eantionului se numesc parametrii. Caracteristicile eantionului pe baza crora inferm se numesc pur i simplu statistici. n exemplul de mai sus, 55% reprezint o statistic descriptiv, deoarece ea descrie sintetic o caracteristic a eantionului. Cele mai multe studii sunt ns interesate n aflarea parametrilor, care n general sunt necunoscui (exemple: Ci sraci exista n Romnia? Care este procentul din populaie de susintori ai unui partid? etc.). Eantioanele i statisticile descriptive sunt utile n msura n care ele pot oferi informaii despre parametrii de interes. Statistica inferenial este aceea care permite obinerea unei masuri a acurateei statisticilor folosite pentru estimarea valorii parametrilor. n consecin, atunci cnd ntreaga populaie este cuprins ntr-un studiu, statistica inferenial nu este necesar. n final ne vom opri asupra unei ultime noiuni deosebit de importante pentru studiul statisticii, i anume asupra variabilelor. Vom defini variabila ca fiind orice caracteristic a membrilor unei populaii sau unui eantion care variaz (n respectiva populaie/eantion). Astfel, culoarea prului indivizilor dintr-o populaie este o variabil n msura n care indivizii care compun respectiva populaie au pr de culori diferite. Dac toi indivizii ar fi blonzi, s zicem, atunci culoarea prului ar fi constant n respectiva populaie. Cu ct o caracteristic are o variaie mai mare, cu att respectiva populaie este mai eterogen i, invers, cu ct o caracteristic dat are o variaie mai mic, cu att respectiva populaie va fi mai omogen, din perspectiva respectivei caracteristici. n exemplul de mai sus, valorile posibile ale variabilei "culoarea prului" ar fi "brunet", "blond", "rocat" etc.. Fiecare individ (statistic) poate lua o singur valoare pentru o variabil.. Variabilele pot fi clasificate n funcie de multe criterii. Una din distinciile importante este aceea dintre variabile discrete i variabile continue. Att variabilele discrete ct i variabilele continue pot lua o infinitate de valori. Diferena dintre ele
const n faptul c n timp ce n cazul variabilelor continue ntre dou valori succesive ale variabilei pot exista o infinitate de valori, n cazul variabilelor discrete acest lucru nu se ntmpl. Un exemplu de variabil continu este nlimea cldirilor unui ora masurat n metri, iar un exemplu de variabil discret l reprezint veniturile indivizilor dintr-o populaie, msurate n lei. n cazul primei variabile, ntre doua valori succesive ale acesteia (de exemplu 5 i 6 m) exist o infinitate de alte valori deoarece metrii se subdivid n centimetri, apoi n milimetri etc., n cazul veniturilor acest lucru nu mai este posibil, ntre 5 lei i 6 lei nemaiexistnd subdiviziuni. Nivelul de msurare al variabilelor este un alt criteriu de clasificare a acestora, de o mare importan pentru studiul statisticii. Putem distinge ntre patru niveluri de msurare (nominal, ordinal, de interval i de raport), n funcie de trei criterii: a) posibilitatea de a ordona valorile variabilei, b) egalitatea intervalelor dintre valorile variabilei (sau altfel spus existena unei uniti de msur), c) existena unei "origini" a variabilei sau, cu alte cuvinte, a unui "zero absolut".
Tabelul I.1 - Niveluri de masurare a variabilelor Nominal Ordinal De interval De raport a) ordonare nu da da da b) unitate de masur nu nu da da c) zero absolut nu nu nu da
3. Msurarea la nivel de interval, ofer n plus faa de nivel anterior (cel ordinal) i informaie referitoare la distana dintre valorile scalei i este caracterizat de existena unor intervale egale. Totui, la acest nivel de msurare nu exist un zero absolut, ci mai degrab unul convenional. Exemple de astfel de scale de msurare sunt temperatura masurat n grade Celsius (intervalele dintre valori sunt egale, dar punctul 0 este convenional ales ca fiind temperatura la care apa inghea), coeficientul de inteligen - IQ - (daca dou persoane au scoruri de 100 i respectiv 150, putem spune ca diferena dintre cei doi este de 50 de puncte, dar nu putem spune c cel de-al doilea este cu 1/2 mai inteligent dect primul sau c scorul 0 semnific absena inteligenei). 4. Msurarea la nivel de raport include toate caracteristicile nivelurilor anterioare (ordonare i intervale egale), plus existena unei "origini" sau zero absolut. Acest lucru permite formularea unor afirmaii n termeni de proporii (raporturi) ntre valori. De exemplu, vitezele de raspuns a doi subieci la un acelai stimul pot fi comparate n termeni de "timpul de rspuns a fost de dou ori mai mare" etc.. Exemple de variabile masurate la acest nivel sunt vrsta, greutatea, nlimea, distana, numrul de copii din gospodrie etc. Corecta identificare a nivelului de msurare utilizat este foarte important n alegerea procedurilor satistice de analiz. Dup cum se poate observa din descrierea de mai sus, pentru fiecare nivel exista operaii matematice permise i operaii interzise. Astfel, la primul nivel, cel nominal nu sunt permise nici ordonarea, nici adunarea/scderea i nici nmulirea/mprirea. La nivelul ordinal este permis numai ordonarea, la cel de interval sunt permise n plus i operaiile de adunare/scdere, iar la ultimul nivel, cel de raport sunt permise toate operaiile. n funcie de nivelul de msurare, vom vorbi despre variabile msurate la nivel nominal, variabile msurate la nivel ordinal etc., sau, mai pe scurt, variabile nominale, ordinale, de interval i de raport. Reducnd cele patru clase la dou, putem vorbi de variabile calitative (nivelurile nominal i ordinal) i variabile cantitative (interval i raport). Datorita caracterului "ierarhic" i cumulativ al nivelurilor de msurare (de la multe restricii ctre nici o restricie n ceea ce privete operaiile permise, sau de la "calitativ" la "cantitativ"), vom putea ntotdeauna trata o variabil aflat la un nivel "superior" de msurare ca i cum ar fi fost msurat la un nivel "inferior". De exemplu, vrsta masurata n ani de via va putea oricnd fi tratat ca o variabil ordinal, dac i grupm valorile (sub 20, 21-30, 31-50, peste 50). Niciodat ns nu vom putea trata o variabil aflat la un nivel "inferior" ca pe una aflat "mai sus" n ierarhie. (Cteodat, cercettorii fac excepie de la aceast regul, tratnd variabilele ordinale ca i cum ar fi msurate la nivel de interval. Totui, o dat cu dezvoltarea unor noi tehnici de analiz, dedicate special nivelelor de msurare "calitativ", aceste practici devin din ce n ce mai rare.) nainte de a ncheia aceast scurt introducere, ar mai fi necesare cteva cuvinte despre utilizarea calculatoarelor n analiza statistic. Aplicaiile sau programele pentru computer care pot fi utilizate sunt foarte numeroase, ele variind n funcie de complexitatea analizelor pe care le pot efectua i n funcie de uurina n utilizare (sau altfel spus n funcie de ct sunt de "prietenoase" cu utilizatorul). Pentru utilizatorii de
1. Nivelul de msurare nominal presupune clasificarea unor atribute, caracteristici, fenomene etc. n categorii care trebuie s fie distincte, mutual exclusive i exhaustive. Acest tip de variabile (respectiv scalele folosite n msurare) indic numai faptul c exista o diferen calitativ ntre categoriile studiate, nu i magnitudinea acestei diferene. La limit, putem privi aceste variabile ca pe nite tipologii. Cteva exemple de variabile msurate la nivel nominal sunt: statutul ocupaional al indivizilor (agricultor, salariat, mic ntreprinzator, omer etc.), religia (ortodox, romano-catolic, greco-catolic etc.) apartenena etnic (romn, maghiar, rrom etc.), mediul de reziden (rural, urban) .a.m.d.. Valorile acestui tip de variabile nu pot fi ordonate, sau cu alte cuvinte nu exist o ierarhie (dect eventual conform unor criterii extrinseci) i n consecin problema "distanei" sau a intervalelor dintre valori nici nu poate fi pus. Cu att mai puin putem discuta despre existena unui "zero absolut" (exemplu: fiecare individ are un statut ocupaional sau aparine unei etnii, sau altfel spus absena caracteristicilor "statut ocupaional" sau "apartenen etnic" este imposibil). 2. Nivelul de masurare ordinal implic nu numai clasificarea elementelor n categorii ci i posibilitatea ordonrii acestora de la minim la maxim (existena tranzitivitii: dac a>b i b>c, atunci a>c). Totui, la acest nivel de msurare nu este oferit nici o informaie cu privire la "distana" dintre valorile scalei de msur. Cu alte cuvinte, diferena dintre prima valoare i cea de-a doua poate fi diferit de diferena dintre a patra i a cincea. Exemple de variabile msurate la nivel ordinal sunt calificativele colare (cu valorile "insuficient", "suficient", "bine" i "foarte bine"), satisfacia fa de anumite aspecte (cu valorile "foarte nesatisfcut", "nesatisfcut", "satisfcut", "foarte satisfcut") etc..
Microsoft Office, unul dintre cele mai la ndemn instrumente este MS Excel, care poate efectua o serie de analize statistice - mai ales descriptive, fiind ns mai puin "dotat" la capitolul statistic inferenial (totui exist module care i pot mbunti performana n aceast privin). Dintre programele "dedicate" analizelor statistice, cel mai rspndit la noi n ar pare a fi SPSS, datorit interfeei foarte prietenoase i deci uurinei n utilizare. O alt variant, mai puin rspndit dar care are avantajul de a fi complet gratuit i prietenoas este VISTA ( http://www.visualstats.org ). Dezavantajul acesteia const n viteza relativ redus de lucru cu baze de date voluminoase (mai mult de o mie de cazuri). Bibliografie recomandat: Clocotici V., Stan, A., Statistic aplicat n psihologie, Polirom, 2000 - capitolele 1-8 Rotariu Traian (coordonator), Metode statistice aplicate n tiinele sociale, Polirom, 1999 -capitolele 1-8 Sandu, Dumitru, Statistic n tiinele sociale , Universitatea Bucureti, 1992 - capitolele 1, 2, 3, 6, 7
Capitolul 1 Descrierea variabilelor
De obicei, dup colectarea datelor printr-o cercetare (fie ea de tip recensmnt adic prin investigarea ntregii populaii, fie de tip sondaj - adic prin investigarea unui eantion), informaia este organizat ntr-o baz de date care de cele mai multe ori are forma unui tabel n care pe rnduri sunt aezate observaiile (unitile de analiz sau indivizii statistici), iar pe coloane variabilele (de obicei prima variabil fiind un "identificator" al subiecilor):
Tabelul 1.1: Baza de date coninnd indicatori demografici n mediul rural, la nivel de comune, 1998 codul localitii 1071 2130 2309 2381 2577 2988 3039 3397 3459 3761 3805 3958 4008 4106 . . . populaia (numr de locuitori) CIUGUD 2463 ALBAC 2259 ALMASU MARE 1873 ARIESENI 1940 AVRAM IANCU 2083 BERGHIN 2048 BISTRA 5385 BLANDIANA 1160 BUCIUM 2009 CENADE 1048 CERGAU 1756 CETATEA DE BALTA 3468 CIURULEASA 1463 CALNIC 3078 . . . . . . denumirea localitii numr nateri 26 31 21 24 19 23 57 6 13 11 26 57 18 52 . . . . . . numr decese 34 30 35 24 35 45 74 24 31 11 34 48 18 54 . . . numar sosii 65 4 13 3 18 44 33 22 23 4 22 4 10 75 . . . numr plecai 22 45 20 20 28 24 84 10 22 14 25 63 29 28
2.1 Tabele de frecvene i grafice Prezentarea informaiei coninute ntr-o baz de date se face de obicei sintetic, deoarece simpla listare a datelor "brute", primare - observaie cu observaie - nu poate oferi de cele mai multe ori o imagine de ansamblu a situaiei analizate. Cel mai simplu mod de prezentare/descriere l reprezint tabelele de frecvene, sau mai bine zis distribuia frecvenelor. Distribuia de frecvene este o list a valorilor (categoriilor) posibile ale unei variabile, nsoite de numrul de observaii care iau respectivele valori (care se afl n fiecare din respectivele categorii). n cazul variabilelor continue sau al celor discrete cu un numr mare de valori, se recurge mai nti la o "grupare" a datelor n mai puine categorii (exemplu: comune sub 1000 de locuitori, ntre 1001 i 2000 locuitori, ntre 2001 i 3000, 3001-4000 etc.). Tabelul 1.2 prezint o distribuie de frecvene a numarului de locuitori n comun, pentru comunele din Romnia. Cu ajutorul
acestui tabel vom introduce dou noiuni noi, i anume acelea de frecvene relative respectiv frecvene cumulate (respectiv distribuie cumulativ). Prima coloan a tabelului conine valorile variabilei "numr de locuitori", grupate n categorii. Cea de-a doua coloan conine frecvenele de apariie ale acestor valori, sau cu alte cuvinte numrul de observaii (n cazul nostru comunele) aflate n fiecare categorie. Putem deci observa ca n 1998 n Romnia existau 54 de comune cu 1000 sau mai puini locuitori, 379 de comune cu 1001-2000 locuitori .a.m.d.. Ce-a de-a treia coloan a tabelului conine frecvenele relative, adic ponderea sau proporia observaiilor din fiecare categorie n totalul observaiilor. Putem afirma pe baza acestei informaii ca n Romnia comunele cu mai puin de o mie de locuitori reprezint 2,01% din totalul comunelor, n timp ce ponderea comunelor cu 1001-2000 locuitori este de 14,11% .a.m.d..
Tabelul 1.2 Distribuia de frecvene a numrului de locuitori n comun, pentru comunele Romniei Numarul de frecvena (absolut) locuitori n comun 54 1000 sau mai puini 379 1001-2000 651 2001-3000 602 3001-4000 391 4001-5000 267 5001-6000 145 6001-7000 87 7001-8000 110 peste 8000 2686 Total frecvena relativ (%) 2,01 14,11 24,24 22,41 14,56 9,94 5,40 3,24 4,10 100 frecvena relativ cumulat (%) 2,01 16,12 40,36 62,77 77,33 87,27 92,67 95,90 100
Formula de calcul a frecvenelor relative este n n fri = i , sau fri = i 100 , dac dorim s o exprimm n procente N N unde: fri este frecvena relativ a categoriei (valorii variabilei) i ni este frecvena absolut a categoriei i (numarul de cazuri sau observaii care aparin respectivei categorii) N este numrul total de observaii
orizontal sunt reprezentate valorile variabilei analizate. Totui, cele dou tipuri de grafice sunt utilizate difereniat: histograma este recomandat numai n cazul variabilelor msurate la nivel de interval sau de raport, n timp ce diagrama-bar se folosete de preferin pentru variabile nominale i ordinale. Aceast diferen provine din modul lor de construcie: - n cazul histogramei, fiecare bar nu reprezint o singur valoare a variabilei ci un interval de valori. n Graficul 1.1 Histograma distanelor de la centrul comunei pn la consecin, limea barei cel mai apropiat ora cu peste 30 de mii de locuitori variaz odat cu mrimea 400 intervalului, aceasta din urm fiind stabilit de ctre cercettor. Valorile de pe axa 300 orizontal a graficului reprezint centrele acestor intervale. Histograma este 200 recomandat n cazul variabilelor "cantitative" tocmai pentru faptul c acest 100 tip de variabile fie sunt continue, fie au un numr foarte mare de valori chiar dac 0 sunt discrete. Stabilirea 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 5 15 25 35 45 55 65 75 85 95 105 115 125 135 mrimii intervalelor nu este o sarcin uoar: intervale prea Distanta (km) pina la cel mai apropiat oras cu peste 30000 de locuitori mari (adic bare puine) pot duce la pierderea de informaie, n timp ce intervale prea mici (adic un numr prea mare de bare) poate ascunde regularitile distribuiei. - n cazul diagramei-bar, fiecare bar corespunde unei singure valori (categorii) a variabilei. n plus, pentru a Graficul 1.2 Diagrama bar - distribuia strii civile a capului de evidenia faptul c datele nu gospodrie ntr-un eantion de 32200 de gospodrii sunt continue, barele nu sunt 100 lipite ntre ele, ca n cazul histogramei.
Frecvente absolute Frecvente relative
80
Cea de-a patra coloan a tabelului conine distribuia cumulativ a frecvenelor relative, i reprezint suma dintre frecvena relativ a respectivei categorii i frecvenele relative ale categoriilor inferioare. Informaia oferit de frecvenele cumulate este foarte important, deoarece ea permite enunarea unor afirmaii cum ar fi: "n 1998, comunele cu o populaie sub 3001 locuitori reprezentau 40,36% din totalul comunelor din Romnia". Este de la sine neles c a calcula frecvene cumulate pentru variabile nominale nu are nici un sens, din moment ce valorile acestui tip de variabile nu pot fi ordonate. Reprezentarea grafic a unui tabel de frecvene se face de obicei cu ajutorul unei histograme (Graficul 1.1) sau a unei diagrame-bar (Graficul 1.2). n cazul ambelor tipuri de grafice, pe axa vertical sunt reprezentate frecvenele (absolute sau relative) iar pe axa
60
40
20
0 casatorit(a) divortat(a) vaduv(a) necasatorit(a) uniune consensuala
Starea civila a capului gospodariei
bimodal este o distribuie cu dou "vrfuri" (Graficul 1.3). 2.2 Tendina central, variaia i forma distribuiei n general, o descriere complet a unei variabile se face urmrind trei caracteristici ale acesteia: a) tendina central (sau centrul distribuei) - adic valoarea "tipic" a acelei variabile b) variaia variabilei - ca indicator al gradului de "mpratiere" a datelor c) forma distribuiei 2.2.1 Indicatori (msuri) ai tendinei centrale Pentru a descrie centrul unei distribuii, sau tendina centrala a unei variabile, exist mai multe msuri. n aceasta seciune vor fi discutate cele mai des utilizate: modul, mediana i media. Modul este definit ca fiind valoarea cu frecvena cea mai mare a unei distribuii. Altfel spus, modul este acea valoare a variabilei care apare cel mai des ntr-un eantion sau ntr-o populaie. Termenul deriv din francezul "mode", adic mod. n cazul distribuiei variabilei "starea civil a capului gospodriei" reprezentat n Graficul 1.2, modul este valoarea "csatorit()" (cu frecvena relativ 80%). De cele mai multe ori, pentru a simplifica lucrul cu datele, valorilor variabilelor nominale li se acord convenional coduri numerice. De exemplu, pentru datele din Graficul 1.2, putem acorda codul 1 pentru valoarea "csatorit()", codul 2 pentru valoarea "uniune consensual", codul 3 pentru valoarea "divorat()" etc.. Chiar dac aceste coduri sunt numerice, ele trebuie privite ca nite simple simboluri convenionale. Utilizarea lor nu nseamn c valorile pot fi ordonate sau c intervalele dintre valori sunt egale. n cazul n care valorile variabilei "stare civil" ar fi fost codificate ca mai sus, modul ar fi fost valoarea (codul) 1. Pentru datele din Tabelul 1.2, care prezint date grupate n intervale, vom vorbi despre un interval modal - i anume categoria "2001-3000 locuitori", deoarece aceasta este "valoarea" (de fapt intervalul de valori) cu frecvena cea mai mare (651). Grafic, modul este valoarea variabilei creia i corespunde "vrful" distribuiei. Dei simplu de obinut, modul Graficul 1.3 Distribuie bimodal - histograma variabilei nu este ntotdeauna cea mai bun "nivel de educaie", pentru angajaii unei bnci msur a tendinei centrale, deoarece 200 de multe ori depinde de gruparea arbitrar a datelor (de exemplu, pentru datele din Tabelul 1.2 am fi obinut un alt mod dac datele ar fi fost altfel grupate). De asemenea, nu rareori se 100 ntlnesc distribuii bimodale, n care exist dou valori diferite ale variabilei care apar cu o aceeai "cea mai mare" frecven. Grafic, o distribuie
frecvente absolute
0 8 10 12 14 16 18 20 22
Mediana este acea valoare a unei variabile care mparte seria ordonat de date n dou pri egale, astfel nct 50% din observaii se vor situa deasupra valorii mediane iar 50% dedesubtul ei. S lum de exemplu notele pe care 7 studeni le primesc la examenul de statistic (dup ce le-am ordonat n prealabil de la minim la maxim): 5, 5, 6, 8, 9, 9, 10. Mediana acestei serii de date este 8, deoarece ea divide seria de date n dou pari egale: 3 dintre studeni (observaii) au note mai mici dect 8 i trei dintre ei au note mai mari. Nota 8 este exact la "mijlocul" seriei de date (dup ordonare). Este important de reinut c ceea ce conteaza pentru stabilirea medianei este numrul de observaii pe care se face analiza, i nu numrul de valori ale variabilei. Calculul medianei este relativ simplu atunci cnd avem de-a face cu un numr mic i impar de observaii. Lucrurile se complic puin atunci cnd numrul de observaii este par, sau dac numrul de observaii e foarte mare i e nevoie s apelm la tabele de frecvene. Lucrurile se complic i mai mult dac datele de care dispunem sunt date grupate n intervale, ca n Tabelul 1.2. n cazul n care avem de-a face cu un numr par de observaii nu va mai exista o singur valoare la mijlocul seriei de date, ci vom avea dou valori. n aceast situaie, mediana se afl la mijlocul "distanei" dintre aceste valori, sau cu alte cuvinte, este media lor. S presupunem c am dori sa calculm mediana pentru o serie de 8 studeni, deci un numr par de observaii. Dup ordonare, datele arat astfel: 5, 5, 6, 7, 8, 9, 9, 10. La mijlocul seriei se afl valorile 7 i 8. Mediana va fi deci 7,5. Pentru situaiile n care suntem nevoii s calculm mediana pe baza datelor oferite de un tabel de frecvene, vom utiliza frecvenele Tabelul 1.3 Distribuia notelor pentru 80 de studeni cumulate, i vom cuta acea Nota Frecvene Frecvene Frecvene relative valoare a variabilei sub care se absolute relative (%) cumulate (%) afl 50% din cazuri. Pentru 2 2,5 2,5 3 4 5 7,5 4 datele din Tabelul 1.3, 28,75% 7 8,75 16,25 5 din observaii iau valoarea 6 10 12,5 28,75 6 sau o valoare mai mic, 14 17,5 46,25 7 46,25% iau valoarea 7 sau mai 23 28,75 75 8 puin, iar 75% iau valoarea 8 14 17,5 92,5 9 sau o valoare mai mic. 6 7,5 100 10 Rezult de aici c nota Total 80 100 median nu poate fi 7 sau alt not mai mic (deoarece numai 46,25% dintre studeni iau nota 7 sau mai puin). Mediana va fi n consecin 8, deoarece, chiar dac avem un numr par de observaii, ambele valori care se gsesc la mijlocul seriei de date sunt egale cu 8. n cazul n care avem de-a face cu un tabel de frecvene care conine date grupate n intervale de valori (aa cum este Tabelul 1.2), valoarea medianei poate fi calculat cu ajutorul formulei:
Numar de ani de scoala
N nc Me = l + 2 L n unde: Me este mediana, l este limita inferioar a intervalului care conine mediana N este numrul total de observaii nc este frecvena absolut cumulat a tuturor categoriilor care preced intervalul care conine mediana (adic numrul de observaii care iau valori mai mici dect l) n este frecvena intervalului care conine mediana L este lrgimea sau mrimea intervalului care conine mediana
"persoanele aparinnd primei decile" etc. Aceste expresii se refer ns la observaiile care iau valori cuprinse ntre anumite percentile (quantile) i nu la valorile variabilei.
Media este probabil cea mai important i totodat cea mai popular msur a tendinei centrale a unei distribuii. Ea se calculeaz ca sum a tuturor valorilor observate ale seriei de date mprit la numrul de observaii:
x + x 2 + x3 + ....... + x N X = 1 = N
x
i =1
Exemplu de calcul al medianei pe baza datelor din Tabelul 1.2: Din tabel reiese ca mediana este coninut n intervalul 3001-4000 locuitori, deoarece frecvenele relative cumulate ale categoriilor precedente sunt mai mici de 50%, iar frecvena cumulat a intervalului 3001-4000 este aproximativ 63%. Limita inferioar a acestui interval este deci l = 3001. Observaia creia i corespunde mediana (numit i individ median) este observaia care se afl exact la mijlocul seriei ordonate de date, cu alte cuvinte este observaia N/2, n cazul nostru observaia cu numrul 1343. Dac scdem din acest numr numrul total de observaii care au valori mai mici dect 3001, obinem 1343 - 1084 = 259, unde 1084 = 54 + 379 + 651 este valoarea lui nc din formula medianei (obinut prin cumularea frecvenelor categoriilor precedente intervalului care conine mediana). Cu alte cuvinte, observaia creia i corespunde mediana este cea de-a 259-a observaie din categoria "3001-4000 locuitori", categorie care apare cu frecvena n = 602. Am putea acum s ne ntrebm: dac la 602 comune corespunde o cretere a numrului de locuitori cu L=1000 (de la 3001 la 4000), atunci la 259 de comune ct va corespunde? Rspunsul e dat de regula de trei simpl, coninut oarecum i n formula 259 1000 = 430,2 . Cu alte cuvinte, mediana este egala cu 3001 + 430 = 3431 medianei: 602 locuitori. Mediana este un caz special de msur a localizrii. Msurile localizrii sunt de obicei cunoscute sub numele de percentile sau quantile. Pentru cazul general, numim percentila p acea valoare sub care se afl p% din cazuri i deasupra creia se afl (100-p)% din cazuri. De exemplu, mediana este percentila 50. Cele mai cunoscute msuri ale localizrii sunt quartilele, quintilele i decilele. Quartilele sunt acele valori ale seriei de date care o mpart n patru pri egale, quintilele sunt valorile care o mpart n cinci pri egale, iar decilele n 10. Sub quartila 1 se afl 25% din cazuri, iar deasupra ei 75%. Sub quartila 2 se afla 50% din cazuri, de unde reiese ca aceast quartil este chiar mediana. n sfrit, sub quartila 3 se afl 75% din cazuri, iar deasupra ei se afl 25% din cazuri (observaii). Din aceast scurt prezentare reiese c exist numai 3 quartile (Q1, Q2 i Q3), deoarece pentru a mpri o serie de date n m pri egale sunt suficiente m-1 valori. n statistic quartilele, decilele etc. se refer la valori ale variabilei. Totui, n tiinele sociale sunt folosite destul de des expresii cum ar fi "decila 10 de venituri", "cea mai srac quintil",
unde: X este media xi reprezint valoarea variabilei pe care o ia observaia i N este numrul total de observaii (sigma) este simbolul folosit pentru a indica o sum De exemplu, pentru cei 7 studeni de mai sus, cu notele 5, 5, 6, 8, 9, 9, 10, suma notelor este 52, numrul total de observaii este 7, iar media va fi 52 mprit la 7, adic 7,43. n cazul n care media trebuie calculat pe baza unui tabel de frecvene, formula devine:
X =
f
j =1
xj
unde: k este numrul de categorii (valori) ale variabilei fj reprezint frecvena de apariie a categoriei j xj este valoarea categoriei j N este numrul total de observaii De exemplu, pentru datele din Tabelul 1.3, media este: X= 2 3 + 4 4 + 7 5 + 10 6 + 14 7 + 23 8 + 14 9 + 6 10 = 7,31 80
Pentru cazurile n care media trebuie calculat pentru date grupate n intervale, ca n Tabelul 1.2, se aplic formula de mai sus, considerndu-se ca "valori ale variabilei" centrele de interval. Exemplu: pentru categoria "1001-2000 locuitori", centrul de interval este (1001 + 2000) / 2 = 1500,5. Bineneles c, pentru un astfel de exemplu, la finalul calculelor media se va rotunji, deoarece atunci cnd vorbim despre populaia unei comune nu o putem exprima dect n numere ntregi. Atunci cnd avem de-a face cu date
grupate n intervale, probleme pot aprea la calculul centrului de interval pentru prima i respectiv ultima categorie: n Tabelul 1.2, categoriile "1000 sau mai puini locuitori", respectiv "peste 8000 de locuitori". Dac se ntmpl ca valoarea minim i respectiv cea maxim a seriei de date s fie cunoscute, atunci nu exist practic nici o problem. Dac aceste valori nu sunt cunoscute, rmne la latitudinea cercettorului s decid ce valori urmeaz s atribuie respectivelor centre de interval. Cnd folosim una sau alta dintre msurile tendinei centrale? Decizia de a utiliza una sau alta dintre msurile tendinei centrale este strns legat n primul rnd de nivelul de msurare a variabilelor. Aa cum ne putem da seama, modul poate fi utilizat pentru toate cele patru niveluri de msurare. Mediana ns nu poate fi utilizat dect pentru nivelele care permit o ordonare prealabil a datelor, adic numai pentru variabilele ordinale, de interval i de raport. n ceea ce privete media, aceasta poate fi calculat numai pentru variabilele masurate la ultimele dou nivele, adic cel de interval i respectiv cel de raport, deoarece n cazul celorlalte nivele operaiile de adunare/scdere a valorilor variabilelor nu sunt permise. Un alt element important pentru a decide ce msur a tendinei centrale merit folosit este existena observaiilor care au valori extreme. De fapt acest aspect este n strns legatur cu forma distribuiei. S considerm de exemplu distribuia consumului per capita al gospodriilor, aa cum este ea reprezentat n Graficul 1.4. Media acestei distribuii este 103087 lei iar mediana este 87354 lei lei (valorile sunt exprimate n preuri 1995). n ceea ce privete modul, valoarea exact a acestuia nu are sens s fie calculat deoarece exist relativ puine situaii n care mai multe gospodrii au exact aceeai valoare a consumului per capita. Putem ns vorbi despre un interval modal, care se afl undeva n jur de 72000 lei.
Graficul 1.4 Distributia consumului per capita al gospodriilor
1400000
de gospodrii cu valori foarte mari ale consumului per capita, valori care "trag" media spre dreapta (sau cu alte cuvinte conduc ctre o valoare mai ridicat a acesteia n raport cu mediana). n concluzie, putem afirma c modul nu e Graficul 1.5 Alungirea (oblicitatea) o msur foarte adecvat a centrului unei distribuiilor distribuii. El este util mai ales atunci cnd avem de-a face cu variabile msurate la nivel nominal, dar i n cazurile n care distribuiile studiate sunt bi- sau multi-modale. Mediana este indicat mai ales n cazurile n care dorim identificarea "valorilor tipice" ale unor distribuii asimetrice (vezi Graficul 1.5, b i c), care au valori extreme. Media, pe de alt parte, prezint marele avantaj de a lua n calcul toate valorile unei serii de date. Aceasta este unul din motivele pentru care ea continu s fie cea mai utilizat msur a (a) modul, mediana i media coincid (se tendinei centrale. n plus ea mai are i alte suprapun) proprieti utile, care vor fi discutate n capitolele urmtoare. Poziiile relative ale modului, medianei i mediei Graficul 1.5(a) prezint o distribuie simetric, n care modul, mediana i media coincid, adic au practic aceeai valoare. Ce se ntmpl n cazul distribuiilor asimetrice? De exemplu, Graficul 1.5 (b) prezint o distribuie a crei parte din dreapta este alungit. Pentru a gsi mediana, va trebui s ne deplasm la dreapta "vrfului" distribuiei, adic a modului, cu cteva observaii. Mediana se va afla deci la dreapta modului. Mai mult dect att, datorit influenei exercitate de cazurile aflate la extrema dreapt a distribuiei, valoarea medie va fi i mai mare dect valoarea median, aa cum am vzut de altfel i n exemplul distribuiei consumului gospodriilor. Putem deci trage concluzia c fa de mod, mediana se va gsi n direcia alungirii distribuiei, iar media se va gsi n aceeai direcie, chiar mai departe dect mediana.
1200000
1000000
800000
600000
frecvente absolute
400000
200000
0
49 00 50 47 333 8 45 67 16 44 00 50 42 33 83 40 67 16 39 00 50 37 33 83 35 67 16 34 00 50 32 333 8 30 67 16 29 00 50 27 33 83 25 67 16 24 00 50 22 33 83 20 67 16 19 000 5 17 33 83 15 67 16 14 00 50 12 33 83 10 7 66 91 0 00 75 3 33 58 67 6 41 0 00 83 25 33
consumul per capita al gospodariilor (lei), in 1995
Dac dorim s aflm valoarea "tipic" a consumului per capita ntr-o gospodrie pentru o distribuie ca cea din Graficul 1.4, este mai indicat s utilizm mediana, deoarece modul de calcul al acesteia este mai apropiat n acest caz de ceea ce nelegem noi n mod obinuit prin "centrul distribuiei": 50% dintre cazuri dedesubt i 50% deasupra. Mediana are avantajul de a nu fi influenat de valorile "extreme" ale seriei de date. Media seriei de date reprezentate n Graficul 1.4 este mai mare dect mediana tocmai datorit existenei unui numr relativ mic
(b) mediana se afl la dreapta modului iar media se afl la dreapta medianei
(c) mediana se afl la stnga modului iar media se afl la stnga medianei
2.2.2 Msuri ale variaiei Msurile tendinei centrale sunt eseniale pentru descrierea unei caracteristici a unui eantion sau a unei populaii, ns ele nu sunt suficiente. Pentru descrierea complet a unei variabile este foarte important s tim deasemenea i ct de "mprtiate" sunt valorile acesteia n jurul tendinei centrale sau, cu alte cuvinte, ct de omogen respectiv eterogen este populaia (eantionul) studiat n raport cu o anumit caracteristic. S lum ca exemplu performana la o anumit materie a unei grupe de 80 studeni, msurat cu note de la 1 la 10 (datele sunt prezentate n Tabelul 1.3). Nota medie a respectivei grupe este 7,31. Aceast informaie ns pare a fi insuficient pentru a ne putea pronuna asupra performanei respectivei grupe. ntrebarea pe care ne-o punem n mod natural este: ct de omogen este respectiva grup n ceea ce privete performana colar? Un prim rspuns la aceast ntrebare l putem da prin simpla examinare a intervalului n care sunt cuprinse notele respectivilor studeni, sau mai bine zis prin calcularea amplitudinii variabilei. Amplitudinea unei variabile este diferena dintre valoarea maxim i valoarea minim a acelei variabile. Pentru exemplul nostru, amplitudinea este 10 - 3 = 7 puncte. Deci, cei 80 de studeni sunt distribuii de-a lungul unui interval de apte puncte. O msur a variaiei mai rafinat dect amplitudinea o reprezint abaterea interquartil, care se calculeaz ca diferen ntre quartila 3 i quartila 1. Abaterea interquartil msoar mprtierea celor 50% din observaii aflate la mijlocul distribuiei. Ea are practic aceleai avantaje pe care le are i mediana ca msur a tendinei centrale, i anume nu este influenat de existena cazurilor extreme. De cele mai multe ori suntem ns interesai s folosim o msur a variaiei unei variabile care s includ toate observaiile, nu numai dou dintre ele ca n cazul amplitudinii i abaterii interquartile. n plus, suntem interesai s examinm variaia n raport cu o msur a tendinei centrale. De obicei, msurile care satisfac aceste dou cerine sunt bazate pe abaterile observaiilor de la medie. Abaterea de la medie a unei observaii este diferena dintre valoarea pe care o ia respectiva observaie i media variabilei ( xi X ).Una din proprietile mediei este ns aceea c suma tuturor abaterilor individuale de la medie este egal cu 0:
O alt msur, mult mai rspndit, este variana variabilei. Variana (sau dispersia) se definete ca fiind media aritmetic a ptratelor abaterilor individuale de la medie: 1 Varianta = ( xi X ) 2 N
Din motive teoretice care nu vor fi expuse n acest manual, pentru calcularea varianei la nivel de eantion se folosete formula: 1 s2 = ( xi X ) 2 , N 1 iar pentru date grupate n tabele de frecvene (ca n Tabelul 1.3): 1 s2 = (x j X )2 f j N 1 unde: xj este valoarea variabilei pe care o ia grupa j fj este frecvena absolut de apariie a lui xj Deoarece variana, datorit ridicrii la ptrat, este destul de dificil de interpretat, cea mai utilizat msur a variaiei unei variabile, pentru scopuri descriptive, este abaterea standard, definit ca radical de ordinul doi (rdcin ptrat) din varian: s = s2 Din formula abaterii standard reiese clar c abaterea standard va fi cu att mai mare cu ct valorile pe care le iau observaiile se abat mai mult de la medie. S considerm de exemplu notele la o materie a dou grupe mici de elevi, ambele serii de date avnd media 6 i amplitudinea 8: Grupa 1: Grupa 2: 2, 4, 6, 6, 8, 10 2, 2, 5, 7, 10, 10
(x
i =1
X ) = 0 (sau cu alte
cuvinte, abaterile pozitive se vor anula cu cele negative). n consecin, pentru a obine o msur a variaiei la nivelul ntregului eantion sau a ntregii populaii trebuie utilizat fie suma valorilor absolute ale abaterilor individuale de la medie, fie suma ptratelor acestor abateri. Abaterea medie absolut este definit ca medie aritmetic a abaterilor individuale absolute (ignornd semnul acestora) de la media variabilei: 1 AMA = xi X N
ntrebarea pe care ne-o putem pune este: ct de omogene sunt cele dou grupe? Calculul abaterilor standard arat c n prima grup s1 = 2,8, iar n a doua s2 = 3,6. Este clar deci c prima grup e mai omogen dect a doua, n care variabilitatea performanei e mai mare. n exemplul de mai sus am comparat dou grupe de subieci din punct de vedere al omogenitii pentru o aceeai caracteristic. ns atunci cnd trebuie analizm omogenitatea unei singure populaii sau a unui eantion apar ntrebari al cror rspuns e mai dificil de dat: "cum interpretm magnitudinea abaterii standard?", "cnd putem spune c avem o abatere standard mic sau una mare?", "cum putem compara omogenitatea unei populaii pentru dou variabile diferite?". Practic, rspunsul la prima ntrebare depinde n mare msur i de alte caracteristici ale distribuiei. Pentru un anumit tip de distribuii interpretarea magnitudinii abaterii standard este mai uoar, i acest lucru va fi tratat n Capitolul 2 al acestui manual. n cazul celorlalte dou ntrebri un rspuns satisfctor poate fi dat cu ajutorul unei alte msuri, numite coeficient de variaie, calculat ca raport ntre abaterea standard i media unei varibile:
CV =
s X
Prin modul de calcul, coeficientul de variaie are avantajul de a fi o msur adimensional (fr unitate de msur), deoarece unitatea de msur a abaterii standard este aceeai cu cea a mediei. n consecin, el este foarte util n compararea variaiei a dou variabile msurate pe aceai populaie/eantion. Putem astfel trage concluzii de tipul: "populaia A este mai eterogen n privina caracteristicii X dect n privina caracteristicii Y", concluzii imposibil de formulat numai cu ajutorul abaterii standard deoarece abaterea standard este o msur dimensional i deci nu putem compara "mere cu pere" (de exemplu abaterea standard a performanei colare cu abaterea standard a veniturilor familiei). Prin modul su de calcul coeficientul de variaie indic practic ct la sut din medie corespunde unei abateri standard, ceea ce face mai uor de evaluat gradul de omogenitate a populaiei studiate. O populaie cu o abatere standard egal sau mai mare dect media poate fi considerat n cele mai multe cazuri o populaie eterogen, n timp ce o populaie a crei abatere standard reprezint 0,3 (30%) din medie poate fi considerat o populaie relativ omogen. Este important ns de reinut faptul c acest coeficient nu poate fi calculat dect n cazul variabilelor msurate la nivel de raport, deoarece n cazul variabilelor nominale i ordinale abaterea standard nu poate fi calculat, iar n cazul variabilelor msurate la nivel de interval media este una convenional, ceea ce face posibil transformarea variabilei prin adunarea unei constante la valorile acesteia, fr ca semnificaia valorilor variabilei s se modifice O astfel de transformare ar lsa nemodificat abaterea standard (lucru care poate fi demonstrat matematic) ns ar modifica media variabilei. Ori aceasta nseamn c pentru aceeai caracteristic am putea calcula coeficieni de variaie diferii ca valoare. 2.3 Transformarea unei variabile cu ajutorul scorului z n practica analizei de date se ntmpl de multe ori s dorim s comparm dou observaii ntre ele, pentru o aceeai variabil, din punct de vedere al distanei lor fa de medie. Dar acest tip de informaie asupra poziiei relative a unor observaii nu ofer ntotdeauna o informaie mulumitoare. Cercettorul poate fi interesat s evalueze magnitudinea distanei dintre valoarea pe care o ia o observaie i medie n raport cu distana medie n eantion. Cu alte cuvinte, el se poate ntreba: ct de mare este abaterea de la medie a unei (unor) observaii n raport cu abaterea medie observat n populaie? De asemenea, se poate ntmpla s dorim s comparm poziia relativ a aceleiai observaii fa de mediile a dou variabile. n acest caz ns, unitile de msur i magnitudinea valorilor variabilelor ne pot mpiedica s facem o comparaie cu sens. O soluie a acestor probleme este transformarea sau standardizarea Tabelul 1.4 Judeul Total judee variabilelor cu ajutorul scorului z. Brila Medie Abatere S presupunem c ne standard intereseaz s aflm ce s-a Rata n omajului 1995 10.8 9.705 3.384 ntmplat cu rata omajului n Rata omajului n 1997 13.5 9.088 2.960 judeul Brila n perioada 1995 1997. n Tabelul 1.4 sunt prezentate
valorile ratei omajului n judeul Brila pentru anii 1995 i 1997, precum i mediile i abaterile standard ale ratelor omajului pe judee n anii menionai. Dac ne vom uita la evoluia omajului numai pentru judeul analizat, vom sesiza o cretere considerabil a ratei omajului, fr s putem spune nimic ns despre evoluia acesteia n raport cu evoluia celorlate judee. Standardizarea celor doua variabile (rata omajului n 1995, respectiv rata omajului n 1997) ar putea s ne ofere informaii n plus. Standardizarea valorilor unei variabile X se face dup formula: zi = xi X s
unde: zi este valoarea pe care o ia observaia i dup transformarea variabilei xi este valoarea pe care o ia observaia i pentru variabila X X este media variabilei X s este abaterea standard a variabilei X Rezultatul acestei transformri va fi o nou variabil Z care va avea ntotdeauna media egala cu 0 i abaterea standard egal cu 1, datorita formulei de calcul. Practic, putem spune c unitatea de msur a noii variabile Z este chiar abaterea standard a variabilei X. Scorurile z ne vor informa asupra distanei la care se gasete o observaie fa de media seriei de date, distan msurat n abateri standard ale variabilei originale X. Este important de reinut faptul c aceast transformare nu modific n nici un caz forma distribuiei variabilei. Dac aplicm formula de mai sus pe datele din exemplul nostru vom obine valorile standardizate ale ratelor omajului n 1995 i 1997 din judeul Brila: zs95B = 0,32 i respectiv zs97B = 1,49 De aici rezult c n 1995 judeul Brla se gsea la numai 0,32 abateri standard fa de media omajului pe judee, iar n 1997 omajul n respectivul jude era cu 1,49 abateri standard mai mare dect media, ceea ce poate fi interpretat ca o nrutaire semnificativ a poziiei relative a acestui jude n privina ocuprii forei de munc. 2.4 Variabile dihotomice n ultima seciune a acestui capitol ne vom ocupa de un tip mai special de variabile, i anume variabilele dihotomice sau binare, adic variabile care au dou valori posibile. Exemple de astfel de variabile sunt intenia de a fi prezent la vot (da/nu), succesul sau eecul unui program de dezvoltare etc. Acest tip de variabile sunt deosebit de utile n practica analizelor statistice deoarece, la limit, ele pot fi considerate ca fiind msurate la nivel de raport. Dac vom codifica valorile unei astfel de variabile cu 0 respectiv 1 vom obine o variabil care practic msoar prezena sau absena caracteristicii studiate (intenia de a se prezenta la vot, succesul programului de dezvoltare etc.). Ele vor avea deci un 0 absolut (absena caracteristicii) i o unitate de msur (prezena caracteristicii). n aceste condiii ne putem ntreba cum se calculeaz media i respectiv abaterea standard ale acestor variabile.
Dac lum ca punct de plecare formula de calcul a mediei pentru date grupate prezentat n seciunea 2.2, atunci vom avea:
4.
X =
f
j =1
xj =
Valorile variabilei ocupatie, intr-un grup de 5 persoane, sunt: 1, 3, 3, 4, 5. Tendinta centrala in acest grup, pentru variabila ocupatie, poate fi descrisa prin:
f 0 0 + f1 1 f 1 = = p, N N
1. 2. 3. 4. 5.
media egala cu 3,2 mod egal cu 3 mod egal cu 2 mediana egala cu 3 nici una dintre acestea
unde f0 este frecvena absolut de apariie a lui 0, iar f1 este frecvena absolut de apariie a lui 1. Cu alte cuvinte, media unei variabile dihotomice este chiar frecvena relativ de apariie a valorii 1 (numrul de observaii care iau valoarea 1 mprit la numrul total de observaii ale seriei de date), adic frecvena relativ (notat aici cu p) a cazurilor n care caracteristica studiat este prezent. Dac analiza este efectuat pe o populaie i nu pe un eantion, atunci vom spune c media unei variabile dihotomice este chiar probabilitatea de apariie a caracteristicii studiate (aceasta ns numai n cazul n care respectiva variabil este codificat 0/1). Similar cu demonstraia n cazul mediei, se poate arta ca formula abaterii standard pentru o variabil dihotomic este: s= p (1 p ) ,
unde p este frecvena relativ a prezenei caracteristicii studiate. Exerciii i probleme 1. Veniturile gospodriilor locuitorilor rii Alfa, care cuprinde 87 de milioane de gospodrii, sunt distribuite n jurul unei valori medii de 27000 Alfa-lei i o median de 22000 Alfa-lei. a. Ce se poate spune despre simetria distribuiei veniturilor? b. Care este venitul ntregii ri (toate cele 87 de milioane de gospodrii)? Pentru urmtoarele ntrebri, s se ncercuiasc varianta corect /variantele corecte: 2. Decila 5 este o masura a: 1. 2. 3. 4. 1. 2. 3. 4. 5. tendintei centrale variatiei formei distributiei nici una dintre acestea media quartila 2 modul abaterea standard nici una dintre acestea
3.
Valoarea sub care se afla 50% dintre cazurile seriei de date ordonate de la minim la maxim este:
Capitolul 2 Distribuii de probabilitate
2.1 Probabilitate: noiuni introductive Cel mai simplu i mai des ntlnit exemplu pentru o definire intuitiv a noiunii de probabilitate este aruncarea zarului, care st de altfel la baza teoriei probabilitilor, cel puin din punct de vedere istoric. Ce s-ar ntmpla dac am arunca un zar (ne-trucat) de 50 de ori? Dar daca l-am arunca de numai 10 ori? Dar dac l-am arunca de cteva milioane de ori? Cum ar arta distribuia frecvenelor relative pentru fiecare din cele trei cazuri de mai sus? Deoarece zarul nu este trucat, ne ateptm ca fiecare din cele 6 fee ale sale s aib aceeai "probabilitate" de a cdea n sus la fiecare aruncare. Cu alte cuvinte, "ntmplarea" va hotr care fa va iei "ctigtoare". n acest caz, am putea simula aruncarea zarului cu ajutorul unui tabel cu numere aleatoare, lund n considerare numai numerele de la 1 la 6. S vedem cum arat frecvenele relative (de data aceasta nu le vom mai exprima n procente, ci le vom calcula simplu ca f/n, adica frecvena absolut (de apariie a unei fee a zarului) mparit la numrul total de aruncri. n acest caz putem privi fiecare aruncare ca pe o observaie, iar numrul total de aruncri ca pe mrimea eantionului.
Tabelul 2.1 Distribuia frecvenelor relative ale valorilor unui zar, pentru eantioane de mrime diferit (numr de aruncri) Frecvene relative f/n, unde n este numrul de aruncri cu zarul Numr de puncte n = 10 n = 50 n= 1 0,10 0,22 1/6 = 0,167 2 0 0,12 1/6 = 0,167 3 0,10 0,14 1/6 = 0,167 4 0,20 0,14 1/6 = 0,167 5 0,30 0,14 1/6 = 0,167 6 0,30 0,24 1/6 = 0,167 1,00 1,00 1,00
rezultate mult mai complex. S considerm de exemplu un experiment care const din aruncarea repetat de trei ori a unei fise colorate cu albastru pe o parte i cu galben pe cealalt. Un rezultat posibil al acestui experiment ar fi AGA, adica albastru, galben, albastru (culoarea feei cu care fisa cade n sus). Care este probabilitatea acestui rezultat? Teoretic, ar trebui s repetm acest experiment de milioane i milioane de ori i s calculm frecvena relativ de apariie a respectivului rezultat. Mai simplu ar fi ns s recurgem la un experiment mental. Care sunt rezultatele posibile ale acestui experiment? Iat o listare a lor: AAA, AAG, AGA, AGG, GAA, GAG, GGA i GGG, adic 8 rezultate. S presupunem c fiecare fa a fisei are aceeai probabilitate de apariie; aceasta nseamn c fiecare din rezultatele menionate va avea aceeai probabilitate, adic 1/8. Deci, probabilitatea rezultatului AGA este 1/8. Putem fi ns interesai de un subset al setului complet de rezultate, sau cu alte cuvinte de un anumit eveniment, cum ar fi "cel puin de doua ori galben". Acest eveniment este format din subsetul de 4 rezultate {AGG, GAG, GGA, GGG}. Care este probabilitatea acestui eveniment? Rspunsul intuitiv i corect este 4/8. Cu alte cuvinte, probabilitatea unui eveniment este suma probabilitilor rezultatelor incluse n acel eveniment. Evenimente combinate S presupunem acum c ne intereseaz probabilitatea de apariie a urmtoarei combinaii: "mai puin de dou ori galben sau toate de aceeai culoare". S notm cu J evenimentul "mai puin de dou ori galben" i cu H evenimentul "toate de aceeai culoare". Evenimentul J include rezultatele {AAA, AAG, AGA, GAA}, iar evenimentul H include rezultatele {GGG, AAA}. Evenimentul "J sau H", care ne intereseaza pe noi va include deci rezultatele {AAA, AAG, AGA, GAA, GGG} i va avea probabilitatea 5/8, deoarece avem 5 rezultate din 8, iar rezultatele n exemplul nostru au probabiliti egale (1/8). Putem deci defini evenimentul "J sau H" ca fiind acel subset de rezultate care sunt incluse fie n J, fie n H, fie n amndou. Similar, vom defini evenimentul "J i H" ca fiind acel subset de rezultate care se gsesc att n J ct i n H (n cazul nostru e vorba de {AAA}, deci probabilitatea lui "J i H" este 1/8). Conform exemplului de mai sus, am putea scrie: Pr(J sau H) = Pr(J) + Pr(H) - Pr(J i H), deoarece n exemplul de mai sus nu am numrat de dou ori rezultatul {AAA}, ci numai o dat. Cu alte cuvinte, scderea probabilitii lui "J i H" a fost facut tocmai pentru a elimina dubla numrare a unor rezultate. n cazul n care avem de-a face cu dou evenimente, s zicem I i K, mutual exclusive, adic Pr(I i K) = 0, atunci Pr(I sau K) = Pr(I) + Pr(K) Probabiliti condiionate S presupunem acum c n timpul celor 3 aruncri (deci pe parcursul experimentului) se tie c a aprut evenimentul J (mai puin de dou apariii ale feei galbene pe parcursul celor trei aruncri ale fisei). Care este probabilitatea ca H s se ntmple? - adic la toate aruncrile s apar aceeai culoare. Cu alte cuvinte, dac ar fi s ne imaginm foarte multe repetiii ale experimentului i s luam n considerare numai
n tabelul de mai sus observm un un fenomen la care de altfel ne ateptam: cu ct crete numrul de aruncri, cu att frecvenele relative se apropie de egalitate - i aceasta deoarece, aa cum am mai spus, dac un zar e "cinstit" atunci fiecare fa a sa are aceeai "ans" de apariie. Dac numrul de aruncri este mic, frecvenele relative fluctueaz puternic. Pe msur ns ce numrul de aruncri (sau altfel spus mrimea eantionului) crete ele vor tinde ctre o valoare pe care o numim probabilitate. Desigur, dac zarul ar fi fost trucat, nu am mai fi putut "ghici" c probabilitatea de apariie a unei fee este 1/6, ci ar fi trebuit s estimm probabilitatea printr-un numr de aruncri care s tind catre infinit. Putem considera aruncarea cu zarul din exemplul de mai sus ca pe un experiment cu 6 rezultate (cele 6 fee ale zarului). De obicei ns, un "experiment" are un set de
acele cazuri n care apare J, ct de des va aprea H? n termeni de probabiliti, aceasta nseamn c dorim s aflm probabilitatea lui H condiionat de J, notat cu Pr(H|J). S presupunem c repetm experimentul de 100 de milioane de ori. Cum probabilitatea de apariie a lui J este de 4/8, aceasta nseamn ca J apare de 50 de milioane de ori. Pe de alt parte, din cele patru rezultate incluse n J, numai unul este inclus i n H, i anume {AAA}, care are probabilitatea 1/8, deci apare de 12,5 milioane de ori. Deducem de aici c H apare de 12,5 milioane de ori din 50 de milioane, sau altfel spus Pr(H|J) = 12,5/50 = 1/4 = 0,25. S ncercm acum s scriem forma general a unei probabiliti condiionate: Pr( H J ) = Pr( J si H ) Pr( J )
a) Pr (S) = 0,078 + 0,072 = 0,15, sau cu alte cuvinte, rata omajului n respectivul ora este de 15%. La acelai rezultat am fi ajuns i dac am fi calculat probabilitatea de a fi omer mprind numrul total de omeri (15600 + 14400) la totalul populaiei de vrst activ (200000). Pr( S si F ) 0,078 = = 0,15 b) Pr( S F ) = Pr( F ) 0,52 Deoarece probabilitatea calculat la punctul a) este egal cu probabilitatea calculat la punctul b), putem spune ca probabilitatea de a fi omer (S) nu este afectat de faptul c o persoan este femeie (F). Acest tip de independen, definit n termeni de probabiliti, se numete independen statistic. Putem acum s dm definiia exact a independenei: L se numete independent statistic de M dac Pr(L|M) = Pr(L).
De aici putem deduce c: Pr(J i H) = Pr(J)Pr(H|J) Independen Consecina acestei definiii este foarte important: de aici rezult c dac avem doua evenimente independente J i H, atunci: Pr(J i H) = Pr(J)Pr(H|J) = Pr(J)Pr(H). n statistic independena este un concept foarte precis, care se definete cu ajutorul probabilitilor. Vom ilustra aceasta cu ajutorul unui exemplu. ntr-un ora situaia ocuprii populaiei de vrst activ (200.000 de persoane) arat ca n tabelele prezentate n Exemplul 2.1. Primul tabel (a) reprezint numrul de indivizi omeri, Exemplul 2.1 Este omajul dependent de sexul indivizilor? respectiv ocupai, n funcie de sex. Cel de-al doilea tabel (b) reprezint probabilitile de (a) Frecvene absolute apariie pentru fiecare din cele 4 situaii omeri ocupai 15600 88400 posibile: a fi femeie i a fi omer - Pr (F i S), femei 14400 81600 a fi brbat i a fi omer - Pr(B i S) etc. Suma brbai probabilitilor din cele 4 celule ale tabelului (b) Probabiliti este egal cu 1 (orice probabilitate variaz omeri ocupai ntre 0 i 1). Probabilitile din fiecare celul femei 0.078 0.442 au fost calculate dupa formula fi/n, unde fi este brbai 0.072 0.408 frecvena absolut a unei celule (de exemplu numrul de femei omere) iar n este totalul populaiei de vrst activ (n exemplul nostru 200.000). S ncercm acum s rspundem la ntrebarile: a) Care este probabilitatea ca o persoan extras la ntmplare din populaia de vrst activ s fie omer - Pr(S)? b) Care este probabilitatea ca o persoan s fie omer, atunci cnd este femeie Pr(S|F)? Iat i soluiile: Mai mult dect att, dac H este independent de J, atunci i J trebuie s fie independent de H. 2.2 Variabile aleatoare Cazul variabilelor discrete S ne imaginm acum c dorim s analizm populaia familiilor cu trei copii, i suntem interesai de numrul de fete pe care o astfel de familie l-ar putea avea. Putem s considerm o familie cu trei copii ca pe un experiment oarecum similar cu cel din seciunea precedent: ntr-o familie care i planific s aib trei copii, rezultatele posibile sunt: biat, biat, biat (BBB), biat, biat, fat (BBF) etc. ntr-o astfel de familie numrul de fete poate fi 0, 1, 2 sau 3. Dac Tabelul 2.2 probabilitatea de a se nate o fat este egal cu r Pr(r) probabilitatea de a se nate un biat, atunci BBB 0,166 fiecare din rezultatele posibile are aceeai BBF 0,136 BFB 0,136 probabilitate 1/8. S complicm puin lucrurile i BFF 0,111 s presupunem c probabilitatea de a se nate o FBB 0,136 fat este de 0,45, iar probabilitatea de a se nate FBF 0,111 un biat este 0,55. Aceasta nseamn ca FFB 0,111 probabilitatea ca primul copil s fie o fat este de FFF 0,091 0,45, iar probabilitatea ca al doilea copil s fie o Not: totalul nu este exact egal cu 1 datorit fat este 0,45. De unde deducem ca probabilitatea rotunjirilor ca primii doi copii s fie fete este egal cu 0,45 din 0,45, adic 0,45 x 0,45 = 0,202. Tot astfel putem calcula i probabilitatea ca toi trei copiii s fie fete, adic Pr(FFF) = 0,45 x 0,45 x 0,45 = 0,091. n Tabelul 2.2 sunt prezentate probabilitile de apariie ale rezultatelor acestui experiment. Revenind la
problema de la nceputul seciunii - numrul de fete pe care o familie cu trei copii l poate avea - trebuie s obinem distribuia de probabiliti a variabilei aleatoare "numr de Tabelul 2.3 Distribuia variabilei aleatoare X = numr de fete fete" (notat cu X). Tabelul 2.3 prezint aceast x p(x) distribuie. Probabilitatea ca o familie s nu aib 0 0,166 nici o fat este Pr(BBB) = 0,166; probabilitatea 1 0,408 2 0,334 ca o familie s aib o singur fat este Pr(BBF) + 3 0,091 Pr(BFB) + Pr(FBB) = 0,136*3 = 0,408 .a.m.d. O variabil discret aleatoare este deci acea Not: totalul nu este exact egal cu 1 datorit rotunjirilor variabil X care ia diferite valori x cu probabiliti specificate de distribuia sa de probabilitate p(x). Cazul variabilelor continue Pentru o variabil continu exist un continuum de valori posibile. n capitolul 1, Graficul 1.1, am reprezentat histograma distanelor de la centrul comunei pn la cel mai apropiat ora cu peste 30de mii de locuitori, folosindu-ne de intervale de valori. S ne imaginm acum c lum o variabil continu aleatoare i o reprezentm ca n Figura 3.1(a), astfel nct suma ariilor tuturor barelor histogramei s fie egal cu 1 (100%). Un astfel de grafic se numete densitate a frecvenelor relative. Dac numrul de observii este foarte mare, frecvenele relative vor tinde ctre probabilitate i, n acelai timp, vom putea utiliza intervale din ce n ce mai mici, adic bare din ce n ce mai nguste. n Figura 3.1(c) se poate vedea cum densitatea frecvenelor relative aproximeaz o curb, cea a lui p(x), pe care o vom numi de acum nainte distribuie de probabilitate. Ariile de sub curb reprezint probabiliti, iar aria total este egal cu 1 (deoarece probabilitatea variaz ntre 0 i 1, iar suma tuturor probabilitilor este egal cu 1). Distribuia n populaie a unei variabile nu este nimic altceva dect distribuia de probabilitate a valorilor pe care o observae extras la ntmplare din acea populaie le poate lua pentru respectiva variabil. De exemplu, dac ntr-o populaie frecvena relativ a persoanelor cu o nalime de 1,7 metri este 20%, atunci probabilitatea ca un individ extras la ntmplare
Figura 3.1 De la frecvene relative la densitatea de probabilitate
din respectiva populaie s aib 1,7 m este de 0,2. ncepnd cu aceast seciune vom face o distincie clar ntre statisticile calculate la nivel de eantion i parametrii, adic valorile din populaie. Astfel, vom vorbi depre probabilitate (notat cu ) numai atunci cnd ne referim la populaii, i despre frecvene relative (notate cu p sau fr) atunci cnd ne refeim la eantioane. Este important de reinut faptul c ntotdeauna notm statisticile la nivel de eantion cu litere latine ( x , s, p etc.) iar parametrii (valorile n populaie)cu litere greceti (, , etc.) Orice distribuie de probabilitate (sau distribuie n populaie) poate fi caracterizat cu ajutorul ctorva parametrii cum ar fi cei care descriu media acelei distribuii - notat cu i abaterea ei standard - notat cu . n studiul statisticii pot fi ntlnite multe tipuri sau familii de distribuii de probabilitate ale cror formule matematice sunt folosite pentru a calcula probabiliti. Multe dintre aceste familii de distribuii sunt deosebit de utile deoarece ele ofer aproximri bune ale unor distribuii des ntlnite n lumea real. Altele sunt deosebit de utile pentru statistica inferenial. n seciunea urmtoare ne vom ocupa de un astfel de tip de distribuie. Distribuia normal n cazul multor variabile aleatorii distribuia de probabilitate are o form specific, simetric, n form de clopot, i cu anumite proprieti particulare, care vor fi prezentate mai jos. Acest tip de distribuie se numete distribuie normal i este reprezentat n Figura 3.2 (mpreun cu formula matematic, care este ns fr importan pentru obiectivele acestui curs). De fapt este vorba despre o familie de distribuii, caracterizat de parametrii i (medie i abatere standard). Principala proprietate a acestei familii de distribuii este aceea c pentru orice numr constant z, probabilitatea concentrat la dreapta lui + z este aceeai Figura 3.2 Distribuia normal a unei variabile pentru toate distribuiile normale. Datorit faptului ca distribuia este simetric, probabilitatea concentrat la dreapta lui + z este egal cu probabilitatea concentrat la stnga lui - z. Cu alte cuvinte aria de sub curb aflat la dreapta lui + z este egal cu aria aflat la stnga lui - z. Cnd z = 1,96 (adic aproximativ 2), aria cuprins ntre - z i + z este egal cu 0,95. Cnd z = 1 (ca n Figura 3.2) aria cuprins ntre - z i + z este egal cu aproximativ 0,68. Mai mult, n cazul distribuiei normale aproape toat aria de sub curb este cuprins ntre ntre - 3 i + 3 (z=3). Acest gen de informaie este foarte util: s presupunem c scorurile unor elevi ai unei clase, notai pe o scal de la 0 la 100, sunt normal distribuite n jurul mediei 60, cu o abatere standard
(a)
(b)
(c)
de 5 puncte. Aceasta nseamn c 68% dintre elevi au note ntre 55 i 65, iar 95% dintre ei au note ntre aproximativ 50 i aproximativ 70. Sau, mai corect spus, probabilitatea ca un elev extras la ntmplare din respectiva grup s aib un scor ntre 50 i 70 este de 0,95. Dac notele elevilor nu a fi avut o distribuie normal, ci ar fi avut, s zicem, o distribuie alungit spe stnga, probabilitatea ca un elev s aib un scor cuprins ntre anumite limite ar fi fost extrem de dificil de calculat (practic ar fi trebuit calculat aria de sub curb dac respectiva distribuie nu ar fi putut fi aproximat de nici o form funcional cunoscut). Aa cum am mai artat, n realitate exist o familie de distribuii normale, fiecare caracterizat de o medie i o abatere standard . De exemplu, greutile locuitorilor unui ora ipotetic se distribuie normal cu media 56 kg i abaterea standard 18 kg; nlimile copiilor dintr-o coal se distribuie normal cu media 1,5 m i abaterea standard 10 cm etc.. Proprietile distribuiei normale ne permit ca pentru fiecare din aceste variabile s gsim exact probabilitatea ca un anumit individ s aib o greutate mai mare de, s zicem, 64 de kg sau o nlime cuprins ntre 1,45 m i 1,57 m. Acest lucru se poate face cu ajutorul unor tabele care conin ariile dintre i + z pentru diferite valori ale lui z1. Deoarece proprietile distribuiei normale sunt aceleai indiferent de valoarea mediei i abaterii standard, se apeleaz la un caz special al distribuiei normale, i anume la distribuia normal normat sau standard. Aceasta este o distribuie normal cu media 0 i abaterea standard 1. n Anexa 1 a acestui manual este prezentat un tabel cu ajutorul cruia pot fi calculate ariile dintre i + z pentru Figura 3.3 Aria dintre 0 i z diferite valori ale lui z, n cazul distribuiei normale normate. Deoarece n acest caz = 0 iar = 1, tabelul conine practic aria cuprins ntre 0 i z (vezi Figura 3.3). Aceast arie este practic aceeai cu aria cuprins ntre i + z n cazul oricrei distribuii normale (cazul general). n continuare este ilustrat modalitatea de folosire a tabelului (Anexa 1), pe care l vom numi de acum ncolo pentru convenien "tabel z": S ne ntoarcem la exemplul de mai sus i s calculm probabilitatea ca un elev s obin un scor mai mare dect 70. Pentru aceasta este nevoie s calculm aria aflat la dreapta valorii 70. Tabelul nostru ofer ns valoarea ariei aflate ntre valorile i + z. Cum distribuia normal este simetric, aceasta nseamn ca aria aflat la dreapta mediei este egal cu jumtate din aria totala aflat sub curb, adic cu 0,5 (deoarece aria total a unei distribuii de probabilitate este ntotdeauna 1). Pentru a afla aria aflat la dreapta lui 70, va trebui s cutam n tabel aria cuprins ntre medie (60) i 70, i apoi s scdem aceast arie din 0,5 (adic din toat aria aflat la dreapta mediei). Pentru a afla aria cuprins ntre 60 (adic ) i 70 ( + z) adic , va trebui s aflm valoarea lui z: + z = 70, de unde z = 70 70 60 = =2 5
Dac ne uitm atent la expresia utilizat mai sus pentru calcularea lui z vom vedea c este practic aceeai cu formula scorului z prezentat n Capitolul 1 (ceea ce difer sunt
1
Unele manuale prezint tabele aria din dreapta lui + z, ns algoritmul de calcul al probabilitilor este este acelai.
doar notaiile folosite pentru medie i abatere standard). Deci, ceea ce am fcut nu este practic nimic altceva dect standardizarea cu scorul z a valorii 70. Nu ne mai rmne acum dect s cautm n tabel aria cuprins ntre 0 i z. Tabelul este organizat n felul urmtor: la capetele de rnd (n stnga) se gsesc valorile care corespund unitilor i primei zecimale ale lui z; la capetele de coloan (sus) se gsesc valorile care corespund celei de-a doua zecimale ale lui z. De exemplu, dac vom cuta valoarea 1,96, va trebui s cutm rndul cu valoarea 1,9 i coloana cu valoarea 0,06 (adunate, aceste dou valori dau exact 1,96). La intersecia rndului "1,9" cu coloana "0,06" vom gsi valoarea 0,4750, care este exact aria cuprins ntre 0 i z = 1,96, sau altfel spus probabilitatea ca o observaie s ia o valoare cuprins ntre i + 1,96 (adic ntre medie i 1,96 abateri standard). S ne ntoarcem acum la exemplul nostru i s calculm aria cuprins ntre 0 i z = 2. n tabel, la intersecia rndului 2,0 i a coloanei 0,00 se gasete valoarea 0,4772. Aceasta este probabilitatea ca un elev ales la ntmplare s obin un scor ntre 60 i 70. Pe noi ns ne intereseaz care este probabilitatea ca Figura 3.4 Probabilitatea ca un elev ales la un elev s obin un scor mai mare de 70, ntmplare s obin un scor mai mare de 70 adic aria din dreapta lui z = 2. Pentru a o obine va trebui s efectum scderea 0,5 0,4772, ceea ce are ca rezultat 0,0228. Dac am fi interesai s aflm i probabilitatea ca un elev s obin un scor mai mic dect 50 (adic 60 - 10) nu am avea nevoie de nici un calcul suplimentar, deoarece datorit simetriei distribuiei aria aflat la stnga lui z = -2 este (a) distribuia normal, cazul general egal cu aria aflat la dreapta lui z = 2. S ncercm acum s recapitulm cu ajutorul unui alt exemplu algoritmul de calcul al unei probabiliti cu ajutorul tabelului z. Exemplul 2.1 S presupunem c nlimile copiilor dintro coal se distribuie normal cu media 1,5 m i abaterea standard 10 cm. Care este probabilitatea ca copil extras la ntmplare s (b) distribuia normal normat aib o nime cuprins ntre 1,3 m i 1,4 m? Pentru a rspunde, s convertim mai nti cele dou valori (1,3 m i respectiv1,4 m) n scoruri z, pentru a msura distana lor fa de medie n abateri standard. Practic, aceast convertire nseamn o transformare a distribuiei normale iniiale (cu media = 150 cm i abaterea standard = 10 cm) ntr-o distribuie normal normat (cu media 0 i abaterea standard 1). z130 = ( 130 - 150)/10 = -2 z140 = (140 - 150)/10 = -1 (calculele de mai sus au fost fcute in cm) Trebuie deci s gsim aria de sub curba distribuiei normale normate cuprins ntre -2 i -1. Aria cuprins ntre -2 i 0 este egal cu aria cuprins ntre 0 i 2, i conform tabelului z are valoarea 0,4772. n acelai mod gsim i aria dintre -1 i 0, care este egal cu 0,3413. Cum pe noi ne intereseaz aria dintre -2 i -1, vom efectua scderea 0,4772 -
0,3413= 0,1359. Deci, probabilitatea ca un elev selectat la ntmplare s aib ntre 1,3 i 1,4 metri nlime este de aproximativ 0,14. Dac notm nalimea cu X, atunci afirmaia de mai sus se scrie: Pr(1,3<X<1,4) = 0,1359 nainte de a ncheia acest capitol este necesar s atragem atenia asupra faptului c, deoarece probabilitile pe care le putem calcula cu ajutorul distribuiei normale reprezint de fapt arii, este practic lipsit de sens s ncercm s calculm Pr(X), pur i simplu - de exemplu Pr(1,3) - deoarece aceasta ar nsemna s ncercm s calculm aria unei drepte. Exerciii i probleme 1. S presupunem c A i B sunt dou evenimente independente, cu Pr(A) = 0,6 i Pr(B) = 0,2. Care este: a. Pr (A|B)? b. Pr ( A i B)? c. Pr (A sau B)? 2. O anchet naional asupra cuplurilor arat c 30% din neveste urmreau un anumit program de televiziune i la fel 50% dintre brbai. Mai mult, dac nevestele se uitau la televizor probabilitatea ca i brbaii s urmreasc programul cretea cu 60%. Pentru un cuplu aleator ales care este probabilitatea ca: a. b. c. d. Ambii s se uite la televizor? Cel puin unul s se uite la televizor? Nici unul s nu se uite la televizor? Dac soul se uit la televizor, s se uite i soia?
Capitolul 3 Eantionarea. Distribuia de eantionare. Intervale de ncredere 3.1 Cercetri selective: de la populaie la eantion Cine va ctiga alegerile prezideniale sau parlamentare? Sunt femeile o minoritate defavorizat n societile moderne? O politic public sau o decizie administrativ produce modificri ale comportamentelor indivizilor vizai de acea politic public sau de acea decizie? Cine este pentru i cine este mpotriva introducerii unor noi msuri fiscale? Ct de popular este msura luat de autoritile dintr-o anumit unitate administrativ de a construi o nou zon industrial? Toate aceste ntrebri au n comun o caracteristic important i anume: se refer la populaii att de largi nct este practic imposibil de obinut informaii cu privire la toate elementele care le compun. Cu situaii asemantoare - imposibilitatea cuprinderii tuturor elementelor care compun un ntreg - se confrunt i medicul care face analize de snge i care nu poate extrage tot sngele aflat n organismul unui pacient pentru a l supune unei investigaii n laborator, cei care fac analize ale unor elemente din mediul natural pentru a stabili nivelul de poluare, sau cercettorul din tiintele naturale care taie un exemplar dintr-o specie de plante n scopul efecturii unor analize n laborator. Att n aceste situaii, ct i n multe altele de acest fel, problema care se pune este aceea de a culege informaiile necesare pentru a analiza temele avute n vedere doar de la o parte din indivizii care compun o populaie i nu de la ntreaga populaie. Din punct de vedere tehnic, grupul sau mulimea de indivizi care constituie obiectul de studiu sau de interes al cercettorului la un moment dat este denumit populaie, iar grupul mai mic de indivizi de la care sunt culese informaiile necesare cercetrii este denumit eantion. Setul de operaii cu ajutorul crora, din ansamblul populaiei vizate de cercetare, se extrage o parte, numit eantion, parte ce va fi supus nemijlocit investigaiei2 este desemnat ca fiind operaia de eantionare. Decizia de a culege datele necesare unei cercetri de la un eantion sau de la o populaie depinde de o serie de aspecte practice. Astfel, n unele situaii, dac timpul, resursele financiare i umane nu constituie o problem sau dac populaia int nu este foarte numeroas, atunci este multe mai avantajoas culegerea datelor de la toi indivizii care compun o populaie vizat; n felul acesta se obine o imagine exact a problematicii investigate. n alte situaii exist o serie de constrngeri care l impiedic pe cercettor s ajung la toi indivizii care compun o populaie, aceste constrngeri se refer n primul rnd la timp, resursele financiare i umane aflate la dispoziie, dispersarea georgrafic a populaiei care urmeaz a fi cercetat, iar soluia cea mai la ndemn pentru a culege informaiile necesare const selectarea unui eantion i investigarea indivizilor care l compun. Din acest punct de vedere am putea spune ca eantionarea este un compromis datorat insuficienei resurselor. Nu ntotdeauna este ns vorba numai de imposibilitatea fizic de a culege informaii de la toi membrii unei populaii neajuns care n unele situaii poate fi depit ci i de o lips de eficien practic spre exemplu, n cazul cercettorului din tiinele naturale, care, dac ar tia toate exemplarele unei specii de
2
3. Dac X are valori normal distribuite n jurul unei medii de 16 i cu o abatere standard de 5 s se calculeze: a. Pr (X>20) b. Pr (20<X<25) c. Pr (X<10) d. Pr (12<X<24) 4. Timpul necesar completrii unui test colar s-a dovedit a fi distribuit normal, n jurul unei medii de 110 minute i avnd o abatere standard de 20 de minute. a. Care este proporia studenilor care termin testul n dou ore (120 de minute)? b. Cnd ar trebui terminat testul pentru a permite exact unui procent de 90% dintre studeni s termine testul?
Traian Rotariu, Petre Ilu, Ancheta sociologic i sondajul de opinie, Ed. Polirom, Iai, 1997, p.122.
plante pentru a le analiza n laborator ar determina dispariia speciei respective. Pe de alt parte, concentrnd resursele existente doar pentru analiza unei pri dintr-un ntreg se pot obine rezultate mai bune dect analiznd ntregul, mai ales atunci cnd acest ntreg este format din muli indivizi a cror investigare implic utilizarea unui personal auxiliar numeros care datorit lipsei de specializare poate genera erori mai grave dect dac ar fi analizat o parte din acel ntreg utiliznd un personal specializat. 3.2 Valori msurate pe populaie i pe eantion. Distribuia de eantionare Vom ncepe discuia despre eantioane cu cel mai simplu tip de eantionare, i anume cu eantionarea simpl aleatoare. Metoda sau metodele de a realiza practic un astfel de eantion vor fi discutate pe larg ntr-o seciune ulterioar a acestui capitol. Ceea ce ne intereseaz n acest moment este numai principiul de selecie a indivizilor, specific acestui tip de eantionare. S ne imaginm c fiecarui individ care aparine populaiei de interes (fie ea o populaie de persoane, organizaii etc.) i atribuim convenional un identificator, adic un cod unic. S presupunem acum c notm fiecare identificator pe o bil i introducem ntr-o urn uria toate bilele corespunztoare indivizilor care alctuiesc repectiva populaie. Bilele au toate aceleai dimensiuni. Pentru a extrage un eantion de indivizi nu avem nimic altceva de fcut dect s extragem un numr de bile la ntmplare, egal cu mrimea dorit a eantionului. Probabililitatea de a extrage un individ este egal cu 1/N, unde N este numrul total de bile din urn. Ceea ce este important este ca dup fiecare extragere s introducem bila napoi n urn, astfel nct probabilitatea de extragere a fiecrui individ s fie aceeai. De exemplu, dac nu vom introduce prima bil extras napoi n urn, probabilitatea celei de-a doua bile de a fi extras nu va fi 1/N ci 1/(N-1). Cu alte cuvinte, extragerile nu vor fi independente (vezi Capitolul 2). Un eantion simplu aleator este deci un eantion ale crui n observaii sunt independente. S presupunem c am extras un eantion simplu aleator de mrime n dintr-o populaie de mrime N. ntrebarea care se ridic n mod firesc este: ct ncredere putem avea n rezultatele obinute dat fiind c eantionul extras la un moment dat este doar unul din multele eantioane care pot fi extrase dintr-o populaie? Spre exemplu, s presupunem c extragem aleator un eantion format din 25 de elevi dintr-o coal crora le aplicm un test de inteligen. S mai presupunem c media coeficientului de inteligen al tuturor elevilor din coal este = 132 i abaterea standard = 12. Care este probabilitatea ca eantionul extras de noi s nu aproximeze bine situaia real? Eantionul de 25 de elevi este evident doar unul din eantioanele care ar fi putut fi extrase i prin urmare i media obinut la nivel de eantion este doar una din mediile posibile. Ne putem gndi la mediile tuturor eantioanelor posibile ca la o variabil. Mai clar spus, media eantionului nostru este doar una dintre valorile posibile ale distribuiei de medii care ar putea fi obinut extrgnd multe eantioane formate din cte 25 de elevi ai colii respective. Problema este: ct de mare e probabilitatea ca media calculat n eantionul extras de noi s nu aproximeze bine media din populaie? Pentru a rspunde la aceast ntrebare trebuie s facem mai nti o distincie clar ntre trei tipuri de distribuii: distribuia unei variabile ntr-un eantion de mrime n, distribuia aceleiai variabile n populaie i distribuia mediilor tuturor eantioanelor posibile de mrime n, numit i distribuia de eantionare a mediei.
Pentru a exemplifica, s luam cazul unei unei caracteristici X ale unei populaii de mrime N = 100.000. n populaie, caracteristica X va avea media , abaterea standard , i o anumit form a distribuiei. S presupunem acum c extragem un eantion de marime n = 10 din respectiva populaie. n acest eantion, caracteristica va avea media X 1 , abaterea standard s1 i, de asemenea, o anumit form a distribuiei, foarte probabil diferit de cea din populaie. Dac vom mai extrage un eantion de mrime n = 10, vom obine o alt medie, X 2 , o alt abatere standard, s2, i probabil i o alt form a distribuiei. Dac vom extrage toate eantioanele posibile de marime n = 10 din populaia de mrime N = 100.000, vom obine tot attea medii de eantion cte eantioane am extras. Distribuia acestor medii se numete distribuie Figura 3.1 Distribuii ale mediilor unor de eantionare a mediei i dac mrimea eantionului eantioane aleatorii de mrime n = 30 este suficient de mare, atunci distribuia de eantionare este ntotdeauna normal, chiar dac valorile caracteristicii iniiale sunt sau nu normal distribuite n populatia vizat. Mai trebuie precizat c un eantion de marime n = 20 este de obicei suficient de mare pentru ca cele afirmate mai sus s fie adevrate. n Figura 3.1 sunt reprezentate distribuiile de frecvene ale mediilor unor eantioane aleatorii de (a) 3 eantioane mrime n = 30, extrase din aceeai populaie, pentru o caracteristic oarecare. n situaia (a), avem mediile primelor trei eantioane extrase, cte o medie pentru fiecare eantion (observm 3 bare de aceeai nlime, ceea ce nseamn c cele trei eantioane au medii diferite). n situaia (b) observm c distribuia frecvenelor relative ale celor 120 de medii de eantion ncepe s se apropie uor de o distribuie normal, iar n situaia (c), n care am extras 1100 de (b) 120 de eantioane eantioane, histograma frecvenelor relative ale mediilor aproximeaz foarte bine o distribuie normal. Dac am fi continuat experimentul i am fi extras toate eantioanele posibile de mrime n = 30 din respectiva populaie am fi obinut o distribuie de probabilitate - i anume distribuia de eantionare a mediei, cu toate proprietile unei distribuii normale. S ne ntoarcem ns la problema noastr cu media coeficientului de inteligen al elevilor: care e (c ) 1100 de eantioane probabilitatea ca eantionul extras de noi s aib o medie mult diferit de media n populaie? i ca s lum un exemplu concret, ne putem ntreba: care e probabilitatea ca eantionul nostru s aib o medie egal cu 127 sau chir mai mic dect att? Pentru a rezolva aceast problem trebuie s apelm la o teorem, numit Teorema limit central, care afirm c distribuia de eantionare a mediei, n cazul eantioanelor simple aleatorii, este o distribuie normal a crei medie este chiar media
din populaie, , i a crei abatere standard, numit eroare standard, este egal cu (unde este abaterea standard din populaie iar n este mrimea eantionului). n S ncercm acum o mic sintez a celor prezentate mai sus: mediile unei caracteristici msurate pe multe eantioane pot fi privite ca formnd o nou variabil pentru care vom putea calcula evident o medie Figura 3.2 Distribuia de eantionare a mediei i o abatere standard. n cazul n care eantioanele extrase sunt simple aleatorii, cu reintroducerea elementului extras n populaie (acordnd deci o ans egal fiecrui element de a fi extras), aceast nou variabil este normal distribuit. Mai mult, valoarea medie a noii variabile (media mediilor msurate pe eantioanele extrase din populaia vizat) este egal cu media din populaie a caracteristicii vizate, iar abaterea standard a acestei noi variabile este egal cu valoarea din populatie a X1 X2 abaterii standard a variabilei urmrite, mprit la rdcina ptrat din mrimea eantionului. Abaterea standard a noii variabile este denumit eroare standard (e): e=
s obinem un eantion cu o medie de 127, dintr-o populaie cu media 132 i abaterea standard 12 este de aproximativ 2%. Cazul proporiilor
Aa cum am amintit deja n Capitolul 1 cnd am discutat cazul variabilelor dihotomice, proporiile (sau frecvenele relative) calculate pentru o variabil binar nu sunt nimic altceva dect media acelei variabile. Proporia calculat ntr-un eantion (pe care o vom nota cu P) nu este nimic altceva dect o estimare a proporiei din populaie (notat cu ). Ca i n cazul mediei ( X ), i P fluctueaz de la eantion la eantion, iar distribuia proporiilor calculate pentru toate eantioanele posibile de mrime n este de asemenea una normal. Prin analogie cu distribuia de eantionare a mediei, vom spune c proporiile calculate n eantion fluctueaz n jurul proporiei din populaie , cu o eroare standard e = (1 ) / n (deoarece abaterea standard pentru proporii este egal cu (1 ) ). Pentru a ilustra cazul proporiilor, s presupunem c n Romnia 60% din electorat voteaz cu partide de stnga i 40% voteaz cu partide de dreapta. Care e probabilitatea ca un eantion simplu aleator de mrime n = 100 s conin o minoritate de votani cu stnga? Cu alte cuvinte, care e probabilitatea s obinem un eantion de o sut de persoane care ne-ar conduce ctre o concluzie greit n ce privete orientarea politic a electoratului? S trecem la rezolvarea problemei: Mai nti, vom asuma c o minoritate de votani cu stnga nseamn c mai puin de 50% din persoanele cuprinse n eantion voteaz cu stnga. Apoi, trebuie s calculm eroarea standard, e. e=
Dac aa stau lucrurile, nseamn c datele problemei noastre arat acum astfel: avem o distribuie de eantionare a mediei, care este normal, cu media = 132 i =12/5 = 2,4. Deci rspunsul la abaterea standard (numit eroare standard) n problema noastr se reduce la a calcula aria care se afl la stnga lui 127 de sub o curb normal caracterizat de i e, calcule cu care suntem deja familiarizai din Capitolul 2: Calculm mai nti scorul z pentru 127. S vedem ns mai nti cum arat formula pentru zi n condiiile n care acum observaiile sunt medii de eantion, media distribuiei este media caracteristicii n populaie, iar abaterea standard a distribuiei este eroarea standard: zi = Xi Xi = e n
(1 ) / n = 0,6 0,4 / 100 0,05
Avnd n vedere faptul c suntem interesai de votanii cu stnga, = 0,6 z50% = z0,50 = (P - )/e = (0,5 - 0,6)/0,05 = -2,00 Deci, Pr(P<0,50) = Pr(z<-2,00) = 0,023 Cu ale cuvinte, probabilitatea de a trage concluzii greite pe baza eantionului este de aproximativ 2%. 3.3 Intervale de ncredere n seciunea anterioar am rspuns la ntrebarea: care e probabilitatea ca un eantion simplu aleator s ofere rezultate deprtate de valorile observate n populaie. n practic ns, de cele mai multe ori, situaiile cu care avem de-a face i ntrebrile la care trebuie s raspundem sunt de alt natur: de obicei, cercettorul sau analistul nu cunoate valoarea real, din populaie, a parametrului, ci ncearc s o estimeze. Pentru a ilustra o astfel de situaie s lum un exemplu similar cu cel din seciunea precedent S
n cazul nostru deci, z127 = (127 - 132)/2,4 = -5/2,4 = -2,08. S calculm acum probabilitatea de apariie a unei valori egale sau mai mici dect -2,08, cu ajutorului tabelului z. Aceasta se reduce la a calcula probabilitatea de apariie a unei valori mai mari dect 2,08, de unde Pr( X <120) = Pr(z<-2,08) = 0,019. Deci, ansa
presupunem c un cercettor dorete s estimeze nivelul de inteligen al elevilor unei coli. Pentru aceasta el extrage aleator un eantion format din 25 de elevi crora le aplic un test de inteligen i obine o valoare medie a coeficientului de inteligen de 131. Bazndu-se pe acest rezultat, ce poate el spune despre nivelul de inteligen al elevilor colii respective? Eantionul de 25 de elevi este evident doar unul din eantioanele care ar fi putut fi extrase, i prin urmare i media de 131 obinut la nivel de eantion este doar una din mediile posibile. Mai clar spus, 131 este doar una dintre mediile din distribuia de medii care ar putea fi obinut extrgnd multe eantioane formate din 25 de elevi ai colii respective. Se pune deci urmtoarea problem: care este valoarea medie a coeficientului de inteligen pentru ntreaga populaie de elevi vizat? - valoare evident necunoscut pentru cercettor, altfel ce rost ar mai fi avut s fac cercetarea! Este destul de evident c dac dorim s facem o inferen despre pe Figura 3.3 Aria de sub curba distribuiei de eantionare baza lui X , i dac vrem s putem avea ncredere c aceast inferen este corect, nu putem pretinde c = X . Pare mult mai rezonabil s acceptm c exist o oarecare eroare de eantionare cu ajutorul creia sa construim o estimare de interval, sau, mai bine zis, un interval de ncredere: = X o eroare de eantionare Ct de mare ar trebui s fie ns aceast eroare? Rspunsul depinde bineneles de distribuia de eantionare a lui X , sau mai bine zis de msura n care acesta fluctueaz n jurul mediei din populaie (Figura 3.3). S ne aducem puin aminte de prezentarea distribuiei normale fcut n Capitolul 2: acolo am afirmat c pentru orice distribuie normal aria de sub curb aflat ntre 1,96 i + 1,96 este ntotdeauna 0,95 (vezi i tabelul z). n cazul distribuiei de eantionare, care este de asemenea o distribuie normal, vom spune deci c aria de sub curb cuprins ntre - 1,96e i + 1,96e (unde e este eroarea standard) este egal de asemenea cu 0,95, de vreme ce eroarea standard este abaterea standard a distribuiei de eantionare. Altfel spus, expresia Pr( - 1,96e < X < + 1,96e) = 0,95 este adevrat pentru orice distribuie de eantionare. n cuvinte, probabilitatea ca media unui eantion simplu aleator de mrime n s se gseasc ntre valorile - 1,96e i + 1,96e, este egal cu 0,95 (Figura 3.3). Inegalitile din paranteza expresiei de mai sus pot fi rezolvate pentru , obinndu-se astfel expresia echivalent: Pr( X - 1,96e < < X + 1,96e) = 0,95
Aceasta nu nseamn c nu mai e o constant - parametrul cutat de noi n populaie. Expresia de mai sus nu este nimic altceva dect o "propoziie" probabilist despre variabila aleatoare X . Media n populaie nu variaz. ntorcndu-ne la exemplul nostru pivitor la estimarea coeficientului de inteligen, s presupunem c n paralel cu cercetarea prin eantion a fost efectuat i o testare pe toat populaia de elevi din coala respectiv. Rezultatul a fost o medie a coeficientului de inteligen de 132, i o abatere standard de 12. Cercettorului nostru nu i s-a comunicat ns dect abaterea standard, aa c el a fost n continuare nevoit s estimeze media n populaie pe baza valorii obinute n eantion. n consecin, el va lua expresia de mai sus, i, dup calcularea erorii standard (e=2,4) va scrie: Pr(131- 1,96 x 2,4 < < 131 + 1,96 x 2,4) = 0,95, adic Pr(126,3 < < 135,7) = 0,95 n final deci, cercettorul va afirma "cu un nivel de ncredere" de 95% c media n populaie, , se gsete n intervalul 126 - 136. Acest interval se numete interval de ncredere. S presupunem acum c, aa cum e i firesc de altfel, cercettorul nu e foarte mulumit de precizia estimrii sale. El ar dori s fac o afirmaie mai "exact" n sensul unui interval mai restrns. Cum poate el s fac acest lucru? S ne mai uitm o dat la propoziia probabilist prezentat anterior, ns de data aceasta o vom scrie n forma sa general: Pr( X - zp/2e < < X + zp/2e) = n.i. unde n.i. este nivelul de ncredere iar zp/2 este valoarea din tabelul z corespunztoare respectivului nivel de ncredere. n condiiile n care cercettorul dorete s obin un interval de ncredere mai mic (mai restrns), el nu poate face acest lucru dect printr-un compromis, i anume reducnd valoarea absolut a lui z, sau altfel spus, reducnd nivelul de ncredere. Deoarece cercettorul nu poate modifica nici X nici eroarea standard dect prin efectuarea unei alte cercetri, lui nu i rmne dect s i aleag un nivel de ncredere mai mic dect 95%, ceea ce va duce la o micorare a intervalului. De exemplu, dac cercettorul se mulumete cu un nivel de ncredere de 68% - cruia i corespunde z0,34 = 1 (vezi tabelul z din Anexa 1), atunci el va putea spune c, pentru un nivel de ncredere de 68%, va fi cuprins ntre 131 - 2,4 i 131 + 2,4, adic ntre 128,6 i 133,4. Concluzia acestui scurt exerciiu este c estimarea constituie ntotdeauna un compromis ntre "exactitatea" i "sigurana" afirmaiei pe care dorim s o facem despre parametrul n cauz. Mai riguros spus, dac vom ncerca s cretem nivelul de ncredere al estimrii, mrind astfel "sigurana", va trebui s cretem i intervalul de ncredere, pierznd astfel din "exactitate". i invers, dac dorim s micorm intervalul de ncredere, vom fi nevoii s reducem i nivelul de ncredere al estimrii. Este totui legitim s ne ntrebm cum putem obine estimri ct mai "sigure" i ct mai "exacte"? Rspunsul nu este foarte greu de dat: prin mrirea volumului eantionului. Acest rspuns decurge firesc din formula erorii standard:
e=
S actualizm acum formulele i expresiile utilizate n estimare, nlocuind pe cu s i respectiv pe z cu t: e' = s n ; unde e' este eroarea standard estimat.
de unde reiese clar c cu ct vom avea un eantion mai mare cu att vom avea o eroare standard mai mic, i deci intervale de ncredere mai mici, pentru acelai nivel de ncredere. 3.4 Cazul eantioanelor mici. De la z la t n ultimul exemplu din seciunea anterioar am presupus, destul de nerealist, c cercettorul nostru, care nu avea cum s msoare abaterea standard n populaie, , reuete s obin valoarea acesteia datorit unei coincidene fericite. n lumea real astfel de coincidene sunt practic absente, iar cercettorul, dac dorete ntr-adevr s obin o estimare a lui , va trebui s calculeze eroarea standard i deci va fi obligat s nlocuiasc cu o estimare a ei. Dup cum e i foarte intuitiv, cea mai bun estimare pentru este s, adic abaterea standard n eantion. Dar utilizarea lui s introduce o surs adiional de posibile distorsiuni sau erori, mai ales dac eantionul este mic (sub 120 de cazuri). Pentru a nu risca distorsiuni n ceea ce privete nivelul de ncredere, va trebui s recurgem la o lrgire a intervalului. Aceasta se face prin nlocuirea valorii z utilizate n seciunea anterioar cu o valoare mai mare, t, care provine dintr-o distribuie similar cu z, numit distribuia t a lui Student, sau Student (t). Practic, marea diferen dintre distribuia z i distribuia t este faptul c aceasta din urm ia n calcul i ceea ce se cheam "grade de libertate". Acestea, foarte intuitiv spus, reprezint numrul de elemente de informaie independente, necesare pentru definirea unui sistem. In cazul discutat de noi acum, aceste elemente sunt indivizii din care se compune eantionul. Deoarece ntre observaiile din eantion exist o relaie de dependen, care este media, numrul de grade de libertate va fi n-1. S revenim la diferenele dintre z i t: acestea sunt practic sesizabile numai n cazul eantioanelor mici (mai mici de 120), adic pentru un numr mic de grade de libertate. Pentru peste 120 de grade de libertate, distribuia t este foarte similar cu z. Pentru sub 120 de grade de libertate (notate de acum nainte g.l.), valorile t sunt mai mari dect valorile z, pentru a compensa, aa cum artam mai sus, nlocuirea lui cu s n formula erorii standard. Tabelul t este prezentat n Anexa 2. Deoarece citirea se face n funcie de numrul de grade de libertate, care se gsesc la capetele rndurilor (n stnga), organizarea i modul de citire ale unui tabel t sunt complet diferite fa de cele ale tabelului z. n tabelul t din Anexa 2 coloanele sunt definite de ariile de sub curb aflate la dreapta valorii t, iar n celule, la intersecia dintre gradele de libertate i nivelele de probabilitate (arii) se gsesc valorile lui t. Astfel, pentru un eantion de 10 persoane i un nivel de ncredere de 95% va trebui s cutam valoarea lui t la intersecia dintre rndul cu 9 grade de libertate i aria egala cu 0,025, deoarece 0,95 = 1 - 2 x 0,025 (sau, n cuvinte, pentru a obine nivelul de 0,95 trebuie s eliminm 0,05 din ambele cozi ale distribuiei, adic cte 0,025 din fiecare coad - i din stnga i din dreapta). Pe ultima linie a tabelului se poate observa c atunci cnd numrul de grade de libertate tinde ctre infinit, valorile t sunt egale cu valorile z pentru acelai numr de g.l.
Pr( X - t(1-p)/2e' < < X + t(1-p)/2e' = n.i. ceea ce este totuna cu a spune c = X t(1-p)/2e'), pentru un anumit n.i.
3.5 Reprezentativitatea eantioanelor: a alege civa pentru a i reprezenta pe toi. Un eantion bun este ntr-o oarecare msur o versiune n miniatur a unei populaii, un model al unei populaii. Caracteristica cea mai important a unui eantion bun este dat de reprezentativitatea acestuia. Un eantion este considerat reprezentativ pentru populaia din care este extras dac caracteristici importante sunt distribuite similar n amndou grupurile3 sau mai clar spus, un eantion trebuie s reproduc caracteristici importante ale populaiei din care este extras. Aceste caracteristici importante pot fi: vrsta, nivelul de educaie, mediul de reedin, sexul, venitul, etc. Aa cum am vazut n seciunile anterioare, un eantion nu va reproduce niciodat cu exactitate toate caracteristicile unei populaii, iar aceast lips de exactitate implic: existena unei erori de eantionare numit i eroare limit de sondaj i care este exact produsul dintre valoarea lui t i eroarea standard ( = te) existena unui nivel de ncredere, notat mai sus cu n.i., care este dependent de valoarea lui t.
Reprezentativitatea unui eantion este exprimat cantitativ de cele dou valori i n.i, valori care sunt determinate una de cealalt. Un eantion este cu att mai reprezentativ cu ct eroarea pe care o facem este mai mic iar nivelul de ncredere este mai mare. Orice eantion aleator reproduce mai mult sau mai puin caracteristici ale populaiei din care este extras, motiv pentru care nu exist eantioane nereprezentative, ci doar eantioane mai mult sau mai puin reprezentative pentru o populaie n funcie de msura n care caracteristici ale populaiei respective sunt regsite i n aceste eantioane. Mai mult, unele caracteristici pot fi mai bine reproduse de un eantion iar altele mai puin bine, ceea ce nseamn ca reprezentativitatea unui eantion este diferit n funcie de caracteristica care este avut n vedere. Cu alte cuvinte, un eantion nu este reprezentativ n general, ci are o anumit reprezentativitate n raport cu o anumit caracteristic i o alt reprezentativitate n raport cu o alt caracteristic. Gradul de reprezentativitate a unui eantion depinde de trei factori importanti eterogenitatea sau omogenitatea caracteristicilor populaiei din care este extras, de mrimea eantionului i de procedura de eantionare.
3
Arlene Fink, How to Sample in Surveys, Sage Publications, Thousands Oaks, London, New York, 1995, p.1.
Cum am spus deja, reprezentativitatea unui eantion este dat de capacitatea acestuia de a reproduce o serie de caracterisitici existente n populaie. Dac o caracteristic este mai omogen distribuit ntr-o populaie un acelai eantion va fi mai reprezentativ pentru acea caracteristic dect pentru o alt caracteristic care este distribuit mai eterogen n aceeai populaie. Sau altfel spus, pentru a obine o aceeai reprezentativitate, pentru o caracteristic n raport cu care populaia este mai omogen este nevoie de un eantion de mrime mai mic dect pentru o caracteristic n raport cu care populaia este mai eterogen. Mrimea eantionului se refer la numrul de elemente care l compun i care trebuie investigate pentru a obine rezultate ct mai precise. Intuitiv, un eantion este cu att mai reprezentativ cu ct cuprinde mai multe elemente din populaia vizat, n felul acesta obinndu-se o reproducere mai bun a acesteia. Dar creterea nivelul de reprezentativitate nu este direct proporional cu creterea numrului de elemente din populaia vizat care sunt incluse n eantion, adic nu avem o relaie linear ntre cele dou componente; dimpotriv aceast relaie poate fi reprezentat sub forma unei curbe asemntoare celei din figura de mai jos (Figura 3.4). Astfel, dac modificm mrimea eantionului cu o cantitate K de elemente, iar eantionul cuprinde iniial un numr mic de elemente, modificarea gradului de reprezentativitate este mai mare dect dac modificm mrimea eantionului cu aceeai cantitate K de elemente dar eantionul este compus iniial dintr-un numr mare de elemente.
Figura 3.4 Relaia dintre reprezentativitate i mrimea eantionului.
n ceea ce privete procedura de eantionare, aceasta influeneaz att gradul de reprezentativitate al unui eantion ct i posibilitatea exprimrii numerice a acesteia. Din punct de vedere tehnic matematic, calcularea reprezentativitii unui eantion este posibil numai n cazul eantioanelor probabiliste sau aleatoare. Un eantion probabilist este acel eantion pentru care fiecare element din populaia vizat are o ans calculabil i non-nul de a fi selectat n eantion. Posibilitatea calcularii probabilitii ca un element din populaie s fie selectat n eantion permite calcularea unei marje de eroare () i a unui nivel de ncredere (n.i.) prin care s fie exprimat cantitativ reprezentativitatea eantionului. n cazul eantioanelor neprobabiliste, cele pentru care ansa unui element al populaiei de a face parte din eantion nu este cunoscut, nu poate fi calculat gradul de reprezentativitate i prin urmare nici nu se poate vorbi de reprezentativitatea lor. O ultim provocare: ct de mare trebuie s fie un eantion?
n practic, aceasta este una din primele ntrebri pe care i le pune orice cercettor sau analist nainte de a se lansa ntr-un sondaj. Aa cum am mai menionat, mrimea eantionului nu este dependent de mrimea populaiei. Stabilirea mrimii unui eantion se face de obicei n funcie de resursele avute la dispoziie (timp, bani, resurse umane etc.) i de nivelul de reprezentativitate pe care cercettorul dorete s l ating. Deducem de aici c mrimea eantionului se va stabili n funcie de nivelul de ncredere pe care care dorim s l atingem i de marja de eroare sau nivelul erorii limit de sondaj pe care suntem dispui s le acceptm. De obicei, aceste decizii se iau plecnd de la ipoteza unei populaii cu grad maxim de eterogenitate pe cteva caracteristici. Ipoteza eterogenitii maxime este o precauie pe care cercettorul trebuie s i-o ia; este un fel de a se atepta "la ce e mai ru". n cazurile n care abaterile standard n populaie ale caracteristicilor de interes sunt cunoscute, se poate pleca de la acestea. n aceast seciune, vom exemplifica cu ajutorul unei caracteristici dihotomice, pentru simplitatea calculelor: Eterogenitatea maxim pentru o caracteristic dihotomic este atins atunci cnd distribuia respectivei caracteristici n populaie este omogen, adic 50% - 50%. Mrimea eantionului poate fi extras din formula erorii standard: e=
sau, n cazul variabilelor dihotomice, Mrimea eantionului este indepedent de mrimea populaiei din care este extras. Un eantion de o anumit mrime i constituit dup aceleai proceduri are aceelai grad de reprezentativitate i atunci cnd este extras din populaia unei ri i atunci cnd este extras din populaia unui ora. Consecina faptului c reprezentativitatea unui eantion nu depinde de mrimea populaiei din care este extras este aceea c acesta are un anumit grad de reprezentativitate pentru ntreaga populaie, dar subeantioanele n care se mparte i care respect proporia diferitelor segmente ale populaiei nu mai au acelai grad de reprezentativitate pentru aceste segmente ca i eantionul iniial (pe total populaie). e=
(1 ) / n
de unde, n = (1 ) / e 2 dar = te, de unde rezult c e = /t deci n = (1 ) t 2 / 2
S presupunem acum c dorim s facem acest calcul pentru o variabil de eterogenitate maxim i c n final dorim s obinem o marj de eroare = 2% (adic de 0,02), pentru un nivel de ncredere de 95% (adic 0,95). Cu alte cuvinte, dorim s ne asigurm acel volum al eantionului care s ne permit s spunem, pentru variabila noastr (s zicem starea de srcie), c: P - 2% < < P + 2% (sau = P 2%), pentru un nivel de ncredere de 95% unde P este proporia (de sraci) msurat n eantion. Dac nivelul de ncredere ales este de 95%, va trebui s ne uitm n tabel la valoarea lui t corespunztoare acestui nivel. De fapt ne vom uita n tabelul z, deoarece am presupus c lucrm cu abaterea standard n populaie, i oricum ar fi absurd s vorbim n aceast faz despre numrul de grade de libertate, care e dependent de n (g.l. = n-1). Deci, vom folosi valoarea t = 1,96. Din cele de mai sus rezult c: n = 0,5 x 0,5 x 1,96 x 1,96 / (0,02 x 0,02) = 2401 subieci. Exerciii i probleme 1. O populaie de studeni ntr-un campus studenesc mare are o greutate medie de = 69 kilograme i o abatere standard = 3,22 kilograme. Dac se alege un eantion aleator de n = 10 studeni, care este ansa ca media eantionului X s se plaseze n intervalul de +/- 2 kilograme fa de medie a populaiei? 2. Un teleferic este astfel proiectat nct s poat suporta o greutate maxim de 10000 de kilograme. n teleferic sunt ncrcate la un transport 50 de butoaie. S presupunem c greutile tuturor butoaielor care trebuie transportate cu telefericul au o medie de 190 kilograme i o abatere standard de 25 de kilograme. Care este probabilitatea ca un eantion aleator de 50 de butoaie s aib o greutate mai mare dect greutatea maxim suportat de teleferic? 3. n 1998 aproximativ 50% dintre romni considerau c inflaia este cea mai important problem a rii. Dac se aleg n mod aleator 1500 de romni din totalul populaiei care este ansa ca proporia acestui eantion s reflecte n mod adecvat proporia populaiei, considernd un interval de +/- 3 procente n jurul valorii din populaie? Pentru urmtoarele ntrebri, s se ncercuiasc varianta corect /variantele corecte: 4. Eroarea limita de sondaj este 1. populatia este mai eterogena cu atit mai mare cu cit: 2. esantionul este mai mic 3. abaterea standard a caracteristicii n eantion este mai mica 4. media n eantion este mai mare 5. volumul esantionului este mai mare 6. nici una dintre acestea 5. Volumul eantionului trebuie 1. mrimea populaiei din care se extrage s fie direct proporional cu 2. variaia caracteristicii de eantionare 3. eroarea limit de reprezentativitate admis nivelul de ncredere pentru care se garanteaz rezultatele
Capitolul 4 Proceduri de eantionare Unul dintre primele aspecte care trebuie luate n considerare atunci cnd se pune problema realizrii unor cercetri practice este aceea a delimitrii populaiei care urmaz a fi studiat. n acest context, prin populaie sunt desemnate toate elementele care pot sau trebuie s fie studiate. Elementele pot fi indivizi umani, dar n acelai timp pot fi gospodrii, coli, spitale, intreprinderi economice, orae, organizaii sociale sau profesionale, ziare, articole de pres, discursuri ale unor oameni politici, etc. Indiferent ns de cine sau ce constituie elementele populaiei vizate, aceasta trebuie s fie atent delimitat n funcie de obiectivele cercetrii, ntruct rezultatele finale vor depinde de acest punct de referin stabilit iniial. Spre exemplu, s ne imaginm c ntr-un ora se pune problema adoptrii unui nou sistem de transport n comun, iar ceea ce ne intereseaz este acordul sau dezacordul cetenilor cu privire la modul practic de realizare a acestuia. n acest caz, populaia vizat este compus doar din cei care locuiesc n oraul respectiv? sau trebuie avut n vedere i populaia care nu locuiete n ora, dar care ntr-o msur sau alta beneficiaz de transportul n comun din acel ora? care este vrsta minim i maxim a celor care vor fi chestionai?, etc. Intrebri asemntoare acestora se ivesc de fiecare dat cnd se pune problema definirii unei populaii care urmeaz a fi cercetate, iar de rspunsurile date vor depinde n mod evident rezultatele finale. Un prim pas n definirea unei populaii vizate este acela de a stabili o populaie ideal, adic toi cei care ipotetic ar trebui s fie luai n considerare atunci cnd se cerceteaz o problematic anume. Dup care n funcie de constrngerile practice identificate spre exemplu, n cazul n care elementele populaiei sunt indivizi umani, astfel de constrngeri ar putea fi date de imposibilitatea de a i investiga pe cei aflai n nchisori, uniti militare, spitale, hoteluri, n strintate, etc populaia ideal poate fi restrns la o populaie vizat care poate fi abordat n cadrul cercetrii. Avantajele lurii n considerare n faza iniial a unei populaii ideale este acela c excluderea unor segmente din aceasta este explicit, iar neajunsurile rezultate de aici pot fi luate n considerare. O dat stabilit populaia vizat, poate fi pus i problema alegerii unui eantion. Pentru aceasta, elementele populaiei vizate sunt traspuse ntr-o list numit cadru de eantionare, list din care vor fi extrase ulterior potrivit unor proceduri clar definite acele elemente care vor compune eantionul. Spre exemplu, dac se realizeaz o anchet telefonic al crui scop este investigarea modului n care dotarea cu utiliti publice a unei localiti acoper necesitile existente, populaia ideal este constituit din toate gospodriile care au acces la utiliti publice, iar cadrul de eantionare este format din toate gospodriile care au acces la utiliti publice i au telefon. Constrngerea n acest caz este dat de existena unui post telefonic n gospodrie. Gospodriile care au acces la utiliti dar care nu au telefon neputnd fi investigate, populaia vizat este format doar din acele gospodrii care au acces la utiliti publice i au telefon (Figura 1.). n exemplul de fa, astfel de liste care s se constituie n cadru de eantionare pot fi evidene ale companiilor funizoare de utiliti publice i liste ale abonailor la servicii telefonice din localitatea avut n vedere.
De la caz la caz, n funcie de problema investigat, pot constitui cadru de eantionare: lista celor care sunt nscrii la un medic de familie sau la medicii de familie care opereaz ntr-o anumit arie care urmeaz a fi acoperit de cercetare, lista celor abonai la o firm furnizioare de servicii de televiziune prin cablu, lista celor abonai la o anumit publicaie, lista celor care figureaz n registrul auto, lista celor care figureaz n registrul de carte funciar, etc. Ideal toate aceste liste ar trebui s includ fiecare element al populaiei vizate doar o singur dat. n realitate ns exist o serie de neajunsuri printre care cele mai importante sunt: lipsa unor elemente: fie lista este inadecvat n sensul n care iniial nu a fost conceput pentru a include toate elementele care pot face la un moment dat obiectul de interes al cercettorului, fie este incomplet, adic nu include din diferite motive toate elementele care se presupune care c ar trebui s le includ; referine la grupuri de elemente i nu la elemente individuale; spre exemplu, liste care nu se refer la numrul de persoane ci la numrul de familii care locuiesc ntr-o gospodrie, dar cercetarea vizeaz persoane i nu familii; existena unor elemente straine, adic existena n list a unor elemente care din diferite motive nu fac obiectul de studiu la un moment dat; exitena unor duplicate: cnd unele elemente ale populaiei apar de mai multe ori pe o list.
Remedierea tuturor acestor neajunsuri va duce n mod evident la obinerea unui eantion mai bun. De la caz la caz prin remediere se nelege: identificarea elementelor lips i introducerea lor n lista care constituie cadrul de eantionare, identificarea tuturor elementelor care fac parte dintr-un grup, eliminarea unor elemente strine care nu au legtur cu tematica cercetrii, eliminarea duplicatelor i pstrarea pe o list a unui element doar o singura dat. O modalitate de a depi aceste neajunsuri const n redefinirea problematicii cercetate n aa fel nct elementele populaiei care nu pot fi identificate s nu fac obiectul unei anumite cercetri. Acest lucru evident nu este posibil n toate situaiile i nu este posibil mai ales n acele situaii n care elementele care nu pot fi identificate constituie majoritatea elementelor unei populaii. Atunci cnd nu exist liste care s cuprind elementele unei populaii vizate prin cadru de eantionare poate fi desemnat orice alt procedur care s permit identificarea elementelor unei populaii. Spre exemplu, o arie geografic poate juca rolul de cadru de eantionare, situaie n care elementele populaiei vizate sunt asociate cu un anumit spaiu natural. Astfel, aria geografic ocupat de o populaie vizat poate fi mprit n zone mai mici din care sunt alese aleator cteva, care la rndul lor sunt divizate n arii mai mici dintre care vor fi selectate aleator cteva i aa mai departe pn la utimul stadiu cnd din anumite zone astfel selectate sunt investigate toate elementele.
Figura 4.1. Cadrul de eantionare pentru selectarea unui eantion n vederea investigrii printr-o anchet telefonic a gradului de satisfacere de ctre utilitile publice a nevoilor populaiei unei localiti (exemplu ipotetic).
anuleaz ansele altor elemente care sunt exluse a priori ntruct nu au ansa de a se afla la locul sau pe traseul pe care se deplaseaz cel care face selecia. Pentru a evita aceste situaii ar trebui s avem o situaie clar a tuturor elementelor care compun o populaie i s le putem identifica fr echivoc. Aa cum am artat deja n paragraful anterior, n cazul procedurilor de eantionare probabiliste fiecare element care compune o populaie trebuie s aib o ans diferit de zero i calculabil de a face parte din eantion. Acesta este criteriul de baz n stabilirea dihotomiei: eantioane probabiliste - eantioane neprobabiliste De-a lungul timpului au fost dezvoltate o larg varietate de tehnici de eantionare, dintre acestea cele mai frecvent ntlnite sunt: eantionarea simpl aleatoare, eantionarea aleatoare prin stratificare, eantionarea cluster, eantionarea multistadial, eantionarea pe cote, eantionarea tip bulgre de zpad. n cele ce urmeaz vom prezenta o serie de aspecte legate de modul de aplicare a fiecreia dintre aceste proceduri de eantionare. 4.1.1 Eantioane probabiliste Eantionarea simpl aleatoare Eantionarea simpl aleatoare este probabil procedura cea mai important i cea mai des utilizat n domeniul cercetrilor practice i este considerat procedura de referin, ideal, atunci cnd se pune problema stabilirii unor tehnici de eantionare. Asumpiile de baz ale acestei tehnici sunt acelea c: fiecare element al populaie vizate are exact aceeai ans ca i oricare alt element al aceleiai populaii de a fi selectat n eantion, iar selectarea unui element n eantion nu a influenat n nici un fel ansele altui element de a fi selectat. Tehnica tipic sau modelul de realizare al acestui tip de eantionare este reprezentat de metoda urnei, situaie n care fiecarui element dintr-o populaie vizat i corespunde o bil; toate bilele corespunztoare unor membrii ai populaiei vizate sunt introduse ntr-o urn dup care sunt amestecate i se extrage pe rnd cte una pn se ajunge la un numr de bile egal cu numrul de elemente care vor compune eantionul. Pentru a asigura probabiliti de extragere egale pentru toate bilele, dup fiecare extragere bila este introdus napoi n urn. Totui, dac populaia este foarte mare (numr foarte mare de bile) reintroducerea bilei n urn nu mai este necesar deoarece probabilitatea de extragere a bilelor rmase nu este practic influenat dect ntr-o masur extrem de mic, aproape insesizabil. Simplu de pus n practic din punct de vedere teoretic, procedura astfel definit ntmpin o serie de dificulti mai ales atunci cnd se lucreaz cu populaii mari, situaie n care este practic imposibil de conceput o urn n care s poate fi introdus un numr de bile egal cu numrul de indivizi care compun populaia unei ri spre exemplu. O a doua metod de realizare a unei eantionri simple aleatoare sunt tabelele cu numere aleatoare. Procedura const n generarea unor iruri de numere aleatoare i introducerea lor ntr-un tabel. Fiecrui element din populaia vizat, care trebuie identificat univoc, i se atribuie un numr de la 1 la N. Cel care realizeaz selecia, alege la ntmplare un numr din irul de numere aleatoare i caut apoi n populaia vizat elemetul cu numrul de ordine reprezentat de numrul aleator respectiv, element care va face parte din eantion. Dup care din tabelul de numere aleatoare este ales numrul urmtor i se identific din nou n populaia vizat elementul cu numrul de ordine identic cu numrul aleator, element care este i el introdus n eantion. Procedura
4.1 Tipuri de eantioane Distincia clasic n ceea ce privete tipurile de eantioane este aceea ntre eatioanele probabiliste sau aleatoare i cele neprobabiliste. n primul caz n procesul de selectare a unui element din populaie pentru a face parte din eantion se presupune c se face la ntmplare fr s intervin n vreun un fel subiectivismul celui care aplic procedura de eantionare i nici vreun alt fenomen care s afecteze ansa unuia sau unor indivizi de a fi selectai. Dat fiind aceast constrngere, situaii cum ar fi alegerea la ntmplare a unui numr de oameni care intr ntr-o instituie de la orele 8.00 pn la orele 10.00 ale unei zile, constituirea unui eantion de gospodrii alese la ntmplare atunci cnd ne plimbm pe cteva strzi dintr-o localitate, sau constituirea unui eantion format din localiti rurale ale unui jude, selectnd tot ntmpltor localiti rurale care se afl pe oseau care leag dou orae ale judeului respectiv, etc, nu vor duce la constituirea unor eantioane probabiliste. Motivul pentru care nu vom obine n aceste cazuri eantioane aleatoare este acela c n alegerea pe care o facem la ntmplare excludem fie intenionat, fie neintenionat o parte din elementele populaiei vizate. Astfel n primul caz, dac vrem s alegem un eantion reprezentativ pentru cei care frecventeaz o anumit instituie i vom selecta la ntmplare doar pe cei care intr n acea instituie n intervalul orar amintit i vom exclude pe toi cei care la momentul respectiv nu au ansa de a intra n acea instituie, similar vom exlude fr s vrem gospodriile care nu au ansa de a se gsi pe strzile pe care ne plimbm sau localitile rurale care nu au ansa de a se afla pe oseaua care leag cele dou orae ntre care ne deplasm. Mai mult, nu putem calcula ansa pe care o are fiecare element din cele trei cazuri prezentate mai sus persoane, gospodrii, localiti rurale de fi selectat n eantion. n toate aceste cazuri este clar c ntmplarea favorizeaz anumite elemente i
continu n acest fel pn la completarea numrului de elemente necesare constituirii eantionului. n cazul n care unui numr aleator nu i corespunde un numr atribuit unui element din populaia vizat, acesta nu este utilizat i se trece la urmtorul. O alt procedur de punere n practic a unei eantionri simple aletoare este cunoscut sub denumirea de metoda pasului. n aceast situaie este necesar o list care s cuprind toate elementele populaiei vizate, fiecrui element fiindu-i atribuit un numr de la 1 la N. Dup care se stabilete un pas de eantionare, de obicei egal cu raportul dintre mrimea populaiei (N) i mrime eantionului (n): N/n. Se alege la ntmplare un numr din lista care cuprinde toate elementele populaiei vizate, elementul corespunztor acelui numr fiind primul element al eantionului, dup care, ncepnd de la acel element, este selectat n eantion tot al N/n lea element din populaie. Pasul de N/n se aplic de cte ori este nevoie pentru a selecta numrul de elemente care trebuie s fac parte din eantion. Procedura pasului mai este cunoscut i sub denumirea de eantionare simpl sistematic sau cvasi-aleatoare. Spre exemplificare, s presupunem c populaia vizat este format din 5000 de gospodrii, i dorim s constituim un eantion format din 250 de gospodrii. Pasul de eantionare n acest caz va fi 5000/250 = 20. Gospodriile sunt ordonate pe o list, fiecreia atribuindu-i-se un numr de la 1 la 5000. Se alege la ntmplare o un numr de pe list, s spunem c acest numr este 7; gospodria creia i-a fost atribuit acest numr este primul element al eantionului nostru. Urmtoarele gospodrii care vor face parte din eantion sunt cele crora le corespund numerele: 27, 47, 67, 87, 107, 127, 147 i aa mai departe pn la selectarea a 250 de gospodrii. Eantionarea prin stratificare Eantionarea prin stratificare are la baz tot o procedur de alegere aleatoare. Aceast metod este utilizat atunci cnd cel care face eantionarea are motive s cread c populaia vizat este compus din mai multe subpopulaii sau subgrupuri distincte, denumite tehnic straturi. Realizarea din punct de vedere practic a unui eantion prin stratificare presupune urmtorii pai: populaia vizat este mparit n subpopulaii n funcie de un anumit criteriu care este deja cunoscut, dup care este constituit un eantion care la rndul lui va fi compus din attea subeantioane cte subpopulaii exist n populaia vizat. n interiorul fiecrei subpopulaii elementele care vor fi introduse n eantion sunt selectate aleator. Spre exemplu, s presupunem c 30% din populaia unei regiuni locuiete n localiti rurale, 20% locuiete n orae cu pn la 50.000 de locuitori, 15% locuiete n orae care au de la 50.001 la 100.000 de locuitori, iar restul de 35% locuiete n oree de peste 100.000 de locuitori. Un eantion stratificat format din 1000 de persoane va cuprinde 300 de persoane din mediul rural, 200 de persoane care locuiesc n orae cu pn la 50.000 de locuitori, 150 de persoane care locuiesc n orae care au ntre 51.001 i 100.000 de locuitori i 350 de persoane care locuiesc n orae de peste 100.000 de locuitori. Principiul de baz al acestui tip de eantionare este acela c, cu ct o populaie este mai omogen cu att este mai uor s se extrag din aceasta un eantion reprezentativ. De asemenea, cu ct o populaie este mai omogen n raport cu o caracteristic, cu att mrimea eantionului necesar pentru a reproduce cu o anumit
acuratee acea caracteristic este mai mic n comparaie cu mrimea unui eantion extras dintr-o populaie care este mai eterogen n raport cu aceeai caracteristic. Mrimea subeantioanelor poate s pstreze proporia subpopulaiilor, situaie n care vom vorbi de eantionare prin stratificare proporional. n felul acesta se asigur pentru toate elementele populaiei vizate o ans egal de a fi selectate n eantion. Exist ns i situaii n care este recomandat ca subeantioanele s nu pstreze proporiile subpopulaiilor. Acest lucru se ntmpl mai ales atunci cnd unele subpopulaii sunt reduse din punct de vedere numeric i n consecin, dac ar fi pstrate proporiile, i subeantioanele ar fi formate dintr-un numr mic de elemente care nu ar avea un nivel de reprezentativitate rezonabil. n aceast situaie se recurge la o stratificare diproporionat a eantionului sau o stratificare ponderat, prin suprareprezentarea n eantion a subpopulaiilor mai puin numeroase, urmnd ca la prelucrarea datelor aceste abateri s fie corectate prin metode statistice. n aceast situaie ansele elementelor aparinnd diferitelor subpopulaii de a intra n eantion sunt diferite: elementele care provin din subpopulaiile mai puin numeroase avnd anse mai mari de fi selectai n eantion dect elementele care provin din subpopulaiile mai numeroase. Indiferent de modalitatea n care sunt constituite subeantioanele, pstrnd sau nu proporiile, eantionarea prin stratificare presupune existena n momentul iniial al punerii n practic a procedurii de eantionare a unei informaii suplimentare despre populaia vizat n comparaie cu situaia n care este utilizat eantionarea simpl aleatoare. Aceast informaie poate fi obinut cu ajutorul altor studii sau din alte surse de informare cu privire la populaia vizat. n ceea ce privete gradul de reprezentativitate al eantioanelor realizate prin stratificare n comparaie cu gradul de reprezentativitte al eantioanelor simple aleatoare, se admite n general c este mai bun. Mai clar spus, dintre dou eantioane de aceeai mrime unul obinut prin eantionare prin stratificare iar altul prin eantionare simpl aleatoare, se consider c primul are o reprezentativitate mai bun, n situaia n care criteriile pe baza crora se face eantionarea au o legtur de tip statistic cu caracteristicile care fac obiectul cercetrii.
Eantionarea cluster i eantionarea multistadial Pn acum am prezentat situaii n care exist un anumit cadru de eantionare liste care s cuprind elementele unei populaii - i situaii n care pe lng faptul c exist un anumit cadru de eantionare cercettorul mai are la ndemn i o serie de criterii pe baza crora o populaie poate fi mprit n subpopulaii sau grupuri. n aceast din urm situaie din fiecare grup este extras un subeantion care va face parte din eantionul final. Exist ns i situaii n care nu exist un cadru de eantionare i nici nu este necesar creerea unuia ntruct nu toate elementele acelei populaii vor fi incluse n eantion. Dac populaia poate fi considerat ca fiind format din grupuri, iar ntre aceste grupuri exist o anumit asemnare, atunci are sens s nu fie selectai n eantion indivizi din toate grupurile ci numai indivizi din anumite grupuri. n aceast situaie populaia vizat este mparit n grupuri n funcie de un anumit criteriu, aceste grupuri la rndul lor pot fi considerate ca fiind formate din alte grupuri i aa mai departe. Date fiind aceste
condiii, selectarea elementelor care vor compune eantionul poate ncepe prin selectarea grupurilor din care fac parte aceste elemente. Astfel, ntr-o prim faz sunt selectate aleator o parte din grupurile populaiei vizate, dup care din fiecare grup selectat n prima faz vor fi selectate tot aleator alte grupuri mai mici i aa mai departe pn cnd se ajunge la nivelul elementului de baz din care este compus populaia vizat. Spre exemplu, dac dorim s alegem un eantion din populaia unui ora, ntr-o prim faz putem selecta cartiere din acel ora, apoi strzi, blocuri, apartamente i n cele din urm persoanele care ne intereseaz. Dac toate elementele care fac parte dintr-un grup la un moment dat sunt incluse n eantion, procedura de eantionare astfel definit este denumit eantionare cluster. Dac doar o parte din elementele unui grup sunt incluse n eantion, procedura de eantionare este definit ca multistadial. Avantajul unei astfel de proceduri de eantionare l constituie costurile reduse n raport cu celelalte proceduri prezentate pn acum, n sensul n care efortul i timpul necesar identificrii unui element care va fi inclus n eantion este mult mai redus. n ceea ce privete reprezentativitatea unui astfel de eantion, se consider n general c, la volum egal, este mai puin repezentativ n comparaie cu un eantion obinut prin stratificare sau n comparaie cu un eantion obinut prin procedee simple aleatoare. Reprezentativitatea mai sczut este rezultatul eliminrii la diferite nivele a unor grupuri de elemente din populaia vizat. Cu ct aceste grupuri care sunt eliminate sunt mai mari i cu ct sunt mai diferite n comparaie cu grupurile care nu au fost eliminate cu att este mai mare riscul de a grei. Multe cercetri utilizeaz o combinaie ntre eantionarea multistadial (care este mai uor de efectuat i ale crei costuri sunt mai reduse) i eantionarea stratificat (a crei acuratee este mai mare). Astfel, selecia n cadrul fiecrui stadiu nu este o selecie simpl aleatoare ci mai degrab o selecie aleatoare constrns de un criteriu de stratificare. De exemplu, pentru un eantion naional nu vom selecta n primul stadiu localitile prin metoda simpl aleatoare, ci vom folosi i un criteriu de stratificare - s zicem mprirea n rural i urban. 4.1.2 Eantioane neprobabiliste Alturi de aceste proceduri de eantionare probabiliste n practica de cercetare sunt utilizate i o serie de tehnici mai puin riguroase n ceea ce privete selectarea celor care vor compune un eantion. Lipsa de rigurozitate se refer mai ales la neacordarea unei atenii speciale calculrii sau egalizrii anselor fiecrui individ din populaia vizat de a face parte din eantion. Eantioanele obinute n acest fel sunt denumite eantioane neprobabiliste. Astfel de eantioane se constituie n urmtoarele situaii : persoane care se ofer voluntar pentru a fi investigae; persoane care i desfoara activitatea ntr-o instituie anume care prezint interes pentru cel care efectueaz cercetarea; persoane care rspund la chestionare publicate n ziare; persoane care apeleaz telefonic un post de radio sau de televiziune pentru a rspunde la ntrebrile care sunt formulate de moderatorii unor emisiuni sau de ali participani la emisiunile respective; persoane intervievate pe strad sau n anumite spaii publice;
n cadrul acestor tehnici de eantionare neprobabilist cele mai des utilizate sunt eantionarea pe cote i eantionarea tip bulgre de zpad. Eantionarea pe cote Eantionarea pe cote este probabil cea mai des utilizat procedur de eantionare neprobabilist utilizat atunci cnd se lucreaz cu populaii numeroase. Din punct de vedere al realizrii practice aceast procedur este similar eantionrii prin stratificare prin aceea c populaia vizat este stratificat dup o serie de criterii ns n interiorul straturilor indivizii nu sunt selectai aleator, ci selecia acestora este lsat la latitudinea operatorilor de anchet. Acestora le sunt indicate numai anumite cote care indic frecvena cu care s fie selectai subiecii care au anumite caracteristici. Spre exemplu dac n populaia vizat avem 49% brbai i 51% femei i 20% au studii superioare iar restul de 80% nu au astfel de studii, iar eantionul este format 1000 de persoane, atunci n cadrul acetuia vor fi cuprini 490 de barbai i 510 femei, 200 de persoane cu studii superioare i 800 de persoane care nu au absolvit nvmntul superior. n aceast situaie dac sunt utilizai 10 operatori de interviu fiecria i se cere s chestioneze 49 de brbai i 51 de femei, 20 de absolveni de nvmnt superior i 80 de persoane care au absolvit o form de nvmnt alta dect facultatea. Pentru a se limita subiectivitatea operatorilor n selecatarea celor care vor fi inclui n eantion se recomand stabilirea a ct mai multor criterii de stratificare a populaiei vizate. Avantajul unui astfel de procedeu de selecie este acela c nu necesit existena unui cadru de eantionare, lucru care n unele situaii este greu de realizat, iar munca operatorilor este mult uurat prin aceea ce nu trebuie s caute o persoan anume ci au libertatea de a alege pe cine vor cu condiia deinerii anumitor caracteristici vizate de cercetare. Eantionarea tip bulgre de zpad Este o procedur de eantionare utilizat n situaia n care nu exist informaii suficiente pentru a identifica toi indivizii care compun o anumit populaie, ci este posibil doar identificare doar a ctorva astfel de indivizi. Date fiind aceste circumstane, analiza unui populaii vizate ncepe cu investigarea indivizilor cunoscui dup care acestora li se cere s precizeze, dac este posibil, i alte persoane despre care se presupune c ntrunesc caracteristici vizate de cercetare. Procedeul se desfoar n acest fel pn cnd sunt identificai atia indivizi ci sunt necesari constituirii unui eantion. Se utilizeaz acest procedeu n cazul n care populaia vizat este format spre exemplu din oameni care au aumite hobby-uri sau pasiuni, preocupri i despre care de obicei nu se cunosc n faza iniial multe informaii i nu se tie nici cte astfel de persoane compun populaia vizat. 4.2 Concluzie Eantionarea este un procedeu des utilizat n practica de cercetare n diferite domenii ale activitii umane. De la medicul care face analize de laborator prelevnd o prob de snge de la un pacient i pn la cei care sunt interesai de aspecte ale opinei
publice n diferite domenii precum: preferinele electorale, acordul sau dezacordul cu anumite politici publice sau decizii administrative, etc. n funcie de tematica avut n vedere i de informaiile disponibile cu privire la populaia vizat procedurile de eantionare respect mai mult sau mai puin anumite rigori n ceea ce privete selectarea elementelor din populaie care vor constitui eantionul. Indiferent de procedura de eantionare utilizat, cercettorul trebuie s in cont de limitele existente n fiecare situaie particular i s fac explicite neajunsurile existente. Una dintre cele mai frecvente erori ntlnite n practica de cercetare este aceea de pune problema reprezentativitii statistice pentru eantioanelor neprobabiliste, n cazul crora, aa cum artat, aceast reprezentativitate nu se poate calcula n practic procedurile de eantionare prezentate pe parcursul acestui capitol sufer o serie de abateri i de adaptri sau ajustri. De cele mai multe ori acestea const n combinarea mai multor tehnici de eantionare n felul acesta sperndu-se obinerea unor informaii ct mai corecte i mai precise despre populaia avut n vedere. ntrebri: 1. Ct de multe elemente trebuie s cuprind un eantion extras dintr-o populaie perfect omogen? 2. ntre un eantion simplu aleator i unul prin stratificare este mai reprezentativ: a) cel simplu aleator, b) cel prin stratificare c) amndou eantioanele au acelai nivel de reprezentativitate. 3. S presupunem c se realizeaz un eantion utiliznd metoda pasului. Mrimea eantionului este de 200 de elemente iar cea a populaiei vizate este de 2800 de elemente. Care este mrimea pasului utilizat? De la al ctelea element al populaiei poate ncepe punerea n practic a pasului de eantionare?
Capitolul 5 Testarea ipotezelor statistice. Teste de semnificaie O ipotez statistic este pur i simplu o afirmaie despre o populaie care poate fi testat cu ajutorul unui eantion aleator. S ne amintim exemplul din seciunea 3.3 (Capitolul 3) n care un cercettor dorea s estimeze coeficientul mediu de inteligen pentru elevii unei coli, pe baza unui eantion. S presupunem c respectivul cercettor i-a demarat studiul cu ipoteza c n respectiva coal media coeficientului de inteligen este de 125. Dup efectuarea studiului, respectivul cercettor a trecut la estimarea mediei n populaia de elevi i a ajuns la concluzia c, pentru un nivel de ncredere de 95%, media coeficientului de inteligen n coal este cuprins ntre 126 i 136. Deci, ipoteza iniial, a unei medii n populaie de 125 nu este susinut de aceste rezultate, iar cercattorul o va respinge. n general, orice ipotez care se afl n afara unui interval de ncredere poate fi judecat ca fiind implauzibil i poate fi deci respins. Reiese de aici c un interval de ncredere poate fi privit ca un set de ipoteze acceptabile. S ne ntoarcem acum la cercettorul nostru i la modul n care a construit intervalul de ncredere. Aa cum am reamintit deja, intervalul de ncredere a fost construit pentru un nivel de ncredere de 95%. De aici putem deduce c exist o probabilitate de 5% ca cercettorul s fi greit atunci cnd a respins ipoteza iniial, a mediei egale cu 125, sau, cu alte cuvinte, c ipoteza a fost respins cu o probabilitate de eroare de 5% (0,05). Nivel de semnificaie. Valoarea p n paragraful anterior am vzut cum se poate testa o ipotez statistic cu ajutorul intervalelor de confiden. n rndurile care urmeaz vom ptivi lucrurile dintr-o alt perspectiv, aceea a ipotezei de nul, H0. S lum un exemplu: ntr-o comuitate rural este implementat un program de dezvoltare care printre alte obiective urmrete mbuntirea infrastructurii structurii fizice, mai precis a drumurilor. Unul din rezultatele ateptate este o cretere a bunstrii gospodriilor, datorit accesului mai uor ctre ieele marilor orae. nainte de implementarea programului, venitul mediu per capita al gospodriilor din comunitate era de 1200 mii lei, iar abaterea standard era de 300 mii lei. Dup trei ani de la implementarea programului, o cercetare fcut pe un eantion de 100 de gospodrii, arat c media venitului per capita n gospodriile din eantion este de 1265 mii lei. ntrebarea care se pune este: a crescut nivelul bunstrii n gospodriile din comunitate? Pentru a afla acest lucru vom lansa o ipotez, pe care o vom numi ipoteza de nul, i anume aceea c nivelul bunstrii nu s-a modificat. Formal, aceasta se scrie: H0: = 1200 sau, mai pe scurt, 0 = 1200 Afirmaia alternativ, susinut de finanatorii programului, i anume aceea c bunstarea a crescut, va fi considerat ipoteza alternativ, Ha. Formal aceasta se scrie Ha: > 1200, sau a = 1200
ntrebarea pe care o pune statisticianul este: ct de consistent este media de eantion X =1265 cu ipoteza de nul? Sau cu alte cuvinte: dac ipoteza de nul ar fi adevrat, care e probabilitatea s obinem o medie de eantion egal cu 1265? Vom reolva aceast problem n acelai mod n care am rezolvat probleme similare n Capitolul 3. Vom standardiza valoarea 1265 cu scorul z, vom calcula eroarea standard, i apoi ne vom pune ntrebarea: care e probabilitatea ca o medie de eantion egal sau mai mare dect 1265 s apar ntr-o populaie cu o medie de 1200? Rezultatul obinut este: z = 2,17, Pr( X 1265) = Pr(z 2,17)=0,015 Cu alte cuvinte, dac programul nu ar fi adus nici o mbuntaire n nivelul de bunstare, ar fi existat o probabilitate de numai 1,5% s observm o medie de eantion la fel de mare sau mai mare dect 1265. 1,5% este de aceea numit valoarea p pentru H0, sau mai bine zis, nivelul de semnificaie al lui H0. Deoarece ipoteza noastr a fost una n termeni de "mai mare" i deoarece pentru a gsi probabilitatea ne-am uitat numai n partea dreapt a distribuiei, ipoteza noastr alternativ a fost una unilateral. Dac am fi vrut s testm de exemplu nu o cretere a bunstrii ci pur i simplu o modificare a ei (pozitiv sau negativ) la trei ani de la program, ipoteza de alternativ ar fi fost scris: Ha: 1200 Pentru a rezuma, vom spune c valoarea p este probabilitatea ca valoarea de eantion s aib mrimea calculat, dac ipoteza de nul ar fi adevrat. Regula pe care o putem generaliza dupa acest exemplu este : H0 se respinge dac valoarea p este mai mic dect un anumit nivel acceptat , care de obicei este ales 0,05 . Alegerea acestui nivel (numit i nivel de semnificaie teoretic sau critic) este n mare msur arbitrar. El este practic complementul nivelului de ncredere. Dac ne ntoarcem puin la exemplul de la nceputul acestui capitol, cel cu media coeficientului de inteligen, ne vom da seama c o a doua interpretare a lui este "probabilitatea de a grei respingnd ipoteza de nul". Din acest motiv p se mai numete pe scurt i probabilitate de eroare. Valoarea de 0,05 este o valoare foarte des folosit pentru testarea ipotezelor de nul n general. 5.1 Teste de semnificaie. Inferena statistic Testele de semnificatie constituie elemente esentiale ale statisticii inferentiale. In continuare sunt prezentate cateva exemple relevante de intrebari al caror raspuns este dat cu ajutorul testelor de semnificatie. Spre exemplu, 17% dintre cei chestionai n cadrul unei anchete sociale sunt de acord cu o anumit decizie a administraie publice locale la un anumit moment dat de
timp, dar numai 11% au aceeai opinie la un alt moment de timp. Problema care se pune n aceast situaie este: ct de real sau de semnificativ este diferena ntre cele dou grupuri cei chestionai la un moment de timp i cei chestionai la un moment de timp ulterior? Este aceast diferen autentic sau sau este rezultatul fluctuaiilor fireti ale eantionrii? Adeseori observm diferene ntre rezultatele obinute atunci cnd se fac msurtori pe dou eantioane diferite extrase din aceeai populaie. Intrebarea care se pune de aceasta data este: exista distorsiuni in vreunul dintre esantioane? Cata incredere putem avea in rezultatele unuia sau altuia dintre esantioane? Toate aceste ntrebri sunt justificate ntruct, aa cum am artat n capitolul dedicat eantionrii, eantioanele nu reproduc exact caracteristicile unei populaii, ci exist o anumit diferen ntre valoarea unei caracteristici msurat pe un eantion i valoarea aceleiai caracteristici msurat pe populaia din este extras eantionul. Cu toate acestea de multe ori suntem pui n situaia de a trage concluzii cu privire la starea unei populaii pornind de la msurtori efectuate la nivelul unui eantion, cu alte cuvinte se pune problema de a face inferene de la eantion la populaie. Testul Z
Este un test de semnificaie utilizat n cazul n care se compar valorile unor caracteristici msurate pe eantioane mari (de ordinul a sute sau mii de indivizi). Cele dou valori comparate pot fi msurate fie una pe o populaie i una pe un eantion, fie amndou valorile sunt msurate pe eantioane diferite. n prima situaie, fie a i b cele dou valori ale aceleiai caracteristici, dintre care valoarea a este msurat pe o populaie iar valoarea b este msurat pe un eantion i fie e eroarea standard a caracteristicii luate n considerare. Testul Z este definit dup formula: Z= ab e
i exprim de fapt diferena dintre valorile a i b n erori standard (s ne aducem aminte c n exemplul cu impactul programului de dezvoltare nu am fcut nimic altceva dect s "comparm" valoarea obinut n eantion - notat aici cu a, cu o medie n populaie notat aici cu b). Dac valoarea testului Z este mai mare de 1.96 atunci diferena dintre cele dou valori este semnificativ din punct de vedere statistic la un nivel de ncredere de 0,95 (95%). Sau altfel spus, n termenii ipotezei de nul - vom respinge ipoteza de nul cu o probabilitate de eroare de 5%. Pentru a ilustra modul de aplicare a testului Z vom utiliza un exemplu. S presupunem c n cadrul unui referendum 42% dintre cetenii unei localiti sunt de acord cu introducerea unui nou sistem de impozite. Cu toate acestea ntr-un sondaj de opinie realizat anterior referendumului pe un eantion de 900 de persoane indica c doar 37% dintre ceteni vor fi de acord cu noua gril de impozitare. Este diferena ntre cele dou valori autentic sau nu? Provine procentul de 37% dintr-o populaie cu un procent de 42%? Sau altfel spus, este diferena dintre valoarea n eantion i valoarea n populaie
semnificativ statistic?, ceea ce este totuna cu a ne ntreba: este eantionul reprezentativ pentru caracteristica dat? Pentru a pune n eviden acest lucru calculm: 2 = 0,37(1 0,37) = 0,2331 i e= 0,48 900 = 0,016 sau i = 0,48 e = 1,6%
i dup formula: dac cele dou valori sunt msurate pe dou eantioane independente ale cror mrimi sunt n1 respectiv n2 (cnd vrem s testm de n1 + n 2 2 exemplu dac exist diferene semnificative ntre mediile a dou grupe: diferena de salarii ntre brbaii i femeile care lucreaz ntr-o firm). e=
i
(x
x1
) + (x
2
x2
nlocuind n formula lui Z obinem: (42 - 37)/1,6 = 3,12 Cautnd n tabel pragurile de probabilitate ale lui Z n dreptul lui 3,1 i pe coloana 0,02 gsim 0,4991 i reprezint jumtate din nivelul de ncredere cautat. Deoarece ipoteza alternativei este cea a diferenei, fiind deci bilateral, vom calcula probabilitatea pentru ambele cozi ale distribuiei, adic pentru regiunile de respingere a ipotezei de nul, care sunt complementare nivelului de ncredere. Vom gsi deci p=0,0018, ceea ce conduce ctre respingerea ipotezei de nul i a acceptrii unei diferene semnificative statistic ntre valorile comparate. n cazul n care cele dou valori ale unei caracteristici sunt msurate pe dou eantioane distincte formula testului Z este aceeai cu precizarea c eroarea standard se calculeaz dup formula unde n1 i n2 sunt mrimile celor dou eantioane, iar 1 i 2 sunt 2 12 2 abaterile standard ale valorilor caracteristicii pentru fiecare dintre e= + cele dou eantioane (sau sub-eantioane - de exemplu diferena de n1 n2 vrst ntre votanii cu dreapta i votanii cu stnga dintr-un eantion). Testul Student ( t )
La fel ca i n cazul testului Z i pentru testul Student sunt calculate diferite nivele de probabilitate care reclam ns i specificarea numrului de grade de libertate, care se calculeaz dup formulele: respectiv
= n 1
Testul 2 (chi ptrat) de concordan
= n1 + n2 2
Atunci cnd se pune problema de a compara valori ale unor caracterisitici dintre care cel puin una este obinut prin msurtori efectuate pe eantioane de mrimi mici (pna la 30 de indivizi) corespondetul testului Z este testul Student (t). Formula de calcul a testului Student este identic cu aceea a testului Z: t= a b e sau t= estimat H 0 e
Deosebirea fa de testul Z const n modul de calcul al erorii standard (e) care se face, datorit estimrii lui cu ajutorul lui s, dup formula: dac una dintre valori este msurat pe un eantion de mrime n i una 2 xx pe o populaie (de exemplu, cnd vrem s testm dac un eantion este reprezentativ pe o caracteristic cantitativ, a crei valoare din populaie n 1 e= este cunoscut), n
Testele Z si Student sunt utilizate pentru a testa ipoteze care se refer la valori sau parametrii (medii sau proporii), motiv pentru care sunt adeseori cunoscute i sub denumirea mai larg de teste parametrice. Exist ns multe situaii n care ipotezele nu pot fi testate utiliznd doar medii sau proporii. Acest lucru se ntmpla spre exemplu atunci cnd datele cu care se lucreaz nu sunt de tip cantitativ. Exist apoi i alte condiii care trebuiesc ndeplinite n cazul testelor parametrice - utilizarea unor eantioane mari sau a unor eantioane extrase din populaii normal distribuite astfel nct i forma distribuiei de eantionare s fie cunoscut - condiii care nu ntotdeauna pot fi ndeplinite. Pentru a depi acest tip de neajunsuri au fost construite i o serie de teste a cror mod de operare nu presupune existen unor asumpii cu privire la populaia vizat sau cu privire la datele pe care le avem la dispoziie despre aceasta. Acest tip de teste sunt denumite teste non-parametrice. Unul dintre cele mai des utilizate teste de acest fel este testul 2 (chi ptrat). Scopul principal al acestui test este oarecum similar testelor Z i Student i anume ncearc s ofere un rspuns ntrebrii: dat fiind o mulime de valori observate ale unei caracteristici, modul de distribuire a acestor valori poate fi atribuit n ntregime fluctuaiilor fireti ale eantionrii sau exist o serie de ali factori care influeneaz aceast distribuire? n acest caz, pentru a rspunde la o astfel de ntrebare, punctul de plecare este o ipotez nul care afirm c nu exist ali factori care s influeneze distribuia valorilor observate ale unei variabile. Pentru a ilustra modul de operare al testului 2 (chi ptrat) de concordan vom utiliza exemplu urmtor. Fie urmtoarea situaie ipotetic: 100 de funcionari ai unei instituii publice sunt ntrebai cu privire la ceea ce i nemulumete cel mai mult la locul de munc, rspunsurile oferite avnd urmtoarele frecvene:
modul de organizare al activitilor modul n care sunt tratai de ef existena unui program fix de lucru lipsa unui spirit de echip lipsa unor rezultate vizibile
frecvena 24 10 27 11 28
2 =
4 2 10 2 7 2 9 2 8 2 + + + + 20 20 20 20 20
2 = 15.50
Valoarea obinut pentru 2 (15.50) se compar cu valorile critice ale distibuiei chi ptrat (Anexa 3) pentru diferite nivele de probabilitate, dintre care cel mai des utilizat este i de aceast dat pragul de 0,05. Ca i n cazul testului Student compararea valorilor critice ale unei distribuii observate cu ditribuia chi ptrat reclam specificarea numrului de grade de libertate, numr care se calculeaz dup formula df = k 1, unde k reprezint numrul de categorii ale caracteristicii analizate. n exemplul de mai sus k = 51 = 4 i cutnd n tabelul cu valori critice ale lui chi ptrat gsim c pentru nivelul de semnificaie de 0,05 i 4 grade de libertate valoarea critic este 9,488. Cum 15.50 este mai mare dect aceast valoare critic, vom spune c ipoteza nul se respinge cu o probabilitate de eroare de 5% sau, cu alte cuvinte, rspunsurile date de funcionari nu se distribuie omogen ci exist un anumit motiv de nemulunire care este mai acut dect celelalte, iar acest rezultat nu este generat de fluctuaiile de eantionare. Testul chi ptrat se folosete i n cazurile n care dorim s verificm dac un eantion este reprezentativ pentru o caracteristic calitativ, cum ar fi ocupaiile subiecilor, sau de exemplu reprezentativitatea unui eantion pe regiuni istorice. n acest caz valorile ateptate vor fi valorile din populaie, care sunt cunoscute din surse de date oficiale (distribuia pe ocupaii sau pe regiuni din date de recensminte de exemplu) 5.2 Teste parametrice sau non-parametrice?
ntrebarea care se pune n aceast situaie este: exist un motiv de nemulumire care este mai acut dect altele? Ipoteza nul n aceast situaie ar fi aceea c fiecare dintre motivele enumerate mai sus nemultumete n egal msur pe functionarii acelei instituii, fiecare dintre cele cinci rspunsuri avnd aceeai probabilitate de a fi indicat de ctre respondei. Din punct de vedere statistic aceasta ar nsemna c frecvenele observate ale rspunsurilor primite pot fi considerate egale cu frecvenele ateptate. Dac ipoteza nul este susinut atunci rspunsurile ar trebui s fie distribuite aleator pe cele cinci categorii de rspunsuri luate n considerare. Pentru a testa aceast ipotez s utilizm testul 2 (chi ptrat) care este definit dup formula:
2 =
i
(Oi Ai ) 2 Ai
unde Oi reprezint frecvenele observate, iar Ai reprezint frecvenele ateptate (adic distribuia aleatoare a rspunsurilor pe cele cinci categorii ale caracteristicii analizate motiv de nemulumire). Ridicarea la patrat din formula lui chi patrat este necesara deoarece, prin definitie,
(O
i
Ai ) = 0
n cazul nostru cele dou frecvene sunt: modul de organizare al activitilor modul n care sunt tratai de ef existena unui program fix de lucru lipsa unui spirit de echip lipsa unor rezultate vizibile Oi 24 10 27 11 28 Ai 20 20 20 20 20 Oi - Ai 4 -10 7 -9 8
nlocuind n formula lui 2 (chi ptrat) obinem:
2 =
(24 20) 2 (10 20) 2 (27 20) 2 (11 20) 2 (28 20) 2 + + + + 20 20 20 20 20
Cnd utilizm teste parametrice i cnd utilizm teste non-parametrice pentru a analiza un set de date? Rspunsul la aceast ntrebare nu este ntotdeun foarte tranant. Astfel, nu vom putea utiliza teste parametrice dac datele pe care le avem la dispoziie sunt de tip calitativ, motivul este acel c testele parametrice opereaz de cele mai multe ori cu valori medii, valori care evident nu pot fi calculate pentru date de tip calitativ. n aceast situaie un test non-parametric este singura alternativ posibil. Pe de alt parte testele parametrice sunt considerate a avea o putere statistic mai mare dect testele non-parametrice i aceasta pentru c modul lor de operare ia n considerare mai mult informaie despre caracteristica avut n vedere. Dar acest lucru se face cu anumite asumpii, dintre care cea mai important este distribuia normal n populaie a valorilor caracteristicii analizate. Ct de puternice sunt testele paramentrice n raport cu cele non-parametrice? Raspunsul trebuie i de aceast dat nuanat. Puterea statistic a unui test este de fapt probabilitatea de a respinge ipoteza nul atunci cnd aceasta nu este adevrat. Dar i n acest caz situaiile depind de modul de formulare a ipotezei nule i de mrimea entionului extras. Dac una dintre aceste dou variabile sufer modificri i puterea statistic a unui test este afectat. Practica a demonstrat c amndou tipurile de teste pot fi utilizate cu acelai succes cu condiia lurii n calcul a avantajelor i dezavantajelor fiecruia.
Capitolul 6 Asocierea variabilelor calitative Exerciii i probleme 1. Tabelul de mai jos clasific accidentele de munc ntr-o ntreprindere pentru luna precedent n patru perioade egale ale zilei. Considerndu-l ca un eantion aleator a. identificai valoarea p pentru H0 (conform creia probabilitatea de producere a accidentelor este egal n orice moment al zilei)? b. Poate fi respins ipoteza H0 la un nivel eroare de 5%? Perioada din zi 8-10 a.m. 10-12 a.m. 1-3 p.m. 3- 5 p.m. Numrul de accidente 31 30 41 58 Cum putem testa daca intre doua variabile calitative exista o relatie? Sa ne imaginam de exemplu ca suntem interesati sa vedem daca impactul saraciei este acelasi pentru diferite grupuri Figura 6.1 Relatia dintre saracie si statut ocupational din populatie, definite starea de saracie a gospodariei fie pe criterii spatiale ne-saraca saraca total (regiuni), fie pe criterii Salariat 8341 2536 10877 statutul de apartenenta etnica, ocupational patron 172 17 189 religioasa etc., fie pe al capului de pe cont propriu 466 367 833 baza statutului lor gospodarie agricultor 1553 1294 2847 ocupational etc.. Primul somer 709 795 1504 lucru pe care il trebuie pensionar 12959 2456 15415 alta 226 163 389 sa il facem in momentul Total 24426 7628 32054 in care ne punem o a) frecvente absolute astfel de intrebare este starea de saracie a gospodariei construirea unui tabel ne-saraca saraca total cu dubla intrare, numit Salariat 77 23 100 statutul si tabel de contingenta, ocupational patron 91 9 100 in care valorile uneia al capului de pe cont propriu 56 44 100 dintre variabile apar pe gospodarie agricultor 55 45 100 (%) coloane si valorile celei somer 47 53 100 pensionar 84 16 100 de-a doua variabile apar alta 58 42 100 pe randuri. In celulele Total 76 24 100 unui astfel de tabel b) frecvente relative (procente) pe randuri putem avea patru tipuri starea de saracie a gospodariei (%) de informatii: ne-saraca saraca total a) freceventele Salariat 34 33 34 statutul absolute (numarul de ocupational patron 1 0 1 indivizi din fiecare al capului de pe cont propriu 2 5 3 gospodarie agricultor celula precum si 6 17 9 somer 3 10 5 numarul total de pensionar 53 32 48 indivizi care apartin alta 1 2 1 diverselor categorii ale Total 100 100 100 variabilelor) c) frecvente relative (procente) pe coloane b) frecventele relative % starea de saracie a gospodariei pe randuri (care ne ne-saraca saraca total indica ce procent din Salariat 26 8 34 statutul categoria care defineste ocupational patron 1 0 1 un rand apartine si al capului de pe cont propriu 1 1 3 gospodarie agricultor 5 4 9 categoriei care defineste somer 2 2 5 coloana) - de exemplu
pensionar 40 alta 1 Total 76 d) frecvente relative (procente) din total 8 1 24 48 1 100
2. ntr-o universitate mare profesorii brbai i femei au fost eantionai independent, i sau obinut urmtoarele observaii cu privire la salariile lor lunare: (n sute de mii) Brbai 16 19 12 11 22 Femei 9 12 8 10 16
a. Calculai un interval de ncredere de 95% pentru media diferene de salarii ntre brbai i femei b. Ct de bine ilustreaz aceste date discriminarea practicat de universitate fa de femei?
53% din gospodariile de someri sunt sarace c) frecventele relative pe coloane (care ne indica ce procent din categoria care defineste o coloana apartine si categoriei care defineste randul) - de exemplu 10% din gospodariile sarace sunt gospodarii de someri d) frecvente relative din total (care ne indica ce procent din totalul indivizilor analizati apartin simultan si categoriei de pe rind si categoriei de pe coloana) - de exemplu 2% din totalul gospodariilor studiate sunt sarace si sunt gospodarii de someri (sau altfel spus sunt gospodarii sarace de someri). Un astfel de tabel ofera informatii despre doua tipuri de distributii: distributii marginale si distributii conditionate. Distributiile marginale sunt practic distributiile de frecvente ale variabilelor. Astfel, in Figura 6.1(a) si (d) la "marginile" tabelelor, pe coloanele de "Total", se afla distributiile marginale ale frecventelor absolute, respectiv relative (%) ale starii de saracie si respectiv statutului ocupational al capului de gospodarie. In Figura 6.1(b), care contine frecvente relative pe randuri, ultimul rand ("Total") nu este nimic altceva decat distributia starii de saracie in totalul gospodariilor analizate. In acelasi tabel, avem pentru fiecare categorie de ocupatie distributia de frecvente relative a saraciei, adica distributia starii de saracie conditionata de statutul ocupational al capului de gospodarie. Astfel, pe rindul "salariat" avem distributia starii de saracie conditionata de statutul de salariat al capului de gospodarie. Similar, in Figura 6.1(d) pe coloane avem distributiile statutului ocuational al capului de gospodarie conditionate de starea de saracie (pe ultima coloana, cea de "Total" avem bineinteles distributia statutului ocupational pentru toate gospodariile analizate, adica distributia marginala a statutului ocupational). Prin compararea distributiilor conditionate cu distributia marginala ne putem face o prima impresie despre relatia dintre cele doua variabile. Cand distributiile conditionate difera mult de distributiile marginale, ne putem astepta ca intre cele doua variabile sa existe o relatie de asociere. In sectiunea urmatoare vom vedea cum putem testa existenta unei astfel de relatii. 6.1 Testarea independentei dintre doua variabile: Testul 2 de independenta Chi ptrat este utilizat i pentru a testa dac dou variabile sunt sau nu asociate. Fie, spre exemplu, urmtoarea situaie ipotetic: 600 de locuitori ai unei localiti care sunt ntrebai dac vor sprijini sau nu o schimbare a modului de alocare a veniturilor bugetare ale localitii lor au rspuns dup cum urmeaz:
Tabelul 6.1 Relaia dintre dou variabile categoriale Frecvene observate Da Nu cei cu vrsta sub 25 110 40 cei cu vrst ntre 26 i 45 de ani 40 100 cei cu varsta peste 45 de ani 50 80 Total 200 220
aceast ntrebare trebuie s vedem cum ar trebui s arate distribuia n situaia n care nu exist asociere, adica in situatia de independenta. Sa ne aducem aminte de notiunile de probabilitati invatate in Capitolul 2. Am aratat acolo ca independenta se poate scrie in urmatorul fel: Pr(A si B) = Pr(A)Pr(B) Sa vedem acum cum am putea aplica aceste cunostinte in cazul independentei intre doua variabile. Sa consideram, in exemplul nostru, categoria celor de 25 de ani ca fiind evenimentul T, iar categoria celor care sunt in favoarea unei schimbari a modului de alocare a bugetului ca fiind evenimentul D. Care este probabilitatea ca evenimentele T si D sa se intimple simultan? Daca cele doua evenimente ar fi independente, atunci Pr(T si D) = Pr(T)Pr(D) Dar cat sunt Pr(T) respectiv Pr(D)? Din datele noastre, din frecventele marginale, rezulta ca Pr(T) = 180/600, iar Pr(D) = 200/600 Deci, daca cele doua evenimente ar fi independente, atunci Pr(T si D) = (180 x 200) / (600 x 600) = 1/10 = 10% Cu alte cuvinte, numai 10% din cele 600 de persoane chestionate ar trebui sa se afle in celula din stinga sus a tabelului (persoane care au sub 25 de ani si care sunt in favoarea schimbarii). Sau mai exact spus, daca cele doua evenimente ar fi independente, frecventa absoluta a acelei celule ar trebui sa fie de numai 60. Daca vom calcula in acest mod frecventele pe care fiecare celula ar trebui sa le aiba in ipoteza independentei, am obtine datele din tabelul de mai jos:
Frecvene ateptate in ipoteza independentei cei cu vrsta sub 25 cei cu vrst ntre 26 i 45 de ani cei cu varsta peste 45 de ani Total Da 60 66,67 73,33 200 Nu 66 73,33 80,67 220 Nu tiu 54 60 66 180 Total 180 200 220 600
Calculndu-l pe chi ptrat dupa formula prezentata in Capitolul 5, obinem: (Oi Ai ) 2 Ai i (unde n este numarul total de celule ale tabelului)
Nu tiu 30 60 90 180
Total 180 200 220 600
2 =
2 =
(110 60) 2 (40 66) 2 (40 66,7) 2 (100 73,33 2 ) (90 66) 2 + + ... + + + ... + 60 66 66,7 73,33 66
n aceast situaie se poate pune ntrebarea: exist sau nu o preferin a unei anumite categorii de vrst pentru schimbarea modului de alocare a veniturilor? Cu alte cuvinte exist o relaie ntre vrst i acordul cu aceast schimbare? Pentru a rspunde la
2 = 99,11
Numrul gradelor de libertate n acest caz se calculeaz dup formula: df = ( j 1)(k 1) unde j reprezint numrul de rnduri ale tabelului n care sunt dispuse frecvenele i k reprezint numrul de coloane. In acest caz df = 4. n tabelul cu valori critice pentru 2 (Anexa 3) observm c unui nivel de probabilitate de 5% i 4 grade de libertate i corespunde valoarea 9,488, valoare mai mic dect valoarea calculat a lui 2 . n aceast situaie vom spune c ipoteza de nul a independentei dintre vrst i preferina pentru schimbarea modului de alocare a veniturilor se respinge, cu o probabilitate de eroare de 0,05 (sau pentru un nivel de semnificatie de 5%). 6.2 Intensitatea relaiilor dintre variabilele calitative n seciunea anterioar am vzut cum putem testa ipoteza existenei unei relaii (de asociere) ntre dou variabile calitative. Testul 2 ne ofer ns informaii numai despre existena/inexistena unei relaii de asociere ntre dou variabile, dar nu i despre intensitatea respectivei relaii, atunci cnd ea exist. Pentru a rspunde la ntrebarea "Ct de puternic e relaia de asociere dintre dou variabile?" avem nevoie de msuri specifice. Dou dintre acestea vor fi prezentate n seciunea care urmeaz. Cazul variabilelor nominale - coeficientul (lambda) S ne ntoarcem la datele din Tabelul 6.1 i s presupunem de aceast dat c nu cunoatem dect distribuia marginal a atitudinii fa de schimbarea modului de alocare a bugetului (cu alte cuvinte nu tim dect c 200 de indivizi sunt pentru, 220 sunt mpotriv, iar 180 sunt nehotri). Dac vom ncerca s prezicem atitudinea unui individ oarecare, vom spune firete c repsectivul individ va fi mpotriva schimbrii modului de alocare a bugetului, deoarece cu o astfel de predicie avem cele mai reduse anse de a grei. Cu alte cuvinte, ne-am bazat predicia pe frecvena modal (cea mai mare frecven). n cazul n care am face o astfel de afirmaie pentru fiecare din cei 600 de indivizi, predicia noastr ar fi corect pentru 220 dintre ei (37%), i fals pentru ceilali 380. S presupunem acum c la un moment dat primim o informaie n plus, i anume distribuia atitudinilor fa de schimbarea modului de alocare a bugetului n funcie de grupele de vrst de care aparin indivizii (adic exact informaia prezentat n Tabelul 6.1). S zicem c vom considera ca plauzibil ipoteza n care atitudinile fa de modificarea modului de alocare a bugetului sunt dependente de grupa de vrst a individului. n acest caz, variabila vrst se va numi variabil independent, iar atitudinea fa de schimbarea modului de alocare a bugetului se va numi variabil dependent. S zicem acum c vom repeta raionamentul de mai sus (predicia atitudinii unui individ pe baza frecvenei modale) pentru fiecare grup de vrst n parte. Vom avea deci, din nou, un numr de predicii corecte i un numr de predicii eronate. Coeficientul reprezint tocmai proporia cu care se reduce numrul de erori prin introducerea variabilei independente. S calculm acum pentru datele din Tabelul 6.1:
Aa cum am artat, n absena variabilei independente, numarul de erori e1 a fost 380. S vedem acum cte erori am facut prezicnd variabila dependent pe baza valorilor variabilei independente (pentru a uura urmarirea calculelor, am copiat nc o dat mai jos datele Tabelului 6.1):
Tabelul 6.1 Relaia dintre dou variabile categoriale Frecvene observate Da Nu cei cu vrsta sub 25 110 40 cei cu vrst ntre 26 i 45 de ani 40 100 cei cu varsta peste 45 de ani 50 80 Total 200 220
Nu tiu 30 60 90 180
Total 180 200 220 600
pentru grupa de vrst sub 25 de ani, vom prezice corect pe baza frecvenei modale n 110 cazuri, i vom face erori n 70 de cazuri. pentru grupa de vrst 26 - 45 de ani, vom prezice corect pe baza frecvenei modale n 100 cazuri, i vom face erori n alte 100 de cazuri. pentru grupa de vrst peste 45 de ani, vom prezice corect pe baza frecvenei modale n 90 cazuri, i vom face erori n 130 de cazuri.
Deci totalul erorilor fcute este e2 = 70 + 100 + 130 =200. S l calculm acum pe lambda, dup o formul utilizat i pentru calculul altor msuri ale asocierii i cunoscut sub numele de "reducere proporional a erorii":
e1 e2 380 200 = = 0,47 e1 380
Coeficientul poate lua, prin modul de construcie numai valori ntre 0 i 1, 0 nsemnnd absena oricrei relaii ntre variabile, adic independen, iar 1 nsemnnd intensitate maxim a asocierii (asociere puternic). El este o msur asimetric (avem o variabil independent pe baza creia se fac predicii i o variabil dependent, ale crei valori sunt prezise), ns exist formule de calcul i pentru varianta simetric a acestui coeficient. Avantajul lui const n modul relativ uor i intuitiv de calcul. Principalul dezavantaj al acestei msuri este faptul c n condiiile n care o categorie a unei variabile conine un numr foarte mare de indivizi, poate fi egal cu 0 chiar dac cele dou variabile nu sunt independente. Cazul variabilelor ordinale
n cazul variabilelor ordinale, aa cum am vzut n introducerea acestui manual, exist posibilitatea de ordonare a valorilor variabilelor, i n consecin exist posibilitatea de a da ranguri indivizilor n funcie de valorile pe care acetia le au pentru o variabil. Msurile Ca urmare, n analiza acestui tip de variabile vom putea vorbi de un semn al asocierii (sau sensul asocierii). Msurile de asociere a variabilelor ordinale pot lua valori cuprinse ntre -1 i 1. La modul general vorbind, o msur a asocierii dintre dou variabile ordinale va fi pozitiv dac un individ cu un rang mare pentru variabila X
tinde s aib un rang mare i pentru variabila Y, iar indivizii cu ranguri mici pe variabila X au de asemenea ranguri mici i pentru Y. asocierea negativ apare atunci cnd indivizii cu rang mare pentru variabila X tind s aib ranguri mici pentru Y i invers. Dac o msur a asocierii dintre dou variabile ordinale ia valoarea 0, atunci vom spune c cele dou variabile sunt independente. Cu ct o relaie de asociere ntre dou variabile ordinale va fi mai puternic, cu att msura asocierii va fi mai mare n valoare absolut (mai aproape de 1). n cele ce urmeaz ne vom rezuma la a prezenta cteva noiuni de baz care se refer la msurile de asociere ntre variabile ordinale i la a arta modul de calcul pentru o astfel de msur. O pereche de observaii se numete concordant dac individul care are un rang mai nalt pe o variabil are un rang mai nalt i pe a doua variabil. O pereche de observaii se numete discordant dac individul care are un rang mai nalt pe o variabil are un rang mai cobort pe cealalt variabil. S presupunem c avem 4 elevi, ierarhizai dup calificativele la dou materii: Elevii A B C D Materia X Foarte bine Bine Satisfctor Suficient Materia Y Bine Foarte bine Satisfctor Suficient
Exerciii i probleme 1. ntr-un studiu asupra modului n care ocupaia se asociaz cu educaia, s-a realizat urmtorul eantion aleator de 500 de brbai anagajai.
Educaia 4 sau mai muli ani de liceu (incluznd i formarea vocaional) Mai puin de patru ani de liceu Funcionari 194 18 Ocupaia Muncitori n Angajai n fabric servicii 146 27 79 18 Agricultori 10 8
a. Explicitai n cuvinte ipoteza de nul H0 b. Calculai 2 i valoarea p pentru H0 2. Se da tabelul:

sex femei barbati total somaj da nu 30% 30% 30% total 70% 70% 70% 100% 100% 100%
S ncercm acum s numrm perechile concordante i perechile discordante, i pentru aceasta s ncepm cu toate perechile de observaii pe care le putem forma cu elevul A: Acestea sunt: perechea AB (discordant, deoarece A are un rang mai nalt dect B pe variabila X, dar un rang mai cobort dect B pe variabila Y), perechea AC (concordant) i perechea AD (concordant). S trecem acum la perechile lui B: Acestea sunt BC (concordant) i BD (concordant). n fine, trecem acum la perechile lui C, adic la CD (concordant). n total am avut 6 perechi, din care una discordant iar 5 concordante. S calculm acum o msur simpl de asociere ntre cele dou variabile (calificativele la materiile X i Y), numit coeficientul a al lui Kendall:
Care din propozitiile urmatoare sunt adevarate? 1. 30% dintre femei sunt somere 2. 30% dintre someri sunt barbati 3. 70% din totalul populatiei se afla in somaj 4. probabilitatea ca o persoana din populatie sa fie in somaj este de 0.3 nici una dintre acestea 3. Dac variabilele nominale x i y nu sunt independente statistic atunci este de ateptat ca: 1. Distribuiile condiionate ale lui y funcie de x s fie diferite de distribuia marginal a lui y 2. Distribuiile condiionate ale lui y , funcie de x s fie egale ntre ele 3. Corelaia Bravais-Pearson dintre x i y s fie semnificativ diferit de 0 4. Statistica test chi-patrat s difere semnficativ de 0 5. Rspunsurile 1,2,3,4 s fie incorecte
a =
nc nd nt
unde nt este numrul total de perechi nc este numrul de perechi concordante nd este numrul de perechi discordante n concluzie, pentru exemplul nostru (care este unul pur didactic), a = 4/6 = 0,66. Aceasta a fost practic cea mai simpl ilustrare de msur de asociere a dou variabile ordinale. n practic ns, lucrurile stau puin mai complicat, pentru c deseori apar ceea ce se numesc ranguri "legate" sau egale. Acest lucru complic destul de mult calculele i formulele, ns principiul rmne acelai, al comparrii numrului de perechi concordante cu numrul de perechi discordante.
Capitolul 7 Studiul relaiilor ntre variabile cantitative

Pentru a oferi explicaii sau pentru a realiza predicii este nevoie, cel mai adesea, s fie analizate relaii ntre dou sau mai multe variabile: ntre cea a crei variaie ncercm s o explicm, numit i variabila dependent, i una sau mai multe variabile independente. S lum ca exemplu cazul unui program de reducere a omajului care urmeaz a fi analizat la finalul aplicrii sale n mai multe localiti. ntr-un astfel de studiu, pot fi considerate drept uniti de analiz localitile n care a fost aplicat programul, variabila dependent este diferena dintre rata somajului nainte de aplicarea programului i rata omajului dup terminarea programului (DIF), iar suma alocat n program unei localiti mprit la numrul de locuitori (SUM) este una dintre variabilele independente posibile, cu ajutorul creia puteam ncerca s explicm de ce omajul a sczut mai mult n unele localiti dect n altele. Cunoscnd valorile luate de cele dou variabile, notate DIF i SUM, putem ncerca s aflm mai multe lucruri despre relaia care le caracterizeaz: 1. Dac exist o legtur ntre valorile variabilelor; altfel spus, dac reuim s anticipm rezultatul programului ntr-o localitate, cunoscnd care a fost suma alocat din program, mai bine dect n absena acestei informaii. 2. Care este forma relaiei, n cazul n care aceasta exist. Sunt mai multe moduri de a descrie forma relaiilor dintre variabile: acestea pot s fie liniare, atunci cnd valorile unei variabile tind s se modifice cu o constant n condiiile n care valorile celeilalte variabile se modific cu o constant; Relaiile liniare pot s difere prin nclinaia dreptei prin care sunt reprezentate. Relaiile neliniare pot fi i ele monotone, adic pozitive sau negative. n exemplul considerat, este de ateptat ca relaia s fie pozitiv, adic unei sume mai mari s i corespund o reducere mai accentuat a omajului. ns n plus fa de semnul relaiei--pozitiv ori negativ--, este important de tiut ct de rapid este variaia variabilei DIF atunci cnd variabila SUM i schimb valorile. Un program este cu att mai eficient cu ct, n medie, unei aceleiai creteri a variabilei SUM i corespunde o cretere mai mare a variabilei DIF. 3. Care este intensitatea relaiei. Ct de bine putem prezice valorile variabilei dependente atunci cnd le cunoatem pe cele ale variabilei independente? 4. Dac este posibil generalizarea rezultatelor. Cnd datele disponibile provin de pe un eantion de localiti, poate fi extins rezultatul obinut pe aceste date la ntreaga mulime de localiti cuprins n studiu? 5. Ct de mult temei avem s afirmm c relaia este de tip cauzal. Ar fi posibil ca existena unei relaii ntre SUM i DIF s se datoreze unei a treia variabile, care nu este cuprins n analiz, i care le determin pe amndou. Cum putem stabili dac scderea ratei omajului s-a datorat programului analizat, sau dac scderea se datoreaz exclusiv altor factori? Tehnicile statistice prezentate n capitolele anterioare ne permit adesea s rspundem unora dintre ntrebrile formulate mai sus. n exemplul considerat ns, cele dou variabile au, foarte probabil, un numr ridicat de valori fiecare, fapt care face dificil studiul relaiei dintre ele cu ajutorul unui tabel de asociere. O soluie este aceea a reducerii numrului de valori prin recodificare. Astfel, am putea s includem ntr-o aceeai categorie, notat cu "1", toate localitile n care suma cheltuit ca parte a programului, mprit la numrul de locuitori, este ntre 0 i 1000 lei; ntr-o categorie notat cu "2" ar fi incluse toate localitile pentru care valorarea variabilei SUM este ntre 1001 i 2000 de lei, etc.; n mod similar se procedeaz i pentru variabila DIF. Avnd prin recodificare un numr suficient de mic de categorii, relaia dintre cele dou variabile poate fi analizat printr-un tabel de asociere. Se pot obine n acest mod, aa cum s-a vzut i n Capitolul 6, informaii despre existena unei relaii ntre variabile, despre forma relaiei, precum i despre posibilitatea generalizrii de la eantion la ntreaga mulime de localiti. Acest procedu are ns un inconvenient major: o parte a informaiei iniiale este ignorat, iar rezultatul analizei este influenat de modul n care este fcut recodificarea. ntrebarea care se pune n mod justificat, i care nu are un rspuns satisfctor, este "cum trebuie definite categoriile reduse ale variabilei iniiale?",
pentru c evident avem mai multe opiuni posibile: am putea, de exemplu, include n prima categorie toate localitile pentru care SUM ia valori ntre 0 i 1500, ori cele ntre 0 i 1600. Cazul urmtor ilustreaz faptul c recodificarea unor variabile cantitative cu multe categorii poate s schimbe rezultatele analizei statistice. Fie X i Y dou variabile de raport, avnd cte 10 valori. Fiecare dintre cele dou variabile este transformat prin recodificri diferite n trei variabile: X1, X2, X3, respectiv Y1, Y2, Y3. Noile variabile au cte 3 valori, iar relaiile dintre variabilele care provin din X cu fiecare dintre variabilele care provin din Y sunt analizate cu ajutorul unui indicator care corespunde tabelelor de asociere, Lambda. Valorile acestor indicatori sunt reprezentate n urmtorul tabel: Lambda y1 0.00 0.27 0,10 Lambda y2 0.18 0.23 0.61 Lambda y3 0.45 0.31 0.67
x1 x2 x3
Se observ n tabel cum recodificrile diferite ale variabilelor X i Y conduc la variaii importante de intensitate a relaiei dintre noile variabile, obinute prin transformarea lui X i Y. Astfel, Lambda are valoarea 0,00 pentru relaia dintre X1 i Y1, i valoarea 0,67 pentru relaia dintre X3 i Y3. Concluzia care rezult de aici este c analiza relaiilor dintre variabile cantitative nu si gsete o rezolvare satisfctoare prin aplicarea unor procedee specifice variabilelor calitative. Este nevoie s fie aplicate tehnici statistice adaptate pentru variabilele cantitative, i care folosindu-se de informaia descris de aceste variabile, mai bogat dect n cazul celor calitative, pot oferi un rspuns mai complet ntrebrilor formulate mai sus: exist relaii, ce form au, ce intensitate, pot fi generalizate, sunt cauzale? Procedeul cel mai des folosit n cazul n care variabilele sunt cantitative este cel al analizei de regresie. n cazul bivariat, cnd este studiat relaia dintre o variabil dependent i o singur variabil independent, regresia se numete regresie simpl. O alt denumire, echivalent, este cea de regresie bivariat. Atunci cnd este studiat efectul simultan al mai multor variabile independente asupra variabilei dependente, regresia se numete regresie multipl. Denumirile echivalente sunt de regresie multivariat, sau regresie multiliniar. n seciunea care urmeaz voi arta cum sunt definite modelele de regresie linear simpl, n ce fel sunt interpetai coeficienii care descriu aceste modele, i n ce mod poate fi evaluat eficiena lor de ansamblu n descrierea relaiilor dintre perechi de variabile. Ultima seciune a acestui capitol va prezenta, ntr-o structur similar, modelele de regresie multipl. 7.1 Regresia linear simpl Fiind cunoscute valorile a dou variabile cantitative pentru o mulime de uniti de analiz, este posibil s reprezentm complet aceast informaie printr-un grafic. Variabilei dependente i corespunde axa vertical, iar celei independente i corespunde axa orizontal. Fiecare unitate de analiz este reprezentat printr-un punct care se afl la o distan de axa vertical proporional cu valoarea variabilei independente luat de acea unitate, i la o distan de axa orizontal proporional cu valoarea variabilei dependente. Astfel, n exemplul precizat anterior, dac variabila DIF are valorile exprimate n valori procentuale, iar variabila SUM este exprimat n mii de lei, o localitate n care s-au cheltuit 5000 de lei pe cap de locuitor, i n care omajul a sczut cu dou procente, se afl cu dou uniti deasupra axei orizontale i la cinci uniti n dreapta axei verticale. Foarte adesea, informaia cuprins ntr-un grafic de acest tip este prea bogat pentru a putea fi analizat direct. La fel cum n cazul unei singure variabile este util s reducem informaia reprezentat de distribuia sa la o singur valoare, cea a tendinei centrale, exprimat prin medie, median sau un alt indicator, i n cazul considerrii simultane a dou variabile ar fi de folos s putem descrie ntr-un mod ct mai succint relaia dintre acestea. O soluie simpl este aceea de a nlocui norul de puncte de pe grafic printr-o singur dreapt care s i aproximeze forma ct mai bine. n seciunea care urmeaz, 7.1.1., vom arta cum poate fi construit o astfel
de dreapt, numit dreapt de regresie. Vom prezenta apoi interpretarea coeficienilor prin care este descris dreapta de regresie. n seciunea 7.1.2. vor fi definii indicatori prin care poate fi apreciat gradul de acuratee prin care o dreapt de regresie descrie relaia dintre dou variabile. n ultima seciune a acestei pri, 7.1.3., va fi discutate una dintre condiiile mai importante care trebuie ndeplinit pentru ca modelele de regresie s poat fi aplicate. 7.1.1 Construcia dreptei de regresie Fie un grafic pe care sunt reprezentai mai muli indivizi statistici, n funcie de valorile a dou variabile cantitative, X i Y, i fie o dreapt dus la ntmplare pe acest grafic. Poziia fiecrui individ i este fixat de valorile pe care iau cele dou variabile, notate cu xi i yi. Poziia dreptei n raport cu cele dou axe ale graficului este complet precizat de urmtoarea relaie: Y' = a + bX. (1) Relaia exprim faptul c orice punct k de pe dreapt, are coordonatele xk i y'k astfel nct y'k = a + bxk. Mai mult, orice punct de pe grafic pentru care are loc relaia anterioar ntre coordonatele sale, se afl pe dreapt. De aici rezult faptul c orice dreapt este identificat complet prin doar dou valori, cea a constantei a, i cea a constantei b. Dac ar fi posibil nlocuirea unui nor de n puncte, care ofer o reprezentare precis a n perechi de valori, printr-o dreapt care s indice forma de ansamblu a mulimii de puncte, atunci ar fi obinut o simplificare remarcabil a modului n care este descris relaia. n Figura 7.1 sunt reprezentate localitile din exemplul discutat anterior, caracterizate de valorile variabilei dependente DIF, respectiv a variabilei independente SUM. Pe grafic este trasat i o dreapt (d) precum i o mulime de segmente verticale, fiecare fiind construit astfel nct s uneasc punctul care corespunde unei localiti cu dreapta (d). Figura 7.1. Reprezentarea grafic a variabilelor DIF i SUM, care iau valori pentru 25 de localiti.
Dac pentru dou variabile cantitative am putea construi o dreapt astfel nct toate punctele care corespund unitilor de analiz s se afle pe dreapt, atunci dreapta ar oferi o descriere complet a formei norului de puncte. ntr-un astfel de caz, fiecare dintre segmentele verticale dintre puncte i dreapt ar avea lungimea zero. Este clar c n exemplul considerat aici nu exist o astfel de dreapt, care s descrie perfect relaia dintre cele dou variabile. Ar fi de dorit atunci, s fie determinat acea dreapt pentru care lungimile segmentelor verticale dintre puncte i dreapt s fie ct mai apropiate de zero. Prin definiie, dreapta cu proprietatea c ptratele lungimilor segmentelor dintre puncte i dreapt au suma minim este numit dreapt de regresie. Datorit modului n care este definit, se spune despre dreapta de regresie c satisface criteriul celor mai mici ptrate. Se poate demonstra matematic faptul c pentru dou variabile date exist o dreapt unic de regresie, iar aceasta poate fi determinat. Cu alte cuvinte, oricare ar fi dou variabile X i Y, care iau valori pentru n uniti de analiz, pot fi deteminate n mod unic constantele a i b astfel nct dreapta Y' = a + bX, (2)
s ofere o cea mai bun aproximare a relaiei dintre X i Y--din perspectiva criteriului celor mai mici ptrate--, dintre toate dreptele posibile. Y' este o variabil care se obine din intersecia segmentelor verticale care trec prin punctele (xi, yi) de pe grafic i dreapta de regresie, iar punctele de intersecie sunt de forma (xi, y'i). Datorit modului n care este construit variabila Y', valorile sale sunt identice cu ale lui Y atunci cnd punctele sunt pe o dreapt, i sunt cu att mai diferite de cele ale lui Y cu ct punctele sunt mai dispersate n jurul dreptei de regresie. Un alt mod de a scrie expresia (2) este urmtorul: Y = a + bX + U, unde U = Y - Y'. U este o variabil care pentru fiecare unitate de analiz ia o valoare egal cu lungimea segmentului vertical dintre punctul care i corespunde pe grafic i dreapta de regresie. n exemplul anterior, a = -5,86, b = 0,67. Ecuaia dreptei de regresie este DIF = - 5,86 + 0,67SUM. 7.1.2 Interpretarea coeficienilor dreptei de regresie Coeficientul b este numit panta asociat variabilei X i, aa cum se poate vedea din expresia dreptei de regresie, reprezint numrul de uniti cu care variaz Y' atunci cnd X crete cu o unitate: dac avem dou puncte (x1, y'1) i (x2, y'2), x2 = x1 + 1, i ambele puncte sunt pe dreapta Y' = a + bX, atunci, nlocuind n formula dreptei se obine y'2 = a + bx2 = a + b(x1 + 1) = a + bx1 + b = y'1 + b. n exemplul discutat anterior, valoarea lui b indic faptul c o cretere a sumei cheltuite pe cap de locuitor cu o mie de lei conduce n medie la o cretere a diferenei cu 0,67, adic la o scdere a ratei omajului cu 0,67 de puncte procentuale.
Semnul plus al lui b indic faptul c ntre X i Y are loc o relaie pozitiv--adic valorilor mici ale lui X tind s le corespund valori mici ale lui Y, iar valorilor mari ale lui X tind s le corespund valori mari ale lui Y--, n timp semnul minus semnaleaz prezena unei relaii negative. bi = 0 se obine atunci cnd forma norului de puncte nu poate fi aproximat printr-o dreapt. O situaie de acest gen apare atunci cnd cele dou variabile estimeaz fenomene independente, fr legtur, dar i n cazul n care variabilele sunt ntr-o relaie a crei form nu este liniar (de exemplu, atunci cnd punctele sunt pe o curb n form de parabol). Cele dou cazuri sunt ilustrate n Figura 7.2., respectiv n Figura 7.3. Figura 7.2. Exemplul a dou variabile cantitative ntre care nu are loc o relaie.
Astfel, dac SUM din exemplul anterior ar fi exprimat n uniti monetare / numrul de locuitori, adic ntr-o unitate de msur de o mie de ori mai mic dect cea din exemplu, b1 ar fi de 1000 de ori mai mic. n general, se poate arta c, dac n loc de X avem cX + d, atunci n loc de b avem b / c. Din aceast proprietate rezult faptul c panta de regresie nu poate fi folosit drept un indicator al intensitii relaiei dintre variabila dependent i variabila independent. Constanta a din ecuaia dreptei de regresie indic valoarea y' pe care o ia un punct pentru care x = 0 i care este aflat pe dreapt. 7.1.3 Indicatori ai intensitii relaiei dintre dou variabile cantitative: coeficientul de determinaie i coeficientul de corelaie Pearson Dreapta de regresie asociat relaiei dintre dou variabile cantitative ofer o imagine sintetic despre forma acestei relaii, ns nu ofer informaii despre ct de asemntoare este aceast imaginea simplificat cu cea real. Am ntlnit o situaie similar n cazul mediei: acest indicator descrie succint tendina central a distribuiei unei variabile cantitative, ns nu cuprinde informaii despre ct de complet este aceast reprezentare. n acest caz, exist un indicator care arat ct de dispersate sunt valorile luate de variabil n jurul mediei: abaterea standard. Cu ct valorile sale sunt mai mici cu att media descrie mai precis distribuia variabilei. n Figura 7.4. i n Figura 7.5. sunt reprezentate relaiile dintre cte dou perechi de variabile cantitative. n ambele cazuri ecuaia dreptei de regresie este aceeai: Y = 2 - 2,5 X. Se observ ns c unitile de analiz din Figura 7.5. sunt mai dispersate n raport cu dreapta de regresie dect cele din Figura 7.4. Acest fapt arat c dintre cele dou drepte, cea din Figura 7.4. ofer reprezentarea cea mai precis a relaiei dintre perechea de variabile crora le corespunde.
Figura 7.3. Exemplul a dou variabile ntre care exist o relaie (de forma Y' = X2) care nu poate fi aproximat printr-o dreapt de regresie.
Figura 7.4. Distribuia a dou variabile cantitative i dreapta lor de regresie (A).
20
10
-10
Y1
-20 -3 X1 -2 -1 0 1 2 3
Coeficientul b are urmtoarea proprietate important: valoarea sa depinde de unitile de msur ale celor dou variabile.
Figura 7.5. Distribuia a dou variabile cantitative i dreapta lor de regresie (B).
20
7.1.4 Problema distribuiilor non-normale Pentru a putea studia relaia dintre dou variabile cu ajutorul analizei de regresie este necesar ca acestea s fie de tip cantitativ, adic de interval sau de raport. n plus, exist o alt cerin care trebuie respectat pentru ca rezultatele aplicrii regresiei s poat fi interpretate n mod corect: distribuia fiecreia dintre cele dou variabile trebuie s fie de tip normal (gaussian), sau, cel puin, s nu se abat n mod substanial de la aceast form. Voi ilustra printr-un exemplu care sunt problemele care apar atunci cnd aceast cerin nu este respectat: Presupunem c avem date despre proporia cetenilor care au o prere foarte bun despre calitatea drumurilor din localitatea n care locuiesc i despre numrul de locuitori din acea localitate. Datele (fictive) sunt reprezentate n Figura 7.6. Se observ c ambele variabile au distribuii asimitetrice iar unitile de analiz sunt concentrate mai mult la exteme dect n jurul unor valori centrale. Acest fapt este cel mai clar n ceea ce privete numrul de locuitori, unde exist o localitate cu o valoare mult diferit de a celorlalte. Reprezentarea grafic a dreptei de regresie, precum i valorile lui r i ale lui R2 indic existena unei relaii de semn pozitiv ntre cele dou variabile: r = 0,48, iar R2 = 0,23.
10
-10
Y2
-20 -3 X2 -2 -1 0 1 2 3
Puterea explicativ a unui model de regresie simpl poate fi evaluat cu ajutorul mai multor indicatori. Coeficientul R2, numit coeficient de determinaie, este definit de urmtoarea formul:
R2 =
(Y 'Y ) (Y Y )
2 2
Numrtorul expresiei reprezint variaia lui Y care este "explicat" de ecuaia de regresie, n timp ce valoarea de la numitor este egal cu variaia total a lui Y. Deci, R2 indic proporia din variaia lui Y care este "explicat" de variabila independent. Din modul n care este definit rezult c R2 poate s ia valori ntre 0 i 1. R2 este egal cu 1 atunci cnd distribuia punctelor se face dup o dreapt. Valoarea sa este zero n situaii cum sunt cele ilustrate n Figura 7.2. i n Figura 7.3., adic atunci cnd distribuia punctelor nu poate fi aproximat printr-o dreapt. n general, cu ct valorile lui R2 sunt mai apropiate de 1, cu att relaia dintre cele dou variabile este mai intens iar reprezentarea sa grafic este mai apropiat de o dreapt. n exemplul din seciunea anterioar R2 = 0,53. R2 care corespunde relaiei reprezentate n Figura 7.4. are valoarea 0,95, n timp ce R2 din Figura 7.5. are valoarea 0,58. Un alt indicator al intensitii relaiei dintre dou variabile cantitative este coeficientul de corelaie Pearson, notat cu r i definit prin urmtoarea formul: r = b X / Y. X i Y reprezint abaterea standard a variabilei X, respectiv abaterea standard a variabilei Y. Coeficientul de corelaie are dou proprieti din care poate fi dedus i modul su de interpretare: 1. r2 = R2 --coeficientul de corelaie Pearson ridicat la ptrat este egal cu coeficientul de determinaie. 2. r are acelai semn cu b, deoarece cele dou abateri standard din definiia sa au ntotdeauna semn pozitiv. Astfel, din proprietatea (1) rezult c r ia valori n intervalul [-1, 1], iar valorile extreme sunt luate n acelai situaii n care R2 ia valoarea 1: atunci cnd relaia dintre cele dou variabile cantitative este de intensitate maxim i punctele care reprezint grafic unitile de analiz sunt distribuite pe o dreapt. n mod similar, r ia valoarea 0 atunci cnd R2 este nul, adic n situaiile n care distribuia unitilor de analiz nu poate fi aproximat printr-o dreapt (Figurile 2. i 3. ilustreaz situaii n care r este 0). Din proprietatea (2) rezult c r ia valori pozitive atunci cnd dreapta de regresie are o nclinaie ascendent de la stnga spre dreapta, i valori negative atunci cnd inclinaia este descendent.
proportia celor multumiti
Figura 7.6. Relaia dintre mrimea localitii i proporia locuitorilor care au o prere foarte bun despre starea drumurilor din localitate.
.5
.4
.3
.2
.1
0.0 0 100000 200000 300000 400000
numarul de locuitori
Privind ns graficul, se observ c dreapta de regresie nu aproximeaz corect distribuia localitilor pe grafic, ntruct nu exist o tendin general ca localitile mai mari s aib proporii mai mari de ceteni mulumii de starea drumurilor dect localitile mai mici. Panta ascendent a dreptei de regresie, precum i valoarea pozitiv a lui r, sunt urmarea includerii n analiz a localitii care are o populaie mult
mai mare dect a celorlalte (310000 locuitori, n timp ce urmtoarea localitatea ca mrime are 47000). Dac aceast localitate este exclus, se obin valori pentru b i R2 foarte aproape de zero: b = -0,051, R2 = 0,003. 7.2 Regresia linear multipl
1.5
1.0
.5
rata somajului (2) - rata somajului (1)
Modelul de regresie simpl este folosit pentru a descrie relaia dintre dou variabile cantitative. n cazul n care sunt disponibile date despre mai muli factori cu potenial explicativ, iar acetia sunt estimai prin variabile cantitative, este de dorit ca analiza s cuprind simultan toate variabilele i nu doar dou dintre acestea. Utilizarea regresiei simple ntr-un astfel de caz, prin ignorarea unora dintre variabilele independente, ori prin aplicarea succesiv pentru fiecare dintre variabilele independente, poate s conduc la rezultate eronate. Exemplul urmtor ilustreaz o situaie de acest tip. S presupunem c n evaluarea unui program prin care s-a urmrit reducerea omajului se cunoate variaia ratei omajului (DIF), suma cheltuit raportat la numrul de locuitori (SUM), i, n plus, fa de exemplu similar descris n seciunea precedent, fiecare localitate este descris de un indicator global al calitii administrrii programelor locale, altele dect cel evaluat aici. Acest din urm indicator, notat CALIT, este de tip cantitativ, si are trei valori: 1 desemneaz un nivel sczut, 2 un nivel mediu, iar 3 un nivel ridicat al calitii administrrii programelor. n Figura 7.7 sunt reprezentate localitile cuprinse n studiu, n funcie de cele trei variabile. La fel ca i n Figura 7.8 valorile lui DIF sunt pe axa vertical, iar cele ale lui SUM pe axa orizontal. Marcarea localitilor pe grafic se face prin simboluri grafice diferite n funcie de valorile celei de a treia variabile. Analiza legturii dintre DIF i SUM printr-o regresie simpl conduce la concluzia c relaia dintre cele dou variabile este direct, i destul de intens (R2 = 0,53). Dac, ns, relaia dintre cele dou variabile este studiat separat pe grupele de localiti desemnate prin valorile celei de-a treia variabile, concluzia este diferit. n locul unui singur model, vom urmri parametrii a trei modele de regresie simpl, cte unul pentru fiecare dintre valorile variablei CALIT. Valorile lui R2 care se obin sunt 0,006 pentru CALIT = 1, 0,005 pentru CALIT = 2, i 0,004 pentru CALIT = 3. Cele trei valori indic faptul c intensitatea relaiilor dintre DIF i SUM pentru fiecare dintre cele trei categorii de localiti este foarte aproape de zero. Altfel spus, cnd sunt comparate localiti care sunt asemntoare din punctul de vedere al performanei administrrii de programe, cheltuirea unei sume mari pe cap de locuitor nu este asociat, n medie, unei scderi mai accentuate a ratei omajului dect n localitile n care suma a fost mai mic. Acest rezultat indic, contrar celui obinut din analiza doar a primelor dou variabile, c programul de reducere a omajului nu a fost eficient. Figura 7.7. Relaia dintre variabilele DIF, SUM, i CALIT pentru 25 de localiti.
0.0
-.5
-1.0
Calit. adm. 3.00
-1.5
2.00
-2.0
1.00 Toate localit.

6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0
-2.5 6.0
suma cheltuita / nr. de locuitori
Problema general pe care ncercm s o rezolvm prin modelare statistic poate fi redus adesea la urmtoarea exprimare: B este un fenomen care trebuie explicat iar A1, A2, ... sunt factori explicativi poteniali; Care este efectul independent al fiecrui Ai asupra lui B? Care este ierarhia importanei factorilor A1, A2, ... n explicarea lui B? Exemplul de mai sus arat faptul c numai prin modele care cuprind simultan toate variabilele relevante pentru fenomenul studiat poate fi evaluat efectul independent al fiecreia. Modelele multivariate cele mai simple i de aceea cel mai usor de interpretat sunt cele de regresie multipl. Vom arta modul n care acestea sunt definite (7.2.1), felul n care pot fi interpretate relaiile dintre variabilele cuprinse n model (7.2.2.) i cum poate fi evaluat eficiena de ansamblu a modelelor (7.2.3). n seciunea (7.2.4.) vor fi discutate modalitaile de generalizare a rezultatelor obinute pe un eantion iar n sectiunea (7.2.5) va fi descris problema multicoliniaritii. n seciunea (7.2.6) va fi prezentat o extindere a modelelor de regresie pentru variabile nominale i ordinale. 7.2.1 Definirea modelelor de regresie multipl Fie Y, X1, X2, ..., Xm, variabile cantitative. Y este variabila a crei variaie incercm s o explicm iar X1, X2,..., Xm, sunt variabilele independente. Putem scrie urmtoarea relaie ntre variabile: Y = a + b1X1 + b2X2 + ... + bmXm + U (3)
unde a, b1, b2, ..., bm sunt numere iar U este o variabil. Se observ c pentru orice combinaie de numere a, b1, b2, ..., bm, relaia (3) este asevrat, pentru c acestea mpreun cu valorile lui Y, X1, X2, ..., Xm determin U.
Figura 7.8. Reprezentarea grafic n trei dimensiuni a unor cazuri caracterizate de trei variabile.
Y
n care a, b1, b2, ..., bm sunt determinate n urma aplicrii principiului celor mai mici ptrate este un model de regresie multipl. Dac avem o singura variabil independent (m=1) ecuaia (5) descrie un model de regresie simpl. n exemplul de mai sus, planul care aproximeaza cel mai bine - dup criteriul celor mai mici ptrate -, distribuia punctelor din spaiu asociate celor 25 de uniti de analiz (localiti cuprinse n studiu) are ecuaia DIF = -2,61 + 0,05 SUM + 1,00 CALIT.
(X11,X21,Y1)
(X12,X22,Y2) (X13,X23,Y3) (X14,X24,Y4) Y5 (X15,X25,Y5) X15 X25
7.2.2 Interpretarea modelelor de regresie multipl

X2
X1
Dac m=2 relaia (3) poate fi descris grafic printr-un desen tridimensional. Fiecrui individ statistic i corespunde un punct de coordonate (X1,X2,Y) (Figura 7.8.), iar a, b1 i b2 definesc un plan descris de ecuaia Y' = a + b1X1 + b2X2. Variabila U este determinat de acest plan i de punctele de forma (X1,X2,Y) ntr-un mod analog cazului cu dou dimensiuni: valoarea Ui care i corespunde unui individ statistic care a luat valorile X1i, X2i,Yi, este egal cu lungimea segmentului paralel cu axa OY care are la extremiti punctul care i corespunde n spaiu (X1i,X2i,Yi), respectiv punctul de intersecie cu planul (si care are coordonatele (X1i,X2i,Y'i)). Expresia (3) indic faptul c Y poate fi exprimat ca o combinaie liniar de X1, X2, ..., Xm, i o variabil U numita variabil rezidual. Dac fixm a, b1, b2,..., bm atunci U poate fi exprimat n funcie de aceste numere i Y, X1, X2,...Xm: U = Y - (a + b1X1 + b2X2 + ... + bmXm) Dac notm expresia din paranteza cu Y' atunci U = Y - Y'. Vom alege din mulimea (infinit) a expresiilor de forma (3) acea combinaie liniar pentru care U (determinat din (4)) are valori minime. Pentru c U este o variabil, atunci cnd expresia (3) se aplic unui numr de n indivizi statistici, U este un ir de n numere. Avem nevoie s definim un criteriu dup care variabilele U s poat fi comparate astfel nct s putem alege un U avnd valorile cele mai mici. Principiul folosit pentru modelele de regresie liniar multipl este, la fel ca i n cazul bivariat, cel al celor mai mici ptrate: Unei variabile U i corespunde un numr u obinut din aplicarea formulei u = u12 + u22 + ... + un2, unde ui este valoarea luat de U pentru cazul statistic i; este ales U pentru care u este cel mai mic. Din (3) rezult c problema este echivalent cu determinarea valorilor a, b1, b2, ..., bm astfel nct u s fie minim. Este important de reinut c pentru orice numr de variabile independente m, a, b1, b2, ..., bm sunt determinai n mod unic de condiia de a avea u minim. Ecuaia Y' = a + b1X1 + b2X2 + ... + bmXm, (5) (4)
Coeficientul bi, numit panta asociat variabilei Xi, reprezint numrul de uniti cu care variaz Y' atunci cnd Xi crete cu o unitate iar celelalte variabile independente sunt meninute constante. Altfel spus, bi arat cum se modific valoarea ateptat a variabilei dependente atunci cnd Xi variaz iar Xj sunt constante, ji. Deasemenea, n msura n care datele satisfac anumite proprieti (dintre care un principiu important este cel al distribuiilor apropiate de cele normale, iar un alt principiu, al multicoliniaritii, va fi discutat n seciunea 7.2.5.) este corect s afirmm c bi indic variaia n mediile valorilor lui Y care corespund punctelor de forma (X1,...,Xi,...,Xm) respectiv (X1,...,Xi + 1,...,Xm). La fel, a arat care este media lui Y atunci cnd X1 = X2 = ... = Xm = 0. Semnul plus al lui bi indic faptul c ntre Xi i Y are loc o relaie pozitiv n condiii de control al efectului celorlalte variabile, n timp ce semnul minus indic prezena unei relaii negative. In exemplul anterior, b1 = 0,05 arat c dac vom compara dou localiti unde diferena dintre sumele cheltuite n program / numrul de locuitori este 1000 lei, i care sunt identice din perspectiva variabilei CALIT, ne ateptm ca, n medie, rata omajului s fi sczut cu 0,05 puncte procentuale n localitatea n care s-a suma / locuitor a fost mai mare. b2 = 1,00 arat c pentru aceeai valoare a lui SUM, localitile cu o evaluare a calitii administrrii programelor mai bun cu o unitate au, n medie, o scdere mai mare cu o unitate procentual. Aceast interpretare este consistent cu rezultatul obinut dup aplicarea de regresii simple pentru fiecare din subeantioanele definite de CALIT, dar aduce un plus de precizie n exprimarea relaiilor dintre variabila dependent i cele dou variabile independente. Din interpretarea coeficienilor bi se vede cum regresia multipl permite compararea de perechi de grupe de indivizi statistici care sunt identici din perspectiva tuturor variabilelor independente cu excepia unei singure variabile. Diferena observat n valorile variabilei dependente este atribuit variaiei n variabila independent care ia valori diferite pentru grupe diferite. Asemeni pantei pentru cazul bivariat, coeficienii modelului de regresie multipl depind de unitile de msur ale variabilelor i este adevrat proprietatea dac n loc de Xi avem cXi + d, atunci n loc de bi avem bi / c. (6)
Aceast proprietate arat faptul c panta de regresie nu poate fi folosit drept un indicator al intensitii relaiei dintre variabila dependent i variabila independent corespunztoare, i nici nu permite ierarhizarea variabilelor independente n funcie de contribuia fiecreia la explicaia variaiei variabilei dependente. Pentru a descrie nu doar forma ci i intensitatea relaiilor liniare ntre variabilele independente i variabila dependent sunt folosii coeficienii de regresie standardizai. Modul n care sunt definii este intuitiv: variabilele Y, X1, X2, ..., Xm sunt standardizate folosind formula scorului z prezentat n Capitolul 1.
Noile variabile, obinute n urma aplicrii formulei, au media egal cu zero iar abaterea standard egal cu unitatea. Coeficienii de regresie din modelul determinat de variabilele standardizate, se noteaz n mod obisnuit cu 1, 2, ..., m. Aplicnd proprietatea (6) avem urmtoarea formul pentru coeficienii standardizai:
i = bi
Xi Y
R2 are proprietatea de a crete cu fiecare variabil care este introdus n model i de aceea valorile lui R2 trebuie judecate i n raport cu numrul de variabile independente. La limit, este posibil s avem R2 = 1 dac avem un numr de variabile independente suficient de mare, chiar dac acestea sunt generate aleator. Concluzia care se desprinde este c alegerea variabilelor care urmeaz s fie incluse n model nu poate fi decis folosind exclusiv informaia de natur statistic (chiar dac exist procedee complexe prin care putem mbogi aceast informaie). Numai prin luarea n considerare i a unor aspecte de natur teoretic poate fi decis includerea sau eliminarea unor variabile n analiz. S vedem ce semnificaie au valorile extreme pe care le poate lua R2, 0 i 1, pentru c interpretarea valorilor intermediare este posibil prin raportarea la situaiile maximale. R2 este egal cu 1 atunci cnd valorile lui Y sunt complet determinate de combinaiile liniare ale valorilor variabilelor independente. n cazul bivariat, distribuia punctelor se face dup o dreapt, iar atunci cnd sunt dou variabile independente, dup un plan. La fel ca i n cazul bivariat, R2 = 0 nu indic n mod necesar absena unor relaii ntre variabilele independente i variabila dependent: 1. Y poate s fie determinat complet de variabilele independente prin relaii neliniare iar R2 s fie egal cu zero. De exemplu, dac
n cazul bivariat (m = 1), 1 coincide cu coeficientul de corelaie Pearson. n cazul general, i arat cu cte abateri standard variaz Y atunci cnd Xi crete cu o abatere standard. Din formul reiese i faptul c i are acelai semn cu bi, iar i = 0 este echivalent cu bi = 0. Atunci cnd m > 1 coeficienii de regresie standardizai au cteva proprieti diferite fa de cazul bivariat: 1. i poate s ia valori i n afara intervalului [-1, 1]. i n valoare absolut este supraunitar atunci cnd relaia dintre Xi i Y este foarte intens i n plus, exist o relaie liniar strns ntre Xi i cel puin una dintre celelalte variabile independente. 2. n timp ce n cazul bivariat U = 0 implic faptul c 1 = +1, atunci cnd m > 1, condiia U = 0 nu restrnge valorile posibile pentru i. Coeficienii de regresie standardizai permit ierarhizarea variabilelor independente n funcie de importana pe care o are fiecare n explicarea variaiei variabilei dependente printr-o relaie direct. Sunt necesare dou precizri privind limitele n utilizarea acestor coeficieni: 1. Dac ntr-un model teoretic n care X1, X2, ..., Xm sunt variabile independente pentru Y, Xi este o variabil explicativ i pentru unul sau mai multi Xj, ji, atunci modelul de regresie n care Y este variabila dependent ne permite numai estimarea efectului direct pe care l are Xi asupra lui Y, nu i a celui mediat de alte variabile din model. De exemplu, variabila care exprim proporia celor care au absolvit liceul din populaia unei localiti poate avea un efect direct nul asupra numrului de infraciuni pe cap de locuitor (bliceu =0), ns un efect indirect substanial, mediat de o alt variabil independent cuprins n modelul de regresie multipl (de exemplu, venitul pe cap de locuitor). 2. Atunci cnd avem dou modele cu aceleai variabile, dar care descriu date diferite, coeficienii standardizai nu sunt comparabili ntre modele dect dac variabilele care le corespund au dispersii asemntoare. De aceea, este de preferat ca n comparaiile dintre populaii diferite s fie folosii coeficienii nestandardizai, dup ce n prealabil datele au fost transformate astfel nct variabilele Xi s aib aceeai unitate de msur n ambele modele. 7.2.3 Eficiena unui model de regresie multipl La fel ca i n cazul bivariat, puterea explicativ a unui model multivariat poate fi evaluat cu ajutorul unor indicatori. Coeficientul R2, numit coeficient de determinaie multipl, este definit la fel ca i atunci cnd avem o singur variabil independent i are o interpretare similar:
Y =
10 - X 2 1 - X 2 2 ) ,
se obine distribuia din Figura 7.9. n care toate punctele sunt pe o suprafata curb (cele mai multe sunt pe o semisfer), iar R2 = 0. 2. Mai mult, este posibil s avem R2 = 0 chiar i atunci cnd ntre una dintre variabilele independente i Y exista o relaie liniar, n condiii de control, ns forma (panta) acestei relaii nu este constant pe categoriile celorlalte variabile. Figura 7.9. Exemplul unei distribuii n spaiu pentru care variabila dependent este reprezentat pe axa vertical i R2 = 0.
3,5 3,0 2,5
Y 2,0
1,5 1,0 4 3 2 1 0 -1 -2 -3 X1 3
-1 0 -3 -2 X2
R2 =
(Y * Y ) (Y Y )
Numrtorul expresiei reprezint variaia lui Y care este "explicat" de ecuaia de regresie, n timp ce valoarea de la numitor este egal cu variaia total a lui Y. Deci, R2 indic proporia din variaia lui Y care este "explicat" de toate variabilele independente din model. Din definiie rezult c R2 poate s ia valori ntre 0 i 1. n exemplul din aceast seciune avem R2 = 0,69. Desigur, valorile ridicate ale lui R2 sunt de dorit n locul celor sczute pentru c implic faptul c explicaia este n mai mare msur complet. Totui, aceast afirmaie necesit cteva precizri:
Figura 7.10. Exemplul unei distribuii n spaiu pentru care variabila dependent este reprezentat pe axa vertical, au loc relaii bivariate cu variabila dependent de intensitate maxim i R2 = 0 pentru modelul multivariat.
12 10 8
SUM CALIT
Y1
6 4 2 0 1,2 8 1,0 ,8 ,6 ,4 4 ,2 0,0 2 6 10 12
Coeficienti ne-standardizati Eroare standard B 0,048 0,212 0,994 0,291
Coeficienti standardizati Beta 0,052 0,786 t 0,229 3,412
Nivel de semnif. stat. 0,820 0,002
Pentru a doua variabil independent din exemplu, CALIT, putem respinge ipoteza de nul (p = 0,002<0,05). Un model de regresie multipl poate fi folosit atit n explicaie cit i n predicie. Astfel, din modelul anterior rezult c, n medie, localitile n care ar fi aplicat un program similar cu cel studiat iar suma cheltuit ar fi de 8000 de lei / locuitor, i care ar fi evaluate prin scorul 3 pentru calitatea administrrii programelor, vor avea n medie o scdere a ratei omajului cu o valoare dat de urmtoarea formul DIF0 = -2,61 + 0,05 * 8 + 1,00 * 3 = 0.79. Mai mult, putem determina cu o probabilitate p intervalul cruia i apartine valoarea variabilei DIF pentru care cunoatem valorile variabilelor SUM i CALIT. Acesta este (DIF0 - tn - m - 1, 0,975DIF, DIF0 + tn - m - 1, 0,975DIF), unde DIF0 este valoarea medie "prezis" de model, DIF este eroarea standard a valorii estimate DIF0. n exemplul anterior, DIF este cu o probabilitate de 0,95 n intervalul de incredere (0,79 - 2*0,59, 0,79 + 2*0,59) = (-1,57, 3,15). 7.2.5 Problema multicoliniaritii Situaia n care o variabil independent poate fi exprimat ca o combinaie liniar perfect a celorlalte variabile independente, este numit multicoliniaritate perfect: De exemplu, dac variabilele independente sunt X1, X2, i X3, iar X2 = 3X1 + 2X3, se spune c X2 este exprimat printr-o combinaie liniar a variabilelor X1 i X3, iar variabilele X1, X2 i X3 sunt ntr-o relaie de multicoliniaritate perfect. Atunci cnd variabilele independente sunt ntr-o situaie de multicoliniaritate perfect coeficienii de regresie nu pot fi determinai, i analiza de regresie nu poate fi aplicat. n practic, o situaie de acest tip este rar ntlnit i este uor de detectat. n schimb, sunt mai frecvente cazurile de multicoliniaritate ridicat, n care o variabila independent poate fi exprimat aproape perfect printr-o combinatie liniar a celorlalte variabile independente. Cnd se intimpl acest lucru, coeficienii pot fi determinai n mod unic ns sunt instabili: valoarea pantei unui anumit coeficient difer foarte mult de la un eantion la altul pentru o anumit populaie. Din acest motiv, att comparaiile ntre valorile coeficienilor dintr-un model ct i comparaiile pentru aceeai coeficieni ai unor modele pe eantioane diferite sunt nesigure. Care este pragul peste care multicoliniaritatea este considerat a fi ridicat i poate s ridice probleme n interpretarea modelului? O metod frecvent folosit const n realizarea de regresii n care, pe rnd, fiecare dintre Xi este variabil dependent iar ceilali Xj sunt variabile independente. Valoarea cea mai ridicat pentru un R2 obinut n acest fel este o msur a nivelui de multicoliniaritate din model, iar limita convenional sub care se consider c multicoliniaritatea nu afecteaz interpretabilitatea modelului este 0,8.
X2
X1
7.2.4 Generalizarea rezultatelor obinute pe eantion (inferena) Atunci cnd avem la dispozitie date dintr-un eantion probabilistic i construim pe acestea un model de regresie multipl ne punem problema de a generaliza rezultatele obinute pentru populaia din care provine eantionul. S presupunem c am obinut bi > 0 i dorim s tim dac panta corespunztoare variabilei Xi este pozitiv i la nivelul ntregii populaii. Pentru a afla acest lucru vom construi un interval de ncredere n jurul valorii lui bi. Determinarea intervalului de ncredere presupune ndeplinirea de ctre datele analizate a unor proprieti, aceleai cu condiiile specifice cazului bivariat, la care se adaug condiia de absen a multicoliniaritii (pe care o vom defini i analiza n sectiunea 6). n continuare, presupunem ndeplinite toate aceste proprieti. Pentru un nivel de incredere de 0,95 avem intervalul (bi - tn - m - 1, 0,975bi, bi + tn - m - 1, 0,975bi), unde n este numrul de cazuri n eantion, m este numrul de variabile independente, numrul tn - m, 0,975 poate fi gsit n tabelele pentru distributia t (pentru n - m - 1 = 60 ia valoarea 2,0, iar pentru un numr care tinde la infinit ia valoarea 1,96) iar bi este eroarea standard a lui bi. Dac intervalul de ncredere nu l conine pe zero atunci ipoteza de nul, adic afirmaia conform creia ntre Xi i Y nu avem o relaie liniar direct, poate fi respins (un mod mai riguros de a exprima ipoteza de nul n cazul regresiei este acela de a spune c parametrul - coeficientul de regresie din populaie - este egal cu 0). O alt modalitate prin care poate fi realizat generalizarea valorilor bi const n determinarea valorii maxime a nivelului de semnificatie statistic pentru care 0 aparine intervalului de ncredere. Dac nivelul de semnificaie observat este mai mic dect 0,05 atunci vom respinge ipoteza de nul, conform regulilor de testare a ipotezelor statistice. Deasemenea, putem calcula valoarea t asociat lui bi t = bi / bi. Putem gsi n tabelele statistice care este nivelul de ncredere ce corespunde valorii determinate n acest fel. Pentru exemplul din aceast seciune, tabelul urmtor conine coeficienii de regresie, coeficienii standardizai, erorile standard, valorile t i nivelele de semnificatie statistic.
Atunci cnd este ntlnit o situaie de multicoliniaritate ridicat sunt mai multe moduri prin care pot fi atenuate efectele ei: 1. Este mrit volumul eantionului astfel nct ipoteza de nul s poat fi respins pentru o parte dintre coeficieni. 2. Variabilele care sunt puternic corelate sunt combinate n indicatori unici. De exemplu, ntr-o analiz n care seciile de vot sunt uniti statistice, rata de participare n primul tur de scrutin al alegerilor din 1996 este o variabil independent i rata de participare n al doilea tur de scrutin al alegerilor din 1996 este o alt variabil independent, coeficientul de corelaie ntre cele dou variabile este r = 0,91. Un model realizat pe un eantion ales dintre seciile de vot i n care cele dou variabile sunt independente va fi afectat de o problem de multicoliniaritate ridicat. O soluie ar fi includerea n analiz a mediei n locul celor dou variabile. 3. Sunt realizate mai multe modele fiecare avnd doar o parte dintre variabilele care produc multicoliniaritate. Pentru exemplul anterior, ar nsemna considerarea a dou modele, unul cu rata de participare pentru primul tur, al doilea cu rata de participare pentru al doilea tur. 7.2.6 Variabile "dummy" Regula general conform creia analiza de regresie poate fi aplicat numai variabilelor de interval sau de rapoarte are o excepie important: toate proprietile pe care le au valorile estimate ale unui model de regresie se pstreaz i n cazul n care una sau mai multe dintre variabilele independente sunt dihotomice (adic variabile care iau dou valori). Consecinele acestei proprieti sunt importante deoarece permit nu doar estimarea efectelor unor variabilele care n mod obisnuit sunt dihotomice (exemplu sexul, mediul de rezident -- urban / rural, etc.) asupra variabilei dependente ci i includerea ntr-o analiz de regresie a unor variabile nominale sau ordinale cu mai mult de dou categorii. Acest lucru este posibil n urma transformrii unei variabile cu n categorii n n - 1 variabile dihotomice. Ca o ilustrare, s presupunem c datele despre programul de reducere a omajului din exemplul discutat n aceast seciune cuprind informaii despre nc o variabil independent: judeul n care se afl localitatea (JUDET). Mai presupunem c localitile din studiu provin din trei judee, notate cu A, B, C. Variabila JUDET este transformat n dou variabile dihotomice: JUDET1 i JUDET2. JUDET1 este definit astfel: localitile care sunt n judeul A au valoarea 1, iar toate celelalte au valoarea 0. JUDET2 este definit asemntor: localitile care sunt n judeul B au valoarea 1, iar toate celelalte au valoarea 0. Cunoscnd valorile celor dou variabile pentru o localitate, tim sigur n ce jude se afl aceasta, deci informaia oferit de JUDET1 i JUDET2 este egal cu cea oferit de variabila iniial, JUDET. Prin introducerea celor dou variabile dihotomice n analiz putem verifica dac scderea omajului a fost influenat i de factori care s-au manifestat la nivel de jude, independeni de condiiile de nivel local. Dac coeficientul b, respectiv beta, care corespunde uneia dintre aceste variabile este diferit de 0, atunci rezult c variaia variabilei DIF poate fi explicat mai bine n urma includerii ei. Exerciii i probleme 1. Presupunem cunoscute pentru mai multe localiti urmtoarele dou variabile: diferena ntre venitul pe cap de locuitor n ultimul an i cel din anul anterior (VENIT)--msurat n mii lei--, i proporia celor din localitate care au absolvit cel mult 10 clase (SCOALA)--estimat n procente. O analiz de regresie prin care se ncearc explicarea efectului variabilei SCOALA asupra variabilei VENIT conduce la urmtoarele rezultate: r = -0,55, R2 = 0,30, iar ecuaia de regresie este VENIT = -7,5 - 12 SCOALA. Care dintre urmtoarele afirmaii este adevrat? a. Localitile n care SCOALA are valori mici au, n medie, valori mai mici ale variabilei VENIT.
b. Localitile n care sunt 20% locuitori care nu au absolvit 10 clase au, n medie, diferena ntre veniturile anuale pe cap de locuitor (VENIT) cu 12 mii de lei mai mare dect localitile n care sunt 30% locuitori care nu au absolvit 10 clase. 2. Presupunem c, n plus, avem i date despre proporia locuitorilor care au mai puin de 18 ani (MINORI)-- estimat n procente. Ecuaia de regresie multipl care include variabilele SCOALA i MINORI ca variabile independente este urmtoarea: VENIT = 12 - 4 SCOALA - 0,2 MINORI. SCOALA = -0,08, iar MINORI = -0,25. Care dintre urmtoarele afirmaii este adevrat? a. Variabila MINORI explic mai puin din variaia variabilei dependente dect variabila SCOALA. b. Conform modelului de regresie, localitile n care SCOALA = 5, iar MINORI = 20, au avut n medie o scdere a venitului pe cap de locuitor cu 12 mii de lei. Pentru urmtoarea ntrebare, s se ncercuiasc varianta corect /variantele corecte: 3. Se da ecuatia de regresie cu coeficienti nestandardizati (n parantez sunt prezentate erorile standard ale coeficienilor de regresie: Y = -40 + 0.72x1 + 1.29x2 0.15x3 ES (0.13) (0.37) (0.16) R=0.9 Care din coeficientii ecuatiei de regresie difera semnificativ de zero pentru un nivel de semnificatie p=0.05? 1. cel al lui x1 2. cel al lui x2 3. cel al lui x3 4. niciunul
Anexa 1. Distribuia normal normat (standard)

Aria dintre 0 i z
3,4 3,5 3,6 3,7 3,8 3,9
0,49966 0,49977 0,49984 0,49989 0,49993 0,49995
0,49968 0,49978 0,49985 0,49990 0,49993 0,49995
0,49969 0,49978 0,49985 0,49990 0,49993 0,49996
0,49970 0,49979 0,49986 0,49990 0,49994 0,49996
0,49971 0,49972 0,49973 0,49974 0,49975 0,49976 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3
0,0000 0,0398 0,0793 0,1179 0,1554 0,1915 0,2257 0,2580 0,2881 0,3159 0,3413 0,3643 0,3849 0,4032 0,4192 0,4332 0,4452 0,4554 0,4641 0,4713 0,4772 0,4821 0,4861 0,4893 0,4918 0,4938 0,4953 0,4965 0,4974 0,4981 0,49865 0,49903 0,49931 0,49952
0,0040 0,0438 0,0832 0,1217 0,1591 0,1950 0,2291 0,2612 0,2910 0,3186 0,3438 0,3665 0,3869 0,4049 0,4207 0,4345 0,4463 0,4564 0,4649 0,4719 0,4778 0,4826 0,4864 0,4896 0,4920 0,4940 0,4955 0,4966 0,4975 0,4982 0,49869 0,49906 0,49934 0,49953
0,0080 0,0478 0,0871 0,1255 0,1628 0,1985 0,2324 0,2642 0,2939 0,3212 0,3461 0,3686 0,3888 0,4066 0,4222 0,4357 0,4474 0,4573 0,4656 0,4726 0,4783 0,4830 0,4868 0,4898 0,4922 0,4941 0,4956 0,4967 0,4976 0,4982 0,49874 0,49910 0,49936 0,49955
0,0120 0,0517 0,0910 0,1293 0,1664 0,2019 0,2357 0,2673 0,2967 0,3238 0,3485 0,3708 0,3907 0,4082 0,4236 0,4370 0,4484 0,4582 0,4664 0,4732 0,4788 0,4834 0,4871 0,4901 0,4925 0,4943 0,4957 0,4968 0,4977 0,4983 0,49878 0,49913 0,49938 0,49957
0,0160 0,0557 0,0948 0,1331 0,1700 0,2054 0,2389 0,2704 0,2995 0,3264 0,3508 0,3729 0,3925 0,4099 0,4251 0,4382 0,4495 0,4591 0,4671 0,4738 0,4793 0,4838 0,4875 0,4904 0,4927 0,4945 0,4959 0,4969 0,4977 0,4984
0,0199 0,0596 0,0987 0,1368 0,1736 0,2088 0,2422 0,2734 0,3023 0,3289 0,3531 0,3749 0,3944 0,4115 0,4265 0,4394 0,4505 0,4599 0,4678 0,4744 0,4798 0,4842 0,4878 0,4906 0,4929 0,4946 0,4960 0,4970 0,4978 0,4984
0,0239 0,0636 0,1026 0,1406 0,1772 0,2123 0,2454 0,2764 0,3051 0,3315 0,3554 0,3770 0,3962 0,4131 0,4279 0,4406 0,4515 0,4608 0,4686 0,4750 0,4803 0,4846 0,4881 0,4909 0,4931 0,4948 0,4961 0,4971 0,4979 0,4985
0,0279 0,0675 0,1064 0,1443 0,1808 0,2157 0,2486 0,2794 0,3078 0,3340 0,3577 0,3790 0,3980 0,4147 0,4292 0,4418 0,4525 0,4616 0,4693 0,4756 0,4808 0,4850 0,4884 0,4911 0,4932 0,4949 0,4962 0,4972 0,4979 0,4985
0,0319 0,0714 0,1103 0,1480 0,1844 0,2190 0,2518 0,2823 0,3106 0,3365 0,3599 0,3810 0,3997 0,4162 0,4306 0,4429 0,4535 0,4625 0,4699 0,4761 0,4812 0,4854 0,4887 0,4913 0,4934 0,4951 0,4963 0,4973 0,4980 0,4986 0,49897 0,49926 0,49948 40,9964
0,0359 0,0753 0,1141 0,1517 0,1879 0,2224 0,2549 0,2852 0,3133 0,3389 0,3621 0,3830 0,4015 0,4177 0,4319 0,4441 0,4545 0,4633 0,4706 0,4767 0,4817 0,4857 0,4890 0,4916 0,4936 0,4952 0,4964 0,4974 0,4981 0,4986 0,49900 0,49929 0,49950 0,49965
0,49882 0,49886 0,49889 0,49893 0,49916 0,49918 0,49921 0,49924 0,49940 0,49942 0,49944 0,49946 0,49958 0,49960 0,49961 0,49962
g.l. - Numr de grade de libertate
Anexa 2. Valorile critice ale lui t pentru aria de sub curb aflat la dreapta valorii.
g.l.\p 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 infinit 0.4 0.32492 0.288675 0.276671 0.270722 0.267181 0.264835 0.263167 0.261921 0.260955 0.260185 0.259556 0.259033 0.258591 0.258213 0.257885 0.257599 0.257347 0.257123 0.256923 0.256743 0.25658 0.256432 0.256297 0.256173 0.25606 0.255955 0.255858 0.255768 0.255684 0.255605 0.253347 0.25 1 0.816497 0.764892 0.740697 0.726687 0.717558 0.711142 0.706387 0.702722 0.699812 0.697445 0.695483 0.693829 0.692417 0.691197 0.690132 0.689195 0.688364 0.687621 0.686954 0.686352 0.685805 0.685306 0.68485 0.68443 0.684043 0.683685 0.683353 0.683044 0.682756 0.67449 0.1 3.077684 1.885618 1.637744 1.533206 1.475884 1.439756 1.414924 1.396815 1.383029 1.372184 1.36343 1.356217 1.350171 1.34503 1.340606 1.336757 1.333379 1.330391 1.327728 1.325341 1.323188 1.321237 1.31946 1.317836 1.316345 1.314972 1.313703 1.312527 1.311434 1.310415 1.281552 0.05 6.313752 2.919986 2.353363 2.131847 2.015048 1.94318 1.894579 1.859548 1.833113 1.812461 1.795885 1.782288 1.770933 1.76131 1.75305 1.745884 1.739607 1.734064 1.729133 1.724718 1.720743 1.717144 1.713872 1.710882 1.708141 1.705618 1.703288 1.701131 1.699127 1.697261 1.644854 0.025 12.7062 4.30265 3.18245 2.77645 2.57058 2.44691 2.36462 2.306 2.26216 2.22814 2.20099 2.17881 2.16037 2.14479 2.13145 2.11991 2.10982 2.10092 2.09302 2.08596 2.07961 2.07387 2.06866 2.0639 2.05954 2.05553 2.05183 2.04841 2.04523 2.04227 1.95996 0.01 31.82052 6.96456 4.5407 3.74695 3.36493 3.14267 2.99795 2.89646 2.82144 2.76377 2.71808 2.681 2.65031 2.62449 2.60248 2.58349 2.56693 2.55238 2.53948 2.52798 2.51765 2.50832 2.49987 2.49216 2.48511 2.47863 2.47266 2.46714 2.46202 2.45726 2.32635 0.005 63.65674 9.92484 5.84091 4.60409 4.03214 3.70743 3.49948 3.35539 3.24984 3.16927 3.10581 3.05454 3.01228 2.97684 2.94671 2.92078 2.89823 2.87844 2.86093 2.84534 2.83136 2.81876 2.80734 2.79694 2.78744 2.77871 2.77068 2.76326 2.75639 2.75 0.0005 636.6192 31.5991 12.924 8.6103 6.8688 5.9588 5.4079 5.0413 4.7809 4.5869 4.437 4.3178 4.2208 4.1405 4.0728 4.015 3.9651 3.9216 3.8834 3.8495 3.8193 3.7921 3.7676 3.7454 3.7251 3.7066 3.6896 3.6739 3.6594 3.646
2.57583 3.2905
8 22.65716 23.56659 24.47761 27.33623 28.33613 29.33603 32.62049 33.71091 34.79974 37.91592 39.08747 40.25602 41.33714 42.55697 43.77297 44.46079 45.72229 46.97924 48.27824 50.99338 49.58788 52.33562 50.89218 53.67196
Anexa 3. Valorile critice ale lui 2 Ariile din dreapta valorilor (.)
28 12.4613 13.5647 15.3078 16.9278 18.9392 4 1 6 8 4 29 13.1211 14.2564 16.0470 17.7083 19.7677 5 5 7 7 4 30 13.7867 14.9534 16.7907 18.4926 20.5992 2 6 7 6 3
g.l./a 0.995 0.99 0.975 0.95 0.9 ria 1 0.00004 0.00016 0.00098 0.00393 0.01579 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0.01003 0.0201 0.05064 0.10259 0.21072 0.2158 0.35185 0.58437 0.07172 0.11483 0.41174
0.75 0.10153 0.57536 1.21253 1.92256 2.6746 3.4546 4.25485 5.07064 5.89883 6.7372 7.58414 8.43842 9.29907 10.16531 11.03654 11.91222 12.79193 13.67529 14.562 15.45177
0.5 0.45494 1.38629 2.36597 3.35669 4.35146 5.34812 6.34581 7.34412 8.34283 9.34182 10.341 11.34032 12.33976 13.33927 14.33886 15.3385 16.33818 17.3379 18.33765 19.33743
0.25 1.3233 2.77259 4.10834 5.38527 6.62568 7.8408 9.03715 10.21885 11.38875 12.54886 13.70069 14.8454 15.98391 17.11693 18.24509 19.36886 20.48868 21.60489 22.71781 23.82769
0.1 2.70554 4.60517 6.25139 7.77944 9.23636 10.64464 12.01704 13.36157 14.68366 15.98718 17.27501 18.54935 19.81193 21.06414 22.30713 23.54183 24.76904 25.98942 27.20357 28.41198
0.05 3.84146 5.99146 7.81473 9.48773 11.0705 12.59159 14.06714 15.50731 16.91898 18.30704 19.67514 21.02607 22.36203 23.68479 24.99579 26.29623 27.58711 28.8693 30.14353 31.41043
0.025 5.02389 7.37776 9.3484 11.14329 12.8325 14.44938 16.01276 17.53455 19.02277 20.48318 21.92005 23.33666 24.7356 26.11895 27.48839 28.84535 30.19101 31.52638 32.85233 34.16961
0.01
0.005
6.6349 7.87944 9.21034 10.59663 11.34487 12.83816 13.2767 14.86026 15.08627 16.7496 16.81189 18.54758 18.47531 20.27774 20.09024 21.95495 21.66599 23.58935 23.20925 25.18818 24.72497 26.75685 26.21697 28.29952 27.68825 29.81947 29.14124 31.31935 30.57791 32.80132 31.99993 34.26719 33.40866 35.71847 34.80531 37.15645 36.19087 38.58226 37.56623 39.99685
0.20699 0.29711 0.48442 0.71072 1.06362 0.5543 0.83121 1.14548 1.61031
0.67573 0.87209 1.23734 1.63538 2.20413 0.98926 1.23904 1.68987 2.16735 2.83311 1.34441 1.73493 1.6465 2.17973 2.73264 3.48954 2.0879 2.70039 3.32511 4.16816 3.9403 4.86518
2.15586 2.55821 3.24697
2.60322 3.05348 3.81575 4.57481 5.57778 3.07382 3.57057 4.40379 5.22603 3.56503 4.10692 5.00875 5.89186 6.3038 7.0415
4.07467 4.66043 5.62873 6.57063 7.78953 4.60092 5.22935 6.26214 7.26094 8.54676 5.14221 5.81221 6.90766 7.96165 9.31224 5.69722 6.40776 7.56419 8.67176 10.0851 9 6.2648 7.01491 8.23075 9.39046 10.8649 4 6.84397 7.63273 8.90652 10.1170 11.6509 1 1 7.43384 8.2604 9.59078 10.8508 12.4426 1 1 8.03365 8.8972 10.2829 11.5913 1 12.3380 1 13.0905 1 13.8484 3 14.6114 1 13.2396 14.0414 9 14.8479 6 15.6586 8 16.4734 1
21 22
16.34438 17.23962 18.1373 19.03725 19.93934
20.33723 21.33704 22.33688 23.33673 24.33659
24.93478 26.03927 27.14134 28.24115 29.33885
29.61509 30.81328 32.0069 33.19624 34.38159
32.67057 33.92444 35.17246 36.41503 37.65248
35.47888 36.78071 38.07563 39.36408 40.64647
38.93217 41.40106 40.28936 42.79565 41.6384 44.18128 42.97982 45.55851 44.3141 46.92789
8.64272 9.54249 10.9823 2 23 9.26042 10.1957 11.6885 2 5 24 9.88623 10.8563 12.4011 6 5 25 10.5196 11.5239 13.1197 5 8 2
26 11.1602 12.1981 13.8439 15.3791 17.2918 4 5 6 8 27 11.8075 12.8785 14.5733 16.1514 18.1139
20.84343 21.7494
25.33646 26.33634
30.43457 31.52841
35.56317 36.74122
38.88514 40.11327
41.92317 43.19451
45.64168 48.28988 46.96294 49.64492

Introduce Re in Statistic A

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Introduce Re in Statistic A

Încărcat de

Drepturi de autor:

Formate disponibile

Universitatea Bucureti Facultatea de Filosofie CUPRINS

Capitolul 1 Descrierea variabilelor

0 casatorit(a) divortat(a) vaduv(a) necasatorit(a) uniune consensuala

Starea civila a capului gospodariei

Numar de ani de scoala

consumul per capita al gospodariilor (lei), in 1995

Capitolul 2 Distribuii de probabilitate

(1 ) / n = 0,6 0,4 / 100 0,05

de unde, n = (1 ) / e 2 dar = te, de unde rezult c e = /t deci n = (1 ) t 2 / 2

nlocuind n formula lui 2 (chi ptrat) obinem:

Total 180 200 220 600

Total 180 200 220 600

e1 e2 380 200 = = 0,47 e1 380

a. Explicitai n cuvinte ipoteza de nul H0 b. Calculai 2 i valoarea p pentru H0 2. Se da tabelul:

Capitolul 7 Studiul relaiilor ntre variabile cantitative

0.0 0 100000 200000 300000 400000

rata somajului (2) - rata somajului (1)

Calit. adm. 3.00

1.00 Toate localit.

suma cheltuita / nr. de locuitori

(X12,X22,Y2) (X13,X23,Y3) (X14,X24,Y4) Y5 (X15,X25,Y5) X15 X25

7.2.2 Interpretarea modelelor de regresie multipl

3,5 3,0 2,5

6 4 2 0 1,2 8 1,0 ,8 ,6 ,4 4 ,2 0,0 2 6 10 12

Coeficienti ne-standardizati Eroare standard B 0,048 0,212 0,994 0,291

Coeficienti standardizati Beta 0,052 0,786 t 0,229 3,412

Nivel de semnif. stat. 0,820 0,002

Anexa 1. Distribuia normal normat (standard)

3,4 3,5 3,6 3,7 3,8 3,9

0,49966 0,49977 0,49984 0,49989 0,49993 0,49995

0,49968 0,49978 0,49985 0,49990 0,49993 0,49995

0,49969 0,49978 0,49985 0,49990 0,49993 0,49996

0,49970 0,49979 0,49986 0,49990 0,49994 0,49996

g.l. - Numr de grade de libertate

0.20699 0.29711 0.48442 0.71072 1.06362 0.5543 0.83121 1.14548 1.61031

2.15586 2.55821 3.24697

16.34438 17.23962 18.1373 19.03725 19.93934

20.33723 21.33704 22.33688 23.33673 24.33659

24.93478 26.03927 27.14134 28.24115 29.33885

29.61509 30.81328 32.0069 33.19624 34.38159

32.67057 33.92444 35.17246 36.41503 37.65248

35.47888 36.78071 38.07563 39.36408 40.64647

45.64168 48.28988 46.96294 49.64492

S-ar putea să vă placă și