Carte de Statistica

Carte de Statistic Reete ncercate
Robert D. Reisz
Cuprins
Cuvnt nainte 1. Introducere. a. Ce este statistica? b. Cum cunoate statistica? c. Cauzalitate i statistica. d. Foarte scurt istoric al statisticii. 2. Ingredientele statisticii. Tipuri de date. a. Date nominale b. Date ordinale c. Date intervalice d. Date raionale 3. Culegerea datelor statistice. Sondajul de opinie. a. Statistici de lot si statistici de sondaj. Generalizarea statistic i limitele ei. b. Cum facem un sondaj de opinie simplu i corect? Eantionare, chestionar, aplicare. 4. Aperitive. Primii pai n descrierea datelor statistice a. Imagini de ansamblu asupra datelor. i. Frecvene simple. ii. Reprezentri grafice b. Indicatori agregai i. Tendina central ii. Distribuia datelor 1
5. Supe, ciorbe i teste statistice simple. a. Distribuia normal b. Teste statistice t pentru medii i Z pentru proporii. c. Calculul erorii unui sondaj si interpretarea ei. 6. Feluri principale i garnituri sau relaia dintre mai multe variabile a. Grafice pentru mai multe variabile. b. Tabele de relaionare. c. Analiza de varian. Testul ANOVA unifactorial. d. Corelaia simpl i parial. Coeficienii de corelaie. e. Regresia liniar simpl i multipl. 7. Pentru vegetarieni. Analiza datelor nenumerice. a. Testul Chi2 b. Testele Wilcoxon, Mann-Whitney i Kruskal Wallis c. Regresia categorial. 8. Analiza seriilor de timp a. Ce e o serie de timp? Identificarea de patternuri n serii de timp b. Trend i sezonalitate c. Regresii cu serii de timp d. Analiza de supravieuire 9. Clasificarea datelor. a. Clustere ierarhice b. Clustering cu centre de clustere 10. Deserturi.
Cuvnt nainte
La primul curs de statistic pe care l-am inut la facultatea de tiine politice de la Universitatea de Vest din Timioara o student mi-a spus pe un ton ct se poate de tranant: habar nu are de matematic, nici nu vrea s nvee aa ceva i oricum a venit la facultatea de tiine politice tocmai ca s scape de matematic i alte asemenea tiine exacte. Sunt convins c aceast experien a mea e departe de a fi unic. Am ncercat pe parcursul celor dou semestre s o conving pe ea i pe colegii ei, de obicei de aceiai prere cu ea, de utilitatea statisticii i de simplitatea ei. Sunt convins c nu am reuit sau nu ntru totul, dar tiu de asemenea c am reuit s i familiarizez cu conceptele de baz ale statisticii i modul cum acestea funcioneaz n logica cercetrii sociale. Cartea aceasta se adreseaz tocmai celor ce se tem de calculul matematic sau sunt doar neexersai in el, precum i celor ce fac primii pai n lucrul cu metode tiinifice cantitative in cunoaterea social. Cartea mea vrea s fie uor de citit, dar n primul rnd uor de nvat i de aplicat. Voi prezenta n paginile ce urmeaz principalele metode folosite n statistic, metode utilizate n cercetrile din tiinele sociale i nu numai; reetarul de baz pentru lucrrile de cercetare din sociologie, psihologie, tiine politice, economice dar i medicin i alte tiine ce se bazeaz pe cunoaterea empiric a realitii. Voi insista pe interpretarea rezultatelor precum i pe ipotezele metodelor statistice, elemente ale cunoaterii statistice ce stau la interfaa dintre teorie si metod i definesc n cele din urm limitele cunoaterii prin statistic. n opinia mea, renumele uneori negativ pe care l are statistica n mass-media romaneasc, i m refer aici la scepticismul foarte rspndit fa de cercetrile bazate pe sondaje de opinie, se datoreaz pe lng existena real a unor cercetri cel puin dubioase, i unei nenelegeri ale limitelor cunoaterii statistice. Desigur cunoaterea statistic este prin felul ei imperfect, inexact, probabil i nu cert, dar puterea ei rezid tocmai n posibilitatea de a delimita cu siguran uneori destul de mare intervalul n care se afl realitatea. S fiu mai explicit, statistica nu va da niciodat rspunsuri simple i exacte. Dar astfel de rspunsuri, n msura n care exist n cunoaterea lumii reale, nu ne sunt utile. Rspunsurile care ne sunt utile fie nu sunt simple, fie nu sunt exacte, fie nu sunt nici simple, nici exacte. Cu toate acestea, cunoaterea statistic este cunoatere, adevrul statistic chiar dac nu este absolut este un adevr pragmatic att timp ct i nelegem limitele. 3
Mai exist un motiv pentru care scriu aceast carte. Cutarea mea a unui manual de statistic introductiv publicat n limba roman a fost pn acum ncununat de eec. Dei exist multe manuale de acest tip n spaiul anglofon i nu numai, la noi pn n prezent manualele de statistic bune au inut s se prezinte la un nivel tiinific prea ridicat pentru nceptorii fr interes i aplecare fa de cele matematice. Poate i de aceea statistica nu a devenit ca n alte pri, un bun comun a celor ce cerceteaz lumea politic, social sau economic i putem ntlni att de des prostii monumentale n presa romaneasc atunci cnd aa-zii analiti se apropie de datele unor sondaje de opinie (e drept, nu numai atunci). Voi ncerca, de fapt, s exemplific pe parcursul crii cteva din erorile cele mai uzuale ale comentatorilor politici dar i ale politicienilor din ara noastr. Uneori nclin s cred c o mai bun nelegere a felului cum cunoate statistica i a cum trebuie interpretate sondajele de opinie ar fi putut chiar salva partide de la dispariie. Nu voi merge prea departe cu ideea de a produce o carte de reete de statistic, totui ea este ntr-un fel justificat. Toate metodele din carte sunt ntr-adevr ncercate, i vor s fie exemple de metode ce se pot aplica cu succes n cercetare. De asemenea toate interpretrile pot fi utilizate ca exemple de interpretare. Voi atrage de asemenea atenia asupra unor erori ce apar adesea, voi ateniona fa de prea mult scepticism n egal msur ca i fa de un optimism exagerat. Deci condimentai cu msur i, precum cei mai buni buctari, aplicai reetele mele cu nelegere, n spiritul i nu numai n litera lor.
Capitolul 1. Introducere.
S ncepem uor, cu nceputul. n acest capitol a vrea s definesc conceptul de statistic i felul cum poate statistica cunoate lumea. Voi vorbi despre raionamentul statistic, despre eroare i greeal n statistic, precum i despre cauzalitate i statistic.
a. Ce este statistica? Statistica se definete de obicei ca un subdomeniu al matematicii dedicat culegerii, analizrii, interpretrii i prezentrii datelor. Definiia aceasta mi se pare ns ct se poate de nesatisfctoare pentru c, pe de o parte nu spune nimic despre felul cum acioneaz statistica lsnd prin urmare orice metod ca fiind acceptabil, i mai apoi folosete un concept mult prea general si ambiguu, acela de dat. n acest concept este probabil ascuns chiar ceea ce eu consider a fi genul proxim n cadrul cruia ar trebui definit statistica. Anume faptul c ea este o metod de cunoatere. Statistica este o metod de cunoatere a unor obiecte sau fenomene bazat pe interpretarea rezultatelor de msurare. Mie definiia aceasta mi place mai mult, dei probabil sun nc destul de criptic. Anume, mut ambiguitatea de la conceptul de dat la felul cum se obine aceasta, adic prin msurarea unor obiecte sau fenomene. Ei bine, eu nclin s cred c msurarea n cauz se poate face chiar cu orice aparat de msur att timp ct acesta este de ncredere, adic nu face erori sistematice. Totui, nite exemple ar fi utile aici, nu-i aa? Deci, aparate de msur sunt desigur cntarul i metrul croitorului sau ale constructorului, ca i ublerul sau micrometrul, dar pn la urm orice funcie care face univoc legtura dintre un obiect sau fenomen i o valoare fie ea numeric sau nu, este o msurare. Sper c nu am speriat nc pe nimeni folosind termenul de funcie n sens matematic. O funcie este o relaie ntre dou mulimi, n cazul nostru o mulime de obiecte sau fenomene de acelai tip pe care dorim s o cunoatem mai bine i o mulime de valori statistice pe care le putem analiza. Punem de fapt n relaie ceva ce nu putem folosi nemijlocit n calculele noastre cu ceva ce putem folosi. Msurm de exemplu greutatea unor cini, poate pentru a analiza efectul unor alimentaii specifice. Folosim un cntar, desigur, dar de fapt definim prin aceasta o funcie pe domeniul cinilor studiai lund valori n domeniul numerelor reale. i de ce facem asta? Pentru c dorim s interpretm, s calculm, s comparm i, n fine, s prezentm ct mai simplu i 5
coerent rezultatele cercetrii noastre. i nu tim s calculm cu cini, ns tim s facem asta cu numere. Aceast problem este mereu prezent n cunoatere. Nu putem calcula cu obiectele reale, fenomene aa cum sunt ele. Aa cum nu putem face calcule cu cini, nu putem face nici cu opiniile politice i nici cu comportamentele economice ale unor oameni adevrai. Trebuie s le transformm n lucruri cu care putem calcula, n valori numerice sau nenumerice, oricum valori care sunt simple i n primul rnd complet definite prin ele nsele. S m explic: este practic imposibil s definesc complet un obiect sau un fenomen real. Orice definiie a cinelui meu ar fi incomplet, ar omite un fir de blan sau chiar o caracteristic comportamental pe care poate nc nu o cunosc. Iar de ar fi, prin absurd, posibil o definiie complet a lui Garu, aa l cheam (tiu, e aiurea, dar e o poveste mai lung), ar fi de o complexitate ce ar face s fie absolut inutil pentru orice interpretare sau analiz. Pe de alt parte rezultatul msurrii greutii lui este 30kg ceea ce este desigur un model ct se poate de inexact pentru un cine dar este o valoare util i calculabil att timp ct tim exact ce nseamn i nu i conferim o mai mare importan dect are, anume greutatea lui Garu. Completnd aceast msurtoare cu altele, precum vrsta, rasa i genul, obinem un model, o definiie incomplet i util, att incompletitudinea ct i utilitatea ei rezultnd pn la urm din simplitatea ei. La fel se ntmpl i n cazul opiniilor politice ale unei persoane, de exemplu ale colegului meu Ionic. Opiniile lui Ionic sunt complexe, anumite teme l intereseaz i este informat asupra lor avnd opinii nuanate. Alte teme nu l intereseaz i nu are opinii asupra lor sau are opinii superficiale formate rapid. Mai mult, opiniile lui Ionic, precum a oricrei persoane inteligente sunt schimbtoare, reacioneaz la schimbrile din mediu, la noi informaii i noi evenimente. Nu avem cum efectua calcule cu opiniile lui Ionic, putem ns s msurm elemente ale acestor opinii cu un chestionar la un anumit moment dat. De exemplu, l putem ntreba ce prere are despre un anumit politician i i putem oferi 5 variante de rspuns. Avem atunci o msurtoare, care este n acelai timp o simplificare i o datare. Acest rezultat de msurare va fi legat de momentul la care am pus ntrebarea (i va rmne neschimbat, dei opinia lui se poate schimba ulterior) i va ncerca s includ opinia lui Ionic ntr-o schem simpl care nu l poate descrie evident ntru totul dar care l poate face comparabil cu ali oameni care au rspuns la aceiai ntrebare. i aici este chiar principala problem a statisticii. Statistica nu calculeaz cu cini, oameni sau partide. Statistica calculeaz cu rezultatele unor msurtori ale acestora. Cunoaterea n 6
general nu poate opera cu obiectele ei, ci cu modele ale acestor obiecte. Statistica construiete astfel de modele prin msurare. Cum msoar de obicei statistica? Ei bine, oricum. Sau mai exact, depinde de tem. Statistica medical msoar cu aparate sofisticate dar a cror exactitate ar trebui s nu depind de cel ce efectueaz cercetarea, statistica social sau politic este ns de obicei nevoit s-i dezvolte propriile aparate de msur, chestionarele. Vom reveni n capitolul al treilea la felul cum se scriu, i cum nu se scriu chestionare. Pn atunci s continum ns s discutm cum metoda de msurare cu chestionarul influeneaz chiar conceptual cunoaterea statistic. Un aparat de msur trebuie s aib dou principale caracteristici pentru a fi util. Trebuie s dea un rezultat i unul singur, i mai mult dect att, la repetarea msurrii s produc acelai rezultat sau unul foarte apropiat. Presupunnd c reuim s-l urcm pe Garu (cinele meu, v aducei aminte) pe un cntar, vom citi un rezultat oarecare. Pentru cine a uitat deja, era o valoare apropiat de 30kg. Daca reuim acest efort de persuasiune i ndemnare n repetate rnduri ntr-un scurt interval de timp, utiliznd mai multe cntare, acestea vor fi bune n msura n care ne vor da aproximativ acelai rezultat. Pe de alt parte ns, greutatea lui Garu nu se va schimba de pe urma faptului ca a fost msurat. Chiar daca Garu ar fi priceput ceva din cele ce i s-au ntmplat tot nu i-ar fi schimbat greutatea ca urmare a acestui fapt. Acest mod de a testa aparatele de msur pentru coerena lor nu ne este ns accesibil n cazul chestionarului. Daca dorim s repetm chestionarea lui Ionic suficient de curnd pentru ca opinia lui s nu se fi schimbat prea mult, el i va aduce desigur aminte de chestionar i va rspunde probabil la fel mcar pentru a se arta consecvent, caracteristic pe care societatea noastr o valorizeaz n sine. Exist chestionare special elaborate, n special n cercetri de psihologie care rezolv aceast problem ntr-o oarecare msur prin punerea a foarte multe ntrebri i repetarea unora dintre ele n forme mai mult sau mai puin modificate. Una peste alta problema rmne ns deschis pentru majoritatea cercetrilor. Chestionarele nu se pot de obicei calibra att de bine ca i cntarele. Soluia la aceast dilem nu este dect recunoaterea unei alte limitri a cunoaterii prin statistic social. O cercetare care folosete o metod de msurare nu poate fi comparat cu o alt cercetare ce folosete alt metod de msurare. Cntarele cercetrii sociale nu sunt comparabile. Ca atare msurarea depinde nu numai de obiectul msurat ci i de aparatul de msur. n cercetarea statistic social rezultatul este dependent i specific aparatului i metodei de msurare. Deci, metodologia este parte din rezultat. Putem spune c rezultatul msurrii are sens, este interpretabil, exist numai mpreun cu metoda de msurare. Revenind la conceptul de model pe care l-am introdus mai sus, nu numai c statistica nu 7
calculeaz cu cini, sau oameni, sau fenomene, ea nu calculeaz de fapt nici cu greutatea, opinia sau comportamentul ci cu rezultatul msurtorii acestora aa cum ne-o permit aparatele de msur. Mai simplu, dac ntrebm un elev ct de des ridic mna n clas, nu vom prelucra statistic elevul (bineneles, doamne ferete), dar nici mcar gradul lui de participare n clas (ceea ce unii ar putea spera), ci o msur de moment a opiniei lui fa de gradul lui de participare n clas. i aceast msur va depinde de felul cum e construit chestionarul, de ntrebrile anterioare, dar i de evenimentele din ziua n care am efectuat chestionarea sau din zilele precedente. Aceasta pentru c msurarea se face ntr-un moment anume i cu un aparat anume. Mai mult, msurtoarea nu se aplic participrii n clas ci opiniei elevului asupra acestei participri, opinie care depinde de prerea pe care o are despre coala lui, nvtorul lui, despre sine nsui respectiv despre dezirabilitatea de a fi activ n clas. Toate acestea nu fac msurarea inutil sau cunoaterea obinut de pe urma ei mai puin sigur, pur i simplu sunt elemente ce trebuie luate n seam. Dac aparatul de msur este parte din rezultatul msurat, de aici decurge imediat faptul c nu este posibil vreo msurare fr o teorie ce st la baza ei. Aparatul de msur a fost desigur dezvoltat pe baza unei teorii, fie c a fost un cntar fie c a fost un chestionar. Att timp ct rezultatul msurrii nu depinde de metoda de msurare am putea la o adic s neglijm teoria care a produs aparatul, aceasta ns nu e nici o dat cazul n cercetarea statistic. Chiar dac msurarea a avut loc cu cntarul, ideea de a msura cu cntarul a avut la baz o decizie i aceast decizie o teorie legat de rezultatele dorite de pe urma cercetrii. Cu att mai mult n cazul n care aparatul de msur este parte integrant din rezultatul msurii. n unele nefericite situaii e posibil ca nsui cel ce dezvolt chestionarul i proiecteaz cercetarea s nu fie pe deplin contient de teoriile ce stau la baza metodelor aplicate de el. Ei bine, chiar i atunci acestea influeneaz cercetarea precum o pot influena i prejudecile celor ce o proiecteaz. Acestea sunt nc alte limite ale cunoaterii pe care un bun interpret al calculelor statistice trebuie sa le aibe n faa ochilor. Nu este posibil msurare fr teorie i ca atare teoria ce st la baza unei cercetri trebuie ct mai exact enunat i ct mai consecvent aplicat. S ne ntoarcem deci la definiia noastr: spuneam c statistica se ocup cu interpretarea rezultatelor unor msurtori. Am discutat puin despre msurtori n sine, s vedem acum ce nelegem prin interpretri i care anume sunt metodele de interpretare pe care le numim statistice. Rezultatele de msurare ne dau de obicei o multitudine de caracteristici, date numerice sau nenumerice, ale unor obiecte, persoane sau fenomene. Acestea trebuie 8
prezentate ntr-un fel pentru a fi de vreun folos. Chiar i o dat prezentate, de exemplu sub forma unei liste cu greutatea a 1000 de cini, ele cel mai adesea nu permit o utilizare, sau o nelegere a ansamblului problematicii. Ce vrea i ce poate de fapt face statistica cu grmada de date pe care le culege prin msurtori?
b. Cum cunoate statistica? Exist dou probleme mari ale statisticii, descrierea unor date msurate si extragerea din date msurate a unor concluzii ce se extind i asupra altor date, care nu au fost msurate din motive ce in cel mai adesea de economie de timp i bani. Prima dintre acestea este problema statisticii descriptive, cea de a doua cea a statisticii infereniale. Statisticile descriptive se multumesc s spun ceva despre obiectele, indivizii sau fenomenele care au fost msurate. ntr-un fel i statistica descriptiv generalizeaz, vrnd s spun ceva despre obiecte pe care le cunoate doar prin rezultatele unor msurtori. Totui, de obicei nu o considerm ca fiind generalizatoare. Primii pai n orice cercetare statistic snt descriptivi. ncercm s prezentm ct mai clar i concis i, pe ct posibil, fr a pierde din acuratee datele msurate. Reprezentrile grafice i tabelare, precum i valorile agregate pe care le vom descrie n capitolul al patrulea al acestei cri sunt metodele cele mai obinuite ale statisticii descriptive. Ele nu prelucreaz prea mult datele ns caut s ofere imagini mai uor inteligibile dect o list lung de valori. Imaginile grafice pot fi n acelai timp i indicatori buni pentru a recunoate trenduri, adic pentru a decide ce calcule se pot face n continuare, cu ce statistici infereniale s se continue analiza datelor. Valorile agregate calculate n contextul statisticilor descriptive au un grad de prelucrare puin mai avansat. De obicei se includ aici formule de calcul ce ncearc s gseasc o tendina central sau medie a datelor i formule ce ncearc s sintetizeze n ce msur datele sunt dispersate n jurul acestei tendine centrale. Desigur nu ntotdeuna aceste valori sunt interesante i nu ntotdeauna merit calculate. Snt ns cazuri n care ele ne dau o imagine bun despre un fenomen. S lum calculul mediei, de exemplu. Media greutii unor cini de aceiai vrst, gen i ras poate reprezenta o bun baz de comparaie ntre rase sau genuri sau vrste. Ne poate deci spune ceva att timp ct este utilizat ceteris paribus. Conceptul de ceteris paribus nseamn, pstrnd toate celelalte caracteristici egale i adesea nu este uor 9
de pus n practic. Totui este esenial atunci cnd vrem s efectum comparaii i s determinm legturi dintre caracteristici, cum ar fi, de exemplu greutatea i genul cinilor. Desigur media greutii tutoror cinilor de la o expoziie chinologic poate fi n ansamblu prea puin relevant. Poate nsemna totui ceva pentru cei care trebuie sa fac curenie a doua zi! De aici, nc o concluzie important: de tema de cercetare depinde metoda cea mai adecvata i nu de repertoarul de metode. Nu stiu de unde provine zicala daca singura scula pe care o ai este un ciocan totul ncepe s semene a cui dar n cazul statisticii sociale se confirm din pcate foarte des. Dac tot ce tii e s calculezi medii, o s calculezi medii indiferent ce tem de cercetare i ce date ai! Cum i ct de mult sunt distribuite datele n jurul tendinei centrale este o alt tem esenial n statistica descriptiv. Ai auzit cu toii butada cu individul care st cu un picior ntr-un lighean cu ap rece ca gheaa i cu unul ntr-un lighean cu ap clocotit i zice c n medie i este bine. Exist multe feluri de a calcula ct de distribuite sunt datele. n exemplul dat probabil ar fi de ajuns s calculm diferena de temperatur dintre cele dou lighene, n marea majoritate a cazurilor avem ns de a face cu un fel de miriapod care are fiecare din mia lui de picioare n ligheane cu ape de temperaturi diferite! Statisticile infereniale sau inductive sunt tehnici complexe, bazate cel mai adesea pe teorii matematice despre cum sunt datele i au ca principal scop testarea unor ipoteze despre populaii de individizi sau obiecte. Inferena statistic este de fapt formarea unor preri justificate despre o ntreag populaie bazndu-ne pe msurarea unei pri a acesteia. Exemplul care ne este cel mai familiar este cel al sondajului de opinie politic. Institute de sondare a opiniei publice pun ntrebri unui eantion de vreo mie de persoane i vor s ne conving pe noi, i binenneles i pe nite clieni pltitori de asemenea, cum c pot spune ceva despre opinia a peste 21 de milioane de persoane. La baza acestui tupeu se afl inferena statistic adic posibilitatea de a generaliza statistic de la msurarea unui eantion la descrierea unei ntregi populaii. Exist teorii matematice care justific aceasta. i dac cercetarea e fcut ct mai aproape de presupunerile acelor teorii atunci rezultatele pot fi foarte aproape de realitate. Bineneles i n acest caz pentru interpretarea lor trebuie sa ne punem ct mai clar ntrebrile: ce am msurat, pe cine am msurat i cu ce acuratee. Principiul fundamental al statisticii este coninut ntr-o teorem matematic numit adesea i teorema fundamental a statisticii. Ea ne asigur de faptul c rezultatele msurtorilor ce se 10
fac pe un eantion se pot, n anumite condiii generaliza la nivelul ntregii populaii. Vom reveni n cel de-al treilea capitol al crii la aceast teorem fr ns a face o prezentare a ei pe placul matematicienilor. O nelegere a consecinelor acestei teoreme pentru ntreaga metod statistic este ns necesar pentru a evalua la adevrata lor importan mai micile sau mai marile devieri de la idealul matematic pe care le ntlnim vrnd nevrnd n cercetrile empirice. nelegerea fundamentelor matematice ale statisticii ne vor permite apoi s nelegem de ce este necesar o alegere foarte bine gndit a persoanelor pe care le intervievm pe parcursul unui sondaj de opinie i de asemenea de ce este necesar o construcie bun a chestionarului pe care dorim s-l aplicm. Testarea statistic nbogete cunoaterea ntr-un mod foarte apropiat principiului respingerii ipotezelor. Pe ct de scurt este, aceast propoziie necesit o explicaie destul de detaliat. La baza ei se afl concepia despre cunoatere tiinific a lui Karl Popper (). n logica raionalismului critic, cum i-a numit Popper nsui teoria, principiul cunoaterii tiinifice sar putea exprima simplu n felul urmtor: cunoaterea uman nu se bazeaz pe certitudini i demostraii ale unor adevruri; ea nu progreseaz pe baza coroborrilor ipotezelor ci pe baza contraexemplelor. Cunoaterea tiinific dezvolt ipoteze. Acestea snt acceptate dac nu se pot respinge. Dar ele nu snt prin aceasta propriu-zis adevrate. Doar c ele nc nu au putut fi respinse. Deci regula cunoaterii nu este demonstraia ci respingerea. Nu putem de obicei tii dac ceva este adevrat, putem ns recunoate cu oarecare probabilitate dac ceva este fals. O teorie este tiinific n msura n care se poate imagina un experiment practic ce are puterea s o contrazic. Dac acest experiment nu reuete respingerea teoriei, aceasta este pentru moment acceptat. Ea nu este adevrat ci acceptabil conjunctural att timp ct nu a fost respins. tiina are deci ca i scop construirea i punerea n practic a unor experimente care ncearc s resping teorii, sau mai exact ipoteze. n statistic ca i n teoria Popperian a raionalismului critic, spre deosebire de multe domenii ale matematicii, prin termenul ipotez nelegem o propoziie care se supune analizei. n logica clasic o ipotez este o propoziie din care decurge o concluzie. Acolo nu se studiaz, de regul, valoarea de adevr a ipotezei, ci felul cum decurge din ea o concluzie. n statistic ns, tocmai ipoteza este presupunerea supus testrii.
11
O ipotez o dat respins duce la o nou interpretare a realitii i ca atare la noi ipoteze. Exist aici o asimetrie ntre verificarea i respingerea teoriilor care este esenial i pentru felul cum cunoate statistica. Statistica folosete principiul contraexemplului ntr-un sens probabilist. S explic. Statistica poate msura o valoare, de exemplu media greutii cinilor de la o expoziie chinologic i o poate compara cu o valoare teoretic ipotetic, de exemplu o ipotetic medie a greutii tuturor cinilor din lume. Pe baza acestor valori, i a unor foarte importante presupuneri despre cum sunt n general distribuite datele i cum au fost ele msurate practic, statistica poate calcula care este ansa ca ipoteza s fie corect n lumina datelor msurate. Statistica va pune deci ntrebarea n felul urmtor. Fie urmtoarea ipotez: media greutii tuturor cinilor din lume este de 50kg. Daca media greutii cinilor din expoziie este de 20kg poate fi oare media greutii tuturor cinilor din lume fi 50kg? Dac aceast ans este foarte, foarte mic exist un bun motiv de a respinge ipoteza. Vom spune atunci c, dac cinii din expoziie reprezint un bun eantion al cinilor din ntreaga lume, iar printre acetia greutatea este distribuita normal, ipoteza cum c media de greutate a cinilor din ntreaga lume este de 50kg este aproape sigur greit. Statistica nu ne spune ct ar fi adevrata valoare a greutii medii a cinilor din lume, ne poate ns spune ct nu este i prin consecin ne poate da o imagine despre cam ct ar putea fi aceasta. Deci statistica lucreaz oarecum dup principiul popperian. Nu poate demonstra, poate ns respinge ipoteze. O bun cercetare statistic, ca i o cercetare tiinific n sensul lui Popper este o cercetare care construiete ipoteze ce pot fi respinse i experimente care au puterea de a respinge aceste ipoteze. Orice cercetare statistic bine construit pornete de la o serie de ipoteze mai mult sau mai puin explicite pe care le supune testrii statistice. Evident, cel mai bine este atunci cnd aceste ipoteze sunt explicite i tiinifice, adic refutabile. Deorece ns, aa cum am vzut deja, nu este posibil msurare fr a accepta n prealabil anumite teorii, ntotdeuna vor exista i presupoziii teoretice care nu se supun testrii. Acestea reprezint cadrul teoretic al cercetrii i tot ce putem face este s le contientizm i s ni le asumm cci ele determin ce i cum cunoatem. nsi acceptarea metodei statistice ca i cale de cunoatere este o astfel de premis teoretic, nu neaprat acceptat de ctre toat lumea.
12
c. Cauzalitate i statistica. O mare parte din cercetarea statistic ncearc s pun n relaie mai multe rezultate de msurare care reprezint caracteristici diferite ale unor individizi, obiecte sau fenomene. Astfel, ca s revenim la cinii notrii, un cercettor ingenios poate msura greutatea i genul cinilor i conchide de exemplu, cum c, pstrndu-ne n cadrul oricrei rase i grupe de vrst, pe msur ce un cine are greutate mai mare el are anse mai mari de a fi mascul. Un astfel de raionament este statistic absolut corect i ne arat ct se poate de clar faptul c conceptul de cauzalitate este un concept teoretic i nu unul statistic. Una din greelile de interpretare cel mai curent ntlnite n citirea datelor statistice este presupunerea de cauzalitate. Foarte adesea ne este convenabil s citim rezultatul unui calcul statistic ca o dovad de cauzalitate. Aceasta este fals chiar din dou motive. Pe de o parte, aa cum am spus-o mai sus, statistica nu dovedete nimic ci eventual nu respinge o ipotez, iar mai apoi, nici un model statistic nu poate conclude asupra vreunei cauzaliti. Este ns ct se poate de adevrat c exist modele statistice ce presupun cauzalitate, cum sunt regresiile. n acest caz cauzalitatea este inclus n model, face parte din teoria ce a stat la baza construirii modelului i desigur, ca n orice form de cunoatere statistic, ea ar putea fi eventual respins. Caz n care am avea un bun motiv s excludem o relaie cauzal. Dac ns nu putem respinge cauzalitatea nu avem un motiv mult mai puternic de a o presupune dect am avut n momentul n care teoria ne-a permis s o considerm pentru a fi modelat. Deci cauzalitatea este n teorie, n ipotez i nu n calcul. De aceea exemplul de interpretare de mai nainte ni s-a prut imediat greit. Face parte din simul comun faptul c genul unui cine este neschimbat toat viaa lui, pe cnd greutatea poate varia. De aici teoria noastr despre cini nu accept cauzalitatea dintre greutate i gen ci pe cea invers. Deci, ipoteza pe care nu o putem respinge este: cinii masculi sunt mai grei i nu cinii mai grei sunt masculi. Din pcate nu este ntotdeauna aa simplu. S lum un exemplu clasic, relaia dintre nivelul de educaie al unei naiuni i bunstarea ei. Se tie foarte bine c exist o legtur puternic ntre aceste dou caracteristici aproape indiferent cum le-am msura (de ex: procent din populaie cu studii superioare i produs intern brut pe cap de locuitor), exist ns teorii convingtoare pentru ambele direcii de cauzalitate i testele statistice nu au reuit s resping nici una dintre ele. Decizia asupra direciei de cauzalitate este deci un apanaj al teoriei.
13
i totui, statistica poate construi anumite raionamente cauzale. Acestea se bazeaz pe o observaie ct se poate de simpl: efectul nu poate s precead cauza. Aceasta se poate numi asimetria temporal a cauzalitii. Raionamentul logic e foarte simplu: dac evenimentul A a avut loc dup evenimentul B, atunci evenimentul A nu poate fi cauza lui B. Simplu, dar relativ puin util pentru c foarte rar datele noastre statistice se refer la evenimente singulare, clar databile temporar. Cnd avem de a face cu informaii databile, adic n cazul seriilor de timp, urmrim de regul dezvoltarea unor fenomene n timp. Atunci punem fa n fa dezvoltarea unor serii de timp. Varianta cea mai simpl este s legm dezvoltarea unei variabile, de ex. nivelul de bunstare ntr-o ar, de o alta, de ex. ateptarea de via n respectiva ar. Pn i informaii absolut nesistematice ne pot convinge c ntre acestea exist o relaie. Cum ar funciona ns raionamentul asimetriei temporale? Pentru a nelege aceasta ar trebui sa putem separa mecanismul individual care st la baza statisticii; s desfacem datele rezultate din agregare n fenomene individuale. n cazul de fa, raionamentul ar fi urmtorul: dac o persoan are un nivel de bunstare ridicat, va putea investi mai mult n sntatea sa, prin adresare la medic, alimentaie i igien, i va tri n consecin mai mult. Exist ns i raionamente alternative. De exemplu, se poate presupune c nivelul de bunstare nu mai conteaz dac un anumit prag al srciei extreme e depit. Oamenii nu fac economii la adresarea la medic, la alimentaie i igien. Sau c, dei bunstarea are un anumit efect, de fapt acesta e doar colateral. Ceea ce conteaz este nivelul de educaie i cultur care are efect asupra obiceiurilor alimentare, igienice i de adresare la medic. Cele trei variante acopera situaiile unei cauzaliti relativ directe, ale lipsei cauzalitii i a unui lan cauzal complex fr relaie direct ntre variabilele studiate. Cum raionm statistic? Orice cauzalitate trebuie s se regseasc la nivel individual. Deci, dac n forma agregat bunstarea medie crete sau scade aceasta s-a ntmplat prin creterea sau scderea bunstrii individuale a unor persoane. Pentru simplitate putem presupune c o cretere a agregatului este reflectarea unei creterii la nivelul indivizilor. Desigur n realitate situaia poate fi mai complex, o parte din indivizi putnd cunoate creteri i o alt parte scderi. La nivelul fiecrui individ a crui bunstare crete, condiiile de via pot produce o via mai lung. De aici deducem urmtoarele: dac creterea bunstrii e mai mare atunci creterea ateptrii de via va fi mai mare. Adic, cauzalitatea se reflect mai bine n relaia dintre creteri dect n relaia dintre valori. Creterile se calculeaz simplu ca diferene de la 14
un punct temporar (de ex. un an) la altul. A doua observaie imediat este c trebuie s lsm timp fenomenului s se dezvolte (asimetria temporal), adic va trebui s relaionm valori ale creterii bunstrii de la un anumit moment cu valori ale ateptrii de via ulterioare. Ct e bine s fie aceast ntrziere depinde de situaia modelat. Termenul statistic pentru aceast ntrziere vine din englez i se numete lag. n fine, a treia observaie este c o valoarea unic, o cretere a bunstrii ntr-un singur an, eventual ca efect al unui venit mare accidental care dispare foarte repede, nu trebuie neaprat s aib consecine eseniale asupra ateptrii de via. Deci ar trebui s nu lucrm cu o singur valoare ci s lum n considerare fenomene stabile de cretere, respectiv scdere. Acest raionament st la baza unei serii ntregi de metode de testare a cauzalitii dintre care cele mai convingtoare sunt, dup prerea mea metodele dezvoltate de Clive Granger. Acesta a primit n 2003 i un premiu Nobel pentru economie pentru ele. Raionamentul care definete cauzalitatea la Granger este ns complex. Ca atare muli l consider restrictiv i susin c nu acoper toate situaiile pe care simul comun le consider ca fiind cauzale. De aceea se folosete pentru definiia aceasta termenul de cauzalitate Granger n loc de cel general de cauzalitate. n capitolul dedicat seriilor de timp voi reveni asupra unor metode de testare a cauzalitii. Aceastea pot lua desigur numai forma unor respingeri de ipoteze, ns exist metode care permit respingerea unor ipoteze de noncauzalitate. Un alt caz interesant care apare n statistic uneori este cel al falsei cauzaliti, sau ntr-o form atenuat, a falsei corelaii. Variabile par a fi legate i nu ar trebui s fie. Vreau s atrag aici atenie asupra necesarei precauii n a defini o legtur ca fiind o fals relaie dintre variabile. Eu pn n momentul de fa nu am ntlnit false relaii ci doar relaii cu explicaii teoretice complexe sau neimediate. Sunt aceste explicaii corecte? Nu ntotdeuna, dar nu pot fi imediat respinse i sunt ca atare mai fertile dect presupunerea unei false cauzaliti. Exemplul clasic este cel al foarte bunei corelaii empirice dintre numrul de berze i indicele conjunctural al fertilitii, calculat ca numr de copii nscui unei femei pe parcursul vieii fertile, calculate pe regiune. Rezultatul, des verificat n practic ar putea fi o dovad cum c berzele aduc copiii. Cei ce au citit cumini pn aici vor observa c nu este aa. Pe de alt parte s-ar putea s fie de acord cu faptul c, experimentul n cauz nu poate respinge o legtur dintre numrul de berze i natalitate. S oferim ns o teorie alternativ. O teorie ct se poate de acceptabil chiar de ctre simul comun spune c numrul de berze, dar i numrul de nateri ale unei femei pe parcursul vieii fertile este mai mare n zona rural dect n cea 15
urban. Gradul de urbanizare (sau industrializare) al regiunii studiate ar reprezenta deci o variabil care le influeneaz pe amndou variabilele din studiul nostru. i mai mult, le influeneaz n acelai sens creind astfel o relaie pozitiv ntre ele. Nu era deci vorba despre o cauzalitate direct, dar nici despre o eroare. Pur i simplu, relaia cauzal trebuia explicat teoretic acceptabil. Adic, testul statistic nu poate alege care din cele dou teorii alternative, barza aduce copiii respectiv urbanizarea reduce numrul de berze i numrul de nateri a unei femei este mai bun. Adecvarea cu ansamblul de teorii i ipoteze ale cercetrii are ns aceast sarcin. nchei aici, repetnd: testele statistice pot da indicaii despre relaii dintre variabile dar numai teoria poate construi n termenii unor relaii cauzale i tot teoria trebuie s fie atent la posibilele determinri cauzale complexe, ce implic nu numai variabilele msurate explicit ci eventual i altele, poate uneori chiar nemsurabile.
d. Foarte scurt istoric al statisticii. Probabil c au existat rapoarte statistice nc din vremurile imperiilor antice legate de impozite i preuri, fapt este c termenul actual de statistic provine din latina nou folosit n administraia german i italian a secolului al 18-lea, i mai exact din termenul statisticum collegium, ce avea sensul de colegiu de stat, colegiu director. Mai mult, n Italia vremii, statista chiar nsemna om de stat, politician. Se pare c primul care a folosit cuvntul statistic a fost Gottfried Achenwall n 1749, i anume n limba german, sub forma de Statistik i cu sensul de analiz a datelor despre stat sau chiar de tiin despre stat. Achenwall (17191772) a fost unul din creatorii statisticii, pe parcursul carierei sale fiind att universitar la Marburg i Gttingen, ct i consilier de curte al principilor electori de BraunschweigLneburg. Termenul de statistic a fost preluat n alte limbi i, n fine generalizat, cu un sens apropiat celui pe care l dm astzi acestei metode, pe parcursul secolului al 19-lea. Practica de a culege i analiza date despre stat exista ns deja n Anglia i era acolo numit aritmetic politic. Termenul avea o vechime de cel puin un secol cnd Achenwall a inventat noul nume i pare a i se fi datorat lui William Petty (1623 - 1687) fiind chiar titlul unei cri ce i s-a publicat postum. William Petty nu a fost statistician n sensul metodelor pe care le 16
nelegem astzi ca fiind statistice. A fost ns statistician prin multe dintre temele ce l-au interesat. Petty a fost i politician, economist, inventator, antreprenor i multe altele i a folosit tot felul de tehnici ingenioase, chiar dac nu ntotdeuna corecte, pentru a estima, de exemplu, populaia Londrei. Pentru ca statistica s fie cea de acum a trebuit ns s se lege mai nti de teoria probabilitilor. Acest domeniu al matematicii, iniial legat mai mult de jocuri de noroc i divertismente matematice, i are originile tot n secolul al 17-lea, dei primele scrieri despre jocuri de noroc se gsesc ntr-o oper postum a lui Girolamo Cardano (1501-1576), Liber de ludo aleae. Cartea a fost ns publicat abia n 1663, n anii n care apreau i lucrrile unor Pierre de Fermat (1601-1665) sau Blaise Pascal (1623-1662). Acetia din urm sunt creditai c au moit de fapt teoria probabilitilor prin corespondena pe care au purtat-o asupra celebrei probleme a Cavalerului de Mr. Problema era: cum trebuie s mpart doi juctori miza total a unui joc de noroc dac nu vor s joace pn la capt, dar vor ca aceast imprire s fie proporional cu ansa fiecruia de a ctiga jocul. Pe Pascal se pare c la convins n aa msur metoda probabilist gsit nct a folosit-o i pentru a argumenta existena lui Dumnezeu, cu un succes mai de grab incert. Destul de repede s-a observat c, dei un joc de noroc este determinat de situaii aleatoare, repetarea unui astfel de eveniment aleator poate duce la o anumite regularitate i aceast repetare este de fapt baza a ceea ce acum numim observaie statistic. Ideea de observaie repetat apare deja n prima carte de teorie a probabilitilor publicat de Christiaan Huygens (1629-1695) n 1657. Ca tiin matematic urmtorii pai au fost fcui de doi celebri matematicieni Jakob Bernoulli (1654-1705) tot ntr-o lucrare postum, intitulat Ars Conjectandi i Abraham de Moivre (1667-1754) n Doctrines of Chance (publicat n Anglia). Aceast din urm carte pune i bazele statisticii n sensul modern al tiinei. n a doua ediie a crii (1738) apare pentru prima oar o form a distribuiei normale de probabilitate despre care vom vorbi pe larg i n cartea de fa, dar i un caz particular al teoremei limit central, o clas de teoreme foarte important pentru statistic, pe care va trebui s o tratm i noi mcar un pic pentru a nelege diferite fenomene legate de erorile statistice. i teoria erorilor de observaie se gsete deja n scrieri de la nceputul secolului al 18-lea, i anume n cteva note postume ale lui Roger Cotes (1682-1716), dar cel ce a legat probabil
17
statistica, cu sensul de observaie asupra statului de teoria probabilitilor a fost Pierre-Simon Laplace (1749-1827). Laplace a fost un om de tiin deosebit de prolific, ceea ce ne intereseaz ns acum este dezvoltarea de ctre el a unei aa-zise teorii analitice a probabilitilor. ntr-o lucrare din 1812 Laplace descrie mai exact distribuia normal, i, pe lng multe altele, demonstreaz i o form a metodei celor mai mici ptrate, nc metoda noastr de preferin pentru calculul ecuaiilor de regresie, precum vom vedea n capitolul al aselea. Probabil cellalt mare creator al tiinei statisticii a fost Carl Friedrich Gauss (1777-1855). Considerat uneori cel mai mare matematician al tuturor timpurilor, dei mie personal nu mi este cunoscut nlimea lui fizic i nu cred c cea intelectual se poate cu adevrat msura, Gauss a contribuit la aproape toate domeniile matematicii. i el a contribuit la descrierea distribuiei normale, de aici i numele de curb a lui Gauss ce se d de obicei graficului distribuiei normale. Tot Gauss a clarificat i ipotezele metodei celor mai mici ptrate. n acest caz exist ns o anumite disput de primordialitate cu Adrien-Marie Legendre (1752-1833) care a publicat aceleai rezultate, se pare independent de Gauss. Legendre le-a publicat de fapt naintea lui Gauss, acesta ns susinea c le tie de mult. Deja pe parcursul primei pri a secolului al 19-lea rezultatele tiinifice legate de metoda de cercetare statistic s-au nmulit considerabil. Multe metode au fost dezvoltate, principalele tehnici puse la punct. Dezvoltarea mare a domeniului a venit ns spre sfritul secolului al 19lea i apoi n secolul al 20-lea o dat cu interesul crescut pentru studiul societii, apariia tiinelor economice moderne i a sociologiei. Atunci apar marile coli statistice crora le datorm arsenalul actual de metode. Pe de o parte este vorba despre coala englez. Principalii ei exponeni au fost: Karl Pearson (1857-1936) care a contribuit esenial la teoria corelaiei i a regresiei i a dezvoltat coeficientul de corelaie r dar i coeficientul Chi2, i Ronald Fischer (1890-1962) iniiator de fapt al ntregului domeniu al testelor non-parametrice, creator al distribuiei i testului F i a unei serii ntregi de rezultate eseniale pentru statistica de astzi, dar i Charles Spearman (1863-1945) care a dezvoltat principalele metode de analiz factorial dar i coeficientul de corelaie (rho) pentru valori ordinale, numit i coeficient Spearman, William Sealey Gosset (1876-1937) cunoscut sub pseudonimul Student, care a dezvoltat metode de verificare a ipotezelor, distribuia Student i testul t, i alii.
18
Dac coala englez de statistic a fost la originea multora dintre metodele statisticii aplicate, la cellalt capt al continentului, n Rusia, au aprut lucrri eseniale pentru justificarea tiinific, matematic a calculului statistic. Principalele teoreme ce stau la baza statisticii au fost demonstrate de matematicienii rui Pafnuty Chebyshev (1821-1894) cu inegalitatea ce i poart numele i ca o consecin a acesteia, teorema slab a numerelor mari, Andrey Markov (1856-1922) creatorul lanurilor Markov i n general unul dintre creatorii teoriei proceselor stochastice, Aleksandr Lyapunov (1857-1918) care a demonstrat o form general a teoremei limit central, Andrey Kolmogorov (1903-1987) unul din principalii contribuitori la demonstrarea teoremei tari a numerelor mari i autorul unui criteriu suficient ce i poart numele, i alii. Dezvoltarea statisticii a continuat pe parcursul secolului trecut i ca tiin. Mai impresionant poate ns, statistica a ptruns n contiina public o dat cu utilizarea ei pe scar larg n cercetrile sociale i cvasi-generalizarea sondajului de opinie ca metod de culegere de informaii despre societate, ca metod de msurare a societii. Primul sondaj de opinie a fost efectuat n Statele Unite de revista Literary Digest n 1916 pentru a prevede rezultatul alegerilor prezideniale. Fr vreo baz teoretic statistic, revista a cerut cititorilor s returneze redaciei o carte postal - chestionar. Pentru patru alegeri prezideniale la rnd, metoda a dat rezultate corecte. Un pas important spre fundamentarea tiinific a sondajului de opinie l-a fcut George H. Gallup (1901-1984) care n teza lui de doctorat din 1928 a dezvoltat metoda ce st la baza sondajului de opinie statistic. Primul mare succes al lui Gallup a fost n 1936 cnd a reuit s prevad corect victoria lui F.D. Roosevelt n alegerile prezideniale, spre deosebire de Digest care a greit folosind un eantion incomparabil mai mare. Celebru att pentru ncrederea mare pe care a produs-o de la nceput ct i pentru cteva eecuri memorabile, lui Gallup trebuie s-i recunoatem meritul de a fi creatorul instituiei sondajului de opinie statistic.
19
Capitolul 2. Tipuri de date

Voi prezenta aici principalele tipuri de date, sau nivele de msurare, cum se mai numete aceast clasificare. Dei criticat pentru diverse motive aceasta mprire a datelor permite o nelegere simpl a felului cum se apropie statistica de fenomene. n 1946, psihologul american Stanley Smith Stevens a propus ntr-un articol mult citat, ludat i criticat apoi, o teorie a nivelelor de msurare care avea s fie apoi repetat n aproape toate manualele introductive de statistic (Stevens, 1946). Nu am vrut s m abat de la regul. Prima dat s vedem totui la ce bun i cum adic? Este absolut evident c msuratorile pe care se bazeaz statistica nu sunt toate la fel. Din exemplele mai mult ntmpltoare din capitolul capitolul precedent (greutatea i genul unui animal, opinia despre un politician) este evident c aparate diferite de msur dau rezultate care fac parte din categorii ct de poate de diferite de cunoatere. Dac greutatea se exprim n valori numerice cu care se pot face calcule aritmetice, genul e un fel de etichet, nu nume dat unei categorii, iar opinia despre politician poate fi exprimat n mai lungi sau mai scurte propoziii, eventual chiar n grade de genul, mai bun mai puin bun dar nu n valori numerice concrete. Deci, Stevens a intuit ct se poate de corect, e necesar o clarificare i o categorisire a acestor nivele de msurare. Tehnic o astfel de categorisire ajut la a stabili ce metode anume se potrivesc a fi folosite cu ce fel de variabile. Poate prea inutil, dar un exemplu sper s ajute aici. Am vorbit despre opiniile despre politicieni. Destul de des acestea sunt exprimate n note. Fie ntrebarea de chestionar chiar cere notarea, ca la coala, a activitii unui politician, sau a unui guvern sau minister n ntregul lui, fie rspunsurile snt transformate n note de ctre cercettor ntr-o activitate pe care o numim de regula codare a rspunsurilor. Rspunsurile la ntrebrile de opinie n final ajung s nu se disting de rezultatele, eventual rotunjite, ale cntririi unui cine. i totui diferenele acestea sunt eseniale i nu trebuie uitate1. Prezentarea nivelelor de msurare n crile introductive de statistic mai are un avantaj. Permite o exemplificare structurat a datelor cu care lucreaz statistica i o prezentare coerent a principalelor proprieti ce sunt necesare pentru a putea lucra cu ele.
1
Confuzia dintre date de aceste tipuri e pe larg analizat n foarte reuita carte a lui Darrel Huff How to Lie with Statistics (1954) care a aprut ntre timp n peste 30 de ediii.
20
a. Date nominale Datele nominale, numite uneori i categoriale, sunt nume date unor proprieti ale obiectelor, indivizilor sau fenomenelor studiate care nu pot fi reprezentate prin cantiti i nici nu au o ordine implicit. Din exemplele de pn acum, genul este o dat nominal. Indiferent ct de complex cultural, biologic, comportamental i aa mai departe ar fi categorisirea pe genuri, dezvoltarea caracteristicilor de gen sau alte probleme despre care sunt alii chemai s scrie, ca tip de dat genul nu e altceva dect un cuvnt desemnnd o categorie. Nu putem face nici socoteli aritmetice cu genuri, nici comparaii. Masculin nu e mai mare dect feminim, i nici sume sau medii nu putem face. Chiar daca am codifica la o adic genurile, la modul feminin = 2 i masculin = 1, ca la codurile numerice personale din Romania, o declaraie de forma: genul mediu ar participanilor la sondaj a fost 1,56 este ilar. Totui i datele nominale trebuie sa se supun unor reguli, e drept puine i simple, pentru a putea fi folosite ca date statistice. Acestea sunt: Excluderea mutual: Categoriile unei date nominale trebuie s se exclud reciproc. Un cine msurat de noi nu poate fi n acelai timp i mascul i femel, un cetean interogat ntr-un sondaj de opinie nu poate fi n acelai timp i cstorit i necstorit. Completitudinea: Orice individ msurat n cadrul cercetrii trebuie s gseasc o categorie ce i se potrivete n lista de valori posibile. Eventual se include varianta altceva, altfel dar lista de valori trebuie s poate acomoda orice situaie. Condiiile de mai sus nu sunt ntotdeuna uor de pus n practic. Dei cred c par a fi de bun sim, sunt situaii n care ntrebrile i listele de rspunsuri trebuie formulate cu grij pentru a nu ntmpina probleme n analiza ulterioar a datelor. De multe ori cercettorii chiar prefer s pun ntrebrile astfel nct s par ct mai naturale celor ce trebuie s rspund la ele i s codifice apoi ei nii datele n aa fel nct s corespund cerinelor prelucrrii statistice. Exemple tipice de date nominale sunt genul, starea civil, naionalitatea, apartenena religioas. Toate acestea au n comun faptul c pe lng caracterul lor nenumeric nu au nici o
21
ordine acceptat a valorilor. Asta chiar dac unii pot fi de prere c romnii sunt mai superiori dect bulgarii! Cu toate c datele nominale pot prea srace din punctul de vedere al posibilitilor calculatorii ele sunt importante n multe fenomene sociale, economice, etc. i au fost dezvoltate multe metode statistice care s permit analiza lor sau, mai adesea, s permit analiza altor date n relaia lor cu categorii nominale. Voi discuta pe larg astfel de metode n special n capitolul al aptelea al crii.
b. Date ordinale O a doua grup de date sunt cele care, dei nu sunt numerice, au o ordine bine definit a valorilor. Sensul de bine definit al unei ordini nu este nicidecum trivial. Matematicienii neleg printr-o ordine bine definit o ordine care poate fi recunoscut pentru orice dou valori i mai mult, este i tranzitiv. Pentru simplificare voi folosi expresia mai mare pentru a descrie ordinea. Atunci o ordine este bine definit dac ntre oricare dintre valorile de rspuns este clar care este mai mare. Tranzitivitatea nseamn c daca o valoare este mai mare dect alta, iar aceasta mai mare dect o a treia, prima valoare va fi n consecin mai mare dect cea de a treia. n plus fa de condiia de ordine, datele ordinale trebuie s se supun i condiiilor pe care leam specificat n cazul datelor nominale, s permit deci numai valori mutual exclusive i lista acestor valori s fie complet. Diferena esenial dintre datele ordinale i valorile numerice este aceea c nu are sens calculul distanei dintre dou valori, respectiv distanele dintre valori consecutive nu se pot presupune a fi egale. Un exemplu va face mai clar aceast distincie. O ntrebare tipic pentru un rspuns ordinal este cea legat de ncrederea ntr-un politician. S presupunem c rspunsurile posibile sunt: foarte puin, puin, nici puin, nici mult, mult, foarte mult. Se vede imediat c lista de valori este ordonat bine, ntre orice dou valori ordinea e evident i tot evident este i proprietatea de tranzitivitate. Tot att de clar este c fiecare intervievat va trebui sa decid de fapt care e opinia lui, foarte probabil fiind c pn n momentul interogrii el s nu-i fi pus problema ncrederii n termenii ntrebrii. Aceast 22
nevoie de a decide difereniaz pe cei chestionai de cei ce nu sunt chestionai i pune probleme n generalizarea rezultatelor la nivelul populaiei adic i asupra celor ce nu au fost de fapt chestionai i nu au trebuit s se decid n contact cu ntrebarea pus n forma dat. Un mod de a contientiza aceasta este de a nu conferi valorilor de rspuns un sens absolut matematic, ci de a le considera interpretri personale ale celor ce au rspuns. Asta nseamn c pentru doi intervievai diferii sensul unei valori de rspuns poate fi oarecum diferit, de exemplu, pragul de la foarte puin la puin ncredere s fie diferit, distana dintre dou categorii s fie diferit. Intervievatul care alege un rspuns nu face altceva dect s i poziioneze opinia ntr-o ordine i numai caracterul de ordine al valorilor de rspuns poate fi presupus n analiz. n ansamblu nu se poate deci presupune c exist distane ntre valori ntr-un sens matematic. Dei se face des, traducerea valorilor de rspuns n cifre, de exemplu de la 1 la 5 n cazul nostru, este riscant i duce la greeli importante. Calculul unor medii aritmetice a rspunsurilor este una din greelile cele mai uzuale pe care le fac cercettorii n tiine sociale, de multe ori chiar contieni de abuzul implicat. Scuza uzual pentru aceast greeal este aceea c nsumnd opinii ale unui numr mare de persoane, distanele dintre variantele de rspuns, ntr-adevr diferite de la o persoan la alta, se nsumeaz i dau o medie statistic egal. Din pcate ns nu este aa. Exist devieri sistematice de la aceast distan presupus egal ntre variantele de rspuns. i anume, valorile extreme, de tipul foarte puin ncredere sau foarte mult ncredere snt adesea mai ndeprtate de valorile proxime puin ncredere, respectiv mult ncredere dect snt acestea de valoarea median, neutr. Mai grav nc, n cazul n care o anumit ntrebare este receptat ca fiind legat de o presiune social, distanele din scal se defazeaz n sensul acestei presiuni. Ca i n exemplul anterior, majoritatea ntrebrilor care produc rspunsuri ordinale se bazeaz pe aa zise scalograme, adic liste standardizate de rspunsuri. Cele mai obiuite, mai des folosite, sunt scalele Likert, dezvoltate deja n 1932. Scala Likert este o scal a nivelului de acord cu o propoziie. Un exemplu simplu ar fi urmtorul: Suntei de acord cu faptul c Traian Bsescu este un politician dedicat binelui rii noastre? a. Nu sunt deloc de acord c. Nu sunt de acord d. Nici de acord, nici nu e. Sunt de acord f. Sunt absolut de acord. 23
Formulrile pot diferi, de regul ns este vorba despre o scal ordinal cu un numr impar de valori. Cel mai adesea sunt 5 valori, unii cercettori din domeniul psihologiei n special, prefer totui scale cu 7 valori. Valoarea median, adic cea din mijlocul scalei este ntotdeuna o valoare neutr. Acordul sau dezacordul sunt exprimate verbal n forme ct mai clare i simple de grade diferite de radicalitate. Uneori se alege contient eliminarea valorii mediane. n acest caz se vorbete de o scal Likert cu opiune forat. Intervievaii sunt atunci obligai s adopte o poziie chiar daca ar prefera neutralitatea. Un alt tip important de scalograme, sunt cele de tip Guttman sau cumulative, dezvoltate iniial de sociologul i psihologul Louis Guttman ntr-un articol din 1944. Guttman pune cteva condiii simple pentru ceea ce este o scal Guttman perfect, i anume: O scal Guttman este o list ordonat de propoziii cu care intervievatul poate fi de acord sau nu. S presupunem c avem 10 astfel de ntrebri. Dac intervievatul este de acord cu propoziia 7, dar nu i cu propoziia 8, logica scalei presupune c el este de acord cu toate propoziiile 1-7 i nu cu propoziiile 8-10. n aceste condiii scorul lui va fi 7. Modelul lui Guttman este desigur ideal prin caracterul lui determinist. O variant mai permisiv i mai apropiat de realitate este modelul lui Rasch care presupune o scal de tip Guttman probabilist, adic n care relaiile dintre rspunsuri au un caracter probabilist. Un exemplu celebru de scal de tip Guttman este des folosit n analiza relaiilor dintre grupuri etnice, religioase, naionale, etc. Aceasta este scala Bogardus (dup sociologul american care a dezvoltat-o), numit i scal a distanei sociale, care se bazeaz pe o lista de ntrebri de urmtoarea form: Ai fi de acord ca un .......... (aici se completeaz categoria fa de care se estimeaz distana social, de exemplu maghiar, rrom, baptist, homosexual): S v devin rud prin alian (rspunsul da valoare 1). S v fie prieten apropiat (2) S locuiasc pe aceiai strada (3) S v fie coleg de servici (4) 24
S fie cetean al rii noastre (5) S fie doar turist n ara noastr (6) S fie expulzat din ara noastr (7)
Valori ordinale se pot ns obine i n alte situaii. De fapt cazul cel mai cunoscut de valoare ordinal este cel al notelor i calificativelor date elevilor i studenilor. i este i cel mai cunoscut abuz de utilizare a unor valori ordinale. Dei probabil o mare parte a profesorilor ar fi de acord, cel puin eu a fi, c distana dintre un 4 i un 5 nu este aceiai cu distana dintre un 7 i un 8, sau dintre un 9 i un 10, medii aritmetice ale notelor se calculeaz n mod uzual i se mai i folosesc pentru a lua decizii importante pentru viaa celor notai. Problema utilizrii mediei aritmetice pentru date ordinale este ns o problem care a produs multe controverse. Dup prerea mea principalul motiv este prezena att de rspndit a datelor ordinale, probabil cele mai des ntlnite n cercetrile sociale, i frustrarea de a renuna la o form de prezentare att de simpl de calculat i neles cum este media aritmetic. Trebuie ns menionat c exist o serie ntreag de metode puternice care lucreaz cu date ordinale i nu fac presupuneri suplimentare despre distanele dintre valori. Alte exemple de date ordinale snt: nivelul de educaie (dac formularea rspunsurilor este bine ordonat), respectiv topurile de preferine (nu i cele de vnzri, la care se poate calcula o diferen ntre poziii clar exprimat n uniti vndute).
c. Date intervalice Ultimele dou categorii ale clasificrii lui Stevens se refer la date numerice i diferenierea pe care a impus-o ntre datele intervalice i cele raionale este i una dintre cele mai controversate ale teoriei nivelelor de msurare. Cu toate acestea, s vedem despre ce e vorba. n definiia iniial, datele intervalice sunt date numerice care au punct zero convenional. Mai simplu spus, zero-ul intervalic nu nseamn o lips a caracteristicii ci este o valoare ca oricare alta. Un cine care are greutatea zero nu este un cine, cel puin dup prerea mea. Ca atare greutatea nu este o valoare intervalic. Dac ns cineva s-a nscut la ora zero, nu nseamn c nu s-a nscut de loc. Ora zero este convenional i nu nseamn absena indicaiei de timp. Deci datele calendaristice, sau de or sunt date intervalice. Ele evident sunt altfel dect celelalte date numerice de msurare. 25
Datele intervalice au toate caracteristicile datelor ordinale, sunt mutual exclusive, complete i bine ordonate. Chiar i caracterul convenional al notrii numerice este prezent. Diferena este ns distana calculabil ntre dou valori intervalice. ntre dou momente n timp se poate calcula o distan, fie ea n minute, secunde sau alte uniti de msur i o distan de o anumit mrime, de exemplu 5 minute, este aceiai indiferent pentru ce valori de timp a fost calculat. Pstrnd toate celelalte condiii egale, dac un ou fierbe n 5 minute la ora 14, el va ajunge la fel de tare dup 5 minute de fierbere i la ora 7. Atenie ns, chiar dac momentele ora 14 i ora 7 snt indicaii intervalice, nu astfel este i durata de 5 minute. Aceasta este o dat numeric raional, cum vom vedea c se numesc acestea. Adic, un ou care fierbe zero minute chiar nu fierbe de loc! Alte date intervalice sunt gradul de longitudine i latitudine geografic, fusul orar, temperatura precum i alte date convenionale. Deoarece datele intervalice au distane corect calculabile ntre ele, pot fi folosite n aproape orice calcule matematice. Problematic rmne utilizarea lor n mpriri i nmuliri, deorece ele nu au sensul de cantitate pe care il acordm de obicei datelor numerice. Astfel un cine de 40kg cntrete ntr-adevr ct doi cini de cte 20kg. Pe de alt parte, ora 14 nu este ct dou ore 7 din nici un punct de vedere. De asemenea, de 4 ori cate o halb de bere sunt 2 litri de bere, ns de patru ori deteptarea la ora 3 dimineaa nu face ct o trezire la ora 12. d. Date raionale Din prezentarea de pn acum nu am avut cum exclude referiri la datele raionale. Acestea sunt datele numerice, cantitative, obinuite. Ele apar des n cercetarea social sau economic, i cu att mai mult n ecologie sau medicin i sunt cele pentru care s-au dezvoltat cele mai multe dintre tehnicile i testele statistice. Absolut orice calcule matematice se pot face cu aceste valori. Greutatea cinilor, banii din portofel, valoarea produsului intern brut, numrul de locuitori ai unui ora sau de restane al unui student sunt toate valori raionale. Ele sunt rezultate ale unor msurtori cantitative, sau adesea al unor numrtori. Valoarea zero nu este o convenie, un student cu zero restane este chiar un student cu o vacan lung i relaxant. 26
De obicei caracterul discret sau continuu al valorilor unor date raionale nu se tematizeaz la nivelul statisticii aplicate introductive. Dei unele metode presupun date continue, cum este cazul metodelor de regresie, se face cel mai adesea abstracie de la aceast presupoziie. Exist rezultate matematice suficient de bine fundamentate care permit o atare abordare fr pericolul de a grei semnificativ. i apoi continuitatea datelor nu nseamn statistic mai mult dect c valoarea msurat poate fi orict i nu numai anumite valori, de exemplu numere ntregi. O asemenea condiie nu este de fel restrictiv.
27
Capitolul 3. Culegerea datelor statistice. Sondajul de opinie

Datele statistice pot proveni din surse oficiale, cum sunt institutele naionale de statistic sau organizaiile internaionale, i atunci se refer de obicei la un ansamblu complet de obiecte, indivizi sau fenomene sau pot proveni din aa-zise sondaje statistice. n primul caz, dei culegerea datelor este de obicei laborioas, tiinific justificarea utilizrii lor nu pune probleme deosebite pentru statistician. Pe de alt parte, tehnica sondajului este una mult mai pretenioas i matematic mai complicat. Cu att mai mult cu ct unii care fac sondaje i majoritatea celor ce le citesc uit de principalele probleme implicate n validitatea lor. 1. Statistici de recensmnt si statistici de sondaj. Generalizarea statistic i limitele ei. Cum am mai scris i mai sus, metoda specific de culegere a datelor n statistic este sondajul. Acesta se bazeaz pe o serie de teoreme matematice care permit, n condiii foarte bine specificate, care n realitate nu snt niciodat perfect ndeplinite, generalizarea rezultatelor de la nivelul eantionului, adic a mulimii celor chestionai la nivelul populaiei, adic a mulimii care reprezint inta cercetrii. Prima definiie necesar pentru a continua este cea a populaiei. n orice cercetare statistic populaia este ansamblul tuturor indivizilor (sau a obiectelor) care sunt subiecte ale cercetrii, asupra crora se refer ipotezele i teoriile ei. Dac de exemplu, vrem s facem o cercetare legat de consumul de ap mineral n Romnia, populaia studiului va fi ntreaga populaie a rii, de vrea 21 de milioane, ct e ea. Dac ns cercetarea are caracter politic, probabil a dori s restrng populaia la persoanele cu drept de vot, electoratul romn, adic numai vreo 17,5 milioane. De la caz la caz, populaia unei cercetri poate fi mulimea locuitorilor unui ora, mulimea juctorilor de fotbal sau a studenilor unei faculti, dar exist i cercetri cu alte nivele de agregare la care populaia poate fi mulimea intreprinderilor mici i mijlocii dintr-o regiune, mulimea judeelor Romaniei sau chiar a rilor europene. Stabilirea populaiei cercetate este un prim pas n orice studiu statistic. Este de fapt rspunsul la ntrebarea: despre cine am dori s putem spune ceva? i de aici decurge alegerea celor care vor fi msurai (adic vor rspunde la ntrebri) dar i felul cum se fac msuratorile (adic se pun ntrebrile) i interpretarea rezultatelor. Alegerea populaiei este o decizie ce ine de substratul teoretic al studiului dar n acelai timp determin teoriile ce vor fi folosite n continuare pe parcursul proiectrii cercetrii. 28
Nu toate cercetrile statistice sunt bazate pe date culese prin sondaj. O mare parte dintre metodele folosite att pentru descrierea datelor ct i pentru testarea unor teorii se aplic, cu la fel de mult succes, i pe alte tipuri de date. Este vorba despre ceea ce numim date de recensmnt. Suntem obinuii cu acest termen ca desemnnd o chestionare periodic, dar totui rar, a ntregii populaii a rii pe teme legate mai mult de statutul social-economic. Conceptul are ns o definiie ceva mai larg. Un recensmnt este o cercetare care presupune intervievarea (sau mai general, msurarea) tuturor membrilor populaiei studiate. Deci tehnic un studiu care trateaz statele europene folosind date culese din toate aceste state este un recensmnt la fel cum tot recensmnt este un studiu care intervieveaz toi studenii unei anumite faculti att timp ct rezultatele nu se doresc a fi generalizate pentru alte grupuri de studeni. Dei n cazul recensmntului inducia statistic nu are rolul pe care i l-am pomenit n introducere, exist aa cum am mai spus i aici un anumit nivel de generalizare. Anume, prin faptul c folosim modele mai mult sau mai puin simple pentru indivizii studiai i ncercm totui s tragem concluzii despre comportamentul lor sau despre opiniile lor. Tot ce am putea tii, de exemplu, despre studenii facultii de tiine politice din Timioara sunt rspunsurile pe care acetia le dau la un chestionar. Am putea totui s ncercm s verificm dac pentru acetia se poate susine faptul c cei ce lucreaz n perioada studeniei sunt mai puin interesai de problemele legate de organizarea academic. Este posibil o astfel de cercetare? Desigur. Este sigur c se poate rspunde la ntrebare? Evident, nu. ntrebarea este o ipotez de lucru, s-ar putea s poat fi respins, s-ar putea ns s nu se poat face acest lucru. Indiferent ns de aceasta, rezultatele se vor referi numai la studenii chestionai i nu se vor putea generaliza, dup regulile statisticii cel puin, la ali studeni, din alte faculti sau alte orae. n unele cazuri, probabil pentru a evita confuzia curent cu recensmintele naionale menionate, statisticile de acest tip se mai numesc statistici de lot. Prin lot nelegndu-se de fapt populaia care este n acelai timp i eantion al cercetrii. n general un eantion este mulimea aleas prin vreo metod oarecare, a celor ce vor fi chestionai (sau msurai) n cadrul unei cercetri. Dac de exemplu, la o fabric de ciorapi trebuie fcut un studiu statistic al egalitii lungimii ciorapului stng cu ciorapul drept, probabil c s-ar decide c este suficient msurarea unui eantion i nu al ntregii populaii 29
ciorpeti. S-ar putea alege, i ar fi chiar cea mai bun metod, de pe banda de producie tot a o mia pereche de ciorapi pn cnd se ajunge la un numr dorit, de exemplu tot o mie de perechi. Perechile de ciorapi msurai vor forma eantionul, producia ce are loc n perioada n care se aleg perechile de ciorapi e populaia cercetat. Exist multe metode de a alege un eantion, unele mai bune, altele mai puin, unele mai simple, altele mai puin. Vom reveni la acestea n partea a dou a acestui capitol. Pentru moment s ncerc s explic de ce putem face asta. De ce e suficient s msurm o mie de ciorapi ca s spunem ceva despre cteva sute de mii, sau de ce un institut de sondare a opiniei publice e suficient s ntrebe nu mult mai mult de o mie de oameni pentru a prevedea suficient de bine rezultatul unor alegeri prezideniale? Explicaia st n cteva teoreme matematice. Ele snt n general cunoscute ca fiind legile numerelor mari, teorema fundamental a statisticii i teorema limit central. Nu cred c a fi de prea mare folos cititorilor acestei cri dac le-a enuna matematic corect. Voi ncerca deci numai s le povestesc. Legile numerelor mari snt o serie ntreg de teoreme, probabil prima fiind enunat de Bernoulli n 1713. Toate aceste teoreme spun lucruri asemntoare. Ele de fapt vorbesc despre repetarea unor experimente, de exemplu aruncarea unui zar. Esenial este ca repetarea aceast s se fac n aa fel nct fiecare aruncare de zar (sau ce experiment ar fi) s fie independent de celelalte. Dac e aa i notm rezultatele, pe msur ce numrul de experimente crete felul cum se distribuie rezultatele observate se apropie din ce n ce mai mult de felul cum sunt distribuie toate rezultatele posibile. n cazul unui zar bine echilibrat, pe msur ce repetm aruncarea cu zarul ne apropiem din ce n ce mai mult de o distribuie n care fiecare faet apare de un numr egal de ori. Traducerea n statistic e simpl. Fie o informaie oarecare de interes pentru cercetarea noastr, o dat statistic cum i-am spus pn acum, sau o variabil cum i se mai spune. Ea este cumva distribuit n populaie (de exemplu genul e distribuit cam jumtate jumtate, perechile de ciorapi inegali sunt cam 5% din producie, etc.). Ei bine legile numerelor mari ne asigur de faptul c dac alegem s chestionm (msurm) un numr de indivizi (perechi de ciorapi) atunci att timp ct alegerea unui individ este independent de celelalte alegeri, pe msur ce numrul celor alei crete, distribuia rezultatelor de msurare se aproprie de distribuia valorilor n ntreaga populaie. Simplu spus asta nseamn c un eantion mai mare e mai bun dect unul mai mic. Dar mai spune dou lucruri eseniale. O dat, faptul c adugnd la eantion n mod corect nu ne ndeprtm de la distribuia pe care 30
dorim s o aflm ci ne tot apropiem de ea i n al doilea rnd, mai important, ne spune cum trebuie s alegem eantionul. Anume astfel nct fiecare alegere s fie independent. Din pcate, aa cum vom vedea asta nu este chiar aa uor n statistic ca la aruncarea cu zaruri. O form a legii numerelor mari, cunoscut i ca teorema Glivenko-Cantelli a fost adesea numit teorema fundamental a statisticii. Ea ne asigur inc mai bine de apropierea aceasta a distribuiei valorilor observate de cele existente n populaie, apropiere ce n matematic se numete convergen. Teorema Glivenko-Cantelli ne spune c aceast convergen este uniform pe msur ce crete volumul eantionului. Bun, deci, din cele de pn acum tim c msurnd un eantion din ce n ce mai mare ne apropiem din ce n ce mai mult i uniform de felul cum variabilele ce ne intereseaz sunt distribuite n populaie, atta timp ct fiecare element din eantion l-am ales independent de celelalte (vom spune n general c eantionul e ales aleator, la nimereal). Pare de bun sim, cred. ntrebarea mare ce se pune acum este, ct de mare trebuie s fie eantionul astfel nct apropierea s fie suficient de bun? Altfel, desigur, dac pentru o populaie de 21 de milioane, distribuia din eantion se apropie de distribuia din populaie pe msur ce se adun milioanele de chestionare nu am rezolvat prea mare lucru. Aici intervine teorema limit central. i ea face parte dintr-un grup de teoreme numit n general teoreme limit central. Pentru a deosebi teorema cea mai important dintre acestea, o teorema enunat i demonstrat de Lyapunov la nceputul secolului 20, ea se scrie adesea cu litere mari (Teorema Limit Central!). Ea ne spune c n anumite condiii, importante pentru matematicieni, o sum de variabile aleatoare necunoscute, dar independente tinde la o distribuie normal cnd numrul acestor variabile tinde la infinit. Condiiile pomenite nu sunt de fapt foarte restrictive, ele spun c variabilele nsumate trebuie chiar s fie oricum, la nimereala i faptul c trebuie s aib aceiai medie i dispersie. Aceasta, a doua condiie nu este de fapt chiar att de restrictiv, dei poate prea. De fapt ea nu este restrictiv pentru c orice variabil aleatoare poate fi mpins spre stnga sau dreapta graficului ei prin simpla adunare sau scdere a unei valori numerice. Nu se schimb cu nimic caracteristicile variabilei, pur i simplu graficul se mpinge ncoace sau ncolo. Deci orice variabil poate fi adus la aceiai valoare medie fr a schimba mare lucru. Cu dispersia e ceva mai complicat, dar nu mult, aa c nu o mai comentm aici. Bun, deci, le insumm i iese ceva numit distribuie normal, o distribuie despre care vom mai vorbi. Precum vedem ea este foarte important n statistic. Nu e foarte simpl matematic, dar pentru majoritatea utilizatorilor de statistic e 31
suficient s cunoasc cteva din principalele ei proprietti. i pe moment cel mai important este c e cunoscut. E foarte important. S relum de fapt ideea. Avem un numr de tot felul de variabile despre care nu tim mai nimic i dac le adunm toate iese ceva cunoscut. Asta e foarte confortabil pentru c la urma urmei n orice cercetare ce presupune studierea comportamentului unor oameni putem s fim destul de siguri c sunt o gramad de variabile pe care nu le-am putut msura i nc i mai multe la care nu ne-am putut nici mcar gndi. Ei bine, astea toate nsumate n efectele lor produc ceva cunoscut. Deci, grija mare c sunt attea i attea care nu pot fi luate n seam nu e chiar aa de justificat. Aceast grmad de variabile sunt de fapt eroarea care trebuie luat n seam cnd ncercm s estimm o valoare. Prin faptul c se poate estima corect forma sumei variabilelor care nu le lum n seam n mod explicit se obine i formula care permite estimarea erorii. Cum am vzut din teoremele numerelor mari aceast eroare este legat de volumul eantionului. Deci aici putem estima volumul unei eantion pentru a obine cu probabilitate mare o anumit precizie a cercetrii statistice.
32
2. Cum facem un sondaj de opinie simplu i corect? 1. Eantionarea aleatoare Din considerentele (aproape) matematice din seciunea precedent putem s extragem o concluzie esenial pentru tehnica sondajului de opinie. Anume, garania matematic pentru posibilitatea unei estimri statistice corecte este ca alegerea eantionului studiat s fie pur aleatoare, adic s nu depind chiar de nimic.
Modelul pe care matematicienii il prefera pentru alegerea aleatoare este modelul urnei. Premisele sunt urmtoarele. Avem o urn din care se pot extrage bile i n care se gsesc un numr de bile de diverse categorii. De exemplu, bile albe i negre. Extragem din urn cte o bil, notm culoarea ei i o introducem la loc. Legea numerelor mari ne asigur c repetnd operaia asta de multe ori vom obine o bun estimare a distribuiei bilelor n urn. Modelul acesta se numete schema bilei rentoarse i introducerea bilei la loc n urn este esenial pentru c astfel ansa de a alege o bil de o anumit culoare rmne cea de la nceput pentru fiecare extragere. Dac ne-am imagina o urn cu un numr foarte mare de bile din care extragem un numr relativ mic, am putea presupune c distribuia rmne aproape neschimbat chiar dac bila nu se introduce la loc, adic dac aceiai bil nu mai poate fi extras de mai multe ori. Aceasta este situaia unui sondaj real. Ideal ar fi deci s avem un recipient mare de tot n care stau cumini toi membrii populaiei pe care dorim s o studiem i s extragem de acolo rnd pe rnd cte unul, s-l interogm i sl punem la loc. Aceasta este ns posibil numai parial. S vedem ce corecturi sunt necesare pentru a putea s ne apropiem ct mai mult de acest modelul teoretic. n primul rnd, n oala noastr nu va sta chiar toat populaia pe care vrem s o cercetm. (i spun oal, pentru c urn mi se pare prea morbid, i recipient prea pretenios.) Exist dou feluri de aborda problema asta. Pe de o parte, e normal s ncercm s lum o oal ct mai cuprinztoare, pe de alt parte e la fel de normal s redefinim populaia n funcie de oala aleas. Hai s dau cteva exemple. S zicem c dorim s aflm ceva despre populaia oraului Timioara. S alegem recipientul din care extragem subiecii cercetrii. De exemplu, Piaa Operei. Punem operatori de sondaj 33
n pia i i nvm s abordeze ceteni n mod aleator. Indiferent cte ore ar sta operatorii notrii n pia i indiferent n ce zile ar sta acolo, recipientul acesta nu va conine toat populaia Timiorii n nici un caz. Mai mult, cei ce trec prin pia vor fi probabil persoane care au anumite caracteristici diferite de cei ce nu trec. E probabil, de exemplu, s fie n special persoane care nu sunt angajate n munc: studeni, elevi, pensionari, amatori de fotbal, actori i statisticieni. Pur i simplu, faptul de a trece n Timioara prin Piaa Operei e deja un anumit mod de comportament i ar putea influena i alte comportamente i opiuni ale celor alei s rspund la chestionar. Un astfel de eantion nu va fi reprezentativ pentru ntreaga populaie a oraului. Oala e pur i simplu prea mic. Pe de alt parte, nu tiu dac clientul cuiva ar fi mulumit cu aseriuni de genul: o treime din cei ce trec prin Piaa Operei ziua n amiaza mare ar cumpra detergentul .... Bun, e preferabil deci s alegem alt oal. O opiune care se ofer este cartea de telefon. Fie deci, cartea de telefon, oala din care se aleg la nimereal numere de telefon. Intervievarea prin telefon are i avantajul de a fi rapid i confortabil. Este ns oala asta destul de mare? Depinde. Practic punnd astfel problema redefinim populaia de la populaia oraului Timioara la populaia oraului Timioara abonat la Romtelecom. Aceast populaie poate fi o mai bun sau mai proast aproximare a populaiei iniiale dar nu va fi n nici un caz o aproximare statistic pentru c apartenena la cea de a doua populaie nu este una aleatoare fa de prima populaie. Mai simplu, populaia celor care au telefon n Timioara nu a fost aleas n mod ntmpltor din toat populaia oraului, persoanele cu pricina au avut de fcut pai administrativi clari care au presupus un interes pentru a avea telefon, un anumit venit minim, poate chiar un efort logistic. Deci putem linistit presupune c cei ce au telefon sunt altfel dect cei ce nu au. Deci, cele dou populaii nu sunt interanjabile. Posesorii de telefon vor avea probabil n medie un venit mai mare, vor fi localizai n anumite cartiere, etc. Totui, clientul nostru s-ar putea s fie mulumit de rezultate obinute pe populaia restrns att timp ct volumul ei este suficient de apropiat de volumul populaiei iniial considerate. La nceputul anilor 1990 a fi fost clar mpotriva intervievrii telefonice. Pe vremea respectiv foarte multe familii nu aveau telefon dei ar fi dorit s aib, iar cei ce aveau telefon aveau n mod clar caracteristici particulare, de obicei de natur profesional. Dei aceasta poate s fie teoretic adevrat n continuare, deoarece numrul de abonamente telefonice n mediul urban se apropie foarte mult de numrul total de gospodrii, redefinirea populaiei nu este una care s deranjeze prea mult. Discrepana dintre mediul urban i cel rural rmne ns att de mare nct
34
un sondaj pe o populaie ce include i mediul rural, ca de exemplu, populaia unui jude, nu se poate n nici un caz efectua telefonic. O alternativ similar cu cartea de telefon dar, cel puin teoretic mai bun este folosirea listelor de alegtori. Din pcate, aa cum s-a vzut la alegeri, migraia populaiei intern i internaional a fcut ca listele electorale s fie destul de greu practicabile, adresele de pe liste nepotrivindu-se adesea situaiei din realitate. Apoi, obinerea listelor electorale pentru o cercetare oarecare nu este ceva chiar aa de uor. Important de notat c listele cu toat populaia, cum sunt listele electorale sau crile de telefon, se numesc cadre de eantionare i au marele avantaj de a uura alegerea. Alegerea aleatoare, chiar matematic vorbind, dintrun cadru de eantionare este posibil. S revenim ns la alegerea recipientului. Daca nici cadre de eantionare bune nu sunt ce se poate face? Se poate, de fapt, defini oala astfel nct s cuprind chiar pe toat lumea? Probabil nu. Aproximaia cea mai bun este de a considera oraul, judeul sau ara n distribuia ei teritorial ca fiind chiar oala i a alegere de aici pe baza adreselor gospodriilor. Alegerea unei adrese va fi de fapt o metaforic extragere din urn. Evident, nici aa nu avem chiar urna teoretic n care se afl toate bilele. Lipsesc cei ce nu se afl la domiciliul stabil sau nu au un domiciliu stabil, fie ei nomazi prin modul lor de via, plecai n concedii sau la munc n strintate. Aa cum tim, n cazul Romaniei de astzi numrul acestora este important i redefinirea populaiei este esenial n acest caz, dar de obicei ea este ntru totul acceptabil. Oala geografic va nsemna parcurgerea oraului pe baza unui itinerariu. Operatorul va parcurge strzile - locuinele i va alege - extrage dintre ele. Bineneles, din motive practice va trebui ales un punct de unde pornete operatorul n itinerariul lui. Pentru c se lucreaz cu mai muli operatori i pentru c exist prejudecata cum c o distribuie geografic uniform ar nbunti relevana sondajului, se aleg de obicei puncte de pornire pe cartiere. Ideal ar fi ca aceste puncte s fie alese chiar aleator, de exemplu aruncnd cu un dart pe un plan al oraului. Pe de alt parte, distribuia uniform a punctelor de pornire, dei nu este justificat matematic elimina riscul ca doi operatori s ajung la aceiai familie! Am vzut problemele legate de metaforica noastr urn, s vedem cum arat alegerea din urn, extragerea aleatoare. n forma teoretic atunci cnd experimentatorul bag mna n urn el nu simte nici o diferen ntre bile. Toate sunt la fel, alegerea nu are loc pe baza unei caracteristici, tocmai prin aceasta este aleatoare. Bilele negre nu sunt mai calde dect cele 35
albe. Regula esenial a alegerii aleatoare, se poate exprima astfel: fiecare membru al populaiei trebuie s aib aceiai ans s fie ales n eantion. Pare simplu, nu e. Numai dac avem un cadru de eantionare aceasta se poate face (aproape) perfect. Atunci un generator de numere aleatoare pe calculator ne poate alege un eantion ct de mare vrem. Aceasta ar fi o eantionare aleatoare perfect. Mai exist o variant la fel de bun, dar mai puin laborioas. Dat fiind construcia listelor, fie electorale, fie telefonice, care se face alfabetic, poziia unei persoane n list nu e legat de anumite caracteristici. De aceea se poate folosi o metod mai simpl, aa-zisa alegere pseudo-aleatoare. Se alege aleator atunci un prim nume. Apoi se aplic un pas de eantionare. Acesta se calculeaz ca raport dintre volumul populaiei i volumul eantionului. De exemplu, n Timioara sunt aproximativ 140.000 de abonamente telefonice. Daca dorim un eantion de 1000 de persoane, pasul de eantionare va fi de 140. Punem n eantion, de exemplu, primul numr telefonic din carte, apoi numrul al 141-lea, apoi al 281-lea, i aa mai departe. ansa unui numr de a fi ales depinde de alegerea primului numr, aceste se alege din valori ntre 1 i 140. Oricum toate numerele de telefon au aceiai ans de a fi alese independent cui aparin, i n mod evident, ceea ce e cel mai important, nu conteaz nici un fel de caracteristici social-economice, etnice sau comportamentale ale celor alei. S ne gndim la varianta pe care am considerat-o cea mai bun pentru alegerea urnei, anume parcurgerea geografic a localitii. n acest caz avantajul de a lucra cu situaia real a adreselor este i motivul principalului dezavantaj. Anume, nu exist un cadru de eantionare ceea ce face alegerea simpl aleatoare sau pseudo-aleatoare imposibil. Cum alegem locuinele ca s dm tuturor aceiai ans, i o dat aleas o locuin cum dm tuturor locatarilor aceiai ans? Esenial este desigur ca alegerea s nu fie influenat de caliti ale locuirii i persoanelor. Adic, casele mai drgue s nu fie favorizate fa de cele mai nentreinute, persoanele mai primitoare fa de cele mai puin primitoare, eventual chiar unele etnii fa de altele! Metoda care se folosete este construirea unui itinerariu-algoritm. E ca i cum am face o alegere pseudo-aleatoare n care pasul de eantionare nu mai e un numr de rnduri pe o foaie de carte de telefon ci un numr de case pe o strad sau un numr de locuine ntr-un bloc. Ce conteaz este ca metoda s includ toate cazurile posibile astfel nct argumente care in ntr-adevr de condiiile de locuire s nu conteze. Cel mai ru este ca operatorul s aleag dup argumente de genul: s-a terminat strada, acum pot s o iau la stnga sau la dreapta, dar la stnga e noroi!. Poate prea nesemnificativ, dar prin repetare, dac astfel de alegeri sunt posibile ele pot duce la un caracter nealeatoriu al eantionului i la 36
situaia n care apartenena la o categorie social-economic dezavantajat s scad probabilitatea de a face parte din eantion. Apoi mai exist o situaie asemntoare de defazare a eantionului care e foarte periculoas. Aceasta este cunoscut ca autoselecie. Evident, dac numai cei ce se autopropun, rspund la un chestionar, cum e de exemplu, cazul chestionarelor ce apar n reviste, eantionul nu are nici o relevan statistic. Am vzut c aa au dat gre sondajele din revista americana Literary Digest puse fa n fa cu metoda lui Gallup care presupune alegerea aleatoare. Exist ns o situaie pervers n care o aproape similar, chiar dac ceva mai benign, autoselecie apare ca efect pervers al unei eantionri i selecii ct se poate de corecte. Astfel, dac numrul celor ce refuz s rspund la chestionar e foarte mare, cei ce accept pot fi considerai a fi (aproape) autoselectai. E clar c aici rolul operatorului este esenial, el/ea trebuie s fie potrivit de politicos-insistent astfel nct cel intervievat s trebuiasc s ia evident o decizie pentru a refuza i varianta implicit, lipsit de efortul de a decide, s fie aceea de a rspunde. Din pcate nu avem o metod mai bun de a reduce ponderea refuzului de a rspunde la chestionare. n anii de imediat dup 1990 ponderea celor care refuzau interviurile operatorilor de sondaj era foarte mic. Aceast pondere a crescut destul de mult devenind n multe cazuri semnificativ. Cteva reguli simple reduc totui puin ponderea nonrspunsurilor. Operatorul de interviu trebuie s nceap prin a se prezenta ct mai clar i trebuie s se refere fie la institutul care efectueaz sondajul, fie la clientul sondajului. Esenial este ca potenialul intervievat s priceap ct de repede despre ce e vorba, adic s nu cread c operatorul vrea s-i vnd sau s-i cear ceva. Apoi el trebuie s se simt valorizat pentru faptul c prerea lui conteaz, respectiv c a fost ales s-i spun prerea. 2. Eantionarea stratificat Stratificarea este o variant de nbuntire a eantionrii lund n seam caracteristici ale populaiei care sunt de tip categorial. Matematic nu se poate calcula cu ct e mai bun o astfel de eantionare fa de una simpl aleatoare, i nici mcar dac e mai bun. Ea are totui avantajul de a ne asigura posibilitatea unor teste statistice care pot fi importante n cercetare. Aici ns trebuie s expun nti metoda pentru a fi mai explicit. Orice populaie se poate mpri n categorii diferite. Genuri, religii, zone de reziden, tipuri de locuire, etc. Unele dintre acestea sunt cunoscute la nivelul populaiei din date statistice 37
oficiale. De exemplu, dac avem de fcut un sondaj ntr-un anume jude putem afla din anuarul statistic ci locuitori snt n mediul urban i ci n mediul rural, ci n oraul reedin de jude, ci n alte orae. Mai mult, unele din aceste categorii se pot cunoate chiar nainte de intervievare, se pot lua n seam n eantionare i selecie. Astfel prin simple proporii se pot calcula eantioane stratificat. Un exemplu simplu pentru judeul Timi ar fi urmtorul. n tabel am trecut populaia total urban i rural din 2006 conform Institutului National de Statistic. Am calculat apoi procentele fa de totalul populaional al judeului i, n fine cte chestionare dintr-un total de 1000 ar trebui aplicate n mediul rural i cte n mediul urban pentru a pstra volumele straturilor. Numr locuitori Urban Rural Total 414.680 244.619 659.299 Numr chestionare 629 371 1000
Procent 62,9% 37,1/ 100%
Aceast metod este folosit cel mai adesea pentru a crea eantioane pentru o populaie mare i distribuit, cum ar fi populaia unei ri, de obicei eantionarea nu este doar stratificat ci i multistadial. Aceasta presupune mai muli pai de stratificare i alegere aleatoare. Cel mai simplu ar fi s vedem cum se face aceasta pentru o populaie cum ar fi cea a Romaniei. Primul pas, sau primul stadiu, este mprirea dup tehnica stratificrii pe care am vzut-o mai nainte a eantionului n funcii de regiuni de dezvoltare. Romania este mprit, mai mult sau mai puin administrativ n opt astfel de regiuni de dezvoltare. Ele nu sunt propriu-zis uniti administrativ-teritoriale cum sunt judeele, dar sunt suficient de bine particularizate socioeconomic. n mare, cele opt regiuni se potrivesc pe regiuni istorice ale Romaniei, dei sunt criticate tocmai pentru c nu se potrivesc i mai bine cu acestea. Oricum, ceea ce conteaz pentru statistician este faptul c regiunile de dezvoltare sunt folosite de Institutul National de Statistic ca uniti de raportare. Adic, toate datele statistice teritoriale sunt disponibile i la nivel de regiune. n plus, evident cele opt regiuni sunt mai potrivite ca straturi dect foarte multele judee ale rii. Romania are 41 de judee. Dat fiind un eantion obinuit, care aa cum tim depete cu puin 1000 de chestionare, numrul de chestionare care s-ar aplica ntr-un jude ar fi ilar de mic i de greu de distribuit n consecin. Hai s fiu puin mai explicit. 38
mprind chestionarele pe judee rezult n medie vreo 25 de chestionare pe fiecare jude. Dac lum n seam numai costurile de transport care apar mprite pe fiecare chestionar e clar c merita cutat o metod mai bun. S vedem cum arat tabelul cu distribuia chestionarelor dup primul stadiu. Numr locuitori Nord-Est Sud-Est Sud Muntenia Sud-Vest Oltenia Vest Nord-Vest Centru Bucureti Ilfov Total 3.781.932 2.980.559 3.619.796 2.461.463 2.198.504 2.983.614 2.860.490 2.325.037 23.211.395 Numr chestionare 163 128 156 106 95 129 123 100 1000
Procent 16,3% 12,8% 15,6% 10,6% 9,5% 12,9% 12,3% 10,0% 100%
Al doilea stadiu este, de obicei, distribuirea pe medii de reedin. Aceasta se poate face pe o simpl mprire rural urban, cum am vzut deja n exemplul precedent, sau pe o ceva mai complex mprire n trei zone, rural localiti urbane mici (sub 100.000 de locuitori) localiti urbane mare. Aceasta este mprirea pe care o folosesc majoritatea institutelor de sondare a opiniei publice de pe la noi. mprirea aceasta duce n fine la o distribuie a chestionarelor prin care se afl cte chestionare trebuie fcute pe fiecare regiune i fiecare tip de localitate. Atunci apare primul pas de selecie aleatoare, dintr-o list de localiti pe regiuni i tipuri de localiti se aleg, n mod teoretic aleator, localiti care le vor reprezenta pe toate celelalte din aceiai regiune i acelai tip. Deci, ar trebui alese mcar o localitate urban mare, una mic i o localitate rural pentru fiecare regiune. n realitate se aleg de obicei mai multe localiti din cte o categorie, aa cum vom vedea i din exemplul urmtor. S dezvoltm o regiune oarecare, de exemplu regiunea Nord-Est n forma mai simpl a distribuiei rural - urban. Numr locuitori Rural 2.105.562 Numr chestionare 92
Procent 56,4% 39
Urban Total
1.629.384 3.734.946
43,6% 100%
71 163
Deci vor trebui aplicate 71 de chestionare n orae din regiunea Nord-Est i 92 chestionare n sate i comune din regiune. Cel mai probabil se vor alege din listele de localiti dou orae i trei sau patru comune pentru intervievare, dar numrul localitilor alese este de fapt la latitudinea celui care organizeaz sondajul i are cel mai adesea motivaii legate de costuri. Desigur pentru a fi statistic n regul alegerea localitilor trebuie s fie aleatoare, sau mcar independent de consideraii legate de caracteristici socio-economice ale localitilor. De obicei aici se oprete stadializare unei astfel de eantionri. Numai dac numrul de chestionare este mai mare se mai poate merge un pas mai departe i se mai pot mpri n continuare localitile n categorii, de exemplu localiti de es vs. de deal, etc. La finalul metodei stratificate, fie ea multistadial sau nu, rmne tot o alegere aleatoare a celor ce vor fi intervievai, fie cu ajutorul crii de telefon, a listelor electorale sau a itinerariului pe teren. De fapt, privind puin n urm alegerea punctelor de pornire a unei eantionri pseudo-aleatoare cu itinerariu este tot un fel de eantionare multistadial. Dac numrul de chestionare pentru fiecare din aceste puncte se stabilete lund n seam volumul populaional al cartierului n cauz eantionarea este chiar stratificat. Am spus pe undeva la nceputul acestei seciuni c, matematic vorbind eantionarea stratificat nu este mai bun dect cea simpl aleatoare. Ea se folosete mai des ns pentru c are alte avantaje. Anume, un sondaj de opinie se face cel mai adesea pentru a testa ipoteze i a descrie comportamente populaionale. Ipotezele statistice de obicei compar comportamente i opiuni ntre subgrupuri din populaie. Eantionarea stratificat ne asigur c o parte din categorisile populaiei se vor regsi cu necesitate n eantion. Astfel, suntem n acest caz siguri c vom putea compara regiunile ntre ele, zonele de reedin, etc. Din motive similare de multe ori la selecia partenerilor de interviu se verific (statistic se spune c se controleaz) i distribuia pe genuri. De obicei se face prin alternan simpl. Operatorului i se indic s intervieveze alternativ o femeie un brbat. Desigur, teoremele matematice pe care se bazeaz statistica ne promit c aceste distribuii vor iei bine i prin alegerea simpl aleatoare. ns n condiiile n care numrul chestionarelor nu este foarte mare, un control asupra anumitor variabile populaionale ne poate asigura n faa unor eventuale probleme. 40
O alt problem care trebuie menionat pe undeva i care ine n cele din urm de eantionare este alegerea unei ore ct mai potrivite pentru interviuri. Aici necazul este c o fereastr de timp prea mic, de exemplu ntre orele 18 20, dei ar putea surprinde pe majoritatea celor alei pentru a fi intervievai disponibili, duce la prelungirea timpului afectat operrii sondajului i ca atare i la creterea costurilor. Una peste alta, n cazul intervievrii la domiciliu se alege de obicei un interval orar ntre orele 16 i 21. Vara se poate profita un pic mai mult deoarece pe lumin ansa ca operatorul s fie refuzat este ceva mai mic! Important pentru alegerea intervalului orar al chestionrii este ns s nu faci gafe prea mari. Dac de exemplu pornim prin sat duminic nainte de mas vom nimeri pe mult lume la biseric, iar cei pe care i vom gsi acas vor avea un alt profil comportamental i valoric dect cei pe care nu i gsim acas. Aa putem da peste cap o eantionare altfel onorabil. 3. Eantionri ne-aleatoare Exist i metode de alegere a celor intervievai care nu au nimic de a face cu statistica. Ca atare, astfel de metode nu au o relevan matematic pe care s o putem calcula i nu se bazeaz n vreun fel pe regulile statisticii. Totui se folosesc pentru c sunt simple, ieftine, pentru c uneori sunt inevitabile i pentru c de multe ori aa-zise sondaje nu sunt neaprat fcute de specialiti sau comandate de clieni bine informai. Cea mai des folosit metod de eantionare ne-aleatoare este metoda de eantionare pe cote. Aceasta seamn cu metoda stratificat. Dac ns la eantionarea stratificat se determin un numr relativ mic de straturile n aa fel nct s lase loc i unei alegeri aleatoare, cotele se construiesc mai exact. Straturile de obicei se fac n aa fel nct s nu includ caracteristici ale persoanelor intervievate. Cotele conin tocmai astfel de caracteristici. De exemplu, din date statistice oficiale se deduce ponderea din populaie pe grupe de vrst i genuri i se calculeaz, ntocmai ca la eantionarea stratificat, numrul de persoane de fiecare categorie care trebuie intervievat. Fiecare operator primete atunci un numr din chestionare i o matrice de genul: Brbai 5 chestionare 6 chestionare 41
Femei 18 35 ani 35 50 ani 4 chestionare 5 chestionare
50 65 ani Peste 65 ani
5 chestionare 4 chestionare
4 chestionare 3 chestionare
De multe ori numrul de caracteristici cotate e chiar mai mare i poate include ntrebri filtru de genul consumai bere? sau locuii n aceast localitate?. Bineneles folosind eantionarea pe cote nu se mai pot alege cei intervievai aleator, fie din cartea de telefon, lista electoral sau cu itinerariu, pentru c n nici care din aceste liste i pseudo-liste persoanele nu apar cu specificarea unor caracteristici ale lor. Operatorul alege partenerii de interviu conform cotelor prin orice metod dorete, pe strad, dintre vecini, i aa mai departe. Astfel nu se mai exclude nici auto-selecia, nici subiectivitatea alegerii operatorului. O alt metod de eantionare ne-aleatoare este inevitabil n cazul populaiilor rare. Ea se numete metoda bulgrelui de zpad. Imaginai-v c populaia cercetat ar fi populaia amatorilor de jazz sau a cetenilor italieni stabilii n Banat. Astfel de populaii nu apar n listele electorale, nu sunt de discernut din cartea de telefon, iar folosirea itinerariului ar duce la att de multe eecuri nct ar dura i costa enorm de mult. Nu poi bate din u n u n cutarea iubitorilor de bonsai pn aduni suficiente interviuri! Dac nu poi asimila un astfel de grup rar cu o asociaie formal tot ce poi face este s recunoti faptul c persoane din astfel de grupuri sunt de obicei legate ntre ele n reele sociale. Persoanele din grupuri rare se cunosc ntre ele. Aa funcioneaz metoda bulgrelui de zpad. Se pornete de la un numr de persoane care aparin populaiei i care au fost identificate n vreun mod oarecare. Apoi fiecare dintre acestea este rugat s specifice alte persoane din aceiai populaie pe care le cunosc. Din aproape n aproape se poate ajunge la un numr rezonabil de mare de interviuri. Desigur relevana matematic-statistic a aceastei metode nu poate fi calculat.
n fine, unele posturi de televiziune sau ziare folosesc termenul de sondaj de opinie pentru un numr oarecare de interviuri scurte efectuate cel mai adesea pe strad. Aceasta nu este o eantionare ne-aleatoare, pur i simplu nu e nici un fel de eantionare i rspunsurile nu pot i nu trebuie s fie considerate a fi vreun sondaj de vreun fel.
4. Chestionarul Ei, am ajuns fa n fa cu cel pe care dorim s-l intervievm. Acum, ce? Acum chestionarul!
42
Spuneam c statistic vorbind fiecare din membrii populaiei trebuie s aib aceiai ans s fac parte din eantion. Tot att de important, metoda de msurare chestionarul trebuie s aib un efect ct mai mic asupra opiniilor msurate. Dac eu vreau s cntresc ciobneti mioritici, i aleg prin cea mai bun metod posibil un eantion, iar apoi nainte de a-i cntri, i tund pe ceii din eantion ca s fie mai drgui, nu prea am gndit bine. Toi membrii eantionului vor avea o greutate mai mic prin pierderea de blan ce le-am cauzat-o. Greutatea lor nu va mai putea fi generalizat la nivelul populaiei din care au fost alei. Exemplul pare extrem, dar n realitate interviul n sine i felul cum este construit chestionarul nu au cum s nu i diferenieze pe cei intervievai de cei ce nu snt intervievai. Dac dorim s putem generaliza rezultatele trebuie s ne strduim s scriem chestionare care s influeneze ct mai puin rspunsurile celor chestionai. Aceast carte nu are scopul de aprofunda nici teoretic, nici aplicativ scrierea de chestionare. i totui, este ct se poate de important s nu se neglijeze partea aceasta a designului unei cercetri. Degeaba am folosi cele mai moderne metode de cercetare i am proceda cu maxim precauie la interpretarea rezultatelor, daca chestionarul e prost conceput, prost va fi i rezultatul. Exist multe capcane n scrierea unui chestionar, unele pot fi folosite chiar i intenionat. Avantajul de a scrie o carte este c te poi erija n nelept i da sfaturi. Avantajul de a o citi este c poi sri pasajele de genul acesta. Deci, atenie, urmeaz sfaturi bine intenionate! 1. Cele mai grave denaturri ale rezultatelor se obin prin ceea ce n englez se numesc leading questions. Sunt ntrebri care foreaz un anumit rspuns sau mcar favorizeaz un anumit rspuns. ntrebri de acest gen leag de obicei unul dintre rspunsurile posibile de un concept foarte indezirabil sau, mai puin eficient, de unul foarte dezirabil. Pentru a construi astfel de ntrebri se folosesc construcii discursive puternic ncrcate valoric negativ sau pozitiv. O ntrebare pus pare-se ntr-un sondaj efectuat n oraul Cluj suna astfel Sntei de acord cu renfiinarea n oraul nostru a universitii de limb maghiar care a existat in perioada Horthist?. n ntrebare se face legtura dintre universitatea de limb maghiar i fascismul maghiar forndu-se astfel un rspuns negativ. Se creaz chiar senzaia c a susine renfiinarea universitii de limb maghiar ar fi o form de a susine sau chiar a readuce Horthismul. Sigur astfel de ntrebri nu prea se pun din greeal. Se poate ns ntmpla i aa ceva. De exemplu, se poate ntreba cu mai mult sau mai puin candoare: Considerai c ar trebui pedepsite crimele comunismului?. n formularea 43
aceasta apare perechea de cuvinte crim i pedeaps. Un rspuns negativ dat acestei asocieri devine aproape imposibil, astfel nct din ntrebare nu aflm cu adevrat mai nimic despre opinia celui ntrebat fa de crimele comunismului. O alt form de cretere a probabilitii unui anumit rspuns se poate obine prin adugarea unei propoziii explicative naintea ntrebrii, propoziie care s favorizeze anumite interpretri. 2. Uneori, ce e drept destul de rar, se ntlnesc i ntrebri la care lista de rspunsuri permite numai anumite aprecieri, sau scade posibilitatea unor opinii prin trecerea lor implicit la categoria altele. Iat un frumos exemplu cules de mine de curnd: Ce prere aveti despre MBA-ul AMERICAN al UNIVERSITATII DESALES2? 1. Excelent ! 2. Foarte bine - dar e prea scump 3. Bun - pcat c e doar n limba englez 4. E un lucru bun dar nu m intereseaz acum 5. Nu m intereseaz subiectul Evident scala nu este numai incomplet ci i tendenioas. Nu exist nici o variant de rspuns negativ! Dac cumva te intereseaz subiectul prerea pe care o poi avea poate fi numai de la bine n sus. 3. O alt form de denaturare a rspunsurilor se poate obine prin formularea prea pretenioas a ntrebrii sau a posibilelor rspunsuri. Aceasta are efectele cele mai devastatoare n cazul n care completarea chestionarului se face prin interviu cu un operator. n caz de autoadministrare ansele ca cel ce completeaz chestionarul s sar peste ntrebrile pe care nu le nelege sau la care nu tie s rspund sunt mai mari. Dac ns este ntrebat de ctre un operator, cel chestionat tinde s prefere s dea un rspuns oarecare dect s-i recunoasc lacuna de nelegere. n special brbaii se simt obligai s rspund ceva. Exist i un nume pentru treaba asta, se numete sindromul rspunsului masculin (male answer syndrom) i termenul se pare c a fost folosit prima dat n 1986 de ctre Sam Hunt ntr-o caricatur. Fapt este c att eu ct i muli alii ne-am lovit de aceast problem i de preponderena masculin a celor care rspund fr s neleag ntrebarea. Problema poate s apar la formularea ntrebrii, ca de exemplu: n ce msur v afecteaz personal implementarea aquis-ului comunitar?. Pot aprea ns astfel de probleme i la coninutul ntrebrii. Am vzut un chestionar, de exemplu, care fusese aplicat unui eantion al populaiei unui jude ntreg i coninea ntrebarea: Ce tip de balet
2
Majusculele i semnele de punctuaie apar astfel n original.
44
preferai? 1. clasic, 2. modern, 3. contemporan, etc.. Cred c este ct se poate de evident c ponderea celor care au ntr-adevr preferine formate la acest nivel este neglijabil de mic, majoritatea celor chestionai neavnd nu numai preferine dar nici mcar o imagine foarte clar a acestor diferene. Bineneles rspunsuri se gsesc, ce nseamn ns ele nu prea se poate spune. Probabil interpretarea cea mai rezonabil este c s-a obinut un fel de preferin general a conceptelor de clasic, modern i contemporan, independent de felul cum arat baletul cu pricina. 4. Problemele din punctele precedente par a fi destul de uor de evitat. Exist ns i situaii mai complicate. Una dintre acestea este efectul de serie ce se creaz cnd apar una dup alta mai multe ntrebri de acelai tip, cu aceleai posibiliti de rspuns. O serie de acest tip ar putea avea forma: ce prere avei despre? (foarte bun, bun, nici bun nici proast, proast, foarte proast) urmat de o list lung de politicieni sau instituii. Dac intervievatul nu are o opinie foarte bine conturat el va tinde s repete acelai rspuns, cel puin de la un moment ncolo. Aici efectul e mai prezent la autoadministrare i se poate evita ct de ct la interviul cu operator recitind ntreaga ntrebare ce prere avei despre A? ce prere avei despre B? i aa mai departe. 5. O alt problem, tot legat ntr-un fel de liste, apare cnd o ntrebare are un numr mare de rspunsuri posibile. Parcurgerea sau audierea acestora poate fi greoaie, astfel primele rspunsuri din list fiind alese preferenial. La intervievare oral este de preferat s nu se citeasc de loc lista de rspunsuri i operatorul s aleag ulterior din list pe baza rspunsului spontan al celui intervievat. 6. Listele de rspunsuri care se citesc mai pun o problem. Ele trebuie s fie complete, adic s poat acomoda toate opiniile posibile. Soluia confortabil de a aduga ntotdeuna i un caz altceva sau altfel pe ct este de necesar pe att este uneori de insuficient. Alternative care ar aduna un numr considerabil de opiuni vor fi menionate mult mai rar dac rmn n categoria altceva. Problema listelor de rspunsuri este deci una de echilibrare. Prea puine variante de rspuns nu recunosc bine opiniile, prea multe de asemenea, iar lipsa lor total poate face ca rspunsurile s fie de a dreptul incomensurabile i foarte greu analizabile. 7. n fine, mai vreau s atrag atenia asupra problemei estimrilor. Foarte des n chestionare i se cere celui intervievat s estimeze cantiti de consum sau valori. ct cheltuii lunar pentru produse nealimentare?, cte ore pe sptmn v uitai la televizor la un anumit program?, etc. Unele din aceste ntrebri pot prea acceptabile, la altele nimeni nu poate estima rspunsul n mod ct de ct corect. Cei ce construiesc astfel de ntrebri, fie nu i 45
dau seama de imposibilitatea estimrilor de acest gen, fie mizeaz pe o echilibrarea a rspunsurilor prin efectul de mas. Ei gndesc cam n genul urmtor, sigur e greu s te apropii mult de valoarea real, dar unii spun mai mult, alii mai puin i iese cam ce trebuie. Ei bine, nu exist nici un motiv statistic s ias cam ce trebuie. Mai mult, este foarte posibil, dar de nedovedit, c tocmai anumite categorii, de exemplu cei cu venituri mai mari, s-i exagereze estimrile iar alii s subestimeze valorile. Un test statistic care nimerete peste caracteristici cu efect asupra direciei de denaturare a estimrii va fi n acest caz total eronat i nu avem nici un mod de recunoate aceasta. Cel mai bine este s acceptm faptul c punem ntrebri la care intervievaii chiar pot rspunde corect n msura propriei lor contiine. 8. Exist i alte capcane ale chestionarelor. Regula cea mai bun este pn la urm verificarea chestionarului prin administrarea explorativ pe un numr de persoane, rude, prieteni, studeni. i nu uitai, punei ntrebri la care voi niv ai fi n stare s rspundei. Din toate cte le-am enumerat mai sus cred c s-a putut deduce c un chestionar care nu influeneaz de loc intervievatul nu e posibil. Tot ce rmne de fcut este s scriem chestionare care impun ct mai puin intervievailor i las prerile acestora s transpar. Asta bineneles dac dorim cu adevrat s aflm ceva despre opiniile celor chestionai. n fine, nc un sfat legat de scrierea de chestionare. Ordinea ntrebrilor din chestionar trebuie de asemenea gndit. Principalul argument ine aici de oboseala intervievatului. De obicei la primele ntrebri se rspunde cu ceva mai mare atenie, pe msur ce trece timpul rspunsurile devin din ce n ce mai automate. De aceea e de obicei preferabil s se nceap cu ntrebrile mai grele, care necesit o atenie mai mare la formulare. La sfrit se las ntrebrile care culeg aa-zisele variabile independente. Acestea sunt informaii care in de obicei de statutul socio-economic al celor intervievai (se i numesc adesea variabile SES, dup prescurtarea de la englezescul Socio-Economical Status) i includ vrsta, ocupaia, statutul marital i alte ntrebri la care chiar rspunsuri date neatent sunt de regul corecte.
5. Aplicarea chestionarului Am vzut din sfaturile de mai sus i faptul c alegerea unui anumit mod de aplicare a chestionarului are repercursiuni asupra completrii lui, asupra rspunsurilor pe care le primim. 46
nsi cercetarea sociologic are repercursiuni. Comportamentul diferit al subiectului cercetrii ca urmare al activitii de cercetare la care e supus a fost numit efect Hawthorne. Efectul i are numele de la legendarele studii Hawthorne conduse de sociologul i psihologul american Elton Mayo (1880 - 1949) la fabrica Hawthorne a Western Electric Company, undeva pe lng Chicago, n anii dintre 1924 i 1932. Mayo care s-a ocupat n special de cercetri industriale a vrut s studieze efectul schimbrilor de la locul de munc asupra productivitii muncii. De exemplu, a schimbrilor legate de iluminat. Printre altele, a observat cu aceast ocazie o nbuntire iniial a productivitii muncii independent ce schimbare se fcea. Dup o vreme productivitatea scdea din nou la valoarea de baz. Mayo a ajuns la concluzia c anumite modificri comportamentale tranzitorii au loc pur i simplu din cauza experimentului i nu a condiiilor modificate. Astfel productivitatea a crescut att cnd a crescut iluminatul din hal ct i cnd a sczut iluminatul, i aa mai departe. Oamenii tind s se comporte altfel dac sunt observai. Aceast observaie poate destul de banal este de o importan foarte mare n tehnica sondajului de opinie. Aa cum am mai spus, pune sub semnul ntrebrii nsi logica generalizrii statistice pentru c cei ce au fost alei pentru a face parte din eantion se vor comporta diferit, vor da poate rspunsuri diferite tocmai pentru c fac parte din eantion. E chiar posibil ca opinia lor s fie sincer i remanent modificat prin chestionare i rspunsurile corecte i sincere pe care le d s nu mai fie astfel generalizabile. Este ns posibil ca din motive legate de felul cum cel intervievat percepe dezirabilitatea social s-i schimbe rspunsurile. Adic s considere c dei el personal ar avea o prere mai degrab proast despre o anumit persoan mult ludat (tiu eu, de exemplu Corneliu Coposu sau Papa Ioan Paul al II-lea, sau cine tie cine) s prefere un rspuns neutru sau chiar moderat pozitiv pentru a fi n ton cu discursul public. Efectul aplicrii chestionarului poate fi mai mare sau mai mic, dar nu poate fi exclus cu totul. S ncepem cu diferena esenial. Chestionrile pot fi auto-aplicate sau realizate prin interviu cu operator. Cum am vzut cea de a doua variant are o serie de avantaje legate de designul chestionarului. De asemenea, garanteaz un numr mai mic de chestionare nereturnate sau necompletate i poate ajuta n condiii ideale i la o mai bun nelegere a chestionarului. Pe de alt parte efectele legate de aplicarea chestionarului sunt mai mari n cazul prezenei unui operator dect n cazul auto-aplicrii. S vedem totui cum pot fi ele atenuate. n primul rnd mediul n care are loc chestionarea este bine s fie ct mai familiar celui chestionat. Ideal este deci s fie intervievat sau s 47
completeze chestionarul acas. Cel mai ru este dac e intervievat sau pus s completeze chestionarul undeva unde nu se simte la locul lui, unde se consider n inferioritate i este ca atare tentat s se adapteze situaiei, de exemplu, ntr-o instituie public, ntr-un spital, etc. n cazul interviurilor cu operator este important i relaia spontan ce se creaz cu acesta. Exist adesea, n special la persoane n vrst confruntate cu operatori tineri, o tendin de simpatie. Combinnd aceasta cu lipsa unor opinii ferme pe anumite teme se poate uor ajunge la rspunsuri de complezen, care au n substrat dorina de a fi n acord cu operatorul sau de face o impresie pozitiv. Efecte similare apar i atunci cnd cel intervievat se simte n inferioritate evident fa de operator din punct de vedere al educaiei sau veniturilor. n special femeile sunt tentate s caute rspunsuri adecvate opiniilor pe care le proiecteaz asupra celor ce le intervieveaz. Apoi mai apare uneori i o dorin de a iei bine, de a da rspunsul corect sau adecvat. Operatorul ideal este deci un fel de roboel, nici prea antipatic ca s nu fie refuzat, nici prea simpatic ca s nu denatureze rspunsurile, i n plus total lipsit de prere proprie n felul cum citete ntrebrile, d din cap sau zmbete la rspunsuri. Unii prefer operatorii empatici, care aprob opiniile celui intervievat, alii operatori ineri. Fapt este c operatorii empatici pot crea o anumit dezinhibare care faciliteaz sinceritatea intervievatului. Capitolul acesta rmne dator cu o important parte calculatorie. Aa cum am pomenit de mai multe ori pentru sondajele efectuate cu eantionare statistic aleatoare se poate calcula o aazis marj de eroare, adic o eroare acceptabil a estimrilor statistice. Pentru a putea prezenta modul de calcul al acestei marje de eroare este ns necesar o prezentare mai amnunit a distribuiei normale. n fine, nsi calculul marjei de eroare este legat de testul t pe care l vom prezenta n prima parte a capitolului 5 al acestei cri mpreun cu distribuia normal. Am decis s grupez elementele mai matematizate separat de cele discursive pentru a facilita o parcurgere gradual a materialului i reduce riscul abandonului lecturii de ctre cei care resimt un disconfort la prima ntlnire a unei formule matematice. Sper s fi reuit mcar n parte.
48
Capitolul 4. Aperitive. Primii pai n descrierea datelor statistice

n precedentele dou capitole am vzut ce tipuri de date folosete statistica i cum le adun. n acest capitol voi prezenta cele mai simple i des folosite metode de reprezentare a datelor. Indiferent cit de departe s-ar merge cu analiza datelor i ct de sofisticate ar fi metodele folosite n cele din urm, o analiz exploratorie a datelor se face ntotdeuna. n acest capitol vom vedea cum punem prima dat mna pe un set de date, cum ne apropiem de el, cum l facem inteligibil. Seturile de date culese prin sondaj sau referendum fie c le-am produs noi nine, le-am preluat de la instituii oficiale sau de la ali cercettori se pot nelege i uneori chiar vizualiza sub forma unor tabele. Fiecare linie corespunde de obicei unui individ i fiecare coloan unei variabile. Uneori chiar se culeg datele pe teren folosind astfel de tabele numite fie de rspuns. Pe de alt parte, toate programele pe calculator care lucreaz cu date statistice le reprezint sub aceast form, fie c e vorba de Excel, folosit uneori i pentru prelucrri statistice primare, fie c e vorba de soft-uri specializate ca SPSS, Stata, Statistica, Gauss sau altele. n imaginea de mai jos se vede un fragment al unui set de date n Stata.
49
O astfel de tabel are n mod curent peste 1000 de linii i zeci sau chiar sute de coloane. Afiarea n sine a tabelei nu permite ca atare o citire prea facil i nu prea poate duce la vreun fel de consideraii inteligente. E pur i simplu prea mare, plin de cifre i lipsit de sensuri. Deci, ce facem? a. Imagini de ansamblu asupra datelor. Frecvene i reprezentri grafice. Prima idee este de a prezenta n vreun mod simplu i concis cte o variabil, adic o coloan a tabelei de date. S presupunem c respectiva coloan conine rspunsuri legate de frecvena gtitului n familiile din Baia Mare3. 1051 de intervievai au rspuns la ntrebarea: Ct de des se gtete la dumneavoastr n familie?. Rspunsurile posibile au fost zilnic, de mai multe ori pe
3
Valorile sunt reale i provin dintr-un sondaj efectuat n 2003. Populaia a fost populaia oraului Baia Mare, eantionarea a fost multistadial aleatoare cu itinerariu cu luarea n considerare a cartierului de reedin, densitatea de locuire a acestuia si a genului intervievatului. Interviurile s-au efectuat la domiciliul subiecilor ntre orele 16 i 21 asigurndu-se prezena majoritii celor angajai n cmpul muncii.
50
sptmn, sptmnal i mai rar. Tabelul cu rezultate ar avea 1051 de linii i nu da o imagine prea clar asupra distribuiei datelor. Modul de a reprezenta inteligibil i scurt valorile ar fi s numr apariiile fiecrei valori i s le prezint sintetic aa cum apar n tabelul de mai jos. Numrul de apariii ale unei anumite valori se numete frecven. De aceia un astfel de tabel se numete de obicei tabel de frecvene sau uneori tabel de frecvene simple pentru c se refer la o singur variabil.
Valoare Zilnic de mai multe ori pe sptmn Sptmnal mai rar Total
Frecven 547 476 26 2 1051
Procent 52,0% 45,3% 2,5% 0,2% 100%
Procent cumulat 52,0% 97,3% 99,8% 100,0%
Cum interpretm, sau mai exact cum citim o astfel de tabel? S observm nti c variabila n cauz este ordinal, chiar dac forma ei are un caracter total nenumeric exist o ordine bine definit. Prima coloan de valori numerice, sub titlul de frecven prezint numrul de persoane intervievate care au ales acest rspuns, a doua coloan ne d ponderea procentual a rspunsului iar a treia cumuleaz acest procentaj cu procentajele din categoriile cu valoare mai mic. Frecvena i procentajul simplu se pot calcula pentru orice tip de variabil, ele nu fac calcule cu variabila n sine ci cu frecvena ei de apariie. Procentajul cumulat are sens numai la variabile care au o ordine definit, astfel un procentaj cumulat pentru variabile nominale, dei poate fi calculat, are mai puin sens. Ce aflm din tabela de mai sus? n primul rnd faptul c rspunsurile s-au grupat n zona cu gtit frecvent. Peste jumtate din cei ntrebai susin c la ei n familie se gtete zilnic. Numrul celor care susin c la ei se gtete mai rar dect sptmnal este foarte foarte mic, numai dou persoane din eantion au rspuns astfel. Observm de asemenea c peste 97% dintre intervievai declar c la ei n familie se gtete de mai multe ori pe sptmn. Paragraful de mai sus este o simpl transcriere a principalelor rezultate ale tabelei de frecvene. Strategia ei este simpl i se folosete des. Ea ncepe cu prezentarea valorii cel mai des ntlnite. n cazul nostru este valoarea zilnic, apoi se trece la valoarea cea mai rar. La 51
variabile ordinale se obinuiete eventual o prezentare a capetelor scalei. n cazul de mai sus este vorba despre aceleai valori. Apoi se prezint rezultate cumulative, dac au sens. O precuaie mare trebuie avut la menionarea valorilor numerice. Aici se poate induce n eroare destul de mult. Un obicei bun este de a nu se specifica valorile procentuale de dup virgul. Dup dorin se poate trunchia sau rotunji. Statistica este o estimare cu o anumit eroare. Prezentarea unor valori cu tot cu zecimale produce impresia unei exactiti pe care nu o putem promite cu contiina curat. O a dou regul legat de prezentarea procentajelor se refer la valorile rare. n cazul unor categorii cu numr mic de cazuri valorile procentuale pot induce n eroare. Aceasta se ntmpl n special atunci cnd procentajele se calculeaz pe volumuri populaionale care oricum sunt mici. Deci, spunei numrul de cazuri i nu procentajul aferent unei valori cand acest numr e mic. Ce nseamn mic depinde de decizia fiecruia dar este de bun sim s considerm o opiune rar una care nu are mai mult de 10-15 cazuri. Pe de alt parte n general statistic se consider un lot mic, un lot cu mai puin de 30 de cazuri. Cum spuneam, contiina fiecruia i particularitile cercetrii trebuie s decid n cele din urm. Tabelele de frecvene sunt adesea nsoite de grafice. O prezentare grafic este pentru muli cititori mai confortabil, permite de obicei o nelegere mai rapid a unor trenduri sau distribuii. Exist ns multe feluri de prezentri grafice i nu toate se potrivesc pentru orice situaie. Graficele cele mai simple i generale, valabile n aproape toate situaiile sunt graficele cu bare. Ele pot fi folosite i n cazul variabilelor nominale i nici nu depind prea mult de numrul de valori pe care variabila le poate lua. Iata mai jos un exemplu pentru variabila prezentat deja.
52
60,0%
50,0%
40,0%
Procent
30,0%
52,05% 45,29%
20,0%
10,0%
0,0% zilnic de mai multe ori pe saptamana
2,47%
0,19%
saptamanal
mai rar
27. Cat de des se gateste la dvs. in familie?
Dimensiunea barelor trebuie s fie proporional cu valoarea variabilei. Iat un frumos exemplu din pres cum nu se face un grafic simplu:
n exemplu, valorile de pe bare nu au nici o legtur cu dimensiunea barelor. Exemplul cel mai flagrant este la graficul din mijloc: bara cu valoarea dat de 82 este mai mare dect cea cu valoarea 98, la rndul ei mai mare dect cea de 108. Una peste alta trendul cresctor este anulat, chiar inversat. Mai mult, bara cu salariul mediu din 1990, valoarea 153 USD este mult mai mare dect bara cu salariul mediu din 2005, valoare 257 USD. Exceptnd c datele nu prea au legtur cu cele oficiale, dimensiunea greit a barelor creaz impresia unui nivel salarial din 1990 neatins n prezent. Prea simplu de fcut un grafic cu bare. Uite c se poate da n bar i aici. n graficele cu bare pot aprea valorile pe baza cruia a fost construit fie procentual fie ca i frecvene. Dimensiunea barelor va fi desigur aceiai fie c s-a ales reprezentarea pe baza 53
valorilor absolute sau procentuale. Tot ce se schimb este scala axei verticale. Forma i culoarea barelor pot fi desigur diverse. Clar este c vizualizarea ofer un acces mai direct la informaie i permite aceasta i unor cititori care prefer s nu aib de a face cu valori numerice dac nu este neaprat necesar. Pe lng graficele cu bare mai sunt i alte variante care ns se potrivesc mai degrab unor situaii particulare. De exemplu, graficul de tip plcint (sau tort, cum preferai) prezint valorile ca i felii dintr-o arie de disc. Un asemenea grafic este deosebit de potrivit pentru reprezentarea procentajelor pentru c transmite bine faptul c valorile mpart un tot, o populaie, n categorii.

zilnic
2,47%
de mai multe ori pe saptamana saptamanal mai rar
45,29%
52,05%
Graficul plcint de mai sus ntr-adevr ne d o imagine mai clar ct de puin reprezint din ansamblu procentajul de 0,2% i chiar cel de 2,5%. Un alt avantaj al graficului plcint este posibilitatea de evideniere a unei felii considerate importante. De exemplu:
54

zilnic
2,47%
de mai multe ori pe saptamana saptamanal mai rar
0,19%
45,29%
52,05%
Pe de alt parte dac variabila ar fi avut un numr mare de valori folosirea unei diagrame plcit ar fi fost mai degrab menit s induc n eroare. Iat un exemplu comparativ cu un grafic cu bare i unul plcint pentru o alt ntrebare din acelai sondaj.
55
30,0%
2. De unde va place cel mai mult sa va faceti cumparaturile?

piata agroalimentara supermarket butic
Procent
20,0%
Center chiosc magazin specializat centru comercial depozit en-gros Metro Hoffer Profi nu am loc preferat Mol moldova
10,0%
0,0%
Graficul plcit transmite poate o imagine de ansamblu interesant dar nu prea poate fi citit atunci cnd sntem interesai i de opiunile mai rare. O alt problem a graficului plcint este c se preteaz n special variabilelor nominale. Dac n graficul cu bare, precum i n alte forme de grafice o ordine a valorilor este vizibil la un grafic plcint o astfel de ordine nu se percepe. Evident, n cazul variabilelor nominale nici nu ne dorim o asemenea ordine. Al treilea tip de grafic foarte rspndit este graficul linie. Acesta seamn cel mai mult cu graficele de funcii matematice aa cum se nva la coal. Creaz deci senzaia unei ordini a valorilor i chiar unei continuiti. Ca atare nu merge la variabile nominale n nici un caz, dar nu e de dorit nici la variabile ordinale. Este ns ideal pentru valori numerice fie ele intervalice, fie raionale i n special cnd numrul valorilor e mare. Ca n exemplul de mai jos.
va do ol at m er ef pr ol c M lo am nu i of Pr r fe of H os ro -gr et M it en ial z rc po me zat de co iali ru pec nt s ce in az ag m sc io ch r te en C t ra tic rke nta bu a e rm alim pe su gro a a at pi
2. De unde va place cel mai mult sa va faceti cumparaturile?
56
40
30
valori absolute
20
10
Graficul reprezint distribuia pe vrste a eantionului din cercetarea din care am tot dat exemple n acest capitol. Pe axa orizontal se gsesc vrstele celor ce au rspuns la ntrebri, pe vertical e numrul persoanelor de o anumit vrst. Pe scurt deci: graficele cu bare merg n aproape orice situaie, plcintele sunt perfecte pentru variabile nominale i n special dac au un numr mic de valori, graficele linie se potrivesc la variabile raionale i intervalice i n special dac au un numr mare de valori. Pe lng aceste trei tipuri, care sunt ntr-adevr cele mai rspndite, exist o serie de alte variante, grafice suprafa, diagrame de puncte, histograme, precum i o serie ntreag de grafice care sunt legate de anumite prelucrri statistice cum ar fi graficele de regresie, de cluster, i altele. Unele le vom pomeni la momentul oportun, altele nu. nc un comentariu. Nu am pomenit de felul cum se pot analiza graficele, pur i simplu pentru c prerea mea este c nu trebuie analizate graficele, ci datele care se afl n spatele lor. Un grafic este o prezentare vizual, desigur confortabil i deosebit de util, dar nu conine mai mult dect tabelul pe baza cruia a fost creat. Poate ns induce n eroare mult mai mult. Lund prea de bune ce vedem pe grafic putem s supraevalum, de exemplu, tendine care statistic nu sunt relevante. Un grafic simplu, precum cele din exemplele de mai sus nu spune cu nimic mai mult dect un tabel de frecvene. Totui privind graficul exist o tentaie de a spune, de a vedea mai mult. Aceasta este desigur benefic dac ne ajut s alegem testele de care avem nevoie n continuare, dar total malefic dac ne duce la concluzii fr s mai calculm nici un 57
83 80 77 75 73 71 69 67 65 63 61 59 57 55 53 51 49 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 7
59. Cati ani aveti?
fel de teste, cum de altfel se mai ntmpl. Deci, precauie i sfatul meu este, prezentai graficele dar analizai rezultatele de calcul. Toate graficele din exemplele din aceast seciune s-au referit la prezentarea unei singure variabile. Exist desigur diferite moduri de a prezenta mai multe variabile pe acelai grafic. n capitolul 6. al acestei cri voi ncerca s dau ceva amnunte despre cum se lucreaz statistic cu relaia dintre mai multe variabile. Voi ncepe cu tabelele de relaionare care ntr-un fel sunt similare tabelelor de frecvene pentru cazul a dou (sau arareori trei) variabile. Atunci voi prezenta i graficele aferente acestor tabele, aa cum acum am pus unele lng altele tabele de frecvene i graficele simple n acest capitol. b. Indicatori agregai Indicatorii statistici agregai sunt valori calculate pe baza uneia sau mai multor variabile i care ne ofer informaii despre ansamblul valorilor variabilei sau despre valorile variabilei privite ca un grup de date. De obicei se identific, mai mult sau mai puin forat, ntreg domeniul statisticii descriptive cu indicatorii statistici. Care snt ns aceti indicatori? Vrnd, nevrnd fiecare dintre noi ne-am lovit de mediile aritmetice dac nu i de ali indicatori. n seciunea aceasta o s prezint indicatorii principali pentru analiza tendinei centrale i distribuirii datelor, apoi n capitolul 6. voi reveni la civa indicatori care ne ajut s analizm relaia dintre mai multe variabile. Tendina central.
I.
Sub numele acesta un pic pretenios se ascund diferite feluri de a calcula media unor variabile. Ca atare s-ar putea s fie aparent uor de neles ce este tendina central a unei variabile, aa cum desigur este uor de neles i de ce este ea att de criticat ca i mod de a descrie un grup de date. De aceea, cred c pot s scap fr s mai dau i o definiie. Principalul indicator pentru tendina central este media aritmetic simpl. Pe lng faptul c destul de rar calculul unei medii d informaii relevante despre o variabil trebuie s menionm i faptul c uneori calculul mediei este chiar greit conceptual. Pentru corectitudine s prezentm ns un exemplu i, bineneles, prima formul din aceast carte. 58
S presupunem c am cules numrul de la pantofi a studentelor din seminarul nostru de statistic. Rezultatul ar putea fi sintetizat ntr-o tabel n felul urmtor. Numr 37 36 38 Media = ( NumrAna + NumrIoana + NumrOana + NumrSimona + NumrOlivia + NumrAngela + NumrCarla + NumrNadina ) / 8
Nume Ana Ioana Oana
Simona 38 Olivia Angela Carla Nadina Media 39 39 37 39 37,88
59
Media a fost calculat astfel: s-au adunat toate valorile din coloana Numr aferente numerelor de pantofi i apoi suma s-a mprit la numrul fetelor, adic la 8. Valoarea final, care apare i pe ultima linie a tabelei este media aritmetic a numerelor la pantofi a fetelor din grupa de seminar. i aceast medie este 37,88. Ne spune asta ceva? Sigur. Anume c media numerelor la pantofi ale fetelor din aceast grup de seminar este 37,88. Ne poate spune mai mult dect att? Nu, n nici un caz. Ne poate fi de vreun folos? Depinde. n general media unei variabile x se noteaz cu x, (x), x sau cu E(x), unde E provine din englez de la expectancy. De altfel, media se mai numete i n limba roman uneori, ateptare statistic. Originea acestei denumire vine de la media msurtorilor repetate ale aceluiai reper. Media msurtorilor reprezint, statistic vorbind, apropierea cea mai bun de valoarea real care se msoar, de aceea media este valoarea ateptat a msurtorii. Calculul simplu al mediilor este arareori util n sine. Poate, de exemplu, dac se face design-ul unui ascensor, o informaie despre greutatea medie a unei persoane dintr-o anumit populaie poate fi important pentru c ar sta la baza specificrii numrului maxim de persoane care pot cltorii de o dat cu ascensorul. Pe de alt parte, media poate fi un bun indicator comparativ. De exemplu, dac greutatea medie a unui student de la facultatea de litere e mai mic dect greutatea medie a unui student de la facultatea de mecanica (ceea ce este desigur adevrat!) aceast informaie poate avea o anumit valoare n contextul unei cercetri. Aa cum vom vedea exist teste statistice care compar medii ale unor variabile pe eantioane diferite pentru a avea indicii dac populaiile din care s-au ales aceste eantioane difer din prisma variabilelor studiate. Deci, media aritmetic poate fi o apropiere facil, dei superficial pentru a vedea dac dou, sau mai multe populaii difer. S lum de exemplu ipoteza urmtoare: nu exist diferene ntre studenii de la mecanic i cei de la litere. Un test poate respinge aceast ipotez dovedind c exist o diferen de greutate medie relevant ntre aceste dou populaii. Deci ceva diferene trebuie s existe ntre cele dou populaii. Pentru cei ce nc nu s-au prins, diferena de greutate vine din faptul c ponderea fetelor este incomparabil mai mare la facultatea de litere dect la facultatea de mecanic i fetele snt, n medie mai uoare dect bieii. Sigur, butada cu omul care st cu un picior ntr-un lighean cu ap clocotit i cu unul ntr-un lighean cu ap cu ghea dar n medie ar trebui s-i fie bine, este strict matematic corect.
60
Totui, media este un indicator comparativ valoros tocmai pentru ca este simplu i induce n eroare doar atunci cnd i conferim un coninut informaional mai mare dect are. Cea mai mare problem legat de medii este calculul acestora atunci cnd variabilele nu permit aceasta. Principial matematic este corect s calculm medii att pentru variabile raionale ct i pentru variabile intervalice. Astfel media greutii sau a nlimii (care sunt variabile raionale) sunt conceptual la fel de corecte ca i media temperaturilor sau a orelor de deteptare (care sunt variabile intervalice). n toate aceste cazuri media are sens pentru c calculul diferenelor este consistent. Adic, dac din 5 kg de orez vindem 3 kg ne rmne la fel de mult ca atunci cnd vindem dintr-un stoc de 60 kg, 58 kg. i de asemenea dac am dormit de la ora 5 dimineaa pn la ora 12 nainte de mas am dormit tot attea ore ca i de la 10 seara pn la 5 dimineaa, atta doar c poate snt mai mahmur n primul caz. Deci sumele i diferenele precum i mprirea la scalar (adic la numere i nu la variabile aleatoare) este consistent att pentru variabile raionale ct i pentru variabile intervalice. Pe de alt parte nimeni nu cred c intenioneaz s calculeze media unor variabile nominale, chiar dac ele au reprezentare numeric, cum sunt de exemplu numerele de pe tricourile unor jucatori de fotbal. Astfel de valori, dei sunt formal numere, sunt esenial nume date unor indivizi i media lor nu are nici un sens. Greeala care se face ns adesea este calculul mediilor unor variabile ordinale. Este o greeal care este foarte adesea acceptat pentru c extinde de fapt calculul mediilor colare la cercetarea social. Nici notele de la coal nu sunt mai mult dect variabile ordinale. Cum am mai spus, muli profesori ar accepta faptul c diferena dintre o not de 7 i una de 8 este mai mic dect diferena dintre un 4 i un 5. Totui, suntem nvai cu mediile colare i nu ne punem problema unei posibile incorectitudini rezultate din procedura de mediere n sine. Mediile oricror variabile ordinale sunt desigur similare ca i relevan cu acest caz. Atunci, de ce s nu acceptm astfel de calcule? Ei bine, departe de mine gndul cum c o decizie asupra vieii unui elev e mai puin important dect o cercetare tiinific. Este ns un fapt c medierea notelor este un fapt acceptat cu tot cu defectele pe care le are ca indicator pentru nivelul de pregtire a unui elev pe o durat mai mare de timp sau chiar pentru un grup de domenii ale cunoaterii. Media colar greete desigur atunci cnd aduce la egalitate o medie de 7 rezultat dintr-un 10 i un 4 cu o medie care s-a obinut dintr-un 8 i un 6. Probabil mai greete i atunci cnd face media dintre note date de cadre didactice diferite. tim cu toii c 61
anumii profesori nclin s dea note mai mici dect alii. Astfel, pentru un 7 la un anumit profesor s-ar putea s fie necesare cunotiine mai multe dect pentru aceiai not la un alt profesor. Toate aceste consideraii sunt cunoscute i fac parte din bunul sim comun pentru oricine a trecut prin nvmnt. Nu este ns aa n cazul unei cercetri sociale. Variabilele care se mediaz acolo nu sunt att de discutate ca i notele noastre de la coal, ca s nu pomenesc de notele copiilor notrii! Ca atare relaiile care se mascheaz prin calcul nu sunt att de evidente ca cele pe care le mascheaz media colar. Mai mult dect att, relaiile s-ar putea s nici nu fie cunoscute. Aceasta e suficient pentru ca n cazul mediilor variabilelor ordinale dintr-o cercetare statistic s fim cu adevrat indui n eroare. Ali indicatori ale tendinei centrale sunt modul i mediana. Modul unei variabile statistice este pur i simplu valoarea care apare cel mai des printre datele culese. De exemplu, n exemplul de mai sus, numrul la pantof 39 apare de 3 ori, mai des dect oricare alt valoare. 39 va fi deci modul sau, cum se mai spune modul distribuiei. Determinarea modului nu presupune nici un calcul, ba mai mult nici mcar o ordine a valorilor. Se poate deci stabili care e modul religiei sau ceteniei ntr-un grup de persoane, dei aceste variabile sunt nominale. Nu exist nici o restricie pentru folosirea modului. Pe de alt parte spunnd c modul distribuiei religiei n populaia Timiorii este cretin-ortodox nu spunem dect c n Timioara sunt mai muli cretin-ortodoxi dect membrii ai oricrei alte religii. Binenteles folosind termenul de mod, propoziia este mai greu de neles i sun mai tiinific. Dei eu a sftui mpotriva unei exprimri criptice inutile, sunt situaii n care poate fi de folos n contactul cu clieni mai snobi! Dezavantajul esenial al modului este c ne spune chiar mai puin dect media. Practic aflnd care e valoarea care apare cel mai des n eantion eliminm din informaia transmis o mare parte a datelor culese. Dac media se calcula totui din toate datele culese, modul nu reflecta dect o parte a datelor culese. Ca atare determinarea i raportarea modului au sens numai la variabile nominale, unde altceva nu se poate folosi. Mediana este un indicator al tendinei centrale care este gndit esenialmente pentru variabile ordinale. Mediana necesit existena unei ordini ntre valorile culese dar nu i efectuerea unor calcule. S revenim deci la picioarele fetelor. Pentru a determina mediana valorile culese se ordoneaz, aa cum se vede din tabelul de mai jos: 62
Nume Ioana Ana Carla Oana Simona Olivia Angela Nadina
Numr 36 37 37 38 38 39 39 39
Mediana 38
Mediana este valoarea care apare la mijlocul listei. n cazul nostru este 38, valoarea de pe poziia a 4-a i a 5-a dintr-o list de 8 cazuri. Dac am fi cules 1001 de valori, valoarea de pe poziia 501 ar fi fost mediana. Precum se vede, mediana poate avea i dou valori diferite n cazul n care lista are un numr par de elemente. Vorbim atunci de valorile mediane. Uneori se calculeaz o medie artimetic ntre cele dou valori mediane, aceasta ns este desigur un fel de prostie pentru ca decizia de a folosi mediana se ia tocmai acolo unde nu este indicat calcularea unei medii aritmetice. Distribuia datelor
II.
Aa cum am vzut i din exemplele precedente, media este adesea desconsiderat pentru c obtureaz distribuirea datelor. O medie de 7 poate rezulta dintr-un 4 i un 10 la fel ca i dintrun 8 i un 6. O temperatura medie de 250 C poate rezulta dintr-o maxim diurna de 300 C i o minim noctura de 200 C sau dintr-o maxim diurn de 500 C i o minim nocturn de 00 C. De aceea atunci cnd se descrie statistic o variabil, media se dubleaz ntotdeuna de un indicator care s ne transmit ct de departe sunt distribuite datele n jurul mediei. Exist mai multe metode de calcul ale distribuirii datelor. Am ales s le parcurg n ordinea complexitii calculului. Prima data ns o consideraie. Distribuia datelor implic un sens al distanei fa de medie. Spunem c datele sunt mai ndeprtate sau mai apropiate de medie. Aceasta presupune desigur o ordine i nu se poate aplica unor variabile nominale. Ca atare
63
distribuia datelor se poate msur numai n cazul variabilelor care sunt mcar ordinale. Precum vom vedea majoritatea indicatorilor necesit chiar variabile intervalice sau raionale.
Variantele cele mai simple sunt desigur cele gndite pentru variabile ordinale. Toate acestea se bazeaz pe ordonarea valorilor din list i aplicare unei metode care se bazeaz pe conceptul de interval. Hai s revedem lista cu numerele de pantofi. Numr 36 37 37 38 38 39 39 39
Nume Ioana Ana Carla Oana Simona Olivia Angela Nadina
Mediana 38 Intervalul este format ntotdeuna din dou valori. Intervalul simplu este perechea format din valoarea cea mai mic i cea mai mare care au fost culese. n cazul nostru intervalul datelor este (36, 39). Am vazut c mediana mparte lista n dou. O astfel de mprire se poate face n continuare i n cele dou jumti astfel lista ntreag se mparte n patru pri numite cvartile. Se obin dou valori noi care sunt de fapt medianele jumtilor de list. Perechea lor este intervalul intercvartilic, n cazul nostru (37, 39). Se prefer uneori intervalul intercvartilic intervalului simplu al tuturor datelor deorece astfel se elimin valorile extreme. Se poate ntmpla ca ntr-un eantion c apar cazuri extreme, rare care s denatureze rezultatele. Evident astfel de cazuri vor fi ns puine. La urma urmei, dac nu ar fi puine nu ar mai denatura rezultatul, ci ar fi chiar parte esenial a acestuia! Utiliznd intervalul intercvartilic avem un termen de comparatie care nu ia n seam cazurile rare, extreme, cazurile outlier (periferice).
64
Reprezentarea de mai jos sper sa clarifice i mai bine sensul intervalului intercvartilic.
Ioana 36
Ana 37
Carla 37
Oana 38
Simona 38
Olivia 39
Angela 39
Nadina 39
Prima cvartil C0 C1
A doua cvartil C2 Mediana
A treia cvartil C3
A patra cvartil C4
Valoarea care separ a doua de a treia cvartil, valoarea C2, este Mediana. Intervalul (C0, C4) este intervalul datelor, iar (C1, C3) este intervalul intercvartilic. Uneori se numete chiar valoarea C1 prima cvartil sau cvartila inferioar, C2 a doua cvartil i C3 a treia cvartil sau cvartila superioar. Metoda pe care am prezentat-o mai sus poate desigur fi extins la un numr mai mare de astfel de grupri. n general asemenea mpriri ale datelor ordonate se numesc cvantile sau qcvantile unde q este numrul de intervale. mprirea cea mai uzual rmne cea n patru grupuri, adic n cvartile (4-cvantilele), dar se mai gsesc prin literatur i conceptele de cvintile (mprirea n 5 intervale de valori), decile (mprirea n 10 intervale), percentile (mprirea n 100 de intervale) i altele ale cror nume sunt construite analog. Prezentarea intervalelor ca perechi de valori nu necesit nici un fel de calcule matematice. Uneori intervalele se raporteaz ns ca diferene ale valorilor extreme, adic ca lungime a intervalului. Aceasta poate fi puin problematic n cazul variabilelor ordinale nu ridic ns desigur nici un fel de probleme pentru variabile intervalice sau raionale. Folosind notaiile de mai sus intervalul datelor (n englez se folosete range) se calculeaz astfel: range = C4 C0 adic diferena dintre cea mai mare i cea mai mic valoare culeas. Unele definiii vorbesc n acest context despre lungimea celui mai mic interval care conine toate datele.
Intervalul intercvartilic, notat de multe ori IQR, este: 65
IQR = C3 C1 O alt denumire utilizat uneori pentru intervalul intercvartilic este aceea de jumtate median a datelor. Cu aceste calcule am fcut deja un pas n direcia indicatorilor distribuirii datelor intervalice i raionale. n cazul acestor date posibilitile de calcul fiind mult mai mare s-au cutat metode mai compexe care s permit o descrierea ct mai complet a datelor ntr-o singur valoare. Asta nseamn c i formulele vor fi puin mai complicate. Exist muli astfel de indicatori dar am decis s m concentrez numai pe cei ce se folosesc n mod uzual, anume abaterea standard (numit n analogie cu termenul englezesc i deviaie standard) i dispersia (numit din acelai motiv i varian). Dispersia se calculeaz dup urmtoarea formul: 2 = 1/N i=1,n (xi - x)2 Merit s comentez un pic formula de mai sus. Nucleul, miezul ei este o diferen, o abatere, de aici i numele indicatorului. Se scade din valoarea xi , adic valoarea variabilei x pentru individul i media valorilor x, adic x. Adic, pentru nceput se calculeaz cu ct se abate fiecare valoare culeas de la medie. Este i normal s procedm aa, la urma urmei cutm o valoare care s exprime ct de distribuite sunt datele, adic ct de tare se abat ele de la medie. Dorim ns o singur valoare pentru ntreg setul de date. O idee ar fi s adunm toate aceste abateri. Ce s-ar ntmpla daca am face aa. Ei bine, unele abateri sunt pozitive, altele sunt negative pentru c unele valori sunt sub medie, altele evident peste medie. Dac am aduna toate abaterile, valorile pozitive s-ar atenua cu cele negative i nu am mai afla ct de distribuite sunt datele cu adevrat. De fapt, e chiar mai grav dect att. Suma tuturor abaterilor va fi ntotdeuna 0, i asta din motive pur i simplu matematice de calcul al mediei aritmetice. De aceea ridicm la ptrat diferena, abaterea. Astfel se obine o valoare care este ntotdeuna pozitiv i abaterile pozitive nu se mai anuleaz cu abaterile negative. Aa se ajunge la formula (xi -x)2. Apoi adunm toate aceste abateri pentru ca s obinem o singur valoare care s spun ceva despre abaterea total. Aa ajungem la i=1,n (xi -x)2. Spune oare aceast sum 66
cu adevrat ceva? Ei bine, da i nu. Da, pentru c este ntr-adevr o sum de abateri. Totui nu, pentru c un numr mare de valori chiar destul de apropiate pot da aceiai sum total ca i un numr mic de valori care sunt mult mai ndeprtate de medie. Deci trebuie s mprim acest rezultat la numrul datelor culese, la volumul populaiei studiate. De aceea mprim suma la N. Rezult formula pe care am prezentat-o i anume: 2 = 1/N i=1,n (xi -x)2 Unele lucrri de statistic prefer n locul dispersiei rdcina ei ptrat , numit i abatere standard sau deviaie standard. Ideea este c, deoarece abaterea s-a calculat cu ridicare la ptrat, pentru a obine un indicator care s exprime mai corect cu ct se abat cu adevrat valorile de la medie ar trebui extras radical din valoarea rezultat din calcul. Aceasta se mai numete i abatere medie ptratic, o denumire care exprim foarte bine modul de calcul. ntr-adevr n calcule se face o medie, adic o sum mprit la numrul de valori adunate, a abaterii ridicate la ptrat. Avantajul abaterii standard este deci acela c valoarea ei poate fi foarte bine comparat cu media. n viaa real avem ns problema de a nu putea culege toate datele unei variabile aleatoare, de aceea i abaterea standard sau dispersia pe care o calculm va trebui tratat ca o estimare bazat pe un eantion a abaterii reale, adic a celei care exist la nivelul ntregii populaii. Atunci ceea ce vom face pentru a ne asigura c reducem riscul de a grei, este s supraestimm puin abaterea fa de valoarea calculat prin formul. Modul de calcul obinuit este nlocuirea valorii N, a volumului populaiei cu N-1. O alt diferen, de ast dat pur convenional este notarea. Dac de regul dispersia calculat la nivel de populaie ne noteaz cu 2, dispersia estimat pe baza unui eantion se noteaz mai de grab cu s2. Formula este deci: s2 = 1/(N-1) i=1,n (xi -x)2 Analog se obine i abaterea standard estimat pe baza unui eantion, s.
67
Am prezentat n acest capitol indicatorii statistici de baz pentru descrierea unei singure variabile. Exist desigur n statistic i ali indicatori, cum ar fi de exemplu cei de kurtosis sau nclinare (n englez, skewness), indicatori care se pot nelege ca descriptivi pentru forma distribuiei unei variabile, adic chiar pentru felul cum arat graficul variabilei. Aceti indicatori snt ns destul de rar utilizai n practica cercetrilor empirice, fie ele sociale sau chiar din tiinele exacte. De asemenea exist o serie de indicatori care descriu relaia dintre dou sau mai multe variabile. La acetie ne vom referi pe larg n capitolul 6. Cum s-ar zice am terminat aperitivele, reci i calde, grafice, frecvene simple i indicatori descriptivi. Vom trece acum, n capitolul care vine la temelia analizei statistice, supele i ciorbele statistice, esenele, cum s-ar zice, adic testele statistice.
68
Capitolul 5. Supe, ciorbe i teste statistice simple.

Testele statistice ar trebui s fie pri obligatorii ale oricrei cercetri bazate pe statistic. Ele snt metodele de cunoatere cele mai puternice n statistic. n capitolul introductiv al acestei cri am discutat un pic despre felul cum cunoate statistica i am prezentat conceptual i cam general ideea care st n spatele testrii statistice, ideea respingerii ipotezelor. n capitolul de fa vom vedea cum se poate face aceasta din punct de vedere tehnic, care sunt paii, algoritmul pentru o testare statistic. Pentru a nelege ns felul cum se calculeaz i se analizeaz testele statistice e nevoie, pe lng acea introducere teoretic ce ine oarecum de filosofia metodei tiinifice, i de cteva cunotiine de matematic. Nu e mare lucru i voi ncerca s le formulez ct mai simplu. a. Distribuia normal Cea mai mare parte a testelor statistice se bazeaz pe faptul c datele snt distribuite normal. Aa cum am mai pomenit n capitolul introductiv, o atare presupunere este justificat prin teorema limit central. Am lsat ns complet n obscuritate ce nseamn de fapt aceast normalitate a distribuiei datelor. Conceptul pe care l vom discuta pe larg nu e chiar att de ndeprtat de ceea ce nelegem prin normal n bunul sim comun. Anume cum e ceva ce e distribuit normal? Pentru asta s ne aducem aminte ce este distribuia: sunt toate valorile pe care le ia o variabil, aa cum apar ele, de exemplu, ntr-o tabel de frecvene. S zicem c punem acolo greutile msurate pentru cinii de aceiai ras de la o expoziie canin. Cum e normal s fie greutile? E normal ca ele s aib o medie specific rasei i majoritatea s aib greutatea apropiat mediei. Mai mult, e normal ca numrul cinilor de o anumit greutate s fie cu att mai mic cu ct greutatea e mai departe de medie. Media de greutate pentru un mascul de Golden Retriever este pe undeva pe la 35 kg. Sigur vor fi cini cu greutate mai mare sau mai mic, dar normal este ca acetia s aib totui greuti apropiate i numai puini s fie cu adevrat departe de medie. Mai mult, aa cum am mai spus, s fie cu att mai puini de o anumit greutate cu ct aceasta e mai departe de medie, adic mai mare sau mai mic. n continuare o s v rog s avei puin rbdare. Urmeaz o parte de matematic destul de uoar care ns poate produce unora indigestie, urticarie sau alte efecte secundare. Totui ar fi bine s ncercai, eventual n doze mai mici 69
Ceea ce am reprezentat de fapt pn acum ntr-o tabel de frecvene este o distribuie aleatoare sau probabilist, adic o funcie care leag valorile unei variabile de probabilitatea (sau frecvena, adic o aproximare a probabilitii) cu care pot aprea aceste valori. Corect matematic aceast funcie se numete densitate de probabilitate. Pentru fiecare valoare pe care o poate lua o variabil, densitatea de probabilitate ne spune care e probabilitatea ca aceast valoare s fie cu adevrat ntlnit. Fie de exemplu, aruncarea cu banul. Avem atunci dou valori, cap i stem i fiecare are probabilitatea de a aprea de ori. Adic ori e cap, ori e stem. i att. Densitatea de probabilitate va fi deci o funcie care nu are dect dou argumente posibile. Matematic definiia asta se scrie cam aa: densitate : {cap, stem} (0, 1) Funcia densitate ia valori ntotdeuna n intervalul (0, 1) pentru c valorile pe care le ia sunt probabiliti i probabilitile sunt ntotdeuna ntre 0 i 1. Probabilitate 0 nseamn de fapt c evenimentul n cauz este imposibil, 1 nseamn c este sigur. Valorile funiei densitate din exemplul nostru vor fi:
densitate (cap) = densitate (stem) = Desigur densitile de probabilitate pot fi mult mai complicate dect att dac valorile care le poate lua o variabil devin mai multe. Rmn ns cteva reguli clare: 1. densitatea ia ntotdeuna valori ntre 0 i 1. 2. suma tuturor valorilor pe care le ia densitatea, adic pentru toate valorile posibile ale variabilei, este 1. Distribuia normal, numit i Gaussian4 este de fapt o familie de mai multe distribuii cel mai bine caracterizabile prin funciile lor de densitatea care se pot descrie cu o singur formul dependent de doi parametrii. Graficul acestor funcii, numit i Gaussian, curba lui Gauss sau clopotul lui Gauss este foarte cunoscut chiar dac nu ntotdeuna bine neles.
Atribuirea distribuiei normale lui Gauss nu este ntru totul corect. Dei Gauss a avut un rol important n analiza distribuiei normale nu el a fost cel ce a definit-o ci de Moivre n 1734, deci muli ani nainte de lucrrile lui Gauss pe aceast tem, publicate n 1809. De asemenea nu el a fost cel ce a denumit curba clopot. Aceasta i se datoreaz lui Jouffret i a avut loc mai trziu, n 1872.
70
S aruncm o privire la un astfel de clopot al lui Gauss nainte de a merge mai departe.
Ca pe orice grafic de funcie pe desenul de sus avem reprezentate puncte care corespund unor valori de pe dou axe. Axa x a unei funcii densitate de probabilitate reprezint ntotdeuna valorile pe care le poate lua variabila descris. Aa cum la variabila aruncarea cu banul acestea erau cap i stema, la o distribuie normal valorile snt toate numerele reale. Distribuia din grafic se mai numete i distribuia normal standard, dar vom mai reveni la acest fapt. S vedem prima dat ce ne mai poate spune graficul de mai sus. n primul rnd, distribuia normal este o distribuie continu. Adic funcia de densitate are valori de probabilitate pentru toate punctele de pe axa x, nu doar pentru anumite puncte. Mai simplu spus, densitatea de probabilitate e o curb continu, fr ntreruperi, orice valoare de pe axa x are un corespondent pe curb. Mai mult, dei din grafic nu rezult foarte clar, va trebui s m credei pe cuvnt c distribuia normal este i nemrginit. Adic orice valoare poate fi atins, doar c unele se ating cu probabilitate foarte, foarte mic. Pe grafic, forma de clopot a curbei rezult din faptul c valorile pe care le poate atinge variabila se adun n jurul unui punct anume. n varianta standard, cea din desenul de mai sus, 71
acest punct este valoarea 0. Faptul c aici curba se ridic la punctul ei cel mai nalt nseamn de fapt c aceast valoare e atins n culegerea variabilei cu probabilitatea cea mai mare, de aproape 0,4 sau 40%. Pe msur ce ne ndeprtm de acest punct central probabilitatea scade continuu, astfel nct valori mai mici dect -4 sau mai mari dect +4 se ating cu probabiliti aproape nule, fiind aproape imposibil de ntlnit practic. S nu uitm ns de ceii notrii. Deci, cum ziceam, normal e s fie muli cu greutate medie i apropiat de medie, iar cu ct valoarea greutate e mai departe de medie, cu att probabilitatea de a gsi cei cu greutatea aceasta e mai mic. Dac am reprezenta asta grafic, ar iei ceva cam ca in imagine. Desigur media nu ar fi zero i poate c forma graficului ar fi mai ascuit sau mai aplatizat dar ar semna mult cu graficul de mai sus, i asta pentru c dei distribuia ar fi normal nu ar fi normala standard. Deci, dac culegem date ale unei variabile distribuite normal standard avem cele mai multe anse s le gsim n apropierea punctului 0 i mai mult dect att, o valoare va avea anse de apariie cu att mai mici cu ct e mai departe de 0. Clopotul este n plus simetric fa de punctul central 0. Probabilitatea aferent unei valori a este aceai ca i pentru a. Aceast simetrie este un motiv suficient pentru a observa c valoarea central, punctul 0 n cazul desenului de mai sus, este mediana distribuiei, dar n acelai timp i media i modul distribuiei normale. Spuneam c distribuiile normale formeaz o familie. Exist dou caracteristici care determin distribuia normal: media i abaterea standard (sau dispersia, e totuna de fapt). Dac revenim la grafic, o modificare a mediei va mpinge pur i simplu ntregul grafic mai la stnga sau mai la dreapta (de la 0 la 35 n cazul greutii pomenite). Pe de alt parte, o modificarea a abaterii va face ca datele s fie distribuite mai larg. Adic, pe msur ce crete abaterea standard curba devine mai plat, probabilitatea unor valori mai ndeprtate de medie crescnd i bineneles aducnd dup sine scderea probabilitii aferente mediei. Aceasta are loc pentru c, aa cum am mai scris, suma tuturor probabilitilor posibile ale unei densiti de probabilitate trebuie s rmn 1. Dac abaterea standard e mai mic, probabilitatea unor valori ndeprtate de medie e desigur i ea mai mic i curba se ascute crescnd probabilitatea valorilor apropiate mediei. Forma standard din graficul de mai sus se obine pentru o medie 0 i o abatere standard 1.
72
n graficul de mai sus sunt reprezentate 4 distribuii normale diferite, pe lng cea standard avem o distribuie cu media schimbat la o valoare mai mic, -2 i dispersia micorat la 0,5. Avem pe grafic i trei distribuii cu media egal cu 0. Una este distribuia standard, iar alte dou au dispersii schimbate, una cu o dispersie mai mare, de 5 i una cu o dispersie mai mic, de 0,2. Se vede cum distribuia cu dispersie mare, adic cu valorile distribuite mai larg e mult aplatizat, iar distribuia cu dispersie mic e mai ascuit dect varianta standard. Am ocolit pn acum formula funciei de densitate reprezentate aici. Formula este destul de complex, dar pot liniti pe oricine, o cunoatere a ei nu este necesar pentru aplicarea, citirea i analiza corect a unor teste statistice i nici mcar pentru alte procedee statistice chiar mai avansate.
Densitatenormal
n formula de mai sus, s-a notat, ca de obicei, cu media i cu abaterea standard. Distribuia normal de medie i abatere standard , adica dispersie 2 se noteaz n general N(, 2). Aa cum am vzut mai sus distribuia normal standard este deci N(0, 1).
73
nainte de a vedea cteva proprieti importante ale distribuiei normale, s mai lum o pauza de la partea prea tehnic ca s povestim despre frecvena de apariie a distribuiei normale. Cum am mai pomenit n capitolul introductiv, distribuia normal este esenial n statistic din cauza teoremei limit central. S rememorm puin ce zice aceasta. Dac avem un numr mare de variabile aleatoare, despre care tim foarte puine, anume numai c au aceiai medie i dispersie, suma lor tinde la o distribuie normal cnd numrul lor tinde la infinit. Mai mult dac aceste variabile aleatoare au media i abaterea standard atunci normala la care tinde suma lor este N(n, 2n). Redefinind variabilele din sum printrun procedeu numit standardizare acest normal poate fi nlocuit cu distribuia normal standard N(0, 1). Acum sa vedem ce nseamn toate acestea. Dac avem un bun motiv s credem c evenimentele pe care le studiem sunt determinate de o gramad de variabile care se nsumeaz n efectele lor atunci e de bun sim s considerm tot ce nu am luat n seam n cercetarea noastr, adic acei factori de eroare ca fiind distribui normal. Pe o atare presupunere se bazeaz aproape ntreaga teorie a testelor statistice. Exist deci o multitudine de situaii n care putem fi linitii c aa se ntmpl. Putem fi siguri c comportamentul uman sau instituional depinde de foarte muli factori pe care nu i cunoatem. Toi aceti factori vor influena relaiile dintre variabilele pe care le studiem ca un fel de distorsiuni, ca nite erori permanent prezente, inevitabile. Pe de alt parte aceste erori vor fi predictibile n forma lor. Fiind normale ele vor arta ca o curba clopot standardizat. Adic probabilitatea ca ele s fie 0 va fi mai mare dect oricare alt valoare pe care o pot lua. Mai mult probabilitatea ca eroarea s aib o valoare anume e cu att mai mic cu ct aceast valoare e mai departe de 0. Deci zgomotul care deranjeaz interpretarea datelor e destul de cuminte, pe msur ce e mai mare n valoare (adic mai deprtat de 0), deci ar influena mai mult rezultatul, ansa ca el s se produc e mai mic. Exist totui i situaii n care distribuia normal a factorilor neluai n seam n cercetare nu are loc. n primul i n primul rnd se ntmpl aa dac nu am luat n seam un factor esenial pentru cele cercetate. Exist factori cauzali care sunt att de importani n efectul lor asupra variabilelor cercetate nct nu pot fi luai la grmad. Hai s lum un exemplu pentru a clarifica lucrurile. S presupunem c dorim s cercetm relaia dintre veniturile angajailor din armata roman i anii de coal pe care i-au absolvit. Ipoteza de bun sim este c pe msur ce o persoan are mai multe studii va avea i venituri mai mari. Necazul este c nu e aa. De ce oare? Ei bine tocmai pentru c o variabil important, cu efect mare nu a fost luat n seam. 74
i anume vechimea. Am luat exemplul cu armata tocmai pentru c acolo poate fi cel mai evident. Pe msur ce o persoan mbtrnete n oaste are venituri din ce n ce mai mari. i cum expansiunea nvmntului superior este la noi un fenomen relativ recent, cei mai n vrst au n general (ca s nu vorbim de grade mai mici) mai puini ani de coal. Deci, cu vechime mai mare presupune de regul mai puin colit dar mai bine pltit. Dac lum ns n calcul vechimea, o controlm cum se spune n jargonul statistic, relaia dintre venit i educaie devine cea bnuit, pozitiv. La aceiai vechime, cei mai bine colii sunt mai bine pltii. Ei bine, ce am nvat? Dac exist variabile care au un efect esenial asupra variabilelor pe care le studiem, este bine s le gsim. Lsndu-le n factorii de eroare nu mai putem miza pe o sum de multe variabile cu efect individual mic. Aa cum se spune nimic nu e mai practic dect o bun teorie. Trebuie deci s putem identifica teoretic toate variabilele cu efect mare i s lsm n suma factorilor de eroare numai variabile care au efecte mici oarecum egale ca importan. Un alt caz interesant este cnd efectele variabilelor neluate n seam nu este aditiv ci multiplicativ. Asta ar nsemna c efectele nu se adun pur i simplu ci se poteneaz reciproc, se nmulesc. Nu e uor de gsit exemple pentru aa ceva, evident situaiile fiind de fapt destul de rare. Totui, dup mai multe cutri i adnc chibzuial, iat un caz: s presupunem c avem de fcut un studiu statistic al unui mediu ecologic. Analizm de exemplu efectul festivalurilor de jazz i rock asupra crapilor comparnd numrul de crapi pescuii an de an n timpul festivalului de la Grna n relaie cu programul muzical. Evident sunt o grmad de variabile ecologice care au efect (probabil incomparabil mai mare dect cine cnt la festival) asupra populaiei de crapi din lac. Aici intr desigur volumul populaiilor altor peti, plante, psri, insecte, i aa mai departe. Ei bine, petii i plantele depinznd unele de altele n lanul dezvoltrii lor nu se pot considera ca efecte aditive. Ele sunt multiplicative5. i ca atare pentru modelarea lor nu se poate recurge la teorema limit central n forma ei clasic. n acest situaie teorema limit central se schimb puin dar nu esenial din punctul nostru de vedere. Se folosete o aa zis teorem limit central multiplicativ. Diferena care apare este c distribuia limit la care tinde combinaia variabilelor aleatoare nu este o distribuie
Sincer, faptul c relaiile dintre soiuri ntr-un mediu natural snt mai degraba multiplicative dect aditive e un exemplu clasic din literatura statistic pentru distribuia log-normal. Alte cazuri clasice sunt concentrrile de poluani, sensibilitatea indiviziilor la substane chimice i medicamente, timpul de supravieuire dup tratament mpotriva cancerului, i altele.
75
normal ci una aa-zis log-normal. Ecuaia funciei de densitate log-normale difer puin de funcia de densitate normal:
Nu e cazul s ne batem capul prea mult cu aceast situaie. S inem doar minte c exist soluii pentru aa ceva dar e nevoie de alte teste. n fine, problema care este cea mai important este c identificarea cazului n care efectele variabilelor neluate n seam se nmulesc n loc s se adune este departe de a fi facil. Bun. Hai s revenim la consideraiile eseniale pentru testarea statistic. Am descoperit deci c factorul de eroare ntr-o relaie statistic poate fi adesea considerat ca fiind distribuit normal i n plus standardizat cu media 0 i dispersia 1. Pentru c distribuia aceasta, N(0, 1) este complet cunoscut putem s observm urmtoarele:
ntr-un interval de o dispersie de la medie, adic de fapt ntr-un interval de la -1 la +1 se gsesc 68,26% din toate cazurile unei distribuii normale. Adic lund la nimereal o valoare, dac o variabil este distribuit normal, ansa ca valoarea aceasta s se afle n intervalul -1, +1 este de 68,26%. Aa este i cu factorii de eroare care se adaug la estimrile noastre, pentru c
76
acolo avem o distribuie normal i chiar nu tim exact ce valoare e ntr-un caz anume. tim ns c sunt 68,26% anse s fie ntre -1 i 1 a distribuiei standardizate. n intervalul de dou dispersii, deci de la -2 la +2 sunt 95,44% dintre cazuri.
n intervalul de trei dispersii, de la -3 la +3 sunt 99,74% dintre cazuri! Care e atunci logica unui test. Pi s presupunem c dorim s verificm dac media numrului la pantof al femeilor din Romania este 36. n parantez fie spus, faptul c numerele de la pantofi sunt distribuite normal n cadrul unui gen este cu adevrat dovedit empiric. Alegem deci un eantion reprezentativ, le msurm pe toate la picioare i calculm media. Iese ceva, s zicem 39. Acum trebuie s standardizm aceast valoare, pentru c evident distribuia numerelor de la pantof ct o fi ea de natural nu are cum avea media 0 i dispersia 1. n urma standardizrii 36-ul devine evident 0, iar 39-le devine de exemplu 2. Atunci ne uitm pe grafic i vedem c ansa ca eroare statistic s adauge 2 la media standardizat este de 2,27%! Adic exist o probabilitate de 2,27% ca totul s fie corect, mediile n regul, media populaiei s fie ntr-adevr 36 i aa mai departe, dar din motive absolut normale ale erorii aleatoare nou s ne fi ieit 39. Hai s relum un pic ideea. Deci avem o distribuie normal pe care o lum de bun pentru nceput, distribuia numerelor de la pantofi cu o medie de 36 i o dispersie 2 i o valoare gsit empiric, media eantionului de 39. Acum ne punem problema: cam care e ansa ca totul s fie n regul, adic diferena dintre cele dou medii, cea teoretic (36) i cea empiric (39) s fie cauzat de eroarea acceptabil a unui sondaj. Pentru aceasta standardizm distribuia. n exemplul nostru gsim c exist o ans de 2,27% s fie aa. Asta nseamn c exist o ans de 97,73% s nu fie aa! Adic, dac avem deplin ncredere n sondajul efectuat de ctre noi, putem s spunem c exist o probabilitate de 97,8% ca media numrului la pantof al femeilor din Romania s nu fie 36. Dup aceast gustric s vedem acum de-a amnuntul cum se face. b. Teste statistice pentru medii i proporii.
77
Testarea statistic se descrie de obicei ca un algoritm, adic o serie de pai care se ntreprind pentru a lua o decizie. Totul pornete de la construirea unei ipoteze i se termin cu respingerea sau nerespingerea acesteia. Aa cum am vzut i mai de vreme, cunoaterea statistic este una negativ. Nu poate confirma nimic, dar poate infirma. Adic, aa cum am vzut din exemplu, dac rezultatul empiric e suficient de aproape de cel teoretic nu avem nimic de spus, dect eventual c nu putem respinge ipoteza. Dac ns este improbabil de ndeprtat atunci putem spune: asta chiar nu se poate! Ipoteza se poate respinge pentru c dat fiind ce am cules noi din sondaj probabilitatea ca ceea ce am presupus la nceput s fie adevrat este infim. S vedem paii. n primul rnd se definete o ipotez. n cercetarea empiric acesteia i se spune de obicei ipotez nul sau iniial i se noteaz cel mai adesea cu H0. Aceasta este ipoteza pe care vom dori s o putem respinge. Construirea unei ipoteze necesit de obicei o munc important de abstractizare i modelare. Testele statistice pot respinge numai ipoteze foarte simple. Deci ceva de genul: este via pe Marte ct o fi ea de ipotez nu prea poate fi testat statistic n aceast formulare. Ipotezele de cercetare care au baz teoretic i importan n cunoatere trebuie traduse n relaii matematice simple de genul media numrului la pantof al femeilor din Romnia este 36 sau veniturile brbailor i ale femeilor sunt egale adic lucruri care cu adevrat se pot respinge. n general ipotezele statistice sunt relaii de egalitate sau de inegalitate care implic valorile unor variabile i valori prestabilite. Verificm deci relaii ntre grupuri sau populaii i relaii dintre populaii i valori teoretice. Trebuie s putem traduce teoriile noastre n astfel de relaii pentru ca statistica s ne fie de vreun folos. O dat stabilit ipoteza nul, n unele cercetri se propun i una sau mai multe ipoteze alternative, notate de obicei cu Ha. Aceste ipoteze se consider ca ipoteze de urmat n cercetarea viitoare n caz c se respinge ipoteza nul. Ele nu sunt ipoteze confirmate nici mcar dac au fost construite ca negaii logice ale ipotezei nule. n acest caz sunt pur i simplu ipoteze care nu au fost respinse. Adic pot fi considerate, n tradiia popperian despre care am vorbit n introducere ca fiind pe moment acceptabile. Dup stabilirea ipotezelor trebuie stabilit valoarea testat, numit uneori dup obiceiul englezesc i statistic. Aceasta este o valoare agregat culeas din date i care intervine n test. n exemplul cu pantofii este media numrului la pantof. Ar putea fi o medie, o proporie, sau 78
diferena unor medii sau proporii. Valoarea testat nu este altceva dect un rezultat al operaionalizrii, adic al traducerii n formul matematic a ipotezei. Dup aceasta, n funcie de valoarea pe care dorim s o testm se determin distribuia statistic a acesteia. n esen e vorba de a stabili dac se poate presupune c valoarea testat este distribuit normal, iar dac nu, dac putem stabili cum o fi distribuit (de exemplu lognormal) i ce test avem pentru aa ceva. De exemplu, dac distribuia este una normal se poate aplica o metod de standardizare, se aduce distribuia la forma N(0, 1) i se poziioneaz valoarea testat pe aceast distribuie. Aa putem spune ce anse are o asemenea valoare s fie atins (sau una mai mare sau mai mic, dac ipoteza este o inegalitate). O dat stabilit distribuia statistic, se aplic un test statistic, adic o formul de calcul valorii testate. Se obine un fel de indicator, numit adesea dup numele testului sau mai general valoare de test. Vom vedea n cele ce urmeaz valoarea t, valoarea Z, i aa mai departe. Fiecare astfel de test nu este de fapt dect o formul. Apoi se determin zonele critice. Zonele critice, uneori numite i zone de respingere sau rejecie sunt intervalele n care trebuie s se gseasc valoarea calculat prin testul statistic pentru ca ipoteza s fie respins. Aceste intervale ar trebui stabilite dinainte. Exist de fapt dou moduri de lucru. Varianta obinuit este de a calcula valoarea de test i apoi a vedea dac se afl n afara intervalului de probabilitate de 95% sau de 99%. Limitele acestor intervale sunt cele care se numesc valori critice i intervalele complementare intervalelor de probabilitate de 95% respectiv 99% sunt chiar zonele critice. Dac valoarea calculat este n aceste zone critice, probabilitatea ca aceast valoare s fie atins n condiiile validitii ipotezei este mai mic de 5% sau chiar de 1%. Dac, de exemplu valoarea calculat este mai mare dect valoarea de test pentru 95%, deci se afl n afara intervalului de probabilitate de 95%, atunci probabilitatea ca ipoteza s fie corect este de cel mult 5%, ceea ce este foarte puin i ipoteza poate fi respins. Multe din programele pe calculator care efectueaz teste statistice calculeaz o aa-zis significan a testului. Aceasta e chiar probabilitatea ca valoarea calculat s fie atins n condiiile ipotezei. Nu mai este atunci nevoie s comparm cu valoarea critic. Putem spune, chiar ct este probabilitatea ca ipoteza s fie adevrat. i bineneles putem decide pe baza acestei probabiliti dac ipoteza se poate respinge sau nu. 79
n literatura de statistic aplicat se definesc n general dou tipuri de erori care se pot ntmpla n testarea statistic: Eroarea de tip I, numit i eroare sau fals pozitiv are loc dac se respinge o ipotez nul care e de fapt adevrat. Probabilitatea de face o astfel de eroare este de fapt acea significan a testului statistic. Eroarea de tip II, numit i eroare sau fals negativ are loc dac nu se respinge o ipotez fals. Exist i alte clasificri ale erorilor de decizie, dar aceasta este cea mai rspndit. n experiena mea trebuie s recunosc c nu am gsit nici o dat vreun uz practic al faptului de a fi tiut care este diferena dintre cele dou tipuri de erori. Este ns important s fim contieni de faptul c erorile, fie ele de tip I sau tip II nu pot fi cu totul eliminate. Dac se aplic corect o metodologie statistic se poate ns determina probabilitatea ca ele s apar. n fapt, probabilitatea care determin zona critic aa cum am vzut mai sus este chiar probabilitatea unei erori de tip I. Dac pn acum am vorbit de teste la un mod cam general i ceea ce am spus era n principiu valabil pentru orice test statistic s trecem acum la lucruri practice. Cum se face de fapt, ce se calculeaz i cu ce se compar valoarea de fapt?
Testul t pentru media unei variabile aleatoare Testul t (numit i Student dup pseudonimul autorului su, statisticianul englez W.S. Gossett) este un test care verific ipoteze n condiii de normalitate a distribuiei datelor i cunoatere a dispersiei datelor. Gossett a fost, n vremea n care a dezvoltat testul, statistician la fabricile Guiness din Dublin, Irlanda i l-a dezvoltat pentru a verifica ct mai simplu calitatea berii. Ideea era de a calcula ct ncredere se poate acorda unor analize biochimice ale berii fcute pe eantioane relativ mici. Dei am citit pe undeva c Gossett a folosit din modestie un pseudonim, se pare c motivul adevrat pentru care Gossett i-a publicat metoda n 1908 sub pseudonim a fost faptul c vroia s ocoleasc contractul care l lega de fabrica Guiness. Testul se folosete i acum pe scar larg, chiar i acolo unde avem eantioane mici. Cu diversele forme ale testului t se pot analiza ipoteze legate de media unei variabile aleatore, 80
comparaii ntre mediile unor variabile aleatoare pe dou populaii, precum i ponderea unor subgrupuri n populaii i comparaii ntre ponderea unor subgrupuri n dou populaii. S le lum ns pe ndelete. n forma cea mai cunoscut testul t verific o ipotez exact ca n exemplul nostru. Adic verific ipoteza dac media unei variabile la nivelul populaiei este egal cu media aceleiai variabile pe un eantion. Sau altfel exprimat, este suficient de mare diferena ntre media msurat pe eantion i media presupus ipotetic pe populaie pentru a respinge presupunerea. n exemplul nostru media presupus pentru numrul la pantof al femeilor din Romania era 36 i media gsit pe eantion era 39. Testul t este cel ce ne spune dac putem respinge ipoteza nul sau nu. Testul t poate fi folosit dac snt ndeplinite cteva precondiii. n primul rnd trebuie s cunoatem media i dispersia la nivelul populaiei, apoi variabila trebuie s fie distribuit normal i eantionul trebuie s fie aleator. n realitate situaia e cam aa: media o presupunem teoretic pentru c la urma urmei pe asta dorim s o testm. Distribuia normal este o problem relativ mic, dac avem un eantion mare i nu este un caz special n care distribuia este evident nenormal presupunem de obicei normalitatea fr s ne batem prea mult capul. Cum am tot povestit teorema limit central ne d aici o mn serioas de ajutor. Evident, faptul c eantionul trebuie s fie aleator nu poate fi ns ocolit. Oricare dintre metodele statistice necesit aceasta. Nu nseamn c nu se pot face testri i n alte condiii dar atunci nu mai e vorba despre a verifica relaia dintre media unei populaie i a unui eantion, ca n cazul clasic al testului t, ci ntre mediile a dou loturi. Problema care este cea mai mare n cazul testului t este ns faptul c de obicei nu avem cum s cunoatem dispersia real a variabilei n populaie. Aceasta se rezolv de regul prin introducerea unei presupuneri suplimentare. i anume aceea c dispersia la nivelul populaiei este aproximativ egal cu dispersia la nivelul eantionului. S vedem deci ce valori avem: media pe populaie, pe care o presupunem i o punem n ipotez s abaterea standard pe eantion care se poate calcula i nlocuiete de fapt , abaterea standard la nivelul populaiei pe care nu o putem calcula. x media pe eantion care e uor de calculat n volumul eantionului. 81
Ipoteza va suna deci cam aa media variabilei este . n exemplu era: media numerelor la pantofi este 36. Calculm acum testul t astfel: t = (x ) / (s/n ) Aceasta nu este altceva dect transformarea din N(, s2) n N(0, 1), adic standardizarea distribuiei normale. Valoarea t se va raporta la curba normal standard aa cum se raporteaz valoarea x la curba normal iniial. S presupunem c valoarea de 39 la picior a fost obinut pe un eantion de 1000 de femei i abaterea standard la nivelul eantionului a fost 2. S vedem ce iese: t = (39 36) / (2/10) = 15 S ne aducem aminte de felul cum arat distribuia normal standard i cam unde s-ar afla valoare 15 pe axa x a acesteia.
Precum se vede din grafic, probabilitatea ca ntr-o distribuie normal standard valoarea s fie mai mare de 3 este de 0,1%. 15 fiind mult mai mare dect 3, probabilitatea ca ipoteza s fie adevrat este mult mai mic dect 0,1%. Avem deci 99,9% motive s respingem ipoteza. Am ocolit ns zonele critice folosite n mod obinuit. S vedem care sunt acestea:
82
Intervalul de probabilitate de 95% este (-1,96, 1,96). Aceast nseamn c ntr-o distribuie normal standard 95% dintre cazuri se gsesc n intervalul (-1,96, 1,96). Deci dac avem o valoare aflat n afara intervalului acesta, ansa ca valoarea s fie atins n condiiile validitii ipotezei este mai mic dect 5%. Se mai spune i c -1,96 i 1,96 sunt valorile critice de significan (sau probabilitate) de 95%. n aceiai logic se definete i intervalul de probabilitate de 99%. Acesta este (-2,57, 2,57). Exist de asemenea tabele ale valorilor t care dau exact probabilitatea ca o anumit valoare calculat s fie atins. S sistematizm pentru o mai uoar privire de ansamblu: Ipoteze de forma media = valoare se pot respinge: cu probabilitate de 95% dac valoarea t < -1,96 sau t > 1,96. cu probabilitate de 99% dac valoarea t < -2,57 sau t > 2,57.
Deoarece 15 este n afara intervalului de probabilitate de 99%, de fapt cum am vzut chiar n afara intervalului de 99,9% ipoteza se poate respinge cu o probabilitate mai mare dect 99% (sau, de fapt 99,9%). La modul de analiz al rezultatelor nu am luat n seam faptul c rezultatul testului ne spune vrnd nevrnd i pe ce parte a intervalului se afl rezultatul aceasta nseamn c de fapt putem s nbuntim un pic significana sesiznd faptul c de o parte a distribuiei normale avem de fapt o significan de 50% i doar pe partea cealalt adugm la aceasta jumtate din significana datorat zonei critice. Deci dac suntem n varianta cu 95% putem de fapt considera c respingem ipoteza cu 97,5% iar n varianta cu 99% cu 99,5%. Testul t pentru dou medii Adesea ipoteza care se pune nu conine o valoare explicit, cum era n exemplul precedent. Multe probleme statistice urmresc de fapt s compare grupuri sau pri ale unor eantioane. Ipoteza este n asemenea cazuri ceva de genul femeile de la ar au n medie acelai numr la picior ca i femeile de la ora sau fotbalitii romani dau n medie la fel de multe goluri ca i fotbalitii germani i alte asemenea probleme cutremurtoare. Un fel de a pune ntrebarea care prezint o gam larg de probleme este urmtorul. Este oare posibil ca cele dou eantioane s fie extrase din aceiai populaie. Dac ar fi aa mediile calculate pe cele dou eantioane ar trebui s fie suficient de apropiate. Dac ns aceste medii difer mult (n sensul 83
testului t) ipoteza c eantioanele snt extrase din aceiai populaie se poate chiar respinge. Aa se poate stabili principial c dou grupurie populaionale difer esenial din punctul de vedere al unei anumite variabile. Aa se poate de exemplu stabili c femeile i brbaii au venituri diferite n Romania. Se iau dou eantioane aleatoare de valori salariale i se testeaz dac acestea ar fi putut fi culese dintr-o singur populaie. Multe probleme interesante pot fi reduse la ipoteze de acest tip. Avem n asemenea cazuri dou grupuri de msurtori, putem s le spunem eantioane dar nu sunt din punctul de vedere al testului. i anume nu sunt eantioane din punctul de vedere al testului pentru c nu se urmrete relaia dintre aceste date i o populaie mai general ci relaia dintre cele dou grupuri de msurtori. Ca i n cazul precent, este necesar s avem o distribuie normal a variabilei testate. n plus cele dou eantioane trebuie s fie independente ceea ce n cazul unei eantionri corecte aleatoare ar trebui s fie cazul, i trebuie s cunoatem urmtoarele: s1 abaterea standard pe primul eantion. x1 media pe primul eantion n1 volumul primului eantionului. s2 abaterea standard pe al doilea eantion. x2 media pe al doilea eantion n2 volumul celui de-al doilea eantionului.
Formula de test care se calculeaz este:
Analiza rezultatului se face la fel ca i n cazul precedent. Valorile critice snt aceleai, interpretarea se face la fel. S lum deci un exemplu i s-l calculm. Voi folosi date dintr-un sondaj de opinie efectuat pe populaia IMM-urilor din mediul rural din Romnia n 2005. Ipoteza de testat este vrsta medie a patronilor de IMM-uri din mediul rural nu difer n funcie de gen. Avem deci dou eantioane, unul cu femei, un altul cu brbai. Volumul eantionului total a fost de 1122 persoane, dintre acestea 1100 au rspuns la 84
ntrebarea de vrst (genul a fost completat de operator). n calcule am putut lua 631 de brbai i 479 de femei. Vrsta medie a brbailor a fost 45,6 ani, iar a femeilor 42,4. Abaterile standard snt 10,4 la vrsta brbailor i 9,1 la vrsta femeilor. Este oare diferena dintre cele dou medii relevant? Snt femeile care patroneaz IMM-uri din zona rural ntr-adevr mai tinere dect brbaii? Pentru aceasta trebuie s aplicm testul t pentru medii. Informaiile pe care le-am inclus n text snt suficiente pentru a lua o decizie. Programele de statistic fac prima dat un test de egalitate a dispersiilor, sau de homoschedasticitate. Pentru aceasta se folosete testul F al lui Fischer. Testul va mai fi discutat n relaie cu metoda ANOVA. Testul F e de fapt un raport de dispersii (sau variane). Ipoteza acestui test este: dispersia pe primul eantion e egal cu dispersia pe al doilea eantion. Cu ct valoare F e mai departe de 1, cu att significana e mai bun. i dac significana testului e bun, adic ct mai apropiat de 0, atunci ipoteza aceasta se poate respinge. n funcie de rezultatul testului, pentru dispersii care nu pot fi considerate egale se folosete formula pe care am dat-o. Pentru dispersii egale se putea folosi o formul simplificat i oarecum nbuntit prin faptul c se putea calcula dispersia pe ntreg eantionului, ceea ce se presupune a fi o estimare mai bun a dispersiei la nivel populaional. n cazul din exemplu, valoarea testului F este 6,682 i significana este 0,01. Pentru interpretarea testului F se folosesc de regul tabele, ns aa cum am spus i mai sus significana este informaia suficient pentru analiz. n cazul significanei de mai sus, care e foarte bun, ipoteza de dispersii egale poate fi respins. Se calculeaz atunci varianta de test t pentru dispersii diferite, adic exact formula de mai sus. Rezultatul este:
t = 5,39 cu Sig = 0,000
Deci ipoteza de egalitate a mediilor se poate respinge cu o probabilitate de 99,9%. E aproape sigur: femeile care patroneaz IMM-uri n mediul rural snt mai tinere dect brbaii cu poziii similare. Pentru o explicaie a presupune de exemplu c printre persoanele de vrst mai naintat femeile snt mai puin nclinate spre poziii patronale dect printre persoanele mai tinere. Astfel distribuia pe sexe e mai echilibrat la vrste mai mici i media de vrsta a
85
femeilor patron rezult ca fiind mai mic dect a brbailor patron. Desigur interpretarea aceasta trebuie coroborat cu alte rezultate statistice. Ipotezele discutate pn aici s-au referit ntotdeuna la egaliti. Testele au ncercat s resping fie faptul c o medie are o anumit valoare exact, fie faptul c dou medii sunt egale. Aceasta a fcut ca zonele critice s fie simetrice. La urma urmei se poate respinge ipoteza de egalitate i atunci cnd valoarea empiric e mult mai mare i atunci cnd e mult mai mic dect valoarea din ipotez. Am menionat deja c faptul c valoarea empiric e mai mare sau mai mic ne apare ca un rezultat suplimentar i poate nbunti significana. Exist ns situaii n care ipoteza este chiar construit ca o inegalitate. Astfel de ipoteze cer s fie analizate doar prin prisma unei singure zone critice. S m explic. Dac ipoteza era de forma media = valoare atunci zonele critice de significan 99% sunt intervalele (-, 2,58) respectiv (2,58, ), adic tot de se afl n afara intervalului de probabilitate de 99% care este (-2,58, 2,58). Dac ns ipoteza este de forma media > valoare atunci ea respinge numai dac ceea ce ne d testul e mult mai mic dect 0, deci numai un capt de distribuie normal respinge ipoteza. Acest capt e evident totdeuna cel opus semnului din ipotez. Adic testm o inegalitate cu semnul > (mai mare) captul care respinge va fi cel negativ (mai mic dect media standard 0), dac testm o inegalitate cu < (mai mic) atunci se poate respinge ipoteza cu intervalul critic pozitiv. Mai avem ns ceva, valorile critice devin mai mici la testele cu inegalitate deoarece intervalul de 95% sau 99% va fi nelimitat pe un capt. Deci: Ipoteze de forma media > valoare se pot respinge: cu probabilitate de 95% dac valoarea t < 1,81. cu probabilitate de 99% dac valoarea t < 2,23.
Ipoteze de forma media < valoare se pot respinge: cu probabilitate de 95% dac valoarea t > 1,81 cu probabilitate de 99% dac valoarea t > 2,23.
86
Testul Z pentru proporii n mare parte dintre cercetrile empirice nu ne intereseaz ns testarea unor ipoteze legate de medii. De fapt dac ne gndim la sondajele de opinie politice sau sociale pe care le mai vedem din cnd n cnd n pres greu ne vine n minte o situaie n care s ne fi interesat media unei variabile. Cel mai adesea ceea ce ne intereseaz mai mult este s testm ipoteze legate de proporii. Astfel de ipoteze ar fi de exemplu Partidul Vieii Romaneti va trece pragul electoral sau cetenii romni de religie ortodox prefer manelele n mai mare msur dect cei de religie catolic. Hai s vedem cum se traduc aceste ipoteze astfel nct s fie testabile. n prima ipotez menionat Partidul Vieii Romaneti va trece pragul electoral, ceea ce vrem s aflm este de fapt dac ponderea din electorat a celor care voteaz cu partidul n cauz e mai mare dect 5%. Bineneles la aceast ntrebare se poate rspunde corect ntr-un exit-poll, adic un sondaj fcut chiar la ieirea de la urne. n sondaje preelectorale se poate ns face o previziune destul de bun la astfel de ntrebri. Indiferent cum ar fi, n chestionar va aprea o ntrebare de genul cu ce partid ai votat? sau cu ce partid vei vota?. Dac m intervievai dintr-un eantion total de volum n, rspund c vor vota cu PVR atunci avem de verificat de fapt dac m/n este cu adevrat mai mare dect 5%. Ipoteza se va scrie m/n > 5/100 n a doua ipotez va trebui s dezvoltm un chestionar care, pe lng alte ntrebri, se intereseaz i de gusturile muzicale ale celor intervievai. Desigur ntrebarea se poate pune n multe feluri, n final ns vom determina c un anumit numr de persoane prefer manelele. Acestea vor fi probabil de religii diverse. S presupunem c dintre acetia mo vor fi ortodoci, iar mc catolici. S notam numrul total al ortodocilor chestionai no, iar al catolicilor nc. Atunci putem spune c dintre ortodoxi mo/no prefer manelele, iar dintre catolici mc/nc. Pentru 87
a testa dac prima pondere e n mod relevant mai mare dect cea de a doua, ipoteza va avea forma mo/no > mc/nc. Perechea de ipoteze din exemplele de mai sus este analoag celor dou metode de testare pe care le-am prezentat deja. Adic primul exemplu testeaz relaia dintre o proporie stabilit empiric i o valoare teoretic, iar a doua ipotez relaia dintre dou proporii, ambele stabilite empiric, adic msurate. Pentru verificarea ipotezelor legate de proporii se folosete de regul testul Z. Logica lui este ns aceiai ca a testului t discutat pn acum. S vedem prima dat formula pentru teste privitoare la o proporie. Pentru a calcula valoarea de test avem nevoie de p ponderea empiric (adic de exemplu ponderea celor ce au rspuns c vor vota cu PVR), ^p ponderea teoretic (adic de exemplu ponderea celor care ar fi trebuit s rspund pentru ca ponderea s fie exact 5%) i n volumul eantionului. Cu acestea se calculeaz Z.
Dac avem dou ponderi de comparat ca n exemplul al doilea, formula va avea forma urmtoare:
Aici n1 este numrul de intervievai din primul eantion (n exemplu, numrul total de ortodoci din eantionul total), iar n2 este numrul de intervievai din al doilea eantion (n exemplu numrul total de catolici din eantionul total). p1 i p2 sunt ponderile persoanelor care intr n categoriile ce se compar (adic p1 = mo/no ponderea celor care prefer manelele dintre ortodoci, respectiv p2 = mc/nc dintre catolici). n ambele cazuri rezultatul testului, Z se compar cu zonele critice definite ca i pn acum. Aceasta pentru c i acest test face de fapt o transformare a valorilor pe o distribuie normal 88
standard i logica respingerii unei ipoteze rmne aceiai, a deprtrii fa de valoarea 0, media distribuiei normale standard. Iat regulile de decizie simplificate pentru cazul, mai general, al ipotezelor cu dou proporii empirice Ipoteze de forma p1 = p2 se pot respinge: cu probabilitate de 95% dac valoarea Z < -1,96 sau Z > 1,96. cu probabilitate de 99% dac valoarea Z < -2,57 sau Z > 2,57.
Ipoteze de forma p1 > p2 se pot respinge: cu probabilitate de 95% dac Z < 1,81. cu probabilitate de 99% dac Z < 2,23.
Ipoteze de forma p1 < p2 se pot respinge: cu probabilitate de 95% dac Z > 1,81. cu probabilitate de 99% dac Z > 2,23.
Sumarul acesta de reguli se poate aplica uor n practic. Tot ce trebuie fcut este s se formuleze simplu ipoteza, apoi se calculeaz valoare t (sau Z), se aplic regula de decizie i gata: am fcut o cercetare empiric corect statistic.
c. Calculul erorii unui sondaj si interpretarea ei. Calculul erorii unui sondaj de opinie este de fapt o aplicaie a testelor statistice simple. De aceea am preferat s amn discutarea acestei probleme pn acum. Vom vedea deci ce nseamn acele erori pe care le raporteaz institutele de sondare a opiniei publice i de asemenea cum se stabilete volumul unui eantion. n mod curent eroarea care se raporteaz la un sondaj de opinie este eroarea cea mai mare cu care se poate estima o pondere cu o probabilitate de 95%. Am vzut pn acum c estimarea unei ponderi se poate face doar cu o anumit probabilitate. Nu exist o stabilire prin sondaj a unei valori exacte. Probabilitatea cu care se estimeaz ponderea dicteaz de fapt care e zona
89
critic. De aici rezult respingerea unei ipoteze. La sondajele de opinie se folosete de regul intervalul de probabilitate de 95%. Este vorba despre estimarea unei proporii, folosim deci testul Z pentru o proporie. Formula, pe care am dat-o i mai sus este:
Pe noi ne intereseaz n acest caz ns eroarea, adic cu ct difer estimarea noastr de valoarea adevrat, ntr-un sondaj aceasta se interpreteaz ca fiind diferena dintre ponderea gsit n eantion i ponderea din populaie, adic ponderea real. Ca atare extragem din formula de mai sus diferena dintre valoarea empiric i valoarea din populaie. ^p p = Z * sqrt (p*(1-p)/n) n aceast formul trebuie nlocuit Z cu o valoare critic, astfel nct s se stabileasc cu ce probabilitate dorim s ne ncadrm n eroarea calculat. Astfel dac dorim ca eroarea ^p p s nu fie depit cu o probabilitate de 95% vom lua Z = 1,96. Aceasta este varianta cea mai obinuit. Dac dorim o precizie de 99% va trebui ns s calculm folosind Z = 2,57. Observm c acestea sunt tocmai valorile critice, adic valorile de 95%, respectiv 99% din distribuia normal standard. Exist mai multe feluri de a folosi aceast formul. Putem cu ajutorul ei s calculm eroarea pentru estimarea unei anumite proporii n cazul unui sondaj de opinie cunoscut. Atunci cunoatem valorile p i n i stabilim cu o probabilitate de 95% n ce interval se poate afla ^p.
Putem de asemenea stabili care este cea mai mare eroare pe care o poate lua estimarea de proporii n cadrul unui anumit sondaj (ceea ce se numete de obicei marj de eroare). Atunci efectum acelai calcul dar n aa fel nct s maximizm eroarea pentru orice pondere posibil. Putem s stabilim cu ajutorul aceleiai formule i care e volumul eantionului necesar pentru a nu depi o anumit marj de eroare. Atunci considerm diferena ^p p cunoscut. Aceasta 90
este marja de eroare pe care suntem de acord s o acceptm, i alegem p astfel ncit eroarea s fie maxim posibil n cazul dat i l calculm pe n, volumul eantionului.
Estimarea marjei de eroare a unui sondaj de opinie ncepem cu aceast aplicaie a formulei pentru c ea este probabil cea mai important. Ai vzut sau auzit desigur la (aproape) orice prezentare a unui sondaj de opinie specificari de genul marja de eroare a sondajului este 3% cu o probabilitate de 95%. Ce nseamn aceasta? Marja de eroare este abaterea cea mai mare de la valoarea real, adic valoarea pe populaie pe care o poate avea valoarea calculat pe eantion n cazul unui sondaj anume. n formula de mai jos, notm marja de eroare cu E. De fapt E = max (^p p), adic nlocuind n formula de mai sus:
E = max (Z * sqrt (p*(1-p)/n)) n aceast formul Z este dat de precizia pe care o dorim, adic pentru precizia de 95% va fi 1,96. n este volumul eantionului, deci o valoare cunoscut, din moment ce sondajul a avut loc. Singura valoare care se poate alege astfel nct s se maximizeze formula este p. Pentru aceasta observm c trebuie de fapt s alegem p astfel nct produsul p*(1-p) s fie maxim. Valoarea p este o pondere adic o valoare subunitar. Maximul produsul se atinge ca atare pentru p = 0,5. Cine nu crede poate calcula matematic. Iese. De aici rezult, c pentru o precizie de 95% avem
E = 1,96 Deci marja de eroare a unui sondaj depinde numai i numai de volumul eantionului. Graficul de mai jos ne arat cum arat forma distribuiei normale centrate n jurul ponderii de 0,5 pentru diferite volume de eantioane.
91
Dac, de exemplu avem un eantion de 1000 de persoane, un volum uzual, marja de eroare a acestui eantion va fi:
E = 0,98 / sqrt (1000) = 0,03099
Ceea ce se mai poate scrie ca fiind 3,1%. Calcul de mai sus are desigur i nite premise matematice. Principala premis este aceea c eantionul este aleator. tim deja c aceasta nu este chiar ntotdeuna perfect ndeplinit, dar un sondaj de opinie bine efectuat se apropie ct se poate de mult de acest deziderat tocmai pentru a putea garanta marja de eroare promis. S vedem acum, cum se citete de fapt un rezultat statistic prin prisma marjei de eroare. Fie de exemplu un sondaj cu 1000 de interviuri, la care 500 de persoane, adic o pondere de 0,5 (sau 50%) au rspuns c ar vota Partidul Vieii Romaneti. Atunci statisticianul responsabil poate spune cam aa: Exist o probabilitate de 95% ca din ansamblul populaiei studiate cei care ar vota PVR s reprezinte un procentaj ntre 46,9% i 53,1%. Dac ponderea pe care trebuie s 92
o estimeze este mai mic sau mai mare dect 0,5 tim c eroarea poate fi calculat mai exact i va fi ceva mai mic. La urma urmei marja de eroare este eroarea cea mai mare la estimarea de proporii i formula general a erorii depinde de valoarea p. Calculul volumul eantionului pe baza marjei de eroare De multe ori problema se pune invers. Avem de efectuat un sondaj de opinie i clientul nostru i dorete o anumit marj de eroare, de exemplu 2%, numai aa ca s aib el sondajul cel mai tare din jude. Atunci vom folosi aceiai formul:
E = 0,98 / sqrt (n) Dar vom cunoate pe E, marja de eroare dorit i va trebui s-l calculm pe n, volumul eantionului. Dac extragem pe n din formul, iese: n = 0,98 / E2 nlocuind n formul E = 0,02 obinem n = 2400, pentru E = 0,03, n = 1067. Tabelul de mai jos conine i alte perechi de marje de eroare i volume de eantioane: Marja de eroare Volumul eantionului 1% 2% 3% 4% 5% 10% 9605 2400 1067 600 384 96
Pe internet exist pagini care ofer interfee simple pentru calculul diferitelor valori statistice. Astfel, de exemplu, universitatea Vassar din Statele Unite are o pagin unde se poate calcula uor marja de eroare, dar i alte valori statistice. Pagina se gsete la adresa http://faculty.vassar.edu/lowry/VassarStats.html. Trebuie desigur specificate volumul eantionului, media i dispersia valorii estimate. Pentru marja de eroare a sondajului, specificm valorile pentru distribuia normal standard: media 0 i dispersia 1. 93
Calculul erorii pe estimare a unei anumite proporii S continum cu aplicaia cea mai simpl a formulei i una din greelile cele mai des ntlnite n interpretarea sondajelor de opinie. Cum am vzut, marja de eroare este de fapt eroarea maxim care se face la o estimare cu precizie de 95%. Aceasta e atins atunci cnd se estimeaz valori apropiate de 0,5, adic de 50%. Cu toate acestea nu o dat citim interpretri n care valoarea marjei de eroare este folosit pentru a da intervale de estimare pentru procentaje mult mai mici. De exemplu, iat un fragment de declaraie a lui Alin Teodorescu, deputat PSD i, pe deasupra, sociolog: 16% n sondaje nseamn 19 sau 13. Marja de eroare e de 3%.6 Are sau nu dreptate politicianul-sociolog. Bineneles nu, pentru c pentru estimarea unui procentaj de 16% eroarea este mai mic dect marja de eroare, care este atins atunci cnd se estimeaz 50%. Cu ct este ns mai mic? Articolul de ziar nu ne d cu exactitate volumul eantionului, dar dnul Teodorescu ne d un indiciu foarte bun cnd declar c marja de eroare a sondajului a fost 3%. Deci, volumul eantionului trebuie s fi fost cam 1067 de persoane. S nlocuim n formul i s calculm:
eroarea = 1,96 * sqrt (p*(1-p)/n) = 1,96 * sqrt ((0,16 * 0,84)/1067) = 0,02199
Exprimat tot n procente eroarea la estimarea unui procentaj de 16% este 2,2%. Corect am putea spune, valoarea procentual de 16% din eantion se traduce astfel procentajul n ansamblul populaiei studiate este aflat cu o probabilitate de 95% ntre 13,8% i 18,2%. Iat o exprimare de o candoare deosebit, legat de aceiai problem: Strict sociologic, ce-i sub marja de eroare practic nu se ia in calcul.7 Evident nu este aa. Mai mult, valorile mici, adic cele pe care ziaristul le numete sub marja de eroare se estimeaz mai exact dect valorile n jur de 50%. S calculm puin. Un procentaj de 3% se va estima ntr-un sondaj cu marja de eroare de 3% cu o eroare de:
eroarea = 1,96 * sqrt ((0,03 * 0,97)/1067) = 0,010.

6 7
Alin Teodorescu: PSD s-a comprimat din cauza integrarii in UE, interviu n Cotidianul, 1.02.2007. Pavel Lucescu Chinurile lui Felix, editorial n Cotidianul, 26.02.2007.
94
Deci, dac s-a msurat un procentaj de 3% pe eantion, putem spune cu o probabilitate de 95% c ponderea n ansamblul populaiei este ntre 2% i 4%. Factor de corecie pentru populaii finite Iat un fragment de articol din ziarul Tricolorul: Dar, iat, scorurile sondajului real efectuat de IMAS, aa cum le-am aflat chiar din interiorul PSD. Eantion: 1.257 de persoane. Marj de eroare: 1,8%.8 Este aa ceva posibil de fapt? Am vzut c marja de eroare i volumul eantionului sunt legate printr-o formul ct se poate de simpl i se poate uor calcula: pentru 1257 de persoane se obine o marj de eroare de 2,7%. Pentru 1,8% ar fi nevoie de un numr de 2963 de interviuri. i totui ceea ce scrie ziarul nu este ntru totul imposibil pentru c n toate exemplele i discuiile de pn acum am considerat c populaia este foarte mare fa de volumul eantionului. Practic am presupus c avem o populaie infinit. Sau mai exact nu am fcut nici un fel de presupunere despre volumul populaiei. Este ns de bun sim s ne gndim c dac populaia pe care o cercetm e mic, de exemplu, de 1000 de oameni, cum ar fi la un studiu despre elevii unei coli, marja de eroare nu poate fi 4% la un eantion de 600, adic cuprinznd bine peste jumtate dintre toi elevii. Trebuie s existe un factor de corecie care nbuntete marja de eroare n cazul n care populaia studiat este mic. Acest factor de corecie este numit factor de corecie pentru populaii finite. El se folosete numai atunci cnd volumul eantionului este suficient de mare fa de volumul populaiei. Teoretic ns s-ar putea calcula oricnd, doar c valoarea lui este de obicei foarte aproape de 1. Formula factorului de corecie este.
n formul N este volumul populaiei i n volumul eantionului. Factorul calculat astfel se nmulete cu marja de eroare pentru a da marja de eroare corectat.
8
Presedintii PRM si PSD vor semna un protocol de colaborare!, editorial nesemnat, Tricolorul, Anul III, Nr. 643 - 06.05.2006
95
S vedem prima dat dac ar merita calculat factorul pentru eantioanele obinuite, de 1067 de persoane, avnd ca populaie, de exemplu, electoratul Romniei, de aprox 18 milioane de persoane. F = sqrt (18000000 1067 / 18000000 1) = 0,9999 Ei bine, acest factor de corecie ar trebui nmulit cu marja de eroare, dar valoarea e att de apropiat de 1 nct este evident de ce nu se obinuiete aa ceva. n exemplul dat, raionamentul este ns altul. Dac la un eantion de 1257 de persoane s-a obinut o marj de eroare de 1,8% nseamn c s-a folosit un factor de corecie i acest factor a cobort marja de la valoarea de 2,7% care s-ar fi obinut pentru o populaie ct Romnia la valoarea de 1,8%. Acest factor de corecie este de fapt uor calculabil:
1,8 = F * 2,7 F = 1,8 / 2,7 = 0,67 nlocuind n formula lui F aceast valoare precum i n = 1257, rezult: 0,67 = sqrt (N 1257 / N 1) De aici rezult: N = (1257 0,672) / (1 0,672) = 2285. n concluzie articolul din ziar poate avea dreptate doar n msura n care populaia din care s-a ales eantionul avea un volum de 2285 de persoane.
96
Capitolul 6. Feluri principale i garnituri sau relaia dintre mai multe variabile
Voi ncerca i de ast dat s m apropii de tema relaiilor dintre variabile ncepnd cu ce e mai simplu, reprezentrile grafice, i continund apoi cu tabele de frecvene, indicatori de relaionare i n fine voi ncheia capitolul acesta cu o tehnic ceva mai avansat, regresia liniar. Pn acum n aceast carte m-am ocupat de o singur variabil o dat. Am vzut cum se reprezint o variabil, grafic sau tabelar, prin frecvenele ei, am calculat indicatori care descriu o variabil i am testat ipoteze referitoare la o variabil. n cercetarea statistic problemele care ni se pun se refer ns adesea la relaia dintre dou sau chiar mai multe variabile. Multe ipoteze care se pun, se refer la efectul unor variabile asupra altora. Ne intereseaz cum influeneaz vrsta opiunile electorale, ce efect are educaia asupra alegerii unei anumite mrci de bere. Ne intereseaz ce categorii sociale ascult anumite emisiuni de radio, pentru a tii ce tip de publicitate ar fi de interes pentru acetia. Vrem s aflm care dintre studeni vor cu adevrat s emigreze i care vor s-i continue studiile n strintate. Toate aceste ntrebri necesit studierea unor relaii dintre variabile. De multe ori, dar nu ntotdeuna, teoria pe care ne bazm ca s construim ipotezele noastre separ variabilele n cauze i efecte. n statistic efectele le numim variabile dependente, iar cauzele variabile independente. Nu este ntotdeuna simplu, exist ns i variabile care snt aproape mereu tratate ca independente. Aa snt genul, vrsta, zona de reedin (urban sau rural), statutul marital i altele care n puine ipoteze sunt considerate efecte ale altor variabile. n general aceste variabile se suprapun peste aa-zisele variabile SES (socio-economic status). Genul sau vrsta celui intervievat, de exemplu, nu se prea pot considera efecte ale unor alte variabile. Pe de alt parte, selecia aleatoare poate evidenia faptul c populaia studiat are o distribuie a genurilor sau vrstelor particular. Aa este de exemplu dac populaia noastr e format din cei ce i fac cumprturile ntr-un anumit magazin. n acest sens i genul poate fi privit ca un efect al opiunii de a face aprovizionarea pentru familie. Alte variabile SES, ca de exemplu venitul snt chiar mai des variabile dependente.
97
Oricum ar fi, cel mai adesea, ntr-o cercetare statistic relaionm variabile numite generic independente cu variabilele int ale cercetrii, numite de regul variabile dependente.
a. Grafice pentru mai multe variabile. Reprezentrile grafice pentru mai multe variabile au o palet mai restrns de opiuni la dispoziie. O parte din reprezentrile uzuale n cazul unei singure variabile nu sunt potrivite n cadrul graficelor cu mai multe variabile. Astfel, graficele plcint nu se adapteaz prea bine la mai multe variabile. Nici graficele de linii nu se preteaz la prezentarea relaiilor dintre variabile. Ele se pot ns folosi pentru a prezenta mai multe variabile una alturi de cealalt. Reprezentrile folosite cel mai des sunt graficele de bare, care permit chiar vizualizarea relaiilor. Cel mai simplu mod de grafic pentru mai multe variabile prezint dezvoltarea paralel a unor variabile. n exemplul de mai jos avem o reprezentare liniar a dou variabile. Acestea snt numrul de studeni la 10.000 de locuitori pe ansamblul Europei de Est i de Vest n perioada 1950 2000 (dintr-o cercetare proprie, Reisz, Stock, 2007).
Graficul se preteaz la compararea celor dou trenduri dar nu vizualizeaz cu adevrat relaia dintre cele dou variabile. Le pune doar una lng cealalt. Dar e frumos oricum, nu? 98
Exist grafice similare i cu bare. S lum i aici un exemplu.
4,00
1. Cate beri ati baut? 7. Cat de des v-ar place sa fie Festivalul Berii?
3,00
Mittelwert
2,00
1,00
0,00 dumineca sambata
ziua
n graficul de mai sus se prezint un rezultat de la o cercetare efectuat la festivalul berii Timisoara n anul 2003. Barele albastre reprezint media de beri bute, iar barele verzi un indicator al frecvenei medii dorite de ctre intervievai pentru festivalul berii. ntrebarea se punea la ieirea din arealul festivalului. Cele dou medii sunt prezentate difereniat pentru cele dou zile ale festivalului. Totui graficul nu ne spune nimic despre felul cum au rspuns la ntrebarea a doua cei ce au but mai multe beri fa de cei ce au but mai puine beri. Pentru asta e nevoie de o alt abordare a relaiei reprezentate pe grafic. Graficele care prezint cu adevrat relaii sunt grafice de bare, n care una dintre variabile este o variabil categorial, sau tratat ca i variabil categorial. Aceast variabil are rolul de variabil independent. Ea se trece pe axa x, iar variabila sau variabilele dependente apar pe axa y. De fapt chiar i graficul de mai sus prezenta o relaie. Variabila independent era ziua de festival. Dar s revenim la problema enunat mai sus, cum e relaia dintre consumul de bere i frecvena dorit a festivalului
99
4,00
7. Cat de des v-ar place sa fie Festivalul Berii?
3,00
2,00
1,00
0,00 Nici o bere 1 - 2 beri 3 - 4 beri 5 beri si mai mult
Bautori
n grafic sunt prezentate medii ale frecvenei dorite ale festivalului n funcie de numrul de beri consumate, numr care a fost recodat pe categorii de ctre mine (ntrebarea nu era pe categorii, ci deschis). S-ar fi putut folosi i alte valori n loc de medie, cum ar fi dispersia, suma, procentajul peste o anumit valoare, etc. De asemenea valoarea exact se poate reprezenta sau nu pe grafic, dependent de forma ei, numeric sau nu. Pe lng faptul c frecvena dorit a festivalurilor berii crete cu numrul de beri bute se mai observ dou lucruri care in de reprezentrile grafice n general . Anume, c numrul de categorii de pe axa x este relativ mic i c acestea se citesc ntr-o form ordonat pur i simplu din obiceiul nostru de a parcurge de la stnga la dreapta orice text i de a impune mental o ordine chiar i acolo unde aceasta nu exist. Prima dintre aceste dou observaii este doar parial restrictiv. Acolo unde numrul de valori este foarte mare ntr-adevr citirea graficului devine anevoioas dar totui numrul de categorii poate fi crescut destul de mult. Aceasta totui nu prea se face pentru c graficul construiete de regul barele fr s raporteze numrul de cazuri folosite i ca atare anumite bare pot fi calculate pe un numr foarte mic de cazuri i pot induce n eroare cititorul. Acest risc exist desigur i la un numr mai mic de categorii dar este mult diminuat. S vedem un exemplu de grafic de relaionare cu bare cu un numr mare de categorii:
100
5,00
4,00
1. Cate beri ati baut?
3,00
2,00
4 3 2 4 3 3 3 2 2 1 0 1 2 2 3 2 2 2 2 2 1 1 0 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 3 4 3 3 4 3 3 3
1,00
1 1 1
0,00
Graficul conine media de beri bute pe vrste. Informaia prea detaliat i incertitudinea numrului de cazuri pe categorii fac graficul foarte greu de citit. Recodarea vrstei pe categorii mai mari duce la urmtorul rezultat, mult mai citibil:
78,00 76,00 73,00 70,00 63,00 61,00 59,00 57,00 55,00 53,00 51,00 49,00 47,00 45,00 43,00 41,00 39,00 37,00 35,00 33,00 31,00 29,00 27,00 25,00 23,00 21,00 19,00 17,00 15,00 13,00
8. Varsta:
2,50
2,00
1. Cate beri ati baut?
1,50
1,00
0,50
0,00 pana la 20 21 - 35 36 - 50 51 - 65 peste 65
Varsta pe categorii
101
Relaia existent dintre vrst i consumul de bere la festival devine astfel mult mai clar i poate produce o ipotez statistic care merit verificat. Evident graficul nu trebuie ns considerat ca fiind suficient pentru a trage concluzia la festivalul berii, cu ct un vizitator e mai btrn bea mai puin bere. Aceast ipotez merit ns testat. Pentru o declaraie de genul tinerii beau mai mult bere dect btrnii nu exist oricum nici o baz. Nu trebuie nici o clip uitat c studiul s-a ocupat de festivalul berii, ntr-un an dat, n condiii meteo aa cum au fost, cu muzica aa cum a fost, i aa mai departe. Toate aceste condiii de mediu fac total imposibil generalizarea la un consum de bere sau chiar alcool n condiii nespecificate. Ca s nu mai spunem c de fapt ce am aflat mai exact este nu este c cei tineri au but mai mult bere ci c vizitatorii mai tineri declar c au but mai mult bere. Cea de a doua observaie, cea legat de ordinea implicit sau explicit a categoriilor reprezentate necesit de asemenea o anumit atenie. Bineneles, dac variabila de pe axa x, cea considerat categorial, este o variabil ordinal sau chiar intervalic sau raional, trebuie s fim ateni ca ordinea reprezentat a categoriilor s corespund ordinii matematice a acestora. Dac ns variabila categorial nu are o anume ordine, este o variabil nominal reprezentarea devine problematic atunci cnd numrul de categorii e mare. La un numr mic de categorii tentaia de a le privi ca o serie e mult mai mic. n fine, tot ce putem i trebuie s facem n asemenea cazuri este s atenionm cititorul rezultatelor noastre, respectiv s nu ne lsm noi nine prini n capcana automatismelor de gndire. S lsm acum berea i s trecem i la un alt tip de grafic de relaionare cu bare. Cu ajutorul graficelor cu bare se poate reprezenta i mai bine relaia dintre dou variabile, e drept poate ceva mai dificil citibil. M refer la grafice care suprapun bare cu dimensiuni proporionale cu categoriile unor variabile definite de o alt variabil. S vedem ns cum arat aa un grafic pentru a l putea descrie mai bine.
102
250
25.1. Grupe de varsta

Intre 20 - 29
19
Intre 30 si 39 Intre 40 si 49 Intre 50 si 59
200
58
Peste 60
150
48
100
0 34
26
50
50
31 29 83 19 29 0 0 17 0 16 17 1 11 40 0 0
je ta co tri ra tu ul ic lv si ii ic rv t se an m ta va in rie st du e in at ilit ab nt co ii ct
1. In ce domeniu ati lucrat inainte de a intra in somaj?
Graficul face parte dintr-o cercetare care a inclus un sondaj de opinie efectuat pe omeri din mediul rural din Romania n 2005. n imagine avem relaionarea dintre domeniul n care persoana a lucrat nainte de a intra n omaj i grupa de vrst. Valorile trecute pe grafic sunt valori absolute, adic exact numrul de persoane din fiecare categorie. Se vede nu numai ct de mare este o categorie a axei x, dar i cum se distribuie ea pe grupele de vrst. Un astfel de graf se numete stacked bar graph, adic grafic de bare stivuite. O alt form a barelor stivuite reprezint distribuia procentual, extinznd fiecare categorie a axei x la 100% i prezentnd subcategoriile definite de cea de a doua variabil n procentaje. Graficul, care ar putea fi mai uor de citit, obtureaz bineneles dimensiunea categoriilor. Totui aceasta poate fi intuit, prin afiarea procentajelor subcategoriilor din ansamblul eantionului aa cum se vede n exemplul de mai jos.
ul ric ag
to au
tru ns co
ra tu
103
1,0
0,0%
0,0% 3,39%
0,0%
0,0%
0,0% 0,18%
0,0%
0,0%

Intre 20 - 29 Intre 30 si 39
0,8
6,07%
0,54% 10,36% 5,54% 8,93%
Intre 40 si 49 Intre 50 si 59 Peste 60
0,6
8,57% 3,04% 2,86% 5,18% 3,04% 2,14%
0,4
4,64%
3,39%
1,96%
0,2
5,18%
7,14% 14,82% 2,86%
0,0
0,0%
0,0%
0,0%
je ta co tri ra tu ul ic lv si ii ic rv t se an m ta va in rie st du e in at ilit ab nt co ii ct tru ns co
1. In ce domeniu ati lucrat inainte de a intra in somaj?
Am prezentat graficele de relaionare cele mai uzuale, nu exist ns restricii, orice grafice corecte matematic se pot la o adic folosi. Vreau sa repet ns un comentariu pe care l-am fcut legat de graficele referitoare la o singur variabil. Se zice c o imagine spune mai mult dect 1000 de cuvinte. Tot ce se poate, dar o imagine este i mult mai puin exact dect cele 1000 de cuvinte, ca atare: prezentai grafice, dar analizai valorile care stau la baza acestora. b. Tabele de relaionare, Teste de relaionare Tabelele de relaionare sunt de fapt tabelele care stau la baza graficelor stivuite. Astfel de tabele au fost gndite iniial pentru variabile categoriale, i snt practice ntr-adevr numai pentru variabile cu un numr relativ mic de valori, de indiferent ce tip de variabil. Iat n tabela de mai jos tocmai datele care stau la baza graficelor stivuite prezentate mai nainte.
ag ul ric
to au a
r tu
104
1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta
Valori absolute
25.1. Grupe de varsta Intre 20 29 1. In ce domeniu ati lucrat inainte de a intra in somaj? agricultura auto constructii functionar Industrie invatamant servicii silvicultura tricotaje Total 29 0 83 0 16 17 11 40 0 196 Intre 30 si 39 29 0 26 0 19 0 3 50 12 139 Intre 40 si 49 34 16 48 1 31 0 1 0 0 131 Intre 50 si 59 0 0 58 17 0 0 0 0 0 75 Peste 60 0 0 19 0 0 0 0 0 0 19 Total 92 16 234 18 66 17 15 90 12 560
Tabela conine numrul de cazuri care corespund fiecrei corespondene a celor dou variabile. Aa cum se vede, o celul e definit de categoriile pe rnduri i coloane. Un exemplu va clarifica cel mai bine aceasta. Dac dorim de exemplu s aflm ci din eantion care au lucrat n construcii nainte de a intra n omaj sunt din categoria de vrst ntre 20 i 29 de ani, vom cuta coloana aferent acestei categorii de vrst apoi o vom parcurge pentru a gsi linia care conine valorile celor ce au lucrat n construcii. Valoarea din celula cu pricina este 83. Deci 83 de persoane din aceast subcategorie au fost intervievate n cadrul cercetrii. Linia i coloana de total sunt i mai uor de citit. Astfel ultima linie, cea marcat Total conine numrul de intervievai pe categoriile specificate n capetele de coloan. De exemplu, 196 de persoane pentru categoria ntre 20 i 29 ani, 139 n categoria ntre 30 i 39 ani i aa mai departe. Ultima coloan, marcat de asemenea Total conine valorile aferente categoriilor definite n capetele de linii. De exemplu, pentru construcii valoarea este 234. Volumul total al eantionului se va gsi n colul din dreapta jos al tabelului, la intersecia liniei i coloanei de total. n cazul cercetrii din care am extras tabelul de mai sus s-au efectuat 560 de interviuri. O astfel de tabel ne permite s comparm uor categoriile i subcategoriile. Urmrind numai coloana i linia de total putem spune astfel c cei mai muli omeri au lucrat n domeniul construciilor i cei mai muli omeri sunt ntre 20 i 29 de ani. De asemenea putem spune c numrul omerilor scade pe msur ce categoria de vrst e mai mare. Dac comparm 105
diferitele coloane sau linii ntre ele mai putem face i observaii de forma ntre 20 i 39 de ani numrul omerilor provenii din silvicultur l depete pe cel al celor ce provin din orice alt domeniu cu excepia construciilor9 sau n categoria de vrst ntre 50 si 59 de ani exist omeri provenii din functionari, probabil din foste CAP-uri i SMA-uri, o categorie care nu apare la alte grupe de vrst. De asemenea putem stabili cea mai mare categorie, numit i categorie modal, dup indicatorul de tendin central pentru variabile nominale modul care e valoarea care apare cel mai des ntr-o distribuie. n exemplul nostru este tocmai cea a omerilor care au lucrat n construcii i au ntre 20 i 29 de ani. Toate observaiile de mai sus le-am bazat pe valorile absolute din tabel. Pentru a putea avea ns o baz de comparaie cel mai adesea tabelele de relaionare conin procentaje pe rnduri i coloane. Mai jos se afl tabela recalculat coninnd aceste procentaje.
1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta
Total
Intre 20 29 1. In ce domeniu ati lucrat inainte de a intra in somaj? agricultura Nr. % linie % coloan auto Nr. % linie % coloan constructii Nr. % linie % coloan functionar Nr. % linie % coloan industrie Nr. % linie % coloan invatamant Nr. % linie % coloan servicii Nr. % linie % coloan silvicultura Nr. % linie 29 31,5% 14,8% 0 ,0% ,0% 83 35,5% 42,3% 0 ,0% ,0% 16 24,2% 8,2% 17 100,0% 8,7% 11 73,3% 5,6% 40 44,4%
Intre 30 si 39 29 31,5% 20,9% 0 ,0% ,0% 26 11,1% 18,7% 0 ,0% ,0% 19 28,8% 13,7% 0 ,0% ,0% 3 20,0% 2,2% 50 55,6%
Intre 40 si 49 34 37,0% 26,0% 16 100,0% 12,2% 48 20,5% 36,6% 1 5,6% ,8% 31 47,0% 23,7% 0 ,0% ,0% 1 6,7% ,8% 0 ,0%
Intre 50 si 59 0 ,0% ,0% 0 ,0% ,0% 58 24,8% 77,3% 17 94,4% 22,7% 0 ,0% ,0% 0 ,0% ,0% 0 ,0% ,0% 0 ,0%
Peste 60 0 ,0% ,0% 0 ,0% ,0% 19 8,1% 100,0% 0 ,0% ,0% 0 ,0% ,0% 0 ,0% ,0% 0 ,0% ,0% 0 ,0% 92 100,0% 16,4% 16 100,0% 2,9% 234 100,0% 41,8% 18 100,0% 3,2% 66 100,0% 11,8% 17 100,0% 3,0% 15 100,0% 2,7% 90 100,0%
Populaia studiului a fost cea a omerilor din mediul rural din Romania.
106
% coloan tricotaje Nr. % linie % coloan
20,4% 0 ,0% ,0% 196 35,0% 100,0%
36,0% 12 100,0% 8,6% 139 24,8% 100,0%
,0% 0 ,0% ,0% 131 23,4% 100,0%
,0% 0 ,0% ,0% 75 13,4% 100,0%
,0% 0 ,0% ,0% 19 3,4% 100,0%
16,1% 12 100,0% 2,1% 560 100,0% 100,0%
Total
Nr. % linie % coloan
S vedem cum se citesc asemenea tabele. Primele indicii snt poziiile celulelor de 100% de pe ultima linie i ultima coloan. S cutm aceiai celul ca i n exemplul cu valori absolute, omeri provenii din domeniul construciilor cu vrste ntre 20 i 29 de ani. Gsim urmtoarea configuraie de celule:
Nr. % linie % coloan 83 35,5% 42,3%
Valoarea Nr. este desigur cea pe care am tiut-o deja. Cele dou procentaje de citesc astfel: 35,5% dintre omerii care au lucrat n construcii au ntre 20 i 29 de ani. 42,3% dintre omerii cu vrste ntre 20 i 29 de ani au lucrat n construcii.
Acest citire este cel mai uor de reinut n relaie cu poziia valorii de 100%. Dac aceast valoare este pe linie, cum e n cazul % linie, evident procentajul e o parte din categoria ce apare pe linie. i anume partea care e definit de ctre coloana n care apare valoarea. Valoarea de pe linie este construcii. Deci e vorba de 35,5% dintre cei care au lucrat n construcii. Ei bine, ce e cu ei? Ei fac parte din categoria care e definit pe coloan, adic au ntre 20 i 29 de ani.
Procentaje fac categoriile comparabile. Abia prin compararea procentajelor se poate spune ce e mult i ce e puin n rezultatele statistice ale unui sondaj. Pe de alt parte, procentajele pot induce n eroare dac sunt calculate pentru categorii foarte mici. S privim i un alt tabel de relaionare. Tabelul provine dintr-o cercetare efectuat pe populaia intreprinderilor mici i mijlocii din mediul rural din Romania n 2005. n tabel gsim relaia dintre nivelul de pregtire i genul patronilor de IMM-uri din mediul rural.
Care este nivelul cel mai inalt de pregatire pe care l-ati absolvit? * Genul
107
Genul masculin Care este nivelul cel mai inalt de pregatire pe care l-ati absolvit? Fara pregatire scolara Nr. % linie % coloana Scoala primara Nr. % linie % coloana Scoala generala Nr. % linie % coloana Scoala profesionala / Liceu Nr. % linie % coloana Colegiu / Universitate Nr. % linie % coloana Studii post-universitare Nr. % linie % coloana Total Nr. % linie % coloana 4 100,0% ,6% 7 100,0% 1,1% 16 64,0% 2,6% 298 60,6% 48,0% 251 54,7% 40,4% 45 42,5% 7,2% 621 56,8% 100,0% feminin 0 ,0% ,0% 0 ,0% ,0% 9 36,0% 1,9% 194 39,4% 41,1% 208 45,3% 44,1% 61 57,5% 12,9% 472 43,2% 100,0% Total 4 100,0% ,4% 7 100,0% ,6% 25 100,0% 2,3% 492 100,0% 45,0% 459 100,0% 42,0% 106 100,0% 9,7% 1093 100,0% 100,0%
Un exemplu de citire al tabelului ar fi cam aa: Majoritatea patronilor de IMM-uri din mediul rural snt brbai, acetia reprezentnd 56,8% din total. Exist totui o categorie educaional, a celor cu studii post-universitare, unde femeile sunt preponderente, reprezentnd 57,5%. S vedem cum am gsit valorile din fragmentul de interpretare al tabelului. Am prezentat linia de total, apoi am gsit c una singur dintre categorii prezint o alt distribuie a genurilor dect aceasta. Am ales deci pentru raportare % linie pentru categorie Studii postuniversitare i am prezentat n text una dintre valori, cealalt e bineneles complementar fa de 100% fiimd vorba de distribuia genurilor. Tot aceiai relaie linie / coloan se putea citi i astfel: Din ansamblul patronilor de IMM-uri intervievai 9,7% au studii post108
universitare, categoria aceasta este ns suprareprezentat printre femeile patroni, unde reprezint 12,9% fa de numai 7,2% dintre brbaii patroni. Pentru aceast prezentare am folosit procentajele de pe coloane pentru total, femei i brbai aferente categoriei Studii post-universitare. Mai jos, fragmentul de tabel cu datele:
Nr. % linie % coloana 45 42,5% 7,2% 61 57,5% 12,9% 106 100,0% 9,7%
Pentru cine e curios cum de se poate aa ceva, i ce caut oricum aa muli patroni cu studii post-universitare, iat pe scurt explicaia. n mediul rural snt puine firme, ca atare dintre acestea cabinetele medicale i farmaciile au o pondere relativ mare. Medicii i farmacitii au adesea studii post-universitare, rezideniate, specializri, i alte cursuri. De asemenea aceste profesii includ un numr mare de femei, chiar o preponderen a femeilor, n special la nivelul mediciilor de familie. Ca o regul simpl dar nu obligatorie, analiza unui tabel se face n urmtorii pai: Primele informaii pe care le dm de obicei despre un tabel se refer la linia i/sau coloana de total. Apoi dm valorile modale, celulele care conin cele mai multe cazuri. Urmeaz categoriile distribuite altfel dect cele de total. Acestea se prezint comparativ cu coloana sau linia de total. n fine, dac dorim, putem face comparaii ntre linii sau coloane alese.
Aa cum am fcut i n exemplu, cnd prezentm distribuia pe o anumit linie sau coloan trebuie s o comparm cu distribuia pe linia, respectiv coloana de total. Altfel pim ca acela care aflnd c 80% dintre cei rnii n accidente de circulaie nu au cartea de identitate la ei, a hotrt s i ia ntotdeuna cartea de identitate cu el. A socotit el c are de 4 ori mai puine anse s fie rnit ntr-un accident! Ce a greit individul de fapt? Pi nu a luat n seam c avea de a face cu dou variabile: rnit n accident sau nu, cu cartea de identitate la el sau nu. Numai dac am tii ci dintre toi participanii la trafic au cartea de identitate la ei, adic distribuia de total, am putea trage o concluzie, comparnd cu datele din categoria accidentat. Am putea atunci descoperi prin comparaie dac persoanele care nu au acte de identitate la ei au un profil care i predispune la a deveni victimele unul accidente. i bineneles nici atunci decizia de nu lua actele la el nu i folosete la nimic i asta pentru c posesia actului de 109
identitate i accidentarea snt evenimente totui independente. Modificnd unul dintre ele de fapt nu l influenm pe cellalt. S-ar putea ns amndou s fie efecte ale unor caracteristici comportamentale comune. S-ar putea s fie. Sau nu. nc dou reguli, de ast dat aproape obligatorii, dac nu vrei s fii acuzai de ageamie statistic. Nici o dat nu raportai ntr-un sondaj procentaje cu mai mult dect o zecimal. i aa valorile sunt supuse unor erori, prezentnd mai multe zecimale dai impresia c avei nite informaii mai exacte sau nu nelegei sensul statistic al rezultatelor. De fapt, mai bine ar fi s nu se raporteze nici o zecimal. Totui cutuma de a raporta o zecimal exist pentru c rotunjirea sau trunchierea poate obtura o valoare de 0,5 ceea ce e deja destul de mult. A doua regul: nu prezentai procentaje acolo unde numrul cazurilor e mic. De exemplu, n cercetarea din care provine tabelul de mai sus s-au nimerit doar patru patroni de IMM-uri care au declarat c nu au nici o pregtire colar. Faptul c toi acetia snt brbai nu este relevant i nu e cazul s ascundem numrul mic scriind ceva de genul 100% dintre patronii de IMM fr pregtire colar snt brbai. Toate observaiile pe care le-am fcut pe baza tabelelor au un caracter de ipoteze. Ele nu sunt confirmate n relevana lor statistic. Aceasta ns se poate face. Exist o serie de teste de relaionare care sunt specifice diferitelor tipuri de variabile i care verific n general ipoteze de dependen. Astfel de ipoteze au forma general valorile variabilei 1 snt independente de valorile variabilei 2. Dac reuim s respingem aceast ipotez avem bune motive s considerm variabilele ca fiind relaionate, dependente una de alta. De obicei putem face chiar mai mult. Putem, pe baza rezultatelor de test s spunem cam ct de tare este aceast relaie. Pentru a ajunge ns acolo cred c ar merita s vorbesc puin despre conceptul de independen statistic. Am pomenit de cteva ori pe parcursul acestei cri despre independen. Am vorbit despre independen n special cnd am vorbit despre eantionare, dar a trebuit s menionm conceptul i cnd am comentat istoria statisticii i principalele legi statistice. De asemenea, vreau s elimin o confuzie din capul locului, conceptul de variabil independent n relaia cu o variabil dependent se refer la o relaie unde nu exist independen ntre variabile. Variabilele se influeneaz ntre ele, i care este cea pe care o considerm independent i care dependent ine de construcia modelului, adic de partea ne-
110
statistic din teorie. Denumirile de independen snt ntmpltor aceleai, conceptele nu au nici o legtur. Ce e deci independena evenimentelor aleatoare? Fie prima dat o definiie simpl din teoria probabilitilor apoi o voi comenta. Un eveniment este independent de un altul dac probabilitatea ca evenimentul s aib loc nu se schimb dac are loc sau nu cel de-al doilea eveniment. S ncepem comentariul iar cu prietenul nostru care umbl fr acte la el. Dup ce a aflat c probabilitatea ca pe avion s fie o bomb este de 1 la 10.000 iar probabilitatea ca pe avion s fie dou bombe e 1 la 100.000.000 a hotrt s plece el cu o bomb n concediu. n exemplul de mai sus avem un eveniment repetat: o bomb pe avion. Probabilitatea de a avea dou bombe se calculeaz atunci aa:
p2 = p1 * p1 unde p1 este probabilitatea de a avea o bomb pe avion, deci p2 = 1/10.000 * 1/10.000 = 1/100.000.000 Aceast regul de nmulire este regula de compunere a probabilitii evenimentelor independente. Adic dac existena unei bombe este independent de existena celei de a doua bombe, deci nici unul din teroriti nu tie de cellalt atunci probabilitatea de a avea dou bombe pe avion e produsul probabilitilor celor dou evenimente luate separat. Dac tot am nceput, ce a greit din nou amicul nostru? Pi dac a luat cu el o bomb probabilitatea ca aceasta s fie pe avion este 1, evident dac trece prin verificare, dar dac e gsit, oricum nici omul nu ajunge pe avion ci n alt parte. Atunci ns probabilitatea de a avea dou bombe devine aceiai cu probabilitatea de a avea o bomb pe avion. p2 = p1 * 1 = p1
111
Regula de nmulire a probabilitilor este valabil la compunerea unor evenimente independente. Regula general e puin mai complicat. Fie dou evenimente A i B, atunci probabilitatea ca ele s aib loc de o dat este: P(A i B) = P(A) * P(B | A) Unde P(B | A) este probabilitatea evenimentului B condiionat de A, adic probabilitatea s aib loc B dac are loc i A. Evident, dac A i B snt independente, adic nu se influeneaz reciproc atunci P(B | A) = P(B) adic probabilitatea c s aib loc B nu se schimb dac are, sau nu are, loc A. Conceptul pe care l-am descris mai sus este cel de independen a evenimentelor probabiliste. n testele statistice lucrurile nu stau ns aa de simplu i aa de transparent. Variabilele statistice culese empiric nu prezint nici o dat o independen att de perfect ca variabilele teoretice din probabiliti. Datele pe care le culegem snt ntotdeuna dependente de o grmad de factori care mai de care mai greu de prevzut. n fine, rezultatul este c orice este legat de orice n mai mare sau mai mic msur. Testul trebuie s determine dac legtura poate fi considerat ntmpltoare, un zgomot sau factor de eroare, sau este esenial i necesit explicaii teoretice. Principiul de baz al acestei verificri este n majoritatea cazurilor unul care se poate nelege cel mai bine prin conceptul de tabel de relaionare. Faptul c dou variabile snt independente nseamn de fapt c modificarea uneia nu afecteaz modificarea celei de a doua. Asta nseamn c n tabela care le relaioneaz faptul c o variabil se distribuie ntr-un fel nu poate avea efect pe felul cum se distribuie cealalt variabil. i de aici decurge faptul c rndurile, respectiv coloanele aferente diferitelor categorii ale uneia din variabile sunt proporionale, sau pentru c trebuie s gndim statistic, nu se abat prea mult de la proporionalitate. Deci independena statistic a dou variabile se testeaz de fapt tot prin testarea egalitii ntre nite proporii, anume proporiile determinate de apartenena la categoriile unei variabile pe distribuia celeilalte variabile. O s dau un exemplu teoretic pentru c mi se pare mai simplu: Fie variabila x cu categoriile x1 i x2 i variabila y cu categoriile y1 i y2. O tabel de relaionare ar arta cam aa:
112
x1 y y1 y2 total C11 C21 Ct1
x2 C12 C22 Ct2
total C1t C2t Ctt
n tabel C11 este numrul de indivizi care au valoarea x1 la variabila x i valoarea y1 la variabila y. C1t este numrul total de indivizi care au valoarea 1 la variabila y i orice valoare la variabila x i aa mai departe. Faptul c x i y snt independente ar nsemna, cum am spus c distribuia lui x nu o influeneaz pe cea a lui y, deci ipoteza de independen se traduce astfel:
C11 / C12 = C21 / C22 = Ct1 / Ct2 sau
C11 / C21 = C12 / C22 = C1t / C2t Testele care au fost dezvoltate pentru aceste ipoteze depind de tipul variabilelor. Aa cum am formulat ipoteza mai sus ea e posibil pentru orice tip de variabil, dar metodele calculatorii permit o mai mare complexitate i rezultate mai difereniate pe msur ce tipul de variabil este mai numeric (iertat-mi fie folosirea abuziv a comparativului, dar sper c se nelege ce vreau s spun). Principalele teste care verific significana relaionrii dintre dou variabile depind de tipul acestora: Pentru variabile nominale: Testele Phi i Cramer, coeficientul de contingen Pentru variabile ordinale: Testele Gamma i Kendall, Coeficienii de corelaie (rho) al lui Spearman i (tau) al lui Kendall. Pentru variabile intervalice i raionale: Testele Eta, Coeficientul de corelaie r al lui Pearson, dar i al lui Spearman i al lui Kendall. Pentru orice tip de variabil: Coeficientul 2 (Chi2) al lui Pearson.
113
Cei mai importani dintre cei de mai sus snt coeficienii de corelaie i coeficientul 2. Urmtoarea seciune ne vom preocupa de coeficienii de corelaie, iar apoi n capitolul viitor vom discuta mai pe larg coeficientul 2. Ct despre celelalte teste, urmtoarea regul simpl faciliteaz citirea rezultatelor acestora. Orice program de statistic care calculeaz astfel de teste le raporteaz mpreun cu un rezultat de significan care este o valoare cu att mai bun cu ct e mai aproape de 0. Practic trebuie s citim acest rezultat care este de obicei notat Sig sau S sau chiar significance sau ceva similar. Acest rezultat este probabilitatea de a face o eroare de tip I, adic s respingem ipoteza de independen n condiiile n care aceasta este adevrat. Mai simplu spus cu ct significana testului e mai aproape de 0, ipoteza de independen se poate respinge mai sigur. Exist aici o problem care nu trebuie ns neglijat. Testele de relaionare pot fi influenate disproporioat de mult de diferene pe anumite categorii. Aceasta se ntmpl n special cnd eantionul e suficient de mare dar variabilele testate au un numr mare de categorii. n acest caz o diferen pe o anumit categorie poate duce la respingerea unei ipoteze care este adevrat. E o situaie n care o relaie dintre cele dou variabile face ca rapoartele din ipotez s fie aproape egale cu excepia unuia care ns se abate mult de la celelalte. Rmne n asemenea cazuri de obicei s continum testarea i prelucrarea eventual separnd una dintre cele dou variabile n dou astfel nct valoarea care se abate de la regul s fie modelat de ctre o variabil de sine stttoare, numit de regul variabil filtru. c. Analiza de varian. Testul ANOVA unifactorial.
n capitolul precendent am prezentat teste care verificau ipoteze de egalitate sau inegalitate a unor medii sau proporii. ntrebarea de baz era de regul aceiai: sunt dou grupe de msurtori egale? Putem presupune c diferenele ce apar ntre ele sunt ntmpltoare? Ct de mare trebuie s fie o diferen dintre medii pentru ca s putem spune cu o oarecare siguran c o valoare e mai mare dect alta n mod semnificativ? La nceputul capitolului precedent am prezentat ceva mai pe larg i distribuia normal. Am vzut atunci c ea este caracterizat de dou valori: media i dispersia (numit i varian). Ca atare, dou grupuri de msurtori care dau aceiai medie nu sunt neaprat egale. Ele ar putea avea dispersii diferite. De aici pornete principiul analizei de varian (pe scurt ANOVA de la ANalysis Of VAriance). Cum mai spuneam, cuvntul varian e un sinonim al cuvntului dispersie rezultat din barbarizarea termenului din englez, variance. 114
Similar testelor t sau Z, analiza de varian testeaz dac dou sau mai multe grupuri de date se pot considera c fiind eantioane extrase din aceiai populaie. Puterea metodei vine i de la faptul c poate verifica egalitatea de varian pentru mai multe grupe. La testele t sau Z am putut verifica dac sunt egale anumite caracteristici pentru dou grupe de date. Apare ns suficient de des problema de a verifica dac sunt egale valori pentru mai multe grupuri. O ntrebare de cercetare care se preteaz pentru analiza de varian trebuie atunci s se refere la o variabil caracteristic i la un mod de a mpri datele n grupuri, adic o a doua variabil, care este de obicei nominal sau are oricum un numr mic de valori diferite. De ex: primesc studenii universitii noastre la fel de muli bani de la prini independent de facultatea la care studiaz? Sau independent de anul de studiu? Sunt alegtorii diferitelor partide din Romania egali din perspectiva nivelului de studii sau a veniturilor realizate? Avem aici de fapt patru ntrebri. S lum ultimul exemplu. Aici caracteristica de verificat este venitul realizat (n Romnia se calculeaz de regul lunar), iar grupurile care se compar ntre ele sunt determinate de opiunea de vot. Analiza de varian poate fi considerat ca atare i ca o metod de a testa relaia dintre dou variabile, una cantitativ i una nominal (sau ordinal, ca n exemplul cu anii de studiu). Ea are sens, n general cnd variabila nominal are mai mult de dou valori. Altfel se suprapune n mare msur peste testul t (de fapt valoarea de test a ANOVA, numit F este n acest caz egal cu t2). Ca de obicei, exist premise necesare pentru a putea aplica analiza de varian. Metoda nu poate fi folosit chiar oricum. Principial orice form de ANOVA se refer la o variabil distribut normal. Verificarea normalitii se poate face, de exemplu, cu testul Shapiro-Wilk. A doua condiie este cea de homoschedasticitate pe grupuri, care va fi explicat mai pe larg la pag. 128. Dac aceste condiii nu sunt ndeplinite este mai bine s folosim metode nonparametrice, cum ar fi testele Wilcoxon sau Mann-Whitney dac vrem s comparm dou grupuri de variabile sau testul Kruskal-Wallis pentru mai multe grupuri de variabile. Aceste teste vor fi prezentate pe larg n capitolul 7. Trebuie ns spus c ANOVA este o metod foarte robust, adic nu depinde foarte mult de distribuie att timp ct aceasta nu se abate prea tare de la normalitate. ANOVA d rezultate bune chiar dac normalitatea este nclcat n oare care msur. Pe de alt parte absena homoschedasticitii este mai grav i trebuie tratat cu grij, aa cum se face i la testul t.
115
n cele ce urmeaz o s discutm varianta cea mai obinuit i simpl: ANOVA unifactorial. Aici variabila care determin grupurile se mai numete i factor, fr prea mare legtur cu folosirea cuvntului n alte metode statistice, cum ar fi analiza factorial, de exemplu. Principiul calculatoriu este urmtorul: se calculeaz media variabilei pentru fiecare grup determinat de ctre variabila factor, adic venitul mediu pentru fiecare grup de alegtori, de exemplu. Apoi se calculeaz dou metode de estimare a varianei totale, una numit extern i una numit intern. Valorile obinute se folosesc pentru a calcula testul F (testul lui Fischer), raportul dintre ele. Am mai pomenit testul F la testarea homoschedasticitii pentru testul t. Dac grupurile pot fi considerate eantioane independente extrase din aceiai populaie variana extern (a mediei ntre grupuri) trebuie s fie mai mic dect variana intern a mediei n grupuri. Aceasta este o consecin a teoremei limit central pe care am mai pomenit-o n aceast carte. Un exemplu simplu va face metoda mai inteligibil. Fie trei grupuri de studeni la ciclul de licen mprite dup factorul an de studii. Pentru fiecare considerm banii de buzunar primii de la familie n sute de lei. Rezult urmtoarea tabel de date:
An 1. An 2. An 3. 6 5 6 8 9 5 10 6 8 3 3 2 4 8 5
1. Prima dat calculm media pentru fiecare grup. Obinem: M1 = 6.8 M2 = 6.4 M3 = 4.4 2. Calculm apoi media general: M = 5.87 3. Calculm suma ptratelor extern, care e de fapt o form de varian a mediilor pe grupuri nmulit cu numrul de cazuri. Formula este: SSB = n1 (M1 M)2 + n2 (M2 M)2 + n3 (M3 M)2 = 16,53 116
unde notaia SSB vine din englez de la Sum of Squares Between, iar valorile n1, n2 i n3 sunt numrul de cazuri din fiecare grup. Calculm i numrul de grade de libertate df (tot din englez, degrees of freedom) care e numrul de grupuri minus unul. Aici dfB = 3 1 = 2. 4. Calculm suma ptratelor intern, care este suma tuturor abaterilor de la medie calculate pe grupuri. Daca variabila noastra o notm cu An1, An2 i An3 rezult: SSW = i (An1i M1)2 + i (An2i M2)2 + i (An3i M3)2 = 61,2 SSW vine de la Sum of Squares Within. Calculm i un nou numr de grade de libertate dfW care este numrul de grupuri ori numrul de cazuri pe grup minus unul. dfW = 3 (5 - 1) = 12 5. mprim fiecare sum de ptrate cu gradele de libertate aferente. SSB / dfB = 16,53 / 2 = 8,265 SSW / dfW = 61,2 / 12 = 5,1 6. Valoarea de test F (Fischer) este raportul acestor dou valori F = 8,265 / 5,1 = 1,621. Ca regul general, e bine de repetat, valorea testului F are significan cu att mai bun cu ct e mai ndeprtat de valoarea 1. Valoarea critic de significan 0,05 este 3,68 iar cea de significan 0,01 este 9,27. Deci, dac F e mai mare dect 9,27 se poate respinge ipoteza de egalitate cu significan de 0,01 dac valoarea F e mai mare dect 3,68 cu o significan de 0,05. n cazul nostru nu se poate respinge ipoteza nul. Am introdus datele de mai sus i ntr-un software statistic. Tabela de rezultate reproduce exact valorile calculate mai sus. Ea arat astfel:
ONEWAY ANOVA VAR00001 Suma ptratelor ntre grupuri n cadrul grupurilor Total 16,533 61,200 77,733 df 2 12 14 Media ptratelor 8,267 5,100 F 1,621 Significanta ,238
Observm c apar sumele de ptrate, apoi gradele de libertate, rezultatele mpririi sumelor de ptrate la gradele de libertate i valoarea testului F. Soft-ul ne ajut oferind imediat i significana exact. Aceasta este 0,238 o valoare insuficient pentru a respinge ipoteza. Care e deci concluzia? Nu putem respinge ipoteza de egalitate a grupurilor din perspectiva variabilei testate. n cazul nostru: datele pe care le avem nu sunt suficiente ca s putem stabili c studenii din ani diferii de studii primesc sume de bani diferite de la familiile lor.
117
Cum am vzut ANOVA e n practic uor de folosit i robust. Soft-ul d toate valorile necesare, se citete valorea de significan i se poate stabili dac grupurile pot sau nu pot fi considerate ca fiind eantioane independente obinute din aceiai populaie. Adic dac variabila testat difer esenial n funcie de variabila factor. Putem consider testul i ca o metod de verificare a relaiei dintre dou variabile, una normal distribuit, alta nominal. d. Corelaia simpl i parial Corelaia Pearson Corelaia Pearson este o metod de testare a relaiei dintre dou variabile raionale sau intervalice. Din pcate se folosete uneori n mod abuziv i la variabile ordinale. Coeficientul de corelaie este o valoare numeric care indic gradul de dependen i direcia dependenei ntre dou variabile statistice. Dei n general identificat cu matematicianul britanic Karl Pearson care a analizat i descris metoda pe larg, coeficientul a fost prima dat introdus de ctre Francis Galton, un statistician (i nu numai) britanic dintr-o generaie anterioar. Dat fiind dou variabile x i y, valorile pe care le iau acestea pentru un individ i, xi i yi, coeficientul de corelaie rxy al lui Pearson se calculeaz astfel:
Formula nu e foarte simpl, exist ns bineneles tot felul de programe pe calculator care tiu s o calculeze astfel nct btaia noastr de cap nu este s nmulim i s ridicm la ptrat ci s interpretm rezultatele. Exist ns i cteva precondiii ale utilizrii coeficientului de corelaie care snt foarte importante: Cele dou variabile care se relaioneaz trebuie s fie raionale i distribuite normal, dac aceasta nu e cazul trebuie folosit un alt indicator de relaionare, de ex. Chi2
118
Cele dou variabile aleatoare trebuie s aib dispersii finite i nenule. Aceast condiie e relativ slab fiind considerat practic ndeplinit ntotdeuna. Coeficientul de corelaie verific numai relaii liniare ntre variabile. Dou variabile aflate ntr-o relaie neliniar, de exemplu x = sin y, dei se determin complet una pe alta, vor iei ca fiind necorelate.
S vedem ns ce valori d coeficientul de corelaie i cum se interpreteaz acestea: Intervalul de valori al coeficientului de corelaie este (-1, +1). determinare complet negativ. Atunci cnd x crete, y scade. corelaie negativ puternic. corelaie negativ medie corelaie negativ slab nseamn c cele dou variabile nu sunt relaionate corelaie pozitiv slab corelaie pozitiv medie corelaie pozitiv puternic determinare complet pozitiv
rxy = -1 rxy ntre -1 i -0,7 rxy ntre -0,7 i -0,3 rxy ntre -0,3 i 0 rxy = 0 rxy ntre 0 i 0,3 rxy ntre 0,3 i 0,7 rxy ntre 0,7 i 1 rxy = 1
Criteriile din tabelul de mai sus snt cele care se folosesc de regul n sociologie. n psihologie se prefer adesea intervale mai apropiate de origine, o corelaie fiind considerat puternic chiar de la un coeficient de 0,5 n sus. Oricum trebuie observat c intervalele snt n mare msur arbitrare i trebuie privite mai mult ca nite indicaii dect ca regul. n practica de cercetare e mai bine s se analizeze corelaiile comparativ cu ansamblul valorilor de corelare din cadrul cercetrii. Aceasta este adevrat i referitor la indicatorii de regresie care au o semnificaie nrudit cu coeficienii de corelaie. Un exemplu de interpretare cred c este oricum necesar. n tabelul de mai jos se gsete corelaia dintre vrst patronilor de IMM-uri din Transilvania i cifra de afaceri a firmei, conform unei alte cercetri efectuate n 2006:
119
12. Care a fost cifra de afaceri a firmei in 2005? 12. Care a fost cifra de afaceri a firmei in 2005? Corelaia Pearson Significan (bilateral) N 48. Ce varsta aveti? Corelaia Pearson Significan (bilateral) N 539 ,096(*) ,028 530 1
48. Ce varsta aveti? ,096(*) ,028 530 1
980
* Corelatia este significant cu nivelul de 0,05 (bilateral).
Tabelul prezint valorile coeficientului de corelaie, significana acestuia i numrul de valori utilizate pentru calcul. Prima observaie ce trebuie fcut n cazul acestui tabel e discrepana mare n numr de rspunsuri la ntrebri. Astfel, se vede c la ntrebarea 12. Care a fost cifra de afaceri a firmei in 2005? au rspuns 539 persoane, iar la ntrebarea 48. Ce vrst avei? au rspuns 980 de persoane. Pentru corelaie s-au putut folosi 530 de cazuri, cei ce au rspuns la ambele ntrebri. De altfel, eantionul final a avut exact 1000 de persoane. Faptul c puin peste jumtate au rspuns numai la ntrebarea 12. poate duce la bnuiala unei selecii defazate. Adic, cei ce au rspuns la ntrebare au ceva aparte, o caracteristic difereniatoare fa de cei care nu au rspuns. Chiar i aa, putem testa dac pentru ei exist o legtur cu ntre vrst i cifra de afaceri a firmei. Valoarea coeficientului de corelaie este 0,096 deci o valoare foarte mic. Aceasta nseamn c putem linitii considera c cifra de afaceri a firmei i vrsta patronului nu au o legtur statistic. Bine, bine, dar ce ne facem cu significana? Am spus doar c aceasta este probabilitatea de a face o eroare de tip I. Adic de a respinge o ipotez de independen adevrat. i n cazul de mai sus significana este sub 0,05 deci ansa ca s respingem o ipotez adevrat e foarte mic. Ca s nelegem corect cele dou valori trebuie s separm dou concepte: Ct de tare snt relaionate cele dou variabile? respectiv Ct de siguri putem fi de aceast relaionare? Coeficientul de corelaie ne rspunde la prima dintre aceste ntrebri, significana lui la cea de a doua. S mai lum un exemplu din aceiai cercetare, relaia dintre cifra de afaceri i profitul net al firmei:
120
12. Care a fost cifra de afaceri a firmei in 2005? 12. Care a fost cifra de afaceri a firmei in 2005? Corelaia Pearson Significan (bilateral) N 13. Care a fost profitul net al firmei in 2005? Corelaia Pearson Significan (bilateral) N 539 0,045 0,394 368 1
13. Care a fost profitul net al firmei in 2005? ,045 ,394 368 1
399
Din tabela de sus se vede c nici ntre cifra de afaceri i profitul net al IMM-urilor nu exist o corelaie, dar c nici significana nu e prea grozav. Deci ansa de a face o eroare de tip I, adic de a respinge o ipotez adevrat este mare, de vreo 40%. Asta nseamn c n primul caz putem spune c exist o corelaie foarte slab ntre cele dou variabile, pe cnd n acest al doilea caz nu putem respinge ipoteza de independen a variabilelor. Exist n practic vreo diferen ntre aceste dou interpretri? Da i nu. Ambele ne ncurajeaz s considerm variabilele ca fiind n mare msur independente. Dac ns significana e bun, adic apropiat de 0, avem o mai mare ncredere n rezultat, rezultatul e mai sigur. Ali coeficieni de corelaie Am vzut mai nainte c coeficientul de corelaie al lui Pearson presupune variabile raionale sau intervalice. Exist ns i coeficieni care permit relaionarea de variabile ordinale. Cei mai uzuali snt coeficientul (rho) al lui Spearman i coeficienii (tau) ai lui Kendall, din care exist trei variante a, b i c. Aceti coeficieni nu fac presupuneri asupra distribuiei datelor, aa c pot fi folosii nu numai atunci cnd datele nu snt intervalice sau raionale ci i atunci cnd, dei snt intervalice sau raionale, ele nu snt distribuite normal sau relaia dintre ele nu este liniar. Ne vom ocupa acum numai de coeficientul al lui Spearman, numit i coeficientul de ordine de rang (rank-order), care are avantajul de a avea o form i ca atare i o interpretare foarte asemntoare cu coeficientul r al lui Pearson. S vedem formula prima dat, dei i n acest caz este foarte puin probabil s o calculm de mn: 121
n formul n este numrul de perechi pentru care se calculeaz corelaia. d este diferena dintre rangul lui x i rangul lui y pentru cte o pereche. Rangul este poziia pe care o are o valoare x sau y n lista ordonat a tuturor valorilor culese. De fapt, coeficientul lui Spearman este exact coeficientul lui Pearson la care valorile variabilei snt nlocuite cu rangurile lor. Aa se elimin problema caracterului lor nenumeric i se folosete numai faptul c snt ordonate. Rangurile elimin problema diferenei inegale ntre valorile ordonate consecutiv ale variabilelor ordinale. Deoarece am vzut c metoda de calcul poate fi interpretat ca un coeficient de tip Pearson al rangurilor i interpretarea valorilor rezultate din calcul se face la fel. S vedem deci un exemplu. n tabelul de mai jos avem corelaia dintre viteza de acomodare cu locul de munc i gradul de satisfacie cu acesta la un grup de absolveni ai seciei de informatic a Universitii de Vest din Timioara. Ambele variabile snt ordinale. Dei numrul de cazuri e mic se observ o corelaie cu o significan foarte bun. Ipoteza de independen dintre cele dou variabile se poate respinge cu o certitudine mai mare de 99%. Nivelul de corelaie nu este ns foarte puternic, valoarea coeficientului fiind 0,509. Ct de mare este de fapt aceast valoare ar trebui determinat prin comparaie cu ali coeficieni de corelaie din acelai studiu.
Ct de repede s-a acomodat cu jobul (1,,5) Spearman-Rho Ct de repede s-a acomodat cu jobul (1,,5) Este satisfacut de jobul actual? Coeficient Sig. (bilateral) N Coeficient Sig. (bilateral) N ** Corelatia este significanta cu nivelul de 0,01 (bilateral). 1,000 . 54 ,509(**) ,000 54 Este satisfacut de jobul actual? ,509(**) ,000 54 1,000 . 54
Corelaia parial
122
O problem important a coeficienilor de corelaie aa cum i-am prezentat pn acum este influena pe care o pot avea alte variabile asupra relaiei studiate. Din cele vzute pn acum nu am putut aplica principiul ceteris paribus. Adic nu am putut studia efectul unei variabile asupra alteia pstrnd factorii de mediu constani. Corelaia parial este o metod de a studia relaia dintre dou variabile controlnd efectul unei de a treia. Ca de obicei, devine mai uor de neles cu un exemplu. M voi folosi de un sondaj de opinie fcut n judeul Arad, att n mediul rural ct i urban, pentru a studia consumul cultural. n urmtorul tabel apare corelaia (Pearson) dintre numrul de cri cumprate anual i vrst:
Q15. n medie, cte carti cumparati I2. vrsta: Corelaie Pearson I2. vrsta: Coeficient Sig. (bilateral) N Q15. n medie, cte carti cumparati pe an? Coeficient Sig. (bilateral) N 1,000 . 594 -,212(**) ,000 594 pe an? -,212(**) ,000 594 1,000 . 595
** Corelatia este significanta cu nivelul de 0,01 (bilateral).
Corelaia d un rezultat ct se poate de clar: cu ct vrsta e mai mic numrul de cri cumprate anual e mai mare. Analiznd valorile din tabel gsim o corelaie negativ, de putere mic, dar significan foarte bun. ntrebarea pe care putem s ne-o punem n acest caz este ns dac efectul e dat chiar de vrst sau exist variabile mediatoare n acest lan cauzal. Fiind vorba de o tem de consum cultural este normal s studiem care e de fapt influena nivelului de pregtire, variabila care are de regul efectul cel mai mare asupra consumului cultural.
Q15. n medie, cte Variabile de control carti cumparati I2. vrsta: I4. nivel de pregatire: I2. vrsta: Corelatie Sig. (bilateral) 1,000 . pe an? -,087 ,034
123
Grade de libertate Q15. n medie, cte carti cumparati pe an? Corelatie Sig. (bilateral) Grade de libertate
0 -,087 ,034 591
591 1,000 . 0
ntr-adevr controlnd efectul nivelului de pregtire, efectul vrstei se diminueaz de la o corelaie de peste -0,2 se ajunge la un nivel de sub -0,1. Deci efectul sesizat al vrstei nu este independent de nivelul de pregtire. Faptul c significana a rmas bun ne asigur importana rezultatului. Tinerii avnd n general mai mult educaie dect vrstnicii, efect al expansiunii nvmntului n ultimele dou decenii, ajung s i cumpere mai multe cri. Pe de alt parte discrepana dintre rezultate nu este att de mare nct s nu putem totui spune c tinereea are un efect, foarte mic dar semnificativ, asupra cumpratului de cri chiar n condiiile controlrii nivelului de pregtire. Am analizat corelaiile pariale dup aceiai metodologie pe care o folosim i pentru corelaiile simple, fie ele Pearson sau Spearman. i e corect aa. Corelaiile pariale snt corelaii de tip Pearson, aceasta nseamn c ele verific de regul relaii liniare ntre variabile intervalice sau raionale (n general variabile cantitative) distribuite normal. De aici provine o premis important, corelaia parial trebuie analizat n relaie cu corelaia Pearson i nu cu alte forme de corelaii. Ca atare, n exemplu am forat un pic metoda. i anume, am folosit o variabil de control ordinal. Celelalte dou variabile n cauz snt raionale i se pot presupune a fi distribuite mai mult sau mai puin normal. Verificarea normalitii se poate face de fapt cu un test, testul Kolmogorow-Smirnow, dar de regul nu este necesar pentru a accepta rezultatele unei analize corelaionale. Variabila de control are ns un cu totul alt rol n felul n care se calculeaz corelaia parial. Corelaia parial nu este o corelaie de trei variabile. Utilizarea variabilelor ordinale pe post de variabile de control, dei nu ntru totul corect este foarte des fcut i de fapt acceptabil. e. Regresia liniar simpl i multipl Analiza de regresie este o metod statistic considerat n general a fi ceva mai avansat. i aceasta, n special pentru c presupune o serie de condiii ce se impun datelor. n sine metoda este destul de uor de aplicat i de analizat fiind practic un pas mai departe n ordinea lucrurilor pornind de la corelaia Pearson. Regresia liniar analizeaz de asemenea relaii 124
liniare ntre variabile cantitative distribuite normal, dar pe lng puterea relaiei ncearc s traseze de fapt chiar forma acesteia. Modelul regresiei liniare presupune existena unei relaii de cauzalitate ntre o variabil aa-zis dependent i una, sau mai multe, variabile independente care o influeneaz pe cea dependent. Metoda ncearc s gseasc ct de mult determin modificarea unei variabile modificarea celeilalte i ct din modificarea unei variabile e explicabil prin modificarea celeilalte. Pentru a ne apropia ct mai corect de problema ce i-o pune analiza de regresie, cel mai bine ar fi s lum un set de date i s urmm pas cu pas construirea regresiei liniare. Vom exemplifica bineneles pentru nceput ntregul demers pentru regresia liniar simpl, adic cu o singur variabil independent. Vom folosi o relaie ct se poate de clar, cea dintre numrul de studeni la 10.000 de locuitori i produsul intern brut pe cap de locuitor. Datele provin din diferii ani (de fapt anii 1950 - 2000) din aproape toate rile europene (25 de ri) i au fost colectate pentru un studiu bazat tocmai pe diverse tipuri de ecuaii de regresie (Reisz, Stock, 2006). Primul pas ntr-o analiz de regresie, numit uneori excesiv de pretenios i metoda grafic este reprezentarea relaiei dintre cele dou variabile ca un nor de puncte i ncercarea de a construi ipoteze pe baza efectului pur vizual. Graficul de mai jos este acest nor de puncte pentru cazul nostru.
125
600,00
500,00
400,00
studper10000
300,00
200,00
100,00
0,00
5000
10000
15000
20000
25000
30000
GDP
Ce putem observa este c valori mai mari ale numrului de studeni la 10.000 locuitori par a se asocia cu valori mai mari ale produsului intern pe cap de locuitor. Asocierea se poate presupune a fi oarecum liniar. Graficul e dominat de un grup compact de puncte care se grupeaz asemntor cu o linie. Pe lng acest grup exist ns i multe puncte care se prezint oarecum disparat de rest. Rolul modelului de regresie este s descrie matematic linia principal i s determine cam ct din relaie dintre cele dou variabile se regsete n aceasta i ct e de fapt cuprins n cazurile excepionale. Altfel, metoda ncearc s determine ct e regularitate liniar n relaia dintre cele dou variabile. Ideea e de a trasa o dreapta pe graficul de puncte de mai sus astfel nct ea s fie ct mai apropiat de toate punctele reprezentate. Aceast apropiere de toate punctele e tocmai problema major pe care o ridic regresia.
126
500,00
studper10000
400,00
300,00
200,00
100,00
0,00 5000 10000 15000 20000 25000
GDP
n graficul de mai sus apare acelai nor de puncte, de ast dat cu o linie trasat pe poziia dreptei de regresie. Ca orice dreapt i aceasta are o ecuaie de forma urmtoare:
S = b0 + b1 * GDP GDP e desigur valoarea x a dreptei, iar S este valoarea de pe axa y pentru dreapt. Valoarea S se dorete s fie un fel de aproximare a valorii studper10000. Este o aproximare pentru ca aa cum spuneam, S se determin astfel ncit s fie ct mai aproape de punctele norului. Desigur punctele de pe dreapt aferente valorilor variabilei GDP nu au cum sa fie egale cu punctele potrivite cu valorile Studper10000. Dac ar fi egale, ar iei tocmai norul de puncte i nu o dreapt. Fiecare din punctele din nor difer de punctele de pe dreapt printr-o abatere. Deci Studper10000 S = abatere, adic, nlocuind formula dreptei care determin S avem Studper10000 (b0 + b1 * GDP) = abatere 127
Studper10000 = b0 + b1 * GDP + abatere Dat fiind c ecuaia de mai sus trebuie s fie satisfcut pentru toate valorile msurate ea se traduce de fapt ntr-un numr att de mare de ecuaii cte perechi de msurtori exist. Dac notm cu indici i aceste perechi rezult formula:
Studper10000i = b0 + b1 * GDPi + abaterei Aceast ultim form este ceea ce n general numim ecuaia de regresie. n aceast ecuaie Studper10000, GDP i abatere snt variabile aleatoare, iar b0 i b1 pur i simplu numere, adic aa-numite valori scalare. Studper10000 se numete de obicei variabil int sau variabil dependent, GDP este pe poziia numit regresor, variabil explicativ sau independent. Modelul presupune de fapt c variabila independent se repercuteaz cauzal asupra variabilei dependente i felul cum ea o cauzeaz pe aceasta este unul modelabil liniar, adic n practic, apropiat de o linie. Abaterea se mai numete uneori i reziduu sau eroare. n cazul unei cercetri, valorile variabilelor, att cea dependent ct i cea independent snt cunoscute. Ele rezult din msurtori, indiferent de ce tip ar fi acestea. Ceea ce trebuie calculat snt coeficienii ecuaiei, adic coeficienii dreptei de regresie, valorile b0 i b1. Coeficienii acetia trebuie gsii n aa fel nct abaterea s fie ct mai mic. Abaterea care se minimizeaz trebuie s se refere la toate punctele. De aceea prima idee ar fi s minimizm suma tuturor abaterilor. tim deja c asta nu e o idee bun, de cnd am calculat dispersia. i anume, nu e o idee bun pentru c abateri pozitive i negative se atentueaz i ceea ce dorim noi este ca abaterile s fie ct mai mici n valoare absolut. De aceea cel mai bine este s ncercm s minimizm suma ptratelor abaterilor. Metoda care se bazeaz pe acest principiu este una dintre cele mai importante n statistic i se numete de regul metoda celor mai mici ptrate. n englez se zice ordinary least squares i de aceea cel mai adesea se prescurteaz cu OLS. Metoda e surpinztor de veche, fiind publicat la nceputul secolului al nousprezecelea n mod independent de ctre americanul Robert Adrain (1808), Gauss (1809) i Legendre (1805). Gauss a fost ns cel care a enunat teorema care ne asigur de faptul c estimarea dat de metoda celor mai mici ptrate este cea mai bun estimare liniar nebiasat a dreptei de regresie. O asemenea estimare se mai numete BLUE (best liniar 128
unbiased estimate). Deoarece teorema a fost demonstrat mai trziu de ctre statisticianul rus Andrei Markov, ea poart n general numele de teorema Gauss-Markov. Metoda OLS este ns destul de pretenioas din punct de vedere al condiiilor necesare pentru ca ea s fie aplicabil i eficient. Condiiile, care se numesc de regul condiiile GaussMarkov snt urmtoarele:
Variabilele aleatoare abaterei au media 0. Variabilele aleatoare abaterei au o dispersie finit egal pentru toi indicii i. Aceasta se numete homoschedasticitate (sau omogenitate a dispersiei). Variabilele aleatoare abaterei snt necorelate ntre ele. Condiia se mai numete absena autocorelaiei.
Prima dintre condiii este nesemnificativ. La urma urmei dac media variabilelor abaterei are fi nenul s-ar putea aduga aceast valoare la termenul liber al ecuaiei i abaterile s-ar aduce astfel la media nul. Celelalte dou condiii pot fi uneori greu de ndeplinit n cercetri cu date reale. Cu toate acestea, metod OLS se folosete chiar i n cazurile n care condiiile GaussMarkov nu snt perfect ndeplinite. Condiia de homoschedasticitate se poate testa cu testul Breusch-Pagan. Dac se aplic OLS n condiii de heteroschedasticitate de obicei coeficientul de corelaie r al lui Pearson (i coeficientul de determinare R2 despre care vom vorbi n curnd) pot fi subestimai. Aceasta e mai puin grav dect supraestimarea. n practic s-ar putea s nu recunoatem nite relaii existente dar e puin probabil s gsim ceva acolo unde nu e nimic. Altfel spus ipoteza de independen ntre variabilele din ecuaia de regresie este mai greu de respins n condiii de heteroschedasticitate dect ar trebui s fie. Condiia de absen a autocorelaiei se testeaz cu testul Durbin-Watson10. Problema autocorelaiei abaterilor este cel mai adesea prezent n cercetrile cu serii de timp, adic cu valori ale unor variabile care snt msurtori ale aceluiai fenomen n diferite momente de timp. Abaterile care rezult din ecuaii cu valori pentru aceiai indivizi n diverse momente de
10
Ca i n cazul Breusch-Pagan i pentru testul Durbin-Watson, consider c modul de calcul i interpretare a acestor teste depete cadrul unui manual introductiv de statistic. Important este cunoaterea numelui testului pentru ca la nevoie s fie posibil documentarea. Iar ca regul general, citirea valorii de significan a testului pe care o dau aproape toate soft-urile statistice poate da o indicaie bun de interpretare.
129
timp au toate ansele s prezinte autocorelaii. Autocorelaia duce de obicei la supraevaluarea significanei testelor, de exemplu al testului t. Exist o serie ntreag de variante de rezolvare ale acestei probleme. Fiecare dintre ele are ns dezavantaje. Cercetri recente au ajuns la concluzia c folosirea metodei OLS rmne de preferat multor variante mai complicate de definire sau/i rezolvare a regresiei liniare. Pentru a avea ncredere n rezultatele date de metoda OLS n condiii de autocorelaie a abaterilor, se impun o serie de alte condiii asupra variabilelor. S vedem deci care snt rezulatatele regresiei liniare i cum se citesc ele. Fie deci ecuaia de regresie pe care am prezentat-o mai sus. S vedem rezultatele metodei OLS i apoi s le explic pas cu pas.
Model 1
R ,728(a)
R-Patrat ,530
Eroarea standard a estimatorului 78,75713
Coeficienti
Coeficienti nestandardizati
Coeficieni standardizati
Model 1 (Constanta) GDP
B -7,664 ,016
Eroarea standard 5,143 ,000
Beta
T -1,490 ,728 35,052
Significanta ,136 ,000
a Variabila dependenta: studper10000
Tabelele de mai sus snt o parte a rezultatelor metodei OLS. De obicei se mai raporteaz i valori intermediare cum ar fi chiar sumele de ptrate calculate i altele. Prima tabel ne precizeaz ct de puternic este legtura dintre cele dou variabile din ecuaie. Coeficientul R este chiar coeficientul de corelaie al lui Pearson. Valoarea este n cazul nostru o valoare care desemneaz o corelaie destul de puternic, 0,728. Acest coeficient se ridic la ptrat i se obine R2 = 0,530, coeficientul de determinare. Coeficientul acesta reprezint procentul din modificarea variabilei int care se poate explica prin modificare variabilei regresor. n cazul nostru am citi cam aa: 53% din variaia numrului de studeni la 10,000 de
130
locuitori se explic prin variaia produsului intern brut pe cap de locuitor11. Deci, cu ct R2 e mai mare, regresorii au un efect mai mare asupra variabilei dependente. Ca efect al intervalelor de evaluare a coeficientului de corelaie, o regresie este puternic dac R2 e mai mare dect 0,5 (corespunztor unui R mai mare de 0,7 ridicat la ptrat). De fapt, valorile trebuie i de aceast dat privite n contextul cercetrii practice. Dac n general n teme de natur psihologic chiar i un R2 de 0,3 e considerat bun, n econometrie, unde relaiile dintre indicatori se supun unor reguli mai simple, valori mari, de peste 0,9 nu snt chiar o raritate. Al doilea tabel conine coeficienii de regresie, numii adesea b sau B. Coeficienii b snt cei din ecuaia de regresie propriu-zis. Deci pe baza tabelei putem spune c:
Studper10000i = -7,664 + 0,012 GDPi + abaterei sau, c
Si = -7,664 + 0,012 GDPi este ecuaia dreptei de regresie. Pentru fiecare dintre aceti coeficieni se propune i o ipotez de forma: coeficientul b este nul ceea ce echivaleaz cu a spune regresorul nu are nici un efect asupra variabilei int. Pentru aceast ipotez se efectueaz testul t i se d n tabel valoarea testului i significana lui. Vedem c significana coeficientului lui GDP este foarte bun (testul t d peste 35), ns significana coeficientului termenului liber nu e aa grozav (t = -1,49). Deci acest coeficient al termenului liber este ceva mai nesigur. Coeficientul lui GDP se poate citi astfel. Dac valoarea GDP crete cu o unitate, numrul studenilor la 10000 de locuitori crete cu 0,012 uniti. Desigur exprimarea aceasta sun foarte mecanicist i nu trebuie neleas altfel dect ca o modelare, sau poate chiar mai vag, ca o metafor a relaiei dintre variabile. Totui vom vedea c interpretarea coeficienilor de regresie, precum i a coeficientului de determinare, ne poate da indicaii despre puterea cu care influeneaz diferite variabile independente variabila dependent a unei cercetri.
11
n cercetrile mele pe aceast tem, rezultatul a fost pn la urm mai nuanat, varianta de mai sus nelund n seam eterogeniti locale existente n felul cum variabilele educaionale i economice se influeneaz reciproc. Am ales s prezint aici ns forma cea mai simpl, scopul fiind la urma urmei unul educaional. Deci, nu m citai cu rezultatul din exemplu, legtura dintre numrul de studeni i produsul intern brut e mai complicat dect pare aici!
131
Coeficientul Beta din tabel este o valoare standardizat care ia n seam valoarea medie i dispersia variabilei independente. Aceasta va fi interesant, cum vom vedea, n special la regresia multipl pentru c va permite compararea efectelor mai multor variabile independente care evident au medii diferite. Regresia multipl extinde metoda prezentat mai sus la un numr mai mare de variabile independente care se repercuteaz asupra aceleiai variabile int. Voi descrie n continuare i aceasta pentru ca apoi s vedem n continuare cum se pot analiza acestea. Pentru a exemplifica regresia multipl o s folosesc o extindere a aceleiai probleme. Regresia multipl difer de cea simpl prin numrul regresorilor. Deci, dac n exemplul precedent am avut un singur regresor al crei efect asupra variabilei int ne interesa, n cazul unei regresii multiple numrul regresorilor va fi mai mare. Pentru a pstra lucrurile ct mai simple posibil s lum doi regresori. n exemplul simplu, inta era numrul de studeni la 10.000 de locuitori i regresorul era produsul intern brut pe cap de locuitor. S lum acum un al doilea regresor, numrul de organizaii neguvernamentale internaionale active n anul studiat n ara cu pricina. Motivaia acestei extinderi a modelului este urmtoarea: teoriile globalizrii ale colii neoinstituionaliste de la Stanford (John Meyer, Francesco Ramirez, i alii) gsesc c expansiunea nvmntului are loc peste tot n lume indiferent de nivelul de dezvoltare economic. Mai mult, ei gsesc c n a doua jumtate a secolului 20, expansiunea educaional a avut loc peste tot n lume, indiferent dac economia era n cretere sau n descretere. De aici ei ajung la concluzia c dezvoltarea nvmntului nu are legtur cu dezvoltarea economic. Ipoteza lor este ns aceea c dezvoltarea nvmntului este un epifenomen al globalizrii i ca atare ar trebui s depind de un indicator care msoar nivelul de globalizare al unei ri. Tot ei propun numrul de organizaii non-guvernamentale internaionale active la un moment dat ntr-o ar ca un astfel de indicator. Acest indicator este notat de regul cu ingo (de la international non-governmental organizations). Am avea atunci o ecuaie de regresie n care avem doi regresori, unul indicnd dezvoltarea economic i un altul gradul de globalizare. Ecuaia este urmtoarea:
Studper10000i = b0 + b1 * GDPi + b2 * ingoi + abaterei 132
Observm c logica formulei rmne aceiai, apare un termen n plus, cu coeficientul de regresie b2 i variabila de regresie ingoi. Statistic vorbind, pn acum efectul pe care l avea ingo asupra variabilei int nu era evideniat separat, deci fcea parte din ansamblul de efecte care se adun n abatare pentru a forma o variabil aleatoare. Desigur, aa cum vom vedea o parte a efectului variabilei ingo era de asemenea inclus implicit n efectul produsului intern brut pe cap de locuitor. Deci abaterea din noua ecuaie de regresie nu mai conine aceiai lucru ca i abaterea din ecuaia simpl, ea este curat de efectul pe care l-ar putea avea ingo. Ct de mare este acest efect ne poate spune o comparaie ntre ecuaia de regresie simpl i cea multipl. Pn acolo, cteva remarci. Condiiile pe care le-am specificat pentru ca metoda celor mai mici ptrate s fie funcional rmn aceleai. Apare ns un fel de condiie suplimentar. Aceasta nu influeneaz eficiena metodei dar schimb modul cum se citesc rezultatele. Ea se refer la coliniaritatea regresorilor, adic independena lor. n esen este de preferat ca regresorii s fie independeni. Dac snt independeni efectele lor asupra variabilei int snt pur i simplu nsumate. Dac ns nu este aa, i de obicei n lumea real nu este aa, atunci efectul sumei regresorilor este cu att mai mic fa de suma efectelor regresorilor cu ct regresorii snt mai corelai ntre ei. Poate sun puin neclar, ce vreau eu s zic de fapt. Fiecare regresor ar putea aprea ntr-o regresie simpl, de exemplu, una cu produsul intern brut, ca i n exemplu, i una cu organizaiile non-guvernamentale internaionale. Fiecare dintre acestea dou ar da un anume nivel de explicare a variaiei numrului de studeni, o valoare specific a R2. n exemplul nostru, aceast valoare este ceva peste 50% pentru ambii regresori (vezi Reisz, Stock, 2006). Dac cei doi regresori ar fi independeni, sau aproape independeni, regresia multipl ar trebuie s dea o valoare R2 de 100%!. Este ns de bun sim s observm c o ar este cu att mai ncadrat n societatea global cu ct este mai dezvoltat economic. Deci cei doi indicatori trebuie s fie corelai destul de puternic. De fapt, coeficientul de corelaie este de 0,83 i relevant cu o significan de 0,000. Fiind o corelaie att de mare e de bnuit c adugnd la regresia simpl ce verific efectul produsului intern brut i efectul globalizrii rii nu se schimb mare lucru. O astfel de situaie se numete multicoliniaritate sau, dac corelaia e aproape perfect, redundan. S vedem rezultatele ecuaiei noastre de regresie multipl:
133
Model 1
R ,753
R-Patrat ,566
Eroarea standard a estimatorului 76,00829
Coeficienti
Coeficienti nestandardizati
Coeficienti standardizati
Model 1 (constanta) GDP ingo
B -4,468 ,009 ,059
Standardfehler 5,123 ,001 ,006
Beta
T -,872 ,413 ,376 11,559 10,528
Significanta ,383 ,000 ,000
a Variabila dependenta: studper10000
S analizm acum rezultatele. Prima tabel ne d indicatorii de corelaie (R) i determinare (R2) dintre variabila int i grupul de regresori luat n ansamblu. Important este aici citirea coeficientului de determinare. Exact ca i n cazul regresiei simple coeficientul de determinare ne spune ce procent din modificarea variabilei int se explic prin modificarea variabilelor de regresie. n cazul nostru observm c R2-ul regresiei simple era de 0,530, iar cel al regresiei multiple cu adugarea indicatorului de globalizare este de 0,566. Diferen, numit uneori i R2c sau modificare a coeficientului de determinare (c vine de la change, modificare sau schimbare) este foarte mic, de 0,036. Pentru a analiza aceast modificare este ns obligatorie analiza corelaiei regresorilor. n cazul nostru, cum am mai spus, regresorii snt puternic corelai. Dac regresorii ar fi fost independeni, valoarea R2c ar fi fost interpretabil ca efect al indicatorului de globalizare. Dat fiind corelaia existent valoarea R2c este ctigul de informaie pe care l adaug regresorul suplimentar. S mergem mai departe i s studiem mai de aproape tabela a doua, cea cu coeficienii de regresie. Din ea rezult c ecuaia de regresie are forma:
Studper10000i = -4,468 + 0,009 GDPi + 0,059 * ingoi + abaterei Valoarea coeficientului GDP nu difer radical de valoarea pe care acest coeficient o avea n cazul regresiei simple, aceasta fiind explicabil tot prin corelaia mare dintre regresori. Din ecuaia de mai sus putem extrage urmtoarele dou declaraii:
134
Dac produsul intern brut pe cap de locuitor crete cu un dolar, numrul studenilor la 10.000 de locuitori crete cu 0,009. Dac numrul organizaiilor non-guvernamentale internaionale active ntr-o ar crete cu una, numrul studenilor la 10.000 de locuitori crete cu 0,059.
Desigur, cum am mai scris i mai sus, exprimate aa relaiile par imposibil de simple i directe. i desigur o citire att de naiv ar fi greit. Totui pn la urm, considernd cauzaliti complexe i reele de influen evident indirecte i complicate rezultatul acesta este. Un produs intern brut pe cap de locuitor mai mare cu un dolar e legat de un numr de studeni la 10,000 de locuitori mai mare cu 0,009. Ne-am dori s comparm coeficienii de regresie ntre ei. Este ntr-adevr 0.059 mai mare dect 0,009? Care dintre cele dou variabile de regresie are efectul mai mare n realitate? Pentru aceasta se poate folosi un indicator numit puterea unui regresor care se calculeaz foarte simplu ca produs la coeficientului de regresie cu media variabilei regresor. La urma urmei, ne intereseaz care e valoarea medie numeric ce se repercuteaz asupra variabilei int. n exemplu avem:
Media GDP Ingo 9740,97 1139,7700
Coeficientul 0,009 0,059
Puterea 87,66 67,24
Observm c citirea pur i simplu a coeficienilor de regresie b ne-ar fi dus puin n eroare. Coeficientul indicatorului de globalizare era de vreo 6 ori mai mare dect coeficientul indicatorului economic. Aceasta ar fi putut s ne duc cu gndul la un efect mult mai mare al acestuia. Pentru a putea ns compara cu adevrat efectele nu trebuie uitat valoarea n sine a indicatorilor. i ntr-adevr media indicatorului economic este de aproape 9 ori mai mare dect media indicatorului de globalizare. nmulind, rezult puterile relative i rezult c numrul de studeni este determinat n mai mare msur de creterea economic dect de globalizare. Trebuie s observm i faptul c cele dou puteri snt totui destul de apropiate. Ele au acelai ordin de mrime. Diferena dintre ele se poate da, de exemplu, procentual. Astfel putem spune c efectul creterii economice este cu aproape 30% mai mare dect efectul globalizrii n modelul de regresie liniar de mai sus sau invers, puterea efectului globalizrii 135
asupra expansiunii nvmntului superior este aproximativ trei-sferturi din puterea efectului creterii economice. Evident, modelul n sine, explic, aa cum am vzut, numai jumtate din variaia variabilei int. Tabelele ecuaiei de regresie ne ofer i ele un indicator comparativ apropiat de puterea unei variabile independente, valorile Beta. Aceste valori reprezint coeficieni standardizai pentru variabilele aleatoare, coeficieni care iau n considerare valoarea medie a variabilelor independente, dar i dispersia lor. n exemplul nostru valorile Beta au fost: 0,412 pentru GDP i 0,376 pentru ingo reproducnd destul de ndeaproape calculele noastre de mai sus. Desigur o decizie rapid asupra importanei regresorilor ntr-o ecuaie de regresie multipl este mai uor de luat folosind ceea ce raporteaz softul statistic. Pe de alt parte puterea regresorului aa cum am calculat-o mai sus este un concept mai simplu i poate duce ca atare la mai puine confuzii. S rezumm acum avantajele i dezavantajele regresiei multiple. Regresia multipl are ca principal avantaj posibilitatea comparrii efectelor unor variabile (definite n model ca regresori) asupra variabilei int. Pentru asta lum n seam gradul lor de corelare reciproc, s calculm modificarea coeficientului de determinare i puterile regresorilor. Al doilea mare avantaj este c regresia multipl poate cura abaterile de efecte care nu pot fi considerate pur i simplu aleatoare. Dac avem un singur regresor tot ce mai are efect asupra variabilei int este mpins n factorul abatere (sau eroare). Aceasta poate duce la nendeplinirea condiiilor Gauss-Markov, cele cu lipsa autocorelrii i a heteroschedasticitii. Deci o regresie multipl poate avea efecte benefice asupra modelului. l poate face mai exact, prin creterea coeficientului de determinare, i l poate face i mai uor rezolvabil matematic. Atunci ar trebui s tot adugm regresori pn ajungem s descriem toat variaia variabilei int i gata: am descris complet problema! Din pcate aa ceva n lumea real nu se prea poate i n plus regresia multipl are i anumite dezavantaje care ne determin s o folosim cu oarecare msur. Necazul cel mai mare cu regresia multipl este supraspecificarea modelului. Nu e chiar tragic dar poate duce la anumite incurcturi dac nu este interpretat cu grij. Supraspecificarea nseamn de fapt includerea unui numr prea mare de regresori. n astfel de situaii analiza 136
relaiilor dintre regresori nu se mai poate face att de simplu ca n cazul exemplului nostru n care dei exista multicoliniaritate, erau numai doi regresori. Un efect al supraspecificrii este desigur creterea anselor de multicoliniaritate. Pe de o parte, avnd muli regresori exist anse mai mari ca unii dintre ei s fie puternic corelai cu alii. Pe de alt parte, mai apare i posibilitatea ca un regresor s fie foarte apropiat de o combinaie liniar a altor regresori. Ce se ntmpl n astfel de cazuri este c acelai obiect sau fenomen apare n ecuaia de regresie de mai multe ori prin mai multe msurtori diferite ntre ele. Pericolul supraspecificrii nu apare deci, atunci cnd fenomene diferite, bine-definite teoretic (ca n exemplu, creterea economic i globalizarea) snt n mod dovedit corelate, ci atunci cnd folosim mai multe variabile care msoar acelai fenomen. De ce? Ei bine, pentru c estimarea efectului fenomenului n sine devine problematic. Utiliznd mai multe msurtori pentru fiecare din fenomenele studiate, compararea efectelor acestor fenomene devine incert. Fiecare dintre msurtorile fenomenului vor avea un impact subestimat prin prezena celorlalte msurtori. Suma impactelor variabilelor care aparin aceluiai complex teoretic trebuie de asemenea tratat cu grij pentru c poate fi influenat de relaii diferite cu celelalte variabile ale modelului. Desigur, aa cum am mai spus, multicoliniaritatea nu este o problem care s fac modelul inutil sau metoda inexact. Multicoliniaritatea cu un numr mare de regresori complic ns semnificativ analiza modelului. A doua problem a supraspecificrii este legat de alegerea variabilelor. Incluznd n model un numr mare de variabile, multe dintre acestea vor avea un impact redus asupra variabilei int. Astfel de efecte, care ajung s fie de a dreptul neglijabile nu fac dect s complice modelul i s acorde unor variabile o nemeritat atenie. Variabile care au fost incluse n model i au un efect foarte mic au probabil acelai impact cu o gramad de alte variabile care nu au fost incluse n model. Prezena lor acolo face ns ca ele s fie interpretate, discutate i s li se atribuie, chiar fr a supraevalua valorile, o importan mai mare dect altor variabile. S discutm n ncheierea acestui capitol puin despre felul cum ar fi bine s se fac specificarea modelului de regresie liniar. n general se consider modelul de regresie ideal, un model cu un numr minim de variabile, ct mai puin dependente ntre ele i cu un impact individual ct mai mare. Nu ntotdeuna exist aa ceva, i chiar dac exist, n majoritatea cercetrilor nu avem cum s gsim un asemenea model. Mai mult dect att, gsind variabile de impact maxim asupra variabilei int s-ar putea s nu gsim altceva dect o msur a 137
aceluiai fenomen. Oricum, dezideratul fiind gsirea unui numr mic de variabile independente de impact mare, cercettorul trebuie s i dea silina s determine variabilele care au efectul cel mai mare asupra variabilei int. Pentru asta bineneles trebuie s-i foloseasc ct de mult posibil bunul sim tiinific i cultura de specialitate. Trebuie s modelez creterea numrului de studeni, ce regresori iau? Trebuie s pornesc de la un soi de repertoar al fenomenelor pe care teoria le-a pus n legtur cu fenomenul int al modelrii. Apoi trebuie s verific prin regresii simple efectul acestor regresori asupra variabilei int i prin analiz de corelaie gradul de multicoliniaritate dintre regresori. De obicei n finalul acestui demers se dezvolt mai multe modele concurente la explicarea fenomenului int. Acestea se calculeaz, iar rezultatele se compar ntre ele.
138
Capitolul 7. Pentru vegetarieni. Analiza datelor nenumerice.

n acest capitol m voi referi la modurile cum statistica se poate apropia de date care nu au caracter numeric, cantitativ. Datele acestea, numite de regul calitative nu permit utilizarea oricror metode statistice. Ele snt mai pretenioase, se pot face mai multe greeli la prepararea lor. Pe de alt parte, datele calitative ne pot oferi o ptrundere n subiect la un nivel mult mai amnunit. Ele permit trecerea dincolo de mult criticata superficialitate a cantitativului. Aa cum am vzut deja astfel de date snt prezente foarte des n cercetrile sociale, economice, i nu numai. Din experiena mea aceste variabile snt chiar majoritare n cercetrile de acest tip. Arareori avem nevoie de valori simple cantitative n studii legate de comportamentul oamenilor, fie el social, economic sau politic. Cu excepia vrstei, aproape c nu avem date raionale n studiile de pia, de exemplu. Nici mcar informaiile legate de venituri nu snt cu adevrat raionale, pentru c nu avem la dispoziie statele de plat ale celor intervievai, ci o auto-estimare a venitului lunar, de obicei pe categorii. Ce s mai spun, greutatea sau nlimea persoanelor intervievate intereseaz prea puini clieni ai marketing research-ului. Chiar dac acestea ar avea vreo legtur, de exemplu, cu consumul de bere al celui intervievat, atta timp ct nu au relevan din punct de vedere al planificrii i designului publicitii sau distribuiei, interprinderile productoare snt prea puin interesate de ele. Deci, majoritatea ntrebrilor de interes pentru cercetrile statisticii sociale se dovedesc a fi categoriale, uneori chiar nominale, dar cel mai adesea ordinale. A nu se nelege de aici c datele cantitative snt chiar irelevant de rare. Ele apar adesea n cercetri medicale, geografice, economice, uneori n studii politice comparative internaional, n sociologie organizaional i ecologie. n capitolele precedente am trecut n revist o serie ntreag de metode care nu erau gndite a fi utilizate pentru variabile fr caracter cantitativ. Cu toate acestea, o parte dintre ele i pstreaz validitatea i atunci cnd snt aplicate unor date calitative. Problema esenial legat de alegerea metodei este simpl: cu date calitative nu se fac calcule. Aceasta ns nu nseamn c nu se pot calcula frecvenele de apariie a lor. Deci, de exemplu, nu se poate face o corelaie simpl Pearson cu date cu care nu se poate calcula. Am vzut ns c se poate face o corelaie Spearman, pentru c acolo calculele nu se fac cu valorile variabilelor n sine ci cu poziiile lor ntr-o list ordonat de ranguri. Un alt exemplu. Desigur nu se pot efectua teste 139
legate de media unor variabile calitative (chiar dac ele snt reprezentate prin valori numerice), pe de alt parte se pot foarte bine efectua teste cu frecvenele de apariie a unor astfel de variabile. Hai s fiu mai clar, fie o ntrebare de opinie, de genul: Suntei de acord cu ...? i rspunsurile snt 1. Da; 2. Nu. Calculul mediei rspunsurilor este total lipsit de sens pentru c presupune adunarea de valori 1 i 2 adic adunarea de Da i Nu i mprirea la numrul lor. Pe de alt parte testarea faptului c frecvena de apariie a unui Da este relevant diferit de 50% este absolut corect. E vorba despre un test similar la urma urmei, diferena este c n primul caz se fac calcule cu valorile variabilei iar n al doilea caz cu frecvenele de apariie a acestor valori. Tot ce am discutat pn acum legat de prezentri tabelare, grafice, indicatori, teste, etc. are valabilitate i n cazul variabilelor calitative att timp ct metoda nu presupune calcule cu valorile variabilelor. n cele ce urmeaz o s adaug la reaterul nostru de metode cteva care au fost gndite special pentru variabile calitative. Cel mai adesea ele se evideniaz printr-un numr mai mic de restricii sau presupuneri legate de variabile. De aceea ele se folosesc adesea i n cazul unor variabile raionale sau intervalice despre care avem mai puine informaii. De exemplu, variabile despre care nu putem presupune c ar fi distribuite normal. Astfel de metode snt adesea numite i metode non-parametrice sau cu distribuie liber. Denumirea de nonparametric poate s induc n eroare de-a binelea. i eu am fost mult vreme convins c aa se numesc metode care pur i simplu nu au parametrii. Ei bine, nu e aa. Metodele nonparametrice snt metode la care nu se fac presupuneri a-priori despre parametrii. E mult mai simplu s le numim metode fr distribuii presupuse a-priori, sau metode libere de distribuie. Din pcate e bine s inem minte i denumirea inductoare n eroare pentru c ea e folosit n diverse programe statistice (de ex. n SPSS) i n multe cri de statistic. Cea mai util i rspndit metod non-parametric este testul Chi2. a. Testul Chi2 De fapt exist o ntreag familie de teste numite Chi2. Ele efectueaz testarea folosindu-se de o familie de distribuii de probabilitate numit Chi2. Familia aceasta este mai larg dect familia de distribuii normale i o include pe aceasta din urm ca o limit a ei.
140
Cel mai important dintre testele Chi2 este testul Chi2 al lui Pearson. Simplu, puternic, fr presupuneri greu de ndeplinit, testul se poate folosi cu ncredere aproape peste tot. E aproape un panaceu universal. De obicei se folosete la variabile calitative pentru c nu presupune efectuarea de calcule cu variabilele testate. Cu toate acestea se poate folosi linitit i n cazul variabilelor raionale sau intervalice i este chiar indicat n cazul n care acestea nu au o distribuie normal sau log-normal. Singura condiie practic este ca numrul de valori pe care le ia variabila s nu fie prea mare. S vedem ns ce testm. Ipoteza pe care o testeaz testul Chi2 al lui Pearson este c distribuia unei variabile nu difer semnificativ de o distribuie teoretic dat. Adic frecvenele de apariie a valorilor unei variabile corespund unei reguli, unei distribuii cunoscute. De exemplu, aceast distribuie ar putea fi uniform, adic fiecare valoare s apar de un numr egal de ori, sau ar putea fi orice alt distribuie fie c are vreo relevan teoretic sau e pur i simplu propus de cercettor. Hai s lum un exemplu pentru a clarifica felul cum se pune o ipotez pentru testul Chi2. S lum de exemplu o cercetare pe care am mai folosit-o pe parcursul acestei cri. E vorba despre un studiu de pia efectuat n Baia Mare n 2003. n tabelul de mai jos apare distribuia pe frecvene a unei ntrebri simple cu rspunsurile organizate sub forma unei scale ordonate. Evident, variabila rspuns este o variabil ordinal:
10. Cat de des se fac cumparaturile la dvs. in familie?
Frecven zilnic de mai multe ori pe saptamana saptamanal mai rar Total 446 370 168 67 1051
Procent 42,4 35,2 16,0 6,4 100,0
Ipoteza tipic pentru un test Chi2 va compara distribuia valorilor cu o distribuie uniform. Distribuia de mai sus este de fapt lista de frecvene ce apare pe a doua coloan a tabelului: 446 - 370 - 168 - 67. Distribuia uniform ar fi atins dac toate valorile ar fi la fel de probabile, adic am avea o list care se obtine mprind volumul populaiei (aici 1051) la numrul valorilor posibile (aici patru), deci: 263 263 263 263. Testul verific dac cele dou liste difer semnificativ una de alta. Poate nu pare foarte interesant. Hai s lum ns 141
puin altfel problema. S considerm un subgrup din populaia noastr. De exemplu, cei care au studii superioare. Pentru ei frecvena cumprturilor arat astfel:
Frecven Zilnic de mai multe ori pe saptamana Saptamanal mai rar Total 102 118 55 4 279
Procent 36,6 42,3 19,7 1,4 100,0
Lista de frecvene este de 102 118 55 4. Difer oare cu adevrat aceast list de distribuia celor care nu au studii superioare, vizibil n tabela de mai jos:
Frecven Zilnic de mai multe ori pe saptamana Saptamanal mai rar Total 344 252 113 63 772
Procent 44,6 32,6 14,6 8,2 100,0
Ipoteza de egalitate ar suna atunci cam aa: fie c au sau nu studii superioare, locuitorii din Baia Mare fac cumprturile la fel de des. Asta e mult mai interesant pentru o firm de marketing. De o asemenea observaie sau observaii de acest gen poate depinde modul cum se organizeaz o campanie de publicitate sau de promovare a unui produs. Observm c este o ipotez de acelai tip ca i n primul caz. Avem dou liste de frecvene: 102 118 55 4 i 344 252 113 63. La ochi ele difer. Valorile procentuale pentru primele dou categorii par a se inversa, iar a patra categorie care e nesemnificativ pentru prima list e considerabil mai mare n cea de a doua. Totui snt oare aceste diferene suficiente ca s respingem ipoteza, adic s spunem c ntre cele dou grupuri existe diferene semnificative n frecvena cu care i fac cumprturile. S vedem deci cum se calculeaz. Valoarea de test Chi2 se obine astfel:
142
n formul Oi snt frecvenele observate ale valorilor variabilei, Ei frecvenele ateptate, sau teoretice. i ia valori de la 1 la 4, adic are attea valori cte valori poate lua variabila noastr. Avem de comparat doua liste de frecvene de lungime i, unele vor lua locul valorilor Oi, celelalte vor sta la baza calcului valorilor Ei. O sa lum acum valorile pentru intervievaii cu studii superioare ca fiind valorile Oi. Valorile Ei vor fi valorile care s-ar gsi n grupul celor cu studii superioare dac distribuia ar fi aceiai ca i n grupul celor fr studii superioare. Pentru a gsi valorile Ei trebuie s proiectm procentajele aa cum apar n tabela de referin la numrul total de cazuri din tabela testat. Mai clar, dac distribuia ar fi aceiai atunci procentele aa cum apar la cei fr studii superioare ar trebui s apar i la cei cu studii superioare. Atunci 44,6% ar trebui s fie n categoria zilnic. Adic numrul ateptat de cazuri este pentru aceast categorie 44,6% din volumul eantionului de test, adic 279. Calculul e deci foarte simplu, o regul de trei simpl aplicat volumului total, sumei de valori Oi pentru procentajul fiecrei frecvene din cel de-al doilea grup: E1 = 279 * 44,6 / 100 = 124,4. Valoarea 124,4 difer fa de 102, cte cazuri snt de fapt n eantion. Calculnd i celelalte procente rezult o list de frecvene astfel: 124,4 91,0 40,7 22,9. Valorile nu snt ntregi pentru c se obin aplicnd procentajele aa cum am explicat. S exemplificm acum calculul valorii Chi2: Chi2 = (102 124,4)2/124,4 + (118 91)2/91 + (55 40,7)2/40,7 + (4 22,9)2/ 22,9 Valoarea calculat este Chi2 = 32,66. Programele statistice ne-ar da i o significan. n cazul de fa ar fi 0,000, deci foarte bun. Dac ns nu am folosi un soft statistic ar trebui s folosim o tabel de valori. Astfel de tabele pentru valorile Chi2 se gsesc de obicei la captul crilor de statistic (inclusiv n aceast carte), dar exist i pe internet, de exemplu la adresa http://www.statsoft.com/textbook/sttable.html unde se gsesc tabele de valori i pentru alte teste foarte des utilizate, testele t, Z i F (tabelele pentru t i Z se gsesc i n cartea de fa). 143
S studiem puin tabela de la pagina ***. Pentru a citi aceast tabel de valori Chi2 avem nevoie de nc un termen numit grad de libertate, prescurtat df, din englez, de la degrees of freedom. n cazul testelor Chi2 acest grad de libertate nu este altceva dect numrul valorilor pe care le-a luat variabila testat minus 1. Adic, n exemplul nostru unde aveam patru valori posibile, 4 1 = 3 grade de libertate. Cutm n tabel pe linia potrivit numrului de grade de libertate pn dm de prima valoare care e mai mare dect valoarea Chi2 obinut prin calcul. Significana, adic probabilitatea de a face o eroare de tip I, va fi atunci valoarea din capul de tabel a coloanei precedente. Observm c pe msur ce crete valoarea Chi2, se nbuntete, adic scade ca valoare significana. n exemplul nostru valoarea calculat e mai mare dect oricare din valorile de pe linia pentru 3 grade de libertate. Deci significana e mai bun dect cea mai bun significan din tabel. Deci ansa de a respinge o ipotez corect, cci aceasta era eroarea de tip I, este foarte, foarte mic, de fapt mai mic dect 0,001. Putem ca atare respinge linitit ipoteza. n concluzie, testul Chi2 din exemplu permite respingerea ipotezei de egalitate ntre cele dou distribuii. Adic datele noastre snt suficiente pentru a putea spune c cei cu studii superioare au o distribuie a frecvenei de a face cumprturi semnificativ diferit de cei ce nu au asemenea studii. Exact la fel ca i n exemplu se pot compara orice dou liste de valori de frecvene. Fie c una este empiric i una teoretic, fie c ambele snt empirice. b. Testele Wilcoxon, Mann-Whitney i Kruskal Wallis Vom continua cu alte teste non-parametrice. Testul Wilcoxon este o alternativ nonparametric la testul t al lui Student pentru dou medii, pe care l-am descris n capitolul 5. Dei testul Wilcoxon a fost propus pentru un nivel de msurare a datelor cel puin intervalic, nu se fac nici un fel de presupuneri despre distribuia datelor. Ca atare testul este potrivit de cte ori nu snt satisfcute condiiile testului t, care presupune normalitate. S rememorm scurt ipoteza testului t pentru dou medii. Testul t pentru dou medii verifica o ipotez de egalitate sau inegalitate a dou valori care se obineau ca medii ale unei variabile 144
aleatoare. Mediile se calculeaz pentru dou eantioane. Cele dou eantioane trebuie s prezinte o distribuie normal de aceiai dispersie a variabilei a crei medie se testeaz i pot fi independente sau dependente. Ipoteza de normalitate cu dispersie egal este destul de tare, n multe situaii o asemenea presupunere restricionnd mult posibilitatea de folosire a testului. Aici intervine testul Wilcoxon. Pe de alt parte, trebuie s observm c testul t presupune ntotdeuna un calcul de medie, deci testul se poate referi numai la variabile cantitative. i aici e nevoie de o generalizare care s fac metoda folositoare i n alte cazuri. Testul Wilcoxon face o asemenea generalizare folosind n locul valorilor poziiile ntr-o ierarhie de frecvene. De fapt, testul Wilcoxon transform testul t ntr-un mod analog cu felul cu corelaia Spearman transform corelaia Pearson. Ca atare, variabilele testate prin testul Wilcoxon trebuie s fie ordinale, dar nu neaprat intervalice sau raionale. Dei se efectueaz nite diferene ntre valori n cazul Wilcoxon scopul acestora este doar de a stabili care valori snt mai ndeprtate sau mai apropiate de o cvasi-medie. Testul se folosete frecvent pentru ntrebri de opinie. S vedem ns ce i cum calculeaz. Ipoteza testului de definete astfel. Fie dou eantioane, care pot fi total independente, dar cel mai adesea snt rezultate din reinterogarea aceluiai eantion. Pe cele dou eantioane se identific o aceiai variabil. Ipoteza este c distribuia acestei variabile este egal n cele dou eantioane. Un exemplu simplu: s presupunem c am efectuat un tratament oarecare i dorim s vedem dac se repercuteaz asupra unei variabile. tiu eu, am tuns un preedinte i vrem s vedem dac aceasta a dus la creterea sau scderea popularitii lui. Variabila de popularitate va fi atunci culeas o dat nainte de tundere, o dat dup. Deoarece aceast variabil nu este de fapt cantitativ nu se poate stabili cu un test t dac diferena medie sesizat este relevant statistic sau nu. Se pot folosi evident teste Z pentru a stabili dac a crescut relevant procentul simpatizanilor sau nu, testul Wilcoxon ne ofer ns o singur testare de ansamblu a diferenei distribuiei. Pentru aceast se acioneaz astfel: 1. S notm cele dou valori ale variabilei, simpatia nainte de tuns x, i simpatia dup tuns y. Pentru fiecare individ i chestionat vom avea dou valori xi i yi. 2. Calculm modulul diferenei zi = | xi yi | 3. Ordonm valorile zi, eliminm valorile nule i acordm fiecrei valori o valoare rang n funcie de poziia pe care o ocup n lista ordonat. Dac dou sau mai multe valori 145
z snt egale punem rangul mediu. De exemplu dac valorile de pe poziia 5 i poziia 6 snt egale, ambele primesc rangul 5,5. 4. Calculm acum suma rangurilor care corespund abaterilor pozitive i suma rangurilor care corespund abaterilor negative12. Valoarea cea mai mic dintre acestea dou este valoarea de test. Valoarea de test se numete uneori T, alteori S sau chiar W. Valorile critice pentru testul Wilcoxon se gsesc de asemenea n tabele organizate n funcie de significan i numrul de cazuri. O regul simpl este: cu ct valoare e mai mare cu att significana e mai bun, dar evident trebuie verificat tabela pentru a decide ntr-un caz particular. Soft-urile statistice care efectueaz testul Wilcoxon raporteaz desigur i significana rezultatului care se citete cum ne-am obinuit deja, ca probabilitate de a efectua o eroare de tip I. Deci cu ct valoarea significanei e mai mic cu att putem respinge ipoteza de nemodificare a variabilei cu un risc de eroare mai mic. O significan bun este, de regul, una cu valoare sub 0,05. O dezvoltare interesant a testului Wilcoxon este testul U, numit i Mann-Whitney, MannWhitney-Wilcoxon sau Wilcoxon-Mann-Whitney. Am vzut c testul Wilcoxon se putea folosi acolo unde aveam un design de tip nainte-dup, adic valori nperecheate. Trebuia s avem dou eantioane n care s construim perechi. Aceasta este o situaie care apare desigur la anumite tipuri de cercetri dar testul de tip rang merit extins i la alte situaii. De aici ideea testului U. Idee pe care de altfel tot Frank Wilcoxon a propus-o i nc n acelai articol din 1945 cnd a definit i testul numit de obicei testul Wilcoxon, cel pe care l-am prezentat anterior. i asta cu toate c era chimist i nu statistician. Ipoteza testului U este c dou eantioane provin din aceiai populaie, adic au o distribuie egal a variabilei testate. O asemenea ipotez poate fi de folos n multe ntrebri de cercetare. S vedem nite exemple. Situaia de cercetare pe care am folosit-o pentru a prezenta testul Chi2 se preteaz i pentru utilizarea testului U. Verificarea faptului c frecvenele de a face cumprturi ale celor cu sau fr studii superioare snt sau nu diferite se poate traduce i n limbajul ipotezei testului U. Avem n acest caz o populaie de ansamblu cu anumite obiceiuri legate de frecvena de a face cumprturi. Dac am alege aleator dou eantioane din aceast populaie ele ar putea diferi
12
De fapt ajunge dac calculm una dintre aceste sume.Cealalt rezult uor pentru c suma tuturor rangurilor este oricum n(n+1)/2 unde n este numrul de valori.
146
doar ntmpltor din punctul de vedere al variabilei frecven de cumprare. S presupunem ns c alegerea se face pe baza unei caracteristici, cum ar fi prezena studiilor superioare. Atunci, dac aceast caracterististic nu are nici o relevan asupra variabilei frecven a cumprturilor cele dou eantioane rmn din perspectiva acestei variabile ca eantioane aleatoare provenite din aceiai populaie. Dac ns testul ne permite s respingem aceast ipotez nseamn c variabila de selecie, prezena studiilor superioare, are un efect semnificativ asupra variabilei testate, frecvena cumprturilor. Deci cele dou eantioane nu se pot considera ca aparinnd aceleiai populaii. n mod similar orice situaie n care o variabil categorial binar se repercuteaz pe o variabil ordinal se poate testa cu testul U. Regula de ansamblu este urmtoarea. Variabila categorial care mparte eantionul nostru n dou definete de fapt dou eantioane. Testul verific faptul c cele dou eantioane nu difer din punctul de vedere al distribuiei unei variabile ordinale. Hai s mai lum un exemplu tipic. S presupunem c cele dou eantioane snt determinate de gen. Avem deci un eantion de brbai i unul de femei i o variabil de test care este rspunsul la ntrebarea: Care este venitul lunar al familiei dumneavoastr? Evident rspunsul la o astfel de ntrebare este o estimare a venitului lunar familial. Dac am obine o diferen semnificativ am putea deduce c cele dou genuri estimeaz diferit veniturile lor familiale. De exemplu, nu m-a mira dac brbaii ar avea o tentaie de a supraevalua venitul i femeile de a-l subevalua. Dac ambele grupuri evalueaz corect, sau se abat n aceiai direcie, ar trebui s nu avem nici o diferen statistic semnificativ. Deci, am putea conclude c nu se poate respinge ipoteza cum c estimrile fcute de brbai i femei fac parte din aceiai distribuie, snt eantioane ce provin din aceiai populaie.
De altfel, aplicnd testul U pentru ntrebarea de mai sus, folosind date din sondajul la care mam mai referit, cel din Baia Mare, din 2003. obinem urmtorul rezultat:
Rang
Suma 61. Genul 66. Venitul lunar familiar? feminin masculin Total N 553 474 1027 Rang mediu 504,28 525,34 rangurilor 278865,00 249013,00
Statistica de test
147
66. Venitul lunar familiar? Mann-Whitney-U Significan (dou capete) 125684,000 ,229
a Variabila de grupare: 61. Genul
Cel mai uor putem s analizm acest rezultat citind significana. Dup cum se vede ea nu e suficient de bun pentru a respinge ipoteza. Deci, nu putem spune c femeile i brbaii estimeaz n mod diferit veniturile lor familiale. Metoda de calcul a testului U este foarte simpl. 1. Se ordoneaz toate valorile variabilei testate (venitul lunar familial), indiferent dac fac parte din grupul 1 (la noi, femeile), sau grupul 2 (brbaii). 2. Fiecrei valori i se asociaz rangul ei n lista ordonat. Ca i n cazul testului Wilcoxon, valori egale vor primi un rang mediu. 3. Se calculeaz suma rangurilor pentru grupul 1 (R1) i suma rangurilor pentru grupul 2 (R2). 4. Valoarea de test U este valoarea mai mic dintre U1 i U2 unde acestea se calculeaz asfel: U1 = R1 (n1* (n1+1))/2 i U2 = R2 (n2* (n2+1))/2. Exist desigur tabele care dau valorile critice pentru testul U. n aceste tabele valorile snt specificate n relaie cu volumele celor dou eantioane, n1 i n2. Un pas mai departe pe acelai fir logic l face testul Kruskal-Wallis. Anume, dac n testul Mann-Whitney comparaie se face ntre dou grupuri, testul Kruskal-Wallis permite comparaii ntre mai multe grupuri, sau mai multe eantioane ca s folosim chiar limbajul testului. Ipoteza testului Kruskal-Wallis este analog ipotezei Mann-Whitney: Un numr oarecare de eantioane au fost extrase din aceiai populaie. Ca i n cazul Mann-Whitney de fapt eantioanele le definim printr-o variabil de categorisire, cel mai adesea o variabil nominal, i testarea o facem pe o variabil care este cel puin ordinal. Ca i n cazul precedentelor teste
148
non-parametrice nu exist presupuneri de normalitate a distribuiilor sau alte restricii similare. Aceasta permite utilizarea i acestui test cu o varietate foarte mare de date. De fapt putem nelege testul Kruskal-Walis ca un test de relaionare ntre dou variabile, una categorial, posibil chiar nominal i una cel puin ordinal. Testul verific dac prima variabil are repercursiuni asupra distribuiei celei de a doua. Metoda de calcul se bazeaz pe aceiai idee ca i n cazul precedentelor dou teste. Toate valorile, independent de grupul din care fac parte se ordoneaz i fiecrei valori i se asigneaz rangul ei. Apoi se efectueaz urmtorul calcul:
Unde: g este numrul grupurilor. N este suma volumurilor eantioanelor, adic N = n1 + n2 + ... ng ni este volumul eantionului i, adic corespunztor categoriei i a variabilei de selecie rij este rangul observaiei j din grupul i
, adic media tuturor rangurilor din grupul i , adic media tuturor rangurilor.
Uneori valoarea calculat la testul Kruskal-Wallis se noteaz H, alteori K. Cu toate c formula poate prea ceva mai complicat ea nu este dect o extindere logic a formulei U pentru un numr mai mare de grupuri. Merit de observat c toate calculele care se fac se fac cu ranguri i nu cu valorile propriu-zise ale variabilelor. Aa se elimin de fapt presupunerile asupra distribuiei variabilei testate. Tot ce ne trebuie este s existe o ordine a valorilor pentru a putea atribui ranguri. Exist o metod mai confortabil de a analiza testul Kruskal-Wallis care simplific i mai mult lucrurile. Varianta pe care o prefer i eu i v-o propun i vou reduce testul la un test Chi2 n urmtorul fel. Se calculeaz pentru fiecare grup de valori, sau eantion rangul mediu i 149
apoi se aplic pur i simplu un Chi2 pentru ipoteza de egalitate a tuturor rangurilor medii. Adic, dac eantioanele snt provenite din aceiai populaie, deci aproximeaz aceiai distribuie a datelor, diferenele dintre rangurile medii trebuie s fie pur aleatoare, ntmpltoare. Atunci ns ele nu vor fi n mod relevant diferite de o distribuie uniform. Astfel am tradus ipoteza testului Kruskal-Wallis la o ipotez de tip Chi2 cu distribuie uniform. Majoritatea soft-urilor statistice pe care le cunosc abordeaz testul Kruskal-Wallis n acest fel. S vedem un exemplu de aplicaie, de ast dat folosind un alt set de date. Populaia cercetrii este populaia intreprinderilor mici i mijlocii din mediul rural din Transilvania. Am testat dac numrul de proprietari ai intreprinderii depinde de domeniul principal de activitate. Domeniul de activitate este evident o variabil nominal. Nu exist o ordine ntre agricultur i transporturi! Pe de alt parte domeniul de activitate definete pe populaia firmelor subgrupuri care pot fi nelese ca eantioane diferite. Variabila numr de proprietari este raional, dar probabil nu este distribuit normal, nici mcar cu aproximaie.
Rang
5. Care este domeniul principal de activitate? 3. Care este numarul de proprietari ai firmei? Agricultura Comert - en detail Comert - en gros Productie Servicii - profesiuni Servicii - turism Servicii - consultanta Servicii - agricole Constructii Total N 16 454 45 76 147 107 39 5 33 922 Rang mediu 423,50 488,43 497,28 495,32 381,39 417,61 381,00 313,00 599,50
Statistica pentru Testul(a,b)
3. Care este numarul de proprietari ai firmei? Chi-patrat Df Significanta asimptotica 55,822 8 ,000
150
a Kruskal-Wallis-Test b variabila de grupare: 5. Care este domeniul principal de activitate?
Valoarea Chi2 i significana testului snt ct se poate de concludente. Ipoteza c firmele din grupurile definite de domeniul principal de activitate au la fel de muli proprietari poate fi respins cu o probabilitate de a grei de 0.000. S nchei acest capitol n care am trecut n revist cteva teste printr-o nelepciune simpl dar util. n esen, tot ce e variabil raional sau intervalic trebuie s se poat testa cu t sau Z (ceea ce e cam acelai lucru), iar tot ce e variabil ordinal sau nominal se poate testa ntr-un fel sau altul folosind Chi2. Exist desigur i variante mai complicate i multe, multe alte teste gndite pentru diferite ipoteze, dar pentru multe din lucrrile mai mult sau mai puin tiinifice i utilizarea acestor teste simple ar fi deja un ctig extraordinar pentru cunoatere. c. Regresia categorial. n capitolul precedent am prezentat analiza de regresie liniar att n forma ei simpl ct i multipl. n toate aceste variante datele implicate n ecuaiile de regresie erau date numerice cu care se efectuau calcule. Aceast restricie limita desigur utilizarea metodei regresiei la un anume tip de cercetri. Exist ns i tipuri de regresie care au fost gndite s analizeze relaii ntre variabile care pot avea diferite forme, chiar i variabile nominale. Aceste modele de regresie nu snt utile numai pentru luarea n considerare a unor variabile nominale, ci i n cazul unor variabile care pur i simplu nu se supun preteniilor metodelor de rezolvare ale regresiei liniare. Regresia categorial nu este un singur tip de regresie. Mai mult, putem s o considerm ca o clas de modele care n forma general a ecuaiei de regresie, aceiai ca i n capitolul precedent includ variabile care nu se supun regulilor obinuite. Principalele modele care implic variabile nenumerice n ecuaii de regresie snt: Regresia liniar cu utilizarea variabilelor dummy, care permite modelarea efectelor variabilelor nominale. Regresia logistic binar sau multinomial (ambele pot avea formele logit i probit), care permite definirea unor variabile nominale ca variabile int a regresiei. Regresia logit sau probit ordonat, care permite utilizarea variabilelor inte ordinale. 151
Unele soft-uri de statistic ofer i o aa-zis regresia categorial cu scalare optimal care permite definirea scalei pentru fiecare variabil din ecuaia de regresie n parte. Aceasta este o alternativ general la care utilizatorul nu trebuie s-i bat prea tare capul cu modelul folosit i primete rezultatele sub o form interpretabil uor, la fel ca la o regresie liniar obinuit. n aceast seciunea nu doresc mai mult dect s clarific primul dintre modelele enumerate mai sus, modelarea variabilelor nominale cu ajutorul variabilelor dummy. Variabilele dummy snt variabile care au dou valori, de obicei codate 0 i 1. De fapt, modul de codificare nici nu prea are vreo importan, sensul acestuia fiind mai mult unul logic dect numeric. Adic 0 nseamn fals sau absent, 1 nseamn adevrat sau prezent. n mod tradiional variabilele dummy au aprut n cercetrile economice pentru a modela sezonalitatea. E foarte simplu. S considerm o ecuaie de regresie liniar cu dou variabile regresor din care una dummy:
yi = a + b1 xi + b2 di + ei unde yi este variabila int, xi variabila regresor, di variabila dummy i ei eroarea pentru fiecare caz i la care s-au cules date. S zicem, de exemplu c dorim s modelm relaia dintre consumul de bere (y) i consumul de alune (x). S zicem c am cules date de la buticuri, reprezentnd vnzri zilnice. Observaiile ne-au dus ns la gndul c aceast relaie depinde cumva de anotimp. Faptul c iarna se bea mai puin bere dect vara nu ar trebui neaprat s modifice relaia dintre cantitile de bere i cele de alune. Dar observaiile ne duc cu gndul c iarna se mnnc mai multe alune la aceiai cantitate de bere. Deci s-ar putea dependena s fie cumva diferit. Pentru a putea lua aceasta n considerare am putea s modelm relaia cu dou ecuaii una pentru var i una pentru iarn. Sau am putea folosi o variabil dummy, o variabil cu dou valori. n modelul din exemplu aceasta este variabila d. Lum ca atare d = 1 pentru acei i pentru care valorile x (alune) i y (bere) au fost culese vara i d = 0 pentru acei i pentru care valorile au fost culese n alte anotimpuri. De fapt am mprit eantionul i avem:
pentru d = 1:
yi = a + b1 xi + b2 + ei = (a + b2) + b1 xi + ei 152
iar pentru d = 0:
yi = a + b1 xi + ei Cele dou ecuaii difer prin termenul liber, n primul caz acesta este a + b2, iar n al doilea caz a. Deci, dac am reprezenta grafic cele dou drepte ele ar fi paralele. Altfel spus, efectul sezonalitii modelat cu variabile dummy presupune c relaia dintre consumul de alune i consumul de bere nu difer prin cantitatea de bere care se consum la o cretere a consumului de alune de o alun ci pur i simplu consider c sezoanele pornesc de la un nivel diferit al relaiei dintre consumul de bere i cel de alune. Faptul c efectul sezonalitii este dat la aceste modele de o valoare scalar, valoarea b2 i nu de o variabil aleatoare face ca astfel de modele s se mai numeasc modele cu efecte fixe.
Cu o asfel de extindere a modelului regresiei liniare putem lua n calcul nu numai efecte de sezonalitate ci i orice efecte care snt modelabile cu variabile cu dou valori. Pe parcursul crii am mai avut ca exemple de astfel de variabile, genul sau prezena studiilor superioare. Interesant este c o foarte simpl generalizare ne permite s includem n ecuaii de regresie variabile nominale cu oricte valori. S lum o variabil nominal cu mai multe valori, de exemplu, religia. Mai jos este o tabel de frecvene care reprezint religiile locuitorilor judeului Arad conform unui sondaj de opinie:
I8. religie:
Frecventa adventist baptist catolic evanghelic fara religie grecocatolic martor al lui iehova neoprotestant 5 30 76 1 5 2 1 4
Procent ,8 5,0 12,8 ,2 ,8 ,3 ,2 ,7
153
ortodox penticostal reformat Total
437 28 6 595
73,4 4,7 1,0 100,0
Datele culese prezint 11 categorii, pentru o modelare corect probabil diversele rituri neoprotestante ar trebui reunite, ca i cele protestante, obinndu-se astfel un numr mai mic de categorii: ortodox, catolic, greco-catolic, protestant i neoprotestant i fr religie. Modelarea cu variabile dummy presupune construirea cte unei variabile pentru fiecare dintre aceste valori. Deci n locul variabilei religie cu valorile din list vom avea o variabil ortodox cu valorile da i nu, o variabil catolic cu valorile da i nu i aa mai departe. n total modelarea cu variabile dummy presupune nlocuirea unei variabile nominale cu attea variabile dummy cte valori poate lua variabila nominal. S considerm relaia de regresie care modeleaz dependena dintre numrul de cri cumprate anual i vrst.
Cartei = a + b1 Virstai + ei Modelul rezolvat cu metoda celor mai mici ptrate d: Cartei = 2,146 0,026 Virstai + ei Relaia este deci negativ, cei cu vrsta mai mic cumpr mai multe cri. Significanele coeficienilor snt bune, dar coeficientul de determinare este mic (0,098) deci vrsta explic n mic msur cumprarea de carte. S vedem dac nu cumva religia, care este la urma urmei o caracteristic cultural, are i ea un efect asupra obiceiului de a cumpra cri. Pentru aceasta redefinim religia sub forma unor variabile dummy. Considerm deci 6 variabile i rezult modelul urmtor:
Cartei = a + b1 Virstai + b2 Ortodoxi + b3 Catolici + b4 Greco-Catolici + b5 Protestanti + b6 Neoprotestanti + b7 FaraReligiei + ei Rezolvarea cu metoda celor mai mici ptrate ne d urmtorul rezultat prezentat ca i tabel:
154
Model
Coeficienti
Significanta
B 1 (constanta) I2. vrsta: ortodox catolic grecocatolic protestant neoprotestant 1,899 -,025 ,252 ,187 -,120 -,051 ,255
Eroare standard ,604 ,003 ,579 ,593 1,074 ,778 ,596 3,142 -7,891 ,436 ,315 -,112 -,065 ,427 ,002 ,000 ,663 ,753 ,911 ,948 ,669
a Variabil dependent: Q15. Cate carti cumparati pe an?
n tabela de mai sus snt coeficienii ecuaiei de regresie, mpreun cu rezultatele unor teste de significan. Testele verific ipoteza c variabila regresor nu are efect asupra variabilei int. Altfel spus verific ipoteza c coeficientul variabilei este semnificativ diferit de 0. Tabela arat c dei significana efectului vrstei rmne bun i coeficientul vrstei este stabil fa de regresia simpl, significana variabilelor dummy aferente diferitelor grupuri religioase este foarte proast. Practic nu putem respinge ipoteza general: apartenena religioas nu are efect asupra numrului de cri cumprate anual. n acest context o discuie a semnelor coeficienilor diferitelor variabile dummy este lipsit de sens, ar reprezenta chiar o greeal grav, dei acesta ar fi fost urmtorul pas dac significanele ar fi fost bune. Am fi observat atunci c anumite religii au efect pozitiv, adic coeficieni pozitivi, altele efect negativ asupra numrului de cri cumprate. S alegem acum o alt variabil calitativ, nivelul de pregtire. Am recodat nivelul de pregtire pe patru categorii: coal general sau mai puin, studii liceale, studii postliceale, studii superioare. Pentru fiecare am construit o variabil dummy exact ca n exerciiul precedent i am calculat ecuaia de regresie. Rezultatul tabelar este mai jos:
Model
Coeficienti
Significanta
B 1 (constanta) I2. vrsta: generala 1,747 -,016 -,580
Standardfehler ,466 ,003 ,461 3,746 -4,759 -1,260 ,000 ,000 ,208
155
liceu postliceala superioare
-,109 ,851 ,906
,454 ,489 ,468
-,239 1,738 1,936
,811 ,083 ,053
a Variabila dependenta: Q15. Cate carti cumparati pe an?
Efectul variabilei nivel de pregtire este mult mai clar. Pentru a analiza tabela ne uitm la semnul i valoarea coeficienilor precum i la significana lor. Se observ c efectul este mai significant pentru treptele de pregtire mai nalte. Astfel efectul studiilor superioare este singurul clar semnificativ. Ipoteza de independen a numrului de cri cumprate anual de nivelul de pregtire poate fi respins cu o probabilitate de 95% pentru cei cu studii superioare. De asemenea efectul este evident pozitiv. O influen pozitiv ceva mai mic i mai puin semnificativ au i studiile postliceale. Pe de alt parte efectul studiilor liceale sau generale este negativ asupra numrului de cri cumprat, dar n acelai timp mai puin significativ. n special n cazul celor care au numai studii liceale este greu s vedem vreun efect asupra numrului de cri cumprate. O citire corect ar fi de fapt: cei cu studii liceale par a cumpra mai puine cri, dar acest rezultat este insuficient de sigur. Interesant este i faptul c coeficientul de determinare al ecuaiei de regresie care era de sub 10% crete la 23% prin introducerea variabilei nivel de pregtire. Am putea lua n seam variabila ordinal nivel de pregtire i altfel. Am putea s o recodm numeric, de genul coal general este 1, studii liceale este 2, etc. i s o considerm ca variabil numeric. O asemenea abordare ar fi ns mult mai brutal, n esena ei incorect i mult mai puin nuanat pentru c nu ar putea determina efecte individuale ale diferitelor nivele de pregtire. Pe de alt parte abordarea efectelor individuale ale nivelelor de pregtire este o utilizare nominal a variabilei i omite faptul c aceste nivele au de fapt o ordine bine definit.
156
Capitolul 8. Analiza seriilor de timp

Foarte des analiza statistic caut s afle cate ceva despre derularea unor evenimente n timp sau dezvoltarea n timp a unor caracteristici. nsi modul nostru de a cunoate conine adesea intrinsec o raportare la timp. Vorbim despre o var calduroas implicit comparand-o cu alte veri; observm o relaie ntre evenimente i o identificm ca pe o cauzalitate, asumand evident o relaie de consecutivitate temporal; spunem c, de exemplu, preurile astea cresc mereu sau c e din ce in ce mai greu s gseti un meter zilele astea! considerand existena unor trenduri temporale. Tocmai astfel de declaraii necesit o verificare critic statistic. Ct e de fapt de greu s gseti un meter, sau mai exact ce ar putea nsemna aceasta, sau chiar cresc preurile mereu. S lum acest al doilea exemplu, e mai simplu. S presupunem c alegem o serie de produse, cum se face cnd se consider acel co standard folosit pentru calculul inflaiei. Apoi verificm sptmnal preurile i descoperim c uneori cresc, alteori scad cte puin sau mai mult. Cum stabilim ce e ntmplare i ce e deja un proces de dezvoltare, un trend? Iata in graficul de mai jos dezvoltarea indicelui preurilor de consum din 1971 pn n 2009. Fiecare valoare reprezint o cretere a preurilor de consum fa de anul precedent. Ce observm? ntr-adevr indicele a tot sczut an de an ncepnd cu 1997, dar nici o dat nu a fost sub 100% adic sub valoarea anului precedent. Deci, e corect: preurile au crescut mereu, dac socotim anualizat. Adic, calculnd an dup an, pentru coul de produse utilizat de Institutul Naional de Statistic, nu a existat vreun an ncepnd din 1971 n care preurile s fie mai mici dect n anul precedent.
157
Grafic. Indicele preurilor de consum 1971 2009
Sursa: reprezentare proprie pe baza datelor de la Institutul Naional de Statistic, http://www.insse.ro/cms/rw/pages/ipc.ro.do;jsessionid=0a02458c30d5be9a701c852c431abc6 58ac44e50bd88.e38QbxeSahyTbi0LaN4Ne0 Dac analizm graficul mai n amnunt mai observm ins i faptul c ritmul de cretere a fost foarte diferit de la un an la altul. Astfel, putem identifica perioada de inflaie mare dintre 1990 i 1998, apoi scderea lent a inflaiei pn n anul 2009. De asemenea putem observa pe grafic i nenatural de lunga perioad de stabilitate a preurilor din 1971 pn n 1990 care denot o economie neliber.
a. Ce e o serie de timp? Identificarea de patternuri n serii de timp Primul pas care trebuie fcut n orice modelare cu serii de timp este definirea acestora. Exist aici o condiie esenial, foarte simpl dar nu totdeuna uor de ndeplinit. Seriile de timp sunt iruri de valori ale unei i aceleiai variabile culese la momente diferite. O serie de timp trebuie deci s conin valori ale unei variabile n momente bine definite i de preferin echidistante de timp. Pentru aceasta se definete pe lng variabila serie de timp o variabil companion timp coninnd momentele de culegere a datelor i avnd o unitate de msur temporal adecvat problemei modelate: ani, luni, zile, secunde, etc. 158
Deci, spre deosebire de forma uzual a unei variabile care este un ir de valori culese de la diferite persoane, obiecte, fenomene, la o serie de timp avem un ir de valori pentru un singur obiect sau o singur persoan, dar la diferite momente de timp. Dac avem valori culese att la diferite momente de timp ct i pentru diferite obiecte spunem c avem un panel. Seriei de timp i se adaug atunci nc o variabil companion, un identificator al obiectului la care se refer informaia. Tabela de mai jos exemplific o serie de timp cu valori ale produsului intern brut al Romaniei pe ani selectati:
An
PIB per capita (in USD cu metoda GK PPP)
1990 3525 1995 3083 2000 2797 Urmtoarea tabel prezint un panel de date, produsele interne brute ale unor ri din estul Europei n aceiai ani: ar
An
PIB per capita (in USD cu metoda GK PPP)
1990 Romania 3525 1995 Romania 3083 2000 Romania 2797 1990 Ungaria 1995 Ungaria 2000 Ungaria 1990 Bulgaria 1995 Bulgaria 2000 Bulgaria 1990 Cehia 1995 Cehia 2000 Cehia 6471 5778 6780 5552 5197 4726 8464 7831 8386
n exemplul de panel de mai sus numrul de ani este aproape egal cu numrul de ri. Situaia uzual este ns de regul alta. Avem dou tipuri de astfel de date:
159
Panelurile sunt de regul intervierri repetate ale unui eantion reprezentativ la diferite momente de timp. Rezult un set de date cu un numr mare de intervievai, de obicei peste o mie, dar cu un numr mic de puncte temporale, cte reintervievri au avut loc (uzual 3 4 intervievri). Astfel de intervievri se fac, de exemplu cu generaii de absolveni ai unei faculti pentru a trasa carierele lor n timp sau cu pacieni pentru a studia efectul unor tratamente. Seturile de date CSTS (cross-sectional time series) conin de regul un numr mai mare de puncte temporale dar pentru un numr mult mai mic de cazuri: de exemplu: valorile PIB pentru toate rile din estul Europei n anii 1950 2000 sau temperatura si tensiunea pacienilor dintr-o secie de reanimare din or n or timp de cteva zile. Seturile de date din prima categorie se trateaz ca nite eantioane uzuale folosind n plus metodele de tip nainte dup, n special testul Wilcoxon pe care l-am prezentat deja. Seturile de date CSTS se prelucreaz ca i serii de timp genuine i le vom discuta spre sfritul capitolului de fa. Am vzut cum se definete seria de timp, am vzut ce nseamn ea. Primul pas n analiza unei serii de timp este ct se poate de simplu i predictibil. ncepem ntotdeuna cu o reprezentare grafic. De exemplu mai jos este graficul cu numrul de studeni la 10.000 de locuitori calculat pe Europa de est i Europa de vest.
160
Graficul permite deja anumite analize i comentarii care ns nu au un caracter propriu-zis statistic. Se vede faptul c numrul de studeni din vestul Europei a crescut aproape constant pe cnd cel din estul Europei a cunoscut i perioade de stagnare, ba chiar de recesiune. n cazul graficelor cu serii de timp se fac ntotdeuna grafice de tip linie, avnd pe axa orizontal punctele temporale astfel nct distanele dintre ele s corespund distanelor n timp. Dac de exemplu avem valori pentru anii 1990, 1995, 1997, 2000 va trebuie sa fim ateni ca distanele din grafic s nu fie egale ci proporionale distanelor temporale. De asemenea, punctele graficului nu vor corespunde unor frecvene sau procentaje ca n cazul graficelor prezentate n capitolele precedente ci chiar valorilor variabilei serie de timp. Principalul scop al graficelor este definirea informat a unor ipoteze. Acestea pot apoi fi testate prin metode statistice. Desigur facem grafice i pentru a prezenta i a face datele mai accesibile. Principalele patternuri care pot fi identificate grafic i testate apoi sunt trendul (respectiv absena lui, staionaritatea) i sezonalitatea.
161
b. Trend i sezonalitate Cuvntul englezesc trend care s-a ncetenit i n limba romn nseamn tendin. Vorbim adesea de un trend ascendent sau descendent i ne referim la o dezvoltare cresctoare sau descresctoare a unui ir de date, sau sesizm o schimbare de trend atunci cnd de exemplu creterea economic se termin i ncepe o perioad de recesiune. n graficele precedente, de exemplu, se observa un trend cresctor al numrului de studeni la 10.000 de locuitori n vestul Europei sau un trend descresctor al Indicelui anual al Preurilor de Consum n Romnia dup 1997. Statistica se apropie de problematica trendurilor n serii de timp prin testarea staionaritii i apoi a staionaritii de trend. n sens matematic, un proces stochastic este staionar dac distribuia lui de probabilitate nu se schimb n timp, adic dac lipsete un trend. Aceasta face ca media i dispersia procesului, acolo unde se pot defini, s rmn stabile n timp. Definiia aceasta este ns destul de criptic, pornind de la conceptul de proces stochastic pe care nu l-am discutat pn acum i continund cu cel de distribuie de probabilitate care poate nu este suficient de explicit. Am s incerc s povestesc pe ct se poate de nematematic i de simplu despre ce e vorba. Nu v facei ns griji, muli dintre sociologii i politologii care analizeaz n mod competent trenduri statistice nu tiu exact cum funcioneaz testele de staionaritate pe care le aplic. Totui o scurt prezentare a conceptului de proces stochastic nu e complicat i poate da o privire mai flexibil i informat asupra ansamblului metodelor statistice pentru serii de timp. Procesul stochastic este matematic vorbind o funcie care leag momente de timp de distribuii ale datelor. Adic, un ir de distribuii organizate n timp. Am mai vorbit n aceast carte despre distribuii. Le-am pomenit cnd am vorbit despre distribuia unei variabile ntr-o populaie, cand am spus c scopul sondajului de opinie este a aproxima aceste distribuii la nivelul populaiei cu distribuii la nivelul eantionului. Atunci o distribuie a fost definit ca fiind un grup de perechi (valoare, probabilitate) sau pentru cazul particular al eantionului (valoare, frecven). Hai sa lum de exemplu o variabil oarecare. S zicem, opiunea de vot la alegerile prezideniale. Distribuia la nivel de populaie ar fi dependent de opiunea fiecrui membru al populaiei. Am putea scrie aceast distribuie sub forma: 162
Candidat A 20% Candidat B 30% Candidat C 30% Nehotari 10% Desigur pentru a determina distribuia nu vom avea cum ntreba toat populaia rii. De aceea se fac sondaje. Dar adesea cnd se vorbete despre sondajele pre-electorale se mai discut i de factorul temporal. Distribuia aceasta nu este neschimbat n timp. Ea e de fapt un proces stochastic. Adic pentru fiecare moment n timp difer un pic. Diverse evenimente, campania electoral, opinii i poziii ale candidailor dar i ale jurnalitilor sau ale altor persoane influeneaz alegerea indivizilor i duc la modificarea distribuiei. Dac simplificm un pic lucrurile matematice, staionaritatea nseamn c distribuia rmne n esen neschimbat. Nu nseamn n mod necesar c nu se schimb nimic, ci nseamn c schimbrile nu modific esenial situaia. Hai s mai lum un alt exemplu. S zicem c adunm distribuia greutii persoanelor dintr-o localitate. Pe msur ce trece timpul, unii slbesc, alii se ngra, unii se nasc, alii mor. Cu toate acestea, e posibil ca n fiecare moment distribuia greutilor s nu difere prea mult. Fiind vorba despre date raionale aceasta se poate traduce, aa cum am prefigurat deja, prin pstrarea mediei i a dispersiei. Dac se ntmpl astfel, procesul se numete staionar. Dac ns media crete sau scade pentru o anumite perioad de timp vorbim despre existana unui trend ascendent sau descendent. Problema practic nu se poate ns de regul att de complex pentru c o serie de timp cel mai adesea nu o avem sub forma complet a unui proces stochastic, adic a unui ir de distribuii ci sub forma unui ir de valori singulare pe care le considerm de fapt instane ale acestor distribuii. Este ca i cum am avea pentru fiecare moment un experiment de tipul aruncrii cu zarul, dar nu cu distribuia clasic, adic distribuia uniform cu 6 valori, ci cu distribuia specific cazului modelat. Avem atunci culese pentru fiecare moment rezultatele experimentului aleator, a aruncatului cu acest zar inegal i multifaetat. Bun, atunci ce mai e staionaritatea? Ipoteza de staionaritate sun n consecin cam aa: dac avem acest ir de valori consecutive n timp, este posibil ca ele s fi rezultat din alegerea aleatoare conform unei distribuii neschimbate. Dac se respinge aceast ipotez nseamn c distribuia a fost schimbtoare,
163
seria de timp nu e staionar. Exist diferite teste de staionatitate. Cel mai popular la ora actual este probabil testul KPSS (Kwiatkowski, Phillips, Schmidt, Shin 1992). KPSS testeaz o serie de ipoteze de staionaritate de nivele consecutive, adic pe lng staionaritatea seriei de timp propriu-zise verific i staionaritatea seriilor de timp considernd o ntrziere de o unitate de timp (lag 1), dou uniti de timp (lag 2) i aa mai departe pn la lag 9. Mai jos este rezultatul unui test KPSS aa cum apare la unul din pachetele de soft statistic, Stata. Am verificat staionaritatea seriei de timp a Indicelor Preurilor de Consum (IPC) aa cum apare n primul grafic din acest capitol.
. kpss IPC KPSS test for IPC Maxlag = 9 chosen by Schwert criterion Autocovariances weighted by Bartlett kernel Critical values for H0: IPC is trend stationary 10%: 0.119 5% : 0.146 2.5%: 0.176 1% : 0.216 Lag order Test statistic 0 .338 1 .199 2 .154 3 .135 4 .128 5 .126 6 .127 7 .129 8 .133 9 .137
S vedem cum se analizeaz rezultatul de mai sus. n primul rnd s observm c ipoteza H0 este faptul c IPC este de trend-staionar (soft-ul ne spune H0: IPC is trend stationary). Apoi ne sunt date valorile critice ale testului i n fine valorile testului pentru forma simpl i apoi pentru un numr din ce n ce mai mare de valori n urm (lag-uri), pn la 9 valori. Prima valoare de test, deci fr lag, este 0.338. Observm c este mai mare dect valoarea critic pentru 1%. Deci ipoteza H0 se poate respinge cu o probabilitate de a grei mai mic dect 1%. Adic putem linitit considera c seria este nestaionar. Ca de obicei, ceea ce cutm este deci o significan ct mai mic. Aici ea nu este raportat direct ci prin valorile de test. Cu ct sunt acestea mai mari cu att e significana mai bun. Ca s aflm ct de bun trebuie s stabilim unde se potrivete valoarea de test printre valorile critice. S mai ncercm o dat pentru al doilea rnd: valoarea de test pentru lag 1 este 0.199. E mai mic dect valoarea critic pentru o significan de 1%, care e 0.216 dar e mai mare dect valoarea pentru o significan de 2.5%, adic 0.176. Deci se poate respinge ipoteza nul pentru lag 1: IPC este 164
staionar fa de o valoare cu un an ntrziere cu o probabilitate de a grei de 2.5%. Ceea ce e de asemenea bine. Ar fi de fapt o significan de 0.025 dac s-ar folosi un alt mod de raportare. Ce a rmas neclar este sensul acestei staionariti cu ntrziere. Pentru aceasta trebuie s clarificm inc un barbarism englezesc. Lag nseamn ntrziere. Dac considerm o serie de timp precum cea a IPC, pentru orice valoare curent, s zicem valoarea din 2009 valoarea cu un lag (o ntrziere) este cea anterioar, deci din 2008. Acesta ar fi sensul cuvntului. n cazul staionaritii ns conceptul de lag trebuie legat de cel de staionaritate de trend. Adic, nu se verific doar staionaritatea seriei propriu-zise ci i a seriei de trend. Adic, nu ne intereseaz numai staionaritatea seriei ci i staionaritatea trendului. Adic, nu numai creterea sau scderea ci i viteza de cretere sau scdere. Dac calculm diferenele de la un moment la altul al seriei de timp obinem o serie a creterilor sau scderilor. Scznd valoarea precedent, calculm de fapt o serie nou, cea de lag 1, adic o serie a creterilor. n termeni matematici aceast serie se numete seria primelor diferene sau a diferenelor de ordinul nti, ntr-o analogie fizic ar fi seria vitezelor. Aplicnd pe aceast serie nc o dat aceiai metod obinem statistic vorbind seria de lag 2, matematic sunt diferenele de ordinul doi, n analogia fizic: acceleraiile. S ne imaginm o main a crei poziie se noteaz din or n or. Dac seria rezultat din aceast culegere de date este staionar de lag 0 (adic pur i simplu staionar) atunci maina de fapt st pe loc, dac e staionar de lag 1, atunci are vitez constant, dac e staionar de lag 2, are acceleraie constant, adic e probabil n cdere liber. Analogia aceasta este desigur simpl i destul de explicit, ns nu este statistic, ea se refer la un caz determinist cunoscut complet. n cercetarea statistic avem de a face cu o main care aproape c st pe loc sau care are viteza aproape constant. Conceptul de sezonalitate este mult mai simplu i se refer la faptul c adesea seriile de timp se comport dup legi diferite pe perioade diferite. Cu mai mare sau mai mic regularitate ele trec de la un mod de comportament la altul, cunosc sezoane. Denumirea vine desigur de la anotimpuri i ntr-adevr cele mai clare exemple se leag de anotimpuri. Astfel, recunoatem sezonalitate la consumul de bere lunar, la costurile de nclzire sau consumul de ap cald menajer. Aceste sezonaliti sunt foarte simplu de vzut grafic i de explicat dar nu mai puin importante. Identificarea sezonalitii se face cel mai adesea grafic fr a mai recurge la alte metode statistice. Graficele liniare ale seriei de timp pot ajuta aici, dar mai bine se vede din grafice suprapuse ale fragmentelor sezonale ale seriei de timp. Astfel se pot suprapune de 165
exemplu linii reprezentnd ani, pentru seriile de timp cu date cu frecven lunar. Exist ns i alte metode. De menionat ar fi corelaia de fragmente de serii de timp pentru intervalele de sezonalitate. Astfel se construiete un set de date care pune unele lng altele valorile pentru aceleai luni ale unui an (sau aceleai ore ale unei zile, etc.) i se calculeaz corelaia. Mai jos, un grafic cu sezonalitate reprezentnd temperaturile culese din or n or de ctre staia de monitorizare a energiei solare a Universitii de Vest din Timioara. Datele sunt pentru toate zilele lunii mai a anului 2010.
Pe urmtorul grafic vom suprapune zilele, fiecare linie corespunde unei singure zile. Orele corespunztoare apar la aceiai valoare de pe axa abscisei. Pe acest al doilea grafic sezonalitatea este poate chiar mai uor de vzut.
166
S mai dau un exemplu simplu din care s rezulte i scopul identificrii sezonalitii. tim astfel c exist sezonalitate n activitatea n construcii i agricultur ceea ce face ca veniturile populaiei cu angajare sezonier s creasc, chiar cu o cretere a unui anumit produs intern nedeclarat. Aceasta face ca pentru o serie ntreg de indicatori economici i nu numai, o lun de var s nu poat fi comparat cu o lun de iarn. Culegerea unor informaii cu scopul comparrii lor va trebui s in cont de efectele de sezonalitate chiar i cnd ele se refer la obiceiurile de consum cultural, la cumprturi sau opinii. De regul modelarea datelor cu sezonalitate se face simplu prin separare sau prin introducerea n model a unor variabile dummy (adic avnd valorile 0 i 1) care s indice sezon i extrasezon. Aceasta se poate de exemplu face la modele de regresie de orice tip. Exist i modele mai complexe care trateaz conceptul de sezonalitate. Nu ne vom ocupa de ele aici. Pentru cei interesai sunt de cutat modele ciclostaionare sau sinusoidale. De asemenea exist studii legate de estimarea densitii spectrale care pot ajuta la modelarea seriilor de timp cu sezonalitate.
c. Cointegrare
167
Un alt concept important n analiza seriilor de timp este cel de cointegrare. Relativ uor de explicat dup cel de staionaritate, cointegrarea spune ceva despre relaia mai multor serii de timp. Anume spunem c mai multe serii de timp sunt cointegrate dac exist o combinaie linear a lor care este staionar. De regul cointegrarea se calculeaz pentru dou serii de timp. Dac modelul se aplic la mai multe serii vorbim despre multicointegrare. De asemenea exist i un sens mai general al termenului de cointegrare care se leag de integrarea seriilor de timp de nivel k, o teorie pe care nu o voi mai descrie aici. Integrarea de ordin k este de fapt aproape acelai lucru ca i staionaritatea de lag k. Atunci dou serii de timp sunt cointegrate dac exist o combinaie liniar care are un ordin de integrare mai mic dect ordinele de integrare ale celor dou serii de timp. Sun puin complicat, dei conceptual e simplu, sau e simplu mcar n varianta mai puin general. Fie deci, t si s dou variabile serie de timp, o combinaie liniar este atunci orice variabil care se poate calcula dup o formul de forma: at + bs, unde a i b sunt pur i simplu numere oarecare (n matematic le-am zice scalari pentru c nu sunt variabile statistice, aleatoare). Dac variabila care rezult din calcul e staionar cele dou variabile iniiale sunt cointegrate. Dou ntrebri se pun atunci. Una e: de unde s tim asta? A doua: i ce dac? Pentru prima ntrebare rspunsul e destul de simplu. Exist teste de cointegrare. Cele mai cunoscute sunt testul Engle-Granger si testul Johansen, cu varianta Johansen-Juselius. Testul lui Johansen este mai general si mai simplu. Testul Engle-Granger necesit egalitate a ordinelor de integrare a celor dou variabile testate. Testul Johansen sau Johansen-Juselius nu ne mai cere s problematizm aceasta. Ipoteza lui este pur i simplu c seriile de timp sunt cointegrate. Testul de regul raporteaz valorile critice i valoarea de test. Dac valoarea de test e mai mare dect valoarea critic se poate respinge ipoteza, adic se poate decide c cele dou serii de timp nu sunt cointegrate. Pentru a doua ntrebare trebuie s revenim la o tem pe care am tratat-o deja, cea a corelaiei sau regresiei false. Poate i mai aduce cineva aminte de exemplul cu berzele care aduc copii. Problema este i mai serioas i mai complex n cazul seriilor de timp: pe de o parte pentru c decurgerea temporal este singurul mod de a ne apropia statistic de cauzalitate, iar apoi pentru c seriile de timp sunt mult mai adesea supuse problemei autocorelaiei dect alte seturi de date (despre aceasta ns n seciunea urmtoare a acestui capitol). Pe paginile 14-15 ale acestei cri am dezvoltat puin conceptul de asimetrie temporal a cauzalitii. S ne 168
aducem pe scurt aminte despre ce era vorba: este pur i simplu transcrierea faptului c o cauz trebuie s precead efectul ei. Cum statistica formuleaz adesea cam ciudat, de fapt definiia corect ar fi: dac un eveniment A are loc dup un eveniment B, A nu poate fi cauza lui B. Observm c aceast transcriere de fapt formuleaz idea in mod negativ. Adic spune cnd un eveniment nu poate fi cauza altuia. Respinge deci o ipotez, aceea c A cauzeaz B. Tot in paginile menionate, am discutat i despre cum acest principiu duce la o analiz a primelor diferene ale seriilor de timp. Atunci nc nu le-am spus astfel, dar ntre timp am introdus conceptul i ne putem referi la el astfel. Principiul este legat de relaia de cauzalitate dintre variabile i nu dintre evenimente punctuale. Rar ne intereseaz relaia dintre evenimente, mult mai des cea dintre caracteristici populaionale. n exemplul de pe pagina 14 am povestit despre relaia dintre bunstare i ateptarea de via. Relaia este statistic valid n multe populaii, dar felul cum are loc cauzalitatea poate avea diferite explicaii. Modelarea statistic poate s mai elimine dintre acestea respingndu-le. Hai s lum un alt exemplu pentru a-l discuta acum dup ce avem mai multe cunotiine despre seriile de timp. n primul rnd doresc s tematizez relaia dintre cauzalitate i cointegrare. Fie atunci urmtoarele dou serii de timp: numrul celor care vor s studieze la facultate ingineria i numrul absolvenilor de inginerie care sunt omeri. Ar putea s existe o relaie ntre aceste dou serii de timp aa cum s-ar putea s nu fie nici o legtur intre ele. S vedem prima dat cum ambele direcii cauzale au sens. Numrul de ingineri omeri ar putea s depind de numrul de absolveni de inginerie care la rndul lui ar putea s depind de numrul studenilor n inginerie, care la rndul lui ar putea depinde de numrul celor ce vor s studieze tiinele inginereti. Nici care din aceste trei relaii cauzale nu este o dependen total, dei ar putea prea. Numrul de ingineri omeri nu trebuie neaprat s depind de numrul de absolveni. Astfel, absolventul de inginerie ar putea fi mai bine echipat pentru piaa muncii dect ali absolveni (de litere sau filosofie, i oricum dect cei fr studii13) i ca atare numrul de absolveni de inginerie s se rsfrng pozitiv pe piaa muncii, independent de conjunctura economic. Tot aa numrul celor care vor s studieze inginerie nu a avut nici o influen asupra numrului de studeni n inginerie n toi anii comunismului, deoarece numrul de locuri era fixat birocratic i oricum mai mic dect numrul celor care vroiau s studieze. n fine, nici numrul de absolveni nu trebuie neaprat s fie o funcie direct a numrului de studeni. Totui nici care dintre cele trei relaii din acest lan cauzal nu poate fi
13
Dei poate surprinde, ponderea omerilor este mai mic pentru absolvenii oricror studii academice dect pentru cei fr studii. Acest rezultat se regsete n toate cercetrile, indiferent de ar i ani.
169
una de independen. Ca atare o cauzalitate statistic este probabil. Trebuie ns gsit o cale pentru a vedea ct de puternic este aceast relaie. Mai interesant este probabil relaia n sens invers. Are vreo legtur numrul celor care vor s studieze inginerie cu numrul de ingineri omeri? Pentru a decide plauzibilitatea teoretic a acestei cauzaliti trebuie s gndim puin la nivelul deciziei individuale de studiu. Elevul, absolvent de liceu, familia lui, prieteni, rude, vecini, toi sunt intr-un fel sau altul implicai, explicit sau implicit n luarea deciziei. Ce s studieze copilul? Motive i motivaii sunt diverse, de la oportuniti i costuri, la distane i tentaii. Existe argumente legate de o potenial carier i argumente legate de o anumit activitate vzut ca tentant. Exist (rar) curioziti tiinifice i tradiii familiale. Oare conteaz i numrul de omeri? Poate pentru unii conteaz i pentru alii nu. Este ns disponibil o astfel de informaie? tiai cnd v-ai nceput studiile ci sociologi sau politologi omeri sunt n Romnia? tii acum? i totui, poate pentru ingineri e altfel. Sau, mai plauzibil, se poate rspndi o opinie, chiar i inexact, prin mass-media. O astfel de opinie de genul vai de noi, e plin ara de ingineri omeri ar putea inhiba alegerea unei anumite discipline de studiu. Pe astfel de lanuri cauzale numrul de omeri real (i reprezentarea lui n media) ar putea avea efect asupra numrului celor care vor s studieze. Deci motivaiile teoretice exist pentru ambele direcii. Dac numrul celor care vor s studieze ar avea efect pe numrul de omeri, o schimbare radical s-ar repercuta dup mai muli ani. S presupunem c numrul celor ce vor/pot s studieze crete foarte tare, cum a fost n anul 1990, de exemplu, pn ca aceasta s se repercuteze asupra numrului de omeri vor trece cel puin vreo 5 ani (durata normal a studiilor din anii aceia). Deci ar trebui sa relaionm numrul celor care ncep studiile n 1990 cu numrul de omeri n 1995 sau chiar 1996. Invers relaia e mai imediat, numrul omerilor din 1995, de exemplu, ar avea efect asupra numrului celor ce i-ar ncepe studiile n toamna din acelai an. Deoarece ambele direcii cauzale sunt plauzibile ceea ce se produce este un sistem circular de cauzaliti cu diverse nivele de ntrziere, de lag, n termeni statistici. Fiind vorba despre puterea cu care o variabil o determin pe alta, aici cel mai potrivit ar fi un model de regresie, aa cum am discutat deja i cum vom discuta n urmtoarea seciune. Unii i aduc desigur aminte de coeficientul de determinare R2 care putea s spun tocmai ct de puternic este o relaie de dependen modelat cu o regresie. Dar de unde am putea tii c ceea ce modelm nu este o relaie fals, aparent. Un rspuns simplu este: pentru c avem un bun motiv teoretic. Un rspuns mai puin simplu, dar pentru unii mai convingtor este urmtorul: dac cele dou serii de timp sunt staionare sau cointegrate relaia identificat ntre ele nu este un fals. Pentru a 170
stabili puterea relaiei se poate folosi atunci un alt model, de regul o regresie. Formulat puin altfel: s presupunem c am identificat o corelaie (sau regresie) ntre dou variabile serii de timp. Dac cele dou serii de timp sunt staionare relaia este sigur genuin, dac nu sunt ambele staionare, ns sunt cointegrate relaia este de asemenea genuin. Dac nu sunt nici staionare nici cointegrate nu putem tii dac relaia identificat nu este cumva fals. Nu m pot ns abine s nu repet: dup prerea mea relaiile false sunt foarte rare, poate chiar inexistente i mascheaz doar lanuri cauzale mai complexe sau lenea de a identifica lanul cauzal.
d.
Regresii cu serii de timp
Nu exist motive generale teoretice pentru ca regresiile cu serii de timp s nu poat fi calculate ca orice alte regresii. Problema ce apare este ns faptul c premisele Gauss-Markov necesare aplicrii metodei celor mai mici ptrate sunt mult mai adesea nendeplinite n cazul seriilor de timp dect n cazul altor date statistice i pentru aceasta exist bune motive. S ne reamintim prima dat, care sunt condiiile acestea:
Variabilele aleatoare abaterei au media 0. Variabilele aleatoare abaterei au o dispersie finit egal pentru toi indicii i. Aceasta se numete homoschedasticitate (sau omogenitate a dispersiei). Variabilele aleatoare abaterei snt necorelate ntre ele. Condiia se mai numete absena autocorelaiei.
Tipic pentru seriile de timp este prezena autorcorelaiei. Motivul este urmtorul: ntr-un set de date uzual fiecare linie reprezint informaii despre un membru al populaiei: un om, o intreprindere, o pisic, etc. Putem de regul s considerm linitit c informaiile sunt mai mult sau mai puin independente. Greutatea unei pisici nu trebuie s aib vreo legtur cu a alteia, opinia politic a unui intervievat poate fi mai mult sau mai puin independent de cea a altuia, obiectul de activitate al unei intreprinderi nu are legtur cu cel al altei intreprinderi din eantion. n cazul seriei de timp liniile setului de date sunt valori consecutive ale unei variabile pentru acelai subiect al cercetrii. Numrul de studeni dintr-un an depinde puternic de numrul din anul precedent. Rata de schimb dintr-o zi depinde puternic de rata din ziua precedent i aa mai departe. De aici rezult autocorelaia.
171
Ca atare, regresia linear simpl merit ncercat i cu serii de timp, dar ntotdeuna trebuie efectuate testele de homoschedasticiate (Breusch-Pagan) i autocorelaie (Durbin-Watson). Am prezentat pe scurt aceste teste n capitolul dedicat regresiei lineare. n cazul n care aceste condiii nu sunt ndeplinite trebuie sa cutm soluii alternative de analiz a datelor. Varianta cea mai simpl este regresia primelor diferene. Se mai folosesc ns i alte metode, cum ar fi modelele AR, ARMA, ARIMA i VAR. Regresia primelor diferene construiete logic pe principiul asimetriei cauzale i, n loc s analizeze relaia dintre variabile, analizeaz relaia dintre creterile variabilelor, adic diferenele fa de momentul precedent al seriei de timp. Daca regresia simpl ar fi pentru fiecare punct de date:
yt = a + b xt + et regresia primelor diferene se scrie: yt yt-1 = a + b (xt xt-1)+ et Observm c variabilele au fost nlocuite cu diferenele fa de valorile precedente. Matematic aceasta se scrie i astfel: y = a + b x + et Semnul este litera greceasc delta i nseamn diferen. Regresia primelor diferene este n general considerat un mai bun indicator al unei relaii cauzale i, n plus reuete de regul s elimine problema autocorelaiei. Dac aceasta nu s-a ntmplat trebuie cutat un alt model. Problema mai spinoas a regresiei primelor diferene este ns faptul c este un model foarte restrictiv. Adic foarte multe relaii care par puternice pentru regresia simpl i sunt i teoretic plauzibile sunt respinse de ctre regresia primelor diferene. n aceste cazuri consider c cel mai corect este s continum s incercm i alte modele, cel mai la ndemn fiind modelul VAR. n fine, dac aceasta nu este posibil sau rezultatele rmn neconcludente, rezultatul bun al regresiei simple necorelat ns de un rezultat al regresiei primelor diferene se citete de regul ca fiind un paralelism nesusinut de o relaie cauzal direct dar care nu e neaprat o fals relaie. Este de exemplu posibil existena unui lan cauzal complex, sau mai plauzibil a 172
unui arbore cauzal n care cele dou variabile au cauze comune. Aici devin utile pentru o analiz mai amnunit testele de staionaritate i cointegrare, precum desigur i o serioas considerare a caracterului teoretic al datelor. ntotdeuna trebuie s ne punem problema ce am msurat de fapt i ce nsemntate au variabilele pentru ceea ce dorim s aflm. Modelele de regresie avansate cu serii de timp (AR, VAR, ARMA i ARIMA) se mai numesc uneori i modele Box-Jenkins i extind n mare conceptul de diferen din mai simplul model prezentat anterior. Modele AR, ARMA i ARIMA analizeaz dezvoltare unei serii de timp. Aceasta are loc prin inluderea n model a unei componente AR. Observai literele n toate denumirile de mai sus. AR desemneaz un proces autoregresiv, adic ia n seam exact principala problem a regresiei seriilor de timp. Variantele mai complexe consider modele vector-autoregresive, adic analiznd mai multe variabile (VAR), cu medie glisant (autoregressive moving average - ARMA) sau cu medie glisanta integrat (autoregressive integrated moving average - ARIMA). Modelele se gsesc implementate n practic toate pachetele de soft-ware statistic i se analizeaz aproape ca i regresiile obinuite. Definirea modelului necesit ns cteva consideraii suplimentare: Componenta AR: trebuie specificat cte valori anterioare (lag-uri) dorim s lum n seam. Dac am fcut n prealabil o analiz de staionaritate de trend se alege numrul de lag-urile astfel nct s se elimine trend-ul. Astfel dac seria de timp era staionar nici nu e nevoie de component AR se alege valoarea 0, dac seria era trend staionar de lag 1, lum AR = 1 i aa mai departe. Alegerea se face astfel pentru ca s ne asigurm c eliminm autocorelaia. Dac nu am efectuat testul de staionaritate lum de regul AR = 1. Modelele care au numai componenta AR au urmtoarea form:
Valoarea n este numrul de lag-uri ales. Componenta MA: se consider c exist o perioad de echilibrare a mecanismului de dezvoltare a variabilei, ca atare se face media de o perioad de civa ani i se analizeaz aceast medie care gliseaz. Un exemplu: dac analizm sistemul colar merit s considerm seria de timp ca medie glisant de durata colarizrii. Problema teoretic este ns cea care trebuie s dicteze aici alegerea modelului i a numrului de ani care intervin n media glisant. Modelele care au numai componenta MA au forma: 173
Modelele ARMA reunesc cele dou componente de mai sus:
Modelele ARIMA includ n plus i componenta I care permite descrierea unor modele cu trend cunoscut. Pe lng specificarea valorilor pentru AR i MA, aici se mai adaug aa-zisa valoare pentru I care poate fi 0 pentru absena de trend (staionaritate), 1 pentru un trend linear i 2 pentru un trend ptratic. De regul modelele ARIMA se specific printr-un triplet (p, d, q) unde p reprezint partea AR, d partea I i q partea MA. Astfel avem i urmtoarele echivalene ARIMA (1, 0, 0) = AR (1) sau ARIMA (0, 0, 4) = MA (4). Modelele VAR permit folosirea tehnicii AR pentru a analiza mai multe serii de timp una lng alta creind astfel posibilitatea analizei relaiilor dintre ele. Modelarea VAR este adesea urmat de analiza cauzalitii Granger. Testul de cauzalitate a lui Granger, menionat deja, se bazeaz n calcul pe rezultatele modelului VAR i este cea mai puternic metod pe care o avem pn acum la dispoziie pentru a verifica relaii de cauzalitate ntre serii de timp. Pentru o introducere n analiza seriilor de timp cred c am povestit destule, desigur pentru utilizarea lor ar mai fi loc de ceva informare. Exist cri foarte bune de statistica seriilor de timp, din pcate ns nu tiu s se fi publicat careva n traducere romn. Pn cnd s apar ceva i la noi gsii la bibliografie cteva propuneri n limba englez.
174
e. Analiza de supravieuire Analiza de supravieuire este desigur rezultat din cercetarea statistic medical n special i biologic n general, dar n ultimii ani a fost folosit n multe studii din domeniul ecologiei, a economiei, a sociologiei, etc. Cred c cel mai uor a putea explica analiza de supravieuire chiar pornind de la problema medical pentru care a fost dezvoltat. Avem deci un lot de persoane care ia un anumit tratament i un lot, aa zis martor, care nu ia respectivul tratament. ntrebarea care se pune este dac a folosit la ceva tratamentul, adic a schimbat ansele de supravieuire. Culegem date n serie de timp despre pacieni i notm momentul n care are loc decesul (sau revenirea bolii). Metoda trebuie s ne poat spune dac tratamentul a crescut ansa de supravieuire sau nu, i pe ct posibil i cu ct a crescut ansele. De la aceast construcie de baz a problemei se pot face apoi diverse variante fr a schimba metoda. De exemplu: poate s nu fie un tratament ci pur i simplu o caracteristic care separ cele dou grupuri: adic putem compara riscurile de deces pentru femei i brbai, sau pentru fumtori i nefumtori, sau blonzi i brunei, i aa mai departe. Sau putem s nu urmrim decesul pacienilor ci orice alt eveniment care se poate fixa pe axa timpului, astfel am putea analiza riscul de a cstori a celor cu ochi albatrii fa de cei cu ochi cprui, sau riscul de a cumpra o carte a celor cu studii medii fa de cei cu studii superioare. n fine, cu o dezvoltare ceva mai complex a metodologiei putem s facem chiar mai mult dect s comparm dou grupe. Anume, s vedem cum este influenat riscul de nbolnvire (sau de a se cstori, totuna) de ctre o variabil numeric, de exemplu vrsta sau venitul sau numrul de la pantofi. Tot aa metoda va putea analiza nu numai situaii legate de persoane, ci i populaii de ntreprinderi sau asociaii sau chiar de animale sau echipe de fotbal. S vedem prima dat cum trebuie s arate datele de care avem nevoie. n primul rnd avem nevoie de un eantion sau un lot. n cercetarea medical n special nu avem dect foarte rar posibilitatea de a construi eantioane statistic relevante. Culegem datele de la pacienii care vin cu o anumit boal ntr-o anumit secie, ei se reprezint pe sine i nu sunt n vreun fel reprezentativi pentru o populaie mai mare. Dac acesta e cazul vorbim despre un lot. Nu are prea mare relevan ct de mare e lotul, rezultatele oricum nu se extrapoleaz. Astfel, ca s ne exprimm corect, va trebui s formulm ceva de genul: n lotul studiat tratamentul cu X scade riscul de reapariie a bolii cu 5%. Totui nu putem s nu implicm n oarecare msur 175
generalizarea i pentru aceasta este de dorit ca mcar s nu avem o culegere biasat a datelor, adic s lum toate cazurile care apar i s nu ocolim cele care nu ne plac, indiferent de motive. Pentru fiecare dintre pacieni vom culege apoi datele la momente regulate de timp: de exemplu, din lun n lun, sau din an n an. Intervalul de culegere al datelor depinde desigur de punerea problemei. Definim o variabil special pe care o numim de exemplu DECES sau RELAPS sau cum o fi cazul, NUNTA de exemplu. Aceast variabil va avea mereu valoarea 0 cu excepia culegerii de date la care se constat apariia evenimentului. Atunci punem valoarea 1. Vom avea desigur i o variabil care descrie timpul i o variabil care identific subiectul, pacientul. Astfel datele vor avea o structur asemntoare datelor de tip panel. Diferena esenial este faptul c nu avem un panel complet, o matrice complet. Date pot lipsi fie pentru c a intervenit evenimentul fie pentru c anumii pacieni au disprut din urmrire. Aceste situaii se numesc n analiza de supravieuire cazuri cenzurate. n esen pentru analiza de supravieuire folosim trei tehnici: tabele de supravieuire, numite i tabele de timp de via (life-time tables), teste de comparaie ntre loturi (cel mai des testele Cox sau generalizri ale deja cunoscutului test Wilcoxon) i regresia Cox care estimeaz modificarea riscului n funcie de valori ale unor variabile. Tabele de timp de via Majoritatea soft-urilor statistice ofer aceast posibilitate sub numele de life-time tables. Pentru calcul se specific lotul cu variabila timp, variabila care definete subiecii i variabila binar care definete evenimentul. Rezultatul, de ast dat din Stata, arat astfel:
. ltable year failure if control_recoded == "Private non profit", survival Beg. Std. Interval Total Deaths Lost Survival Error [95% Conf. Int.] ------------------------------------------------------------------------------1980 1981 36908 0 1409 1.0000 0.0000 . . 1984 1985 35499 11 1639 0.9997 0.0001 0.9994 0.9998 1985 1986 33849 89 1496 0.9970 0.0003 0.9963 0.9975 1986 1987 32264 19 1235 0.9964 0.0003 0.9957 0.9970 1987 1988 31010 39 1523 0.9951 0.0004 0.9943 0.9958 1988 1989 29448 36 1714 0.9939 0.0004 0.9929 0.9947 1989 1990 27698 35 1731 0.9926 0.0005 0.9915 0.9935 1990 1991 25932 29 1818 0.9914 0.0005 0.9903 0.9924 1991 1992 24085 26 1859 0.9903 0.0006 0.9891 0.9914 1992 1993 22200 59 1937 0.9875 0.0007 0.9861 0.9888 1993 1994 20204 33 1984 0.9859 0.0007 0.9843 0.9872 1994 1995 18187 46 1969 0.9832 0.0008 0.9815 0.9848 1995 1996 16172 47 2057 0.9802 0.0009 0.9782 0.9819 1996 1997 14068 40 2114 0.9771 0.0011 0.9750 0.9791 1997 1998 11914 29 2030 0.9745 0.0012 0.9722 0.9767 2000 2001 9855 286 3985 0.9391 0.0023 0.9343 0.9435 2002 2003 5584 86 1804 0.9219 0.0029 0.9159 0.9274 2003 2004 3694 0 1867 0.9219 0.0029 0.9159 0.9274 2004 2005 1827 0 1827 0.9219 0.0029 0.9159 0.9274
176
Datele din tabel se refer la supravieuirea universitilor private din Statele Unite n intervalul de timp 1980 2005. S vedem ce e de citit din tabel. Primele dou coloane dau intervalele de timp n care au loc evenimente, apoi urmeaz numrul total de date (adic nu numrul de subieci, ci subieci ori ani de via). Numrul de decese ce au loc n fiecare an apar n coloana Deaths, apoi ne mai intereseaz coloana Survival care ne d rata cumulat de supravieuire. Tabela este de obicei acompaniat de o reprezentare grafic.
.92
1980
.94
.96
.98
1985
1990 year
1995
2000
2005
Graficul reprezint tocmai modificarea n timp a valorii Survival din tabel. Aceasta d riscul de deces cumulat de la nceputul perioadei pn la momentul specificat. Astfel valoarea 0,9802 pentru anul 1996 nseamn c ansa ca o universitate privat american care exista n 1980 s mai existe i n 1996 era de 0,9802. Pentru toat perioada studiat, deci de la 1980 la 2005 ansa unei universiti private americane s supravieuiasc este de 0,9219. Tabela i graficul nu spun poate mare lucru. Se observ doar o catastrof pentru anul 2000, cnd au disprut mult mai multe universiti private (286) dect n ali ani. Aceasta ar trebui studiat mai n amnunt pentru c ar putea avea motive administrativ birocratice. De exemplu organizaiile cu pricina s-ar putea s dispar numai din statisticile oficiale i s nu se nchid cu adevrat. Tabela (i desigur graficul aferent) devin interesante cnd sunt folosite comparativ. De exemplu dac lng datele pentru universitile private punem datele pentru 177
universitile de stat. Atunci rata de supravieuire devine o informaie interesant. ntraadevr, tiind c rata de supravieuire pentru universitile de stat americane pentru exact aceiai perioad de timp este de 0,9810, rata de supravieuire a celor private pare deja foarte mic.
. ltable year failure if control_recoded == "Public", survival Beg. Std. Interval Total Deaths Lost Survival Error [95% Conf. Int.] ------------------------------------------------------------------------------1980 1981 13522 0 639 1.0000 0.0000 . . 1984 1985 12883 2 716 0.9998 0.0001 0.9994 1.0000 1985 1986 12165 62 615 0.9946 0.0007 0.9931 0.9958 1986 1987 11488 4 470 0.9943 0.0007 0.9927 0.9955 1987 1988 11014 9 635 0.9934 0.0007 0.9918 0.9947 1988 1989 10370 7 616 0.9927 0.0008 0.9910 0.9941 1989 1990 9747 3 602 0.9924 0.0008 0.9906 0.9939 1990 1991 9142 2 655 0.9922 0.0008 0.9904 0.9937 1991 1992 8485 2 655 0.9919 0.0008 0.9901 0.9934 1992 1993 7828 0 663 0.9919 0.0008 0.9901 0.9934 1993 1994 7165 2 657 0.9917 0.0009 0.9898 0.9932 1994 1995 6506 3 655 0.9912 0.0009 0.9892 0.9928 1995 1996 5848 0 666 0.9912 0.0009 0.9892 0.9928 1996 1997 5182 4 692 0.9904 0.0010 0.9882 0.9921 1997 1998 4486 8 698 0.9884 0.0012 0.9858 0.9906 2000 2001 3780 8 1388 0.9859 0.0015 0.9826 0.9885 2002 2003 2384 10 736 0.9810 0.0021 0.9763 0.9848 2003 2004 1638 0 845 0.9810 0.0021 0.9763 0.9848 2004 2005 793 0 793 0.9810 0.0021 0.9763 0.9848
Mai mult putem contribui cu informaii relevante legate de comparaia universitilor private i de stat din Statele Unite. Se dovedete c universitile de stat sunt mai solide, mai rezistente, mai puin supuse riscului de a se nchide. Putem chiar spune c nu este adevrat c universitile private sunt mai adecvate condiiilor pieei educaiei superioare din Statele Unite dect cele de stat, ceea ce respinge o ipotez destul de des vehiculat. Care sunt motivele pentru acest fapt este desigur de discutat: probabil conteaz faptul c universitile private sunt foarte diverse, de caliti foarte diferite, dar i faptul c cele de stat sunt sprijinite chiar dac sunt mai mici, sau au doar o relevan local. Teste de comparaie a ratei de supravieuire Comparaia fcut mai sus este ns una care nu ia n considerare vreun calcul de relevan statistic pentru a putea calcula mai corect ce diferen de rat de supravieuire este cu adevrat semnificativ ar trebui s folosim un test statistic. Testele cele mai uzuale sunt testul Wilcoxon (Breslow) care este o adaptare a lui Brelow la testul deja prezentat al lui Wilcoxon, precum i testul Cox, bazat pe analiza regresiei Cox despre care vom vorbi puin mai ncolo. Ambele teste au ipoteze similare i dau rezultate similare. Ipoteza H0 este ntotdeuna: grupurile care se compar au aceiai rat de supravieuire. Pentru aceasta se iau n seam: numrul de decese pentru fiecare grup i se compar cu o metod tip Chi2 cu valorile care se 178
prezic dac ratele de supravieuire ar fi egale i nu ar conta diferenele dintre grupuri. Ca de obicei testul ne d o significan. Cu ct e aceasta mai mic cu att mai sigur putem s respingem ipoteza nul. Iat de exemplu rezultatele pentru ambele teste pentru datele despre universiti americane:
Wilcoxon (Breslow) test for equality of survivor functions | Events Events Sum of Control | observed expected ranks -------------------+-------------------------------------Private for profit | 163 138.45 61080 Private non profit | 786 696.03 269765 Public | 107 221.52 -330845 -------------------+-------------------------------------Total | 1056 1056.00 0 chi2(2) = Pr>chi2 = 65.29 0.0000
Cox regression-based test for equality of survival curves | Events Events Relative Control | observed expected hazard -------------------+-------------------------------------Private for profit | 163 138.45 1.2392 Private non profit | 786 696.03 1.1886 Public | 107 221.52 0.5081 -------------------+-------------------------------------Total | 1056 1056.00 1.0000 LR chi2(2) = Pr>chi2 = 88.66 0.0000
Se observ faptul c testele seamn extrem de mult. Valorile prezise sunt aceleai pentru ambele teste. De exemplu: dac ansele de supravieuire ar fi egale pentru toi ar fi trebuit s se nchid 221 de universiti de stat, n realitate s-au nchis numai 107, i aa mai departe. Diferenele dintre teste apar numai la ultima coloan a tabelei de rezultate: la Wilcoxon, care e test non-parametric, se calculeaz o transformare n ranguri a funciei de supravieuire pentru subieci i se adun rangurile pentru fiecare grup n parte similar cu metoda Wilcoxon general despre care am discutat n capitolul 7. Metoda este deci adecvat pentru orice distribuii, aa cum era i testul Wilcoxon n general. La testul Cox se calculeaz riscurile relative care sunt de fapt mai uor de neles. Dac la egalitate de anse trebuiau s se nchid 221,52 universiti de stat i de fapt s-au nchis 107, riscul relativ este de 107 mprit la 221,52 i normalizat, adic transformat astfel nct suma tuturor riscurilor s dea 1. Deci riscul relativ este numrul de evenimente ntlnite mprit la numrul de evenimente prezise i apoi transformat n probabilitate. Una peste alta, metoda Wilcoxon se poate aplica oricnd, dar d o valoare de Chi2 mai mic, aa nct unele situaii care pot fi significant diferite conform testului Cox s nu ias significante la testul Wilcoxon. Metoda Cox este deci mai puternic dar nu poate fi folosit n 179
orice condiii. Din listarea de mai sus, fie ea a testului Wilcoxon, fie a testului Cox citim valoarea significanei, adic valoare care e specificat cu Pr>chi2. n exemplul de mai sus ea este foarte bun att la unul ct i la cellalt dintre teste (valorile sunt ambele 0,0000). Deci ratele de supravieuire pentru universiti publice, private non-profit i private profit sunt statistic significant diferite. Ipoteza c ratele ar fi nesemnificativ diferite se poate respinge cu o probabilitate de a grei de mai puin de 0,0000! Cum se schimb riscul de deces sub impactul unei variabile numerice Uneori nu dorim doar s comparm dou sau mai multe grupuri, cum aprea n cazul testelor de mai sus. Un pas mai departe este s vedem cum influeneaz ansele de supravieuire o caracteristic care are caracter numeric. Continund cu exemple din aceiai cercetare, nu doar s comparm universiti private cu universiti publice, ci s vedem cum influeneaz supravieuirea variabile cum ar fi vrsta unei universiti, numrul de studeni i de cadre didactice sau veniturile universitii. Ca s dau i un exemplu medical: uneori nu ajunge s comparm riscurile de deces la fumtori i nefumtori ci dorim s analizm modificarea riscului n funcie de numrul de igri fumate pe zi. Pentru astfel de calcule se folosete o variant a regresiei, numit regresie Cox. Regresia Cox analizeaz cum se schimb o funcie h, numit i funcie hazard (sau risc) la schimbri ale unor variabile. Formula este:
Formala n sine nu e prea important de reinut dar are totui dou caracteristici eseniale: n primul rnd s observm c se bazeaz pe riscul relativ calculat fa de o funcie h0. Aceasta se numete i baseline hazard, sau funcie hazard de baz i teoretic se consider cunoscut. n realitate nu trebuie sa ne batem prea tare capul cu ea. Funcia de baz se calculeaz pentru supravieuirea indivizilor fr a lua n seama caracteristica studiat. Aceasta intervine apoi n forma exponenial din a doua parte a formulei. Caracteristica studiat (de ex: numrul de igri pe zi, sau vrsta) este valoarea zi iar coeficientul ei este . Att z ct i pot fi multidimensionali, dac vrem s analizm impactul mai multor variabile asupra supravieuirii. S vedem ns partea cea mai important: cum se citesc rezultatele. Mai jos am introdus un fragment din listingul rezultat dintr-o regresie Cox pentru supravieuirea universitilor particulare din Statele Unite n funcie de vrsta lor:
Cox regression -- Breslow method for ties No. of subjects = No. of failures = 2644 786 Number of obs = 32879
180
Time at risk Log likelihood
= =
4692312.979 -5467.6987 LR chi2(1) Prob > chi2 = = 1068.44 0.0000
-----------------------------------------------------------------------------_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------age | .9438219 .0035411 -15.41 0.000 .9369069 .9507879 ------------------------------------------------------------------------------
Am colorat galben fondul valorilor care ne intereseaz pentru interpretarea testului. Ca i n exemplele precedente cutm prima dat significana modelului. Ea apare sub forma Prob
chi2 = 0.0000, >
deci o valoare deosebit de bun. Adic putem respinge cu un grad foarte mare
de siguran faptul c supravieuirea este independent de vrst. Cu ct contribuie ns vrsta la modificarea riscului? Pentru a stabili aceasta cutm valoarea hazard ratio, care apare Haz.
Ratio
i este egal cu .9438219.
Valoarea se citete astfel: valoarea baseline este ntotdeuna socotit ca fiind 1. Orice rat de hazard mai mare dect 1 nseamn c valori mai mari ale variabilei studiate duc la un risc crescut, o rat mai mic dect 1 nseamn c valori mai mari ale variabilei studiate duc la un risc mai mic. n exemplul nostru rata de hazard este 0,94, o valoare mai mic dect 1. Aceasta nseamn c vrsta mai mare a universitii reduce riscul de nchidere al ei. Este un rezultat ateptat, de altfel, tim c orice organizaie e mai fragil pn este mai nou. Apoi se stabilizeaz i gsete mai uor resurse de supravieuire. Este ns important i cu ct poate contribui vrsta la reducerea riscului de nchidere. Pentru aceasta calculm diferena dintre valoarea standard 1 i riscul calculat 0,94. Rezult 0,06 sau altfel spus 6%. Nu pare mult, dar nici nu este att de important n sine ct este comparativ cu alte valori din aceiai cercetare. Astfel putem decide care factori de risc sunt mai importani sau putem compara efectele unor tratamente. Desigur n situaia unor cercetri medicale concrete deciziile nu se iau cu uurin, se folosesc eantioane extraordinar de mari i se efectueaz cercetri de mare durat cu multiple culegeri de date. Metodele nu sunt ns altele. Ceea ce difer este n primul rnd calitatea datelor i nu metodele de prelucrare a lor.
181
Capitolul 9. Clasificarea datelor

De obicei, clasificarea datelor nu este considerat ca fiind o sarcin a statisticii. Suntem obinuii s grupm obiecte n categorii pe criterii mai mult sau mai puin explicite i transparente, dar de regul pentru a face aceasta nu punem la lucru metode de calcul. De altfel ns, gruparea informaiilor sau obiectelor de orice fel n clase, tipuri, soiuri sau categorii este poate cea mai important cale de a simplifica realitatea. tiina natural tradiional a fost prin excelen clasificatorie. Fie c era vorba despre rase de cini, de oameni sau de soiuri de pomi, secole de-a rndul principala preocupare a tiinei era de a identifica clasa din care fac parte. Altfel spus, atunci cnd suntem confruntai cu complexitate, cnd nu tim cum s abordm o tem, clasificm. Cutm adic s grupm informaia. Vedem un obiect, l identificm cu o clas de obiecte, un om, cu o categorie social. O facem nu numai atunci cnd dorim s abordm o problem n mod tiinific, o facem tot timpul, fie c suntem contieni sau nu, fie c identificm variabilele pe care le folosim ca s clasificm, fie nu. Stm de vorb cu un om, poate chiar fr a fi contieni i msurm anumite variabile i clasificm: dupa accent, vocabular, mbrcminte, tunsoare, etc. Apoi cndva, pe baza observaiilor, decidem: brbat, romn, vrst medie, posibil inginer, bine situat, conservator sau ceva similar. i gata, o dat interlocutorul nostru clasificat, comportamentul nostru e mai simplu, ne putem baza pe prejudeci. Scade imprevizibilitatea, nu mai trebuie sa fim foarte ateni la ceea ce spunem, costurile de acomodare comportamental au sczut semnificativ. Sigur, ansele de a grei sunt considerabile, dar i efortul clasificator este de obicei mai mult sau mai puin proporional cu importana consecinelor unei greeli. Unul este efortul pe care l depunem studiind oamenii cu care stm la coad la ieirea de la super-market, altul efortul pentru interlocutorul de la un interviu de job. Diferena dintre acest tip de clasificare spontan i clasificarea tiinific rezid cel mai mult n contientizarea variabilelor folosite. Clasificarea tiinific este contient, sau trebuie mcar s fie. Argumentele clasificatorii sunt explicite i eseniale pentru a determina categoria din care face parte un lucru. Un cine este dog german pentru c are caracteristicile rasei, o organizaie este un ntreprindere economic pentru c este nscris la registrul comerului, i aa mai departe. Clasificarea este pn la urm un fel de verificare de definiie, se stabilete un gen proxim, adic un ansamblu cuprinztor care conine toate clasele nrudite: cini, 182
organizaii sociale, etc. i o diferen specific, adic o caracteristic sau mai multe care mpart genul n categorii. O clasificare bine fcut trebuie s se supun unor reguli similare cu cele ale variabilelor statistice nominale (poate cineva i mai aduce aminte). Adic: orice lucru bine definit trebuie s poate fi incadrat ntr-o clas (completitudine) i ntr-una singur (disjunctivitate). De regul condiiile acestea sunt suficient de simplu de ndeplinit, dar nu ntotdeuna i atunci intervine statistica! S lum un exemplu: e uor s mpari organizaiile n organizaii formale i informale, apoi pe cele formale n ntreprinderi i organizaii non-profit. n fine i ntreprinderile se pot apoi subclasifica dup diferite criterii simple. Ce ne facem ns dac criteriile pe care vrem s le urmrim nu sunt tocmai simple? Fie avem mai multe criterii, fie variabila criteriu are foarte multe valori. Dac vrem s clasificm intreprinderile dup personal, de exemplu, am avea mii de categorii: intreprinderi cu un angajat, cu doi, cu trei, i tot aa pn la zeci de mii. Desigur variabila ar trebui recodat, astfel nct s avem un grup de ntreprinderi cu mai puin de 10 angajai, un grup cu ntre 11 i 100 de angajai i aa mai departe. Dar unde punem punctele de separaie? Cum decidem s facem grupurile? Ei bine, aici poate interveni statistica. Tot statistica poate interveni cnd dorim s folosim mai multe criterii, de exemplu: numr de angajai, cifr de afaceri i profit. Pare de-a dreptul caraghios sa adunm valorile celor trei variabile cu sau fr a pune coeficieni, dar aa ceva fac de exemplu topurile de universiti. Statistica poate rezolva luarea n considerare a mai multor criterii de clasificare fr a fi nevoie s le adune n vreun fel, folosind metode multidimensionale. Matematic acestea nu sunt foarte simple, dar att aplicarea lor ct i interpretarea rezultatelor este deosebit de uoar. n fine, al treilea i ultimul motiv pentru a folosi clasificarea statistic este acela c permite construirea unor categorii n situaii de apartenen imperfect. Ce nseamn asta? S folosim exemplul precedent. Avem ntreprinderi i vrem s construim cinci categorii: microntreprinderi, ntreprinderi mici, mijlocii, mari i foarte mari. Clasificarea se va baza pe mai multe criterii: personal, cifr de afaceri i profit, de exemplu. Am putea mpri fiecare scal a unei variabile n intervale. De aici pn aici e intreprindere mic, de aici pn aici mijlocie, i aa mai departe. Problema este c vor fi suficient de multe intreprinderi care dup un criteriu vor fi mari, dup un altul mici sau mijlocii. Clasificarea nu ar fi univoc. Statistica permite gsirea categoriei celei mai apropiate sau celei mai potrivite. De asemenea statistica permite o mai corect alegere a categoriilor gsind felul cum intreprinderile se grupeaz n funcie de cele trei variabile. Poate nu cele cinci clase menionate descriu cel mai 183
bine populaia intreprinderilor, ci altele. De exemplu: intreprinderi mici neprofitabile, intreprinderi mici profitabile, intreprinderi mari neprofitabile i intreprinderi mari profitabile. Prima clasificare presupunea o corelaie ntre numrul de angajai, cifra de afaceri i profit, cea de a doua clasificare nu.
a. Clustere ierarhice Principala metod de clasificare a datelor statistice poart denumirea de clustering sau analiz cluster. Analiza cluster include mai multe tehnici care au toate ca scop gruparea unor obiecte de studiu pe baza unor variabile. Metoda considerat o metod de cercetare exploratorie e folosit pe larg n special n data mining, adic acea area de cercetare care leag informatica i n special bazele de date cu statistica. E vorba despre cantiti mare de date care trebuie simplificate prin clasificare. Datele pot fi ns din orice domeniu, de la economie i sociologie la medicin i biologie. Principiul de baz al aproape oricrei metode de clustering este acela de definire al unei distane pe baza variabilelor care sunt criteriile de clasificare, i apoi gruparea obiectelor apropiate conform acestei distane. n matematic conceptul de distan este unul bine definit i destul de simplu. n principiu ne putem imagina c este vorba despre o distan geometric. Nu e doar o metafor. Dac avem o singur variabil i aceea este, n plus, i numeric, putem reprezenta obiectele ca puncte pe o dreapt. Mai jos avem reprezentarea grafic a patru ntreprinderi, A, B, C i D pe axa numrului de angajai
10
18
40
50
+-----------------+-------------+-----------------------------+------------------+------------------> 0 A B C D
Distana care se poate defini pe aceast ax este atunci diferena de poziie, adic diferena de numr de angajai: ntre A i B este o distan de 8, ntre B i C de 22. Dac avem dou variabile ne putem nc destul de uor imagina o reprezentare n plan, cu dou axe, apoi un calcul geometric al distanei ntre punctele definite de valorile pe cele dou axe, adic pentru cele dou variabile. La trei variabile folosite pentru clasificare analogia ar fi cu distanele din spaiul tridimensional. Matematicienii nu au nici un fel de reineri n a gndi mai departe la spaii cu oricte dimensiuni i a defini distane i pentru aceste spaii. Regulile pentru o 184
distan sunt destul de simple. Dac avem trei puncte A, B i C, distana se poate calcula ntre dou puncte d(A, B) i ea este un numr real pozitiv care are proprietile: d(A, B) = 0 dac i numai dac A = B. d(A, B) = d(B, A) (simetria) d(A, B) d(A, C) + d(C, A) (inegalitatea triunghiului) Cele trei proprieti sunt foarte simple i de bun sim. Prima spune ca dintr-un loc pn n acelai loc distana e zero. A doua c distana e aceiai indiferent n ce direcie parcurgem drumul, iar a treia c distana cea mai mic dintre dou puncte e linia dreapt. Esenial este nu faptul c acestea sunt proprieti ale distanei. Asta e simplu. Esenial este c nu e nevoie de nimic n plus pentru ca o funcie s fie e o distan, cci exist multe distane i nu una singur. Revenind deci la clusterele noastre. Avem nite date referitoare la anumite obiecte. Fiecare astfel de obiect l modelm cu un numr de variabile numite criterii de clasificare (numr de angajai, cifr de afaceri, profit). Obinem nite puncte tridimensionale i ntre ele se pot calcula distane. De exemplu, dac ntreprinderea A are 100 de angajai, cifr de afaceri de 1000 de milioane de lei i profit de 1 milion de lei reprezentarea ei se va putea scrie astfel: (100, 1000, 1). Pentru ntreprinderea B cu 2000 angajai, 230 milioane cifra de afaceri i 20 milioane profit iese: (2000, 230, 20). Ca o regul general vom putea nota pentru A valorile (A1, A2, A3), iar pentru B (B1, B2, B3). Dac numrul de criterii e mai mare avem pentru A (Ai)i=1,n i pentru B (Bi)i=1,n unde n este numrul de criterii. Metodele de clustering folosesc diferite distane. Voi enumera mai jos formulele pentru cele mai obinuite dintre acestea: Distana euclidian d(A, B) = ( i (Ai - Bi)2 )1/2 Ptratul distanei euclidiene d(A, B) = i (Ai - Bi)2 Distana Manhattan d(A, B) = i | Ai - Bi | Distana Chebyshev d(A, B) = max | Ai - Bi | Distana putere d(A, B) = ( i (Ai - Bi)p )1/r Discordana procentual d(A, B) = (numrul de perechi Ai Bi) / i Fiecare dintre distane este potrivit pentru diferite situaii. Cele mai importante sunt probabil prima i ultima. Prima, distana euclidian, este tocmai sensul comun al termenului distan i 185
o putem folosi cu succes de cte ori avem de a face cu clasificarea pe baza unor valori cantitative, raionale. Apoi e important i ultima din list, discordana procentual pentru c nu presupune nici un fel de calcule cu valorile variabilelor i ca atare se poate folosi pentru clustering cu variabile nominale sau ordinale. Pe lng diferitele distane care pot fi folosite, exist i diferite metode de clustering. Principial toate metodele de cluster ierarhic pornesc de la situaia n care fiecare obiect este un grup, apoi reunesc obiectele n grupuri din ce n ce mai mari folosind diferite metode de includere n grup. Voi enumera doar pe cele mai simple i obinuite. Ideea este de a decide, date fiind distanele dintre obiecte, ce obiecte intr n aceiai categorie. Metodele acestea se numesc de obicei metode de linkage, adic metode de formare a legturilor dintre obiecte. Soft-urile statistice ne permit alegerea metodei de linkage. SPSS ofer de exemplu 7 astfel de metode la alegere. Dou dintre acestea sunt cele mai obinuite. Cel mai apropiat vecin: Se grupeaz ntotdeuna elementele aflate cel mai aproape unul de altul. Linkage n interiorul grupurilor: se include cte un element n grup astfel nct distana medie dintre elementele unui grup s fie minim. n toate celelalte variante gruparea se face astfel nct distana dintre clustere s fie maxim. Se folosesc atunci diferite metode de calcul a distanei dintre clustere. Cel mai ndeprtat vecin: se ia distana dintre cele mai ndeprtate puncte ale celor dou grupuri. Linkage ntre grupuri: se ia distana medie dintre un punct dintr-un grup i unul din cellalt grup. Clustering centroid: se ia distana dintre mediile pe grup pentru fiecare criteriu. Clustering median: se ia distana dintre medianele pe grup pentru fiecare criteriu. Aceasta variant e util dac se folosesc criterii ordinale, nenumerice. Metoda lui Ward: se calculeaz mediile pe criterii n interiorul fiecrui grup. Apoi se calculeaz distanele de la fiecare element din grup pn la medie cu ptratul distanei euclidiene. Distanele acestea se nsumeaz pe grupuri. Se alege astfel extinderea grupului nct suma total s fie minim.
186
Dup ce metoda de clustering ierarhic formeaz grupurile, le reprezint grafic sub forma unui arbore orizontal numit i dendrogram, ca n exemplul urmtor.
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * *
Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num H PL BG R P SP GR BE F NL BRD IT S UK A SF IR CH DK N US 559 865 151 916 814 1069 508 100 457 763 202 661 967 1171 49 1018 610 253 406 712 1222 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ -+-+ -+ +---------------------------------------------+ -+-+ | -+ | -+ | -+-----------+ | -+ | | -+ | | -+ | | -+ +---------+ | -+ | | | -+-+ | | | -+ | | | | -+ | | | | -+ +---------+ +-------------------------+ -+ | | -+ | | -+ | | -+-+ | -+ | -----------------------+
n exemplu s-a calculat clustering-ul ierarhic pentru o serie de ri, folosind date din 1998. Criteriile de clasificare au fost produsul intern brut pe cap de locuitor, un indicator al sistemului politic i un indicator al nivelului de globalizare14. Urmrind de la stnga la dreapta graficul vedem ce ri se aseamn cel mai mult. Primul nivel de asemnare leag Ungaria de Polonia, Bulgaria de Romnia, Portugalia de Spania i Grecia, Elveia de Danemarca i Norvegia i aa mai departe. Apoi la un nivel urmtor se grupeaz rile est-europene i cele vestice, ns fr grupul Portugalia, Spania, Grecia. Acestea se grupeaz tot cu cele vestice dar la un nivel de asemnare mai mic. Statele Unite sunt cele mai diferite de restul rilor occidentale, totui mai asemntoare cu acestea dect cu grupul estic. Practic graficul de mai sus ne permite s decidem n mai bun cunotiin de cauz asupra felului cum vrem s clasificm rile. Decizia trebuie s rmn desigur una susinut teoretic. Metoda de clustering ierarhic nu construiete grupele per se, dar ne ofer o unealt analitic chiar mai important prin reprezentarea distanelor.
14
Pentru a indica sistemul politic am folosit indicatorul Polity IV dezvoltat la Universitatea Maryland din Statele Unite, pentru nivelul de globalizare am folosit numrul de organizaii non-guvernamentale internaionale active n respectiva ar.
187
b. Clustering cu centre de clustere Metoda se mai numete i k-means clustering, sau clustering cu k-centre. Metoda de clustering cu centre de clustere ne ofer tocmai ceea ce clustering-ul ierarhic nu fcea: stabilete apartenena elementelor pe care le dorim clasificate la grupuri bine definite. Dup ce am stabilit n cte grupe dorim s facem clasificarea, metoda calculeaz nite centre, face mprirea specificnd pentru fiecare element de care centru aparine i calculeaz i distanele dintre elemente i centrele aferente. Logica metodei este destul de simpl, chiar dac destul de diferit de clustering-ul ierarhic. Metoda de calcul este una iterativ, asemntoare metodelor de analiz numeric. Se pornete cu centre alese mai mult sau mai puin aleator. Apoi se calculeaz pentru fiecare element distana pn la fiecare cluster i se asigneaz elementul centrului cel mai apropiat. Acest pas se tot repet dup mutri ale centrelor astfel nct distanele din interiorul grupului s fie ct mai mici i distanele dintre grupuri ct mai mari. Altfel spus se caut ca grupurile s adune elemente ct mai asemntoare, iar grupurile s fie ct mai diferite ntre ele. Metoda va fi cu att mai bun cu ct va alege mai bine centrele iniiale i va tii s mute apoi aceste centre astfel nct s reduc numrul de iteraii. Centrele iniiale se pot fixa pe considerente teoretice sau putem lsa metoda s le calculeze. Una peste alta partea matematic implicat aici e destul de complex i depete cadrul acestei cri pe care o intenionam ct mai puin matematic. Analiza rezultatelor va trebui desigur s nceap printr-o analiz a semnificaiei teoretice a centrelor stabilite. Are sens s imprim astfel sau nu? Nu orice clasificare e rezonabil. Metoda ne gsete cele k grupuri cel mai similare n interiorul grupului i diferite ntre grupuri. Asta ns nu garanteaz c rezultatul are semnificaie teoretic. O dat stabilit faptul c are sens clasificarea, se verific puterea de separaie a clusterelor, adic diferena de distane din interiorul clusterelor i distanele dintre clustere. Pentru clustere cu dou criterii se pot realiza grafice destul de sugestive. Iat un exemplu bazat pe aceiai statistic a rilor, clasificate de aceast dat numai pe baza produsului intern brut pe cap de locuitor, notat n grafic GDP, i a nivelului de globalizare, notat n grafic ingo (indicatorul politic oricum ddea valori asemntoare pentru toate rile): 188
Am decis s clasific n patru grupe, am folosit pe grafic puncte diferite pentru a identifica mai uor clusterele i le-am i ncercuit. Observm c sunt grupate rile est-europene, notate cu stelue (Bulgaria, Polonia, Romnia, Ungaria), apoi cele sud-europene romburi (Grecia, Portugalia i Spania). Un grup aparte e format din Statele Unite ale Americii i Norvegia (notate cu ptrate). Restul rilor clasificate fac parte toate din acelai grup. Este desigur plcut faptul c metoda statistic a clasificat rile conform ateptrilor noastre. Nu ntotdeuna se ntmpl ca grupurile care ni se propun s aib i un sens teoretic. Avantajul reprezentrii grafice este acela c pe lng grupare se observ i poziionarea elementelor care au fost clasificate. Se vede, de exemplu, cum Irlanda dei a fost inclus n grupul vest-european i avea n 1998 o valoare de PIB perfect compatibil cu celelalte ri din grup, avea un nivel de incadrare n societatea global mult inferior restului grupului. Se vede de asemenea cum Spania, dei era ca valoare de PIB clar asemntoare mai de grab cu Portugalia sau Grecia dect cu Germania sau Frana, ca incluziune global prezenta valori mult superioare celorlalte ri din grup (cel mai probabil din cauza poziiei pe care o are ntre rile hispanice). Oricum,
189
exist pn la urm o singur alegere oarecum neateptat. Din cauza caracterului excepional al Statelor Unite s-a creat un centru de cluster pentru ele, i Norvegia s-a dovedit mai apropiat de acest centru dect de cel al grupului vest-european. Graficul arat c aceast clasificare nu este neaprat evident. Dac s-ar fi folosit alt algoritm de calcul al grupurilor poate s-ar fi ajuns la alt rezultat. Aceast dependen de metod este de fapt prezent mai mereu, ca atare e bine s o contientizm. Alegerea pe care o face metoda este evident un rezultat al metodei, i nu o clasificare natural a obiectelor, care decurge adic strict din natura lor.
Pentru trei criterii graficele sunt ceva mai greu de citit, pentru patru sau mai multe nu se pot face oricum. A ncheia acest capitol spunnd c metode de clustering exist mai multe, am ales doar dou dintre ele. Acestea rspund printre altele unei cerine importante, anume evaluarea i gruparea unor obiecte pe baza unui numr mai mare de criterii, fr a trebui s decidem care criteriu este mai important i fr s depindem de calculul unui singur punctaj sau a unei singure note.
190
Capitolul 10. Deserturi i cum putem s le stricm sau cum se poate grei n statistic
Dup ce Darrel Huff a publicat celebra i deja pomenita lui carte Cum s mini cu statistici, multe cri de statistic introductiv au inclus capitole de genul cele mai frecvente 10 erori sau greeli care se fac n statistic. Nu vreau s m sustrag de la aceast plcut sarcin dei pn acum am pomenit multe dintre greelile tipice i pe ici pe colo am dat i exemple de cum se fac ele, dac cineva ar dori s se inspire. Oricum n acest capitol de final o s reiau cu noi exemple o parte din ele, cele care mi se par cele mai frecvente i cele mai duntoare. Aa cum observa i Huff, argoul statistic, precum i al altor tiine, presupune nu numai un scriitor atent i precaut, dar i un cititor avizat. Declaraiile bazate pe statistici induc n eroare cel mai adesea prin omisiuni. Iar cititorul neavizat este tocmai acela care nu sesizeaz ce lipsete n informaia publicat.
Omisiunile fatale Anumite ingrediente nu au voie s lipseasc din meniul pe care statistica l pune pe masa cititorului, fie el avizat, fie nu. Pentru ca o informaie de natur statistic s aib sens i valoare de cunoatere, o serie de informaii colaterale snt necesare. De exemplu, la un sondaj trebuie s tim populaia, volumul eantionului, metoda de eantionare, i aa mai departe. Majoritatea mass mediei, precum i a cercettorilor au aflat aceasta i ne raporteaz cu sinceritate i volumul eantionului i marja de eroare. Ceea ce e desigur foarte bine. Mai exist i excepii memorabile, n care omisiunile snt att de multe, nct nu mai tim de fapt de ce ni s-a comunicat ceva. Iata tire din ziarul Libertatea, Nr. 3392, smbt 22 septembrie 2001 pe care o reproduc n ntregime (!). Potrivit rezultatelor unui sondaj de opinie, 53% din cetatenii rusi nu cred in existenta unei a doua vieti. In cadrul aceluiasi sondaj, 36% dintre subiecti au declarat ca sunt convinsi in existenta vietii dupa moarte. 11% dintre participantii la sondaj au declarat ca nu pot raspunde la aceasta intrebare. Aici nu tim volumul eantionului, i bineneles nici marja de eroare. Aici trebuie s recunosc c Libertatea este n general consecvent n a omite asemenea informaii. Ce e mai interesant e 191
felul cum par a fi formulate rspunsurile la ntrebare. Dac adunm procentajele iese exact 100%. De unde rezult c scala de opiuni nu a permis cetenilor rui din sondaj nici un fel de dileme. Fie nu cred, fie snt convini. E nc bine c s-a acceptat c unii chiar nu pot rspunde. Cam puini dup experiena mea. Oricum, astfel de informaii cu tent statistic chiar nu au nici o valoare de informare. S trecem ns la treburi mai serioare. Mai rar dect neprezentarea volumului eantionului se evit o alt omisiune. Cnd ni se prezint o valoare procentual trebuie s tim pe cte cazuri s-a obinut acel procentaj. Aceasta este obligatoriu dac numrul de cazuri este deosebit de mic. Nu este de regul nici o problem la procentaje care se calculeaz din ansamblul eantionului, pentru c volumul acestuia este cel mai adesea cunoscut. Necazul apare cnd, de exemplu ntr-o tabel de relaionare, apar procentaje ale unor categorii subordonate. n asemenea cazuri procentajul nu se mai refer la ntreg eantionul. E vorba de cazuri de genul 25% dintre brbaii de sub 25 de ani snt de prere c .... La astfel de propoziii precizarea volumulului e esenial. O opinie mprtit de ctre un sfert dintr-o categorie populaional este desigur important. Ceea ce totui nu e cazul dac n eantion ntreaga categorie e reprezentat de 12 persoane, din care un sfert snt abia 4 oameni. tim c matematic vorbind, ceea ce conteaz sunt la urma urmei numerele mari. Cazul de mai jos nu e chiar o infraciune statistic pentru c informaia din articol este pn la urm suficient dac dorim s refacem noi calculele. Dar pe cititorul neavizat tot l induce n eroare, ceea ce putem linitit incadra la contravenii. Astfel de omisiuni apar cel mai adesea n lucrri cu pretenii tiinifice. Exemplul de mai jos provine dintr-o tez de doctorat n pedagogie de la Universitatea de Stat din Moldova15: n funcie de gen, nregistrm recunoaterea unei palete mai largi de forme de instruire la brbai: (3% dintre brbaii chestionai i-au exprimat opiune pentru lucrul n bibliotec, fa de 0% la femei; 4% dintre brbai i-au exprimat opiunea pentru mass-media). Ce a vrut autorul s ne spun de fapt? Ei bine, a vrut s compare genurile din perspectiva modurilor de instruire recunoscute i a conchis c brbaii menioneaz mai multe astfel de forme. Pentru a susine aceasta ni se exemplific dou forme de instruire (folosesc termenul
15
Am decis s nu dau mai multe amnunte bibliografice.
192
autorului) menionate ntr-o chestionare de ctre brbai n mai mare msur dect de ctre femei. Prima omisiune este cea a procentajului de femei care declar mass-media ca fiind o form de instruire. Din tabelele din document se poate afla ns c acest procentaj este de 1%. Problema cea mare este ns c nu se specific volumul asociat acestor procentaje. Nici n tabelele care apar pe lng fragmentul citat mai sus nu apar frecvene, ci numai procentaje. Cutnd un pic prin tez gsim pn la urm volumul eantionului. Aici surpiz maxim, pentru mine, cel puin: Populaia investigat: Subiecii studiului au fost 175 de aduli, participani la diferite seminarii (...), dintre care 116 femei i 79 de brbai Din cele de mai sus eantionul nu pare a fi aleator. Mai departe: Hai s nu fiu crcota i s nu adun 116 cu 79. Observ ns c 3% dintre brbai snt probabil 2 persoane, iar 4% probabil 3. persoane. 1% dintre femei este 1 persoan. Ei bine, nu numai c omisiunea este nepermis la numere aa mici, dar concluzia din studiu este absolut hazardat. O alt omisiune foarte des ntlnit se refer la formularea ntrebrii. De multe ori un concept complex i chiar ambiguu este prezentat ca fiind rezultat direct dintr-un sondaj de opinie. Iat un exemplu tipic din Evenimentul Zilei Nr. 4892, 31 Mai 2007. Prezentnd un sondaj de opinie cu informaiile de rigoare (Sondajul a fost efectuat pe un esantion de 1.244 de persoane si are o marja de eroare de 2,8%) se face n text remarca: Sondajul IMAS constat modificari substantiale si la capitolul increderii in personalitatile politice: Traian Basescu, 60%, inregistrand un plus de 11 procente: Theodor Stolojan (32%), Gigi Becali (30%), Calin Popescu-Tariceanu (19%), Mircea Geoana (16%). Nu ni se spune desigur ce este acea ncredere i, ceea ce e i mai grav, nu ni se spune ce reprezint procentajele raportate. Putem doar bnui rspunsul la prima ntrebare, dar la a doua ntrebare nu avem nici un indiciu. ntrebarea pe care o pun de obicei sondajele de opinie la acest subiect este ceva de genul Ct ncredere avei n urmtoarele personaliti politice?. Rspunsurile posibile snt de obicei Foarte mult, Mult, Puin, Foarte puin eventual cu o opiune la mijlocul scalei. Prima omisiune este absena specificrii rspunsurilor care au fost incluse n procentajul de ncredere. E oare vorba despre suma categoriilor foarte 193
mult i mult ncredere? Probabil. Dar exista oare o categorie medie sau nu? i dac da, cum a fost formulat? i unde intr ea, la ncredere sau la absena ncrederii? Apoi, problema esenial: cum au interpretat intervievaii conceptul de ncredere? ncercai s rspundei la ntrebare. Ct ncredere avei ntr-un anume politician? La ce v gndii cnd trebuie s rspundei? V gndii la ncrederea c va face se spune, sau la ncrederea c va spune ce crede, sau la ncrederea c ceea ce spune v va conveni. Poate c e vorba despre o senzaie mai general de simpatie sau de familiaritate mai de grab dect de predictibilitate. Faptul c conceptul de ncredere este un concept destul de larg face ca rspunsul s fie dependent de contextul n care se pune ntrebarea. Contextul poate face ca ncrederea s fie interpretat ntrun anumit fel. Dac nainte de ntrebarea de ncredere se discut despre aciuni politice sau anumite declaraii politice aceasta poate induce o anumit nelegere i poate duce la o evaluare de un anumit fel. Bineneles un articol de ziar nu poate i nu trebuie s dea ntregul chestionar, dar astfel de consideraii fac discutabil comparabilitatea rezultatelor la cote de ncredere. Aa c aseriunea din articol, cum c Traian Bsesc nregistreaz un plus de 11 procente nu prea nseamn mare lucru. Omisiunile pe care le-am menionat, volumul eantionului, volumul unei categorii, formularea ntrebrilor i a rspunsurilor, nu au de obicei intenia de a induce n eroare. Totui n unele cazuri ele o fac pentru c ncurajeaz implicit o citire mai general a rezultatelor dect ar fi permis. Ele pot implica, n special pentru cititorul neavizat, generalizri sau comparaii care snt nesusinute. O alt problem care este conex omisiunii formulrii ntrebrii este confunzia legat de variabila msurat. Aa cum am vzut din ntrebarea despre ncredere nu este ntotdeuna evident ce se msoar. O eroare grav este confuzia de variabil. Ce msurm de fapt? De multe ori cercetrile tiinifice, i n special cele din domeniul social i economic conceptualizeaz la un nivel teoretic abstract. Apoi statisticianul este pus n situaia de a operaionaliza teoria, adic de a gsi ceva suficient de msurabil i suficient de apropiat de formularea teoretic astfel nct ipotezele de cercetare s poat fi testate. Atunci cnd un concept teoretic este prea vag pentru a putea fi msurat direct, statisticianul trebuie s gseasc o variabil care s in locul acestui concept n cercetarea empiric. Metoda se numete de regul analiz cu variabile proxy dup cuvntul englezesc pentru nlocuitor. Ct de bine se preteaz o variabil proxy pentru a ine locul unui concept nemsurabil este de obicei 194
nedecidabil. Totui o doz de bun sim tiinific exist n modul cum se pot face astfel de definiii. O alt cale de abordare a aceleiai probleme este utilizarea analizei de cale (sau, iari englezete, analiz path). n acest caz variabila nemsurabil este inclus ntr-o cale logic deductiv, i nlocuit n cercetare printr-o variabil care i este precursor logic. Desigur determinarea logic a variabilei care este oricum nemsurabil printr-o alt variabil nu poate fi complet i oricum nu poate fi determinat prea clar. Sigur nlocuiri de acest tip se pot face, dar nu trebuie nici o clip uitat c nlocuirea e valabil foarte limitat i doar la nivelul conceptual al respingerii de ipoteze, al contraexemplului deci. Dup introducerea aceasta puintel cam filosofic, ce e de spus, de fapt? O mare grij trebuie avut de cte ori n cercetare sau n prezentarea unor rezultate apar concepte ce par a fi greu de msurat. Textul nostru trebuie s spun exact ce am msurat de fapt i de ce. Hai s dau un exemplu autocritic. ntr-o serie de cercetri am avut nevoie s msor ceva ce teoria numea gradul de globalizare sau de includere n societatea global a unei ri ntr-un moment anume. Am mai dat exemple din aceste cercetri aa c unii poate i amintesc c am folosit numrul de organizaii non-guvernamentale active n ara respectiv pentru a msur globalizarea. Este evident o variabil proxy. Ct e de bun? Nu pot spune dect c am decis dup o cumpnire destul de serioas a alternativelor pe care le propune literatura din domeniu. Ce pot spune n aprarea mea? Faptul c am prezentat n articolele tiinifice rezultate din aceste cercetri, ce este de fapt variabila i nu am pretins c ar fi mai mult dect un indicator posibil al gradului de globalizare. Erorile cele mai frecvente legate de obiectul unei msurtori se fac n studii de marketing n care adesea consumul este identificat cu estimarea consumului, cheltuieli cu estimarea cheltuielilor. ntrebri de genul ct cheltuii lunar pe preparate din pete? pot cu greu fi interpretate ca reprezentnd un indicator ct de ct fidel al consumului. in minte primul sondaj pe care le-am condus n Romnia. Printre altele am ntrebat atunci locuitori ai Timiorii cu ce partid au votat la alegerile precedente, de la care trecuse mai bine de un an. Am regsit un rezultat care e descris i n literatura de statistic politic. Anume c oamenii uit ce au ales i snt muli care identific partidul ctigtor al alegerilor cu opiunea lor, dei n realitate au votat la vremea respectiv cu un alt partid. Sondajul meu avea rezultate bune de test, adic eantionarea avea caracteristicile unei eantionri aleatoare. Totui proporiile voturilor pe partide nu corespundeau de fel rezultatelor reale de la alegerile precedente. Variabila culeas de mine nu era deci opiunea politic de la precedentele alegeri, ceea ce de fapt mi doream s msor, ci impresia de la momentul chestionrii asupra opiniei politice 195
de la precedentele alegeri. Diferena e mare, pentru c ne mpiedic s avem un indicator al schimbrilor de opiune. Raportarea selectiv a rezultatelor O alt eroare tipic pentru mass media, dar i pentru politicieni i universitari sau cercettori care se transform n politicieni prin partizanat, este raportarea selectiv a rezultatelor. Desigur un context restrictiv cum ar fi cel al unui articol de ziar sau al unei declaraii de pres nu poate acomoda toate rezultatele unei cercetri, cu toate acestea uneori nu avem cum s nu suspectm intenie n asemenea situaii. Pe la nceputul anilor 1990 am auzit de la un cunoscut sociolog romn, nu spui cine, persoan important, o declaraie televizat care m-a minunat puintel. ncerc s o reproduc ct de exact pot: n Statele Unite, n anii 50 sectorul universitar privat includea jumtate dintre instituii, dar s-a ajuns ca n 1990 numai 20% dintre studeni s studieze la universiti private. Negreit ambele valori snt corecte, ceea ce se omite este c i n 1990 ponderea universitilor private era tot de vreo 50% din ansamblul universitilor americane. Declaraia pune fa n fa dou valori care nu snt direct comparabile, o pondere de instituii din 1950 i o pondere a studenilor din 1990 creind astfel senzaia unui trend. Adevrul este c un astfel de trend exist i ponderea studenilor din sistemul privat a sczut cu adevrat, deoarece sistemul universitar american public a expandat mult mai mult dect cel privat. Cu toate acestea, felul cum a fost fcut declaraia a fost evident manipulator. i aceasta i prin faptul c a prezumat o scdere a sistemului privat ceea ce nu a avut de fapt loc. Ceea ce s-a ntmplat a fost o cretere mai accentuat a sistemului public.
Prezentarea numai a acelor rezultate care convin din punctul de vedere al cercetrii, fie ea tiinific sau mai puin, este o boal care nu prea are leac. n multe cercetri de natur politic se pun, pe lng ntrebrile pe bune i anumite ntrebri special pentru a obine rezultate publicabile sau care s susin decizii gata luate. Se poate raporta selectiv i altfel, poate ceva mai puin manipulativ, dar totui. Iat un fragment din ziarul Cotidianul, din 3 August 2007:
196
(...) 44% dintre romani considera ca premierul Triceanu nu trebuia s demisioneze ca urmare a rezultatului referendumul pentru demiterea preedintelui Bsescu. Nu ni se spune ce consider ceilali 56% dintre romni. C premierul trebuia s demisioneze? Probabil c nu, sigur exist i foarte muli care nu au o opinie pe aceast tem. i totui ci cred c trebuia s demisioneze? Felul cum e formulat propoziia ne face s presupunem c procentul celor care consider c premierul trebuia s demisioneze a fost mai mic dect 44%. i totui conteaz cu ct a fost mai mic. A fost 10% sau 40%? Sau poate nici nu a fost mai mic? Matematic este ct se poate de posibil. Uneori prezentarea selectiv a rezultatelor nu pare a avea nici un scop. Un text a fost scurtat i a ieit ce a ieit. Iat un exemplu din Evenimentul Zilei, Nr. 4892, din 6 Iulie 2006. Restul articolului l face s fie i mai criptic. 36% dintre romni i-ar dori sa lucreze acas, n timp ce doar 11% prefer s mearg la birou, dei au posibilitatea de a lucra din incinta propriului cmin, potrivit unui sondaj realizat de portalul de recrutare on-line bestjobs.neogen.ro. Senzaional, dar ce au spus de fapt? Cine snt atia, ce vor ei, i ce au fost ntrebai, i ce au rspuns, i ci i de ce scrie la ziar? Asta ca s nu spun c nu e clar dac cei 36% i cei 11% provin din aceiai ntrebare sau nu, i ce prere au restul de nici nu tiu i nici nu pot ti ci. Eantioane nealeatoare i biasate O alt eroare frecvent este nnobilarea unei chestionri oarecare cu titlul de sondaj de opinie. Am discutat deja c regulile unei eantionri au ca scop posibilitatea de generalizare de la eantion la ansamblul populaiei. Deci, ca s putem spune, ca ntr-unul din exemplele de mai sus romnii consider trebuie ca populaia studiului s fie romnii i eantionarea s fie aleatoare sau o aproximare ct mai bun posibil a unei eantionri aleatoare. Regula de baz pe care nu obosesc s o repet i studenilor mei e simpl: fiecare individ din populaia de baz trebuie s aib aceiai ans s fie parte din eantion. Sigur acesta e un ideal nici o dat atins. Exist nomazi, i exist oameni bolnavi i ncarcerai i alte diverse categorii care nu prea au aceleai anse s fie parte din eantion ca i restul populaiei. Aceasta ns nu trebuie
197
s duc a renunarea la principiu ci la redefinirea populaiei. Adic nu toi romnii consider, ci numai romnii cu domiciliul stabil, etc. Un caz interesant este cel n care eantionul este n principiu aleator dar totui din cauza unei greeli de proiectare a cercetrii sau a unei particulariti pe care cercettorul nu a luat-o n seam eantionul difer printr-o anumit caracteristic fa de populaia dorit a fi studiat. Asemenea eantioane se numesc biasate. Cuvntul bias nseamn n englez ceva gen prejudecat, dar sensul lui statistic este de defazare, eroare sistematic. Dac se folosete cuvntul n sensul de prejudecat, s-ar zice c o opinie este biasat dac ea este necondiionat negativ sau pozitiv. n statistic un eantion este biasat dac valorile unei variabile snt defazate ctre o valoare sau o parte a scalei de rspunsuri. Dac, de exemplu, pentru un studiu de pia legat de consumul de detergeni se fac interogri la domiciliu nainte de mas, eantionul va prinde o pondere anormal de mare de studeni, gospodine i pensionari. Eantionul va fi defazat ctre anumite categorii ocupaionale. Vor fi subreprezentate tocmai persoanele angajate n munc, eantionul altfel produs va putea fi de fapt aleator. Totui nu va fi reprezentativ pentru ca va fi biasat. Am mai dat pe parcursul crii i exemplul chestionrii duminic nainte de mas. Acolo biasarea e i mai clar pentru c cei ce nu vor fi interogai snt cei ce merg la biseric adic persoane care evident au o caracteristic particular care le poate influena opinia pe multe teme. n acest caz eantionul chiar va avea un fel de prejudecat, adic va elimina din start anumite opinii. Institutele serioase de sondare a opiniei publice nu fac greeli de acest tip. Eantionri nealeatoare sau biasate se regsesc ns la aa-zise sondaje efectuate de organe de pres sau site-uri de internet, dar adesea i n cercetri tiinifice din domenii n care o eantionare este greu de ntreprins. S mai las puin n pace presa, hai s mai dau un exemplu dintr-o tez de doctorat n psihologie, tot de la Universitatea de Stat din Moldova. ... trebuie s menionm c 75% dintre copiii cercetai proveneau din mediul rural, fa de 25% - care erau din mediul urban. Acest procentaj este cu att mai semnificativ cu ct este peste nivelul mediu de urbanizare pe ar a populaiei Republicii Moldova: n mediul rural circa 60%, iar n mediul urban circa 40%. Aa c repartizarea (...) denot o tendin de rspndire a (...), mai cu seam la populaia din mediul rural
198
Evident procentajele pe eantion nu snt peste, ci sub nivelul mediu de urbanizare din Republica Moldova, dar aceasta e probabil o scpare neesenial, o eroare de exprimare. n text se generalizeaz apoi de la distribuia pe eantion la rspndirea caractisticii investigate n ansamblul populaional. Ceea ce se poate desigur face dac este reprezentativ. De fapt este ns vorba despre 30 (treizeci!) de interviuri. Acum c aceti 30 erau dintribuii ntre mediile rural i urban 75% - 25% fa de ansamblul populaiei care se distribuie 60% - 40% este departe de a permite orice fel de concluzii. La urma urmei 25% din eantion snt 7-8 persoane, iar dac ar fi fost 40% ar fi fost 12 persoane. n plus, eantionul nefiind oricum reprezentativ, generalizarea la nivel populaional nu e acceptabil. Tipice pentru astfel de situaii snt cercetri din medicin, tiine ale educaiei sau psihologie. i aceasta deorece multe dintre aceste cercetri se ocup de populaii rare, populaii la care o eantionare aleatoare este fie imposibil, fie foarte problematic. Bine atunci ce trebuie s fac srmanii oameni? Ei bine, trebuie s nu pretind c rezultatele lor snt generalizabile statistic la nivel populaional. Corelaii i regresii prost interpretate Interpretarea corelaiilor i a regresiilor este problematic n special atunci cnd se caut relaii cauzale. Cum am mai spus calculele statistice pot respinge anumite cauzaliti nu pot ns propune cauzaliti. Aceasta st numai n puterea unor teorii. Totui cnd sntem pui n faa faptului c exist o relaie ntre dou variabile, sau c se poate respinge independena a dou variabile, sntem i tentai i nevoii s propunem explicaii pentru acest fapt. Deci, nu numai teoria nate testare statistic ci i invers. Cercetarea statistic produce ipoteze teoretice prin interpretrile rezultatelor. Deci trebuie s avem grij cum interpretm ceea ce gsim pentru ca paii pe care i intreprindem n continuarea cercetrilor noastre s nu o ia pe cmp prea departe de potec. Din pcate aici reguli nu prea exist. Interpretrile proaste nu snt neaprat interpretri greite. Prostiile rezult cel mai adesea nu din citirea greit a rezultatelor de test ci din incultur sau nerbdare tiinific. Nu este vorba despre neglijarea significanei i a valorii de test. Astfel de situaii nu necesit prea multe comentarii. Se ntmpl ns ca citirea unei relaii ca i cauzalitate direct s fie suficient de absurd ca cercettorul s abandoneze o cale care ar putea fi fertil. Am menionat pe undeva ipoteza berzele aduc bebeluii. Tot aa 199
interpretarea corelaiei i regresiei ca i cauzalitate direct poate duce la abandonarea cutrii unor relaii cauzale mai complexe dar posibil interesante de studiat, care ar putea fi ipoteze pentru cercetri viitoare. Uite o situaie similar cu povestea berzelor i a natalitii. Este cunoscut i testat de mai multe ori relaia dintre nlime fizic i venit individual. Persoanele nalte au venituri mai mari. Relaia, care a fost observat prima oar n Statele Unite (), s-a dovedit valabil aproape n orice populaie. Dac privim corelaia ca pe o cauzalitate direct ea nu prea are sens. La urma urmei condiiile salariale snt negociabile liber pentru destul de puine locuri de munc i nu cred c la asemenea negocieri nlimea fizic are vreo importan. Mai mult, uneori salariile se negociaz telefonic. Totui corelaia exist. Prima ipotez de cercetare este includerea n lanul cauzal al variabilei gen. Genul are efect asupra nlimii i asupra venitului mediu. Brbaii snt n medie mai nali i au n medie venituri mai mari. Aceste dou determinri snt bine cunoscute. Dintre ele cel puin cea de a doua a fost mult cercetat. Determinrile au ca efect o corelaie ntre nlime i venit. Explicaia aceasta e deja acceptabil. Deci, n primul rnd, corelaia dintre nlime fizic i venit nu trebuie respins ca fiind o fals corelaie (n englez le zice spurious correlations), pentru c exist o explicaie bun. Explicaia aceasta este ns insuficient. Dac refacem calculele pe genuri obinem urmtoarea surpiz. La femei corelaia nu exist, femeile mai nalte nu au venituri mai mari dect cele mai puin nalte. La brbai ns corelaia rmne. Cu ct e un brbat mai nalt, are un venit mai mare, statistic vorbind. Deci, trebuie spat n continuare. O explicaie care funcioneaz este faptul c brbaii nali au o ans mai mare s dein funcii de conducere i s beneficieze ca atare de sporuri la venit din acest motiv. nlimea e receptat ca prestan, sau chiar e prestan (poate v-ai prins, eu snt mai de grab mic!) i duce la obinerea mai uoar a unor poziii de decizie. Aceast caracteristic se regsete la toate palierele de pregtire i este chiar mai important la nivele de pregtire mai reduse. Controlnd, pe lng gen, i influena poziiei decizionale asupra corelaiei, aceasta se reduce i mai mult i devine foarte slab. Asta a fost deci. Se pare, cel puin. E de observat c cele dou variabile pe care le-am introdus n schem au poziii cauzale diferite. Genul se repercuteaz asupra nlimii i, printr-un lan cauzal mai complex i controversat, determin i venitul. Poziia decizional este ns interpus ntre nlime i venit. Poziia decizional determin direct venitul i este determinat, iari probabil printr-un lan cauzal mai complex i printre multe alte caracteristici, de ctre nlime.
200
Am dat un exemplu de corelaie care putea fi respins uor ca fiind o prostiem dei nu era. Hai s dau i un exemplu n care interpretarea unei corelaii a fost ntr-adevr o prostie. ntr-un articol dintr-o revist de altfel bun, un cercettor american (Kuh, 1999) construiete urmtoarea corelaie: exist o relaie puternic negativ ntre beneficiile auto-declarate obinute din nvmntul superior i ponderea disciplinelor ocupaionale n sistemul de nvmnt superior. El extrage aceast concluzie dintr-o corelaie efectuat pe serii de timp ntre 1960 i 1990. Adic, pe msur ce ponderea disciplinelor care pregtesc studeni pentru meserii bine definite a crescut, a sczut beneficiul auto-declarat obinut de pe urma studiilor universitare. i corelaia aa este. De aici autorul ajunge la concluzia c studiile cu caracter ocupaional aduc de fapt mai puine beneficii absolvenilor. E vorba aici de discipline precum medicina, ingineria, arhitectura, etc. care snt strict legate de meserii, fa de discipline precum filosofia, fizica sau matematica care snt legate de domenii ale cunoaterii, de tiine. Problema este c autorului i scap o variabil esenial, volumul total al absolvenilor, adic gradul de cuprindere al nvmntului superior. Acesta a crescut foarte mult n Statele Unite n anii studiai, deci ntre 1960 i 1990. Crescnd numrul de absolveni de nvmnt superior are loc un soi de inflaie de diplome. Poziiile sociale nalte nu devin neaprat mai multe, dar absolvenii de nvmnt superior se nmulesc foarte tare. Astfel o diplom universitar nu mai garanteaz o poziie social i economic aa bun cum garanta n anii 1960. Deci expansiunea nvmntului superior e principala cauz pentru reducerea beneficiilor obinute de pe urma studiilor. Pe de alt parte creterea ponderii disciplinelor cu caracter ocupaional este, mcar parial, influenat tot de expansiune. Aici mecanismele snt mai complexe i includ schimbarea rolului nvmntului superior de la cel de legitimare a unei elite sociale la cel de pregtire profesional, precum i intrarea n nvmntul superior a din ce n ce mai muli studeni provenii din medii sociale mai joase i cu interese mai de grab profesionale dect academice. n concluzie, interpretarea cum c disciplinele ocupaionale dau beneficii mai mici e o prostie. Corelaie e determinat de efectele pe care lea avut expansiunea nvmntului superior asupra celor dou variabile i nu de o relaie dintre ele. Ar fi trebuit studiat mcar o corelaie parial controlnd efectul volumului total de studeni sau de absolveni, fiind ns vorba despre serii de timp metodele de cercetare ar fi trebuit s includ i alte calcule pe care nici nu le mai pomenesc aici.
201
n loc de ncheiere
- Statistica ne spune c astfel de crime snt comise de ctre rude. - Dar v jur, nu am fost eu! - Statistica nu minte. Criminalii ns da. (The District, serial TV, 2000) Dialogul de mai sus este desigur memorabil de inept. i tot ce sper de la aceast carte este s v fi fcut s nelegei de ce. Poliistul din fragmentul de dialog, a crui ncredere n statistic ne bucur desigur, nu pare s priceap felul cum funcioneaz statistica. Pe parcursul acestei cri am ncercat s art c statistic poate s nu mint i n acelai timp s nu spun adevrul, sau n orice caz s nu spun un adevr care s fie valabil n justiie. Adevrul statisticii nu este unul simplu, nu este univoc i exact. Dar cu toate acestea este un adevr dac tim cum s-l citim. Am ncercat n paginile de pn acum s descriu ct mai bine am putut cum gndete metoda statistic i cum trebuie noi s interpretm rezultatele ei. Bine, bine, dar dac adevrul statistic nu e un adevr simplu, univoc i exact i n plus pentru a l nelege trebuie s ne i batem capul sau, doamne ferete, s i calculm cte ceva, atunci de ce mai folosim statistica? Ei bine, pentru c statistic este o metod de cunoatere care i asum imperfeciunea ei i de obicei chiar ne permite s determinm aceast imperfeciune, s o delimitm. Cu ajutorul statisticii nu putem spune exact care e adevrul. Putem s ne apropiem de el i, ce e cel mai important, putem spune ceva de genul, nu e sta adevrul dar exist o probabilitate destul de mare astfel ca adevrul s fie pe undeva pe aproape. Sun foarte slab? Poate, dar e mai mult dect ne pot oferi multe alte metode de cunoatere. Statistica nu ne ofer certitudini, dar ne ofer garanii suficiente pentru a lua decizii. Certitudinile snt oricum supraevaluate. Puinele propoziii din tiin despre care putem spune cu certitudine c snt adevrate sunt truisme. Ele nu ne intereseaz n cercetarea tiinific real16. Statistica ne poate spune despre o propoziie, care nu este o certitudine, cam care ar fi ansele s greim dac o declarm fals. i astfel statistica ne poate ajuta s decidem att n tiin ct i n alte domenii ale activitii umane, n economie, n politic, i aa mai departe.
16
Matematica s-ar putea s fie o excepie, dar nc nu snt sigur.
202
Anexe. Tabele pentru testele t, Z i Chi2 (de adugat pentru publicare)
203

Carte de Statistica

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Carte de Statistica

Încărcat de

Drepturi de autor:

Formate disponibile

Carte de Statistic Reete ncercate

Capitolul 2. Tipuri de date

Capitolul 3. Culegerea datelor statistice. Sondajul de opinie

Procent 62,9% 37,1/ 100%

Femei 18 35 ani 35 50 ani 4 chestionare 5 chestionare

50 65 ani Peste 65 ani

Majusculele i semnele de punctuaie apar astfel n original.

Capitolul 4. Aperitive. Primii pai n descrierea datelor statistice

Frecven 547 476 26 2 1051

Procent 52,0% 45,3% 2,5% 0,2% 100%

Procent cumulat 52,0% 97,3% 99,8% 100,0%

0,0% zilnic de mai multe ori pe saptamana

27. Cat de des se gateste la dvs. in familie?

27. Cat de des se gateste la dvs. in familie?

de mai multe ori pe saptamana saptamanal mai rar

27. Cat de des se gateste la dvs. in familie?

de mai multe ori pe saptamana saptamanal mai rar

2. De unde va place cel mai mult sa va faceti cumparaturile?

2. De unde va place cel mai mult sa va faceti cumparaturile?

59. Cati ani aveti?

Nume Ana Ioana Oana

Simona 38 Olivia Angela Carla Nadina Media 39 39 37 39 37,88

Nume Ioana Ana Carla Oana Simona Olivia Angela Nadina

Nume Ioana Ana Carla Oana Simona Olivia Angela Nadina

A doua cvartil C2 Mediana

Intervalul intercvartilic, notat de multe ori IQR, este: 65

Capitolul 5. Supe, ciorbe i teste statistice simple.

Formula de test care se calculeaz este:

t = 5,39 cu Sig = 0,000

E = 0,98 / sqrt (1000) = 0,03099

eroarea = 1,96 * sqrt (p*(1-p)/n) = 1,96 * sqrt ((0,16 * 0,84)/1067) = 0,02199

eroarea = 1,96 * sqrt ((0,03 * 0,97)/1067) = 0,010.

Exist grafice similare i cu bare. S lum i aici un exemplu.

0,00 dumineca sambata

7. Cat de des v-ar place sa fie Festivalul Berii?

0,00 Nici o bere 1 - 2 beri 3 - 4 beri 5 beri si mai mult

1. Cate beri ati baut?

1. Cate beri ati baut?

0,00 pana la 20 21 - 35 36 - 50 51 - 65 peste 65

25.1. Grupe de varsta

Intre 30 si 39 Intre 40 si 49 Intre 50 si 59

je ta co tri ra tu ul ic lv si ii ic rv t se an m ta va in rie st du e in at ilit ab nt co ii ct

1. In ce domeniu ati lucrat inainte de a intra in somaj?

25.1. Grupe de varsta

0,54% 10,36% 5,54% 8,93%

Intre 40 si 49 Intre 50 si 59 Peste 60

7,14% 14,82% 2,86%

je ta co tri ra tu ul ic lv si ii ic rv t se an m ta va in rie st du e in at ilit ab nt co ii ct tru ns co

1. In ce domeniu ati lucrat inainte de a intra in somaj?

1. In ce domeniu ati lucrat inainte de a intra in somaj? * 25.1. Grupe de varsta

25.1. Grupe de varsta

% coloan tricotaje Nr. % linie % coloan

20,4% 0 ,0% ,0% 196 35,0% 100,0%

36,0% 12 100,0% 8,6% 139 24,8% 100,0%

,0% 0 ,0% ,0% 131 23,4% 100,0%

,0% 0 ,0% ,0% 75 13,4% 100,0%

,0% 0 ,0% ,0% 19 3,4% 100,0%

16,1% 12 100,0% 2,1% 560 100,0% 100,0%

Nr. % linie % coloan

x1 y y1 y2 total C11 C21 Ct1

x2 C12 C22 Ct2

total C1t C2t Ctt

C11 / C12 = C21 / C22 = Ct1 / Ct2 sau

48. Ce varsta aveti? ,096(*) ,028 530 1

eroarea = 1,96 * sqrt (p(1-p)/n) = 1,96 sqrt ((0,16 * 0,84)/1067) = 0,02199