Documente Academic
Documente Profesional
Documente Cultură
C.F.C.I.D
ANUL I
Cluj-Napoca
2016
Universitatea Babe-Bolyai
Facultatea de Sociologie i Asisten Social
nvmnt la distan
2016
CUPRINS
Informaii generale ................................................................................................................6
Date de identificare a cursului ........................................................................................................... 6
Condiionri i cunotine prerechizite............................................................................................... 6
Descrierea cursului............................................................................................................................ 6
Organizarea temelor n cadrul cursului .............................................................................................. 6
Formatul si tipul activitilor implicate de curs .................................................................................. 7
Materiale bibliografice obligatorii ..................................................................................................... 7
Materiale si instrumente necesare pentru curs .................................................................................... 7
Calendar al cursului .......................................................................................................................... 8
Politica de evaluare si notare ............................................................................................................. 8
Elemente de deontologie academica .................................................................................................. 9
Studeni cu dizabiliti....................................................................................................................... 9
Strategii de studiu recomandate: ........................................................................................................ 9
Modul 1 ................................................................................................................................10
Introducere n statistic.......................................................................................................10
1.1. Obiectul statisticii..................................................................................................................... 10
1.2. Rolul statisticii n cercetarea tiinific...................................................................................... 11
1.3. Utilizarea statisticii n profesia de asistent social ....................................................................... 11
1.4. Dificulti i riscuri n nsuirea metodei statistice .................................................................... 12
1.5. Noiuni i concepte utilizate n statistic.................................................................................... 13
1.6. Variabile statistice i msurarea lor........................................................................................... 14
1.7. Scale de msurare a variabilelor statistice.................................................................................. 15
ntrebri pentru studiu ................................................................................................................... 18
Exerciiu pentru acas 1. ................................................................................................................. 18
Modul 2 ................................................................................................................................20
Distribuii de frecvene ........................................................................................................20
2.1. Ordonarea datelor brute ............................................................................................................ 20
2.2. Distribuii (tabele) de frecvene.............................................................................................. 20
2.3. Tabele de frecvene pentru variabile cu intervale de grupare...................................................... 23
2.4. Utilizarea frecvenelor absolute i relative n comparaii.......................................................... 25
ntrebri pentru studiu ................................................................................................................... 27
Exerciiu pentru acas 2. ................................................................................................................. 27
Modul 3 ................................................................................................................................28
Prezentarea grafic a distribuiilor de frecvene ................................................................28
3.1. Diagrama de bare i histograma .............................................................................................. 29
3.2. Diagrama circular .................................................................................................................. 31
3.3. Poligonul de frecvene ............................................................................................................ 32
3.4. Diagrama de mprtiere......................................................................................................... 33
ntrebri pentru studiu ................................................................................................................... 35
Exerciiu pentru acas 3. ................................................................................................................. 35
Modul 4 ................................................................................................................................36
Indicatori ai tendinei centrale ............................................................................................36
4.1. Modul ...................................................................................................................................... 36
4.2. Mediana ................................................................................................................................... 38
4.3. Media....................................................................................................................................... 39
4.4. Modul, mediana sau media ?..................................................................................................... 41
ntrebri pentru studiu ................................................................................................................... 42
Exerciiu pentru acas 4. ................................................................................................................. 43
Modul 5 ................................................................................................................................44
Indicatori ai mprtierii ....................................................................................................44
5.1. Amplitudinea ........................................................................................................................... 44
5.2. Abaterea intercuartil ............................................................................................................... 45
5.3. Abaterea medie ....................................................................................................................... 47
5.4. Abaterea standard i variana ................................................................................................... 48
5.5. Algoritmul de calcul al abaterii standard ................................................................................... 49
ntrebri pentru studiu ................................................................................................................... 52
Exerciiu pentru acas 5. ................................................................................................................. 52
Modul 6 ................................................................................................................................53
Distribuia normal ............................................................................................................53
6.1. Proprieti ale distribuiei normale ......................................................................................... 55
6.2. Valori Z i distribuia normal standardizat ............................................................................. 56
6.3. Utilizarea valorii Z n comparaii: un exemplu practic .......................................................... 59
ntrebri pentru studiu ................................................................................................................... 60
Exerciiu pentru acas 6 .................................................................................................................. 61
Modul 7 ................................................................................................................................62
Introducere in SPSS ............................................................................................................62
7.1. Procesul de analiz statistic a datelor n SPSS ......................................................................... 62
7.2. Procedura Frequencies.............................................................................................................. 67
7.3. Procedura Crosstabs ................................................................................................................. 68
7.4. Procedura Descriptives ............................................................................................................. 69
7.5. Procedura Means...................................................................................................................... 70
7.6. Procedura Explore.................................................................................................................... 71
Modul 8. ...............................................................................................................................74
Notiuni introductive de statistica inferentiala.....................................................................74
8.1. Testarea ipotezelor .................................................................................................................. 74
8.2. Explicatii alternative................................................................................................................ 75
8.3. Respingerea explicaiei ansei prin testele statistice ............................................................... 76
8.4. Dovezi suficiente i semnificaie........................................................................................... 78
8.5. Relaii statistic semnificative i rezultate substaniale ............................................................ 79
ntrebri pentru studiu ................................................................................................................... 80
Exercitiu pentru acas 7 .................................................................................................................. 80
Modul 9 ................................................................................................................................81
Asocierea..............................................................................................................................81
9.1. Ce caut s determine asocierea ............................................................................................ 81
9.2. Tabele de asociere .................................................................................................................... 81
9.3. Cnd s nu utilizm asocierea ............................................................................................... 88
9.4. Asocierea cu trei sau mai multe variabile............................................................................. 89
9.5. Un exemplu.............................................................................................................................. 91
9.6. Folosirea SPSS n analiza asocierii ........................................................................................... 92
ntrebri pentru studiu ................................................................................................................... 93
Exerciiu pentru acas 8 .................................................................................................................. 94
Modul 10 ..............................................................................................................................94
Compararea mediilor ..........................................................................................................94
10.1. Popularitatea statisticii t........................................................................................................ 94
10.2. Logica statisticii t ................................................................................................................... 95
10.3. Calcularea i interpretarea valorilor lui t ............................................................................. 96
10.4. Prezentarea statisticii t .......................................................................................................... 100
ANEXE............................................................................................................................... 118
A: Calendarul disciplinei............................................................................................................... 118
B: Bibliografia completa a cursului ............................................................................................... 119
Informaii generale
E-mail: cornelia.muresan@socasis.ubbcluj.ro
Consultaii: mari 10-12
Descrierea cursului
Cursul de Statistic social i analiza computerizata datelor face parte din categoria disciplinelor
fundamentale de la Facultatea de Sociologie i Asisten Social din cadrul Universitii Babe-Bolyai din
Cluj-Napoca. Cursul urmrete familiarizarea studentului cu conceptele si noiunile necesare in analiza
statistica a datelor culese in procesul de asistare social i cel al cercetrii sociologice de teren. Se are in
vedere dobndirea unor cunotine elementare de statistic descriptiv i de testare a ipotezelor de
cercetare. Prin exemplele i aplicaiile utilizate se urmrete scoaterea n evidenta a rolului statisticii n
profesia de asistent social. Tot aici se introduc i primele noiuni de utilizare a pachetului informatic SPSS
Statistical Package for Social Scientists.
b.
c.
dou lucrri de evaluare (teme) care vor fi rezolvate i, respectiv trimise tutorilor n conformitate
cu precizrile din calendarul disciplinei.
d.
Calendar al cursului
Pe parcursul semestrului II, n care se studiaza disciplina de fa, sunt programate 1-6 ntlniri fa
n fa (consultaii) cu toi studenii. Ele sunt destinate solutionarii, nemediate, a oricaror nelamuriri de
continut sau a celor privind sarcinile individuale. Pentru primele ntlniri se recomand lectura atent a
primelor ase module. La ultimele intalniri se vor efectua lucrari practice SPSS asistate, si este necesara
parcurgerea prealabila a modululelor 7-11. De asemenea in cadrul ntlnirilor studenii au posibilitatea de
solicita titularului si/sau tutorilor sprijin pentru rezolvarea exercitiilor pentru acas, in cazul in care nu au
reuit singuri. Pentru a valorifica maximal timpul alocat ntlnirilor studenii sunt atenionai asupra
necesitii suplimentrii lecturii din suportul de curs cu parcurgerea obligatorie a cel puin a uneia dintre
sursele bibliografice de referina. Datele ntlnirilor sunt precizate n calendarul sintetic al disciplinei, vezi
anexa A. n acelai calendar se regsesc i termenele la care trebuie transmise / depuse lucrrile de
verificare care totalizeaz cele 10 exerciii pentru acas de la sfritul modulelor. Prima lucrare de
verificare const in exerciiile pentru acas 1-6 (in care analizele statistice sunt efectuat manual), iar
lucrarea a 2-a const din exerciiile 7-10 (in care analizele statistice sunt efectuate cu programul software
SPSS).
finele semestrului II. Nota final se compune din: a) punctajul obinut la acest examenul scris n proporie
de 50% si b) punctajul pentru lucrrile de verificare pe parcurs 50%.
Examenul scris, tip gril, cuprinde un mix de ntrebri: i) unele cu rspuns liber, scurt i punctual,
ii) altele cu variante de rspunsuri, din care studentul are de ales varianta sau variantele corecte, i iii) un
exerciiu complex de recunoatere i interpretare a rezultatelor produse de SPPS in urma unei proceduri de
analiza statistic inferenial. ntrebrile sunt de genul celor care se gsesc la sfritul fiecrui modul din
acest manual. Nu se cere memorarea formulelor complicate ale indicatorilor statistici, dar se cer cunotine
despre ceea ce msoar indicatorii i proprietile acestora, i se va cere aplicarea unor formule simple (de
exemplu calculul unui scor z). In timpul examenului scris nu se permite utilizarea nici unui tip de
documentaie sau manual.
Lucrrile de verificare pe parcurs vor fi transmise tutorilor la termenele precizate n calendarul
disciplinei. Exerciiile pentru acas, care se gsesc tot la sfritul fiecrui modul, vor face obiectul notrii
din partea tutorilor. Se vor obine dou note pe parcurs: una pentru exerciiile aferente statisticii descriptive,
iar cealalt pentru exerciiile aferente statisticii infereniale. Instruciuni suplimentare privind modalitile
de elaborare, redactare, dar i criteriile de notare ale lucrrilor, v vor fi furnizate de ctre titularul de curs
sau tutori n cadrul ntlnirilor fa n fa. Pentru predarea lucrrilor de verificare se vor respecta cu
strictee cernitele formatorilor. Orice abatere de la acestea aduce dup sine penalizri sau pierderea total a
punctajului corespunztor acelei lucrri. Evaluarea acestor lucrri se va face imediat dup preluare, iar
afiarea pe site a notelor acordate se va realiza la cel mult 2 sptmni de la data depunerii/primirii ultimei
teme din lucrarea de verificare in cauz.
Daca studentul consider c activitatea sa a fost subapreciata de ctre evaluatori atunci poate
solicita feedback suplimentar prin contactarea titularului sau a tutorilor prin email.
Studeni cu dizabiliti
Titularul cursului si echipa de tutori i exprima disponibilitatea, n limita constrngerilor tehnice
si de timp, de a adapta coninutul i metodele de transmitere a informaiilor precum i modalitile de
evaluare (examen oral, examen on line etc.) n funcie de tipul dizabilitii cursantului. Altfel spus, avem n
vedere, ca o prioritate, facilitarea accesului egal al tuturor cursanilor la activitile didactice si de evaluare.
Modul 1
Introducere n statistic
1.1. Obiectul statisticii
nainte de a ncerca delimitarea obiectului statisticii de cel al altor tiine, vom face cteva
precizri legate de istoricul ei. Vom vedea astfel de unde deriv termenul statistic i ce a nsemnat
aceasta la nceputuri. Rezumnd chiar de la nceput constatarea la care se ajunge n urma unui astfel de
periplu istoric putem spune c, aproximativ n aceeai epoc a doua jumtate a secolului al XVII-lea -,
apar dou curente de gndire, unul n Anglia i altul n Germania. Ele au un element esenial comun, anume
preocuparea de a construi un corp de cunotine pozitive asupra societii, dar se deosebesc destul de mult
ntre ele, mai ales prin mijloacele utilizate n atingerea scopului propus, fiecare revendicndu-i dreptul de a
fi considerat izvorul primar al statisticii. O judecat dreapt va convinge pe oricine c tiina statisticii, aa
cum arat astzi, datoreaz aproape totul colii engleze, ns contribuia universitar german nu poate fi
neglijat chiar i numai pentru motivul c respectivei coli i datorm numele acestei tiine.
Preocuprile care se constituie n izvorul englez al statisticii formeaz curentul ce ar putea fi
intitulat i abordarea cantitativ englez, mai bine cunoscut sub numele de aritmetic politic, dup
cum a botezat William Petty (1623-1687) noua disciplin social, nscut n 1662, atunci cnd John
Graunt, un burghez cu preocupri tiinifice n timpul liber, a publicat un articol despre ceea ce astzi s-ar
numi fenomenele demografice" din oraul Londra.
Iniiatorul celei de a doua linii, cea german, este considerat Herman Conring (1606-1682), un
savant cu un spirit enciclopedic, ocupnd, pe rnd, trei catedre la Universitatea Brunswick din Helmstaedt:
cea de filosofie, cea de medicin i apoi cea de tiine politice. Paternitatea termenului statistic este
atribuit ns unui alt profesor german, Gottfried Achenwall (1719-1772), care a trit i publicat un secol
mai trziu.
Diferena dintre abordarea german i cea englez const n aceea c prima i propune n termeni
mult mai clari s se constituie ca o tiin global asupra statului, aplecndu-se asupra trsturilor
caracteristice ale acestuia. Aceast viziune globalizant avea drept finalitate s pun la ndemna
principilor instrumente eficace de conducere. Poate i datorit dimensiunilor reduse (erau la vremea aceea
aproximativ 300 de uniti statale n Imperiul German), poate datorit altor cauze, cum ar fi slaba calitate a
lumii academice germane, frmiat i ea ntr-o mulime de universiti provinciale, gnditorii germani nu
au crezut de cuviin sau n-au fost capabili s privilegieze caracterul cantitativ-numeric al cunotinelor
despre stat. Ei doreau mai curnd s descrie verbal, s pun un diagnostic pe baza percepiei i intuiiei i s
dea sfaturi privitoare la ameliorarea strii anumitor caracteristici ale statului.
Spre sfritul secolului al XVIII-lea, cele dou direcii ajung s se cunoasc reciproc foarte bine
lucrrile savanilor germani fiind traduse n englez i chiar se declaneaz o concuren puternic ntre
ele. Va nvinge, la nceputul secolului al XIX-lea, aritmetica politic i, culmea ironiei, cu aceast ocazie,
ea se va lepda de propria-i denumire i o va prelua pe cea a adversarului rpus: Staatskunde = tiina
despre stat.
Statistica s-a constituit deci ca disciplin preocupat de culegerea, verificarea, prelucrarea i
interpretarea informaiilor numerice referitoare la fenomenele sociale.
ntemeietorii statisticii moderne se situeaz ns mai aproape, cu ncepere din a doua jumtate a
secolului al XIX-lea, iar principalii reprezentani nu mai aparin domeniului tiinelor sociale. Se produce
astfel o mutaie esenial n concepia general despre obiectul statisticii. Vom aminti doar de Francis
Galton (1822-1911), biolog i antropolog, ntemeietor, n 1901, al revistei Biometrika i al tiinei numit
biometrie, de marele antropolog i psiholog Karl Pearson (1857-1936) i de cel considerat cel mai mare
dintre toi, Ronald Aylmer Fisher (1890-1962), biolog i cercettor ntr-o staiune experimental
agrobiologic.
Dup cum se vede, nici una din cele trei personaliti amintite, la care se pot aduga i altele, nu sa preocupat de fenomene sociale. ncepe astfel nu numai o faz calitativ superioar n dezvoltarea statisticii,
10
ci i perioada de clarificare a coninutului i naturii acestei tiine. Construit pe informaia de tip social,
statistica a fost considerat, de la nceput i pn la finele secolului al XIX-lea, o tiin social; abia
multiplele aplicaii n alte domenii (biologia, genetica, fizica etc.), iniiate n aceea perioad, au artat cu
claritate c simbioza statistic-demografie a fost un accident istoric, explicabil poate prin circumstanele
producerii lui, dar nu prin esena celor dou discipline. Este evident c demografia nu poate s se constituie
ca tiin fr instrumentarul statistic, ns statistica putea s-i forjeze aparatul prin aplicaii n alte
domenii.
n accepiunea actual, statistica se axeaz pe tratarea informaiilor numerice obinute la nivelul
unor mulimi de entiti, informaii prelevate de la fiecare entitate n parte, dar care conduc la rezultate cu
referin la ansamblu, i nu la entitile componente luate individual.
11
tendina, ce reiese din manualele de specialitate, spre o munc social orientat empiric. Literatura de
specialitate cuprinde frecvent rezultatele cantitative ale studiilor de cercetare. Articolele publicate folosesc
de regul argumente statistice, iar cititorii au nevoie de cunotine n acest domeniu pentru a le nelege.
Asistenii sociali trebuie s fie capabili s consume i s neleag literatura de specialitate.
Cunoaterea statisticii este necesar pentru luarea deciziilor, de exemplu atunci cnd o nou
metod de terapie ar trebui sau ar putea fi folosit de ctre asisteni sociali n practica lor individual. Ca
specialiti responsabili, asistenii sociali trebuie s-i evalueze regulat eficiena. Ei trebuie s se bazeze pe
rezultate concrete i nu doar pe propria lor perspicacitate i intuiie; evaluarea trebuie s aib baze empirice.
Pentru a-i aduce propria contribuie la cunotinele de baz ale profesiei, rezultatele cercetrilor
trebuie comunicate i altora. Pentru a fi credibili, ei trebuie s demonstreze c datele prelucrate au fost
obinute n acord cu nite reguli specifice. Aceste reguli nu sunt greu de neles; ele sunt bazate pe metode
logice i tiinifice, aplicabile n situaiile de asisten social, fie pentru practic, fie pentru cercetare.
Cnd asistenii sociali iau decizii practice, de multe ori se bazeaz pe simul comun i pe
experiena anterioar. n orice caz ei nu trebuie s uite c simul comun le-a spus poate c beneficiarii
actelor caritabile prefer s nu munceasc, c femeile nu sunt bune supervizoare, i c pedeapsa (i nu
recompensa) i face pe studeni s nvee mai rapid. O mai mare contiinciozitate n folosirea metodelor de
sondare i a procedurilor statistice permite nlturarea acestor prejudeci.
nelegerea i utilizarea procedurilor statistice n mod adecvat, permite asistentului social s
depeasc obiectivele bazate exclusiv pe practica empiric.
12
13
rezultatele (date brute), sunt organizate i rezumate folosind tehnici ca acelea descrise n paragrafele
urmtoare. Statistica descriptiv ne permite s derivm informaii noi din msurtorile efectuate, care s
descrie succint un eantion sau o populaie.
Statistica descriptiv se bazeaz pe msurtori fcute fie pe eantioane fie pe o ntreag populaie.
Rezultatele ei nu se extind n afara subiecilor particulari cercetai. Grafice, tabele i numere descriptive
cum ar fi media i procentele sunt mai uor de neles i interpretat dect o list lung de date care
raporteaz rezultatele msurtorilor pentru fiecare variabil i n fiecare caz n parte. Scopul principal al
statisticii descriptive este s reduc ntreaga colecie de date la termeni simpli i mult mai uor de neles,
fr a distorsiona sau a pierde prea mult din informaiile colectate.
Statistica inferenial const n proceduri pentru determinarea generalizrilor ce pot fi fcute,
referitoare la caracteristicile unei populaii, pe baza datelor colectate dintr-un eantion. Statistica
inferenial este relevant atunci cnd avem acces la un eantion luat ntmpltor dintr-o populaie i atunci
cnd nu avem la ndemn toate datele care pot exista teoretic n ntreaga populaie.
Pentru a compara cele dou tipuri de statistici, putem spune c statistica descriptiv furnizeaz
informaii despre un eantion sau o populaie prin date culese n mod real, n timp ce statistica inferenial
const n proceduri care ne indic n ce msur putem generaliza la o populaie, informaiile obinute la
cazurile studiate n mod real i ce fel de constatri putem face. Numai statistica inferenial ne permite s
tragem anumite concluzii, pornind de la un eantion ales ntmpltor, despre o populaie mai larg pe care
nu am msurat-o dar care a furnizat eantionul. Ambele tipuri de statistici sunt accesibile cercettorului n
munca de asisten social.
14
Nivelul nominal
Nivelul de msurare cu cea mai mic precizie este cel nominal. Cuvntul nominal sugereaz
repartiia numelor la categorii (valori), care sunt distincte unele fa de altele. Msurarea nominal este n
esen un sistem de clasificare care implic categorizarea variabilelor n subclase. Valori diferite reflect
doar un tip diferit, nimic mai mult. Deoarece nu sunt implicate diferenieri de cuantum, nu este posibil o
ordonare a valorilor. Variabile cum ar fi genul, rasa, apartenena politic sunt de obicei considerate ca
variabile de nivel nominal. Alte exemple sunt starea civil, diagnosticul, ocupaia, tipul de tratament.
Cerinele msurrii de nivel nominal sunt minime. O variabil nominal poate avea dou sau mai
multe categorii, iar categoriile trebuie s fie distincte, s se exclud reciproc, i s fie exhaustive. Termenii
distinct i reciproc exclusiv desemneaz faptul c fiecare caz n parte trebuie s se potriveasc numai uneia
dintre categorii; termenul de exhaustiv indic faptul c trebuie s existe o categorie potrivit, pentru fiecare
caz. De exemplu, exist doar dou clase pentru variabila nominal starea de via - n viaa sau decedat.
Aceste categorii sunt n mod clar exhaustive i reciproc exclusive, astfel nct fiecare persoan intr numai
ntr-una din aceste dou categorii (exhaustive), dar numai o categorie i se poate atribui (exclusiv).
Pentru msurarea nominal, numerele (sau alte simboluri, cum ar fi literele) pot fi folosite ca
semne convenionale pentru distingerea unei categorii faa de alta. S presupunem c am divizat variabila
"tipul de tratament" n trei categorii: terapie individual, terapie de grup, terapie familial. n acest caz
putem atribui eticheta Terapie 1 - terapiei individuale, Terapie 2 - terapiei de grup, Terapie 3 - terapiei de
familie. Numerele pe care noi le-am folosit sunt doar etichete i servesc numai pentru clasificare. Ar fi
lipsit de sens n acest caz s spunem c 1 este mai mult sau mai puin terapie dect 2 sau 3, sau s facem
orice alt afirmaie, care s dea orice conotaie cantitativ categoriilor. n descrierea datelor de nivel
nominal tot ceea ce putem face este s stabilim numrul cazurilor care intr n fiecare categorie.
Nivelul ordinal
Msurarea la nivel ordinar nu numai c separ diferitele categorii de variabile, dar de asemenea
face posibil o ordonare a acestora de la nalt la sczut, sau de la mai mult la mai puin. Aceasta nseamn
ca le aranjeaz n categorii care intr ntr-o relaie de supraordonare sau subordonare unele fa de altele.
Exemple de variabile care pot fi considerate de nivel ordinal sunt clasa social, prestigiul ocupaional,
nivelul de educaie (bacalaureat, master, doctorat), evaluarea schimbrii (considerabil, ntr-o oarecare
msur, puin, deloc), evaluarea eficacitii tratamentului (foarte eficace, eficace, ineficace, foarte
ineficace), evaluarea satisfaciei clienilor referitor la tratament (foarte satisfcui, satisfcui, nesatisfcui,
foarte nesatisfcui), clasificarea gravitii unei probleme (foarte grav, grav, simpl, foarte simpl),
notarea cu calificative a unui examen (foarte bine, bine, suficient, insuficient).
Etichetele valorilor folosite n clasificarea de nivel ordinal face posibil nu numai identificarea
diferenelor dintre subclasele de variabile, dar i a poziiei lor relative. Printr-o clasificare de nivel nominal
putem doar s exprimm faptul c o valoare este diferit de alta. n clasificarea de nivel ordinal putem
spune nu doar c o valoare este diferit de cealalt dar i faptul c prezint o cantitate mai mare sau mai
mic a variabilei.
Este important s notm faptul c etichetele valorilor de nivel ordinal ale datelor nu indic cantiti
absolute i nu asigur intervale egale ntre valori. De asemenea nu putem ti aranjarea exact cuprins n
toate categoriile. De exemplu putem avea o scal a poziiilor sociale care sugereaz clasificarea claselor
sociale n acord cu un set de categorii aranjate de la Clasa 1 (superioar) la Clasa 5 (inferioar). Deoarece
clasele nu reprezint n mod necesar intervale egale, nu putem spune c Clasa 1 este la exact dou clase
interval superioar Clasei 3, sau c acest interval este exact aceeai distan ca i cea care separ Clasa 4 de
Clasa 2.
15
De aceea, nivelul ordinal este cu un pas nainte fa de cel nominal prin faptul c adaug o
difereniere cantitativ a categoriilor i face posibil o observare ordonat. Diferitele valori ale unei
variabile de nivel ordinal, oricum, nu indic cantitile lor absolute, sau distanele exacte dintre ele.
Nivelul interval
Nivelul interval, clasific i ordoneaz datele n funcie de valorile variabilelor; n plus le
aranjeaz la distane egale. Spre deosebire de scalele ordinale, scalele de nivel interval au unitate de
msur, cum ar fi anul, gradul de temperatur, i aa mai departe. De aceea etichetele valorilor indic exact
la ce distan se afl o valoare fa de cealalt. Cu variabilele de nivel interval putem arta c un obiect are
mai mult sau mai puin dintr-o proprietate dat dect un alt obiect; de asemenea putem specifica cu
cte uniti are mai mult sau mai puin.
Avnd distane egale ntre uniti, valoarea 1 va fi la aceeai distan de 4, ca i valoarea 6 de 9, i
aa mai departe. ntr-un test creat pentru evaluarea inteligenei, cuantificat la nivel interval, diferena dintre
IQ 100 i IQ 105 ar trebui s reflecte aceai diferen ca cea dintre: IQ 115 i IQ 120. Doi indivizi cu
rezultatele de 50 i respectiv 60 ar trebui s aib aceeai diferen ntre rezultatele lor la testele de
inteligen i nvare ca cea dintre ali doi indivizi care au realizat punctajul de 80 i respectiv 90. Deseori
variabilele ca anomia, moralul grupului i anumite atitudini sociale necesit s fie msurate ntr-o scal de
nivel interval. Accesul lor la statutul de variabil de nivel interval este bazat pe munca cercettorilor care
au lucrat muli ani la dezvoltarea unor instrumente adecvate de msurare. Aceste instrumente au trecut
printr-o serie de mbuntiri destinate creterii gradului lor de precizie.
Scalele de nivel interval nu pot include o valoare de zero absolut (adic nu putem identifica un
punct n care nu exist nici o cantitate din variabila studiat). Aceasta nseamn c nu putem spune c 2
este de dou ori mai mult dect 1 - ci doar c este cu o unitate mai mare. De vreme ce citirea unei
temperaturi de 0 grade pe un termometru nu reprezint absena cldurii, o temperatur de 60 de grade nu
este de dou ori mai mare dect o temperatur de 30 de grade. Zero grade C nu este nimic mai mult dect
un punct arbitrar ales pentru a primi eticheta valorii 0. Termometrele Celsius pot genera numai informaii
de nivel interval (spre deosebire de termometrele Kelvin, care au un punct 0 absolut).
Msurtorile de nivel interval indic la ce distan se afl valorile unei variabile, unele fa de
altele. Ele nu indic magnitudinea absolut a valorii variabilei asociate fiecrui obiect sau persoan. Acest
lucru este posibil numai folosind cel mai precis tip de msurare, nivelul rapoarte.
Nivelul rapoarte
Existena unui punct zero natural, absolut, nonarbitrar constituie singura diferen ntre msurarea
la nivel interval i cea la nivel rapoarte. De aceea numerele scalei de nivel rapoarte indic cantitatea real a
proprietilor msurate. Cu astfel de scal putem stabili nu numai faptul c un obiect are cu att mai multe
uniti dintr-o proprietate dect un al doilea obiect, dar i faptul c primul obiect are de attea ori mai mult
sau mai puine uniti. Exemple de scale tip rapoarte sunt rata naterilor sau a divorurilor; numrul de copii
ntr-o familie, numrul de comportamente observate pe parcursul unei anumite perioade de timp.
Punctul zero absolut are o semnificaie empiric. Toate operaiile aritmetice sunt posibile:
adunare, scdere, nmulire mprire. Aceasta permite utilizarea valid i interpretarea complet a
raportului dintre dou rezultate. De exemplu, o ar cu rata total a fertilitii de 4,8 copii pe cuplu are o
rat de dou ori mai mare fa de o ar cu rata de 2,4 copii pe pereche. n mod similar o familie cu un venit
de 1.500.000 lei are un venit dublu fa de o familie cu venitul de 750.000 lei.
Cele mai multe din datele folosite n asistena social, att n practic ct i n cercetare nu
furnizeaz msurri de nivel rapoarte. Un mod de a testa existena unui nivel rapoarte este s ne gndim la
posibilitatea valorilor negative. Dac valorile negative pot fi logic repartizate (de exemplu temperatura de 25 grade Celsius) atunci msurarea variabilei nu poate fi considerat mai mult dect de nivel interval.
16
datorit faptului c distincia ntre clase este una calitativ. Termenul calitativ este aici luat n contrast cu
cel cantitativ, care are semnificaie de msurare propriu-zis.
n contrast cu variabilele calitative vom avea variabilele cantitative, numite uneori simplu
variabile. Ele se definesc prin aceea c proprietatea n cauz se concretizeaz, la nivelul fiecrui individ
din populaie, printr-o valoare numeric, rezultat al operaiei de msurare. Numrul astfel atribuit este un
numr cardinal i red intensitatea, magnitudinea cu care se manifest nsuirea respectiv n cazul
individului concret respectiv.
17
18
1b. Datele urmtoare reprezint suprafaa util, msurat in metri ptrai, a locuinei ocupat de beneficiarii
de ajutor la nclzire din anchetele sociale corespunztoare ale Primriei:
37
42
44
47
46
50
48
52
90
54
56
55
53
58
59
60
62
92
60
61
62
63
67
64
64
68
67
65
66
68
69
66
70
72
73
75
74
72
71
76
81
80
79
80
78
82
83
85
86
88
19
Modul 2
Distribuii de frecvene
Dup ce datele au fost culese ele trebuie organizate i rezumate. nainte ca prezentarea sub form
de tabel a unor date s poat fi realizat informaia trebuie aranjat astfel nct ea s fie ct mai uor de
neles. Aceast seciune va descrie cele mai utile moduri de tabelare a datelor.
i mulimea
K = {k1, k2, , ks }
adic ntre mulimea claselor i cea a frecvenelor. Aceast ultim mulime, privit desigur prin prisma
corespondenei cu X, poart denumirea de distribuie de frecvene. Distribuiile de frecvene se prezint
de regul sub forma unor tabele numite tabele de frecvene.
Distribuiile de frecvene, cum sunt tabelele 2.1 2.5, organizeaz n continuare datele exemplului
nceput mai sus pentru a le face mai uor i mai rapid de neles. Vom prezenta cinci feluri de distribuii de
frecvene: tabelul de frecvene absolute, tabelul de frecvene cumulate, tabelul de frecvene procentuale,
tabelul de frecvene procentuale cumulate, i tabelul de frecvene absolute i procentuale. Le vom descrie
pe fiecare pe rnd.
20
Frecvene absolute
Pentru a construi un tabel de frecvene absolute, pur i simplu numrm de cte ori apare fiecare
valoare pentru o anumit variabil. Potrivind frecvenele pentru fiecare valoare, obinem o imagine de
ansamblu a datelor. Aceasta ne permite s identificm ordinea valorilor care apar, valoarea tipic, i
variaia frecvenelor valorilor. O distribuie de frecvene absolute ne permite s observm la prima vedere
cum sunt distribuite anumite valori ale unei variabile. O astfel de distribuie poate fi construit pentru date
de orice nivel.
Partea stng a Tabelui 2.1 arat faptul c vrsta clienilor variaz de la 21 la 69 sau c vrsta care
apare cel mai des este 31 (de 4 ori). Coloana de frecvene absolute din partea dreapt a tabelului indic de
cte ori apare fiecare valoare..
Tabelul 2.1. Tabelul distribuiei de frecvene absolute. Vrsta.
Vrsta
Frecvene
(xi)
(ki)
21
2
26
3
27
3
31
4
32
2
37
3
49
2
69
1
Numrul total al clienilor 20
Frecvene cumulate
Dac datele noastre sunt cel puin de nivel ordinal (adic pot fi puse ntr-o ordine), atunci putem
converti tabelul frecvenelor absolute (Tabel 2.1) ntr-un tabel de frecvene cumulate. Un tabel al
distribuiei frecvenelor cumulate (notat cu Fi), ca i Tabelul 2.2, este de fapt o extensie a unui tabel de
frecvene absolute. Tabelul 2.2 difer de Tabelul 2.1 numai prin ultima coloan din dreapta care prezint
frecvenele cumulate ale vrstei clienilor, de la cea mai mic (21), la cea mai mare.
Fi = k1 + k2 + ki
i= 1, , s
Aa cum arat Tabelul 2.2, doi clieni aveau 21 ani, i trei clieni aveau 26 ani. De aceea frecvena
cumulat a vrstei de 26 ani sau mai puin, este cinci (2+3). Un alt exemplu este faptul c 17 clieni
(2+3+3+4+2+3) au vrsta de cel mult 37 ani.
Tabelul 2.2. Distribuie de frecvene cumulate .Vrsta
Vrsta
Frecvene absolute
(xi)
(ki)
21
2
26
3
27
3
31
4
32
2
37
3
49
2
69
1
Total
20
21
Frecvene cumulate
(Fi)
2
5
8
12
14
17
19
20
-
Frecvene procentuale
Tabelul 2.3 este un tabel al distribuiei de frecvene procentuale care utilizeaz datele din Tabelul
2.2. Forma sa este identic cu cea a tabelului distribuiei de frecvene absolute, cum ar fi Tabelul 2.1, cu
singura diferen c n loc de frecvenele absolute apar frecvene procentuale (sau, mai simplu, procente).
Frecvenele procentuale (pi) se obin prin raportarea frecvenelor absolute (ki) la volumul populaiei (n) i
nmulind apoi rezultatul cu 100.
pi = ki / n *100 i = 1, 2, , s
Putem vedea, de exemplu, din Tabelul 2.3, ca cele dou persoane de 21 de ani, reprezint 10% din
numrul total de clieni, sau c procentul celor de 26 ani este de 15%, sau c o cincime (20%) dintre clieni
au 31 ani. Totalul frecvenelor procentuale trebuie s fie ntotdeauna 100% .
Tabelul 2.3 Tabelul de frecvene procentuale. Vrsta.
Vrsta
Procente
(xi)
(pi)
21
10
26
15
27
15
31
20
32
10
37
15
49
10
69
5
TOTAL
100
Procente cumulate
Un tabel al distribuiei de procente cumulate, cum este Tabelul 2.4, se construiete asemntor
tabelului de frecvene absolute cumulate. Dac un tabel al distribuiei frecvenelor cumulate (Tabelul 2.2)
prezint numrul de indivizi cu vrste sub anumite limite, un tabel al distribuiei de procente cumulate,
prezint procentul celor sub diferite vrste. Aa cum apare n Tabelul 2.4, de exemplu, doar doi clieni au
exact 32 de ani, mpreun ei reprezint 10% din totalul clienilor, i 70% din clieni au cel mult 32 ani.
Tabelul 2.4. Distribuie de procente cumulate. Vrsta
Vrst
Procente
21
10
26
15
27
15
31
20
32
10
37
15
49
10
69
5
Total
100
Procente cumulate
10
25
40
60
70
85
95
100
-
22
Procente
10
15
15
20
10
15
10
5
100
Procente
Cumulate
10
25
40
60
70
85
95
100
-
23
considerat important. De exemplu dac nu este considerat ca important o diferen de 200$ n venitul
anual al unei familii, dar este considerat important o diferen de 300$, putem alege urmtoarele
intervale: sub 200$, 201$ - 400$; 401$ - 600$ etc.
Tabelul 2.7. Distribuie de frecvene cumulate. Grupa de vrst
Vrsta
Frecvene
Frecvene cumulate
20 - 29
8
8
30 - 39
9
17
40 - 49
2
19
50 - 59
0
19
60 - 69
1
20
Numrul total de clieni
20
Tabelele de procente prezint att frecvenele absolute ale fiecrui interval ct i procentele
reprezentate de indivizii din fiecare interval n raport cu totalitatea cazurilor. De aceea, aa cum indic
Tabelul 2.8, opt clieni aveau vrsta de la 20 la 29 ani; aceti opt clieni reprezint 40% din ntregul
eantion. Aa cum vom arta puin mai jos, o asemenea prezentare este util mai ales atunci cnd
comparm valorile unei variabile din dou sau mai multe grupuri de mrimi diferite.
n Tabelul 2.8 putem vedea procentul clienilor din fiecare grup de vrst. 45% , adic 9 dintre
clieni, sunt inclui n categoria de vrst 30 - 39 ani. Prin adunare obinem c 85% (40% + 45%) sunt n
categoria 20 - 39 de ani.
Tabelul 2.8. Distribuie de procente. Grupa de vrst.
Vrsta
Frecvene
20 - 29
8
30 - 39
9
40 - 49
2
50 - 59
0
60 - 69
1
Total
20
Procente
40
45
10
0
5
100
24
Procente cumulate
40
85
95
95
100
-
Procente
Cumulate
40
85
95
95
100
-
Frecvene cumulate
30
70
130
200
-
25
Procente
Cumulate
0
20
60
95
100
Putem vedea n Tabelul 2.14, c 20% dintre asistenii sociali (40 la numr) din grupul de control
au obinut la examen un rezultat de 69 puncte sau mai puin. Tabelul 2.13 indic faptul c doar 10% dintre
asistenii sociali (30 n valoare absolut) care au utilizat ndrumtorul pentru studiu au obinut un rezultat
asemntor. A trebuit s inem cont n comparare c cele dou grupuri erau alctuite dintr-un numr inegal
de subieci (n), 300 din grupul experimental i 200 din grupul de control. Numai folosind procentele am
putut compara dou grupuri de mrimi diferite.
Din perspectiva cercetrii, cele dou grupuri de 200, i respectiv de 300, subieci pot fi comparate
n mod rezonabil. Compararea procentelor simplific interpretarea datelor dar trebuie s fim prudeni cu
privire la compararea procentelor ntre dou grupuri a cror mrime difer mult. Un astfel de procedeu n
realitate poate mai degrab s distorsioneze dect s clarifice datele pentru cititor. Exemplul de mai jos va
arta cum se poate ntmpla acest lucru.
S presupunem c un asistent social se ocup de 10 clieni n timp ce un altul de 100 de clieni. Cel
care are 10 clieni termin dou cazuri pe parcursul unei luni, iar cellalt termin ase cazuri. Primul
asistent social raporteaz un procent de 20% (2/10 =20%) a cazurilor ncheiate, n timp ce cellalt
raporteaz numai 6% (6/100 = 6%) cazuri ncheiate. Privind numai datele procentuale (20% contra 6%),
apare o diferen semnificativ ntre ratele relaiilor ncheiate la cei doi asisteni sociali (20 este mai mare
dect 6 de mai mult de trei ori). Este aceast diferen att de semnificativ?
Pentru a evita o fals impresie numerele reale pe care se bazeaz procentele, trebuie ntotdeauna
raportate mpreun cu procentele dac numrul de cazuri din ambele grupuri este mare, iar grupurile sunt
inegale n mrime. n general procentele sunt lipsite de semnificaie, dac nu total derutante, atunci cnd
sunt raportate datele unor eantioane mici. Ar fi cel mai bine ca ele s nu fie raportate, de vreme ce
numerele mici sunt destul de uor de neles.
ntorcndu-ne la exemplul cu examenul, putem s observm c procentele cumulate fac posibil
calcularea, cel puin aproximativ, centilei pentru fiecare individ. Centila unei valori indic procentajul
cazurilor a cror valori depesc sau se situeaz sub nivelul valorii date. S presupunem c un anumit
individ din grupul experimental a obinut n cadrul examinrii un rezultat de 90 puncte, dup ce a folosit
ndrumtorul de studiu. Din Tabelul 2.13 putem vedea c persoanele care au obinut un rezultat mai mic
dect el reprezint 80% din toate persoanele grupului experimental - adic individul se situeaz la nivelul
centilei 80%. Frecvenele procentuale cumulate ne permit s privim un rezultat individual raportndu-l la
celelalte rezultate din grup.
26
27
Modul 3
Prezentarea grafic a distribuiilor de frecvene
Este greu de sesizat toate semnificaiile unui tabel, dar acestea pot fi comunicate aproape imediat
prin imagini. Atunci cnd datele se prezint n mod eficient sub form grafic, ele sunt mai degrab vzute
dect studiate; ele sunt sesizate ca un ntreg i nu sub form de fragmente aa cum se poate ntmpla chiar
i atunci cnd tabelele statistice sunt examinate cu atenie. Din acest motiv prezentarea grafic este util, n
mod special pentru a afia rezultatele cantitative ale unui studiu de cercetare care implic discuii statistice.
Este adevrat faptul c reprezentarea grafic poate fi modificat uor astfel nct s duc la concluzii
eronate. Dar acest avertisment nu trebuie s ne descurajeze privind folosirea lor.
O alt piedic n folosirea reprezentrilor grafice este faptul c n general ele renun la detalii i
uneori la acuratee n efortul de mbuntire a comunicrii. Acest sacrificiu este justificat numai atunci
cnd (1) concluzia este foarte important, (2) subiectul poate fi foarte eficient reprezentat n imagini, (3)
auditoriul nu este orientat ctre cercetare i astfel nu ar putea nelege un tabel la fel de uor ca o
reprezentare grafic sau (4) este esenial s se treac la subiect rapid pentru c s-ar putea ntmpla ca
auditoriul s i piard rbdarea i interesul.
Graficele, diagramele i figurile se folosesc ns mai frecvent dect ar putea rezulta din cele spuse
anterior. Ele servesc nu numai comunicrii informaiilor ctre alte persoane, dar i cercettorului n munca
lui de explorare, de cutare sau de analiz a datelor colectate. Mai ales dac sunt obinute cu ajutorul
calculatorului i vor putea fi multe la numr cercettorul le va folosi ca instrumente de cercetare la propriu.
Graficele prezint variabilele, conceptualizate i operaionalizate ntr-o faz anterioar a cercetrii,
ntr-o form uor de priceput.
Frecvene
28
Variabila dependent
Y
Figura 3.2. Sistem de axe destinate evidenierii relaiilor dintre dou variabile
Variabila independent X
Deoarece exist multe tipuri de grafice, vom discuta numai cinci dintre ele, utilizate frecvent n
cercetarea de asisten social: diagrama de bare, histograma, diagram circular, poligonul de frecvene,
diagrama de mprtiere. Primele dou vor fi prezentate mpreun deoarece se utilizeaz ntr-o manier
similar.
25878
25000
20000
15000
10000
8558
3354
5000
635
2971
594
0
Leagane
Case de
copii
Scoli
reeducare
Camine
spital
Camine
atelier
Camine
scoala
Una din cele mai utilizate forme de reprezentare a distribuiilor de frecvene este diagrama de bare.
Pe axa orizontal se construiesc la distane egale bare de limi egale i de nlimi proporionale cu
frecvenele. Barele sunt desenate astfel nct ele s nu se ating (vezi figura 3.3) i pentru a sugera
diferenele calitative i nu cantitative ale valorilor variabilei. Acest tip de grafic este ideal pentru
distribuiile de frecvene a variabilelor de nivel nominal i ordinal.
Datele msurate pe o scal ordinal pot fi reprezentate eficient i pe un alt tip de grafic, numit
histogram. O histogram seamn mult cu un grafic de bare dar aici atingerea barelor este permis.
Histogramele se mai folosesc atunci cnd se reprezint datele pentru o variabil cu intervale de grupare,
pentru a pune n eviden diferene cantitative.
Figura 3.4 este un exemplu de histogram, derivat din tabelul 3.1, i afieaz frecvenele unei
variabile de nivel ordinal - starea pacienilor care au prsit agenia n care au primit ajutor.
29
Tabelul 3.1 Tabel de frecvene pentru starea clienilor ageniei XYZ, dup intervenie
Rezultat
Frecvene
Mai ru dect la admitere
15
Neschimbat
30
mbuntit
10
Mult mbuntit
35
TOTAL
90
20
10
Mai ru dect
nainte
Neschimbat
mbuntit
Mult
mbuntit
Pentru variabilele de nivel interval sau rapoarte, mai ales dac distribuiile de frecvene folosesc
intervale de grupare, se utilizeaz histogramele i nu diagramele de bare.
Un caz special, cnd histograma se deosebete de diagrama de bare nu doar prin simplul fapt c
barele se ating, este atunci cnd intervalele de grupare a variabilei nu sunt egale ca lungime. Limea
barelor trebuie s fie proporional cu lungimea intervalului. Dac intervalele au lungimi egale, barele vor
fi de aceeai lime. Dac intervalele nu sunt egale atunci barele vor avea limi diferite (ca n tabelul 3.2. i
figura 3.5).
Tabelul 3.2 Tabel de frecvene pentru vrsta clienilor ageniei XYZ
Intervalul de vrst
Numr de clieni
0- 19
80
20-29
80
30-39
55
40-49
65
50-59
60
60-69
30
70-100
60
TOTAL
430
30
80
70
60
50
40
30
20
10
0-19
20-29
30-39
40-49
50-59
60-69
70-100
31
1% 7%
8%
20%
Leagane
2%
Case de copii
Scoli reeducare
Camine spital
Camine atelier
Camine scoala
62%
Figura 3.6 este un exemplu de diagram circular care arat repartiia minorilor instituionalizai n
1990 n Romnia printre diferitele tipuri existente de instituii. Sectoarele de cerc sunt proporionale cu
frecvenele ntlnite, fie c le considerm pe cele absolute sau pe cele procentuale. Astfel, de exemplu,
pentru minorii din casele de copii s-a alocat un sector de cerc de 73,4 grade adic 20,4% (25870 / 41982
*100 = 20.4) din totalul de 360 grade ct are un cerc ntreg. ntr-adevr:
360 * 20,4 / 100 = 73,4
Diagramele circulare necesit aceleai date ca i diagramele de bare. Orice informaie care poate fi
categorisit ca fiind de nivel nominal, poate fi reprezentat prin diagrame circulare. Principalul avantaj este
c furnizeaz, rapid i n mod vizual, aprecieri asupra informaiilor care pot face ca rezultatele constatrilor
s fie mai pline de neles. Principalul dezavantaj al acestui tip de grafic este c ele nu pot folosi eficient
multe valori diferite ale variabilei; adesea graficele devin prea complicate sau chiar neinteligibile n cazul
n care sunt necesare mai mult de cinci sau ase diviziuni ale cercului.
32
49588
46142
45000
41982
42171
40000
39246
41052
35000
30000
1990
1991
1992
1993
1994
1995
33
25000
20000
15000
10000
5000
0
40
50
60
70
80
90
De exemplu, putem fi interesai n a examina legtura dintre sperana de via la natere i venitul
mediu pe cap de locuitor pentru toate statele lumii, avnd date relative anului 1995 (vezi figura 3.8). Putem
lansa ipoteza c sperana de via la natere este mai mare cu ct venitul pe cap de locuitor este mai mare, i
invers. Din figura 3.8 putem vedea c multe ri se situeaz aproape de axa orizontal, ceea ce denot c
realizeaz toate doar venituri mici, dar c din punctul de vedere al speranei de via ele prezint variaii
considerabile, putnd varia de la 40 ani pn ctre 85 ani. Pe de alt parte, tot urmrind graficul, putem
vedea c alte foarte multe ri se plaseaz pe grafic ntr-o manier vertical la captul din dreapta al figurii.
Aceasta nseamn c ele au toate o speran de via ridicat, apropiat de valorile maxime atinse pe glob,
dar c din punctul de vedere al venitului mediu pe cap de locuitor sunt extrem de variate, de la cele mai
srace i pn la cele mai bogate. Totui nu putem spune c nu exist nici o relaie ntre cele dou variabile,
pentru c norul de puncte se structureaz foarte clar dup o curb exponenial, ceea ce denot existena
unei relaii speciale ntre cele dou variabile.
Cteodat, ca i n exemplul nostru, variabilele respective pot fi reprezentate pe oricare din axele
de coordonate, atta timp ct nici una nu poate fi clar indicat ca variabil independent. Nu putem spun
c sperana de via influeneaz venitul mediu pe cap de locuitor, nici invers. Putem spune doar c ele sunt
asociate, legate.
Frecvent, punctele reprezint cazuri care pe diagrama de mprtiere apar a fi distribuite n
anumite forme (o linie dreapt, sub form de U, sub form de J, etc.). Aceasta poate fi important
pentru nelegerea i tragerea concluziilor din datele cercetrii.
REZUMAT
n acest capitol am discutat diferite metode pentru reprezentarea grafic a distribuiilor de
frecvene sau pentru ilustrarea relaiilor ntre dou variabile. Graficele pot nlocui cteodat tabelele n
prezentarea rezultatelor cercetrii, sau se pot folosi i mpreun.
n selectarea unui grafic pentru includerea ntr-un raport, cercettorul trebuie s aib n vedere
limitele i specificul diferitelor grafice despre care s-a discutat. n unele cazuri se pot potrivi mai multe
tipuri de grafice. Criteriul principal n alegerea graficului trebuie s fie claritatea i corectitudinea
prezentrii n vederea obinerii unui maximum de comunicare.
34
In graficele care folosesc valorile a dou variabile, pe ce ax trebuie aezate valorile variabilei
dependente?
Prin ce difer un grafic de bare de o histogram?
Ce nivel de msur trebuie s aib variabila a crei distribuie de frecvene este reprezentat grafic
printr-o diagram de bare?
Dac ntr-o agenie cu un buget anual de 36.000$ se aloc pentru cheltuieli de transport 9.000$, care
este poriunea dintr-o diagram circular care va corespunde segmentului transporturi?
De ce poligoanele de frecvene descriu exact datele numai dac ele sunt de nivel interval sau rapoarte?
Care dintre graficele cunoscute de dvs. poate sugera o posibil relaie ntre dou variabile?
35
Modul 4
Indicatori ai tendinei centrale
Reprezentrile tabelare i grafice ale informaiilor ne pot expune vizual rezultatele cercetrilor
noastre. Apoi vine momentul cnd dorim s ne orientm atenia ctre anumite caracteristici specifice
datelor. n particular, am dori s rezumm informaia, s putem spune care este valoarea tipic , valoarea
normal sau tendina central.
Cuvntul tipic este unul obinuit n vocabularul nostru. Vorbim de clientul tipic sau de salariul
normal pentru asistenii sociali nceptori, adesea fr a fi foarte exaci n nelesul termenilor. Utilizarea
tipicului, a normalului, nivelului general, a ordinii de mrime este o ncercare de a gsi o singur valoare,
sau o singur clas caracteristic, care s descrie ce este reprezentativ pentru un ntreg grup de numere sau
clase.
n statistic exist cteva modaliti de gsire a valorii tipice pentru o variabil. De aceea,
folosirea unei terminologii precise este esenial. Orice termen trebuie folosit i etichetat corect pentru a
evita ambiguitile i confuziile. Grupm diferitele descrieri ale rspunsurilor tipice gsite n datele noastre
sub termenul de tendin central. Indicatorii tendinei centrale mai sunt cunoscui n literatura de
specialitate i sub denumirea de indicatori de poziie. Fiecare indicator al tendinei centrale exprim doar o
cantitate limitat a informaiei despre un grup de valori, i fiecare ne spune ceva diferit despre date. Pentru
a nelege diferena dintre diferiii indicatori ai tendinei centrale, trebuie s lum n considerare modul de
calcul al fiecruia. Interpretarea indicatorului statistic presupune cunoaterea modului n care a fost
determinat valoarea lui.
Comparativ cu oricare alte categorii de indicatori, indicatorii tendinei centrale sunt cel mai des
folosii deoarece sunt uor de calculat (gsit) i sunt foarte utili. Ei au dou ntrebuinri de baz.
1. Furnizeaz o valoare unica, rezumativ, a datelor obinute. Ei reprezint o ncercare de a gsi o
valoare (clas sau numr), care s ne spun mai mult dect oricare alt valoare despre caracteristicile
distribuiei variabilei. De exemplu, o agenie care angajeaz cteva sute de asisteni sociali pe an poate da
un salariu mediu lunar de stagiar de 150$. Acest singur numr ne ajut s rezumm ntr-o singur valoare
politica salarial a ageniei pentru asistenii sociali nceptori.
2. Furnizeaz un numitor comun pentru compararea a dou grupuri de informaii. Dac sunt
obinute dou numere - numrul mediu lunar al clienilor care recurg la servicii familiale (Departamentul
A) i numrul mediu lunar al clienilor care cer asisten financiar (Departamentul B) - se poate face o
uoar i rapid comparare a celor dou departamente.
n acest capitol vom examina cei mai frecveni indicatori ai tendinei centrale: modul, mediana i
media.
4.1. Modul
Modul este un indicator al tendinei centrale care ne spune care valoare din distribuia valorilor
este observat cel mai frecvent.
Pentru date negrupate, ne referim la mod ca la o valoare care apare cel mai des. Dintre cele 10
valori prezentate mai jos, 7 este modul deoarece este ntlnit cel mai frecvent fa de celelalte numere;
numrul 7 se ntlnete de trei ori.
2456777889
mod
Pentru date grupate, ne referim la mod ca la punctul central al intervalului care conine frecvena
cea mai mare. n Tabelul 4.1 avem informaii legate de satisfacia profesional a unui numr de 50 asisteni
sociali. Pentru aceste date grupate, intervalul care conine cea mai mare frecven este 48-50, incluznd
36
numerele 48,49 i 50. De vreme ce punctul de mijloc al acestui interval este 49, spunem c 49 este valoarea
modal a distribuiei, sau modul.
Dup unii autori, alegerea unui punct din intervalul modal care s reprezinte valoarea modal este
nejustificat. Dup prerea lor, cutarea ar trebui s se opreasc la simpla specificare a intervalului modal.
Tabelul 4.1 Distribuia de frecvene cumulate pentru date grupate: satisfacia n munc
Rezultatele obinute de asistenii sociali de la agenia XYZ
Frecvene
Frecvene
Frecvene
Rezultate
absolute
cumulate
cumulate
(Mari-Mici)
(Mici-Mari)
36-38
2
50
2
39-41
2
48
4
42-44
4
46
8
45-47
1
42
9
48-50
7
41
16
51-53
3
34
19
54-56
4
31
23
57-59
1
27
24
60-62
1
26
25
63-65
4
25
29
66-68
5
21
34
69-71
1
16
35
72-74
6
15
41
75-77
5
9
46
78-80
1
4
47
81-83
3
3
50
Se poate ntmpla pentru datele negrupate ca mai mult dect o singur valoare s fie ntlnit cu
aceeai frecven. Dac dou sau mai multe valori au aceiai frecven fiecare dintre aceste valori vor fi
moduri ale datelor. Cnd exact dou valori au aceiai frecven, sau frecvene mult mai mari dect a
celorlaltor valori, chiar dac aceste dou frecvene nu sunt strict egale, distribuia este numit bimodal.
Mai jos sunt prezentate opt valori care conin dou moduri.
4
5 5 6 6 7
modul 1 modul 2
Valorile 5 i 6 sunt moduri i se ntlnesc cel mai frecvent - de dou ori fiecare. Dac acelai lucru
se ntlnete n cazul datelor grupate, punctul de mijloc al intervalelor care conin cel mai mare numr de
cazuri sunt luate ca moduri ale datelor. Datele din Tabelul 4.2 arat o distribuie bimodal. Modurile sunt
punctele din mijlocul intervalelor care conin cea mai mare frecven. n acest caz modurile sunt 55 i 52,
mijloacele intervalelor 54-56, respectiv 51-53 ce conin opt cazuri fiecare.
37
lipsete precizia pe care ceilali indicatori din aceai categorie o posed. Cea mai frecvent sau comun
valoare a unei distribuii nu este n mod necesar cea mai exact descriere a valorii centrale. De exemplu,
Tabelul 4.3 prezint o distribuiei de frecvene n care modul, nu este n mod evident n centrul distribuiei,
ci mai ctre sfritul ei (grupa 57-59). Pentru date de nivel ordinal, interval, rapoarte, putem cu uurin
obine o descriere mai reprezentativ prin folosirea altor indicatori ai tendinei centrale.
Tabelul 4.2 Distribuia de frecvene cumulate pentru date grupate: satisfacia n munc
Rezultatele obinute de personalul cleric de la agenia XYZ
Frecvene
Frecvene
Frecvene
Rezultate
absolute
cumulate
cumulate
(Mari-Mici)
(Mici-Mari)
45-47
4
31
4
48-50
7
27
11
51-53
8
20
19
54-56
8
12
27
57-59
4
4
31
Tabelul 4.3 Distribuia de frecvene cumulate pentru date grupate: satisfacia n munc
Rezultatele obinute de asistenii sociali de la agenia XYZ
Frecvene
Frecvene
Frecvene
Rezultate
absolute
cumulate
cumulate
(Mari-Mici)
(Mici-Mari)
39-41
4
33
4
42-44
1
29
5
45-47
2
28
7
48-50
3
26
10
51-53
7
23
17
54-56
6
16
23
57-59
10
10
33
4.2. Mediana
Mediana este valoarea individului statistic (real sau virtual) care mparte populaia n dou
submulimi numeric egale, prima avnd valori mai mari sau egale cu acesta, iar cealalt avnd valori mai
mici sau egale cu ea.
n cele 11 valori prezentate mai jos, mediana este 15, deoarece 15 coincide cu punctul ce mparte
valorile n dou pri egale, cinci valori n stnga lui 15 (10, 11, 12, 13, 14) i tot cinci valori (16, 17, 18,
19, 20) n dreapta lui 15.
10
11
12
13
14
15
median
16
17
18
19
20
Primul pas n determinarea medianei unei distribuii de valori este de a le aranja ntr-o ordine ca
ce-a prezentat n Tabelul 2.2 din Modulul 2. Dac numrul valorilor ntlnite este impar, mediana este
definit ca punctul central al irului de valori ordonate, iar dac numrul lor este par mediana este media
aritmetic a celor dou valori din mijloc. Pentru cele ase valori de mai jos, 14,5 este mediana. Ea este
media celor dou valori centrale (14 i 15).
12
13
14
15
mediana
16
38
17
Trebuie semnalat c aici mediana (14,5) nu coincide cu nici o valoare. Aceast situaie pune n
eviden faptul c - contrar unei concepii greit nelese - mediana nu este doar o simpl valoare a cazului
mijlociu. Cteodat aceasta coincide cu valoarea unui caz mijlociu, dar n exemplul anterior se vede c
poate fi doar o medie a valorilor cazurilor mijlocii. Aceasta se ntmpl deoarece mediana adevrat
(punctul de mijloc al unei serii) este influenat de o serie de factori ca: numrul par sau impar al cazurilor,
frecvena mai mare dect unu a cazurilor cu valori apropiate de centrul seriei; valorile cu frecvena zero,
etc. Mediana se obine n mod obinuit folosind o procedur special desemnat pentru acest scop (pe care
nu o tratm aici). Pentru detalii se poate consulta, de exemplu, volumul Metode statistice aplicate n
tiinele sociale, coord.T.Rotariu, Editura Polirom, 2006.
Restricii de utilizare a medianei
Deoarece mediana mparte distribuia valorilor n dou pri egale, este necesar ca valorile s
poat fi aranjate ntr-o ordine. Din acest motiv, este necesar ca datele s fie msurate pe o scal cel puin la
nivel ordinal.
Avantajele i dezavantajele medianei
Dintre cei trei indicatori ai tendinei centrale tratai n aceast seciune, mediana este cea mai
stabil, ea este mai puin afectat de valorile extreme ntlnite n distribuie. Cele dou seturi de cte
treisprezece valori care urmeaz au aceiai valoare median, dar observai valorile lor extreme foarte
diferite.
Distribuia A
1 14 15 16
Distribuia B
13 14 15
16
17
17
18
19 20
median
18 19 20
median
21
21
22
23
22
23
24
24
50
25
4.3. Media
Msurarea tendinei centrale cu un indicator mai sofisticat dect modul sau mediana este posibil
atunci cnd informaia este de nivel interval sau rapoarte. Dac o variabil poate fi considerat de nivel
interval sau de rapoarte, utilizarea mediei ca indicator al tendinei centrale trebuie luat n considerare.
Deoarece media este uor de neles, i deci mai folositoare, ea este adesea utilizat ca msur a
tendinei centrale. n sens matematic, media reprezint suma tuturor valorilor variabilei mprit la
numrul de valori. Media poate fi definit i n alte moduri - care pot fi luate ca tot attea proprieti ale ei ca de exemplu, valoarea comun pe care ar trebui s o ia toi indivizii din populaie pentru ca suma
valorilor s nu se schimbe. Media se poate calcula cu formula:
39
Media =
Pentru date negrupate, ca n cazul valorilor de mai jos, putem obine media prin nsumarea
valorilor i mprirea totalului la numrul valorilor.
4
10
Nu avem nevoie s le aranjm n ordine ca n cazul calculrii medianei. Pentru aceste date este
necesar doar efectuarea operaiilor.
Media = (4+4+5+7+10) / 5
= 30 / 5
= 6 (media)
Media se calculeaz uor i cu ajutorul tabelelor de frecvene, utilizndu-se la numrtor suma
produselor dintre valori i frecvene. Dac tabelul de frecvene este cu intervale de grupare, n calcule se
folosesc valorile centrale ale intervalelor.
EXERCITIU: Calculai indicatorii tendinei centrale pentru numrul de membrii ai familiilor
beneficiari de ajutor social din Tabelul 5.8.
Restricii de utilizare a mediei
Pentru a folosi media, datele trebuie s fie cel puin de nivel interval. Calcularea mediei pentru
nivelul nominal sau ordinal nu are sens. De exemplu, nu pentru orice ir de valori este potrivit a calcula
media. Un student poate fi al treilea clasat n primul an de studii, al patrulea n cel de al doilea, i al doilea
n urmtorul. Suma rangurilor irului parcurs este 3+4+2, deci 9 i astfel media irului este 3 (9/3 = 3) dar
nu are nici un sens s vorbim de acesta. Nivelul interval pentru date arat c exist o distan egal ntre
intervale sau nivele. Doar n acest ultim caz calcularea mediei este valabil. Cnd scala folosit nu este la
nivelul de msurare interval media nu este utilizabil.
O a doua cerin pentru folosirea mediei este legat de volumul eantionului. Deoarece valorile
extrem de mari sau valorile extrem de mici pot distorsiona media foarte uor, este mai bine ca ea s fie
utilizat n eantioane relativ mari n care valorile aberante s cauzeze mai puine distorsiuni. Pentru ca
media s fie utilizat ca indicator unic al tendinei centrale, mai este necesar ca forma distribuiei s fie
simetric sau "normal". Vom explora conceptul de distribuie normal n Modulul 6.
Avantajele i dezavantajele mediei
Media este frecvent folosit i muli dintre noi suntem familiarizai cu ea. Media implic mai
mult precizie dect modul sau mediana. Pentru calculul ei se folosesc valorile precise ale fiecrui rezultat
particular (nu doar unele din valori sau frecvene). Aceast caracteristic poate promova claritate sau
distorsiune, depinznd de ct de asemntoare sunt rezultatele ntre ele.
Un mare dezavantaj al mediei este c poate fi folosit doar pentru date de nivel interval sau
rapoarte. Aceast regul limiteaz posibilitatea folosirii acesteia pentru date msurate la nivel nominal sau
ordinal. Acest dezavantaj este resimit mai ales n cercetarea din asistena social. Exist multe mprejurri
n cercetrile noastre, unde media pur i simplu nu poate fi folosit. De exemplu, multe instrumente de
msurare a atitudinii, genereaz un numr ordinal pentru fiecare caz, dar doar atta nu este suficient pentru
a trata informaiile ca fiind de nivel interval sau rapoarte. Datorit popularitii mediei, unii insist n mod
eronat n aplicarea ei i n astfel de situaii. Este mai recomandabil s se foloseasc mediana n cazul n care
datele nu pot fi justificate ca fiind de nivel interval sau rapoarte.
Calitatea mediei de a fi un indicator precis, senzitiv la orice schimbare, se poate transforma, n
unele situaii, n dezavantaj. Senzitivitatea poate fi considerat excesiv atunci cnd schimbrile se petrec
la extremele intervalelor de variaie. Putem ilustra acest dezavantaj cu media de vrst a clienilor.
Presupunem c avem zece clieni cu urmtoarele vrste:
40
25
26
27
28
30
31
32
32
33
76
Media rezultat din nsumarea valorilor vrstelor, mprite la numrul de clieni, 340 / 10, este 34.
Totodat nou clieni au 33 de ani sau mai puin. n acest caz este evident ca o singur persoan, cea cu
vrsta 76, este principalul responsabil de distorsionarea "mediei de vrst a grupului". In acest caz valoarea
de 76 mrete considerabil media de vrst a grupului. Treizeci i patru nu reflect exact o msur a
tendinei centrale. Modul i mediana pentru aceste date este de 32 i respectiv 30,5; valori cu siguran mult
mai adecvate, n sensul de a fi mai centrale, mai tipice. Acest exemplu sugereaz c atunci cnd distribuia
conine cteva valori deviante (marcant deprtate fa de celelalte) mediana este, n mod obinuit,
preferabil mediei. In cazul tabelelor de frecvente, observnd poligonul frecvenelor, vom vedea c acesta
este foarte asimetric. Cel mai bine este raportam ambii indicatori ai tendinei centrale, att media ct i
mediana, sau chiar toate cele trei (plus modul) pentru ca astfel vom produce o imagine mai bun asupra
distribuiei.
Dac media nu poate descrie reprezentativ informaia, ce se poate spune despre median? Ea cade
pe 4 i e foarte aproape de valoarea cea mai comun (3). Ca unic alegere pentru o msur a tendinei
41
centrale, este suficient de bun. Dar ea nu este sugestiv pentru grupul clienilor care au fost intervievai de
zece ori (40 de cazuri), un fapt care poate fi un surprinztor i demn de semnalat pentru o agenie care n
general consider s se angajeze n intervenii n criz, pe termen scurt. De asemenea nu confirm
constatarea predictibil c un numr mare de clieni (55) au fost intervievai o singur dat. Pe scurt,
mediana poate fi mai bun dect media sau modul pentru o prezentare a tendinei centrale dar este departe
de perfeciune pentru aceast informaie.
Distribuia este bimodal, cu dou moduri care cad pe unu i trei interviuri. Dar dac am folosi
doar modul, am putea sugera c unu sau trei interviuri (ambele numere mici) sunt tipice pentru cazuri,
dar de fapt mai puin de jumtate din toate cazurile au fost intervievate de patru ori sau mai puin. Ca i
mediana, modul singur nu sugereaz posibilitatea c interveniile n criz se repet adesea ntr-un numr
mare de edine. Aa cum am subliniat, modul este mai adecvat nivelului nominal. El trateaz diferitele
valori ale variabilei ca i cnd ntre ele exist doar diferene de clas i nu ine cont (aa cum s-a ntmplat
i n exemplul nostru) dac exist diferene cantitative reale.
Cteodat nici un indicator al tendinei centrale nu este ideal pentru a descrie ceea ce este tipic
pentru datele concrete. Exemplul nostru ilustreaz o situaie n care oricare din indicatori are un potenial de
eroare. Aici toi trei - modul, mediana sau media - pot contribui ntr-un fel propriu la interpretarea datelor.
Faptul c distribuia este bimodal, cu modurile sunt la unu i la trei interviuri, indic faptul c perioadele
scurte rmn o caracteristic obinuit n agenie. Aici mediana reflect cel mai bine ceea ce este nivelul
general. Ea se bucur de o oarecare precizie, mai mare dect modul, dar mai mic dect media i sugereaz
c perioadele scurte de tratament nu sunt chiar aa de tipice pentru agenie cum am presupus la o prim
vedere. Dac se prezint i media, valoarea ei depind 4 interviuri, se aduce o dovad puternic a faptului
c un numr mare de clieni au fost intervievai mult mai frecvent dect ne-am ateptat.
Exemplul care folosete informaia din Tabelul 4.4 este un argument n recomandarea de a lua n
considerare i de a raporta mai muli indicatori ai tendinei centrale. Un cititor experimentat al rapoartelor
de cercetare, sau chiar i unul care nelege corect modul, mediana si media, trebuie s fie capabil s le
compare, ele oferindu-i o bun imagine asupra datelor deinute. Oricare dintre ei luat singur poate deforma
realitatea; toi trei mpreun i vor oferi o imagine plin de acuratee - ceea ce este, de fapt, un obiectiv al
statisticii descriptive.
REZUMAT
n acest capitol, am discutat diferii indicatori ai tendinei centrale i modurile prin care se pot
folosi pentru a prezenta valoarea tipic, normal, pentru un set de date. Trebuie s subliniem c anumii
factori cum sunt nivelul de msurare, volumul eantionului i prezena sau absena oricrui rezultat deviant,
toate trebuie luate n considerare n selecia unuia sau a mai multor indicatori ai tendinei centrale.
Indicatorii de poziie, cum se mai numesc indicatorii tendinei centrale, sunt un fel de ajutor i nu
un substituent pentru nelegerea variaiilor individuale n interiorul unui set de date. Msura tendinei
centrale este o cale simpl i rapid de comunicare a caracteristicilor subiecilor cnd se dorete o precizie
minim. Acelai lucru se poate spune i despre prezentarea tabelar sau despre prezentarea grafic a
datelor, etica cercetrii cernd ca n alegerea indicatorilor s aib prioritate onestitatea comunicrii.
De ce modul este cel mai potrivit pentru a fi folosit pentru datele de nivel nominal?
Cum arat un poligon de frecvene cnd distribuia poate fi descris ca bimodal?
De ce este mediana mult mai bun i mai precis n descrierea informaiei de nivel ordinar, de ct
modul?
In ce situaii media poate fi nepotrivit pentru nivelul general al notelor ntr-o grup de 12 studeni?
De ce considerm media a fi cel mai precis indicator al tendinei centrale fa de median i mod?
Cum se explic faptul c cteva valori extreme mai ridicate sau mai sczute ale variabilei tind s
distorsioneze media?
Dac nu sunt ndeplinite toate cerinele necesare pentru a folosi media, care este alegerea alternativ
pentru a msura tendina central?
De ce folosirea unui singur indicator al tendinei centrale poate fi inadecvat descrierii unui set de
date?
42
9.
n ce situaie folosirea mai multor indicatori ai tendinei centrale furnizeaz o mai bun descriere a
valorilor variabilei, dect unul singur?
43
Modul 5
Indicatori ai mprtierii
In modulul anterior am prezentat trei indicatori ai tendinei centrale. Dac am opri aici analiza
noastr asupra informaiei, descrierea oricror distribuii de valori ar fi trunchiat sau greit neleas.
Modulul anterior a descris punctele n jurul crora toate valorile distribuiei nclin s se focalizeze, dar nu
explic modul n care valorile au fost distribuite n jurul acestor puncte.
Distribuiile A i B par a avea aceiai medie: 3. Totui modul n care fiecare set de valori este
distribuit n jurul mediei este diferit.
Distribuia A:
Distribuia B:
In general vorbind despre descrierea acestor dou distribuii de cte cinci valori fiecare, putem
spune c valorile Distribuiei B sunt grupate mai apropiat n jurul mediei 3, n timp ce valorile Distribuiei
A sunt mult mai larg mprtiate n jurul aceleiai medii.
Felul n care se mprtie valorile n jurul indicatorilor tendinei centrale al unei distribuii, este
prezentat prin ceea ce numim indicatori de mprtiere. Alte denumiri consacrate sunt indicatori ai
variabilitii sau indicatori de dispersie.
Ei urmresc, n esen, s msoare gradul de mprtiere a indivizilor n cadrul seriei de valori pe
care acetia le iau. Tradus problema n ali termeni, indicatorii de mprtiere caracterizeaz o populaie
statistic din punctul de vedere al omogenitii / eterogenitii, n raport cu o variabil dat. n anumite
situaii, n special cnd variabila reflect anumite ierarhii socialmente recunoscute sau valorizate ntre
indivizii statistici (adic n sensul c valori mai mari sunt considerate ca fiind mai bune sau preferabile
celor mici, cum e cazul salariilor de pild), indicatorii de mprtiere reflect gradul de inegalitate ntre
indivizi, n raport cu factorul social tradus n caracteristic.
n seciunile statisticii consacrate aa-ziselor modele explicative, indicatorii de dispersie capt
un rol esenial prin faptul c li se atribuie semnificaia de a reproduce gradul de nedeterminare, de
variabilitate a unui fenomen. Or, explicaia, cel puin din punct de vedere statistic, nseamn reducerea
acestei nedeterminri sau variabiliti, adic sporirea posibilitii de a prezice starea unui fenomen. ntradevr, aa cum am sugerat deja, un fenomen este tradus ntr-o caracteristic de tip statistic, care, la rndul
ei este exprimat printr-un indicator al tendinei centrale (s spunem media). A afirma c, de pild, media
notelor la matematic ntr-o clas de elevi este de 8,50 nseamn a afla ceva despre nivelul de cunotine n
domeniu al colarilor n cauz. Dispersia notelor din care rezult aceast valoare medie va indica msura n
care valoarea individual este reprodus prin cea de grup sau calitatea prediciei situaiei indivizilor prin
mrimea la nivelul colectiv. Dac n analiz se introduce o variabil nou, cu rol explicativ pentru cea
iniial, atunci, presupunnd cunoscut poziia indivizilor dup aceast caracteristic socotit independent,
se va reduce nedeterminarea situaiei lor dup variabila de baz, n msura n care ntre cei doi factori exist
o legtur. Altfel spus, indicatorul de variabilitate va pune n eviden ct din nedeterminarea variabilei
cercetate se poate reduce prin introducerea n modelul explicativ a unei noi variabile.
n continuare vom prezenta cinci indicatori mai cunoscui ai variabilitii: amplitudinea, abaterea
intercuartil, abaterea medie, variana i abaterea standard.
5.1. Amplitudinea
Amplitudinea este un indicator al variabilitaii care determin distana dintre valoarea maxim i
valoarea minim dintr-o distribuie. Putem exprima aceasta prin formula:
Amplitudinea = Valoarea Maxim - Valoarea Minima
44
1
1
5
5
5
5
5
5
5
9
10
11
12
13
14
15
16
17
90
Distribuia F:
10
11
12
13
14
15
16
17
18
45
Centile
3,5
6,5
9,5
n loc de a msura distana dintre maximul i minimul valorilor pentru a obine amplitudinea,
putem msura distana dintre cea de a treia cuartil (sau centila 75%) i prima cuartil (sau centila 25%).
Aceast distan este cunoscut ca abaterea intercuartil. Ca i indicator al variabilitii, este mult mai
stabil dect amplitudinea pentru c, acele cteva valori extreme mai mari sau mai mici nu l pot modifica,
aa cum ar face n cazul calculrii amplitudinii. Dac cuartila 3 i cuartila 1 sunt deja determinate (prin
calcul sau prin estimare ntr-un grafic cumulativ), abaterea intercuartil se calculeaz prin scdere direct. l
putem exprima prin formula urmtoare.
Abaterea intercuartil = cuartila 3 cuartila 1
Considerm cele 12 valori din Tabelul 5.1. Cuartila 1 cade ntre valorile 3 i 4, i cuartila 3 cade
ntre valorile 9 i 10. Abaterea intercuartil al datelor prezentate n Tabelul 5.1 este:
Abaterea intercuartil
= 9,5 - 3,5
= 6 (abaterea intercuartil)
46
= (9,5 - 3,5) / 2
= 3 (abaterea semi-intercuartil)
=
=
=
Valoarea de 1,25 este media abaterilor valorilor fa de media lor (din Tabelul 5.2). Majoritatea
oamenilor neleg uor conceptul distanei medii fa de media unei distribuii. Este relativ uor de calculat
i de interpretat.
Abaterea medie poate fi calculat folosind i alte valori de referin, nu numai media. De exemplu
abaterea medie fa de o valoare oarecare, s zicem a. Se poate demonstra c valoarea de referin pentru
care abaterea medie este cea mai mic este mediana.
n ciuda calitilor i expresivitii abaterii medii, ea se folosete rareori n practic, pentru c se
prefer un alt indicator de mprtiere: abaterea standard. i acesta este un indicator cu expresivitate mare i
n plus, este folosit mult n calculul testelor statistice i n analiza explicativ.
47
8
1
9
5
10
10
10
16
13
18
Figurile 5.1 i 5.2 reprezint cte cinci valori pentru fiecare din cele dou distribuii. Figurile 5.1 i
5.2 nfieaz valorile celor dou distribuii ca i greuti pe o bar gradat. Putem observa cu uurin din
Figurile 5.1 i 5.2 c distribuia H este mult mai variabil dect distribuia G. Cteodat nici acest tip de
reprezentare nu poate vizualiza care dintre cele dou distribuii este mai variabil.
Figura 5.1 Distribuia de frecvene G
|
| | | | | | |
10
11
12
13
14
15
16
17
18
19
| |
| |
| | | | | | | | | |
10
11
12
13
14
Considerm distribuiile I i J:
Distribuia I:
Distribuia J:
1
2
4
5
10
8
11
12
48
14
13
15
16
17
18
19
Reprezentnd grafic valorile celor dou distribuii (ca i greuti pe o bar gradat) pentru a
determina care este mai variabil, poate fi pn la urm o simpl pierdere de vreme (ca la figurile 5.3 i
5.4). In acest punct avem ntr-adevr nevoie de un indicator cum este abaterea standard.
| |
| |
| | | | |
10
11
12
13
14
| |
| |
| | | | | | |
10
11
12
13
14
Sa urmarim si un exemplu mai complex, cu date sistematizate intr-un tabel de frecvente. Mrimea
mediei pe scala depresiei pentru un anumit grup de clieni care primesc un tratament de grup de tip nou
(grupul A) poate fi la fel ca pentru ceilali clieni care primesc un tratament de grup obinuit, dar nu putem
ti, i nici nu putem presupune, c distribuia total a valorilor ar fi tot aceiai. Tabelul 5.3 ne prezint
valorile msurate pe o scal a depresiei pentru 20 de clieni din Grupul A fa de valorile pentru toi ceilali
clieni care primesc tratamentul de grup pentru depresie. Ei au o medie identic de 74 puncte.
Tabelul 5.3 Distribuia de frecvene a valorilor depresiei clienilor unei agenii
Mrimea
Frecvene
Frecvene
depresiei
Grupul A
Ceilali clieni tratai n grup
50
0
10
60
4
10
70
8
25
80
4
45
90
4
5
100
0
5
Total
20
100
Observm c valorile depresiei pentru Grupul A includ valori de la 60 la 90, pe ct vreme pentru
cei din alte grupuri de tratament distribuia include valori mai joase, ca 50, i mai nalte, ca 100. Putem cu
uurin observa c Grupul A are amplitudinea de 30 puncte (90-60=30), pe ct vreme celelalte grupuri de
tratament au amplitudinea de 50 de puncte (100-50=50). Valoarea medie a depresiei pentru ambele
categorii de clienti este aceeasi, 74 de puncte. Amplitudinea insa este o valoare prea grosiera a diferentelor
de imprastiere. Abaterea standard ia in considerare toate valorile celor doua grupuri si tine cont si de
volumul diferit al celor doua populatii (20 persoane, fata de 100 persoane). Abaterile standard ale celor
doua grupuri, 10 puncte pe scala depresiei pentru grupul A si 12 puncte pentru grupul celorlalti, arata ca
grupul A este mai omogen dar nu intr-atat de diferit de omogenitatea grupului celorlati pe cat ar parea sa
induca indicatorul de amplitudine (50 este aprope dublu fata de 30).
49
afecteaz ordinul de mrime al abaterii standard. ntr-un raport de cercetare, media se prezint de obicei
imediat naintea abaterii standard, astfel nct cititorul s aib o mai bun imagine asupra a cum arat
valorile reale. Adugnd o cantitate fix la toate valorile unei serii de date, aceasta va afecta media prin
creterea sumei tuturor valorilor, dar nu va afecta abaterea standard pentru acea distribuie. Acest fenomen
se ntmpl, de exemplu, cnd o cretere de 50$ este dat tuturor angajailor unei agenii sociale. Media
salariului va fi cu 50$ mai mare, dar cantitatea variaiei de salariu ntre angajai va rmne exact la fel.
Abaterea standard poate fi calculat construind un tabel, n urmtoarele etape:
1. Se nir valorile unei distribuii n coloana a
2. Se obine media valorilor din coloana a.
3. Se trece valoarea mediei n coloana b.
4. Din fiecare valoare din coloana a se scade media i se pune valoarea rezultat n coloana c.
5. Se ridic la ptrat fiecare valoare din coloana c i se aeaz n coloana d.
6. Se adun valorile din coloana d.
7. Se mparte suma valorilor din coloana d la numrul valorilor din seria de date a.
8. Se obine rdcina ptrat a numrului de la pasul 7. Acest numr reprezint abaterea standard a
valorilor din coloana a.
S calculm abaterea standard pentru cele 6 valori ale distribuiei K.
Distribuia K:
Utiliznd cele 8 etape pentru calcularea abaterii standard pentru distribuia dat, putem determina
abaterea standard a Distribuiei K (Tabelul 5.4).
Tabelul 5.4 Determinarea abaterii standard pentru distribuia K
Pas 1
Pas 3
Pas 4
Pas 5
(a)
(b)
(c)
(d)
Valoare - Media = Abatere fa de medie
Ptratele abaterilor fa de medie
5
6.3 =
-1.3
1.69
6
6.3 =
-0.3
0.09
6
6.3 =
-0.3
0.09
6
6.3 =
-0.3
0.09
7
6.3 =
0.7
0.49
8
6.3 =
1.7
2.89
Pas 6
5.34
Pas 7
5.34 / 6 = 0.89
Pas 8
0.89
= 0.94
Reprezentarea celor ase valori ale Distribuiei K poate fi vizualizat sub forma greutilor pe o
bar gradat, aa cum este reprezentat n figura 5.5.
Figura 5.5 Distribuia de frecvene K
| | | | | |
10
11
S lum o distribuie care este mai variat dect distribuia K: Distribuia L, tot cu ase valori.
Distribuia L:
50
12
Pas 5
(d)
Ptratele abaterilor fa de medie
23.04
14.44
3.24
1.44
10.24
38.44
Pas 6
90.84
Pas 7
90.84 / 6 = 15.14
Pas 8
15.14 = 3.89
Utiliznd cele 8 etape putem calcula abaterea standard, pentru Distribuia L (tabelul 5.5).
Reprezentarea celor ase valori ale Distribuiei L cu ajutorul greutilor pe o bar gradat este prezentat n
Figura 5.6 . Din compararea Figurilor 5.5 i 5.6 reiese evident c distribuia L reflect mai mult variaie
dect reflect Distribuia K. Acest lucru este evideniat i de abaterile lor standard.
Figura 5.6 Distribuia de frecvene L
| | | | |
| | | | | |
10
11
12
Calcularea abaterii standard este un proces puin mai lung. Din fericire nu este necesar s o
calculm manual, deoarece exist programe de calculator care o pot face. Cu toate acestea, este important
s nelegem ce nseamn abaterea standard. O privire aruncat asupra valorilor unor distribuii pe un grafic
de tipul figurilor 5.1 - 5.6 ne poate fi de mare ajutor. Dac nu avei nc o nelegere clar asupra
conceptului de abatere standard Modulul 6 furnizeaz clarificri suplimentare.
Variana i abaterea standard pot fi calculate manual pornind de la informaiile furnizate de o
tabel de frecvene. n aceast situaie algoritmul n 8 pai prezentat mai sus se mbogete cu un pas
suplimentar 5 n care ptratele abaterilor fa de medie se nmulesc cu frecvenele corespunztoare.
Variana are proprietatea c este cea mai mic abatere medie ptratic fa de o valoare oarecare.
Abaterea medie ptratic de la o valoare a se calculeaz, aa cum arat i denumirea, prin ridicarea la ptrat
a diferenelor dintre valorile individuale i o mrime constant, arbitrar aleas, a, urmat de nsumarea
ptratelor respective i de raportarea la numrul cazurilor observate.
n plus, abaterea medie ptratic de la o valoare a, este mai mare dect variana exact cu ptratul
diferenei dintre cele dou valori de referin, adic valoarea mediei minus valoarea a. Aceast proprietate
este deosebit de util n calculul manual al varianelor n cazul n care valoarea mediei are zecimale, iar
ridicrile la ptrat devin astfel laborioase. n loc de a calcula diferenele fa de valoarea medie, le vom
calcula fa de o valoare apropiat, convenabil aleas, apoi vom calcula abaterea medie ptratic fa de
acea valoare, urmnd ca la sfrit s aducem corecia necesar prin scderea ptratului diferenei dintre
valoarea mediei i valoarea aleas. Abaterea medie ptratic, astfel corectat va fi chiar valoarea varianei
cutate.
REZUMAT
n acest capitol, am discutat procesele rezumrii i descrierii informaiei. mprtierea n raport cu
tendina central clarific imaginea unui set de date. Indicatorii mprtierii, asemenea amplitudinii sau a
abaterii intercuartile sunt uor de calculat, dar pot fi nelese eronat. Formulele dup care se calculeaz nu
iau n considerare toate valorile colectate. Dac exist nite valori deviante sau dac informaiile sunt de
nivel interval sau rapoarte se prefer abaterea standard. Cititorii unui raport de cercetare n care s-a furnizat
media i abaterea standard a unei variabile vor fi capabili s reconstruiasc o imagine complet a datelor.
Aa cum am explicat n modulul despre indicatorii tendinei centrale, dac criteriile pentru utilizarea mediei
51
nu sunt ntrunite, trebuie s considerm c este necesar folosirea unui alt indicator. n mod similar dac nu
se regsesc toate criteriile pentru folosirea abaterii standard, va trebui s folosim un indicator al mprtierii
mai puin senzitiv, ca de exemplu abaterea intercuartil sau amplitudinea.
8.
9.
52
Modul 6
Distribuia normal
Capitolele precedente au prezentat indicatorii principali ai distribuiilor de frecvene privind
tendina central i variabilitatea. Exist o form special a distribuiilor de frecvene cunoscut sub numele
de distribuie normal. Cunoaterea distribuiei normale este esenial pentru nelegerea inferenei statistice
i pentru testarea ipotezelor.
S considerm o distribuie de frecvene ca n Tabelul 6.1. Aa cum am vzut n discuia asupra
poligoanelor de frecvene din Modulul 3, distribuiile de frecvene pot fi prezentate grafic. Astfel de grafice
pot lua diferite forme. De exemplu, unele pot arta cum un numr mare de cazuri se concentreaz n jurul
unor valori mai mici i doar cteva se distribuie ntre valorile mai mari. Astfel este i distribuia prezentat
n Tabelul 6.1.
Distribuia frecvenelor din Tabelul 6.1 poate fi uor reprezentat grafic ntr-o histogram, aa ca
n Figura 6.1. Linia continu care unete mijloacele segmentelor din vrful intervalelor din histogram se
numete curba frecvenelor.
Tabelul 6.1 Distribuie de frecvene cumulate
Frecvene
Frecvene
Rezultate
absolute
cumulate
(Mici-Mari)
1
60
60
2
50
110
3
40
150
4
30
180
5
20
200
6
10
210
Frecvene
cumulate
(Mari-Mici)
210
150
100
60
30
10
Distribuiile ca cele din Tabelul 6.1 i Figura 6.1 sunt numite oblice sau asimetrice. Oblicitatea
(skewness) arat c distribuia nu este simetric - adic valorile marginale nu sunt uniform repartizate n
ambele capete. Curba din Figura 6.1 este oblic la dreapta deoarece frecvenele se rresc mai mult la
dreapta. O curba care este oblic la dreapta este numit oblic pozitiv sau pozitiv asimetric.
53
Dac am completa invers frecvenele, din Tabelul 6.1, i le-am aranja ca n Tabelul 6.2, am avea o
distribuie de frecvene ca cea reprezentat de curba din Figura 6.2. Aceast distribuie este tot oblic. De
aceast dat, frecvenele se rresc la stnga. O curb care este oblic la stnga este denumit oblic negativ
sau negativ asimetric.
Tabelul 6.2 Distribuie de frecvene cumulate
Frecvene
Rezultate
absolute
1
10
2
20
3
30
4
40
5
50
6
60
Frecvene
cumulate
10
30
60
100
150
210
Media
Mediana
Modul
54
Cnd o curb are aceiai oblicitate i la stnga i la dreapta, la fel ca cea din Figura 6.3, se spune
c este simetric, i c distribuia de frecvene pe care o reprezint este simetric. n plus curba din Figura
6.3 este descris ca fiind normal. Nu toate curbele simetrice sunt normale, dar toate curbele normale sunt
simetrice. Cuvntul normal se refer la un tip specific de curb i o distribuie cu proprieti matematice
bine precizate. Alt termen pentru o curb normal este curba sub form de clopot. Aceast form, este
deosebit de alte curbe de frecvene simetrice i arat ca cea din figura 6.3.
-3
0.021
-2
0.1359
-1
0.3413
0.3413
0
Media
Mediana
Modul
0.1359
+1
0.021
+2
+3
55
standard la stnga mediei este egal cu o distan de o abatere standard la dreapta fa de medie, iar
suprafeele de sub curb care corespund acestor distane, att n stnga ct i n dreapta mediei, sunt egale.
Aceasta este proprietatea de simetrie a curbei. Figura 6.4 ilustreaz acest lucru foarte clar.
Cnd cunoatem media i abaterea standard a distribuiei din care fac parte valorile brute, putem
calcula valorile Z. Aa cum am sugerat mai sus, o valoare Z poate fi perceput ca numrul de abateri
standard fa de media distribuiei. O valoare 1 pentru Z reprezint o abatere standard de la medie, o
valoare 2 reprezint dou abateri standard peste medie i aa mai departe. O valoare Z poate fi pozitiv sau
negativ n concordan cu poziia valorii particulare fa de medie. O valoare Z pozitiv este o valoare
situat peste medie, iar o valoare Z negativ este una sub medie.
Valorile Z a oricrei distribuii normale iau forma distribuiei normale standardizate, adic o
distribuie teoretic, complet cunoscut, cu toi indicatorii statistici cunoscui. Astfel media este egal cu 0,
abaterea standard este egal cu 1, indicatorul de simetrie este 0, la fel ca i valoarea indicatorului de boltire.
n plus aria total delimitat de curb normal standardizata este egal cu unu (1,0). Unu
(ntregul), aa cum folosim termenul aici, se refer la faptul c toate valorile Z (100%) ale unei variabile
distribuite normal, vor cdea dedesubtul curbei normale. Pri din acest ntreg (cteodat referit prin
unitate) sunt reprezentate ca proporii din aria total aflat dedesubtul curbei i nuntrul distribuiei. De
exemplu, 50 de procente ale suprafeei delimitat de curba normal, aflate la stnga mediei, reprezint acea
jumtate a valorilor care cad sub medie. ntr-o distribuie normal (ca cea prezentat n Figura 6.3) toate
valorile se regsesc dedesubtul curbei.
Aa cum se vede i n Figura 6.4, suprafaa delimitat de curba normal i verticalele Z = +1 i
medie este egal cu suprafa cuprins ntre verticala Z = -1 i medie i este egal cu 0,3413 (sau n
procente, 34,13%). Aria suprafeei de sub curb delimitat de verticalele ridicate din oricare dou puncte
1
Acest lucru este valabil numai in cazul n care distribuia real este normal, nu i dac aceasta are o
alt form.
56
(valori Z) este egal cu procentul cazurilor ale cror valori Z se gsesc ntre cele dou verticale. De exemplu,
34,13% din totalul valorilor dintr-o distribuie normal cad ntre medie i Z = +1; 34,13% ntre medie i Z
= -1; 13,59% ntre Z = +2 i Z = +1, 13,59 procente ntre Z = -2 i Z = -1, i aa mai departe.
O mare parte a suprafeei de sub curb i deci i un mare numr al cazurilor dintr-o distribuie
(68,26%) cad n centru (ntre valorile Z = -1 i Z = +1). Doar o mic parte a suprafeei de sub curb i un
procent mic de cazuri dintr-o distribuie normal (mai puin de o jumtate de procent) cad n afara valorilor
Z = -3 i Z = +3. Aceasta nseamn c, ntr-o distribuie normal, valorile care cad sub sau peste trei abateri
standard fa de medie sunt foarte rare.
Tabelul 6.3 Aria cuprins ntre curba normal, medie i valoarea Z
Z
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
0.0
0.1
0.2
0.3
0.4
0.00
3.98
7.93
11.79
15.54
0.40
4.38
8.32
12.17
15.91
0.80
4.78
8.71
12.55
16.28
1.20
5.17
9.10
12.93
16.64
1.60
5.57
9.48
13.31
17.00
1.99
5.96
9.87
13.68
17.36
2.39
6.36
10.26
14.06
17.72
2.79
6.75
10.64
14.43
18.08
3.19
7.14
11.03
14.80
18.44
3.59
7.53
11.41
15.17
18.79
0.5
0.6
0.7
0.8
0.9
19.15
22.57
25.80
28.81
31.59
19.50
22.91
26.11
29.10
31.86
19.85
23.24
26.42
29.39
32.12
20.19
23.57
26.73
29.67
32.38
20.54
23.89
27.04
29.95
32.64
20.48
24.22
27.34
30.23
32.90
21.23
24.54
27.64
30.51
33.15
21.57
24.86
27.94
30.78
33.40
21.90
25.17
28.23
31.06
33.65
22.24
25.49
28.52
31.33
33.89
1.0
1.1
1.2
1.3
1.4
34.13
36.43
38.49
40.32
41.92
34.38
36.65
38.69
40.49
42.07
34.61
36.86
38.88
40.66
42.22
34.85
37.08
39.07
40.82
42.36
35.08
37.29
39.25
40.99
42.51
35.31
37.49
39.44
41.15
42.65
35.54
37.70
39.62
41.31
42.79
35.77
37.90
39.80
41.47
42.92
35.99
38.10
39.97
41.62
43.06
36.21
38.30
40.15
41.77
43.19
1.5
1.6
1.7
1.8
1.9
43.32
44.52
45.54
46.41
47.13
43.45
44.63
45.64
46.49
47.19
43.57
44.74
45.73
46.56
47.26
43.70
44.84
45.82
46.64
47.32
43.83
44.95
45.91
46.71
47.38
43.94
45.09
45.99
46.78
47.44
44.06
45.15
46.08
46.86
47.50
44.18
45.25
46.16
46.93
47.56
44.29
45.35
46.25
46.99
47.61
44.41
45.45
46.33
47.06
47.67
2.0
2.1
2.2
2.3
2.4
47.72
48.21
48.61
48.93
49.18
47.78
48.26
48.64
48.96
49.20
47.83
48.30
48.68
48.98
49.22
47.88
48.34
48.71
49.01
49.25
47.93
48.38
48.75
49.04
49.27
47.98
48.42
48.78
49.06
49.29
48.03
48.46
48.81
49.09
49.31
48.08
48.50
48.84
49.11
49.32
48.12
48.54
48.87
49.13
49.34
48.17
48.57
48.90
49.16
49.36
2.5
2.6
2.7
2.8
2.9
49.38
49.53
49.65
49.74
49.81
49.41
49.55
49.66
49.75
49.82
49.41
49.56
49.67
49.76
49.82
49.43
49.57
49.68
49.77
49.83
49.45
49.59
49.69
49.77
49.84
49.46
49.60
49.70
49.78
49.84
49.48
49.61
49.71
49.79
49.85
49.49
49.62
49.72
49.79
49.85
49.51
49.63
49.73
49.80
49.86
49.52
49.64
49.74
49.81
49.86
3.0 49.87
3.5 49.85
4.049.997
5.049.99997
Dac o valoare Z, corespunztoare unei valori brute date, nu este un numr ntreg (Z = -3, Z = +2,
etc.) datele nscrise n suprafeele distribuiei normale din Figura 6.4 nu sunt suficiente pentru a transforma
o valoare Z ntr-o centil. Din fericire exist tabele care ne ajut n transformarea unei valori Z fracionare
(Z=0,28, Z= 2,15, etc.), n centile.
Tabelul 6.3 cuprinde valori Z ntregi i fracionare. El ne furnizeaz aria de sub curba normal
cuprins ntre valoarea Z (ntreag sau fracionar) i medie, pentru orice distribuie normal. Cifra care
57
reprezint partea ntreag i prima cifr zecimal a valorii Z sunt etichetele liniilor din tabel, i se citesc n
partea stng din prima coloan a tabelului 6.3, n timp ce cea de a doua cifr zecimal a numrului
fracionar se citete din capul de tabel. Numrul gsit n tabel la intersecia liniei i coloanei
corespunztoare unei valori Z, este proporia din suprafaa curbei normale cuprins ntre medie i valoarea
Z. Exemplele din Tabelul 6.4 arat cum poate fi utilizat Tabelul 6.3.
Tabelul 6.4 Exemple de valori Z i ariile lor corespunztoare
Valoare Z
Linia
Coloana
Aria corespunztoare
.12
0.1
.02
4.78
1.78
1.7
.08
46.25
-2.90
2.9
.00
49.81
1.15
1.1
.05
37.49
-1.15
1.1
.05
37.49
Semnul (+ sau -) indic doar dac valoarea Z este sub sau peste medie. Aria proporional indus
de valorile Z de aceeai mrime, dar semne diferite, este aceeai. Pentru valori brute peste medie (avnd o
valoare Z pozitiv), adunm aria cuprins ntre medie i valoarea Z la 50,00 pentru a afla la ce centil se
gsete acea valoare (brut). Pentru valori brute sub medie, scdem din 50,00 aria dintre medie i valoarea
Z pentru a afla la ce centil se gsete acea valoare. De exemplu (vezi Tabelul 6.4), o valoare brut
transformat ntr-o valoare Z de 0,12 va cdea aproape de centila 55% (50,00 + 4,78 = 54,78). Aa cum
arat Tabelul 6.4, o valoare Z de 1,78 va cdea aproape de centila 96% (50,00 + 46,25 = 96,25); o valoare Z
de -1,15 va cdea aproape de centila 13% (50,00 - 37,45 = 12,51) i aa mai departe.
Avantajele i dezavantajele valorilor Z
Primul avantaj al valorilor Z este acela c ele pot fi folosite pentru a compara valori brute luate de
la diferite distribuii. Datele trebuie s fie cel puin de nivel interval.
Figura 6.5. Compararea suprafeelor corespunztoare unei abateri standard
la curbele asimetrice
Aria A # Aria B
A
-1
Media
+1
Cel mai mare dezavantaj al valorilor Z este c presupun o distribuie normal. Cnd aceast
calitate nu este ntlnit, o valoare Z nu poate fi interpretat n termenii unei proporii standardizate a
distribuiei pentru care a fost calculat. Cnd distribuia este oblic, aria cuprins ntr-o abatere standard la
stnga fa de medie nu este egal cu aria aflat la aceiai distan dar la dreapta mediei. De exemplu,
distribuia din Figura 6.5 este oblic pozitiv. Aria A nu este egal cu aria B, chiar dac fiecare arie
corespunde unei abateri standard fa de medie.
58
59
Tabelul 6.5 Date comparative: Indicatorii celor dou scale i valorile realizate de clieni
Scala de Anxietate A
Scala de Anxietate B
Valori
(Gina)
(Toma)
Valoarea brut
78
66
Media scalei
70
50
Abaterea standard
10
12
Valoarea Z
(Gina)
Valoarea Z
(Toma)
Bazndu-se pe analiza comparativ a valorilor Z, Dorina l alege pe Toma pentru grup. Nivelul
nalt al anxietii (pe baza scalei sale) l-a fcut pe Toma un candidat evident. Mai mult, ea nu a mai fost
nevoit s slbeasc criteriile de admisibilitate pentru a o include pe Gina n grup (care se situa la centila
79%) cnd se cerea o valoare de cel puin 80 puncte (centila 84%) sau mai mult (pe baza pe scalei ei). De
notat c valoarea de 80 pe Scala A este comparabil cu o valoare de 62 pe Scala B, deoarece ambele cad la
punctul Z = +1 (centila 84%). Valoarea Z corespunztoare punctajului realizat de Toma a fost deasupra
acestui punct i bineneles deasupra celui realizat de Gina .
REZUMAT
n acest capitol am prezentat un tip special de analiz a datelor, care poate fi utilizat cnd valorile
unei variabile formeaz o distribuie normal. Prin transformarea unei valori brute, a unei variabile normal
distribuite, n valoare Z, putem compara valorile individuale din dou seturi diferite de valori sau din dou
subseturi, prin observarea modului n care fiecare valoare se raporteaz la celelalte valori din grupul
propriu. De asemenea nelegnd distribuia normal, putem s vizualiz locul n care o valoare dat cade
fa de celelalte dintr-o populaie de volum mare. Prin folosirea centilelor, putem determina procentul de
valori sub care, sau peste care, se situeaz o anumit valoare dat.
Principiul curbei normale ne este folositor n multe feluri. El este necesar chiar pentru testarea
ipotezelor, dar acest subiect este tratat ntr-un alt modul de curs.
60
5.
6.
7.
8.
La o variabil care este normal distribuit, aproximativ ce procent din toate valorile se gsesc la o
distan de o abatere standard fa de medie?
ntr-o distribuie normal, ct de frecvent se poate ntmpla s se gseasc o valoare care este mai mare
dect trei abateri standard peste sau sub medie?
La un test IQ cu media de 100 i abaterea standard 16, la ce centil va cdea un IQ de 132?
Ce valoare Z reflect o valoare brut mai mare, -1,62 sau +1,50 ?
61
Modul 7
Introducere in SPSS
7.1. Procesul de analiz statistic a datelor n SPSS
n principal, SPSS a fost conceput pentru ajuta utilizatorul n ducerea la capt a unei cercetri.
Desigur, n procesul cercetrii analiza statistic intervine mult mai trziu. nainte de a ne aeza n faa
unui calculator i a folosi Editorul de date (modulul Data Editor) al SPSS pentru a introduce datele, se
presupune c am parcurs deja pai importani n procesul unei cercetri.
Computerul i pachetul de programe SPSS intervine doar n partea de analiz a datelor. n faa
calculatorului activitatea se desfoar practic n patru pai care, de obicei, se reiau de mai multe ori (vezi
figura 7.1).
Pasul care ne intereseaz n prima faz este cel de introducere a datelor ntr-un fiier de date sau,
dup caz, de aducere a datelor n memoria intern.
Aducerea datelor
n memoria
intern
Pas 1
Selectarea unei
proceduri
Pas 2
Selectarea
variabilelor
Transformri
Pas 3
fiier de date
Interpretarea
rezultatelor
Pas 4
Datele de gestionat (sau, dup caz, de analizat) pot fi date salvate anterior ntr-un
fiier de date SPSS.
Se pot citi date din fiiere proprii altor produse software. Cele mai cunoscute sunt
bazele de date dBASE, FoxPro sau Access; fiierele tip foaie de calcul produse cu
tabelatorul Excel; sau fiiere simple de tip text ASCII, produse cu orice editoare de
texte. Desigur, pentru a importa astfel de date, trebuie respectate nite reguli clare
i trebuie furnizate informaii suplimentare de conversie, n cadrul procedurilor
iniiate de SPSS.
62
Se pot introduce direct datele n formatul propriu fiierelor de date SPSS cu ajutorul
modulului Data Editor.
3. Selectarea variabilelor
Cele mai multe din procedurile SPSS cer precizarea variabilelor. Acestea sunt listate n
casetele de dialog ale procedurilor, iar utilizatorul va trebui s indice variabilele care intr n
analiz.
4. Interpretarea rezultatelor
Dup ce toate elementele de informaii necesare execuiei unei proceduri au fost precizate de
ctre utilizator, procedura se va declana i va produce rezultatele. Ele trebuie privite cu
atenie i interpretate.
O edin de lucru cu SPSS const n mai multe reluri a celor patru faze: n mai multe operaiuni
de management al datelor, sau mai multe proceduri de analiz a datelor. De multe ori ceea ce hotrm s
facem n continuare depinde de rezultatele unei operaiuni anterioare. Utilizatorul (sau dup caz,
cercettorul) folosete SPSS ca un asistent docil, dar foarte puternic i capabil, ale crui performane depind
de abilitatea cercettorului de a lua deciziile cele mai potrivite.
SPSS sub Windows funcioneaz sub controlul unui mediu grafic GUI (Graphical User Interface),
utiliznd un sistem de meniuri descriptive i casete de dialog care uureaz mult interfaa om-calculator.
Cele mai multe operaiuni sunt declanate i duse la capt prin punctare i clic cu mouse-ul, chiar dac
lucrul cu tastatura este oricnd o a doua alternativ.
63
Sistemul de meniuri
SPSS v7.5 poate lucra ntr-o varietate de moduri, dar majoritatea procedurilor pot fi accesate
fcnd selecii din meniuri. Meniul principal al Editorului de date, cea mai utilizat component a
pachetului, conine nou meniuri:
File. Se utilizeaz pentru a crea fiiere noi SPSS, pentru a deschide fiiere existente, pentru a citi
fiiere de tip spreadsheet sau baz de date create cu alte programe software. Meniul File se mai
utilizeaz pentru crearea i deschiderea altor fiiere SPSS, adic fiiere de grafice, de rezultate sau
de sintax.
Edit. Se utilizeaz pentru a modifica sau copia texte din ferestrele de rezultate sau de sintax.
64
Linia de pictograme
Cele mai comune comenzi SPSS, folosite n mod uzual, pot fi accesate prin intermediul unor
pictograme situate imediat sub linia de meniuri, n linia de pictograme (Tool Bar). Aceast linie este
prezent la oricare din ferestrele modulelor SPSS, dar poate conine pictograme diferite, adaptate situaiei
(vezi figura 7.2).
Unele din pictograme s-ar putea ntmpla s nu fie eligibile n anumite situaii chiar dac apar pe
ecran. O scurt explicaie a ceea ce reprezint ele poate fi obinut foarte simplu prin plasarea indicatorului
mouse-ului pe ele.
Casetele de dialog
Cele mai multe proceduri SPSS afieaz casete de dialog prin intermediul crora adun toate
informaiile necesare ducerii la bun sfrit a operaiunilor cerute de utilizator.
Pentru c aceste casete ofer informaii utile n alegerile pe care utilizatorul le are de fcut i
pentru c aceste casete sunt foarte asemntoare ntre ele, s aruncm o privire, de exemplu, pe cea folosit
la deschiderea unui fiier: figura 7.3
Aceast caset conine o zon etichetat Look in unde va apare directorul curent (BazeDate, n
exemplu). Dac fiierul cutat nu este n directorul curent, acesta poate fi schimbat cu ajutorul
pictogramelor din aceast zon.
65
Fiierele sunt listate n zona cea mai ntins a casetei de dialog. De exemplu, n figura 2.2 putem
vedea patru fiiere. Oricare dintre ele poate fi deschis. Alegerea se face prin pointare i clic pe butonul
stng al mouse-ului.
Numele fiierului selectat va apare in zona File name. Aceast informaie poate fi i tastat dac se
dorete folosirea tastaturii i nu a mouse-ului.
Nu toate fiierele din directorul curent sunt listate n caset. Ele sunt filtrate cu ajutorul extensiilor
consacrate pentru diverse tipuri de fiiere. Observm c n exemplu, toate cele trei fiiere au extensia .sav.
Zona Files of type ofer ns posibilitatea selectrii altor tipuri inclusiv a tuturor tipurilor, deci posibilitatea
neutilizrii filtrelor.
66
Asistena on-line
67
va afia numrul de apariii, procentul pe care acesta-l reprezint din ntregul eantion i procentul
cumulativ. Ca opiuni, pot fi selectate grafice ca diagrama de bare, histograma (care vor fi alese n funcie
de tipul variabilei), valorile pentru anumite percentile sau indicatori statistici descriptivi.
n tabela de frecvene sau n diagramele de bare, valorile distincte pot fi ordonate n ordine cresctoare sau
descresctoare. Generarea / afiarea tabelei de frecvene poate fi eliminat dac variabila are prea multe
valori distincte. Unitile de msur folosite n diagrame i grafice pot fi sub form de frecvene numerice
(implicit) sau procente.
Indicatori statistici ce pot fi cerui: media, mediana, modul, suma, abaterea standard, variana,
amplitudinea, minimum i maximum, eroarea standard a mediei, oblicitatea (skewness) i ascuimea
(kurtosis) (cu erorile lor standard), cuartile i percentile definite de utilizator, frecvene, procente, procente
cumulate.
Pentru declanarea procedurii se va alege din meniu: Statistics, Summarize, Frequencies
68
putea exista o legtur. Coninutul celulelor aa cum apare sub form de frecvene absolute nu exprim
relaia dintre cele dou variabile. Pentru a putea compara diversele grupuri ntre ele, trebuie s folosim o
msur independent de numrul cazurilor cuprinse n grupul respectiv; fiecare grup avnd un numr diferit
de cazuri (359 persoane de sex masculin i 293 persoane de sex feminin). O exprimare n procente a
frecvenelor din fiecare celul permite comparaiile dorite.
Genul respondentului * Multumit de - serviciu Crosstabulation
Count
Genul respondentului
masculin
feminin
Total
deloc
multumit
32
40
72
Multumit de - serviciu
nu prea
destul de
multumit
multumit
61
190
60
148
121
338
foarte
multumit
76
45
121
Total
359
293
652
Genul respondentului
masculin
feminin
Total
Count
% within
Genul
respondentului
Count
% within
Genul
respondentului
Count
% within
Genul
respondentului
deloc
multumit
32
Multumit de - serviciu
nu prea
destul de
multumit
multumit
61
190
foarte
multumit
76
Total
359
8.9%
17.0%
52.9%
21.2%
100.0%
40
60
148
45
293
13.7%
20.5%
50.5%
15.4%
100.0%
72
121
338
121
652
11.0%
18.6%
51.8%
18.6%
100.0%
69
fiecare variabil ce se selecteaz se vor calcula media, abaterea standard, minimum, maximum (vezi
csuele bifate din caseta de dialog Descriptives Options din figura 7.5.). Opional mai pot fi cerute
variana, amplitudinea, eroarea standard a mediei, oblicitatea i ascuimea.
Observaie: Mediana, modul, cuartilele i percentilele nu pot fi calculate aici, ele se determin cu procedura
Frequencies.
Procedura Descriptives
Declanarea procedurii se face din linia de meniu cu:
Statistics, Summarize, Descriptives
70
Rezultatul este o tabel care afieaz pentru variabila n cauz media, abaterea standard i efectivul fiecrei
categorii de grupare.
n cazul n care se dorete definirea grupurilor n funcie de mai multe variabile de grupare, variabilele
categoriale vor fi puse n straturi (Layers) diferite.
Procedura Means
Calculeaz indicatori statistici descriptivi pentru toate cazurile sau pentru subgrupuri de cazuri.
Identific valorile extreme. Acestea se datoreaz uneori introducerii greite a datelor n calculator.
Dac sunt reale, atunci ele pot influena puternic deciziile pentru analiza statistic ulterioar, de aceea
este util s fie depistate.
Calculeaz percentilele distribuiei variabilei, att pentru toate cazurile ct i pentru subgrupuri de
cazuri;
Genereaz o varietate de reprezentri grafice a datelor (stem and leaf, boxplot, histograme) care ne
arat vizual cum se distribuie valorile datelor.
71
n Dependent List se trece variabila pe care dorim s-o explorm (variabil tip interval). Variabila factor este
o variabil de grupare, care se alege n cazul n care dorim s calculm statistici pentru subgrupuri de cazuri
ale variabilei numerice studiate.
100
834
766
80
968
90
1105
1097
953
1117
1007
943
60
40
vrsta
20
0
N=
72
121
338
deloc multumit
121
destul de multumit
nu prea multumit
72
f oarte multumit
73
Modul 8.
Ipotezele sunt formulate de obicei dup trecerea n revist a literaturii de specialitate sau prin
procesul sintetizrii cunotinelor cantitative i calitative pentru o tem particular: din experiena
profesional ctigat n practic; din cursuri scrise de profesioniti i din multe alte surse specifice
domeniului, incluznd legislaia, documente nepublicate i persoanele cunosctoare. Dup o examinare a
literaturii, putem expune doar rspunsuri pariale sau putem finisa rspunsuri la ntrebri generale. La
nceput se dorete exprimarea impresiilor sau a concluziilor noastre sub forma ipotezelor. Dup aceea
ipotezele vor trebui testate.
Multe definiii au fost date ipotezelor, dar toate au la baz acelai concept - o ipotez este o
tentativ de rspuns la o ntrebare de cercetat, derivat din trecerea n revist a literaturii de specialitate sau
inspirat din practica curent. Este n acelai timp o exprimare a unei relaii dintre dou sau mai multe
variabile. O ipotez, fie c este sau nu susinut de analiza datelor, ea trebuie s fie o extensie logic a
cunotinelor existente anterior. Oricare alt metod folosit pentru formularea ipotezelor nu este altceva
dect smulgerea unei legturi i genereaz posibilitatea de pune la ndoial credibilitatea studiului de
cercetare.
Dup colectarea, organizarea i rezumarea informaiilor, utiliznd statistici asemntoare celor
prezentate n prima parte a cursului, putem ncepe s nelegem dac ipotezele noastre sunt sau nu susinute
de datele colectate. S presupunem, de exemplu, c am lansat ipoteza: clienii alcoolici care primesc
tratamentul n grup se pot abine de la butur mult mai bine, dup trei luni de tratament, dect clienii
74
alcoolici care au primit tratamentul individual. Frecvenele i procentajele par s ne furnizeze suportul
pentru aceast ipotez; mai ales c numrul clienilor a fost mic i ne-a fost uor s observm tendina de
succes pentru o metod de tratament (aici tratamentul n grup) n opoziie cu altele (tratamentul individual).
Probabil, 70% din clienii alcoolici care au primit tratamentul n grup se pot abine acum de la butur n
comparaie cu 65% din cei care au primit tratamentul individual. Exist n aparen o legtur ntre
variabila dependent (butor / nebutor) i variabila independent (tratamentul de grup / tratamentul
individual). Cu toate acestea, doar un naiv ar concluziona, doar pe baza celor prezentate anterior, c
tratamentul n grup este cea mai bun metod de lucru cu alcoolicii. Pentru a testa ipotezele noastre n mod
tiinific, trebuie s examinm i alte explicaii posibile.
Aa cum am afirmat, ipotezele noastre trebuie s fie sprijinite de date colectate. Dar e nc
prematur s concluzionm c exist o relaie adevrat ntre cele dou variabile. O relaie poate fi verificat
doar dup epuizarea tuturor explicaiilor alternative care ar putea justifica legtura. n cazul nostru cele trei
explicaii alternative majore sunt: (1) deformarea, (2) alte variabile i (3) ansa. Primele dou sunt n
principal legate de metodologia cercetrii, iar cea de-a treia este direct legat de testarea statistic. O bun
cunoatere a metodelor de cercetare folosite n asistena social ne va ajuta s minimalizm efectele
primelor dou explicaii alternative - iar statistica inferenial ne va ajuta cu eliminarea efectelor celei de a
treia explicaie alternativ.
Deformarea
Prima explicaie alternativ este deformarea realitii. Influenele conjuncturale sunt o surs
sistematic de distorsiune, care afecteaz calitatea datelor colectate. Ele pot conduce la rezultatele eronate
i apoi la tragerea unor concluzii eronate. Deformri conjucturale pot apare cnd datele se colecteaz ntrun moment neprielnic sau cnd studiul este influenat de evenimente exterioare, de vreo tendin contient
sau incontient a persoanelor care colecteaz datele i care nu au o percepie corect asupra lor. Dac
dintr-un motiv oarecare, sau combinaie de motive, datele au fost deformate, variabilele noastre
dependente i independente pot aprea ca fiind legate, cnd de fapt ele nu sunt. Posibilitatea ca deformarea
s poat explica o legtur aparent ntre dou variabile este minimizat deobicei prin folosirea cu mare
grij a tehnicilor de msurare.
Alte variabile
A doua explicaie alternativ este influena altor variabile. Factorii care influeneaz variabila
independent pot de asemenea explica diferenele din cadrul variabilei dependente (a bea / a nu bea, n
exemplul nostru). n exemplul nostru, acetia ar putea fi intensitile diferite ale suportului familiar pentru
metoda de tratament i nivele de calificare diferite ale asistenilor sociali care practic cele dou metode.
Un plan experimental bun, construit pe baze aleatoare, poate garanta un anumit nivel de control pentru
celelalte variabile, dar planurile experimentale bune sunt rare n cercetarea n asisten social. Alegerea
unei tehnici metodologice corespunztoare ne poate garanta c alte variabile nu sunt explicaii reale ale
unei aparente legturi ntre dou variabile. Cile prin care planurile de cercetare pot ajuta n controlul altor
variabile sunt prezentate n general n textele privind metodologia cercetrii.
ansa
Cea de-a treia explicaie alternativ este ansa, care poate fi referit i prin termeni ca
probabilitate, eroare de eantionare, ntmplare norocoas - sau pur i simplu noroc. ansa stipuleaz ca
probabilitatea s se ntmple un eveniment se poate situa oriunde ntre valorile 0 (niciodat) i 1 (absolut
75
sigur). Ea se bazeaz pe presupunerea c n timp ce prin repetarea n timp ndelungat a unor observaii se
poate vedea ca exist o anumit regularitate (pattern), n particular, sau pe termen scurt, observaiile tind s
difere ntr-un fel de pattern-ul pe termen lung. De exemplu, cnd desemnm n mod aleator, un eantion
dintr-o populaie, putem s nu selectm un eantion care s aib o compoziie identic cu cea a populaiei
din care provine. Teoria probabilitii ne trimite direct la conceptul de eroare de eantionare, prezentat n
textele metodologice.
Probabilitatea spune c o moned lansat n aer, are 0,5 anse (sau 50%) s cad cu o anumita fa
n sus. Cu alte cuvinte, probabilitile ca s fie cap sau pajur sunt egale. n realitate dac aruncm o
moned de zece ori am putea gsi un rezultat diferit de 5 cu 5. Nu vom fi surprini dac obinem 4 cu 6, sau
8 fee din zece aruncri. n acest caz vom nvinovi ansa (eroarea normal de eantionare), i vom
presupune c dac vom repeta testul de suficient de multe ori, procentul de apariie a feei va fi aproximativ
de 50%.
Cnd analizm datele noastre, trebuie s determinm dac nu cumva rezultatele noastre sunt
aberaii plauzibile de la patternul normal al evenimentelor aprute din cauza erorilor de eantionare.
Trebuie s fim ct mai siguri c o legtur aparent dintre variabile nu este un simplu noroc ce poate aprea
din cnd n cnd. Avem nevoie s determinm dac ansa poate fi explicaia real pentru o legtur
aparent. O ipotez poate fi susinut doar cnd ansa, la fel ca i deformarea i ca influena altor variabile,
pot fi convingtor eliminate ca explicaii alternative. ansa este de obicei ultima explicaie pe care
consumatorii sceptici de rapoarte de cercetare l propun ca i cauz real a legturii aparente dintre dou
variabile. Spre deosebire de cazul deformrii sau al altor variabile, planurile solide de cercetare nu sunt
suficiente pentru a elimina ansa ca explicaie alternativ pentru o aparent legtur ntre dou variabile.
Doar testele statistice o pot face.
76
Exist, firete, o a treia descriere posibil a legturii ntre dou variabile - predicia c ele nu vor
fi gsite legate (nu exist nici o relaie ntre ele). Aceast este numit ipotez nul. Dei ipotezele cercetrii
tind n mod frecvent s fie direcionale, cteodat sunt folosite i ipotezele nedirecionale, dac cunotinele
asupra subiectului sunt limitate. Cutarea suportului pentru a prezice c dou variabile nu sunt legate (caz
in care ipoteza cercetrii este chiar ipoteza nul) este rar, dar nu fr utilizare n practica i cercetarea din
asistena social. Cercettorii care au cutat s contrazic ipoteza c o ras ar fi superioar alteia din punct
de vedere intelectual, au cutat suport statistic pentru ipoteza nul (rasa i inteligena nu sunt legate).
Similar practica curent poate sugera c tratamentul individual este mai eficient dect tratamentul n grup
pentru tratarea disfuncionalitii sexuale a clienilor. Din observaiile noastre i din literatura de
specialitate am putea totui concluziona c nu se pot face diferenieri ntre metodele de tratament folosite
n asistena social. n acest caz am putea alege ipoteza nul ca ipotez pentru o astfel de cercetare:
succesul n tratarea disfunciei sexuale nu este legat de metoda de tratament.
Ipoteza nul i ipoteza cercetrii
Cele trei forme ale ipotezei (direcional, nedirecional i nul) sunt toate importante pentru noi
n construcia ipotezei unei cercetri. Toate trei, dar n special ipoteza nul, sunt extrem de importante n
nelegerea modului n care indicatorii statistici sunt folosii n testarea ipotezelor. Formal, testele statistice
iau in considerare ipoteza nul, chiar dac aceasta nu este ipoteza cercetrii .
Trebuie amintit c ipoteza nul este consistent n raport cu ansa. Ea susine c dou variabile
sunt nelegate chiar dac ele par a fi legate ntr-un set de date. Ea continu s susin c doar fluctuaia
normal a ansei, sub forma erorilor de eantionare, este cea mai potrivit explicaie pentru aparenta
legtur dintre dou variabile. Chiar i atunci cnd ipoteza nul nu este folosit ca ipotez a cercetrii, i
ipotezele sunt fie direcionale fie nedirecionale, conceptul ipotezei nule joac un rol important n testare.
Pentru a confirma c dou variabile sunt legate, trebuie s verificm mai nti c ele nu sunt nelegate. Altfel
spus trebuie s demonstrm c ansa (ca expresie a ipotezei nule) nu este explicaie fericit a legturii
aparente.
Cnd o ipotez este direcional sau nedirecional, exist un fel de fantom a ipotezei nule.
Ipoteza nul statueaz c o legtur aparent este de fapt un rezultat al ansei. nseamn c am extras un
eantion atipic de date i c legtura aparent pe care am observat-o n eantion nu caracterizeaz n
realitate populaia din care am extras eantionul. Pentru a respinge ipoteza nul, avem nevoie s
demonstrm c ansa este o explicaie nefericit pentru legtura aparent observat i c o legtura
adevrat este o concluzie mult mai plauzibil. Testele statistice ne permit s determinm cnd putem ntri
o ipotez direcional sau non direcional cu ajutorul unui suport statistic.
Erori de tipul I i de tipul II
Dou tipuri de erori pot fi fcute n interpretarea rezultatelor unei cercetri: tipul I i tipul II. O
eroare de tipul I este atunci cnd se respinge ipoteza nul i se concluzioneaz c exist o legtur ntre
dou variabile, cnd de fapt nu exist nici o legtur. O eroare de tipul II este atunci cnd ncercarea de a
respinge ipoteza nul i de a identifica o legtur adevrat ntre dou variabile eueaz, de fapt exist una.
Cele dou tipuri sunt comparate n Tabelul 5.1.
Tabel 8.1. Erori de tip I i II
n realitate
Ipoteza nul este fals
Ipoteza nul este adevrat
Decizia noastr
Respingem ipoteza nul
Acceptm ipoteza nul
Corect
Eroare de tip II
ex: criminalul este nevinovat
Eroare de tip I
Corect
ex: nevinovatul este criminal
77
Unii din factorii care influeneaz probabilitatea producerii erorilor de tipul I sau II privesc
deciziile privind planul de cercetare. Acetia includ selectarea unui eantion deformat, utiliznd
instrumente de colectare a datelor care sunt nevalabile i/sau nesigure, i care vor sfri prin imposibilitatea
de a controla efectul altor variabile.
Tipul I i II de erori pot de asemenea rezulta din folosirea testelor statistice nepotrivite. Dac
folosim un test statistic ce necesit condiii puternice care nu sunt ndeplinite, sau dac utilizm un test care
necesit doar cteva condiii i n realitate sunt ndeplinite condiii pentru un test mai puternic, pot aprea
erori de tipul I sau II. n primul caz datele au fost tratate ca i cnd ar poseda caliti care de fapt le lipsesc,
n ultimul caz, oportunitatea pentru o analiz mai exact nu a fost folosit. Dac nu e folosit testul statistic
potrivit, poate aprea o legtur statistic numai datorit nsuirilor eronate pe care le-am atribuit datelor i
modului n care au fost colectate. Sau s-ar putea ca o legtur adevrat s rmn ascuns.
Niciodat nu putem elimina n totalitate posibilitatea de comitere a erorilor n luarea deciziilor,
deci nici n decizia de a respinge sau nu ipoteza nul. De fapt dac suntem prea prudeni s nu comitem
erori de tipul I (s respingem n mod greit ipoteza nul), crete posibilitatea comiterii tipului II de eroare
(greeala de a nu respinge ipoteza nul). Analog, grija exagerat de a nu comite erori de tipul II duce la
creterea probabilitii de a comite erori de tipul I. Cercettorii trebuie s decid pn la urm care eroare,
de tipul I sau de tipul II, este mai acceptabil pentru ei. Aceasta este o decizie de natur etic ce presupune
cunotine din practica asistenei sociale i despre consecinele uneia sau alteia din erori. Din fericire aa
cum vom prezenta mai departe, exist convenii statistice care s ne ghideze n luarea deciziilor.
ntr-un studiu de cercetare importana acestor erori este, desigur, potenial grav. De exemplu,
profesionitii n asisten social nerecunoscnd c folosirea greit a testului statistic sau a unei erori
metodologice a dus la un rezultat eronat din tipul I, pot concluziona n mod eronat c exist o legtur ntre
o metod particular de tratament i rata mai mare de succes n tratament. Ei pot ajusta accesul la tratament
pe baza acestui fapt. Sau ei pot reaciona la alte rezultate ale cercetrii n care (din anumite motive) a fost
comis eroare de tipul II, i care discrediteaz o metod de tratament n realitate foarte buna, dar care a
aprut c nu face parte dintre tratamentele eficiente. Tipul I i tipul II de erori pot fi la fel de distructive
cnd aplicm rezultatele cercetrii la situaiile practice de asisten social. Amndou ne pot conduce la
concluzii greite, pot face ru clienilor asistai, sau duc la risipirea resurselor limitate ale ageniei.
Chiar dac studiile de cercetare sunt bine planificate i dac noi nelegem i aplicm criteriile de
selecie a testului statistic potrivit, rmne ntotdeauna posibilitatea comiterii unei erori n tragerea
concluziilor intr-o cercetare. ntotdeauna rmne posibilitatea de-a ni se ntmpla ca unul din miliardele de
eantioane posibile s ne conduc la concluzii eronate privind legturile dintre variabile n populaia din
care provine eantionul. Nu putem exclude in totalitate nici existena unor mici erori metodologice care sa
fi introdus deformarea sau existena altor variabile cu impact asupra variabilei cercetate dar ignorate n
planul nostru de cercetare. Aceast vag posibilitate nu trebuie, totui, s ne timoreze n a ne asuma riscuri
rezonabile n interpretarea rezultatelor cercetrii i n aplicarea lor practic. n felul acesta putem face
progrese i putem deveni practicieni cu o baz de cunotine tiinifice.
78
cercetarea de asisten social nu prea avem posibilitatea de a repeta studiile de mai multe ori. Astfel c
avem nevoie s obinem nite dovezi palpabile ale improbabilitii ipotezei nule, cu ajutorul unui singur
studiu. De la ce punct putem fi suficient de siguri c o legtur aparent nu poate fi respins n mod
rezonabil, datorit aportului ansei? Aici trebuie s apelm la simul comun i la convenii.
De-a lungul anilor, cele mai multe cercetri au situat la nivelul de 95% certitudine, punctul care
este suficient de nalt pentru a putea avea ncredere n eliminarea ipotezei nule. Altfel spus cercettorii se
vor simi siguri n a concluziona c dou variabile sunt legate (sau n relaie) dac analiza statistica
sugereaz c exist mai puin de 5% procente anse de a face o greeal, prin respingerea ipotezei nule.
Acest nivel de risc n comiterea unei erori de tipul I este acceptabil n majoritatea studiilor de cercetare.
Convenia statistic declar c exist suport pentru o ipotez direcional sau nedirecional, dac
probabilitatea de a face o eroare de tipul I este mai mic dect 5% - se mai utilizeaz i terminologia
echivalent: nivel de semnificaie 0,05 , sau coeficient de risc 0,05, sau nivel de ncredere 0,95. O decizie
care respinge ipoteza nul nu poate elimina definitiv ansa ca explicaie posibil a unei legturi aparente,
dar ea este un argument pentru a putea declara o legtura ca fiind statistic semnificativ.
Nu exist nimic sacru n ceea ce privete nivelul de semnificaie 0,05, dar el este cel mai des
folosit pentru respingerea ipotezei nule. Decizia folosirii i a altor nivele dect cel de 0,05 se justific n
funcie de consecinele care ar rezulta prin luarea unei decizii greite. O cerere de dovezi mai tari, pentru
acceptarea unei legturi ntre variabile, cum ar fi cele de nivel 0,025 sau 0,01, poate fi dorit cnd este
necesar s existe chiar mai puine posibiliti de a grei respingnd ipoteza nul i de a concluziona c
exist o legtur ntre dou variabile, atunci cnd ntmplarea este o explicaie real pentru legtura
observat dintre ele. Dac utilizarea rezultatelor cercetrii poate fi o problem de via i de moarte, aa
cum e n cazul unui nou medicament, este nevoie de un nivel de probabilitate mai nalt i mai mult
precizie n eliminarea ipotezei nule, de exemplu putem folosi nivelul 0,001. Cnd acceptm o legtur la un
nivelul de semnificaie mai mic dect 0,01, spunem c ea este foarte semnificativ statistic. ntr-adevr, n
acest caz, probabilitatea de a respinge ipoteza nul n mod eronat este de numai 1 la 100, adic
probabilitatea ca legtura s fie adevrat este de 99%.
n studiile de cercetare n care importana unei erori n respingerea ipotezei nule nu este fatal sau
traumatic, putem considera c nivelul de semnificaie 0,10 (10% probabilitate de a grei) este acceptabil.
La nivel de semnificaie 0,10 exist de dou ori mai multe posibiliti de a comite o eroare de tipul I (sub
forma erorii de eantionare) dect exist la nivelul 0,05. Cnd se accept un nivel de semnificaie mai mic
dect pragul critic 0,10 spunem ca avem legturi slab semnificative statistic. Pentru confirmarea unei astfel
de legturi se cere ca planul de cercetare s includ replicarea (repetarea cercetrii). Dac un nivel de 0,10
poate fi considerat ca insuficient pentru a dovedi o legtur, un caz tipic sau o serie de cazuri tipice sunt
suficiente pentru a ajunge la concluzia c ipoteza nul poate fi respins.
Dei o anumit flexibilitate este permis n selectarea pragurilor la care ansa este n mod
acceptabil eliminat ca explicaie pentru o legtur aparent, alegerea unui nivel de ncredere nu trebuie
vzut ca i cauzal. Selectarea unui nivel de ncredere trebuie de asemenea s fie fcut nainte ca
informaiile s fie colectate. Nu ar fi etic s schimbm nivelul de ncredere dup aceea, deoarece deciziile
ar fi interpretate ca un efort manipulator pentru a ntoarce rezultatele n favoarea sprijinirii concluziilor
cercetrii.
79
nainte de a pretinde c exist o legtur real ntre variabile, care sunt cele trei explicaii concurente
care trebuie eliminate ?
Care dintre explicaiile concurente necesit aportul statisticii ca s fie respinse ?
Care explicaii concurente trebuie s fie controlate la nceputul planului de cercetare?
Care sunt ceilali patru termeni pentru ans folosii n domeniul testrii ipotezelor?
Care este diferena dintre o eroare de tipul I i una de tipul II ?
Care este forma nul a unei afirmaii pentru o legtur ntre vrst si preferina politic?
Care este legtura dintre ipoteza nul i ans n testarea ipotezei ?
In ce condiii se folosesc alte nivele de semnificaie dect convenionalul 0,05 ?
80
Modul 9
Asocierea
9.1. Ce caut s determine asocierea
Aa cum am discutat anterior, toate testele statistice ncearc s elimine ansa ca explicaie pentru
o legtur aparent ntre dou sau mai multe variabile. Cu asocierea, spectrul ansei are anumite
caracteristici. Dac spre exemplu, am cuta s gsim o legtur ntre o variabil dependent ca succesul
tratamentului clientului (succes/eec) i o variabil independent asemenea tipului de tratament (de
grup/individual) pentru urmrirea evalurii unui program de consiliere n privina alcoolismului, ansa ar
putea juca rolul scepticului. Ipoteza nul spune c nu exist nici o legtur ntre cele dou variabile: dac
clienii s-au abinut de la alcool pentru o perioad de timp (succes) sau nu s-au abinut (eec) i dac au
primit tratamentul de grup sau individual. Ocazional poate aprea c acei clieni care s-au abinut au fost n
general cei care au primit tratamentul individual sau viceversa. Totui, n concordan cu ipoteza nul,
aceast aparent legtur dintre cele dintre dou variabile poate fi explicat i de variaiile normale ale
caracteristicilor ntlnite n eantionul mic pe care s-a lucrat (fa de populaia tuturor alcoolicilor). Ar
putea fi doar rezultatul erorii de eantionare. Ipoteza nul trebuie s susin c nu exista o legtur real
ntre dou variabile dintr-o populaie.
Putem pretinde existena unei legturi reale ntre dou variabile doar dac putem demonstra c
legtura observat dintre ele este improbabil s se fi datorat ansei, i deci orice persoan rezonabil va
elimina ntmplarea (i firete factorii de deformare i alte variabile) ca explicaie improbabil.
Asocierea ncearc s determine dac exist o legtur adevrat ntre dou variabile, examinnd
n ce msur valorile specifice unei variabile sunt asociate cu valorile specifice ale celei de a doua
variabile, ntr-un grad de probabilitate suficient de mare ca aceasta s nu fie doar efectul erorii de
eantionare.
Cnd folosim asocierea nu suntem att de ambiioi ca s sugerm c o variabil poate fi cauza
variaiei celeilalte variabile. Putem doar afirma, n cel mai bun caz, c exist un anumit tip de legtur
(patern). Testele de asociere sunt folosite cnd dorim s tim dac aceste legturi sunt suficient de puternice
i consistente pentru a elimina ansa (ntmplarea) ca o explicaie a legturii observate.
Analiza asocierii este una dintre cele mai simple ci pentru a determina dac exist o legtur
adevrat ntre dou variabile. Exemplul care urmeaz ilustreaz modul n care asocierea este folosit n
examinarea eficacitii relative a tratamentului de grup fa de tratamentul individual la clienii care au fost
tratai pentru alcoolism ntr-un centru nonguvernamental de tratament. Pentru a face aceasta, un grup de
clieni care au primit tratamentul n grup sunt comparai direct cu un grup de clieni care au primit
tratamentul individual.
81
mai multe celule. Frecvenele din interiorul tabelului de asociere, notate in Tabelul 9.1 cu a, b, c i d, poart
numele de frecvene celulare.
Tabelul 9.1 Tabel de asociere pentru succesul in abinerea de la alcool si tipul de tratament
Succes?
Tip de tratament
Tratament n grup
Tratament individual
Total
Da
a
c
a+c
Nu
b
d
b+d
Total
a+b
c+d
N
Categoriile variabilelor din tabelul de asociere pot fi puse n orice ordine, deoarece ele sunt de
nivel nominal, neexistnd o ordonare dup rang sau alte diferene cantitative. Matematic, este posibil s
folosim analiza tabelelor de asociere cu variabile de nivel ordinar, interval sau raport. Totui, folosind
tabelele de asociere cu variabile de nivel ordinal sau interval, acestea nu vor putea profita de avantajele pe
care le ofer precizia de msurare a acestor variabile. Valorile, n aceste cazuri, sunt tratate fr s se in
cont de diferenele cantitative pe care le reflect, ca i cum ele ar reprezenta doar diferene calitative.
Tabelele de asociere prezint de obicei frecvenele pentru o variabil independent i pentru una
dependent. n acest capitol, n toate tabelele, variabila dependent va fi dispus pe coloane, iar variabila
independent va fi dispus pe linii. Aceasta nu reprezint o lege, de aceea unele studii folosesc aezarea
invers. De fapt, n orice studiu de cercetare, n momentul calculului, indicatorul de asociere este orb n
ceea ce privete care dintre variabile este cea independent i cea dependent. Asocierea examineaz numai
dac exist legturi ntre cele dou variabile. Sunt situaii cnd nici una dintre variabile nu este clar
dependent sau independent. Ele sunt doar dou variabile, a cror legtur dorim s o studiem. Indicatorul
hi-ptrat este, de asemenea, potrivit pentru acest tip de situaii.
Frecvene observate
Tabelul 9.2 prezint rezultatele actuale sau observate, rezultate din studiul nostru ipotetic asupra
celor dou metode de tratament. Datele din cele patru celule ale Tabelului 9.2 reprezint numrul observat de
clieni care au realizat fiecare combinaie de valori corespunztoare pentru cele dou variabile. Putem
observa c au existat n total 100 de clieni (N), dintre care 60 au primit tratamentul n grup (a+b) i 40 au
primit tratamentul individual (c+d). Cincizeci i cinci au avut succes, n timp ce 45 au avut insucces. n plus,
printre cei 60 care au primit tratamentul n grup, 40 de clieni au avut succes (celula a) i 20 de clieni au
avut insucces (celula b). Printre clienii care au primit tratamentul individual, 15 au fost considerai ca avnd
succes (celula c) i 25 ca avnd insucces (celula d).
Tabel 9.2 Numrul de succese observate, dup tipul de tratament
Succes?
Tip de tratament
Da
Nu
Tratament n grup
40
20
Tratament individual
15
25
Total
55
45
Total
60
40
100
n exemplul nostru avem nevoie s comparm clienii care au primit tratamentul n grup cu aceia
care au primit tratamentul individual, n ceea ce privete rezultatele lor. O astfel de comparaie este relativ
greu de observat n Tabelul 9.2 pentru c cele dou tipuri de tratament au numere diferite de clieni (60 i
40). Evident c pe cei 40 de clieni care au avut ca rezultat succesul cu tratamentul n grup (celula a), nu-i
putem compara direct cu cei 15 clieni care au avut ca rezultat succesul, dar pe baza tratamentului
individual (celula c) i astfel nu putem concluziona c tratamentul n grup este cea mai bun metod de
tratament doar pentru c numrul 40 este mai mare dect 15. n ciuda diferenei dintre numrul de cazuri n
cele dou grupuri, este posibil s facem o ncercare de comparare ntre cele dou tipuri de tratament, prin
82
calcularea procentelor. De exemplu, putem afla ce procentaj reprezint 40 de clieni din 60 de clieni i ce
procentaj reprezint 15 clieni din 40 de clieni. Tabelul 9.3 este un tabel de asociere cu procentaje pentru
datele observate n Tabelul 9.2. El arat c 66,7 procente ale clienilor care au primit tratamentul n grup au
avut ca rezultat succesul, comparativ cu 37,5 procente ale acelor clieni care au primit tratamentul
individual. Variabilele tipul de tratament primit i succesul clienilor ar putea fi deci legate. Dac
procentajele (celula a i celula c) ar fi identice, cele dou variabile, n mod sigur, nu ar fi legate. Pn la
acest punct, nu putem ns exclude ntmplarea ca explicaie a legturii aparente dintre variabile.
Dei cele dou variabile par s fie ntructva legate, totui s-ar putea spune c ele nu sunt prea
mult legate. Argumentul ar consta n faptul c 29,2 procente diferen (66,7 procente - 37,5 procente =
29,2 procente) nu este foarte mult i s-ar putea ca faptul de a fi legate este doar un rezultat al erorii de
eantionare. Aa s fie? Multe dintre raionamentele statistice sunt preocupate s ne ajute s decidem ct de
mare trebuie s fie diferena pentru a putea elimina ansa ca explicaie posibil a unei legturi aparente
ntre variabile.
Tabel 9.3 Procentul succeselor observate, dup tipul de tratament
(din tabelul 9.2)
Succes?
Tip de tratament
Da
Nu
Total
Tratament n grup
66.7
33.3
100.0
Tratament individual
37.5
62.5
100.0
Tratament n grup
=
Celula a: 40 / 60 = 66.7%
Celula b: 20 / 60 = 33.3%
100%
Tratament individual
=
Celula c: 15 / 40 = 37.5%
=
Celula d: 25 / 40 = 62.5%
100%
Frecvenele ateptate
Ct de mare ar trebui s fie diferena ntre procente pentru ca ansa s fie o explicaie improbabil?
Putem rspunde la aceast ntrebare prin concentrarea asupra a ct de mult difer frecvenele observate fa
de acele frecvene pe care noi ne ateptm s le gsim mai frecvent, dac ipoteza nul ar fi adevrat acestea sunt frecvenele ateptate.
S ne ntoarcem la Tabelul 9.2 i s ne concentrm doar asupra frecvenelor marginale. Din totalul
de 100 de clieni, 55 sau 55 % au avut ca rezultat succesul. Dac tipul de tratament nu este legat de succesul
clientului, ar trebui s ne ateptm ca aproximativ 55 de procente din totalul clienilor s aib succes,
indiferent de tipul de tratament aplicat. Dei rezultatele dintr-un eantion particular nu vor iei exact n
acest mod, foarte adesea, ntr-un numr mare de eantioane dintr-o populaie n care ipoteza nul este
adevrat (variabilele n mod sigur sunt nelegate), vom gsi rezultatul mediu al tuturor eantioanelor;
adic proporia medie de aproximativ de 55 %.
Putem construi un tabel al frecvenelor ateptate presupunnd c ipoteza nul ar fi adevrat,
asemntor Tabelului 9.4 . Pentru a calcula frecvena ateptat dintr-o celul, se ia totalul pe coloan, se
nmulete cu totalul de pe linie pentru acea celul i apoi se mparte rezultatul la numrul total de cazuri
(n). Adic:
fe
l *c
n
unde:
fe = Frecvena ateptat ntr-o celul particular
l = Totalul pe linia celulei
c = Totalul pe coloana celulei
n = Numrul total de cazuri
83
= 33
= 27
= 22
= 18
= 100
Total
Numr Procent
50
100%
150
100%
100
( fo f e )2
fe
2
84
unde:
2= Valoarea hi-ptrat
fo = Frecvena observat
fe = Frecvena ateptat
... 8,2
33
27
22
18
... =
85
gradelor de libertate al tabelului de asociere n Tabelul 9.6. Cele ase valori din fiecare linie a Tabelului 9.6
sunt valori hi-ptrat care au probabilitatea indicat n capul de tabel al coloanelor respective. Vom citi n
dreptul liniei pentru a gsi unde cade valoarea noastr hi-ptrat. Dac numrul exact nu apare, vom
considera numrul din stnga locului unde ar cdea valoarea lui hi-ptrat. Dup aceea ne vom deplasa la
vrful coloanei i vom gsi probabilitatea asociat lui.
Dac, de exemplu, fixm nivelul de probabilitate P la 0,95 - ceea ce corespunde unui nivel de semnificaie
p de 0,05 - vom ti c dac respingem ipoteza nul, probabilitatea statistic de a comite o eroare de tipul I
este mai mic dect 5 din 100.
n exemplul nostru, valoarea obinut pentru hi-ptrat este de 8,2, cu un grad de libertate. Lum
valoarea lui hi-ptrat de 8,2 i gsim cele dou valori din prima linie a Tabelului 9.6 ntre care se gsete
aceast valoare. Valoarea noastr hi-ptrat, 8,2 este localizat ntre valorile 6,64 i 10,83. Astfel, dac
ipoteza noastr a fost direcional, adic clienii care primesc tratamentul n grup au o rat statistic
semnificativ mai nalt de succes dect clienii care primesc tratamentul individual, putem spune c dac
respingem ipoteza nul, exist o probabilitate de doar 0,005 de a face o eroare de tipul I (doar 5 dintr-o
mie). Pe scurt, ipoteza noastr direcional poate fi considerat ca avnd suport statistic, deoarece 0,005
este mult mai mic dect convenionalul 0,05. Pe de alt parte, dac ipoteza noastr ar fi fost nedirecional,
putem nc considera c avem suport statistic pentru ea, pentru c probabilitatea corespunztoare este tot
mai mic dect 0,01, care este mai mic dect convenionalul 0,05 .
Tabelul 9.6 Valori critice pentru hi-ptrat
Nivel de semnificaie pentru un test direcional
.10
.05
.025
.01
Nivel de semnificaie pentru un test nedirecional
df
.20
.10
.05
.02
1
1.64
2.71
3.84
5.41
2
3.22
4.60
5.99
7.82
3
4.64
6.25
7.82
9.84
4
5.99
7.78
9.49
11.67
5
7.29
9.24
11.07
13.39
.005
.0005
.01
6.64
9.21
11.34
13.28
15.09
.001
10.83
13.82
16.27
18.46
20.52
6
7
8
9
10
8.56
9.80
11.03
12.24
13.44
10.64
12.02
13.36
14.68
15.99
12.59
14.07
15.51
16.92
18.31
15.03
16.62
18.17
19.68
21.16
16.81
18.48
20.09
21.67
23.21
22.46
24.32
26.12
27.88
29.59
11
12
13
14
15
14.63
15.81
16.98
18.15
19.31
17.28
18.55
19.81
21.06
22.31
19.68
21.03
22.36
23.68
25.00
22.62
24.05
25.47
26.87
28.26
24.72
26.22
27.69
29.14
30.58
31.26
32.91
34.53
36.12
37.70
16
17
18
19
20
20.46
21.62
22.76
23.90
25.04
23.54
24.77
25.99
27.20
28.41
26.30
27.59
28.87
30.14
31.41
29.63
31.00
32.35
33.69
35.02
32.00
33.41
34.80
36.19
37.57
39.29
40.75
42.31
43.82
45.32
21
22
23
24
25
26.17
27.30
28.43
29.55
30.68
29.62
30.81
32.01
33.20
34.38
32.67
33.92
35.17
36.42
37.65
36.34
37.66
38.97
40.27
41.57
38.93
40.29
41.64
42.98
44.31
46.80
48.27
49.73
51.18
52.62
26
26
31.80
31.80
35.56
35.56
38.88
38.88
42.86
42.86
45.64
45.64
54.05
54.05
86
27
28
29
30
32.91
34.03
35.14
36.25
36.74
37.92
39.09
40.26
40.11
41.34
42.69
43.77
44.14
45.42
46.69
47.96
46.96
48.28
49.59
50.89
55.48
56.89
58.30
59.70
32
34
36
38
40
38.47
40.68
42.88
45.08
47.27
42.59
44.90
47.21
49.51
51.81
46.19
48.60
51.00
53.38
55.76
50.49
53.00
55.49
57.97
60.44
53.49
56.06
58.62
61.16
63.69
62.49
65.25
67.99
70.70
73.40
44
51.64
56.37
60.48
65.34
68.71
78.75
48
55.99
60.91
65.17
70.20
73.68
84.04
52
60.33
65.42
69.83
75.02
78.62
89.27
56
64.66
69.92
74.47
79.82
83.51
94.46
60
68.97
74.40
79.08
84.58
88.38
99.61
Valoarea hi2 este semnificativ dac ea este mai mare sau egal cu valoarea listat n tabel
S inem minte c trebuie s folosim valoarea din stnga valorii calculate a lui hi-ptrat pentru a
determina corect nivelul probabilitii. De exemplu, avem nevoie s gsim o valoare hi-ptrat la cel puin
2,71, cu un grad de libertate, pentru ca o ipotez direcional s fie susinut la un nivel obinuit de
semnificaie de 0,05.
Prezentarea rezultatelor unei analize de asociere
Prezentarea rezultatelor noastre obinute n urma unei analize de asociere, este relativ simpl. n
primul rnd, vom prezenta tabelul de asociere cu frecvenele observate (att cele absolute, ct i cele
procentuale). Frecvenele observate procentuale trebuiesc calculate prin raportare la frecvenele marginale
ale variabilei considerate independente. Dup aceea plasm la sfritul tabelului valoarea hi-ptrat (2),
gradele de libertate (df), nivelul de semnificaie (p) asociat valorii calculate a lui hi-ptrat, i poziia fa de
nivelul critic (0.05, sau 0. 01, sau 0.10, dup caz). In exemplul nostru, aceste trei elemente de informaie
vor fi scrise astfel:
2 = 8,2; df = 1 ; p < 0,005
Tabelele 9.7; 9.8; 9.11 i 9.12 sunt exemple de prezentare a analizei de asociere.
Observaii
In SPSS in loc de notaia p pentru nivelul de semnificaie se folosete Sig.
Pe lng valoarea 2 SPSS afieaz in tabelele rezultat i ali indicatori derivai din acesta -cum ar
fi Coeficientul (phi) sau Coeficientul V al lui Cramer - care prezint avantajul c au limite fixe de
variaie (ntre 0 i 1), ceea ce ne permite s i interpretm i n termeni de indicatori de intensitate ai
asocierii (vezi i Rotariu i colaboratorii 2006, p.127 i p.135). n formula coeficientului V, s* este minimul
valorii dintre numrul de linii i numrul de coloane. Coeficientul se utilizeaz pentru tabelele 2x2 , iar V
pentru tabelele de dimensiuni mai mari.
2
n
2
n ( s * 1)
87
Cnd ntr-un tabel cu dou linii i dou coloane (patru celule), una sau mai multe celule au valoarea
ateptat mai sczut dect 5.
2.
Cnd ntr-un tabel cu mai mult dect dou linii i dou coloane, exist mai mult de 20% din celule care
au valori ateptate mai mici dect 5.
Cnd ntr-un tabel cu mai mult dect dou linii i dou coloane, exist celule cu frecvene observate
nule (0).
O verificare rapid dac sunt probleme cu valorile ateptate prea mici, ntr-un tabel de asociere
poate fi realizat prin localizarea celulei cu valoarea ateptat cea mai mic. Pentru a face aceasta, se
localizeaz linia i coloana cu cele mai mici totaluri. Celula cu cea mai mic valoare se afl la intersecia
liniei i coloanei localizate. Dup aceea, valoarea ateptat a celulei este determinat cu formula (L) (C) /
(N). Dac frecvena ateptat este 5 sau mai mult, este permis folosirea analizei tabelului de asociere.
Dac ea este mai mic dect 5, poate fi necesar s combinm anumite celulele ntre ele (prin grupare),
astfel nct criteriul pentru folosirea lui hi-ptrat s poat fi ndeplinit; sau se poate folosi un alt test statistic
(vezi ultimul capitol). Desigur, un tabel 2 x 2 (dou linii i dou coloane) nu poate fi grupat.
3.
Volumul eantionului
n general, cu ct avem un eantion mai mare, cu att avem mai multe anse s respingem ipoteza
nul. Cu ct este mai mare dimensiunea eantionului, cu att este mai puternic testul. (Acesta este valabil
pentru orice test statistic) De fapt, cu un eantion foarte mare este extrem de probabil ca ipoteza nul s fie
respins, chiar dac diferena absolut dintre frecvenele ateptate i cele observate din fiecare celul este
suficient de mic. Cnd oamenii interpreteaz un tabel de asociere, sunt adesea indui n eroare de valoarea
lui hi-ptrat i de nivelul de probabilitate rezultat, mai ales dac nu urmresc cu atenie volumul
eantionului (N). Trebuie ntotdeauna s avem n minte c o valoare hi-ptrat i nivelul de probabilitate sunt
legate direct de dimensiunea eantionului pe baza cruia sunt calculate.
Cele prezentate anterior pot prea greu de neles, dar un acelai tabel de asociere poate prezenta o
legtur statistic important ntre dou variabile (via indicatorul statistic hi-ptrat) sau - credei sau nu - el
poate descrie o legtur slab, dar statistic semnificativ. Pe scurt, putem aproape ntotdeauna avea o
valoare hi-ptrat statistic semnificativ - interesnd mai puin magnitudinea legturilor dintre dou variabile
- dac eantionul este suficient de mare. Astfel, trebuie ntotdeauna s privim la ceea ce nseamn legtura nu doar nivelul de semnificaie statistic (p) al valorii hi-ptrat. Aceasta este legat de discuia noastr
dintr-un capitol anterior n care am fcut distincie ntre: (1) legturi statistic semnificative ntre variabile i
(2) rezultate substaniale.
O continuare a exemplului nostru va clarifica cele afirmate. S presupunem c ntr-un alt studiu,
200 de clieni au primit tratament n cadrul programului de tratare a alcoolicilor. Rezultatul studiului poate
fi asemenea celui prezentat n Tabelul 9.7. Aa cum poate fi observat din acest tabel, p este mai mare dect
0,20 doar dac direcia legturii nu a fost precizat i mai mare dect 0,10; dac s-a specificat direcia n
prealabil (vezi Tabelul 9.6). Cu alte cuvinte, noi am putea s nu avem suport statistic suficient la nivelul
0,05 pentru a fi capabili s respingem ipoteza nul.
88
Tabelul 9.7 Testul hi2, numrul i procentul succeselor observate, dup tipul de tratament
pentru un eantion de 200 clieni
Succes?
Tip de tratament
Da
Nu
Total
Numr Procent
Numr Procent
Numr Procent
Tratament n grup
30
60.0%
20
40.0%
50
100%
Tratament individual
80
53.3%
70
46.7%
150
100%
Total
110
90
200
2 = 0,672, df = 1 ; p > 0,20 (fr predicia direciei)
Acum s presupunem c avem nu doar 200 de clieni, aa ca n Tabelul 9.7 ci de zece ori mai muli
- 2000, iar proporia celor 2000 clieni n toate celulele este exact aceeai ca i n cazul eantionului
anterior, prezentat n Tabelul 9.7. Rezultatele se gsesc n Tabelul 9.8.
O privire atent asupra Tabelelor 9.7 i 9.8 va arta c frecvenele observate n ambele tabele sunt
absolut proporionale una fa de cealalt, dar diferena ntre valorile fiecrui hi-ptrat i nivelele de
probabilitate este foarte mare. Frecvenele observate n Tabelul 9.7 nu sunt statistic semnificative, n timp
ce frecvenele observate n Tabelul 9.8 sunt statistic semnificative (la nivelul 0,01 pentru o ipotez
nedirecional i la nivelul 0,005 pentru o ipotez direcional). Dac am fi folosit 20000 clieni valoarea
hi-ptrat ar fi fost de 67,2; dac am fi folosit 200000 clieni, hi-ptrat ar fi devenit 672 i aa mai departe. i
totui, cele dou tabele 9.7 i 9.8 sunt aproape identice, singurul lucru care le difereniaz este numrul de
cazuri pe care le-am folosit pentru calcularea celor dou mrimi hi-ptrat.
Tabelul 9.8 Testul hi2, numrul i procentul succeselor observate, dup tipul de tratament
pentru un eantion de 2000 de clieni
Succes?
Tip de tratament
Da
Nu
Total
Numr Procent
Numr Procent
Numr Procent
Tratament n grup
300
60.0%
200
40.0%
500
100%
Tratament individual
800
53.3%
700
46.7%
1500
100%
Total
1100
900
2000
2 = 6,72, df = 1 ; p < 0,01 (fr predicia direciei)
89
(spurious in limba englez). Legtura dintre tipul de tratament i succes a putut apare pentru c motivaia
este asociat cu ambele variabile din ipotez: cu succesul (pentru c o motivaie ridicat influeneaz direct
rata succesului) pe de o parte, i cu metoda de tratament (pentru c subiecii nalt motivai au perseverat
mai mult n a participa la edinele de terapie n grup) pe de alt parte.
Tabelul 9.9 Testul hi2, numrul i procentul succeselor observate, dup tipul de tratament
pentru subeantionul clienilor cu o motivaie nalt (N = 70)
Succes?
Tip de tratament Da
Nu
Total
Numr Procent
Numr Procent
Numr Procent
Tratament n grup
22
55.0%
18
45.0%
40
100%
Tratament individual
16
53.3%
14
46.7%
30
100%
Total
38
32
70
df = 1 ; p > 0,20 (pentru un test nedirecional)
Tabelul 9.10 Testul hi2, numrul i procentul succeselor observate, dup tipul de tratament
pentru subeantionul clienilor cu o motivaie sczut (N = 30)
Succes?
Tip de tratament
Da
Nu
Total
Numr Procent
Numr Procent
Numr Procent
Tratament n grup
11
55%
9
45%
20
100%
Tratament individual
6
60%
4
40%
10
100%
Total
17
13
30
2 = 0,68, df = 1 ; p > 0,20 (pentru un test nedirecional)
Nu ntotdeauna o relaie iniial confirmat statistic dispare pentru c ea ar fi neltoare. Atunci
cnd cea de a 3-a variabil introdus n analiz se situeaz ntre variabila independent i cea dependent n
sensul c variabla independent influeneaz de fapt variabila de control, iar aceasta la rndul ei este cea
care influeneaz variabila dependent, avem de a face cu variabil nnbuit (se mai numete i latent).
De exmplu am putea controla legtura observat dintre metoda de tratament i succes dup timpul petrecut
n edinte de terapie. N-ar fi de mirare s dispar i n acest caz suportul statistic pentru ipoteza iniial, dar
explicaia ar fi alta: metoda de tratament n grup cere participarea periodic la edine fcnd astfel s
creasc timpul acordat terapiei, iar timpul n sine duce la creterea succesului n abinerea de la butur.
Legtura iniial nu dispare ntotdeauna cnd o controlm printr-o a treia variabil. Firete, poate
rmne n esen aceeai n toate categoriile celei de-a treia variabile. n astfel de cazuri, vom putea
concluziona c cea de a treia variabil nu joac un rol important n explicarea legturii iniiale. Legtura
poate fi mai sczut chiar dac nu dispare. n acest caz, a treia variabil poate explica doar o parte, nu totul,
dintr-o legtura iniial. Intensitatea legturii poate s creasc cnd o a treia variabil este verificat. n
asemenea situaii, cea de-a treia variabil este tot o variabil nbuit (sau latent) aceasta ascunznd
natura real a asocierii dintre variabila dependent i cea independent.
Astfel putem da peste un alt rezultat cnd introducem o a treia variabil. Legtura dintre primele
variabile poate fi diferit pentru diferitele categorii ale variabilei de control. Acesta nu este un rezultat
simplu, el este adesea unul important. Nu ntotdeauna este posibil s obinem uor rezultate rezumative;
mai curnd legtura iniial trebuie s fie descris pentru fiecare categorie a variabilei de control. Cea de a
treia variabil este introdusa ca s detaileze mai departe legtura dintre primele dou variabile, i se
numete variabil de control.
90
9.5. Un exemplu
Descrierea situaiei care genereaz un studiu
Ca asistent social ntr-un spital, Ioana se ocup de internarea pacienilor. Ea a observat c un
numr mare de pacieni care au fost lsai s triasc cu propriile rude sunt reinternai n spital. Cunoscnd
c asistenii sociali, colegi de ai ei, care se ocup cu planificarea externrilor trimit frecvent pacienii
externai la internat, ea s-a ntrebat de ce a vzut att de puine reinternri printre acei pacieni care au fost
externai la internat. Ea s-a ntrebat dac nu poate fi o legtur ntre pacienii care sunt reinternai n spital
i locul n care au fost ei externai (internat/la rude).
Ipoteza ce urmeaz a fi testat
Ioana citete literatura de specialitate asupra temei care o preocup. Bazndu-se apoi pe consensul
general al altor practicieni de asisten social, pe rezultatele cercetrilor anterioare i pe propriile intuiii i
observaii subiective, ea pornete la realizarea i implementarea unei cercetri de mici proporii care va
strnge datele necesare testrii unei ipoteze direcionale.
Pacienii externai la internat vor avea o rat de reinternare mai sczut fa de pacienii
externai la rude, statistic semnificativ.
O privire asupra metodologiei
Ioana a ales o strategie simpl pentru a testa ipoteza sa direcional. Ea a primit permisiunea
supervizorilor si s selecteze un eantion de 10 procente din toate dosarele pacienilor care au fost
externai n ultimele 18 luni, alese la ntmplare. Utiliznd un instrument de colectare a informaiilor
standardizat ntocmit de ea, a strns date de o mare varietate a variabilelor demografice pentru 148 de
pacieni (10% din 1480 pacieni = 148 pacieni) care au fost externai la internat i 250 de pacieni (10% din
2500 pacieni = 250 pacieni) care au fost trimii la rude. Eantionul total a fost de 398 pacieni
(148+250=398). Variabila dependent n ipoteza ei a fost dac pacientul a fost reinternat spital (da/nu).
Variabila independent a fost locul externri pacienilor (internat/rude).
Rezultatele
Tabelul 9.11 prezint rezultatele la care a ajuns Ioana, folosind procedeul tabelelor de asociere aa
cum sunt prezentate n acest capitol.
Tabelul 9.11 Reinternarea n spital dup starea externrii
Reinternare?
Locul externrii
Da
La internat
25
La rude
71
Total
96
2 = 7,2 , df = 1, p < 0.005 (utiliznd corecia lui Yates)
Nu
123
179
302
Total
148
250
398
91
dect cele prezise. O diferen mare ntre frecvenele observate i cele ateptate dintr-o celul (n orice
direcie) contribuie mult la creterea valorii lui hi-ptrat, care se va reflecta prin creterea probabilitii ca
ipoteza nul s fie respins. Trebuie s determinm dac asocierea este n direcia prezis, privind direct
celulele n care se gsesc frecvenele observate relativ mari, sau examinnd procentajele.
Folosind Tabelul 9.11, Ioana a fost capabil s determine c aproximativ 17% (25 din 148) din
pacienii externai la internat au fost readmii n spital, comparativ cu 28% (71 din 250) dintre aceia dirijai
ctre rude. Aceste dou procentaje, 17 i 28 au fost consecvente cu direcia ipotezei sale; pacienii eliberai
ctre internat au fost mai puin ntlnii ca reinternai fa de pacienii externai la rude.
nainte ca Ioana s trag orice concluzie despre nsemntatea semnificaiei statistice dintre cele
dou variabile, ea a tiut c trebuie s recunoasc efectele metodologiei de cercetare pe care a folosit-o n
interpretarea rezultatelor obinute. Ea a folosit un instrument de colectare a datelor standardizat i
structurat. Totui, validitatea i sigurana informaiilor din fiele pacienilor poate fi o problem, ca i ali
factori deformatori. Din cauza lipsei unui plan experimental, lista altor variabile (factori) care ar fi putut
afecta reinternarea ar putea fi mare. Printre acetia s-ar putea numra: diagnosticul pacientului, durata
primei spitalizri, disponibilitatea serviciului de ngrijire de dup externare, medicaia folosit de pacient i
muli ali factori pe care ea nu are motiv s cread c au fost egal reprezentai n cele dou grupuri de
pacieni (ngrijii acas / n internat).
Deci, ce i spun rezultatele despre ipotez? Scopul procedeului tabelelor de asociere este de a
cpta probe pentru sau mpotriva existenei unei legturi ntre dou variabile. Cunoaterea relaiei cauzefect nu este posibil de la nceput, datorit absenei unui plan experimental i datorit limitelor proprii ale
analizei de asociere. Ceea ce Ioana a aflat este faptul c pentru diferite motive, pacienii externai din
spitalul ei ctre internate, au avut o probabilitate mai mic s fie reinternai fa de aceia care au fost
eliberai acas.
Ioana nu i-a limitat analiza asocierii doar la legtura dintre variabila independent i cea
dependent. Ea a mai adunat date despre diagnosticul pacienilor i durata primei spitalizri. Ea a putut deci
examina legtura dintre aceste alte variabile i variabila dependent folosind mai multe analize complexe
ale tabelelor de asociere, i alte teste statistice adecvate. Fiele pacienilor pot conine informaii despre
variabile suplimentare care au contribuit la luarea deciziei de externare, cum ar fi unde au locuit nainte de
internare (la rude sau n internat); aceste informaii pot fi folosite pentru a tempera rezultatele analizei sale
i pentru a ls s cad mai mult lumin pe rezultatele statistice.
ptrat - (Chi square). De la butonul Cells, care apare tot n fereastra deschis de opiunea de meniu
Crosstabs, vom deschide o alt fereastr n care vom opta ca n csuele tabelului s apar att valorile
observate, ct i cele calculate pentru cazul independenei (frecvenele ateptate sau teoretice): Counts
Observed, Expected. De asemenea, vom opta aici pentru procente pe linii: Percentages Row. Iat ce ne va
afia programul SPSS:
CROSSTABS
/TABLES=sex BY hlth5
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ
/CELLS= COUNT EXPECTED ROW .
Crosstabs
92
Respondent's
Sex
Male
Female
Total
Illegal Drugs
(Marijuana,
Cocaine)
Yes
No
23
393
12,3
403,7
5,5% 94,5%
7
589
17,7
578,3
1,2% 98,8%
30
982
30,0
982,0
3,0% 97,0%
Count
Expected Count
% within R's Sex
Count
Expected Count
% within R's Sex
Count
Expected Count
% within R's Sex
Total
416
416,0
100,0%
596
596,0
100,0%
1012
1012,0
100,0%
Chi-Square Tests
Value
Pearson
Chi-Square
Continuity
a
Correction
Likelihood Ratio
Fisher's Exact
Test
Linear-by-Linear
Association
N of Valid Cases
16,149
Asymp.
Sig.
(2-sided)
df
b
,000
14,670
,000
16,190
,000
16,133
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
,000
,000
,000
1012
Observm c mai nti programul SPSS afieaz sintaxa corespunztoare opiunilor de meniu
executate. Primul tabel este tabelul de asociere dintre variabila sex i variabila consum de droguri. Pentru
c am cerut calcularea procentelor pentru categoriile variabilei independente, putem observa o diferen
ntre ponderea brbailor i femeilor care au raportat consumul de droguri (5.5% fa de 1.2%). Ipoteza
noastr pare s fie confirmat de aceste date.
Urmtorul tabel conine valoarea coeficientului de asociere cerut, mpreun cu teste de
semnificaie privind diferena lor fa de zero. Observm c valoarea coeficientului de corelaie
2 (16,149), ne permite respingerea ipotezei nule, nivelul de ncredere fiind mai mare de 99,9% (p<0.001).
Aadar, exist diferene semnificative ntre brbai i femei n privina consumului de droguri.
93
5.
6.
7.
8.
Cum intervin gradele de libertate n determinarea semnificaiei statistice a unei valori hi-ptrat
precizate (de exemplu 10)?
Care este valoarea minim a frecvenei ateptate necesare pentru folosirea lui hi-ptrat?
Care sunt cei doi pai ai procesului de determinare a suportului statistic pentru o ipotez direcional?
Cum poate fi folosit hi-ptrat pentru a examina legtura dintre dou variabile cnd se ine sub control
efectului unei a treia variabile?
Modul 10
Compararea mediilor
In acest capitol, vom examina unul dintre testele statistice potrivite atunci cnd una din variabile,
de obicei cea dependent, este cel puin de nivel interval iar cealalt variabil, de obicei variabila
independent, este de nivel nominal.
94
95
m1 m2
(n1 1) s12 ( n2 1) s 22
n1 n2 2
1
1
n1 n2
m1
m2
5 7 ... 6 66
7,33
9
9
9 10 ... 9 57
8,14
7
7
n1
X
n2
Pentru a calcula s1 i s2 (adic abaterile standard in cele doua eantioane2 ) ne sunt de ajutor
urmtoarele tabele de calcul:
Spre deosebire de eantioanele mari unde abaterile standard se calculeaz ca valori medii ale
abaterilor ptratice fata de medie cu alte cuvinte prin mprirea sumei diferentelor la ptrat la volumul
eantionului n, urmat de extragerea radicalului , la eantioanele mici se calculeaz o abatere standard
ajustat s, unde in loc de n se utilizeaz n-1 la numitor. De aici i diferena in notaie: s in loc de .
96
X1
5
6
7
8
9
10
k1
1
2
2
2
1
1
= 9
x1*k1
5
12
14
16
9
10
= 66
x-m1
-2,33
-1,33
-0,33
0,67
1,67
2,67
k2
1
1
2
2
1
x2*k2
6
7
16
18
10
= 7
= 57
s1 =/(n1-1) = 2,5
(x-m2)2
4,59
1,31
0,02
0,73
3,45
x-m2
-2,14
-1,14
-0,14
0,86
1,86
s2
(X
m1 ) 2 k1
n1 1
(X
m2 ) 2 k 2
n2 1
(x-m2)2* k2
4,59
1,31
0,04
1,47
3,45
= 10,86
2
m2 = 8,14
s1
(x-m1) * k1
5,44
3,56
0,22
0,89
2,78
7,11
= 20
2
m1 = 7,33
X2
6
7
8
9
10
(x-m1)
5,44
1,78
0,11
0,44
2,78
7,11
s2 =/(n2-1) = 1,81
20
2,5
8
10,86
1,81
6
Acum putem calcula numitorul formulei lui t, adic eroarea standard comun Es:
Es
1
1
n1 n2
8 * 2,5 6 * 1,81 1 1
14
9 7
20 10,92
0,25 0,560 0,748
14
7,33 8,14
0,81
1,08
0,748
0,748
97
n eantionul din exemplu, valoarea lui t este -1,08, la 14 grade de libertate (df = 16 2 = 14).
ntrebarea este: "Care e probabilitatea de a comite o eroare de tipul I cu o valoare a lui t de -1,09, la 14
grade de libertate date?" Pentru a rspunde la aceast ntrebare, avem nevoie s consultm tabelul de
probabiliti al valorilor t (Tabelul 10.1). Dac valoarea t calculat este mai mare dect valoarea critic de
2.145 (corespunztor la 14 grade de libertate), nivelul de semnificaie p va fi mai mic dect 0.05 pentru o
ipotez nedirecionat i dect 0.025 pentru o ipoteza direcionat, deci se va respinge ipoteza nul.
n exemplul nostru, valoarea t nu este statistic semnificativ, att pentru un test cu o ipotez nedirecionat
(two-tailed), ct i pentru un test direcionat (one-tailed), deoarece 1.09 este mai mic dect 2.145.
Interpretare: De vreme ce 1.08 < 2.145, Ana accept ipoteza nul i concluzioneaz c nu exist
diferene n capacitatea unei metode de prevenie de a duce la cunotine mai solide privind riscul infeciei
cu HIV n rndul elevilor. Rezultatele obinute i-au artat Anei c nu exist suport statistic pentru ipoteza
sa, n ciuda faptului c valoarea medie a grupului de elevi cu care s-a lucrat prin metode indirecte indic un
nivel de cunotine mai redus dect media grupului elevilor care au participat la activiti interactive.
Imposibilitatea de a respinge ipoteza nul relev c metoda de prevenie folosit produce mici diferene
ntre cunotinele elevilor despre riscurile contaminrii cu HIV. Firete, Ana i-a pus ntrebarea dac
ipoteza de cercetare (aceea a diferenelor ntre cunotinele elevilor n funcie de metoda folosit) poate fi
nc corect. S-ar putea ca adevrata legtur dintre variabila dependent (cunotinele dobndite n urma
programului de prevenie) i cea independent (metoda de prevenie folosit) s fi fost ascuns de tehnica
msurtorilor sau de influena altor variabile (de exemplu, experiena mai mare a voluntarilor care au
aplicat metode interactive). Ana este contient c sunt necesare studii suplimentare pentru a clarifica acest
aspect. n orice caz, pornind de la rezultatele acestui mini studiu, ea va stabili dac, pe viitor, va pstra
folosirea unor metode diferite de prevenie de la un grup de elevi la altul sau va merge pe combinarea
metodelor de lucru indirecte cu cele directe. Cum rezultatele acestui studiu nu justific deocamdat
realizarea unor schimbri n modul de implementare a programului de prevenie la elevi, Ana va continua
punerea n aplicare a acestuia, pn cnd rezultatele cercetrilor ulterioare i vor furniza un rspuns mai
tranant la ntrebarea sa.
Tabelul 10.1 Valori Critice pentru testul t
Nivele de semnificaie pentru testul direcionat (one-tailed)
0.10
0.05
0.025
0.01
0.005
Nivele de semnificaie pentru testul nedirecionat (two-tailed)
df
0.20
0.10
0.05
0.02
0.01
1
3.078
6.314
12.706
31.821
63.657
2
1.886
2.920
4.303
6.965
9.925
3
1.638
2.353
3.182
4.541
5.841
4
1.533
2.132
2.776
3.747
4.604
5
1.476
2.015
2.571
3.365
4.032
6
1.440
1.943
2.447
3.143
3.707
7
1.415
1.895
2.365
2.998
3.499
8
1.397
1.860
2.306
2.896
3.355
9
1.383
1.833
2.262
2.821
3.250
10
1.372
1.812
2.228
2.764
3.169
11
1.363
1.796
2.201
2.718
3.106
12
1.356
1.782
2.179
2.681
3.055
98
0.0005
0.001
636.619
31.689
12.941
8.610
6.859
5.959
5.405
5.041
4.781
4.587
4.437
4.318
13
1.350
1.771
2.160
2.650
3.012
4.221
14
1.345
1.761
2.145
2.624
2.977
4.140
15
1.341
1.753
2.131
2.602
2.947
4.073
16
1.337
1.746
2.120
2.583
2.921
4.015
17
1.333
1.740
2.110
2.567
2.898
3.965
18
1.330
1.734
2.101
2.552
2.878
3.922
19
1.328
1.729
2.093
2.539
2.861
3.883
20
1.325
1.725
2.086
2.528
2.845
3.850
21
1.323
1.721
2.080
2.518
2.831
3.819
22
1.321
1.717
2.074
2.508
2.819
3.792
23
1.319
1.714
2.069
2.500
2.807
3.767
24
1.318
1.711
2.064
2.492
2.797
3.745
25
1.316
1.708
2.060
2.485
2.787
3.725
26
1.315
1.706
2.056
2.479
2.779
3.707
27
1.314
1.703
2.052
2.473
2.771
3.690
28
1.313
1.701
2.048
2.467
2.763
3.674
29
1.311
1.699
2.045
2.462
2.756
3.659
30
1.310
1.697
2.042
2.457
2.750
3.646
40
1.303
1.684
2.021
2.423
2.704
3.551
60
1.296
1.671
2.000
2.390
2.660
3.460
1.282
1.645
1.960
2.326
2.576
3.291
Valoarea t obinut din calcule este semnificativ dac ea este mai mare sau egal cu valoarea listat n
tabel
Testul t pentru eantioane mari
In cazul in care cele doua eantioane sunt mari, adic depesc limita convenional a celor 30
indivizi, eroarea standard a diferenelor dintre medii se calculeaz dup o formula mai simpl n care nu
intervin gradele de libertate, iar testul care se utilizeaz este testul z (Vezi Modulul 6, despre Distribuia
normal). Indicatorul z are o distribuie normal cu media 0 si abaterea standard 1 si nu depinde de numrul
gradelor de libertate (important e ca eantionul sa fie mare). Formula de calcul a statisticii t (in acest caz
echivalent cu indicatorul z) este:
m1 m2
12 22
n1 n 2
mD
sD / n
unde mD este media distribuiei D (a diferenelor dintre cele dou msurri), iar sD este abaterea
standard a distribuiei D (msoar mprtierea distribuiei D).
Exemplu: Dorii s aflai dac n urma participrii la un grup de suport pentru mamele singure,
nivelul de stres al celor 8 participante s-a redus. In acest caz ipoteza de cercetare este ca participarea la
99
grupul de suport reduce semnificativ nivelul de stres al mamelor singure. Aplicnd acelai chestionar care
msoar nivelul de stres nainte i dup 6 luni de participare la grupul de suport, obinei rezultatele din
tabelul urmtor. Aplicai testul t, situndu-v la un nivel de semnificaie de .0.01.
X
n
m
sD
nainte de
program
(X1)
7
9
11
10
6
7
12
6
Dup
program
(X2)
7
8
12
9
6
6
11
5
68
8
64
8
-4
8
8,50
mD= - 0,5
D
(X2 - X1)
D - mD
(D - mD)2
.00
-1.00
1.00
-1.00
.00
-1.00
-1.00
-1.00
.50
-.50
1.50
-.50
.50
-.50
-.50
-.50
.25
.25
2.25
.25
.25
.25
.25
.25
(D mD )2
n 1
mD
4
0 , 75
7
0 ,5
2 ,08
0,75 / 8
100
a cercetrii (adic, ncercm s dovedim ca fals o legatur care n mod obinuit este considerat ca fiind
adevrat), suportul statistic sau nesprijinirea pentru respingerea ipotezei nule trebuie, firete, s fie
prezentat.
Forma distribuiei
Faptul c variabila independent este de nivel interval i c cea dependent este de nivel nominal
nu justific folosirea lui t pentru a determina prezena unei legturi ntre dou variabile. Testul t este un test
din categoria celor parametrice, ceea ce nseamn c este proiectat pentru a fi folosit doar cnd variabila de
nivel interval poate fi considerat a fi normal distribuit n populaie. Dac distribuia de frecvene pentru
valorile variabilei n populaie este vizibil asimetric, va trebui folosit un alt test, ca de pild, testul Mc
Neamar, testul exact Ficher, testul Man-Whitney, etc. Credibilitatea rezultatelor cercetrii este serios
periclitat dac testul t este folosit cu variabile a cror distribuie este departe de curba normal.
Abordarea ocant
O a doua greeal obinuit implic calcularea n serie a testelor t, cu o singur variabil
dependent legat eventual de mai multe variable independente. n cteva exemple particulare ale acestei
erori, cercettorii au calculat testele t folosind sute de posibile variabile independente (fr prea mare
legtur), doar pentru a anuna cu mndrie c ei au gsit o legtur semnificativ statistic ntre una dintre
variabilele independente i variabila dependent.
Teoria probabilitilor sugereaz c astfel de rezultate reflect probabil erori de Tipul I i c
legtura aparent va fi legat de ans i nimic mai mult. Conform legilor probabilitii, o variabil
dependent va prea c are o asociere semnificativ statistic cu cteva variabile independente dac sunt
testate suficiente legturi. n situaiile unde exist motive s credem c mai multe variabile independente
diferite pot fi n legtur cu variabila dependent, ar trebui s folosim alte teste statistice, special proiectate
pentru astfel de situaii.
10.6. Un exemplu
Descrierea situaiei care genereaz un studiu
Florin este un asistent social ntr-un centru de planificare familial. El a fost nvat n agenia sa
c cea mai bun form pentru consilierea marital este de a ntlni ambii parteneri (soul i soia) mpreun.
nainte cu cinci ani, a tratat 20 de cupluri n care consilierea nu s-a putut realiza dect individual (so sau
soie), din cauza programului pe care l aveau acetia la serviciu. El a fost surprins observnd c, dei ei nu
au consiliai niciodat mpreun, dup primele interviuri, toate cele 20 de cupluri preau s realizeze un
progres excelent n rezolvarea problemelor lor maritale.
De-a lungul a ctorva ani, Florin a consiliat tot mai multe cupluri pe o baz individual. Creznd
c a obinut rezultatele bune datorit metodei folosite, el a ncurajat ase dintre colegii si s consilieze
cuplurile cu dificulti maritale, ntlnindu-i separat mai degrab dect mpreun. Ali asisteni sociali au
fost de asemenea surprini de progresele excelente ale clienilor lor. Florin nu a fost pregtit s
concluzioneze c metoda de consiliere marital individual este preferabil consilierii cuplului. El a decis
s realizeze o mic cercetare pentru a vedea dac poate gsi suport statistic pentru ipoteza c satisfacia
marital este cel mai bine sporit cnd partenerii sunt tratai n consiliere individual i nu de cuplu.
101
Rezultatele
Valoarea lui t pentru informaiile lui Florin, a fost de 1.312 . Din tabelul valorilor critice ale lui t
(Tabelul 10.1), el a observat c ar fi avut nevoie de o valoare minim a lui t de 1.706 pentru a putea
respinge ipoteza nul (pornind de la o ipotez direcional i folosind o statistic semnificativ la nivelul
0.05, un eantion de 28 indivizi statistici i 26 de grade de libertate).
102
nul poate fi interpretat n termenii existenei unei diferene prea mici determinate de metoda de consiliere
folosit.
Florin i-a pus, de asemenea, problema cum de a putut grei. Rezultatele cantitative din studiul
su au fost inconsistente n ceea ce privete impresiile anterioare. El s-a ntrebat dac el sau ali asisteni
sociali nu cumva au perceput doar c consilierea individual fcut de ei duce la rezultate superioare,
pentru c ei au fost surprini c ceilali clieni consiliai n cuplu au putut obine rezultate superioare.
Firete el s-a ntrebat dac ipoteza sa poate fi nc corect. S-ar putea ca adevrata legtur dintre variabila
dependent i cea independent s fi fost ascuns de tehnica msurtorilor sau de influena altor variabile
(de exemplu, experiena mare a asistenilor sociali care au efectuat consilierea n cuplu). Florin a
concluzionat c sunt necesare studii suplimentare pentru a clarifica aceast situaie.
Respondent's Sex
Highest Year of
Male
School Completed Female
N
633
877
103
Std. Error
Mean
Std. Deviation
Mean
13.23
3.143
.125
12.63
2.839
.096
Sig.
df
Std.
Mean
Sig.
Error
Differ(2-tailed)
Difference
ence
95%
Confidence
Interval of the
Difference
Lower Upper
Highest
Year of
School
Completed
Equal
variances 11.226
assumed
Equal
variances
not
assumed
.001
3.887
1508
.000
.60
.155
.298
.906
3.824
1276.5
.000
.60
.157
.293
.911
Ca de obicei, apare sintaxa corespunztoare opiunilor din meniu folosite. n tabelul urmtor apar
valorile mediilor variabilei nivelul educaional al respondentului pentru cele dou populaii (din
eantion), abaterile standard i erorile standard corespunztoare. Ultimul tabel este cel care prezint
rezultatele testului de semnificaie. n primele dou coloane avem valori pentru testarea egalitii
varianelor distribuiilor variabilei pentru cele dou populaii, sau altfel spus, similaritatea omogenitii
celor dou distribuii, folosind testul F3. Aici cele dou distribuii sunt semnificativ diferite (p=0.001 sau
P=99.9%); n consecin, vom citi valorile de pe rndul de jos, calculate pentru variane semnificativ
diferite ale celor dou distribuii. Valoarea lui t este 3.824, la nivelul de semnificaie p=0.000, ceea ce
nseamn c sunt 99.9% anse ca diferena s fie real. De asemenea, dac ne uitm la intervalul de
confiden pentru diferena mediilor Confidence Interval of the (Mean) Difference, observm c nu
conine valoarea 0, deci nu este posibil ca diferena mediilor s fie 0, adic mediile s fie egale. Aadar,
exist o diferen semnificativ ntre femei i brbai, la nivelul populaiei, n ceea ce privete numrul de
ani de coal absolvii (brbaii au, n medie, mai muli ani de coal dect femeile: mediile lor sunt 13.23,
respectiv 12.63).
Observie: n cazul eantioanelor perechi, procedura SPSS este urmtoarea: din meniul Statistics,
Compare Means, Paired-Sample T test. Introducem variabilele pe care le testm n rubrica Grouping
Variables.
Putei afla mai multe despre testul F din volumul Metode statistice aplicate n tiinele sociale (2006),
Rotariu T. (coord.), Ed. Polirom, Iai, pp. 102-106.
104
105
Modul 11
Corelaia
Acest capitol explic modul n care putem s analizm legtura dintre dou variabile de nivel
interval sau rapoarte prin procedura analizei de corelaie.
Numele clientului
Florin
Jana
Robert
Sica
Horia
Radu
Margareta
Ana
Dorina
Lia
Figura 11.1 Legtur perfect pozitiv ntre dou variabile: nivel de funcionare social i nivel de
motivaie (din Tabelul 11.1)
Nivel
de
funcionare
(Y)
11 10 987654321-
Florin
|
1
|
2
Robert
Jana
|
3
|
4
Horia
Sica
|
5
|
6
Nivel de motivaie (X)
Lia
Dorina
Ana
Margareta
Radu
|
7
|
8
|
9
|
10
|
11
Aceast legtur poate fi vizualizat cu ajutorul diagramei de mprtiere, ca cea ilustrat n Figura
11.1. Axa orizontal reprezint rezultatele individuale obinute de clieni la testul care msoar nivelul de
motivaie (X), n timp ce axa vertical reprezint rezultatele individuale privind nivelul de funcionare
106
social (Y). Fiecare punct reprezint un caz i totodat o pereche de valori, msuri ale celor dou variabile
pentru client. Dac punctele se conecteaz, ele vor forma o linie dreapt, indicnd c cele dou variabile
sunt perfect corelate. Asemenea perfeciune este rar ntlnit n practica cercetrii de asisten social. Aici
ea este folosit pentru a ilustra conceptul de corelaie.
Intensitate i direcie
Figura 11.1 pune n eviden dou aspecte importante ale relaiei dintre variabile: intensitatea i
direcia. In ceea ce privete intensitatea, o legtur ntre dou variabile este cea mai puternic atunci cnd
rezultatele tuturor clienilor cad pe o linie drepte. Linia care trece prin toate punctele (reprezentnd clienii)
diagramei de mprtiere este numit linie de regresie. n aceste, foarte rare, cazuri n care exist o legtur
perfect, putem prezice cu precizie maxim (de 100%) c unei valori Y i corespunde o anume valoare X,
i viceversa. n cazurile obinuite unde intensitatea legturii este mai puin perfect, linia de regresie este
mai puin distinct, iar capacitatea noastr de a prezice valorile unei variabile din valorile alteia este supus
erorii.
Figura 11.2 Legtur perfect negativ ntre dou variabile: nivelul de funcionare social i durata izolrii
Nivel
de
funcionare
(Y)
11 10 987654321-
|
6
|
7
|
8
|
1
|
2
|
3
|
4
|
5
|
|
9
10
Numrul de luni petrecute n izolare (X)
|
11
n afar de intensitate, corelaia are i un al doilea aspect: direcia legturii. Legtura din Figura
11.1 este una pozitiv: legtura dintre nivelul de motivaie i nivelul de funcionare social a clienilor este
o legtur pozitiv (o legtur perfect pozitiv). Unor valori nalte pentru X ii corespund valori nalte
pentru Y, i viceversa. ntr-o legtur negativ (ca cea din Figura 11.2), valorile nalte ale unei variabile
corespund unor valori sczute pentru cea de-a doua variabil. Corelaia perfect pozitiv i corelaia
perfect negativ sunt foarte rare n realitatea social, ele aprnd mai des n domeniul fizicii.
n cercetrile sociale, putem ntlni multe variabile care sunt corelate (pozitiv sau negativ) dar
exist situaii n care nu exist legturi de corelaie ntre dou variabile. Acestea lucru este susinut de
ipoteza nul. Totui majoritatea legturilor dintre variabilele de nivel interval sau rapoarte reflect un
anumit grad de corelaie, mergnd de la legturi aproape perfecte i ajungnd pn la legturi abia
distinctibile numite i corelaii nonperfecte.
Figura 11.3 Legtur nonperfect pozitiv ntre dou variabile: nivelul de motivaie i nivelul de
funcionare social
Nivel
de
funcionare
(Y)
11 10 987654321-
Robert
Sica
|
1
|
3
|
4
|
5
|
2
|
6
Nivel de motivaie (X)
107
|
7
|
8
|
9
|
10
|
11
Similar, figura 11.4 furnizeaz un exemplu de legtur negativ care este mai puin perfect.
Figura 11.5 prezint un exemplu n care nu se poate observa nici un fel de legtur ntre cele dou variabile.
Figura 11.4 Legtur nonperfect negativ ntre dou variabile: nivelul de motivaie i nivelul de
funcionare social
Nivel
de
funcionare
(Y)
11 10 987654321-
|
7
|
8
|
9
|
10
|
2
|
3
|
4
|
5
|
1
|
6
Nivel de motivaie (X)
|
11
Figura 11.5 Nici o legtur ntre dou variabile: nivelul de motivaie i nivelul de funcionare social
Nivel
de
funcionare
(Y)
11 10 987654321-
|
7
|
8
|
9
|
2
|
3
|
4
|
5
|
1
|
6
Nivel de motivaie (X)
|
10
|
11
|
0
Ne-corelaie
|
+1
Corelaie pozitiv
108
Cu ct valoarea numeric a coeficientului de corelaie este mai aproape de una din valorile
extreme (+1 sau -1), cu att mai puternic este legtura dintre cele dou variabile. De exemplu, un
coeficient de 0,92 este mai apropiat de o corelaie perfect dect oricare din coeficienii -0,65 sau +0,60 i
de aceea, sugereaz o mai puternic corelaie dect oricare dintre cele dou. Cu ct coeficientul este mai
apropiat de mijlocul acestui interval cu att legtura dintre cele dou variabile este mai slab. Un coeficient
de corelaie care este apropiat de valoarea 0 sugereaz c nu exist nici o legtur de corelaie ntre cele
dou variabile.
Semnul plus sau minus indic direcia legturii. De exemplu, corelaia dintre nivelul ndemnrii
asistenilor sociali i anii de experiena profesional n asisten social poate fi de +0,85. Absena semnului
minus indic o legtur pozitiv. Corelaia dintre nivelul de ndemnare i nivelul de apatie a celor care
muncesc poate fi de -0,75, indicnd astfel o puternic legtur negativ. Exist persoane care sunt mai
apatice i mai ne-implicate n munca lor, astfel este normal ca ele s fie mai puin ndemnatice, i
viceversa.
Pot fi utilizate o varietate de analize de corelaie. Una din procedurile cele mai frecvent utilizate
este i cea care va fi prezentat n acest capitol. Este vorba de coeficientul de corelaie Pearson (sau
coeficientul de corelaie r), pe care l vom numi n discuiile ce urmeaz, simplu: r. El se calculeaz cu
formula:
xi m * yi m
x
N * x * y
unde:
xi i yi reprezint valorile individuale ale distribuiilor X i Y
mx i my reprezint mediile distribuiilor X i Y
x i y reprezint abaterile standard ale distribuiilor X i Y
N este volumul eantionului
Suma produselor perechilor (xi-mx)*(yi -my) mprit la volumul eantionului este cunoscut sub
denumirea de covarian (notat cu cov(X,Y) ) sau momentul produselor de ordinul nti. Coeficientul r se
obine prin mprirea covarianei la produsul dintre abaterile standard ale celor dou variabile. Procednd
astfel, se scap de unitile de msur ale covarianei i de intervalul ei nedefinit de variaie, obinndu-se
un indice (r) care are proprieti mult mai bine definite.
nelegerea indicatorului statistic r
Folosind r, ncercm s determinm statistic ceea ce arat o diagram de mprtiere - adic, pn
la ce grad punctele reprezentnd valorile celor dou variabile pentru fiecare caz vor tinde s formeze o linie
dreapt. Dac valoarea lui r este mare (dac se apropie de +1 sau -1) punctele vor tinde s se strng
aproape de linia de regresie; iar dac valoarea lui r este mic (n apropierea lui 0) o diagram a punctelor va
reflecta distanarea punctelor fa de dreapta de regresie.
Pentru a nelege cum a aprut formula lui r ca un indicator al corelaiei dintre variabile, este bine
s inem minte c r este interpretat ca o expresie a abilitii noastre de a prezice o valoare a unei variabile
pe baza valorii celeilalte variabile. Nu este implicat nici o relaie de cauzalitate. Argumentul care explic
ce variabil cauzeaz variaia alteia, trebuie s se bazeze pe ali factori.
Trebuie remarcat n formula lui r, c numrtorul este derivat din perechile de valori (una pentru
fiecare variabil) ale fiecrui caz. Suma de la numrtor reflect gradul n care variaz mpreun cele dou
variabile iar prin mprirea la volumul eantionului avem expresia variaiei medii. Exprimat n alt fel,
covariana ne spune n ce grad anumite valori ale unei variabile tind s fie gsite mpreun cu anumite
valori ale celeilalte variabile.
La numitor, formula introduce cantitatea total de variaie a tuturor datelor; anume produsul
abaterilor standard al celor dou variabile. Valoarea r care rezult din formula final, este proporia din
variaia total ce revine covariaiei de la numrtor. ntr-o corelaie perfect (r = +1 sau r = -1), 100 % din
variaia total a celor dou variabile va fi explicat de ctre covariaia de la numrtor. Invers, n acele
cazuri rare n care nu exist corelaie (r = 0) ntre variabile, nimic din variaia total nu va fi explicat de
109
A.s. 3
30
5
A.s. 4
40
4
A.s. 5
50
3
As. 6
50
2
A.s. 7
60
1
Coeficientul de corelaie msoar intensitatea unei relaii liniare dintre dou variabile X i Y,
dintre care una poate fi considerat variabil independent (n acest caz, numrul de ore de perfecionare),
iar cealalt variabila dependent (n acest caz, numrul de eecuri n intervenie)4. Semnul coeficientului de
corelaie r indic direcia legturii dintre cele dou variabile.
Pornind de la datele empirice se poate construi Tabelul 11.3.
Concluzii: Coeficientul de corelaie ntre numrul de ore de formare realizate i numrul de
eecuri n intervenie este -.98, foarte apropiat de -1, indicnd o corelaie negativ foarte puternic. Pe baza
acestui rezultat, Robert concluzioneaz c asistenii sociali care s-au perfecionat mai intens au mai puine
eecuri n munca de intervenie. Totui, este important de reinut: corelaia nu implic i cauzalitate.
Aadar, nu se poate afirma faptul c un anumit numr de ore de formare cauzeaz un anumit numr de
eecuri n intervenie. Exist i ali factori cu care cele dou variabile sunt, la rndul lor, corelate (cum ar fi
de pild, trsturile de personalitate ale asistenilor sociali). Dar putem oare extinde rezultatul la ntreaga
populaie a asistenilor sociali?
4
Nu este absolut nevoie s facem distincie ntre variabila independent i cea dependent, pentru c r nu
cere acest lucru.
110
Tabelul 11.3. Schem de calcul pentru coeficientul de corelaie r a lui Pearson. Corelatia dintre
numarul de ore de perfectionare (X) si numarul de cazuri esuate (Y), la 7 asistenti sociali
x
y
x-mx
(x-mx)2
y-my (y-my)2
(x-mx)(y-my)
20
7
-20
400
3
9
-60
30
6
-10
100
2
4
-20
30
5
-10
100
1
1
-10
40
4
0
0
0
0
0
50
3
10
100
-1
1
-10
50
2
10
100
-2
4
-20
60
1
20
400
-3
9
-60
= 280
mx = 40
= 28
my = 4
= 0
r = cov (X , Y) / ( x * y )
test direcional, n = 7, p < 0.005
= 1200
x= 171,4
x = 13,1
= 0
= -25,7 / (13,1 * 2)
= 28
2y = 4
y = 2
=
= -180
cov(x,y)= -25,7
-0,98
111
.005
.01
.413
.408
.403
.398
.393
.389
.384
.380
11
12
13
14
15
16
17
18
19
20
.602
.576
.553
.532
.514
.497
.482
.468
.456
.444
.735
.708
.684
.661
.641
.623
.606
.590
.575
.561
46
47
48
49
50
55
60
65
70
75
.291
.288
.284
.281
.279
.266
.254
.244
.235
.227
.374
.372
.368
.364
.361
.345
.330
.317
.306
.296
21
22
23
24
25
26
27
28
29
30
.433
.423
.413
.404
.396
.388
.381
.374
.367
.361
.549
.537
.526
.515
.505
.496
.487
.478
.470
.463
80
85
90
94
100
125
150
175
200
300
.220
.213
.207
.202
.195
.170
.159
.148
.138
.113
.286
.278
.270
.263
.256
.230
.210
.194
.181
.148
31
32
33
34
35
36
37
.355
.349
.344
.339
.334
.329
.325
.456
.449
.442
.436
.430
.424
.418
400
500
600
700
800
900
1000
.098
.088
.080
.074
.070
.065
.062
.128
.115
.105
.097
.091
.086
.081
112
se consider ca fiind substanial. Dintr-o perspectiv diferit, identificarea faptului c nu exist o asociere
(r = 0) ntre dou variabile despre care se credea c sunt legate, poate reprezenta cel mai important rezultat
al unui studiu.
n interpretarea unui coeficient de corelaie, mai este important s nu l tratm ca i cum ar fi
echivalent cu date de nivel interval sau rapoarte; sau s nu facem judeci care dau o astfel de impresie. De
exemplu, un coeficient de corelaie de 0,80 nu este de dou ori mai puternic ca unul de 0,40. De fapt, 0,80
descrie o asociaie de patru ori mai puternic (0,802 = 0,64; 0,402 = 0,16; 0,64 / 0,16 = 4) n ceea ce privete
cantitatea de variaie pe care o poate explica din variaia total a celeilalte variabile. Trebuie inut minte c
un coeficient de corelaie att de puternic ca 0,80, arat un model (pattern) de la care se vor abate foarte
puine excepii - adic tuturor valorilor mari ale primei variabile le vor corespunde virtual valori mari i
pentru cea de a doua variabil, i viceversa. Un coeficient de corelaie mai slab (aa ca 0,40) va avea un
procentaj mai mare de cazuri care se opun direciei de asociere.
11.4. Un exemplu
Descrierea situaiei care genereaz un studiu
Radu este un asistent social ntr-o agenie de servicii familiale. El conduce cteva grupuri de
tratament, constituite din adolescente. Recent el i-a dat seama de variabilitatea mare n participarea verbal
printre membrii grupului. Virtual toate fetele ar fi trebuit s participe la discuiile de grup; dar cteva dintre
ele nu au fcut niciodat vreun comentariu nesolicitat. El a simit c aceste fete aveau un nivel sczut al
dorinei de a se implica n grup. Dup o perioad de cteva sptmni, Radu a ntrebat cteva dintre fetele
mai timide, de ce sunt aa de rare comentariile lor voluntare. Dintre cele apte fete ntrebate, cinci au dat un
rspuns asemntor: fiecare a fost singurul copil n familie i au fost nvate de ctre prini c nu este
datoria lor s iniieze comunicarea. Apoi Radu le-a ntrebat pe trei dintre cele mai vorbree, care nclinau
s domine discuiile din grup, ci frai i /sau surori au. Rspunsurile lor au fost ase, apte i nou.
113
Pe baza incursiunii sale limitate, Radu a nceput s speculeze o posibil legtur ntre o variabil
dependent, neiniierea unui comentariu n tratamentul de grup i o variabil independent, numrul frailor
din familie.
Rezultatele
Radu a folosit r pentru a determina dac poate s aib suport statistic pentru ipoteza sa. Folosind
formula pentru r, el a aflat c valoarea coeficientului de corelaie dintre numrul comentariilor nesolicitate
pe edin i numrul de frai a fost de 0,340. Gndindu-se la ceea ce nseamn puterea corelaiei, el a fost
oarecum dezamgit, dar reamintindu-i c dimensiunea eantionului su este mare (35 este relativ mare
pentru r), i-a dat seama c nu avea nevoie de o corelaie mare pentru a avea semnificaie statistic. Cnd sa uitat n tabelul pentru r, unde dimensiunea eantionului este controlat (Tabelul 11.4), el a observat c
probabilitatea comiterii unei erori de tipul I n respingerea ipotezei nule cu o corelaie de 0,340 i un
eantion de 35 era mai mic dect 0,025. (De semnalat c 0,340 se gsete la dreapta lui 0,334, dar este n
stnga lui 0,430).
114
115
Correlations
Infant
mortality
Gross
(deaths
domestic
per 1000
product /
Females who
live births)
capita
read (%)
Infant mortality (deaths Pearson Correlation
1
-.640**
-.843**
per 1000 live births)
Sig. (2-tailed)
.
.000
.000
N
109
109
85
Gross domestic
Pearson Correlation
-.640**
1
.429**
product / capita
Sig. (2-tailed)
.000
.
.000
N
109
109
85
Females who read (%) Pearson Correlation
-.843**
.429**
1
Sig. (2-tailed)
.000
.000
.
N
85
85
85
**. Correlation is significant at the 0.01 level (2-tailed).
Care va fi forma unei diagrame de mprtiere care reflect o corelaie negativ perfect?
Ce coeficient de corelaie sugereaz o legtur mai puternic ntre dou variabile, 0,74 sau -0,86?
Ce coeficient de corelaie sugereaz c nu exist nici o legtur ntre dou variabile de nivel interval?
Cum influeneaz dimensiunea eantionului, mrimea coeficientului de corelaie considerat
semnificativ statistic?
Cum se poate ca o corelaie foarte slab, de 0,10 , s fie o contribuie valoroas la mbuntirea
cunotinelor practice?
De ce nu este corect s afirmm c un coeficientul de corelaie de 0,84 sugereaz o legtur de dou ori
mai puternic dect un coeficient de corelaie de 0,42?
De ce analizele bivariate, asemenea lui r, nu furnizeaz n mod uzual o explicaie total asupra legturii
dintre dou variabile?
Poate o analiz bivariat de corelaie s ne spun care variabil cauzeaz variaia n a doua variabil?
Explicai.
116
Cnd poate un coeficient de corelaie s fie folosit pentru a prezice, cu siguran de 100%, valorile unei
variabile cu ajutorul valorilor cunoscute pentru cealalt variabil?
10. Care este formatul obinuit pentru prezentarea rezultatelor din analiza de corelaie?
9.
117
ANEXE
A: Calendarul disciplinei
Tema
Termen
predare
Tutorial (AT)
Tematica
Activiti asistate
(AA)
Termen
Laborator Lucrari
programat
practice/
proiect
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
2
3
4
Sesiune
examene
Programare curent
Sptmna
118
Verificri
Data
Tipul
(E/C/V)
119