Documente Academic
Documente Profesional
Documente Cultură
Concepte fundamentale
(populaie/eantion; distribuia de eantionare; ipoteze i decizii statistice)
Testul z(t) pentru un singur eantion
Populaie i eantion
Parametrii populatiei
Indicatorii
m s2 s
esantion
esantionului s2
estimeaza
s
Exemple:
-ntr-un studiu asupra efectelor accesului la internet asupra elevilor de liceu, elevii
de liceu reprezint populaia, iar elevii selecionai pentru investigaie,
eantionul.
-ntr-un studiu care vizeaz influena inteligenei asupra performanei n instruirea
de zbor, populaia este reprezentat de toi piloii, iar eantionul, de subiecii inclui
n studiu.
Dac am reui recoltarea datelor cu privire la ntreaga populaie care face obiectul
cercetrii, am putea trage concluzii directe cu privire la aceasta prin utilizarea
indicatorilor statistici descriptivi cunoscui (medie, dispersie, abatere standard) numii i
parametrii populaiei. Dar acest lucru nu este aproape niciodat posibil i, ca urmare,
indicatorii statistici ai eantionului sunt utilizai pentru a face estimri, inferene, cu privire
la parametrii populaiei. n esen, a testa o ipotez statistic nseamn a emite concluzii
asupra unei populaii pe baza rezultatelor obinute pe un eantion care aparine acelei
populaii. n acest context, demersul tiinific presupune urmtorii pai:
-formularea problemei cercetrii (sub forma unei ntrebri, cu referire la o
anumit populaie);
-emiterea unei ipoteze privind cel mai probabil rspuns;
-selectarea unui eantion;
-aplicarea unei proceduri care sa permit acceptarea sau respingerea ipotezei.
Reprezentativitatea eantionului
Cteva exemple:
Dac msurm timpul de reacie la un numr de cinci subieci, dar facem trei evaluri
la fiecare subiect, nu avem eantion de 15 valori independente, deoarece valorile
aceluiai subiect au n comun o constant personal care le face dependente una de
cealalt. Pentru avea un singur eantion am putea s utilizm media celor trei
determinri pentru fiecare subiect.
Dac dorim s investigm efectul inteligenei asupra performanei colare trebuie s
avem grij s includem n eantion subieci provenind din familii cu un nivel variat al
veniturilor, pentru a anihila influena statutului socio-economic asupra performanei
colare.
Un studiu asupra atitudinii fa de utilizarea computerelor n educaie, poate fi
influenat n mod sistematic dac eantionul este constituit numai din elevi care
utilizeaz frecvent calculatorul.
n cazul unui sondaj cu privire la inteniile de vot bazat pe interviul telefonic, vom
obine rezultate afectate de starea social a respondenilor (i permit montarea unui
telefon) sau de ora apelului (n orele dimineii sunt acas, s zicem, mai multe femei
casnice).
Dac fiecare dintre cele patru eantioane de valori are propria sa medie, atunci
distribuia mediilor tuturor eantioanelor extrase se numete distribuia mediei de
eantionare sau, mai scurt,
distribuia de eantionare. La rndul ei, distribuia mediilor are i ea o medie, numit
medie de eantionare, i care se calculeaz, evident, dup urmtoarea formul:
unde este media populaiei, valorile m sunt mediile fiecrui eantion constituit, iar k este
numrul eantioanelor.
n acest exemplu, cele cinci eantioane nu sunt toate, ci doar o parte din
eantioanele posibile de 3 valori extrase din populaia cercetat. Media distribuiei de
eantionare pentru acest exemplu este:
n ceea ce privete mprtierea distribuiei de eantionare, aceasta este, aa cum am
spus, mai mic dect mprtierea variabilei la nivelul ntregii populaii, deoarece o parte a
mprtierii generale se concentreaz (se pierde) n media fiecrui eantion extras. Ca
urmare, abaterea standard a distribuiei de eantionare este o fraciune din abaterea standard
a populaiei, fiind dependent de mrimea eantionului. Mai precis, fr a intra n detalii
explicative, abaterea
standard a distribuiei de eantionare este egal cu N din abaterea standard a populaiei,
unde N este volumul eantionului.
Deoarece mprtierea mediei de eantionare arat ct de mult se abat aceste
medii de la media populaiei, abaterea standard a mediei de eantionare este denumit
eroare standard a mediei i se calculeaz cu formula:
Figura de mai jos sugereaz foarte bine modul n care, prin creterea volumului
eantionului, media eantionului se apropie tot mai mult de media populaiei, cu alte
cuvinte, comport o eroare din ce n ce n mai mic fa de aceasta.
Expresia de eroare standard a mediei poate fi mai greu de neles, dat fiind
faptul c este folosit pentru a defini un indicator al mprtierii, n timp ce are n
compunere cuvntul medie. Trebuie ns s reinem faptul c acest indicator msoar
ct de departe poate fi media unui eantion de media populaiei din care a fost extras.
Altfel spus, ct eroare poate conine media unui eantion n estimarea mediei
populaiei. Avnd n vederea faptul c la numitor avem o expresie bazat pe N (volumul
eantionului), este limpede de ce, cu ct eantionul este mai mare, cu att eroarea
standard a mediei este mai mic.
Teorema limitei centrale
Ne vom referi acum la exemplul anterior, n care avem cinci eantioane extrase
dintr-o populaie de 10 valori. Dac avem media distribuiei de eantionare i abaterea
standard a acesteia (calculat ca eroare standard a mediei, cu formula 3.1), atunci putem
exprima media unui eantion oarecare, ca scor standardizat z, ntr-o manier similar cu
scorul standardizat z pentru o valoare oarecare. Rostul acestei transformri ar fi acela de a
vedea n ce msur media eantionului de studiu se ndeprteaz de media populaiei de
referin. Cu alte cuvinte, n ce msur rezultatul obinut pe eantion este unul obinuit
(mai aproape de media populaiei) sau unul neobinuit (mai ndeprtat de media
populaiei).
Formula de calcul este foarte asemntoare cu formula lui z pentru valori individuale:
3
Dincolo de aceste considerente teoretice, mrimea eantioanelor utilizate n studiile
statistice psihologice face obiectul unor recomandri specifice pentru diferite situaii
practice de cercetare. Acestea vor fi prezentate mai trziu.
unde m este media eantionului, media populaiei, iar sm este eroarea standard a
mediei.
Dac presupunem c obiectul studiului l face eantionul 1, atunci putem calcula mai
nti eroarea standard a mediei, astfel:
Exemplu:
S presupunem c, la un examen de cunotine de statistic, o grup de 45
de studeni obine un scor mediu de m=28.5 puncte. Presupunnd c media pe
populaia studeneasc care a mai dat acest examen (calculat de-a lungul anilor
Ipoteza cercetrii
H1 mpomeg
unde mpo reprezint media inteligenei populaiei participanilor la olimpiade, iar meg
reprezint media inteligenei populaiei elevilor n general.
n conformitate cu ipoteza cercetrii, exist dou populaii distincte sub aspectul
nivelului de inteligen, cea a elevilor participani la olimpiade i cea a elevilor n general.
4
n realitate, media QI este diferit n funcie de vrst, dar, pentru exemplul nostru,
vom accepta c populaia general de elevi are o medie de 100 i o abatere standard de
15.
Procedura statistic care se bazeaz pe acest raionament se numete ipotez de
nul (se utilizeaz i alte variante: ipoteza diferenei nule sau, pur si simplu, ipotez
statistic). Respingerea ei implic o dovad indirect a validitii ipotezei cercetrii, i se
bazeaz pe un scenariu negativ (similar cu a pune rul n fa). Ipoteza de nul se
formuleaz ca opusul ipotezei cercetrii. n cazul nostru ipoteza de nul va fi exprimat
astfel: participanii la olimpiad nu au o inteligen mai mare dect populaia de elevi n
general.
Ipoteza de nul este simbolizat cu H0, iar expresia ei formal este:
H0 mpo=meg
unde m este media eantionului, este media populaiei, iar sm este eroarea standard
a mediei.
Rezultatul calculului este:
n exemplul de mai sus, fiind vorba de o valoare QI, a crei abatere standard la
nivelul populaiei ne este cunoscut (am optat pentru =15) i am utilizat-o ca atare. Dac
ar fi fost vorba de o variabil pentru care nu cunoteam abaterea standard la nivelul
populaiei, am fi putut utiliza aceeai valoare calculat pe eantionul de studiu (s=7).
Dac citim frecvena corespunztoare valorii z calculate (2.18) n tabelul distribuiei
normale, constatm c ntre media populaiei de nul (z=0) i nivelul inteligenei
eantionului de elevi olimpici se afl 48.54% dintre valorile posibile. De aici rezult c
exist 50-48.54 adic 1.46% anse (sau o probabilitate p=0.0146) ca hazardul s produc
un eantion cu un QI egal sau mai mare dect eantionul cercetrii noastre. Imaginea de
mai jos ilustreaz grafic poziia mediei eantionului de cercetare pe distribuia de nul.
Decizia statistic
Urmtorul pas pe care trebuie s l fac cercettorul este acela de a decide dac
valoarea medie a eantionului de olimpici decurge din faptul c acetia sunt ntr-adevr
mai inteligeni dect elevii n general, sau reprezint rezultatul unui joc al ansei, care a
condus la selecia unui eantion ce nu se difereniaz n mod real de populaia de nul.
Este evident faptul c, dac media eantionului de olimpici ar fi fost egal cu 100,
cercettorul ar fi decis c valoarea nu confirm ipoteza cercetrii. n exemplul dat ns,
media eantionului cercetrii fiind mai mare, ne punem problema, ct de mare trebuie s
fie diferena fa de media populaiei pentru a accepta c este o diferen real
(determinat de un factor de
influen, accesul la olimpiad pe baza inteligenei). Altfel spus, trebuie s decidem dac
acceptm sau respingem ipoteza de nul.
Din pcate, nu exist un criteriu obiectiv de decizie ntr-o situaie de acest gen.
Acceptarea sau respingerea ipotezei de nul depinde de gradul de risc pe care suntem
dispui s ni-l asumm n acest sens. Este evident c cineva interesat n acceptarea ideii
c olimpicii sunt mai inteligeni ar fi dispus s considere c valoarea obinut este
suficient de ndeprtat de medie pentru a respinge ipoteza de nul. La fel cum, cineva
nencreztor n aceast ipotez (considernd c efortul de studiu, motivaia, fac diferena
dintre participanii i neparticipanii la olimpiadele colare), ar putea fi dispus s impun un
prag de respingere mult mai sever. Iat de ce, n practica cercetrii tiinifice s-a impus
convenia unui prag maxim de risc acceptat pentru decizia statistic. Acest prag critic
se numete nivel alfa () i corespunde probabilitii de 0.05. Pe curba normal z, fiecrei
probabiliti i corespunde o anumit valoare z, ca urmare i probabilitii critice alfa i
corespunde o valoare critic z. Dat fiind faptul c a nceput prin a fi citit dintr-un tabel,
mai este desemnat i ca valoare tabelar.
Avem acum toate elementele pentru luarea deciziei statistice n cazul cercetrii
noastre, pe baza unui raionament convenional, identic pentru ntreaga comunitate
tiinific. Esena acestuia const n comparaia rezultatelor derivate dintr-un context de
cercetare cu cele specifice unui context ipotetic, aleatoriu (bazat pe ansa pur), dup cum
urmeaz:
a. Dac rezultatul calculat pentru eantion este cel puin egal sau mai mare dect
scorul critic, atunci avem un rezultat semnificativ al cercetrii. Aceasta, deoarece se
accept c ansele ca acest rezultat s fi decurs din ntmplare sunt suficient de mici
pentru a fi ignorate. n consecin, ntr-un astfel de caz, ipoteza de nul (H 0) se respinge,
iar ipoteza cercetrii (H1) se consider confirmat la un prag alfa=0.05 (dac acesta a fost
nivelul ales).
b. Dac rezultatul eantionului este mai mic dect scorul z critic, atunci avem un
rezultat nesemnificativ al cercetrii, prin faptul c exist prea multe anse ca acesta s
poat fi obinut n condiii pur aleatoare. n aceast variant, ipoteza de nul se accept, iar
ipoteza cercetrii se consider infirmat la un prag alfa=0.05.
c. Cele dou reguli decizionale de la punctele a i b sunt exprimate pe baza
comparaiei dintre valoarea calculat a testului i valoarea critic tabelar, aferent
nivelului alfa. Ele ns pot fi exprimate i direct, prin comparaia probabilitii valorii
calculate cu alfa. Singura diferen este dat de faptul c raportul dintre probabilitatea
asociat scorului calculat i alfa este invers dect n cazul valorilor. Astfel, ipoteza de nul
se admite dac probabilitatea (p) a valorii calculate este mai mare dect alfa, i se
respinge dac este egal sau mai mare dect acesta. Aceast precizare, i dovedete
utilitatea n momentul n care se utilizeaz programe statistice, care fac inutil consultarea
tabelelor distribuiei de nul, deoarece dau direct probabilitatea asociat valorii calculate a
testului.
Dat fiind faptul c z calculat (+2.18) este mai mare dect z critic pentru valoarea
lui alfa=0.05 (+1.65), decidem respingerea ipotezei de nul 5. Ca urmare, n legtur cu
studiul nostru demonstrativ, trebuie s decidem respingerea ipotezei de nul (participanii
la olimpiade nu sunt mai inteligeni dect elevii n general) ceea ce nseamn, implicit,
confirmarea ipotezei de cercetare. (participanii la olimpiade sunt mai inteligeni dect
elevii n general).
Raionamentul deciziei statistice exemplificat astfel, se va regsi n toate situaiile
de testare a ipotezelor statistice cu care ne vom confrunta mai departe, indiferent de
modelul de cercetare i de natura relaiei pe care vrem s o demonstrm ntre variabile.
O scurt discuie pe tema nivelului alfa maxim acceptabil (0.05) se impune, avnd
n vedere faptul c ntregul eafodaj al deciziei statistice se sprijin pe acest prag. Vom
sublinia, din nou, c p=0.05 este un prag de semnificaie convenional, impus prin
consensul cercettorilor din toate domeniile, nu doar n psihologie. Faptul c scorul critic
pentru atingerea pragului de semnificaie este 1.96 a jucat, de asemenea, un rol n
impunerea acestei convenii. Practic, putem considera c orice ndeprtare mai mare de
dou abateri standard de la media populaiei de referin este semnificativ. Chiar dac
persist posibiliti de a ne nela, ele sunt suficient de mici pentru a le trece cu vederea.
Impunerea unui prag minim de semnificaie a testelor statistice are ns, mai ales,
rolul de a garanta faptul c orice concluzie bazat pe date statistice rspunde aceluiai
criteriu de exigen, nefiind influenat de subiectivitatea cercettorului. Nivelul alfa de
0.05 nu este dect pragul maxim acceptat. Nimic nu mpiedic un cercettor s i impun
un nivel mai exigent pentru testarea ipotezei de nul, ceea e nseamn un prag alfa mai
sczut. n practic mai este utilizat pragul de 0.01 i, mai rar, cel de 0.001. Toate aceste
praguri pot fi exprimate i n procente, prin opusul lor, care exprim nivelul de ncredere
n rezultatul cercetrii. Astfel, printr-o probabilitate de 0.05 se poate nelege i un nivel
de ncredere de 95% n rezultatul cercetrii (99%, pentru p=0.01 i, respectiv, 99.9%
pentru p=0.001).
n fine, este bine s subliniem faptul c utilizarea acestor praguri vine din
perioada n care nu existau calculatoare i programe automate de prelucrare statistic. Din
acest motiv, cercettorii calculau valoarea testului statistic pe care apoi o comparau cu
valori tabelare ale probabilitii de sub curba de referin. Pentru a face mai practice aceste
tabele, ele nu cuprindeau toate valorile de sub curb, ci doar o parte dintre acestea, printre
ele, desigur, cele care marcau anumite praguri. Rezultatul cercetrii era raportat, de
aceea, prin invocarea faptului de a fi sub pragul de semnificaie sau deasupra sa.
Odat cu diseminarea pe scar larg a tehnicii de calcul i cu apariia programelor de
prelucrri statistice, semnificaia valorilor testelor statistice nu mai este cutat n tabele,
ci este calculat direct i exact de ctre program, putnd fi afiat ca
atare. De aici, aa cum am mai spus, rezult i posibilitatea de a lua decizia statistic prin
compararea direct a valorii calculate a lui p cu pragul alfa critic asumat.
Estimarea intervalului de ncredere pentru media populaiei
Mai departe, utiliznd formula 3.3 pentru datele eantionului cercetrii, limitele
de ncredere pentru media populaiei mediei pot fi calculate astfel:
Aa cum am precizat mai sus, testul z poate fi utilizat doar atunci cnd
cunoatem media populaiei de referin i avem la dispoziie un eantion mare (adic de
cel puin 30 de subieci, n cazul unei variabile despre care avem motive s credem c se
distribuie normal). Dar nu ntotdeauna putem avea la dispoziie eantioane mari (minim
30 de subieci). Pentru situaiile care nu corespund acestei condiii, testul z nu poate fi
aplicat. i aceasta, pentru c distribuia mediei de eantionare urmeaz legea curbei
normale standardizate doar pentru eantioane de minim 30 de subieci, conform teoremei
limitei centrale.
La nceputul secolului XX, William Gosset, angajat al unei companii
productoare de bere din SUA, trebuia s testeze calitatea unor eantioane de bere pentru
a trage concluzii asupra ntregii arje. Din considerente practice, el nu putea utiliza dect
eantioane (cantiti) mici de bere. Pentru a rezolva problema, a dezvoltat un model
teoretic propriu, bazat pe un tip special de distribuie, denumit distribuie t, cunoscut ns
i ca distribuia Student, dup pseudonimul cu care a semnat articolul n care i-a expus
modelul.
n esen, distribuia t este o distribuie teoretic care are toate caracteristicile
unei distribuii normale (este perfect simetric i are form de clopot). Specificul acestei
distribuii const n faptul c forma ei (mai exact, nlimea) depinde de un parametru
denumit grade de libertate (df sau degrees of freedom), care este egal cu N-1 (unde N
este volumul eantionului). Acest parametru poate fi orice numr mai mare dect 0, iar
mrimea lui este aceea care definete forma exact a curbei i, implicit, proporia
valorilor de sub curb ntre diferite puncte ale acesteia. Imaginea de mai jos ilustreaz
modul de variaie a nlimii distribuiei t, n funcie de gradele de libertate.
Interpretarea valorii lui t se face n mod similar cu cea pentru valoarea lui z, cu
deosebirea c se utilizeaz tabelul distributiei t (Anexa 2). n acest caz, valorile critice ale
lui t vor fi diferite n funcie de numrul de grade de libertate. Citind tabelul, se observ
c pragurile critice ale lui t (subnelegnd alfa=0.05, pentru test bilateral) se plaseaz la
valori diferite n funcie de nivelul df. n acelai timp, dac df este mare (peste 30),
valorile tabelare ale lui t se apropie de cele ale lui z. La infinit, ele sunt identice (1.96, la
fel ca i n cazul valorilor lui z).
Date fiind caracteristicile enunate, n practic, testul t se poate utiliza i pentru
eantioane mari (N30). n nici un caz ns, nu poate fi utilizat testul z pentru eantioane
mici (N<30). Utilizarea testului bazat pe un singur eantion (fie z sau t) depinde ntr-o
msur decisiv de asigurarea caracteristicii aleatoare a eantionului.
6
Programele de prelucrri statistice utilizeaz termenul Sig. (de la significance n loc
de p. Ele sunt strict echivalente.
UN EXEMPLU DE STUDIU BAZAT PE TESTUL z(t)
Aa cum am precizat deja, testul z sau testul t pentru un singur eantion (comparat
cu populaia de referin) sunt teste statistice destul de rar utilizate n practic, deoarece
rareori cunoatem parametrii populaiei (medie, abatere standard). Vom prelua aici un
studiu efectuat de Sara Tonin, (B.H. Cohen, op.cit., p. 205) cu privire la relaia dintre
depresia de lung durat (cronic) i nlime. Ipoteza cercetrii, bazat pe experien i
observaie ndelungat, a fost aceea c femeile care sufer de depresie cronic sunt mai
scunde dect cele care nu prezint aceast suferin psihic. n acest caz, ipoteza statistic
(de nul sau a diferenei nule) este c nu exist nici o diferen de nlime ntre femeile
care sufer i cele care nu sufer de depresie cronic.
n primul rnd, este necesar luarea n considerare a mediei populaiei feminine.
Aceasta a fost luat din studii de antropometrie, fiind: =165 cm. n faza urmtoare
cercettoarea a ales valoarea lui =0,05. A decis s utilizeze un test de tip bilateral
(aceasta pentru a acoperi i eventualitatea c femeile depresive sunt chiar mai nalte dect
cele care nu sufer de depresie). n acest caz, pentru a afla valorile critice ale lui z, a
mprit la 2 (0.05/2=0.025 ceea ce, transformat n procente de sub curb, nseamn
2.5%). A sczut 50-2.5=47.5% pentru a gsi procentul corespunztor lui z critic, pe care
l-a citit din tabel, aa cum se vede n imaginea de mai jos: zcritic=1.96. Fiind vorba de un
test bilateral, exist de fapt dou valori pentru z critic, una cu plus i una cu minus, pentru
fiecare dintre cele dou extreme ale curbei (zcritic=1.96).
n continuare, cercettoarea a selectat un eantion aleator de femei cu depresie
cronic (N=30), pentru care a calculat nlimea medie: m=160 cm i abaterea standard
s=7.62.
n final, a calculat valoarea lui z: