Sunteți pe pagina 1din 0

UNIVERSITATEA DIN BUCURETI

FACULTATEA DE PSIHOLOGIE I
TIINELE EDUCAIEI
DEPARTAMENTUL DE
NVMNT LA DISTAN








STATISTIC PSIHOLOGIC I PRELUCRAREA
COMPUTERIZAT A DATELOR


Noiuni statistice fundamentale
Statistici descriptive





Not:
Coninutul modulelor este suficient de dezvoltat pentru nsuirea cursului, dar versiunea
complet a materiei de curs se gsete n volumul: M. Popa, Statistic pentru psihologie. Teorie
i aplicaii SPSS, aprut la Editura Polirom (2008).


Conf. univ. dr. Marian Popa
e-mail: popamarian@gmail.com
web page: www.mpopa.ro





Universitatea din Bucureti
Editura CREDIS
2008
Marian Popa
Copyright DEPARTAMENT ID 2008
















Acest material este destinat uzulului studenilor Universitii
din Bucureti, forma de nvmnt la distan.
Coninutul cursului este proprietatea intelectual a
autorului/autorilor; designul, machetarea i transpunerea n
format electronic aparin Departamentului de nvmnt la
Distan al Universitii din Bucureti.























Universitatea din Bucureti
Editura CREDIS
Bd. Mihail Koglniceanu, Nr. 36-46, Corp C, Etaj I, Sector 5
Tel: (021) 315 80 95; (021) 311 09 37, 031 405 79 40, 0723 27 33 47
Fax: (021) 315 80 96
Email: credis@credis.ro
Http://www.credis.ro
Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
2
Informaii cu privire la organizarea i desfurarea cursului

- n conformitate cu specificul nvmntului la distan, cursul se bazeaz pe studiu
individual i activiti tutoriale.
- Suportul de curs pentru studiul individual este constituit din:
o modulele sintetice distribuite la nceputul fiecrui semestru;
o manualul cursului: Marian Popa, 2008, Statistic pentru psihologie. Teorie
i aplicaii SPSS, Editura Polirom. Poate fi achiziionat din librrii sau poate
fi consultat la biblioteca facultii.
o materiale suplimentare care vor fi postate pe pagina web www.mpopa.ro
- Activitile tutoriale sunt planificate, de regul, lunar, i au un caracter interactiv.
Studenii pot solicita explicaii sau pot pune ntrebri n legtur cu tematica
tutorialului. Pe durata semestrului se pot solicita explicaii suplimentare cu privire la
materia de curs, pe cale electronic, de la titularul de curs sau de la tutore.
- Lucrrile de control vor fi asociate fiecrui modul i vor fi transmise, de preferin,
sub form electronic. Pentru a fi acceptat, o lucrare de control trebuie s fie
transmis n timpul limit fixat, s denote o nsuire suficient a materiei i efortul
personal pentru realizarea ei. Lucrrile nu vor fi evaluate cu note.
- Evaluarea se face pe baz de examen scris i const dintr-un numr de ntrebri
punctuale, care cer un rspuns scurt i la obiect. nainte de examen se va transmite
un set de ntrebri orientative, din genul celor de la examen. Nota de examen va fi
corectat n funcie de lucrrile de control acceptate astfel:
o pentru trei lucrri acceptate nu se scade nici un punct
o pentru dou lucrri acceptate se scade un punct
o pentru o lucrare acceptat se scad dou puncte
o pentru nicio lucrare acceptat se scad trei puncte
- Condiii de echivalare a examenului. Studenii/studentele care au urmat un curs
de statistic de nivel universitar (cursuri de licen) pot solicita echivalarea
examenului n urmtoarele condiii:
o programa echivalent (dovada de face prin extras dup tematica de curs)
o nota obinut s fie cel puin 7 (nu se echivaleaz notele de 5 i 6)
o cererea de echivalare se va face cel mai trziu pn la data primului tutorial,
dup acest moment nicio cerere nu va mai fi luat n considerare.
- Procedura de echivalare
o Cerere adresat decanului facultii, avizat de titularul de curs, i o copie a
foii matricole

Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
3
CUPRINS


NOIUNI STATISTICE FUNDAMENTALE....................................................................................5
Obiectivele unitii de nvare ........................................................................................................5
Definiia i rolul statisticii n psihologie ..........................................................................................5
Utilitatea statisticii n practica psihologic ......................................................................................6
Msurarea n psihologie ...................................................................................................................6
Scala nominal .............................................................................................................................7
Scala ordinal ...............................................................................................................................7
Scala de interval ...........................................................................................................................8
Scala de raport ..............................................................................................................................8
Sarcina de lucru nr. 1. 1....................................................................................................................9
Concepte statistice fundamentale.....................................................................................................9
Noiunea de variabil statistic ....................................................................................................9
Variabile dependente i variabile independente...........................................................................9
Sarcin de lucru nr. 1. 2..............................................................................................................10
Variabile continue i variabile discrete ......................................................................................10
Populaie i eantion...................................................................................................................10
Sarcin de lucru nr. 1. 3..............................................................................................................11
Statistica descriptiv i statistica inferenial.............................................................................12
Statistica parametric i statistica neparametric.......................................................................12
Studii experimentale i studii observaionale.............................................................................12
Rezumatul unitii de nvare........................................................................................................13
Rspunsuri corecte la sarcinile de lucru.........................................................................................14
Lucrarea de evaluare nr. 1.1...........................................................................................................15
Bibliografie.....................................................................................................................................15
STATISTICI DESCRIPTIVE............................................................................................................16
Obiective de nvare i informaii introductive.............................................................................16
Statistici descriptive globale...........................................................................................................17
Analiza de frecvene...................................................................................................................17
Analiza de frecvene simple ...................................................................................................17
Analiza de frecvene grupate..................................................................................................19
Sarcina de lucru nr. 2.1...............................................................................................................21
Reprezentarea grafic a datelor ..................................................................................................22
Graficul de tip bar.................................................................................................................22
Histograma .............................................................................................................................23
Poligonul de frecvene............................................................................................................23
Graficul frecvenei cumulate..................................................................................................24
Graficul circular .....................................................................................................................24
Reprezentarea de tip stem-and-leaf (stem plot).....................................................................25
Stem-and-Leaf..........................................................................................................................1
Sarcina de lucru nr. 2.2...............................................................................................................26
Indicatori statistici descriptivi ........................................................................................................26
Indicatori ai tendinei centrale....................................................................................................26
Modul (Mo) ............................................................................................................................26
Mediana (Me).........................................................................................................................27
Media aritmetic (m)..............................................................................................................27
Sarcina de lucru nr. 2.3...............................................................................................................29
Indicatori ai mprtierii .............................................................................................................29
Amplitudinea absolut (R de la Range) .................................................................................30
Amplitudinea relativ.............................................................................................................30
Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
4
Abaterea quartil (cvartil, intercvartil) (R
Q
) .......................................................................31
Abaterea semi-interquartil (R
SQ
): .........................................................................................31
Abaterea medie (d de la deviaie medie)................................................................................32
Dispersia (variana, abaterea medie ptratic) .......................................................................33
Abaterea standard...................................................................................................................33
Coeficientul de variaie ..........................................................................................................35
Indicatori ai formei distribuiei ..................................................................................................36
Sarcina de lucru nr. 2.4...............................................................................................................38
Valori extreme ale distribuiei........................................................................................................39
Tratarea valorilor extreme..........................................................................................................40
Rezumatul unitii de nvare........................................................................................................41
Rspunsuri corecte la sarcinile de lucru.........................................................................................41
Lucrarea de evaluare nr. 1.2...........................................................................................................42
Bibliografie minimal ....................................................................................................................43


Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
NOIUNI STATISTICE FUNDAMENTALE


Obiectivele unitii de nvare

Parcurgerea acestei uniti, va permite studenilor:







s explice utilitatea analizei statistice n domeniul psihologiei
s defineasc noiunea de variabil statistic
s identifice diferite tipuri de variabile statistice
s defineasc noiunile de eantion i de populaie statistic
s explice specificul statisticii descriptive i infereniale
s explice diferena dintre statistica parametric i neparametric
s identifice scalele de msurare ale variabilelor statistice


Definiia i rolul statisticii n psihologie



Definiie:
Statistica psihologic este disciplina care se ocup cu analiza
datelor care descriu aspecte de natur psihic, individual sau colectiv, n
scopul de a le prezenta sintetic, sub form numeric sau grafic, de a le
analiza i de a extrage concluzii pe seama lor.
Faptele de natur psihic sau cu semnificaii psihologice care fac
obiectul msurrii i al analizei statistice, pot fi extrem de variate: genul
(masculin/feminin), inteligena, timpul de reacie, atitudinile, nivelul
motivaiei, nivelul diverselor caracteristici psihice (sociabilitate, anxietate,
emotivitate)
Metoda tiinific
n esen, tiina este o metod, un mod specific de a afla
rspunsuri la ntrebrile pe care ni le punem. Principalele ei caracteristici
sunt: cutarea unor reguli generale (legiti), colectarea unor dovezi
obiective, operarea cu afirmaii controlabile, atitudine sceptic fa de
cunotinele acumulate, atitudine deschis fa de orice informaii noi,
creativitate i transparen.
Statistica
este un
instrument
al metodei
tiinifice n
psihologie
n mod practic, un demers de tip tiinific pornete de la identificarea
unei probleme, urmat de o serie standardizat de etape de gsire a
rspunsului adecvat: generarea unei ipoteze n legtur cu rspunsul
posibil, testarea ipotezei (prin experiment sau alt metod empiric),
analizarea datelor recoltate, emiterea unei decizii de confirmare sau de
infirmare a ipotezei. n faza urmtoare, ipoteza poate fi rafinat iar procesul
se reia atta timp ct problema prezint un interes de cunoatere. n acest
proces, statistica se ocup cu tratarea datelor numerice prin sintetizarea
lor, ntr-o prim faz, i prin proceduri de analiz care s fundamenteze o
5
Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
decizie lipsit de subiectivitate cu privire la adevrul ipotezei, n a doua
faz.
Exemplu: Un psiholog observ, printre cunoscuii si, c cei care
fumeaz sunt, de regul, mai emotivi dect cei care nu fumeaz. Dorind s
verifice dac acest lucru este adevrat i nu doar o simpl impresie,
selecioneaz dou grupuri de persoane, fumtori i nefumtori, crora le
aplic un instrument de evaluare a trsturilor de personalitate, printre
care i manifestrile de tip afectiv. Rezultatele individuale se concretizeaz
n scoruri numerice pentru fiecare trstur. Utiliznd proceduri statistice,
calculeaz media scorului pentru fiecare dintre trsturile investigate. S
zicem c, n final, constat c fumtorii au obinut un scor la anxietate de
14.3, comparativ cu nefumtorii, care au obinut un scor mediu de 12.7.
Este aceast diferen suficient pentru a concluziona c fumtorii au un
nivel mai ridicat de anxietate, sau diferena obinut nu este dect una
neimportant, care a aprut ntmpltor la grupurile investigate i nu poate
nu poate fi generalizat dincolo de acestea?
Pentru a rspunde la aceast ntrebare trebuie utilizat o anumit
procedur statistic, care va face obiectul unei teme de curs.



Utilitatea statisticii n practica psihologic

Pentru c este dificil s nvei ceva fr a avea o imagine clar a
utilitii acelor cunotine, iat cteva argumente n sprijinul ideii c
utilizarea statisticii face parte integrant din activitatea curent a unui
psiholog:
Elaborarea i utilizarea testelor psihologice
Selecia psihologic
Studii i cercetri psihologice: identificarea caracteristicilor unor
categorii de persoane (de ex., diferene dintre brbai i femei, dintre
diferite metode de terapie etc.)
Statistica orict de sofisticate ar fi, nu d psihologiei, prin ea nsi,
un caracter de tiin. tiina este o metod, un model de cunoatere a
realitii, o cale prin care se exploreaz necunoscutul i se fac previziuni.
Statistica, la fel ca i metodele psihologice, nu sunt dect instrumente utile,
indispensabile, pentru abordarea tiinific a fenomenelor psihice.
Statistica este
un instrument
indispensabil
n practica
profesional a
psihologului



Msurarea n psihologie




n esen, a msura nseamn a atribui numere sau simboluri unor
caracteristici ale realitii obiective sau subiective, n funcie de anumite
aspecte cantitative sau calitative care le caracterizeaz. n acest mod
relaia dintre numere sau simboluri ajunge s reflecte relaia dintre
caracteristicile crora le-au fost atribuite. Modul n care sunt atribuite
numere sau simboluri pentru a msura ceva, se numete scal de
msurare.
6
A msura n
nseamn a
atribui
numere sau
simboluri
unor
caracteristici
ale realitii.
Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
Statistica opereaz cu valori numerice sau de alt natur, care
rezult dintr-un proces de msurare. Dar numerele, dei au aceeai form,
nu sunt asemntoare unele cu altele. Ele pot avea diferite semnificaii sau
proprieti n funcie de tipul de msurare din care rezult. n funcie de
cantitatea de informaie pe care o reprezint valorile, ca rezultat al
procesului de msurare, putem distinge mai multe tipuri de scale de
msurare:

Scala nominal

O msurare pe scal nominal nseamn, de fapt, a plasa obiectele
n diferite clase. n acest caz, o valoare nu este cu nimic mai mare sau
mic dect alt valoare. Un exemplu la ndemn este valoarea atribuit
genului. Ea poate fi codificat cu M sau F, ori, la fel de bine cu 2 sau
1. n acest caz, respectivele valori nu sunt dect simboluri ale unei
anumite caliti pe care o ia caracteristic de gen a unei persoane. Cu alte
cuvinte, ntr-un asemenea caz 2 nu nseamn c este mai mult sau mai
bun dect 1, ci doar faptul c este diferit de acesta. Vom observa c
ambele codificri de mai sus sunt arbitrare, n locul lor putnd utiliza orice
alte simboluri, pe baz de convenie.
Valorile de
tip nominal,
denumesc
indivizi sau
categorii de
indivizi.
Variabilele msurate pe scale de tip nominal pun n eviden
diferene calitative ntre valori. Alte exemple de variabile exprimate pe
scale nominale: bolile psihice (paranoia, depresie, nevroz), tipurile
temperamentale (sanguin, coleric, flegmatic, melancolic), specialitatea
universitar (psihologie, chimie, matematica), lateralitatea (dreptaci,
stngaci), religia (ortodox, catolic).
Valorile de tip nominal pot fi, la rndul lor, de dou feluri:
De identificare, atunci cnd o valoare are rolul de codificarea
identitii, referindu-se n mod unic la o anumit persoan (de ex., codul
numeric personal, sau un numr de identificare n cadrul unui experiment
psihologic).
Categoriale, atunci cnd desemneaz forme pe care le ia o
variabil (tipul de liceu absolvit: teoretic, industrial, artistic; tipurile
temperamentale: sanguin, coleric, flegmatic, melancolic). Aceast
form este n mod obinuit ntrebuinat n psihologie, ori de cte ori este
necesar repartizarea subiecilor n diverse clase sau categorii, n funcie
de prezena sau absena anumitor caracteristici.
Valorile msurate pe o scal de tip nominal au un caracter calitativ
i nu suport operaii numerice, altele dect cele de sumarizare (numrare,
procente).

Scala ordinal

Valorile plasate pe o scal de tip ordinal au o anumit semnificaie
cantitativ. O anumit valoare este mai mare sau mai bun dect alta,
aflat sub ea. Implicit, ea poate fi mai mic sau mai puin bun dect
alt valoare, aflat deasupra ei. Dac o anumit persoan este mai
preferat dect alta i atribuim celei primei valoarea 1, iar celei de-a doua
valoarea 2, atunci cele dou valori se exprim pe o scal de tip ordinal,
care indic doar ordinea preferinei i nu msura intensitii acestei
preferine.
Exemple: ordinea de rang la nivelul unei clase, n funcie de notele
colare, ordinea copiilor la natere.
7
Valorile de
tip ordinal
exprim
poziia,
rangul, unei
valori dintr-o
serie de
valori.
Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
Variabilele ordinale pot fi i ele de tip categorial, atunci cnd
grupurile definite de valorile variabilei pot fi aranjate ntr-o ordine natural.
De exemplu: valorile asociate vrstei astfel: 1=20-30 de ani, 2=31-40 de
ani, 3=41-50 de ani, sau apartenena la o anumit categorie valoric,
rezultat prin evaluarea la un examen cu calificative (foarte bun, bun,
mediu, ru, foarte ru).

Scala de interval

O variabil msurat pe o scal de interval ne ofer informaii nu
doar despre ordinea de mrime, ci i despre dimensiunea exact a
caracteristicii msurate. Valorile de acest tip au un caracter cantitativ,
exprimat numeric, iar intervalele dintre ele sunt egale.
8
Exemple:
temperatura, msurat pe o scal Celsius. Dac ntr-o zi se
msoar 5 grade iar n ziua urmtoare 10 grade, se poate spune cu
precizie c a doua zi a fost cu 5 grade mai cald;
coeficientul de inteligen msurat, s zicem, prin numrul de
rspunsuri corecte la un test. n acest caz, un rezultat de 30 de rspunsuri
corecte este cu 10 uniti mai mare dect 20 sau cu 5 uniti mai mic dect
35;
Valorile de
tip interval
exprim
mrimea,
cantitatea, n
raport cu alte
valori.
scorurile la testele de personalitate.

Ceea ce este caracteristic valorilor msurate pe scal de interval
este absena unei valori zero absolute, adic absena total a caracteristicii
msurate. n consecin, valorile de acest tip nu ne permit evaluri de
genul: O temperatur de 10 grade Celsius este de dou ori mai mare
dect una de 5 grade Celsius sau, O persoan care a obinut un scor de
30 de puncte este de dou ori mai inteligent dect una care a obinut 15
puncte. Aceasta, deoarece nici temperaturile msurate pe scala Celsius i
nici inteligena, nu au o valoare 0 absolut (dac acceptm c nici un om
viu nu are inteligen nul).


Scala de raport

Valorile exprimate pe o scal de raport dein cel mai nalt grad de
msurare. Pe lng egalitatea intervalelor, specific scalei de interval,
acest tip de valori se raporteaz i la o valoare 0 absolut (nu este posibil
nici o valoare mai mic de 0). Din acest motiv, este permis aprecierea
raportului dintre dou valori.
Exemple
dac ne referim la temperaturi, atunci scala Kelvin, este un bun
exemplu (0 Kelvin este temperatura minim absolut)
timpul
numrul de rspunsuri corecte sau de erori, la un test
psihologic
n psihologie puine sunt variabilele acceptate ca fiind msurate pe
scala de raport, deoarece sunt puine situaiile n care avem de a face cu
caracteristici ce pot lua valoarea 0 absolut.
La fel ca i valorile msurate pe scale de interval, valorile msurate
pe scal de raport suport toate transformrile matematice posibile. Din
acest motiv, n practic, valorile msurate pe scal de interval sau de
Valorile de
tip raport
exprim
mrimea,
cantitatea, n
raport cu alte
valori dar i
cu o valoare
absolut.
Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
raport sunt considerate similare, fiind prelucrate prin acelai gen de
proceduri statistice. Ca urmare, n acest caz, se spune c o variabil este
msurat pe o scal de interval/raport.

Tem de reflecie:
Dac evalum scalele n funcie de nivelul de msurare ale
fiecreia, pe ce scal de msurare putem considera c se plaseaz?
......................................................................................................

Sarcina de lucru nr. 1. 1
Identificai natura scalei de msurare pentru urmtoarele variabile.
Scriei rspunsul i apoi verificai corectitudinea la pagina 21

Tipul scalei
1 Apartenena la o anumit minoritate etnic, codificat astfel: 1. lipoveni; 2.
romni; 3. polonezi; 4. maghiari; 5. italieni; 6. armeni

2 Latena reaciei la un stimul auditiv, msurat n sutimi de secund

3 Atitudinea fa de statistic msurat pe o scal continu de la 1 (absolut
antipatic) la 10 (absolut simpatic)

4 Numrul de rspunsuri corecte la un test de calcule aritmetice

5 Poziia pe o list la un concurs de admitere organizat n ordinea mediei


Concepte statistice fundamentale




Noiunea de variabil statistic

nelegem prin variabil statistic o caracteristic a realitii care
poate lua valori diferite de la persoan la persoan sau n situaii diferite.
De exemplu, un cercettor dorete s verifice ipoteza c persoanele care
beau cafea seara, adorm mai greu dect cele care nu beau. n acest caz,
avem de a face cu dou variabile statistice: timpul de adormire, care ia
poate fi msurat n minute, i consumul de cafea, care este prezent la
unele persoane i absent la altele. Dac latena somnului ar fi aceeai la
toi oamenii, indiferent de condiii sau situaii, atunci aceasta nu ar mai fi o
variabil ci o constant i nu ar mai prezenta interes pentru analiz
statistic.
Statistica se
ocup cu
studiul
variabilelor,
adic al
variabilitii
umane.


Variabile dependente i variabile independente

n esen, un studiu statistic i propune evidenierea legturilor
dintre diverse caracteristici ale realitii (variabile). n acest context, exist
variabile ale cror valori sunt dependente, pentru c variaz n funcie de
valorile altei sau altor variabile, care sunt denumite, din acest motiv,
independente. Identificarea lor corect n cazul unui studiu statistic este
esenial pentru fundamentarea procedurilor statistice.
Statistica se
ocup cu
studiul
relaiilor
dintre
variabile
n esen, variabila dependent face obiectul msurrii cu scopul de
a fi supus unor concluzii. Prin opoziie, variabila independent este
utilizat ca variabil de influen, ale cror efecte posibile asupra variabilei
9
Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
dependente urmeaz sa fie puse n eviden. Termenii dependent,
independent se utilizeaz n mod obinuit n legtur cu cercetarea
experimental. n acest context exist variabile manipulate adic
independente de reaciile, inteniile, conduitele sau tririle subiecilor
investigai (toate acestea fiind variabile dependente). n raport cu analiza
statistic, definirea variabilelor ca dependente i independente nu este
condiionat de msurarea lor n condiii de experiment.
Nu exist variabile care sunt dependente sau independente prin
natura lor. Caracteristica de a fi de un tip sau de altul provine din rolul care
le este atribuit de ctre cercettor ntr-un anumit context de cercetare. De
exemplu, dac presupunem c starea emoional este influenat de
fumat, rezultatul la un test de labilitate emoional este variabila
dependent, iar fumatul, variabila independent. ntr-un alt studiu, ns, n
care ne intereseaz frecvena fumatului n funcie de sex, numrul igrilor
este variabila dependent, iar sexul, variabila independent. Sexul, la
rndul su, poate deveni variabil dependent ntr-un studiu privind relaia
dintre consumul unei anumite substane de ctre gravide i sexului copiilor
lor.

Sarcin de lucru nr. 1. 2
Identificai variabila independent i variabila independent n
urmtoarele situaii:
Scriei rspunsurile i numai apoi verificai rspunsurile corecte la
pagina 21
1. Timpul de studiu are un efect asupra rezultatelor colare.
v. dependent __________________ v. independent ____________________
2. Medicaia reduce simptomele depresiei.
v. dependent __________________ v. independent ____________________
3. Zgomotul ambiant crete nivelul de agresivitate.
v. dependent __________________ v. independent ____________________

Variabile continue i variabile discrete

Se numete continu o variabil de tip numeric care are un numr
teoretic infinit de niveluri ale valorilor msurate. Acest tip de variabil poate
lua, n principiu, orice valoare, permind utilizarea zecimalelor. Exemple:
timpul de reacie, nlimea, greutatea
Se numete discret o variabil care prezint un numr finit al
valorilor pe care le poate lua (numrul persoanelor dintr-o familie, numrul
de igarete fumate zilnic).

Populaie i eantion

A fundamenta un adevr statistic nseamn a trage o concluzie care
descrie parametrii unei populaii de valori, pe baza indicatorilor unui
eantion din acea populaie.
10
Metoda
tiinific
permite
studiul unui
eantion
pentru a
trage
concluzii
asupra
populaiei
din care este
selecionat.
n contextul cercetrii statistice utilizm urmtoarele definiii:
Populaie, totalitatea unitilor de informaie care constituie
obiectivul de interes al unei investigaii. Prin uniti individuale de
informaie nelegem cel mai adesea persoane (sau subieci, cu un
termen uzual in cercetarea psihologic). Dar, la fel de bine, putem nelege
i populaia de cupluri familiale, sau populaia de diferene dintre mediile
a dou variabile, de exemplu. n esen, prin populaie trebuie s
Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
nelegem extinderea maxim posibil, sub aspectul volumului, a
respectivei uniti de informaie. Extinderea menionat este, la rndul ei,
definit prin obiectivul de cercetare, ceea ce nseamn ca are o
dimensiune subiectiv. Aceasta se refer la domeniul de interes pe care i-
l propune cercettorul. De exemplu, ntr-un studiu cu privire la efectul
oboselii asupra performanei cognitive, pot fi vizate diferite categorii de
populaii: a aviatorilor, a studenilor, a mecanicilor de locomotiv, a
ahitilor
Eantion, reprezint unitile de informaie selecionate pentru a fi
efectiv studiate. Ideea pe care se bazeaz cercetrile bazate pe
eantioane, este aceea c se pot face aprecieri asupra unei ntregi
populaii, n anumite condiii, doar pe baza caracteristicilor msurate pe o
parte a acesteia.
Exemple:
ntr-un studiu asupra efectelor accesului la internet asupra elevilor de
liceu, elevii de liceu reprezint populaia, iar elevii selecionai pentru
investigaie, eantionul.
ntr-un studiu care vizeaz influena inteligenei asupra performanei n
instruirea de zbor, populaia este reprezentat de toi piloii, iar
eantionul, de subiecii inclui n studiu.

Reprezentativitatea eantionului este dat de calitatea valorilor
acestuia de a descrie n mod corect caracteristicile populaiei din care a
fost extras. Nici un eantion nu poate reprezenta perfect datele populaiei.
De aceea reprezentativitatea are o semnificaie relativ. Ca urmare
estimrile pe baz de eantion conin ntotdeauna o doz mai mare sau
mai mic de eroare. Cu ct eroarea este mai mic, cu att concluziile
obinute pe eantion pot fi generalizate mai sigur asupra populaiei. Pentru
a permite fundamentarea inferenelor statistice, eantionul trebuie s fie
constituit din uniti de informaie (subieci, valori) independente unele de
altele.
Exemple:
Dac msurm timpul de reacie la un numr de cinci subieci,
dar facem trei evaluri la fiecare subiect, nu avem eantion de 15 valori
independente, deoarece valorile aceluiai subiect au n comun o
constant personal care le face dependente una de cealalt. Pentru
avea un singur eantion am putea s utilizm media celor trei determinri
pentru fiecare subiect.
Dac dorim s investigm efectul inteligenei asupra
performanei colare, trebuie s avem grij s includem n eantion
subieci provenind din familii cu un nivel variat al veniturilor, pentru a anihila
influena statutului socioeconomic asupra performanei colare.


Sarcin de lucru nr. 1. 3
Identificai eantionul i populaia n urmtoarele situaii:
Scriei rspunsurile i numai apoi verificai rspunsurile corecte


1. Un grup de studeni a fost selecionat dintre studenii de anul I.
eantion____________________ populaie _________________________
2. La proiect au participat 100 de angajai ai companiei.
eantion ____________________ populaie _________________________
11
Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
3. Sondajul a fost efectuat pe 1000 de persoane din Romnia.
eantion ____________________ populaie _________________________


Statistica descriptiv i statistica inferenial

Statistica descriptiv se refer la metodele cu ajutorul crora
analizm caracteristicile variabilelor statistice. Dac aplicm un test de timp
de reacie unui numr de 50 de persoane, putem calcula valoarea medie a
timpilor de reacie, mprtierea acestora sau, utiliznd o tehnic de
reprezentare grafic, modul n care se distribuie valorile prin raportare la un
sistem de coordonate. Toate aceste prelucrri, i altele nc, despre care
vom vorbi pe larg mai departe, fac parte din categoria metodelor statisticii
descriptive.
Statistica
descriptiv
prezint
datele n
form
numeric
sau grafic.
12


Statistica inferenial cuprinde metodele de verificare a ipotezelor
de cercetare prin testarea ipotezelor statistice. S presupunem c cei 50 de
subieci de mai sus sunt supui aceluiai test de tip de reacie n condiii de
noxe de mediu (de exemplu, zgomot excesiv) pentru a verifica ipoteza c
zgomotul reduce promptitudinea reaciilor.

Statistica
inferenial
aplic
proceduri de
decizie cu
privire la
adevrul
unei ipoteze.
Statistica parametric i statistica neparametric


Esena procedurilor statistice este verificarea ipotezelor. Aceasta se
face prin utilizarea unor proceduri de calcul care urmresc punerea n
eviden a legturilor dintre variabile. Atunci cnd aceste proceduri se
aplic unor situaii n care variabilele dependente sunt de tip cantitativ
(interval/raport), procedura se numete parametric. Prin opoziie,
procedurile aplicate n cazul n care variabilele dependente sunt de tip
calitativ (nominale sau ordinale) se numesc neparametrice.
Procedurile
parametrice
testeaz
variabile
cantitative.
Procedurile
neparametrice
testeaz
variabile
calitative.





Studii experimentale i studii observaionale

Studiile de tip
corelaional
evideniaz
relaii ntre
variabile, dar
nu permit
concluzii de
tip cauzal.
n cazul studiilor experimentale, cercettorul nu se limiteaz la
msurarea variabilei independente ci o i manipuleaz. De exemplu, dac
analizm rezultatele a dou grupe de trgtori la int, unii care au efectuat
n prealabil edine de relaxare i alii care nu au efectuat, avem de a face
cu un studiu numit corelaional. Pe baza lui putem constata dac exist o
legtur ntre cele dou variabile, dar n nici un caz dac relaxarea
determin (cauzeaz) creterea performanelor.

n cazul studiilor numite observaionale, variabilele dependente i
independente sunt msurate n condiii care nu permit concluzii de tip
cauzal. Aplicarea unui test de personalitate unor categorii de subieci,
diferite n funcie de sex sau vrst, de exemplu, urmat de compararea
rezultatelor ntre categorii i constatarea existenei unor diferene, fie i
semnificative statistic, nu nseamn c personalitatea este influenat de
Studiile de tip
experimental
evideniaz
relaii de tip
cauzal ntre
variabile.
Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
apartenena la o anumit categorie. Totui, rezultatele studiilor
corelaionale pot fi interpretate uneori n termeni cauzali, utiliznd teorii
existente sau ipoteze, dar astfel de rezultate nu pot constitui n nici un caz
o dovad a unei relaii de tip cauzal.



Rezumatul unitii de nvare



Statistica este disciplina care se ocup cu sintetizarea, prezentarea i analiza
datelor numerice, n scopul evidenierii semnificaiilor acestora.
Statistica este un instrument al metodei tiinifice n psihologie.
Componentele metodei tiinifice sunt: observaia elaborarea ipotezei analiza
datelor empirice concluzia
Msurarea nseamn a atribui numere sau simboluri unor caracteristici ale
realitii obiective sau subiective, n funcie de anumite aspecte cantitative sau
calitative care le caracterizeaz.
Msurarea pe scal nominal, identific prezena unei anumite caracteristici, fr
a avea o semnificaie cantitativ. Variabilele nominale se refer la caracteristici
calitative i categoriale.
Msurarea pe scal ordinal, identific raportul de ordine ntre valori, fr a
preciza distana cantitativ dintre acestea. Variabilele ordinale se refer la
caracteristici calitative.
Msurarea pe scal de interval, aduce n plus fa de scala ordinal precizarea
distanei dintre ranguri. Din acest motiv este o scal de tip cantitativ.
Msurarea pe scal de raport aduce n plus fa de scala de interval, raportarea la
o valoare minim absolut.
Statistica descriptiv se ocup cu sintetizarea i prezentarea datelor n timp ce
statistica inferenial se ocup cu generalizarea rezultatelor dincolo de eantionul
pe care au fost recoltate.
Variabilele dependente sunt cele care fac obiectul interesului direct al
cercettorului, fiind msurate n vederea extragerii unei concluzii. Variabilele
independente reprezint condiia sau contextul din care rezult variaia valorilor
variabilei dependente.
Atunci cnd variabila dependent implicat ntr-un studiu statistic este msurat
pe o scal de tip calitativ (nominal sau ordinal), se aplic una dintre procedurile
statistice neparametrice. n cazul variabilelor msurate pe scale cantitative se
aplic, de regul, statistici parametrice, fr ca acest lucru s fie posibil
ntotdeauna.
Studiile de tip corelaional pun n eviden relaia dintre variabile fr a susine
concluzii de tip cauzal. Studiile de tip experimental pun n eviden relaii de tip
cauzal ntre variabile.



13
Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
Rspunsuri corecte la sarcinile de lucru




Tema de reflecie nr. 1:
Rspuns: scal ordinal
Comentarii. Nivelul de msurare crete progresiv de la scala de tip nominal la cea de tip
raport, dar cuantificarea exact a acestei este imposibil.

Sarcina de lucru nr. 1.1

numrul ntrebrii Rspuns
1 nominal
2 raport
3 ordinal
4 raport
5 ordinal







Comentarii. Scala pe care este evaluat o variabil se definete n funcie de modul de
atribuire a valorilor. Astfel, este posibil ca, n funcie de acest lucru, o anumit variabil s
fie exprimat pe scale diferite.


Sarcina de lucru nr. 1.2

4. Timpul de studiu are un efect asupra rezultatelor colare.
v.dependent: rezultatele colare
v. independent: timpul de studiu
5. Medicaia reduce simptomele depresiei.
v.dependent: simptomele depresiei
v. independent: medicaia
6. Zgomotul ambiant crete nivelul de agresivitate.
v.dependent: nivelul de agresivitate
v. independent: zgomotul ambiant

Comentarii. n studiile de tip corelaional, identificarea variabilei dependente i a variabilei
independente se va face prin plasarea lor mintal ntr-o relaie de tip cauzal, fr ca
rezultatele studiului s poat fi interpretate n mod cauzal.


Sarcina de lucru nr. 1.3
4. Un grup de studeni a fost selecionat dintre studenii de anul I.
eantion: grupul de studeni
populaie: studenii anului I
5. La proiect au participat 100 de angajai ai companiei.
eantion 100 de angajai:
populaie: toi angajaii companiei
6. Sondajul a fost efectuat pe 1000 de persoane din Romnia.
eantion: 1000 de persoane
populaie: toat populaia Romniei

14
Marian Popa
Copyright DEPARTAMENT ID 2008
Noiuni statistice fundamentale
Comentarii. Se va observa c, de fiecare dat, populaia studiului este diferit ca mrime,
n funcie de nivelul de generalizare pe care cercettorul dorete s l dea rezultatelor.



Lucrarea de evaluare nr. 1.1




Lucrarea de evaluare va fi publicat pe portal (http://portal.credis.ro). Data limit de
trimitere este preziua tutorialului. Dup acest termen lucrrile nu mai sunt acceptate.


Bibliografie

Bibliografia de baz

Marian Popa, (2008), Statistic pentru psihologie. Teorie i aplicaii SPSS, editura
Polirom
Pagina web a cursului, la adresa www.mpopa.ro

Bibliografie suplimentar

Clocotici, V., & Stan, A. (2000). Statistica aplicata in psihologie. Iasi: Polirom, p. 11-
57
Rotaru, T. (coord.). (1999). Metode statistice aplicate in stiintele sociale. Iasi:
Polirom. p. 15-28
Radu I., (coord), (1993), Metodologie psihologic i analiza datelor, Editura Sincron,
p. 45-51
Vasilescu, I. P. (1992). Statistica informatizata pentru stiinte despre om (Vol. 1-2).
Bucuresti: Editura militara., p.5-43



15
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
STATISTICI DESCRIPTIVE


Obiective de nvare i informaii introductive

Parcurgerea acestei uniti, va permite studenilor:





S
t
a
t
istica descriptiv are drept obiective organizarea, sintetizarea i descrierea
datelor. Rezultatul msurrii se traduce n obinerea unei colecii de date.
S presupunem c am aplicat un test de cunotine unui grup de 25 de
studeni i am obinut urmtoarea distribuie de valori pentru variabila
rspunsuri corecte:
s utilizeze tehnicile numerice de analiz global a variabilelor
statistice (analiza de frecvene);
s utilizeze tehnicile grafice de analiz a variabilelor statistice
(histograma, graficul de tip bar, graficul circular, reprezentarea stem-
and-leaf);
s calculeze indicatorii tendinei centrale (modul, mediana, media)
s calculeze indicatorii mprtierii (amplitudinea, abaterea quartil,
abaterea medie, abaterea standard, coeficientul de variaie);
s utilizeze indicatorii formei distribuiei (simetrie i boltire):
s analizeze valorile extreme ale distribuiilor statistice.
Definirea i
componentele
statisticii
descriptive
8, 6, 10, 9, 6, 6, 8, 7, 4, 9, 6, 2, 8, 6, 10, 4, 5, 6, 8, 4, 7, 8, 4, 7, 6

Datele de mai sus reprezint valorile variabilei statistice rspunsuri
corecte (denumite i serie statistic sau distribuie statistic), care este
compus din 25 de valori sau scoruri. Fiind rezultatul primar al
msurrii, aceste valori se mai numesc i valori primare sau brute.
Valorile acestei variabile sunt exprimate pe o scal cantitativ de tip raport.
Privite sub forma n care se prezint mai sus, datele respective ne
spun puine lucruri. Iar dac ar fi i mai multe, de ordinul sutelor sau miilor,
atunci ar fi practic imposibil de fcut vreo apreciere, n aceast form de
prezentare . De aceea, pentru a ne face o imagine mai coerent asupra
unei serii de valori, acestea trebuie supuse unor operaii care s scoat n
eviden caracteristicile distribuiei
Definiie: Tehnicile i procedurile destinate organizrii i prezentrii
sumative a datelor, constituie ceea ce se numete statistica descriptiv.

Principalele componente ale statisticii descriptive sunt:
- Tehnici de organizare i prezentare a datelor, care pot fi, la
rndul lor:
o numerice (distribuia de frecvene simple sau grupate;)
o grafice (histograme; grafice de tip bar, linie, circular,
histograma stem-and-leaf)
- Indicatori numerici sumativi, care sunt la rndul lor de trei tipuri:
o indicatori ai tendinei centrale (mod, medie, median)
o indicatori ai mprtierii (amplitudine, abatere quartil,
abatere standard)
16
o indicatori ai formei distribuiei (simetrie i boltire).
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive

Dincolo de scopul n sine al acestor proceduri, acela de a oferi o
imagine sintetic asupra datelor analizate, trebuie s nelegem statistica
descriptiv i ca pe o etap pregtitoare n fundamentarea procedurilor
statisticii infereniale (destinat verificrii ipotezelor statistice) despre care
vom vorbi mai trziu.

Statistici descriptive globale



Tehnicile descriptive de tip global se refer la prezentarea i analiza
tuturor valorilor unei distribuii statistice. Aceste tehnici sunt, la rndul lor de
dou feluri: numerice (analiza de frecvene) i grafice.

Analiza de frecvene

Analiza de frecvene simple

Dac ne ntoarcem la seria de valori de mai sus, cel mai simplu
lucru pe care putem s l facem, i care ne poate da o anumit imagine
asupra ei, este sortarea, punerea valorilor n ordine cresctoare sau
descresctoare:
17
10, 10, 9, 9, 8, 8, 8, 8, 8, 7, 7, 7, 6, 6, 6, 6, 6, 6, 6, 5, 4, 4, 4, 4, 2
Privind datele aranjate ca mai sus putem observa cu uurin cteva
lucruri: valoarea cea mai mare i valoarea cea mai mic, valorile care se
repet. Dar, chiar i acest mod de prezentare, nu ne-ar fi de mare ajutor
dac valorile ar fi ntr-un numr mare. Pentru a elimina acest neajuns se
folosete tabelul frecvenelor simple.

Analiza de
frecvene
simple se
bazeaz pe
frecvena
de apariie
a fiecrei
valori
dintr-o
distribuie
Tabelul 1. Frecvene simple
Valoare fa
10 2
9 2
8 5
7 3
6 7
5 1
4 4
3 0
2 1
Total fa=25













Dac lum n considerare seria de valori de mai sus, un tabel al
frecvenelor simple (absolute) este compus din lista valorilor distincte,
ordonate descresctor, la care se adaug frecvena absolut (fa) a fiecrei
valori (de cte ori se ntlnete n cadrul seriei).
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
18
Se observ c astfel datele au un caracter mai ordonat, iar coloana
frecvenelor absolute scoate n eviden anumite aspecte cum ar fi, de
exemplu, faptul c cea mai frecvent valoare este 6 (apare de 7 ori).
Observm c seria de valori din tabel include toate valorile posibile ntre
valoarea cea mai mare (10) i cea mai mic (2), incluznd i valorile care
nu se ntlnesc n mod real n cadrul seriei. n cazul nostru avem valoarea
3, cu frecvena de apariie 0. Suma frecvenelor absolute (fa) indic totalul
valorilor din cadrul seriei (25).
n practic, pe lng frecvenele absolute se iau n considerare i
alte tipuri de frecvene (vezi tabelul 2):
- Frecvena cumulat (fc). Totalul valorilor care se cumuleaz
ncepnd de la valoarea cea mai mare pn la valoarea cea mai mic din
tabel. De exemplu, n tabelul sintetic de mai jos, avem 6 valori mai mici sau
egale cu 5, 21 de valori mai mici sau egale cu 8 i, evident, 25 de valori
mai mici sau egale cu 10.
- Frecvena relativ raportat la unitate fr(1). Este raportul
dintre frecvena absolut i suma frecvenelor absolute (fa/fa).
Exemple:
pentru valoarea 10: fa/fa=2/25=0.08;
pentru valoarea 6: fa/fa=7/25=0.13; .a.m.d.
- Frecvena relativ cumulat, raportat la unitate fr(1): Este
similar frecvenei cumulate absolute, cu deosebirea c n acest caz se
cumuleaz frecvenele relative.
Exemple:
Dac privim ntreaga serie ca ntreg (egal cu 1 sau unitate ),
atunci toate valorile mai mici sau egale cu 5 au o frecven
cumulat egal cu 0.24 (adic, fr(1)=0.04+0+0.16+0.04=0.24)
Pentru valoarea 7, frecvena relativ cumulat raportat la
unitate este: frc(1)=0.04+0+0.16+0.04+0.28+0.12=0.64
Frecvena relativ cumulat pentru valoarea cea mai mare din
serie este ntotdeauna 1.00 (corespunztoare n cazul nostru
valorii 10).
- Frecvena relativ procentual fr(%): Exprim procentul
valorilor care se situeaz pn la o anumit valoare din cadrul distribuiei.
Se calculeaz fie prin nmulirea fr(1) cu 100, fie prin calcularea direct
procentului pe care l reprezint o anumit valoare raportat la totalul
valorilor dintr-o distribuie. Suma frecvenelor relative procentuale este
ntotdeauna egal cu 100.
Exemple (tabelul 2):
8% dintre studenii evaluai au realizat 10 rspunsuri corecte
28% dintre studenii evaluai au realizat 6 rspunsuri corecte
- Frecvena relativ cumulat procentual (frc%): Exprim
procentul valorilor dintr-o distribuie care se plaseaz pn la o anumit
valoare (inclusiv aceasta).
Exemple:
52% dintre studeni au obinut o not egal sau mai mic de 6
92% au obinut cel puin nota 9
Desigur, pentru valoarea maxim a unei distribuii, frecvena
cumulat procentual este ntotdeauna 100%.
o Frecvena relativ procentual cumulat se numete rang
percentil. Astfel, despre valoarea 6 din distribuia de mai sus se poate
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
spune c are rangul percentil 52, adic, 52% dintre valorile unei distribuii
sunt ntre cea mai mic valoare i valoarea 6, inclusiv.
o Prin convenie, rangul percentil se definete ca procentajul
datelor valorilor dintr-o distribuie care se afl pn la o anumit valoare
inclusiv.
o n mod complementar, numim percentil, valoarea dintr-o
distribuie care corespunde unui anumit rang percentil. n exemplul de mai
sus, rangului percentil 52 i corespunde valoarea 6, numit, de aceea,
percentila 52.
o n practic, exist anumite percentile care au o importan
aparte. Acestea sunt percentilele corespunztoare rangurilor percentile cu
valorile 10, 20, 30,..., 100. Despre semnificaia lor vom vorbi mai trziu n
acest curs. De asemenea, se utilizeaz termenul de quartile pentru
percentilele care mpart distribuia n patru zone egale ca numr de valori.
Acestea sunt corespunztoare rangurilor percentile de 25, 50 i 75. Cu alte
cuvinte, valoarea dintr-o distribuie pn la care se afl 25% din valori este
percentila 25, valoarea pn la care se afl 50% este percentila 50, iar
valoarea pn la care se afl 75% din valori este percentila 75.

Tabelul 2. Tabloul sintetic al frecvenelor simple
Valoare fa fc fr (1) frc (1) fr (%) frc (%)
10 2 25 0,08 1,00 8% 100%
9 2 23 0,08 0,92 8% 92%
8 5 21 0,20 0,84 20% 84%
7 3 16 0,12 0,64 12% 64%
6 7 13 0,28 0,52 28% 52%
5 1 6 0,04 0,24 4% 24%
4 4 5 0,16 0,20 16% 20%
3 0 1 0 0,04 0% 4%
2 1 1 0,04 0,04 4% 4%
Total fa=25 fr=1 fr%=100


Analiza de frecvene grupate

Aranjarea unei distribuii sub forma tabelului de frecvene simple
este foarte util dar nu este practic atunci cnd avem o distribuie, cu un
numr mare sau foarte mare de valori, care ar genera un tabel cu prea
multe linii pentru a fi inteligibil.
S presupunem c valorile de mai jos reprezint distribuia variabilei
inteligen msurat prin aplicarea unui test la un numr de 50 de
subieci.


101




94 87 117 115 116 91 113 96 105
92 107 118 114 98 112 101 114 107 109
97 109 124 102 118 113 116 106 108 89
106 108 115 92 97 102 108 102 109 114
107 104 110 101 101 121 125 86 109 123
Analiza de
frecvene
grupate se
bazeaz pe
frecvena de
apariie a
claselor
(grupelor) de
valori ntr-o
distribuie

Datele din tabel sunt aranjate la ntmplare, analiza lor fiind dificil.
Presupunnd c le-am ordona i am face tabelul frecvenelor simple, am
19
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
20
obine un uor progres, dar nc ar fi greu de analizat deoarece vom obine
un tabel cu prea multe valori distincte.
Pentru a ne face o imagine sintetic a distribuiei, ne propunem s
realizm un numr de categorii (clase) cuprinse ntre anumite intervale de
performan la test, urmnd s stabilim apoi care este frecvena de apariie
a fiecrei clase n distribuia noastr. Aceast tehnic de organizare a
datelor se numete frecvena grupat
Pentru a realiza un tabel de frecvene grupate se procedeaz astfel:

1. Alegem numrul de intervale (clase, categorii), recomandabil,
ntre 5 i 15 (valori stabilite convenional i orientativ)
2. Definim mrimea intervalului de clas, respectnd urmtoarele
reguli:
toate intervalele trebuie s fie egale
limitele intervalelor trebuie s cuprind toate valorile (ntre
limitele intervalelor alturate s nu existe goluri sau suprapuneri)

Pentru distribuia de mai sus, paii de realizare a analizei de
frecvene grupate se concretizeaz astfel:

Se face diferena dintre valoarea cea mai
mare i valoarea cea mai mic
125 86 = 39
Se mparte valoarea obinut la mrimea
posibil a intervalului de clas (2, 3, 5 sau
10) pentru a realiza numrul de clase al
noii distribuii
39/2 = ~20 clase (prea multe)
39/3 = 13 clase (variant posibil)
39/5 = ~ 8 clase (variant acceptabil)
Se selecteaz mrimea intervalului care
conduce la un numr de clase cuprins
ntre 5 i 15.
Vom alege 5, pentru c produce o distribuie
cu 8 clase care este mai uor de analizat i
manipulat
Se determin limita inferioar a primului
interval (trebuie s fie un multiplu al
mrimii intervalului)
Alegem valoarea 85 ca limit inferioar
Se determin limita superioar a primului
interval
Dac mrimea intervalului este 5, limita
superioar va fi 89 (85,86,87,88,89)
Se construiesc intervalele de clas pentru fiecare interval (vezi coloana clase din tabelul
3)
Se aplic analiza de frecvene ca n cazul frecvenelor simple, aplicat la clase

n fine, alegerea dimensiunii intervalului trebuie s in seama i de
caracteristicile distribuiei simple (discutat anterior). Intervalele trebuie
astfel alese nct s se evite situaia de a avea clase care cuprind un
numr excesiv de valori n timp ce altele sunt puin reprezentate sau nu
conin nici o valoare.
n exemplul dat, dei valoarea maxim a variabilei este 125,
intervalul maxim este 125-129, deoarece intervalele declarate trebuie s fie
egale. Ca urmare, tabelul frecvenelor grupate va arta astfel:

Tabelul 3. Tabelul de frecvene grupate

Clase fa fr% frc%
125 129 1 2% 100%
120 124 3 6% 98%
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
115 119 7 14% 92%
110 114 7 14% 78%
105 109 13 26% 64%
100 104 8 16% 38%
95 99 4 8% 22%
90 94 4 8% 14%
85 89 3 6% 6%
fa=50 fr%=100

Este de la sine neles c clasele de intervale (grupele) vor putea fi
analizate ntr-o manier similar frecvenelor simple, utiliznd valorile
absolute (fa) sau valorile relative raportate la unitate sau procentuale (fr(1),
fr%). Analiznd tabelul de mai sus, putem observa c cei mai muli subieci
au obinut un scor la testul de inteligen cuprins ntre 105 i 109 (fa=13),
acetia reprezentnd 26% din totalul subiecilor evaluai. n fine, din
coloana frecvenelor relative procentuale cumulate putem deduce c 64%
dintre subieci obin o performan de maxim 109 sau mai mic (sau, dac
dorim, 36 % dintre subieci obin o performan de minim 105) etc.



Sarcina de lucru nr. 2.1



Alegei varianta de rspuns aleas sau scriei rspunsul n text, apoi verificai
rspunsurile corecte
1. Percentila 25 este acea valoare a unei distribuii care:
a. are 75% din valori mai mari dect ea
b. se ntlnete la 25% dintre subieci
c. mparte distribuia n 25 de pri egale
d. nici una din variantele de mai sus
2. Percentila 50 este o valoare identic cu:
a. quartila 3; b. quartila 1; c. mediana; d. abaterea standard
3. Ce procent de valori este reprezentat n caseta reprezentrii box-plot:
a. 50%; b. 25%; c. 30%; d. 75%
4. Ce reprezint frecvena relativ raportat la unitate?

____________________________________________________________________
5. Ce nseamn faptul c pe coloana frecvenei relative procentuale din dreptul unui
anumite valori este scris 7%?

____________________________________________________________________
6. Cum se stabilete limita inferioar a primei clase, n cazul unei distribuii de
frecvene grupate?

____________________________________________________________________
7. Care este numrul recomandabil de clase ntr-o distribuie de frecvene grupate?

____________________________________________________________________
8. Cum se numesc valorile de pe coloana frecvenelor relative procentuale cumulate?

____________________________________________________________________
21
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
9. Cum se numete valoarea variabilei care corespunde unui anumit rang percentil?

____________________________________________________________________

Reprezentarea grafic a datelor

Reprezentrile graficele sunt forme intuitive de prezentare a
distribuiilor de frecvene (o imagine face mai mult dect o mie de
cuvinte). Ele sunt foarte frecvent utilizate pentru analiza i prezentarea
datelor n psihologia aplicat deoarece faciliteaz nelegerea semnificaiei
datelor numerice. n prezent, programele computerizate ofer mijloace
extrem de puternice i de sofisticate pentru elaborarea reprezentrilor
grafice. Dar simpla utilizare a unui astfel de program nu garanteaz
realizarea unui grafic eficient. n esen, un grafic eficient este o combinaie
reuit ntre form i coninutul statistic pe care l reflect. Realizarea
acestei combinaii depinde de respectarea ctorva principii eseniale:
Graficele
sunt imagini
ale
distribuiilor
de frecvene.
focalizarea pe coninutul i nu pe forma graficului
este esenial s fie evitate distorsiunile induse de forma
graficului
este recomandabil s fie utilizate grafice care favorizeaz
comparaii ntre variabile i nu doar reprezentri individuale, statice, ale
acestora
fiecare grafic trebuie s serveasc un singur scop, exprimat
clar i evident
orice grafic va fi nsoit de informaii statistice i descrierile
necesare pentru a fi uor i corect neles
un grafic trebuie s scoat n eviden datele i nu abilitile
tehnice de editare ale celui care l-a creat.

Formele de expresie grafic a datelor statistice sunt foarte
numeroase. Ne vom ocupa aici doar de cteva dintre acestea, cel mai des
utilizate
1
:
graficul de tip bar
histograma
poligonul de frecvene
graficul frecvenei cumulate
graficul circular
graficul de tip stem and leaf (tulpin i frunze)

Graficul de tip bar

Este cel mai simplu mod de reprezentare grafic a datelor. Se
utilizeaz atunci cnd dorim s reprezentm o variabil discret (care
prezint valori ntregi, de exemplu, numrul de rspunsuri corecte la un
test n funcie de nivelul de instruire al subiecilor).
n mod obinuit, un grafic se prezint ca o imagine inclus ntr-un
sistem de axe perpendiculare:
Axa orizontal (Ox) pe care sunt reprezentate valorile
distribuiei

22
1
O prezentare extensiv a tipurilor de reprezentri grafice poate fi gsit n Statistica, Electronic Textbook, 1984-1999,
StatSoft Inc., Graphical techniques
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
Axa vertical (Oy) pe care sunt reprezentate frecvenele
fiecrei valori, sub forma unei bare rectangulare.
Iat cum arat un grafic de acest tip efectuat pe datele din tabelul de
frecvene grupate, lund clasele drept valori ale distribuiei. Cu ct
frecvena unei valori este mai mare, cu att bara este mai mare.
Simplitatea i claritatea este cea mai mare calitate a acestui tip de grafic.

Axa Ox
9 8 7 6 5 4 3 2 1
A
x
a

O
y
14
12
10
8
6
4
2
0


Histograma

La prima vedere, histograma este asemntoare cu graficul de tip
bar. Ea este mai adecvat pentru situaiile cnd variabila pe care dorim s
o reprezentm este de tip continuu (adic poate lua orice valoare pe o
scal numeric, de ex., numr de rspunsuri corecte, timpul de reacie,
lungimea ). Iat, de exemplu, histograma distribuiei de frecvene din
tabelul 3 (realizat cu programul SPSS):
Clase
125,0 120,0 115,0 110,0 105,0 100,0 95,0 90,0 85,0
12
10
8
6
4
2
0


Se observ faptul c programul a realizat automat o grupare de
frecvene, afind pe axa Ox limita minim a intervalului ca etichet a
acestuia.
n principiu, nimic nu ne mpiedic s realizm o histogram pe
aceleai valori care au fost reprezentate pe un grafic de tip bar.

Poligonul de frecvene

Este o reprezentare alternativ la histogram. Punctele centrale ale
suprafeelor rectangulare care reprezint frecvena sunt unite cu o linie
care delimiteaz suprafaa poligonului.
23
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
Clase de interval
9 8 7 6 5 4 3 2 1
14
12
10
8
6
4
2
0



Poligonul alturat prezint distribuia de frecvene grupate din
tabelul de mai sus, cifrele 1,2,3,4,5,6,7,8,9 reprezentnd denumirea
convenional a fiecrei clase.

Graficul frecvenei cumulate

Este un grafic de tip liniar care reprezint valorile frecvenei absolute
cumulate. Pe acest grafic se vede cu uurin cte valori se afl pn la o
anumit valoare din distribuie (datele reprezentate sunt cele din tabelul 3,
fiecare interval de clasa fiind etichetat convenional cu cifre de la 1 la 9).

Clase de interval
9 8 7 6 5 4 3 2 1
F
r
e
c
v
e
n

a

c
u
m
u
l
a
t

70
60
50
40
30
20
10
0


Graficul circular

Este utilizat n situaiile n care valorile sunt parte a unui ntreg. De
exemplu, poate fi utilizat la reprezentarea distribuiei de frecvene grupate
de mai sus, pentru a avea o imagine direct a ponderii frecvenei fiecrei
clase de interval n raport cu celelalte.


Graficul alturat reprezint frecvena absolut a claselor de interval
ale aceleiai distribuii de mai sus. Pe un grafic de acest tip se pot
24
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
reprezenta fie valorile absolute, fie procentajul fiecrei clase raportat la
ntreg.

Reprezentarea de tip stem-and-leaf (stem plot)

Este o reprezentare care ncearc s mbine expresia numeric cu
cea grafic, fiind propus de statisticianul J.W. Tuckey (1977). Scopul
principal a fost acela de a oferi nu doar o imagine a distribuiei ci i o
metod de explorare a acesteia. Ea este din ce n ce mai utilizat de
psihologi, motiv pentru care considerm necesar s o prezentm aici.
Atunci cnd utilizm o distribuie de frecvene grupate, cazurile
individuale se pierd la nivelul fiecrei clase de interval fr a mai putea ti
unde se plaseaz fiecare valoare iniial n interiorul fiecrui interval.
Reprezentarea de tip stem-and-leaf (pe scurt stem plot), are tocmai
avantajul de a realiza graficul distribuiei cu pstrarea valorilor individuale.

Modul de realizare

S revenim la distribuia prezentat anterior:
101 94 87 117 115 116 91 113 96 105
92 107 118 114 98 112 101 114 107 109
97 109 124 102 118 113 116 106 108 89
106 108 115 92 97 102 108 102 109 114
107 104 110 101 101 121 125 86 109 123


Mai nti, observm c valorile sunt cuprinse ntre 86 i 125. Alegem
o valoare convenabil pentru tulpin, care va juca rolul de interval de clasa,
care n cazul nostru poate fi 10. Tulpina reprezentrii stem plot este n
acest caz numrul de zeci din fiecare valoare individual.


Stem-and-Leaf
8 . 679
9 . 1224
9 . 6778
10 . 11112224
10 . 5667778889999
11 . 0233444
11 . 5566788
12 . 134
12 . 5
Mrimea tulpinii: 10












Valorile din coloana stem indic numrul de zeci, iar cele din
coloana Leaf, numrul de uniti. Dac privim imaginea n ansamblu ne-o
putem reprezenta ca pe o histogram orizontal. n acest exemplu:
Stem 8, urmat de Leaf 679 indic faptul c variabila noastr are n
compunere valorile 86,87,89.
Stem 12, urmat de leaf 134, ne arat c distribuia conine valorile
121, 123,124

25
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive


Sarcina de lucru nr. 2.2




Scriei rspunsul n text, apoi verificai rspunsurile corecte

1. Pentru ce scale de msurare se utilizeaz graficul de tip histogram?

__________________________________________________________________

2. Prin ce se deosebete graficul de tip stem-and-leaf de histograma?

__________________________________________________________________
3. n ce situaie se utilizeaz graficul de tip circular?

__________________________________________________________________
4. Facei reprezentarea stem-and-leaf pentru urmtoarea distribuie de valori:
29, 28, 36, 41, 25, 15, 33, 40, 33, 20, 35, 26, 32, 23


Indicatori statistici descriptivi





Tipuri de indicatori sintetici:

Trei sunt caracteristicile distribuiilor care sunt evaluate cu ajutorul
indicatorilor sintetici: tendina central, variabilitatea (mprtierea,
diversitatea), forma distribuiei. Pentru fiecare din aceste caracteristici se
utilizeaz anumii indicatori specifici:
- Indicatori ai tendinei centrale: Acetia sunt valori tipice,
reprezentative, care descriu distribuia n ntregul ei;
- Indicatori ai variabilitii: Sunt valori care descriu caracteristica
de mprtiere a distribuiei. O distribuie care conine aceeai valoare, ori
de cte ori s-ar repeta ea, are o variabilitate zero.
- Indicatori ai formei distribuiei: Sunt valori care se refer la
forma curbei de reprezentare grafic a distribuiei, prin comparaie cu o
curb normal (oblicitate, aplatizare)
Un indicator
statistic
concentreaz
ntr-o singur
valoare o
anumit
caracteristic a
distribuiei

Indicatori ai tendinei centrale

Modul (Mo)

Este expresia ce mai direct a valorii tipice (reprezentative)a unei
distribuii statistice.
n cazul unei distribuii simple, este valoarea cu frecvena cea mai
mare de apariie
26
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
n cazul unei distribuii de frecvene grupate, este clasa de interval
cu frecvena cea mai mare de apariie
Modul se afl prin alctuirea tabelei de frecvene (simple sau
grupate) i este identificat ca valoarea creia i corespunde frecvena
absolut cea mai ridicat.
Distribuiile pot avea un singur mod (unimodale), dou moduri
(bimodale) sau mai multe (multimodale)
Exemplu: n seria de valori 5,8,3,2,5,4, Mo=5 (apare de cele mai
multe ori)

Mediana (Me)

Este valoarea din mijlocul unei distribuii, adic aceea care are
50% dintre valori deasupra ei i 50% dintre valori dedesubtul ei (cu alte
cuvinte, percentila 50).
Se gsete prin alctuirea tabelei de frecvene, n coloana
frecvenelor relative procentuale cumulate, i corespunde valorii de 50%.
n cazul distribuiilor cu numr impar de valori, Me este chiar
valoarea respectiv.
n cazul distribuiilor pare, Me se calculeaz ca medie a celor dou
valori din mijlocul distribuiei
Exemplu: n seria de valori 5,8,3,2,5,4, ordonat cresctor
(2,3,4,5,5,8), Me=4,5 (ca medie a valorilor 4 i 5 aflate n mijlocul unei
distribuii pare). Dac distribuia noastr ar fi avut 5 valori (fr 2, de
exemplu), Me=5

Media aritmetic (m)

Este raportul dintre suma valorilor distribuiei i numrul acestora
Notaii uzuale:
27
o (miu), atunci cnd este media ntregii populaii de referin
o m, atunci cnd se calculeaz pentru un eantion (cazul cel mai
frecvent)
Calcularea mediei pentru o distribuie simpl de frecvene se face
prin adunarea valorilor i se mprirea la numrul lor
Exemplu: Pentru distribuia 5,8,3,2,5,4
Media este cel
mai utilizat
indicator al
tendinei
centrale
50 , 4
6
26
6
4 5 2 3 8 5
= =
+ + + + +
= =

N
X
m (formula 2.1)
Calcularea mediei pentru o distribuie de frecvene grupate: Se face
suma produsului dintre fiecare valoare i frecvena ei, apoi se mparte la
suma frecvenelor (numrul valorilor)
Exemplu: Pentru distribuia: 5,8,3,3,3,2,4,2,3,5,4
90 , 3
11
43
2 2 4 1 2
2 * 4 2 * 2 4 * 3 1 * 8 2 * 5
) * (
= =
+ + + +
+ + + +
= =

f
f X
m
(formula 2.2)

NOT: n expresia de mai sus:
X este variabila.
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
Prin

X se nelege ca Sum de la X=1 la N (numrul


valorilor)
f este frecvena .

f se nelege ca Sum de la f=1 la k


(unde k numrul grupelor de frecven)

Proprietile mediei aritmetice

o Adugarea\scderea unei constante la fiecare valoare a distribuiei,
mrete\scade media cu acea valoare
o nmulirea\mprirea fiecrei valori a distribuiei cu o constant,
multiplic\divide media cu acea constant
o Suma abaterii valorilor de la medie este ntotdeauna egal cu zero
o Suma ptratului abaterilor de la medie va fi ntotdeauna mai mic
dect suma ptratelor abaterilor n raport cu oricare alt punct al distribuiei

Valori nedeterminate i clase deschise

Valorile nedeterminate sunt acele valori a cror mrime nu
decurge din procesul de msurare, n acelai mod n care rezult oricare
valoare a seriei (Exemplu: La testul de asociere verbal, dac subiectul
depete, s zicem 10 sec., se nregistreaz valoarea 10, fr a se
atepta, la infinit (?), un rspuns). Categorii deschise sunt acele categorii
de valori care au una dintre limite liber (Exemplu: Cte igri fumezi
zilnic? Se poate nregistra numrul igrilor ca atare, dar ultima valoare
este 30 sau mai mult).
n ambele situaii de mai sus, utilizarea mediei este nesigur (i
incorect). Indicatorul recomandabil este mediana.

Avantajele i dezavantajele indicatorilor tendinei centrale

Tabloul de mai jos prezint, n mod sintetic avantajele i
dezavantajele specifice indicatorilor tendinei centrale:

AVANTAJE DEZAVANTAJE
M
O
D
U
L

- Uor de calculat (nesemnificativ
n prezent);
- Poate fi utilizat pentru orice tip de
scal;
- Este singurul indicator pentru
scale nominale;-
- Corespunde unui scor real al
distribuiei;
- n general, nesigur, mai ales n cazul
eantioanelor mici, cnd se poate
modifica dramatic la o modificare minor
a unei valori;
- Poate fi greit interpretat. Se identific
total cu un scor anume, fr a spune
nimic despre celelalte valori;
- Nu poate fi utilizat n statistici
infereniale;
M
E
D
I
A
N
A

- Poate fi utilizat pe scale ordinale
i de interval\raport;
- Poate fi utilizat i pe distribuii
de frecven cu clase deschise sau
scoruri nedeterminate la marginile
distribuiei;
- Poate s nu corespund unei valori
reale (N par);
- Nu reflect valorile distribuiei (un scor
extrem se poate modifica, fr a afecta
Me);
- Este mai puin sigur n extrapolarea de
la eantion la populaie;
- Greu de utilizat n statistici avansate
28
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
M
E
D
I
A

- Reflect valorile ntregii distribuii;
- Are multe proprieti statistice
dezirabile;
- Adecvat pentru utilizare n
statistici avansate;
- De obicei nu corespunde unei valori
reale;
- Nu este tocmai adecvat pentru scale
ordinale;
- Conduce la interpretri greite pe
distribuii asimetrice
- Poate fi puternic afectat de scorurile
extreme;


Sarcina de lucru nr. 2.3





Tabelul de mai jos conine dou distribuii de valori (variabile). Una reprezint scorurile la
un test de evaluare a timiditii, cealalt, la un test de evaluare a sentimentului de
singurtate.


Timiditate (1) Singurtate (2)
29 27
28 35
36 30
41 51
25 30
15 20
33 47
40 42
33 40
20 33
35 28
26 40
32 22
23 15

















Calculai i scriei care sunt, pentru fiecare dintre cele dou variabile, urmtorii indicatori
statistici:
(1). Mediana _________ Modul ___________ Media _____________

(2). Mediana _________ Modul ___________ Media _____________

Verificai rspunsurile corecte

Indicatori ai mprtierii

Indicatorii tendinei centrale se refer la ceea ce face ca valorile s
se asemene, la caracteristica comun a valorilor unei distribuii. Indicatorii
mprtierii, de care vom vorbi n continuare, se refer la caracteristica de
variabilitate, care descrie diferenele existente ntre valori. n cazul tendinei
centrale este scoas n eviden caracteristica valorilor unei distribuii de a
29
mprtierea
se refer la
gradul de
variabilitate a
valorilor.
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
se asemna unele cu altele, asemnare surprins de indicatorii
tendinei centrale. n cazul mprtierii, se urmrete descrierea tendinei
valorilor de a se deosebi una de alta, de a se sustrage unei tendine
centrale prin ndeprtarea de aceasta.
Pentru evaluarea mprtierii distribuiilor statistice se utilizeaz mai
muli indicatori. Distingem dou categorii de indicatori ai mprtierii:
elementari i sintetici.
Principala caracteristic a indicatorilor elementari este aceea c
surprind mprtierea distribuiei prin distana dintre doar dou valori ale
acesteia.

Amplitudinea absolut (R de la Range)

Este dat de diferena dintre valoarea maxim i valoarea minim a
unei distribuii
R=X
max
-X
min
(formula 2.3)
Utilitatea ei este dat de faptul c ne indic n mod absolut plaja de
valori ntre care se ntinde distribuia.
Principalul dezavantaj const n faptul c poate fi influenat de o
singur valoare aflat la extremitatea distribuiei.

Amplitudinea relativ

Este dat de raportul procentual dintre amplitudinea absolut i
media distribuiei:
100 * %
m
R
R = (formula 2.4)
Este util atunci cnd cunoatem plaja teoretic de variaie a
distribuiei, putnd astfel s facem o comparaie cu plaja real, obinut
prin formula de mai sus.
Din cauz c amplitudinea utilizeaz doar cele dou valori extreme
ale distribuiei, este un indicator imprecise al variabilitii:
Exemple:
30





Distribuia A are o amplitudine mai
mare dar i o variabilitate mai mare
dect distribuia B
Amplitudinea distribuiilor A i B sunt
identice, dar distribuia A are mai mult
variabilitate.





Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
Abaterea quartil (cvartil, intercvartil) (R
Q
)

Quartilele (Q) sunt percentilele care mpart distribuia n patru
segmente egale. Ele sunt: Q1 (percentila 25); Q2 (percentila 50, sau Me);
Q3 (percentila 75).
Abaterea quartil este dat de diferena dintre valoarea
corespunztoare quartilei 3 i valoarea corespunztoare quartilei 1
1 3
Q Q R
Q
= (formula 2.5)
Nota bene: Se poate observa c este chiar distana dintre limita
superioar i cea inferioar a casetei Box-Plot (valoarea H)

Abaterea semi-interquartil (R
SQ
):

Semnific distana unui un scor tipic fa de amplitudinea ntregii
distribuii i se calculeaz ca media diferenei dintre quartila 3 i quartila 1.
2
1 3
Q Q
R
SQ

= (Formula 2.6)
ntr-o distribuie perfect simetric R
SQ
=Q
2
=Me
R
SQ
nu este afectat de valorile aberante fiind considerat, din acest
motiv, un indicator robust al mprtierii
O imagine de ansamblu a tipurilor de indicatori elementari ai
mprtierii ne este dat de figura de mai jos, unde am figurat prin puncte o
distribuie oarecare de 31 de valori posibile.

Aa cum am precizat, acest tip de indicatori ilustreaz mprtierea
prin distana dintre dou puncte ale unei distribuii. Unul dintre avantajele
lor este acela al uurinei de calcul. Pe de alt parte, tocmai pentru c iau
n seam doar dou dintre valorile distribuiei, sunt vulnerabili i nesiguri.
Utilitatea lor este n general limitat dar sunt singurii care pot fi folosii
atunci cnd indicatorii sintetici (de care vom vorbi n continuare), nu pot fi
calculai. Un alt dezavantaj al acestora este dificultatea de a fi utilizai n
procedurile statistice avansate.

Spre deosebire de indicatorii elementari, indicatorii sintetici surprind
mprtierea unei distribuii prin luarea n considerarea abaterii fiecrei
valori de la un anumit indicator al tendinei centrale. Cel mai uzual indicator
de referin pentru mprtiere este media. Aceasta pentru c, aa cum ne
amintim, media are avantajul de a fi o concentrare a tuturor valorilor unei
distribuii.

31
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
Abaterea medie (d de la deviaie medie)2

Distana dintre o valoare anumit i media distribuiei se numete
abaterea valorii (X
i
-m). Dac am dori s calculm abaterea medie a unei
distribuii nu ne-ar rmne dect s nsumm abaterile individuale ale
fiecrei valori i s le mprim la numrul acestora. Din pcate, media
abaterilor ntr-o distribuie este ntotdeauna egal cu zero (vezi proprietile
mediei). Acest fapt poate fi descris cu formula

= 0 / ) ( N m X
i

unde X
i
sunt valorile distribuiei, m este media, iar N, numrul de
valori.


X X
i
m
5 (5 4.5) = .5
8 (8 4.5) = 3.5
3 (3 4.5) = -1.5
2 (2 4.5) = -2.5
5 (5 4.5) = .5
4 (4 4.5) = -.5

X = 27 (X
i
-m) = 0
N = 6
m = 4.5












Aa cum se observ n coloana X
i
m, diferenele individuale
nsumate produc (X
i
-m) = 0. Acest lucru este valabil pentru orice fel de
distribuie i este una dintre proprietile importante ale mediei.
Pentru a elimina acest inconvenient putem s lum abaterile
individuale n valoare absolut (fr semn).

X (X
i
m)
5 (5 4.5) = 0.5
8 (8 4.5) = 3.5
3 (3 4.5) = 1.5
2 (2 4.5) = 2.5
5 (5 4.5) = 0.5
4 (4 4.5) = 0.5

X = 27 |X
i
-m| = 9
N = 6
m = 4.5












Ca urmare, formula abaterii medii (d) poate fi scris astfel:

N
m X
d
i

=
| |
(formula 2.7)


32
2
n continuare ne vom raporta la media de eantionare. Se subnelege c, pentru cazul unei populaii, media va fi scris
cu litera (miu).
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
Pentru cazul frecvenelor grupate, formula devine:


=
i
i i
f
f m X
d
* | |
(formula 2.8)


Abaterea medie este uor de neles i are semnificaia de medie a
distanelor ntre fiecare scor i media distribuiei. Din pcate, nici ea nu
este potrivit cu statisticile avansate

Dispersia (variana, abaterea medie ptratic)

Notaii uzuale:
s
2
(cnd se calculeaz pentru eantion)

2
(cnd se calculeaz pentru ntreaga populaie)
Pentru a elimina inconvenientul abaterilor de la medie de a avea
suma egal cu zero, se opereaz ridicarea la ptrat a abaterilor valorilor
individuale
3
.

X (X
i
m) (X
i
m)
2

5 (5 4.5) = 0.5 0.25
8 (8 4.5) = 3.5 12.25
3 (3 4.5) = -1.5 2.25
2 (2 4.5) = -2.5 6.25
5 (5 4.5) = 0.5 0.25
4 (4 4.5) = -0.5 0.25

X = 27 (X
i
-m) = 0 (X-m)
2
= 21.5
N = 6
m = 4.5











Dac nsumm abaterile ridicate la ptrat (ptratice) i le mprim la
numrul valorilor, obinem dispersia (numit i varian sau abatere medie
ptratic)
N
m X
s
i

=
2
2
) (
(formula 2.9)
Not: Formula conine la numitor o anumit inexactitate care va fi
discutat mai departe (vezi formula 2.11)

Cu toate acestea, din cauza ridicrii la ptrat, dispersia nu
reprezint o valoare foarte bun a mprtierii (de ex., poate fi mai mare
dect amplitudinea distribuiei). Soluia acestui neajuns o constituie...

Abaterea standard

Notaii uzuale:
s (pentru eantioane)
33
(pentru populaie)
SD (Standard Deviation, n standardul APA )
ab.std.

3
Aceast operaie este permis de proprietile mediei
Abaterea
standard este
cel mai utilizat
indicator al
mprtierii
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
Abaterea standard se obine prin extragerea radicalului din expresia
abaterii medii ptratice (dispersiei).

Formula de calcul:
N
m X
s
i

=
2
) (
(formula 2.10)

NOT: Formula conine o inexactitate la numitor care va fi discutat
mai departe (vezi formula 2.11)
Pe datele din tabelul de mai sus:
89 , 1
6
5 , 21
= = s


Operaiile succesive efectuate mai sus, ridicarea la ptrat i
extragerea radicalului, nu trebuie vzute ca operaii artificiale, gratuite.
Aceste operaii nu se refer la valorile distribuiei ci la abaterile de la
medie, ceea ce conduce la rezultate diferite care exprim, ntr-o alt form,
aceeai caracteristic de mprtiere a valorilor originale.

Corecia indicatorilor mprtierii calculai pentru eantioane

Formulele 2.8 i 2.9 au la numitor valoarea N (volumul eantionului).
Fr a intra n detalii, vom spune c valorile astfel calculate, ale dispersiei
i abaterii standard, pentru un eantion, conin o imprecizie (bias) care
conduce la subestimarea mprtierea la nivelul populaiei. Chiar dac
lum n considerare un numr mare de eantioane, extrase succesiv dintr-
o anumit populaie, indicatorii mprtierii vor fi mai mici dect
mprtierea la nivelul ntregii populaii.
Corecia se face prin utilizarea la numitor a expresiei N-1. n acest
mod, cu ct eantionul este mai mic, cu att indicatorul respectiv al
mprtierii va fi influenat mai mult de expresia de la numitor.
Expresia N-1 poart numele de grade de libertate. Pentru a-i
nelege semnificaia, este bine s ne gndim la faptul c, ntr-o distribuie
de 3 valori (de exemplu: 1,3,8) media este 4, iar abaterile de la medie sunt
3, -1, 4. Suma lor este zero. Ca urmare, este suficient s cunoatem cel
puin dou din cele trei valori pentru a o afla pe a treia. Altfel spus, doar
dou valori sunt libere s se modifice, a treia (ultima) fiind determinat de
acestea.

Formulele corecte devin astfel:

Dispersia:
1
) (
2
2

=

N
m X
s
i
(formula 2.11)


Abaterea standard:
1
) (
2

=

N
m X
s
i (formula 2.12)

Formulele iniiale, de definiie, rmn corecte pentru situaia n care
se urmrete doar descrierea caracteristicii de mprtiere pentru
eantionul respectiv. Atunci cnd se urmrete ns extrapolarea acestei
valori la nivelul populaiei, utilizarea formulei corectate este absolut
necesar.
34
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive

Proprietile abaterii standard

Abaterea standard este, aa cum vom vedea, indicatorul principal al
mprtierii utilizat n diverse proceduri statistice avansate. Pentru a-i
justifica modul de utilizare n diverse formule, trebuie s reinem cteva
proprieti fundamentale ale abaterii standard:

1. Dac se adaug/scade o constant la fiecare valoare a unei
distribuii, abaterea standard nu este afectat


2. Dac se multiplic/divide fiecare valoare a unei distribuii cu o
constant, abaterea standard se multiplic/divide cu acea constant


3. Abaterea standard fa de medie este mai mic dect abaterea
standard fa de orice alt valoare a unei distribuii


Coeficientul de variaie

Abaterea medie i abaterea standard se exprim n unitile de
msur ale variabilei de referin. De exemplu, pentru o distribuie de timpi
de reacie, exprimai n sutimi de secund, s=2.14 nseamn c
mprtierea standard este de 2.14 sutimi de secund.
Dac acelai eantion face i un test de coordonare a micrilor,
evaluat n numr de ieiri din traseu a cror abatere standard este
s=20.94, nu putem compara omogenitatea celor dou serii de valori. Adic,
nu putem spune dac eantionul este mai omogen sau mai puin omogen
din perspectiva unei dintre cele dou performane.
Dintre soluiile posibile pentru eliminarea acestui neajuns, cea mai
des utilizat este coeficientul de variaie (variabilitate), notat cu cv (sau v),
propus de Pearson. Se calculeaz ca raport ntre abaterea standard i
medie. Poate fi exprimat i procentual conform formulei de mai jos:


100 *
m
s
cv =
(formula 2.13)

Valoarea acestui coeficient exprim un raport procentual dintre
abaterea standard i medie. Cu ct este mai mare, cu att media putem
spune c media este mai puin reprezentativ pentru distribuia
35
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
36
respectiv, dat fiind ponderea ridicat a mprtierii. Utilizarea
coeficientului de variaie este limitat la valorile msurate pe scale de
raport, cu origine natural 0. n cazul a dou variabile a cror origine este
diferit una de alta, diferenele dintre valori (abaterea standard) rmn
aceleai dar media se schimb, fapt care face ca raportul exprimat n
formul s fie modificat iar comparaia a doi coeficieni de variaie,
irelevant. n plus, pe o scal de interval cu valori negative se poate ajunge
la medie egal cu 0, ceea ce face formula inaplicabil.
Utilitatea coeficientului de variaie vine de la faptul c valoarea sa
mai este legat de unitatea de msur. Diferena dintre dou valori cv
poate fi interpretat ca diferen de mprtiere a celor dou variabile, chiar
dac msoar lucruri diferite.
Sunt propuse anumite limite de interpretare a acestui indicator,
astfel:
dac cv<15%, mprtierea este mic i, deci, media este
reprezentativ
dac cv este cuprins ntre 15%-30%, mprtierea este mijlocie
i media este suficient de reprezentativ
dac cv este mai mare de 30%, mprtierea este mare i
media are o reprezentativitate redus
Calcularea coeficientului de variaie a unei distribuii, nainte de
integrarea ei n proceduri statistice infereniale, este o metod util de
verificare a msurii n care media, pe care se bazeaz de cele mai multe
ori procedurile infereniale, este legitim.

Alegerea indicatorului mprtierii

Abaterea standard este cea mai utilizat pentru scale de
msurare interval/raport. Realizeaz cea mai bun combinaie ntre
calitatea estimrii i posibilitatea de a fundamenta inferene statistice.
Amplitudinea este un indicator nesigur i care nici nu poate fi
calculat n cazul scalelor nominale
Pe distribuii cu valori nedeterminate sau cu intervale deschise,
se alege abaterea interquartil (semi-interquartil).


Indicatori ai formei distribuiei

Expresia grafic a distribuiilor poate fi descris sub dou aspecte
eseniale: simetria i boltirea. O distribuie este simetric atunci cnd
valorile acesteia se mpart n mod egal de o parte i de alta a valorilor
tendinei centrale. Se numesc asimetrice (skewed) distribuiile ale cror
valori se concentreaz fie n zona valorilor mici (spre stnga) fie n zona
valorilor mari (spre dreapta).

Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
Distribuie: simetric asimetric negativ asimetric pozitiv

Median
Medie
Mod
Mod Medie

Median

37




Medie
Mediana
Mod
Figurile de mai sus arat cum se plaseaz cei trei indicatori ai
tendinei centrale n funcie de simetria distribuiei:
n cazul distribuiilor (perfect) simetrice, Mo, Me i m se
plaseaz pe aceeai valoare
n cazul distribuiilor asimetrice cei trei indicatori au poziii
diferite (vezi figura).
Mediana se plaseaz ntotdeauna ntre mod i medie. Din
acest motiv, mediana este cea mai reprezentativ valoare pentru
distribuiile asimetrice
Media este afectat de valorile extreme, cu att mai mult cu
acestea sunt mai puternic deviate. Ca urmare, n cazul distribuiilor puternic
asimetrice, media nu este un indicator veridic al tendinei centrale.
Descrierea numeric a caracteristicii de simetrie/asimetrie se face
cu ajutorul unui indicator statistic specific, numit indicator de simetrie sau
de oblicitate (skewness, n limba englez).
Pentru o curb absolut simetric, indicele de oblicitate (skewness)
are valoarea 0 (zero), primind valori pozitive pentru curbele asimetric
pozitive i valori negative pentru cele asimetric negative. Ca reper general
de apreciere, recomandat de cei mai muli autori, un indice de oblicitate a
crui valoare depete +1/-1 semnaleaz o asimetrie pronunat a
distribuiei.
Caracteristica de boltire (kurtosis, n terminologia englez) indic
gradul de extindere pe vertical a curbelor de distribuie. n termeni
generali, sub aspectul boltirii, curbele pot fi de trei categorii:
- Leptokurtice, cu majoritatea valorilor distribuite n zona mediei
(au o form nalt i subire)
- Mezokurtice, cu o prezen moderat a valorilor n zona
mediei
- Platikurtice, cu valori medii relativ puine i o form aplatizat

leptocurtica
mezocurtica
platicurtica

Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
38

Desigur, o curb poate fi n acelai timp i asimetric i boltit
excesiv, chiar dac imaginea de mai sus ilustreaz boltirea pe curbe
simetrice.
Indicatorul numeric al boltirii (kurtosis) are o plaj de variaie n jurul
valorii zero (care nseamn boltire medie, normal, mezocurtic). Indicele
de boltire pozitiv indic o curb nalt (leptocurtic), iar indicele de
boltire negativ, o curb aplatizat (platicurtic). La fel ca i n cazul
indicelui de oblicitate (skewness), cu ct acesta este mai ndeprtat de
valorile +1/-1, avem de a face cu distribuii cu abatere accentuat de la
boltirea normal.


Sarcina de lucru nr. 2.4

Pentru cele dou variabile de la sarcina de lucru nr 2.3 (timiditate i singurtate),
calculai i scriei valorile cerute mai jos:

(1) amplitudinea _________ abaterea quartil ________ abaterea semiinterquartil ____
abaterea medie ptratic _______ abaterea standard _______ coeficientul de variaie
____________

(2) amplitudinea _________ abaterea quartil ________ abaterea semiinterquartil ____
abaterea medie ptratic _______ abaterea standard _______ coeficientul de variaie
______________

Verificai rspunsurile corecte


Mai jos, ncercuii rspunsul i apoi verificai rspunsul corect

3. Care dintre indicatorii mprtierii (amplitudine, abatere interquartil, abatere standard)
ar trebui alei pentru fiecare dintre urmtoarele situaii:
a) Distribuia este puternic asimetric, avnd cteva valori extreme ntr-o
singur direcie a curbei
b) Intenionai s utilizai proceduri statistice avansate (de exemplu, s emitei
aprecieri asupra populaiei pe baza datelor de eantion )
c) Vrei s tii ntinderea maxim a unei distribuii
d) Vrei ca fiecare valoare a distribuiei s fie luat n considerare
e) Valoarea cea mai mare a distribuiei este mai mult de 10






Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
Valori extreme ale distribuiei




Valorile extreme reprezint valori excesive ale unei distribuii.
Identificarea lor este necesar pentru a evita efectul pe care l au asupra
valorilor tendinei centrale, n primul rnd asupra mediei. Una dintre
metodele de identificare este analiza grafic de tip Box-and-Whisker-Plot
(pe scurt Box-Plot), elaborat de Tukey.
n esen, reprezentarea Box-Plot (vezi imaginea) este constituit
dintr-o caset (dreptunghi), a crui limit inferioar este plasat n dreptul
percentilei 25, limita superioar fiind plasat n dreptul percentilei 75. Cu
alte cuvinte, caseta cuprinde 50% dintre valorile unei distribuii. Distana
dintre valorile limit ale casetei se numete H.
Linia din interiorul casetei marcheaz valoarea median (Me)
Mustile care pornesc de la limita superioar i inferioar a
casetei, au o lungime maxim egal cu 1,5 H. n acel punct se plaseaz
ultima valoare legitim a distribuiei. Orice valoare mai mic sau mai mare
de acestea, sunt definite ca extreme (Outliers)
Un exemplu de creare a reprezentrii box plot: Vom utiliza distribuia
scorurilor QI prezentat anterior, la care am adugat dou valori
suplimentare (135 i 142), alese intenionat pentru a fi mai mari dect
restul valorilor.
Pentru a face reprezentarea box plot facem mai nti tabela de
frecvene simple, cu scopul calculrii percentilelor. Tabelul de frecvene
alturat cuprinde valorile ordonate ale distribuiei, ntre de la valoarea cea
mai mic (86) i se cea mai mare (142). Pe coloana frc% se afl
frecvenele cumulate procentuale (percentilele). Pentru box plot identificm
percentilele 25 i 75. Ele corespund valorilor 101 (este valoarea cea mai
apropiat de 25 pe coloana frc%) i, respectiv, 114. Am obinut astfel,
limita inferioar i superioar a casetei. Mediana (percentila 50)
corespunde valorii 108 (frc%=53.8, prin aproximare). Diferena dintre
valorile corespunztoare percentilelor 25 i 50 este 13 (114-101). Astfel
putem determina limitele prelungirilor superioar i inferioar ale casetei
care sunt: 114+13*1.5=128 (aproximare) pentru prelungirea superioar i,
respectiv 101-13*1,5=83 (aproximare) pentru cea de jos. Am obinut astfel
toate valorile necesare trasrii box plotului.
101 94 87 117 115 116 91 113 96 105 135
92 107 118 114 98 112 101 114 107 109 142
97 109 124 102 118 113 116 106 108 89
106 108 115 92 97 102 108 102 109 114
107 104 110 101 101 121 125 86 109 123
Imaginea de mai jos prezint tabelul distribuiei i boxplot-ul
corespunztor
4
:


4
n mod normal, reprezentarea boxplot se construiete independent de tabelul de frecvene. Dac le-am asociat n imagine, am fcut-o doar cu scop
didactic, pentru a pune mai clar n eviden mecanismul de elaborare.
39
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
Valori
QI
fa fr%
frc%
(rang percentil)
142 1 1,9 100,0
135 1 1,9 98,1
125 1 1,9 96,2
124 1 1,9 94,2
123 1 1,9 92,3
121 1 1,9 90,4
118 2 3,8 88,5
117 1 1,9 84,6
116 2 3,8 82,7
115 2 3,8 78,8
114 3 5,8 75,0
113 2 3,8 69,2
112 1 1,9 65,4
110 1 1,9 63,5
109 4 7,7 61,5
108 3 5,8 53,8
107 3 5,8 48,1
106 2 3,8 42,3
105 1 1,9 38,5
104 1 1,9 36,5
102 3 5,8 34,6
101 4 7,7 28,8
98 1 1,9 21,2
97 2 3,8 19,2
96 1 1,9 15,4
94 1 1,9 13,5
92 2 3,8 11,5
91 1 1,9 7,7
89 1 1,9 5,8
87 1 1,9 3,8
86 1 1,9 1,9
Total 52 100,0

Mediana corespunde valorii 108 (prin
aproximare)
Percentila 75este valoarea 114
Percentila 25 este valoarea 101, pentru c
28.8 este rangul percentil cel mai apropiat de
25
Limita de jos a boxplotului poate cobor pn
la valoarea 83.
Se fixeaz la 86, care este valoarea minim
distribuiei
101
108
114
H=114-101=13
101-13*1,5=83
114+13*1,5=128
Limita de sus a boxplotului poate urca pn
la valoarea 128.
Se fixeaz la 125, pentru c 128 nu exist iar
celelalte valori sunt mai mari de 128
142 este valoare extrem
135 este valoare extrem


Tratarea valorilor extreme

Punerea n eviden a unor valori extreme ridic problema modului
lor de tratare a acestor valori. n acest scop, trebuie s avem n vedere
dou aspecte:
1. Stabilirea naturii valorilor extreme, care pot apare n urmtarele
situaii:
erori de nregistrare (tastare);
erori de msurare;
rezultate influenate de anomalii ale condiiilor
experimentale;
eantionul a fost extras dintr-o populaie asimetric;
valorile respective fac parte din alt populaie de valori
eantion prea mic.
2. Tratarea lor pe una din cile posibile:
eliminare (dac sunt erori necorectabile);
corectare (dac este posibil);
utilizarea mediei 5%trim, adic a mediei care nu ine
cont de 5% din numrul valorilor de la fiecare din cele
dou extremiti ale distribuiei;
transformare (dac datele sunt corecte i, totui, dorim
s evitm efectul lor asupra indicatorilor sintetici);
o exist diverse metode de transformare:
extragerea radicalului din toate valorile
distribuiei, logaritmarea distribuiei

Analiza valorile extreme reprezint unul dintre obiectivele principale
ale fazelor preliminare de analiz a datelor. Prezena lor este de natur s
40
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
aib efecte majore asupra rezultatelor fapt care trebuie luat n considerare
la alegerea procedurilor statistice infereniale.



Rezumatul unitii de nvare




Statistica descriptiv are drept obiective organizarea, sintetizarea i descrierea
datelor.
Tehnicile statisticii descriptive sunt globale sau sintetice
Statisticile descriptive globale sunt numerice (analiza de frecvene simple i
grupate) i grafice.
Rangul percentil se definete ca procentajul datelor valorilor dintr-o distribuie care
se afl pn la o anumit valoare inclusiv.
Percentila este valoarea dintr-o distribuie care corespunde unui anumit rang
percentil.
Un indicator statistic concentreaz ntr-o singur valoare o anumit caracteristic a
distribuiei
Statisticile descriptive sintetice sunt reprezentate de indicatorii tendinei centrale
(modul, mediana, media), indicatorii mprtierii sau variabilitii (amplitudine,
abatere interquartil, abaterea medie, dispersia, abaterea standard) i indicatorii
formei distribuiei (simetrie i boltire).
Cei mai frecvent utilizai indicatori statistici sunt media i abaterea standard.






Rspunsuri corecte la sarcinile de lucru



Sarcina de lucru nr. 2.1

1. a
2. c
3. a (50%)
4. O valoare care exprim raportul dintre frecvena unei valori i 1
5. Valoarea respectiv apare n 7% din totalul valorilor unei distribuii
6. Trebuie s fie multiplu al mrimii intervalului de grupare ales
7. ntre 5 i15
8. Ranguri percentile
9. Percentil

Sarcina de lucru nr. 2.2

41
1. variabile msurate pe scale de interval/raport
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive

2. ilustreaz nu doar forma distribuiei ci i valorile din care este compus
3. Atunci cnd suma valorilor reprezentate are semnificaia unui ntreg
4. Stem Leaf
1 5
2 0,3,5,6,8,9
3 2,3,3,5,6
4 0,1

Sarcina de lucru nr. 2.3

Variabila (1): modul=33; mediana=0.5; media=29.7
Variabila (2): modul=30 i 40 ; mediana=31.5; media=32.8

Precizri:
Variabila (2) este multimodal, 30 este modul cel mai mic.

Sarcina de lucru nr. 2.4

Pentru cele dou variabile de la sarcina de lucru nr 2.3 (timiditate i singurtate),
calculai i scriei valorile cerute mai jos:

(1) amplitudinea=26; abaterea quartil=10.7; abaterea semiinterquartil=5.35; abaterea
medie ptratic=55.6; abaterea standard=7.4; coeficientul de variaie=24.9%;

(2) amplitudinea=36; abaterea quartil=14.7; abaterea semiinterquartil=7.35; abaterea
medie ptratic=107,33; abaterea standard=10.36; coeficientul de variaie=31.5%;

3. Se utilizeaz urmtorii indicatori:
f) abatere interquartil sau semiinterquartil
g) abatere standard
h) amplitudine
i) abaterea standard
j) abatere interquartil sau semiinterquartil



Lucrarea de evaluare nr. 1.2





Lucrarea de evaluare va fi publicat pe portal (http://portal.credis.ro). Data limit de
trimitere este preziua tutorialului. Dup acest termen lucrrile nu mai sunt acceptate.



42
Marian Popa
Copyright DEPARTAMENT ID 2008
Statistici descriptive
43
Bibliografie minimal

Bibliografia de baz

Marian Popa, (2008), Statistic pentru psihologie. Teorie i aplicaii SPSS, Polirom
Pagina web a cursului, la adresa: www.mpopa.ro

Bibliografie suplimentar

Clocotici, V., & Stan, A. (2000). Statistica aplicata in psihologie. Iasi: Polirom, p. 63-
73
Rotaru, T. (coord.). (1999). Metode statistice aplicate in stiintele sociale. Iasi:
Polirom. p. 42-61
Vasilescu, I. P. (1992). Statistica informatizata pentru stiinte despre om (Vol. 1-2).
Bucuresti: Editura militara., p.95-116


Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
1

UNIVERSITATEA DIN BUCURETI
FACULTATEA DE PSIHOLOGIE I
TIINELE EDUCAIEI
DEPARTAMENTUL DE
NVMNT LA DISTAN







STATISTIC PSIHOLOGIC I PRELUCRAREA COMPUTERIZAT A
DATELOR

(Modulul II)

Statistic inferenial, noiuni de baz
Teste statistice parametrice











Conf. Univ. dr. Marian Popa








Universitatea din Bucureti
Editura CREDIS
2008
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
2
CUPRINS

STATISTIC INFERENIAL, NOIUNI DE BAZ................................................................5
Obiectiveleunitiidenvare ......................................................................................................................................5
Scoruri standard.................................................................................................................................5
Altetipuridescoruristandardizate................................................................................................................................6
Distribuia normal (Gauss)..............................................................................................................7
Proprietiledistribuieinormale ...................................................................................................................................7
Distribuianormalz......................................................................................................................................................8
Ariadesubcurbanormalvzutcaprobabilitate .....................................................................................................10
Distribuiirealeidistribuiinormalez......................................................................................................................... 11
Distribuia de eantionare ...............................................................................................................11
Populaieieantion ....................................................................................................................................................11
Reprezentativitateaeantionului .................................................................................................................................12
Distribuiamedieideeantionare ................................................................................................................................13
mprtiereadistribuieideeantionare(eroareastandardamediei) ........................................................................14
Teoremalimiteicentrale ..............................................................................................................................................15
Sarcina de lucru nr. 2. 1...................................................................................................................16
Notele standardizate z pentru eantioane (grupuri) .....................................................................16
Ipoteze i decizii statistice................................................................................................................17
Ipotezacercetrii ..........................................................................................................................................................17
Ipotezastatistic(denul) .............................................................................................................................................18
Distribuiaipotezeidenul .......................................................................................................................................18
Testul z pentru un singur eantion..................................................................................................19
Proceduradecalcul ......................................................................................................................................................19
Deciziastatistic...........................................................................................................................................................20
Deciziistatisticeunilateraleibilaterale......................................................................................................................21
Estimareaintervaluluidencrederepentrumediapopulaiei ......................................................................................22
Testult(Student)pentruunsingureantion...............................................................................................................23
Publicarearezultatelortestuluizsaut ......................................................................................................................... 24
Sarcin de lucru nr. 2. 2...................................................................................................................25
Erori statistice; Puterea testului statistic; Mrimea efectului .....................................................26
Eroristatistice...............................................................................................................................................................26
EroareadetipI ........................................................................................................................................................27
EroareadetipII .......................................................................................................................................................27
EroareadetipIII ......................................................................................................................................................28
Putereatestului ............................................................................................................................................................29
Factoricarecontribuielacretereaputeriitestelorstatistice ................................................................................29
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
3
Mrimeaefectului .......................................................................................................................................................31
Calculareamrimiiefectuluipentrutestulz(t)pentruunsingureantion ............................................................32
Relaiadintremrimeaefectuluiiputereatestului...............................................................................................33
Interpretarerezultatuluiunuiteststatistic ..................................................................................................................33
Rezumatul unitii de nvare........................................................................................................34
Rspunsurilasarciniledelucru ....................................................................................................................................35
Lucrarea de evaluare nr. 2.1 ...........................................................................................................36
TESTE STATISTICE PARAMETRICE.......................................................................................37
Obiectivele unitii de nvare i informaii introductive ...........................................................37
Testarea diferenei dintre mediile a dou eantioane independente ...........................................37
Distribuiaipotezeidenulpentrudiferenadintremediiindependente ......................................................................37
Procedurastatisticpentrutestareasemnificaieidifereneidintremediileadoueantioane ................................38
a.Testultpentrudispersiidiferite ..........................................................................................................................40
b.Testultpentrudispersiacumulat...................................................................................................................... 40
Mrimeaefectului ...................................................................................................................................................42
Limiteledencrederealedifereneidintremedii....................................................................................................43
Interpretarearezultatuluilatestultpentrueantioaneindependente..................................................................44
Publicarearezultatului.............................................................................................................................................44
Condiiilencareputemcalculatestultpentrueantioaneindependente............................................................44
Cndseutilizeaztestultpentrueantioaneindependente?................................................................................44
Sarcinadelucrunr.2.4.................................................................................................................................................45
Analiza de varian (mai mult de dou eantioane independente)..............................................45
Cadrulconceptualpentruanalizadevarianunifactorial.......................................................................................46
FundamentareaproceduriidecalculANOVA...............................................................................................................48
InterpretarearaportuluiF ............................................................................................................................................49
DistribuiaFisher .....................................................................................................................................................50
MrimeaefectuluipentrutestulF........................................................................................................................... 52
Analizaposthoc........................................................................................................................................................54
PublicarearezultatuluitestuluiF(ANOVA) .............................................................................................................55
AvantajeleANOVA...................................................................................................................................................55
CondiiipentruutilizareatestuluiANOVA...............................................................................................................55
Sarcinadelucru2.5 ......................................................................................................................................................56
Testul t pentru diferena dintre medii pentru eantioane dependente........................................56
Sarcinadelucrunr.2.6.................................................................................................................................................61
Testarea asocierii dintre dou variabile msurate pe aceiai subieci ........................................62
Coeficientuldecorelaieliniar(Pearson)....................................................................................................................62
Corelaialiniar .......................................................................................................................................................63
Reprezentareagraficacorelaiei........................................................................................................................... 63
CalculareacoeficientuluidecorelaieliniarPearson.............................................................................................64
Corelaieicauzalitate.............................................................................................................................................66
NaturaliniaracorelaieiPearson..........................................................................................................................66
Mrimeaefectuluicoeficientuluidecrelaie...........................................................................................................68
Coeficientuldedeterminare....................................................................................................................................69
Limiteledencrederepentrucoeficientuldecorelaier.........................................................................................70
Semnificaiadifereneidintredoicoeficienidecorelaie......................................................................................71
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
4
CondiiipentrucalculareacoeficientuluidecorelaiePearson...............................................................................72
Utilizareacoeficientuldecorelaie.......................................................................................................................... 72
Publicarearezultatuluicorelaiei.............................................................................................................................72
Sarcinadelucru2.7 ......................................................................................................................................................72
Rezumatul unitii de nvare........................................................................................................73
Rspunsuri la sarcinile de lucru .....................................................................................................74
Sarcina de lucru 2.3..........................................................................................................................74
Lucrarea de evaluare nr. 2.2 ...........................................................................................................75
Bibliografie minimal ......................................................................................................................75
ANEXE TABELE STATISTICE.................................................................................................76
Anexa1.Tabeluldistribuieivalorilorsubcurbanormalz .........................................................................................76
Anexa2.TabelulvalorilorcriticepentrudistribuiatStudent(unilateral)...................................................................78
Anexa3.TabelulparialaldistribuieiFpentru=0.05 ..............................................................................................79
Anexa5.TabelulFisherdetransformareavalorilorrnscoruriZ................................................................................81
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
5
STATISTIC INFERENIAL, NOIUNI DE BAZ


Obiectivele unitii de nvare

Parcurgerea acestei uniti, va permite studenilor:







Scoruri standard




Modalitatea de a exprima semnificaia unei anumite valori dintr-o distribuie prin raportare la
parametrii distribuiei (medie i abatere standard) este scorul standardizat z (numit i not z sau scor z).
Aceasta msoar distana dintre o anumit valoare i media distribuiei, n abateri standard:




unde x reprezint oricare dintre valorile distribuiei

Pentru cele dou distribuii de mai sus, scorurile z se calculeaz astfel:

respectiv,

Iar n cazul n care pentru distribuia II am avea un scor de 45:



Semnul la rezultat ne arat c performana este mai mic dect media, mai precis, se afl la 0.75
abateri standard sub medie. Semnul + indic o valoare standardizat peste medie, indicnd, n exemplul de
mai sus, c se plaseaz la o jumtate de abatere standard deasupra mediei.
Scorul z se numete scor standardizat (not standardizat), deoarece exprim distana unei valori
fa de media distribuiei din care face parte n uniti ale abaterii standard. De aici decurge unul din
avantajele lui importante, acela de a putea fi utilizat pentru a compara valori care provin din distribuii
diferite, indiferent de unitatea de msur a fiecreia.
Exemplu: Dac un subiect obine un scor echivalent cu z=+0.2 la un test de calcul aritmetic i un
scor echivalent cu z=+0.1, la un test de reprezentare spaial, se poate spune c are o performan mai bun la
primul test dect la al doilea.

Calcularea valorii atunci cnd cunoatem parametrii scorului z

s calculeze scoruri standard corespunztoare unor scoruri brute
s defineasc proprietile scorurilor standardizate z
s defineasc proprietile distribuiei normale
s defineasc caracteristicile distribuiei de eantionare
s defineasc ipoteza cercetrii i ipoteza de nul
d fi l l d i i i i i
s
m x
z

=
0 . 2
5
60 70
+ =

=
I
z
5 . 0
20
60 70
+ =

=
II
z
75 . 0
20
60 45
=

=
II
z
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
6
Dac am calcula scorurile (notele) z pentru fiecare dintre valorile unei distribuii, am obine o
distribuie n scoruri z a acelei distribuii. n tabelul urmtor, distribuia X a fost transformat n distribuie
z.











Utiliznd proprietile de transformare a formulei de definiie a scorului z, putem calcula o anumit
valoare atunci cnd cunoatem valoarea lui z i parametrii distribuiei, astfel:

Dac atunci:


x=z*s+m adic, pentru ultimul exemplu, x=-0,75*2.38+12.8=11

Proprietile scorurilor z

1. Media unei distribuii z este ntotdeauna egal cu 0. Aceasta rezult din proprietatea mediei de a se
diminua corespunztor dac se extrage o constant din fiecare valoare a unei distribuii. Formula de calcul
pentru z implic scderea unei constante din fiecare valoare a distribuiei. Aceasta nseamn c i media noii
distribuii (z) se va reduce cu constanta respectiv. Dar aceast constant este nsi media distribuiei
originale, ceea ce nseamn c distribuia z va avea media egal cu zero, ca rezultat al diminurii mediei cu
ea nsi.
2. Abaterea standard a unei distribuii z este ntotdeauna 1. Acest fapt decurge prin efectul cumulat al
proprietilor abaterii standard. Prima proprietate afirm c n cazul scderii unei constante (n cazul
scorurilor z, media) din valorile unei distribuii, abaterea standard a acesteia nu se modific. A doua
proprietate afirm c n cazul mpririi valorilor unei distribuii la o constant, noua abatere standard este
rezultatul raportului dintre vechea abatere standard i constant. Dar constanta de care vorbim este, n cazul
distribuiei z, chiar abaterea standard. Ca urmare, noua abatere standard este un raport dintre dou valori
identice al crui rezultat, evident, este 1.

Alte tipuri de scoruri standardizate

Scorurile z prezint un avantaj important, permit compararea valorilor unei distribuii i a valorilor
provenind din distribuii diferite, ca urmare a faptului ca se exprim n abateri standard de la medie. Totui se
impune o anumit precauie n comparaia pe baza scorurilor z atunci cnd distribuiile au forme diferite i,
mai ales, asimetrii opuse.
Notele z au ns i unele dezavantaje: se exprim prin numere mici, cu zecimale, (greu de manipulat
intuitiv) i, n plus, pot lua valori negative. Aceste dezavantaje pot fi uor nlturate printr-un artificiu de
calcul care s conduc la note standardizate convenabile, ce corespund anumitor nevoi practice specifice. n
tabelul de mai jos sunt descrise cteva tipuri de note standard calculate pe baza notelor z.
X z
14 +0.50
11 -0.75
10 -1.17
16 +1.34
13 +0.08
N=5
64

= X
m=12.8
s=2.38
N=5
0

= Z
m=0
s=1
s
m x
z

=
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
7











Observaii:
Toate variantele sunt obinute prin transformarea operat pe distribuia de note z.
La nici una dintre variante nu mai avem valori negative (cu condiia ca distribuia s nu aib o
variabilitatea aberant).
Zecimalele nu mai sunt semnificative (ele rezult din calcule, dar sunt ignorate).
Distribuiile variantelor oscileaz n jurul unei valori medii specifice, sub care se afl 50% din valori,
i peste care se afl restul de 50% dintre valori.
Scorurile standard mari indic valori mari, iar scorurile standard mici indic valori mici. Acest fapt
poate crea dificulti n unele cazuri. S lum urmtorul exemplu: Un subiect realizeaz 145
rspunsuri corecte la un test de calcul aritmetic (m=120, s=12) i un timp de reacie de 0.15 sec., la
un test de reactivitate (m=0,11, s=0,05). n acest caz, notele T corespunztoare celor dou
performane sunt: T
1
=50+10*(145-120)/12=70, respectiv T
2
=50+10*(0,15-0,11)/0,05=58. Cu alte
cuvinte, ar rezulta c la ambele teste subiectul nostru a obinut un rezultat peste medie. Dar aceast
concluzie este fals, dac inem cont c la testul de reactivitate un timp mai mare nseamn o
performan mai sczut. Soluia problemei const n modificarea semnului expresiei de calcul, n
funcie de semnificaia calitativ a valorilor distribuiei. n acest mod, rezultatul transformrii n not
standard la testul de reactivitate devine: T
2
=50-10*(0,15-0,11)/0,05=42, ceea ce indic exact
semnificaia de performan sub medie. Raportat la valoarea medie a distribuiei T, scorul 58 este
echivalent cu 42, sub aspectul distanei fa de medie (8 uniti). Diferena const n faptul c
valoarea 42 exprim i n mod intuitiv, nu doar cantitativ, evoluia performanei la test. O asemenea
transformare nu este obligatorie, se poate utiliza oricare dintre formule, cu semnul plus, sau minus.
n orice caz, trebuie s precizm semnificaia valorilor mari si mici pentru distribuiile cu care
operm.


Distribuia normal (Gauss)



Proprietile distribuiei normale

Reprezentarea grafic a rezultatelor msurrilor reale poate lua diverse forme, curba distribuiei
putnd fi unimodal sau multimodal, aplatizat sau nalt, simetric sau asimetric. n statistic exist ns
un tip special de distribuie, numit distribuie normal, care corespunde reprezentrii grafice a unei
caracteristici pentru care exist un mare numr de msurri, tinznd spre infinit. Aceast distribuie este

1
Cunoscute mai ales datorit utilizrii n evaluarea scalelor la MMPI, unul dintre cele mai celebre teste de personalitate.
Formula
bazat pe z
Formula
desfurat
m s
Note z


0 1
Note T
(Thurstone)
1

50+10*z

50 10
Note H
(Hull)
50+14*z

50 14
QI
(Binet)
100+16*z

100 16
QI
(Wechsler)
100+15*z

100 15
SAT
(Scholastic
Assessment
Test)
500+100*z

500 100
s
m x
z

=
s
m x
T

+ = * 10 50
s
m x
H

+ = * 14 50
s
m x
QI

+ = * 16 100
s
m x
QI

+ = * 15 100
s
m x
SAT

+ = * 100 500
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
8
numit teoretic pentru c nu este rezultatul unui proces real de msurare, ci reprezint un model teoretic.
Conceptul de curb normal (expresia grafic a distribuiei normale) se refer la un anumit tip de
distribuie teoretic care are cteva proprieti caracteristice:
are form de clopot. Cea mai mare parte a valorilor se concentreaz n zona central (medie);
este perfect simetric pe ambele laturi ale sale;
linia curbei se apropie la infinit de axa OX (orizontal), fr a o atinge vreodat;
n conformitate cu proprietatea 2, de fiecare parte a mediei se afl exact jumtate dintre valorile
distribuiei.

Exemple de curbe normale:


Imaginea de mai sus ilustreaz diferite variante ale familiei de curbe normale, care respect, fiecare
dintre ele, condiiile de mai sus, chiar dac au medii i abateri standard diferite.

Distribuia normal z

Curba normal n care valorile sunt exprimate n scoruri z se numete curba normal standardizat. Ea are
toate proprietile enunate mai sus, avnd ns i parametrii oricrei distribuii z: m=0 i s=1. Rezult astfel
c distribuia normal standardizat (z) este este simetric n jurul lui 0.










Curba normal
standardizat are cteva caracteristici care sunt figurate n imaginea de mai sus i pe care este important s le
reinem:
Aproximativ 34% dintre scorurile distribuiei normale se afl ntre medie i o abatere
standard deasupra mediei (z=+1)
ntre 1z i +1z se afl aproximativ 68% dintre valorile distribuiei
Aproximativ 96% dintre scoruri se afl ntre 2z i +2z

Avnd n vedere distribuia scorurilor z pe o curb normal standardizat, aceasta poate fi utilizat
pentru a afla rspuns la ntrebri precum: Care este procentajul de valori care se afl sub/peste o anumit
not z; ntre anumite note z; ori ntre medie i o not z? Care este nota z corespunztoare unui anumit
procentaj de valori? Pentru a rspunde la aceste ntrebri, se utilizeaz o tabel special care conine, sub
form de probabiliti, frecvenele valorilor de sub curba normal z (Anexa 1).
Aa cum vom vedea mai departe, curba normal are o importan aparte pentru analiza statistic.
Aceasta, deoarece se accept faptul c variabilele statistice s-ar distribui mai ales sub aceasta form dac ar
fi efectuate un numr mare (tinznd spre infinit) de msurri.

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
9
Exemple:

S ne raportm la distribuia valorilor QI, pentru care media este egal cu 100 i abaterea standard 16

Exemplul 1: Care este procentajul oamenilor al cror scor QI este ntre 100 i 110?

Pentru a rspunde la aceast ntrebare, convertim valorile QI n scoruri z. 100(QI)=0(z). Pentru 110(QI) se
aplic formula:

63 . 0
16
100 110
+ =

=
s
m X
z

Aria de sub curba normal cuprins ntre valorile QI i 100 i 110 este reprezentat pe figura urmtoare:


Citim tabela ariilor la intersecia celulelor 0.6 cu 0.03. Valoarea este 0.2357 ceea ce, exprimat n
procente, este 23.57%
Conchidem c 23.57% din oameni au un QI cuprins ntre 100 i 110)

Exemplul 2: Care este procentul oamenilor al cror QI este mai mare dect 125?
Convertim n note z:

z=
s
m X
=
16
100 125
=+1.56
Aria de sub curba normal pentru scoruri QI mai mari dect 125 este reprezentat mai jos:


Citim valoarea din tabel care corespunde interseciei celulei 1.5 cu 0.06, pentru a afla procentajul
dintre medie i nota z +1.56. Gsim valoarea, exprimat n procente, 44.06%. Acesta este procentajul dintre
medie i z=+1.56.
tim c procentajul peste medie este 50%, ca urmare, procentajul celor peste QI=125 va fi 50-
44.06=5.94.
Conchidem c 5.94% dintre oameni au un QI mai mare de 125 (z=1.56)

Exemplul 3: Care este scorul minim pe care trebuie s l obin o persoan pentru a fi ntre primii 5% din
populaie?
Ne reprezentm aria de sub curb care delimiteaz cele mai mari 5% dintre valorile z, trebuind s
aflm valoarea corespunztoare z, respectiv QI:
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
10

Aria dintre medie i linia noastr este 50%-5%=45%. Cutm n tabel valoarea cea mai apropiat de
0.45 i o gsim la intersecia celulelor 1.6 cu 0.04. Deci, z=1.64 pentru limita procentului de 5%.
Convertim scorul z=1.64 n valoare brut: X=m+z*s=100+ (+1.64)*16=126.24
Conchidem c pentru a fi n primii 5% trebuie s obinem un QI=126.24

Exemplul 4: Care este scorul care indic cei mai slabi 33%?
Ne reprezentm limita de 33% n zona valorilor de sub medie:

Cutm scorul z corespunztoare acestui procent.
Mai nti, scdem 33% din 50% ct reprezint aria din partea inferioar a curbei. Obinem 17%
Cutm nota z corespunztoare procentului de 17% de sub medie.
Valoarea 0.1700 (17%) se gsete la intersecia celulelor 0.4 cu 0.04, ceea ce indic nota z=-0.44 (cu
minus, pentru c ne aflm n partea stng a curbei).
Convertim nota z n valoare brut: X=m+z*s=100+(-0.44)*16=92.96.
Conchidem c este necesar un scor de cel mult 92.96 pentru a avea un QI ntre ultimii 33%.


Aria de sub curba normal vzut ca probabilitate

Valorile reprezentate pe curba normal nu reprezint valori reale, rezultate n urma unui proces de
msurare. Ele reprezint valori ipotetice, distribuite astfel pe baza unui model matematic (legea numerelor
mari). Nimic nu ne mpiedic s considerm c valorile de sub curba normal sunt rezultatul unei ipotetice
extrageri aleatoare. Pe msur ce extragem mai multe valori, curba de distribuie a acestora ia o form care
se apropie de forma curbei normale. Extrgnd la infinit valori aleatoare, vom obine o distribuie normal
perfect, exprimabil printr-o curb normal perfect.
Din cele spuse mai sus, rezult faptul c valorile din zona central a curbei sunt mai frecvente (mai
multe), pentru c apariia lor la o extragere aleatoare este mai probabil. n acelai timp, valorile mai
puin probabile, apar mai rar i populeaz zonele laterale, din ce n ce mai extreme, ale distribuiei (curbei).
Probabilitatea nseamn frecvena relativ a apariiei unui eveniment. Subiectiv, se traduce prin ct de
siguri putem fi c acel eveniment apare. Dac probabilitatea reprezint raportul dintre evenimentul favorabil
i toate evenimentele posibile, atunci valoarea ei variaz ntre 0 i 1. Ea poate fi exprimat i n procente. De
exemplu, probabilitatea de 0.05 corespunde unui procentaj de apariie de 5%
Utiliznd simbolul p (de la probabilitate), spunem c dac p<0.05 nseamn c evenimentul are
mai puin de 5% anse s apar, n condiiile unei distribuii corespunztoare curbei normale. Procentajul
ariilor de sub curba normal poate fi citit deci, i ca probabilitate a distribuiei. De exemplu, probabilitatea de
a avea un scor ntre medie i z=+1 este de p=0.34, iar probabilitatea de avea un scor z=+1.65 sau mai mare,
este mai mic de 0.05 (p<0.05).


Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
11
Distribuii reale i distribuii normale z

Caracteristicile curbei normale i frecvena cu care se face apel la aceasta n studiile statistice
determin adesea interpretri greite. De aceea se cuvine s insistm asupra faptului c distribuia normal
reprezint un model teoretic care se consider c aproximeaz de o manier mulumitoare cele mai multe
dintre distribuiile caracteristicilor naturale, incluzndu-le i pe cele psihice. Cu toate acestea, distribuiile
reale pe care le descoper psihologii n studiile lor nu au niciodat parametrii unei curbe normale perfecte.
Acest lucru este practic imposibil dac ne gndim c o curb normal are limitele deschise, mergnd spre
infinit, n timp ce distribuiile reale sunt ntotdeauna finite. n ciuda acestui neajuns, aproximarea oferit de
modelul teoretic al curbei normale este considerat acceptabil din punct de vedere tiinific.
Un alt aspect care poate conduce la interpretri eronate este exprimarea valorilor curbei normale n
scoruri z. Acest fapt este neles adesea cu sensul c transformarea n scoruri z a unei distribuii o transform
automat ntr-o distribuie normal, ceea ce este o concluzie profund greit. Convertirea valorilor unei
distribuii n scoruri z nu modific forma distribuiei. Distribuia normal z este o distribuie teoretic, n
timp ce o distribuie z oarecare are forma distribuiei valorilor originale.



Distribuia de eantionare




Populaie i eantion

Obiectivul legitim al cercetrii tiinifice este identificarea unor adevruri cu un anumit grad de
generalitate. Din punct de vedere statistic generalul este reprezentat de totalitatea valorilor care descriu o
anumit caracteristic, i este numit populaie. Din pcate ns, investigarea tuturor indivizilor (valorilor)
care compun o anumit populaie nu este aproape niciodat posibil. Ca urmare, n practica cercetrii
tiinifice se supun cercetrii psihologice loturi mai restrnse, numite eantioane, extrase din ansamblul
populaiei vizate. Parametrii descriptivi ai acestor eantioane (medie, abatere stadard) sunt extrapolai, n
anumite condiii i cu ajutorul unor proceduri specializate, la populaia din care fac parte.








A fundamenta un adevr statistic nseamn a trage o concluzie care descrie parametrii unei populaii
de valori, pe baza indicatorilor unui eantion din acea populaie.
n contextul cercetrii statistice utilizm urmtoarele definiii:
Populaia reprezint totalitatea unitilor de informaie care constituie obiectivul de interes al unei
investigaii. Prin uniti de informaie nelegem cel mai adesea persoane (subieci, cu un termen uzual
in cercetarea psihologic
2
). Dar, la fel de bine, putem nelege i populaia de cupluri familiale, sau
populaia de diferene dintre mediile a dou variabile, de exemplu. n esen, prin populaie trebuie s
nelegem extinderea maxim posibil, sub aspectul volumului, a respectivei uniti de informaie.
Extinderea menionat este, la rndul ei, definit prin obiectivul de cercetare, ceea ce nseamn ca are o
dimensiune subiectiv. Aceasta se refer la domeniul de interes pe care i-l propune cercettorul. De
exemplu, ntr-un studiu cu privire la efectul oboselii asupra performanei cognitive, pot fi vizate diferite
categorii de populaii: a aviatorilor, a studenilor, a mecanicilor de locomotiv, a ahitilor, etc. Este de la

2
Denumirea de subiect este respins n mediul anglo-saxon din cauza semnificaiei de supus pe care o are n limba
englez cuvntul subject. Din acest motiv, o variant frecvent uzitat este cea de participant.
Parametrii populatiei Indicatorii
eantionului
estimeaz
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
12
sine neles faptul c, nc de la nceputul unei cercetri tiinifice, se va preciza populaia cercetrii, cu alte
cuvinte, domeniul de extindere a rezultatelor i a concluziilor ce urmeaz a fi trase.
Eantionul reprezint unitile de informaie selecionate pentru a fi efectiv studiate. Ideea pe care
se bazeaz cercetrile bazate pe eantioane este aceea c se pot face aprecieri asupra unei ntregi populaii, n
anumite condiii, doar pe baza caracteristicilor msurate pe o parte a acesteia.

Exemple:
- ntr-un studiu asupra efectelor accesului la internet asupra elevilor de liceu, elevii de liceu
reprezint populaia, iar elevii selecionai pentru investigaie, eantionul.
- ntr-un studiu care vizeaz influena inteligenei asupra performanei n instruirea de zbor,
populaia este reprezentat de toi piloii, iar eantionul, de subiecii inclui n studiu.

Dac am reui recoltarea datelor cu privire la ntreaga populaie care face obiectul cercetrii, am
putea trage concluzii directe cu privire la aceasta prin utilizarea indicatorilor statistici descriptivi cunoscui
(medie, dispersie, abatere standard) numii i parametrii populaiei. Dar acest lucru nu este aproape
niciodat posibil i, ca urmare, indicatorii statistici ai eantionului sunt utilizai pentru a face estimri,
inferene, cu privire la parametrii populaiei. n esen, a testa o ipotez statistic nseamn a emite concluzii
asupra unei populaii pe baza rezultatelor obinute pe un eantion care aparine acelei populaii. n acest
context, demersul tiinific presupune urmtorii pai:
1. formularea problemei cercetrii (sub forma unei ntrebri, cu referire la o anumit populaie);
2. emiterea unei ipoteze privind cel mai probabil rspuns;
3. selectarea unui eantion;
4. aplicarea unei proceduri care sa permit acceptarea sau respingerea ipotezei.

Reprezentativitatea eantionului

Verificarea statistic a ipotezelor se bazeaz pe o idee simpl: dac avem un eantion a crui alegere
respect anumite condiii, extras dintr-o populaie orict de mare, rezultatele obinute pe acesta pot fi
extrapolate la ntreaga populaie.
Calitatea unui eantion de a permite extinderea concluziilor la ntreaga populaie din care a fost
extras se numete reprezentativitate. De fapt, nici un eantion nu poate reprezenta perfect datele populaiei.
De aceea reprezentativitatea are o semnificaie relativ. Ca urmare estimrile pe baz de eantion conin
ntotdeauna o doz mai mare sau mai mic de eroare. Cu ct eroarea este mai mic, cu att concluziile
obinute pe eantion pot fi generalizate mai sigur asupra populaiei.
Pentru a permite fundamentarea inferenelor statistice, eantionul trebuie s fie constituit din uniti
de informaie (subieci, valori, etc.) independente unele de altele. Independena valorilor se refer la faptul
c fiecare valoare (sau unitate experimental) trebuie s fie absolut distinct de celelalte. n esen
constituirea unui eantion trebuie s evite efectele unor factori sistematici care s interfereze cu obiectivele
studiului, orientnd rezultatele ntr-o anumit direcie (situaie desemnat n limba englez prin termenul de
bias).

Cteva exemple:
Dac msurm timpul de reacie la un numr de cinci subieci, dar facem trei evaluri la fiecare
subiect, nu avem eantion de 15 valori independente, deoarece valorile aceluiai subiect au n comun
o constant personal care le face dependente una de cealalt. Pentru avea un singur eantion am
putea s utilizm media celor trei determinri pentru fiecare subiect.
Dac dorim s investigm efectul inteligenei asupra performanei colare trebuie s avem grij s
includem n eantion subieci provenind din familii cu un nivel variat al veniturilor, pentru a anihila
influena statutului socio-economic asupra performanei colare.
Un studiu asupra atitudinii fa de utilizarea computerelor n educaie, poate fi influenat n mod
sistematic dac eantionul este constituit numai din elevi care utilizeaz frecvent calculatorul.
n cazul unui sondaj cu privire la inteniile de vot bazat pe interviul telefonic, vom obine rezultate
afectate de starea social a respondenilor (i permit montarea unui telefon) sau de ora apelului (n
orele dimineii sunt acas, s zicem, mai multe femei casnice).

Este clar de ce modul de constituire a eantionului este decisiv pentru nivelul de reprezentativitate.
Esenial n acest caz este asigurarea condiiilor ca acesta s acopere n mod real caracteristicile populaiei,
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
13
evitndu-se favorizarea sistematic a unor subieci nereprezentativi. Fr a intra n amnunte tehnice cu
privire la procedurile de eantionare, iat care sunt cele mai utilizate metode de constituire a eantioanelor:
a) Eantionare stratificat multistadial. Populaia se mparte n categorii, fiecare categorie n
subcategorii .a.m.d., iar subiecii sunt selecionai aleator la nivelul categoriei de nivelul cel mai
sczut. Se obine astfel un eantion care reproduce fidel structura populaiei.
b) Eantionare prin clasificare unistadial. Se identific categorii pe un singur nivel iar subiecii se
extrag aleator din fiecare categorie.
c) Eantionare aleatoare. Subiecii sunt extrai aleator (la ntmplare) din ansamblul populaiei. La
ntmplare, nseamn n acest caz utilizarea unei proceduri care asigur fiecrui subiect al
populaiei absolut aceleai anse de a fi extras. n acest scop se pot utiliza programe de calculator
(de ex. SPSS) sau tabele de numere aleatoare.
d) Eantionare pseudo-aleatoare (haphazard, sau de convenien). Sunt utilizai subiecii
disponibili. Este cazul cel mai frecvent ntlnit n practic i, dac disponibilitatea nu este
afectat de un aspect care s influeneze semnificativ obiectivul cercetrii, atunci
reprezentativitatea este acceptabil.

n concluzie, presupunnd c am obinut anumite rezultate pe un eantion aleator, raionamentul
statistic ne permite s aplicm concluziile la ntreaga populaie din care a fost extras acel eantion. Se
impune ns, o precizare clar a populaiei de referin pentru c, dincolo de limitele acesteia, extrapolarea nu
este permis. De exemplu, rezultatele unui studiu asupra atitudinii fa de internet efectuat pe un eantion de
studeni nu poate fi extrapolat la alte categorii sociale, i nici chiar la alte categorii de studeni, dac n
eantionul nostru au intrat numai studeni de la faculti umaniste, s zicem.


Distribuia mediei de eantionare

Atunci cnd constituim un eantion de studiu nu facem dect s utilizm doar unul dintre
eantioanele posibil a fi selecionate (alese, constituite, extrase) din populaia cercetrii. Dac am selecta mai
multe eantioane din aceeai populaie, fiecare dintre ele ar fi caracterizat prin indicatori sintetici specifici,
vor avea, fiecare, media i abaterea lor standard. Imaginea de mai jos sugereaz situaia descris:

POPULAIE
eantion 4 eantion 3 eantion 2 eantion 1


Dac fiecare dintre cele patru eantioane de valori are propria sa medie, atunci distribuia mediilor
tuturor eantioanelor extrase se numete distribuia mediei de eantionare sau, mai scurt, distribuia de
eantionare. La rndul ei, distribuia mediilor are i ea o medie, numit medie de eantionare, i care se
calculeaz, evident, dup urmtoarea formul:
k
m m m m
k
+ + + +
=
...
3 2 1


unde este media populaiei, valorile m sunt mediile fiecrui eantion constituit, iar k este numrul
eantioanelor.

Dac am extrage toate eantioanele posibile dintr-o populaie, atunci media de eantionare este
identic cu media populaiei. Pentru exemplificare, s presupunem c avem o populaie constituit din
valorile 1,2,3,4 i s ne propunem constituirea tuturor eantioanelor posibile de cte 3 valori. Tabelul de mai
jos ilustreaz aceast situaie:

Populaia Eantioane
Distribuia
mediei de
eantionare
1 1,2,3 m
1
=2.00
2 1,2,4 m
2
=2.33
3 3,4,1 m
3
=2.67
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
14
4 2,3,4 m
4
=3.00
=2.5
=1.29
Toate eantioanele
posibile pentru N=3
=10.00
m=10/4=2.5

Aa cum se observ, dac extragem toate eantioanele posibile (n acest caz 4) dintr-o populaie de
valori, atunci media mediilor eantioanelor extrase (denumit medie de eantionare) este identic cu media
populaiei (n cazul dat: m==2.5). Datele din tabel ne mai arat i faptul c media fiecrui eantion
oscileaz (variaz) n jurul mediei de eantionare. De aceea ele pot fi considerate o estimare a acesteia din
urm, n ciuda impreciziei pe care o conine fiecare. Aceast imprecizie se numete eroare de estimare.
Desigur, exemplul are o valoare de ilustrare teoretic deoarece, n practic, niciodat nu se ajunge la
selectarea tuturor eantioanelor posibile dintr-o anumit populaie de valori.

mprtierea distribuiei de eantionare (eroarea standard a mediei)

Distribuia de eantionare nu are aceeai mprtiere ca i distribuia valorilor individuale ale
variabilei de origine. Aceasta pentru c, la nivelul fiecrui eantion, o parte din mprtierea total este
absorbit de media fiecrui eantion n parte. Cu ct eantioanele sunt mai mari, cu att media fiecrui
eantion tinde s fie mai apropiat de media variabilei originale i, implicit, abaterea standard a distribuiei
de eantionare este mai mic prin comparaie cu abaterea standard a variabilei.
Exemplu: S considerm populaia valorilor 1,2,3,4,5,6,7,8,9,10, pentru care am calculat =5.5 i
=3,0276. Am extras, cu ajutorul unui program statistic, cinci eantioane aleatoare (pentru uurina
calculelor, am ales pentru fiecare eantion N=3). Iat cum se prezint mediile i abaterile standard pentru
cele cinci eantioane selectate:

m
1
=5.00 m
2
=4.5 m
3
=4.0 m
4
=2.5 m
5
=5.5
s
1
=5.65 s
2
=4.94 s
3
=4.24 s
4
=2.12 s
5
=6.36

n acest exemplu, cele cinci eantioane nu sunt toate, ci doar o parte din eantioanele posibile de 3
valori extrase din populaia cercetat. Media distribuiei de eantionare pentru acest exemplu este:
375 . 5
5
5 4 3 2 1
=
+ + + +
=
m m m m m



n ceea ce privete mprtierea distribuiei de eantionare, aceasta este, aa cum am spus, mai mic
dect mprtierea variabilei la nivelul ntregii populaii, deoarece o parte a mprtierii generale se
concentreaz (se pierde) n media fiecrui eantion extras. Ca urmare, abaterea standard a distribuiei de
eantionare este o fraciune din abaterea standard a populaiei, fiind dependent de mrimea eantionului.
Mai precis, fr a intra n detalii explicative, abaterea standard a distribuiei de eantionare este egal cu
N
din abaterea standard a populaiei, unde N este volumul eantionului.
Deoarece mprtierea mediei de eantionare arat ct de mult se abat aceste medii de la media
populaiei, abaterea standard a mediei de eantionare este denumit eroare standard a mediei i se calculeaz
cu formula:

(formula 3.1)

unde s
m
este eroarea standard a mediei de eantionare, este abaterea standard a populaiei iar N
este volumul eantionului. n cazul distribuiei de mai sus, eroarea standard a mediei este



Pentru c, n mod obinuit, abaterea standard a populaiei nu este cunoscut, eroarea standard a
mediei de eantionare se calculeaz utiliznd abaterea standard a eantionului, care reprezint o estimare a
mprtierii la nivelul populaiei.

Figura de mai jos sugereaz foarte bine modul n care, prin creterea volumului eantionului, media
eantionului se apropie tot mai mult de media populaiei, cu alte cuvinte, comport o eroare din ce n ce n
mai mic fa de aceasta.
N
s
m

=
74 . 1
3
02 . 3
= = =
N
s
m

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
15









Expresia de eroare standard a mediei poate fi mai greu de neles, dat fiind faptul c este folosit
pentru a defini un indicator al mprtierii, n timp ce are n compunere cuvntul medie. Trebuie ns s
reinem faptul c acest indicator msoar ct de departe poate fi media unui eantion de media populaiei din
care a fost extras. Altfel spus, ct eroare poate conine media unui eantion n estimarea mediei
populaiei. Avnd n vederea faptul c la numitor avem o expresie bazat pe N (volumul eantionului), este
limpede de ce, cu ct eantionul este mai mare, cu att eroarea standard a mediei este mai mic.


Teorema limitei centrale
3


Teorema limitei centrale certific dou adevruri statistice fundamentale:
1. Cu ct numrul eantioanelor realizate dintr-o populaie (tinznd spre infinit) este mai mare, cu att
media distribuiei de eantionare se apropie de media populaiei.
2. Distribuia mediei de eantionare se supune legilor curbei normale, chiar i atunci cnd distribuia
variabilei la nivelul ntregii populaii nu are un caracter normal, cu condiia ca volumul eantioanelor
s fie suficient de mare. Cu alte cuvinte, distribuia mediei de eantionare se apropie de distribuia
normal, cu att mai mult cu ct volumul eantionului este mai mare.

Teorema limitei centrale este adevrat n urmtoarele condiii fundamentale:
a. eantioanele sunt aleatoare sau neafectate de erori (bias);
b. valorile care compun eantioanele sunt independente unele de altele (msurarea unei valori
nu este influenat de msurarea altei valori din eantion);
c. eantioanele au acelai volum de valori (subieci).

Utilitatea teoremei limitei centrale const n faptul c ea permite fundamentarea inferenelor
statistice fr a ne preocupa prea mult de forma distribuiei valorilor individuale la nivelul populaiei. Este de
ajuns s utilizm un eantion suficient de mare pentru a ne putea asuma presupunerea unei distribuii
normale la nivelul mediei de eantionare.
ntrebarea care se pune este, ns, ct de mare trebuie s fie un eantion pentru a putea fi considerat
suficient de mare? Fr a intra n amnunte, vom spune c, dac eantionul de referin cuprinde cel puin
30 de subieci, teoria statistic accept c avem o distribuie normal a mediei de eantionare. Acest numr
(30), care nu are nimic magic n el, este utilizat de obicei pentru constituirea eantioanelor minime de
cercetare. Pe aceast baz orice eantion avnd cel puin 30 de valori este considerat eantion mare n timp
ce orice eantion cu mai puin de 30 de valori este considerat eantion mic.
n concluzie, distribuia mediei de eantionare are o evoluie diferit de distribuia valorilor
individuale ale unei caracteristici. Chiar i atunci cnd acestea din urm nu se distribuie dup regulile curbei
normale, mediile eantioanelor tind spre o distribuiei normal dac volumul lor este suficient de mare.
Mrimea eantionului trebuie s fie de cel puin 30 de valori pentru a avea ncredere c teorema limitei
centrale se verific. Dar chiar i eantioane de volum mai mic pot avea medii ce se plaseaz pe o distribuie
normal, dac provin din populaii normale. Din pcate, forma distribuiei la nivelul populaiei nu este
aproape niciodat cunoscut. n acest caz singurul lucru pe care l putem face este s utilizm, ori de cte ori
ne putem permite, eantioane mari, adic de cel puin 30 de valori, i chiar mai mari, dac acest lucru este
posibil. Cu toate acestea, aa cum vom vedea mai departe, exist soluii statistice i pentru eantioane mai
mici de 30 de valori
4
.


3
Sau teorema limit central.
4
Dincolo de aceste considerente teoretice, mrimea eantioanelor utilizate n studiile statistice psihologice face obiectul
unor recomandri specifice pentru diferite situaii practice de cercetare. Acestea vor fi prezentate mai trziu.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
16


Sarcina de lucru nr. 2. 1



Presupunem c evaluarea preferinei pentru risc la un grup de 30 de studeni aviatori care
au suferit incidente critice n zbor a condus la o distribuie de valori avnd m=60 i s=25. tiind c
indicele preferinei pentru risc la toi elevii piloi (populaia) este 55, i are o distribuie normal,
calculai rspunsul la urmtoarele ntrebri:
1. Care este scorul z corespunztor eantionului?
2. Care este procentajul valorilor ntre media e antionului (60) i media popula iei?
3. Care este procentajul valorilor mai mari dect 60, raportat la media popula iei?
4. Care este procentajul scorurilor mai mici de 60, raportat la media popula iei?
5. Care este probabilitatea de avea un scor mai mare de 53, raportat la media popula iei?
6. Care este probabilitatea de a avea un scor mai mic de 40, raportat la media popula iei?
7. Care este probabilitatea de a avea un scor cuprins ntre 45 i 48?
8. Care este scorul minim pe care l poate avea o persoan pentru a intra n primii 10% dintre
subieci?
9. Care este scorul maxim pe care trebuie s l obin cineva pentru a se afla printre ultimii
15%?

Verificai rspunsurile corecte


Notele standardizate z pentru eantioane (grupuri)




Ne vom referi acum la exemplul anterior, n care avem cinci eantioane extrase dintr-o populaie de
10 valori. Dac avem media distribuiei de eantionare i abaterea standard a acesteia (calculat ca eroare
standard a mediei, cu formula 3.1), atunci putem exprima media unui eantion oarecare, ca scor standardizat
z, ntr-o manier similar cu scorul standardizat z pentru o valoare oarecare. Rostul acestei transformri ar fi
acela de a vedea n ce msur media eantionului de studiu se ndeprteaz de media populaiei de referin.
Cu alte cuvinte, n ce msur rezultatul obinut pe eantion este unul obinuit (mai aproape de media
populaiei) sau unul neobinuit (mai ndeprtat de media populaiei).

Formula de calcul este foarte asemntoare cu formula lui z pentru valori individuale:

m
s
m
z

= (formula 3.2)
unde m este media eantionului, media populaiei, iar s
m
este eroarea standard a mediei.

Dac presupunem c obiectul studiului l face eantionul 1, atunci putem calcula mai nti eroarea
standard a mediei, astfel:





n exemplul nostru, limitat la o populaie cunoscut, am putut calcula abaterea standard a populaiei
(=3.02), dar pentru situaii reale, cu populaii nelimitate, acest lucru nu este posibil. n astfel de cazuri se
accept faptul c abaterea standard a populaiei este suficient de bine reprezentat de abaterea standard a
eantionului extras din aceasta. Ca urmare, dac nu aveam abaterea standard a populaiei, am fi putut utiliza
74 . 1
3
02 . 3
= = =
N
s
m

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
17
n formula erorii standard a mediei abaterea standard a eantionului (n cazul nostru s
1=
5.65 n loc de
=3.02).
Mai departe, scorul standard z pentru eantionul 1, se calculeaz astfel:

unde m este media eantionului 1, este media populaiei, iar s
m

este eroarea standard a mediei.


Exemplu:
S presupunem c, la un examen de cunotine de statistic, o grup de 45 de studeni obine un scor
mediu de m=28.5 puncte. Presupunnd c media pe populaia studeneasc care a mai dat acest examen
(calculat de-a lungul anilor anteriori) este =27.3, cu o abatere standard =8.2, trebuie s aflm care este
performana grupei respective transformat n not z.
Calculm mai nti abaterea standard a mediei:
22 . 1
70 . 6
2 . 8
45
2 . 8
= = = =
N
s
m



Calculm apoi scorul z pentru grup:
98 . 0
22 . 1
20 . 1
22 . 1
3 . 27 5 . 28
= =

=
m
s
m
z



Dac vrem s tim unde se plaseaz performana grupului nostru pe o curb normal, atunci ne uitm
pe tabela notelor z i gsim, n dreptul scorului z=0.98, valoarea tabelar 0.3365. Aceasta poate fi interpretat
n mai multe feluri. De exemplu, putem spune c procentul performanelor posibile peste nivelul grupului
nostru este 50%-33%, adic 17%. Sau, n termeni probabilistici, putem sune i c: probabilitatea de a avea
o grup (un eantion, de aceeai mrime) care s obin un scor mai bun la un examen de statistic (cu
aceleai ntrebri) este de 0.17.


Ipoteze i decizii statistice




S ne imaginm c un psiholog colar i pune ntrebarea dac elevii participani la olimpiadele
colare au un nivel de inteligen (QI) superior elevilor n general. Dac acceptm c aceast problema
prezint interes din punct din vedere practic-pedagogic sau tiinific, atunci se justific transformarea ei ntr-
o problem de cercetare. n esen, aceast problem ar putea fi formulat astfel: Elevii participani la
olimpiade sunt mai inteligeni dect toi elevii n general, fie ei participani sau nu la olimpiade?.

Ipoteza cercetrii

n mod obinuit, o cercetare tiinific se bazeaz pe estimarea unui rezultat ateptat, denumit
ipotez. n cazul nostru, psihologul se poate atepta n mod legitim ca participanii la olimpiad s fie mai
inteligeni dect elevii n general. Acest rezultat ateptat, prefigurat, se numete ipoteza cercetrii, fiind
codificat cu H
1
. Am putea formaliza ipoteza cercetrii astfel:

H
1
m
po
m
eg

unde m
po
reprezint media inteligenei populaiei participanilor la olimpiade, iar m
eg
reprezint
media inteligenei populaiei elevilor n general.
n conformitate cu ipoteza cercetrii, exist dou populaii distincte sub aspectul nivelului de
inteligen, cea a elevilor participani la olimpiade i cea a elevilor n general.

28 . 0
74 . 1
5 . 0
74 . 1
5 . 5 5
=

=
m
s
m
z

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
18
Ipoteza statistic (de nul)

Avnd n vedere c este imposibil s evalueze inteligena tuturor participanilor la olimpiade,
psihologul cercettor trebuie s gseasc un rspuns la problema cercetrii sale cu ajutorul unui eantion. n
acest scop, selecteaz la ntmplare, din populaia de participani la olimpiade, un grup de 30 de elevi, crora
le aplic un test de inteligen general. S presupunem c analiza rezultatelor indic pentru acest grup o
medie a coeficientului de inteligen m=106 i o abatere standard s=7. Amintindu-ne c media valorilor QI la
nivelul ntregii populaii este =100 (=15)
5
, se poate trage concluzia c elevii din populaia de olimpici sunt
mai inteligeni dect cei din populaia general de elevi? Aparent diferena de 6 uniti QI n favoarea
eantionului cercetrii i-ar ngdui o astfel de concluzie. Rigoarea tiinific l oblig ns s observe c
generalizarea mediei eantionului de cercetare asupra ntregii populaii de elevi olimpici comport anumite
riscuri. Eantionul cercetrii, compus aleatoriu din elevi participani la olimpiade, nu este dect unul din
eantioanele de olimpici care ar fi putut fi selectat. Astfel, faptul c eantionul su are un QI mediu mai mare
dect media populaiei se poate ncadra n caracteristica oricrei medii de eantion de a oscila n jurul mediei
populaiei din care este extras. Ar fi posibil deci, ca valoarea medie de 106 s fie doar rezultatul hazardului,
care face ca mediile eantioanelor extrase din aceeai populaie s varieze n jurul mediei populaiei.
Ca urmare, pentru a decide cu privire la ipoteza cercetrii (olimpicii sunt mai inteligeni dect elevii
n general) cercettorul trebuie s evalueze probabilitatea ca media eantionului cercetrii s fie rezultatul
hazardului de eantionare. Rezult de aici c, pentru a putea afirma c olimpicii sunt mai inteligeni dect
media populaiei, cercettorul trebuie s dovedeasc faptul c nivelul de inteligen al eantionului de
olimpici este mai mare dect al unui eantion care ar fi fost extras absolut la ntmplare din populaia
general de elevi.
Procedura statistic care se bazeaz pe acest raionament se numete ipotez de nul (se utilizeaz i
alte variante: ipoteza diferenei nule sau, pur si simplu, ipotez statistic). Respingerea ei implic o
dovad indirect a validitii ipotezei cercetrii, i se bazeaz pe un scenariu negativ (similar cu a pune
rul n fa). Ipoteza de nul se formuleaz ca opusul ipotezei cercetrii. n cazul nostru ipoteza de nul va fi
exprimat astfel: participanii la olimpiad nu au o inteligen mai mare dect populaia de elevi n
general.
Ipoteza de nul este simbolizat cu H
0
, iar expresia ei formal este:

H
0
m
po
=m
eg

ceea ce semnific faptul c mediile celor dou populaii comparate nu difer, ci sunt egale. Cu alte
cuvinte, ipoteza de nul afirm c nu exist dou populaii distincte sub aspectul nivelului de inteligen, ci
una singur. Elevii participani la olimpiade nu se deosebesc sub aspectul inteligenei de populaia elevilor n
general.

Distribuia ipotezei de nul

Expresia m
po
=m
eg
descrie situaia n care media olimpicilor nu difer de media populaiei generale de
elevi, care poate fi definit, din acest motiv, drept populaia diferenei nule sau, mai scurt, populaia de
nul. Corespunztor, distribuia mediilor eantioanelor aleatore extrase din populaia de nul se numete
distribuia populaiei de nul sau distribuia de nul.
Aa cum am spus anterior, extragerea unui numr mare de eantioane (eventual infinit de mare),
produce ceea ce se numete distribuia de eantionare, care respect legea curbei normale. Din perspectiva
cercetrii statistice, aceasta este chiar distribuia de nul, deoarece ilustreaz forma n care se distribuie
mediile tuturor eantioanelor posibile, dac acestea ar fi constituite pe o baz pur ntmpltoare, cu alte
cuvinte, exact situaia n care ipoteza de nul ar fi adevrat.
Dac avem n vedere eantioane extrase la ntmplare din populaia de nul, atunci, n conformitate cu
teorema limitei centrale, mediile acestora se distribuie pe o curb normal. Ca urmare, putem utiliza tabela
distribuiei normale standard pentru a rspunde ntrebrilor cu privire la media eantionului de cercetare, n
acelai mod n care am fcut-o pentru notele z individuale.
Dac vrem s tim care este probabilitatea de a obine un rezultat mai bun prin jocul ansei, nu
trebuie dect s vedem unde se plaseaz rezultatul cercetrii pe distribuia de nul. Apoi calculm aria de
dincolo de acest punct, deoarece aceasta ne arat proporia (probabilitatea) cazurilor n care eantioane de

5
n realitate, media QI este diferit n funcie de vrst, dar, pentru exemplul nostru, vom accepta c populaia general
de elevi are o medie de 100 i o abatere standard de 15.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
19
aceeai mrime, selectate la ntmplare din populaia de nul, ar putea avea un QI mediu mai mare dect
eantionul de participani la olimpiad.




Testul z pentru un singur eantion



Procedura de calcul

n urma aplicrii testului de inteligen pentru eantionul de participani la olimpiad (N=30) am
obinut urmtoarele valori statistice: m=106 i s=7. Ne amintim c media inteligenei populaiei, exprimat n
uniti QI, este =100, iar abaterea standard =15. Cu aceste date putem calcula nota z corespunztoare
eantionului cercetrii, cu formula:

(formula 3.4)

unde m este media eantionului, este media populaiei, iar s
m
este eroarea standard a mediei.

Rezultatul calculului este:





n exemplul de mai sus, fiind vorba de o valoare QI, a crei abatere standard la nivelul populaiei ne
este cunoscut (am optat pentru =15) i am utilizat-o ca atare. Dac ar fi fost vorba de o variabil pentru
care nu cunoteam abaterea standard la nivelul populaiei, am fi putut utiliza aceeai valoare calculat pe
eantionul de studiu (s=7).
Dac citim frecvena corespunztoare valorii z calculate (2.18) n tabelul distribuiei normale,
constatm c ntre media populaiei de nul (z=0) i nivelul inteligenei eantionului de elevi olimpici se afl
48.54% dintre valorile posibile. De aici rezult c exist 50-48.54 adic 1.46% anse (sau o probabilitate
p=0.0146) ca hazardul s produc un eantion cu un QI egal sau mai mare dect eantionul cercetrii noastre.
Imaginea de mai jos ilustreaz grafic poziia mediei eantionului de cercetare pe distribuia de nul.



Ne putem imagina o situaie n care scorul mediu QI al eantionului de participani la olimpiad este
att de mare nct s nu existe nici o ans de a se obine un rezultat mai bun ca urmare a unei selecii
ntmpltoare din populaia de nul? Teoretic, acest lucru nu este posibil. Orict de mare ar fi media unui
eantion de olimpici, hazardul poate produce un eantion cu medie mai mare din populaia de nul, deoarece
curba normal este asimptotic. Exist ns un prag dincolo de care probabilitatea unui eantion aleatoriu
din populaia general de elevi cu un QI mai mare dect cel al eantionului de olimpici este att de mic,
nct s ne putem permite s o considerm neglijabil. ntr-un asemenea caz, putem concluziona c valoarea
calculat pe eantionul cercetrii nu decurge din variaia ntmpltoare a mediei de eantionare, ci provine
din aciunea unui factor sistematic care a condus la ndeprtarea semnificativ a mediei eantionului de
m
s
m
z

=
18 . 2
74 . 2
6
47 . 5 / 15
6
/
100 106
+ = = =

=
N s
m
z
m

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
20
studiu de media populaiei (n cazul nostru, accesul celor mai inteligeni elevi la olimpiadele colare). Despre
pragul evocat mai sus, vom vorbi n continuare.


Decizia statistic

Urmtorul pas pe care trebuie s l fac cercettorul este acela de a decide dac valoarea medie a
eantionului de olimpici decurge din faptul c acetia sunt ntr-adevr mai inteligeni dect elevii n general,
sau reprezint rezultatul unui joc al ansei, care a condus la selecia unui eantion ce nu se difereniaz n
mod real de populaia de nul.
Este evident faptul c, dac media eantionului de olimpici ar fi fost egal cu 100, cercettorul ar fi
decis c valoarea nu confirm ipoteza cercetrii. n exemplul dat ns, media eantionului cercetrii fiind mai
mare, ne punem problema, ct de mare trebuie s fie diferena fa de media populaiei pentru a accepta c
este o diferen real (determinat de un factor de influen, accesul la olimpiad pe baza inteligenei).
Altfel spus, trebuie s decidem dac acceptm sau respingem ipoteza de nul.
Din pcate, nu exist un criteriu obiectiv de decizie ntr-o situaie de acest gen. Acceptarea sau
respingerea ipotezei de nul depinde de gradul de risc pe care suntem dispui s ni-l asumm n acest sens.
Este evident c cineva interesat n acceptarea ideii c olimpicii sunt mai inteligeni ar fi dispus s considere
c valoarea obinut este suficient de ndeprtat de medie pentru a respinge ipoteza de nul. La fel cum,
cineva nencreztor n aceast ipotez (considernd c efortul de studiu, motivaia, fac diferena dintre
participanii i neparticipanii la olimpiadele colare), ar putea fi dispus s impun un prag de respingere mult
mai sever. Iat de ce, n practica cercetrii tiinifice s-a impus convenia unui prag maxim de risc acceptat
pentru decizia statistic. Acest prag critic se numete nivel alfa () i corespunde probabilitii de 0.05. Pe
curba normal z, fiecrei probabiliti i corespunde o anumit valoare z, ca urmare i probabilitii critice
alfa i corespunde o valoare critic z. Dat fiind faptul c a nceput prin a fi citit dintr-un tabel, mai este
desemnat i ca valoare tabelar.

Avem acum toate elementele pentru luarea deciziei statistice n cazul cercetrii noastre, pe baza unui
raionament convenional, identic pentru ntreaga comunitate tiinific. Esena acestuia const n comparaia
rezultatelor derivate dintr-un context de cercetare cu cele specifice unui context ipotetic, aleatoriu (bazat pe
ansa pur), dup cum urmeaz:
a. Dac rezultatul calculat pentru eantion este cel puin egal sau mai mare dect scorul critic, atunci
avem un rezultat semnificativ al cercetrii. Aceasta, deoarece se accept c ansele ca acest rezultat s fi
decurs din ntmplare sunt suficient de mici pentru a fi ignorate. n consecin, ntr-un astfel de caz, ipoteza
de nul (H
0
) se respinge, iar ipoteza cercetrii (H
1
) se consider confirmat la un prag alfa=0.05 (dac acesta a
fost nivelul ales).
b. Dac rezultatul eantionului este mai mic dect scorul z critic, atunci avem un rezultat nesemnificativ
al cercetrii, prin faptul c exist prea multe anse ca acesta s poat fi obinut n condiii pur aleatoare. n
aceast variant, ipoteza de nul se accept, iar ipoteza cercetrii se consider infirmat la un prag alfa=0.05.
c. Cele dou reguli decizionale de la punctele a i b sunt exprimate pe baza comparaiei dintre valoarea
calculat a testului i valoarea critic tabelar, aferent nivelului alfa. Ele ns pot fi exprimate i direct, prin
comparaia probabilitii valorii calculate cu alfa. Singura diferen este dat de faptul c raportul dintre
probabilitatea asociat scorului calculat i alfa este invers dect n cazul valorilor. Astfel, ipoteza de nul se
admite dac probabilitatea (p) a valorii calculate este mai mare dect alfa, i se respinge dac este egal sau
mai mare dect acesta. Aceast precizare, i dovedete utilitatea n momentul n care se utilizeaz programe
statistice, care fac inutil consultarea tabelelor distribuiei de nul, deoarece dau direct probabilitatea asociat
valorii calculate a testului.

Imaginea de mai jos ilustreaz poziia valorii calculate a testului z n raport cu valoarea critic pentru
alfa=0.05.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
21


Dat fiind faptul c z calculat (+2.18) este mai mare dect z critic pentru valoarea lui alfa=0.05
(+1.65), decidem respingerea ipotezei de nul
6
. Ca urmare, n legtur cu studiul nostru demonstrativ, trebuie
s decidem respingerea ipotezei de nul (participanii la olimpiade nu sunt mai inteligeni dect elevii n
general) ceea ce nseamn, implicit, confirmarea ipotezei de cercetare. (participanii la olimpiade sunt
mai inteligeni dect elevii n general).
Raionamentul deciziei statistice exemplificat astfel, se va regsi n toate situaiile de testare a
ipotezelor statistice cu care ne vom confrunta mai departe, indiferent de modelul de cercetare i de natura
relaiei pe care vrem s o demonstrm ntre variabile.

Decizii statistice unilaterale i bilaterale

n exemplul nostru, ipoteza cercetrii a fost aceea c elevii participani la olimpiade au o inteligen
mai mare dect media populaiei de nul. Din acest motiv, ne-a interesat s vedem n ce msur rezultatul
nostru confirm ipoteza pe direcia valorilor din dreapta curbei normale (valori mari, cu z pozitiv). Ca
urmare, am efectuat ceea ce se numete un test unilateral (one-tailed). n acest caz, ipoteza c participanii la
olimpiadele colare ar putea avea o inteligen sub medie, nu este viabil, dar dac am fi obinut un z negativ
pentru eantionul cercetrii, ar fi trebuit s l testm n partea din stnga curbei de distribuie, n aceste dou
situaii am fi avut acelai z critic (1.65) cu semnul + sau n funcie de zona scalei pentru care fceam
testarea. Imaginea de mai jos ilustreaz grafic cele dou direcii de testare a ipotezelor statistice unilaterale i
ariile valorilor semnificative/nesemnificative, n funcie de valoarea critic a lui z.




Ce s-ar fi ntmplat ns dac eantionul cercetrii ar fi obinut un scor QI=94, ceea ce ar fi corespuns
unui scor z=-2.18? n acest caz, aplicnd un test unilateral orientat spre valori superioare mediei, conform
ipotezei, ar fi trebuit s acceptm ipoteza de nul, concluzionnd c olimpicii nu sunt mai inteligeni dect
media, fr a putea emite o concluzie privitoare la faptul c ei sunt, de fapt, mai puin inteligeni, aa cum ar
fi cerut-o datele cercetrii.
Pentru a elimina acest neajuns putem verifica ipoteza pe ambele laturi ale distribuiei, aplicnd ceea
ce se numete un test bilateral (two-tailed). n acest caz se pstreaz acelai nivel alfa (0.05), dar el se
distribuie n mod egal pe ambele extreme ale curbei, astfel nct pentru 2.5% de fiecare parte, avem un z

6
Puteam ajunge la aceeai concluzie pe baza faptului c probabilitatea valorii calculate (0.014) este mai mic dect alfa
(0.05), dar acest raionament nu este posibil dect atunci cnd utilizm programe specializate de calcul, care ne ofer
direct valoarea lui p calculat.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
22
critic de 1.96 (cu semnul - sau +). Aceast valoare este luat din tabelul ariei de sub curb, n dreptul
probabilitii 0.4750 care corespunde unei probabiliti complementare de 0.025 (echivalent cu 2.5%).


Figura de mai sus indic scorurile critice pentru un test z bilateral. Se observ c n cazul alegerii
unui test bilateral (z=1.96) nivelul de 5% se mparte n mod egal ntre cele dou laturi ale curbei. Este de
la sine neles faptul c semnificaia statistic este mai greu de atins n cazul unui test bilateral dect n cazul
unui test unilateral, deoarece valoarea testului trebuie s fie mai mare de 1.65, ct este n cazul pentru un test
unilateral.
Alegerea tipului de test, unilateral sau bilateral, este la latitudinea cercettorului. De regul ns, se
prefer testul bilateral, chiar i n situaii de cercetare cum este aceea din exemplul nostru, cnd o diferen
negativ fa de media populaiei este improbabil. Motivul l constituie necesitatea de a introduce mai mult
rigoare i de a lsa mai puin loc hazardului. Se alege testul unilateral doar atunci cnd suntem interesai de
evaluarea semnificaiei strict ntr-o anumit direcie a curbei, sau atunci cnd miza rezultatului este prea
mare nct s fie justificat asumarea unui risc sporit de eroare. n mod uzual, ipotezele statistice sunt testate
bilateral, chiar dac ipoteza cercetrii este formulat n termeni unilaterali. Testarea unilateral este utilizat
numai n mod excepional, n cazuri bine justificate.

O scurt discuie pe tema nivelului alfa maxim acceptabil (0.05) se impune, avnd n vedere faptul
c ntregul eafodaj al deciziei statistice se sprijin pe acest prag. Vom sublinia, din nou, c p=0.05 este un
prag de semnificaie convenional, impus prin consensul cercettorilor din toate domeniile, nu doar n
psihologie. Faptul c scorul critic pentru atingerea pragului de semnificaie este 1.96 a jucat, de asemenea,
un rol n impunerea acestei convenii. Practic, putem considera c orice ndeprtare mai mare de dou abateri
standard de la media populaiei de referin este semnificativ. Chiar dac persist posibiliti de a ne nela,
ele sunt suficient de mici pentru a le trece cu vederea.
Impunerea unui prag minim de semnificaie a testelor statistice are ns, mai ales, rolul de a garanta
faptul c orice concluzie bazat pe date statistice rspunde aceluiai criteriu de exigen, nefiind influenat
de subiectivitatea cercettorului. Nivelul alfa de 0.05 nu este dect pragul maxim acceptat. Nimic nu
mpiedic un cercettor s i impun un nivel mai exigent pentru testarea ipotezei de nul, ceea e nseamn
un prag alfa mai sczut. n practic mai este utilizat pragul de 0.01 i, mai rar, cel de 0.001. Toate aceste
praguri pot fi exprimate i n procente, prin opusul lor, care exprim nivelul de ncredere n rezultatul
cercetrii. Astfel, printr-o probabilitate de 0.05 se poate nelege i un nivel de ncredere de 95% n rezultatul
cercetrii (99%, pentru p=0.01 i, respectiv, 99.9% pentru p=0.001).
n fine, este bine s subliniem faptul c utilizarea acestor praguri vine din perioada n care nu
existau calculatoare i programe automate de prelucrare statistic. Din acest motiv, cercettorii calculau
valoarea testului statistic pe care apoi o comparau cu valori tabelare ale probabilitii de sub curba de
referin. Pentru a face mai practice aceste tabele, ele nu cuprindeau toate valorile de sub curb, ci doar o
parte dintre acestea, printre ele, desigur, cele care marcau anumite praguri. Rezultatul cercetrii era
raportat, de aceea, prin invocarea faptului de a fi sub pragul de semnificaie sau deasupra sa. Odat cu
diseminarea pe scar larg a tehnicii de calcul i cu apariia programelor de prelucrri statistice, semnificaia
valorilor testelor statistice nu mai este cutat n tabele, ci este calculat direct i exact de ctre program,
putnd fi afiat ca atare. De aici, aa cum am mai spus, rezult i posibilitatea de a lua decizia statistic prin
compararea direct a valorii calculate a lui p cu pragul alfa critic asumat.

Estimarea intervalului de ncredere pentru media populaiei

Eantionul cercetrii noastre a obinut medie QI=106, care s-a dovedit semnificativ. Acest lucru
nseamn c valorile inteligenei elevilor olimpici fac parte dintr-o populaie special de valori QI, care are o
medie mai mare dect media populaiei generale de elevi. Dar ct de mare este aceast medie? Media
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
23
eantionului cercetrii ne ofer o estimare a acesteia dar, ca orice estimare, conine o anumit imprecizie,
exprimat prin eroarea standard a mediei. Nu vom putea ti niciodat cu precizie care este media inteligenei
populaiei de elevi olimpici, dar teorema limitei centrale ne permite s calculm, cu o anumit probabilitate,
n ce interval se afl ea, pe baza mediei eantionului cercetrii i a erorii standard a acesteia.
Acest lucru se bazeaz pe proprietatea curbei normale de a avea un numr bine definit de valori pe
un interval simetric n jurul mediei. Astfel, dac lum pe curba normal un interval cuprins ntre z=1.96 de
o parte i de alta a mediei, tim c acoperim aproximativ 95% din valorile posibile ale distribuiei. n acest
caz, z=1.96 se numete z critic deoarece reprezint un prag limit, pe cele dou laturi ale distribuiei (care,
pentru curba normal standardizat, este 0). Alegerea acestor limite pentru z critic este convenional. Se pot
alege, la fel de bine, valori simetrice ale lui z care s cuprind ntre ele 99% sau 99.9% dintre valorile de pe
curba normal. Prin consens, ns, se consider c asumarea unui nivel de ncredere de 95% (corespunztor
pentru valori critice ale lui z=1.96) este considerat suficient pentru pstrarea unui echilibru ntre precizia
estimrii i probabilitatea estimrii. Ca urmare, n aceast condiie, putem spune c exist 95% anse ca,
avnd media unui eantion aleator, media populaiei s se afle undeva n intervalul:

m critic
s z m * =
(formula 3.3)

unde =media populaiei, pe care o cutm
m=media eantionului de cercetare
z
critic
=valoarea corespunztoare pentru alfa ales (de regul 0.05)
s
m
=eroarea standard a mediei

n ce privete eroarea standard a mediei, aceasta este dat de raportul dintre abaterea standard a
populaiei, pe care n acest caz o cunoatem (15) i radical din volumul eantionului:

74 . 2
30
15
= =
m
s

Mai departe, utiliznd formula 3.3 pentru datele eantionului cercetrii, limitele de ncredere pentru
media populaiei mediei pot fi calculate astfel:

pentru limita inferioar
62 . 100 74 . 2 * 96 . 1 106 = =

pentru limita superioar
37 . 111 74 . 2 * 96 . 1 106 = + =


Ca urmare, putem afirma, cu o probabilitate de 95%, c media real a populaiei de elevi olimpici,
estimat prin media eantionului cercetrii, se afl undeva ntre 100.6 i 111.3. Acest interval a crui limit
inferioar este foarte aproape de media populaiei generale de valori QI (100), ne arat c, dei semnificativ,
diferena eantionului nostru nu are o valoare foarte ridicat. Trebuie s observm, de asemenea, c mrimea
intervalului de ncredere rezult din imprecizia mediei, exprimat prin eroarea standard a mediei. Acesta, la
rndul ei, este cu att mai mare cu ct volumul eantionului este mai mic. Desigur, cu ct limitele intervalului
de estimare sunt mai apropiate de media eantionului, cu att aceasta din urm estimeaz mai precis media
populaiei i prezint mai mult ncredere.


Testul t (Student) pentru un singur eantion

Aa cum am precizat mai sus, testul z poate fi utilizat doar atunci cnd cunoatem media
populaiei de referin i avem la dispoziie un eantion mare (adic de cel puin 30 de subieci, n cazul
unei variabile despre care avem motive s credem c se distribuie normal). Dar nu ntotdeauna putem avea la
dispoziie eantioane mari (minim 30 de subieci). Pentru situaiile care nu corespund acestei condiii,
testul z nu poate fi aplicat. i aceasta, pentru c distribuia mediei de eantionare urmeaz legea curbei
normale standardizate doar pentru eantioane de minim 30 de subieci, conform teoremei limitei centrale.
La nceputul secolului XX, William Gosset, angajat al unei companii productoare de bere din
SUA, trebuia s testeze calitatea unor eantioane de bere pentru a trage concluzii asupra ntregii arje. Din
considerente practice, el nu putea utiliza dect eantioane (cantiti) mici de bere. Pentru a rezolva problema,
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
24
a dezvoltat un model teoretic propriu, bazat pe un tip special de distribuie, denumit distribuie t, cunoscut
ns i ca distribuia Student, dup pseudonimul cu care a semnat articolul n care i-a expus modelul.
n esen, distribuia t este o distribuie teoretic care are toate caracteristicile unei distribuii
normale (este perfect simetric i are form de clopot). Specificul acestei distribuii const n faptul c forma
ei (mai exact, nlimea) depinde de un parametru denumit grade de libertate (df sau degrees of freedom),
care este egal cu N-1 (unde N este volumul eantionului). Acest parametru poate fi orice numr mai mare
dect 0, iar mrimea lui este aceea care definete forma exact a curbei i, implicit, proporia valorilor de sub
curb ntre diferite puncte ale acesteia. Imaginea de mai jos ilustreaz modul de variaie a nlimii
distribuiei t, n funcie de gradele de libertate.

6 = df
3 = df
-3,18
-2,45
-1,96
+1,96
+2,45
+3,18
Valorile critice ale lui t, pentru p=0.05,
n funcie de gradele de libertate
... 31 df


Aa cum se observ, curba devine din ce n ce mai aplatizat pe msur ce df (volumul eantionului)
este mai mic. Acest fapt are drept consecin existena unui numr mai mare de valori spre extremele
distribuiei. Nu este ns greu de observat c, pe msur ce df este mai mare, distribuia t se apropie de o
distribuie normal standard astfel nct, pentru valori ale lui N de peste 31 (df=30), aria de sub curba
distribuiei t se apropie foarte mult de valorile de sub aria curbei normale standard (z), iar scorul critic pentru
t este acelai ca i cel pentru z pe curba normal (1.96).
Din cele spuse rezult c, dac avem un eantion de volum mic (N<30), vom utiliza testul t n
loc de testul z, pe baza unei formule asemntoare:
m
s
m
t

= (formula 3.4)

unde:
m este media eantionului
este media populaiei
s
m
este eroarea standard a mediei

Interpretarea valorii lui t se face n mod similar cu cea pentru valoarea lui z, cu deosebirea c se
utilizeaz tabelul distributiei t (Anexa 2). n acest caz, valorile critice ale lui t vor fi diferite n funcie de
numrul de grade de libertate. Citind tabelul, se observ c pragurile critice ale lui t (subnelegnd
alfa=0.05, pentru test bilateral) se plaseaz la valori diferite n funcie de nivelul df. n acelai timp, dac df
este mare (peste 30), valorile tabelare ale lui t se apropie de cele ale lui z. La infinit, ele sunt identice (1.96,
la fel ca i n cazul valorilor lui z).
Date fiind caracteristicile enunate, n practic, testul t se poate utiliza i pentru eantioane mari
(N30). n nici un caz ns, nu poate fi utilizat testul z pentru eantioane mici (N<30). Utilizarea testului
bazat pe un singur eantion (fie z sau t) depinde ntr-o msur decisiv de asigurarea caracteristicii aleatoare
a eantionului.

Publicarea rezultatelor testului z sau t

Publicarea rezultatelor diferitelor proceduri statistice trebuie fcut astfel nct cititorii s i poat
face o imagine corect i complet asupra rezultatelor. n acest scop la publicarea rezultatelor trebuie
respectate anumite reguli, la care vom face trimitere n continuare, n legtur cu fiecare nou test statistic ce
va fi introdus.
n principiu, publicarea rezultatelor unui test statistic se poate face n dou moduri:
sintetic (de regul sub form tabelar), atunci cnd numrul variabilelor testate este relativ
mare;
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
25
narativ, atunci cnd se refer, s zicem, la o singur variabil.
n cazul testului pentru un singur eantion se vor raporta: media eantionului, media populaiei,
valoarea lui z (sau t), nivelul lui p, tipul de test (unilateral/bilateral).
Dac avem n vedere rezultatele obinute pe exemplul de mai sus, se apeleaz la o raportare de tip
narativ, care poate utiliza o formulare n maniera urmtoare: Eantionul de elevi participani la olimpiade a
obinut un scor (QI=106; 95%CI:100.6-111.3) peste media populaiei generale (QI=100). Testul z, cu alfa
0.05, a demonstrat c diferena nu este semnificativ statistic, z=+2.13, p>0.05, unilateral.
n acest exemplu de prezentare nu formularea ca atare este esenial, ci informaiile asociate
publicrii testului z. Formularea poate diferi de cea enunat, dar elementele informaionale trebuie s fie
complete. Expresia 95%CI vine de la 95% Confidence Interval i exprim intervalul de ncredere pentru
media populaiei.
Aa cum am spus mai sus, utilizarea programelor statistice ofer pentru orice valoare a lui z (sau
oricare alt test statistic) valoarea exact a lui p. Ea poate fi utilizat ca atare, pstrnd ns raportarea acesteia
la pragul de semnificaie. Orice valoare a lui p mai mare de 0.05 este considerat nesemnificativ
7
, dac nu a
fost fixat un alt prag, mai sever.



Sarcin de lucru nr. 2. 2




La o evaluare a cunotinelor de statistic indicatorii statistici descriptivi pentru studenii din ntregul an de
studiu (populaia) sunt urmtorii:

=19.8
=3.91
N=192

Aceiai indicatori, pentru dou cele dou grupe de studiu care compun anul respectiv, sunt urmtoarele:







Presupunem c scorul obinut de dvs. la acest test de cunotine este 19.
Folosind indicatorii populaiei, ai grupei pe care ai ales-o i scorul dvs. personal, calculai:
5. scorul z personal, raportat
b. la fiecare dintre cele dou grupe
c. la ntregul an
6. care este procentul valorilor mai bune dect scorul personal obinut, prin raportare la curba normal,
pentru corul z calculat prin raportare la ntregul an?
7. scorul z al fiecrei grupe, raportat la ntregul an
8. care este procentul valorilor care se plaseaz pe curba normal peste scorul obinut de fiecare grup?
9. Calculai limitele de ncredere pentru media fiecrei grupe estimarea mediei ntregului an, pentru z
critic=1.85

Verificai rspunsurile corecte


7
Programele de prelucrri statistice utilizeaz termenul Sig. (de la significance n loc de p. Ele sunt strict
echivalente.
GR. m S N
1 18.36 4.45 32
2 20.21 3.09 31
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
26

Erori statistice; Puterea testului statistic; Mrimea efectului

S presupunem c avem un munte n care bnuim s se afl aur (populaia) i ca dorim s dovedim
prezena lui pe baza unei cantiti de pmnt extrase dintr-un loc ales la ntmplare (eantion) din acest
munte. Ipoteza de nul n acest caz afirm c aurul nu este prezent n acest munte mai mult dect n orice alt
loc. Mai departe, determinm cantitatea de aur din eantionul recoltat i descoperim o anumit concentraie
de metal preios. n final, trebuie s hotrm dac aceast concentraie difer de concentraia natural, pe
care ne putem atepta s o gsim oriunde. Dac nivelul concentraiei de aur din eantion este mai mare dect
cel al concentraiei pe care ne ateptm s gsim n cel mult 5% (pragul alfa) din eantioanele recoltate din
orice loc de pe pmnt, ales la ntmplare, atunci suntem ndreptii s concluzionm c aurul din
eantionul cercetrii nu este ntmpltor (respingem H0) i, implicit, c foarte probabil muntele nostru
conine aur ntr-o concentraie mai mare dect cea natural (acceptm H1).
Am spus mai sus foarte probabil, fiindc este evident faptul c nu putem fi absolut siguri de
rezultatul nostru. n conformitate cu legea distribuiei normale, dac am recolta la ntmplare eantioane de
pmnt, ne putem atepta s avem situaii n care concentraia de aur s fie orict de mare, fr ca acest lucru
sa nsemne neaprat c muntele (populaia cercetrii) este un zcmnt aurifer (poate exista doar o zon
limitat, cu concentraie mare, iar restul muntelui s nu conin aur). Aceasta nseamn c asumarea deciziei
cu privire la ipoteza de nul presupune implicit asumarea riscului unei anumite erori. Chiar dac respectm
rigorile raionamentului i deciziei statistice, nu avem garania c decizia noastr reflect realitatea vieii.
Cercetrile statistice au un caracter probabilist i, ca atare, conin o anumit cantitate de eroare.

Erori statistice

n raport cu realitatea vieii, decizia cu privire la ipoteza de nul poate fi corect sau greit dar, din
pcate, cercettorul care a efectuat studiul privind inteligena elevilor olimpici nu are cum s tie cu
certitudine dac decizia pe care o ia este cu adevrat corect sau este greit. O imagine sintetic, frecvent
utilizat pentru a ilustra relaiile posibile ntre decizia statistic i adevrul vieii, este prezentat n mod
clasic prin urmtorul tablou:

Adevrul vieii
(necunoscut)

H
0
este adevrat
(olimpicii NU SUNT mai
inteligeni)
H
0
este fals
(olimpicii SUNT mai
inteligeni)
Acceptarea H
0
(olimpicii NU SUNT
mai inteligeni)
1. decizie corect
p=1-alfa
4. eroare de tip II
p=beta
Decizia
statistic Respingerea H
0
(olimpicii SUNT mai
inteligeni)
2. eroare de tip I
P=alfa
3. decizie corect
p=1-beta (power)

Aa cum observm, decizia statistic este corect n dou din celulele tabelului de mai sus: celula 1,
acceptarea ipotezei de nul cnd ea este i n realitate adevrat, i celula 3, respingerea ipotezei de nul atunci
cnd ea este i n realitate fals. n acest din urm caz ne plasm ntr-o situaie statistic ideal, n care
decizia confirm ipoteza cercetrii, atunci cnd aceasta este adevrat i n viaa real. Capacitatea unui test
statistic de a susine o astfel de decizie, se numete puterea testului statistic (sau puterea cercetrii), pe
care o vom analiza pe larg puin mai trziu. La rndul lor, erorile sunt ilustrate n celelalte dou celule: celula
2, cnd respingem, ipoteza de nul, dei ea este adevrat i celula 4, cnd acceptm ipoteza de nul, dei ea
este fals. Pentru nceput, vom detalia situaiile de eroare.
n continuare, vom analiza n detaliu situaiile de eroare statistic.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
27

Eroarea de tip I

Cercettorul tie c, chiar i n cazul n care testul diferenei dintre media eantionului i media
populaiei este mai mare dect valoarea critic corespunztoare lui alfa, hazardul ar putea produce o
diferen chiar mai mare dect cea constatat, fr nicio legtur cu prezena la olimpiad. Rezult de aici c,
dac pe baza rezultatului la testul statistic respingem ipoteza de nul i acceptm c participarea la olimpiade
se asociaz cu un nivel mai ridicat al inteligenei, o facem asumndu-ne contient riscul unei erori. Dac
diferena dintre cele dou medii rezult a fi semnificativ i respingem ipoteza de nul, dei conform
adevrului vieii ea este adevrat, se comite o eroare de tip I. Probabilitatea acesteia este egal cu
valoarea pragului alfa, al crui nivel maxim acceptabil este fixat convenional la 0.05. Atunci cnd fixm
valoarea lui alfa (0.05 sau mai mic) drept criteriu de respingere a ipotezei de nul, definim, de fapt, cantitatea
de eroare pe care suntem dispui s ne-o asumm n a respinge ipoteza de nul, chiar dac n realitate aceasta
ar putea fi adevrat. Altfel spus, riscul de a decide c muntele conine un zcmnt aurifer, cnd de fapt
acest lucru nu este adevrat. Din acest motiv, eroarea de tip I se concretizeaz ntr-un rezultat fals pozitiv.
Decizia statistic se bazeaz pe msura n care eantionul reprezint n mod rezonabil caracteristicile
populaiei. Chiar dac selecia eantionului s-a fcut n condiii ideale, exist o anumit probabilitate (cu att
mai mare cu ct eantionul este mai mic) ca valorile sale s se abat de la parametrii populaiei (adevrul
vieii). Ca urmare, putem s ne imaginm o situaie n care, chiar i un eantion selecionat aleatoriu s
prezinte valori neobinuit de ndeprtate de parametrii populaiei, fr nici o legtur cu condiia cercetrii.
ntr-o astfel de situaie, supunndu-ne n mod corect regulilor convenionale ale deciziei statistice, respingem
ipoteza de nul, fcnd o eroare de tip I i asumndu-ne un rezultat fals pozitiv. Desigur, putem reduce
probabilitatea erorii de tip I prin asumarea unei valori mai mici pentru alfa dar, aa cum vom vedea mai
departe, acest lucru nu este lipsit de consecine.
Dac privim n cvadrantul 1 din tabelul de mai sus, vom observa c probabilitatea de a decide corect,
prin acceptarea ipotezei de nul atunci cnd ea este ntr-adevr adevrat este egal cu 1-alfa. Acest lucru
nseamn c prin asumarea unei valori alfa=0.05, de exemplu, avem o probabilitate de 0.95 (1-0.5) de a
accepta H0 cnd aceasta este n mod real adevrat. Din acest motiv valoarea din cadranul 1 se numete nivel
de ncredere. Ca s nelegem i mai bine, s ne imaginm c am efectua exact acelai studiu de 100 de ori,
utiliznd eantioane diferite, dar similare sub aspectul vrstei copiilor, volumului grupurilor i procedurii etc.
n cazul unei decizii statistice care respect criteriile impuse, cu alfa=0.05 (implicit, 1-alfa=0.95), ne putem
atepta ca n 5% dintre aceste cercetri (100x0.05) s respingem n mod greit ipoteza de nul (aceasta fiind,
n realitate, adevrat). Acest lucru este echivalent cu a spune c avem un nivel de ncredere de 95%
(100x0.95) s acceptm corect ipoteza de nul, dar i c avem 95% anse s acceptm o ipotez de nul care
este n realitate adevrat. Cu alte cuvinte, valoarea lui alfa ne spune care este probabilitatea de a respinge n
mod nejustificat o ipotez de nul, adevrat n viaa real, eroare pe care ns cercettorul este dispus s o
tolereze.


Eroarea de tip II

Dar dac, dei muntele la care am fcut referire conine n mod real un zcmnt de aur, iar
eantionul nostru nu conine dovada acestui fapt i ne silete s admitem ipoteza de nul? n acest caz
comitem o eroare de tip II, care descrie un rezultat fals negativ.
S presupunem c participarea la olimpiad este asociat n mod real cu un nivel de inteligen mai
ridicat dar, ca urmare a hazardului eantionrii, diferena dintre media eantionului cercetrii i media
populaiei nu atinge pragul semnificaiei statistice. Aceasta este situaia n care, dei elevii olimpici sunt mai
inteligeni, cercetarea noastr are un rezultat nesemnificativ. S nu uitm c cercettorul nu cunoate care
este adevrul vieii (dac olimpicii sunt mai inteligeni) i, drept urmare, chiar i atunci cnd admite o
ipotez de nul i asum un risc de eroare. Aceasta este o eroare de tip II, codificat cu beta. Admiterea
existenei erorii de tip II nu este lipsit de controverse. Fisher, unul dintre teoreticienii marcani ai statisticii
moderne, considera c atunci cnd nu decidem respingerea ipotezei de nul, nu decidem acceptarea ei, ci doar
consemnm eecul de a o respinge, ceea ce nu este propriu-zis o decizie. Abia mai trziu, Neyman i Egon
Pearson (fiul lui Karl Pearson, autorul coeficientului de corelaie care i poart numele) au dezvoltat teoria
modern a deciziei statistice, n prezent larg acceptat de comunitatea tiinific (B. Cohen, 2001).
Stabilirea nivelului probabilitii erorii de tip II nu este uor de neles, mai ales c ea este n legtur
cu puterea testului, probabilitatea deciziei corecte, fixat n cadranul 3 al tabelului. Aceste dou valori sunt
complementare, puterea testului fiind egal cu 1-beta. n general, o valoare acceptabil pentru eroarea de tip
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
28
II este beta=0.20, deoarece, aa cum vom vedea mai trziu, valoarea recomandabil pentru puterea testului
este 0.80.

Atunci cnd iniiaz studiul privind relaia dintre inteligen i participarea la olimpiadele colare,
cercettorul este interesat mai ales s evite admiterea ipotezei de nul atunci cnd aceasta ar fi, n realitate,
fals. Altfel spus, cercettorul este interesat cu precdere n asumarea unei valori ct mai mici pentru eroarea
de tip II (evitarea acceptrii ipotezei de nul cnd ea este fals), deoarece ar nsemna c nu poate confirma
ipoteza a cercetrii. Micorarea erorii de tip II ar nsemna ns asumarea implicit a unei valori mai mari
pentru riscul erorii de tip I. Se poate stabili o ierarhie ntre cele dou tipuri de eroare? Este una mai
periculoas dect alta? n mod obinuit, societatea i impune punctul de vedere, declarnd eroarea de tip
I ca fiind mai periculoas, prin fixarea limitei maxime pentru eroarea de tip I (alfa=0.05). Dar de ce ar fi
admiterea greit a ipotezei de nul mai rea dect respingerea ei greit? Aici trebuie s fim n consens cu
Hack (2004) care afirm c, dei exist o tendin de considerare a erorii de tip I ca fiind mai rea dect
eroarea de tip II, n realitate ambele tipuri de erori pot fi la fel de rele, prin consecinele practice care
decurg din rezultatele cercetrii.
Nu avem nici un motiv s credem c vreunul dintre cele dou tipuri de eroare este mai ru sau mai
bun dect cellalt. Dac avem n vedere un criteriu moral, nainte de toate ar trebui s nu ne asumm un
rezultat pozitiv al cercetrii, fr ca acest lucru s fie adevrat. Pe de alt parte, respingerea unui adevr
tiinific numai pentru c cercetarea nu a fost n msur s aduc dovada acestuia, este de asemenea de
nedorit. Dac am concluziona c muntele conine un zcmnt de aur, iar acest lucru s-ar dovedi fals, eroare
de tip I, ar rezulta pierderi mari de organizare a unei exploatri ineficiente. La rndul ei, o eroare de tip II,
care presupune admiterea ipotezei de nul i negarea existenei unui zcmnt real, ar conduce la pierderi prin
neexploatarea aurului existent. La fel, n plan psihologic, dac obiectul testului statistic ar fi efectul unei noi
metode de tratament psihoterapeutic, este la fel de ru s fie acceptat utilizarea ei, dei nu este eficient
(eroare de tip I), ca i respingerea utilizrii, dac ar fi eficient (eroare de tip II), deoarece pacienii sunt
lipsii de un serviciu util.

Eroarea de tip III

Erorile de tip I i II nu epuizeaz toate situaiile de eroare posibile ntr-o cercetare statistic. Howard
Raiffa, ntr-o lucrare clasic de teoria deciziei, a introdus noiunea de eroare de tip III (Raiffa, 1968 ).
Ulterior, acest tip de eroare a fost luat n discuie i de ali autori (Hack, 2004; Hsu, 1999), conturndu-se
dou accepiuni de baz ale termenului:
a. Respingerea corect a ipotezei de nul, urmat de atribuirea incorect a cauzei, definiie care
corespunde cu definiia iniial propus de Raiffa. n acest sens eroarea de tip III nseamn o interpretare
greit a rezultatului. Cercettorul concluzioneaz c ceva semnificativ se ntmpl i, ntr-un fel, are
dreptate, ceva se ntmpl, dar nu ceea ce crede el. Exemplul clasic este ilustrat de efectul de noutate. Dac
introducem o noua metod de antrenament bazat pe joc pentru stimularea nvrii, copiii ar putea fi atrai
de noutatea situaiei n raport cu modalitatea clasic de nvare a regulilor de circulaie. Ca urmare, un
rezultat semnificativ diferit fa de metoda utilizat pe un grup de control (care a nvat dup metoda
clasic) s-ar datora nu neaprat efectului noii metode, ci caracterului de noutate i interes pe care l prezint
aceasta. Este evident c cercettorul este nclinat s considere efectul ca fiind generat de metoda investigat,
dar acest lucru trebuie dovedit ca atare, nu este suficient s fie asumat. Efectul placebo poate fi inclus de
asemenea n categoria erorilor de tip III, dar nu toate erorile de tip III sunt de tip placebo.
Nu exist metode statistice pentru eliminarea erorii de tip III, n aceast accepie. Singura protecie
vine dinspre calitatea modelului de cercetare. Pentru evaluarea efectului placebo, de exemplu, studiile
medicale prevd protocoale de tip dublu orb, n care nici cei care administreaz medicamentul i nici
pacienii nu tiu dac dau/iau medicamentul supus cercetrii sau un placebo.
b. A doua definiie a erorii de tip III este similar cu prima, dar este diferit sub un aspect esenial.
n acest caz rezultatul cercetrii conduce la confirmarea unui efect sau relaii ntre variabile, dar sensul
(direcia) efectului este greit interpretat. Dac revenim la exemplul anterior, ne putem imagina c rezultatele
cercetrii susin concluzia c efectul noii metode de nvare este superior celei vechi dei, n realitate,
situaia st exact invers, concluzia fiind greit. n aceast accepie, probabilitatea erorii de tip III este
codificat cu litera (gamma), iar unele programe statistice sunt capabile s o estimeze. Evident, eroarea de
tip III se poate manifesta numai n cercetri de tip experimental, singurele care permit concluzii de natur
cauzal.

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
29
Conceptul de eroare de tip III este fundamental diferit de celelalte dou tipuri de erori. Existena lui
vine s ne aduc aminte c cercetarea tiinific vizeaz n ultim instan un adevr al realitii, care nu este
complet demonstrat de raionamentul decizional statistic, bazat pe atitudinea fa de ipoteza cercetrii i
admiterea sau respingerea ipotezei de nul. Principala lui utilitate este aceea c ne atrage atenia asupra
vulnerabilitii cercetrilor statistice, subliniind relativitatea acestora i faptul c simpla declarare drept
semnificativ a rezultatului unei cercetri nu probeaz n mod suficient adevrul ipotezei i nici nu reflect n
mod sigur realitatea. Existena erorii de tip III este unul din argumentele mpotriva asumrii simpliste a
rezultatelor statistice pe baza deciziei cu privire la ipoteza de nul. Mijlocul esenial de protecie mpotriva
erorii de tip III este stabilitatea rezultatelor de la o cercetare la alta, replicabilitatea lor, care nseamn
obinerea acelorai rezultate la repetarea studiului n aceleai condiii.


Puterea testului

Revenind la analogia cu muntele aurifer, s presupunem c rezultatul cercetrii ne impune admiterea
ipotezei de nul, implicit respingerea ipotezei c muntele conine aur. ntr-un astfel de caz avem dou
posibiliti de interpretare a acestui rezultat:
a. fie rezultatul cercetrii este corect, ipoteza de nul este de fapt adevrat (ipoteza cercetrii este
realmente fals), iar muntele nu conine aur (elevii olimpici nu sunt mai inteligeni dect
populaia elevilor n general);
b. fie ipoteza de nul este fals, ceea ce ar nsemna c zcmntul de aur exist (olimpicii sunt mai
inteligeni), dar explorarea noastr nu a avut suficient putere (sensibilitate) pentru a
surprinde existena aurului (relaia dintre participarea la olimpiad i nivelul de inteligen). n
acest caz, prin acceptarea ipotezei de nul (respingerea ipotezei cercetrii) am comis o eroare de
tip II.

Puterea testului este definit prin capacitatea sau sensibilitatea unui test statistic de a detecta un
efect real (sau o legtur real) ntre variabile. nelegem prin efect real faptul c modificri ale valorilor
unei variabile se regsesc n modificri ale valorilor celeilalte variabile (indiferent dac relaia este de tip
cauzal sau de tip asociativ). Formulat n termeni statistici, puterea testului este probabilitatea de a respinge
ipoteza de nul atunci cnd ea este cu adevrat fals, i se exprim ca 1-beta (probabilitatea erorii de tip II).
Aceast situaie corespunde celei mai bune decizii pe care i-o poate dori un cercettor: s dovedeasc c
ipoteza a cercetrii este realmente adevrat. Dac n viaa real ipoteza de nul este fals, dar datele cercetrii
ne oblig totui s o acceptm, atunci putem spune c cercetarea noastr a avut o putere insuficient pentru a
determina respingerea ei i, implicit, confirmarea ipotezei cercetrii.
Aa cum am vzut, eroarea de tip II i puterea testului sunt complementare. Ca urmare, putem
calcula eroarea de tip II ca beta=1-puterea testului. Cu alte cuvinte, cu ct puterea testului este mai mare, cu
att probabilitatea erorii de tip II (acceptarea nejustificat a ipotezei de nul) este mai mic. Dac presupunem
c puterea unui experiment psihologic este de 0.85, rezult c probabilitatea erorii de tip II este 1-0.85, adic
0.15. Complementar, dac puterea experimentului (cercetrii) ar fi de 0.15, atunci probabilitatea erorii de tip
II s-ar ridic la 1-0.15, adic 0.85.

Factori care contribuie la creterea puterii testelor statistice

Puterea testului statistic sau, la fel de bine spus, a cercetrii, poate fi calculat matematic.
Introducerea procedurilor de calcul pentru puterea testului este dincolo de obiectivele pe care ni le propunem
aici, mai ales c ele nu se regsesc n pachetele obinuite de analiz statistic. Vom reine ns, o serie de
metode prin care poate fi asigurat creterea puterii testelor statistice, aa cum sunt ele sintetizate n literatura
statistic (B. Cohen, 2004, Spata, 2003):
1. Aa cum tim, eroarea standard a mediei este cu att mai mare cu ct eantionul este mai mic. Ca
urmare, una din modalitile prin care putem crete puterea este creterea volumului eantionului
(N).
2. O cale de cretere a puterii este maximizarea variabilitii primare, aceea care decurge ca urmare
a efectului unei variabile asupra celeilalte. Aceasta deoarece efectul variabilei independente
se manifest mai puternic pe grupurile de subieci aflate la extremitile scalei de msurare a
variabilei dependente dect pe valorile ntregii scale. Dac mprtierea datelor de cercetare este
mic, atunci puterea testului de a surprinde un efect semnificativ se reduce.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
30
3. Reducerea erorilor de msurare are ca efect mrirea puterii cercetrii. n acest scop trebuie avute
n vedere: utilizarea unor proceduri de investigare adecvate; controlul i eliminarea surselor de
eroare; tratarea identic a tuturor subiecilor cercetrii; selectarea aleatoare a eantioanelor sau,
n cazul unei eantionri nealeatoare, eliminarea surselor de selecie prtinitoare (bias).
4. Modelul de cercetare, prin el nsui, este cel care poate crete puterea unui studiu. De exemplu,
modelele de cercetare within-subjects (intra-subiect), care msoar aceiai subieci n condiii
diferite, au mai mult putere dect modelele between-subjects (inter-subiect), n care sunt
comparate grupuri de subieci diferii n condiii diferite.
5. Testul bilateral reduce probabilitatea erorii de tip I, dar crete probabilitatea erorii de tip II i,
implicit, reduce puterea. Ca urmare, ori de cte ori este justificabil, se va opta pentru test
unilateral, chiar dac, n practic, testul bilateral este cel uzual.
6. Testele parametrice prezint o putere statistic mai mare dect cele neparametrice, motiv pentru
care, utilizarea acestora din urm se va face doar atunci cnd este absolut necesar (n
conformitate cu condiiile de aplicare). Nu se va renuna cu uurin la un test parametric, dac
datele cercetrii sunt msurate pe scal cantitativ.

Nu trebuie s nelegem ns, c asigurarea unei puteri ct mai mari este principalul obiectiv pentru
un cercettor. Prea mult putere este tot att de nedorit ca i prea puin. Dac avem n vedere
intercondiionrile din procesul deciziei statistice, atunci trebuie s observm c prin creterea puterii
reducem probabilitatea erorii de tip II, dar cretem probabilitatea erorii de tip I. Cu alte cuvinte, dac un
studiu are o putere mare, de exemplu prin utilizarea unui eantion foarte mare, atunci crete probabilitatea de
a respinge ipoteza de nul, chiar dac aceasta este adevrat. Ne aflm aici n situaia care a generat critici
vehemente cu privire la cercetrile statistice, i care a fost exprimat n maniera cea mai direct de
Thompson (1998a) ... testul statistic devine o cutare tautologic pentru suficieni participani n msur s
ating semnificaia statistic.
Calitatea deciziei unei cercetri reprezint rezultatul unei negocieri ntre nivelul acceptat pentru
erorile de tip I i II. Cu ct prima este mai mic, cu att a doua este mai mare, i invers. S presupunem c
studiul privind inteligena olimpicilor este efectuat n mod identic de doi cercettori, dar unul dintre ei
fixeaz nivelul lui alfa la 0.05, iar al doilea, la 0.01. Dac n urma prelucrrii datelor rezultatului obinut i
corespunde un p=0.03, primul cercettor va respinge ipoteza de nul, confirmnd ipoteza cercetrii, n timp ce
al doilea va fi nevoit s admit ipoteza de nul i s resping ipoteza cercetrii. Prin fixarea unui nivel mai
redus pentru alfa, al doilea cercettor a redus probabilitatea erorii de tip I, dar a redus i puterea testului,
mrind n schimb riscul erorii de tip II (respingerea unei ipoteze de cercetare adevrate).
n concluzie, atunci cnd fixm criteriile de decizie statistic trebuie s fim contieni de urmtoarele
aspecte:
cu ct este mai mic pragul alfa, cu att puterea testului este mai mic i invers, cu ct alfa este
mai mare, cu att puterea testului este mai mare;
cu ct alfa este mai mic, cu att scade probabilitatea erorii de tip I (respingerea ipotezei de nul
cnd aceasta este adevrat);
cu ct alfa este mai mic, cu att testul este mai riguros, probabilitatea de a confirma ipoteza
cercetrii dac este fals, fiind mai mic;
un prag alfa de 0.01 (comparat cu 0.05 sau 0.1) nseamn c cercettorul este precaut, dorind s
i asume un risc de a grei de 1 dintr-o sut de cazuri atunci cnd respinge ipoteza de nul, dac
aceasta este adevrat;
un prag alfa de 0.01 nseamn c exist 99% anse de a decide c nu exist diferene atunci cnd
acestea ntr-adevr nu exist;
mrind nivelul lui alfa (de la 0.01 la 0.05 sau 0.1), cretem riscul de a face o eroare de tip I i
reducem riscul de a face o eroare de tip II, ceea ce nseamn i o reducere a rigorii testului;
n egal msur, dac mrim pragul alfa, de la 0.01, la 0.05 sau 0.1, mrim puterea, deoarece
cretem probabilitatea de respingere a ipotezei de nul (acceptnd ipoteza cercetrii), atunci cnd
aceasta din urm este adevrat (eroare de tip I);

Din cele spuse s-ar putea deduce c, dac ne propunem cea mai mare valoare pentru puterea testului,
atunci singura opiune pe care o avem este s fixm pragul alfa la nivelul maxim permis de convenia
tiinific (0.05). n realitate, problema nu este att de simpl, deoarece obiectivul unei cercetri nu se poate
limita doar la atingerea pragului de semnificaie. Aa cum am vzut, acesta poate fi atins prin mrirea
volumului eantionului, iar simpla constatare a unui rezultat semnificativ nu ne spune nimic despre
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
31
intensitatea relaiei dintre variabilele studiate, despre importana practic i despre utilitatea rezultatului
obinut.
Cunoaterea puterii unei cercetri este util n dou situaii:
a. n faza premergtoare a unei cercetri estimarea puterii este util pentru a evalua ansa de a
obine un rezultat semnificativ statistic n contextul unei cercetri. Dac puterea estimat a testului este prea
mic, devine lipsit de interes s angajm eforturi i costuri pentru conducerea acelei cercetri. Ct de mic
poate fi puterea unei cercetri pentru a accepta efectuarea ei? La aceasta ntrebare cei mai muli cercettori
consider c 0.5 este prea puin pentru a investi timp i bani n efectuarea ei. O putere de 0.7, care
corespunde unei probabiliti de 0.3 pentru eroarea de tip II, este considerat ca fiind minim, iar o putere de
0.8 este considerat cel mai bun compromis ntre nivelul puterii i consecinele negative de care am vorbit
anterior (B. Cohen, 2001).
b. Dup efectuarea unei cercetri, pentru a ti care este probabilitatea ca rezultatul acesteia s
indice un efect al variabilei independente asupra variabilei dependente atunci cnd acest efect exist i n
realitate.
n practic calcularea puterii unei cercetri se face cu programe specializate. Unul dintre cele mai
accesibile i mai cunoscut dintre acestea este GPower, care poate fi descrcat gratuit de la adresa
http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/ (Buchner, Erdfelder & Faul, 1997).


Mrimea efectului

S considerm c rezultatul explorrii muntelui presupus aurifer conduce la respingerea ipotezei de
nul, iar geologii concluzioneaz c eantionul conine aur ntr-o proporie semnificativ. nseamn oare
acest lucru c muntele conine mult aur? Desigur, nu. nseamn doar c acea cantitate de aur gsit n
eantion are o probabilitate prea mic s fie acolo din ntmplare, motiv pentru care s-a decis c prezena ei
semnaleaz o concentraie similar la nivelul ntregului munte (populaii). Ct de mare este cantitatea de
aur nu putem ti doar pe baza testului de semnificaie statistic, deoarece acesta nu exprim dect o decizie
probabilistic i nu o evaluare cantitativ.
Situaia este identic n cazul cercetrii cu privire la relaia dintre participarea la olimpiadele colare
i nivelul de inteligen, unde am obinut pentru eantionul de olimpici o medie QI=106. Aplicnd criteriile
deciziei statistice, am concluzionat c diferena de 6 uniti fa de media populaiei (QI=100) este
semnificativ i am respins ipoteza de nul. Dar ce putem spune despre aceast diferen, ct de mare este
ea? n vorbirea curent, prin semnificativ se nelege i important sau mare. n cazul deciziei statistice
ns, semnificativ are un neles limitat la expresia probabilitate prea mic pentru a rezulta din
ntmplare. De aceea, din ce n ce mai muli autori (Daniel, 1998; Denis, 2003; Fan, 2001; Kotrlik &
Williams, 2003; Thompson, 1998b) consider c decizia statistic nu este suficient pentru a proba integral
valoarea unei ipoteze de cercetare. Respingerea ipotezei de nul pe baza criteriului alfa nu ofer suficient
informaie cu privire la relaia dintre variabilele cercetrii. Este evident c rezultatul testului (QI=106)
conine i o component de mrime. Dac media eantionului ar fi fost 108, sau 120, diferena ar fi fost
mai mare dect 106. i totui, respingerea ipotezei de nul i considerarea rezultatului drept semnificativ nu
exprim n nici un fel nivelul de mrime al diferenei. Mai mult, ne amintim c puterea testului crete pe
msur ce crete volumul eantionului. Ca urmare, un rezultat semnificativ poate fi obinut fie i numai
prin creterea numrului de subieci, fr ca relaia dintre cele dou variabile s fie una intens.

Problema semnalat este mai acut dect pare la prima vedere. Criticii deciziei bazate pe testarea
ipotezei de nul merg pn acolo nct cer eliminarea acestui model de decizie cu privire la ipotezele
cercetrilor tiinifice. La rndul ei, American Psychological Association a organizat un grup de lucru avnd
ca obiect elaborarea unor recomandri cu privire la raportarea rezultatelor statistice (Wilkinson&APA Task
Force on Statistical Inference, 1999). Concluziile acestui grup de lucru stipuleaz c raportarea i
interpretarea mrimii efectului (...) este esenial pentru o cercetare bun. n opinia autorilor, raportarea i
interpretarea mrimii efectului prezint trei avantaje importante:
faciliteaz studiile de metaanaliz (studii care sintetizeaz rezultatele mai multor cercetri pe
aceeai tem);
faciliteaz formularea unor ipoteze cu un grad mai mare de specificitate de ctre cercettorii care
vor studia aceeai tem;
faciliteaz integrarea rezultatului unei cercetri n literatura dedicat acelui subiect,

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
32
Una dintre soluiile acestei probleme este calcularea unui indice de mrime a efectului care ofer o
informaie suplimentar, extrem de util n interpretarea rezultatului testelor statistice. Aceast informaie ne
apropie mai mult de semnificaia practic a rezultatului cercetrii, ceea ce nseamn mai mult dect
semnificaia statistic.

Calcularea mrimii efectului pentru testul z (t) pentru un singur eantion

Indicele de mrime a efectului este, n esen, o valoare numeric ce exprim fora sau mrimea
relaiei dintre variabilele cercetate, indiferent dac aceast este de tip cauzal sau nu. Principial, atunci cnd
comparm dou medii, formula de calcul pentru mrimea efectului se bazeaz pe diferena dintre aceste
medii, raportat la un indicator al variabilitii.

n cazul testului z sau t pentru diferena dintre media unui eantion i media populaiei, indicele de
mrime a efectului se calculeaz dup formula lui Cohen (1988):


=
m
d (formula 3.5)

unde:
m=media eantionului
=media populaiei
=abaterea standard a populaiei (atunci cnd nu o cunoatem, putem utiliza abatarea
standard a eantionului)

Ca urmare, mrimea efectului pentru rezultatul cercetrii cu privire la relaia dintre participarea la
olimpiadele colare i nivelul inteligenei este:

4 . 0
15
100 106
=

= d

Dat fiind faptul c d este calculat prin raportarea diferenei la abaterea standard, el este considerat un
indice standardizat al mrimii efectului. Acesta se exprim printr-un numr zecimal cuprins ntre 0 (efect
nul) i 1 (efect maxim). Valori mai mari de 1 pot fi obinute uneori, dar numai n cazuri extreme. Valorile
mici exprim un nivel redus al intensitii relaiei dintre variabile (chiar dac este semnificativ), n timp ce
valorile mari indic o relaie intens (puternic).
Dar cum putem s interpretm valoarea lui d? O valoare ca cea obinut n cercetarea noastr este
mare, sau mic? n cazul explorrii zcmntului aurifer, geologii pot estima suficient de exact
cantitatea de aur pe care o pot extrage din zcmnt, pornind de la concentraia de aur din eantionul
explorat. n general, evalurile mrimii efectului n mediul ingineresc sunt de ateptat s fie mult mai mari
dect cele din cercetrile socio-umane. Spre deosebire de tiinele naturii, n psihologie rspunsul la aceast
ntrebare nu este uor de gsit. Ca urmare cercettorii sunt ndreptii s dezvolte propriile repere de
apreciere a mrimii efectului ca fiind mici, medii sau mari. n psihologie, interpretarea valorii lui d se
face dup un model propus de Cohen (op.cit.), care a devenit un standard preluat de toi cercettorii, i care
fixeaz doar trei praguri de mrime:

0.20 efect mic
0.50 efect mediu
D
(Cohen)
0.80 efect mare

n conformitate cu recomandrile lui Cohen, d=0.8 este considerat un efect mare. Nu att de mare
nct s rezulte ca evident prin observaie direct, dar suficient de mare pentru a exista o bun ans de a fi
gsit ca statistic semnificativ prin utilizarea unui eantion format dintr-un numr relativ mic de subieci. Prin
contrast, d=0.2 este considerat un efect mic. Pentru valori mai reduse dect att, iniierea unei cercetri nu se
justific.
Revenind la studiul din exemplul nostru, rezultatul obinut corespunde unui nivel moderat al mrimii
efectului (d=0.4). Sau, altfel spus, diferena dintre media inteligenei elevilor olimpici i populaia de elevi
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
33
are un indice moderat de mrime. Acest lucru ar putea fi interpretat n sensul c prezena la olimpiad este
asociat n mod semnificativ cu inteligena, dar are i alte componente importante care o determin.
Calcularea mrimii efectului nu este oferit n toate situaiile de programele de prelucrare statistic.
Din fericire, formulele de calcul nu sunt laborioase, putnd fi aplicate cu uurin pe rezultatele oferite de
aceste programe. O prezentare sintetic i practic a formulelor de calcul ale mrimii efectului pentru diverse
teste statistice de semnificaie ne ofer Thalheimer&Cook (2002).


Relaia dintre mrimea efectului i puterea testului

Mrimea efectului poate fi ilustrat prin gradul de suprapunere dintre distribuiile supuse comparaiei
(distribuia de nul i distribuia cercetrii). Cu ct suprafaa comun a celor dou distribuii este mai mic,
mediile celor dou distribuii devin tot mai ndeprtate una de alta, iar mrimea efectului crete. Imaginea de
mai jos ilustreaz exact acest lucru:



n acelai timp, pe msur ce crete mrimea efectului, crete i puterea testului (concomitent cu
reducerea riscului erorii de tip II):




Interpretare rezultatului unui test statistic

n contextul celor spuse pn acum, pentru a putea interpreta mai complet rezultatele unei cercetri
statistice, trebuie s inem cont att de nivelul de semnificaie, ct i de puterea testului i de mrimea
efectului. Un algoritm de evaluare a rezultatului la testul statistic este prezentat n tabloul urmtor:

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
34
Rezultat
semnificativ
statistic?
(se respinge H0?)
Volumul
eantionului


Concluzii
DA MIC
Rezultat important.
Chiar dac puterea testului este mic, din cauza volumului
redus al eantionului, existena unui rezultat semnificativ
arat o mrime a efectului important.
DA MARE
Rezultatul poate fi important sau nu:
semnificaia poate rezulta din puterea ridicat a
testului, ca urmare a volumului mare al eantionului
SAU
poate fi expresia unei diferene importante dintre
populaiile comparate
NU MIC
Rezultatul este neconcludent. Absena semnificaiei
statistice se poate datora:
faptului c ipoteza cercetrii este fals
SAU
puterii reduse a testului, ca urmare a eantionului prea
mic
NU MARE
Ipoteza cercetrii este probabil fals din cauz c, n ciuda
puterii ridicate (eantion mare), rezultatul nu a atins nivelul
semnificaiei statistice.
Mrimea efectului este foarte mic




Rezumatul unitii de nvare



Scorul standard z exprim distana dintre o valoare a distribuiei i media acesteia, exprimat n
abateri standard
Media scorurilor z ale unei distribuii este ntotdeauna egal cu 0.
Abaterea standard a scorurilor z ale unei distribuii este ntotdeauna egal cu 1.
Alte tipuri de scoruri standard (QI, T, Hull, SAT, etc.) se calculeaz pe baza formulei scorului z,
urmrind obinerea unei valori convenabile sub aspectul formei de expresie.
Curba normal (Gauss) este o distribuie teoretic, caracteristic populaiilor de valori, care are o
form de clopot, este perfect simetric i asimptotic la axa Ox (poate lua, toretic, valori orict de
mari sau orict de mici).
Curba normal z, reprezint o distribuie normal (Gauss) transformat n scoruri z. Aceasta poate
exprima orice distribuie, indiferent de forma de exprimare a valorilor originale.
Distribuiile reale, transformate n distribuii z, nu i modific forma original.
Distribuia de eantionare este format din totalitatea mediilor eantioanelor de acelai volum
posibile, extrase aleatori dintr-o populaie.
Media de eantionare este egal cu media populaiei, dac au fost extrase toate eantioanele posibile.
Eroarea standard a mediei este indicatorul de mprtiere ale mediei de eantionare.
Eroarea standard a mediei este ntotdeauna mai mic dect abaterea standard a populaiei.
Teorema limitei centrale stipuleaz c distribuia de eantionare tinde spre forma normal, atunci
cnd eantioanele extrase sunt suficient de mari (N este cel puin 30).

Facem precizarea c n acest context eantion mic sau mare nu se refer la N=30 de subieci la care am fcut
referire n cazul teoremei limitei centrale. Se poate considera ns un eantion mic ca fiind de ordinul zecilor, iar unul
mare de ordinul sutelor.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
35
Scorul z pentru eantion (grup), se calculeaz n acelai mod ca i pentru valori individuale, cu
deosebirea c n locul abaterii standard, se utilizeaz la numitor eroarea standard a mediei.
Limitele de ncredere ale mediei unui eantion estimeaz, cu o anumit probabilitate, localizarea
mediei la nivelul populaiei, n funcie de media eantionului.
Ipoteza cercetrii descrie rezultatul ateptat de cercettor la problema studiat.
Ipoteza de nul reprezint negaia ipotezei cercetrii i face obiectul testrii printr-o anumit
procedur statistic.
Decizia statistic este un raionament n baza cruia se admite sau se respinge ipoteza de nul.
Pragul alfa este probabilitatea maxim ca rezultatul procedurii de tastare statistic s poat fi
ntmpltor, pe care o fixeaz cercettorul drept criteriu de respingere sau de acceptare a ipotezei de
nul.
Pragul alfa=0.05 este nivelul maxim de probabilitate convenional acceptat de comunitatea
tiinific pentru respingerea ipotezei de nul.
Decizia unilateral testeaz ipoteza statistic numai spre o latur a distribuiei. Decizia bilateral
testeaz ipoteza n ambele direcii, cu meninerea pragului alfa stabilit.
Eroarea de tip I este probabilitatea de a respinge o ipotez de nul adevrat (se accept o ipotez a
cercetrii care este fals) rezultat fals pozitiv.
Eroarea de tip II este probabilitatea de a se admite o ipotez de nul fals (se respinge o ipotez a
cercetrii adevrat) rezultat fals negativ.
O eroare de tip III apare atunci cnd rezultatul cercetrii, dei semnificativ, este greit atribuit
efectului variabilei independente, sau este n opoziie cu sensul real.
Erorile de tip I i II sunt n egal msur negative dar, de regul, acordm mai mult atenie erorii de
tip I, ncercnd s inem alfa la o valoare ct mai mic.
Puterea testului este o mrime probabilist care indic ansa de a obine un rezultat semnificativ
statistic.
Puterea variaz n funcie de nivelul pragului alfa (eroarea de tip I). Cu ct alfa este mai mic, cu att
puterea testului scade.
Dac reducem alfa de la 0.05 la 0.01, reducem probabilitatea de a face o eroare de tip I dar, n acelai
timp, facem mai dificil respingerea ipotezei de nul i, n egal msur, cretem probabilitatea de a
face o eroare de tip II.
Puterea testului este complementar erorii de tip II (suma lor este 1).
Mrimea efectului este o valoare care indic intensitatea relaiei dintre variabila independent i
variabila dependent.
Mrimea efectului este n legtur cu puterea testului i cu volumul eantionului. Cu ct puterea este
mai mare i eantionul este mai mic, cu att mrimea efectului este mai ridicat.
Calcularea mrimii efectului, alturi de semnificaia statistic, este o exigen actual n cercetarea
tiinific psihologic.



Rspunsuri la sarcinile de lucru



Aten ie, calculai utiliznd numai primele dou zecimale, fr rotunjiri. Eventuale mici
varia ii ale rezultatelor sunt posibile i nu vor fi considerate erori.

Rspunsuri corecte la sarcina de lucru nr. 2. 1

Presupunem c evaluarea preferinei pentru risc la un grup de studeni aviatori care au
suferit incidente critice n zbor a condus la o distribuie de valori avnd m=60 i s=25. tiind c
indicele preferinei pentru risc la toi elevii piloi (populaia) este 55, i are o distribuie normal,
calculai rspunsul la urmtoarele ntrebri:

1. z=(60-55)/(25/sqrt(30))=1,09
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
36
2. 36,21% (citit direct din tabelul distribu iei z, la intersec ia liniei z=1 cu coloana 0,09)
3. 50%-36,21%=13,79%
4. (50+36,21)=86,21% (procentul sub medie+procentul intre medie si z=1.09)
5. Calculam mai nti z
53
=(53-55)/(25/sqrt(30))=-0,65; Apoi cutm n tabelul z probabilitatea
la intersec ia liniei 0,6 cu coloana 0,05 i gsim p=0,24215. Aceast valoare reprezint
probabilitatea dintre medie (z=0) i valoarea z=-0,65. Pentru a gsi probabilitatea unei
valori mai mari de 53, adunm probabilitatea valorilor peste medie (0.50) cu probabilitatea
valorilor dintre -0,65 i medie (0,24215)=0,74215 (tabelul este simetric atit pentru valori
pozitive ct i pentru valori negative).
6. Calculm z
40
=(40-55)/(25/sqrt(30))=-1,09. Probabilitatea valorilor dintre mdie i -1,09 este
0,36214., iar probabilitatea valorilor mai mici (adic mai ndeprtate de medie) este 50-
0,36214=0,13786
7. Calculam mai nti z
45
=(45-55)/(25/sqrt(30))=-2,18 i notm probabilitatea
asociat=0,48537; Calculm apoi z
48
==(48-55)/(25/sqrt(30))=-1,53 i notm probabilitatea
asociat=-0,43699. Diferenta dintre aceste probabilit i este rspunsul cutat: p=0,04838
8. Tabelul z ne da probabilit ile dintre medie i o anumit valoare z. Primii 10%
nseamn cele mai mari 10% dintre valori, ceea ce nseamn c ntre acestea i medie se
afl 40%. Citim celulele tabelului z pn gsim cea mai apropiat cea mai apropiat valoare
de 0,40 (0,39973). Apoi compunem scorul z limit din valorile liniei i coloanei (z=1,28).
n final, trebuie s transformm scorul z n unit ile de msur ale scalei:
X=55+1,28*25=87 (am adunat fiindc calculm n dreapta mediei).
9. Tabelul z ne da probabilit ile dintre medie i o anumit valoare z. Ultimii 15%
nseamn cele mai mici 15% dintre valori, ceea ce nseamn c ntre acestea i medie se
afl 35%. Citim celulele tabelului z pn gsim cea mai apropiat cea mai apropiat valoare
de 0,35 (0,35083). Apoi compunem scorul z limit din valorile liniei i coloanei (z=1,04).
n final, trebuie s transformm scorul z n unit ile de msur ale scalei: X=55-
1,04*25=29 (am sczut fiindc calculm n stnga mediei).


Rspunsuri corecte la sarcina de lucru nr. 2. 2

1a. z(1)=0.14; z(2)=-031
1b. z(an)=-0.20
2. 57,93% (50% la care se adaug 7,93% care corespunde ariei dintre medie i scorul z=-0.20)
3. z(G1)=-2.08; z(G2)=0.58
4. Grupa 1: este cuprins ntre 7.92 i 28,81; Grupa 2: este cuprins ntre 9,92 i 30,49




Lucrarea de evaluare nr. 2.1





Lucrarea de evaluare va fi publicat pe portal (http://portal.credis.ro). Data limit de
trimitere este preziua tutorialului. Dup acest termen lucrrile nu mai sunt acceptate.

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
37
TESTE STATISTICE PARAMETRICE


Obiectivele unitii de nvare i informaii introductive

Parcurgerea acestei uniti va permite studenilor:








Testarea diferenei dintre mediile a dou eantioane independente




Testul z (t) pentru un singur eantion este util ntr-un model de cercetare n care ne propunem
compararea valorii msurate pe un eantion cu media populaiei din care acesta provine. Aa cum am
precizat deja, acest tip de cercetare este destul de rar ntlnit, ca urmare a dificultii de a avea acces la media
populaiei.
Un model de cercetare mult mai frecvent ns, este acela care vizeaz punerea n eviden a
diferenelor care exist ntre dou categorii de subieci (diferena asumrii riscului ntre brbai i femei,
diferena dintre timpul de reacie al celor care au consumat o anumit cantitate de alcool fa de al celor
care nu au consumat alcool etc.). n situaii de acest gen psihologul compar mediile unei variabile
(preferina pentru risc, timpul de reacie etc.), msurat pe dou eantioane compuse din subieci care difer
sub aspectul unei alte variabile (sexul, consumul de alcool, etc.). Variabila supus comparaiei este variabila
dependent, deoarece presupunem c suport efectul variabilei sub care se disting cele dou eantioane i
care, din acest motiv, este variabil independent
8
. n studii de acest gen, eantioanele supuse cercetrii se
numesc independente, deoarece sunt constituite, fiecare, din subieci diferii.

Distribuia ipotezei de nul pentru diferena dintre medii independente

S ne imaginm c dorim s vedem dac un lot de sportivi, trgtori la int, care practic trainingul
autogen
9
(variabila independent) obin o performan (variabila dependent) mai bun dect un lot de
sportivi care nu practic aceast tehnic de autocontrol psihic. n acest caz, variabila dependent ia valori
prin evaluarea performanei de tragere, iar variabila independent ia valori convenionale, pe o scal
nominal categorial, dihotomic (practicani i nepracticani de edine de relaxare).
n acest exemplu avem dou eantioane de cercetare, unul format din sportivi practicani ai
trainingului autogen (TA) i altul format din sportivi nepracticani ai TA. Ipoteza cercetrii susine c media
performanei celor dou grupuri este diferit. Sau, cu alte cuvinte, c cele dou grupuri provin din populaii
diferite, respectiv, populaia sportivilor practicani de TA i cea a nepracticanilor de TA. Trebuie s

8
Am pus cuvntul efect ntre ghilimele deoarece, chiar dac este logic s considerm c este vorba de o relaie de tip
cauz-efect, simpla msurare a diferenelor pe dou eantioane de subieci nu este suficient pentru a concluziona o
relaie cauzal. Pentru aceasta, ar fi mai potrivit, spre exemplu, s msurm timpul de reacie la aceiai subieci nainte
i dup consumarea unei cantiti de alcool.
9
O metod de relaxare psihic
S calculeze testele statistice z i te pentru un singur eantion
S calculeze i s interpreteze semnificaia diferenei dintre mediile a
dou eantioane independente
S calculeze i s interpreteze testul ANOVA pentru mai mult de
dou eantioane independente
S calculeze i s interpreteze testul t pentru eantioane dependente
S calculeze i s interpreteze testul de corelaie liniar Pearson
S calculeze i s interpreteze coeficientul de regresie liniar simpl
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
38
acceptm faptul c perechea de eantioane studiate nu este dect una din perechile posibile. S privim figura
de mai jos, care ne sugereaz ce se ntmpl dac, teoretic, am extrage (selecta) n mod repetat de eantioane
perechi din cele dou populaii:



Imaginea arat faptul c, pe msur ce constituim perechi de eantioane (m11-m21, etc.) cu valori ale
performanei la int, diferena dintre medii devine o distribuie n sine, format din valorile acestor diferene.
Dac am reui constituirea tuturor perechilor posibile de eantioane, aceast distribuie, la rndul ei, ar
reprezenta o nou populaie, populaia diferenei dintre mediile practicanilor i nepracticanilor de training
autogen. i, fapt important de reinut, curba diferenelor dintre medii urmeaz legea distribuiei t. Cu alte
cuvinte, la un numr mare (tinznd spre infinit) de eantioane perechi, trebuie s ne ateptm ca cele mai
multe medii perechi sa fie apropiate ca valoare, diferena dintre mediile fiind, ca urmare, mic, tinznd spre 0
i ocupnd partea central a curbei. Diferenele din ce n ce mai mari fiind din ce n ce mai puin probabile,
vor ocupa marginile distribuiei (vezi figura de mai jos). Aceasta este ceea ce se numete distribuia
ipotezei de nul pentru diferena dintre mediile a dou eantioane independente.













n acest moment este bine s accentum din nou semnificaia statistic a noiunii de populaie. Dup
cum se observ, aceasta nu face referire neaprat la indivizi, ci la totalitatea valorilor posibile care descriu o
anumit caracteristic (psihologic, biologic sau de alt natur). n cazul nostru, diferenele dintre mediile
eantioanelor perechi (fiecare provenind dintr-o populaie fizic distinct) devin o nou populaie, de
aceast dat statistic, compus din totalitatea diferenelor posibile, a crei distribuie se supune i ea
modelului curbei t.

Procedura statistic pentru testarea semnificaiei diferenei dintre mediile a dou eantioane

Problema pe care trebuie s o rezolvm este urmtoarea: este diferena dintre cele dou eantioane
suficient de mare pentru a o putea considera c este n legtur cu variabila independent, sau este doar una
dintre diferenele probabile, generat de jocul hazardului la constituirea perechii de eantioane? Vom observa
c sarcina noastr se reduce, de fapt, la ceea ce am realizat anterior n cazul testului z sau t pentru un singur
eantion. Va trebui s vedem dac diferena dintre dou eantioane reale se distaneaz semnificativ de
diferena la care ne putem atepta n cazul extragerii absolut aleatoare a unor perechi de eantioane, pentru
care distribuia diferenelor este normal. Mai departe, dac probabilitatea de a obine din ntmplare un

1
-
2
= 0
(m
1-2
m
2-2
) (m
1-3
m
2-3
)
(m
1-1
m
2-1
)
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
39
astfel de rezultat (diferen) este prea mic (maxim 5%) o putem neglija i accepta ipoteza c ntre cele dou
variabile este o relaie semnificativ.
Dac avem valoarea diferenei dintre cele dou eantioane cercetate, ne mai sunt necesare doar
media populaiei (de diferene ale mediilor) i abaterea standard a acesteia, pentru a calcula testul z (n cazul
eantioanelor mari) sau cel t (n cazul eantioanelor mici). n final, nu ne rmne dect s citim valoarea
tabelar pentru a vedea care este probabilitatea de a se obine un rezultat mai bun (o diferen mai mare ) pe
o baz strict ntmpltoare.

Media populaiei de diferene. Diferena dintre mediile celor dou eantioane ale cercetrii face
parte, aa cum am spus, dintr-o populaie compus din toate diferenele posibile de eantioane perechi.
Media acestei populaii este 0 (zero). Atunci cnd extragem un eantion aleator dintr-o populaie, valoarea sa
tinde s se plaseze n zona centrala cea mai probabil). Dar aceeai tendin o va avea i media oricrui
eantion extras din populaia pereche. Ca urmare, la calcularea diferenei dintre mediile a dou eantioane,
cele mai probabile sunt diferenele mici, tinznd spre zero. Astfel, ele vor ocupa partea central a distribuiei,
conturnd o medie tot mai aproape de zero cu ct numrul eantioanelor extrase va fi mai mare.

Eroarea standard a diferenei (mprtierea), pe care o vom nota cu
m1-m2
, se calculeaz pornind
de la formula de calcul a erorii standard:

(formula 3.6)

Din raiuni practice, pentru a obine o formul care s sugereze diferena dintre medii (m
1
-m
2
),
formula de mai sus este supus unor transformri succesive. Prin ridicarea la ptrat a ambilor termeni, i
dup extragerea radicalului din noua expresie, se obine:

(formula 3.7)


Dac am utiliza-o pentru calcule, aceast ultim formul ar produce acelai rezultat ca i formula de
origine.
Formula erorii standard a distribuiei diferenei dintre medii ne arat ct de mare este mprtierea
diferenei tipice ntre dou medii independente atunci cnd eantioanele sunt extrase la ntmplare

(formula 3.8)


Formula 3.8 ne indic faptul c eroarea standard a diferenei dintre medii este dat de suma erorii
standard a celor dou eantioane. Unul dintre eantioane are N
1
subieci i o dispersie
1
2
iar cellalt
eantion, N
2
subieci i dispersia
2
2
. Faptul c obinem eroarea standard a diferenei dintre medii ca sum a
erorilor standard a celor dou eantioane este fundamentat pe o lege statistica a crei demonstraie nu se
justific aici.
Pentru a calcula scorul z al diferenei, vom utiliza o formul asemntoare cu formula notei z pe care
o cunoatem deja:
m
m
z


=


Aceasta va fi:

2 1
2 1 2 1
) ( ) (
m m
m m
z


(formula 3.9)

Numrtorul exprim diferena dintre diferena obinut de noi (m
1
-m
2
) i diferena dintre mediile
populaiilor (
1
-
2
). Dac ne amintim c distribuia ipotezei de nul (
1
-
2
) are media 0, atunci deducem c
expresia (
1
-
2
) poate lipsi. De altfel, dac am cunoate mediile celor dou populaii nici nu ar mai fi
necesar calcularea semnificaiei diferenei dintre eantioanele care le reprezint.
N
m

=
N
m
2

=
2
2
2
1
2
1
2 1
N N
m m

+ =

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
40
Numitorul descrie eroarea standard a diferenei, calculat cu formula 3.7, adic mprtierea
diferenei tipice pentru extrageri aleatoare.
n conformitate cu cele spuse pn acum, formula final pentru scorul z al diferenei dintre dou
eantioane devine :



(formula 3.10)


Se observ c am eliminat (
1
-
2
) de la numrtor, care este ntotdeauna 0 i am nlocuit
m1-m2
cu
expresia echivalent din formula 3.8. Aceast formul ne d ceea ce se numete valoarea testului z pentru
eantioane mari-independente.
Valoarea astfel obinut urmeaz a fi verificat cu ajutorul tabelei z pentru curba normal, iar decizia
statistic se ia n acelai mod ca i n cazul testului z pentru un singur eantion.
n formula 3.9 eroarea standard a diferenelor este calculat pe baza erorii standard a distribuiei de
eantionare pentru populaiile din care sunt extrase cele dou eantioane (practicani i nepracticani de
training autogen). n realitate nu cunoatem cele dou dispersii. Din fericire, dac volumul nsumat (N
1
+N
2
)
al eantioanelor care dau diferena noastr (m
1
-m
2
) este suficient de mare (30 dar, de preferat, ct mai
aproape de 100) atunci ne amintim c putem folosi abaterea standard a fiecrui eantion (s
1
respectiv s
2
), care
aproximeaz suficient de bine abaterile standard ale celor dou populaii.
Atunci cnd eantioanele nu sunt suficient de mari, trebuie s ne ateptm la erori considerabile n
estimarea mprtierii populaiei pe baza mprtierii eantionului. ntr-o astfel de situaie vom apela,
desigur, la un test t, avnd dou opiuni de calcularea acestuia:


a. Testul t pentru dispersii diferite

Acesta se bazeaz pe considerarea separat a dispersiilor celor dou populaii (estimate prin
dispersiile eantioanelor). Formula este foarte asemntoare cu formula anterioar pentru testul z. Vom
reine aceast formul ca testul t pentru dispersii diferite:

2
2
2
1
2
1
2 1
N
s
N
s
m m
t
+

=
(formula 3.11)

Se observ nlocuirea lui (pentru populaie) cu s (pentru eantion). Utilizarea acestei formule este
destul de controversat deoarece rezultatul nu urmeaz cu exactitate distribuia t, aa cum am introdus-o
anterior. Pentru eliminarea acestui neajuns, se utilizeaz o alt variant de calcul, care ia n considerare
dispersia cumulat a celor dou eantioane.

b. Testul t pentru dispersia cumulat

Dispersiile celor dou eantioane pot fi considerate mpreun pentru a forma o singur estimare a
dispersiei populaiei (
2
). Obinem astfel ceea ce se numete dispersia cumulat, pe care o vom nota cu s
2
c

i o vom calcula cu formula urmtoare:


(formula 3.12)


La numrtor, formula conine suma dispersiilor multiplicate, fiecare, cu volumul eantionului
respectiv (de fapt, gradele de libertate, N-1). n acest fel vom avea o contribuie proporional cu numrul de
valori ale mprtierii fiecrui eantion la rezultatul final.
La numitor, avem gradele de libertate (df) pentru cele dou eantioane luate mpreun (N
1
+N
2
-2).
nlocuind-o n formula 3.11, obinem formula de calcul a testului t pentru dispersii cumulate:

2
* ) 1 ( * ) 1 (
2 1
2
2 2
2
1 1 2
+
+
=
N N
s N s N
s c
2
2
2
1
2
1
2 1
N N
m m
z

+

=
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
41

+
+
+

=
2 1 2 1
2
2 2
2
1 1
2 1
1 1
*
2
* ) 1 ( * ) 1 (
N N N N
s N s N
m m
t
(formula 3.13):

Expresia 3.13 este formula uzual pentru calcularea diferenei dintre medii pentru dou eantioane
independente. Chiar dac a fost introdus ca utilizabil pentru eantioane mici, caracteristicile distribuiei t
ne permit utilizarea ei i pentru eantioane mari, deoarece distribuia t tinde spre cea normal la valori din ce
n ce mai mari ale gradelor de libertate.

EXEMPLU DE CALCUL:

S presupunem c vrem s vedem dac practicarea trainingului autogen (variabila independent)
determin o cretere a performanei n tragerea la int, manifestat printr-un numr mai mare de lovituri n
centru intei (variabil dependent). Pentru aceasta selectm un eantion de 6 sportivi care practic trainingul
autogen i un eantion de 6 sportivi care nu l practic. Pentru fiecare eantion msurm performana de
tragere.
Formularea ipotezei cercetrii, a ipotezei de nul, i a criteriilor deciziei statistice

Pentru exemplul de mai sus:
Problema cercetrii: Are practicarea trainingului autogen un efect asupra performanei la tirul cu
arcul?
Ipoteza cercetrii (H
1
): Practicarea trainingului autogen determin un numr mai mare de puncte
la edinele de tragere.
Ipoteza de nul (statistic) (H
0
): Numrul punctelor la edinele de tragere nu este mai mare la cei
care practic trainingul autogen. Aceast variant este potrivit cu o testare unilateral a ipotezei (nu avem
n vedere dect eventualitatea ca trainingul autogen s creasc performana sportiv).
Dac, ns, am dori s testm n ambele direcii, bilateral, atunci am avea urmtoarele versiuni ale
ipotezelor:
Ipoteza cercetrii: Performana sportiv este diferit la subiecii care practic trainig autogen fa
de cei care nu practic
Ipoteza de nul (statistic): Performana nu difer semnificativ n funcie de practicarea
trainingului autogen.
Fixarea lui t critic. Optm pentru efectuarea unui test bilateral, pentru c nu putem ti dinainte dac
TA nu are un efect negativ asupra performanei sportive a trgtorilor la int. Alegem nivelul =0,05.
Stabilim gradele de libertate:
df=N
1
+N
2
-2=10
Utiliznd tabelul distribuiei t pentru 10 grade de libertate (adic 12-2) i =0,05, bilateral, gsim t
critic=2.228, la intersecia coloanei 0.025 i cu linia pentru 10 grade de libertate.
Valoarea t calculat va trebui s fie cel puin egal sau mai mare dect t critic, pentru a putea
respinge ipoteza de nul i a accepta ipoteza cercetrii (vezi imaginea de mai jos).



Variabila independent (calitatea de practicant-nepracticant Training Autogen) ia dou valori, s
zicem: 1 pentru practicanii trainingului autogen i 2 pentru nepracticani. Valorile 1 i 2 sunt
convenionale i ne indic faptul c variabila independent a cercetrii noastre este msurat pe o scal
nominal, categorial (dihotomic). Variabila dependent (performana de tragere la int) ia valori
cantitative, exprimat n numr de lovituri n centrul intei, fiind de tip cantitativ (raport).
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
42
Datele cercetrii
practicani TA (1) ne-practicani TA (2)
X1 (X1-m1)
2
X2 (X2-m2)
2
15 2.78 10 2.78
9 18.74 8 0.10
12 1.76 11 7.12
13 0.10 5 11.08
16 7.12 7 1.76
15 2.78 9 0.44
80 33.28 50 23.28
N 6 6
m 13.33 8.33
1
) (
2
2

=

N
m X
s
i

67 . 6
5
28 . 33
=


66 . 4
5
28 . 23
=


2
s s =

2.58 2.16

Calculm testul t pentru dispersii cumulate:
Mai nti, eroarea standard a diferenei (numitorul formulei):

34 . 1
6
1
6
1
10
) 16 . 2 ( ) 1 6 ( ) 58 . 2 ( ) 1 6 ( 1 1
2
) )( 1 ( ) )( 1 (
2 2
2 1 2 1
2
2
2
1
2
1
=

+
+
=

+
+
+
=
N N N N
s N s N
s
Dif


Iar apoi:
73 . 3
34 . 1
33 . 8 33 . 13
2 1
=

=
Dif
s
m m
t


Comparm t calculat cu t critic din tabelul distribuiei t: 3.73 > 2.228
Decizia statistic: Se respinge ipoteza de nul
Concluzia cercetrii: Se admite ipoteza cercetrii. Practicarea trainingului autogen este n legtur
cu performana de tragere

Mrimea efectului

Atunci cnd calculm testul t, nu valoarea obinut este relevant ci probabilitatea care este asociat
acestei valori (p). De exemplu, dac avem n vedere formula de calcul pentru t, atunci nelegem c o valoare
t=3.73 nu nseamn altceva dect faptul c diferena dintre mediile comparate este 3.73 ori mai mare dect
eroarea standard estimat a acelei diferene. Chiar dac probabilitatea asociat acestei valori t este foarte
mic, sub pragul alfa, magnitudinea diferenei dintre medii poate fi mic. Ca urmare, aprecierea
importanei diferenei dintre mediile grupurilor cercetate are nevoie de informaii suplimentare. Acestea
sunt oferite de indicele de mrime a efectului.
Pentru a afla mrimea efectului pentru testul t pentru eantioane independente, se utilizeaz
indicele d al lui Cohen. Din pcate, pachetele de programe statistice uzuale (inclusiv SPSS) nu ofer acest
valoarea lui d. El poate fi ns obinut relativ uor cu formula:

) 1 ( ) 1 (
) 1 ( ) 1 (
2 1
2
2
2
1
2
1
2 1
+
+

=
N N
s N s N
m m
d
(formula 3.14)

unde numitorul exprim abatarea standard cumulat a celor dou grupuri comparate.

Pentru exemplul nostru, calculm mrimea efectului nlocuind datele n formula 3.14, dup cum
urmeaz:
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
43
1 . 2
38 . 2
5
) 1 6 ( ) 1 6 (
66 . 4 ) 1 6 ( 67 . 6 ) 1 6 (
33 . 8 33 . 13
= =
+
+

= d

Interpretarea mrimii lui d se face utiliznd aceleai praguri propuse de Cohen: 0.20 efect mic;
0.50 efect mediu; 0.80 efect mare. Valoarea obinut de noi indic un nivel ridicat al mrimii efectului,
semn al faptulului c practicarea edinelor de relaxare are un efect important asupra performanei
sportivilor din eantionul cercetrii.


Limitele de ncredere ale diferenei dintre medii

Aa cum tim, mediile grupurilor comparate reprezint doar o estimare a mediei populaiilor din care
provin, oscilnd jurul mediei adevrate. n mod similar, diferena dintre mediile celor dou eantioane
estimeaz media populaiei de diferene. Ct de precis este aceast estimare putem afla prin calcularea
intervalului de ncredere pentru diferena mediilor. Principial, limitele de ncredere n acest caz se calculeaz
la fel ca i limitele de ncredere pentru media populaiei, dup urmtoarea formul:
dif critic dif dif
s t m = (formula 3.15)
unde:

dif
=media populaiei de diferene (
1
-
2
)

m
dif
=diferena dintre mediile eantioanelor cercetrii (m
1
-m
2
)
t
critic
=valoarea lui t pentru nivelul de ncredere ales (de regul 95%)
s
dif
=eroarea standard a diferenei (calculat cu expresia de la numitorul formulei 3.13)

nlocuind datele n formul, obinem urmtoarele limite de ncredere pentru media populaiei de
diferene:
Limita inferioar
dif
=5-2.228*1.34=2.01
Limita superioar
dif
=5+2.228*1.34=7.98

Imaginea de mai jos ilustreaz limitele ntre care se afl, pe distribuia populaiei de diferene, avnd
media 0, cu un nivel de ncredere de 95%, poziia mediei reale a diferenei dintre grupurile comparate:

- 2.01 7.98 +

dif
=0 L
inf
m
dif
=5 L
sup


Relevana intervalului de ncredere poate fi discutat din mai multe puncte de vedere:
(a) Faptul c media populaiei de nul (
dif
=0) se afl n afara limitelor de ncrerede subliniaz odat
n plus caracterul semnificativ al diferenei dintre mediile grupurilor comparate. Cu ct una dintre limite ar fi
mai aproape de valoarea 0, cu att faptul de a fi obinut un rezultat semnificativ ar fi mai puin relevant. Dac
media distribuiei de nul ar fi cuprins ntre limitele de ncredere ipoteza de nul ar trebui acceptat, indiferent
de rezultatul testului statistic.
(b) Mrimea intervalului de ncredere arat precizia estimrii rezultatului cercetrii. Aceasta este
legat n mod direct de eroarea standard a diferenei (eroarea de estimare) care, la rndul ei, depinde de
numrul subiecilor din cele dou eantioane, dar i de omogenitatea valorilor msurate.
(c) n msura n care variabila testat are o utilitate practic, limitele de ncredere scot n eviden
dac rezultatul are o semnificaie n raport cu criterii de ordin practic. De exemplu, n cazul nostru,
antrenorul sportivilor respectivi poate aprecia n ce msur un progres al performanei care poate fi ntre 2 i
7 puncte ar aduce o clasare mai bun la concursurile de profil sau, dimpotriv, este nerentabil.
(d) Limitele de ncredere nu prezint o utilitate practic atunci cnd valorile variabilei nu au o
semnificaie prin ele nsele. S ne imaginm, spre exemplu, un experiment n care un grup privete un film
trist, iar un alt grup privete un film vesel, dup care starea de spirit a celor dou grupuri este evaluat prin
numrarea cuvintelor triste sau vesele pe care subiecii i le pot aminti dintr-o list citit imediat dup
vizionare. n aceast situaie este greu de atribuit o utilitate practic limitelor de ncredere ale numrului de
cuvinte evocate. Nu acelai lucru se ntmpl dac, de exemplu, n cazul unui experiment n care utilizarea
unui anumit tip de exerciii la locul de munc se traduce n creterea productivitii muncii, msurat prin
numrul de produse finite. Este evident c numrul de produse finite este un indicator cu relevan practic,
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
44
uor de interpretat. Cu toate acestea, chiar i atunci cnd nu prezint o relevan practic direct, calcularea
limitelor de ncredere ofer o imagine a gradului de precizie a estimrii testului statistic, fapt care face
necesar cunoaterea lor i raportarea lor.

Interpretarea rezultatului la testul t pentru eantioane independente

Atunci cnd valoarea calculat a testului este egal sau mai mare dect t critic (ceea ce este
echivalent cu p este mai mic sau egal cu alfa), rezultatul justific aprecierea ca semnificativ a diferenei
dintre mediile celor dou eantioane (adic suficient de mare pentru a respinge ipoteza c ar putea fi
ntmpltoare). Modelul de cercetare nu permite formularea acestei concluzii n termenii unei relaii cauzale
ntre practicarea trainingului autogen i performana sportiv, orict de tentat ar fi aceast concluzie. Cel
puin nu n contextul acestui model de de cercetare. Dac acelai grup de subieci ar fi fost supus evalurii
performanei de extragere n zile cu training autogen i n zile fr training autogen, concluzia ar fi putut fi
de ordin cauzal.
n plus, existena unei diferene semnificative nu este similar cu existena unei diferene cu valoare
practic. Este posibil ca diferena dintre cele dou loturi de sportivi, dei semnificativ statistic, s nu
justifice costurile angajate n desfurarea programului de relaxare psihic. ntr-o asemenea situaie, studiul
nu este lipsit de valoare dar concluziile sunt utile doar n plan teoretic.

Publicarea rezultatului

La publicarea testului t pentru diferena dintre mediile a dou eantioane independente vor fi
menionate: mediile i abaterile standard ale fiecrui eantion, volumul eantioanelor sau gradele de libertate,
valoarea testului, nivelul lui p, mrimea efectului i limitele de intervalului de ncredere pentru diferena
dintre medii.
n form narativ, rezultatul pentru exemplul de mai sus poate fi formulat astfel: Sportivii care
practic trainingul autogen au fost comparai cu cei care nu practic. Primii au realizat o performan mai
bun (m=13.33, =2.58) fa de ceilali (m=8.33, =2.16), t(10)=3.65, p<0.05. Mrimea efectului este
mare (d=2.1), iar limitele de ncredere (95%) pentru diferena mediilor sunt cuprinse ntre 2.01 i 7.98.


Condiiile n care putem calcula testul t pentru eantioane independente

- Eantioane aleatoare (ideal), sau neafectate de erori de eantionare (bias);
- Eantioane independente (distincte din punctul de vedere al variabilei independente, care
determin constituirea grupurilor);
- Variabila supus msurrii s se distribuie normal n ambele populaii. Aceasta ne garanteaz c
i distribuia diferenelor dintre medii se distribuie normal. Totui, teorema limitei centrale ne
permite asumarea normalitii distribuiei mediei de eantionare chiar i n cazul variabilelor care
nu se distribuie normal la nivelul populaiei, pentru eantioane mari. Dac ns, analiza
distribuiilor indic forme aberante, iar volumul grupurilor comparate este foarte mic, se va alege
soluia unui test neparametric. Vom meniona, totui, c testele t sunt robuste la nclcarea
condiiei de normalitate.
- Dispersia celor dou eantioane s fie omogen. Testul t poate fi aplicat strict n cazurile n care
dispersiile celor dou populaii (practicani, nepracticani) au aceeai dispersie
(omogenitatea dispersiei). Din fericire, exist trei situaii n care aceast condiie nu trebuie s ne
preocupe:
cnd eantioanele sunt suficient de mari (cel puin 100 fiecare)
cnd cele dou eantioane au acelai volum (N1=N2)
cnd dispersiile celor dou eantioane nu difer semnificativ (dar, chiar i pentru acest
caz, exist formule care in cont de diferena dispersiilor).

Cnd se utilizeaz testul t pentru eantioane independente?

Generic, acest test statistic se utilizeaz n situaiile n care vrem sa aflm dac o variabil
dependent, msurat pe o scal de interval/raport, difer semnificativ ntre dou grupuri (eantioane)
difereniate pe o variabil independent msurat pe scala de tip nominal (dihotomic), sau bi-categorial,
indiferent de natura ei. Deoarece este unul dintre modelele frecvent ntlnite n practica cercetrii
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
45
psihologice, utilizarea testului t pentru eantioane independente este i ea des ntlnit n literatura de
specialitate.







Sarcina de lucru nr. 2.4




ntr-un studiu asupra efectelor unui nou tratament al fobiei, datele pentru grupul experimental
obinute printr-o scal de evaluare a tendinelor fobice sunt: m
1
=27.2, s
1
=4 i N
1
=15
Datele pentru grupul de control sunt: m
2
=34.4, s
2
=14 i N
2
=15
Utiliznd aceste date:
1. Formulai problema (ntrebarea) cercetrii
2. Formulai ipoteza cercetrii (H1)
3. Formulai ipoteza de nul (H0)
4. Aflai t critic pentru =0,05; bilateral
5. Calculai testul t pentru diferena dintre cele dou eantioane
6. Formulai i motivai decizia statistic
7. Formulai concluzia cercetrii

Verificai rspunsurile corecte la pagina 75

Analiza de varian (mai mult de dou eantioane independente)

n situaia n care am comparat performana la int a celor dou grupe de sportivi (practicani i
nepracticani de training autogen), testul t a rezolvat problema semnificaiei diferenei dintre dou medii. n
practica de cercetare ne putem ntlni ns cu situaii n care avem de comparat trei sau mai multe medii. De
exemplu, atunci cnd am efectuat un test de cunotine de statistic i dorim s tim dac diferenele
constatate ntre cele 5 grupe ale unui an de studiu difer semnificativ. Performana la nivelul fiecrei grupe
este dat de media rspunsurilor corecte realizate de studeni. La prima vedere, am putea fi tentai s
rezolvm problema prin compararea repetat a mediei grupelor, dou cte dou. Din pcate, exist cel
puin trei argumente pentru care aceast opiune nu este de dorit a fi urmat:
n primul rnd, volumul calculelor ar urma sa fie destul de mare, i ar crete i mai mult dac
numrul categoriilor variabilei independente ar fi din ce n ce mai mare.
n al doilea rnd, problema cercetrii vizeaz relaia dintre variabila dependent (n exemplul de
mai sus, performana la statistic) i variabila independent, exprimat prin ansamblul tuturor
categoriilor sale (grupele de studiu). Ar fi bine s putem utiliza un singur test i nu mai multe,
pentru a afla rspunsul la problema noastr.
n fine, argumentul esenial este acela c, prin efectuarea repetat a testului t cu fiecare decizie
statistic acumulm o cantitate de eroare de tip I de 0.05 care se cumuleaz cu fiecare pereche
comparat, ceea ce duce la depirea nivelului admis de convenia tiinific. S presupunem c
dorim s testm ipoteza unei relaii dintre nivelul anxietii i intensitatea fumatului, evaluat n
trei categorii: 1-10 igri zilnic; 11-20 igri zilnic i 21-30 igri zilnic. n acest caz, avem trei
categorii ale cror medii ar trebui comparate dou cte dou. Dar, n acest fel, prin efectuarea
repetat a testului t pentru eantioane independente, s-ar cumula o cantitate total de eroare de
tip I de 0.15 adic 0.05+0.05+0.05.

Pentru a elimina aceste neajunsuri, i mai ales pe ultimul dintre ele, se utilizeaz o procedur
statistic numit analiza de varian (cunoscut sub acronimul ANOVA, de la ANalysis Of VAriance, n
englez). n mod uzual, analiza de varian este inclus ntr-o categorie aparte de teste statistice. Motivul
pentru care o introducem aici, imediat dup testul t pentru eantioane independente, este acela c, n esen,
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
46
ANOVA nu este altceva dect o extensie a logicii testului t pentru situaiile n care se dorete compararea a
mai mult de dou medii independente. Dar, dac problema este similar, soluia este, aa cum vom vedea,
diferit.

Exist mai multe tipuri de ANOVA, dou fiind mai frecvent folosite:

- ANOVA unifactorial, care se aplic atunci cnd avem o variabil dependent msurat pe o scal
de interval/raport msurat pentru trei sau mai multe valori ale unei variabile independente
categoriale. n contextul ANOVA, variabila independent este denumit factor, iar valorile pe care
acesta le ia se numesc niveluri. Din acest motiv, modelul de analiz de varian cu o singura
variabil independent se numete ANOVA unifactorial, ANOVA simpl sau, cel mai frecvent,
ANOVA cu o singur cale (One-way ANOVA).
o Exemple:
Nivelul anxietii n raport cu trei categorii de fumtori (1-10 igri zilnic, 11-20
igri i 21-30 igri).
Timpul de rspuns la un strigt de ajutor, n funcie de natura vocii persoanelor care
solicit ajutorul (copil, femeie, brbat).
Scorul la un test de cunotine statistice ale studenilor de la psihologie, n funcie de
tipul de liceu absolvit (real, umanist, agricol, artistic).

- ANOVA multifactorial, care se aplic atunci cnd avem o singur variabil dependent (la fel ca
n cazul ANOVA unifactorial) dar dou sau mai multe variabile independente, fiecare cu dou sau
mai multe valori, msurate pe o scal categorial (nominal sau ordinal).
o Exemple
Nivelul anxietii n raport cu intensitatea fumatului (1-10 igri zilnic, 11-20
igri i 21-30 igri), i cu genul (masculin, feminin). n acest caz, problema
cercetrii este dac intensitatea fumatului i caracteristica de gen au, mpreun, o
relaie cu nivelul anxietii.
Timpul de rspuns la un strigt de ajutor n funcie de natura vocii care solicit
ajutorul (copil, femeie, brbat) i de genul (masculin, feminin) al persoanei care
trebuie s rspund la solicitarea de ajutor.
Scorul la un test de cunotine statistice ale studenilor de la psihologie, n funcie de
tipul de liceu absolvit (real, umanist, agricol, artistic) i de genul (masculin, feminin)
al studenilor.

Ne vom limita aici doar la prezentarea analizei de varian unifactoriale, urmnd s revenim cu alt
prilej asupra altor variante de ANOVA.


Cadrul conceptual pentru analiza de varian unifactorial

S ne imaginm o cercetare a crei ipotez este c relaia dintre performana sportivilor n tragerea la
int i trei metode de antrenament (s le denumim metoda 1, metoda 2 i metoda 3).
n esen, ANOVA este o procedur de comparare a mediilor eantioanelor. Specificul ei const n
faptul c n locul diferenei directe dintre medii se utilizeaz dispersia lor, gradul de mprtiere. Procedura
se bazeaz pe urmtorul demers logic: Ipoteza cercetrii sugereaz c performana sportivilor antrenai cu
fiecare dintre cele trei metode de antrenament face parte dintr-o populaie distinct, creia i corespunde un
nivel specific de performan (adic o medie caracteristic, diferit de a celorlalte dou populaii). Prin
opoziie, ipoteza de nul ne oblig s presupunem c cele trei eantioane
10
(modele de antrenament) pe care
vrem s le comparm, provin dintr-o populaie unic de valori ale performanei, iar diferenele dintre mediile
lor nu reprezint dect expresia variaiei fireti a distribuiei de eantionare.
n imaginea de mai jos populaiile cercetrii (Pc1, Pc2, Pc3) sunt exprimate cu linie continu, iar
populaie de nul cu linie discontinu.


10
Pentru simplificare, n continuare ne vom referi numai la trei eantioane, dar se va nelege trei sau mai multe
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
47


Chiar dac absena unei legturi ntre metoda de antrenament i intensitatea nivelul performanei
(ipotez de nul) este adevrat, cele trei grupuri (eantioane) nu trebuie s aib n mod necesar aceeai
medie. Ele pot avea medii diferite care s rezulte ca expresie a variaiei aleatoare de eantionare
(m1m2m3) i, de asemenea, mprtieri (dispersii) diferite (s1s2s3). S ne gndim la cele trei medii pe
care vrem s le comparm, ca la o distribuie de sine stttoare de trei valori (sau mai multe, pentru cazul n
care variabila independent are mai multe categorii). Cu ct ele sunt mai diferite una de alta, cu att
distribuia lor are o mprtiere (varian) mai mare. Este evident faptul c dac eantioanele ar aparine
populaiei de nul, diferena mediilor (exprimat prin dispersia lor) ar fi mai mic dect n cazul n care
acestea ar proveni din populaii distincte (corespunztor ipotezei cercetrii).
Mai departe, se pune urmtoarea problem: ct de diferite (mprtiate) trebuie s fie mediile celor
trei eantioane, luate ca distribuie de sine stttoare de trei valori, pentru ca s putem concluziona c ele nu
provin din populaia de nul (dreptunghiul punctat), ci din trei populaii diferite, corespunztoare
eantioanelor de cercetare (Pc1, Pc2, Pc3)?
Pentru a rspunde la aceast ntrebare este necesar:
a) S calculm dispersia valorilor individuale la nivelul populaiei de nul, care se bazeaz pe valorile
performanei tuturor valorilor msurate, indiferent de metoda de antrenament;
b) S calculm dispersia mediilor anxietii grupurilor cercetrii (considerate ca eantioane separate);
c) S facem raportul dintre aceste dou valori. Obinerea unei valori mai ridicate a acestui raport ar
exprima apartenena fiecreia din cele trei medii la o populaie distinct, n timp ce obinerea unei
valori mai sczute ar sugera proveniena mediilor dintr-o populaie unic (de nul). Decizia statistic
cu privire la mrimea raportului i, implicit, cu privire la semnificaia diferenelor dintre mediile
comparate, se face prin raportarea valorii raportului la o distribuie teoretic adecvat, alta dect
distribuia normal, aa cum vom vedea mai departe.

n continuare ne vom concentra asupra fundamentrii modului de calcul pentru cei doi termeni ai
raportului. Calcularea exact a dispersiei populaiei de nul este imposibil, deoarece nu avem acces la toate
valorile acesteia, dar poate fi estimat prin calcularea mediei dispersiei grupurilor de cercetare. Valoarea
astfel obinut se numete dispersia intragrup i reprezint estimarea mprtierii valorilor msurate la
nivelul populaiei de nul.
La rndul ei, dispersia mediilor grupurilor de cercetare, calculat dup metoda cunoscut de calcul a
dispersiei, formeaz ceea ce se numete dispersia intergrup. Valoarea astfel obinut evideniaz ct de
diferite (mprtiate) sunt mediile eantioanelor care fac obiectul comparaiei.
Raportul dintre dispersia intergrup i dispersia intragrup se numete raport F i ne d valoarea
testului ANOVA unifactorial. Cu ct acest raport este mai mare, cu att mprtierea mediilor grupurilor
comparate este mai mare i, implicit, diferena lor poate fi una semnificativ, ndeprtat de o variaie pur
ntmpltoare.

Imaginile de mai jos dau o expresie grafic acestui raionament:

Figura a reprezint grafic ipoteza de nul:
presupunem c cele trei grupuri provin din aceeai
populaie. Ca urmare, cele trei medii sunt egale
(
1
=
2
=
3
), iar distribuiile sunt suprapuse.



Figura b reprezint grafic ipoteza cercetrii: cele trei
grupuri sunt diferite, provenind din populaii distincte
(
1

3
).
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
48

Dac distana (mprtierea) dintre mediile eantioanelor depete o anumit valoare, atunci putem
concluziona c nu avem o singur populaie (ipoteza de nul), ci mai multe, mediile grupurilor provenind din
populaii cu medii distincte (cf. ipotezei cercetrii). Dac, dimpotriv, mediile eantioanelor comparate sunt
apropiate, atunci vom concluziona c ele nu provin din populaii diferite, ci dintr-una singur (cf. ipotezei de
nul).

Fundamentarea procedurii de calcul ANOVA
11


Esena procedurii de calcul pentru ANOVA se bazeaz pe o dubl estimare a dispersiei:

(a) Estimarea dispersiei populaiei de nul pe baza mediei dispersiei grupurilor (variana intragrup)

Atta timp ct nu cunoatem dispersia populaiei (
2
) din care ar putea proveni grupurile, trebuie s
o estimm prin dispersiile celor trei grupuri (s
1
2
, s
2
2
, s
3
2
).
Calculnd media celor trei dispersii vom obine o valoare care estimeaz dispersia pentru cele trei
grupuri luate mpreun (indiferent de metoda de antrenament utilizat). Aceast valoare se consider c
estimeaz dispersia populaiei totale. Deoarece ea se calculeaz pe baza dispersiilor n interiorul grupurilor,
este desemnat n mod uzual prin termenul de intragrup (sau, mai frecvent, prin forma englez: within-
group) i se noteaz cu s
2
intragrup
, fiind calculat cu una dintre formulele urmtoare:

Atunci cnd volumele eantioanelor comparate sunt egale (N
1
=N
2
=N
3
):

grupuri
N
s s s
s
2
3
2
2
2
1
intragrup
2
+ +
=
(formula 3.16)

Atunci cnd grupurile comparate sunt de volum inegal:

3
2
intragrup
3
2
2
intragrup
2
1
2
intragrup
1
intragrup
2
* * * s
df
df
s
df
df
s
df
df
s + + =
(formula 3.17)


unde: df
1
=N
1
-1; df
2
=N
2
-1; df
3
=N
3
-1, iar df
intragrup
=N
subieci
-N
grupuri


(b) Estimarea dispersiei populaiei de nul pe baza dispersiei mediilor grupurilor (variana intergrup)

Mediile celor trei grupuri (eantioane) sunt numere care pot fi analizate ca distribuie n sine, a cror
dispersie (varian) poate fi calculat, fiind o estimare a mprtierii valorilor la nivelul populaiei. Din cauz
c se bazeaz pe mediile grupurilor, aceasta se mai numete i varian intergrupuri (between groups, n
limba englez). ntre variaia acestor medii i variaia valorilor din grupurile analizate, luate mpreun, exist
o legtur care poate fi exprimat pe baza formulei transformate a erorii standard, astfel:

N
M
2
2

=
de unde se deduce M N
2 2
* =
(formula 3.18)

Vom putea utiliza dispersia mediilor celor trei eantioane pentru a estima dispersia populaiei totale
(vezi exemplul de mai jos). Aceasta se numete estimarea varianei intergrupuri, notat cu s
2
intergrup
.
Dac nlocuim n expresia de mai sus expresia de calcul a dispersiei (formula 3.17), obinem:


11
Metoda de calcul pe care o vom prezenta aici (bazat pe dispersie) nu este singura posibil. n multe manuale de
statistic este utilizat metoda sumei ptratelor, care se bazeaz pe scorurile brute, fr utilizarea parametrilor
distribuiei. Am preferat aceast metod deoarece ni se pare mai intuitiv, pe de o parte, iar pe de alt parte, deoarece
poate fi aplicat i n cazul n care nu avem distribuia scorurilor brute, ci doar parametrii grupurilor comparate. Fiecare
metod are avantaje i dezavantaje, dar n esen, ele conduc la acelai rezultat.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
49

(formula 3.19)



unde m
i
este media performanei din fiecare grup, M este media celor trei grupuri luate mpreun, iar
n
i
este numrul subiecilor din fiecare grup, iar df
intergrup
se calculeaz ca numrul grupurilor-1.
Ca urmare, pentru o situaie cu trei grupuri, formula desfurat se scrie astfel:


(formula 3.19)


unde: m
1
, m
2
, m
3
sunt mediile celor trei grupuri, n
1
, n
2
, n
3
, sunt volumele celor trei eantioane, iar
celelalte valori sunt cele descrise pentru formula anterioar.
Pentru situaia n care grupurile au un numr egal de subieci, formula 3.19 devine:

(formula 3.19)



unde n este numrul subiecilor dintr-un grup.

Ambele tipuri de estimri sunt estimri independente ale varianei populaiei de nul. ns, n timp ce
variana intragrup o estimeaz n mod direct (media varianelor), variana intergrup o msoar indirect
(variana mediilor). Aceasta din urm, variana intergrup, reprezint o estimare a varianei populaiei de nul
numai dac ipoteza de nul este adevrat. Dac ipoteza de nul este fals, ea reflect de fapt msura n care
valorile variabilei independente (factorul) influeneaz mediile variabilei dependente. Pe aceast
particularitate se bazeaz procedura analizei de varian. Raportul dintre cele dou estimri (s
2
intergrup
/s
2
intragrup
)
va tinde s devin cu att mai mare cu ct diferena dintre mediile grupurilor (tradus prin dispersia mediilor)
devine mai mare dect dispersia din interiorul grupurilor (tradus prin media dispersiilor). Acest raport se
numete raport Fisher, dup numele celui care a fundamentat acest tip de analiz
12
, i se scrie astfel:
intragrup
2
intergrup
2
s
s
F =
(formula 3.20)

Interpretarea raportului F

Numitorul raportului F (dispersia intragrup) exprim variabilitatea din interiorul grupurilor supuse
comparaiei. Dac analizm sursele acestei variaii, ea poate proveni din mai multe surse: diferenele
individuale dintre subieci, erorile de msurare ale variabilei dependente, fluctuaia condiiilor n care au fost
efectuate msurrile. Neputnd defini cu exactitate nici sursa i nici contribuia fiecreia, dispersia intragrup
exprim aa numita varian neexplicat, definit generic i ca variana erorii.
n conformitate cu ipoteza cercetrii, grupurile de subieci ar trebui s aib scoruri diferite, fie pentru
au fost supuse unui tratament diferit (n exemplul nostru prin cele trei metode de antrenament), fie ca
urmare a faptului c fac parte din populaii diferite. n acelai timp, subiecii din fiecare grup n parte ar
trebui s aib scoruri similare. Faptul c ele difer totui, nu poate fi explicat prin efectul tratamentului,
motiv pentru care variaia lor este definit drept o varian a erorii.
La rndul lui, variabilitatea numrtorului raportului F este rezultatul manipulrii de ctre cercettor
(atunci cnd operm n context experimental), sau este rezultatul unor grupuri preexistente (atunci cnd
efectum un studiu observaional). i valoarea acestuia este amplificat de variana erorii. Aceasta deoarece,
chiar i n cazul n care tratamentul cu cele trei metode de antrenament ar fi total ineficient, i toate
populaiile ar avea medii identice, mediile grupurilor comparate ar diferi ntre ele, sub efectul unor surse
diverse (erori). Ca urmare, avem dou surse de variabilitate la numrtor i numai una singur la numitor,
fapt care poate fi sintetizat prin urmtoarea expresie:

12
Sir Ronald Aylmer Fisher (1890-1962). Astronom de formaie, interesat de teoria erorilor, s-a remarcat prin
contribuiile sale n teoria statisticii creia, din anul 1922, i-a dat o nou orientare.
intergrup
2
intergrup
2
) ( *
df
M m n
s
i i

=
intergrup
2
3 3
2
2 2
2
1 1
intergrup
2
) ( * ) ( * ) ( *
df
M m n M m n M m n
s
+ +
=
intergrup
2
3
2
2
2
1
intergrup
2
) ( ) ( ) (
*
df
M m M m M m
n s
+ +
=
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
50

intragrup erorii variana
intergrup erorii variana ului tratament efectul +
= F

Atunci cnd ipoteza de nul este adevrat, efectul tratamentului se apropie de zero, iar raportul F
este rezultatul varianei erorii. Dac cele dou variane ale erorii ar fi identice, F ar avea valoarea 1 dar, de
fapt, cele dou variane ale erorii pot avea valori diferite, ceea ce conduce la fluctuaii ale lui F n jurul lui 1.
Atunci cnd efectul tratamentului nu este zero (ipoteza de nul este fals), ne ateptm ca valoarea
raportului F s fie mai mare dect 1. ns pentru a respinge ipoteza de nul valoarea lui F trebuie s fie nu
doar mai mare dect 1, ci mai mare dect un prag critic convenional asumat (alfa), astfel nct probabilitatea
ca un rezultat similar s decurg din ntmplare s fie mai mic sau cel mult egal cu alfa.

Distribuia Fisher

Valorile raportului F (sau testul F) se distribuie ntr-un mod particular, numit distribuia F sau distribuia
Fisher. Ca i distribuia normal, distribuia F este o familie de distribuii, avnd urmtoarele caracteristici:
1. asimetrie pozitiv (tendina valorilor de grupare spre partea stng, cu valori mici);
2. poate lua valori orict de mari;
3. valoarea minim este 0, deoarece decurge din raportul a dou dispersii, iar dispersiile nu pot fi
niciodat negative
13
.
4. forma distribuiei variaz n funcie de o pereche de grade de libertate format din numrul grupelor
(categoriile variabilei independente) i numrul subiecilor.



Imaginea de mai sus reprezint curba F pentru 3 grupuri cu 30 de subieci n total. Distribuia Fisher
are forme distincte n funcie de numrul eantioanelor comparate i volumul acestora.

Calcularea gradelor de libertate

Ca i n cazul distribuiei t, distribuia F se prezint sub o varietate de forme. Distribuia F rezult
dintr-un raport a dou distribuii diferite (s
2
intergpup
i s
2
intragrup
), fiecare cu gradele ei de libertate. Ca urmare, i
schimb forma, n acelai timp n funcie de numrul grupurilor, i de numrul subiecilor din fiecare grup.
n concluzie, vom avea dou grade de libertate, unul pentru dispersia integrup i altul pentru dispersia
intragrup, calculate astfel:
df
intergrup
=numrul grupurilor-1
df
intragrup
=numrul cumulat al subiecilor din toate grupurile-numrul grupurilor

EXEMPLU DE CALCUL

Problema cercetrii:
Avem rezultatele la o edin de tragere la int pentru trei grupuri de cte 6 sportivi, fiecare grup
fiind antrenat cu o alt metod, i vrem s vedem dac exist o legtur ntre nivelul performanei i metoda
de antrenament.


13
n practic, se poate ajunge n situaia ca dispersia intragrup s rezulte a fi mai mic dect dispersia intergup i, ca
urmare, valoarea lui F s fie mai mic dect 0. Acest lucru este determinat de inegalitatea sever a dispersiilor ntre
grupurile analizate.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
51
Ipoteza cercetrii:
Performana sportiv este n legtur cu metoda de antrenament utilizat.
Ipoteza de nul:
Nu exist o legtur ntre performana sportiv i metoda de antrenament.
Fixm criteriile deciziei statistice:
Nivelul =0.05
Stabilim F critic:
df
intergrup
=3-1=2
df
intragrup
=18-3=15
Citim F critic (F
(0.05, 2, 15)
) din tabelul F pentru =0.05:
F
critic
=3.6823 (vezi tabelul anexat)

Not privind utilizarea tabelei pentru distribuiile F

Spre deosebire de tabelele distribuiilor utilizate pn acum, (z i t), pentru interpretarea lui F avem
mai multe tabele, calculate fiecare pentru un anume nivel al lui . Mai nti cutm tabela pentru dorit (s
zicem, =0.05). Apoi citim valoarea critic pentru F la intersecia dintre coloana care reprezint numrul
gradelor de libertate pentru numrul grupurilor (df
B
) cu linia care reprezint numrul gradelor de libertate
pentru volumul total al subiecilor (df
W
). Dac valoarea obinut prin calcul este mai mare sau egal dect
cea tabelar, atunci putem lua decizia de respingere a ipotezei de nul.
O precizare important cu privire la ANOVA, ca test statistic, privete caracterul ei unilateral
(one-tailed). ntr-adevr, spre deosebire de celelalte teste studiate pn acum, ANOVA este interpretat ntr-
o singur direcie i anume, dac mediile grupurilor difer semnificativ ntre ele (au o variaie mai mare
dect cea normal pentru o distribuie aleatoare). Nu putem avea o valoare negativ pentru F i, ca urmare,
testul F este ntotdeauna un test unilateral.

Calculm F pe baza datelor centralizate n tabelul urmtor
14
:

Metoda de antrenament
metoda 1 metoda 2 metoda 3
X1
(puncte)
(X1-m
1
)
2
X2
(puncte)
(X2-m
2
)
2
X3
(puncte)
(X3-m
3
)
2

10 2,79 3 8.00 4 1.36
9 0,45 6 0.02 5 4.70
10 2,79 6 0.02 2 0.68
7 1,77 5 0.68 3 0.02
8 0,11 8 4.70 2 0.02
6 5,43 7 1.36 1 3.34
X 50 13.33 35 14.78 17 10.14
N 6 6 6
M m
1
=8.33 m
2
=5.83 m
3
=2.83 M=(m
1
+m
2
+m
3
)/3=5.66
s
2
2.66 2.96 2.02
(m-M) 2.67 0.17 -2.83
(m-M)
2
7.12 0.02 8.00 (m-M)
2
=15.14

Distribuia valorilor celor trei grupuri poate fi ilustrat grafic astfel:


14
Atenie, acest mod de prezentare a datelor servete calculrii manuale a testului F. ntr-o baz de date SPSS vom avea
cte o nregistrare pentru fiecare subiect, cu dou variabile, una pentru nivelul anxietii i cealalt pentru intensitatea
fumatului, aceasta din urm cu trei valori convenionale, s zicem 1, 2, 3 pentru fiecare nivel de intensitate a fumatului.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
52


Recunoatem n interiorul graficului parametrii fiecrui grup (m i s
2
) precum i media mare (M),
a valorilor individuale din toate grupurile, luate mpreun.
Avnd calculai parametrii celor trei grupuri, putem trece la calcularea raportului F. Mai nti
calculm numrtorul, adic dispersia mediilor celor trei grupuri. Dat fiind faptul c nu cunoatem dispersia
populaiei vom utiliza dispersia eantioanelor, conform formulei 3.19 pentru grupuri egale.
Prin nlocuire cu valorile calculate n tabelul de mai sus, obinem:





Mai departe, calculm numitorul raportului F (dispersia intragrup), prin nlocuirea valorilor calculate
pentru dispersiile din interiorul celor trei grupuri luate separat, n formula 3.16:





n acest caz df
intragrup
=nr. grupurilor, pentru c N1=N2=N3
n final, calculm raportul F:

94 . 5
64 . 7
42 . 45
intragrup
2
intergrup
2
= = =
s
s
F


Valoarea astfel obinut o comparm cu F critic gsit anterior n tabel. Constatm c F calculat
(5.94), este mai mare dect F critic (3.6823).

Decizia statistic:

Respingem ipoteza de nul i acceptm ipoteza cercetrii: Nivelul performanei prezint o variaie n
legtur cu metoda de antrenament utilizat.


Mrimea efectului pentru testul F

La fel ca i n cazul testelor statistice introduse anterior, valoarea testului F nu este informativ n
sine. Mrimea lui F indic doar dect de cte ori este cuprins dispersia intragrup n dispersia intergrup.
Pentru a decide dac acest raport este mare sau mic trebuie s calculm un indice al mrimii efectului. n
cazul analizei de varian sunt utilizai n mod obinuit doi indici de mrime a efectului: eta ptrat (
2
) i
omega ptrat (
2
). Spre deosebire de indicele d (Cohen), care este un indice al diferenei, eta ptrat i omega
64 . 7
3
02 . 2 96 . 2 66 . 2
2
3
2
2
2
1
intragrup
2
=
+ +
=
+ +
=
grupuri
N
s s s
s
42 . 45 57 . 7 * 6
2
00 . 8 02 . 0 12 . 7
* 6 intergrup
2
= =
+ +
= s
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
53
ptrat sunt indici ai asocierii
15
(B. Cohen, 2001), similari cu coeficientul de corelaie, pe care l vom analiza
analiza n alt loc.
Vom prezenta aici doar indicele eta ptrat, dat fiind faptul c este accesibil cu metoda pe care am
utilizat-o pentru calcularea lui F
16
. Formula de calcul pentru
2
este urmtoarea:

intragrup intergrup
intergrup 2
df F+

=
df
F df
(formula 3.21)

n esen, indicele eta ptrat descrie procentul din variana (mprtierea) variabilei dependente care
este explicat de variana variabilei independente.
Nu exist o gril unic de interpretare a indicelui eta ptrat dar, prin similitudine cu coeficientul
de corelaie, putem prelua sugestiile unor autori diferii, ale cror opinii sunt, n linii mari, convergente.
Redm aici, pentru comparaie, dou variante de interpretare pentru eta ptrat:

Varianta de interpretare a lui Hopkins (2000):
0.9-1 Aproape perfect, descrie relaia dintre dou variabile practic indistincte
0.7-0.9 Foarte mare, foarte ridicat
0.5-0.7 Mare, ridicat, major
0.3-0.5 Moderat, mediu
0.1-0.3 Mic, minor
0.0-0.1 Foarte mic, neglijabil, nesubstanial

Varianta de interpretare a lui Davis (citat de Kotrlik i Williams, 2003)
0.70 asociere foarte puternic
0.50 0.69 asociere substanial
0.30 0.49 asociere moderat
0.10 0.29 asociere sczut
0.01 0.09 asociere neglijabil

Vom observa c, n ambele variante, pentru a fi important indicele eta ptrat trebuie s ating cel
puin valoare de 0.50, ceea ce nseamn c 50% din varian variabilei dependente este explicat de variabila
independente.
Pentru datele exemplului nostru, indicele de mrime a efectului este:

44 . 0
15 94 . 5 2
94 . 5 2
df F
intragrup intergrup
intergrup 2
=
+

=
+

=
df
F df


La rndul lui, Cohen (1988) a dezvoltat un indice de mrime a efectului (f) pentru ANOVA, care
atenueaz ceea ce se consider a fi tendina de supraestimare a mrimii efectului de ctre indicele eta
ptrat:

2
2
1

= f (formula 3.22)

Pentru rezultatul din exemplul nostru:

88 . 0
44 . 0 1
44 . 0
=

= f


15
Fr a intra n amnunte, facem precizarea c indicii de mrime a efectului pot fi transformai cu uurin unii ntr-
alii, cu ajutorul unor formule de conversie.
16
Programele statistice ofer, de regul, posibilitatea de a calcula ambii indici ai puterii
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
54
n conformitate cu recomandrile lui Cohen, valorile lui f se interpreteaz astfel: efect mic=0.10;
efect mediu=0.25; efect mare=0.40. Interpretarea mrimii efectului trebuie fcut cu precauie i modestie
(Runyon et. al, 1996). Un indice redus de mrime a efectului indic, desigur, o slab intensitate a relaiei
dintre variabila independent i variabila dependent. Cu toate acestea, uneori, chiar i o relaie slab ntre
variabile poate fi important pentru cercetarea tiinific din tiinele sociale i umane. Comportamentul
uman este supus unor surse extrem de complexe de determinri, fapt care face aproape imposibil
controlarea (eliminarea) unora dintre surse, pentru stabilirea exact a efectului uneia anume. Acest lucru face
inevitabil prezena unei anumite cantiti de erori de msurare n toate cercetrile psihologice. n aceste
condiii, uneori, chiar i un efect mic poate fi considerat un ctig important din punct de vedere tiinific,
chiar dac este puin relevant din punct de vedere practic. De exemplu, un rezultat semnificativ statistic, dar
cu un indice sczut de mrime a efectului, poate constitui punctul de plecare al unei noi cercetri, n care
efectele colaterale ale unor variabile s fie mai bine controlate (eliminarea erorii), ceea ce poate conduce la
evidenierea unei relaii mai puternice ntre variabilele studiate.

Dac privim cei doi indici ai mrimii efectului calculai pentru exemplul dat, putem aprecia c, n
contextul datelor cercetrii noastre, 44% din variaia performanei de instruire este explicat de utilizarea
metodelor de antrenament (ceea ce nseamn, implicit, c un procent de 56% provine din alte surse). n
conformitate cu recomandrile de interpretare pentru eta ptrat, putem afirma c relaia dintre metodele de
antrenament utilizate i performan este moderat sau medie. n acelai timp, indicele f al lui Cohen
indic un nivel ridicat al mrimii efectului. Nu trebuie s privim aceste dou aprecieri ale mrimii efectului
ca fiind contradictoirii, ci ca pe dou perspective asupra aceleiai realiti.


Analiza post-hoc

Graficul alturat prezint variaia mediilor
performanei celor grupuri de sportivi. Aa cum se
observ, nivelul performanei are nivelul cel mai ridicat
pentru prima metod de antrenament (8.33), i din ce n
ce mai reduse la urmtoarele dou (5.83; 2.83).

Testul ANOVA ne ofer o imagine global a
variaiei mediilor fr s ne spun nimic cu privire la
sursa de provenien acesteia, i nici n ce msur
difer mediile grupurilor luate dopu ct dou. n
exemplul nostru valoarea obinut pentru F ar putea
decurge doar prin contribuia unui singur grup (de
ex., cei antrenai cu metoda 1), celelalte grupuri avnd
o contribuie minor sau inexistent. Cercettorul
poate fi ns interesat care dintre grupuri difer ntre ele, i n ce sens.
Pentru a rezolva aceast problem se efectueaz aa numitele comparaii multiple, pe baza unor teste
statistice denumite post-hoc, pentru c, n mod normal, acestea se calculeaz dup aplicarea procedurii
ANOVA. Printre cele mai frecvent utilizate sunt testele: Scheffe, Tukey i Bonferoni (desigur, se utilizeaz
unul sau altul dintre ele, la alegere). Nu vom intra n detalii teoretice i de calcul cu privire la aceste teste.
Fiecare are avantajele i dezavantajele sale. Important aici este s nelegem c testele post-hoc se
interpreteaz n mod similar testului t pentru diferena mediilor pentru eantioane necorelate, calculate astfel
nct s ia, att ct se poate, msuri de precauie mpotriva excesului de eroare de tip I menionat anterior.
Este important de reinut, de asemenea, faptul c analiza post-hoc este practicat, de regul, numai dac a
fost obinut un rezultat semnificativ pentru testul F
17
. Aceasta nseamn c analiza post-hoc nu poate fi
utilizat ca substitut pentru testul t efectuat n mod repetat. Ca urmare, n practic, analiza de varian va
cuprinde dou faze: prima, n care se decide asupra semnificaiei testului F, i a doua, n cazul c acest raport
este semnificativ, n care se analizeaz comparativ diferenele dintre categoriile analizate, pe baza unui test
post- hoc.
n ce privete calcularea testelor post-hoc menionate mai sus, vom prezenta modul lor de calcul n
seciunea dedicat programului SPSS.

17
Cu toate acestea, exist autori care consider c nimic nu ne mpiedic s calculm testele post-hoc chiar dac testul F
s-a finalizat cu admiterea ipotezei de nul.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
55

Publicarea rezultatului testului F (ANOVA)

n raportul de publicare pentru ANOVA vor fi descrise grupurile (categoriile) comparate, mediile
lor, valoarea testului F cu numrul gradelor de libertate i pragul de semnificaie al testului. La acestea se
adaug indicele de mrime a efectului. ntr-o manier narativ, rezultatul obiinut pe exemplul de mai sus,
poate fi prezentat astfel:
A fost analizat performana n tragerea la int a trei grupuri de sportivi, antrenai cu metode
diferite. Mediile performanei pentru cele trei grupuri au fost 8.33, 5.83, respectiv 2.83. Analiza de varian
unifactorial a relevat o diferen semnificativ ntre aceste medii, F (2, 15)=6; p0.05. Mrimea efectului
apreciat cu indicele eta ptrat indic un efect moderat (
2
=0.44), n timp ce indicele f al lui Cohen indic
un efect mare (f=0.88).
Atunci cnd vom calcula ANOVA cu ajutorul unui program care ne va oferi i comparaiile multiple
ntre grupurile comparate (analiza post-hoc), la descrierea de mai sus vom aduga i comparaiile grupurilor,
dou cte dou, care exprim diferenele directe dintre grupurile supuse comparaiei, explicnd analitic
sursele semnificaiei raportului F global.



Avantajele ANOVA

Utilizarea ANOVA pentru testarea ipotezelor n cazul unui numr mai mare de grupuri (eantioane)
prezint dou avantaje. Primul, ine de ceea ce am precizat deja, i anume faptul c eliminm riscul cumulrii
unei cantiti prea mari de eroare de tip I, prin efectuarea repetat a testului t. Al doilea, rezult din faptul c
avem posibilitatea s punem n eviden diferene semnificative ntre mediile mai multor grupuri, chiar i
atunci cnd nici una dintre ele nu difer semnificativ una de cealalt (testul t).
Dei, n mod normal, analiza de varian este utilizat doar n situaia n care se dorete testarea
diferenei dintre mediile a mai mult de dou grupuri independente, ea d rezultate echivalente i n cazurile
n care exist numai dou grupuri (singura diferen fiind valoarea calculat a testului, nu i nivelul lui p).
Utilizarea testului t pentru testarea diferenei dintre dou medii este, totui, o metod mult mai direct, mai
uor de aplicat i de neles, dect analiza de varian.

De exemplu, dac lum n considerare datele din tabelul alturat, n care avem o
variabil dependent distribuit pe dou valori ale unei variabile independente,
valoarea testului t este 3.13, iar valoarea testului F este 9.82 (ceea ce reprezint
ptratul valorii t). n acelai timp, rezultatul la ambele teste este semnificativ pentru
aceeai valoare a lui p (0.035).





Condiii pentru utilizarea testului ANOVA

Utilizarea analizei de varian unifactoriale presupune ndeplinirea urmtoarelor condiii:
o independena eantioanelor (grupurilor supuse comparaiei);
o normalitatea distribuiei de eantionare, n conformitate cu teorema limitei centrale;
o absena valorilor extreme (outliers);
o egalitatea varianei grupurilor comparate (denumit homoscedasticitate).

Atunci cnd una sau mai multe dintre aceste condiii nu sunt ntrunite, se poate adopta una dintre
soluiile urmtoare:
o renunarea la ANOVA n favoarea unei prezentri descriptive (soluie care ne lipsete de
posibilitatea unei concluzii testate statistic);
o transformarea variabilei dependente astfel nct s dobndeasc proprietile necesare
(printre metodele uzuale, citm aici doar logaritmarea sau extragerea radicalului din toate
valorile variabilei dependente);
v.
indep.
v.
dep.
1 9
1 5
1 7
2 14
2 15
2 10
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
56
o transformarea variabilei pe o alt scal de msurare i aplicarea altui test statistic (de
exemplu, prin transformarea pe o scal nominal, se poate aplica testul neparametric chi-
ptrat sau, prin transformarea pe o scal ordinal, se poate aplica testul neparametric
Kruskal-Wallis, ambele urmnd a fi tratate mai departe).


Sarcina de lucru 2.5





Un psiholog dorete s testeze ipoteza c preferina pentru o anumit varietate de bomboane este n
legtur cu culoarea acestora (verde, rou, galben). n acest scop alege 18 subieci, pe care i mparte n trei
grupuri, fiecare grup primind cte un bol cu bomboane de o anumit culoare. Grupurile au de ndeplinit o
sarcin plictisitoare timp de 30 de minute. Dup acest timp, psihologul numr cte bomboane a mncat
fiecare subiect din cele trei grupuri i construiete tabelul urmtor.








1. Gsii F critic pentru =0.05
2. Calculai F
3. Care este decizia statistic n acest caz
4. Prezentai rezultatul n format APA

Verificai rspunsurile corecte.



Testul t pentru diferena dintre medii pentru eantioane
dependente



Testele de comparaie prezentate pn aici (t pentru eantioane independente i ANOVA) au vizat
situaii n care mediile comparate aparineau unor grupuri compuse din subieci diferii (motiv pentru care
sunt denumite ca independente, sau necorelate). Din cauz c acest model de cercetare presupune
comparaii ntre subieci, el se mai numete i model intersubiect (between subject design).
Un alt model uzual n cercetarea psihologic vizeaz comparaia a dou (sau mai multe) valori
msurate pe aceiai subieci. Iat cteva ilustrri tipice:
a) Situaia n care o anumit caracteristic psihologic se msoar naintea unei condiii i
apoi, dup aciunea acesteia. Exemple: (i) evaluarea nivelului anxietii nainte i dup un program de
desensibilizare; (ii) evaluarea performanei cognitive a unui lot de subieci, nainte i dup procedura de
ascensiune simulat n camera barometric la 5000m; (iii) evaluarea timpului de reacie nainte i dup
ingerarea unei substane. Deoarece se bazeaz pe msurri repetate ale unei variabile pe aceiai subieci,
acest model de cercetare este cunoscut ca modelul msurrilor repetate (repeated-measures design).
b) Situaia n care cercettorul utilizeaz dou condiii de investigare, dar plaseaz aceiai
subieci n ambele condiii. De exemplu, ntr-un studiu asupra efectelor unui anumit tip de stimulare, se pot
msura undele cerebrale, simultan n cele dou emisfere cerebrale. Fiind vorba despre msurarea unor
variabile care sunt evaluate concomitent, la aceiai subieci, acesta este un model intrasubiect (within-
subjects design).
Verde Rou Galben
2 3 2
1 4 0
1 5 2
0 6 1
3 4 3
2 6 1
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
57
c) Cazul n care natura situaiei experimentale nu permite utilizarea acelorai subieci pentru
cele dou msurri, de exemplu, n contextul unei intervenii terapeutice care are un efect pe termen foarte
lung. n acest caz este se poate gsi pentru fiecare subiect corespunztor condiiei iniiale un subiect
similar, corespunztor condiiei finale, constituind astfel perechi de subieci aparinnd fiecare unui grup
distinct, ntre care se poate face o comparaie direct. Ca urmare, dei diferii, vom trata cei doi subieci din
pereche ca i cum ar fi aceeai persoan. Sau, ntr-un alt context, putem compara subieci care sunt ntr-un
anumit tip de relaie, interesndu-ne diferena dintre ei sub o anumit caracteristic. De exemplu, ne poate
interesa daca ntre nivelul de inteligen dintre bieii i fetele care formeaz cupluri de prieteni exist o
anumit diferen. n acest caz, dei avem dou eantioane distincte, fiecrui subiect din eantionul de biei
i corespunde un subiect din eantionul de fete, constituirea celor dou eantioane fcndu-se pe baza relaiei
de prietenie dintre ei. n aceeai categorie se afl comparaiile ntre perechi de gemeni, sau cele dintre soi. n
astfel de cazuri, avem de a face cu aa numitul model al eantioanelor perechi (matched pairs design).

Indiferent de tipul lor, toate modele prezentate mai sus au un obiectiv similar, acela de a pune n
eviden n ce msur o anumit condiie (variabila independent) corespunde unei modificri la nivelul unei
caracteristici psihologice oarecare (variabila dependent). Vom observa c, n toate exemplele evocate,
variabila independent este una de tip nominal, dihotomic (nainte/dup; semestru/sesiune; grup de
cercetare/grup de control; biat/fat; so/soie, etc.), n timp ce variabila dependent se msoar pe o scal
cantitativ, de interval sau de raport. De asemenea, trebuie s consemnm faptul c n ambele situaii se
utilizeaz msurtori de acelai fel, cu acelai instrument, care produce valori exprimate n aceeai unitate de
msur, ntre care se poate efectua un calcul direct al diferenei.
Pentru descrierea testului statistic adecvat acestor cazuri s ne imaginm urmtoarea situaie
generic de cercetare: Un grup de pacieni cu tulburri de tip anxios sunt inclui ntr-un program de
psihoterapie, avnd drept scop ameliorarea nivelului anxietii. nainte de nceperea programului a fost
aplicat o scal de evaluare a anxietii. Acelai instrument a fost aplicat din nou, dup parcurgerea
programului de terapie.
Aici s-ar putea pune ntrebarea de ce nu considerm valorile rezultate din cele dou msurtori ca
fiind independente, urmnd s utilizm testul t pentru acest tip de date? Exist mai multe argumente n
favoarea respingerii acestei variante simplificatoare:
a) Utilizarea valorilor perechi ofer informaii mai bogate despre situaia de cercetare. n modele
de cercetare de tip nainte/dup ea capt chiar valene de experiment.
b) Testul t pentru eantioane independente surprinde variabilitatea dintre subieci, n timp ce
testul t pentru eantioane dependente (msurri repetate) se bazeaz pe variabilitatea intra-
subiect, aceea care provine din diferena valorilor de la o msurare la alta, la nivelul fiecrui
subiect n parte.
c) Dac exist o diferen real ntre subieci, atunci testul diferenei dintre valorile perechi are
mai multe anse s o surprind dect cel pentru valori independente (puterea unui model de
cercetare intra-subiect este mai mare dect n modelul inter-subieci).

Revenind la tema de cercetare pe care am enunat-o mai sus, dei avem aceiai subieci, i n primul
i n al doilea caz, ne vom raporta la aceasta situaie ca i cum ar fi dou eantioane. Unul, cel al subiecilor
care nu au urmat nc un program de terapie, iar celalalt, al subiecilor care au urmat un astfel de
program. Datorit faptului c cele dou eantioane sunt formate din aceiai subieci, ele se numesc
dependente sau corelate.
n acest tip de studiu, obiectivul testului statistic este acela de a pune n eviden semnificaia
diferenei dintre mediile anxietii n cele dou momente. Cea mai simpl procedur de calcul este metoda
diferenei directe. Pentru aceasta, calculm diferenele fiecrei perechi de valori din cele dou distribuii (X2-
X1), obinnd astfel o distribuie a diferenelor, pe care o vom nota cu D.

Logica ipotezei de nul

Dac programul de terapie ar fi total ineficient, trebuie s presupunem c diferenele pozitive le-ar
echilibra pe cele negative ceea ce, la un numr mare de eantioane ipotetice (formate din acelai numr de
subieci), am obine o medie a diferenelor egal cu 0. Ca urmare, ipoteza statistic presupune c media
diferenelor la nivelul populaiei de nul este 0. Aceasta nseamn c testul t trebuie s demonstreze c media
diferenelor msurate pe eantionul cercetrii este suficient de departe de 0, pentru a respinge ipoteza de nul
i a accepta ipoteza cercetrii. De aici rezult c putem reduce metoda de calcul la formula testului t pentru
un singur eantion, pornind de la formula cunoscut a testului t,
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
58

m
s
m
t

=

Numitorul, eroarea standard a diferenei dintre medii, se calculeaz cu formula:
N
s
s
D
eD
= (formula 3.23 )

Ca urmare, formula pentru testul t al diferenei dintre medii dependente este:

eD
D D
s
m
t

= (formula 3.24)
unde m
D
este media distribuiei D (a diferenelor dintre cele dou msurri), D

este media populaiei de nul


a diferenelor dintre eantioane de acelai fel, iar s
eD
este eroarea standard a distribuiei D (mprtierea
distribuiei D).

Exemplu analitic de calcul

Problema cercetrii: Se poate obine o reducere a reaciilor anxioase prin aplicarea unei anumite
proceduri de psihoterapie?
Ipoteza cercetrii (H
1
):
Pentru test bilateral Programul de psihoterapie are un efect asupra anxietii.
Pentru test unilateral Programul de psihoterapie reduce intensitatea reaciilor de tip anxios.
Ipoteza de nul (H
0
):
Pentru test bilateral Programul de psihoterapie nu are nici un efect asupra anxietii.
Pentru test unilateral Programul de psihoterapie nu reduce nivelul anxietii.

Populaiile cercetrii:
Populaia 1 Subiecii cu anxietate ridicat care nu au urmat un program de terapie
Populaia 2 Subiecii cu anxietate ridicat care au urmat un program de terapie
Ipoteza cercetrii afirm c ele sunt diferite (m
1
-m
2
0), n timp ce ipoteza de nul afirm c ele sunt
identice (m
1
-m
2
=0).
Eantion: Un singur grup de subieci cu probleme anxioase (N=8) al crui nivel de anxietate este
evaluat nainte i dup programul de terapie.

Criteriile deciziei statistice

Alegem modul de testare a ipotezei, bilateral.
Fixm, convenional, nivelul =0.01. S spunem c preferm acest nivel deoarece costurile de
implementare a programului sunt destul de mari, iar pacienii trebuie convini c merit timpul i banii
18
.
Cutm t critic pentru =0.01 n tabelul distribuiei t pentru 7 grade de libertate (N-1). Tabelul ne d
valorile pentru un test unilateral (n dreapta curbei). Pentru testul bilateral trebuie mai nti s njumtim
valoarea aleas pentru (0.01/2=0.005). n continuare, cutm valoare aflat la intersecia coloanei gradelor
de libertate (7) cu coloana lui =0.005 i citim t critic= -3.49. i atribuim semnul minus, deoarece ne
ateptm ca nivelul anxietii s scad dup aplicarea programului de terapie.

Datele cercetrii:
nainte de
program
(X1)
Dup
program
(X2)
D
(X2-X1)
D-m
D
(D-m
D
)
2

6 6 0.00 0.50 0.25
8 7 -1.00 -0.50 0.25

18
Am optat pentru alfa=0.01 doar pentru a varia exemplele de calcul, dar in practic se utilizeaz n mod obinuit
alfa=0.05.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
59
nainte de
program
(X1)
Dup
program
(X2)
D
(X2-X1)
D-m
D
(D-m
D
)
2

10 11 1.00 1.50 2.25
9 8 -1.00 -0.50 0.25
5 5 0.00 0.50 0.25
6 5 -1.00 -0.50 0.25
11 10 -1.00 -0.50 0.25
5 4 -1.00 -0.50 0.25
X 60 56 -4 (D-m
D
)
2
=4
N 8 8 8
N
X
m

=

7.50 7.00 m
D
=-0,5


1
) (
2

=
N
m D
s
D
D


75 . 0
7
4
= =
D
s

Not: n principiu, sub aspectul procedurii statistice, nu prezint nici o importan dac utilizm diferena
X1-X2 sau X2-X1. Ordinea depinde de ceea ce dorete s scoat n eviden cercettorul. Important este ca,
n final, s interpreteze corect rezultatul obinut, n funcie de semnul diferenei i semnificaia concret a
acestuia.

Introducem valorile n formula 3.24 i obinem:





Raionamentul decizional

Comparm t calculat cu t critic pentru =0.01 bilateral: -2,08 < -3.49
Decizia statistica: acceptm ipoteza de nul. Probabilitatea de a se obine un nivel al anxietii
mai redus doar ca urmare a jocului hazardului, este mai mare dect nivelul alfa pe care ni l-am
impus drept criteriu de decizie (adic mai mic de 1%).
Decizia cercetrii: datele nu sprijin ipoteza cercetrii. Ca urmare, nu putem accepta c efectul
obinut se datoreaz programului de terapie. Programul de terapie nu reduce n mod
semnificativ nivelul anxietii.

Mrimea efectului

Indicele de mrime a efectului (d - Cohen) pentru diferena dintre medii dependente se
calculeaz cu formula lui Cohen:

D
s
m m
d
1 2

= (formula 3.25)

Interpretarea indicelui d se face n conformitate cu recomandrile lui Cohen, astfel: 0.20, efect mic;
0.50, efect mediu, 0.80, efect mare.
Pentru exemplul nostru, indicele de mprime a efectului este:

66 . 0
75 . 0
50 . 7 7
1 2
=

=
D
s
m m
d

Valoarea obinut indic o diferen medie-mare sau relativ important ntre mediile comparate
(semnul lui d nu are relevan). Aa cum se vede, este posibil s obinem un indice al mrimii efectului
08 . 2
8 / 75 , 0
5 , 0
=

= t
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
60
mediu spre ridicat n condiiile unui rezultat nesemnificativ statistic. Acest lucru trebuie s ne atrag odat
n plus atenia asupra faptului c cele dou proceduri (testul statistic i mrimea efectului) vizeaz aspecte
diferite. Pentru exemplul nostru, vom concluziona c efectul terapiei este relativ important, dar nu are o
putere suficient penmtru a atinge pragul de semnificaie pe un lot de numai 8 subieci. Este mai mult dect
probabil c pe un eantion mai mare rezultatul ar atinge i pragul de semnificaie statistic.

Limitele de ncredere pentru diferena dintre medii

La fel ca i n cazul testului t pentru eantioane independente, se pune problema generalizrii
rezultatului la nivelul populaiei, cu alte cuvinte, care este intervalul n care ne putem atepta s se afle
diferena dintre medii, pentru variabilele studiate. Pentru o estimare cu o precizie de 99%, conform cu nivelul
alfa ales, limitele critice pentru diferena dintre medii sunt cele care corespund valorilor lui p=0,005, de o
parte i de alta a curbei t (3.4998). Formula de calcul pentru intervalul de ncredere deriv, i n acest caz,
din formula 3.24:



de unde rezult formula pentru calculul limitelor de ncredere ale mediei diferenei:

eD crit D D
s t m * = (formula 3.26)

n condiiile studiului nostru, decizia statistic de acceptare a ipotezei de nul a infirmat ipoteza
cercetrii dar analiza intervalului de ncredere poate ajuta la nelegerea mai bun a situaiei. nlocuind
valorile corespunztoare studiului nostru, obinem urmtoarele limite de ncredere:
limita inferioar: D

= -0.5-(-3.4998)*0.26= +0.40
limita superioar D

= -0.5+(-3.4998)*0.26=-1.4

Rezultatul arat c media diferenei la nivelul populaiei se afl, cu o probabilitate de 0.99 (sau
99%), ntre o limit inferioar=+0.40 i o alta superioar=-1.40. n acest caz, inferior se refer la o valoare
plasat n jumtatea stng a curbei t, unde valori inferioare sunt cele care se apropie de 0, care este media
diferenei de nul. Aa cum se constat, intervalul de ncredere cuprinde i valoarea 0, care exprim ipoteza de
nul (diferen nul). Acest lucru este concordant cu decizia statistic, n urma creia am admis ipoteza de nul
i am respins ipoteza cercetrii. O privire mai atent asupra datelor ar putea s i arate cercettorului c unul
dintre subieci a obinut un scor mai mare al anxietii dup terapie dect nainte de terapie, fapt care este
nefiresc i ar trebui analizat. Acest caz se pare ca a fost decisiv n neatingerea pragului de semnificaie. O
reluare a procesului de diagnostic psihologic cu subiectul n cauz poate, eventual, conduce la concluzia c
problemele lui sunt de alt natur (de ex., sufer de depresie i nu de anxietate) i c, n cazul su, terapia
respectiv nu are nici un efect. Refacerea calculelor cu scoaterea din eantionul de cercetare a acestui subiect
(numai dac acest lucru este bine motivat), va conduce, cu siguran, la un interval mai restrns de ncredere
pentru diferena dintre medii, ceea ce va nsemna o precizie de estimare mai ridicat i, implicit, poate, la
atingerea pragului de semnificaie.
Nu trebuie s omitem, de asemenea, faptul c n exemplul nostru este vorba de un eantion foarte
mic, iar eantioanele mici conduc la valori ridicate ale erorii standard a mediei i, prin aceasta, la intervale de
ncredere largi. n astfel de situaii riscul erorii de tip II (imposibilitatea de a pune n eviden diferene reale,
rezultat fals negativ) este mai mare. Dar, atunci cnd obinem rezultate semnificative pe eantioane mici, ele
pot prezenta un nivel de ncredere cu att mai mare. n acelai timp, eantioanele mici sunt instabile (n
exemplul nostru, o singur diferen pozitiv poate schimba rezultatul cercetrii), fapt care impune cel puin
replicarea cercetrii, pentru mai mult siguran.

D e
D D
s
m
t

=
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
61
Publicarea rezultatului

La publicare se vor meniona: volumul eantionului, mediile variabilei dependente n raport cu
valorile variabilei independente, valoarea testului t, pragul de semnificaie, tipul de test (unilateral sau
bilateral), mrimea efectului i limitele de ncredere ale diferenei. Avnd n vedere faptul c, uzual, testele
statistice se efectueaz bilateral, se poate meniona numai cazul n care testul este unilateral, eventual cu
explicarea motivului pentru care a fost preferat aceast soluie.
Pentru exemplul de mai sus, o prezentare narativ a rezultatului ar putea arta astfel:
Un eantion de 8 subieci cu probleme de anxietate au participat la un program de terapie
anxiolitic. Nivelul anxietii (msurat cu o scal specific) a fost evaluat nainte i dup programul de
terapie. S-a constatat o reducere a nivelului anxietii de la o medie de 7.50 la 7.0, dup aplicarea terapiei.
Diferena nu a atins pragul semnificaiei statistice t(7)=-2,08, p<0.01, pentru =0.01 bilateral, cu limitele
de ncredere (99%) cuprinse ntre +0.40 i -1.40. Indicele d (Cohen) al mrimii efectului (0.66) arat totui
existena unei diferene relativ importante ntre mediile celor dou momente. Absena semnificaiei statistice
se datorez, foarte probabil, volumului foarte redus al eantionului i existenei unui scor extrem al unuia
dintre subieci. n concluzie, rezultatele ncurajeaz utilizarea n continuare a metodei terapeutice i
reevaluarea eficienei ei pe un eantion mai mare.


Sarcina de lucru nr. 2.6





Un psiholog i propune s scoat n eviden efectul stresului temporal (criza de timp) asupra
performanei de operare numeric. n acest scop, selecteaz un eantion de subieci crora le cere s
efectueze un test de calcule aritmetice n dou condiii experimentale diferite: prima, n condiii de timp
nelimitat, cu recomandarea de a lucra ct mai corect; a doua, n condiii de timp limitat, cu condiia de a lucra
ct mai repede i mai corect n acelai timp.
Rezultatele celor dou reprize sunt cele din tabelul alturat.












S se rezolve urmtoarele sarcini:

1. Formularea ipotezei cercetrii i a ipotezei de nul
2. Stabilirea valorii t critic pentru =0,05 bilateral
3. Calcularea testului t
4. Decizia statistic
5. Decizia cercetrii
6. Formularea concluziei n raportul de cercetare (format APA)

Verificai rspunsurile corecte.





Fr
criz de timp
Cu
criz de timp
67 65
79 73
83 70
80 85
99 93
95 88
80 72
100 69
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
62
Testarea asocierii dintre dou variabile msurate pe aceiai subieci



Coeficientul de corelaie liniar (Pearson)


Am utilizat testul t pentru eantioane dependente pentru a evalua semnificaia diferenei dintre dou
medii, rezultate n urma msurrii unei variabile cantitative, pe un eantion de subieci (sau de subieci
pereche) aflat n dou situaii (condiii) diferite. Cele dou condiii reprezint valorile variabilei
independente, iar cercettorul este interesat s afle dac exist o diferen semnificativ ntre mediile
rezultate n fiecare dintre cele dou condiii. n concluzie, problema cercetrii ntr-o situaie de acest gen este
axat pe ideea de diferen ntre perechile de valori.
n practica cercetrii exist fie situaii n care nu suntem interesai de diferena dintre dou medii
rezultate pe acelai grup de subieci, ci de gradul de asociere dintre dou variabile msurate pe acelai grup
de subieci. fiecare variabil reprezentnd altceva. n acest caz cercettorul dorete s afle dac exist o
legtur ntre variaia valorilor unei variabile n raport cu cealalt variabil.
Pentru a nelege mai bine diferena dintre cele dou abordri statistice, s ne uitm puin n tabelele
de date de mai jos:

(a) n cazul diferenei dintre medii, valorile celor dou distribuii (v1 i
v2) pentru un eantion de 5 subieci sunt condensate prin mediile lor (7 i 5), a
cror diferen (7-5=2) este testat din punct de vedere al semnificaiei statistice.




(b) n cazul corelaiei dintre valorile celor dou distribuii se urmrete
punerea n eviden a modului n care se asociaz valorile perechi, adic n ce
msur exist o legtur ntre fiecare valoare i perechea ei.




ntr-o relaie de asociere ambele variabile sunt dependente una de alta, iar valorile lor pot fi
exprimate, fie cu aceeai unitate de msur, fie cu uniti de msur diferite. Iat cteva exemple de acest
gen:
exist o legtur ntre numrul atitudinilor pozitive pe care le manifest oamenii i numrul
atitudinilor pozitive pe care le primesc din partea celor din jur?
exist o legtur ntre timpul de reacie i nivelul extraversiunii, ca trstur de
personalitate?
exist o legtur ntre greutate i nlime?
exist o relaie ntre frecvena pulsului oferilor i viteza cu care conduc maina?
exist o relaie ntre numrul orelor de studiu la statistic i punctajul obinut la evaluri?

n toate aceste situaii avem cte dou variabile, ambele fiind dependente una n raport cu alta, n
sensul c este vizat existena unei concordane n variaia reciproc a valorilor celor dou variabile, iar testul
statistic utilizat se bazeaz pe calcularea unui coeficient de corelaie.
nainte de a fi un concept statistic termenul de corelaie este un cuvnt uzual n limbajul cotidian. n
esen, el exprim o legtur ntre anumite aspecte ale realitii, aa cum este ea reflectat n planul
observaiei directe. De exemplu, o parcare plin cu maini ne sugereaz c magazinul alturat este plin cu
cumprtori, ntre numrul de maini din parcare i numrul de cumprtori existnd o anumit corelare.
La nivel statistic, corelaia exprim o legtur cantitativ sistematic ntre valorile a dou variabile perechi,
msurate pe subieci aparinnd aceluiai eantion de cercetare. Coeficientul de corelaie este doar una dintre
procedurile statistice prin care se pune n eviden corelarea dintre variabile. n termeni generali, chiar i
testele t, prezentate anterior, pun n eviden (co)relaia (legtura) dintre o variabil dependent i valorile
unei variabile independente.
v1 v2
sub 1 7 4
sub 2 9 5
sub 3 8 6
sub 4 6 7
sub 5 5 3
media 7 5
v1 v2
sub 1 7 4
sub 2 9 5
sub 3 8 6
sub 4 6 7
sub 5 5 3
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
63

Corelaia liniar

S presupunem c un grup de studeni au efectuat un test de inteligen bazat pe raionament
abstract/figurativ i un altul, bazat pe raionament verbal/logic. Dac studenii care obin valori mari la
primul test tind s obin valori mari i la cel de-al doilea, avem ceea ce se numete o corelaie pozitiv.
Dac, dimpotriv, studenii care obin valori mari la unul dintre teste tind s obin valori mici la cel de-al
doilea, atunci ne aflm n faa unei corelaii negative. Este evident c exist i posibilitatea ca valorile celor
dou variabile s evolueze absolut independent unele de celelalte, ceea ce indic absena oricrei corelaii.
Precursorul teoretic al coeficientului de corelaie este coeficientul de covarian. El se definete ca
sum a produselor dintre valorile celor dou variabile, raportat la numrul perechilor de valori din cele dou
distribuii:
N
y x
xy

=
*
cov
(formula 3.27)

unde x i y sunt valorile perechi ale celor dou variabile, iar N este volumul eantionului.

Problema pe care o ridic coeficientul de covarian este legat de unitile de msur. Formula
poate fi aplicat numai dac valorile perechi sunt exprimate n aceeai unitate de msur, pentru ca produsul
lor s aib sens. Evident, nu am putea-o utiliza pentru a calcula coeficientul de covariaie ntre nlime i
greutate, de exemplu, deoarece este dificil s nelegem rezultatului unui produs dintre uniti de msur
diferite (greutate i lungime). Soluia problemei const n transformarea valorilor celor dou variabile n
scoruri standard, ceea ce produce un rezultat care nu mai are legtur cu unitatea de msur. Intensitatea
legturii dintre valorile a dou variabile se exprim prin coeficientul de corelaie liniar, notat cu simbolul r.
Introdus de Karl Pearson
19
, acest coeficient mai este cunoscut i sub numele de coeficientul de corelaie
Pearson, sau al moment-produsului, dup expresia uneia din formulele de calcul.
Formula de definiie a coeficientului de corelaie este:


(formula 3.28)

unde z
x
respectiv z
y
sunt scorurile z ale variabilelor x i y, iar N este volumul eantionului.

Situaia de maxim corelaie posibil ntre cele dou distribuii este atunci cnd valorile lor sunt
identice. Dac ar fi aa, atunci valorile z
x
sunt egale cu valorile z
y
, iar formula 3.28 ar putea scris ca:
N
z
r
x
=
2
(formula 3.29)

n continuare, dac nlocuim n formula de mai sus expresia de calcul a lui z i facem toate
simplificrile posibile, ajungem n final la formula deja cunoscut a dispersiei. n consecin, din faptul c
dispersia unei distribuii z este ntotdeauna egal cu +1, rezult c valoarea maxim pe care o poate atinge
coeficientul de corelaie, n cazul unei corelaii pozitive perfecte, este r=+1. Corespunztor, n cazul unei
corelaii negative perfecte, conform aceluiai raionament, rezult c valoarea minim posibil a
coeficientului de corelaie este r= -1.


Reprezentarea grafic a corelaiei

Plasarea valorilor corelate pe un grafic, produce o imagine intuitiv a relaiei dintre valori. Acest tip
de grafic se numete scatterplot.

n cazul unei corelaii pozitive, reprezentrile scatterplot arat astfel:


19
Karl Pearson (1857-1936), matematician, filozof al tiinei, biometrician i statistician englez.
N
z z
r
y x
=
*
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
64
Relaie direct Corelaie pozitiv
r = 1.00 r = .80 r = .20
+ + +
| | |
| | |
| | |
| | |
|________________ |________________


n cazul unei corelaii pozitive valorilor mari ale unei variabile tind s le corespund valori mari le
celeilalte variabile. La limit, pentru o corelaie pozitiv perfect (r=+1) punctele de intersecie ale perechilor
de valori se plaseaz pe o linie dreapt, dinspre stnga jos spre dreapta sus, la un unghi de 45 de grade ntre
cele dou axe. Cu ct corelaia este mai mic, cu att norul de puncte este mai larg, dar forma elipsei indic
relaia pozitiv dintre cele dou variabile.

n imaginea de mai jos avem reprezentri scatterplot caracteristice pentru trei corelaii liniare
negative.
Relaie indirect- Corelaie negativ
r = -1.00 r = -.80 r = -.20


+ + +
| | |
| | |
| | |
| | |
|________________ |________________ |________________
- + - + - +


n cazul corelaiei negative, tendina este aceea ca valorilor mari ale unei variabile s le corespund
valori mici ale celeilalte variabile. Ca urmare, att linia corelaiei negative perfecte (r=-1), ct i diagonala
mare a elipsei norului de puncte al unei corelaii negative imperfecte, se orienteaz din stnga sus spre
dreapta jos a sistemului de coordonate.
n fine, atunci cnd corelaia dintre cele dou variabile este inexistent, norul punctelor de intersecie
are o form circular, care nu contureaz nici o tendin (r=0).

Nici o relaie Nu exist corelaie r = 0.00


+
|
|
|
|
|
|________________
- +


Calcularea coeficientului de corelaie liniar Pearson

De obicei, pentru a uura calcularea manual a coeficientului de corelaie, mai ales atunci cnd avem
date numeroase, sunt utilizate formule derivate din formula de definiie (formula 3.28), prin nlocuirea
expresiilor pentru scorul z.

[ ] [ ]
N
s m Y s m X
N
z z
r
y y x x y x

= =
/ ) ( * / ) ( *


Se deduce astfel o formul care, dei apare mai complicat, este mai uor de pus n practic,
deoarece se bazeaz pe valori care se obin prin calcule mai simple:

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
65
de unde obinem:
( ) ( )
y x
y x
s s N
m Y m X
r
* *
*
=

(formula 3.30)
unde:
X i Y reprezint valorile individuale ale distribuiilor X i Y
m
x
i m
y
reprezint mediile distribuiilor X i Y
s
x
i s
y
reprezint abaterile standard ale distribuiilor X i Y
N este volumul eantionului

Formula 3.30 este doar una dintre variantele utilizate. Ea poate fi utilizat pentru calcule, la fel de
bine ca i formula 3.28, obinndu-se rezultate identice. n general, pentru pstrarea acurateei rezultatului se
recomand pstrarea primelor patru zecimale ale fiecrei operaii de calcul dar, pentru exemplele didactice,
unde rezultatul nu are o finalitate real, se poate lucra i cu primele dou zecimale. Oricum, n final, valoarea
coeficientului r se raporteaz n mod obinuit cu doar dou zercimale.

Criteriile deciziei statistice

La fel ca n cazul celorlalte teste statistice, i coeficientul r se raporteaz la o distribuie teoretic,
care este una derivat din distribuia t. Indiferent de ct de mare este r calculat, nu putem avea ncredere n
acesta atta timp ct nu tim n ce msur este diferit de un r care ar rezulta prin jocul ntmplrii. Pentru
aceasta se utilizeaz distribuia t i o formul care deriv din testul t.
Pentru uurarea evalurii semnificaiei, a fost creat un tabel special cu praguri de semnificaie ale
coeficientului de corelaie r care poate fi folosit fr a mai fi necesar utilizarea formulei (vezi tabelul
semnificaiilor coeficientului de corelaie din anex). Practic, se caut n tabel care este nivelul lui r pentru
numrul gradelor de libertate (df=N-2), i un prag ales n prealabil. Dac valoarea calculat este cel puin
egal sau mai mare dect valoarea tabelar (critic) a lui r, atunci ipoteza de nul se respinge, coeficientul de
corelaie fiind considerat semnificativ.
Pentru exemplul nostru, pentru test unilateral, =0.05 i df=6 (8-2), citirea tabelului se face ca n
figura alturat.
Nivel de semnificaie test
unilateral
.05 .025 .01 .005
Nivel de semnificaie test
bilateral
df
.10 .05 .02 .01
1 .988 .997 .9995 .9999
2 .900 .950 .980 .990
3 .805 .878 .934 .959
4 .729 .811 .882 .917
5 .669 .754 .833 .874
6 .622 .707 .789 .834

n condiiile precizate pentru cercetarea propus ca exemplu, valoarea tabelar (critic) a lui r este
0.622. Dac am fi preferat un test bilateral, pentru acelai nivel al lui alfa, valoarea r critic ar fi fost 0.707.

EXEMPLU DE CALCUL

Vom lua n considerare cazul aplicrii celor dou teste de raionament de tip diferit. n acest caz,
ipoteza cercetrii se exprim n maniera: exist o legtur (corelaie) ntre cele dou tipuri de raionament,
cei care obin rezultate bune la unul din teste, vor tinde sa obin rezultate bune i la celalalt. Desigur,
ipoteza poate fi formulat i corespunztor unei corelaii negative, dac avem motive s presupunem acest
lucru.

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
66
Scorul la testul
de calcul aritmetic
Scorul la testul
de raionament verbal
Produsul abaterilor de
la medie
X (x-m
x
) (x-m
x
)
2
Y (y-m
y
) (y-m
y
)
2
(x-m
x
)* (y-m
y
)
25 -4.63 21.44 28 -1.88 3.53 8.70
32 2.37 5.62 27 -2.88 8.29 -6.83
40 10.37 107.54 41 11.12 123.65 115.31
29 -0.63 0.40 34 4.12 16.97 -2.60
31 1.37 1.88 25 -4.88 23.81 -6.69
16 -13.63 185.78 19 -10.88 118.37 148.29
28 -1.63 2.66 26 -3.88 15.05 6.32
36 6.37 40.58 39 9.12 83.17 58.09
= 237 =365.88 = 239 =392.88 =320,63
m
X
= 29.63 m
Y
= 29.88
s
X
= 7.23 s
Y
= 7.49

Pentru calcularea coeficientului de corelaie am ales, de data aceasta, formula 3.30, prin care,
nlocuind valorile, obinem valoarea coeficientului de corelaie:

( ) ( )
74 . 0
433.22
63 . 320
49 . 7 * 23 . 7 * 8
63 . 320
* *
*
+ = = =

=

y x
y x
s s N
m Y m X
r

Graficul scatterplot pentru datele din exemplu este corespunztor unei asocieri pozitive ntre cele
dou variabile, norul de puncte urmnd o elips cu diagonala mare pe direcia stnga jos-dreapta sus:
0
5
10
15
20
25
30
35
40
45
0 10 20 30 40 50
Y
X


Decizia statistic

Valoarea calculat a lui r (+0.74) este mai mare dect valoarea critic (+0.62), fapt care ndreptete
respingerea ipotezei de nul. Ca urmare, acceptm ca semnificativ coeficientul de corelaie obinut. Datele
cercetrii susin ipoteza c ntre scorurile celor dou teste exist o legtur pozitiv semnificativ
20
.


Corelaie i cauzalitate

Coeficientul de corelaie ne ofer informaii despre modul n care variaz valorile a dou variabile,
una n raport cu cealalt. Ca urmare, coeficientul de corelaie nu are o semnificaie cauzal dect dac cele
dou variabile au fost msurate ntr-un context care probeaz cauzalitatea. Iar acest lucru se petrece numai n
condiii de experiment.

Natura liniar a corelaiei Pearson

Trebuie s reinem faptul c ceea ce exprim r este intensitatea corelaiei liniare, adic msura n
care norul de puncte reprezentat de intersecia valorilor perechi ale celor dou variabile poate fi reprezentat
de o linie dreapt. Asocierea de tip liniar este ns doar una dintre formele de aproximare a legturii dintre
variabile. n realitate, uneori, corelaia dintre dou variabile are o form care se abate de la modelul rectiliniu

20
n mod uzual, valorile lui r se raporteaz cu dou zecimale, chiar dac valorile tabelare i cele calculate de
programele statistice sunt cu mai mult de dou zecimale.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
67
(are o form curb). Dac privim imaginile de mai jos, putem observa cteva tipuri posibile de curbe de
corelaie. Figurile a i b exprim corelaii perfecte, dar care se supun unui model curbiliniu, n timp ce figura
c reprezint o corelaie perfect rectilinie.



Relaiile curbilinii sunt calculate pe baza altor proceduri dect coeficientul Pearson (r), dar acestea
nu fac de regul obiectul de studiu al unei introduceri n statistica aplicat. S reinem totui c, dac am
calcula un coeficient r pentru distribuiile din figurile a i b, atunci valoarea acestora ar fi foarte mic i, cel
mai probabil, nesemnificativ, n ciuda asocierii grafice evidente a valorilor lor.

Pentru a nelege i mai bine acest fapt, oferim un exemplu ilustrativ. Am introdus valorile lui z i
probabilitile corespunztoare lor de pe curba normal, ntr-un program de prelucrri statistice. Forma
normal a curbei obinute ne indic faptul c, dinspre partea
stng a acesteia, valorile z devin din ce n ce mai mici (n
valoare absolut), corespunztor cu creterea probabilitii,
pn la mijlocul curbei, unde z=0, iar probabilitatea este
maxim. Mergnd mai departe, spre dreapta, valorile lui z
ncep s creasc, concomitent cu reducerea probabilitii.
Coeficientul de corelaie calculat pentru un eantion de date
ale celor dou variabile statistice este r=0, iar imaginea
scatterplot a relaiei dintre ele este prezentat n figura
alturat
21
:




Aa cum se observ, dei r=0, ceea ce indic absena oricrei corelaii liniare ntre variabile, curba de
distribuie arat o corelaie curbilinie perfect.

Din fericire, astfel de situaii sunt relativ rare n realitate, modelul corelaiei liniare fiind adecvat
pentru un mare numr de relaii dintre variabilele naturale, incluzndu-le i pe cele psihologice. Atunci cnd
exist suspiciuni consistente cu privire la natura liniar a legturii dintre variabile, se pot efectua anumite
transformri care s le aduc n cadrul unei variaii liniare (de exemplu, extragerea radicalului sau
logaritmarea variabilelor). Atunci cnd se raporteaz un coeficient de corelaie fr a se preciza caracterul
liniar sau curbiliniu, vom considera c acesta se refer la corelaia liniar.
Exemplul dat ne sugereaz faptul c graficul scatterplot ofer informaii suplimentare semnificative
i, din acest motiv, este recomandabil realizarea acestuia de fiecare dat cnd utilizm testul de corelaie
Pearson. Un argument spectaculos n sprijinul acestui aspect ne este oferit de Anscombe (1973), care a
realizat cele patru seturi de date din tabelul de mai jos:

Setul #1 Setul #2 Setul #3 Setul #4
X
1
Y
1
X
2
Y
2
X
3
Y
3
X
4
Y
4

10,00 8,04 10,00 9,14 10,00 7,46 8,00 6,58
8,00 6,95 8,00 8,14 8,00 6,77 8,00 5,76
13,00 7,58 13,00 8,74 13,00 12,74 8,00 7,71
9,00 8,81 9,00 8,77 9,00 7,11 8,00 8,84
11,00 8,33 11,00 9,26 11,00 7,81 8,00 8,47

21
Exemplul se bazeaz pe un eantion de 61 de perechi de valori, selectate de pe toat plaja distribuiei z
Distributia normala z (r=0)
z
4 3 2 1 0 -1 -2 -3 -4
p
,6
,5
,4
,3
,2
,1
0,0
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
68
14,00 9,96 14,00 8,10 14,00 8,84 8,00 7,04
6,00 7,24 6,00 6,13 6,00 6,08 8,00 5,25
4,00 4,26 4,00 3,10 4,00 5,39 19,00 12,50
12,00 10,84 12,00 9,13 12,00 8,15 8,00 5,56
7,00 4,82 7,00 7,26 7,00 6,42 8,00 7,91
5,00 5,68 5,00 4,74 5,00 5,73 8,00 6,89

Coeficienii de corelaie dintre cele patru perechi de variabile (X
1
-Y
1
, X
2
-Y
2
, X
3
-Y
3
; X
4
-Y
4
) sunt
identici: r=0.81. i totui, dac sunt analizate reprezentrile scatterplot pentru fiecare dintre cele patru
perechi de variabile, imaginile ne ofer diferene importante cu privire la natura real a relaiei dintre ele:























n cazul perechii X
3
-Y
3
, o valoare extrem a redus coeficientul de corelaie, iar n cazul perechii de
variabile X
4
-Y
4
, unde corelaia ar fi fost nul, ea este generat de o singur valoare extrem. Desigur, astfel
de efecte apar cu precdere n cazul eantioanelor de volum mic, dar grija pentru valorile extreme trebuie
meninut n toate cazurile.

Mrimea efectului coeficientului de crelaie

Spre deosebire de testele t, introduse anterior, valoarea testului r este interpretabil prin ea nsi,
exprimnd intensitatea asocierii dintre variabile. Aa cum am spus deja, avem o corelaie perfect atunci
cnd r este egal cu +1 sau 1. Valoarea obinut pe exemplul nostru (+0.74) este destul de apropiat de +1.
Desigur, +0.74 este mai puin dect +1, dar i mai mult dect, s zicem, +0.32. O asemenea interpretare, dei
absolut corect, nu poate fi satisfctoare. Se simte necesitatea de a avea un criteriu de valorizare a
cuantificrii numerice a corelaiei. De-a lungul timpului au fost propuse diverse astfel de scale de valorizare,
prin atribuirea unor calificative coeficienilor de corelaie, n funcie de mrimea lor. Aceast problem
comport multe discuii, iar soluiile oferite de diferii autori sunt deseori diferite. Ca regul general, toi
autorii sunt de acord c valorile mai mici de 0.1 ale coeficienilor de corelaie trebuie s fie considerate
neglijabile, chiar i atunci cnd ating pragul de semnificaie statistic.
Oferim, cu caracter orientativ, modelul de descriere propus de Hopkins (2000) cu privire la
interpretarea valorilor coeficienilor de corelaie:

Coeficientul de corelaie Descriptor
0.0-0.1 Foarte mic, neglijabil, nesubstanial
0.1-0.3 Mic, minor
0.3-0.5 Moderat, mediu
0.5-0.7 Mare, ridicat, major
12,00 10,00 8,00 6,00
y4
20,00
18,00
16,00
14,00
12,00
10,00
8,00
x
4
11,00 10,00 9,00 8,00 7,00 6,00 5,00 4,00
y1
14,00
12,00
10,00
8,00
6,00
4,00
x
1
10,00 9,00 8,00 7,00 6,00 5,00 4,00 3,00
y2
14,00
12,00
10,00
8,00
6,00
4,00
x
2
12,00 10,00 8,00 6,00
y3
14,00
12,00
10,00
8,00
6,00
4,00
x
3
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
69
0.7-0.9 Foarte mare, foarte ridicat
0.9-1 Aproape perfect, descrie relaia dintre dou variabile practic indistincte

O alt variant de interpretare a mrimii efectului recunoscut este cea propus de Davis (citat de
Kotrlik i Williams, 2003):

0.70 asociere foarte puternic
0.50 0.69 asociere substanial
0.30 0.49 asociere moderat
0.10 0.29 asociere sczut
0.01 0.09 asociere neglijabil

naintea oricrui calificativ ns, prima condiie pentru a lua n considerare existena unei corelaii
ntre dou variabile rmne atingerea pragului de semnificaie (alfa). Dac valoarea lui r este mai mic dect
r critic (corespunde unui nivel p mai mare de 0.05, sau dect alt prag legitim decis de cercettor), existena
unei corelaii nu poate fi luat n considerare, indiferent de mrimea coeficientului r Pearson. Aceasta,
deoarece nu avem temei pentru a accepta c se ndeprteaz suficient de o valoare care ar fi putut decurge
prin jocul hazardului.
n cele din urm ce trebuie s lum n considerare, semnificaia sau intensitatea asocierii? Desigur,
rspunsul este unul relativ. Dac finalitatea studiului este aceea de a lua decizii, ca n cazul seleciei de
personal, de exemplu, se vor cuta valori ct mai mari ale coeficientului de corelaie (r). Dar dac obiectivul
este preponderent teoretic, de a pune n eviden relaii ascunse ntre variabile, atunci, indiferent de
mrimea lor, coeficienii de corelaie vor fi luai n considerare (desigur, dac sunt mai mari de 0.1).

Coeficientul de determinare

Valorile lui r trebuie considerate pe o scal ordinal. Ca urmare, nu este corect s afirmm c un
coeficient de corelaie de 0.40 este de dou ori mai mare dect un altul de 0.20. Dac dorim s comparm n
mod direct doi coeficieni de corelaie trebuie s ridicm valorile lui r la ptrat (r
2
), obinnd astfel ceea ce se
numete coeficient de determinare (prezentat n programele statistice i ca r squared). Acesta este
considerat un indicator mai adecvat al mrimii efectului, deoarece ia valori sensibili mai mici dect cele ale
coeficientului de corelaie. Pentru exemplul nostru, coeficientul de determinare este 0.74
2
=0.55. Transformat
n procente, acest rezultat se interpreteaz astfel: 55% din variaia (mprtierea) uneia dintre cele dou
variabile este determinat de variaia celeilalte variabile. Sau, altfel spus, cele dou variabile au in comun
55% din variaia care le caracterizeaz, ceea ce nseamn c 45% din variabilitatea lor provine din alte surse.
Atenie, interpretarea procentual, n maniera prezentat, este valabil numai pentru coeficientul de
determinare. Coeficientul de corelaie (r) nu poate fi interpretat n nici un caz sub form procentual!
Cohen (citat de Kotrlik i Williams, 2003) a propus urmtoarea regul de evaluare a mrimii
coeficentului de determinare ca indice de mrime a efectului n cazul corelaiei:

0.0196 efect mic
0.1300 efect mediu
r
2

(Cohen)
0.2600 efect mare

Vom observa c valorile lui r corespunztoare celor trei praguri ale lui r2 sunt 0.14, 0.36 i,
respectiv, 0.50, ceea ce este n concordan cu recomandrile de mai sus pentru interpretarea lui r.
S reinem c mrimea efectului, care este, de fapt, nsi mrimea coeficientului r, depinde de dou
elemente principale:
- Caracterul liniar al relaiei dintre variabile. O component curbilinie a asocierii va conduce la valori
mai mici ale coeficientului de corelaie. Graficul scatterplot ne poate ajuta la evidenierea acestui
aspect.
- Variabilitatea distribuiilor comparate. Dac variabilele cercetate au o mprtiere redus, acest fapt
limiteaz posibilitatea de a obine valori ridicate pentru r.

Mrimea eantionului are efect doar asupra puterii testului (eantioanele mari conduc mai uor la
atingerea pragului de semnificaie), dar nu au un efect important asupra mrimii lui r.

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
70

Limitele de ncredere pentru coeficientul de corelaie r

Atunci cnd calculm coeficientul de corelaie pentru valorile msurate pe un eantion, o facem,
desigur, cu scopul de a avea o estimare asupra gradului n care cele dou variabile au o variaie comun la
nivelul ntregii populaii. Deoarece calcularea corelaiei pe valorile populaiei este practic imposibil, tot
ce putem face este s o estimm, cu o anumit marj de eroare, prin utilizarea corelaiei pe eantion. Astfel,
n termeni formali, r (calculat pentru eantion) este o estimare pentru (ro), corelaia adevrat la nivelul
populaiei.

Calcularea limitelor de ncredere

Construirea intervalelor de ncredere pentru coeficientul de corelaie la nivelul populaiei () nu este
la fel de simpl ca n cazul altor valori statistice, dar se bazeaz pe acelai raionament fundamental: limitele
de ncredere se afl n jurul unui punt de estimare (r) la care se adaug sau se scade valoarea r critic nmulit
cu eroarea standard a estimrii. Problemele specifice decurg din natura distribuiei lui r. Atunci cnd
valoarea corelaiei la nivelul populaiei este =0, distribuia de eantionare r
s
(valorile lui r care ar fi
calculate pe eantioanele extrase din aceeai populaie) formeaz o distribuie normal n jurul lui zero (dac
volumul eantionului este suficient de mare). Dar dac =+0.7, distribuia lui r
s
are o mprtiere asimetric
n jurul lui acestei valori. Motivul este simplu: este mai mult loc pentru valori sub +0.7 dect peste aceast
valoare, deoarece tim c r ia valori ntre -1 i +1. Cu ct estimarea pentru este mai aproape de limitele
teoretice ale lui r, cu att distribuia r
s
este mai asimetric spre partea opus. Aceast particularitate creeaz o
piedic n transformarea coeficienilor r
s
n scoruri Z (cu majuscul, pentru a se evita confuzia cu scorurile z
clasice), necesare construirii limitelor intervalului de ncredere pentru . Problema a fost rezolvat de Fisher,
care a elaborat un algoritm pe baza cruia valorile r
s
sunt transformate n valori Z, a cror arie de distribuie
sub curba normal este cunoscut:

Z=0.5ln[(1 + r)/(1 - r)] (formula 3.31)

Pentru a se evita aplicarea acestei formule relativ greoaie, se poate utiliza un tabel (vezi n anex
tabelul Fisher de transformare n Z a valorilor lui r) care, chiar dac nu conine toate valorile intermediare,
este suficient pentru a acoperi nevoile practice.
S lum ca exemplu valoarea coeficientului de corelaie parial obinut de noi mai sus: r=+0.74. Ne
propunem s aflm care sunt limitele de ncredere ale acestei valori, adic s definim intervalul n care se
poate afla valoarea real a corelaiei la nivelul populaiei, cu o probabilitate asumat. De regul, aa cum
tim, aceast probabilitate asumat este de 0.05 sau, exprimat altfel, un nivel de ncredere de 95%.
Practic, aflarea limitelor se face n felul urmtor:
Se transform r calculat n valoare Z, citind tabela Fisher: n cazul nostru, pentru r=0.85 avem o
valoare Z=0.9505 (dac valoarea lui r nu se regsete ca atare n tabel, se poate face o medie a
valorilor apropiate). Pe o distribuie normal, cum este distribuia de eantionare Z, tim c
aproximativ 95% dintre valori se ntind ntre -1.96 i +1.96. Adic, pe o distan de aproximativ
dou abateri standard n jurul mediei (abaterea standard a valorilor Z fiind 1).
Se calculeaz eroarea standard a transformrii Z, cu formula:

unde N este volumul eantionului

Se calculeaz limitele superioar i inferioar a intervalului:
e critic
r z r * = , adic:
Limita superioar (Z): 0.9505+1.96*0.447=+1.826
Limita inferioar (Z): 0.9505-1.96*0.447=+0.074

Limitele astfel calculate sunt exprimate n valori transformate Z, ori noi avem nevoie s tim limitele
n valori ale lui r. Pentru aceasta, facem acum transformarea invers, citind valorile lui Z n tabela Fisher,
corespunztoare celor dou limite de mai sus:
Limita superioara de ncredere pentru r=+0.95
Limita inferioar de ncredere pentru r=+0.07
n concluzie, valoarea adevrat (la nivelul populaiei) a corelaiei dintre cele dou variabile, se afl,
cu o probabilitate de 95%, n intervalul cuprins ntre +0.07 i +0.95. Limita inferioar este n apropierea unei
447 , 0
3 8
1
3
1
=

=
N
r
e
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
71
corelaii egale cu 0, iar limita superioar n vecintatea corelaiei perfecte, ceea ce ne arat o precizie de
estimare sczut. Acest fapt este normal, dac avem n vedere mrimea redus a eantionului, care determin
un nivel ridicat al erorii standard pentru r (prin faptul c se afl la numitorul formulei).

Utilizarea limitelor de ncredere

Dac analizm limitele intervalului de ncredere astfel obinute, pentru exemplul nostru, trebuie s
constatm c ele sunt foarte mari, n zona valorilor pozitive, dar avnd limita inferioar destul de aproape de
valoarea zero. Acest fapt conduce la concluzia c, dei este att mare i semnificativ statistic, coeficientul
obinut are o valoare mic de generalizare. Situaia este generat, n acest caz, de volumul extrem de mic al
eantionului. Amplitudinea intervalului de ncredere este direct dependent de volumul eantionului. Cu ct
N este mai mare, cu att valoarea erorii standard tinde s scad, ceea ce aduce limitele intervalului de
ncredere mai aproape de valoarea calculat a lui r.
S ne imaginm c am efectuat un calcul de corelaie pe 30 de subieci i am obinut r=0.30 (cnd
semnul corelaiei nu este specificat, se consider pozitiv). Limitele de ncredere pentru acesta sunt ntre -0.07
i +0.60, ceea ce arat c este nesemnificativ, dat fiind faptul c ntre cele dou limite este i valoarea zero,
aceea care este vizat de ipoteza de nul. Faptul c limita inferioar este foarte aproape de valoarea zero (la
numai 7 sutimi de ea), ne ndreptete s credem c, prin mrirea volumului eantionului de cercetare ar
putea fi atins nivelul de semnificaie statistic. Aceasta, deoarece n formula erorii standard a lui r volumul
eantionului se afl la numitor i, cu ct N va fi mai mare, cu att valoarea lui r
e
va fi mai mic, iar limitele
intervalului de ncredere pentru r, mai aproape de r.
Tabelul urmtor arat care sunt limitele pentru exemplul dat, dac N ar crete, progresiv, pn la
100:















Utilitatea practic a acestor estimri de limite este dat de faptul c ne arat cu ct ar trebui s
cretem volumul eantionului pentru a obine un rezultat semnificativ al coeficientului de corelaie dintre
cele dou variabile. Aa cum se vede, dac am crete volumul eantionului la 50 de subieci, limita inferioar
ar trece deja peste valoarea zero. Celelalte linii din tabel prezint efectul de mrime al eantionului n cazul
creterii lui N pn la 100 de subieci.

Semnificaia diferenei dintre doi coeficieni de corelaie

S presupunem c ntr-o cercetare este evaluat corelaia dintre extraversie i agresivitate separat,
pentru brbai i pentru femei, obinndu-se o valoare r=0.50 pentru brbai i o valoare r=0.30 pentru femei,
ambii coeficieni fiind semnficativi. n acest caz ne-am putea pune problema dac cei doi coeficieni difer
semnificativ ntre ei, ceea ce ar nsemna c relaia dintre extraversie i agresivitate este mai ridicat la brbai
dect la femei.
Diferena dintre doi coeficieni de corelaie poate fi evaluat cu un test specific, care ia n
considerare nu doar diferena dntre valorile r, ci i mrimea eantioanelor i mrimea n sine a celor doi
coeficieni. De exemplu, avnd n vedere c semnificaia coeficienilor de corelaie depinde i de mrimea
eantionului, nseamn c o diferen de 0.1 ntre doi indici de corelaie poate fi nesemnficativ dac cei doi
r sunt 0.15 i 0.25, dar poate fi semnificativ dac valorile r comparate sunt 0.80 i 0.90.
Limite de ncredere
N
Pearson
r
Niv. de
ncredere
(%)
inferioar superioar
30 0,30 95 -0,07 0,60
40 0,30 95 -0,01 0,56
50 0,30 95 0,02 0,53
60 0,30 95 0,05 0,51
70 0,30 95 0,07 0,50
80 0,30 95 0,09 0,49
90 0,30 95 0,10 0,48
100 0,30 95 0,11 0,47
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
72
Modul de calcul al semnificaiei dintre doi coeficieni de corelaie va fi prezentat mai trziu, n
seciunea rezervat procedurilor SPSS.


Condiii pentru calcularea coeficientului de corelaie Pearson

Pentru a putea utiliza n mod legitim calculul de corelaie eantionul trebuie s fie aleatoriu, iar cele
dou variabile (ambele msurate pe scale de interval/raport) trebuie s aib o distribuie care s nu se abat
grav de la distribuia normal. Aceast condiie este cu att mai important cu ct eantionul este mai mic. O
atenie aparte trebuie acordat valorilor excesive, prezena acestora putnd avea efecte neateptate asupra
valorii coeficientului de corelaie (vezi exemplele lui Anscombe).

Utilizarea coeficientul de corelaie

Analiza de corelaie este una dintre cele mai uzuale proceduri statistice n cercetarea psihologic.
Printre utilizrile cele mai comune menionm analiza consistenei i validitii testelor psihologice.
Consistena se refer la gradul n care un instrument de evaluare se concentreaz asupra unei anumite
realiti psihice. Validitatea, se refer la faptul dac ceea ce presupune c msoar un instrument psihologic
este msurat cu adevrat (de exemplu, o scal de anxietate msoar cu adevrat anxietatea?).
Din cele prezentate, rezult c putem utiliza coeficientul atunci cnd avem serii perechi de
distribuii. Pentru o mai bun nelegere, se cuvine s facem cteva aprecieri comparative cu testul t pentru
eantioane dependente. Testul t pentru eantioane dependente, se aplic atunci cnd msurm o anumit
variabil n dou situaii diferite (de ex. nainte/dup), ceea ce presupune aceeai unitate de msur.
Coeficientul de corelaie poate fi aplicat att pentru variabile msurate cu aceeai unitate de msur ct i
pentru variabile exprimate n uniti de msur diferite. Aceasta deoarece formula de calcul ia n considerare
expresia standardizat a valorilor (corurile z). ntrebarea este, cnd utilizm unul sau altul dintre cele dou
teste? Rspunsul ine de scopul pe care ni-l propunem. Dac dorim s punem n eviden diferena dintre
valorile medii ale variabilelor, vom aplica testul t pentru eantioane dependente. Dac ne intereseaz
intensitatea variaiei concomitente a variabilelor, vom utiliza coeficientul de corelaie.
Coeficientul de corelaie Pearson nu este singurul test al asocierii variabilelor. Exist o varietate de
teste de corelaie, utilizate pentru situaiile n care variabilele cercetate sunt msurate, fiecare, pe oricare
dintre scalele de murare.


Publicarea rezultatului corelaiei

Raportarea coeficienilor de corelaie va cuprinde, pe lng indicatorii statistici descriptivi ai
variabiulelor (medii, abateri standard, indicatorii simetriei i aplatizrii), volumul eantionului, valoarea lui r,
nivelul de semnificaie i coeficientul de determinare (r
2
). Prezentarea limitelor de ncredere nu este uzual,
poate i pentru c programele statistice obinuite nu le ofer, dar calcularea i includerea lor n documentul
cercetrii este de dorit.
Pentru exemplul de mai sus, o prezentare narativ a rezultatului ar putea arta astfel:
A fost evaluat performana la un test de calcul aritmetic i la unul de raionament verbal logic, pentru un
eantion de 6 subieci. Scorurile mari se refer la performane ridicate. Media scorului la primul test a fost
de m=29.63 (s=6.76), iar la al doilea m=29.88 (s=7.01). Am obinut o corelaie semnificativ ntre cele
dou performane, r=0.74 (r
2
=0.55), p<0.05, bilateral. Limitele de ncredere pentru coeficientul r (95%)
sunt cuprinse ntre +0.07 i +0.95.

NOT: Se precizeaz neaprat semnificaia valorilor variabilelor n raport de mrimea lor, pentru a se putea
aprecia corect natura relaiei dintre variabile.


Sarcina de lucru 2.7



Un eantion de 10 subieci a fost testat cu un test de inteligen de dou ori, pentru a se verifica
stabilitatea test-retest a instrumentului. Rezultatele, marcate cu I i II, sunt prezentate n tabelul urmtor:
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
73















1. Enunai ipoteza statistic
2. Enunai ipoteza cercetrii
3. Definii populaiile cercetrii
4. Definii criteriile de decizie statistic
5. Calculai coeficientul de corelaie Pearson
6. Enunai decizia statistic
7. Enunai concluzia cercetrii.

Verificai rspunsurile corecte.



Rezumatul unitii de nvare



Testele statistice verific adevrul ipotezelor de cercetare prin testarea adevrului ipotezei statistice
(de nul). Atunci cnd ipoteza de nul este respins, ipoteza cercetrii este confirmat. Atunci cnd
ipoteza de nul este acceptat, ipoteza cercetrii nu se confirm.
Testul z pentru un singur eantion compar scorul z al unui eantion cu media populaiei din care
provine, pentru a testa dac eantionul face pare din acea populaie (numit de nul) sau nu.
Condiia limitativ a utilizrii testului z pentru un eantion este cunoaterea mediei populaiei.
Testul t pentru un eantion este similar cu testul z, dar se aplic n cazul eantioanelor mai mici de 30
de subieci.
Testul t pentru eantioane independente verific semnificaia diferenei dintre mediile a dou
eantioane formate din subieci diferii, care au fost evaluate n condiii distincte.
Respingerea ipotezei de nul n acest caz, nseamn acceptarea ipotezei c cele dou medii sunt
diferite, ceea ce este echivalent cu acceptarea ipotezei cercetrii care afirm existena unei relaii
ntre condiia testrii (variabila independent, msurat pe scal nominal, dihotomic) i rezultatul
msurat prin variabila dependent (msurat pe scal cantitativ).
Analiza de varian (ANOVA) testeaz diferena dintre mediile a mai mult de dou medii obinute pe
eantioane independente.
Testul ANOVA se bazeaz pe evidenierea diferenei dintre medii prin analiza variabilitii lor.
ANOVA este necesar n cazul comparrii a mai mult de dou medii deoarece compararea acestora
dou cte dou este nepermis, ca urmare a acumulrii excesive de eroare de tip I.
Testul t pentru diferena mediilor a dou eantioane dependente vizeaz situaiile n care aceiai
subieci au fost evaluai cu acelai instrument n situaii diferite. Variabila independent este
reprezentat de condiia n care are loc msurarea, iar variabila dependent este caracteristica care
face obiectul msurrii, fiind exprimat pe scal cantitativ.
Coeficientul de corelaie Pearson testeaz intensitatea asocierii de tip liniar dintre dou variabile
msurate pe aceiai subieci, n condiii diferite sau cu instrumente diferite. Coeficientul de corelaie
I II
110 105
100 108
120 110
90 95
108 105
115 125
122 118
110 116
127 118
118 126
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
74
variaz ntre -1 i +1, care exprim corelaii maxime (negativ, respectiv pozitiv). Un coeficient de
corelaie egal cu 0 semnific absena oricrei asocieri ntre cele dou variabile.


Rspunsuri la sarcinile de lucru
Sarcina de lucru 2.3


z critic pentru alfa=0.05 unilateral este 1.65
z
calculat
=-0,16, mai mare dect z
critic


Decizia statistic: Se accept ipoteza de nul.
Concluzia cercetrii: Ipoteza cercetrii nu se confirm. Medicamentul respectiv nu produce bradicardie
(reducerea pulsului).

Sarcina de lucru 2.4

1. Terapia mpotriva fobiei are un efect?
2. Terapia antifobic reduce simptomele fobice.
3. Terapia antifobic nu reduce simptomele fobice.
4. t critic=-2.04
5. Aplicnd formula testului t pentru dispersii diferite obinem:

92 . 1
75 . 3
2 . 7
2 1
4 . 34 2 . 27
2
2
2
1
=

=
+

=
N
s
N
s
t

6. Se accept ipoteza de nul deoarece t calculat (-1.92)este mai mic dect t critic (-2.04)
7. Ipoteza cercetrii nu se confirm. Rezultatele nu sus in ipoteza c tratamentul mpotriva fobiei
are vreun efect.

Sarcina de lucru 2.5

1. F critic pentru 2 cu 15 grade de libertate =3.6823
2. F calculat= 16,4
3. Se respinge ipoteza de nul
4. 18 subieci au fost repartizai aleatoriu n 3 grupuri, fiecare primind bomboane de culori diferite
(rou, verde, galben). Mediile de consum pentru fiecare grup n parte au fost: Cele trei grupuri au
consumat n medie, m1=1.5; m2=4.67 i m3=1.5. Analiza de varian unifactorial a relevat o
diferen semnificativ ntre medii F(2,15)=16.4; p0.05. Rezultatele indic faptul c cea mai
preferat culoare de bomboane este rou.

Sarcina de lucru 2.6

1. Ipoteza cercetrii: Stresul temporal diminueaz performana de calcul numeric. Ipoteza de nul:
Stresul temporal nu are nici un efect asupra performanei de calcul.
2. t critic=2.36
3. t calculat=2.29
4. Se accept ipoteza de nul
5. Se infirm ipoteza cercetrii
6. Un eantion de 8 subieci a fost supus unui test de calcul aritmetic n condiii de stres temporal i
n condiii fr stres. Nivelul performanei n condiii de stres a sczut (m=76.88) fa de condiii
lipsite de stres (m=85.38). Diferena nu s-a dovedit totui semnificativ statistic t(7)=2.29, p>0.05,
pentru alfa=0.05, bilateral.

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
75
Observaie: n acest caz, rezultatul nesemnificativ al testului t este determinat de numrul mic de subieci.
Aa cum se observ, valoarea calculat a lui t este foarte aproape de t critic.

Sarcina de lucru 2.7

1. Ipoteza cercetrii: Scorurile obinute de subieci la cele dou aplicri vor fi concordante.
2. Ipoteza statistic: Scorurile nu vor fi concordante
3. Populaiile cercetrii sunt populaia subieci la prima aplicare i populaia de subieci la a doua
aplicare a testului.
4. Criteriile de decizie statistic: alfa 0.05 bilateral; df=10-2=8, r critic=063
5. r calculat=0.73
6. Decizia statistic: Se respinge ipoteza de nul.
7. Concluzia cercetrii: Scorurile sunt concordante de la o aplicare la alta.


Lucrarea de evaluare nr. 2.2





Lucrarea de evaluare va fi publicat pe portal. Termenul limit de trimitere este
preziua tutorialului. Dup aceast dat lucrrile trimise nu vor mai fi luate n considerare.



Bibliografie minimal

Bibliografia de baz

Marian Popa, (2008), Statistic pentru psiholgie. Teorie i aplica ii SPSS, Polirom
Pagina web a cursului, la adresa: www.mpopa.ro

Bibliografie suplimentar

Clocotici, V., & Stan, A. (2000). Statistica aplicata in psihologie. Iasi: Polirom, (selectiv)
Rotaru, T. (coord.). (1999). Metode statistice aplicate in stiintele sociale. Iasi: Polirom.
(selectiv)
Vasilescu, I. P. (1992). Statistica informatizata pentru stiinte despre om (Vol. 1-2).
Bucuresti: Editura militara., (selectiv)

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
76
ANEXE TABELE STATISTICE


Anexa 1. Tabelul distribuiei valorilor sub curba normal z
Sursa: http://brd1.ucsc.edu/exp_design/Z_table.htm


Valorile din tabel indic probabilitatea dintre 0 i z.

Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0 0.00000 0.00399 0.00798 0.01197 0.01595 0.01994 0.02392 0.02790 0.03188 0.03586
0.1 0.03983 0.04380 0.04776 0.05172 0.05567 0.05962 0.06356 0.06749 0.07142 0.07535
0.2 0.07926 0.08317 0.08706 0.09095 0.09483 0.09871 0.10257 0.10642 0.11026 0.11409
0.3 0.11791 0.12172 0.12552 0.12930 0.13307 0.13683 0.14058 0.14431 0.14803 0.15173
0.4 0.15542 0.15910 0.16276 0.16640 0.17003 0.17364 0.17724 0.18082 0.18439 0.18793
0.5 0.19146 0.19497 0.19847 0.20194 0.20540 0.20884 0.21226 0.21566 0.21904 0.22240
0.6 0.22575 0.22907 0.23237 0.23565 0.23891 0.24215 0.24537 0.24857 0.25175 0.25490
0.7 0.25804 0.26115 0.26424 0.26730 0.27035 0.27337 0.27637 0.27935 0.28230 0.28524
0.8 0.28814 0.29103 0.29389 0.29673 0.29955 0.30234 0.30511 0.30785 0.31057 0.31327
0.9 0.31594 0.31859 0.32121 0.32381 0.32639 0.32894 0.33147 0.33398 0.33646 0.33891
1 0.34134 0.34375 0.34614 0.34849 0.35083 0.35314 0.35543 0.35769 0.35993 0.36214
1.1 0.36433 0.36650 0.36864 0.37076 0.37286 0.37493 0.37698 0.37900 0.38100 0.38298
1.2 0.38493 0.38686 0.38877 0.39065 0.39251 0.39435 0.39617 0.39796 0.39973 0.40147
1.3 0.40320 0.40490 0.40658 0.40824 0.40988 0.41149 0.41309 0.41466 0.41621 0.41774
1.4 0.41924 0.42073 0.42220 0.42364 0.42507 0.42647 0.42785 0.42922 0.43056 0.43189
1.5 0.43319 0.43448 0.43574 0.43699 0.43822 0.43943 0.44062 0.44179 0.44295 0.44408
1.6 0.44520 0.44630 0.44738 0.44845 0.44950 0.45053 0.45154 0.45254 0.45352 0.45449
1.7 0.45543 0.45637 0.45728 0.45818 0.45907 0.45994 0.46080 0.46164 0.46246 0.46327
1.8 0.46407 0.46485 0.46562 0.46638 0.46712 0.46784 0.46856 0.46926 0.46995 0.47062
1.9 0.47128 0.47193 0.47257 0.47320 0.47381 0.47441 0.47500 0.47558 0.47615 0.47670
2 0.47725 0.47778 0.47831 0.47882 0.47932 0.47982 0.48030 0.48077 0.48124 0.48169
2.1 0.48214 0.48257 0.48300 0.48341 0.48382 0.48422 0.48461 0.48500 0.48537 0.48574
2.2 0.48610 0.48645 0.48679 0.48713 0.48745 0.48778 0.48809 0.48840 0.48870 0.48899
2.3 0.48928 0.48956 0.48983 0.49010 0.49036 0.49061 0.49086 0.49111 0.49134 0.49158
2.4 0.49180 0.49202 0.49224 0.49245 0.49266 0.49286 0.49305 0.49324 0.49343 0.49361
2.5 0.49379 0.49396 0.49413 0.49430 0.49446 0.49461 0.49477 0.49492 0.49506 0.49520
2.6 0.49534 0.49547 0.49560 0.49573 0.49585 0.49598 0.49609 0.49621 0.49632 0.49643
2.7 0.49653 0.49664 0.49674 0.49683 0.49693 0.49702 0.49711 0.49720 0.49728 0.49736
2.8 0.49744 0.49752 0.49760 0.49767 0.49774 0.49781 0.49788 0.49795 0.49801 0.49807
2.9 0.49813 0.49819 0.49825 0.49831 0.49836 0.49841 0.49846 0.49851 0.49856 0.49861
3 0.49865 0.49869 0.49874 0.49878 0.49882 0.49886 0.49889 0.49893 0.49896 0.49900
3.1 0.49903 0.49906 0.49910 0.49913 0.49916 0.49918 0.49921 0.49924 0.49926 0.49929
3.2 0.49931 0.49934 0.49936 0.49938 0.49940 0.49942 0.49944 0.49946 0.49948 0.49950
3.3 0.49952 0.49953 0.49955 0.49957 0.49958 0.49960 0.49961 0.49962 0.49964 0.49965
3.4 0.49966 0.49968 0.49969 0.49970 0.49971 0.49972 0.49973 0.49974 0.49975 0.49976
3.5 0.49977 0.49978 0.49978 0.49979 0.49980 0.49981 0.49981 0.49982 0.49983 0.49983
3.6 0.49984 0.49985 0.49985 0.49986 0.49986 0.49987 0.49987 0.49988 0.49988 0.49989
3.7 0.49989 0.49990 0.49990 0.49990 0.49991 0.49991 0.49992 0.49992 0.49992 0.49992
3.8 0.49993 0.49993 0.49993 0.49994 0.49994 0.49994 0.49994 0.49995 0.49995 0.49995
3.9 0.49995 0.49995 0.49996 0.49996 0.49996 0.49996 0.49996 0.49996 0.49997 0.49997
4 0.49997 0.49997 0.49997 0.49997 0.49997 0.49997 0.49998 0.49998 0.49998 0.49998
4.1 0.49998 0.49998 0.49998 0.49998 0.49998 0.49998 0.49998 0.49998 0.49999 0.49999
4.2 0.49999 0.49999 0.49999 0.49999 0.49999 0.49999 0.49999 0.49999 0.49999 0.49999
0 z
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
77
4.3 0.49999 0.49999 0.49999 0.49999 0.49999 0.49999 0.49999 0.49999 0.49999 0.49999
4.4 0.49999 0.49999 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
4.5 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
4.6 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
4.7 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
4.8 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
4.9 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
5 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
5.1 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
5.2 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
5.3 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
5.4 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
5.5 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
5.6 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
5.7 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
5.8 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
5.9 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000
6 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000 0.50000

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
78
Anexa 2. Tabelul valorilor critice pentru distribuia t Student (unilateral)
(sursa: http://www.psychology.ilstu.edu/psy138/tables.html)




df alfa=0.10 alfa=0.05 alfa=0.025 alfa=0.01 alfa=0.005 alfa=0.0005
1 3.078 6.314 12.706 31.821 63.657 636.620
2 1.886 2.920 4.303 6.965 9.925 31.598
3 1.638 2.353 3.182 4.541 5.841 12.924
4 1.533 2.132 2.776 3.747 4.604 8.610
5 1.476 2.015 2.571 3.365 4.032 6.869
6 1.440 1.943 2.447 3.143 3.707 5.959
7 1.415 1.895 2.365 2.998 3.499 5.408
8 1.397 1.860 2.306 2.896 3.355 5.041
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.587
11 1.363 1.796 2.201 2.718 3.106 4.437
12 1.356 1.782 2.179 2.681 3.055 4.318
13 1.350 1.771 2.160 2.650 3.102 4.221
14 1.345 1.760 2.145 2.624 2.977 4.140
15 1.341 1.753 2.131 2.602 2.947 4.073
16 1.337 1.746 2.120 2.583 2.921 4.015
17 1.333 1.740 2.110 2.567 2.898 3.965
18 1.330 1.734 2.101 2.552 2.878 3.922
19 1.328 1.729 2.093 2.539 2.861 3.883
20 1.325 1.725 2.086 2.528 2.845 3.850
21 1.323 1.721 2.080 2.528 2.831 3.819
22 1.321 1.717 2.074 2.508 2.819 3.792
23 1.319 1.714 2.069 2.500 2.807 3.767
24 1.318 1.711 2.064 2.492 2.797 3.745
25 1.316 1.708 2.060 2.485 2.787 3.725
26 1.315 1.706 2.056 2.479 2.779 3.707
27 1.314 1.703 2.052 2.473 2.771 3.690
28 1.313 1.701 2.048 2.467 2.763 3.674
29 1.311 1.699 2.045 2.462 2.756 3.659
30 1.310 1.697 2.042 2.457 2.750 3.646
40 1.303 1.684 2.021 2.423 2.704 3.551
60 1.296 1.671 2.000 2.390 2.660 3.460
120 1.289 1.658 1.980 2.358 2.617 3.373
1.282 1.645 1.960 2.326 2.576 3.291

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
79
Anexa 3. Tabelul parial al distribuiei F pentru =0.05
22

(Sursa: Electronic Textbook, STATSOFT, Copyright StatSoft, Inc., 1984-1999)
df intergrup (between) df
intragrup
(within)
1 2 3 4 5 6 7 8 9 10
1 161.4476 199.5000 215.7073 224.5832 230.1619 233.9860 236.7684 238.8827 240.5433 241.8817
2 18.5128 19.0000 19.1643 19.2468 19.2964 19.3295 19.3532 19.3710 19.3848 19.3959
3 10.1280 9.5521 9.2766 9.1172 9.0135 8.9406 8.8867 8.8452 8.8123 8.7855
4 7.7086 6.9443 6.5914 6.3882 6.2561 6.1631 6.0942 6.0410 5.9988 5.9644
5 6.6079 5.7861 5.4095 5.1922 5.0503 4.9503 4.8759 4.8183 4.7725 4.7351
6 5.9874 5.1433 4.7571 4.5337 4.3874 4.2839 4.2067 4.1468 4.0990 4.0600
7 5.5914 4.7374 4.3468 4.1203 3.9715 3.8660 3.7870 3.7257 3.6767 3.6365
8 5.3177 4.4590 4.0662 3.8379 3.6875 3.5806 3.5005 3.4381 3.3881 3.3472
9 5.1174 4.2565 3.8625 3.6331 3.4817 3.3738 3.2927 3.2296 3.1789 3.1373
10 4.9646 4.1028 3.7083 3.4780 3.3258 3.2172 3.1355 3.0717 3.0204 2.9782
11 4.8443 3.9823 3.5874 3.3567 3.2039 3.0946 3.0123 2.9480 2.8962 2.8536
12 4.7472 3.8853 3.4903 3.2592 3.1059 2.9961 2.9134 2.8486 2.7964 2.7534
13 4.6672 3.8056 3.4105 3.1791 3.0254 2.9153 2.8321 2.7669 2.7144 2.6710
14 4.6001 3.7389 3.3439 3.1122 2.9582 2.8477 2.7642 2.6987 2.6458 2.6022
15 4.5431 3.6823 3.2874 3.0556 2.9013 2.7905 2.7066 2.6408 2.5876 2.5437
16 4.4940 3.6337 3.2389 3.0069 2.8524 2.7413 2.6572 2.5911 2.5377 2.4935
17 4.4513 3.5915 3.1968 2.9647 2.8100 2.6987 2.6143 2.5480 2.4943 2.4499
18 4.4139 3.5546 3.1599 2.9277 2.7729 2.6613 2.5767 2.5102 2.4563 2.4117
19 4.3807 3.5219 3.1274 2.8951 2.7401 2.6283 2.5435 2.4768 2.4227 2.3779
20 4.3512 3.4928 3.0984 2.8661 2.7109 2.5990 2.5140 2.4471 2.3928 2.3479
21 4.3248 3.4668 3.0725 2.8401 2.6848 2.5727 2.4876 2.4205 2.3660 2.3210
22 4.3009 3.4434 3.0491 2.8167 2.6613 2.5491 2.4638 2.3965 2.3419 2.2967
23 4.2793 3.4221 3.0280 2.7955 2.6400 2.5277 2.4422 2.3748 2.3201 2.2747
24 4.2597 3.4028 3.0088 2.7763 2.6207 2.5082 2.4226 2.3551 2.3002 2.2547
25 4.2417 3.3852 2.9912 2.7587 2.6030 2.4904 2.4047 2.3371 2.2821 2.2365
26 4.2252 3.3690 2.9752 2.7426 2.5868 2.4741 2.3883 2.3205 2.2655 2.2197
27 4.2100 3.3541 2.9604 2.7278 2.5719 2.4591 2.3732 2.3053 2.2501 2.2043
28 4.1960 3.3404 2.9467 2.7141 2.5581 2.4453 2.3593 2.2913 2.2360 2.1900
29 4.1830 3.3277 2.9340 2.7014 2.5454 2.4324 2.3463 2.2783 2.2229 2.1768
30 4.1709 3.3158 2.9223 2.6896 2.5336 2.4205 2.3343 2.2662 2.2107 2.1646
Anexa 4. Valorile critice pentru coeficientul de corelaie Pearson (r)
(sursa: http://www.psychology.ilstu.edu/psy138/tables.html)

Unilateral

p=0.05
p=0.25 p=0.01 p=0.005
Bilateral
df
p=0.10 p=0.05 p=0.02 p=0.01
1 0,988 0,997 0,9995 0,9999
2 0,9 0,95 0,98 0,99
3 0,805 0,878 0,934 0,959
4 0,729 0,811 0,882 0,917
5 0,669 0,754 0,833 0,874
6 0,622 0,707 0,789 0,834
7 0,582 0,666 0,75 0,798
8 0,549 0,632 0,716 0,765

22
Tabelul este aplicabil pentru maxim 11 grupuri (df
Between=
10) i df
Within
maxim=30. Tabele complete pentru F se
gsesc n manualele recomandate n bibliografie.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
80
Unilateral

p=0.05
p=0.25 p=0.01 p=0.005
Bilateral
df
p=0.10 p=0.05 p=0.02 p=0.01
9 0,521 0,602 0,685 0,735
10 0,497 0,576 0,658 0,708
11 0,476 0,553 0,634 0,684
12 0,458 0,532 0,612 0,661
13 0,441 0,514 0,592 0,641
14 0,426 0,497 0,574 0,623
15 0,412 0,482 0,558 0,606
16 0,4 0,468 0,542 0,59
17 0,389 0,456 0,528 0,575
18 0,378 0,444 0,516 0,561
19 0,369 0,433 0,503 0,549
20 0,36 0,423 0,492 0,537
21 0,352 0,413 0,482 0,526
22 0,344 0,404 0,472 0,515
23 0,337 0,396 0,462 0,505
24 0,33 0,388 0,453 0,496
25 0,323 0,381 0,445 0,487
26 0,317 0,374 0,437 0,479
27 0,311 0,367 0,43 0,471
28 0,306 0,361 0,423 0,463
29 0,301 0,355 0,416 0,456
30 0,296 0,349 0,409 0,449
35 0,275 0,325 0,381 0,418
40 0,257 0,304 0,358 0,393
45 0,243 0,288 0,338 0,372
50 0,231 0,273 0,322 0,354
60 0,211 0,25 0,295 0,325
70 0,195 0,232 0,274 0,302
80 0,183 0,217 0,256 0,283
90 0,173 0,205 0,242 0,267
100 0,164 0,195 0,23 0,254


Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul II. Statistici infereniale. Teste parametrice
81
Anexa 5. Tabelul Fisher de transformare a valorilor r n scoruri Z
(Sursa: http://davidmlane.com/hyperstat/rtoz_table.html)

R Z r Z r Z R Z
0.0000 0.0000 0.2600 0.2661 0.5200 0.5763 0.7800 1.0454
0.0100 0.0100 0.2700 0.2769 0.5300 0.5901 0.7900 1.0714
0.0200 0.0200 0.2800 0.2877 0.5400 0.6042 0.8000 1.0986
0.0300 0.0300 0.2900 0.2986 0.5500 0.6184 0.8100 1.1270
0.0400 0.0400 0.3000 0.3095 0.5600 0.6328 0.8200 1.1568
0.0500 0.0500 0.3100 0.3205 0.5700 0.6475 0.8300 1.1881
0.0600 0.0601 0.3200 0.3316 0.5800 0.6625 0.8400 1.2212
0.0700 0.0701 0.3300 0.3428 0.5900 0.6777 0.8500 1.2562
0.0800 0.0802 0.3400 0.3541 0.6000 0.6931 0.8600 1.2933
0.0900 0.0902 0.3500 0.3654 0.6100 0.7089 0.8700 1.3331
0.1000 0.1003 0.3600 0.3769 0.6200 0.7250 0.8800 1.3758
0.1100 0.1104 0.3700 0.3884 0.6300 0.7414 0.8900 1.4219
0.1200 0.1206 0.3800 0.4001 0.6400 0.7582 0.9000 1.4722
0.1300 0.1307 0.3900 0.4118 0.6500 0.7753 0.9100 1.5275
0.1400 0.1409 0.4000 0.4236 0.6600 0.7928 0.9200 1.5890
0.1500 0.1511 0.4100 0.4356 0.6700 0.8107 0.9300 1.6584
0.1600 0.1614 0.4200 0.4477 0.6800 0.8291 0.9400 1.7380
0.1700 0.1717 0.4300 0.4599 0.6900 0.8480 0.9500 1.8318
0.1800 0.1820 0.4400 0.4722 0.7000 0.8673 0.9600 1.9459
0.1900 0.1923 0.4500 0.4847 0.7100 0.8872 0.9700 2.0923
0.2000 0.2027 0.4600 0.4973 0.7200 0.9076 0.9800 2.2976
0.2100 0.2132 0.4700 0.5101 0.7300 0.9287 0.9900 2.6467
0.2200 0.2237 0.4800 0.5230 0.7400 0.9505
0.2300 0.2342 0.4900 0.5361 0.7500 0.9730
0.2400 0.2448 0.5000 0.5493 0.7600 0.9962
0.2500 0.2554 0.5100 0.5627 0.7700 1.0203


Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
26

UNIVERSITATEA DIN BUCURETI
FACULTATEA DE PSIHOLOGIE I
TIINELE EDUCAIEI
DEPARTAMENTUL DE
NVMNT LA DISTAN








STATISTIC PSIHOLOGIC I PRELUCRAREA
COMPUTERIZAT A DATELOR

(Modulul III)

Teste statistice neparametrice










Conf. univ. dr. Marian Popa
Email: popamarian@gmail.com







Universitatea din Bucureti
Editura CREDIS
2008
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
27

CUPRINS

TESTE NEPARAMETRICE PENTRU DATE NOMINALE...........................................................28
Obiectivele unitii de nvare ..........................................................................................................28
Noiuni introductive ...........................................................................................................................28
Distribuia binomial..........................................................................................................................29
Testul z pentru proporia unui eantion..............................................................................................33
Testul z pentru proporia unui eantion n raport cu populaia.......................................................33
Sarcina de lucru nr. 3. 1..................................................................................................................34
Testul z pentru dou proporii independente.....................................................................................34
Sarcina de lucru nr. 3. 2..................................................................................................................35
Testul semnului pentru eantioane dependente..................................................................................36
Sarcina de lucru nr. 3. 3..................................................................................................................37
Distribuia multinomial ....................................................................................................................37
Testul chi-ptrat..................................................................................................................................38
Tabelul de coresponden (contingen) ........................................................................................38
Fundamentarea testului statistic .....................................................................................................39
Testul chi-ptrat pentru gradul de coresponden (goodness of fit) ..............................................40
Sarcina de lucru nr. 3. 4..................................................................................................................42
Chi-ptrat - testul asocierii (independence chi-square)..................................................................42
Marimea efectului pentru testul chi ptrat al asocierii ..................................................................44
Sarcin de lucru nr. 3. 5..................................................................................................................46
Testul exact Fisher .............................................................................................................................46
Rezumatul unitii de nvare............................................................................................................47
Rspunsuri i comentarii la problemele de evaluare..........................................................................48
Lucrarea de evaluare nr. 3.1 i modul de cotare.................................................................................50
TESTE STATISTICE NEPARAMETRICE PENTRU DATE ORDINALE....................................51
Obiectivele unitii de nvare i informaii introductive .................................................................51
Introducere .........................................................................................................................................51
Testul Mann-Whitney (U) pentru dou eantioane independente......................................................51
Sarcina de lucru nr. 3.6...................................................................................................................54
Testul Kruskall-Wallis pentru mai mult de dou eantioane independente.......................................54
Sarcina de lucru nr. 3.7...................................................................................................................56
Testul Wilcoxon pentru dou eantioane perechi ..............................................................................56
Sarcina de lucru 3.8........................................................................................................................57
Testul Friedman pentru msurri repetate..........................................................................................58
Sarcina de lucru nr. 3.9...................................................................................................................59
Coeficientul de corelaie pentru date ordinale (Spearman) ................................................................59
Sarcina de lucru 3.10......................................................................................................................61
Rezumatul unitii de nvare............................................................................................................62
Rspunsuri la sarcinile de lucru .........................................................................................................63
Lucrarea de evaluare nr. 3.2 i modul de cotare.................................................................................66
Bibliografie minimal ........................................................................................................................66
ANEXE TABELE STATISTICE....................................................................................................67
Anexa 6. Valorile critice pentru distribuia chi-ptrat ...................................................................67
Anexa 7. Tabelul valorilor critice pentru testul Mann-Whitney U................................................68
Anexa 8. Valorile critice pentru testul Wilcoxon...........................................................................69
Anexa 9. Valorile critice pentru testul de corelaie a rangurilor (Spearman) ................................70
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
TESTE NEPARAMETRICE PENTRU DATE NOMINALE

Obiectivele unitii de nvare

Parcurgerea acestei uniti va permite studenilor:










Noiuni introductive



s defineasc proprietile distribuiei binomiale
s testeze semnificaia procentului unui eantion n raport cu
populaia
s testeze semnificaia diferenei dintre dou proporii
s testeze diferena dintre dou eantioane dependente evaluate
pe scal nominal
s defineasc proprietile distribuiei multinomiale
s testeze semnificaia asocierii (corespondenei) dintre variabile
nominale


Testele neparametrice prezint, n raport cu cele parametrice, o serie de avantaje, dar i dezavantaje.

Principalele avantaje sunt:

Se pot utiliza pe scale ale cror caliti de msurare sunt slabe (ordinale, nominale).
Pot fi utilizate n cazul variabilelor afectate de valori extreme care nu pot fi eliminate.
Utilizarea lor nu presupune condiii la fel de restrictive ca testele parametrice (normalitatea
distribuiei, omogenitatea varianei, etc.).
Pentru anumite proceduri, calculele sunt relativ simple i uor de efectuat, chiar i fr
utilizarea tehnicii de calcul.
Conceptele i metodele statisticii neparametrice sunt uor de neles.

Printre dezavantajele testelor neparametrice, sunt de menionat:

Se bazeaz pe msurri pe scale nominale i ordinale, care sunt, prin natura lor, msurri
mai puin precise dect cele pe scale cantitative (de interval sau de raport).
Au o putere mai redus dect testele parametrice de a proba c ipoteza cercetrii este
adevrat.
Tind sa fie utilizate, datorit relativei lor simpliti, i n situaii n care se pot utiliza teste
parametrice. Este important s reinem faptul c, atunci cnd sunt ntrunite condiiile pentru
aplicarea unui test parametric, nu este recomandabil transformarea variabilei i utilizarea
unui test neparametric.
Dei se bazeaz pe calcule elementare, adesea acestea pot fi destul de complexe i de
laborioase.
28

Principiul care st la baza evalurii mrimii efectului pentru testele parametrice (proporia
explicat a varianei) nu este uor de aplicat n cazul testelor neparametrice. Ca urmare,
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
pentru multe dintre testele neparametrice nu se poate calcula un indicie de mrime a
efectului.

Ca o concluzie general, utilizarea testelor neparametrice nu poate fi evitat dac variabila
dependent este una de tip nominal sau ordinal. Dac, ns, este msurat pe o scal de interval/raport, se
pune problema de a alege ntre un test parametric i unul neparametric. n acest caz, criteriul principal de
decizie este normalitatea distribuiei la nivelul populaiei. n principiu, teorema limitei centrale ofer suportul
teoretic al asumrii acestei condiii pentru eantioane suficient de mari. Din pcate, nu avem nici un
criteriu sigur de verificare a acestei condiii. Din acest motiv exist o anumit disput n legtur cu
justificarea utilizrii testelor parametrice n anumite cazuri. Dac eantioanele care se apropie sau depesc
100 de valori (subieci) permit asumarea cu ncredere a condiiei de normalitate, eantioanele de mrimi
medii (20-40 de subieci) sunt considerate mai puin sigure. Simulrile pe calculator au artat c exist teste
parametrice mai puin vulnerabile la violarea condiiei de normalitate (testele t, de exemplu), dar i altele
care devin nesigure n aceast situaie (de ex., testul F pentru omogenitatea varianei). Fr a ncerca
tranarea disputei, putem reine c, mai ales pentru eantioanele mici, atunci cnd avem motive s ne ndoim
de normalitatea distribuiei la nivelul populaiei, vor fi preferate testele neparametrice.



Distribuia binomial



Atunci cnd msurm o caracteristic pe o scal de tip cantitativ, obinem o valoare care descrie
mrimea acelei caracteristici. Uneori, ns, nu facem dect s observm msura n care acea caracteristic
este prezent ntr-un anumit context. De exemplu, observm caracteristica de gen (masculin, feminin) a
copiilor la natere, prezenaabsena efectului unei metode psihoterapeutice sau caracterul
corectgreit al rspunsului la o serie de ntrebri. n acest toate aceste cazuri naterea unui biat (sau
unei fete), prezena efectului, rspunsul corect sunt denumite evenimente despre care putem doar s
consemnm frecvena cu care apar ntr-o anumit serie de ncercri (nateri, subieci tratai cu metoda
respectiv, list de ntrebri).
Distribuia evenimentelor de tip dihotomic, fiecare avnd o anumit probabilitate de apariie,
constant de la o ncercare la alta, se numete distribuie binomial
1
. Caracteristicile distribuiei binomiale
difer n funcie de numrul ncercrilor (N) i de probabilitatea de apariie a evenimentului (P), vzut
ca ans teoretic de apariie a evenimentului, n raport cu toate evenimentele posibile. De exemplu, la
aruncarea unei monede, o singur dat (N=1), ansa (probabilitatea) teoretic de apariie a stemei este
P=1/2=0.5. Aceeai probabilitate caracterizeaz i evenimentul rspuns corect, dac rspundem la
ntmplare la o ntrebare cu dou variante de rspuns, dintre care una este corect iar alta greit.

S transpunem aceast problem ntr-o situaie cu relevan practic. S ne imaginm c am construit
un chestionar de cunotine de statistic, compus din ntrebri cu dou variante de rspuns, una corect i una
eronat. n faa rezultatelor, este firesc s ne ntrebm dac studenii au rspuns utilizndu-i cunotinele,
sau la ntmplare, ncercndu-i norocul. Dac la un chestionar cu patru ntrebri un student d patru
rspunsuri corecte, sunt ele un indiciu suficient c rezultatul reflect cunotinele de statistic i nu norocul
de a fi ghicit de fiecare dat rspunsul corect?
Pentru a ncerca s rezolvm aceasta dilem, s zicem c ne adresm unui alt student pentru a
rspunde absolut la ntmplare. Ca s fim siguri c rspunsurile acestuia nu sunt alterate de cunotinele
sale de statistic, i cerem s aleag rspunsul fr a vedea ntrebrile, dnd de patru ori cu banul, pentru a
indica rspunsul la fiecare ntrebare. n acest caz, rspunsurile corecte decurg numai prin jocul hazardului,
adic sunt evenimente aleatoare. Acestea se definesc ca raport ntre evenimentul ateptat i numrul
evenimentelor posibile. Existnd doar dou variante de rspuns, probabilitatea teoretic de a rspunde corect
la o ntrebare este de 0.5. Probabilitatea de a rspunde corect la toate cele patru ntrebri se calculeaz ca
produs al probabilitii fiecrui element al secvenei de patru ntrebri (regula multiplicrii probabilitii
evenimentelor dihotomice):
29


1
Sau distribuie Bernoulli , dup numele matematicianului elveian Jakob Bernoulli (1654-1705).
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale

0.5*0.5*0.5*0.5*=0.0625

Constatm astfel c, rspunznd absolut la ntmplare, probabilitatea de ghici toate rspunsurile
corecte este de 0.0625. Nu este o probabilitate foarte mare, dar este, totui, mai mare dect nivelul alfa
minim de 0.05, cu care ne-am obinuit deja. Ca urmare, suntem nevoii s acceptm c cele patru rspunsuri
corecte sunt mai degrab un rezultat al unor alegeri ntmpltoare dect al cunotinelor de statistic.
Concluzia ar fi c, dac dorim s pstrm tipul de ntrebri cu dou variante de rspuns, atunci va trebui cel
puin s mrim numrul ntrebrilor. Astfel, s zicem, vom ajunge n situaia de a ne pune problema dac
putem avea ncredere ntr-un rezultat de 8 rspunsuri corecte din 10 ntrebri.
Dar pe msur ce numrul alegerilor binare (cu dou variante posibile de rspuns) crete, calcularea
probabilitii rspunsurilor ntmpltoare se complic. Din acest motiv devine necesar o anumit
formalizare a situaiei. Distribuia probabilitilor pentru evenimente dihotomice aleatoare alctuiete
distribuia binomial.
Ea prezint interes ca distribuie de nul pentru cazuri ca cele din exemplul de mai sus. Avnd un
eveniment cu doar dou variante, fiecare cu ans egal, (de ex., masculin/feminin, corect/greit), vom nota
cu P probabilitatea uneia dintre variante i cu Q probabilitatea variantei complementare. ntotdeauna P+Q=1,
ceea ce face posibil s-l descriem Q sub forma Q=1-P.
O distribuie binomial se obine pe baza unei secvene de predicii de tip dihotomic, independente
ntre ele, pentru care valoarea lui P i Q nu se modific de la o predicie la alta. O astfel de selecie este i cea
fcut de studentul care a indicat rspunsurile corecte, dnd cu banul la cele patru ntrebri de statistic.
Numrul total de predicii (n exemplul nostru, 4) este simbolizat cu N. Dat fiind relaia dintre P i Q, este
suficient s analizm predicia pentru unul dintre cele dou evenimente posibile, s zicem pentru rspunsurile
corecte, deoarece probabilitile pentru evenimentul complementar (rspunsuri greite) sunt absolut
simetrice. Distribuia binomial depinde, n acelai timp, de valoare lui P i a lui N.
S analizm variaia prediciilor pentru cele patru ntrebri de statistic. Toate combinaiile posibile
ntre rspunsurile corecte (C) i eronate (E) se pot afla prin listarea combinaiilor i permutrile posibile
(2*2*2*2=16) pentru cele patru ntrebri:

CCCC CECC ECCC EECC
CCCE CECE ECCE EECE
CCEC CEEC ECEC EEEC
CCEE CEEE ECEE EEEE

Dac analizm toate cele 16 combinaii posibile, vom observa c avem urmtoarea distribuie
probabil pentru rspunsurile corecte:

Nr. rsp. corecte 0 1 2 3 4
Frecvena 1 4 6 4 1
P(C)* 1/16=0.0625 4/16=0.25 6/16=0.375 4/16=0.25 1/16=0.0625
P(C) =Probabilitatea de apariie a rspunsului corect

Transpuse grafic, probabilitile corespunztoare pentru frecvenele de rspuns corect se prezint ca
n imaginea urmtoare:


30









Cu alte cuvinte, n cazul alegerii ntmpltoare a unui rspuns din dou posibile, pentru patru
ntrebri, probabilitatea niciunui rspuns corect este egal cu aceea pentru patru rspunsuri corecte (0.0625).
Distribuia binomial (N=4)
0,0625
0,25
0,375
0,25
0,0625
0
0,1
0,2
0,3
0,4
0 1 2 3 4
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
Cea mai mare probabilitate o are situaia de a rezulta dou rspunsuri corecte (0.375), n timp ce
probabilitatea de a ghici 1 sau trei rspunsuri corecte este de 0.25. Nu putem s nu observm, de asemenea,
forma simetric a distribuiei
2
. n conformitate cu teorema Moivre-Laplace, distribuia binomial a apariiei
evenimentelor echiprobabile (P=Q=0.5) ntr-o serie de n de observaii independente, urmeaz forma
distribuiei normale. Sau, mai exact, dup standardizarea probabilitilor acestea corespund valorilor de sub
curba normal.
Dar ce s-ar ntmpla dac, n loc de 4 ntrebri, chestionarul nostru de statistic ar avea 12 ntrebri?
Distribuia binomial pentru N=12 este cea din graficul de mai jos:
Distribuia binomiala (N=12)
0,00020,0029
0,0161
0,0537
0,1208
0,1934
0,2256
0,1934
0,1208
0,0537
0,0161
0,00290,0002
0
0,05
0,1
0,15
0,2
0,25
0 1 2 3 4 5 6 7 8 9 10 11 12

Se observ creterea corespunztoare a numrului variantelor posibile i, n acelai timp, devine mai
evident tendina distribuiei de a semna cu una normal. n mod firesc, aceast tendin se accentueaz pe
msur ce numrul secvenelor de predicie crete.
Dar sunt i situaii n care P i Q nu sunt egale. De exemplu, dac variantele de rspuns la fiecare
ntrebare a chestionarului de statistic sunt n numr de patru, dintre care numai una este corect, atunci
probabilitatea rspunsului corect (P) este =0.25. n acest caz distribuia binomial nu este simetric la
valori mici ale lui N, dar tinde s devin simetric pe msur ce N crete. Nu exist un rspuns exact cu
privire la valoarea lui N pentru care distribuia binomial este aproximat suficient de bine de cea normal.
n general, se accept faptul c pentru P=0.5 N nu trebuie s fie mai mare de 20-25, n timp ce pentru P
apropiat de 0 sau 1 se impune o valoare pentru N de cel puin 100.
Din cele spuse rezult c se poate lua n considerare aproximarea distribuiei binomiale cu o
distribuie normal. Aceasta nseamn c putem exprima valorile z n termeni de N, P i Q. Formula original
pentru z ne amintim c este:


=
X
z


din care, prin substituire, se construiete formula pentru z binomial:

Q P N
P N X
z
* *
*
=
(formula 4.1)
Aceast formul poate fi utilizat pentru a afla ct ncredere putem avea n cazul n care am obine 8
rspunsuri corecte la un chestionar cu 10 ntrebri dihotomice:

897 . 1
581 . 1
3
5 . 2
5 8
5 . 0 * 5 . 0 * 10
5 . 0 * 10 8
= =

= z


Nivelul probabilitii de sub curba normal z, pentru valori ale lui z egale sau mai mari de 1.897 este
0.0294. Aceasta nseamn c putem respinge ipoteza de nul i s admitem c studentul nu a rspuns la

31

2
Distribuia binomial a fost descris de Abraham De Moivre n lucrarea Approximatio ad Summam Terminorum
Binomii in Seriem Expansi, publicat n 1733. Acelai autor a publicat i un manual pentru juctorii de noroc, n care
descrie principiile aritmetice pentru strategiile i probabilitile de ctig.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
ntmplare. Vom observa ns, c putem accepta aceast concluzie numai dac, anterior calculelor, am ales o
decizie de tip unilateral, deoarece pentru o decizie bilateral ar fi fost necesar un nivel minim p=0.025.
Oricum, constatarea cea mai important n acest caz este aceea c utilizarea ntrebrilor cu rspuns dihotomic
nu este recomandabil, din cauza ansei prea mari de se obine un numr relativ ridicat de rspunsuri corecte
prin alegeri ntmpltoare.
S schimbm puin datele problemei i s punem la fiecare ntrebare nu dou, ci patru variante de
rspuns, dintre care numai una este corect. n acest caz, P=1/4=0.25 iar Q=3/4=0.75. Considernd un
chestionar format tot din 10 ntrebri, cu 8 rspunsuri corecte, i utiliznd formula 4.1, valoarea testului de
semnificaie este:

01 . 4
369 . 1
5 . 5
875 . 1
5 . 2 8
75 . 0 * 25 . 0 * 10
25 . 0 * 10 8
= =

= z


n aceste condiii este evident c ipoteza de nul se respinge, iar ipoteza c rspunsurile se bazeaz mai
mult pe cunotine dect pe hazard se accept. Fr s relum calculele, putem s ne dm seama c am obine
o valoare semnificativ chiar i pentru un numr mai mic de rspunsuri corecte. Desigur, acesta este un
exemplu didactic, n practic nefiind utilizate chestionare de cunotine cu un numr att de mic de ntrebri.




32

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
Testul z pentru proporia unui eantion



33


Testul z pentru proporia unui eantion n raport cu populaia

Odat ce am gsit o modalitate de elaborare a distribuiei de nul pentru evenimente de tip binomial,
se pot elabora diverse teste de inferen statistic. Unul dintre acestea este testul z pentru proporii, care este
echivalentul pentru date nominale al testului z parametric pentru un singur eantion.
S ne imaginm situaia n care descoperim c, pe un eantion aleator de 100 de subieci dintr-o
anumit comunitate, procentul stngacilor este de 20%, n timp ce studiile la nivelul populaiei generale
indic un procent de stngaci de numai 15% . n acest caz ne putem pune ntrebarea dac la nivelul acelei
comuniti exist o anomalie a lateralitii.
Pentru a putea utiliza formula 4.1 pentru testarea direct a proporiilor, o supunem unei transformri
convenabile, prin mprirea simultan a numrtorului i numitorului cu N. Ca urmare, obinem urmtoare
formul:

N
PQ
P p
z

=
(formula 4.2)

unde: p (mic) este probabilitatea msurat a evenimentului cercetat,
P (mare) este probabilitatea aceluiai eveniment la nivelul populaiei,
Q este probabilitatea complementar a lui P,
N este volumul eantionului.

Pentru cazul nostru, valoarea testului z pentru proporii se obine astfel:

42 . 1
035 . 0
05 . 0
100
127 . 0
05 . 0
100
85 . 0 * 15 . 0
15 . 0 20 . 0
= = =

= z


Nivelul lui p pentru z=1.42 pe curba normal este de 0.0778, valoare care oblig la acceptarea
ipotezei de nul. Cu alte cuvinte, proporia stngacilor n comunitatea cercetat nu depete semnificativ
proporia la nivelul populaiei generale.
Testul z pentru proporii implic testarea semnificaiei unui procent observat n raport procentul
populaiei (atunci cnd este cunoscut), pentru evenimente de tip dihotomic. De exemplu, se poate rspunde la
ntrebarea dac un procent 55% de nou nscui biei este neobinuit de mare, tiind care este procentul
general al noilor nscui biei.
Pentru situaiile n care evenimentele cercetate nu sunt de tip dihotomic, se aplic alte teste statistice,
despre care vom vorbi mai trziu.


.



Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale

Sarcina de lucru nr. 3. 1



(1) Un profesor constat c unul dintre studeni a dat 58 de rspunsuri corecte la un
examen cu 100 de ntrebri, fiecare cu dou variante de rspuns (ADEVRAT-
FALS). A rspuns studentul la ntmplare, sau rezultatul obinut decurge dintr-o
anumit cunoatere a materiei? (alfa=0.05, bilateral)
(2) Presupunnd c 85% din populaie este dreptace (Q) i c 15% este stngace (P):
a. Dac 27 din cei 120 de copii dintr-o coal de art sunt stngaci, care este
scorul z pentru testarea ipotezei?
b. Pe baza scorului z de la punctul a, putem concluziona c frecvena
stngacilor printre copiii cu aptitudini artistice este mai mare dect la
nivelul populaiei? (alfa=0.05, bilateral)

Verificai rspunsurile corecte


Testul z pentru dou proporii independente




S ne ntoarcem la exemplul de mai sus, cu privire la proporia stngacilor, i s l privim
din alt perspectiv. Un studiu pe dou eantioane din dou ri diferite conduce la constatarea c
proporia (p1=0.15) stngacilor a eantionului (n1=100) dintr-o ar este diferit de proporia
(p2=0.25) stngacilor din eantionul corespunztor celeilalte ri (n2=90). Este firesc s ne punem
ntrebarea dac exist ntr-adevr o diferena dintre proporia stngacilor din cele dou ri (pe care
o vom nota cu litere mari: P1 respectiv P2) sau dac, dimpotriv, diferenele constatate sunt doar
expresia variabilitii de eantionare.
n acest caz:
ipoteza cercetrii susine c proporiile la nivelul populaiilor sunt diferite
(P1P2)
ipoteza de nul susine c proporiile celor dou populaii sunt identice
(P1=P2) i, deci, c diferena lor este 0 (P1-P2=0)
n exemplul nostru, P1 i P2 reprezint probabilitile unui eveniment aleator de tip
binomial, n care evenimentul complementar (Q1, respectiv Q2) este caracteristica de a fi dreptaci
(vom ignora acum faptul c pot exista i ambidextri).
Distribuia ipotezei de nul pentru diferenele dintre cele dou proporii este aproximat de
distribuia normal z. Testul statistic va urma modelul testului pentru diferena dintre mediile a dou
eantioane independente:


( )
( )
2 1
) (
2 1 2 1
p p
P P p p
z

(formula 4.3)

unde:
p
1
i p
2
sunt proporiile evenimentului la nivelul eantioanelor
P
1
i P
2
sunt proporiile evenimentului la nivelul populaiei

(p1-p2)
este eroarea standard a distribuiei de eantionare
Avnd n vedere ipoteza de nul (P
1
-P
2
=0), rezult c la numitor se va pstra doar diferena dintre
proporiile eantioanelor (p
1
-p
2
).
34

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
La rndul ei, eroarea standard de eantionare a diferenei proporiilor se calculeaz astfel:

( )
2
2 2
1
1 1
* *
2 1
n
q p
n
q p
p p
+ =

(formula 4.4)


unde:
q1 i q2 sunt proporiile complementare ale lui p
1
, respectiv p
2
(q
1
=1-p
1
, respectiv q
2
=1-p
2
)
n
1
i n
2
sunt volumele celor dou eantioane

Ca urmare, formula pentru testul diferenei dintre proporiile a dou eantioane independente devine:
2
2 2
1
1 1
2 1
* *
n
q p
n
q p
p p
z
+

=
(formula 4.5)

Aceast formul este adecvat atunci cnd eantioanele sunt suficient de mari (>30). n caz contrar,
numrtorul formulei suport o corecie, dup cum urmeaz:

2
2 2
1
1 1
2
2
1
1
* *
* 2
1
* 2
1
n
q p
n
q p
n
p
n
p
z
+

=
(formula 4.6)
Pentru exemplul nostru, vom utiliza formula 4.5

85 . 1
054 . 0
10 . 0
002 . 0 001 . 0
10 . 0
90
75 . 0 * 25 . 0
100
85 . 0 * 15 . 0
25 . 0 15 . 0
=

=
+

=
+

= z

Dac ne-am propus un test bilateral la un nivel alfa=0.05 (pentru care z critic pe curba normal este
egal cu 1.96), atunci va trebui s acceptm ipoteza de nul i s concluzionm c nu se confirm existena
unei diferene semnificative ntre proporia stngacilor din cele dou comuniti.




Sarcina de lucru nr. 3. 2




Dou grupuri de subieci, fiecare compus din 30 de persoane, particip la un experiment n
care este studiat efectul stresului temporal asupra performanei de rezolvare de probleme. Primul
grup are un termen limit iar celalalt, nu are un termen limit. Rezultatele cercetrii arat c 25%
dintre subiecii grupului care a lucrat n criz de timp au rezolvat problema, n timp ce pentru grupul
fr criz de timp, procentul rezolvrilor corecte este de 60%. Se poate afirma c stresul temporal
reduce performana n rezolvarea de probleme? (alfa=0.05, bilateral)

Verifica i corectitudinea rspunsului

35

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale


Testul semnului pentru eantioane dependente
36


Ne amintim c unul dintre modelele uzuale de cercetare n psihologie este cel care
se bazeaz pe eantioane perechi (corelate sau dependente), n care este evaluat o anumit
variabila de dou ori pentru aceiai subieci (sau perechi de subieci). Dac rezultatul
msurrii este exprimat pe o scal de interval/raport, atunci diferena dintre cele dou momente (situaii) se
verific cu ajutorul testului t pentru eantioane dependente. Ce ne facem, ns, dac nu dispunem de
posibilitatea unei msurri la nivel cantitativ i suntem nevoii s observm doar sensul variaiei de la un
moment la altul? Soluia acestei probleme a fost gsit n anul 1710 de John Arbuthnot
3
, medicul personal al
reginei Anna a Angliei, primul care a utilizat testul semnului n analiza retrospectiv, pe o perioad de 82 de
ani, a raportului naterilor de biei i fete (13/12), nregistrate la primria Londrei.

S ne imaginm urmtoarea situaie de cercetare: un psiholog clinician aplic o metod de reducere a
manifestrilor de tip fobic la un grup de 8 de subieci. Dup un numr de edine el dorete s afle dac
metoda lui este eficient i i ntreab pe cei 8 subieci dac se simt mai bine dect la nceputul tratamentului.
Rspunsurile arat c 6 dintre ei afirm c se simt mai bine iar 2, c nu simt nici o modificare (s admitem c
nimeni nu rspuns c se simte mai ru).
n acest caz ipoteza cercetrii susine c metoda are efect, ceea ce nseamn c procentul de
ameliorare este semnificativ mai mare dect cel al absenei oricrui efect al terapiei. Ipoteza de nul este
opusul ei, fapt care se exprim prin echivalena celor dou evenimente posibile (eficiena/ineficiena terapiei)
i se formalizeaz ca P=Q=0.5.
Avnd o probabilitate de 6/8=0.75 pentru evenimentul ameliorare, se poate afirma c acesta este
semnificativ diferit de cel al ipotezei de nul (0.5)?
Pentru a verifica ipoteza, se utilizeaz formula 4.1:
Q P N
P N X
z
* *
*
=


Dei, principial, este corect, se impune o anumit corecie a acestei formule, corecie util mai ales
pentru valori mici ale lui N. Dac privim graficele distribuiilor binomiale prezentate anterior vom observa
c, spre deosebire de curba normal z, acestea au un caracter discontinuu, cu treceri n trepte la o valoare
la alta. Din acest motiv se recomand aplicarea unei corecii de continuitate, prin scderea valorii 0.5 din
valoarea numrtorului, luat n sens absolut. Formula definitiv devine astfel:

Q P N
P N X
z
* *
5 . 0 *
=
(formula 4.7)
Mai departe, nu ne rmne dect s nlocuim valorile i sa facem calculele pentru studiul nostru:

40 . 0
22 . 1
5 . 0
25 . 0 * 75 . 0 * 8
5 . 0 75 . 0 * 8 6
=

=

= z

Mai departe, cutm valoarea lui p corespunztoare pentru z=-0.40 n tabelul distribuiei normale z,
unde gsim p=0.844. Dat fiind faptul c valoarea lui p este mai mare dect 0.05, suntem nevoii s acceptm
ipoteza de nul i s conchidem c, cel puin pn n acel moment, terapia antifobic nu are un efect
semnificativ statistic pe lotul aflat n tratament. Desigur, rezultatul nu trebuie s fie considerat neaprat ca
descurajant de ctre terapeut. Faptul c lotul investigat este att de redus conduce n mod inevitabil la nevoia
unor valori foarte ridicate ale testului statistic pentru atingerea pragului de semnificaie. n cazul nostru
rezultatul poate fi considerat ncurajator dac, s zicem, evaluarea eficienei s-a fcut dup un numr relativ
mic de edine de terapie. Continuarea lor i refacerea testului ar putea conduce la o alt concluzie.

3
Arbuthnot, John. (1710), "An Argument for Divine Providence, Taken From the Constant Regularity Observed in the
Births of Both Sexes," Philosophical Transactions, 27, 186-190.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
Testul semnului (denumit astfel pentru c ia n considerare doar sensul variaiei, nu i valoarea ei)
este utilizabil ca substitut al testului t pentru eantioane dependente n cazul datelor msurate pe scal
nominal dihotomic.



Sarcina de lucru nr. 3. 3
37





(1) ntr-un experiment de psihologie social, participanilor (N=35) li s-a cerut s citeasc
un pasaj care conine o dilem a crei soluie este apoi descris. Subiecilor li s-a cerut apoi s
indice nivelul de susinere pe care l manifest fa de soluia propus, pe o scal de la 1 (foarte
puternic mpotriv), la 7 (foarte mult n favoarea soluiei). n continuare, au loc discuii pe tema
soluiei, dup care subiecilor li se cere s i exprime din nou gradul de susinere. Rezultatele
indic faptul c, n urma discuiilor, un numr de 30 de subieci i-au modificat gradul de susinere
iniial a soluiei. Problema cercetrii este dac discuia n grup are un efect asupra opiniei
participanilor.

(2) ase studeni de la facultatea de arte plastice au fost pui s picteze dou tablouri, pe o
tem imaginar. ntr-un caz au lucrat n condiii de linite, n cel de-al doilea caz au avut un fond
sonor de muzic clasic. Lucrrile lor au fost evaluate de un profesor, care a apreciat c 5 dintre
studeni au pictat mai creativ n condiii de muzic dect n condiii de linite. Se poate concluziona
c muzica clasic favorizeaz creativitatea artistic, pentru alfa=0.05, bilateral? (utilizai Tabelul
3.1 din Anexe)

Verific rspunsul corect



Distribuia multinomial




S presupunem c populaia absolvenilor de liceu se mparte n patru categorii: teoretic-
umanist, teoretic-real, artistic. Probabilitile aferente fiecrui tip de liceu sunt, respectiv, P,
Q i R. ntr-o asemenea situaie P+Q+R=1. De asemenea, putem scrie probabilitile pentru fiecare
eveniment dup modelul: Q=1-P-R. S lum n considerare situaia n care toate liceele au acelai
numr de absolveni, deci P=Q=R=1/3=0.33. Alegerea unor ponderi diferite, aa cum este i cazul
n realitate, nu ar schimba datele raionamentului care urmeaz dar l-ar face mai puin evident. Mai
departe, s ne imaginm c analizm tipul de liceu absolvit de studenii unei faculti de psihologie
i constatm c din 100 de studeni 60 sunt absolveni de liceu teoretic-umanist, 30 au absolvit un
liceu cu profil artistic i 10, unul cu profil teoretic-real. Ponderea studenilor la facultatea
respectiv este, evident, diferit de ponderea din cadrul populaiei de absolveni. Se poate afirma c
absolvenii de profil umanist i artistic prefer psihologia mai mult dect care au absolvit un
profil real? Sau, ntr-o formulare mai larg, se poate afirma c exist o relaie ntre tipul de liceu
absolvit i preferina pentru psihologie ca specialitate universitar?
Datele din exemplul de mai sus nu mai pot fi analizate prin prisma distribuiei binomiale
deoarece implic mai mult dect dou evenimente posibile. De aceea, distribuia acestora se
numete distribuie multinomial. Desigur, procedura de calcul pentru acest caz ar putea urma
modelul celei binomiale dar, din cauza complexitii ei, s-a apelat la o soluie mai simpl. Aceast
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
soluie este fundamentat pe o aproximare derivat din formula binomial a lui z, care este pur si
simplu ridicat la ptrat, devenind:

( )
Q P N
P N X
z
* *
*
2
2

=
(formula 4.8)

Dac, nainte de ridicarea la ptrat, z urmeaz o distribuie normal, dup ridicarea la ptrat
z urmeaz un alt tip de distribuie, numit chi-ptrat i simbolizat cu litera greceasc

cu
indicele de ridicare la ptrat (
2
). Fr a intra n amnunte, vom preciza c distribuia
2
prezint
urmtoarele caracteristici:
este, la fel ca distribuia normal, o familie de distribuii;
are form asimetric;
are originea n zero (din cauza ridicrii la ptrat);
are o form dependent de numrul de grade de libertate.

Imaginea de mai jos prezint dou distribuii chi-ptrat, pentru 4, respectiv, 10 grade de
libertate.




nainte de a merge mai departe, s analizm puin, datele sugerate de exemplul de mai sus.
Aa cum am spus, ponderea studenilor la facultatea de psihologie este, n funcie de tipul de liceu
absolvit, de, respectiv, 60, 30, 10. Aceste valori se numesc frecvene observate sau frecvene
calculate (notate cu f
o
de la Observed), fiind cele consemnate n cadrul studiului. La rndul lor,
frecvenele corespunztoare distribuiei de nul, cele care se refer, n acest caz, la ponderea
absolvenilor de liceu n general, se numesc frecvene ateptate (notate cu f
e
de la Expected).
Raportul dintre aceste dou categorii de frecvene se afl la baza testului de semnificaie statistic
numit chi-ptrat, despre care vorbim mai departe.


Testul chi-ptrat





Tabelul de coresponden (contingen)

38

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
39

nainte de a trece la testul propriu-zis, este util s aruncm o privirea asupra modului de organizare a
datelor pentru o situaie similar exemplului de mai sus. n acest scop, putem s ne permitem o lrgire a
cadrului de investigare. S presupunem c avem cele trei categorii de liceu i ne intereseaz distribuirea lor,
nu n legtur cu o singur facultate (cea de psihologie), ci n legtur cu trei tipuri de faculti: umaniste,
artistice i tehnice.
Dac realizm un cadru de reprezentare sintetic al valorilor celor dou variabile, obinem ceea ce se
numete un tabel de coresponden. Iat cum ar arta un astfel de tabel, pentru un set de date ipotetice:

Liceu
umanist
Liceu
real
Liceu
artistic
Total pe
linii
Fac. Umaniste 45 20 30 95
Fac. Tehnice 14 60 12 86
Fac. Artistice 20 13 50 83
Total pe coloane 79 93 92 264

Acesta este un tabel de coresponden pentru dou variabile nominale, fiecare avnd cte trei valori
distincte (categorii)
4
. Valorile din celule reprezint numrul de cazuri (frecvenele observate) care corespund
fiecrei combinaii dintre categoriile celor dou variabile. Totalul pe linii exprim numrul de studeni din
fiecare facultate, consemnai n cercetare, indiferent de tipul de liceu absolvit, totalul pe coloane, exprim
numrul de absolveni din fiecare tip de liceu, indiferent de facultatea la care sunt nscrii, iar la intersecia
celor dou totaluri regsim totalul general al subiecilor cercetrii (N=264).


Fundamentarea testului statistic

Avnd un numr de 95 de studeni n faculti umaniste, aceast nseamn c ei reprezint 36% din
totalul subiecilor cercetrii (95/264*100=36). Acest procent indic se refer la absolvenii care au ales o
facultate de tip umanist, indiferent de liceul absolvit. n mod similar, calculm procentele corespunztoare
celorlalte tipuri de faculti. Valorile astfel calculate, pentru fiecare linie a tabelului, se numesc frecvene
marginale.
Dac alegerea facultii nu ar avea nici o legtur cu tipul de liceu absolvit atunci, n mod normal, ar
trebui s regsim, pentru fiecare tip de liceu, acelai procent care exprim ponderea studenilor din fiecare
facultate n totalul subiecilor cercetai. Avnd procentele studenilor din fiecare facultate i numrul
absolvenilor din fiecare tip de liceu, putem calcula frecvenele teoretice (ateptate) pentru fiecare celul a
tabelului. De exemplu, dintre cei 79 de absolveni de liceu umanist consemnai de cercetare, 36% ar trebui s
se afle n faculti umaniste, ceea ce nseamn: (79*36)/100=28.4. n mod similar, ar trebui s avem 32.5%
(25.6) n faculti tiinifice i 31.5% (24.8) n faculti artistice. Acelai raionament se aplic mai departe i
celorlalte tipuri de liceu, cu utilizarea procentului corespunztor fiecrei faculti. Precizm c frecvenele
teoretice (ateptate) vor fi aceleai, n fiecare celul, chiar dac vor fi calculate pe baza frecvenelor
marginale de pe coloane.

Liceu
umanist
Liceu
real
Liceu
artistic
Total pe
linie
% pe linii
Fac. Umaniste
45
(28.4)
20
(33.4)
30
(33.1)
95 (95/264)*100=36%
Fac. Tehnice
14
(25.6)
60
(30.2)
12
(29.9)
86 (86/264)*100=32,5%
Fac. Artistice
20
(24.8)
13
(29.2)
50
(28.9)
83 (83/264)*100=31.5%
Total pe coloan 79 93 92 264


4
n mod similar, se pot crea tabele de coresponden pentru variabile categoriale avnd, fiecare, un numr diferit de
valori (categorii).
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
Aa cum constatm, ntre frecvenele observate i cele ateptate sunt diferene. Suma frecvenelor
ateptate (teoretice) este egal cu suma frecvenelor observate (poate rezulta o anumit diferen ntre
totaluri, ca urmare a aproximrii zecimalelor).

n final, problema cercettorului este aceea de a stabili dac ntre frecvenele observate i cele
teoretice (calculate) este o diferen care s justifice aprecierea c ntre cele dou variabile exist sau nu o
legtur. Datele de acest gen nu mai pot fi analizate prin prisma distribuiei binomiale, deoarece implic mai
mult dect dou evenimente posibile. De aceea, distribuia acestora se numete distribuie multinomial.
Desigur procedura de calcul pentru acest caz ar putea urma modelul celei binomiale dar, din cauza
complexitii ei, s-a apelat la o soluie mai simpl. Aceast soluie este fundamentat pe o aproximare
derivat din formula binomial a lui z, care este pur si simplu ridicat la ptrat, devenind:

( )
Q P N
P N X
z
* *
*
2
2

=
(formula 4.8)

Dac nainte de ridicarea la ptrat z urmeaz o distribuie normal, dup ridicarea la ptrat z urmeaz
un alt tip de distribuie, numit chi-ptrat, simbolizat cu litera greceasc cu indicele de ridicare la ptrat
(
2
). Fr a intra n amnunte, vom preciza c distribuia
2
prezint urmtoarele caracteristici:
este, la fel ca i distribuia normal, o familie de distribuii;
are form asimetric;
are originea n zero (din cauza ridicrii la ptrat);
are o form dependent de numrul de grade de libertate.

La fel ca i distribuiile t i F, distribuia
2
este dependent de numrul gradelor de libertate.
Acestea se calculeaz pe baza tabelului de coresponden dintre cele dou variabile, astfel:
df=(numr coloane-1)*(numr linii-1)
Formula de calcul pentru testul chi-ptrat, derivat din formula 4.8, este :


=
E
E O
f
f f
2
2
) (

(formula 4.9)

unde f
O
este frecvena observat, iar f
E
, frecvena ateptat.

Decizia pentru testul chi-ptrat se bazeaz pe compararea valorii calculate cu o valoare critic,
corespunztoare nivelului alfa ales (0.05 sau, opional, mai mic). Valorile critice pentru distribuia chi-ptrat
se gsesc ntr-o tabel special (vezi anexa 6). Dac valoarea calculat a lui
2
este egal sau mai mare dect
valoarea critic pentru nivelul ales al lui alfa, atunci ipoteza de nul poate fi respins, iar ipoteza cercetrii
confirmat.
Pe aceast structur formal se bazeaz dou variante distincte ale testului chi-ptrat: testul
corespondenei (Goodness of Fit) i testul asocierii. Primul, compar frecvenele observate ale valorilor unei
singure variabile cu frecvenele ateptate pentru acele valori. Al doilea, compar frecvenele valorilor
observate pentru dou variabile cu frecvenele lor ateptate, cu scopul de a testa relaia (asocierea) dintre cele
dou variabile.


Testul chi-ptrat pentru gradul de coresponden (goodness of fit)

Aceast variant a testului chi-ptrat compar frecvenele observate ale unei distribuii cu
frecvenele teoretice (ateptate) ale acelei variabile. De exemplu, dac avem frecvenele unei variabile putem
afla dac aceasta se distribuie dup curba normal (z), prin compararea cu frecvenele cunoscute ale acestei
distribuii (aria de sub curb).
40

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
S presupunem c a fost aplicat un test de cunotine unui eantion de 200 de elevi, care a fost
evaluat cu calificative, astfel: F.Slab, Slab, Mediu, Bun, F.Bun.
Problema cercetrii: Calificativele obinute se distribuie normal la nivelul clasei?
Populaia 1: Calificativele obinute de elevi.
Populaia 2: Calificativele, aa cum s-ar distribui pe o curb normal: FS=2.5%, B=14%, M=67%,
B=14% i FB=2.5% (procentele sunt cele tipice unei curbe z, mprite n cinci clase valorice).
Ipoteza cercetrii (H
1
): Distribuia calificativelor urmeaz legea curbei normale la nivelul
eantionului de elevi.
Ipoteza de nul (H
0
): Distribuia calificativelor nu urmeaz legea curbei normale n rndul
elevilor examinai.

Determinarea caracteristicilor deciziei statistice:
alegem =0.05 (n cazul testului
2
decizia nu poate fi dect unilateral, deoarece acest test nu
poate lua valori negative)
gsim valoarea critic pentru
2
=9.48 n tabela pentru distribuia
2
, pentru df=(2-1)*(5-1)=4 i
=0.05

Tabelul urmtor conine datele de cercetare i algoritmul de calcul:

Calificativ
Frecvena
observat
(f
O
)
Frecvena ateptat
(f
E
)
E
E O
f
f f
2
) (

FB 10 2.5% din 200 =5 00 . 5
5
) 5 10 (
2
=


B 34 14% din 200 =28 29 . 1
28
) 28 34 (
2
=


M 140 67% din 200 =134 27 . 0
134
) 134 140 (
2
=


S 10 14% din 200 =28 57 . 11
28
) 28 10 (
2
=


FS 6 2.5% of 200 =5 20 . 0
5
) 5 6 (
2
=


200 - 33 . 18
) (
2
2
=

E
E O
f
f f


Decizia statistic:

2
calculat (18,33) este mai mare dect
2
critic (9,48)
Respingem ipoteza de nul i tragem concluzia c distribuia calificativelor urmeaz forma curbei
normale.

Concluzia statistic poate fi interpretat, n acest caz, ca fiind negativ din punctul de vedere al
eficienei procesului didactic. n mod normal, dac activitatea de nvare ar fi eficient, rezultatele elevilor
ar trebui s se distribuie asimetric negativ, adic cu tendin de grupare a valorilor spre calificativele
superioare. Rezultatele procesului de nvare nu se distribuie normal, nefiind un proces natural, ci unul
n care valorile (calificativele) sunt supuse unei influene sistematice (prin efortul profesorilor i al elevilor
nii) nspre valorile mari.

Facem, nc o dat, precizarea c aceast form a testului chi-ptrat se aplic atunci cnd vrem s
comparm frecvene observate cu frecvene teoretice (ateptate), pe care le cunoatem deja. El este
echivalentul testului z pentru proporii pentru distribuia binomial, cu specificaia c se utilizeaz atunci
cnd avem mai mult de dou categorii. Testul chi-ptrat pentru gradul de coresponden (goodness of fit) nu
are un indice de mrime a efectului.
41

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale

Iat cteva exemple posibile de cercetri ale cror date pot fi analizate cu testul chi-ptrat al gradului
de coresponden:
Vrem s tim dac exist o preferin pentru o anumit categorie de muzic (clasic,
popular, pop-rock). n acest caz, dac distribuia preferinelor nu ar fi influenat de nici o anumit
preferin (ipoteza de nul) atunci frecvena ateptat (teoretic) pentru fiecare gen muzical ar trebui s fie
echivalent cu 100/3=33.3% numrul subiecilor. Mai departe, nu ne rmne dect s testm diferena dintre
cele dou categorii de frecvene (teoretice i observate), conform modelului de calcul de mai sus.
ntr-un studiu asupra relaiei dintre atractivitate i preferina pentru profesori, unui numr de
studeni li se prezint fotografiile preselectate ale unor ase poteniali profesori, ale cror portrete sugereaz
grade diferite de atractivitate, i li se cere s aleag dintre acetia pe cel pe care ar dori s l aib ca profesor.
Dac gradul de atractivitate nu are nici un impact asupra preferinei ca profesor, atunci frecvenele cu care
sunt alese fotografiile ar trebui s fie egale (100/6=16.6%).
ntr-un studiu de marketing, o companie trebuie s aleag dintre patru propuneri imagini.
Acestea sunt prezentate unui eantion de subieci i se consemneaz numrul de preferine exprimate pentru
fiecare imagine. Dac toate ar avea acelai impact, atunci numrul de preferine ar trebui s fie egal (25%,
pentru fiecare imagine).




Sarcina de lucru nr. 3. 4



Vrem s tim dac exist o preferin pentru un anumit gen muzical (clasic, popular,
dance, rock) printre cei 200 de studeni ai facultii de psihologie. n acest caz, dac distribuia
preferinelor nu ar fi afectat de nici o preferin (ipoteza de nul), atunci frecvena ateptat
(teoretic) pentru fiecare din cele patru genuri muzicale este 25% numrul subiecilor (100%
mprit la cele patru genuri muzicale), adic exact 50 pentru fiecare gen muzical. n realitate,
preferinele exprimate de studeni se distribuie astfel: muzic clasic=30; muzic popular=15;
muzic dance=100; muzic rock=55. Problema cercetrii este dac exist o distribuie preferinial
pentru genurile muzicale, n rndul studenilor de la psihologie (pentru alfa=0.5).
5


Verific rspunsul corect la pagina 22


Chi-ptrat - testul asocierii (independence chi-square)
6


Aceast variant a testului chi-ptrat este mai frecvent utilizat. Ea compar frecvenele observate
ale unei distribuii (variabile) cu frecvenele corespondente ale altei distribuii (variabile), ambele msurat pe
scale de tip categorial, cu scopul de a vedea dac exist o relaie ntre cele dou variabile. S presupunem c
avem rezultatele la testul de statistic (msurate pe o scal ordinal i notate, convenional, cu A, B, C, D, E,
unde A reprezint nivelul de performan cel mai ridicat iar E, cel mai sczut).
Problema cercetrii: Dorim s aflm dac exist o diferen semnificativ ntre biei (M) i fete (F)
la testul de statistic.
Ipoteza cercetrii: Distribuia performanei depinde de genul masculin sau feminin.
Ipoteza de nul: Rezultatele la testul de statistic nu au legtur cu variabila sex.
Determinarea criteriilor de decizie statistic:
alegem =0.05
df=(2-1)*(5-1)=4
citim valoarea critic pentru
2
n tabela pentru distribuia
2
:

5
Datele sunt fictive.
42

6
Cunoscut i sub numele testul chi-ptrat Pearson al asocierii, a fost elaborat de Karl Pearson.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale

2
critic
= 9.49

Datele cercetrii ar putea fi astfel centralizate n urmtorul tabel de coresponden
7
:
Performana la test
A B C D F Total
Masculin 10 34 140 10 6 200 = 57.14% din total general
Feminin 10 32 97 6 5 150 = 42.86% din total general
Total 20 66 237 16 11 Total general=350

Frecvenele marginale sunt: 200 (57.14%) pentru biei i 150 (42.86%) pentru fete
Dac performana la test nu are nici o legtur cu genul subiecilor, trebuie s regsim aceste
procente pentru fiecare dintre calificativele acordate.
Aceasta nseamn c, teoretic, n celula A/Masculin, ar trebui s gsim, proporional, tot atia biei
ci sunt pe ntregul lot (57.14%). Adic (20*57.14)/100=11.42, care reprezint frecvena ateptat
pentru celula respectiv din tabelul de coresponden.
La fel, pentru celula A/Feminin ar trebui s avem 42.86% din totalul pentru feminin, adic:
(20*42.86)/100=8.52.
n acelai mod de calculeaz frecvenele observate pentru fiecare celul a tabelului.

Pentru o mai uoar nelegere a mecanismului de calcul, vom rearanja tabelul astfel:
Celule
Frecvena
observat
(f
O
)
Frecvena ateptat
E
E O
f
f f
2
) (

Masculin A 10 (20*57.14)/100=11.43 18 . 0
43 . 11
) 43 . 11 10 (
2
=


Masculin B 34 (66*57.14)/100=37.71 36 . 0
71 . 37
) 71 . 37 34 (
2
=


Masculin C 140 (237*57.14)/100=135.42 15 . 0
42 . 135
) 42 . 135 140 (
2
=


Masculin D 10 (16*57.14)/100=9.14 08 . 0
14 . 9
) 14 . 9 10 (
2
=


Masculin F 6 (11*57.14)/100=6.29 01 . 0
29 . 6
) 29 . 6 6 (
2
=


Feminin A 10 (20*42.86)/100=8.57 24 . 0
57 . 8
) 57 . 8 10 (
2
=


Feminin B 32 (66*42.86)/100=28.29 49 . 0
29 . 28
) 29 . 28 32 (
2
=


Feminin C 97 (237*42.86)/100=101.58 21 . 0
58 . 101
) 58 . 101 97 (
2
=


Feminin D 6 (16*42.86)/100=6.86 11 . 0
86 . 6
) 86 . 6 6 (
2
=


Feminin F 5 (11*42.86)/100=4.71 02 . 0
71 . 4
) 71 . 4 5 (
2
=


350

85 . 1
) (
2
2
=

=

E
E O
f
f f




43

7
Datele din acest exemplu nu se refer la o situaie real.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
Se compar
2
critic (9.49) cu
2
calculat (1.85) pentru df = (2-1)(5-1) = 4
Valoarea calculat a testului este mai mic dect valoarea critic, ca urmare, acceptm ipoteza de
nul. Rezultatele la test nu confirm ipoteza c rezultatele se distribuie n funcie de apartenena de
gen a subiecilor.

Condiii pentru aplicarea testului
2



Cele dou variabile nu trebuie s se intersecteze (s nu existe subieci care s fie inclui n mai
mult de o celul de tabel)
Selecie aleatoare a eantioanelor
Este recomandabil ca frecvena ateptat s nu ia valori mai mici de 5 (sau, cel puin, n nu mai mult
de 20% din celule).
Nici o celul nu trebuie s aib frecvena ateptat mai mic de 1.

Pentru situaiile n care frecvenele ateptate sunt mai mici dect specificaiile de mai sus, sau atunci
cnd tabelul de coresponden dintre variabile are dou linii i dou coloane, se recomand aplicarea unei
corecii la formula de baz. Aceasta se numete corecia Yeates i const n scderea unei constante (0.5)
din expresia de la numrtor, luat n valoare absolut:

( )


=
E
E O
f
f f
2
2
5 . 0
(formula 4.10)


Utilizarea testului chi-ptrat al asocierii

Testul chi-ptrat al asocierii se utilizeaz atunci cnd dorim s testm relaia dintre dou variabile,
ambele msurate pe scal de tip categorial. Facem precizarea c variabilele categoriale dei sunt, de regul,
de tip nominal, pot fi att ordinale ct i de interval sau de raport. Ceea ce caracterizeaz o variabil
categorial nu este att scala de msurare, ct faptul c primete puine valori, care mpart distribuia n
categorii de valori. De exemplu, ntr-un studiu cu privire la relaia dintre gravitatea accidentelor de circulaie
(fr rnii, cu rnii uor, cu rnii grav, cu mori) i puterea motoarelor (1400 cm
3
, 1600 cm
3
, 2000
cm
3
, 2500 cm
3
, 3000 cm
3
), ambele variabile sunt de tip categorial, dar prima este pe scal nominal, iar a
doua pe scal cantitativ.
Testul chi-ptrat al asocierii (independenei) poate fi vzut ca un veritabil test de corelaie pentru
date categoriale. De asemenea, poate fi folosit n locul testului t sau ANOVA, dac nu sunt ndeplinite
condiiile pentru variabila dependent. ntr-un asemenea caz, variabila dependent cantitativ se transform,
prin gruparea n frecvene, n variabil de tip categorial. Aceast opiune se va alege numai dac ne aflm n
faa unei flagrante violri a condiiei de normalitate, deoarece testele parametrice au o putere mai mic dect
cele neparametrice. La fel ca i n cazul altor teste statistice, nu se vor putea trage concluzii de tip cauzal
dect numai dac variabilele sunt msurate n contextul unui experiment psihologic.


Marimea efectului pentru testul chi ptrat al asocierii

Coeficientul (fi)

Atunci cnd utilizm testul pentru asocierea variabilelor, valoarea
2
certific faptul c cele dou
variabile sunt relaionate. Dar mrimea lui
2
nu ne spune nimic cu privire la intensitatea relaiei dintre
variabile. De fapt, mrimea lui
2
este n funcie de N. Dac multiplicm frecvenele celulelor cu o constant,
valoarea lui
2
se multiplic i ea cu acea constant, singura consecin fiind aceea c se diminueaz
probabilitatea ca valoarea respectiv s fie obinut din ntmplare. Pentru completarea interpretrii valorii
2

este necesar un indicator suplimentar, care s ne spun ceva i despre intensitatea legturii, nu doar despre
semnificaia acesteia. Un astfel de indicator este coeficientul (fi), care se calculeaz pentru asocierea
variabilelor care prezint fiecare doar dou valori posibile (tabele de contingen 2x2).
Formula dup care se calculeaz este:
44

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale

N
2

= (formula 4.11)

Coeficientul Cramer

Coeficientul este adecvat doar pentru tabelele de contingen de tip 2x2, cnd ambele variabile
sunt dihotomice. O uoar modificare a acestuia, denumit Cramer, l face utilizabil pentru intensitatea
asocierii dintre variabile avnd un numr diferit de categorii.
Indicele Cramer se calculeaz dup formula:

) 1 (
2

=
L N
c

(formula 4.11 bis)
unde:
N este volumul eantionului
L este valoarea cea mai mic dintre numrul liniilor sau al coloanelor tabelului de
coresponden (de exemplu, pentru un tabel de coresponden 4x3 - patru linii i patru
coloane - L are valoarea 3-1=2).

n cazul coeficienilor , dac frecvenele fiecrei celule din tabelul de coresponden sunt
multiplicate cu o constant, att
2
ct i N cresc concomitent, iar valoarea coeficientului rmne aceeai.
Coeficientul se modific numai dac se modific i raporturile dintre proporii, ceea ce nseamn c
mrimea lui nu este influenat de N. El reprezint un indicator numeric al intensitii relaiei i poate lua
valori ntre zero - absena relaiei i unu - relaie perfect ntre cele dou variabile. De exemplu, pentru testul
chi-ptrat al asocierii dintre gen i performana la testul de statistic (care a rezultat nesemnificativ), al crui
tabel de coresponden este de forma 2x5, valoarea coeficientului
c
este:

07 . 0
350
85 . 1
) 1 2 (
2
= =

=
N
c



Interpretarea coeficienilor

Valoarea coeficientului se asociaz interpretrii testului chi-ptrat, atunci cnd acesta este
semnificativ, pentru a aduga o informaie suplimentar cu privire la intensitatea relaiei. Prin ridicarea la
ptrat a expresiei de calcul, coeficientul
2
poate fi interpretat procentual, la fel ca i coeficientul de
determinare (r
2
), indicnd proporia variaiei unei variabile determinat de variaia celeilalte variabile. n
cazul nostru, numai 0.4% (0.07
2
*100) din variaia calificativelor la testul de statistic este explicat prin
diferena de gen (masculin/feminin), ceea ce, n conformitate cu decizia statistic, s-a dovedit a fi
nesemnificativ.
n conformitate cu recomandrile lui Cohen, cit. de Kotrlik i Williams (2003), valorile lui vor fi
interpretate dup cum urmeaz:

0.10 efect mic
0.25 efect mediu (Cohen)
0.40 efect mare

Raportarea rezultatului

n cazul testului
2
elementele care vor fi incluse n raport sunt urmtoarele: gradele de libertate,
valoare testului, nivelul p i coeficientul sau Cramer . n varianta narativ, pentru exemplul de mai sus,
prezentarea rezultatelor ar putea avea urmtoarea form:
Rezultatele testului de statistic, evaluate pe cinci clase valorice (A,B,C,D,E) au fost comparate pe
sexe. Testul
2
pentru asocierea variabilelor indic faptul c rezultatele nu difer semnificativ n funcie de
gen,
2
(4) = 1.85, p >0 .05, cu un coeficient =0.07, care indic o asociere slab.
45

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
n cazul n care testul ar fi fost semnificativ, raportarea rezultatelor ar fi trebuit s conin i referine
cu privire la procentele consemnate n celulele tabelului de coresponden, astfel nct s fie scoase n
eviden diferenele releavnte dintre categoriile comparate.


Sarcin de lucru nr. 3. 5



80 de pacieni depresivi au fost mprii aleatori n patru grupuri egale, fiecare dintre acestea
urmnd un tip diferit de psihoterapie (psihodinamic, rogerian, de grup i comportamental). Dup ase
luni de terapie, fiecare pacient a fost clasificat ntr-una din urmtoarele trei categorii: ameliorat, agravat,
neschimbat. Datele sunt cele din tabelul urmtor:

model psihoterapeutic
Frecvene observate
psihodinamic rogerian de grup comportamental
suma pe linie
ameliorat 6 4 8 12 30
neschimbat 6 14 3 5 28
nrutit 8 2 9 3 22
suma pe coloane 20 20 20 20 N=80

Problema cercetrii: Pe baza datelor existente, se poate concluziona c exist o diferen de
eficien le celor patru tehnici terapeutice asupra depresiei? (pentru alfa=0.5).

Verificai rspunsurile corecte




Testul exact Fisher




Aa cum am precizat, testul chi-ptrat este calculat pe baza unei formule ale crei rezultate nu urmeaz cu
maxim precizie distribuia
2
. Dac n cele mai multe situaii acest lucru nu reprezint un neajuns notabil,
sunt si cazuri n care rezultatele pot fi alterate suficient de mult pentru a putea fi luate n considerare:
atunci cnd volumul eantionului este redus (N<20);
atunci cnd valorile f
e
pentru una sau mai multe dintre celulele tabelei de coresponden
sunt foarte mici.
n aceste situaii, precum i atunci cnd tabelul de coresponden este compus din dou linii i dou
coloane, este recomandabil utilizarea testului exact Fisher. El se bazeaz pe calcularea tuturor tabelelor
posibile ce pot fi construite pentru frecvenele marginale. Deoarece necesit un mare volum de calcule, testul
exact Fisher se efectueaz numai cu ajutorul programelor computerizate.










46

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale



Rezumatul unitii de nvare



Distribuia binomial deriv din serii de evenimente independente dihotomice. Cele dou
posibiliti ale fiecrui eveniment au probabilitile P i Q, a cror sum este 1 (de unde
Q=1-P).
Atunci cnd P=Q=0.5, distribuia binomial este simetric. Pe msur ce numrul
evenimentelor (N) crete, distribuia binomial se apropie de forma normal. Chiar i atunci
cnd PQ distribuia binomial se apropie de forma normal odat cu creterea lui N.
Atunci cnd N crete la infinit, distribuia binomial devine normal, avnd media=N*P i
abaterea standard=
N P Q
. Ca urmare, probabilitatea ca un anume eveniment s cad n
categoria P poate fi aproximat prin calcularea unui scor z i evaluarea ariei corespunztoare
de sub curba normal.
Dac P=0.5, distribuia normal devine o aproximare bun pentru distribuia normal
ncepnd cu N=25.
Testul semnului poate fi utilizat n locul testului t pentru eantioane dependente atunci cnd
nivelul diferenei dintre cele dou determinri nu poate fi evaluat, ci numai direcia
diferenei. Dat fiind faptul c fiecare diferen poate fi ntr-una din categorii (+ sau -)
distribuia binomial poate fi utilizat pentru a estima n ce msur dezechilibrul ntre cele
dou categorii este posibil s apar din ntmplare (prin raportare la distribuia normal).
Atunci cnd N nu este foarte mare, utilizarea distribuiei normale pentru aproximarea
distribuiei binomiale introduce o eroare sistematic care poate fi compensat prin corecia
de continuitate, extrgnd 0.5 din valoare absolut a diferenei de la numrtorul scorului z.
Dac evenimentele probabilistice pot avea mai mult dect dou posibiliti (de ex., adevrat-
fals), probabilitatea cu care fiecare eveniment cade ntr-una din categoriile posibile se
supune distribuiei multinomiale.
Din cauza complexitii procesului de evaluare a probabilitilor multinomiale, este utilizat
o estimare a acestora prin distribuia chi-ptrat. Numrul gradelor de libertate pentru
distribuia multinomial este dat de numrul categoriilor minus 1.
Testul chi-ptrat are dou variante: (1) Testul chi-ptrat al asocierii testeaz diferena dintre
valorile a dou variabile categoriale (nominale sau ordinale). (2) Testul chi ptrat al
corespondenei (goodness-of-fit) msoar diferena (potrivirea) dintre valorile unei
variable categoriale i probabilitile teoretice dinainte cunoscute ale acestor valori.
Diferenele mari dintre frecvenele observate i cele ateptate produc valori ridicate ale
testului chi-ptrat, care cad n zona dreapt (pozitiv) a distribuiei de nul i conduc la
respingere a ipotezei de nul. Diferenele mici, produc valori ale testulu chi-ptrat apropiate
de zero, conducnd la acceptarea ipotezei de nul.
Atunci cnd fiecare dintre cele dou variabile au doar dou categorii, situaie n care
frecvenele ateptate sunt prea mici pentru a justifica o estimare chi-ptrat, se utilizeaz
testul exact Fischer.

47

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale

Rspunsuri i comentarii la problemele de evaluare

48


Rspunsuri corecte la sarcin de lucru nr. 3. 1

(1) Se accept ipoteza de nul (pentru alfa=0.05, bilateral). Studentul a rspuns la ntmplare.
6 . 1
5 . 0 * 5 . 0 * 100
50 58
=

= z (mai mic dect 1.96, ct este z critic pentru alfa=0.05 bilateral)



(2) (a) 33 . 2
03 . 0
07 . 0
120
15 . 0 * 85 . 0
15 . 0 22 . 0
= =

= z
(b) da, deoarece z calculat este mai mare dect z critic pentru alfa 0.05, bilateral (1.96)


Rspuns la sarcina de lucru 3.2

18 . 3
11 . 0
35 . 0
008 . 0 006 . 0
59 . 0 24 . 0
30
40 . 0 * 60 . 0
30
75 . 0 * 25 . 0
30 * 2
1
60 . 0
30 * 2
1
25 , 0
=

=
+

=
+


= z

Se respinge ipoteza de nul. Stresul temporal reduce performana n rezolvarea de probleme.

Rspuns la sarcina de lucru 3.3

(1) 06 . 4
95 . 2
12
5 . 0 * 5 . 0 * 35
5 . 0 5 . 0 * 35 30
= =

= z

z calculat (4.06) este mai mare dect z critic pentru alfa=0.05 bilateral (1.96). Ca urmare, se respinge ipoteza
de nul i se accept ipoteza cercetrii. Discuiile n grup au efect asupra opiniei individuale.

(2) p=(0.0938+0.0156)*2=0.2188 Se accept ipoteza de nul (se respinge ipoteza cercetrii),
deoarece p=0.21 este mai mare dect nivelul alfa=0.05.

Rspuns la sarcina de lucru 3.4


Gen
muzical
Frecvena
observat
(f
O
)
Frecvena ateptat
(f
E
)
E
E O
f
f f
2
) (

clasic 30 25% din 200 =50
( )
8
50
50 30
2
=


popular 15 25% din 200 =50
( )
5 . 24
50
50 15
2
=


Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
dance 100 25% din 200 =50
( )
50
50
50 100
2
=


rock 55 25% din 200 =50
( )
5 . 0
50
50 55
2
=


200 - 83

( )
83
2
2
=

=
E
E O
f
f f

Criterii de decizie: alfa=0.05; df=(2-1)*(5-1)=4
Valoarea critic pentru X
2
=9.49 (atenie X
2
nu se testeaz bilateral)

Decizia: X2 calculat (83) este mai mare dect X2 critic (9.49), iar ca urmare, se respinge ipoteza de nul.
Studenii de la psihologie au anumite preferine n raport cu cele patru genuri muzicale.


Rezultatul sarcinii de lucru 1.5

Criterii de decizie: df=(3-1)*(4-1)=6; alfa=0.05; X
2
critic=12.59

Pentru uurina calculelor, datele se aranjeaz ca n tabelul urmtor:


fo f
E

E
E O
f
f f
2
) (

ameliorat-I 6 (30/80)*20=7.5 (6-7.5)
2
/7.5=0.3
ameliorat-II 4 (30/80)*20=7.5 (4-7.5)
2
/7.5=1.63
ameliorat-III 8 (30/80)*20=7.5 (8-7.5)
2
/7.5=0.03
ameliorat-IV 12 (30/80)*20=7.5 (12-7.5)
2
/7.5=2.7
neschimbat-I 6 (28/80)*20=7 (6-7)
2
/7=0.14
neschimbat-II 14 (28/80)*20=7 (14-7)
2
/7=7
neschimbat-III 3 (28/80)*20=7 (3-7)
2
/7=2.28
neschimbat-IV 5 (28/80)*20=7 (5-7)
2
/7=0.57
nrutit-I 8 (22/80)*20=5.5 (8-5.5)
2
/5.5)=1.13
nrutit-II 2 (22/80)*20=5.5 (2-5.5)
2
/5.5)=2.22
nrutit-III 9 (22/80)*20=5.5 (9-5.5)
2
/5.5)=2.22
nrutit-IV 3 (22/80)*20=5.5 (3-5.5)
2
/5.5)=1.13
=21.4

Valoarea calculat (X
2
=21.4) este mai mare dect valoarea X
2
critic (9.49). Ca urmare,
ipoteza de nul se respinge.
Concluzia cercetrii: Exist o diferen ntre cele patru categorii psihoterapeutice n ceea
ce privete eficiena asupra depresiei.
8








49

8
Datele cercetrii sunt fictive.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale

Lucrarea de evaluare nr. 3.1 i modul de cotare



Lucrarea de evaluare va vi publicat pe portal. Termenul de trimitere este preziua tutorialului. Dup
aceast dat lucrrile trimise nu vor mai fi acceptate.

50

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
TESTE STATISTICE NEPARAMETRICE PENTRU DATE ORDINALE



Obiectivele unitii de nvare i informaii introductive






Parcurgerea acestei uniti va permite studenilor:

S calculeze testul Mann-Whitney
S calculeze testul Kruskall-Wallis
S calculeze testul Wilcoxon
S calculeze testul Friedman
S calculeze testul de corelaie pentru date ordinale Spearman







Introducere




Testele statistice pentru date ordinale se utilizeaz n dou situaii:

a) Atunci cnd variabila dependent este exprimat pe scal de tip ordinal. n acest caz
valorile nu au proprieti de interval dar exprim poziia fiecreia n raport cu cealalt.
b) Atunci cnd variabila dependent este msurat pe scal de interval/raport dar
distribuia ei nu respect condiiile impuse de testele parametrice. n aceast situaie se efectueaz
transformare de rang, adic nlocuiete fiecare valoare a distribuiei cu poziia pe care o are n
cadrul distribuiei, sub aspectul ordinii de mrime. Noua distribuie rezultat poate fi supus
analizei statistice cu teste neparametrice ordinale.


Testul Mann-Whitney (U) pentru dou eantioane independente



S lum n considerare urmtoarea problem: Un psiholog care lucreaz ntr-o mare banc
dorete s vad dac exist o diferen ntre premiile bneti anuale primite de femeile i brbaii
angajai ai bncii. n tabelele de mai jos se afl nivelurile primelor i rangurile acestora n raport cu
ntreaga distribuie a primelor, indiferent de sex.
51

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale


Masculin
Premiu
(mil. lei)
Rang
Prim

Feminin
Premiu
(mil. lei)
Rang
prim
1 9 26 2 3 27
1 34 22 2 17 25
1 35 21 2 26 24
1 43 18.5 2 32 23
1 56 14 2 36 20
1 61 12 2 43 18.5
1 62 11 2 44 17
1 64 10 2 47 16
1 67 9 2 51 15
1 67 9 2 59 13
1 70 7 n
B
=10 R
B
=198.5
1 75 6
1 80 5
1 87 4
1 88 3
1 110 2
1 200 1
n
A
=17 R
A
=180.5

Problema este una tipic pentru a fi rezolvat cu testul t al diferenei dintre mediile a dou
eantioane independente. Avem o variabil independent de tip nominal-dihotomic i una
dependent, de tip interval/raport. Din pcate, analiza preliminar a variabilei dependente (prim)
relev abateri mari de la condiiile de normalitate (un indice de boltire de peste 7) precum i o slab
reprezentativitate a mediei, ambele datorate, mai ales, prezenei unei valori extreme (o prim de 200
mil. lei). Dup ce verificm corectitudinea valorii respective, ajungem la concluzia c ea nu poate fi
eliminat i, ca urmare, nu este recomandabil utilizarea unui test parametric.
ntr-o situaie de acest gen este aplicabil testul Mann-Whitney U
9
pentru date ordinale. Pe
ultima coloan a fiecrui tabel gsim transformarea n ranguri a valorilor variabilei dependente.
Atribuirea rangurilor n mod descresctor sau cresctor este nerelevant. Dac toate valorile sunt
distincte, fiecare valoare primete un rang distinct. Atunci cnd exist valori identice, valorile
respective primesc un rang egal cu media aritmetic a rangurilor cuvenite. Se poate alege i soluia
atribuirii tuturor valorilor identice primul rang cuvenit (ranguri ex aequo).
Procedura de calcul:
Se calculeaz cele dou valori U, corespunztoare grupurilor A (masculin) i B (feminin),
astfel:

( )
A
A A
B A A
R
n n
n n U
+
+ =
2
1 *
*
(formula 5.1)

respectiv,

( )
B
B B
B A B
R
n n
n n U
+
+ =
2
1 *
*
(formula 5.2)


52

9
Desemnat uneori i sub numele Wilcoxon-Mann-Withney, sau testul U.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
Unde:
n
A
i n
B
reprezint volumul celor dou grupuri independente care compun eantionul
R
A
i R
B
reprezint suma rangurilor pentru fiecare din cele dou grupuri

Pentru exemplu nostru:

5 . 142 5 . 180 153 170 5 . 180
2
18 * 17
10 * 17 = + = + =
A
U


respectiv,

5 . 26 5 . 198 55 170 5 . 198
2
11 * 10
10 * 17 = + = + =
B
U


Valoarea testului Mann-Whitney este dat de valoarea U cea mai mic, n cazul nostru U
B

(26.5).
Decizia statistic se ia prin compararea valorii U celei mai mici cu valoarea citit n tabelul
valorilor critice pentru testul Mann-Whitney U, n funcie de nivelul alfa, n
A
i n
B
(Anexa 7).
n cazul testului U decizia statistic se ia astfel:
Se respinge ipoteza de nul dac valoarea U calculat este mai mic sau egal cu
valoarea critic tabelar.
Se accept ipoteza de nul dac valoarea U calculat este mai mare dect valoarea
critic tabelar.
n general tabelele de decizie pentru testul Mann-Whitney nu acoper dect parial situaiile
posibile i nu trec de valori ale lui n
A
i n
B
mai mari de 20. Pentru exemplul nostru, valoarea critic
corespunztoare pentru U
0.05;17:10
=48 (dac preferm aproximarea, mai conservatoare, n
A
=18).
Deoarece U
B
<U
0.05;17:10
ipoteza de nul se respinge i se accept ipoteza cercetrii. Nivelul
primelor anuale este semnificativ diferit pentru brbai fa de femei
10
.
Afirmam mai sus c tabelele statistice pentru testul Mann-Whitney U nu se refer la grupuri
mai mari de 20. Aceasta deoarece, de la acest volum n sus, distribuia valorilor testului poate fi
aproximat de curba normal z, iar testul poate fi calculat cu formula urmtoare:

( )
( ) 12 / 1 * *
1 * * 5 . 0
+
+
=
N n n
N n R
z
B A
A A
(formula 5.3)

(unde N=n
A
+n
B
)

Valoarea lui z astfel obinut este comparat cu valorile critice tabelare de pe curba normal
corespunztoare nivelului alfa ales, unilateral sau bilateral.

Publicarea rezultatului
La publicarea rezultatului pentru testul Mann-Whitney U se vor indica:
- volumul grupurilor comparate (nA i nB)
- valoarea testului (U)
- pragul de semnificaie (p).



53

10
Desigur, nu se poate invoca neaprat o discriminare de sex n acordarea primelor, dac poziiile profesionale ocupate
de subiecii cercetrii sunt diferite. Rezultatul poate sugera, ns, c brbaii ocup poziii profesionale mai nalte dect
femeile.
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale

Sarcina de lucru nr. 3.6



Dou grupuri de cte 5 subieci au fost supuse unui experiment care vizeaz reacia
fiziologic la prezentarea unui stimul ocant. Unul din grupuri a primit un instructaj care sugera
natura ocant a stimulului n timp ce celuilalt grup i s-a spus c vor primi stimuli agreabili. Datele
de mai jos prezint valoarea pulsului msurat n primele 10 secunde de la prezentarea stimulului:

Grupul cu instructaj linititor:
105
130
145
125
115
Grupul cu instructaj pregtitor corect
120
80
90
110
95
Verificai rspunsurile corecte



Testul Kruskall-Wallis pentru mai mult de dou eantioane
independente



Pentru evaluarea diferenei la nivel de ranguri ntre mai mult de dou
eantioane independente se utilizeaz testul Kruskal-Wallis. Acesta poate fi
asimilat unei analize de varian pentru date ordinale.
S presupunem c avem trei categorii de subieci (piloi, controlori de trafic
i navigatori de bord) crora le-a fost aplicat un test de reprezentare spaial. S
presupunem, de asemenea, c valorile variabilei dependente nu se preteaz la un
test ANOVA, dat fiind prezena ctorva valori extreme ce nu pot fi eliminate. n
aceste condiii, testul Kruskal-Wallis este alegerea potrivit. Aceasta presupune
ordonarea dup rang a valorilor variabilei dependente (reprezentare spaial) pentru
toate categoriile de subieci, luate mpreun.

54

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
Grup rang
1 2
1 6
1 7
1 11
1 12
1 3
2 5
2 8
2 10
3 1
3 4
3 9
3 13














Tabelul prezint datele cercetrii. Variabila grup este una de tip nominal, fiecare din cele
trei grupuri fiind codificat cu o valoare convenional (1=pilot, 2=controlor de trafic, 3=navigator
de bord). Variabila rang conine poziia a fiecrui subiect sub aspectul reprezentrii spaiale, n
raport cu toate valorile nregistrate.

Formula de calcul pentru testul Kruskal-Wallis (notat cu H) este urmtoarea:
( )
( ) 1 * 3 *
1 *
12
1
2
+

+
=

=
N
n
T
N N
H
k
i i
i
(formula 5.4)
unde:
H este valoarea calculat a testului K-W
N este volumul total al eantionului
n este volumul grupurilor (N=n
1
+n
2
+n
3
+...+n
k
)
K este numrul grupurilor independente
T este suma rangurilor care va fi calculat pentru fiecare grup

nlocuind valorile corespunztoare exemplului, obinem:
0,1121 42 638,74 * 06593 . 0 14 * 3
4
27
3
23
6
41
*
14 * 13
12
2 2 2
= =

+ + = H

Valorile distribuiei de nul ale lui H urmeaz forma distribuiei chi-ptrat care, ne amintim,
are originea n valoarea 0. Cu ct sumele rangurilor pentru cele k grupuri sunt mai diferite ntre ele,
cu att valoarea testului este mai mare i, potenial, mai aproape de o variaie semnificativ.
Diferenele mici dintre rangurile grupurilor conduc spre valori ale testului care tind spre 0 i,
implicit, nesemnificative. Valoarea critic a testului se citete din tabelul distribuiei chi-ptrat
pentru df=k-1. Exist, totui, o excepie, atunci cnd nici unul din grupurile comparate nu este mai
mare de 6, situaie n care decizia se ia cu ajutorul unei tabele speciale. n cazul nostru exist un
grup cu mai mult de cinci subieci. Ca urmare, scorul critic pentru alfa=0.05 i 2 grade de libertate
este 5.99. Deoarece H calculat este mai mic dect H critic, suntem nevoii s acceptm ipoteza de
nul i s concluzionm c cele trei categorii de subieci nu sunt diferite sub aspectul capacitii de
reprezentare spaial.






55

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale

Sarcina de lucru nr. 3.7



Un psiholog trebuie s recomande unui patiser culoarea glazurii pentru un nou tip de prjitur, avnd
de ales ntre verde, rou i galben. n acest scop alege 18 subieci, crora le cere s efectueze o sarcin
plictisitoare avnd la ndemn platouri cu prjituri glazurate. Subiecii sunt mprii n trei grupe, fiecare
primind prjituri de o singur culoare. Dup un timp, numr cte prjituri a mncat fiecare subiect din cele
trei grupuri i construiete tabelul urmtor.

Verde Rou Galben
3 3 2
7 4 0
1 5 4
0 6 6
9 4 4
2 6 1








Care este valoarea testului i care este concluzia cercetrii?

Verificai rspunsul corect



Testul Wilcoxon pentru dou eantioane perechi



Dac avem subieci evaluai de dou ori, pe o scal de interval, iar variabilele nu ntrunesc
condiiile pentru utilizarea testului t al diferenelor pentru eantioane dependente, se poate apela la
testul Wilcoxon. Acesta este un test care, dei se aplic pe scale de interval/raport, utilizeaz
proceduri de tip neparametric, apelnd la diferenele dintre valorile perechi i la ordonarea lor. Este,
din acest punct de vedere, un test de date ordinale.

Exemplu
Un psiholog evalueaz frecvena conduitelor agresive dup prezentarea unui film care are
inclui stimuli subliminali cu semnificaie agresiv. Frecvena conduitelor agresive este msurat
nainte i dup vizionarea filmului. Rezultatele sunt sintetizate n tabelul urmtor.

Cod
subiect
nainte Dup dup-nainte
Modulul
diferenei
Rangul
diferenei
Semnul
Diferenei
1 9 8 -1 1 7.5 -
2 14 17 3 3 5.5 +
3 10 17 7 7 2.0 +
4 11 12 1 1 7.5 +
5 12 15 3 3 5.5 +
6 9 13 4 4 3.5 +
7 10 14 4 4 3.5 +
8 14 2 -12 12 1.0 -

56

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
Coloanele tabelului prezint etapele procedurii de calcul:
- se calculeaz diferena dintre variabilele supuse testrii
- dac sunt diferene nule, se elimin
- se iau n considerare diferenele n valoare absolut
- se construiesc rangurile pentru diferenele n valoare absolut
- se marcheaz semnul diferenelor pentru fiecare pereche de valori

Din acest punct, calcularea valorilor testului este simpl. Se calculeaz dou valori, T(-)
prin nsumarea rangurilor diferenelor negative i T(+) prin nsumarea rangurilor diferenelor
pozitive. Valoarea cea mai mic dintre ele este rezultatul testului Wilcoxon, al crui nivel de
semnificaie se afl prin compararea cu valorile critice dintr-o tabel special (Anexa 8), n funcie
de nivelul alfa ales i de volumul eantionului (N). Testul se fundamenteaz pe ideea c atunci cnd
ipoteza nula este adevrat ar trebui ca suma rangurilor pentru diferenele pozitive s fie egal cu
suma rangurilor pentru diferenele negative. Pe msur ce diferena dintre ele este mai mare, ne
ndeprtm de condiia ipoteza de nul.
Decizia statistic se ia n felul urmtor:
Atunci cnd valoarea calculat este mai mic dect valoarea critic tabelar, ipoteza
de nul se respinge iar ipoteza cercetrii se confirm
Atunci cnd valoarea calculat este mai mare dect valoarea critic tabelar, ipoteza
de nul se accept, iar ipoteza cercetrii nu se confirm.
Pentru exemplul nostru, T(+)=28.5 iar T(-)=8.5. Acesta din urm devine rezultatul testului.
Valoarea calculat (8.5) este mai mare dect valoarea critic (4) pentru N=8 i alfa=0.5 bilateral. Ca
urmare, suntem nevoii s acceptm ipoteza de nul, considernd neconfirmat ipoteza cercetrii.
Dup cum observm, dei am calculat testul pentru diferenele negative de rang, am emis concluzia
n legtur cu diferenele pozitive, deoarece ele fceau obiectul ipotezei de nul.
Ca i n cazul testului Mann-Whitney, pentru eantioane mai mari de 20 distribuia de nul a
testului Wilcoxon poate fi aproximat prin distribuia normal. Formula de calcul pentru acest caz
este urmtoarea:

( ) [ ]
( ) ( ) 24 / 1 2 * 1 *
4 / 1 *
+ +
+
=
n n n
n n T
Z
(formula 5.5)

Exceptnd situaiile n care se opereaz pe eantioane mici, ca n exemplul de mai sus,
calculele sunt destul de laborioase. Din fericire, toate programele avansate de statistic ofer
proceduri pentru calcularea automat a acestor teste statistice.


Sarcina de lucru 3.8




Un numr de 10 subieci i-au evaluat frica de a vorbi n public pe o scal de la 1 la 10,
nainte i dup ce au urmat un tratament psihoterapeutic. Datele cercetrii sunt prezentate n tabelul
urmtor:

nainte 9 8 10 9 7 8 6 7 5 9
dup 8 5 9 6 8 4 9 7 7 10

(1) Ordonai dup rang diferenele, n termeni de mrime absolut (ignornd semnele), dar
punnd semnele ntre paranteze, dup fiecare diferen.
57

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
(2) nsumai separat rangurile pentru diferenele pozitive i negative.
(3) Testai ipoteza c tratamentul psihologic a redus fobia de a vorbi n public.

Verificai rspunsurile corecte







Testul Friedman pentru msurri repetate


58


S presupunem c un psiholog dorete s studieze relaia dintre stilurile de conducere
(laissez-faire, democratic i autoritar) asupra nivelului de satisfacie profesional. n acest scop el
poate constitui un grup de cercetare pe care s l supun, n momente succesive, celor trei tipuri de
conducere. Un alt model ar putea fi constituirea a trei eantioane perechi, astfel constituite nct
fiecrui subiect dintr-un eantion s i corespund cte un subiect echivalent din fiecare dintre
celelalte dou eantioane (criteriile de echivalen pot fi: sexul, vrsta, nivelul de inteligen, gardul
de motivare, etc.).
Dar, oricare dintre variantele pe care l-ar alege cercettorul, din punct de vedere statistic el
ar obine o structur de date identic: trei serii de evaluri ale satisfaciei (variabila dependent),
pentru aceiai subieci (sau perechi de subieci) corespunztoare celor trei stiluri de conducere. Dac
variabila dependent ar fi msurat pe o scal de interval/raport, testul parametric adecvat este unul
care nu a fost inclus n acest volum, ANOVA pentru msurri repetate. n lipsa lui i presupunnd
c variabila dependent nu ntrunete condiiile unui test parametric, soluia problemei este testul
Friedman pentru date ordinale. Pentru aplicarea lui este suficient ca valorile variabilei dependente
s fie ordonate dup rang, ca n tabelul alturat. Facem precizarea c, n acest caz, ordonarea dup
rang se face la nivelul fiecrui set de evaluri perechi:

Democratic Laissez-faire Autocratic
1 1 2 3
2 2 1 3
3 1 2 3
4 1 2 3
5 1 2 3
6 2 1 3
N=6 T
1
=8 T
2
=10 T
3
=18

Testul Friedman (F
r
) pune n eviden n ce msur rangurile evalurilor repetate difer cu
adevrat (statistic semnificativ) unele de altele, dup formula:

( )
( )

=
+
+
=
c
i
i r
c N T
c c N
F
1
2
1 * * 3 *
1 * *
12
(formula 5.6)
unde:
c este numrul msurrilor repetate
N este volumul seturilor de evaluri perechi
Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
T
i
este suma rangurilor corespunztoare fiecrui moment de msurare

La fel ca i n cazul testului H (Kruskal-Wallis), distribuia de nul a testului Friedman
urmeaz forma distribuiei chi-ptrat pentru df=c-1.
Introducem valorile cercetrii n formul:

( ) 3 . 9 72 - 488 * 0,1666 4 * 6 * 3 18 10 8 *
4 * 3 * 6
12
2 2 2
= = + + =
r
F


Valoarea critic tabelar chi-ptrat pentru df=3-1=2, este 5.99. Valoarea calculat fiind mai
mare, se respinge ipoteza de nul i se consider confirmat ipoteza cercetrii: nivelul satisfaciei
profesionale variaz semnificativ n funcie de stilul de conducere.
Testul Friedman poate fi aplicat i n cazul a doar dou msurri, situaie n care devine
similar testului semnului. La fel ca i celelalte teste pentru date ordinale, el este afectat de existena
rangurilor atribuite ex-aequo, pentru valori identice. n astfel de cazuri este recomandabil aplicarea
unei corecie formulei de calcul, pe care nu o vom prezenta aici, n sperana c utilizarea
programelor specializate va face, oricum, coreciile necesare.


Sarcina de lucru nr. 3.9




Un neurofiziolog dorete s verifice dac exist o relaie ntre leziunea cerebral stng i tipul de
deficit de memorie de scurt durat, n trei tipuri de sarcin diferite: cifre, litere, litere i cifre amestecate. n
acest scop, un numr de cinci subieci cu leziune cerebral stng au efectuat teste de memorie distincte, pe
iruri de cifre, litere i combinaii de cifre i litere. Performana nregistrat marcheaz irul cel mai lung
memorat pentru fiecare test n parte.
Datele cercetrii:
(valorile semnific lungimea irului memorat)

Subiectul Cifre Litere Cifre/Litere
A 6 5 6
B 8 7 5
C 7 7 4
D 8 5 8
E 6 4 7
F 7 6 5
Care este valoarea testului Friedman?
Care este decizia statistic i ce concluzie trage cercettorul?

Verificai rspunsurile corecte




Coeficientul de corelaie pentru date ordinale (Spearman)



Testele Wilcoxon i Friedman sunt utilizate pentru a pune n eviden diferenele dintre dou
sau mai multe eantioane perechi (situaie care, de regul, se refer la msurri repetate pe aceiai
59

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
subieci). Atunci cnd avem dou variabile ordinale i suntem interesai n evaluarea gradului de
asociere ntre ele, vom utiliza un test similar coeficientului de corelaie pentru date de interval care
este coeficientul de corelaie a rangurilor (Spearman).
Aa cum ne amintim, coeficientul de corelaie Pearson (r) ne d msura intensitii legturii
dintre dou variabile exprimate pe scale de tip interval/raport. Mecanismul de calcul se bazeaz pe
transformarea valorilor ambelor variabile n scoruri z, adic pe convertirea acestora n distan
standard fa de medie. Pentru datele de tip ordinal, modalitatea de calcul a coeficientului de
corelaie se bazeaz pe poziia relativ a unei valori fa de celelalte. Coeficientul de corelaie a
rangurilor Spearman (r
S
) are acelai domeniu de variaie (-1/+1) i se interpreteaz n acelai mod
ca i coeficientul de corelaie pentru date parametrice Pearson.

Exemplu:
Problema cercetrii: ntr-un studiu cu privire la ameliorarea sistemului de evaluare e
personalului, doi instructori urmeaz un program special de armonizare a evalurii. La sfritul
programului ei sunt pui s ierarhizeze personalul unui compartiment de munc (N=10) din punctul
de vedere al performanei profesionale.
Ipoteza cercetrii: (pentru test bilateral) Evalurile celor doi instructori vor fi concordante.
Ipoteza de nul: ntre evalurile celor doi instructori nu exist nici o legtur
Criteriile deciziei statistice:
= 0.05
r
S
critic se citete ntr-un tabel special pentru coeficientul Spearman (Anexa
9).
Valoarea se citete la intersecia dintre linia corespunztoare lui N (n acest caz nu se
folosesc gradele de libertate) cu coloana corespunztoare tipului de test (unilateral, bilateral) i a
nivelului . nregistrm r
S
critic =0.648

Datele cercetrii:
Angajai
RANG
Instructor
I
RANG
Instructor
II
Diferena (D)
(R1-R2)
D
2

A 3 2 1 1
B 1 3 -2 4
C 7 5 2 4
D 6 4 2 4
E 10 10 0 0
F 5 8 -3 9
G 9 7 2 4
H 8 9 -1 1
I 4 6 -2 4
J 2 1 1 1

D
2
=32

Formula de calcul pentru coeficientul de corelaie a rangurilor Spearman este:

) 1 ( *
* 6
1
2
2

=

N N
D
r
S
(formula 5.7)

n care, prin nlocuirea cu valorile cercetrii, obinem:

60

81 . 0 19 . 0 1
990
192
1
) 1 100 ( * 10
32 * 6
1 = = =

=
S
r

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale

Decizia statistic: r
S
calculat (0.81) r
S
critic (0.684). Ipoteza de nul se respinge.
Concluzia cercetrii: Evalurile celor doi instructori sunt semnificativ concordante.
Programul de instruire a avut efectul scontat.

Interpretarea coeficientului de corelaie Spearman

n principiu, acesta se interpreteaz la fel ca i coeficientul Pearson.

r
S
= 0 Cele dou variabile nu variaz concomitent, de loc
0 > r
S
> 1
Cele dou variabile tind s creasc sau s scad concomitent, ntr-o
anumit msur
r
S
= 1.0 Corelaie pozitiv perfect
-1 > r
S
> 0 n timp ce o variabil tinde s creasc, cealalt tinde s descreasc
r
S
= -1.0 Corelaie negativ perfect

Dac nivelul de semnificaie (p) este mai mare dect 0.05, coeficientul de corelaie va fi
considerat nesemnificativ (are anse prea mari s rezulte din jocul ntmplrii). Aceasta nu
nseamn c nu exist o corelaie ntre cele dou variabile ci doar c datele noastre nu au putut s o
pun n eviden.
Calcularea coeficientului de determinare (r
2
) n cazul corelaiei Spearman nu este
recomandabil, dei exist autori care o accept.

Cnd se utilizeaz coeficientul de corelaie Spearman:

- Atunci cnd ambele variabile sunt de tip ordinal
- Atunci cnd una dintre variabile este de tip ordinal i cealalt este de tip interval/raport.
n acest caz, variabila interval/raport se transform mai nti n valori de ordine de rang
- Atunci cnd ambele variabile sunt de tip interval/raport dar una sau ambele, prezint
valori extreme. n acest caz, prin transformarea n ordine de rang a celor dou
distribuii, valorile extreme sunt anihilate, ele urmnd s participe la corelaie prin
simpla poziie n distribuie i nu prin nivelul lor absolut.

Un test alternativ pentru asocierea variabilelor ordinale este coeficientul de corelaie a
rangurilor Kendall tau. La fel ca i coeficientul Spearman, Kendal tau ia valori ntre -1 i +1.
Similaritile se opresc, ns, aici deoarece coeficientul Kendall se calculeaz pe o cale diferit i se
fundamenteaz pe o estimare a parametrului populaiei. Aceasta estimare se calculeaz ca
probabilitatea concordanei minus probabilitatea discordanei dintre rangurile perechi. Nu vom
analiza n amnunt procedura de calcul, dar vom prezenta modul de obinere a coeficientului
Kendall cu ajutorul programului SPSS n seciunea urmtoare a acestui volum.
Ambii coeficieni sunt larg utilizai n studiile statistice, fcnd, n acelai timp, i obiectul
unor dispute ntre statisticieni. Adesea coeficientul Kendall este considerat mai adecvat datorit
faptului c distribuia acestuia se apropie de forma normal ncepnd de la volume mai mici ale
eantioanelor. Chiar dac n calcule pe aceleai date cu cei doi coeficieni obin valori diferite,
decizia statistic nu este, de obicei diferit.



Sarcina de lucru 3.10


61

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale

Un psiholog dorete s verifice relaia dintre inteligena verbal i cea non verbal. n acest
scop, un eantion de 10 subieci este supus unei testri cu dou teste care vizeaz cele dou categorii
de inteligen, exprimate n uniti QI. Din cauza volumului foarte redus al eantionului, decide s
aplice testul de corelaie a rangurilor Spearman, n locul testului Pearson.
Datele cercetrii sunt urmtoarele:


Subiect Qi verbal QI nonverbal
A 110 105
B 100 108
C 120 110
D 90 95
E 108 105
F 115 125
G 122 118
H 110 116
I 127 118
J 118 126

Calculai testul de corelaie Spearman i enunai decizia statistic i concluzia cercetrii
Verificai rezultatul corect la pagina 38


Rezumatul unitii de nvare



Pentru a testa dac dou populaii difer ntre ele, pe o variabil continu, fr a avea
posibilitatea de msurare exact a acesteia (pe scal de interval sau raport), pot fi
selecionate dou eantioane care sunt puse mpreun, dup care valorile sunt ordonate pe
baza rangurilor de mrime. Testarea diferenei se face prin nsumarea separat a rangurilor
valorilor celor dou eantioane.
Dac eantioanele nu difer, suma rangurilor va fi apropiat sau egal, dac difer,
semnificaia diferenei dintre ranguri este probat cu testul Mann-Whitney U.
Testul Mann-Whitney U este utilizat ori de cte ori o variabil nu poate fi msurat precis,
dar se poate determina ordinea valorilor. De asemenea, el se utilizeaz atunci cnd cele dou
variabile sunt msurate pe scale cantitative dar prezint valori aberante legitime.
Testul Mann-Whitney este echivalentul pentru date ordinale a testului diferenei dintre medii
pentru eantioane independente (compuse din subieci diferii).
Testul Kruskal-Wallis este o extensie a testului Mann-Whitney i se utilizeaz atunci cnd
avem de comparat rangurile a mai mult de dou eantioane independente. Din acest punct de
vedere, Testul Kruskal.Wallis este echivalentul pentru date ordinale al analizei de varian
unifactoriale (ANOVA).
Dac datele sunt recoltate de la aceiai subieci n dou condiii de cercetare diferite, testarea
diferenei dintre ranguri se face cu testul Wilcoxon. Acesta este echivalentul testului t pentru
diferena dintre mediile a dou eantioane dependente (compuse din aceiai subieci).
n acest caz, toate diferenele sunt ordonate dup mrime, ignornd semnul lor, suma
rangurilor fiind fcut separat, pentru diferenele pozitive i negative. O diferen mare
dintre aceste dou sume este dovada unei diferene ntre cele dou eantioane comparate.
62

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
Testul Friedman, este un test care extinde cazul testul Wilcoxon la mai mult de dou
eantioane dependente. El este echivalentul analizei de varian pentru msurtori repetate
(test care nu a fost tratat n acest volum).
Atunci cnd avem dou variabile msurate pentru aceiai subieci, ale cror valori se
exprim pe scal ordinal, i dorim s testm gradul de asociere dintre acestea, n locul
testului de corelaie Pearson se utilizeaz corelaia Spearman, pentru date ordinale.
Corelaia Spearman este recomandabil i atunci cnd variabilele sunt msurate pe scale de
interval sau de raport, dar distribuia uneia, sau a ambelor, se ndeprteaz grav de la forma
normal.
Coeficientul de corelaie Spearman se definete n aceeai plaj de valori ca i corelaia
Pearson (1) i se interpreteaz n mod similar.
Testele bazate pentru variabile ordinale sunt independente de forma distribuiei variabilelor.

Rspunsuri la sarcinile de lucru



Rspunsul la sarcina de lucru 3.6

Dou grupuri de cte 5 subieci au fost supuse unui experiment care vizeaz reacia fiziologic la
prezentarea unui stimul ocant. Unul din grupuri a primit un instructaj care sugera natura ocant a
stimulului n timp ce celuilalt grup i s-a spus c vor primi stimuli agreabili. Datele de mai jos
prezint valoarea pulsului msurat n primele 10 secunde de la prezentarea stimulului:

Grupul cu instructaj linititor: Rang
105 7
130 2
145 1
125 3
115 5
Suma rangurilor 18
Grupul cu instructaj pregtitor corect
120 4
80 10
90 9
110 6
95 8
Suma rangurilor 37


22 18
2
) 1 5 ( * 5
5 * 5 =
+
+ =
A
U

3 37
2
) 1 5 ( * 5
5 * 5 =
+
+ =
B
U
Valoarea U
B
este valoarea testului i este egal cu valoarea tabelar (tabela 3.3) pentru n
A
=5 i
n
B
=5, alfa=0.05. n acest caz se respinge ipoteza de nul i se accept ipoteza cercetrii. Anticiparea
naturii stimulului reduce reacia fiziologic de surpriz.


Rspunsul la sarcina de lucru 3.7
63

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale

(1)
dup 4 5 6 9 7 8 9 8 10 7
nainte 8 8 9 6 5 9 10 7 9 7
4(-) 3(-) 3(-) 3(+) 2(+) 1(-) 1(-) 1(+) 1(+) 0
rang 1 3 3 3 5 7.5 7.5 7.5 7.5 10

(2) Suma diferenelor pozitive=23; Suma diferenelor negative=22
(3) Valoarea testului Wilcoxon este T(-)=22, mai mare dect valoarea critic tabelar 8 (pentru
alfa=0.05 i N=10, din tabelul 3.3, n anexe). Se respinge ipoteza de nul i se admite ipoteza
cercetrii. Terapia are efect (chiar dac diferena nu este una foarte mare).


Rspunsul la sarcina de evaluare 3.8

prjituri
mncate
rang

verde 9 1
verde 7 2
Rou 6 4
Rou 6 4
galben 6 4
Rou 5 6
Rou 4 8.5
Rou 4 8.5
galben 4 8.5
galben 4 8.5
verde 3 11.5
Rou 3 11.5
verde 2 13.5
galben 2 13.5
verde 1 15.5
galben 1 15.5
verde 0 17.5
galben 0 17.5





















Suma rangurilor pe culori:
Rou=31
Verde=61
Galben=67.5

H critic=5.99, citit n tabela chi-ptrat pentru alfa=0.05 i 2 grade de libertate (numarul
grupurilor minus 1)
Calculm testul Kruskal Wallis:
04 . 9 ) 1 18 ( * 3
6
5 . 67
6
61
6
31
*
) 1 18 ( * 18
12
2 2 2
=

+ +

= H

Hcalculat (9.04) este mai mare dect Hcritic (5.99).
Decizia statistic: respingem ipoteza de nul.
64

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
Se admite c preferina pentru prjitur este influenat de culoare acesteia. Cele mai
preferate sunt cele de culoare roie (plasate pe ranguri superioare), urmate de culoarea verde
i galben, care se afl la mic distana una de cealalt.

Rspunsul la sarcina de lucru 3.9

Subiectul Cifre rang Litere rang Cifre/Litere rang
A 6 1.5 5 2 6 1.5
B 8 1 7 2 5 3
C 7 1.5 7 1.5 4 3
D 8 1.5 5 3 8 1.5
E 6 2 4 3 7 1
F 7 1 6 2 5 1
Suma rangurilor 8.5 13.5 11

Valoarea critic citit n tabelul chi-ptrat, pentru df=3-1=2 i alfa=0.05, este 5.99

Calculm testul Friedman:
( ) 16 . 48 ) 1 3 ( * 6 * 3 11 5 . 13 5 . 8 *
) 1 3 ( * 3 * 6
12
2 2 2
= + + +
+
= Fr

Fr calculat este mai mare dect Fr critic. Ca urmare, se respinge ipoteza de nul i se accept ipoteza
cercetrii. Leziunea cerebral stng are un efect asupra coninutului memorat. Cea mai afectat
este memorarea literelor (obine ranguri superioare) iar cea mai puin afectat este memorarea
cifrelor (obine cele mai mici ranguri).


Rspunsul la sarcina de lucru 3.10


Subiect Qi verbal Rang v. QI nonverbal Rang nv. (v-nv)
2

A 110 6.5 105 8.5 6.25
B 100 9 108 4 25
C 120 3 110 7 64
D 90 10 95 10 0
E 108 8 105 8.5 0.25
F 115 5 125 2 9
G 122 2 118 4 4
H 110 6.5 116 6 0.25
I 127 1 118 4 9
J 118 4 126 1 9
(v-nv)
2
=126.75

Valoarea critic a testului se citete n tabela 3.5 din anexe, pentru alfa 0.05 bilateral i N=10:
Rs critic=0.64

Calculm Rs
28 . 0
) 1 100 ( * 10
75 . 126 * 6
1 =

=
s
r

65

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Statistici infereniale. Teste neparametrice ordinale
Decizia statistic: Se accept ipoteza de nul. Rs calculat (0.28) este mai mic dect rs critic (0.64).
Performana la cele doua teste de inteligen nu coreleaz semnificativ.






Lucrarea de evaluare nr. 3.2 i modul de cotare





Lucrarea de evaluare va fi publicat pe portal. Termenul de trimitere este preziua
tutorialului. Dup aceast dat lucrrile trimise nu vor mai fi acceptate.


Bibliografie minimal

Bibliografia de baz

Marian Popa, (2008), Statistic pentru psihologie. Teorie i aplica ii SPSS,
Polirom
Pagina web a cursului, la adresa: www.mpopa.ro


Bibliografie suplimentar

Clocotici, V., & Stan, A. (2000). Statistica aplicata in psihologie. Iasi: Polirom,
(selectiv)
Rotaru, T. (coord.). (1999). Metode statistice aplicate in stiintele sociale. Iasi:
Polirom. (selectiv)
Vasilescu, I. P. (1992). Statistica informatizata pentru stiinte despre om (Vol. 1-2).
Bucuresti: Editura militara., (selectiv)

66

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Elemente de strategie a analizei statistice
67

ANEXE TABELE STATISTICE


Anexa 6. Valorile critice pentru distribuia chi-ptrat
(sursa:http://www.psychology.ilstu.edu/psy138/chi)

p
df .05 .025 .01
1 3.84 5.02 6.64
2 5.99 7.38 9.21
3 7.81 9.35 11.34
4 9.49 11.14 13.28
5 11.07 12.83 15.09
6 12.59 14.45 16.81
7 14.07 16.01 18.48
8 15.51 17.53 20.09
9 16.92 19.02 21.67
10 18.31 20.48 23.21
11 19.68 21.92 24.72
12 21.03 23.34 26.22
13 22.36 24.74 27.69
14 23.68 26.11 29.14
15 25.00 27.49 30.58
16 26.30 28.85 32.00
17 27.59 30.19 33.41
18 28.87 31.53 34.80
19 30.14 32.85 36.19
20 31.41 34.17 37.57
21 32.67 35.48 38.93
22 33.92 36.78 40.29
23 35.17 38.08 41.64
24 36.42 39.36 42.98
25 37.65 40.65 44.31
26 38.88 41.92 45.64
27 40.11 43.19 46.96
28 41.34 44.46 48.28
29 42.56 45.72 49.59
30 43.77 46.98 50.89
40 55.76 59.34 63.69
50 67.50 71.42 76.15
60 79.08 83.29 88.38
70 90.53 95.02 100.42
80 101.88 106.63 100.43
90 113.15 118.14 124.12
100 124.34 129.56 135.81


Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Elemente de strategie a analizei statistice
68

Anexa 7. Tabelul valorilor critice pentru testul Mann-Whitney U
(sursa: Clocotici V., Stan A., 2000, Statistic aplicat n psihologie, Polirom)

n
A
/n
B
5 6 8 10 12 14 16 18 20
0.05 0 1 2 3 4 5 6 7 8
3
0.01 - - - 0 1 1 2 2 3
0.05 1 2 4 5 7 9 11 12 14
4
0.01 - 0 1 2 3 4 5 6 8
0.05 2 3 6 8 11 13 15 18 20
5
0.01 0 1 2 4 6 7 9 11 13
0.05 3 5 8 11 14 17 21 24 27
6
0.01 1 2 4 6 9 11 13 16 18
0.05 6 8 13 17 22 26 31 36 41
8
0.01 2 4 7 11 15 18 22 26 30
0.05 8 11 17 23 29 36 42 48 55
10
0.01 4 6 11 16 21 26 31 37 42
0.05 11 14 22 29 37 45 53 61 69
12
0.01 6 9 15 21 27 34 41 47 54
0.05 13 17 26 36 45 55 64 74 83
14
0.01 7 11 18 26 34 42 50 58 67
0.05 15 21 31 42 53 64 75 86 98
16
0.01 9 13 22 31 41 50 60 70 79
0.05 18 24 36 48 61 74 86 99 112
18
0.01 11 16 26 37 47 58 70 81 92
0.05 20 27 41 55 69 83 98 112 127
20
0.01 13 18 30 42 54 67 79 92 105

Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Elemente de strategie a analizei statistice
69

Anexa 8. Valorile critice pentru testul Wilcoxon
(sursa : Clocotici V., Stan A., 2000, Statistic aplicat n psihologie, Polirom)

Nivel de seminficaie pentru test unilateral
0.025 0.01 0.005
Nivel de seminficaie pentru test bilateral
N
0.05 0.02 0.01
6 0 - -
7 2 0 -
8 4 2 0
9 6 3 2
10 8 5 3
11 11 7 5
12 14 10 7
13 17 13 10
14 21 16 13
15 25 20 16
16 30 24 20
17 35 28 23
18 40 33 28
19 46 38 32
20 52 43 38
21 59 49 43
22 66 56 49
23 73 62 55
24 81 69 61
25 89 77 68


Marian Popa
Copyright DEPARTAMENT ID 2008
Modulul III. Elemente de strategie a analizei statistice
70

Anexa 9. Valorile critice pentru testul de corelaie a rangurilor (Spearman)
(sursa: http://www.netnam.vn/unescocourse/index.htm)

test unilateral
alfa=0.05 alfa=0.025 alfa=0.01 alfa=0.005
test bilateral
N
alfa=0.10 alfa=0.05 alfa=0.02 alfa=0.01
5 0,900
6 0,829 0,886 0,943
7 0,714 0,786 0,893
8 0,643 0,738 0,833 0,881
9 0,600 0,683 0,783 0,833
10 0,564 0,648 0,745 0,794
11 0,523 0,623 0,736 0,818
12 0,497 0,591 0,703 0,780
13 0,475 0,566 0,673 0,745
14 0,457 0,545 0,646 0,716
15 0,441 0,525 0,623 0,689
16 0,425 0,507 0,601 0,666
17 0,412 0,490 0,582 0,645
18 0,399 0,476 0,564 0,625
19 0,388 0,462 0,549 0,608
20 0,377 0,450 0,534 0,591
21 0,368 0,438 0,521 0,576
22 0,359 0,428 0,508 0,562
23 0,351 0,418 0,496 0,549
24 0,343 0,409 0,485 0,537
25 0,336 0,400 0,475 0,526
26 0,329 0,392 0,465 0,515
27 0,323 0,385 0,456 0,505
28 0,317 0,377 0,448 0,496
29 0,311 0,370 0,440 0,487
30 0,305 0,364 0,432 0,478



Marian Popa
Copyright DEPARTAMENT ID 2008