Sunteți pe pagina 1din 139

STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

UNIVERSITATEA „ANDREI ȘAGUNA”


FACULTATEA DE PSIHOLOGIE, ȘTIINȚE
COMPORTAMENTALE ȘI JURIDICE
SPECIALIZAREA: PSIHOLOGIE

STATISTICĂ SOCIALĂ
SINTEZE DE CURS – SEMESTRUL II

Lect. univ. dr. DOINIȚA BENTU

Constanța 2023
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

TEMATICA

Cursul 1. Noțiuni statistice fundamentale: Definirea statisticii; Scurt istoric


al statisticii în psihologie; Utilitatea statisticii în activitatea profesională a
psihologului; Dificultăți și riscuri în însușirea statisticii.
Cursul 2. Concepte fundamentale în statistică (partea I): Noțiunea de
variabilă: variabile dependente și variabile independente; Măsurarea în psihologie;
Scale de măsurare: scala nominală, scala ordinală, scala de interval, scala de raport.
Cursul 3. Concepte fundamentale în statistică (partea a II-a): Statistica
parametrică și statistica neparametrică; Statistica descriptivă și statistica inferențială;
Populație și eșantion.
Cursul 4. Ordonarea, gruparea și prezentarea datelor statistice folosind
SPSS (Statistical Package for the Social Sciences): Caracteristici ale SPSS;
Ferestrele SPSS: Fereastra de editare; Fereastra de rezultate; Barele cu instrumente;
Etichetarea variabilelor.
Cursul 5. Statistici descriptive (partea I): Analiza frecvențelor; Reprezentări
grafice; Utilizarea SPSS pentru prezentarea datelor statistice sub formă de tabele.
Utilizarea SPSS pentru reprezentarea grafică a datelor.
Cursul 6. Statistici descriptive (partea a II-a): Indicatori sintetici ai
distribuțiilor statistice: indicatorii tendinței centrale; indicatori ai împrăștierii;
indicatori ai formei distribuției; Utilizarea SPSS pentru calcularea indicatorilor.
Cursul 7. Distribuții statistice: Distribuția normală (curba lui Gauss);
Distribuții simetrice și asimetrice; Distribuții unimodale și bimodale; Distribuția
normală standardizată.
Cursul 8. Statistici inferențiale: Ipotezele cercetării științifice; Decizia
statistică; Erori statistice; Puterea testului; Mărimea efectului.
Cursul 9. Teste statistice parametrice pentru date cantitative (partea I):
Analiza de corelație: coeficientul de corelație liniară Pearson (r); Analiza de
comparație: testul t pentru eșantioane independente; testul t pentru eșantioane
dependente; Utilizarea SPSS pentru aplicarea testelor corelație și comparație.
Cursul 10. Teste statistice parametrice pentru date cantitative (partea a
II-a): Testul z (t) pentru media unui singur eșantion; Analiza de varianță (ANOVA);
Analiza „post-hoc”; Utilizarea SPSS pentru aplicarea testelor de comparație.
Cursul 11. Teste statistice neparametrice pentru date ordinale (partea I):
Teste pentru analiza de corelație (coeficientul de corelație a rangurilor Spearman;
Coeficientul de concordanță Kendall); Utilizarea SPSS pentru aplicarea testelor de
corelație.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Cursul 12. Teste statistice neparametrice pentru date nominale: Tabelul


de contingență; Testul asocierii chi-pătrat; Chi-pătrat pentru gradul de corespondență
(Goodness of Fit)
Cursul 13. Teste statistice neparametrice pentru date ordinale (partea a
II-a): Teste pentru analiza de comparație: testul Mann-Whitney pentru eșantioane
independente; testul Wilcoxon pentru eșantioane perechi; testul Kruskal-Wallis
pentru mai mult de două eșantioane independente; Utilizarea SPSS pentru aplicarea
testelor de corelație.
Cursul 14. Strategia analizei statistice a datelor: Alegerea testului statistic;
Reguli de fixare a mărimii eșantioanelor de cercetare; Integrarea analizei statistice în
raportul de cercetare.

BIBLIOGRAFIE

1. Clocotici, V., Stan, A. (2001), Statistică aplicată în psihologie, Iași: Editura


Polirom.
2. Howitt, D., Cramer, D. (2006), Introducere în SPSS pentru psihologie, Iași:
Editura Polirom.
3. Jaba, E., Grama, A. (2004), Analiza statistică cu SPSS sub Windows, Iași:
Editura Polirom.
4. Opariuc-Dan, C. (2009), Statistică aplicată în științele socio-umane. Noțiuni
de bază – Statistici univariate, Cluj-Napoca: Editura Asociației de Științe
Cognitive din România.
5. Popa, M. (2008), Statistică pentru psihologie. Teorie și aplicații SPSS, Iași:
Editura Polirom.
6. Sava, F. (2011), Analiza datelor în cercetarea psihologică, Cluj-Napoca:
Editura Asociației de Științe Cognitive din România.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

CURSUL 1.
NOȚIUNI STATISTICE FUNDAMENTALE

1.1. Definirea statisticii;


1.2. Scurt istoric al statisticii în psihologie;
1.3. Utilitatea statisticii în activitatea profesională a psihologului;
1.4. Dificultăți și riscuri în însușirea statisticii.

1.1. Definirea statisticii

Statistica psihologică este disciplina care se ocupă cu analiza datelor care


descriu aspecte de natură psihică, individuală sau colectivă, în scopul de a le
prezenta sintetic, sub formă numerică sau grafică, de a le analiza şi de a extrage
concluzii pe seama lor.
Statistica nu trebuie confundată cu metoda științifică, ci este doar un
instrument al acesteia. Cuvântul statistică, provine din latinescul „statista” şi
desemna, pe vremuri, persoanele care se ocupau cu afacerile statului, care numărau
populaţia sau realizau alte acţiuni ce ajutau statul să gestioneze mai bine politica de
taxe şi costurile războaielor. În perioada medievală, prin statistică, armatorii îşi
calculau costurile echipării corăbiilor, incluzând în calculele lor şi probabilitatea ca
acestea să fie atacate de piraţi sau de a naufragia (Lungu, 2001 apud Opariuc-Dan,
2009).
Obiectul de studiu al statisticii îl constituie fenomenele şi procesele care
prezintă următoarele particularităţi:
➢ se produc într-un număr mare de cazuri (sunt fenomene de masă);
➢ variază de la un element la altul, de la un caz la altul;
➢ sunt forme individuale de manifestare în timp, în spaţiu şi ca formă
organizatorică.

1
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Pentru rezolvarea problemelor, care fac obiectul său de studiu, statistica, ca


orice altă ştiinţă, şi-a elaborat procedee şi metode speciale de cercetare, cum sunt
cele ale observării de masă, ale centralizării şi grupării, procedee şi modele de
analiză şi interpretare statistică. Putem spune că metoda statisticii este constituită din
totalitatea operaţiilor, tehnicilor, procedeelor şi metodelor de investigare statistică a
fenomenelor ce aparţin unor procese de tip stocastic (întâmplător).
Obiectivele fundamentale ale unui curs de statistică pentru studenții la
psihologie sunt:
− dezvoltarea înțelegerii statisticii șia relației acesteia cu cercetarea din
domeniul psihologiei;
− dezvoltarea capacității de a rezolva probleme de natură statistică specifice
problemelor din domeniul psihologiei;
− promovarea unei atitudini bazate pe raționament critic în raport cu opiniile
sau teoriile din domeniul psihologiei;
− formarea abilităților de comunicare în domeniul statisticii psihologice, ceea
ce presupune atât capacitatea de a înțelege lucrările de specialitate, cât și de a
elabora astfel de lucrări.
Federația Europeană a Asociațiilor Psihologilor (EFPA – European
Federation of Psychologists Associations) consideră că formarea psihologilor
trebuie să cuprindă obligatoriu: • cunoștințe teoretice; • abilități și competențe
practice; • capacități de cercetare științifică.

1.2. Scurt istoric al statisticii în psihologie

În Egipt, Grecia şi Roma antică erau realizate recensăminte destinate


evidenţierii resurselor umane şi materiale ale statelor respective. Aceste preocupări
însă, au fost considerate naive şi preştiinţifice, adevăratul înţeles al statisticii, acela
de ştiinţă, datând doar de la jumătatea secolului al XVII-lea.

2
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Prima analiză statistică, în spirit ştiinţific, a unor date culese în prealabil, este
datorată lui John Graunt (1662) care, pe baza datelor extrase din înştiinţările
săptămânale cu privire la numărul deceselor înregistrate la Londra, a izbutit să tragă
concluzii valabile asupra unor fenomene sociale, precum: natalitatea şi mortalitatea,
echilibrul numeric ş.a. Prin aceste preocupări el este considerat „părintele”
demografiei.
De-a lungul istoriei, problematica psihologiei umane a fost abordată prin
două modalități distincte: una „neștiințifică” sau „preștiințifică” care a apărut odată
cu apariția civilizației umane, și cea „științifică” care este mai recentă, mai apropiată
de zilele noastre.
Utilizarea sistematică a statisticii în psihologie datează cam de la începutul
anilor 1950, născută din nevoia de a învăța unele proceduri care să simplifice
calculele matematice ce necesitau un efort foarte mare, rămânând puțin timp și
interes pentru înțelegerea a ceea ce se afla în spatele formulelor utilizate în
prelucrarea datelor. Însă, apariția calculatoarelor și a soft-urilor de prelucrări
statistice a dat posibilitatea utilizatorilor să se focuseze pe înțelegerea
raționamentelor statistice.
Deși la prima vedere, pare surprinzătoare asocierea dintre psihologie și
statistică (o știință „bazată pe numere”), totuși statistica face parte din istoria
psihologiei. Trecerea în revistă a unor personalități importante ale psihologiei care
au avut contribuții importante în introducerea metodelor cantitative în psihologie și
în dezvoltarea analizei statistice, vin să susțină această asociere:
→ Filosoful german Christian von Wolf (1679-1754) a publicat în anul 1732
„Psihologia empirică”, urmată în 1734 de „Psihologia rațională”, fiind printre
primii autori care a folosit termenul de psihologie. El a introdus ideea unui
domeniu matematic al psihologiei, pe care la numit psihometrie.
→ Ernst Heinrich Weber (1795-1878) și Gustave Theodor Fechner (1801-1878)
au avut o contribuție deosebită în cercetarea senzațiilor, elaborând o lege care
le poartă numele (Legea psiho-fizică Weber-Fechner: intensitatea senzațiilor
se schimbă într-o progresie aritmetică, în timp ce intensitatea stimulilor
3
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

corespunzători se modifică într-o progresie geometrică), care face legătura


dintre realitatea psihică și cea fizică și care a folosit analiza cantitatică a
datelor obținute din experimente.
→ Francis Galton (1882-1911) este considerat fondatorul psihometriei ca știință
a măsurării facultăților mintale și al psihologiei diferențiale, domeniu al
psihologiei orientat spre studiul diferențelor dintre oameni. Se consideră că a
fost primul care a utilizat metodele statistice în studiul diferențelor umane și al
eredității inteligenței, introducând utilizarea chestionarelor și a sondajelor
pentru studii la nivelul colectivităților umane.
→ Karl Pearson (1857-1936) a avut o contribuție deosebit de importantă la
fundamentarea calculului de corelație, coeficientul de corelație pentru date
cantitative purtându-i numele. Pe lângă coeficientul de corelație a dezvoltat și
statistica neparametrică chi-pătrat, fiind considerat unul dintre principalii
promotori ai analizei statistice riguroase în studiul comportamentului uman.
→ Charles Edward Spearman (1863-1945) a fost elevul lui Wundt și este autorul
conceptului de inteligență generală. Pentru a-și demonstra teoria a dezvoltat
analiza factorială, prin care se pune în evidență gruparea variabilelor pe baza
analizei de corelație. Este și autorul unui indice de corelație pentru date
ordinale care-i poartă numele.
→ Raymond B. Cattell (1905-1988) a dezvoltat teoria factorială a inteligenței a
lui Spearman, utilizând teste și o metodă personală de analiză factorială, care
include și factori nonintelectuali în dezvoltarea inteligenței. Astfel, el a
elaborat Chestionarul 16PF (Sixteen Personality Factors), care include o
scală de inteligență și alte cincisprezece scale de personalitate, fiind unul
dintre cele mai cunoscute teste de personalitate. El considera că orice teorie
trebuie să rezulte din analiza datelor obținute în cercetările empirice.
→ Ronald Aylmer Fisher (1890-1962) a fost una dintre personalitățile care a avut
o contribuție majoră la utilizarea statisticii în psihologie, apropierea de
statistică fiind stimulată de interesul pentru studiul erorii, publicând o lucrare
despre teoria erorilor. Este cunoscut mai ales pentru dezvoltarea pe care a
4
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

adus-o în domeniul analizei de varianță, una dintre cele mai utilizate proceduri
în statistica psihologică.

1.3. Utilitatea statisticii în activitatea profesională a


psihologului

Actualmente, statistica este unul dintre instrumentele de bază ale practicii


psihologice. În acest sens, Marian Popa (2008) aduce următoarele argumente:
 Psihologul utilizează frecvent teste în evaluarea unor caracteristici psihice.
Trebuie știut că în faza de elaborare a testului, alegerea itemilor (întrebărilor)
și evaluarea consistenței interne (stabilirea calității de instrument de măsurare
psihică) se bazează pe proceduri statistice. De asemenea, se folosesc proceduri
statistice în faza de utilizare a testelor pentru fixarea etaloanelor de raportare a
scorurilor individuale, iar dacă psihologul dorește să elaboreze el însuși un
test psihologic, ceea ce face parte din competența lui profesională, are nevoie
de statistică.
 Aportul statisticii este foarte important în selecția psihologică, punându-se în
evidență calitatea prognostică (predictivă) a unuia sau a mai multor teste luate
împreună (baterie), iar cu ajutorul ei se fixează pragul de respingere și se
constituie scorurile individuale pe baza cărora se ia decizia de selecție.
 Orice problemă pe care și-o pune un psiholog, devenită subiect de cercetare,
nu poate fi rezolvată fără utilizarea unor proceduri statistice adecvate.
Exemple: „există o relație între motivație și performanță”; „există o legătură
între nivelul intelectual și performanța școlară”; „există o diferență a nivelului
de încredere în sine între copiii care au părinții plecați la muncă în străinătate
și copiii ai căror părinți sunt alături de ei” etc.
 Chiar și în psihoterapie este nevoie de statistică, atunci când psihoterapeutul
are nevoie să evalueze eficiența unei noi metode terapeutice, comparativ cu
altă metodă sau pentru identificarea anumitor condiții care pot influența

5
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

eficiența ședințelor de psihoterapie (ora programării, similaritatea de sex între


psihoterapeut și client, abordarea psihoterapeutică etc.) .
 Integrarea în mediul științific profesional îl obligă pe orice psiholog să
utilizeze metodele statistice în elaborarea studiilor proprii sau în lectura și
înțelegerea studiilor din literatura de specialitate.
Huck (2004 apud Popa, 2008) consideră că oamenii se împart în trei categorii:
cei care fac cercetare științifică, cei care nu fac cercetare științifică, dar se confruntă
cu rezultatele altora și cei care nici nu fac cercetare și nici nu se întâlnesc cu
rezultatele cercetărilor. Dacă ne referim la psihologi, aproape orice psiholog face
parte din prima categorie, orice psiholog face parte din a doua categorie și nimeni nu
se poate numi psiholog dacă face parte din a treia categorie.

1.4. Dificultăți și riscuri în însușirea statisticii

Există trei tipuri de riscuri în însușirea statisticii de către studenții la


psihologie, respectiv: „statisticofobia”, naivitatea statistică și epatarea statistică
(Popa, 2008).
Statistica nu a fost niciodată disciplina preferată a studenților la psihologie
deoarece majoritatea nu manifestă o simpatie deosebită pentru numere, formule și
algoritmi de calcul, de aceea putem vorbi de o „fobie de statistică” la unele
persoane, dar nu întotdeauna performanțele scăzute în învățarea statisticii sunt
cauzate de „statisticofobie”. Cele mai importante dificultăți întâmpinate de cei care
vor să înțeleagă psihicul uman sunt:
 abundența de concepte noi, cu semnificații uneori greu de înțeles în mod
intuitiv;
 prezența unor concepte cunoscute din limbajul cotidian, dar care au
semnificații diferite în domeniul statisticii;
 dificultatea înțelegerii raționamentelor de tip probabilistic.

6
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

„Naivitatea statistică” reprezintă un alt risc, care se referă la utilizarea în


necunoștință de cauză a unor prelucrări statistice, fără a ști dacă sunt legitime sau
fără a le înțelege semnificația.
Cel de-al treilea risc se referă la utilizarea statisticii cu scopul de a epata, adică
de a abuza de statistică, de a utiliza cât mai multe proceduri, de a face risipă de
reprezentări grafice sau caută cu orice preț proceduri rar utilizate și cunoscute de
puțină lume, chiar dacă ar ajunge la aceleași concluzii folosind niște proceduri
„clasice”.
Statistica în psihologie este întotdeauna un mijloc și nu un scop în sine. Este
un simplu instrument în atingerea obiectivelor, dar un instrument fără de care
respectivele obiective nu pot fi atinse.

CURSUL 2
CONCEPTE FUNDAMENTALE ÎN STATISTICĂ (PARTEA I)

2.1. Noțiunea de variabilă: variabile dependente și variabile


independente;
2.2. Măsurarea în psihologie;
2.3. Scale de măsurare: scala nominală, scala ordinală, scala de
interval, scala de raport.

2.1. Noțiunea de variabilă

Înţelegem prin variabilă statistică o caracteristică a realităţii care poate


lua valori diferite de la persoană la persoană sau în situaţii diferite. De exemplu, un
cercetător doreşte să verifice ipoteza că persoanele care beau cafea seara, adorm mai
greu decât cele care nu beau. În acest caz, avem de-a face cu două variabile
statistice: timpul de adormire, care poate fi măsurat în minute, şi consumul de cafea,

7
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

care este „prezent” la unele persoane şi „absent” la altele. Dacă latenţa somnului ar
fi aceeaşi la toţi oamenii, indiferent de condiţii sau situaţii, atunci aceasta nu ar mai
fi o variabilă ci o constantă şi nu ar mai prezenta interes pentru analiză statistică.
Variabilitatea se referă la proprietatea obiectului de studiu de a lua valori
diferite. Dacă ne referim la realitatea psihologică, inteligența, de exemplu, este o
variabilă deoarece diferă de la un individ la altul. La fel sunt și sociabilitatea,
anxietatea, depresia, timpul de reacție, vârsta, genul etc. Cercetarea psihologică are
drept obiectiv esențial studierea variabilelor, mai exact explicarea variabilității
diferitelor caracteristici ale realității psihice.
Caracteristica este, prin urmare, o particularitate, o însuşire a unui
obiect sau fenomen, care constituie obiectul măsurării. De exemplu, o masă
poate fi caracterizată prin lungime, lăţime, înălţime, greutate, formă, culoare etc.
Toate acestea constituie caracteristici prin care încercăm să descriem cât mai exact
obiectul măsurat. Cu cât avem mai multe asemenea caracteristici, cu atât obiectul se
conturează mai precis.
Caracteristicile prin care obiectul este descris, poartă numele de
variabile. O variabilă reprezintă un concept-cheie în statistică şi nu este altceva
decât un nume pentru un element a cărui principală proprietate este aceea că variază,
îşi modifică valorile.
Variabilele statistice (caracteristicile statistice) – reprezintă însuşirile
ce definesc şi delimitează unităţile statistice. Ele exprimă trăsăturile esenţiale
purtate de unităţile statistice ale unei colectivităţi, adică dimensiunile prin care
se observă, se cuantifică, se măsoară şi înregistrează fiecare unitate din
colectivitate.
Statistica se ocupă cu studiul variabilelor, adică al variabilităţii umane.
Valorile unei variabile statistice se mai numesc variante sau atribute ale
variabilei şi se obţin prin acţiuni concrete de cuantificare şi măsurare a
unităţilor unei colectivităţi statistice. De exemplu, variabila „mediul de
provenienţă” are ca variante: urban şi rural; iar variabila „notele la examenul de
statistică” are ca valori numerele întregi de la 1 la 10.
8
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

În practica de cercetare sunt luate în considerare numai acele variabile care


prezintă cel puţin două valori.

2.1.1. Variabile dependente și variabile independente


În esenţă, un studiu statistic îşi propune evidenţierea legăturilor dintre
diverse caracteristici ale realităţii (variabile). În acest context, există variabile ale
căror valori sunt dependente, pentru că variază în funcţie de valorile altei sau altor
variabile, care sunt denumite, din acest motiv, independente. Identificarea lor
corectă în cazul unui studiu statistic este esenţială pentru fundamentarea
procedurilor statistice.
Variabilele independente (VI) sunt reprezentate de orice stimul care
poate avea o influență relevantă asupra unor prestații sau comportamente, care
devin variabile dependente (VD).
Variabila dependentă devine obiectul măsurării cu scopul de a fi utilizată în
fundamentarea unor concluzii. Prin opoziție, variabila independentă este utilizată ca
variabilă de influență, ale cărei efecte posibile asupra variabilei dependente urmează
să fie puse în evidență.
Nu există variabile care sunt „dependente” sau „independente” prin natura
lor. Caracteristica de a fi de un tip sau de altul provine din rolul care le este atribuit
de către cercetător într-un anumit context de cercetare. De exemplu, dacă
presupunem că starea emoţională este influenţată de fumat, rezultatul la un
test de labilitate emoţională este variabila dependentă, iar fumatul, variabila
independentă. Într-un alt studiu, însă, în care ne interesează frecvenţa fumatului în
funcţie de sex, numărul ţigărilor este variabila dependentă, iar sexul, variabila
independentă.
Într-un alt exemplu, un cercetător dorește să studieze în ce măsură oboseala
afectează viteza de frânare a șoferilor și operează în acest sens cu două variabile:
oboseala și timpul de reacție pentru frânare. Aici, timpul de reacție este variabila
dependentă, deoarece presupunem că variază în funcție de nivelul oboselii, care, din
acest motiv, este variabila independentă.
9
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Identificarea corectă a naturii independente/dependente a variabilelor unei


cercetări este esențială pentru fundamentarea procedurilor statistice.
Sarcină de lucru:
Identificaţi variabila dependentă şi variabila independentă în următoarele
situaţii:
1. Timpul de studiu are un efect asupra rezultatelor şcolare.
v. dependentă v. independentă
2. Medicaţia reduce simptomele depresiei.
v. dependentă v. independentă
3. Zgomotul ambiant creşte nivelul de agresivitate.
v. dependentă v. independentă

După modul de exprimare, variabilele statistice se clasifică în:


➔ variabile cantitative (sau numerice), exprimate prin numere stabilite prin
numărare/măsurare directă sau calcule ulterioare. Numărul stabilit este un
număr cardinal ce redă intensitatea cu care se manifestă însuşirea respectivă
în cazul individului respectiv.
La rândul lor, variabilele cantitative se clasifică după natura variaţiei în:
- variabile discrete, cu variaţie discontinuă, care pot lua numai valori întregi,
de regulă, pozitive. Exemple: numărul de membrii din gospodărie, numărul
cuvintelor memorate la o probă de memorie.
- variabile continue, cu variaţie continuă, care pot lua orice valoare într-un
interval dat. Exemple: mediile şcolare anuale, venitul lunar.
➔ variabile calitative (numite şi variabile atributive, categoriale, nominale),
sunt caracteristici ale căror variante de manifestare sunt exprimate atributiv,
prin cuvinte. Exemple: sexul, mediul de provenienţă, tipul temperamental.
Atragem atenţia că într-un studiu statistic sunt reţinute numai acele
caracteristici care prezintă interes pentru cercetarea întreprinsă. Pot fi zeci, chiar sute
de variabile ce pot caracteriza indivizii unei populaţii statistice. De multe ori ne

10
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

limităm la a analiza doar câteva dintre ele.


De asemenea, tot cercetătorul este cel care stabileşte, uneori, modul de
exprimare şi/sau natura variaţiei unei variabile. O variabilă cantitativă poate fi
exprimată calitativ, după cum şi o variabilă cantitativă continuă poate fi
transformată, prin rotunjire, într-o variabilă discretă. Exemplul clasic în susţinerea
observaţiilor de mai sus este cel al variabilei „vârstă”: exprimată în ani-luni-zile
reprezintă o variabilă cantitativă continuă, exprimată în ani împliniţi este o
variabilă cantitativă discretă, iar atunci când folosim categoriile tânăr-adult-vârstnic,
avem o variabilă calitativă.
De foarte multe ori variantele sau atributele variabilelor calitative sunt
codificate cu ajutorul numerelor. Aceste coduri reprezintă nişte identificatori,
acordarea lor fiind pur convenţională, deci ele nu se supun operaţiilor matematice
sau prelucrărilor statistice bazate pe operaţii matematice. De exemplu, întrebarea
„Vă place cursul de statistică?” poate fi codificată prin 0–NU şi 1–DA sau „Starea
civilă” poate fi codificată prin 1-necăsătorit, 2-căsătorit, 3-divorţat, 4-văduv, 5-alte
variante.

2.2. Măsurarea în psihologie

Conceptul de măsurare este luat în psihologie în conținutul său cel mai larg și
anume, în sensul de operație prin care se atribuie numere datelor discrete sau
continue ce urmează a fi evaluate.
A măsura înseamnă a atribui numere sau simboluri unor caracteristici ale
realităţii obiective sau subiective, în funcţie de anumite aspecte cantitative sau
calitative care le caracterizează. În acest mod relaţia dintre numere sau simboluri
ajunge să reflecte relaţia dintre caracteristicile cărora le-au fost atribuite. Modul
în care sunt atribuite numere sau simboluri pentru a măsura ceva, se numeşte „scală
de măsurare”.
Statistica operează cu valori numerice sau de altă natură, care rezultă dintr-un
proces de măsurare. Dar numerele, deşi au aceeaşi formă, nu sunt asemănătoare
11
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

unele cu altele. Ele pot avea diferite semnificaţii sau proprietăţi în funcţie de tipul
de măsurare din care rezultă. În funcţie de cantitatea de informaţie pe care o
reprezintă valorile, ca rezultat al procesului de măsurare, putem distinge mai multe
tipuri de scale de măsurare.
2.3. Scale de măsurare

2.3.1. Scala nominală


Valorile de tip nominal, „denumesc” indivizi sau categorii de indivizi.
O măsurare pe scală nominală înseamnă, de fapt, a plasa obiectele în diferite
clase. În acest caz, o valoare nu este cu nimic mai mare sau mică decât altă valoare.
Un exemplu la îndemână este „valoarea” atribuită genului. Ea poate fi codificată cu
„M” sau „F”, ori, la fel de bine cu „2” sau „1”. În acest caz, respectivele „valori” nu
sunt decât simboluri ale unei anumite calităţi pe care o ia caracteristica de gen a unei
persoane. Cu alte cuvinte, într-un asemenea caz „2” nu înseamnă că este „mai mult”
sau „mai bun” decât „1”, ci doar faptul că este „diferit” de acesta. Vom observa că
ambele codificări de mai sus sunt arbitrare, în locul lor putând utiliza orice alte
simboluri, pe bază de convenţie.
Pentru ca scala să aibă sens, trebuie să existe cel puţin două categorii. O
variabilă nominală cu două categorii poartă numele de dihotomie sau clasificare
dihotomică. Dacă există mai multe categorii, vorbim despre polihotomii sau
clasificări multiple (polihotomice). Împărţirea subiecţilor în bărbaţi şi femei
reprezintă o clasificare dihotomică. Împărţirea în funcţie de profesie, culoarea
ochilor sau a părului, grupa sanguină etc. sunt tot atâtea exemple de polihotomii.
Variabilele măsurate pe scale de tip nominal pun în evidenţă diferenţe
calitative între valori. Alte exemple de variabile exprimate pe scale nominale:
bolile psihice (paranoia, depresie, nevroză), tipurile temperamentale (sanguin,
coleric, flegmatic, melancolic), specialitatea universitară (psihologie, chimie,
matematică, drept etc.), lateralitatea (dreptaci, stângaci), religia (ortodox, catolic).
Valorile de tip nominal pot fi, la rândul lor, de două feluri:

12
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

➢ De identificare, atunci când o valoare are rolul de codificare a identităţii,


referindu-se în mod unic la o anumită persoană (de ex., codul numeric
personal, sau un număr de identificare în cadrul unui experiment psihologic).
➢ Categoriale, atunci când desemnează forme pe care le ia o variabilă (tipul de
liceu absolvit: „teoretic”, „industrial”, „artistic”; tipurile temperamentale:
„sanguin”, „coleric”, „flegmatic”, „melancolic”). Această formă este în mod
obişnuit întrebuinţată în psihologie, ori de câte ori este necesară repartizarea
subiecţilor în diverse clase sau categorii, în funcţie de prezenţa sau absenţa
anumitor caracteristici.
Valorile măsurate pe o scală de tip nominal au un caracter calitativ şi nu
suportă operaţii numerice, altele decât cele de sumarizare (numărare, procente).

2.3.2. Scala ordinală


Valorile de tip ordinal exprimă poziţia, rangul, unei valori dintr-o serie de
valori. Constă în ierarhizare, în funcţie de mărimea unei caracteristici, fără însă a se
putea preciza cu cât un nivel ierarhic este superior sau inferior altuia şi nici de câte
ori.
Valorile plasate pe o scală de tip ordinal au o anumită semnificaţie cantitativă.
O anumită valoare este „mai mare” sau „mai bună” decât alta, aflată sub ea. Implicit,
ea poate fi „mai mică” sau mai „puţin bună” decât altă valoare, aflată deasupra ei.
Dacă o anumită persoană este mai preferată decât alta şi atribuim primei valoarea 1,
iar celei de-a doua valoarea 2, atunci cele două valori se exprimă pe o scală de tip
ordinal, care indică doar ordinea preferinţei şi nu măsura intensităţii acestei
preferinţe.
Exemple: ordinea de rang la nivelul unei clase, în funcţie de notele şcolare,
ordinea copiilor la naştere.
Variabilele ordinale pot fi şi ele de tip categorial, atunci când grupurile
definite de valorile variabilei pot fi aranjate într-o ordine naturală. De exemplu:
valorile asociate vârstei astfel: „1” = 20-30 de ani, „2” = 31-40 de ani, „3” = 41-50

13
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

de ani, sau apartenenţa la o anumită categorie valorică, rezultată prin evaluarea


la un examen cu calificative (foarte bun, bun, mediu, rău, foarte rău).

2.3.3. Scala de interval


Valorile de tip interval exprimă mărimea, cantitatea, în raport cu alte valori.
O variabilă măsurată pe o scală de interval ne oferă informaţii nu doar
despre ordinea de mărime, ci şi despre „dimensiunea” exactă a caracteristicii
măsurate. Valorile de acest tip au un caracter cantitativ, exprimat numeric, iar
intervalele dintre ele sunt egale.
Exemple:
 temperatura, măsurată pe o scală Celsius. Dacă într-o zi se măsoară 5 grade iar
în ziua următoare 10 grade, se poate spune cu precizie că a doua zi a fost cu 5
grade mai cald;
 coeficientul de inteligenţă măsurat, să zicem, prin numărul de răspunsuri
corecte la un test. În acest caz, un rezultat de 30 de răspunsuri corecte este cu
10 unităţi mai mare decât 20 sau cu 5 unităţi mai mic decât 35;
 scorurile la testele de personalitate.
Ceea ce este caracteristic valorilor măsurate pe scală de interval este absenţa
unei valori zero absolute, adică absenţa totală a caracteristicii măsurate. În
consecinţă, valorile de acest tip nu ne permit evaluări de genul: „O temperatură
de 10 grade Celsius este de două ori mai mare decât una de 5 grade Celsius” sau, „O
persoană care a obţinut un scor de 30 de puncte este de două ori mai inteligentă
decât una care a obţinut 15 puncte”. Aceasta, deoarece nici temperaturile măsurate
pe scala Celsius şi nici inteligenţa, nu au o valoare 0 absolută (dacă acceptăm că nici
un om viu nu are inteligenţă nulă).

2.3.4. Scala de raport


Valorile de tip raport exprimă mărimea, cantitatea, în raport cu alte valori dar
şi cu o valoare absolută.

14
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Valorile exprimate pe o scală de raport deţin cel mai înalt grad de măsurare.
Pe lângă egalitatea intervalelor, specifică scalei de interval, acest tip de valori se
raportează şi la o valoare 0 absolut (nu este posibilă nici o valoare mai mică de 0).
Din acest motiv, este permisă aprecierea raportului dintre două valori.
Exemple:
• dacă ne referim la temperaturi, atunci scala Kelvin, este un bun exemplu (0
Kelvin este temperatura minimă absolută),
• timpul,
• numărul de răspunsuri corecte sau de erori, la un test psihologic.
În psihologie puţine sunt variabilele acceptate ca fiind măsurate pe scala de
raport, deoarece sunt puţine situaţiile în care avem de a face cu caracteristici ce pot
lua valoarea 0 absolut.
La fel ca şi valorile măsurate pe scale de interval, valorile măsurate pe scală
de raport suportă toate transformările matematice posibile. Din acest motiv, în
practică, valorile măsurate pe scală de interval sau de raport sunt considerate
similare, fiind prelucrate prin acelaşi gen de proceduri statistice. Ca urmare, în acest
caz, se spune că o variabilă este măsurată pe o „scală de interval/raport”.

CURSUL 3.
CONCEPTE FUNDAMENTALE ÎN STATISTICĂ (PARTEA A II-
A)

3.1. Statistica parametrică și statistica neparametrică


3.2. Statistica descriptivă și statistica inferențială
3.3. Populație și eșantion.

3.1. Statistica parametrică și statistica neparametrică

15
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Procedurile parametrice testează variabile cantitative. Procedurile


neparametrice testează variabile calitative.
Esenţa procedurilor statistice este verificarea ipotezelor. Aceasta se face prin
utilizarea unor proceduri de calcul care urmăresc punerea în evidenţă a legăturilor
dintre variabile. Atunci când aceste proceduri se aplică unor situaţii în care
variabilele dependente sunt de tip cantitativ (interval/raport), procedura se
numeşte „parametrică”. Prin opoziţie, procedurile aplicate în cazul în care
variabilele dependente sunt de tip „calitativ” (nominale sau ordinale) se numesc
„neparametrice”.
De asemenea, statisticile parametrice și neparametrice depind de faptul dacă
distribuția este considerată normală sau nu. Dacă datele sunt distribuite în mod
normal sau aproape normal, formulele pot produce rezultate și inferențe precise. Cu
toate acestea, dacă ipoteza de a fi distribuit în mod normal este greșită, statisticile
parametrice ar putea induce în eroare. Statisticile neparametrice sunt cunoscute și
sub denumirea de statistici de non-distribuție. Avantajul acestui tip de statistică este
că nu trebuie să facă o presupunere așa cum s-a făcut anterior cu statisticile
parametrice. Calculele statistice neparametrice iau în considerare medianele în
raport cu mediile. Statisticile parametrice sunt în general preferate deoarece au mai
multă putere de a respinge o ipoteză falsă decât metoda neparametrică.
Dacă media reprezintă mai precis centrul distribuției datelor și dimensiunea
eșantionului este suficient de mare, se utilizează un test parametric. Dacă mediana
reprezintă mai precis centrul distribuției datelor, se utilizează un test neparametric,
chiar dacă există un eșantion mare.
Când se crede că o populație este distribuită normal sau aproape de o
distribuție normală, statisticile parametrice sunt cel mai bine de utilizat. Dacă nu, cel
mai bine este să se utilizeze o metodă neparametrică.
În statistică, testele neparametrice sunt metode de analiză statistică care nu
necesită o distribuție pentru a satisface ipotezele cerute pentru a fi analizate (mai
ales dacă datele nu sunt distribuite în mod normal). Testele neparametrice sunt
utilizate ca metodă alternativă la testele parametrice, nu ca un substitut pentru
16
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

acestea.
Cele mai multe dintre metodele statistice cunoscute aparțin statisticii
parametrice. Statisticile neparametrice sunt utilizate cu moderație și aplicate pentru
cazuri speciale.
Este important de reținut faptul că alegerea statisticii parametrice sau
neparametrice se face pornind de la natura variabilei dependente. Atunci când
aceasta este de tip cantitativ și nu se abate de la condițiile impuse de procedura
statistică pe care dorim să o aplicăm, se utilizează teste statistice parametrice. În
orice alte condiții, se apelează la teste neparametrice. Chiar dacă această distincție
este relativ dificil de înțeles în stadiul introductiv al cursului, este important să fie
reținută.

3.2. Statistica descriptivă și statistica inferențială

Statistica descriptivă se referă la metodele cu ajutorul cărora analizăm


caracteristicile variabilelor statistice. Dacă aplicăm un test de timp de reacţie unui
număr de 50 de persoane, putem calcula valoarea medie a timpilor de reacţie,
împrăştierea acestora sau, utilizând o tehnică de reprezentare grafică, modul
în care se distribuie valorile prin raportare la un sistem de coordonate. Toate aceste
prelucrări, şi altele încă, despre care vom vorbi pe larg într-un alt curs, fac parte din
categoria metodelor statisticii descriptive. Este o etapă esențială și obligatorie pentru
statisticile avansate.
Statistica descriptivă are drept obiective organizarea, sintetizarea şi descrierea
datelor. Rezultatul măsurării se traduce în obţinerea unei colecţii de date. Să
presupunem că am aplicat un test de cunoştinţe unui grup de 25 de studenţi
şi am obţinut următoarea distribuţie de valori pentru variabila „răspunsuri
corecte”:
8, 6, 10, 9, 6, 6, 8, 7, 4, 9, 6, 2, 8, 6, 10, 4, 5, 6, 8, 4, 7, 8, 4, 7, 6
Datele de mai sus reprezintă valorile variabilei statistice „răspunsuri corecte”
(denumite şi „serie statistică” sau „distribuţie statistică”), care este compusă din 25
17
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

de „valori” sau „scoruri”. Fiind rezultatul primar al măsurării, aceste valori se mai
numesc şi valori „primare” sau „brute”. Valorile acestei variabile sunt exprimate pe
o scală cantitativă de tip raport.
Tehnicile şi procedurile destinate organizării şi prezentării sumative a
datelor, constituie ceea ce se numeşte statistica descriptivă.
Principalele componente ale statisticii descriptive sunt:
➔ Tehnici de organizare şi prezentare a datelor, care pot fi, la rândul lor:
o numerice (distribuţia de frecvenţe simple sau grupate;)
o grafice (histograme; grafice de tip bară, linie, circular, histograma stem-
and-leaf)
➔ Indicatori numerici sumativi, care sunt la rândul lor de trei tipuri:
o indicatori ai tendinţei centrale (mod, medie, mediană)
o indicatori ai împrăştierii (amplitudine, abatere quartilă, abatere
standard)
o indicatori ai formei distribuţiei (simetrie şi boltire).
În raport cu numărul caracteristicilor considerate în planul cunoașterii, se
poate vorbi despre:
 statistică descriptivă unidimensională sau univariată (cu o singură variabilă);
 statistică descriptivă bidimensională sau bivariată (cu două variabile);
 statistică descriptivă multidimensională sau multivariată (cu mai multe
variabile).
Dincolo de scopul în sine al acestor proceduri, acela de a oferi o imagine
sintetică asupra datelor analizate, trebuie să înţelegem statistica descriptivă şi ca
pe o etapă pregătitoare în fundamentarea procedurilor statisticii inferenţiale
(destinată verificării ipotezelor statistice).
Statistica inferenţială cuprinde metodele de verificare a ipotezelor de
cercetare prin testarea ipotezelor statistice. Să presupunem că cei 50 de subiecţi de
mai sus sunt supuşi aceluiaşi test de timp de reacţie în condiţii de noxe de mediu (de
exemplu, zgomot excesiv) pentru a verifica ipoteza că zgomotul reduce
promptitudinea reacţiilor. În acest caz, statistica inferențială ne pune la dispoziție
18
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

metode specifice prin care să putem afirma, cu o anumită probabilitate, dacă o


eventuală diferență dintre media timpilor de reacție măsurați în cele două condiții
este semnificativă sau nu. Din această perspectivă, statistica devine un instrument
indispensabil al cercetării științifice în psihologie.
Inferența statistică presupune obținerea unor concluzii asupra
caracteristicilor unei populații, pe baza statisticilor unui eșantion (extras din
populația respectivă).
Reprezintă o decizie, o estimare, o predicție sau o generalizare privitoare la o
colectivitate generală, bazată pe informațiile statistice obținute pe un eșantion.
Astfel, cercetarea statistică va cuprinde două etape: o primă etapă descriptivă în care
se vor colecta și prelucra date privitoare la eșantion, calculându-se indicatorii
statistici, iar în cea de-a doua etapă, etapa de inferență statistică, rezultatele se vor
extinde la colectivitatea generală.
3.3. Populație și eșantion

A fundamenta un adevăr statistic înseamnă a trage o concluzie care descrie


parametrii unei populaţii de valori, pe baza indicatorilor unui eşantion din acea
populaţie. Metoda ştiinţifică permite studiul unui eşantion pentru a trage concluzii
asupra populaţiei din care este selecţionat.
Populaţia reprezintă totalitatea „unităţilor de informaţie” care constituie
centrul de interes al unei investigaţii.
Întotdeauna, la începutul unei cercetări, trebuie menţionată populaţia
cercetării, în vederea specificării domeniului la care vom extinde rezultatele,
concluziile obţinute.
Denumirea de populație pentru colectivități statistice derivă din faptul că
primele aplicații ale statisticii se refereau la domeniul demografic, de unde s-a
păstrat și terminologia de bază.
De regulă, în psihologie, unitățile de informație sunt reprezentate de persoane
(sau „subiecți”, termen uzual în cercetarea psihologică).

19
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Unitatea statistică reprezintă elementul constitutiv al unei colectivități


sttistice și este purtătorul unui nivel al fiecărei trăsături supuse observării și
cercetării statistice.
Unitățile statistice pot fi clasificate în funcție de două criterii:
• după rolul lor în procesul înregistrării sttistice:
➢ unități statice – compun efectivul masei de fenomene existente la un
moment dat ()
➢ unități dinamice – aparțin aceleiași structuri organizatorice, au același
conținut, dar se produc în condiții diferite de timp (înregistrate pe
perioade de timp).
• după gradul de complexitate sau componența lor:
➢ unități simple – sunt formate dintr-un singur element (individul);
➢ unități complexe – sunt formate din două sau mai multe unități
statistice simple (familia, echipa etc.) și depind de modul lor de
organizare.
O colectivitate statistică (populație sau univers statistic) reprezintă o
asociație de elemente unite între ele printr-o trăsătură esențial comună.
Elementele unei colectivități pot fi ființe, lucruri, precum și fapte, evenimente
referitoare la acestea.
Cu alte cuvinte, prin populație sau colectivitate statistică se înțelege totalitatea
persoanelor, faptelor, evenimentelor etc., care constituie obiectul de interes al
cercetării.
Deoarece cercetarea unei colectivități numeroase implică valori mari, putem
extrage din colectivitatea inițială o subcolectivitate (sau mai multe) al cărui studiu
este mai simplu. În acest caz vorbin de „eșantion”, ce presupune un subset de
elemente selectate dintr-o colectivitate statistică.
Eşantionul reprezintă „unităţile de informaţie” selecţionate pentru a fi
efectiv studiate.

20
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Ideea pe care se bazează cercetările orientate pe eşantioane este aceea că se


pot face aprecieri asupra unei întregi populaţii, în anumite condiţii, doar pe baza
caracteristicilor măsurate pe o parte a acesteia.
Eșantionarea poate fi de două feluri: aleatorie și nealeatorie.
În ceea ce privește eșantionarea aleatorie, cele mai utilizate metode de
constituire sunt următoarele:
 eșantionarea stratificată multistadială – populația este împărțită în
categorii, fiecare categorie în subcategorii ș.a.m.d., iar subiecții sunt
selecționați aleatoriu în cadrul categoriei cu nivelul el mai scăzut. Se obține
astfel un eșantion care reproduce fidel structura populației.
 eșantionarea prin clasificare unistadială – se identifică categorii pe un
singur nivel, iar subiecții se extrag aleatoriu din fiecare categorie.
 eșantionarea aleatorie globală – subiecții sunt extrași aleatoriu din
ansamblul populației. „La întâmplare” înseamnă în acest caz utilizarea unei
proceduri speciale care asiguă fiecărui subiect al populației exact aceleași
șanse de a fi inclus în eșantion. În acest scop se pot utiliza programe de
calculator sau tabele de numere aleatorii.
În eșantionarea nealeatorie (pseudoaleatorie sau de conveniență) sunt
utilizați subiecții „disponibili”. Este cazul cel mai frecvent întâlnit în practică, iar
dacă „disponibilitatea” nu este afectată de un aspect care să influențeze semnificativ
obiectivul cercetării, atunci reprezentativitatea este acceptabilă.
Verificarea statistică a ipotezei unei cercetări se bazează pe o idee simplă:
dacă avem un eșantion a cărui alegere respectă anumite condiții, extras dintr-o
populație oricât de mare, rezultatele obținute pe acesta pot fi extrapolate la întreaga
populație.
Totuşi, pentru ca rezultatele obţinute prin studiul eşantionului să poată fi
extinse la nivelul întregii populaţii, acel eşantion trebuie să fie reprezentativ, adică
să întrunească caracteristicile de bază ale populaţiei din care a fost extras.

21
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Reprezentativitatea eşantionului este dată de calitatea valorilor acestuia


de a descrie în mod corect caracteristicile populaţiei din care a fost extras,
permițând extinderea concluziilor la întreaga populație.
Nici un eşantion nu poate reprezenta perfect datele populaţiei. De aceea
reprezentativitatea are o semnificaţie relativă. Ca urmare estimările pe bază de
eşantion conţin întotdeauna o doză mai mare sau mai mică de eroare. Cu cât
eroarea este mai mică, cu atât concluziile obţinute pe eşantion pot fi generalizate mai
sigur asupra populaţiei.
Pentru a permite fundamentarea inferenţelor statistice, eşantionul trebuie să
fie constituit din „unităţi de informaţie” (subiecţi, valori) independente unele de
altele.
Exemple:
• Dacă măsurăm timpul de reacţie la un număr de cinci subiecţi, dar facem trei
evaluări la fiecare subiect, nu avem eşantion de 15 valori independente, deoarece
valorile aceluiaşi subiect au în comun o „constantă personală” care le face
dependente una de cealaltă. Pentru a avea un singur eşantion am putea să utilizăm
media celor trei determinări pentru fiecare subiect.
• Dacă dorim să investigăm efectul inteligenţei asupra performanţei
şcolare, trebuie să avem grijă să includem în eşantion subiecţi provenind din
familii cu un nivel variat al veniturilor, pentru a anihila influenţa statutului socio-
economic asupra performanţei şcolare.
→ Un studiu asupra atitudinii față de utilizarea computerelor în educație poate fi
influențat în mod sistematic dacă eșantionul este constituit numai din elevi care
utilizează frecven calculatorul.
Exemple clarificatoare:
 Într-un studiu asupra efectelor accesului la internet asupra elevilor de liceu,
elevii de liceu reprezintă „populaţia”, iar elevii selecţionaţi pentru investigaţie,
„eşantionul”.

22
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

 Într-un studiu care vizează influenţa inteligenţei asupra performanţei în


instruirea de zbor, populaţia este reprezentată de toţi piloţii, iar eşantionul, de
subiecţii incluşi în studiu.
Sarcină de lucru:
Un grup de studenţi a fost selecţionat dintre studenţii de anul I.
eşantion: populaţie:
La proiect au participat 100 de angajaţi ai companiei.
eşantion populaţie:
Sondajul a fost efectuat pe 1000 de persoane din România.
eşantion: populaţie:

CURSUL 4.
ORDONAREA, GRUPAREA ȘI PREZENTAREA DATELOR
STATISTICE FOLOSIND SPSS (Statistical Package For The Social
Sciences)

4.1. Caracteristici ale SPSS


4.2. Ferestrele SPSS: Fereastra de editare; Fereastra de rezultate
4.3. Barele cu instrumente
4.4. Etichetarea variabilelor

23
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

SPSS (Statistical Package For The Social Sciences) este unul dintre cele mai
puternice și utilizate programe statistice. Acest pachet integral asigură acoperirea
procedeelor specifice din Statistica descriptivă, Statistica inferențială și Analiza
datelor.
Programul a devenit deosebit de atractiv pentru utilizatori deoarece permite
tratarea datelor statistice fără a impune cunoașterea formulelor de calcul, îmbinând
posibilitățile de prelucrare statistică cu facilitățile oferite de programele de calcul
tabelar (de exemplu, Excel) pentru condensarea datelor în tabele și reprezentarea lor
grafică.
SPSS a fost creat la Universitatea din Stanford, în anii ’60, de către doi
studenți, Norman Nie și Tex Bull, pentru a asigura gestiunea și analiza datelor
statistice în domeniul științelor sociale și al psihologiei. Ulterior, utilizarea
programului s-a extins spre alte domenii, cum ar fi economia, medicina etc. Prima
versiune a apărut în anul 1968, a evoluat până la versiunea 28.0.1 şi aria de
aplicabilitate s-a extins de la versiune la versiune, odată cu modul de operare şi cu
facilităţile oferite.
Mediul de programare SPSS oferă o interfață „prietenoasă” avantajând astfel
și un utilizator începător, în sensul că aceasta folosește click-urile de mouse pe
pictogramele și meniurile din ferestre pentru a da comenzi programului.

24
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Lansarea acestuia debutează cu prezentarea unei ferestre introductive,


denumită şi fereastră „logo”. Ea cuprinde informaţii despre versiunea programului,
deoarece există şi versiuni server, mai complexe, versiuni demonstrative. Apăsarea
butonului Cancel indică programului că trebuie să părăsească formularul introductiv
şi să lanseze fereastra principală SPSS în modul de lucru configurat pentru o nouă
bază de date.
Ca orice altă aplicaţie Windows, SPSS posedă o bară de titlu – bara albastră
din partea de sus a ferestrei –, în partea stângă a acesteia afişându-se mesajul
Untitled – SPSS Data Editor. Acest mesaj ne informează că ne aflăm în fereastra
de date (editare a datelor) din SPSS şi că baza de date nu a fost încă salvată (în
momentul salvării, textul „Untitled” este înlocuit cu numele fişierului salvat pe disc).

4.1. Caracteristici ale SPSS

Dacă plecăm de la acronimul programului SPSS, pot fi evidențiate


următoarele caracteristici:

25
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

→ Soluții pentru probleme complexe;


→ Prezentarea sugestivă a rezultatelor;
→ Suplețe în stabilirea condițiilor de prelucrare a datelor prezente într-o mare
diversitate;
→ Simplitate în exploatare.
Soluții pentru probleme complexe – SPSS, având la dispoziție instrumente
specifice metodelor statistice avansate, permite rezolvarea problemelor oricât de
complexe ar fi, oferind soluții care să asigure o cunoaștere mai bună a fenomenelor
cercetate și să sprijine procesul de fundamentare a deciziilor.
Prezentarea sugestivă a rezultatelor – utilizatorul are control deplin asupra
tuturor variabilelor prelucrate, stabilind modul de afișare a valorilor din listele de
ieșire (lungime, număr de zecimale) și ce text să fie scris în locul denumirilor
variabilelor (atunci când acestea nu sunt destul de sugestive) sau în locul valorilor
variabilelor (dacă în fișierul de date s-au introdus coduri). Toate operațiile sunt ușor
de executat datorită existenței a trei editoare: de text, de tabele și de grafice.
Rezultatele prelucrărilor statistice se pot vizualiza prin tabele de diverse formate și
prin multiple tipuri de grafice: histograme, diagrame „coloane”, diagrame „bare”,
diagrame de structură, nor de puncte.
Suplețe în stabilirea condițiilor de prelucrare a datelor – SPSS permite
realizarea oricărei variante de prelucrare, ori de câte ori este nevoie, la nivelul
întregii baze de date sau la nivelul unui subansamblu de date selectat. Utilizatorul
poate alege cazurile care să fie luate în considerare la efectuarea prelucrărilor,
formulând condiții asupra uneia sau mai multor variabile. De asemenea, utilizatorul
poate decide modul în care să fie tratate de SPSS cazurile în care valoarea unei
variabile nu este cunoscută sau nu prezintă interes pentru cercetare. Ele pot fi sau nu
incluse în calcule.
Simplitatea în exploatare – SPSS este un program care poate fi exploatat și de
persoane mai puțin inițiate în statistică. Meniul Help permite accesul la un glosar de
termeni care prezintă semnificația acestora, în meniuri și casete de dialog, iar
componenta Tutorial on-line aduce explicații și exemple și permit orientarea rapidă
26
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

printre numeroasele prelucrări care pot fi realizate. În ceea ce privește exploatarea


propriu-zisă, SPSS asigură simplitate în manevrarea datelor de intrare. Introducerea
și modificarea datelor este o operație simplă existenței unui editor de tabele, pe
ecran afișându-se un tabel cu linii și coloane. Liniile corespund cazurilor, iar
coloanele conțin variabilele. Nu există limitări în privința numărului de cazuri sau
variabile care pot fi incluse în tabel.

4.2. Ferestrele SPSS

Ferestrele sunt zone/porțiuni de pe ecran tratate ca elemente de sine stătătoare,


cu caracteristici proprii, care determină acțiunile ce se pot executa în cadrul lor. O
fereastră este afișată ca urmare a lansării unei anumite operații.
SPSS lucrează cu mai multe ferestre diferite, fiecăreia dintre ele fiindu-i
asociat un anumit tip de fișier. Dintre acestea, pentru abnaliza datelor, cele mai
frecvent utilizate sunt ferestrele Data Editors și Output Viewer.

4.2.1. Fereastra de editare (Data Editor)


Se deschide implicit la lansarea SPSS și este folosită pentru introducerea,
modificarea sau ștergerea datelor. Ea recunoaște fișierele de date care au extensia
implicită sav.
Fereastra Data Editor conține două foi: Data View și Variable View, fiind
vizibilă/activă doar una dintre ele la un anumit moment dat și anume cea în care este
plasat cursorul. Trecerea dintr-o foaie în alta se realizează printr-un clic de mouse pe
eticheta proprie foii respective. La deschiderea editorului de texte, este vizibilă foaia
Data View care conține datele brute. În aparență, cea de-a doua foaie (VariableView)
este similară cu prima, dar ea nu conține date, ci informații despre variabilele de
analizat.

27
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Folosind succesiunea de comenzi File, Open, Data, programul lansează o


fereastră de dialog în care putem opta pentru deschiderea mai multor tipuri de

28
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

fișiere tip bază de date, generate de programe cum ar fi SPSS (cu extensia .sav) sau
deschidem o fereastră nouă pentru introducerea datelor folosind succesiunea de
comenzi File, Open, New.

4.2.2. Fereastra de rezultate (Output Viewer)


Toate rezultatele obținute din analizele statistice sunt afișate în fereastra
Output Viewer. Această fereastră se deschide doar dacă s-au lansat comenzi din
meniurile Analyze sau Graphs.
Este structurată în două cadre/zone: cadrul din stânga (cuprinsul/structura)
prezintă, sub forma unei schițe, obiectele conținute în fereastră. Elementele din
schiță se referă la titlu, note și denumirea rezultatelor statistice propriu-zise.
În al doilea cadru, cel din dreapta ferestrei (conținutul) sunt afișate rezultatele
obținute prin respectiva analiză. Toate aceste obiecte pot fi modificate, copiate,
mutate sau șterse. Recunoaște fișierele de date care au extensia implicită spo sau spv.

29
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

4.3. Barele cu instrumente

Bara de meniu conține mai multe meniuri, și după cum se observă, sunt
aproximativ aceleași pentru cele două fisiere Data Editor și Viewer (acesta are 2
meniuri în plus Insert si Format).

File: Acest meniu este utilizat pentru operații curente asupra fișierelor: creare,
deschidere, export de fișiere diverse: date, rezultate, comenzi, închiderea sesiunii de
lucru etc.
Edit: Comenzile acestui meniu operează în ferestrele de rezultate și asigură
executarea operațiilor de copiere/mutare (Copy, Cut, Paste, Paste variables),
șteregere (Delete) și căutare rapidă (Find). De asemenea, din acest meniu pot fi
definite o multitudine de opțiuni care personalizează mediul de desfășurare a sesiunii
de lucru.
30
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

View: prin comenzile subordonate, permite afișarea sau neafișarea barei de


stare (Status Bar – plasată în partea de sus a monitorului), a altor bare cu
instrumente de lucru (Toolbars) sau a grilelor/liniilor din foile ferestrei de editare
(Grid Lines).
Data: prin comenzile acestui meniu este „afectat” conținutul ferestrei Data
editor. Poate fi stabilit formatul de afișare a datelor calendaristice și a timpului
(Define Dates: zi, zile lucrătoare, săptămână, lună, oră, minut, secundă etc.), se pot
introduce variabile ș cazuri (Insert Variable, Insert Case), pot fi localizate rapid,
conform unei numerotări, cazurile (Go to case). Cazurile pot fi sortate (Sort Case)
crescător (Ascending) sau descrescător (Descending). Facilități deosebite sunt cele
care permit fuzionarea fișierelor (Merge Files) sau splitarea/împărțirea lor (Split
File). De asemenea, este posibilă selectarea cazurilor (Select Cases) și stabilirea
ponderii cazurilor (Weight Cases).
Analyze: este folosit pentru realizarea procedurilor statistice, fie statistici
descriptive, fie statistici parametrice și/sau neparametrice.
Graphs: comenzile acestui meniu sunt folosite pentru a obține reprezentarea
datelor sub formă de grafice: histograme, puncte, diagrame de bare, diagrame de
structură etc.
Utilities: acest meniu reunește sub forma unui index al comenzilor, cele mai
utilizate instrumente, cu o scurtă descriere a acestora: informații privind variabilele
curente (Variables), informații despre fișierele disponibile (File Info), definirea și
utilizarea seturilor (Define Sets, Use Sets).
Windows: Comenzile meniului asigură comutarea între ferestrele diferitelor
fișiere deschise, precum și controlul aranjării acestora pe ecran.
Help: acest meniu permite familiarizarea cu programul SPSS. Cele mai
utilizate opțiuni sunt Topics, care afișează un meniu contextual în funcție de
subiectul precizat de utilizator, și Tutorial, care oferă asistență în învățarea SPSS.

4.4. Etichetarea variabilelor

31
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Pentru orice tip de caracteristică putem defini, de asemenea, eticheta variabilei


folosind opțiunea „Label”, care va permite specificarea semnificației numelui
variabilei și va putea apărea în prelucrările statistice în locul sau alături de numele
respectivei variabile.
Această opțiune permite includerea unei denumiri mai intuitive a variabilei,
prin care să poată fi mai uşor identificată şi recunoscută. Astfel, variabilei „nume” îi
putem da eticheta „Numele subiecţilor”, variabila „iq” o putem eticheta drept
„Coeficientul de inteligență” ş.a.m.d. Putem include orice etichetă descriptivă dorim
pentru numele unei variabile, cu condiţia ca lungimea acesteia să nu depăşească 255
de caractere. Această caracteristică mai are însă o funcţie importantă: SPSS include
eticheta variabilelor în rapoartele finale rezultate în urma prelucrării datelor. Dacă
creaţi un tabel de frecvenţă, SPSS nu va afişa numai numele variabilei, de exemplu
„iq”, ci va include şi descrierea acesteia, „Coeficientul de inteligenţă”, făcând astfel
mult mai estetice şi mai inteligibile foile de raport.
Dacă vom da clic pe celula corespunzătoare coloanei Values pentru această
variabilă, constatăm apariţia unui mic buton cu puncte de suspensie în partea dreaptă
a celulei. Apăsând acest buton se deschide o nouă fereastră, fereastra de configurare
a valorilor asociate.

32
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

În această casetă vedem lista acestor asocieri în partea de jos. În stânga listei,
există 3 butoane: Add cu ajutorul căruia putem crea o nouă asociere, Change prin
care putem modifica o asociere selectată şi Remove care şterge, elimină asocierea
selectată.
Această opțiune permite clasificări (deci variabile categoriale) şi asocieri de
valori. Spre exemplu, putem asocia valoarea 1 sexului masculin şi valoarea 2 sexului
feminin, pentru a putea introduce mai uşor datele şi pentru a putea efectua prelucrări
statistice la nivel de variabile nominale.
Caracteristicile SPSS descrise anterior ne prezintă un produs program care
oferă facilități de lucru performante pentru o gamă largă de utilizatori care folosesc
statistica, fie în activitatea practică, fie în cercetarea științifică.

33
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

CURSUL 5.
STATISTICI DESCRIPTIVE (PARTEA I)

5.1. Analiza frecvențelor


5.2. Reprezentări grafice
5.3. Utilizarea SPSS pentru prezentarea datelor statistice sub formă de
tabele.
5.4. Utilizarea SPSS pentru reprezentarea grafică a datelor

Tehnicile descriptive de tip global se referă la prezentarea şi analiza tuturor


valorilor unei distribuţii statistice. Aceste tehnici sunt, la rândul lor de două feluri:
numerice (analiza de frecvenţe) şi grafice.

5.1. Analiza frecvențelor


Analiza de frecvenţe simple se bazează pe frecvenţa de apariţie a fiecărei
valori dintr-o distribuţie. Să luăm ca exemplu această serie de date:
10, 10, 9, 9, 8, 8, 8, 8, 8, 7, 7, 7, 6, 6, 6, 6, 6, 6, 6, 5, 4, 4, 4, 4, 2
Privind datele aranjate ca mai sus, putem observa cu uşurinţă câteva lucruri:
valoarea cea mai mare şi valoarea cea mai mică, valorile care se repetă. Dar, chiar şi
acest mod de prezentare, nu ne-ar fi de mare ajutor dacă valorile ar fi într-un număr
mare. Pentru a elimina acest neajuns se foloseşte tabelul frecvenţelor simple.
Tabelul 1. Frecvenţe simple
Valoare fa
10 2
9 2
8 5
7 3
6 7
5 1
4 4
3 0
2 1
Total Σfa=25

34
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Dacă luăm în considerare seria de valori de mai sus, un tabel al frecvenţelor


simple (absolute) este compus din lista valorilor distincte, ordonate
descrescător, la care se adaugă frecvenţa absolută (fa) a fiecărei valori (de câte ori se
întâlneşte în cadrul seriei).
Se observă că astfel datele au un caracter mai ordonat, iar coloana frecvenţelor
absolute scoate în evidenţă anumite aspecte cum ar fi, de exemplu, faptul că
cea mai frecventă valoare este 6 (apare de 7 ori). Observăm că seria de valori din
tabel include toate valorile posibile între valoarea cea mai mare (10) şi cea mai mică
(2), incluzând şi valorile care nu se întâlnesc în mod real în cadrul seriei. În cazul
nostru avem valoarea 3, cu frecvenţa de apariţie 0. Suma frecvenţelor absolute (Σfa)
indică totalul valorilor din cadrul seriei (25).
Exemplu:
Să ne imaginăm că un profesor dă un test unei clase de elevi și obține
următoarele rezultate:
8, 5, 7, 5, 7, 10, 6, 9, 8, 10, 8, 4, 3, 9, 6, 7, 5, 4, 3, 10, 8, 8, 7, 8.
Atunci când privim aceste rezultate putem afirma care este cea mai mare notă
(10), nota cea mai mică (3) și valoarea care se regăsește de cele mai multe ori (8).
Totuși, așa cum am menționat anterior, aceste lucruri ar fi foarte greu de realizat
dacă am avea sute sau mii de valori. Lucrurile ar deveni mai simple dacă am aranja
valorile obținute într-un tabel.

Figura 1. Realizarea tabelului de frecvenţe în SPSS

35
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Figura 2. Mutarea variabilei analizate

Pentru a realiza analiza de frecvențe simple în programul SPSS procedăm


astfel: Analyze → Descriptive Statistics → Frequency. Variabila pe care dorim să o
analizăm este mutată în zona Variable. Apoi se apasă OK.

Tabelul 1. Tabelul de frecvențe pentru variabila Note


note
Frequency Percent Valid Cumulative
Percent Percent
Valid 3 2 8,3 8,3 8,3
4 2 8,3 8,3 16,7
5 3 12,5 12,5 29,2
6 2 8,3 8,3 37,5
7 4 16,7 16,7 54,2
8 6 25,0 25,0 79,2
9 2 8,3 8,3 87,5
10 3 12,5 12,5 100,0
Total 24 100,0 100,0

• valid – cuprinde valorile înregistrate prin măsurarea variabilei analizate

(Note). Valorile sunt ordonate crescător și putem observa faptul că cea


mai mică valoare este 3, iar cea mai mare este 10.

36
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

• Frequency – ne prezintă informații cu privire la frecvența absolută.

• Percent – ne prezintă informații cu privire la frecvența relativă

procentuală.
• Cumulative percent – ne indică frecvența relativă cumulată

procentual.
Tabelul de mai sus cuprinde frecvența absolută (de câte ori apare în cadrul
distribuției, frequency) a fiecărei note. Astfel, putem observa că nota cel mai des
întâlnită este 8 (fa = 6). Suma frecvențelor absolute ne oferă numărul total de
valori existente în cadrul distribuției (Total = 24). Pe lângă frecvența absolută
putem discuta și despre alte tipuri de frecvențe:
• Frecvența cumulată (fc) – reprezintă totalul valorilor care se cumulează
de la valoarea cea mai mică până la valoarea cea mai mare. De exemplu,
în tabelul 1.1 avem patru valori mai mici sau egale cu 4 și nouă valori mai
mici sau egale cu 6.
• Frecvența relativă procentuală (f%, percent) – indică procentul
valorilor care corespunde unei anumite valori din cadrul distribuției. Se
poate obține prin calculul direct al procentului pe care îl reprezintă o
anumită valoare raportat la numărul total de cazuri din cadrul distribuției.
Suma frecvențelor relative procentual este întotdeauna 100. În cazul
nostru, 12,5% din elevi au obținut nota 5, dar şi nota 10, 8,3% au obținut
nota 9, dar şi nota 6, nota 4 şi nota 3, 25% au obţinut nota 8 şi 16,7%au
obţinut nota 7.
• Frecvența relativă cumulată procentuală (fc%, cumulative percent) –
indică procentul valorilor dintr-o distribuție care se află până la o anumită
valoare, inclusiv aceasta. În exemplul nostru, 37,5% dintre subiecți au
obținut o notă mai mică sau egală cu 6; 79,2% au obținut cel puțin nota 8.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

5.2. Reprezentări grafice

Reprezentările grafice sunt forme intuitive de prezentare a distribuţiilor


de frecvenţe („o imagine face mai mult decât o mie de cuvinte”). Ele sunt
foarte frecvent utilizate pentru analiza şi prezentarea datelor în psihologia
aplicată deoarece facilitează înţelegerea semnificaţiei datelor numerice. În
prezent, programele computerizate oferă mijloace extrem de puternice şi de
sofisticate pentru elaborarea reprezentărilor grafice. Dar simpla utilizare a unui
astfel de program nu garantează realizarea unui grafic eficient. În esenţă, un
grafic eficient este o combinaţie reuşită între formă şi conţinutul statistic pe
care îl reflectă. Realizarea acestei combinaţii depinde de respectarea câtorva
principii esenţiale:
focalizarea pe conţinutul şi nu pe forma graficului
este esenţial să fie evitate distorsiunile induse de forma graficului
este recomandabil să fie utilizate grafice care favorizează
comparaţii între variabile şi nu doar reprezentări individuale, “statice”, ale
acestora
fiecare grafic trebuie să servească un singur scop, exprimat clar şi
evident
orice grafic va fi însoţit de informaţii statistice şi descrierile
necesare pentru a fi uşor şi corect înţeles
un grafic trebuie să scoată în evidenţă datele şi nu abilităţile tehnice
de editare ale celui care l-a creat.
Formele de expresie grafică a datelor statistice sunt foarte numeroase. Ne
vom ocupa aici doar de câteva dintre acestea, cel mai des utilizate:
• graficul de tip bară
• histograma
• poligonul de frecvenţe
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

• graficul circular
• graficul de tip „stem and leaf” („tulpină şi frunze”)

Graficul de tip bară


Se recomandă utilizarea acestui tip de grafic pentru variabile de tip
categorial sau nominal.

Figura 3. Diagrama (Graficul) de bare pentru variabila Gen

Histograma
Acest tip de grafic poate fi utilizat pentru variabile de tip continuu, care
pot lua orice valoare numerică. De exemplu, timpul de reacție, numărul de
răspunsuri corecte la un examen, înălțimea, greutatea, etc.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Figura 4. Histograma pentru variabila Timpul de reacţie

Poligonul de frecvenţe
Este o reprezentare alternativă la histogramă. Punctele centrale ale
suprafeţelor rectangulare care reprezintă frecvenţa sunt unite cu o linie care
delimitează suprafaţa poligonului.

Figura 5. Poligonul de frecvenţe pentru variabila Note

Graficul circular (de tip pie/plăcintă)


STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Este utilizat atunci când valorile variabilei reprezintă parte a unui întreg.
De exemplu, poate fi utilizat atunci când analizăm variabile de tip categorial,
astfel încât să înțelegem cât mai bine ponderea fiecărei categorii.

Figura 6. Diagrama de structură pentru variabila Anul de studiu


Reprezentarea de tip stem-and-leaf (stem plot)
Este o reprezentare care încearcă să îmbine expresia numerică cu cea
grafică, fiind propusă de statisticianul J.W. Tuckey (1977). Scopul principal a
fost acela de a oferi nu doar o imagine a distribuţiei ci şi o metodă de
explorare a acesteia, fiind din ce în ce mai utilizată de psihologi.

Note Stem-and-Leaf Plot

Frequency Stem & Leaf

2,00 3 . 00
2,00 4 . 00
3,00 5 . 000
2,00 6 . 00
4,00 7 . 0000
6,00 8 . 000000
2,00 9 . 00
3,00 10 . 000

Stem width: 1
Each leaf: 1 case(s)
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Exemplu:

Avem următoarea bază de date:

101 94 87 117 115 116 91 113 96 105


92 107 118 114 98 112 101 114 107 109
97 109 124 102 118 113 116 106 108 89
106 108 115 92 97 102 108 102 109 114
107 104 110 101 101 121 125 86 109 123

Observăm că valorile sunt cuprinse între 86 şi 125. Alegem o valoare


convenabilă pentru tulpină, care va juca rolul de interval de clasă, care în cazul
nostru poate fi 10. „Tulpina” reprezentării stem plot este în acest caz numărul de
zeci din fiecare valoare individuală.

VAR00001 Stem-and-Leaf Plot

Frequency Stem & Leaf

3,00 8 . 679
4,00 9 . 1224
4,00 9 . 6778
9,00 10 . 111112224
12,00 10 . 566778889999
7,00 11 . 0233444
7,00 11 . 5566788
3,00 12 . 134
1,00 12 . 5

Stem width: 10
Each leaf: 1 case(s)

Valorile din coloana stem indică numărul de zeci, iar cele din coloana
Leaf, numărul de unităţi. Dacă privim imaginea în ansamblu ne-o putem
reprezenta ca pe o histogramă orizontală. În acest exemplu:
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Stem 8, urmat de Leaf 679 indică faptul că variabila noastră are în


compunere valorile 86, 87, 89.
Stem 12, urmat de leaf 134, ne arată că distribuţia conţine valorile 121,
123, 124.

CURSUL 6.
STATISTICI DESCRIPTIVE (PARTEA a II-a)

6.1. Indicatorii tendinței centrale


6.2. Indicatori ai împrăștierii
6.3. Indicatori ai formei distribuției
6.4. Utilizarea SPSS pentru calcularea indicatorilor.

Analiza de frecvențe este o metodă utilă pentru punerea în valoare a unor


caracteristici ale distribuțiilor statistice, iar ea este tributară necesității de a
manipula întreaga cantitate de date, toate valorile unei distribuții. Pentru a
elimina acest neajuns sunt utilizați indicatorii sintetici. Aceștia sunt descriptori
numerici care condensează într-o valoare unică o anumită caracteristică a
întregii distribuții de valori. Principalele avantaje pe care le oferă sunt
concentrarea semnificației și ușurința utilizării lor.
Tipuri de indicatori sintetici
Trei sunt caracteristicile distribuţiilor care sunt evaluate cu ajutorul
indicatorilor sintetici: tendinţa centrală, variabilitatea (împrăştierea,
diversitatea), forma distribuţiei. Pentru fiecare din aceste caracteristici se
utilizează anumiţi indicatori specifici:
→ Indicatori ai tendinţei centrale: Aceştia sunt valori tipice,
reprezentative, care descriu distribuţia în întregul ei;
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

→ Indicatori ai variabilităţii: Sunt valori care descriu caracteristica de


împrăştiere a distribuţiei. O distribuţie care conţine aceeaşi valoare, ori de
câte ori s-ar repeta ea, are o variabilitate zero.
→ Indicatori ai formei distribuţiei: Sunt valori care se referă la forma
curbei de reprezentare grafică a distribuţiei, prin comparaţie cu o
curbă normală (oblicitate, aplatizare).

6.1. Indicatorii tendinței centrale

Indicatorii prin care se determină în mod curent „tendința centrală” a


rezultatelor sunt: media, mediana și modul.
6.1.1. Media
Media reprezintă suma valorilor, a datelor numerice, împărțită la numărul
acestora.
Notaţiile uzuale ale mediei:
 μ (miu), atunci când este media întregii populaţii de referinţă;
 m, atunci când se calculează pentru un eşantion (cazul cel mai frecvent).
Formula de calcul a mediei este:
∑𝒙
m= ,
𝑵

unde Σ înseamnă „sumă de”, x reprezintă valorile sau rezultatele inividuale, iar
N repezintă efectivul grupei studiate.
Calcularea mediei pentru o distribuţie simplă de frecvenţe se face
prin adunarea valorilor şi împărţirea la numărul lor. Exemplu: Pentru distribuţia
5,8,3,2,5,4,7,9,6,5,3
5+8+3+2+5+4+7+9+6+5+3 57
m= = = 5,18
11 11

Proprietăţile mediei aritmetice:


• Adăugarea\scăderea unei constante la fiecare valoare a distribuţiei,
măreşte\scade media cu acea valoare.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

• Înmulţirea\împărţirea fiecărei valori a distribuţiei cu o constantă,


multiplică\divide media cu acea constantă.
• Suma abaterii valorilor de la medie este întotdeauna egală cu zero.
• Suma pătratului abaterilor de la medie va fi întotdeauna mai mică decât
suma pătratelor abaterilor în raport cu oricare alt punct al distribuţiei.

6.1.2. Mediana
Este valoarea „din mijlocul” unei distribuţii, adică aceea care are
50% dintre valori deasupra ei şi 50% dintre valori dedesubtul ei (cu alte cuvinte,
percentila 50).
Se găseşte prin alcătuirea tabelei de frecvenţe, în ordine
crescătoare sau descrescătoare, în coloana frecvenţelor relative procentuale
cumulate, şi corespunde valorii de 50%. Ea se utilizează mai ales când avem de-
a face cu distribuții asimetrice. Indicatorul recomandabil este mediana în cazul
valorilor „nedeterminate” și a categoriilor „deschise”. Valorile „nedeterminate”
sunt acele valori a căror mărime nu decurge din procesul de măsurare, în acelaşi
mod în care rezultă oricare valoare a seriei (Exemplu: La testul de asociere
verbală, dacă subiectul depăşeşte, să zicem 10 sec., se înregistrează valoarea 10,
fără a se aştepta, la infinit (?), un răspuns). Categorii „deschise” sunt acele
categorii de valori care au una dintre limite „liberă” (Exemplu: Câte ţigări
fumezi zilnic? Se poate înregistra numărul ţigărilor ca atare, dar ultima
valoare este „30 sau mai mult).
Pentru a determina mediana introducem noțiunea de ranguri, adică
numere de ordine asociate observațiilor (rang 1 – cea mai mică, rang n – cea mai
mare). Locul sau rangul pe care îl ocupă mediana în șirul ordonat se determină
cu ajutorul formulei :
𝑁+1
LocMe = ,
2
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

care nu este formula de definiție pentru mediană (Me).


În cazul distribuţiilor cu număr impar de valori, Me este chiar
valoarea care împarte distribuția în două jumătăți egale.
Exemplu: 21, 18, 13, 16, 15, 17, 20, șirul are 7 valori. Dacă le ordonăm
crescător, șirul va fi: 13, 15, 16, 17, 18, 20, 21. Observăm că valoarea care se
află în mijlocul șirului de date este 17, aceasta fiind valoarea medianei. Pentru a
afla locul sau rangul medianei, aplicăm formula de calcul, astfel: Loc Me = 7 +1 /
2 = 4. Deci, a patra valoare din șirul de date reprezintă valoarea medianei,
respectiv 17.
În cazul distribuţiilor pare, Me se calculează ca medie a celor două valori
din mijlocul distribuţiei. Luăm în calcul același șir de valori, dar excludem o
valoare, respectiv 16, astfel rămânând doar 6 valori în șirul de date. De
asemenea, ordonăm crescător datele: 13, 15, 17, 18, 20, 21. Aplicăm formula de
calcul, astfel: LocMe = 6 +1 / 2 = 3,5. Deci, mediana se află între valoarea a treia
și a patra din serie, adică între valorile 17 și 18, respectiv 17,5.
17 +18
Me = = 17,5
2

Mediana şi rangurile sunt intens folosite atunci când lucrăm cu date


neparametrice sau atunci când media nu este un indicator fidel al tendinţei
centrale. Este mai puțin afectată de valorile extreme, luând în calcul doar poziția
valorilor, nu și magnitudinea lor efectivă.

6.1.3. Modul
Modul este expresia ce mai directă a valorii tipice (reprezentative) a unei
distribuţii statistice.
În cazul unei distribuţii simple, este valoarea cu frecvenţa cea mai mare
de apariţie. Modul se mai numește și dominanta seriei sau valoarea modală.
Modul se află prin alcătuirea tabelei de frecvenţe şi este identificat
ca valoarea căreia îi corespunde frecvenţa absolută cea mai ridicată.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Distribuţiile pot avea un singur mod (unimodale), două moduri


(bimodale) sau mai multe (multimodale).
Exemplu: 2, 15, 16, 18, 18, 21, 21, 21, 21, 25, 26 – modul este 21 (distribuție
unimodală).
Exemplu: 2, 15, 16, 16, 16, 18, 18, 21, 21, 21, 25, 26 – modul 16 și 21
(distribuție bimodală).
Temă:
Calculaţi şi scrieţi care sunt, pentru fiecare dintre cele două variabile,
următorii indicatori statistici:
(1). Mediana Modul Media

(2). Mediana Modul Media


Timiditate (1) Singurătate (2)
29 27
28 35
36 30
41 51
25 30
15 20
33 47
40 42
33 40
20 33
35 28
26 40
32 22
23 15

6.2. Indicatori ai împrăștierii

Împrăştierea se referă la gradul de variabilitate al valorilor, care descrie


diferenţele existente între valori.
În cazul tendinţei centrale este scoasă în evidenţă caracteristica valorilor
unei distribuţii de a se „asemăna” unele cu altele, „asemănare” surprinsă de
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

indicatorii tendinţei centrale. În cazul împrăştierii, se urmăreşte descrierea


tendinţei valorilor de a se deosebi una de alta, de a se „sustrage” unei
tendinţe centrale prin îndepărtarea de aceasta.
Pentru evaluarea împrăştierii distribuţiilor statistice se utilizează mai mulţi
indicatori. Distingem două categorii de indicatori ai împrăştierii: elementari
și sintetici.
Principala caracteristică a indicatorilor elementari este aceea că surprind
împrăştierea distribuţiei prin distanţa dintre doar două valori ale acesteia.

Amplitudinea absolută (R de la Range)


Este dată de diferenţa dintre valoarea maximă şi valoarea minimă a unei
distribuţii:
R = Xmax – Xmin
Utilitatea ei este dată de faptul că ne indică în mod absolut plaja de valori
între care se întinde distribuţia. Principalul dezavantaj constă în faptul că
poate fi influenţată de o singură valoare aflată la extremitatea distribuţiei.

Distribuţia A are o amplitudine mai mare dar şi o variabilitate mai mare decât
distribuţia B, iar în cea de-a doua imagine, amplitudinea distribuţiilor A şi B
sunt identice, dar distribuţia A are mai multă variabilitate.

Abaterea quartilă (cvartilă, intercvartilă) (RQ)


STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Quartilele (Q) sunt percentilele care împart distribuţia în patru


segmente egale. Ele sunt: Q1 (percentila 25); Q2 (percentila 50, sau Me); Q3
(percentila 75).
Abaterea quartilă este dată de diferenţa dintre valoarea corespunzătoare
quartilei 3 şi valoarea corespunzătoare quartilei 1.
RQ = Q3 – Q1

Abaterea semi-interquartilă (RSQ)


Semnifică distanţa unui scor „tipic” faţă de amplitudinea întregii
distribuţii şi se calculează ca media diferenţei dintre quartila 3 şi quartila 1.
𝑄3−𝑄1
RSQ =
2

Într-o distribuţie perfect simetrică RSQ=Q2=Me


RSQ nu este afectată de valorile aberante fiind considerată, din acest motiv,
un indicator „robust” al împrăştierii.
O imagine de ansamblu a tipurilor de indicatori elementari ai împrăştierii
ne este dată de figura de mai jos, unde am figurat prin puncte o distribuţie
oarecare de 31 de valori posibile.

Acest tip de indicatori ilustrează împrăştierea prin distanţa dintre două


puncte ale unei distribuţii. Unul dintre avantajele lor este acela al uşurinţei de
calcul. Pe de altă parte, tocmai pentru că iau în seamă doar două dintre valorile
distribuţiei, sunt vulnerabili şi nesiguri. Utilitatea lor este în general limitată
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

dar sunt singurii care pot fi folosiţi atunci când indicatorii sintetici nu pot fi
calculaţi. Un alt dezavantaj al acestora este dificultatea de a fi utilizaţi în
procedurile statistice avansate.
Spre deosebire de indicatorii elementari, indicatorii sintetici surprind
împrăştierea unei distribuţii prin luarea în considerare a abaterii fiecărei
valori de la un anumit indicator al tendinţei centrale. Cel mai uzual indicator de
referinţă pentru împrăştiere este media. Aceasta pentru că, aşa cum ne amintim,
media are avantajul de a fi o „concentrare” a tuturor valorilor unei distribuţii.

Abaterea medie (d de la deviaţie medie)


Distanţa dintre o valoare anumită şi media distribuţiei se numeşte
abaterea valorii (Xi – m). Dacă am dori să calculăm abaterea medie a unei
distribuţii nu ne-ar rămâne decât să însumăm abaterile individuale ale
fiecărei valori şi să le împărţim la numărul acestora. Din păcate, media
abaterilor într-o distribuţie este întotdeauna egală cu zero (vezi proprietăţile
mediei). Acest fapt poate fi descris cu formula
Σ(Xi – m) / N = 0
unde Xi sunt valorile distribuţiei, m este media, iar N, numărul de valori.
X Xi – m
5 (5 – 4.5) = .5
8 (8 – 4.5) = 3.5
3 (3 – 4.5) = -1.5
2 (2 – 4.5) = -2.5
5 (5 – 4.5) = .5
4 (4 – 4.5) = -.5

X = 27 (Xi-m) = 0
N=6
m = 4.5

Aşa cum se observă în coloana „Xi–m”, diferenţele individuale


însumate produc Σ(Xi-m) = 0. Acest lucru este valabil pentru orice fel de
distribuţie şi este una dintre proprietăţile importante ale mediei.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Pentru a elimina acest inconvenient putem să luăm abaterile individuale în


valoare absolută (fără semn).
X (Xi – m)
5 (5 – 4.5) = 0.5
8 (8 – 4.5) = 3.5
3 (3 – 4.5) = 1.5
2 (2 – 4.5) = 2.5
5 (5 – 4.5) = 0.5
4 (4 – 4.5) = 0.5

X = 27 |Xi-m| = 9
N=6
m = 4.5

Ca urmare, formula abaterii medii (d) poate fi scrisă astfel:


Σ| 𝑋𝑖− 𝑚 |
d= 𝑁

Abaterea medie este uşor de înţeles şi are semnificaţia de medie a


distanţelor între fiecare scor şi media distribuţiei. Din păcate, nici ea nu
este potrivită cu statisticile avansate.

Dispersia (varianţa, abaterea medie pătratică)


Notaţii uzuale:
s2 (când se calculează pentru eşantion)
σ2 (când se calculează pentru întreaga populaţie)
Pentru a elimina inconvenientul abaterilor de la medie de a avea suma
egală cu zero, se operează ridicarea la pătrat a abaterilor valorilor individuale.
X (Xi – m) (Xi – m) 2
5 (5 – 4.5) = 0.5 0.25
8 (8 – 4.5) = 3.5 12.25
3 (3 – 4.5) = -1.5 2.25
2 (2 – 4.5) = -2.5 6.25
5 (5 – 4.5) = 0.5 0.25
4 (4 – 4.5) = -0.5 0.25

X = 27 (Xi-m) = 0 (X-m)2 = 21.5


N=6
m = 4.5
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Dacă însumăm abaterile ridicate la pătrat (pătratice) şi le împărţim la


numărul valorilor, obţinem dispersia (numită şi varianţă sau abatere medie
pătratică). Cu toate acestea, din cauza ridicării la pătrat, dispersia nu reprezintă
o valoare foarte bună a împrăştierii (de ex., poate fi mai mare decât amplitudinea
distribuţiei). Soluţia acestui neajuns o constituie abaterea standard.

Abaterea standard
Abaterea standard este cel mai utilizat indicator al împrăştierii.
Notaţii uzuale:
s (pentru eşantioane)
σ (pentru populaţie)
SD (Standard Deviation, în standardul APA ) ab.std.
Formula de calcul:

s=
Pentru eşantioane se aplică o corecţie indicatorilor împrăştierii. Corecţia
se face prin utilizarea la numitor a expresiei N-1. În acest mod, cu cât eşantionul
este mai mic, cu atât indicatorul respectiv al împrăştierii va fi influenţat mai
mult de expresia de la numitor.
Expresia N-1 poartă numele de „grade de libertate”. Pentru a-i înţelege
semnificaţia, este bine să ne gândim la faptul că, într-o distribuţie de 3 valori (de
exemplu: 1, 3, 8) media este 4, iar abaterile de la medie sunt –3, -1, 4. Suma lor
este zero. Ca urmare, este suficient să cunoaştem cel puţin două din cele trei
valori pentru a o afla pe a treia. Altfel spus, doar două valori sunt libere să se
modifice, a treia (ultima) fiind determinată de acestea.
Atunci formulele corecte sunt:
𝛴(𝑋𝑖−𝑚)2
Dispersia: s2 =
𝑁−1

𝛴(𝑋𝑖−𝑚)2
Abaterea standard: s = √
𝑁−1
s= 15

m=Me=Mo=100

STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Formulele iniţiale, de definiţie, rămân corecte pentru situaţia în care se


urmăreşte doar descrierea caracteristicii de împrăştiere pentru eşantionul
respectiv. Atunci când se urmăreşte însă extrapolarea acestei valori la nivelul
populaţiei, utilizarea formulei corectate este absolut necesară.
Abaterea standard se exprimă în aceleaşi unităţi de măsură ca şi media.
Dacă media înălţimii unor subiecţi este de 179,91 centimetri, atunci abaterea
standard de 6,69 va fi exprimată tot în centimetri. Convenim, aşadar, să
descriem o distribuţie de acest gen, prin media înălţimii subiecţilor din eşan-
tion egală cu 179,91 centimetri cu o abatere standard de 6,69 centimetri.
Media şi abaterea standard sunt cei doi indicatori importanţi în analiza
distribuţiei normale. Utilizarea lor este condiţionată de absenţa unor scoruri
extreme şi de variabile situate cel puţin la un nivel de măsură de interval.

6.3. Indicatori ai formei distribuției

Expresia grafică a distribuţiilor poate fi descrisă sub două aspecte


esenţiale: simetria şi boltirea.
O distribuţie este simetrică atunci când valorile acesteia se împart în mod
egal de o parte şi de alta a valorilor tendinţei centrale.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

55 70 85 100 115 130 145

Figura 7. Curbe de distribuţie simetrice

În analiza fenomenele psihosociale distribuţiile devin simetrice (vezi


distribuţia normală), de cele mai multe ori, doar dacă cercetătorul analizează un
număr suficient de mare de cazuri, astfel încât indicatorii tendinţelor centrale să
coincidă, iar de o parte şi de alta a lor să avem un număr aproximativ egal de
valori.
Problema formei distribuţiei se pune cu precădere pentru variabilele
continue, care – prin grupare – evidenţiază foarte clar distribuţiile frecvenţelor.
Se pune, de asemenea, pentru numerele mari, a căror distribuţie tinde spre o
regularitate din ce în ce mai accentuată odată cu creşterea numerică. Întrucât
statistica clasică şi distribuţiile empirice îşi găsesc un puternic suport în curba lui
Gauss ca model ideal de distribuţie, se impune o dublă comparaţie:
• a jumătăţii stângi cu cea dreaptă a unei curbe, pentru a determina simetria/
asimetria acesteia, căreia i se mai spune şi oblicitate (skewness, în
engleză);
• a distribuţiei reale cu cea ideală, pentru a determina gradul de suprapunere
sau excesul/ deficitul – în sensul supraînălţării sau al subînălţării – prin
indicatorul boltirii (kurtosis înseamnă în engleză „cocoaşă”).
Cu alte cuvinte, descrierea numerică a caracteristicii de simetrie/asimetrie
se face cu ajutorul unui indicator statistic specific, numit indicator de
„simetrie” sau de „oblicitate” (skewness, în limba engleză), iar caracteristica de
boltire se face cu ajutorul unui indicator statistic specific, numit indicator de
„boltire” (kurtosis, în terminologia engleză), care indică gradul de extindere pe
verticală a curbelor de distribuţie. Nu vom prezenta aici formulele lor de calcul,
destul de complicate, ele urmând a fi obţinute uşor cu ajutorul SPSS.
Vom face însă câteva precizări cu privire la domeniul de variaţie şi
semnificaţia acestor indicatori. Pentru o curbă absolut simetrică, indicele de
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

oblicitate (skewness) are valoarea 0 (zero), primind valori pozitive pentru


curbele asimetric pozitive şi valori negative pentru cele asimetric negative. Ca
reper general de apreciere, recomandat de cei mai mulţi autori, un indice de
oblicitate a cărui valoare depăşeşte +1/-1 semnalează o asimetrie pronunţată a
distribuţiei.
Sub aspectul boltirii, curbele pot fi de trei categorii:
• Leptokurtice, cu majoritatea valorilor distribuite în zona mediei (au o
formă „înaltă” şi „subţire”);
• Mezokurtice, cu o prezenţă „moderată” a valorilor în zona mediei;
• Platikurtice, cu valori medii relativ puţine şi o formă aplatizată.

Figura 8. Curbe de boltire

O curbă poate fi în acelaşi timp şi asimetrică şi boltită excesiv, chiar dacă


imaginea de mai sus ilustrează boltirea pe curbe simetrice.
Indicatorul numeric al boltirii (kurtosis) are o plajă de variaţie în jurul
valorii zero (care înseamnă boltire medie, „normală”, mezocurtică). Indicele de
boltire pozitivă indică o curbă „înaltă” (leptocurtică), iar indicele de boltire
negativă, o curbă „aplatizată” (platicurtică). La fel ca şi în cazul indicelui de
oblicitate (skewness), cu cât acesta este mai îndepărtat de valorile +1/-1, avem
de a face cu distribuţii cu abatere accentuată de la boltirea „normală”.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Calcularea indicatorilor de simetrie şi de boltire reprezintă modalităţi


importante de apreciere a caracteristicilor unei distribuţii. Aceştia trebuie luaţi în
considerare ori de câte ori utilizarea procedurilor statistice inferenţiale reclamă
anumite caracteristici ale distribuţiilor.

CURSUL 7.
DISTRIBUȚII STATISTICE

7.1. Distribuția normală (curba lui Gauss)


7.2. Distribuții simetrice și asimetrice
7.3. Distribuții unimodale și bimodale
7.4. Distribuția normală standardizată.

Am menţionat deseori acest concept al distribuţiei normale şi a venit


momentul să îl abordăm în detaliu. Vom începe, ca de obicei, cu un exemplu:
dacă am avea posibilitatea să măsurăm înălţimea tuturor bărbaţilor din România,
am observa că există foarte puţini pitici şi foarte puţini giganţi; ceva mai mulţi
oameni mici şi, la fel, ceva mai mulţi oameni foarte înalţi, iar cei mai mulţi
oameni sunt de statură medie. Care ar fi, aşadar, probabilitatea ca să întâlnim în
populaţia masculină un gigant? Foarte mică.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Figura 8. Distribuţia înălţimii tuturor bărbaţilor din România

Privind cu atenţie figura, observăm că, la înălţimi ale subiecţilor foarte


mici (piticii), frecvenţa de apariţie este şi ea foarte mică, apropiată de zero. Pe
măsură ce înălţimea creşte, creşte şi frecvenţa de apariţie a acesteia, astfel încât
va atinge un maximum în zona tendinţei centrale, după care începe din nou să
scadă spre înălţimi mari. La înălţimi foarte mari (giganţii), frecvenţa de apariţie
se apropie din nou de zero.
7.1. Distribuția normală (curba lui Gauss)

Distribuţia din figura 8 este o distribuţie normală şi poate fi evaluată


numai în cazul unei variabile continue. De aceea, distribuţia normală se mai
numeşte şi distribuţie continuă. O distribuţie normală este pe deplin
caracterizată de medie, ca indicator al tendinţei centrale şi de abaterea standard,
ca indicator al dispersiei. Aceşti doi indicatori poartă numele de parametri ai
repartiţiei normale. Dacă cunoaştem media şi abaterea standard, putem oricând
calcula probabilitatea de apariţie a unei valori particulare în această distribuţie.
Distribuţia normală a fost descrisă prima dată de K. F. Gauss (1777-
1855) şi de aceea distribuţia normală se mai numeşte şi distribuţie gaussiană.
Deoarece la demonstrarea acestui concept a participat şi P.S. Laplace (1749-
1827), în literatura de specialitate se va întâlni şi termenul de distribuţie Gauss-
Laplace. Toţi aceşti termeni se referă la acelaşi lucru, distribuţia normală.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Pentru ca o distribuţie să fie considerată normală, vor trebui îndeplinite


simultan următoarele condiţii:
➔ Să fie unimodală – adică să existe un singur mod, o singură categorie cu
frecvenţă maximă;
➔ Să fie simetrică faţă de medie – adică să nu fie deplasată spre stânga sau
spre dreapta;
➔ Să fie normal boltită – adică să nu fie nici ascuţită (foarte omogenă) şi
nici turtită (foarte eterogenă).
De asemenea, limitele din stânga şi din dreapta ale unei distribuţii
normale tind spre valoarea zero, pe care, însă, nu o întâlnesc niciodată. O
distribuţie perfect normală are aceeaşi valoare pentru toţi cei trei indicatori ai
tendinţei centrale (media, mediana şi modul), adică media = mediana = mod. În
practică, acest lucru se întâlneşte extrem de rar şi, de aceea, ne punem problema
între ce limite putem considera o distribuţie ca fiind normală.

7.2. Distribuții simetrice și asimetrice

Se numesc asimetrice (skewed) distribuţiile ale căror valori se


concentrează fie în zona valorilor mici (spre stânga) fie în zona valorilor mari
(spre dreapta).
În foarte multe situaţii, variantele cu cele mai mari frecvenţe (valorile sau
intervalele modale) nu coincid cu celelalte valori centrale (media sau mediana)
înregistrându-se o polarizare spre dreapta sau spre stânga a acestora. Pot apărea
următoarele două situaţii:
 m > Me > Mo – spunem că distribuţia prezintă o asimetrie de stânga sau
pozitivă.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Mo Me m x
Figura 8. Asimetrie pozitivă
 m < Me < Mo – spunem că distribuţia prezintă o asimetrie de dreapta sau
negativă.

m Me Mo x
Figura 9. Asimetrie negativă
Reamintim că acest grad de asimetrie ne este dat şi de un indicator al
formei distribuţiei şi anume, oblicitatea. Acesta, prin valorile pozitive sau
negative pe care le ia, ilustrează asimetria pozitivă sau negativă.

Figura 10. Simetria și asimetria datelor


STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Figurile de mai sus arată cum se plasează cei trei indicatori ai tendinţei
centrale în funcţie de simetria distribuţiei:
 În cazul distribuţiilor (perfect) simetrice, Mo, Me şi m se plasează pe
aceeaşi valoare.
 În cazul distribuţiilor asimetrice cei trei indicatori au poziţii diferite.
 Mediana se plasează întotdeauna între mod şi medie. Din acest motiv,
mediana este cea mai reprezentativă valoare pentru distribuţiile
asimetrice.
 Media este afectată de valorile extreme, cu atât mai mult cu cât acestea
sunt mai puternic deviate. Ca urmare, în cazul distribuţiilor puternic
asimetrice, media nu este un indicator veridic al tendinţei centrale.

7.3. Distribuții unimodale și bimodale


În unele serii statistice media îşi pierde reprezentativitatea deoarece
colectivitatea are tendinţa de a se grupa în două (sau mai multe) grupe distincte.
De data aceasta modul este indicatorul de poziţie cel mai relevant. Din acest
motiv, vom spune că avem de-a face cu o distribuţie bimodală (uneori chiar
multimodală).
La rândul lor, distribuţiile bimodale pot fi simetrice sau
asimetrice, negative sau pozitive (figura 11)

distribuţie bimodală distribuţie bimodală distribuţie bimodală


negativă simetrică pozitivă

f f f

m Me Mo x Mo m=Me Mo x Mo Me m x

Figura 11. Curbe de distribuţie bimodale


STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

În cazul curbelor simetrice se recomandă determinarea mediei şi a abaterii


standard, în timp ce pentru seriile statistice asimetrice sunt preferate valorile
medianei şi oblicităţii. În cazul curbelor de distribuţie bimodale este bine să ne
mulţumim cu un grafic şi să determinăm modul, respectiv frecvenţele.

7.4. Distribuția normală standardizată

Am afirmat că media şi abaterea standard caracterizează pe deplin o


distribuţie normală. Teoretic, există un număr infinit de abateri standard la
dreapta şi la stânga mediei. Practic, considerăm că o distribuţie normală are un
număr de şase abateri standard: trei la dreapta mediei şi trei la stânga mediei,
deoarece volumul de populaţie care rămâne în afara acestor limite este
nesemnificativ şi poate fi ignorat. La o distribuţie perfect normală, jumătate din
rezultate se situează în dreapta mediei (rezultatele mari) şi jumătate din rezultate
se situează în stânga mediei (rezultate mici).

Figura 12. Distribuție normală din punct de vedere al mediei și abaterii standard
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Între o abatere standard la stânga mediei şi o abatere standard la dreapta


mediei, întâlnim aproximativ 68% din populaţie (mai precis 68,28%, cu 34,13%
între medie şi o abatere standard la stânga şi tot 34,13% între medie şi o abatere
standard la dreapta). Aceasta este zona normală, zona în care rezultatele pot fi
considerate tipice. Dacă luăm, ca exemplu, coeficientul de inteligenţă, în această
zonă se află persoanele considerate normale sub aspect intelectual.
Între două abateri standard la stânga mediei şi două abateri standard la
dreapta, întâlnim aproape 95% din populaţie (mai precis 95,44% cu 47,72%
între medie şi două abateri standard la stânga şi 47,72% între medie şi două
abateri standard la dreapta.). Zona între o abatere standard şi două abateri
standard, atât la stânga cât şi la dreapta, este zona rezultatelor accentuate şi
cuprinde, fiecare, câte 13,59% din populaţie. Astfel, între o abatere standard la
stânga şi două abateri standard la stânga, se află persoanele cu un intelect mai
redus, intelect de limită. La fel, între o abatere standard la dreapta şi două abateri
standard la dreapta, se află persoanele cu o inteligenţă peste medie, cei
„deştepţi”.
Între trei abateri standard la stânga mediei şi trei abateri standard la
dreapta mediei, întâlnim aproximativ 99% din populaţie (mai precis 99,74% cu
49,87 % între medie şi trei abateri standard la stânga şi 49,87% între medie şi
trei abateri standard la dreapta). Această zonă este zona rezultatelor atipice.
Zona între două abateri standard la stânga şi trei abateri standard la stânga, este
zona deficienţilor mintali, cu un intelect extrem de redus. În această zonă,
întâlnim 2,15% din populaţie, acelaşi procent ca şi în zona situată între două şi
trei abateri standard la dreapta, zona celor cu o inteligenţă deosebită, a
persoanelor supradotate. Iată că, între deficienţii mintali şi supradotaţi întâlnim
aproape întreaga populaţie, peste 99%.
Mai rămâne, aproximativ 1% din populaţie (mai exact 0,26%), situată fie
după trei abateri standard la stânga (0,13%), fie după trei abateri standard la
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

dreapta (0,13%). Iată şi zona rezultatelor aberante, zonă în care găsim mai
puţin de 1% din populaţie.

7.4.1. Valorile normate (standardizate) – SCORURI Z


De foarte multe ori suntem puşi în situaţia de a compara valori ale unor
caracteristici psihologice despre care nu cunoaştem mare lucru. De exemplu,
scorul de 17 puncte obţinut de un subiect pe scala de introversie/extraversie nu
ne îndreptăţeşte să afirmăm că este un scor mare sau mic, şi nici că este mai bun
sau mai rău decât cel de 9 puncte obţinut, de acelaşi subiect, pe scala de
stabilitate/instabilitate.
În situaţia în care nu cunoaştem semnificaţia datelor colectate în formă
brută putem recurge la transformarea acestora din cote brute în valori normate
(standardizate), transformare ce se bazează pe proprietăţile mediei şi abaterii
standard, în cazul unei distribuţii normale.
Scorul normat z (numit şi cota z sau scor z) exprimă semnificaţia unei
anumite valori dintr-o distribuţie prin raportare la parametrii distribuţiei (medie
şi abatere standard). Altfel spus, aceasta măsoară distanţa dintre o anumită
valoare şi media distribuţiei, în abateri standard. Formula de calcul este:
𝑥−𝑚
z= , unde
𝑠

− x reprezintă oricare dintre valorile distribuţiei,


− m şi s reprezintă media, respectiv abaterea standard.
Teoretic, notele „z” sunt note obţinute pe o „curbă” cu media 0 şi
abaterea standard 1. În acest caz, o distribuţie normală are practic notele „z”
cuprinse între -3 şi +3, între aceste note regăsindu-se peste 99% din populaţie.
Exemplu: Într-o şcoală, media elevilor unei clase la matematică este de 6,25
cu o abatere standard de 3,94. Georgel a obţinut, la matematică, media 7,15. Ne
interesează să ştim dacă Georgel este un elev mediu la matematică, un elev bun
sau un elev slab. Intuitiv, am putea spune că este un elev bun, deoarece media
lui este mai mare decât media clasei. Nu putem şti însă cu precizie acest lucru,
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

deoarece nu cunoaştem cum se distribuie notele celorlalţi elevi în jurul mediei.


Acest lucru ni-l spune abaterea standard. Cu alte cuvinte, va trebui să precizăm
poziţia pe care o ocupă Georgel în cadrul grupului de referinţă din care face
parte, adică raportat la elevii din clasa sa. Acest lucru devine posibil prin
calculul notei „z” a lui Georgel, notă care ne spune la câte abateri standard se
află scorul său în raport cu clasa. Aplicând formula de mai sus, observăm că
nota „z” a lui Georgel la matematică este de:
𝟕,𝟏𝟓−𝟔,𝟐𝟓 𝟎,𝟗
= = 0,22
𝟑,𝟗𝟒 𝟑,𝟗𝟒

Deci, Georgel se situează, din punctul de vedere al performanţei sale la


matematică, la 0,22 abateri standard faţă de medie, adică în zona punctului roşu
marcat pe figura 13 (Opariuc, 2009).

Figura 13. Reprezentarea poziţiei unui subiect în funcţie de nota z


Performanţa sa la matematică este, prin urmare, o performanţă medie,
situându-se între medie şi o abatere standard la dreapta, deci în zona scorurilor
medii.
Notele brute dobândesc semnificaţie numai în urma comparării cu o
populaţie de referinţă. Putem afirma despre cineva că este bun sau slab numai în
raport cu un reper, cu un grup de referinţă. Probabil că eu sunt bună la statistică
în comparaţie cu studenţii cărora le predau această disciplină şi slabă în raport
cu unii profesori de-ai mei sau cu Spearman ori Pearson. Termenul de bun sau
slab dobândeşte semnificaţie numai raportat la un reper.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Toate aceste informaţii servesc drept suport procesului de etalonare. Un


etalon nu este altceva decât un sistem de norme, la care se raportează per-
formanţa unui individ, la o anumită sarcină. Evident, un etalon este făcut pe o
anumită populaţie, iar raportând un rezultat al unui subiect la un etalon, nu
facem altceva decât să comparăm performanţele acelui subiect cu performanţele
grupului pe care a fost construit etalonul.
Notele „z” au şi ele o serie de proprietăţi cu aplicabilitate practică
deosebită, dintre care menţionăm (Popa, 2006):
 Media unei distribuţii „z” este egală cu zero, afirmaţie care rezultă din
proprietatea acestui indicator de a se diminua atunci când scădem o
constantă din fiecare scor particular. Deoarece din formulă rezultă această
diferenţă (se scade fiecare scor particular din medie), în final media va
ajunge la valoarea zero.
 Abaterea standard a unei distribuţii „z” este întotdeauna 1. Şi această
afirmaţie rezultă din proprietăţile abaterii standard. Ştim că, dacă
împărţim abaterea standard la o constantă, valoarea acesteia se divide
corespunzător. Se știe că acea constantă la care împărţim este chiar
abaterea standard, iar împărţirea a două numere egale are ca rezultat 1.
Notele „z” sunt note direct calculabile, utilizându-se media şi abaterea
standard şi reprezintă „temelia” oricărui proces de standardizare.
Există mai multe metode de verificare a asimetriei, prin intermediul cărora
putem decide dacă o distribuţie poate sau nu poate fi considerată simetrică.
Una dinte metode, valabilă pentru eşantioane mari (peste 200 de subiecţi),
este reprezentată de reperul propus de Lewis-Beck (Sava, 2004). Valorile pentru
Skewness mai mici de – 0,80 sau mai mari de 0,80 indică o asimetrie clară,
negativă sau pozitivă.
O altă metodă (Sava, 2004) valabilă în cazul eşantioanelor medii şi mici,
se bazează pe calculul cotei „z” a indicelui de oblicitate Skewness. Cu alte
cuvinte, împărţim valoarea indicelui de oblicitate la valoarea erorii standard a
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

acestuia. În acest caz, există două praguri ale lui z în funcţie de valorile obţinute.
Pentru un eşantion mai mic de 30 de subiecţi, valoarea pragului de semnificaţie
este de 1,58, iar pentru eşantioane mai mari sau egale cu 30 de subiecţi, acest
prag are valoarea de 1,96.
Această metodă se foloseşte şi în cazul boltirii.
A treia metodă propusă, aplicabilă şi pentru boltire, ia în considerare
stabilirea intervalului de încredere al simetriei în baza erorii standard Skewness
şi poate fi utilizată indiferent de mărimea eşantionului. Eroarea standard
Skewness ne oferă limitele între care trebuie să se regăsească coeficientul de
oblicitate, astfel încât să putem considera, la un nivel de precizie suficient de
mare, distribuţia ca fiind simetrică. La acest nivel, există două tipuri de
intervale:
 La un nivel de precizie de peste 99%, cu alte cuvinte în mai puţin de 1%
din cazuri, distribuţia noastră poate să se comporte ca o distribuţie
asimetrică. Intervalul este determinat de ± o eroare standard Skewness.
Un asemenea interval este foarte precis şi se foloseşte atunci când simetria
reprezintă un element critic pentru distribuţia datelor.
 La un nivel de precizie de peste 95%, cu alte cuvinte în mai puţin de 5%
din cazuri, distribuţia noastră poate să se comporte ca o distribuţie
asimetrică. Intervalul este determinat de ± două erori standard Skewness.
Un asemenea interval este mai puţin precis în comparaţie cu primul şi se
foloseşte când sime- tria nu reprezintă un element critic pentru distribuţia
datelor.
Dacă valoarea coeficientului de oblicitate Skewness intră într-unul dintre
aceste intervale, distribuţia poate fi considerată simetrică. Dacă valoarea
coeficientului de oblicitate iese din acest interval la limita negativă, avem de-a
face cu o distribuţie asimetrică negativ, iar dacă iese din interval la limita
pozitivă, distribuţia este asimetrică pozitiv.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Analiza distribuţiei trebuie să preceadă orice analiză ulterioară de


date, deoarece, în funcţie de normalitatea distribuţiei, pot fi alese sta-
tisticile parametrice sau nonparametrice utilizabile pe parcursul
demersului de cercetare, după asumpţiile teoretice ale fiecărei metode în
parte.

CURSUL 8.
STATISTICI INFERENȚIALE

8.1. Ipotezele cercetării științifice


8.2. Decizia statistică
8.3. Erori statistice
8.4. Puterea statistică
8.5. Mărimea efectului

8.1. Ipotezele cercetării științifice

Să ne imaginăm că un psiholog şcolar îşi pune întrebarea dacă elevii


participanţi la olimpiadele şcolare au un nivel de inteligenţă (QI) superior
elevilor în general. Dacă acceptăm că această problema prezintă interes din
punct din vedere practic-pedagogic sau ştiinţific, atunci se justifică
transformarea ei într-o problemă de cercetare. În esenţă, această problemă ar
putea fi formulată astfel: „Elevii participanţi la olimpiade sunt mai inteligenţi
decât toţi elevii în general, fie ei participanţi sau nu la olimpiade?”.

Ipoteza cercetării
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

În mod obişnuit, o cercetare ştiinţifică se bazează pe estimarea unui


rezultat
aşteptat, denumit ipoteză. Ipoteza științifică este o predicție care are capacitatea
de a fi operaționalizată și testată pentru a oferi un răspuns problemei studiate.
O ipoteză reprezintă o prezumţie clară, explicită şi veri- ficabilă
referitoare la relaţiile sau diferenţele existente între două sau mai multe
variabile.
Din punct de vedere tehnic există două categorii de ipoteze:
unidirecționale și bidirecționale. Dacă se precizează direcția predicției, avem
de-a face cu ipoteze unidirecționale (ex: „există o corelație pozitivă”, „există o
corelație negativă” sau „grupul A este mai bun decât grupul B”). Dacă direcția
predicției nu este precizată, vorbim de ipoteze bidirecționale („există diferențe
între...” sau „există o corelație între...”).
În cazul nostru, psihologul se poate aştepta în mod legitim ca participanţii
la olimpiadă să fie mai inteligenţi decât elevii în general. Acest rezultat
„aşteptat”, „prefigurat”, se numeşte ipoteza cercetării, fiind codificată cu H1.
Am putea formaliza ipoteza cercetării astfel:
H1 → mpo≠meg
unde mpo reprezintă media inteligenţei populaţiei participanţilor la olimpiade, iar
meg reprezintă media inteligenţei populaţiei elevilor în general.
În conformitate cu ipoteza cercetării, există două populaţii distincte sub
aspectul nivelului de inteligenţă, cea a elevilor participanţi la olimpiade şi cea a
elevilor în general.

Ipoteza statistică (de nul)


Având în vedere că este imposibil să evalueze inteligenţa tuturor
participanţilor la olimpiade, psihologul cercetător trebuie să găsească un răspuns
la problema cercetării sale cu ajutorul unui eşantion. În acest scop, selectează la
întâmplare, din populaţia de participanţi la olimpiade, un grup de 30 de elevi,
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

cărora le aplică un test de inteligenţă generală. Să presupunem că analiza


rezultatelor indică pentru acest grup o medie a coeficientului de inteligenţă
m=106 şi o abatere standard s=7. Dar, media valorilor QI la nivelul întregii
populaţii este μ=100 (σ=15). În acest sens, se poate trage concluzia că elevii din
populaţia de olimpici sunt mai inteligenţi decât cei din populaţia generală de
elevi? Aparent diferenţa de 6 unităţi QI în favoarea eşantionului cercetării i-ar
îngădui o astfel de concluzie. Rigoarea ştiinţifică îl obligă însă să observe că
generalizarea mediei eşantionului de cercetare asupra întregii populaţii de elevi
olimpici comportă anumite riscuri. Eşantionul cercetării, compus aleatoriu din
elevi participanţi la olimpiade, nu este decât unul din eşantioanele de olimpici
care ar fi putut fi selectat.
Ca urmare, pentru a decide cu privire la ipoteza cercetării („olimpicii sunt
mai inteligenţi decât elevii în general”) cercetătorul trebuie să evalueze
probabilitatea ca media eşantionului cercetării să fie rezultatul hazardului de
eşantionare. Rezultă de aici că, pentru a putea afirma că olimpicii sunt mai
inteligenţi decât media populaţiei, cercetătorul trebuie să dovedească faptul că
nivelul de inteligenţă al eşantionului de olimpici este mai mare decât al unui
eşantion care ar fi fost extras absolut la întâmplare din populaţia generală de
elevi.
Procedura statistică care se bazează pe acest raţionament se numeşte
„ipoteză de nul” (se utilizează şi alte variante: „ipoteza diferenţei nule” sau, pur
si simplu, „ipoteză statistică”). Respingerea ei implică o dovadă indirectă a
validităţii ipotezei cercetării, şi se bazează pe un scenariu „negativ” (similar cu
„a pune răul în faţă”). Ipoteza de nul se formulează ca opusul ipotezei cercetării.
În cazul nostru ipoteza de nul va fi exprimată astfel: „participanţii la olimpiadă
nu au o inteligenţă mai mare decât populaţia de elevi în general”.
Ipoteza de nul este simbolizată cu H0, iar expresia ei formală este:
H0 → mpo=meg
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

ceea ce semnifică faptul că mediile celor două populaţii comparate nu diferă, ci


sunt egale. Cu alte cuvinte, ipoteza de nul afirmă că nu există două populaţii
distincte sub aspectul nivelului de inteligenţă, ci una singură. Elevii participanţi
la olimpiade nu se deosebesc sub aspectul inteligenţei de populaţia elevilor în
general.

8.2. Decizia statistică

În ce măsură datele prezentate anterior sunt relevante pentru întreaga


populaţie din care lotul de lucru a fost extras este principala problemă a
inferenţei statistice. Luând ca bază valorile eşantionului ales şi extrapolându-le
la întreaga populaţie din care el a fost extras se comite o anumită eroare, a cărei
valoare evident va trebui să fie cât mai mică.
În psihologie, pedagogie, sociologie multe dintre datele rezultate din
măsurătoare – teste, anchete, chestionare – dacă sunt determinate din analiza
unor selecţii de volum mare şi nedistorsionate (experimental sau natural), tind să
se distribuie conform curbei probabilităţii normale. De aceea noţiunile statistice
de semnificaţie şi de încredere pot fi exprimate în termeni de probabilitate, prin
referire la caracteristicile curbei lui Gauss.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Figura 15. Probabilităţile producerii evenimentelor statistice asociate


suprafeţelor curbei gaussiene

În mod practic, mediile eşantioanelor se vor abate de la media teoretică cu


un număr de… abateri standard sau, mai precis, vor dobândi, fiecare, o cotă z.
Indiferent de eşantion, media acestui eşantion se poate situa între -3 şi + 3
abateri standard, pentru o probabilitate de aproximativ 99,74%. Acest interval
este însă prea mare şi permite mediei de sondaj să aibă aproximativ orice
valoare din domeniul de variaţie al variabilei. În general, trebuie să ne asigurăm,
la un nivel de probabilitate de 95%, că zona din curba de distribuţie a populaţiei
conţine media de sondaj, adică intervalul de încredere al mediei are o „precizie”
de 95%, existând mai puţin de 5% şanse ca media populaţiei să nu fie conţinută
în acest interval. În termeni de abateri standard, zona corespunză- toare unui
interval de încredere de 95% se află situată între – 1,96 şi + 1,96 abateri
standard.
Urmând firul logic, dacă scorul z al mediei eşantionului se află situat între
– 1,96 şi + 1,96 abateri standard, înseamnă că această medie aproximează
suficient de bine media teoretică sau media populaţiei – la un nivel de încredere
de 95%.
Acceptarea sau respingerea ipotezei de nul depinde de gradul de risc pe
care suntem dispuşi să ni-l asumăm în acest sens. Este evident că cineva
interesat în acceptarea ideii că olimpicii sunt mai inteligenţi ar fi dispus să
considere că valoarea obţinută este suficient de îndepărtată de medie pentru a
respinge ipoteza de nul. La fel cum, cineva neîncrezător în această ipoteză
(considerând că efortul de studiu, motivaţia, fac diferenţa dintre participanţii şi
neparticipanţii la olimpiadele şcolare), ar putea fi dispus să impună un prag de
respingere mult mai sever. Iată de ce, în practica cercetării ştiinţifice s-a impus
convenţia unui prag maxim de risc acceptat pentru decizia statistică. Acest prag
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

„critic” se numeşte nivel alfa (α) şi corespunde probabilităţii de 0.05. Pe


curba normală z, fiecărei
probabilităţi îi corespunde o anumită valoare z, ca urmare şi probabilităţii
„critice” alfa îi corespunde o valoare critică z.
O scurtă discuţie pe tema nivelului alfa maxim acceptabil (0.05) se
impune, având în vedere faptul că întregul eşafodaj al deciziei statistice se
sprijină pe acest prag. Vom sublinia, din nou, că p=0.05 este un prag de
semnificaţie convenţional, impus prin consensul cercetătorilor din toate
domeniile, nu doar în psihologie. Faptul că scorul critic pentru atingerea
pragului de semnificaţie este ±1.96 a jucat, de asemenea, un rol în impunerea
acestei convenţii. Practic, putem considera că orice îndepărtare mai mare de
două abateri standard de la media populaţiei de referinţă este semnificativă.
Chiar dacă persistă posibilităţi de a ne înşela, ele sunt suficient de mici pentru a
le trece cu vederea.
Impunerea unui prag minim de semnificaţie a testelor statistice are însă,
mai ales, rolul de a garanta faptul că orice concluzie bazată pe date statistice
răspunde aceluiaşi criteriu de exigenţă, nefiind influenţată de subiectivitatea
cercetătorului. Nivelul alfa de 0.05 nu este decât pragul maxim acceptat. Nimic
nu împiedică un cercetător să îşi impună un nivel mai exigent pentru testarea
ipotezei de nul, ceea e înseamnă un prag alfa mai scăzut. În practică mai este
utilizat pragul de 0.01 şi, mai rar, cel de 0.001. Toate aceste praguri pot fi
exprimate şi în procente, prin opusul lor, care exprimă nivelul de încredere în
rezultatul cercetării. Astfel, printr-o probabilitate de 0.05 se poate înţelege şi un
nivel de încredere de 95% în rezultatul cercetării (99%, pentru p=0.01 şi,
respectiv, 99.9% pentru p=0.001).
Odată cu diseminarea pe scară largă a tehnicii de calcul şi cu apariţia
programelor de prelucrări statistice, semnificaţia valorilor testelor statistice nu
mai este căutată în tabele, ci este calculată direct şi exact de către program,
putând fi afişată ca atare. De aici, aşa cum am mai spus, rezultă şi posibilitatea
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

de a lua decizia statistică prin compararea directă a valorii calculate a lui p cu


pragul alfa critic asumat.

8.3. Erori statistice

În raport cu „realitatea vieţii”, decizia cu privire la ipoteza de nul poate fi


corectă sau greşită dar, din păcate, cercetătorul care a efectuat studiul privind
inteligenţa elevilor olimpici nu are cum să ştie cu certitudine dacă decizia pe
care o ia este cu adevărat corectă sau este greşită. O imagine sintetică, frecvent
utilizată pentru a ilustra relaţiile posibile între decizia statistică şi „adevărul
vieţii”, este prezentată în mod clasic în tabloul de mai jos.
Aşa cum observăm, decizia statistică este corectă în două din celulele
tabelului de mai jos: celula 1, acceptarea ipotezei de nul când ea este şi în
realitate adevărată, şi celula 3, respingerea ipotezei de nul atunci când ea este şi
în realitate falsă. În acest din urmă caz ne plasăm într-o situaţie statistică
„ideală”, în care decizia confirmă ipoteza cercetării, atunci când aceasta este
adevărată şi în viaţa reală. Capacitatea unui test statistic de a susţine o astfel de
decizie, se numeşte „puterea testului statistic” (sau „puterea cercetării). La
rândul lor, erorile sunt ilustrate în celelalte două celule: celula 2, când
respingem, ipoteza de nul, deşi ea este adevărată şi celula 4, când acceptăm
ipoteza de nul, deşi ea este falsă.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

„Adevărul vieţii”
(necunoscut)
H0 este adevărată H0 este falsă
(olimpicii NU SUNT mai (olimpicii SUNT mai
inteligenţi) inteligenţi)
Acceptarea H0 1. decizie corectă 4. eroare de tip II
(olimpicii NU SUNT p=1-alfa p=beta
Decizia mai inteligenţi)
statistică Respingerea H0 2. eroare de tip I 3. decizie corectă
(olimpicii SUNT mai P=alfa p=1-beta (power)
inteligenţi)

Eroarea de tip I
Cercetătorul ştie că, chiar şi în cazul în care testul diferenţei dintre media
eşantionului şi media populaţiei este mai mare decât valoarea critică
corespunzătoare lui alfa, hazardul ar putea produce o diferenţă chiar mai mare
decât cea constatată, fără nicio legătură cu prezenţa la olimpiadă. Rezultă de aici
că, dacă pe baza rezultatului la testul statistic respingem ipoteza de nul şi
acceptăm că participarea la olimpiade se asociază cu un nivel mai ridicat al
inteligenţei, o facem asumându-ne conştient riscul unei erori. Dacă diferenţa
dintre cele două medii rezultă a fi semnificativă şi respingem ipoteza de nul, deşi
conform „adevărului vieţii” ea este adevărată, se comite o eroare de tip I.
Probabilitatea acesteia este egală cu valoarea pragului alfa, al cărui nivel
maxim acceptabil este fixat convenţional la 0.05. Atunci când fixăm valoarea lui
alfa (0.05 sau mai mică) drept criteriu de respingere a ipotezei de nul, definim,
de fapt, cantitatea de eroare pe care suntem dispuşi să ne-o asumăm în a
respinge ipoteza de nul, chiar dacă în realitate aceasta ar putea fi adevărată.
Decizia statistică se bazează pe măsura în care eşantionul reprezintă în
mod rezonabil caracteristicile populaţiei. Chiar dacă selecţia eşantionului s-a
făcut în condiţii ideale, există o anumită probabilitate (cu atât mai mare cu cât
eşantionul este mai mic) ca valorile sale să se abată de la parametrii populaţiei
(„adevărul vieţii”). Ca urmare, putem să ne imaginăm o situaţie în care, chiar şi
un eşantion selecţionat aleatoriu să prezinte valori neobişnuit de îndepărtate de
parametrii populaţiei, fără nici o legătură cu condiţia cercetării. Într-o astfel de
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

situaţie, supunându-ne în mod corect regulilor convenţionale ale deciziei


statistice, respingem ipoteza de nul, făcând o eroare de tip I şi asumându-ne un
rezultat fals pozitiv. Desigur, putem reduce probabilitatea erorii de tip I prin
asumarea unei valori mai mici pentru alfa dar, aşa cum vom vedea mai departe,
acest lucru nu este lipsit de consecinţe.
Dacă privim în cvadrantul 1 din tabelul de mai sus, vom observa că
probabilitatea de a decide corect, prin acceptarea ipotezei de nul atunci când ea
este într-adevăr adevărată este egală cu 1-alfa. Acest lucru înseamnă că prin
asumarea unei valori alfa = 0.05, de exemplu, avem o probabilitate de 0.95 (1-
0.05) de a accepta H0 când aceasta este în mod real adevărată. Din acest motiv
valoarea din cadranul 1 se numeşte nivel de încredere. Ca să înţelegem şi mai
bine, să ne imaginăm că am efectua exact acelaşi studiu de 100 de ori, utilizând
eşantioane diferite, dar similare sub aspectul vârstei copiilor, volumului
grupurilor şi procedurii etc. În cazul unei decizii statistice care respectă criteriile
impuse, cu alfa = 0.05 (implicit, 1-alfa = 0.95), ne putem aştepta ca în 5% dintre
aceste cercetări (100x0.05) să respingem în mod greşit ipoteza de nul (aceasta
fiind, în realitate, adevărată). Acest lucru este echivalent cu a spune că avem un
nivel de încredere de 95% (100x0.95) să acceptăm corect ipoteza de nul, dar şi
că avem 95% şanse să acceptăm o ipoteză de nul care este în realitate adevărată.
Cu alte cuvinte, pragul de încredere de p = 0,05 indică faptul că există riscul ca
în 5% din cazuri adevărata medie a scorurilor să cadă în afara intervalului de
încredere ales, ceea ce înseamnă că ne asumăm riscul de a greși în mai puțin de
5% din cazuri.
Eroarea de tip II
Să presupunem că participarea la olimpiadă este asociată în mod real cu
un nivel de inteligenţă mai ridicat dar, ca urmare a hazardului eşantionării,
diferenţa dintre media eşantionului cercetării şi media populaţiei nu atinge
pragul semnificaţiei statistice. Aceasta este situaţia în care, deşi elevii olimpici
sunt mai inteligenţi, cercetarea noastră are un rezultat nesemnificativ. Să nu
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

uităm că cercetătorul nu cunoaşte care este „adevărul vieţii” (dacă olimpicii sunt
mai inteligenţi) şi, drept urmare, chiar şi atunci când admite o ipoteză de nul îşi
asumă un risc de eroare. Aceasta este o eroare de tip II, codificată cu beta.
Admiterea existenţei erorii de tip II nu este lipsită de controverse. Fisher, unul
dintre teoreticienii marcanţi ai statisticii moderne, considera că atunci când nu
decidem respingerea ipotezei de nul, nu decidem acceptarea ei, ci doar
consemnăm „eşecul de a o respinge”, ceea ce nu este propriu-zis o decizie.
Stabilirea nivelului probabilităţii erorii de tip II nu este uşor de înţeles,
mai ales că ea este în legătură cu puterea testului, probabilitatea deciziei corecte,
fixată în cadranul 3 al tabelului. Aceste două valori sunt complementare, puterea
testului fiind egală cu 1-beta. În general, o valoare acceptabilă pentru eroarea de
tip I este beta = 0.20, deoarece, aşa cum vom vedea mai târziu, valoarea
recomandabilă pentru puterea testului este 0.80.
Atunci când iniţiază studiul privind relaţia dintre inteligenţă şi
participarea la olimpiadele şcolare, cercetătorul este interesat mai ales să evite
admiterea ipotezei de nul atunci când aceasta ar fi, în realitate, falsă. Altfel spus,
cercetătorul este interesat cu precădere în asumarea unei valori cât mai mici
pentru eroarea de tip II (evitarea acceptării ipotezei de nul când ea este falsă),
deoarece ar însemna că nu poate confirma ipoteza a cercetării. Micşorarea erorii
de tip II ar însemna însă asumarea implicită a unei valori mai mari pentru riscul
erorii de tip I.
Se poate stabili o ierarhie între cele două tipuri de eroare? Este una
mai „periculoasă decât alta? În mod obişnuit, „societatea” îşi impune punctul de
vedere, declarând eroarea de tip I ca fiind mai „periculoasă”, prin fixarea limitei
maxime pentru eroarea de tip I (alfa=0.05). Dar de ce ar fi admiterea greşită a
ipotezei de nul mai „rea” decât respingerea ei greşită? Aici trebuie să fim în
consens cu Hack (2004) care afirmă că, deşi există o tendinţă de considerare a
erorii de tip I ca fiind mai „rea” decât eroarea de tip II, în realitate ambele tipuri
de erori pot fi la fel de „rele”, prin consecinţele practice care decurg din
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

rezultatele cercetării.
8.4. Puterea testului

„Puterea testului” este definită prin capacitatea sau „sensibilitatea”


unui test statistic de a detecta un efect real (sau o legătură reală) între
variabile.
Înţelegem prin „efect real” faptul că modificări ale valorilor unei variabile
se regăsesc în modificări ale valorilor celeilalte variabile (indiferent dacă relaţia
este de tip cauzal sau de tip asociativ).
Formulat în termeni statistici, puterea testului este probabilitatea de a
respinge ipoteza de nul atunci când ea este cu adevărat falsă, şi se exprimă ca 1-
beta (probabilitatea erorii de tip II). Această situaţie corespunde celei mai bune
decizii pe care şi-o poate dori un cercetător: să dovedească că ipoteza cercetării
este realmente adevărată. Dacă în viaţa reală ipoteza de nul este falsă, dar datele
cercetării ne obligă totuşi să o acceptăm, atunci putem spune că cercetarea
noastră a avut o putere insuficientă pentru a determina respingerea ei şi, implicit,
confirmarea ipotezei cercetării.
Aşa cum am văzut, eroarea de tip II şi puterea testului sunt
complementare. Ca urmare, putem calcula eroarea de tip II ca beta=1-puterea
testului. Cu alte cuvinte, cu cât puterea testului este mai mare, cu atât
probabilitatea erorii de tip II (acceptarea nejustificată a ipotezei de nul) este mai
mică. Dacă presupunem că puterea unui experiment psihologic este de 0.85,
rezultă că probabilitatea erorii de tip II este 1 – 0.85, adică 0.15. Complementar,
dacă puterea experimentului (cercetării) ar fi de 0.15, atunci probabilitatea erorii
de tip II s-ar ridică la 1 – 0.15, adică 0.85.
Puterea testului crește odată cu creșterea volumului eșantionului.
8.5. Mărimea efectului

În cazul cercetării cu privire la relaţia dintre participarea la olimpiadele


STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

şcolare şi nivelul de inteligenţă, aplicând criteriile deciziei statistice, am


concluzionat că diferenţa de 6 unităţi faţă de media populaţiei (QI=100) este
semnificativă şi am respins ipoteza de nul. Dar ce putem spune despre această
diferenţă, cât de „mare” este ea? În vorbirea curentă, prin „semnificativ” se
înţelege şi „important” sau „mare”. În cazul deciziei statistice însă,
„semnificativ” are un înţeles limitat la expresia „probabilitate prea mică
pentru a rezulta din întâmplare”. De aceea, din ce în ce mai mulţi autori
consideră că decizia statistică nu este suficientă pentru a proba integral valoarea
unei ipoteze de cercetare. Ca urmare, un rezultat „semnificativ” poate fi obţinut
fie şi numai prin creşterea numărului de subiecţi, fără ca relaţia dintre cele două
variabile să fie una „intensă”, de aceea American Psychological Association a
organizat un grup de lucru având ca obiect elaborarea unor recomandări cu
privire la raportarea rezultatelor statistice. Concluziile acestui grup de lucru
stipulează că „raportarea şi interpretarea mărimii efectului (...) este
esenţială pentru o cercetare bună”. Una dintre soluţiile acestei probleme este
calcularea unui indice de „mărime a efectului” care oferă o informaţie
suplimentară, extrem de utilă în interpretarea rezultatului testelor statistice.
Indicele de mărime a efectului este o valoare numerică ce exprimă
„forţa” sau „mărimea” relaţiei dintre variabilele cercetate. Principial, atunci când
comparăm două medii, formula de calcul pentru mărimea efectului se bazează
pe diferenţa dintre aceste medii, raportată la un indicator al variabilităţii.
În cazul testului z pentru diferenţa dintre media unui eşantion şi media
populaţiei, indicele de mărime a efectului se calculează după formula lui Cohen
(1988):
𝒎− 𝝁
d=
𝝈

unde: m = media eșantionului


μ = media populației
σ = abaterea standard a populației (atunci când nu cunoaștem
abaterea standard a eșantionului).
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Ca urmare, formula devine:


𝟏𝟎𝟔− 𝟏𝟎𝟎
d= = 0,4
𝟏𝟓

Dat fiind faptul că d este calculat prin raportarea diferenţei la abaterea


standard, el este considerat un indice standardizat al mărimii efectului.
Acesta se exprimă printr-un număr zecimal cuprins între 0 (efect nul) şi 1
(efect maxim). Valori mai mari de 1 pot fi obţinute uneori, dar numai în cazuri
extreme. Valorile mici exprimă un nivel redus al intensităţii relaţiei dintre
variabile (chiar dacă este semnificativă), în timp ce valorile mari indică o relaţie
„intensă” (puternică).
În psihologie, interpretarea valorii lui d se face după un model propus de
Cohen (1988), care a devenit un standard preluat de toţi cercetătorii, şi care
fixează doar trei praguri de mărime:
0.20 efect mic
D
0.50 efect mediu
(Cohen)
0.80 efect mare

În conformitate cu recomandările lui Cohen, d = 0.8 este considerat un


efect mare. Nu atât de mare încât să rezulte ca evident prin observaţie directă,
dar suficient de mare pentru a exista o bună şansă de a fi găsit ca statistic
semnificativ prin utilizarea unui eşantion format dintr-un număr relativ mic de
subiecţi. Prin contrast, d = 0.2 este considerat un efect mic. Pentru valori mai
reduse decât atât, iniţierea unei cercetări nu se justifică.
Rezultatul obţinut în exemplul nostru corespunde unui nivel moderat al
mărimii efectului (d = 0.4). Sau, altfel spus, diferenţa dintre media inteligenţei
elevilor olimpici şi populaţia de elevi are un indice moderat de mărime. Acest
lucru ar putea fi interpretat în sensul că prezenţa la olimpiadă este asociată în
mod semnificativ cu inteligenţa, dar are şi alte componente importante care o
determină.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

CURSUL 9.
TESTE STATISTICE PARAMETRICE PENTRU DATE
CANTITATIVE (PARTEA I)

9.1. Analiza de corelație: coeficientul de corelație liniară Pearson (r)


9.2. Analiza de comparație: testul t pentru eșantioane independente
9.3. Analiza de comparație: testul t pentru eșantioane dependente
9.4. Utilizarea SPSS pentru aplicarea testelor de corelație și comparație

9.1. Analiza de corelație

Înainte de a fi un concept statistic termenul de corelaţie este un cuvânt


uzual în limbajul cotidian. În esenţă, el exprimă o legătură între anumite aspecte
ale realităţii, aşa cum este ea reflectată în planul observaţiei directe. De
exemplu, o parcare plină cu maşini ne sugerează că magazinul alăturat este plin
cu cumpărători, între numărul de maşini din parcare şi numărul de cumpărători
existând o anumită „corelare”. La nivel statistic, corelaţia exprimă o legătură
cantitativă sistematică între valorile a două variabile perechi, măsurate pe
subiecţi aparţinând aceluiaşi eşantion de cercetare.
În cazul corelaţiei dintre valorile a două distribuţii se urmăreşte punerea în
evidenţă a modului în care se asociază valorile perechi, adică în ce măsură există
o legătură între fiecare valoare şi perechea ei. Exemple: a) există o legătură între
greutate şi înălţime? B) există o relaţie între frecvenţa pulsului şoferilor şi viteza
cu care conduc maşina? C) există o relaţie între numărul orelor de studiu la
statistică şi punctajul obţinut la evaluări? d) există o relaţie între nivelul
intelectual al elevilor și performanța lor școlară?
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

9.1.1. Coeficientul de corelație liniară Pearson (r)


Intensitatea legăturii dintre valorile a două variabile se exprimă prin
coeficientul de corelaţie liniară, notat cu simbolul r. Introdus de Karl Pearson,
acest coeficient mai este cunoscut şi sub numele de coeficientul de corelaţie
Pearson, sau al „moment-produsului”, după expresia uneia din formulele de
calcul. Având două variabile, X şi Y, distribuite normal şi, evident, aflate cel
puţin la un nivel de interval, putem analiza relaţia dintre ele pe baza
coeficientului de corelaţie r Bravais-Pearson.
Formula de definiţie a coeficientului de corelaţie este:

r = 𝜮 𝒛𝒙 ∗ 𝒛𝒚
𝑵

Coeficientul de corelaţie r Bravais-Pearson transformă totul în scoruri z şi


stabileşte relaţia dintre două variabile care conțin scoruri z. Iată de ce putem
analiza liniştiţi relația liniară dintre rezultatele obţinute în urma administrării a
două instrumente complet diferite. Nu contează că un instrument are 20 de itemi
şi altul are 2000 de itemi, că o scală are o amplitudine teoretică între 0 şi 20 de
puncte, iar alta între 23 şi 190 de puncte. Ştim deja că statisticile z reprezintă
numitorul comun ce permite analiza relațiilor dintre două variabile.
Coeficientului de corelaţie r Bravais-Pearson poate lua valori între – 1 și
+1, unde 0 semnifică absența legăturii dintre cele două variabile.
Prima etapă în calcularea coeficientului de corelaţie r Bravais-
Pearson o reprezintă verificarea normalităţii distribuţiei celor două
variabile.
Dacă cele două variabile au distribuții normale ale datelor, vom utiliza
acest coeficient de corelație, dacă nu sunt distribuite normal, vom utiliza un
coeficient de corelație neparametric.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

9.1.2. Reprezentarea grafică a corelaţiei


Plasarea valorilor corelate pe un grafic, produce o imagine intuitivă a
relaţiei dintre valori. Acest tip de grafic se numeşte scatterplot.
În cazul unei corelaţii pozitive valorilor mari ale unei variabile tind să le
corespundă valori mari le celeilalte variabile. La limită, pentru o corelaţie
pozitivă perfectă (r = +1) punctele de intersecţie ale perechilor de valori se
plasează pe o linie dreaptă, dinspre stânga jos spre dreapta sus, la un unghi de 45
de grade între cele două axe. Cu cât corelaţia este mai mică, cu atât norul de
puncte este mai larg, dar forma elipsei indică relaţia pozitivă dintre cele două
variabile.

Figura 16. Corelația pozitivă dintre două variabile

În cazul corelaţiei negative, tendinţa este aceea ca valorilor mari ale unei
variabile să le corespundă valori mici ale celeilalte variabile. Ca urmare, atât
linia corelaţiei negative perfecte (r = -1), cât şi diagonala mare a elipsei norului
de puncte al unei corelaţii negative imperfecte, se orientează din stânga sus spre
dreapta jos a sistemului de coordonate.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Figura 17. Corelația negativă dintre două variabile


Atunci când corelaţia dintre cele două variabile este inexistentă, norul
punctelor de intersecţie are o formă circulară, care nu conturează nici o tendinţă
(r = 0).

Figura 18. Corelația inexistentă între două variabile

Graficul scatterplot oferă informaţii suplimentare semnificative şi, din


acest motiv, este recomandabilă realizarea acestuia de fiecare dată când utilizăm
testul de corelaţie Pearson.

9.1.3. Mărimea efectului coeficientului de corelaţie


Valoarea coeficientului de corelație r este interpretabilă prin ea însăşi,
exprimând intensitatea asocierii dintre variabile. Aşa cum am spus deja, avem o
corelaţie perfectă atunci când r este egal cu +1 sau –1.
Dacă luăm ca exemplu două valori ale coeficientului de corelație Bravais-
Pearson, respectiv r = 0,74 și r = 0,32, putem aprecia că 0,74 este mai mic de +1,
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

dar este mai mare decât 0,32? O asemenea interpretare, deşi absolut corectă, nu
poate fi satisfăcătoare. Se simte necesitatea de a avea un criteriu de valorizare a
cuantificării numerice a corelaţiei. De-a lungul timpului au fost propuse diverse
astfel de scale de valorizare, prin atribuirea unor calificative coeficienţilor de
corelaţie, în funcţie de mărimea lor. Această problemă comportă multe discuţii,
iar soluţiile oferite de diferiţi autori sunt deseori diferite. Ca regulă generală, toţi
autorii sunt de acord că valorile mai mici de ±0.1 ale coeficienţilor de corelaţie
trebuie să fie considerate „neglijabile”, chiar şi atunci când ating pragul de
semnificaţie statistică.
Există un model de descriere propus de Hopkins (2000) cu privire la
interpretarea valorilor coeficienţilor de corelaţie:

Coeficientul de corelaţie Descriptor


0.0-0.1 Foarte mic, neglijabil, nesubstanţial
0.1-0.3 Mic, minor
0.3-0.5 Moderat, mediu
0.5-0.7 Mare, ridicat, major
0.7-0.9 Foarte mare, foarte ridicat
0.9-1 Aproape perfect, descrie relaţia dintre două
variabile practic indistincte

O altă variantă de interpretare a mărimii efectului recunoscută este cea


propusă de Davis (apud Popa, 2008).

0.70 → asociere foarte puternică


0.50 – 0.69 asociere substanţială
0.30 – 0.49 asociere moderată
0.10 – 0.29 asociere scăzută
0.01 – 0.09 asociere neglijabilă

Înaintea oricărui calificativ însă, prima condiţie pentru a lua în considerare


existenţa unei corelaţii între două variabile rămâne atingerea pragului de
semnificaţie (alfa).
În cele din urmă ce trebuie să luăm în considerare, semnificaţia sau
intensitatea asocierii?
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Dacă dorim să comparăm în mod direct doi coeficienţi de corelaţie trebuie


să ridicăm valorile lui r la pătrat (r2), obţinând astfel ceea ce se numeşte
coeficient de determinare (prezentat în programele statistice şi ca „r
squared”). Acesta este considerat un indicator mai adecvat al mărimii efectului,
deoarece ia valori sensibili mai mici decât cele ale coeficientului de corelaţie.
Pentru exemplul nostru, coeficientul de determinare este 0.742 = 0.55.
Transformat în procente, acest rezultat se interpretează astfel: „55% din variaţia
(împrăştierea) uneia dintre cele două variabile este determinată de variaţia
celeilalte variabile”. Sau, altfel spus, cele două variabile au in comun 55% din
variaţia care le caracterizează, ceea ce înseamnă că 45% din variabilitatea lor
provine din alte surse. Atenţie, interpretarea procentuală, în maniera prezentată,
este valabilă numai pentru coeficientul de determinare. Coeficientul de corelaţie
(r) nu poate fi interpretat în nici un caz sub formă procentuală!
Cohen (apud Popa, 2008) a propus următoarea regulă de evaluare a
mărimii coeficientului de determinare ca indice de mărime a efectului în cazul
corelaţiei:

0.0196 efect mic


r2 0.1300 efect mediu
(Cohen) 0.2600 efect mare

Vom observa că valorile lui r corespunzătoare celor trei praguri ale lui r2
sunt 0.14, 0.36 şi, respectiv, 0.50, ceea ce este în concordanţă cu recomandările
de mai sus pentru interpretarea lui r.
Pentru a putea utiliza în mod legitim calculul de corelaţie eşantionul
trebuie să fie aleatoriu, iar cele două variabile (ambele măsurate pe scale de
interval/raport) trebuie să aibă o distribuţie care să nu se abată grav de la
distribuţia normală. Această condiţie este cu atât mai importantă cu cât
eşantionul este mai mic. O atenţie aparte trebuie acordată valorilor excesive,
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

prezenţa acestora putând avea efecte neaşteptate asupra valorii coeficientului de


corelaţie.

9..1.4. Utilizarea SPSS pentru aplicarea testelor de corelație


Dorim să aflăm dacă există vreo legătură între stres şi agresivitate. Înainte
de a ne grăbi să calculăm coeficientul de corelaţie r Bravais-Pearson, trebuie să
ne asigurăm că cele două variabile îndeplinesc condiţiile de calcul ale
statisticilor parametrice. În cazul în care ambele variabile au o distribuţie
normală, lansarea procedurii de calcul a corelaţiei se realizează prin accesarea
meniului „Analyze”, apoi din submeniul „Correlate” vom alege opţiunea
„Bivariate…”.

Figura 19. Lansarea din SPSS a procedurii de corelație

Se deschide o nouă fereastră care conţine două liste, separate prin butonul
de transfer în formă de săgeată. Cu ajutorul acestuia, putem transfera variabilele
din baza de date (fereastra din stânga) în lista variabilelor supuse analizei
(fereastra din dreapta). În cazul nostru, am inclus spre analiză, variabilele
„Stres” şi „Agresivitate”, în conformitate cu planul de cercetare.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Figura 20. Fereastra corelațiilor bivariate

Sub aceste două liste se află secţiunea „Correlation Coefficients”, care


conţine trei casete de bifare, corespunzătoare celor trei coeficienţi de corelaţie ce
pot fi calculaţi: coeficientul de corelaţie r Bravais-Pearson (Pearson),
coeficientul de corelaţie τ Kendall (Kendall’s tau-b) şi coeficientul de corelaţie
a rangurilor ρ Spearman (Spearman). Situaţia noastră este clară; vom calcula
coeficientul de corelaţie r Bravais-Pearson.
Lansarea procedurilor de calcul se face prin acţionarea butonului „OK”și
imediat rezultatele analizei vor fi afişate în fereastra de rezultate (Output).
Toate elementele grafice din SPSS se regăsesc în meniul „Graphs”,
crearea manuală a graficelor se realizează prin opţiunea „Legacy Dialogs”.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Figura 21. Crearea manuală a norului de puncte pentru corelații

Graficul care ne interesează este „Scatter/Dot…”. Accesarea acestui


meniu permite lansarea unei ferestre simple, de selecţie a tipului de grafic.

Figura 22. Alegerea tipului de diagramă de corelaţie


Varianta „Simple Scatter” este opţiunea care ne interesează pe noi. În
acest caz, graficul va desena cele două variabile pe ordonată şi abscisă apăsând
butonul „Define” pentru a intra în modul de definiţie a graficului.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Figura 23.

În partea stângă este prezentată lista variabilelor din baza de date. În


partea dreaptă regăsim butoanele de transfer, corespunzătoare secţiunilor care
trebuie definite. Secţiunea „Y-Axis” permite includerea variabilei ce va fi
reprezentată pe abscisă (axa OY). În cazul nostru, am inclus stresul. „X-Axis”
va conţine variabila reprezentată pe ordonată (axa OX). Agresivitatea a fost
selectată în vederea reprezentării pe această axă.

9.2. Analiza de comparație

Un alt model de cercetare este acela care vizează punerea în evidenţă a


diferenţelor care există între două categorii de subiecţi (diferenţa asumării
riscului între bărbaţi şi femei, diferenţa dintre timpul de reacţie al celor care au
consumat o anumită cantitate de alcool faţă de al celor care nu au consumat
alcool etc.). În situaţii de acest gen psihologul compară mediile unei variabile
(preferinţa pentru risc, timpul de reacţie etc.), măsurată pe două eşantioane
compuse din subiecţi care diferă sub aspectul unei alte variabile (sexul,
consumul de alcool, etc.). Variabila supusă comparaţiei este variabila
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

dependentă, deoarece presupunem că suportă „efectul” variabilei sub care se


disting cele două eşantioane şi care, din acest motiv, este variabilă independentă.
În probele de comparație statistică trebuie să se facă distincția între
eșantioanele independente și eșantioanele perechi.
Vorbim despre eșantioane independente sau necorelate atunci când
grupele de subiecți din planul nostru de cercetare conțin, în general, elemente
diferite şi când selectarea unui element într-un eşantion nu are nicio legătură cu
selectarea elementelor din celelalte eşantioane.
Eșantioanele perechi se formează, de obicei, investigând același grup de
subiecți de două ori, înainte și după implementarea unei intervenții, în mod
special în experimentele formative.

9.2.1. Testul t pentru eșantioane independente


Generic, acest test statistic se utilizează în situaţiile în care vrem să aflăm
dacă o variabilă dependentă, măsurată pe o scală de interval/raport, diferă
semnificativ între două grupuri (eşantioane) diferenţiate pe o variabilă
independentă măsurată pe scala de tip nominal (dihotomic), sau bi-categorială,
indiferent de natura ei. Deoarece este unul dintre modelele frecvent întâlnite în
practica cercetării psihologice, utilizarea testului t pentru eşantioane
independente este şi ea des întâlnită în literatura de specialitate.
Testul t verifică ipoteza nulă conform căreia nu există nicio diferență
semnificativă între mediile celor două populații din care s-au extras
eșantioanele.
 H0: m1=m2 – Nu există nicio diferență între mediile celor două populații
din care s-au extras eșantioanele (ipoteza nulă);
 H1: m1≠m2 – Există o diferență semnificativă între mediile celor două
populații din care s-au extras eșantioanele (ipoteză alternativă bilaterală);
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

 H2: m1>m2 – Media primului eșantion este semnificativ mai mare în


comparație cu media celui de-al doilea eșantion (ipoteză alternativă
unilaterală).
 H3: m1<m2 – Media primului eșantion este semnificativ mai mică în
comparație cu media celui de-al doilea eșantion (ipoteză alternativă
unilaterală).
Testul de comparare a două medii când abaterile standard sunt egale
(cazul eşantioanelor mici):
1. Se aplică dacă măsurătorile efectuate la cele două eşantioane sunt
independente.
2. Se aplică dacă eşantioanele provin din populaţii care sunt normal
distribuite (lucru care trebuie verificat înainte de aplicarea testului).
3. Se aplică dacă populațiile din care provin eşantioanele au dispersii egale
(sau abateri standard, ceea ce este același lucru).
Atunci când raportăm rezultatele unui test statistic, ne interesează câteva
elemente:
 În primul rând, semnificația. Vom considera testul ca fiind semnificativ,
dacă pragul de semnificație este mai mic de 0,05.
 În al doilea rând, semnul sau sensul. Acest element este util în cazul
ipotezelor unidirecționale. De exemplu, dacă una dintre ipotezele
experimentale afirmă că „există o diferență semnificativă între bărbați și
femei sub aspectul anxietății, în sensul că bărbații sunt mai puțin anxioși
în comparație cu femeile”, aceasta ar putea fi susținută numai în condițiile
în care, la comparația mediei obținute de către bărbați la anxietate cu cea
obținută de către femei, se obține un test semnificativ, negativ (adică
media bărbaților este mai mică în comparație cu media femeilor);
 Gradele de libertate reprezintă o expresie a volumului eșantionului
studiat, raportarea lor fiind obligatorie (df =N1+N2-2).
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Trebuie să ținem cont și de fapul că apar datele generate de testul Levene


al egalității varianțelor. De asemenea, observăm că ni se prezintă două seturi de
rezultate: unul în cazul în care varianțele sunt egale (primul rând) și celălalt
pentru varianțe inegale (al doilea rând). Care dintre cele două seturi de date vor
fi folosite? Ei bine, utilizarea acestora depinde de rezultatul testului de egalitate
a varianțelor. Ne amintim că testul Levene pleacă de la ipoteza nulă conform
căreia varianțele sunt egale. Dacă acest test nu este semnificativ, atunci nu
respingem ipoteza nulă și acceptăm faptul că varianțele sunt egale. În acest caz,
vom folosi primul set de date. Dacă testul este semnificativ, atunci vom respinge
ipoteza nulă, varianțele nu sunt egale și utilizăm al doilea set de date.
De exemplu, s-a realizat o cercetare pe un număr de 438 de studenți,
pornindu-se de la ipoteza nulă că nu există nicio diferență între bărbați și femei
cu privire la emotivitatea din timpul examenelor. După colectarea notelor
obținute de cei 438 de studenți la un inventar de emotivitate, s-au comparat
mediile scorurilor obținute de către bărbați cu media scorurilor obținute de către
femei, folosindu-se testul t Student pentru eșantioane independente. A rezultat t
= -48,46, la un prag de semnificație p < 0,01. Care este modalitatea corectă de
raportare a acestui studiu?
„Există o diferență semnificativă între bărbați și femei sub aspectul
emotivității din timpul examenelor (t(436) = 48,46; p < 0,01) în sensul că
emotivitatea femeilor este semnificativ mai ridicată în comparație cu
emotivitatea bărbaților. Prin urmare, respingem ipoteza nulă și putem susține
ipoteza de cercetare conform căreia diferențele dintre bărbați și femei sub
aspectul emotivității din timpul examenelor sunt semnificative.”

9.2.2. Testul t pentru eșantioane dependente


Poate fi utilizat pentru a verifica dacă diferă semnificativ datele extrase
din două seturi perechi sau din acelaşi eşantion măsurat în două momente
diferite.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Pentru descrierea testului statistic adecvat acestor cazuri să ne imaginăm


următoarea situaţie generică de cercetare: Un grup de pacienţi cu tulburări de tip
anxios sunt incluşi într-un program de psihoterapie, având drept scop
ameliorarea nivelului anxietăţii. Înainte de începerea programului a fost aplicată
o scală de evaluare a anxietăţii. Acelaşi instrument a fost aplicat din nou, după
parcurgerea programului de terapie.
Deşi avem aceiaşi subiecţi, şi în primul şi în al doilea caz, ne vom raporta
la această situaţie ca şi cum ar fi două eşantioane. Unul, cel al subiecţilor care
„nu au urmat încă” un program de terapie, iar celalalt, al subiecţilor care „au
urmat” un astfel de program. Datorită faptului că cele două eşantioane sunt
formate din aceiaşi subiecţi, ele se numesc „dependente” sau „corelate”.
Exemplu analitic de calcul
Problema cercetării: Se poate obţine o reducere a reacţiilor anxioase prin
aplicarea unei anumite proceduri de psihoterapie?
Ipoteza cercetării (H1):
Pentru test bilateral → Programul de psihoterapie are un efect asupra
anxietăţii.
Pentru test unilateral → Programul de psihoterapie reduce intensitatea
reacţiilor de tip anxios.
Ipoteza de nul (H0):
Pentru test bilateral → Programul de psihoterapie nu are nici un efect
asupra
anxietăţii.
Pentru test unilateral → Programul de psihoterapie nu reduce nivelul
anxietăţii.
Populaţiile cercetării:
Populaţia 1 → Subiecţii cu anxietate ridicată care nu au urmat un program
de terapie.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Populaţia 2 → Subiecţii cu anxietate ridicată care au urmat un program de


terapie.
Ipoteza cercetării afirmă că mediile sunt diferite (m1 – m2 ≠ 0), în timp ce
ipoteza de nul afirmă că ele sunt identice (m1 – m2 = 0).
Eşantion: Un singur grup de subiecţi cu probleme anxioase al cărui nivel
de anxietate este evaluat înainte şi după programul de terapie.
La prezentarea rezultatelor, al doilea tabel conține un coeficient de
corelație. Mă veți întreba ce treabă are coeficientul de corelație într-un test
statistic. Acesta urmărește păstrarea ierarhiei datelor. Cu alte cuvinte, un
coeficient de corelație semnificativ și pozitiv ne spune că subiecții care inițial
aveau scoruri mici, în final vor avea tot scoruri mici; cei care inițial aveau
scoruri mari, în final vor avea tot scoruri mari, cu toate că există diferențe
semnificative între situația inițială și cea finală. Coeficientul de corelație
semnificativ și negativ ne arată că subiecții care inițial aveau scoruri mici au
obținut în final scoruri mari și invers. Dacă acest coeficient nu este semnificativ,
înseamnă că ierarhia inițială a scorurilor nu se mai păstrează.
Mărimea efectului
Indicele de mărime a efectului (d – Cohen) pentru diferenţa dintre medii
dependente se calculează cu formula lui Cohen:
𝑚2 −𝑚1
d=
𝑠𝐷

Interpretarea indicelui d se face în conformitate cu recomandările lui


Cohen, astfel: 0.20, efect mic; 0.50, efect mediu, 0.80, efect mare.

9.2.3. Utilizarea SPSS pentru aplicarea testelor de


comparație

Testele statistice parametrice – testele t Student le puteți găsi în meniul


„Analyze”, submeniul „Compare Means”.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Puteți alege între testul t Student pentru un singur eșantion „One-Sample


T Test”, testul t Student pentru eșantioane independente „Independent-Samples T
Test” și testul t Student pentru eșantioane perechi „Paired-Samples T Test”.

Vom transfera variabila dependentă „Agresivitate” în lista „Test


Variable(s)” și variabila independentă „Genul biologic” în lista „Grouping
Variable”.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Urmează definirea grupurilor, bărbații au fost codați cu cifra 1, așadar vor


forma primul grup, iar femeile au fost codate cu cifra 2, constituind al doilea
grup.

În tabelul rezultatelor testului statistic apar datele generate de testul


Levene al egalității varianțelor.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

De asemenea, observăm că ni se prezintă două seturi de rezultate: unul în


cazul în care varianțele sunt egale (primul rând) și celălalt pentru varianțe
inegale (al doilea rând). Care dintre cele două seturi de date vor fi folosite? Ei
bine, utilizarea acestora depinde de rezultatul testului de egalitate a varianțelor
(aspect discutat anterior în curs).
Pentru aflarea valorii testului t Student pentru eșantioane perechi plecăm
tot de la opțiunea „Compare Means”, dar accesăm„Paired-Samples T Test”.

Vom construi perechea formată din cele două variabile – greutatea înainte
intervenție și greutatea după intervenție, apoi apăsăm butonul „OK” pentru a
porni analiza statistică.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

CURSUL 10.
TESTE STATISTICE PARAMETRICE PENTRU DATE
CANTITATIVE (PARTEA A II-A)

10.1. Testul t pentru media unui singur eșantion


10.2. Analiza de varianță (ANOVA)
10.3. Analiza „post-hoc”
10.4. Utilizarea SPSS pentru aplicarea testelor de comparație.

Adevărata plăcere a comparațiilor se află la nivelul datelor parametrice


– scalele de interval și de raport. Acum are sens calculul mediei și al abaterii
standard, lucrurile devenind mult mai clare. Totuși, pe lângă nivelul de măsură,
datele trebuie să respecte și condiția obligatorie a distribuției normale. Dacă una
dintre variabile nu are o distribuție normală, fie aplicăm procedee de
normalizare a distribuției, fie folosim teste neparametrice.

10.1. Testul t pentru media unui singur eșantion


STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Acest test statistic compară media unui eșantion cu media unei populații și
verifică ipoteza nulă conform căreia nu există diferențe semnificative între
media populației din care s-a extras eșantionul și o valoare dată.
Testul z poate fi utilizat doar atunci când cunoaştem media populaţiei de
referinţă şi avem la dispoziţie un eşantion „mare” (adică de cel puţin 30 de
subiecţi, în cazul unei variabile despre care avem motive să credem că se
distribuie normal). Dar nu întotdeauna putem avea la dispoziţie eşantioane
„mari” (minim 30 de subiecţi). Pentru situaţiile care nu corespund acestei
condiţii, testul z nu poate fi aplicat. Şi aceasta, pentru că distribuţia mediei de
eşantionare urmează legea curbei normale standardizate doar pentru eşantioane
de minim 30 de subiecţi.
La începutul secolului XX, William Gosset, angajat al unei companii
producătoare de bere din SUA, trebuia să testeze calitatea unor eşantioane de
bere pentru a trage concluzii asupra întregii şarje. Din considerente practice, el
nu putea utiliza decât eşantioane (cantităţi) mici de bere. Pentru a rezolva
problema, a dezvoltat un model teoretic propriu, bazat pe un tip special de
distribuţie, denumită distribuţie t, cunoscută însă şi ca distribuţia „Student”,
după pseudonimul cu care a semnat articolul în care şi-a expus modelul.
În esenţă, distribuţia t este o distribuţie teoretică care are toate
caracteristicile unei distribuţii normale (este perfect simetrică şi are formă de
clopot). Specificul acestei distribuţii constă în faptul că forma ei (mai exact,
înălţimea) depinde de un parametru denumit „grade de libertate” (df sau
degrees of freedom), care este egal cu N-1 (unde N este volumul eşantionului).
Acest parametru poate fi orice număr mai mare decât 0, iar mărimea lui este
aceea care defineşte forma exactă a curbei şi, implicit, proporţia valorilor de sub
curbă între diferite puncte ale acesteia. Imaginea de mai jos ilustrează modul de
variaţie a înălţimii distribuţiei t, în funcţie de gradele de libertate.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Figura 19.

Aşa cum se observă, curba devine din ce în ce mai aplatizată pe măsură ce


df (volumul eşantionului) este mai mic. Acest fapt are drept consecinţă existenţa
unui număr mai mare de valori spre extremele distribuţiei. Nu este însă greu de
observat că, pe măsură ce df este mai mare, distribuţia t se apropie de o
distribuţie normală standard astfel încât, pentru valori ale lui N de peste 31
(df=30), aria de sub curba distribuţiei t se apropie foarte mult de valorile de sub
aria curbei normale standard (z), iar scorul critic pentru t este acelaşi ca şi cel
pentru z pe curba normală (1,96).
Din cele spuse rezultă că, dacă avem un eşantion de volum mic (N<30),
vom, utiliza testul t în loc de testul z.
Date fiind caracteristicile enunţate, în practică, testul t se poate utiliza şi
pentru eşantioane mari (N≥30). În nici un caz însă, nu poate fi utilizat testul z
pentru eşantioane mici (N<30). Utilizarea testului bazat pe un singur eşantion
(fie z sau t) depinde într-o măsură decisivă de asigurarea caracteristicii aleatoare
a eşantionului.

10.2. Analiza de varianță (ANOVA)

În practica de cercetare ne putem întâlni însă cu situaţii în care avem de


comparat trei sau mai multe medii. De exemplu, atunci când am efectuat un test
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

de cunoştinţe de statistică şi dorim să ştim dacă diferenţele constatate între cele


5 grupe ale unui an de studiu diferă semnificativ. Performanţa la nivelul fiecărei
grupe este dată de media răspunsurilor corecte realizate de studenţi. La prima
vedere, am putea fi tentaţi să rezolvăm problema prin compararea repetată a
mediei grupelor, două câte două. Din păcate, există cel puţin trei argumente
pentru care această opţiune nu este de dorit a fi urmată:
➔ În primul rând, volumul calculelor ar urma să fie destul de mare, şi ar
creşte şi mai mult dacă numărul categoriilor variabilei independente ar fi din ce
în ce mai mare.
➔ În al doilea rând, problema cercetării vizează relaţia dintre variabila
dependentă (în exemplul de mai sus, performanţa la statistică) şi variabila
independentă, exprimată prin ansamblul tuturor categoriilor sale (grupele de
studiu). Ar fi bine să putem utiliza un singur test şi nu mai multe, pentru a afla
răspunsul la problema noastră.
➔ În fine, argumentul esenţial este acela că, prin efectuarea repetată a
testului t cu fiecare decizie statistică acumulăm o cantitate de eroare de tip I de
0.05 care se cumulează cu fiecare pereche comparată, ceea ce duce la depăşirea
nivelului admis de convenţia ştiinţifică. Să presupunem că dorim să testăm
ipoteza unei relaţii dintre nivelul anxietăţii şi intensitatea fumatului, evaluată în
trei categorii: 1-10 ţigări zilnic; 11-20 ţigări zilnic şi 21-30 ţigări zilnic. În acest
caz, avem trei categorii ale căror medii ar trebui comparate două câte două. Dar,
în acest fel, prin efectuarea repetată a testului t pentru eşantioane independente,
s-ar cumula o cantitate totală de eroare de tip I de 0.15 adică 0.05+0.05+0.05.
Pentru a elimina aceste neajunsuri, şi mai ales pe ultimul dintre ele, se
utilizează o procedură statistică numită analiza de varianţă (cunoscută sub
acronimul ANOVA, de la „ANalysis Of VAriance”, în engleză). În mod uzual,
analiza de varianţă este inclusă într-o categorie aparte de teste statistice.
ANOVA nu este altceva decât o extensie a logicii testului t pentru situaţiile în
care se doreşte compararea a mai mult de două medii independente.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Există mai multe tipuri de ANOVA, două fiind mai frecvent folosite:
 ANOVA unifactorială, care se aplică atunci când avem o variabilă
dependentă măsurată pe o scală de interval/raport măsurată pentru trei sau
mai multe valori ale unei variabile independente categoriale. În contextul
ANOVA, variabila independentă este denumită „factor”, iar valorile pe
care acesta le ia se numesc „niveluri”. Din acest motiv, modelul de analiză
de varianţă cu o singura variabilă independentă se numeşte „ANOVA
unifactorială”, „ANOVA simplă” sau, cel mai frecvent, „ANOVA cu o
singură cale” (One-way ANOVA).
 ANOVA multifactorială, care se aplică atunci când avem o singură
variabilă dependentă (la fel ca în cazul ANOVA unifactorială) dar două
sau mai multe variabile independente, fiecare cu două sau mai multe
valori, măsurate pe o scală categorială (nominală sau ordinală) (exemplu:
scorul la un test de cunoştinţe statistice ale studenţilor de la psihologie, în
funcţie de tipul de liceu absolvit (real, umanist, agricol, artistic) şi de
genul (masculin, feminin al studenţilor).
În esenţă, ANOVA este o procedură de comparare a mediilor
eşantioanelor. Specificul ei constă în faptul că în locul diferenţei directe dintre
medii se utilizează dispersia lor, gradul de împrăştiere.
Să ne imaginăm o cercetare a cărei ipoteză este că relaţia dintre
performanţa
sportivilor în tragerea la ţintă şi trei metode de antrenament (să le denumim
metoda 1, metoda 2 şi metoda 3). Procedura se bazează pe următorul demers
logic: Ipoteza cercetării sugerează că performanţa sportivilor antrenaţi cu fiecare
dintre cele trei metode de antrenament face parte dintr-o populaţie distinctă,
căreia îi corespunde un nivel specific de performanţă (adică o medie
caracteristică, diferită de a celorlalte două populaţii). Prin opoziţie, ipoteza de
nul ne obligă să presupunem că cele trei eşantioane (modele de antrenament) pe
care vrem să le comparăm, provin dintr-o populaţie unică de valori ale
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

performanţei, iar diferenţele dintre mediile lor nu reprezintă decât expresia


variaţiei fireşti a distribuţiei de eşantionare.
Să ne gândim la cele trei medii pe care vrem să le comparăm, ca la o
distribuţie de sine stătătoare de trei valori. Cu cât ele sunt mai diferite una de
alta, cu atât distribuţia lor are o împrăştiere (varianţă) mai mare.
Mai departe, se pune următoarea problemă: cât de diferite (împrăştiate)
trebuie să fie mediile celor trei eşantioane, luate ca distribuţie de sine stătătoare
de trei valori, pentru ca să putem concluziona că ele nu provin din populaţia de
nul, ci din trei populaţii diferite, corespunzătoare eşantioanelor de cercetare
(Pc1, Pc2, Pc3)?
Pentru a răspunde la această întrebare este necesar:
 Să calculăm dispersia valorilor individuale la nivelul populaţiei de
nul, care se bazează pe valorile performanţei tuturor valorilor măsurate,
indiferent de metoda de antrenament;
 Să calculăm dispersia mediilor performanței grupurilor cercetării
(considerate ca eşantioane separate);
 Să facem raportul dintre aceste două valori. Obţinerea unei valori
mai ridicate a acestui raport ar exprima apartenenţa fiecăreia din cele trei medii
la o populaţie distinctă, în timp ce obţinerea unei valori mai scăzute ar sugera
provenienţa mediilor dintr-o populaţie unică (de nul).
Calcularea exactă a dispersiei populaţiei de nul este imposibilă, deoarece
nu avem acces la toate valorile acesteia, dar poate fi estimată prin calcularea
mediei dispersiei grupurilor de cercetare. Valoarea astfel obţinută se numeşte
„dispersia intragrup” şi reprezintă estimarea împrăştierii valorilor măsurate la
nivelul populaţiei de nul. La rândul ei, dispersia mediilor grupurilor de cercetare
formează ceea ce se numeşte „dispersia intergrup”. Valoarea astfel obţinută
evidenţiază cât de diferite (împrăştiate) sunt mediile eşantioanelor care fac
obiectul comparaţiei.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Raportul dintre „dispersia intergrup” şi „dispersia intragrup” se numeşte


raport F şi ne dă valoarea testului ANOVA unifactorial. Cu cât acest raport este
mai mare, cu atât împrăştierea mediilor grupurilor comparate este mai mare şi,
implicit, diferenţa lor poate fi una semnificativă, îndepărtată de o variaţie pur
întâmplătoare.
În figura a (figura 23) este reprezentată grafic ipoteza de nul: presupunem
că cele trei grupuri provin din aceeaşi populaţie. Ca urmare, cele trei medii sunt
egale (μ1=μ2=μ3), iar distribuţiile sunt suprapuse.
În figura b (figura 23) este reprezentată grafic ipoteza cercetării: cele trei
grupuri sunt diferite, provenind din populaţii distincte (μ1≠μ2≠μ3).

Figura 23. Expresia grafică a raportului F

Dacă distanţa (împrăştierea) dintre mediile eşantioanelor depăşeşte o


anumită valoare, atunci putem concluziona că nu avem o singură populaţie
(ipoteza de nul), ci mai multe, mediile grupurilor provenind din populaţii cu
medii distincte (cf. ipotezei cercetării). Dacă, dimpotrivă, mediile eşantioanelor
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

comparate sunt apropiate, atunci vom concluziona că ele nu provin din populaţii
diferite, ci dintr-una singură (cf. ipotezei de nul).
O precizare importantă cu privire la ANOVA, ca test statistic, priveşte
caracterul ei „unilateral” (one-tailed). Într-adevăr, spre deosebire de celelalte
teste studiate până acum, ANOVA este interpretată într-o singură direcţie şi
anume, dacă mediile grupurilor diferă semnificativ între ele (au o variaţie mai
mare decât cea normală pentru o distribuţie aleatoare). Nu putem avea o valoare
negativă pentru F şi, ca urmare, testul F este întotdeauna un test unilateral.
Valorile raportului F (sau testul F) se distribuie într-un mod particular,
numit distribuţia F sau distribuţia Fisher. Forma distribuţiei variază în funcţie de
o pereche de grade de libertate formată din numărul grupelor (categoriile
variabilei independente) şi numărul subiecţilor.
10.2.1. Calcularea gradelor de libertate
Ca şi în cazul distribuţiei t, distribuţia F se prezintă sub o varietate de
forme. Distribuţia F rezultă dintr-un raport a două distribuţii diferite (s2
intergrup şi s2 intragrup), fiecare cu gradele ei de libertate.
Ca urmare, îşi schimbă forma, în acelaşi timp în funcţie de numărul
grupurilor, şi de numărul subiecţilor din fiecare grup. În concluzie, vom avea
două grade de libertate, unul pentru dispersia integrup şi altul pentru dispersia
intragrup, calculate astfel:
• df intergrup = numărul grupurilor-1;
• df intragrup = numărul cumulat al subiecţilor din toate
grupurile – numărul grupurilor.
O cerință pentru testul ANOVA este ca variațiile fiecărui grup de
comparație să fie egale. Am testat acest lucru folosind statistica Levene. Ceea ce
ne interesează este o valoare semnificativă care să fie mai mare de .05. Nu dorim
un rezultat semnificativ, deoarece un rezultat semnificativ ar sugera o diferență
reală între variații.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

10.2.2. Mărimea efectului pentru testul F


La fel ca şi în cazul testelor statistice analizate anterior, valoarea testului F
nu este informativă în sine. Mărimea lui F indică doar de câte ori este cuprinsă
dispersia intragrup în dispersia intergrup. Pentru a decide dacă acest raport este
„mare” sau „mic” trebuie să calculăm un indice al mărimii efectului. În cazul
analizei de varianţă sunt utilizaţi în mod obişnuit doi indici de mărime a
efectului: eta pătrat (η2) şi omega pătrat (ω2). Spre deosebire de indicele d
(Cohen), care este un indice al diferenţei, eta pătrat şi omega pătrat sunt indici ai
asocierii.
𝐝𝐟 𝐢𝐧𝐭𝐞𝐫𝐠𝐫𝐮𝐩∗𝐅
η2 =
𝐝𝐟 𝐢𝐧𝐭𝐞𝐫𝐠𝐫𝐮𝐩∗𝐅+ 𝐝𝐟 𝐢𝐧𝐭𝐫𝐚𝐠𝐫𝐮𝐩

Indicele eta pătrat descrie procentul din varianţa (împrăştierea) variabilei


dependente care este explicat de varianţa variabilei independente.
Nu există o „grilă” unică de interpretare a indicelui eta pătrat dar, prin
similitudine cu coeficientul de corelaţie, putem prelua sugestiile unor autori
diferiţi, ale căror opinii sunt, în linii mari, convergente.
Varianta de interpretare a lui Hopkins (2000):
0.9-1 Aproape perfect
0.7-0.9 Foarte mare, foarte ridicat
0.5-0.7 Mare, ridicat, major
0.3-0.5 Moderat, mediu
0.1-0.3 Mic, minor
0.0-0.1 Foarte mic, neglijabil

Varianta de interpretare a lui Davis (citat de Kotrlik şi Williams, 2003):

0.70 asociere foarte puternică


0.50 – 0.69 asociere substanţială
0.30 – 0.49 asociere moderată
0.10 – 0.29 asociere scăzută
0.01 – 0.09 asociere neglijabilă
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

La rândul lui, Cohen (1988) a dezvoltat un indice de mărime a efectului


(f) pentru ANOVA, care atenuează ceea ce se consideră a fi tendinţa de
„supraestimare a mărimii efectului” de către indicele eta pătrat:
𝜂2
f=√
1 −𝜂 2

În conformitate cu recomandările lui Cohen, valorile lui f se interpretează


astfel: efect mic = 0.10; efect mediu = 0.25; efect mare = 0.40. Un indice redus
de mărime a efectului indică, desigur, o slabă intensitate a relaţiei dintre
variabila independentă şi variabila dependentă.

10.2.3. Analiza post-hoc


Graficul de mai jos prezintă variaţia mediilor performanţei celor trei
grupuri de sportivi. Aşa cum se observă, nivelul performanţei are nivelul cel mai
ridicat pentru prima metodă de antrenament (8.33), şi din ce în ce mai reduse la
următoarele două (5.83; 2.83).
Testul ANOVA ne oferă o imagine „globală” a variaţiei mediilor fără să
ne spună nimic cu privire la „sursa” de provenienţă a acesteia, şi nici în ce
măsură diferă mediile grupurilor luate două câte două.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Figura 24.

Se ridică întrebarea: „Care dintre grupuri diferă între ele, şi în ce sens?”


Pentru a rezolva această problemă se efectuează aşa numitele comparaţii
multiple, pe baza unor teste statistice denumite „post-hoc”, pentru că, în mod
normal, acestea se calculează după aplicarea procedurii ANOVA. Printre cele
mai frecvent utilizate sunt testele: Scheffe, Tukey şi Bonferoni (desigur, se
utilizează unul sau altul dintre ele, la alegere). Testele post-hoc se interpretează
în mod similar testului t pentru diferenţa mediilor pentru eşantioane
independente.
Este important de reţinut faptul că analiza post-hoc este practicată, de
regulă, numai dacă a fost obţinut un rezultat semnificativ pentru testul F.
Aceasta înseamnă că analiza post-hoc nu poate fi utilizată ca substitut pentru
testul t efectuat în mod repetat. Ca urmare, în practică, analiza de varianţă va
cuprinde două faze: prima, în care se decide asupra semnificaţiei testului F, şi a
doua, în cazul că acest raport este semnificativ, în care se analizează comparativ
diferenţele dintre categoriile analizate, pe baza unui test post-hoc.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

10.4. Utilizarea SPSS pentru aplicarea analizei de varianță ANOVA

În SPSS, pentru a verifica regula adunării dispersiilor, se execută


următoarea comandă: Analyze Compare Means One-Way ANOVA

Figura

În caseta „Post Hoc Multiple Comparison” se aleg testele de analiză


post-hoc, pentru testarea diferenţei dintre medii luate două câte două. Pentru că
nu ştim încă dacă varianţa este omogenă, vom bifa câte un test pentru fiecare caz
(Bonferoni, pentru varianţă neomogenă şi Tamhane T2, pentru varianţă
omogenă).
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Tabelul Test of Homogeneity of Variance conţine rezultatul testului


Levene. O valoare neseminificativă a acestuia conduce la concluzia că
dispersiile în interiorul celor trei grupuri sunt omogene.

În fereastra One-Way ANOVA: alegem din lista variabilele pentru care


dorim să calculăm indicatorii și le trecem în caseta Dependent List (variabila
dependentă) și în caseta Factor (variabila independentă), apoi click pe butonul
OK.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Dacă testul Levene a confirmă omogenitatea varianţei, se vor citi valorile


pentru testul Bonferoni (în caz contrar, se vor citi cele pentru testul Tamhane).

CURSUL 11.
TESTE STATISTICE NEPARAMETRICE PENTRU DATE
ORDINALE

11.1. Coeficientul de corelație a rangurilor Spearman (rho);


11.2. Coeficientul de concordanță Kendall (tau);
11.3. Coeficientul de concordanţă Kendall (W);
11.4. Utilizarea SPSS pentru aplicarea testelor de corelație
neparametrice.

Testele neparametrice prezintă, în raport cu cele parametrice, o serie de


avantaje, dar şi dezavantaje.
Principalele avantaje sunt:
• Se pot utiliza pe scale ale căror calităţi de măsurare sunt „slabe” (ordinale,
nominale).
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

• Pot fi utilizate în cazul variabilelor afectate de valori extreme care nu pot


fi eliminate.
• Utilizarea lor nu presupune condiţii la fel de restrictive ca testele
parametrice (normalitatea distribuţiei, omogenitatea varianţei, etc.).
• Pentru anumite proceduri, calculele sunt relativ simple şi uşor de efectuat,
chiar şi fără utilizarea tehnicii de calcul.
• Conceptele şi metodele statisticii neparametrice sunt uşor de înţeles.
Printre dezavantajele testelor neparametrice, sunt de menţionat:
• Se bazează pe măsurări pe scale nominale şi ordinale, care sunt, prin
natura lor, măsurări mai puţin precise decât cele pe scale cantitative (de interval
sau de raport).
• Au o „putere” mai redusă decât testele parametrice de a proba că ipoteza
cercetării este adevărată.
• Tind sa fie utilizate, datorită relativei lor simplităţi, şi în situaţii în care se
pot utiliza teste parametrice. Este important să reţinem faptul că, atunci când
sunt întrunite condiţiile pentru aplicarea unui test parametric, nu este
recomandabilă transformarea variabilei şi utilizarea unui test neparametric.
• Deşi se bazează pe calcule elementare, adesea acestea pot fi destul de
complexe şi de laborioase.
• Principiul care stă la baza evaluării mărimii efectului pentru testele
parametrice (proporţia explicată a varianţei) nu este uşor de aplicat în cazul
testelor neparametrice. Ca urmare, pentru multe dintre testele neparametrice nu
se poate calcula un indicie de mărime a efectului.
Coeficienţii de corelaţie neparametrici se utilizează în cazul în care cel
puţin una dintre cele două variabile nu îndeplineşte condiţiile unei distribuţii
nor-male, fie din cauza specificului datelor, fie din aceea a nivelului de măsură
la care se situează. Numiţi şi coeficienţi de asociere pentru distribuţii libere,
coeficienţii de corelaţie neparametrici pot fi folosiţi atât în cazul în care
distribuţia este cunoscută, dar mai ales în cazul în care distribuţia nu se
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

cunoaşte, nu este normală sau datele nu pot fi asociate unui nivel de măsură cel
puţin de interval. Motivul este acela că, datele aflate la un nivel de interval ori
de raport, pot fi uşor convertite în ranguri sau în frecvenţe (la nivel ordinal ori
nominal). Invers nu este, însă, posibil.

11.1. Coeficientul de corelație a rangurilor Spearman ()

Este un coeficient bazat pe ranguri, nu este influenţat de


reprezentativitatea mediei şi se utilizează, în general, atunci când lotul de
cercetare are dimensiuni mici (sub 30 de cazuri), sau când cel puţin una dintre
variabile nu îndeplineşte condiţiile de administrare ale testelor parametrice. A
fost dezvoltat de psihologul englez Charles Spearman şi, datorită similarităţii
sale cu coeficientul r Bravais-Pearson, acest coeficient este frecvent utilizat în
ştiinţele socio-umane. De fiecare dată când trebuie calculat coeficientul de
corelaţie bivariată, iar datele nu se distribuie normal pentru cel puţin una dintre
variabile, se apelează cu încredere la acest coeficient.
Coeficientul nu face altceva decât să transforme scorurile originale în
ranguri şi să analizeze relaţia dintre acestea.
Formula de calcul a coeficientului Spearman:
6 ∗ Σ𝑑 2
 =1 -
𝑛 (𝑛2 −1)

unde: d reprezintă diferența dintre rangurile valorilor măsurate la un


subiect, iar n se referă la numărul de subiecţi.
Ordonând un şir, putem preciza poziţia fiecărui element în cadrul acelui
şir, respectiv rangul fiecărui element în acel șir.
De exemplu șirul: 8, 9, 10, 11, 11, 12, 12, 13, 14, 14, 14, 15, 19, 20, 20,
unde fiecare element din cele 15 are propria poziție, și anume 1, 2, 3, 4, 5, 6, 7,
8, 9, 10, 11, 12, 13, 14, 15.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

În cazul în care avem două sau mai multe scoruri identice (în exemplul
nostru fiind vorba despre 11, 12, 14 şi 20), poziţia în cadrul şirului exprimă
poziţia fizică a acelui element. Observăm că scorul 12 ocupă poziţia 6 şi 7 în
cadrul şirului, elementul 14 poziţia 9, 10 şi 11 şi aşa mai departe. Când vorbim
de rangul unui scor şi avem mai multe scoruri care se repetă, rangul acestora va
fi media aritmetică a poziţiilor pe care scorurile le ocupă în cadrul şirului.
Scoruri:8, 9, 10, 11, 11, 12, 12, 13, 14, 14, 14, 15, 19, 20, 20
Poziţia:1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15
Rang: 1, 2, 3, 4.5, 4.5, 6.5, 6.5, 8, 10, 10, 10, 12, 13, 14.5, 14.5
După calculul rangurilor, facem diferenţa dintre rangul primei variabile şi
rangul celei de-a doua variabile. Valoarea d va fi, aşadar, d = Rangvar1 – Rangvar2.
În următoarea etapă, ridicăm la pătrat diferenţa rangurilor, pentru a
elimina problemele generate de semnul diferenţelor, şi facem suma pătratelor
diferenţelor.
Totuşi, datorită uşurinţei calculării acestui coeficient şi a faptului că poate
fi folosit pentru date parametrice care nu îndeplinesc condiţiile aplicării de teste
parametrice, coeficientul ρ Spearman are o largă utilizare. În general, folosim
acest coeficient de corelaţie dacă lotul este mai mic de 30, atunci când ambele
variabile se află la un nivel de măsură ordinal, când o variabilă se află la un
nivel ordinal, iar cealaltă la un nivel scalar, ori când ambele se află la nivel
scalar, dar cel puţin una dintre ele nu prezintă o distribuţie normală.
Coeficientul de corelaţie a rangurilor ρ Spearman este un coeficient de
corelaţie direcţional şi poate avea valori cuprinse între -1 şi +1. Valorile
apropiate de +1 indică existenţa unei asocieri directe (pozitive) între cele două
variabile, în timp ce valorile apropiate de -1 indică existenţa unei asocieri
inverse (negative). Cu cât valorile se apropie mai mult de 1 (indiferent de semn),
cu atât asocierea este mai puternică, variabilele fiind mai „legate” între ele.
11.2. Coeficientul de concordanță Kendall (τ)
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Este un alt coeficient de corelaţie pentru date neparametrice, dezvoltat de


statisticianul englez Maurice Kendall în anul 1938, fiind mai precis decât ρ
Spearman în cazul variabilelor ce se situează într-un mod real la un nivel pur
ordinal. Procedurile de calcul ale acestui coeficient diferă între ele, însă toate se
bazează pe numărarea inversiunilor (cazul în care un element care are un rang
mai mare pentru o variabilă, se situează în faţa unui element cu un rang mai mic,
datele fiind ordonate după cealaltă variabilă) şi a opusului acestora, numit şi
proversiuni (Vasilescu, 1992)
Există mai multe formule de exprimare a acestui coeficient, ceea ce ne
interesează însă pe noi este o variantă ajutătoare în cazul datelor ordinale a căror
ranguri egale depășește 25%. Logica construirii acestui coeficient este însă
asemănătoare cu cea a corelației Spearman: vom vorbi de o asociere pozitivă
dacă indivizii plasați pe locuri fruntașe după o variabilă, se află mai în față și
după cealaltă, iar asocierea va fi negativă dacă aceiași indivizi plasați bine după
prima variabilă se vor regăsi mai curând spre coada clasamentului după cea de a
doua variabilă.
Să presupunem că într-o clasă au fost evaluaţi un număr de patru elevi la
limba română şi la chimie, obţinându-se rezultatele din tabelul de mai jos.
Aceste date nu pot fi asociate unor date la un nivel scalar, fiind în mod cert date
ordinale.

Nr. Română Chimie


1 Satisfăcător (2) Nesatisfăcător (1)
2 Bine (3) Foarte bine (4)
3 Nesatisfăcător (1) Bine (3)
4 Foarte bine (4) Satisfăcător (2)

Dacă notăm calificativul nesatisfăcător cu 1, satisfăcător cu 2, bine cu 3 şi


foarte bine cu 4, putem obţine expresia numerică a acestor evaluări. Aceste cifre
nu reprezintă decât nişte coduri asociate calificativelor şi nu au valoare în sine.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

La acest nivel putem doar ordona elevii în funcţie de calificative (de la


nesatisfăcător la excepţional) şi nu putem preciza cu cât un elev este mai bun
decât celălalt.
Calcularea numărului de inversiuni se face prin ordonarea datelor după
prima variabilă. Ordonând datele, tabelul se prezintă în felul următor.

Nr. Română Chimie


3 Nesatisfăcător (1) Bine (3)
1 Satisfăcător (2) Nesatisfăcător (1)
2 Bine (3) Foarte bine (4)
4 Foarte bine (4) Satisfăcător (2)

Inversiunile vor fi calculate în baza celei de-a doua variabile (chimie)


urmărindu-se, pe rând, ordinea naturală a rangurilor. Pentru prima linie,
subiectul are rangul 3 la chimie. Acest rang este mai mare decât rangul la chimie
pentru a doua linie (1), deci avem de-a face cu o inversiune. Prima inversiune
găsită este (3 – 1).
Comparând prima linie cu a treia (rangul 3 cu rangul 4, tot pe coloana
„chimie”), observăm că cele două ranguri sunt în ordine naturală, deci nu apare
o inversiune în acest caz. O altă inversiune apare la compararea primei linii cu
ultima (inversiunea 3 – 2).
A doua linie nu presupune inversiuni, toate comparaţiile fiind în ordinea
naturală (atât comparaţia rangului 1 cu rangului 4 cât şi comparaţia rangului 1 cu
rangului 2), lucru evident, deoarece rangul acestei linii este 1 şi nu există nici un
rang mai mic decât 1. A treia linie presupune compararea rangului 4 cu rangul 2
(liniile 3 şi 4). Observăm, în sfârşit, o ultimă inversiune sub forma perechii 4 –
2.
Aşadar, în şirul determinat de variabila „chimie”, avem un număr de 3
inversiuni (perechile 3 – 1, 3 – 2 şi 4 – 2) şi un număr de 3 proversiuni
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

(perechile 3 – 4, 1 – 4 şi 1 – 2). Calculul coeficientului τ Kendall se face diferit,


în funcţie de existenţa sau inexistenţa elementelor cu acelaşi rang.
Acest coeficient de corelaţie se poate utiliza în condiţiile în care ambele
variabile sunt ordinale sau o variabilă este ordinală, iar cealaltă este scalară.

11.3. Coeficientul de concordanţă Kendall (W)

Coeficientul de concordanţă Kendall (W) se bazează pe ranguri şi permite


aprecierea gradului de acord dintre evaluatori, putând lua valori cuprinse între 0
şi 1, fiind un coeficient nedirecţional. Valorile apropiate de 0 indică lipsa
acordului, în timp ce valorile apropiate de 1 arată acordul perfect.
Să presupunem că un număr de 6 studenţi sunt evaluaţi de către o comisie
de licenţă formată din trei evaluatori. Rezultatele vor fi trecute într-un tabel
similar tabelului de mai jos.

Evaluator 1 Evaluator 2 Evaluator 3


Student 1 7 8 7
Student 2 6 5 8
Student 3 9 10 8
Student 4 8 8 7
Student 5 6 7 6
Student 6 7 8 9

Notele acordate de către fiecare evaluator vor fi transformate în ranguri şi


introduse într-un tabel. Se poate observa că profesorii au acordat aceeaşi notă
mai multor studenţi, fapt obişnuit. Ne amintim că rangul pe care îl ocupă două
scoruri identice este reprezentat de media poziţiilor pe care se află scorurile
respective.

Evaluator 1 Evaluator 2 Evaluator 3 Σrang SR2


Student 1 3,5 4 2,5 10 100
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Student 2 1,5 1 4,5 7 49


Student 3 6 6 4,5 16,5 272,25
Student 4 5 4 2,5 11,5 132,25
Student 5 1,5 2 1 4,5 20,25
Student 6 3,5 4 6 13,5 182,25
63 ΣSR2=756

În următoarea etapă vom calcula suma rangurilor pentru fiecare dintre cei
şase studenţi şi vom ridica la pătrat fiecare sumă.

CURSUL 12.
TESTE STATISTICE NEPARAMETRICE PENTRU DATE
NOMINALE

12.1. Tabelul de contingență


12.2. Testul chi-pătrat al asocierii (χ2)
12.3. Marimea efectului pentru testul chi pătrat al asocierii
12.4. Chi-pătrat pentru gradul de corespondență (Goodness of
Fit)

12.1. Tabelul de contingență

Exemplu: presupunem că avem trei categorii de liceu şi ne interesează


distribuirea lor în legătură cu trei tipuri de facultăţi: „umaniste”, „artistice” şi
„tehnice”.
Dacă realizăm un cadru de reprezentare sintetic al valorilor celor două
variabile, obţinem ceea ce se numeşte un tabel de corespondenţă (contingență).
Iată cum ar arăta un astfel de tabel, pentru un set de date ipotetice:
Liceu Liceu Liceu Total pe
umanist real artistic linii
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Fac. Umaniste 45 20 30 95
Fac. Tehnice 14 60 12 86
Fac. Artistice 20 13 50 83
Total pe coloane 79 93 92 264
Acesta este un tabel de corespondenţă pentru două variabile nominale,
fiecare având câte trei valori distincte (categorii). Valorile din celule reprezintă
numărul de cazuri (frecvenţele observate) care corespund fiecărei combinaţii
dintre categoriile celor două variabile. „Totalul pe linii” exprimă numărul de
studenţi din fiecare facultate, consemnaţi în cercetare, indiferent de tipul de liceu
absolvit, „totalul pe coloane”, exprimă numărul de absolvenţi din fiecare tip de
liceu, indiferent de facultatea la care sunt înscrişi, iar la intersecţia celor două
totaluri regăsim totalul general al subiecţilor cercetării (N=264).
Având un număr de 95 de studenţi în „facultăţi umaniste”, această
înseamnă că ei reprezintă 36% din totalul subiecţilor cercetării
(95/264*100=36). Acest procent se referă la absolvenţii care au ales o facultate
de tip umanist, indiferent de liceul absolvit. În mod similar, calculăm procentele
corespunzătoare celorlalte tipuri de facultăţi. Valorile astfel calculate, pentru
fiecare linie a tabelului, se numesc frecvenţe marginale.

Liceu Liceu Liceu Total pe


% pe linii
umanist real artistic linie
45 20 30
Fac. Umaniste 95 (95/264)*100=36%
(28.4) (33.4) (33.1)
14 60 12
Fac. Tehnice (25.6) (30.2) (29.9) 86 (86/264)*100=32,5%
20 13 50
Fac. Artistice (24.8) (29.2) (28.9) 83 (83/264)*100=31.5%
Total pe coloană 79 93 92 264

Având procentele studenţilor din fiecare facultate şi numărul absolvenţilor


din fiecare tip de liceu, putem calcula frecvenţele „teoretice” (aşteptate) pentru
fiecare celulă a tabelului. De exemplu, dintre cei 79 de absolvenţi de liceu
umanist consemnaţi de cercetare, 36% ar trebui să se afle în facultăţi umaniste,
ceea ce înseamnă: (79*36)/100=28.4. În mod similar, ar trebui să avem 32.5%
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

(25.6) în facultăţi ştiinţifice şi 31.5% (24.8) în facultăţi artistice. Acelaşi


raţionament se aplică mai departe şi celorlalte tipuri de liceu, cu utilizarea
procentului corespunzător fiecărei facultăţi. Precizăm că frecvenţele teoretice
(aşteptate) vor fi aceleaşi, în fiecare celulă, chiar dacă vor fi calculate pe baza
frecvenţelor marginale de pe coloane.
Aşa cum constatăm, între frecvenţele observate şi cele aşteptate sunt
diferenţe.

12.2. Testul chi-pătrat al asocierii (χ2)

A fost conceput de Pearson şi putem afirma, fără să ne înşelăm prea tare,


că statisticile neparametrice încep şi se termină cu χ2, atât de mare este
importanţa acestui indicator utilizat în studii corelaţionale şi factoriale cu date
nominale. Rolul său este esenţial în analiza datelor nominale, coeficientul
putând fi folosit în stabilirea relaţiilor dintre două variabile dihotomice, ale unei
variabile dihotomice cu una nominală, şi ale celor în care intervin o variabilă
nominală şi una ordinală, sau o variabilă nominală şi una scalară. Practic, atunci
când avem de a face cu o variabilă nominală, cel mai pertinent indicator este
acest χ2.
Acest indicator poate fi folosit atât în cazul studiului gradului de asociere
între variabile, cât și în situația analizei diferențelor dintre acestea. Așadar, χ2
poate fi atât un coeficient de contingență, cât și unul de diferență semnificativă.
Caracteristica sa este aceea conform căreia χ2 se poate folosi atunci când lucrăm
cu frecvențe (absolute sau relative), fiind singurul indicator aplicabil lucrului cu
date aflate la un nivel nominal de măsură.
Testul χ2 compară frecvențele observate cu cele estimate (teoretice) și ne
indică dacă diferențele dintre frecvențe sunt întâmplătoare sau, din contră,
neîntâmplătoare, semnificative.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

χ2 este un coeficient de asociere între două variabile nominale. El măsoară


gradul de contingență al celor două variabile, verificând dacă sunt sau nu sunt
asociate în vreun fel. În realitate, acest coeficient pare mai degrabă un test
statistic decât un indicator al gradului de asociere.
De exemplu, avem o cercetare în care dorim să stabilim în ce măsură se
asociază genul biologic al unor subiecţi şi calitatea de fumător. Suntem în
situaţia unei variabile nominale şi a unei variabile dihotomice. În acest caz vom
utiliza aşa-numitele tabele de contingenţă (tabele de asociere), pe baza cărora
vom calcula χ2 (exercițiu în SPSS).
Testul chi-pătrat al asocierii se utilizează atunci când dorim să testăm
relaţia dintre două variabile, ambele măsurate pe scală de tip categorial. Facem
precizarea că variabilele categoriale deşi sunt, de regulă, de tip nominal, pot fi
atât ordinale cât şi de interval sau de raport. Ceea ce caracterizează o variabilă
categorială nu este atât scala de măsurare, cât faptul că primeşte puţine valori,
care împart distribuţia în categorii de valori. De exemplu, într-un studiu cu
privire la relaţia dintre gravitatea accidentelor de circulaţie („fără răniţi”, „cu
răniţi uşor”, „cu răniţi grav”, „cu morţi”) şi puterea motoarelor (1400 cm3, 1600
cm3, 2000 cm3, 2500 cm3, 3000 cm3), ambele variabile sunt de tip categorial,
dar prima este pe scală nominală, iar a doua pe scală cantitativă.
Testul chi-pătrat al asocierii (independenţei) poate fi văzut ca un veritabil
test de corelaţie pentru date categoriale. De asemenea, poate fi folosit în locul
testului t sau ANOVA, dacă nu sunt îndeplinite condiţiile pentru variabila
dependentă. Într-un asemenea caz, variabila dependentă cantitativă se
transformă, prin gruparea în frecvenţe, în variabilă de tip categorial. Această
opţiune se va alege numai dacă ne aflăm în faţa unei flagrante violări a condiţiei
de normalitate, deoarece testele parametrice au o putere mai mică decât cele
neparametrice. La fel ca şi în cazul altor teste statistice, nu se vor putea trage
concluzii de tip cauzal decât numai dacă variabilele sunt măsurate în contextul
unui experiment psihologic.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

12.3. Marimea efectului pentru testul chi pătrat al asocierii

Atunci când utilizăm testul pentru asocierea variabilelor, valoarea χ2


certifică faptul că cele două variabile sunt relaţionate. Dar mărimea lui χ2 nu ne
spune nimic cu privire la intensitatea relaţiei dintre variabile. De fapt, mărimea
lui χ2 este în funcţie de N. Dacă multiplicăm frecvenţele celulelor cu o
constantă, valoarea lui χ2 se multiplică şi ea cu acea constantă, singura
consecinţă fiind aceea că se diminuează probabilitatea ca valoarea respectivă să
fie obţinută din întâmplare. Pentru completarea interpretării valorii χ2 este
necesar un indicator suplimentar, care să ne spună ceva şi despre intensitatea
legăturii, nu doar despre semnificaţia acesteia. Un astfel de indicator este
coeficientul φ (fi), care se calculează pentru asocierea variabilelor care prezintă
fiecare doar două valori posibile (tabele de contingenţă 2x2).
Formula după care se calculează este:
𝜒2
φ=√
𝑁

Coeficientul φ este adecvat doar pentru tabelele de contingenţă de tip 2x2,


când ambele variabile sunt dihotomice. O uşoară modificare a acestuia,
denumită φ Cramer, îl face utilizabil pentru intensitatea asocierii dintre
variabile având un număr diferit de categorii.
Indicele φ Cramer se calculează după formula:
𝜒2
φc = √
𝑁∗(𝐿−1)
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

12.4. Chi-pătrat pentru gradul de corespondență (Goodness


of Fit)
Această variantă a testului chi-pătrat compară frecvenţele observate ale
unei distribuţii cu frecvenţele teoretice (aşteptate) ale acelei variabile. De
exemplu, dacă avem frecvenţele unei variabile putem afla dacă aceasta se
distribuie după curba normală (z), prin compararea cu frecvenţele cunoscute ale
acestei distribuţii.
Această formă a testului chi-pătrat se aplică atunci când vrem să
comparăm frecvenţe observate cu frecvenţe teoretice (aşteptate), pe care le
cunoaştem deja. El este echivalentul testului z pentru proporţii pentru distribuţia
binomială, cu specificaţia că se utilizează atunci când avem mai mult de două
categorii. Testul chi-pătrat pentru gradul de corespondenţă (goodness of fit) nu
are un indice de mărime a efectului.

CURSUL 13.
TESTE STATISTICE NEPARAMETRICE DE COMPARAȚIE
PENTRU DATE ORDINALE (PARTEA A II-A)

12.1. Testul Mann-Whitney pentru eșantioane independente;


12.2. Testul Wilcoxon pentru eșantioane perechi;
12.3. Testul Kruskal-Wallis pentru mai mult de două eșantioane
independente;

12.1. Testul Mann-Whitney pentru eșantioane independente

Știm deja la ce se referă eșantioanele independente. Vorbim despre


eșantioane independente atunci când grupele de subiecți din planul nostru de
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

cercetare conțin, în general, elemente diferite şi când selectarea unui element


într-un eşantion nu are nicio legătură cu selectarea elementelor din celelalte
eşantioane.
Testul Mann-Whitney (U) este unul dintre cele mai utilizate tehnici de
analiză a datelor din sfera neparametrică, alături de testul Wilcoxon pentru
eșantioane dependente (perechi).
Acest test statistic, deși preferat în mai toate cercetările care folosesc date
neparametrice, se folosește atunci când numărul de ranguri egale nu este foarte
mare.
Pentru a determina valoarea exactă a testului statistic, trebuie, în primul
rând, să ordonăm crescător sau descrescător datele, apoi să calculăm rangurile.

În următoarea etapă, va trebui să calculăm suma rangurilor pentru fiecare


grup de cercetare. Din moment ce știm deja rangul fiecărui scor, suma rangurilor
se calculează foarte simplu, înmulțind efectivul care a obținut scorul respectiv,
cu rangul asociat scorurilor, apoi adunând toate aceste produse.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Ca măsură suplimentară de precauție, vom verifica dacă suma totală a


𝑛(𝑛+1)
rangurilor este egală cu , unde n reprezintă numărul total de subiecți.
𝑛

Procedura de calcul: Se calculează cele două valori U, corespunzătoare


grupurilor A (ex: masculin) şi B (ex: feminin), astfel:
𝑛𝐴 ∗(𝑛𝐴 +1)
UA = nA * nB + – ΣRA
2

respectiv
𝑛𝐵 ∗(𝑛𝐵 +1)
UB = nA * nB + – ΣRB
2

unde:
 nA și nB reprezintă volumul celor două grupuri independente care compun
eșantionul;
 ΣRA și ΣRB reprezintă suma rangurilor pentru fiecare din cele două
grupuri.
Valoarea testului Mann-Whitney este dată de valoarea U cea mai mică.

12.2. Testul Wilcoxon pentru eșantioane perechi

Dacă avem subiecţi evaluaţi de două ori, pe o scală de interval, iar


variabilele nu întrunesc condiţiile pentru utilizarea testului t al diferenţelor
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

pentru eşantioane dependente, se poate apela la testul Wilcoxon. Acesta este un


test care, deşi se aplică pe scale de interval/raport, utilizează proceduri de tip
neparametric, apelând la diferenţele dintre valorile perechi şi la ordonarea lor.
Este, din acest punct de vedere, un test de date ordinale.

Etapele procedurii de calcul:


- se calculează diferenţa dintre variabilele supuse testării;
- dacă sunt diferenţe nule, se elimină;
- se iau în considerare diferenţele în valoare absolută;
- se construiesc rangurile pentru diferenţele în valoare absolută;
- se marchează semnul diferenţelor pentru fiecare pereche de valori.
Din acest punct, calcularea valorilor testului este simplă. Se calculează
două valori, T(-) prin însumarea rangurilor diferenţelor negative şi T(+) prin
însumarea rangurilor diferenţelor pozitive. Valoarea cea mai mică dintre ele este
rezultatul testului Wilcoxon, al cărui nivel de semnificaţie se află în funcţie de
nivelul alfa ales şi de volumul eşantionului (N). Testul se fundamentează pe
ideea că atunci când ipoteza nulă este adevărată ar trebui ca suma rangurilor
pentru diferenţele pozitive să fie egală cu suma rangurilor pentru diferenţele
negative. Pe măsură ce diferenţa dintre ele este mai mare, ne îndepărtăm de
condiţia ipotezei de nul.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

12.3. Testul Kruskal-Wallis pentru mai mult de două eșantioane


independente

Testul Kruskal-Wallis este utilizat pentru diferenţa rangurilor a mai mult


de două eşantioane independente. Poate fi asimilat unei analize de varianţă
pentru date ordinale.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Formula de calcul pentru testul Kruskal-Wallis (notat cu H) este


următoarea:
12 𝑇2
H= * ∑𝑘𝑖=1 ( 𝑖 ) – 3 * (N + 1),
𝑁∗(𝑁+1) 𝑛𝑖

unde:
− H este valoarea calculată a testului Kruskal-Wallis;
− N este volumul total al eșantionului;
− n este volumul grupurilor (N = n1 + n2 + n3 +...+ nk);
− K este numărul grupurilor independente;
− T este suma rangurilor care va fi calculată pentru fiecare grup.
Valorile distribuţiei de nul ale lui H urmează forma distribuţiei chi-pătrat
care, ne amintim, are originea în valoarea 0. Cu cât sumele rangurilor pentru
cele k grupuri sunt mai diferite între ele, cu atât valoarea testului este mai mare
şi, potenţial, mai aproape de o variaţie semnificativă. Diferenţele mici dintre
rangurile grupurilor conduc spre valori ale testului care tind spre 0 şi, implicit,
nesemnificative.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Testul Kruskal-Wallis este o extensie a testului Mann-Whitney și se


utilizează atunci când avem de comparat rangurile a mai mult de două
eșantioane independente. Din acest punct de vedere, testul Kruskal-Wallis este
echivalentul pentru date ordinale al analizei de varianță unifactorială ANOVA.

CURSUL 14.
STRATEGIA ANALIZEI STATISTICE A DATELOR

14.1. Alegerea testului statistic;


14.2. Reguli de fixare a mărimii eșantioanelor de cercetare;
14.3. Integrarea analizei statistice în raportul de cercetare;

14.1. Alegerea testului statistic

Alegerea testului statistic potrivit este adesea una dintre încercările cele
mai mari prin care trece un tânăr cercetător. De fapt, alegerea testului statistic nu
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

este prima, ci ultima problemă pe care trebuie să o rezolve cercetătorul. De


aceea, situația poate fi ușurată în abordarea cercetării și prelucrării datelor, dacă
se urmează o serie de raționamente și reguli de bază, și anume:
1. Mai întâi se formulează ipoteza, care derivă din problema cercetării și se
exprimă sub forma răspunsului pe care cercetătorul se așteaptă să îl
confirme cu ajutorul datelor statistice.
2. Se identifică variabilele cercetării: variabila independentă și variabila
dependentă.
3. Se recoltează datele cercetării având grijă să fie respectate toate condițiile
și criteriile care să asigure corecitudinea acestora.
4. Se sintetizează datele cercetării și se trece la prelucrarea acestora. Fazele
obligatorii ale acestor prelucrări sunt:
➔ analiza preliminară a variabilelor cu ajutorul procedurilor statistice
descriptive, având drept principale scopuri: 1) verificarea
corectitudinii datelor; 2) evidențierea caracteristicilor distribuției
fiecărei variabile, în vederea alegerii ulterioare a testului statistic
adecvat.
➔ corectarea eventualelor erori de înregistrare, rezolvarea situațiilor în
care lipsesc date.
După ce sunt parcurse aceste etape, principalele componente ale
algoritmului de selectare a testului statistic sunt următoarele:

1. se identifică variabila independentă;


2. se identifică variabila dependentă:
• dacă este de tip nominal/ordinal se aplică un test neparametric;
• dacă este de tip interval/raport:
 respectă condițiile, iar eșantionul este mare, se recomandă
alegerea unui test parametric;
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

 nu respectă condițiile, iar eșantionul este foarte mic, se


recomandă alegerea unui test neparametric.
3. Se precizează obiectivul cercetării:
 diferența dintre grupuri dependente sau independente;
 gradul de asociere.
4. Se alege testul statistic adecvat în funcție de următoarele aspecte:
➔ dacă variabila dependentă este măsurată pe scală nominală sau
ordinală, singurele teste aplicabile sunt cele neparametrice, iar dacă
variabila dependentă este exprimată pe o scală interval/raport și
întrunește condițiile impuse de statistica parametrică, este
recomandabil să se utilizeze teste parametrice.
➔ luarea în considerare a mărimii eșantionului. Normalitatea
distribuției datelor este valabilă pentru eșantioane mai mari de 30
de subiecți. Folosirea testelor neparametrice este o soluție mai bună
pentru eșantioanele apropiate de 30 de valori. În practică, se va
avea în vedere faptul că testele statistice, atât cele parametrice, cât
și cele neparametrice, efectuate pe eșantioane reduse, sub N = 20,
nu oferă rezultate robuste, iar credibilitatea lor este îndoielnică.
Eșantioanele mici nu conțin suficientă informație care să permită
fundamentarea unei inferențe statistice suficient de sigure și cu
putere de generalizare.

14.2. Reguli de fixare a mărimii eșantioanelor de cercetare

Alegerea mărimii eșantionului, în contextul diferitelor modele de


cercetare, este un subiect care trebuie tratat cu atenție dacă dorim să asigurăm
cercetărilor noastre consistență sub aspectul puterii și al mărimii efectului.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Reputatul statistician Jacob Cohen ne spune că, în facultate, a învățat că


pentru a compara două grupuri trebuie utilizate eșantioane a câte 30 de subiecți,
orice eșantion mai mic de 30 fiind considerat un eșantion mic.
Testul t pentru eșantioane independente, pentru eșantioane dependente,
analiza de varianță (ANOVA) sunt concepute pentru a testa semnificația
diferențelor dintre mediile unor grupuri. Pentru a menține un nivel acceptabil al
puterii testului, ficare dintre grupurile comparate trebuie să aibă un volum
minimal, pentru a avea suficientă putere în detectarea diferențelor și, în același
timp, un nivel mediu-ridicat al mărimii efectului. În acest scop, se consideră că
30 de subiecți în fiecare celulă (definită prin categoriile variabilei independente)
sunt suficienți pentru a garanta o putere de 0,8, adică un nivel minim pentru un
studiu obișnuit.
De exemplu, pentru o cercetare în care sunt comparate mediile a două
grupuri independente, se vor utiliza cel puțin 60 de subiecți (minim 30 pentru
fiecare grup). Pentru o cercetare în care același grup este măsurat de două ori,
este suficient un eșantion de 30 de subiecți pentru asigurarea unei puteri
acceptabile. Pentru o cercetare în care este utilizată analiza de varianță
(ANOVA), eșantionul cercetării trebuie să fie compus din cel puțin 3x30 = 90 de
subiecți.
Atunci când se studiază asocierea variabilelor, regula empirică este de a
nu utiliza eșantioane mai mici de 50 de subecți. Green (1991) sugerează, ca
atunci când există mai multe variabile independente în cazul corelației, volumul
eșantionului trebuie să fie N > 50 + 8m, unde m reprezintă numărul variabilelor
independente. Concret, pentru o analiză de corelație multiplă cu patru variabile
se vor utiliza 50 + 8x4 = 82 de subiecți.
Pentru testul chi-pătrat, o regulă de siguranță este ca în nici una dintre
celulele tabelului de corespondență frecvența teoretică să nu fie mai mică de 5,
iar volumul total al eșantionului să nu fie mai mic de 20.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

14.3. Integrarea analizei statistice în raportul de cercetare

Materializarea metodologiei statistice într-un document de analiză și


concluzii (un raport de cercetare, un articol, o comunicare etc.) se face după un
model ce are, în linii generale, o anumită structură. Vom trece în revistă o serie
de recomandări generale cu privire la modul ăn care trebuie abordată analiza
statistică în cuprinsul unui material de cercetare.

14.3.1. Prezentarea cadrului general al cercetării


Se exprimă cu claritate tipul de studiu statistic care a fost efectuat și
obiectivele urmărite.
Ipotezele: Datorită faptului că ipoteza de nul va îngreuna lectura și ar
putea produce confuzie, nu se redă decât ipoteza cercetării, cea de nul fiind
considerată, implicit, opusul ei. Se face referire explicită la ipoteza de nul doar
în momentul deciziei statistice, când se afirmă acceptarea sau respingerea
acesteia.
Populația: interpretarea rezultatelor unui studiu depinde de caracteristicile
populației pentru care se efectuează analiza. Conceptul de populație nu se referă
atât la indivizii umani, cât la totalitatea valorilor unei caraceristici care definește
și care face obiectul analizei.
Eșantionul: se va descrie modul de constituire a eșantionului, insistându-
se pe criteriile de includere și, eventual, de excludere a unor indivizi (sau valori).
Dacă eșantionul este stratificat (după proveniență, gen etc.), se vor descrie
criteriile de stratificare și volumul de subiecți pentru fiecare subgrup.

14.3.2. Prezentarea metodei și a lotului de participanți


Variabilele: vor fi descrise în mod explicit, indicându-se denumirea și
semnificația fiecăreia, modul în care au fost măsurate și unitatea de măsură.
Atunci când declarăm o variabilă, precizăm implicit și domeniul valorilor valide.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

Instrumentele de măsurare: este recomandat să fie prezentate cu o


descriere (cel puțin) sumară, inclusiv cu caracteristicile lor psihometrice
(validitate, consistență internă). Dacă este vorba despre un aparat sau un
program de calculator, se vor indica tipul și, eventual, sursa, pentru a putea fi
căutate și de alți cercetători care vor dori să efectueze o replicare a studiului
respectiv.
Procedura de lucru: se va prezenta modul în care a decurs procedura de
investigare, descrierea condițiilor, a duratei, locului și personalului care a
contribuit la aceasta. Se va acorda atenție modalităților de control al surselor de
eroare (limitarea efectului variabilelor covariante, eliminarea erorilor de
măsurare).

14.3.3. Prelucrarea datelor


Analiza primară: va începe întotdeauna cu o inspecție a valorilor obținute.
Aceasta înseamnă analiza distribuțiilor sub aspectul formei, indicatorilor
tendinței centrale, valorilor excesive etc. Reprezentarea grafică a datelor
(histograma) poate fi o metodă foarte eficientă de identificare a distribuțiilor
anormale sau a valorilor improprii.
Scopul acestei analize primare a variabilelor este dublu:
 obținerea unei imagini de ansamblu a variabilelor de interes (frecvențe,
tendința centrală, împrăștierea, grafice);
 fundamentarea alegerii testelor statistice adecvate datelor pe care le
analizăm.
În documentul de cercetare nu se vor include toate rezultatele analizei
primare, ci numai acelea strict necesare pentru descrierea variabilelor analizate.
Verificarea ipotezelor statistice: un studiu bine fundamentat teoretic,
bazat pe ipoteze consistente, utilizând instrumente adecvate și beneficiind de o
procedură sigură de recoltare a datelor, va conduce întotdeauna la rezultate utile.
Aceasta nu înseamnă neapărat că ele trebuie să confirme ipotezele. Uneori, chiar
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

și infirmarea unei ipoteze poate fi semnificativă. În ceea ce privește testarea


ipotezelor, nu este suficientă expresia „acceptăm” sau „respingem” ipoteza.
Întotdeauna se va indica și valoarea exactă obținută pentru nivelul de
semnificație.
Reținere față de declararea relației cauzale: aprecierea pe baza unui test
de semnificație statistică a unei relații de cauzalitate între variabile este cel puțin
hazardată. Acest lucru poate fi susținut numai dacă se respectă anumite condiții
experimentale, care să ne asigure că între cele două variabile există o relație
cauză-efect. Nu se vor emite concluzii de tip cauzal în afara situațiilor în care
recoltarea datelor decurge dintr-un demers de tip experimental.
Tabele și figuri: tabelele sunt cel mai des utilizate pentru includerea în
textul rapoartelor de cercetare a rezultatelor obținute. Ele prezintă avantajul
indicării cu exactitate a valorilor și susținerii cu precizie a concluziilor. Figurile
au însă avantajul de a prezenta informația într-o formă intuitivă și accesibilă,
atrăgând atenția cititorului.

14.3.4. Discutarea și interpretarea rezultatelor


Premisa fundamentală a unei interpretări consistente este suportul teoretic,
claritatea și consistența ipotezei sau ipotezelor cercetării. Este imposibil să tragi
concluzii dacă nu ești conștient de obiectivele urmărite. Obiectivul cercetării
trebuie să fie clar precizat de la început, în timp ce alegerea procedurii statistice
ține de natura scalei de măsurare, caracteristicile variabilelor și ipotezei pe care
trebuie să o testăm.
Un alt aspect important este interpretarea semnificației statistice.
Obiectivul legitim al testelor statistice este atingerea pragului de semnificație.
De aceea, valoarea lui p este prima care trebuie să ne atragă atenția la capătul
prelucrărilor, eforturile făcute având finalitate, dacă se află sub pragul de 0,05.
STATISTICĂ APLICATĂ ÎN PSIHOLOGIE SEMESTRUL II

14.3.5. Formularea concluziilor


Studiul trebuie să se încheie cu concluzii adecvate rezultatelor obținute,
formulate sintetic și explicit. Nu se vor evita aspectele mai puțin reușite ale
cercetării, chiar eventualele nereușite. Rostul acestora este de a contribui la
evitarea repetării unor greșeli de către cei care vor dori să reia același tip de
investigație. Se pot face chiar recomandări explicite în acest sens.
Cu rol de concluzie, se cuvine să insistăm pe respectarea exigențelor
procedurale impuse de metoda statistică. Simpla „populare” a unei lucrări cu
date statistice, tabele, grafice sau cu valori ale unor teste de semnificație nu
asigură în mod necesar acelui document valoarea științifică la care aspiră.
Asigurarea calității datelor supuse prelucrării, respectarea condițiilor de alegere
a testelor de semnificație, interpretarea lor adecvată și publicarea rezultatelor în
formatul adecvat sunt condiții indispensabile pentru calitatea științifică a unui
studiu bazat pe metoda statistică.

S-ar putea să vă placă și