Sunteți pe pagina 1din 140

ELEMENTE DE

STATISTICĂ APLICATĂ

1 Conf.Univ.Dr. MIHAELA RUS


Lect. Univ. dr. MIHAELA SANDU
CURS 1
NOȚIUNI INTRODUCTIVE

Statistica a devenit elementul sine qua non al cunoaşterii în condiţii de


manifestare probabilistică a fenomenelor. Utilizarea statisticii permite atât descrierea
fenomenelor şi modelarea lor, cât şi aplicarea practică a acestora, accentul punându-se
atât pe prezentarea raţionamentului statistic cât şi a tehnicilor fundamentale de analiză
a datelor experimentale.
Ca obiective îşi propune să faciliteze:
 Asimilarea noţiunilor esenţiale ale acestei discipline ştiinţifice şi
descrierea într-un mod clar şi concis a unei colectivităţi, folosind informaţia din
datele obţinute prin observări statistice asupra fenomenelor studiate;
 Familiarizarea studenţilor cu limbajul şi cerinţele cercetării ştiinţifice, din
cadrul ştiinţelor politice, psihologiei, pedagogiei, sociologiei, precum şi cu
procedeele informaţionale de studiu şi cercetare folosind Internetul.
 Se urmăreşte înţelegerea ideilor care stau la baza statisticii, a principiilor
de organizare şi analiză a datelor, precum şi de evaluare statistică.
Psihologia a fost acceptată ca ştiinţă de sine stătătoare abia în sec. al XIX-lea,
o dată cu accentuarea laturii ei experimentale. Astfel, s-a recurs la acumularea de
observaţii şi date, care, comparate cu celelalte ştiinţe (care aveau un statut
epistemologic clar delimitat şi acceptat de comunitatea ştiinţifică), apar deficitare sub
aspectul interpretării lor.
Cuvântul statistică are semnificaţii multiple. Astfel poate să ne ducă cu
gândul la indicele preţurilor de consum, la cifra medie de afaceri a unor firme, la rata
şomajului, la datele publicate într-o revistă sau într-un buletin oficial etc.
2
Încercând să definim statistica, putem spune că „este un corp de metode pentru a
colecta, a descrie şi a analiza date numerice din observaţii sau investigaţii ştiinţifice”.
(Clocotici, Stan, 2000, p.13)
Obiectul de studiu al statisticii îl constituie „variaţia curentă-continuă, în timp
şi spaţiu şi din punct de vedere calitativ, al fenomenelor de tip stochastic din orice
domeniu al vieţii economico-sociale sau naturale”. (Jaba, 2002, p. 13-16)
Statistica a fost folosită pentru rezolvarea unor nevoi practice ale vieţii sociale
din cele mai vechi timpuri şi până astăzi, o regăsim atât în primele forme de evidenţă a
populaţiei şi bunurilor materiale cât şi în rezolvarea celor mai variate şi complexe
probleme de conducere.
Statistica se referă la măsurare şi probabilităţi. Cuvântul statistică, provine din
latinescul „statista” şi desemna, pe vremuri, persoanele care se ocupau cu afacerile
statului, care numărau populaţia sau alte aspecte ce ajutau statul să gestioneze mai bine
politica de taxe şi costurile războaielor. În perioada medievală, prin statistică,
armatorii îşi calculau costurile echipării corăbiilor, incluzând în calculele lor şi
probabilitatea ca acestea să fie atacate de piraţi sau de a naufragia. (Opariuc, 2009,
apud Lungu 2001).

Forma cea mai veche a statisticii moderne este statistica practică folosită în
scopuri demografice, administrative şi fiscale. Încă din mileniile IV şi III îen chinezii
dispuneau de date cu privire la numărul populaţiei, structura terenurilor şi chiar
utilizau tabele statistice pentru unele aspecte ale activităţii agricole. Recensămintele
populaţiei efectuate, începând cu anul 550 îen, de romani, greci şi egipteni sunt, de
asemenea, exemple pentru rădăcinile istorice ale statisticii practice (etapa
prestatistică).
Dezvoltarea statelor feudale a dus la evoluţia şi perfecţionarea evidenţelor
privind situaţia geografică, economică şi politică. Se elaborează lucrări în care se

3
prezintă detaliat situaţia social-economică folosind date statistice. Apare, astfel,
statistica descriptivă care se ocupă de culegerea datelor despre un fenomen şi cu
înregistrarea acestor date.
Fondatorul Şcolii descriptive şi autorul primului Curs de Statistică, în 1660,
a fost Herman Conring (1606-1681) profesor la Universitatea din Helmstedt. Reluând
ideile lui Conring, un secol mai târziu, Gottfried Achenwall (1719-1772), profesor la
Universitatea din Göttingen, defineşte statistica drept o ştiinţă descriptivă folosită
pentru prezentarea particularităţilor unui stat, introducând pentru prima oară
termenul de statistică (statistik). (Benţea, Munteanu, 2007, p. 11.)
Bazele statisticii descriptive au fost puse de către Dimitrie Cantemir prin
monografia, de talie europeană, „Descriptio Moldavie”, apărută în 1716. O altă lucrare
de referinţă poate fi considerată şi „Expunere statistică asupra Moldovei” întocmită în
1782 de către un înalt funcţionar al Curţii de la Viena, Wenzel von Brognard.
Statistica s-a dezvoltat şi s-a perfecţionat odată cu dezvoltarea societăţii
româneşti şi în deplină concordanţă cu alte ştiinţe cu care se află în permanentă
legătură (Psihologia, Contabilitatea, Finanţele, Econometria, Informatica, etc.)

4
NOŢIUNI ŞI CONCEPTE DE BAZĂ UTILIZATE ÎN STATISTICĂ

Pentru a putea ilustra principalii termeni utilizaţi în statistică, încercăm să luăm în


considerare situaţia unui cercetător psihosocial care investighează o colectivitate
umană urmând criteriile:
 Mediul de provenienţă a persoanelor;
 Statutul socio-economic;
 Genul biologic;
 Vârsta.
Această colectivitate poate fi numită populaţie statistică.
1. Prin populaţie (colectivitate) statistică se înţelege „totalitatea persoanelor,
faptelor, etc, care constituie obiectul de interes al cercetării”. (Clocotici, Stan, 2001,
p. 13). Ea reprezintă totalitatea manifestărilor sau totalitatea fenomenelor de aceeaşi
natură (de aceeaşi esenţă calitativă, ale unui fenomen sau proces economic), care au
trăsături esenţial comune şi care sunt supuse unui studiu statistic.

Exemple de populaţii statistice:


1. Colectivitatea studenţilor din primul an de facultate, din Centrul universitar
Constanţa;
2. Colectivitatea persoanelor cu vârstă egală sau mai mare de 45 de ani, din
România;
Colectivitatea statistică specifică vieţii economico-sociale are un caracter
obiectiv, concret şi finit strict determinat în timp şi spaţiu.
Statistica abordează colectivităţile fie static, fie dinamic. Colectivităţile statice
exprimă o stare şi au o anumită întindere în spaţiu la un momonet dat, iar

5
colectivităţile dinamice caracterizează un proces, o devenire în timp (înregistrarea
elementelor componente făcându-se pe un interval de timp).

Exemplu: 1. Persoanele care au starea civilă „căsătorit” la sfârşitul anului


curent reprezintă o colectivitate statică;
2. Colectivitatea evenimentelor de „căsătorie” din anul curent
reprezintă o colectivitate dinamică.
2. Unitatea statistică reprezintă elementul constitutiv al unei colectivităţi
statistice şi este purtătorul unui nivel al fiecărei trăsături supuse observării şi
cercetării statistice. (Benţea, Munteanu, 2007, p. 20)

Unităţile statistice pot fi:

- statice = unităţile compun efectivul masei de fenomene existente la un


moment dat. (un copil născut viu în luna mai în Constanţa –
unitate statică.
- dinamice = unităţile aparţin aceleiaşi structuri organizatorice, au acelaşi
conţinut, dar se produc în condiţii diferite de timp (trebuie
înregistrate pe perioade de timp).
- simple = elemente constitutive ale colectivităţii (persoana, muncitorul).
-complexe = sunt rezultatul organizării sociale şi economice ale colectivităţii
(familia, echipa, anul de studiu).

3. Inferenţa statistică reprezintă o decizie, o estimare, o predicţie sau o


generalizare privitoare la o colectivitate generală, bazată pe informaţiile statistice
obţinute pe un eşantion. Astfel, procesul de cercetare statistică va cuprinde două etape.
O primă etapă descriptivă, în care se vor colecta şi prelucra date privitoare la eşantion,

6
obţinându-se indicatori statistici. În a doua etapă, etapa de inferenţă statistică,
rezultatele se vor extinde la colectivitatea generală.

Discutând despre sensul termenului de „a măsura”, acceptăm definiţia dată de S.


S. Stevens (1959), prin care, „în sensul său larg, măsurarea înseamnă atribuirea de
numere obiectelor sau evenimentelor, potrivit unor reguli.” Astfel, măsurarea este
o funcţie, prin care unui obiect îi corespunde un număr şi numai unul, la o anumită
măsurare. Această funcţie de atribuire a unui obiect unui număr va trebui să fie
suficient de clară, pentru a permite ca unui obiect să i se atribuie un număr şi numai
unul şi să permită să decidem concret şi corect, ce număr va fi atribuit fiecărui obiect,
dar şi suficient de simplă pentru a putea fi aplicată. (Vasilescu, Puiu, 1992.)

4. Variabile statistice.

Definiţie: Caracteristica (variabila) statistică reprezintă trăsătura, proprietea,


însuşirea comună tuturor unităţilor unei colectivităţi şi care variază ca nivel, variantă
sau valoarea de la o unitate a colectivităţii la alta. (Vasilescu, Puiu, 1992.)
Variabilitatea se referă la „proprietatea obiectului de studiu de a lua valori
diferite” (Popa, 2008, p. 23).
Fiecare dintre criteriile de diferenţiere este o variabilă, adică o entitate care ia
valori diferite pentru componenţii colectivităţii şi este comună tuturor elementelor
colectivităţii.
Exemplul 1. „mediul de provenienţă” este o variabilă care poate lua trei
valori: „urban”, „rural” – variabilă categorială;
Exemplul 2. Variabila „gen biologic” poate lua 2 valori: „feminin” şi
„masculin”. – variabilă categorială;

7
Exemplul 3: „Vârsta” poate lua valori de la 0 ani la peste 100 de ani. –
variabilă numerică;
Variabila „Vârsta” poate fi şi variabilă categorială şi lua diferite valori in
funcţie de categoriile stabilite. (se stabilesc categorii de vârste).
Exemplu: 1. 10-20 ani
2. 21-30 ani
3. 31-40 ani.
O variabilă, reprezintă un concept cheie în statistică şi nu este altceva decât un
nume pentru un element a cărui proprietate principală este aceea că variază, îşi
modifică parametrii. (Opariuc, 2009) Mulţimea valorilor înregistrate pentru o
caracteristică particulară constituie distribuţia variabilei respective.

Modalitatea de realizare a unei variabile (modul în care îi sunt atribuite


valorile) constituie un eveniment întâmplător (probabilistic), de aceea variabila se mai
numeşte şi variabilă aleatoare.
Definiţie: Varianta/valoarea reprezintă nivelul concret pe care îl poate lua o
variabilă la nivelul unei unităţi sau grup de unităţi statistice. (Benţea, Munteanu,
2007, p. 22).
Exemplu: Înălţimea elevilor dintr-o clasă poate lua aleatoriu diferite valori pe care le
pot avea elevii la această caracteristică.
→ valorile pe care le poate lua variabila, se grupează într-un anumit interval de valori.
O variabilă aleatoare poate fi discretă sau continuă, după cum mulţimea de
definiţie a valorilor sale poate fi numărabilă (discontinuă) sau nenumărabilă
(continuă).

a. Variabile discrete.

Variabilele discrete sunt cele care sunt exprimate prin numere întregi (număr
finit de valori pe care le poate lua). (Popa, 2008).

8
Exemplu:
 numărul de copii pe care îi are o familie;
 numărul de oraşe dintr-un judeţ;
 genul biologic;
 Gradul didactic;
În cazul variabilelor discrete, mulţimea de definiţie a valorilor sale este o mulţime
discontinuă iar între două valori nu poate fi interpusă o valoare intermediară.
Variabilele discrete pot fi categoriale sau de rang.
b. Variabile continue
Sunt variabile „de tip numeric (cantitativ, de tip interval/raport) care au un
număr teoretic infinit de niveluri de măsurare...poate lua orice valoarea (exprimabilă
şi prin numere fracţionate), permiţând utilizarea zecimalelor” (Popa, 2008, p. 25).
Exemplu:
 greutatea → între un subiect de 76 kg şi un subiect de 78 kg putem găsi oricând
un subiect de 77,5 kg;
 cifra de afaceri a unei firme;
 înălţimea subiecţilor.
În cazul acestor variabile, mulţimea de definiţie a valorilor sale este una
continuă, ne-numărabilă. Aceste variabile se mai numesc şi variabile scalare (de
interval sau de raport).
Deoarece cercetarea unei colectivităţi numeroase poate implica valori mari,
putem extrage din colectivitatea iniţială o subcolectivitate (sau mai multe) al cărui
studiu este mai simplu. În acest caz vorbim despre „eşantion” – reprezintă un subset
de elemente selectate dintr-o colectivitate statistică.
Eşantionul reprezintă „unităţile de informaţie selecţionate pentru a fi efectiv
studiate” (Popa, 2008, p. 38).

9
„Calitatea unui eşantion de a permite extinderea concluziilor la întreaga
populaţie din care a fost extras se numeste reprezentativitate” (Popa, 2008, p. 39).
După Rotariu (2006), reprezentativitatea este „capacitatea eşantionului de a
reproduce cât mai fidel structurile şi caracteristicile populaţiei din care a fost extras”.
Gradul de reprezentativitate al unui esantion depinde de:
- caracteristicile populaţiei;
- mărimea eşantionului;
- procedura de eşantionare folosită.
Definiţie: Frecvenţa de apariţie a unei variante/valori reprezintă numărul de
apariţii ale acestei variante/valori în colectivitate. (Benţea, Munteanu, 2007, p. 23)
Exemplu:

Nivelul individual al salariului de 700 RON, înregistrat pentru un angajat al


societăţii X, reprezintă valoarea concretă a variabilei salariu. Dacă 15 salariaţi primesc
acest salariu rezultă că frecvenţa de apariţie a valorii 700 RON este 15.

Noţiuni de bază despre introducerea


şi analiza statistică folosind SPSS

Aplicaţia SPSS („Statistical Package for the Social Sciences” – „pachet de


programe statistice aplicate ştiinţelor sociale”) a fost elaborată în anul 1965 de către
Universitatea Stanford din California.
 Programul SPSS (Statistical Package for the Social Sciences) este unul
dintre cele mai utilizate în analiza statistică a datelor şi a evoluat până la versiunea 20,
aria de aplicabilitate extinzându-se de la versiune la versiune, odată cu modul de
operare şi cu facilităţile oferite. Programul este utilizat în foarte multe domenii: în
marketing, cercetare experimentală, educaţie, sănătate etc. În afară de analizele
statistice posibile, programul are componente puternice pentru managementul datelor

10
(selectare, reconfigurare, creare de date noi) şi pentru documentarea datelor (există un
dicţionar metadata, care reţine caracteristici ale datelor). Se mai poate adăuga
flexibilitatea privind tipurile de date acceptate ca şi modul de construire a rapoartelor.
I.1. Accesarea SPSS-ului.

SPSS-ul for Windows este accesat în general prin folosirea butoanelor şi


meniurilor folosind pentru aceasta clicuri ale mouse-ului. Astfel, cea mai rapidă
modalitate de învăţare este de a urma paşii prezentaţi şi capturile de ecran.
Pasul 1:
Se dă dublu clic pe imagine
– dacă imaginea nu apare pe
ecran atunci accesaţi „Start”
→Programe→IBM SPSS Statistic 19.

Pasul 2:

Această fereastră va apărea


după câteva momente şi se
pot alege oricare dintre
opţiunile din fereastră.

(Fereastra se numeşte „Data Editor”.


Fereastra de editare (Data Editor) se deschide
implicit la lansarea SPSS şi este folosită
pentru introducerea, modificarea sau ştergerea
datelor în format spreadsheet. Într-o fereastră
de editare poate fi prezentat conţinutul unui
fişier de date care a fost selectat dintr-o
listă de fişiere creat anterior (în SPSS, Excel,
Statistica etc.) sau poate fi creată o nouă foaie
de lucru. Această fereastră recunoaşte fişierele de date care au extensia implicită .sav.
În fereastra Data Editor sunt afişate datele de lucru. Acestea sunt aranjate în format tabel
(spreadsheet), care conţine coloane şi linii. La intersecţia acestora sunt celulele (casetele, căsuţele) în
care se introduc datele. La un moment dat este activă (curentă) o singură celulă, cea în care este
plasat cursorul. Celula curentă este scoasă în evidenţă printr-un chenar îngroşat. Trecerea de la o

11
celulă la alta se realizează prin clic de mouse în noua celulă sau de la tastatură cu ajutorul tastelor de
control (taste săgeţi, Page Up, Page Down).

I.2. Introducerea datelor.

Pasul 3:
Aceasta este fereastra Data Editor a SPSS-ului şi este un spaţiu de lucru cu linii
şi coloane în care pot fi introduse datele.

Coloanele sunt folosite pentru a


desemna diferite variabile.

Liniile sunt cazurile sau indivizii


despre care se deţin date.

Pasul 4:

Pentru a introduce date in SPSS


se selectează una dintre celule şi se dă
clic pe celula respectivă.

* În SPSS există întotdeauna o singură celulă


selectată.

Pasul 5:

Se introduce un număr folosind tastatura


calculatorului. La apăsarea tastei „Enter”
sau la selectarea cu mouse-ul a unei alte
celule numărul va fi introdus în foaia de
lucru la fel cum este arătat în figură.
12
Valoarea 5 este înregistrarea pentru primul
rând (primul caz) al variabilei VAR00001.

 Se observă că această variabilă a primit automat un nume standard. Pentru a


efectua schimbarea se dă clic pe numele variabilei.

Pasul 6:

Corectarea erorilor se face folosind mouse-ul:


se selectează celula unde este eroarea şi se
introduce valoarea corectă.
Atunci când este apăsată tasta „Enter”
sau se deplasează cursorul pe o altă celulă,
valoarea corectată va fi introdusă.

I.3. Salvarea datelor.

Pasul 7:
Selectând „File”→ „Save As” datele se vor
salva sub forma unui fişier. Fişierul salvat
va primi automat de la SPSS extensia „.sav”.
* Se recomandă folosirea unor nume
de fişiere distincte (ex. date1) pentru
a face conţinutul lor cât mai clar. Salvarea
datelor este recomandat să se facă într-un fişier
diferit de cel al SPSS-ului.

Pasul 8:
Pentru a alege locaţia unde va fi salvat
fişierul de date, se alege calea în mediul
„Save In” (se foloseşte săgeata pentru a
ajunge la locaţia dorită).
Salvarea unui fişier se realizează prin pictograma
Save din bara de instrumente Standard sau cu
ajutorul comenzilor Save sau Save As şi meniul
File. Aceste comenzi deschid fereastra Save Data

13
As în care se pot stabili: numele fişierului
(File name); tipul fişierului (Save as type);
locaţia în care să aibă loc salvarea (Save In).

Folosirea „Variabilei View” pentru crearea şi etichetarea variabilelor

Pasul 9:
Apăsarea meniului „Variable
View”, situat în josul paginii,
schimbă fereastra „Data View”
(spaţiul de lucru pentru introducerea
datelor) în altă fereastră în
care pot fi introduse informaţii
despre variabilele create.

14
Pasul 10:
Acesta este spaţiul de lucru „Variable View”. În acest caz, o variabilă este deja
înscrisă fiind introdusă la pasul 8. Variabila poate fi redenumită şi pot fi adăugate alte
variabile selectând celula corespunzătoare şi tastând numele variabilei.

Aici se modifică Aici se modifică


lăţimea coloanei. numărul de zecimale.

Pasul 11:
La versiunea SPSS 19 nu există
limită pentru lungimea numărului
unei variabile.
Se selectează o celulă din coloana
„Name” şi se scrie un nume diferit
de variabilă. Celelalte variabile vor
primi valori care vor fi implicit
schimbate ulterior.

Acesta este numărul de zecimale care va apărea pe ecran.

*La editarea unei variabile trebuie să se ţină cont de următoarele restricţii: numele variabilei să fie
unic, primul caracter să fie o literă, sa nu conţină simboluri speciale folosite în SPSS sau spaţi

15
Pasul 12:
Apare acest buton:
se dă clic pe el.

Pasul 13:

Va apărea această fereastră. În


continuare se vor urmări paşii
care vor arăta cum genul biologic
„masculin” şi „feminin” este introdus
folosind codul „1” (masculin)
respectiv „2” (feminin).

Pasul 14:

Se scrie „1” în dreptul


câmpului „value”
şi „masculin” în dreptul
câmpului „value Label”.

Apoi se apasă „Add”.

Pasul 15:

Aceasta operaţie de adăugare


transferă informaţia în câmpul
aflat dedesubt.
* La fel se procedează şi pentru
introducerea celeilalte variabile

16
* Cele mai frecvent utilizate ferestre in SPSS sunt „data Editor”, „Syntax Editor” şi „Output
Viewer”, „Pivot Table (Pivot Table Editor)”, “Chart Editor”.
Fereastra de sintaxă (Syntax Editor) este folosită pentru a genera programe de comenzi pe care
le vom executa asupra datelor (exemplu: calculul unor noi variabile). Opţiunile selectate în casetele
de dialog sunt afişate în fereastra de sintaxă sub formă de comenzi. Aceste ferestre îi sunt specifice
fişierele de tip .sps.
Fereastra de rezultate (Output Viewer) devine disponibilă automat după ce a fost efectuată o
comandă de analiză a datelor. În această fereastră, sunt afişate rezultatele statistice, tabele şi grafice
care au asociate ferestre distincte. Fereastra de editare a rezultatelor (Text Output Editor) este folosită
pentru modificarea textului rezultat, care nu a fost afişat în tabele pivot.
* Fereastra de rezultate (Output Viewer) devine disponibilă automat după ce a fost efectuată o
comandă de analiză a datelor. În această fereastră, sunt afişate rezultatele statistice, tabele şi grafice
care au asociate ferestre distincte. Fereastra de editare a rezultatelor (Text Output Editor) este folosită
pentru modificarea textului rezultat, care nu a fost afişat în tabele pivot. Toate rezultatele obţinute din
analizele statistice sunt afişate în fereastra Output Viewer. Această fereastră se aseamănă cu fereastra
Windows Explorer şi se deschide doar dacă s-au lansat comenzi din meniurile Statistics sau Graphs.
Fereastra Output Wiewer este structurată în două cadre/zone. Cadrul din stânga (cuprinsul/structura)
prezintă, sub forma unei schiţe, obiectele conţinute în fereastră. Elementele din schiţă se referă la
titlu, note şi denumirea rezultatelor statistice propriu-zise.
Fereastra Pivot Table (Pivot Table Editor) oferă multiple posibilităţi de modificare a tabelelor
pivot: editare text, schimbarea datelor din rânduri şi coloane, adăugarea de culori, crearea unor tabele
multidimensionale, ascunderea sau afişarea selectivă a rezultatelor.
Fereastra de editare a graficelor (Chart Editor) permite modificarea elementelor unui grafic (axe,
scale, diagramă, legendă etc.)

Exemplu de calcul statistic.

Pasul 16:
Pentru a calcula media de
vârstă se urmăresc următoarele
etape:
-se dă clic pe „Analyze”;
-Se selectează „Descriptive
statistics”;
-Se selectează „Descriptive…”

17
Pasul 17:

Se selectează „atenţie”.
Se apasă butonul ► pentru a
muta „atentie” în căsuţa
„Variable(s)” cu ajutorul săgeţii.
Se dă clic pe „OK”.

Pasul 18:
Fereastra „Data Editor” este înlocuită de output-ul SPSS-ului. Acest tabel apare
pentru analiza realizată anterior.

Media scorului pentru atenţie este încercuită.


*Ferestrele în SPSS reprezintă zone de pe ecran tratate ca elemente de sine stătătoare, cu
caracteristici proprii, care determină acţiunile ce se pot executa în cadrul lor.

18
CURS II
SCALE DE MĂSURARE

Gruparea statistică reprezintă prima sistematizare a unor date individuale care


au fost obţinute în urma unei observări. Sistematizarea datelor se face în scopul
identificării fenomenelor de care aparţin aceleiaşi esenţe social-economice şi prezintă
o serie de proprietăţi comune.
Prin prelucrarea statistică se înţelege etapa cercetării statistice în care se trece de
la datele individuale obţinute în etapa observării pentru fiecare unitate a colectivităţii,
la indicatori care caracterizează colectivitatea în întregul ei.
Nivelul nominal de măsurare (clasificare) şi nivelul ordinal (de rang sau
ierarhic) se grupează în scala neparametrică de măsurare.
Nivelul de interval (intervale egale) şi nivelul de raport (proporţii) formează
scala parametrică de măsurare.

Raport

Parametric

Interval
Cuantificare

Ordinal

Neparametri
c
Nominal

Reprezentarea schematică a nivelurilor de


măsurare
Figura Nr. 1. Reprezentarea schematică a
nivelurilor de măsurare (Figura 1).(după
Opariuc, 2009). 19
II.1. SCALE NEPARAMETRICE

II.1.1. Scala nominală (de clasificare)

Reprezintă primul nivel de măsurare şi constă în clasificarea obiectelor în


funcţie de existenţa sau inexistenţa unei caracteristici. Această clasificare presupune
existenţa unor categorii disjuncte, astfel încât fiecare obiect să-şi găsească locul într-o
categorie şi numai în una. (Opariuc, 2009 apud Vasilescu, 1992).

Scala nominală este cunoscută şi sub numele de scală calitativă, categorială sau
de clasificare, este cel mai simplu tip de scală şi presupune doar diferenţierea calitativă
a fenomenelor şi a obiectelor măsurate. Scala nominală constă în categorii care permit
clasificarea (sortarea) obiectelor sau fenomenelor după o caracteristică sau un atribut.

O măsurare pe scală nominală înseamnă „plasarea obiectelor în difeite clase


(categorii), situaţie în care, o valoarea nu este cu nimic mai mare sau mai mică decât o
altă valoarea (Popa, 2008, p. 29).

Exemplu: Categoria profesională, sexul, tipul bio-constituţional etc.


Pentru ca scala să aibă sens, trebuie să existe cel puţin două categorii.
O variabilă nominală cu două categorii poartă numele de dihotomie sau
clasificare dihotomică.
Exemplu: Împărţirea subiecţilor în bărbaţi şi femei.
Dacă există mai multe categorii, vorbim despre polihotomii sau clasificări
multiple (polihotomice).
Exemplu: Împărţirea în funcţie de profesie, culoarea ochilor sau a părului, grupa
sanguină, etc.

20
Observaţie: Variabilele care sunt măsurate pe scale de tip nominal, pun în evidenţă
diferenţele calitative între valori!

Proprietăţile scalei nominale:


 Transformările permise la nivelul acestei scale sunt (Vasilescu, 1992):

o Redenumirea – atribuirea unor noi nume (în loc de masculin/feminin


putem spune bărbat/femeie);

o Permutarea – schimbarea ordinii elementelor, deoarece nu se poate


stabili o ierarhe între valorile unei variabile pe această scală. Această
proprietate este caracteristică doar scalei nominale.

Operaţii statistice permise – în principal operaţiile de bază, derivate din


numărare, astfel (Opariuc, 2009 , p. 24).
o Frecvenţa absolută şi relativă (procentul), câte observaţii au fost incuse
în fiecare categorie (de exemplu 50 de bărbaţi şi 50 de femei sau 50%
bărbaţi şi 50% femei);

o Valoarea modală (modul), categoria cu frecvenţa cea mai mare (de


exemplu din 100 de subiecţi, 80 au ochi albaştri, aceasta fiind categoria
cu frecvenţa cea mai mare – modul);

Exemplu: Alegem cele 4 tipuri de temperament pe care le codificăm astfel:

Coleric 1
Sangvinic 2
Melancolic 3
Flegmatic 4

21
Observaţie: Între toate categoriile (gradaţiile) unei scale nominale nu există
relaţie de ierarhie, ordinea prezentării lor fiind indiferentă, lipsită de importanţă din
punctul de vedere al consistenţei scalei (utilizarea codificării poate crea iluzia unei
ierarhii (1 este mai mic decât 2 etc.), dar aceasta este doar o iluzie, utilizată uneori în
scopuri de manipulare).
Ne propunem să caracterizăm 150 de indivizi după apartenenţa la un tip de temperament.
După investigaţie, rezultă 32 de colerici, 48 de sangvinici, 37 melancolici, 33 de flegmatici. Potrivit
codificării date pot fi prezentate astfel:

TIP TEMPERAMENTAL NUMĂ R DE INDIVIZI


1 32
2 48
3 37
4 33

Ansamblul numerelor din coloana a II-a se numeşte distribuţie de frecvenţe a


tipurilor temperamentale în grupul studiat. Fiecare număr constituie frecvenţa absolută
a diviziunii respective a scalei notată ni.

Definiţie: Frecvenţa absolută indică numărul total de unităţi statistice.


Definiţie: Frecvenţa relativă indică proporţia din numărul total de unităţi
care se încadrează în grupă.

n*i =

22
II.1.2. Scala ordinală (de rang sau topologică)

Reprezintă al doilea nivel de măsurare şi constă în ierarhizarea în funcţie de


mărimea unei caracteristici, fără însă a se putea preciza cu cât un nivel ierarhic este
superior sau inferior altuia şi nici de câte ori. (Opariuc, 2009, p. 35)

Scala ordinală este cunoscută şi sub numele de scală de ordine, de rang, scală
ierarhică. O scală ordinală permite ordonarea observaţiilor, persoanelor, situaţiilor de
la mic la mare, de la simplu la complex, atunci când în empiricul relativ se introduc,
pe lângă relaţiile de echivalenţă şi relaţiile de ordine.

Spre deosebire de scala nominală (ale cărei proprietăţi le include), scala ordinală
permite stabilirea unei relaţii de ordine între date.

Observaţie: În cazul scalelor ordinale se poate stabili ierarhia a „n” gradaţii ale
variabilei, dar nu se poate preciza valoarea diferenţei dintre două gradaţii.
Valorile de tip ordinal, ne spun dacă o valoare este mai mare sau mai mică decât alta,
dar este limitată la raportul de măsime, adică, nu ne poate preciza care este diferenţa
de cantitate a caracteristicii măsurate.
Crearea unei scale ordinale presupune, cu prioritate, stabilirea unei relaţii de
ordine între valorile posibile ale variabilei studiate.

Proprietăţile scalei:

Proprietăţile specifice scalei ordinale le includ pe cele ale scalei nominale, dar
se adaugă (Vasilescu, 1992):

 Operaţii statistice permise:

o Frecvenţa sumelor în valori cumulate şi procentuale;

23
o Coeficienţi de corelaţie de rang: Spearman, sau Kendall.

Ordinea este de la simplu la complex. Prin această scală putem caracteriza


manifestările unei persoane în funcţie de gradul de saturare motivaţională.

Observaţie: Dacă se neglijează ordinea dintre categorii, datele obţinute în urma


utilizării unei scale de măsură ordinale sunt identice, din punct de vedere formal, cu
datele nominale.
Pentru a realiza ordonarea datelor prezentate sub formă de tabel calculăm şi
frecvenţele cumulate.
Definiţie: Frecvenţa cumulată pentru o categorie este suma tuturor frecvenţelor
anterioare plus frecvenţa curentă.
Cuvântul „anterior” se referă la sensul de parcurgere a categoriilor scalei
ordinale. Dacă parcurgerea se face de la categoriile mici spre cele mari, se
formează frecvenţe cumulate ascendent (crescător). Dacă parcurgerea se face de la
categoriile mari spre cele mici se formează frecvenţe cumulate descendent
(descrescător).

Observaţie: Se pot prezenta sub formă de frecvenţe cumulate atât frecvenţele


absolute cât şi cele relative.

Fci = frecvenţe absolute cumulate

F*ci = frecvenţe relative cumulate

Fci = (3) F*ci = (4)

Exemplu: Să presupunem că analizând produsele creative dintr-o anumită zonă


geografică, pe o anumită perioadă de timp, s-a obţinut următoarea distribuţie de
valori pe scara Taylor.

24
Scara Taylor privind clasificarea creativităţii după criteriul efectivităţii
comunicării:

1. creativitate expresivă;
2. creativitate productivă;
3. creativitate inventivă;
4. creativitate inovatoare;
5. creativitate emergentă.

Frecvenţa Frecvenţa Frecvenţa Frecvenţa


Frecvenţa

Frecvenţa

absolută absolută relativă relativă


absolută

relativă
creativ

cumulată cumulată cumulată cumulată


Nivel

ascendent descendent ascendent descendent


1 75 47,8 75 157 47,8 100

2 52 33,1 127 82 80,9 52,2

3 20 12,7 147 30 93,6 19,1

4 6 3,8 153 10 97,1 6,4

5 4 2,6 157 4 100 2,6

T 157 100

Reprezentările grafice ale datelor ordinale trebuie să reflecte proprietatea de


ordonare specifică scalei, să denote faptul că scala de măsură este discretă şi se
sugerează cât mai puţin luarea în considerare a distanţei dintre categoriile scalei.

Din aceste considerente utilizăm diagramele sub formă de bare verticale.


Vizualizările pot să aibă drept obiect atât frecvenţele absolute cât şi cele relative.

25
II.2. SCALE PARAMETRICE

II.2.1. Scala de interval (intervale egale)

Reprezintă a treilea nivel de măsurare şi derivă din scala ordinală, la care se


adaugă proprietatea că, intervalele dintre un nivel de valori şi altul sunt egale. Este un
tip de măsurare în care distanţele dintre treptele scării sunt distanţe egale sub aspectul
cantităţii caracteristicii de măsurat. (Opariuc, 2009, p. 37)
Scala de interval are proprietăţile scalei ordinale, dar intervalul dintre două
variante este exprimat în termenii unei unităţi de măsură fixe. Prin aceasta operaţia de
măsurare a observaţiilor pe o scală de intervale determină cantitatea exactă de
caracteristică existentă în observaţii.
Exemplu: temperatura măsurată pe o scală Celsius: dacă într-o zi se măsoară 10
grade, iar a doua zi se măsoră 20 de grade, se poate spune cu precizie că a doua zi a
fost cu 10 grade mai cald.
O caracteristică a valorilor măsurate pe scala de interval este „absenţa unei
valori zero absolut” (Popa, 2008). Din acest motiv, nu se poate spune că temperatura
de 20 de grade este de două ori mai mare decât temperatura de 10 grade.

O variabilă măsurată pe o scală de interval oferă informaţii atât la ordinea de


mărime cât şi la marimea exactă a caracteristicii măsurate (Popa, 2008).
Realizarea unei scale de interval presupune parcurgerea mai multor etape:
1. Se calculează amplitudinea variaţiei caracteristicii
Numim amplitudine de variaţie (Range) diferenţa dintre valoarea maximă
şi valoarea minimă a distribuţiei de date. (A = Max – Min).
A xmax - xmin (5)
2. Se stabileşte numărul de grupe „r” în care vor fi sistematizate datele

26
Observaţie : Se recomandă utilizarea unui număr moderat de grupe (între 4 şi 10).

3. Se calculează mărimea aproximativă a intervalelor de grupare:

h = (6)

4. Se stabilesc intervalele de grupare pornind de la xmin (sau de la o valoare


mai mică).
xmin+h; xmin+2h; … ; xmin+rh

Fie că desfăşurăm o evaluare psihologică, un experiment sau o cercetare


experimentală, fie că iniţiem un proces de colectare a datelor prin observaţie, rezultatul
constă într-o colecţie de date brute. La acest nivel nu avem nici o modalitate prin care
putem trage concluzii asupra semnificaţiei datelor pe care le avem la dispoziţie.
(Opariuc, 2009).

De aceea, prima etapă în iniţierea unei proceduri statistice de analiză a datelor


constă în clasificarea, ordonarea, condensarea acestora în vederea conturării unei
imagini cât mai precise. (idem)

Valorile măsurate trebuie aşezate într-o anumită ordine (crescătoare sau


descrescătoare) care să permită şi o eventuală reprezentare grafică a acestora.

Exemplu: Următoarele date reprezintă cheltuielile pentru cumpărarea unbui


produs (ron), cheltuieli efectuate de 25 de familii într-o săptămână: 222, 284, 321, 248,
235, 265, 254, 312, 321, 298, 274, 286, 312, 288, 286, 245, 222, 234, 238 ,254, 265,
231, 254, 233, 265.

Xmin = 221

Xmax = 321.

A = Xmax- Xmin = 321 – 221 = 100

27
r=4

h=

Intervale Frecvenţă
221 - 246 8
246 - 271 8
271 - 296 5
296 - 321 4

Proprietăţile scalei (Vasilescu, 1992):

 Operaţii statistice permise:

o Calculul mediei aritmetice, abaterii standard, boltirii şi simetriei


(indicatorii statistici sunt prezentaţi la capitolul IV);

o Statistici parametrice: testul „t” Student, „F” – Fisher, analiza de


varianţă;

o Toate tipurile de corelaţii: r-Pearson, raport de corelaţie (R),


coeficientul de regresie (b)

28
II.2.2. Scala de raport (proporţii)

Ultimul nivel de măsurare şi este reprezentat de scala de raport care are toate
caracteristicile unei scale de interval la care se adaugă existenţa unui zero absolut.
Această scală permite să răspundem la întrebarea „de câte ori”, deoarece existenţa unui
zero absolut face posibilă compararea proporţiilor.(Opariuc, 2009, p. 38)

Scala de raport are proprietăţile scalei de interval, iar raportul dintre două
puncte ale scalei după care unităţile sunt clasificate are semnificaţie, indiferent de
unitatea de măsură utilizată în stabilirea scalei.

Pe scala de raport numerele oferă nu numai informaţii asupra ordinii de rang


a obiectelor (şi a mărimii relative a diferenţelor) ci şi despre relaţiile rapoartelor.
Exemplu: dacă un subiect are greutatea de 80 de kilograme iar un altul are
greutatea de 160 kilograme, putem spune că al doilea subiect este cu 80 de kilograme
mai greu decât primul, dar şi că al doilea subiect este de două ori mai greu decât
primul, ambele afirmaţii având sens.

Exemplu: - Rata lunară a şomajului;


- cursul valutar zilnic al leului în raport cu euro.
Proprietăţi ale scalei:
 Sunt permise toate operaţiile statistice, inclusiv calculul mediei geometrice şi
al coeficientului de variaţie.

29
Descrierea variabilelor.
Tabele şi diagrame.

Frecvenţa procentuală.

Pentru realizarea unui tabel de frecvenţă este necesară o coloană căreia i se va


da un nume.

Pasul 1:

Se defineşte variabila.

Se etichetează valorile variabilei.

Valorile pentru specializare se definesc


aşa cum este descris în paşii 13-15 din
capitolul I.

Pasul 2:

Se selectează:
„Analize”,
„Descriptive Statistics”
„Frequencies…”

30
Pasul 3:

Se selectează specializare şi se mută


în partea dreaptă a tabelului
(procedeul a fost descris la pasul 17
din capitolul I).

Se apasă „OK”

Pasul 4:

1. Prima coloană a tabelului conţine eticheta celor 4 categorii de specializări.

2. A doua şi a treia coloană afişează


Frecvenţa absolută şi relativă pentru 3. A patra coloană afişează
fiecare categorie. frecvenţa excluzând valorile lipsă
Exemplu: 3 (jurnalism) reprezintă * Deoarece nu sunt valori lipsă,
procentajul 30% din totalul de este acelaşi ca în coloana a treia.
10 specializări.

4. A cincea coloană adună procentele în josul tabelului. (reprezintă


frecvenţa relativă cumulată ascendent).

 În ceea ce priveşte raportarea rezultatelor se prezintă numai etichetele categoriale, frecvenţele


şi frecvenţele procentuale.

31
Diagrama circulară pentru date categoriale.

Pasul 1:

Se selectează:
„Graphs”
„Legacy dialogs”
„Pie”.

Pasul 2:

Se selectează „Define”.

Pasul 3:

Se selectează „specializarea”
şi se transferă prin apăsarea
butonului ►(◄) în rubrica
„define slices by”.
Se apasă „OK”.

Diagrama Pie este un cerc divizat


în sectoare. Fiecare sector de cerc
reprezintă o categorie, aria
acestuia fiind proporţională cu
numărul de cazuri din această

32
categorie a variabilei nominale.

Pasul 4:

Acesta este felul în care apare o diagramă


circulară folosind opţiunile din SPSS.
Sectoarele din cerc sunt codate cu diferite culori.

* Caracteristicile din această diagramă pot fi modificate


cu „Chart Editor”.

II.3. Adăugarea etichetelor unei diagrame circulare

Pasul 1:

Se dă dublu clic oriunde în dreptunghiul


care conţine diagrama, pentru a selecta
„Chart Editor”.

Se selectează:
„Elements”
„Show Data Labels”.

* Diagrama de structură „pie” este folosită


pentru reprezentarea frecvenţelor absolute
(numere) şi/sau relative (procente) pe
categorii/grupe.

33
Pasul 2:
Se selectează „Count” şi
„X”-ul roşu pentru a nu afişa.

Se selectează „specializare” şi săgeata


Verde curbată în sus pentru a afişa
denumirile specializărilor.

Se procedează asemănător pentru


„Procent” pentru a afişa procentajul
fiecărei specializări în parte.

Se selectează „Apply” şi „Close”.

Pasul 3:

Pentru a înlătura legenda,


se selectează „Options”
şi „Hide Legend”.

Diagrama circulară cu sectoarele


denumite şi frecvenţă procentuală afişată.

34
Diagrama cu bare pentru date categoriale.

Pasul 1:

Se selectează:
„Graphs”
„Legacy dialogs”
„Bar…”.

Pasul 2:

Selectaţi „Define”.
„Simple” este preselectat.

*Selectare unei alte variante se face prin


clic cu mouse-ul pe varianta respectivă.

Pasul 3:

Se selectează ocupaţia şi se apasă


butonul ► de lângă „Category
Axis” pentru a introduce acolo
specializarea

35
Se selectează „% of cases”.
Se apasă „OK”

Diagrama cu bare.

* Diagrama cu bare este folosită pentru a reprezenta grafic mediile diferitelor grupe dintr-o
colectivitate (Summaries for groups of cases) sau valorile medii ale diferitelor variabile pentru
aceeaşi colectivitate (Summaries of separate variables).
Diagrama Bar este folosită pentru a ilustra categoriile unei distribuţii în formă convenabilă.
Diagrama prezintă atâtea bare câte categorii are o variabilă. Barele au aceeaşi bază, egală cu unitatea,
iar înălţimea proporţională cu frecvenţa categoriei astfel încât aria fiecărei bare reprezintă numărul
cazurilor categoriei considerate.
Pentru a fi interpretat un grafic trebuie să conţină următoarele elementele:
- titlul graficului – oferă informaţii asupra fenomenului reprezentat (Titlul graficului coincide cu
titlul tabelului de date);
- axele de coordonate sunt folosite pentru a reprezenta variabilele. Pe abscisă se înscrie
variabila de distribuţie, iar pe ordonată frecvenţa.
- legenda – este folosită pentru a explica elementele din diagramă;
- sursa – precizează originea datelor reprezentate.

Histograme.
Pentru a ilustra procesul de realizare a unei histograme vom folosi datele
obţinute din răspunsurile subiecţilor la întrebarea „Vă place statistica?”. (răspunsuri: a.
foarte mult; b. mult; c. puţin d. foarte puţin; e. deloc).
Pasul 1:

Se introduc datele în „Data Editor”


(aşa cum a fost prezentat la
începutul capitolului).

Se selectează:
„Graphs”
„Legacy Dialog”
36
„Hitogram”

Pasul 2:
Se selectează întrebarea „Vă place
statistica?” şi se apasă butonul ►de lângă
„Variable” pentru a duce întrebarea în căsuţa
din dreapta.
Se apasă „OK”.

Histograma

* Pentru a schimba denumirile axelor se dă clic pe ele şi se editează.


* Histograma este folosită pentru a arăta forma unei distribuţii după o variabilă înregistrată
asupra unei colectivităţi (frecvenţa de apariţie pentru diferite clase de valori ale variabilei
observate).

Alte tipuri de grafice:


Line – diagrama liniară este folosită pentru a reprezenta de regulă valori medii.
Boxplot – diagrama „cutia cu mustăţi” este folosită pentru a prezenta amplitudinea, intervalul
intercuartilic şi mediana unei distribuţii.
Error Bar – diagrama „bara erorilor” este folosită pentru a arăta media şi intervalul de variabile.
Scatter – diagrama „norul de puncte” este folosită pentru a reprezenta relaţiile dintre încredere de
95% pentru media respectivă.

37
CURS 3

Relaţiile dintre două sau mai multe variabile.


Diagrame şi tabele.
________________________________________________________________________________________________________________

În foarte multe cercetări se studiază relaţiile dintre două sau mai multe
variabile. Procedurile statistice univariate (cu o singura variabilă) care au fost descrise
până acum pot fi utilizate pentru analiza oricăror date. Dar, cercetarea poate necesita
ca relaţiile şi corelaţiile dintre diferitele variabile să fie studiate.
La fel ca statistica univariată, statistica bivariată a datelor necesită studierea
tendinţelor fundamentale ale datelor utilizând tabele şi diagrame. Modelele de
prezentare a relaţiilor bivariate includ crearea tabelelor scatter.
O condiţie esenţială o constituie etichetarea tabelelor şi diagramelor şi
denumirea acestora.
În continuare se va ilustra elaborarea unui tabel de asociere şi a unei diagrame
cu bare.

Introducerea datelor.

În studiu sunt introduşi 11 copii instituţionalizaţi şi 9 copii neinstituţionalizaţi.


Dintre aceştia 9 au fost fete şi 11 au fost băieţi.
Pasul 1:
În „Variable View” din „Data Editor” se denumeşte:
- prima coloană „Instituţionalizare”
- a doua coloană „Genul biologic”;
- A treia coloană „Frecvenţa”.

38
Se înlătură cele două zecimal

Pasul 2:

Se etichetează cele două valori


ale instituţionalizării:
1 - instituţionalizat;
2 - neinstituţionalizat.
Şi genul biologic:
1. Feminin;
2. Masculin
*Paşii acestei proceduri au fost explicaţi în capitolul 1.

Pasul 3:
Se introduc aceste numere în „Data
View” din „Data Editor”.
Primul rând se referă la fetele care
au fost instituţionalizate: sunt în număr
de 5.
Al doilea rând se referă la băieţii
care au fost instituţionalizaţi:
sunt în număr de 6.
Al treilea rând se referă la fetele neinstituţionalizate: sunt în număr de 4.
Al patrulea rând se referă la băieţii neinstituţionalizaţi: sunt în număr de 5

Ponderea datelor

Pasul 4:

Pentru a pondera datele cu scopul


ca cele patru celule să conţină
numărul de cazuri corespunzător,
se selectează:
„Data”
„Weight Cases…”

39
Pasul 5:

Se selectează „Frecvenţa”,
„Weight cases by” şi apoi
se apasă butonul
►pentru transfer în
căsuţa
variabilei„Frequency
Variable”.Se apasă „OK”
VI.3. Crearea tabelelor de asociere (Crosstabs).

Pasul 6:

Se selectează:
„Analize”
„Descriptivesc statistics”
„Crosstabs…”.

Pasul 7:
Pentru a pune „instituţionalizare”
pe rândurile tabelului, se selectează
şi apoi se apasă butonul ►de lângă
eticheta „Row(s)”.

Pentru a pune „genul biologic” pe


coloanele tabelului, se selectează
şi apoi se apasă butonul ► de lângă
eticheta „Column(s).

Se apasă „OK”.

Pasul 8:

În tabel sunt
prezentate valorile
celor două variabile.
Se observă că sunt 5
fete şi 6 băieţi

40
instituţionalizaţi (în total 11) şi 4 fete şi 5 băieţi neinstituţionalizaţi (în total 9).
(N=20).

Tabelul de asociere este folosit pentru prezentarea relaţiilor dintre două variabile categoriale. În
fiecare celulă a tabelului este prezentată frecvenţa parţială (adică efectivul care poartă simultan o
valoare a fiecărei variabile).
Observaţie:
1. Dacă într-un crosstabs numărul categoriilor unei variabile este mai mare decât al alteia, atunci
categoriile acelei variabile se plasează pe rânduri.
2. O celulă din crosstabs oferă informaţia despre intersecţia celor două variabile. Pentru aceasta
alegem din fereastra Crosstabs butonul de comandă Cell ce are ca efect afişarea ferestrei
Crosstabs Cell Display.

Recodificarea variabilelor.

Aplicaţia SPSS poate recodifica valori în mod rapid şi cu uşurinţă, ceea ce îi


oferă cercetătorului o mare libertate de recodificare a datelor.
*Nu se modifică variabilele decât în cazul în care este absolut sigur că se doreşte modificarea
permanentă a datelor originare.
Scorurile abilităţilor muzicale şi matematice
obţinute de către un număr de 10 copii
Scor muzică Scor matematică Gen biologic Vârstă
3 7 1 10
7 5 1 9
8 4 2 12
9 4 1 8
9 5 2 11
6 8 2 13
4 9 2 7
3 9 1 10
4 7 2 9
7 6 1 11

* Scorurile abilităţilor muzicale şi matematice sunt aceleaşi care au fost prezentate anterior în
capitolul VIII.1.

Dorim să se realizeze corelaţia dintre valorile abilităţilor muzicale şi a celor


matematice, în cazul copiilor mici şi a celor mari. Pentru a realiza această corelaţie

41
este important să se stabilească numărul de grupe de vârstă dorite. În acest caz se vor
alege două grupe de vârstă: copii mai mici de 10 ani şi copii mai mari de 10 ani.
Recodificarea rezultatelor
Pasul 1:

Se introduc datele aşa cum este


prezentat în tabelul alăturat.
(Paşii de introducere a datelor
sunt prezentaţi în capitolele
anterioare).

Pasul 2:

Se selectează „Transform”,
„recode”
Şi „Into Different Variables”

Pasul 3:

Se selecteaă „Vârstă” şi se
apasă butonul ◄ pentru a
introduce „Vârsta” în
caseta „Numeric Variable
– Output variable”.
Se introduce numele noii
variabile.
Se selectează „Change”
pentru a adăuga acest nume Se selectează „Old and New values”.
nou în caseta „Numeric variable
– Output Variable”.

42
Pasul 4:

Se selectează „Lowest
through” şi se scrie 9 în
caseta alăturată.

Se selectează „Value”
din meniul „new value”
şi se scrie 1 în căsuţa
alăturată.

Se selectează „Add” şi
se introduce „lowest
throught 9→1 „ în caseta
„Old→New”.

Pasul 5:

Se selectează
„Range: through
highest” şi se scrie
10 în caseta de
lângă el.
Se selectează
„value” şi se scrie
2 în caseta
alăturată.

Se selectează
„Add” şi se
introduce „10
through
Highest→2” în
caseta „Old→New”. Se apasă „OK” în ecranul care va reapărea.

43
Pasul 6:
Noua variabilă şi valorile sale sunt
afişate în meniul „Data View”.

 1 semnifică copii cu vârste mai mici de 10


ani
 2 semnifică copii cu vârste mai mari de
10 ani.

Pentru o astfel de recodificare se


deschide fereastra Recode into Different
Variables (din meniul Transform comanda
Recode) în care:
- se selectează variabila pe care dorim să o recodificăm din lista variabilelor din partea
stângă şi se mută în lista variabileor de recodat;
- se scrie numele noii variabile în caseta Name din zona Output Variable;
- se scrie în caseta Label eticheta noii variabile;
- se acţionează butonul de comandă Change pentru a se realiza modificarea.
Pentru a defini categoriile variabilei numerice acţionăm butonul de comandă Old and New
Values ce are ca efect deschiderea unei ferestre de dialog în care pentru a schimba o valoare
particulară într-o valoare nouă se introduce valoarea veche în caseta Old Value şi valoarea nouă în
caseta New Value şi se acţionează butonul Add.
De regulă se schimbă o valoare reală cu altă valoare reală. În acest scop selectăm butonul de
opţiuni Range. Casetele de editare sunt folosite pentru a stabili limita inferioară şi respectiv limita
superioară a intervalului dorit. Apoi se selectează butonul de opţiuni Value din zona New Value în
care se introduce noua valoare şi acţionăm butonul Add.
Prin clic pe butonul de comandă Continue se revine în fereastra Record into Different
Variables în care acţionăm OK pentru recodificarea variabilei.

CURS 4
INDICATORI STATISTICI

44
Noţiunea de indicator şi funcţiile indicatorilor

Cercetarea statistică a fenomenelor şi proceselor socio-economice are ca


obiectiv principal analiza aspectelor cantitative nemijlocit sesizabile pentru a afla şi
caracteriza esenţa şi calitatea acestora.

Definiţie: Indicatorul statistic reprezintă expresia numerică a unor fenomene


şi procese social-economice, definite în timp, spaţiu şi structură organizatorică.17

Indicatorii statistici pot fi primari sau derivaţi.

Indicatorii primari exprimă direct nivelul real de dezvoltare a caracteristicii


cercetate, caracterizând fenomenul/procesul la modul cel mai general din punct de
vedere cantitativ. Ei rezultă în urma observării şi centralizării statistice a datelor
individuale de masă, fie prin înregistrarea curentă, fie prin însumare parţială sau totală
a datelor individuale de acelaşi fel.

Indicatorii derivaţi se obţin prin prelucrarea mărimilor absolute ale


indicatorilor primari. Prelucrarea se face prin comparare, abstractizare, generalizare şi
alte procedee de calcul statistic.

Compararea se face prin diferenţă sau prin raport. Prin diferenţă se compară
numai indicatorii absoluţi cu acelaşi conţinut şi exprimaţi în aceeaşi unitate de măsură.
Prin raport se pot compara indicatorii cu acelaşi conţinut sau conţinut diferit, dar aflaţi
în relaţie de interdependenţă.

INDICATORI AI TENDINŢEI CENTRALE

17
Benţea, M, Munteanu, G , 2007 – Elemente de statistică economică şi socială, Ed. “Andrei Şaguna”, Constanţa,p. 59

45
Indicatorii tendinţei centrale sunt indicatori sintetici cu ajutorul cărora se
exprimă într-o singură măsură ceea ce este tipic, esenţial, stabil, obiectiv şi
caracteristic într-o serie de date numerice.

Un indicator al tendinţei centrale trebuie să îndeplinească următoarele


condiţii:

 să fie definit în mod precis şi obiectiv, eliminând aprecierea subiectivă a


cercetătorului;
 să fie expresia tuturor observaţiilor făcute;
 să nu aibă caracter matematic prea abstract şi să posede proprietăţi simple
şi evidente;
 să poată fi calculat cu uşurinţă;
să fie cât mai puţin afectat de fluctuaţiile de selecţie (la extragerea mai
multor eşantioane dintr-o colectivitate generală, mediile să nu fie sensibil diferite).
Indicatorii fundamentali ai tendinţei centrale sunt: media aritmetică, modul şi
mediana.

Media aritmetică ( )

Considerăm că termenul de medie este cel mai uşor de înţeles din întreaga
statistică.

Au fost nenumărate situaţiile în care am întâlnit media: media la fizică pe


trimestru sau semestru să vedem dacă am rămas corigenţi sau am luat premiu, media

de la bacalaureat care ne ridică sau ne coboară şansele de admitere la facultate, la fel


ca şi media anilor de studiu sau media cheltuielilor zilnice care ne ajută să ne
planificăm mai bine bugetul. (Opariuc, 2009)

46
Deci ce este media? Media aritmetică este indicatorul care se utilizează cel
mai frecvent pentru caracterizarea tendinţei centrale.

Media reprezintă valoarea care înlocuind toţi termenii unei serii nu modifică
nivelul totalizator şi se calculează ca suma valorilor unei variabile raportată la numărul
măsurătorilor. Aceasta este media aritmetică (Opariuc, 2009, p. 75), deoarece în
statistică mai discutăm şi de media geometrică, media caracteristicilor alternative,
media pătratică, media rangurilor etc. Aceste concepte le întâlnim însă mai rar în
domeniul ştiinţelor socio-umane şi prin urmare nu vom face decât să le amintim.
Media este un model ipotetic , un model statisatic care reprezintă tendinţa, direcţia
spre care connverg datele (ibidem).

(1) - pentru serie simplă

Exemplu: Vârsta a 7 studenţi de la facultatea de psihologie este de 25, 26, 32, 33, 40,
22, 26, 24. Vârsta medie este :

Modul (M0 )

47
Modul este categoria cu frecvenţa cea mai mare, el reprezintă valoarea cel
mai des întâlnită într-o serie statistică sau cea care are cea mai mare frecvenţă de
apariţie. Modul se mai numeşte şi dominanta seriei sau valoarea modală.

Grafic, într-o histogramă ori poligon al frecvenţelor el reprezintă valoarea de pe


abscisă corespunzătoare vârfului reprezentării.
În cazul datelor cantitative, în determinarea modului se ţine cont de felul în care

acestea au fost sistematizate.

Pentru o serie statistică simplă de forma valoarea


modală, M0 = 32.

Pentru o serie de distribuţie de frecvenţe alcătuită după o variabilă cantitantivă


discretă, determinarea modului se face prin identificarea valorii căreia îi corespunde
frecvenţa maximă.

În cazul seriilor de distribuţie de frecvenţe pe intervale de variaţie, determinarea


modului presupune mai întâi identificarea intervalului cu frecvenţă maximă:

unde:

reprezintă limita inferioară a intervalului modal;


reprezintă mărimea intervalului modal;
d1 = diferenţa dintre frecvenţa intervalului modal şi a celui precedent;
d1= ;
d2 = diferenţa din frecvenţa intervalului modal şi a celui următor;
d2 = ;
Dacă d1 = d2 atunci modul va fi egal cu centrul intervalului modal.

48
O serie de date statistice poate să aibă una sau mai multe valori modale. O
distribuţie cu un singur mod se numeşte unimodală, dacă are două valori dominante se
numeşte bimodală, iar dacă are mai mult de două moduri se numeşte multimodală.

Mediana (Me)

Mediana este o altă măsură a tendinţei centrale şi reprezintă valoarea care


împarte şirul de măsurători în două părţi egale; jumătate din şirul de date va
avea valori mai mici decât mediana în timp ce cealaltă jumătate va avea valori
mai mari decât mediana (Opariuc, 2009, p. 79).
Mediana prezintă valoarea/varianta din mijlocul unei serii de date, serie în care
observaţiile au fost ordonate crescător (sau descrescător). Mediana este situată în
centrul (mijlocul) seriei.
Mediana poate fi folosită în caracterizarea tendinţei centrale pentru o serie de
date măsurate pe o scală ordinală. Mediana ia în considerare doar poziţia observaţiilor
în serie, nu şi magnitudinea lor efectivă.

Pentru a determina mediana introducem noţiunea de ranguri, adică, numere de


ordine asociate observaţiilor (cea mai mică – rang 1; cea mai mare – rang n).

Locul medianei (LocMe) va fi rangul unităţii din mijlocul distribuţiei.

LocMe =

Pentru seriile simple la determinarea valorii din mijloc trebuie să luăm în


consideraţie situaţiile:

a) Dacă n este un număr impar


- pentru date cantitative mediana este exact valoarea din mijlocul seriei

49
Exemplu: În cazul unui şir impar, mediana este valoarea de la mijlocul unui şir. Dacă
reluăm exemplul anterior, şi mai adăugăm un scor, obţinem:

20, 17, 14, 9, 18, 15, 19

Şirul are 7 valori. Ordonând crescător şirul de mai sus, obţinem:

9, 14, 15, 17, 18, 19, 20

De data aceasta, la mijlocul acestui şir găsim valoarea 17, valoarea medianei.

Observăm că n = 7.

LocMe = =

LocMe =4 → a 4-a valoarea din şirul de numere ordonate crecător sau


descrescător reprezintă mediana → Me =17
Ordonând un şir, putem preciza poziţia fiecărui element în cadrul acelui şir.

Altfel spus, mediana nu este altceva decât poziţia rangului din mijloc în şirul
ordonat de date. Într-o serie de la 1 la 7, pozi ţia din mijlocul şirului este evident, poziţia 4.
Acesta este de altfel şi locul în care găsim mediana.
Scoruri: 9, 14, 15, 17, 18, 19, 20

Poziţia: 1, 2, 3, 4, 5, 6, 7
b) Dacă n este un număr par, există două valori situate în mijlocul
seriei.
- dacă datele sunt cantitative, mediana este media celor două valori din
mijloc

50
Exemplu: Se consideră următorul şir de date:
20, 10, 15, 18, 21, 22

Pentru a calcula mediana, primul pas este acela de a ordo na crescător sau
descrescător aceste date. Ordonând crescător şirul de mai sus, obţinem:

10, 15, 18, 20, 21, 22

Să se calculeze mediana.
Se ordonează datele crescător, astfel : 10, 15, 18, 20, 21, 22.

LocMe = = mediana se situează între a treia şi a patra

valoare din serie.

Me =

După definiţia medianei, în cazul nostru avem 6 valori. Prin urmare, mediana
va fi valoarea care împarte acest şir ordonat în două părţi egale. Fiind 6 valori,
mediana este situată la limita primelor 3 valori.
Deoarece şirul este un şir par, mediana se situează, în cazul nostru, între
valoarea 18 şi valoarea 20, mai precis la valoarea 19.

c. Pentru o serie de distribuţie de frecvenţe variate determinarea medianei


presupune calcularea mai întâi a frecvenţelor cumulate. Prima frecvenţă cumulată mai
mare decât (n+1)/2 (locul medianei) ne indică varianta mediană.

Exemplul 1: Pentru 80 de familii dintr-un bloc s-au sistematizat date privind numărul
membrilor de familie, rezultând distribuţia:

51
Numărul membrilor Numărul de familii Frecvenţe cumulate
de familie ni Fci
1 12 12
2 23 35
3 30 65
4 8 73
5 7 80
80

LocMe = adică, între a 40-a şi a 41-a familie prima frecvenţă cumulată

mai mare decât 40,5 este 65 varianta „trei membrii de familie” reprezintă varianta
mediană situată în mijlocul distribuţiei.

Pentru o serie de repartiţie de frecvenţe pe intervale de variaţie, mediana se va


încadra în intervalul median, primul interval cu frecvenţa cumulată mai mare decât
LocMe.

Exemplul 2: Se dă distribuţia:

Intervale ni Fci↑
10-20 20 20
20-30 10 30
30-40 10 40
40-50 15 55
LocMe =
50-60 25 80
; n = 90 60-70 10 90
Me =

52
unde:

- limita inferioară a intervalului median


hMe – mărimea intervalului median
Fc(Me-1) - frecvenţa cumulată a intervalului anterior celui median
nMe – frecvenţa absolută a intervalului median

Me = = 43,66

Me = 43,66

Mediana prezintă unele avantaje faţă de medie:

 este mai puţin afectată de valorile extreme, luând în considerare doar poziţia
valorilor nu şi magnitudinea lor efectivă;
 poate fi folosită într-o distribuţie pe intervale chiar şi în cazul în care primul
sau ultimul interval sunt deschise;
 este un indicator ce poate fi folosit şi pentru date ordinale;

Dezavantajele medianei:

 mediana nu poate fi supusă la fel de uşor calculelor algebrice;


 media este preferabilă în procesul de inferenţă statistică.

INDICATORI SINTETICI AI ÎMPRĂŞTIERII

AMPLITUDINEA ABSOLUTĂ (A)

53
Cuvântul „amplitudine” provine de la termenul englezesc „range” şi se calculează ca
diferenţa între nivelul maxim şi nivelul minim al caracteristicii.
A = xmax - xmin
Amplitudinea absolută are dezavantajul că poate fi influenţată de o singură valoare
aflată la extremitatea distribuţiei (Popa, 2008).

AMPLITUDINEA RELATIVĂ A VARIAŢIEI (A%)

Se exprimă în procente şi se calculează ca raport între amplitudinea absolută a


variaţiei şi nivelul mediu al caracteristicii.

A% =

Amplitudinea se foloseşte la controlul calităţii produselor prezentând


importanţă şi din punct de vedere metodologic, fiind folosit în prima fază a prelucrării
statistice la stabilirea numărului de grupe şi a mărimii intervalului de grupare.

QUARTIELE

Quartilele (Q) sunt percentile care împart distribuţia în patru segmente egale,
ele delimitând cele 25% din observaţii. Quartilele sunt în număr de trei: Q 1 (percentila
25), Q2 (percentila 50 sau mediana), Q3 (percentila 75).

Q1 – este cuartila inferioară;

Q2 – este egală întotdeauna cu mediana;

54
Q3 – este cuartila superioară;

Abaterea quartilă este dată de diferenţa dintre valoarea corespunzătoare


quartilei 3 şi valoarea corespunzătoare quartilei 1 (Popa, 2008).

Abaterea medie liniară ( )

Se mai numeşte variaţie medie, deviaţie medie, abatere absolută medie sau
abatere liniară medie şi se poate calcula atunci când media este un bun indicator al
tendinţei centrale. Acest indicator informează asupra modului în care se abat, în valori
absolute, rezultatele de la medie, acordând aceeaşi pondere tuturor variabilelor.
Abaterea medie se poate calcula pe date grupate sau pe date discrete. (Opariuc, 2009,
p. 123).

Se calculează ca medie aritmetică simplă sau ponderată a abaterilor termenilor


seriei de la media lor, luată în valoare absolută.

Dispersia (varianţa) unei caracteristici ( )

Atunci când putem utiliza media, un indicator frecvent este indicatorul


dispersiei sau indicatorul varianţei (atenţie, nu variaţie ci varianţă) notat cu sigma
pătrat pentru populaţie sau s2 în cazul unui eşantion.

Se calculează ca medie aritmetică simplă sau ponderată a pătratelor abaterilor


termenilor seriei faţă de media lor.
55
Abaterea medie pătratică (abaterea tip sau abaterea standard)

Se notează cu s în cazul unui eşantion sau cu sigma în cazul unei populaţii şi


o putem întâlni sub numele de abatere etalon, abatere tip, abatere pătratică medie.
Acest indicator este cel mai precis şi inteligibil pentru măsura gradului de împrăştiere

a rezultatelor în jurul tendinţei centrale şi contribuie la definirea distribuţiei normale.


Poate fi calculat şi dobândeşte semnificaţie numai atunci când poate fi calculată
media.

Abaterea patratică medie este radacina patrată din media aritmetică a pătratelor
abaterilor valorilor observate în raport cu media lor aritmetică 22
. Ea măsoară
modul în care rezultatele se împrăştie în jurul mediei, valorile mari indicând un grad
mare de împrăştiere. Cu alte cuvinte, abaterea standard este un indicator care ne arată
în ce măsură modelul statistic se potriveşte cu modelul real (Opariuc, 2009, p. 129).
Abaterile mici, indică faptul că valorile sunt uşor distanţate de medie, în
timp ce abaterile mari, arată că datele sunt distanţate, împrăştiate în jurul mediei, care,
nu mai este reprezentativă. Abaterea standard se exprimă în aceleaşi unităţi de măsură
ca şi media
Proprietăţile abaterii standard (Popa, 2008, p. 70):
- dacă se adaugă /scade o constntă la fiecare valoare a unei distribuţii,
abaterea standard nu este afectată;
- dacă se multiplică/divide fiecare valoarea a unei distribuţii cu o constantă,
abaterea stabdard se multiplică/divide cu acea constantă.

22
Petruş, Al., 2005 – Introducere în statistica socială, Editura Paralela 45, Piteşti, p. 52

56
Coeficientul de variaţie ( )

Prezintă, mai intuitiv decât abaterea standard, gradul de împrăştiere al


rezultatelor în jurul mediei, deoarece este o expresie procentuală a împărţirii abaterii
standard la medie (Opariuc, 2009, p. 130).
Se calculează ca raport între abaterea medie pătratică şi nivelul mediu al seriei,
deoarece abaterea standard se foloseşte frecvent pentru măsurarea abaterii medii.

Valoarea coeficientului de variaţie exprimă un raport procentual dintre abaterea


standard şi medie. Cu cât este mai mare, cu atât se poate spune că media este mai
puţin reprezentativă pentru distribuţia respectivă. (Popa, 2008).

După Popa (2006), sunt propuse anumite limite de interpretare a coeficientului de


variaţie:

- dacă ˂ 15%, împrăştierea este mică, deci media este reprezentativă;

- dacă este cuprins între 15 şi 30%, împrăştierea este mijlocie şi media


este suficient de reprezentativă;

- dacă ˃ 30%, împrăştierea este mare, iar media are o reprezentativitate


redusă.

Cu cât nivelul lui este mai apropiat de zero cu atât variaţia este mai redusă,
colectivitatea este mai omogenă, media având un grad mai ridicat de
reprezentativitate; cu cât valoarea sa este mai departe de zero, cu atât variaţia este mai
intensă, colectivitatea mai eterogenă, iar media are un nivel de semnificaţie mai scăzut.

Alegerea indicatorului împrăştierii (Popa, 2008, p. 72):

57
- abaterea standard – este cea mai utilizată pentru scalele de măsurare
interval /raport, deoarece realizează cea mai bună combinaţie între
calitatea estimării şi posibilitatea de a fundamenta inferenţe statistice;
- amplitudinea - este un indicator nesigur, care nu poate fi calculat în cazul
scalelor nominale;

Abaterea standard.

Abaterea standard este un indice care arată cât de mult deviază (diferă) unele
scoruri „în medie” faţă de media setului de scoruri din care acestea fac parte.
Abaterea standard poate fi folosită şi pentru a transforma scoruri pentru
variabile foarte diferite în scoruri Z (sau standard), care sunt uşor de comparat şi
însumat.

Calcularea abaterii standard şi a scorurilor Z este prezentată în exemplul


următor:

Vârstă 20 22 25 26 35 38 28 24 23 34

Introducerea datelor.

Pasul 1:

În „Variable View” din


„Data Editor” se denumeşte
prima coloană „Vârsta”.

Se înlătură cele două zecimale.


58
Pasul 2:
În „Data View” din „Data Editor”
se introduc vârstele în prima
coloană.

Pasul 3:
Se selectează:
„Analyze”
„Descriptive Statistics”
„Descriptives…”

Pasul 4:
Se selectează „vârsta” şi apoi se
apasănbutonul ► pentru a o i
ntroduce în lista de variabile.

Se selectează „Options…”

Pasul 5:

Se deselectează „Mean”,
„Minimum”, „Maximum”.

Se selectează „Continue”.

Se selectează „OK” din


ecranul precedent care

59
reapare.

Interpretarea output-ului.

Numărul 10 reprezintă numărul de cazuri.


Abaterea standard pentru vârstă este de 5,740.

CURS 5

INDICATORI AI FORMEI DISTRIBUŢIEI

În cazul variabilelor continue ce pot fi sistematizate în distribuţii de frecvenţe


cu ajutorul intervalelor de grupare pe lângă determinarea indicatorilor tendinţei
centrale şi variabilităţii se pune problema să studiem şi modul în care valorile
individuale sunt deplasate şi centralizate Descriptive Statistics

comparativ cu tendinţa centrală. N Std. Deviation

Varsta 10 5,740
Forma unei distribuţii de frecvenţe se Valid N (listwise) 10

analizează comparativ cu distribuţia ideală, normală prin indicatori asimetrici


(oblicităţii) şi indicatori ai boltirii (excesului).

Indicatori ai asimetriei (oblicităţii)

60
Asimetria se observă prin reprezentarea grafică prin histogramă sau poligonul
frecvenţelor, dar poate să fie măsurată prin indicatori specifici.
Poziţia indicatorilor tendinţei centrale în funcţie de forma distribuţiei (Popa,
2008, p. 72):
- perfect simetrice: (fig. 1);
- cu asimetrie pozitivă: (fig. 2);
- cu asimetrie negativă: (fig.3).

Mo me medie

Fig.1 fig.2

Medie Me mo

Fig.3

În cazul distribuţiilor perfect simetrice, modul, mediana şi media se


plasează în aceeaşi poziţie. Dacă distribuţiile sunt asimetrice, atunci cei trei indicatori

61
au poziţii diferite: mediana se plasează întotdeauna între mod şi medie, motiv pentru
care, ea este cea mai reprezentativă valoare pentru distribuţiile simetrice.
Media este afectată de valorile extreme şi din această cauză, ea nu est un indicator
veridic al tendinţei centrale atunci când este vorba de distribuţii puternic asimetrice.
(Popa, 2008).
Dar o distribuţie este caracterizată şi prin variabilitatea datelor. O serie care
are variabilitatea mai mică va fi mai pronunţată oblică, iar într-o serie mai împrăştiată
oblicitatea se va atenua.

Coeficientul Yule

Coeficientul măsoară gradul de asimetrie prin raportul dintre diferenţa şi suma


abaterilor quartile.

Coeficientul poate lua, în general, valori de la -1 la +1 şi indică mărimea


asimetriei negative sau pozitive. Cu cât valorile sunt mai apropiate de 0, cu atât
distribuţia este mai simetrică. Cu cât se apropie de -1 sau de +1, ea devine tot mai
asimetrică spre stânga sau spre dreapta.

Acest coeficient este foarte uşor de calculat, însă ţine cont doar de câteva valori
– valorile quartile – şi nu de toate valorile din distribuţie, fapt care îi limitează precizia
şi se consideră că este doar un coeficient elementar al simetriei.

Exemplu:
Pentru o distribuţie s-au stabilit următoarele rezultate:
Q1= 150
Me= 130
Q3=140.

62
Să se calculeze valoarea coeficientului de asimetrie Yule.
Răspuns. Coeficientul de asimetrie yule se calculează după relaţia:

Casq= = = = = -3

Q1= Me-Q1=130-150= -20


Q2=Q3-Me= 140-130= 10
Interpretare: Valoarea obţinută, Casq= -3<0 arată că distribuţia considerată este
asimetrică la stânga.
Dacă seriile de distribuţie cu asimetrie negativă sunt mai numeroase, valorile
xi mai mici decât media, atunci abaterile sunt negative.
Dacă seriile de distribuţie au asimetrie pozitivă sunt mai numeroase valorile x i
mai mari decât media, atunci abaterile sunt pozitive.
Dacă seriile de distribuţie sunt perfect simetrice, abaterile pozitive
sunt tot atât de numeroase ca şi cele negative.
O mărime relativă a asimetriei se obţine prin raportarea la abaterea medie
pătratică ridicată la cub.

Forme ale distribuţiei scorurilor

Este foarte important de studiat forma distribuţiilor scorurilor pentru o variabilă.


Este bine ca o distribuţie să fie simetrică şi cu o formă normală (formă de clopot).
Distribuţia normală, a fost descrisă prima dată de Ch. Fr. Gauss (1777-1855) şi
de aceea distribuţia normală se mai numeşte şi distribuţie gaussiană. Deoarece la
demonstrarea acestui concept a participat şi P.S. Laplace (1749-1827), în literatura de
specialitate se va întâlni şi termenul de distribuţie Gauss-Laplace.

63
Pentru ca o distribuţie să fie considerată normală, trebuiesc îndeplinite
simultan următoarele condiţii:
 Să fie unimodală – adică să existe un singur mod, o singură categorie cu
frecvenţă maximă;
 Să fie simetrică faţă de medie – adică să nu fie deplasată spre stânga sau spre
dreapta;
 Să fie normal boltită – adică să nu fie nici ascuţită şi nici „turtită”;
Toţi aceşti termeni se referă la acelaşi lucru, distribuţia normală.
De asemenea, limitele din stânga şi din dreapta ale unei distribuţii normale tind
spre valoarea zero, pe care însă nu o întâlnesc niciodată. O distribuţie perfect normală
are aceeaşi valoare pentru toţi cei trei indicatori ai tendinţei centrale (media, mediana
şi modulul), adică media = mediana = modul.
În practică, acest lucru se întâlneşte extrem de rar şi, de aceea, ne punem
problema între ce limite putem considera o distribuţie ca fiind normală.
În exemplul următor este elaborat un tabel de frecvenţă şi o histogramă cu
scorurile obţinute la evaluarea coeficientului de inteligenţă pentru 20 de jurişti.

Introducerea datelor.

Pasul 1:

În „Variable View” din


„Data Editor” se denumeşte
prima coloană „Atenţie”.

Se înlătură cele două zecimale.


*Datele se salvează ca fişier
deoarece vor fi folosite şi la
capitolul 9.

Pasul 2:
În „Data View”
din „Data Editor”
se introduc
scorurile obţinute
la „Atenţie” în
prima coloană.

64
Pasul 3:
Se selectează
„Analyze”,
„Descriptives
Statistics” şi
Frequencies…”
Pasul 4:
Se selectează
„atenţie” şi apoi
se apasă butonul
►pentru a
introduce în lista
de variabile.
Se apasă „OK”.

Interpretarea Output-ului

Prima coloană arată


scorurile obţinute la testul
de „atenţie”. Cumulative
atentie
Frequency Percent Valid Percent Percent
A doua coloană arată Valid 56 1 10,0 10,0 10,0
frecvenţa acestor valori.
57 1 10,0 10,0 20,0
Exemplu: este 1 caz în care
58 2 20,0 20,0 40,0
scorul obţinut are valoarea
64 1 10,0 10,0 50,0
56.
65 2 20,0 20,0 70,0

A treia coloană exprimă 66 1 10,0 10,0 80,0


aceste frecvenţe ca 69 2 20,0 20,0 100,0
un procent al numărului Total 10 100,0 100,0
total A patra coloană
A cincea coloană
incluzând şi datele care exprimă aceste frecvenţe cumulează aceste
lipsesc. ca un procent al numărului procentaje în josul
Exemplu: Din totalul cazurilor, total excluzând datele lipsă. tabelului.
10% au obţinut scorul 56.

65
Histograme.

Histograma este un grafic, folosit în statistica descriptivă şi arată o distribuţie de frecvenţă.


Distribuţia de frecvenţă se referă la numărul de evenimente statistice pe clase (grupe) de evenimente.
Pentru o serie de date statistice cu o distribuţie de frecvenţă după o variabilă numerică continuă (sau
continuă pe porţiuni), reprezentările grafice care ne permit să vizualizăm distribuţia de frecvenţe sunt
histograma şi poligonul frecvenţelor.
Se reiau paşii de la capitolul II.5.

Interpretarea output-ului

Axa verticală arată frecvenţa


cazurilor de la 0 la 3.

Înălţimea barelor arată cât de


frecvent apare fiecare scor la atenţie.

Axa orizontală arată scorurile


diferite ale „Atenţiei”.

*Media scorului la atenţie este 62,7.


*Abaterea standard este 4,99.
*Numărul cazurilor este 10.

IV.5. Modalitatea.
Frecvenţa de apariţie

O distribuţie normală (figura 1) este o


distribuţie unimodală, adică există doar o
singură categorie cu frecvenţa maximă.
Prezenţa a două sau mai multe valori mod

66

Înălţimea subiecţilor.
determină distribuţii bimodale, trimodale, în general polimodale, distribuţii ce nu pot fi
considerate ca fiind distribuţii normale.

Figura nr. 1.

O distribuţie similară distribuţiei din figura 1, este o distribuţie bimodală (figura 2),
deoarece observăm existenţa a două categorii cu frecvenţa egală şi maximă.

Figura nr. 2.

Normalitatea distribuţiei, sub aspectul


modalităţi, se verifică prin calcularea
valorii modul. Dacă există o singură
valoare cu frecvenţa maximă, atunci
distribuţia poate fi considerată normală
sub acest aspect. În condiţiile în care sunt
două sau mai multe valori cu frecvenţa maximă şi, evident, egală, distribuţia este
polimodală (multimodală) şi nu poate fi considerată ca fiind normală.

IV.6. Simetria.

O distribuţie este simetrică, dacă valorile sunt


egal (simetric) răspândite în jurul tendinţei

67
centrale. Atunci când rezultatele tind către valori mici, sunt aglomerate în partea
stângă a distribuţiei, avem de a

Figura nr. 3 face cu o distribuţie asimetrică

spre dreapta (sau distribuţie skewness pozitiv). Când rezultatele tind către valori mari,
se aglomerează în partea dreaptă a distribuţiei, vorbim despre o distribuţie asimetrică
la stânga (skewness negativ). Iată că, asimetria este dată de panta distribuţiei şi nu de
vârful acesteia, aşa cum tratează şi consideră unii.

În figura nr. 3, distribuţia „B” este o distribuţie simetrică. Distribuţia „A” este o
distribuţie asimetrică la dreapta (skewness pozitiv) unde predomină scorurile scăzute
(mici), în timp ce distribuţia „C” este o distribuţie asimetrică la stânga (skewness
negativ) în care predomină scorurile mari.

Nu ne putem limita la o apreciere pur vizuală a simetriei; acest lucru necesită


demonstrarea statistică a simetriei sau asimetriei distribuţiei. În acest scop, există mai
mulţi coeficienţi care pot fi calculaţi.

Atunci când discutăm de asimetrie, trebuie să precizăm o serie de relaţii care


apar între indicatorii tendinţei centrale, media, mediana şi modul.

Într-o distribuţie simetrică, media, mediana şi modul au exact aceleaşi valori.


Caracteristica acestei distribuţii o reprezintă coincidenţa absolută a celor trei indicatori
ai tendinţei centrale. După cum puteţi
observa în figura de mai sus, atât media,
cât şi mediana şi modulul, se află în
acelaşi punct, la mijlocul distribuţiei.
Grupa subiecţilor cu scoruri
Figura nr. 4

68
mai mici decât media este perfect simetrică cu grupa subiecţilor cu scoruri mai mari
decât media. Acest aspect este menţionat din raţiuni teoretice. În practică nu vom
întâlni o distribuţie perfect normală, ci o distribuţie care poate fi acceptată ca fiind
normală.

Într-o distribuţie asimetrică la dreapta (distribuţie skewness pozitiv, vezi


figura alăturată), predomină scorurile mici.
În acest caz, modulul este valoarea situată
cel mai la stânga în şirul de date, iar
mediana este mai mică decât media.
Evident, mediana fiind valoarea care
împarte şirul ordonat de date în două
părţi egale,
Figura nr. 5

iar dacă în distribuţie predomină scorurile mici, atunci scorurile mari sunt considerate
ca scoruri extreme. Ştim de la analiza preciziei indicatorilor tendinţei centrale, că într-
o serie de date în care întâlnim scoruri extreme mari, media tinde să le pună în valoare.
Iată că acest fapt este ilustrat grafic în figura de mai sus. Observaţi relaţia existentă
într-o asemenea distribuţie: Mo<Me<m. Această relaţie este relaţia caracteristică a
unei distribuţii asimetrice pozitiv.

Într-o distribuţie
asimetrică la stânga (distribuţie
skewness negativ, vezi figura

69
alăturată), predomină scorurile mari. În acest caz, modulul este valoarea situată cel mai
la dreapta în şirul de date, iar mediana este mai mare decât media. Evident, mediana
fiind valoarea care împarte şirul ordonat de date în două părţi egale,
Figura nr. 6

iar dacă în distribuţie predomină scorurile mari, atunci scorurile mici sunt considerate
ca scoruri extreme. Ştim, de la analiza preciziei indicatorilor tendinţei centrale, că într-
o serie de date în care întâlnim scoruri extreme mici, media tinde să le pună în valoare.
Iată că acest fapt este ilustrat grafic în figura de mai sus. Observaţi relaţia existentă
într-o asemenea distribuţie: Mo>Me>m. Această relaţie este relaţia caracteristică a
unei distribuţii asimetrice negativ.

IV.7. Boltirea (excesul).

Asimetria pe orizontală, presupune, după cum am văzut, o deplasare a tendinţei


centrale spre stânga sau spre dreapta, către scoruri mici sau către scoruri mari. Dar,
aceasta nu este singura asimetrie posibilă. Există şi un fel de „asimetrie verticală” sau
boltire. Termenul folosit generic pentru acest concept este termenul de kurtosis (din
limba greacă, kurtos = „cocoşat”).

Practic, boltirea se referă la aspectul „cocoaşei” distribuţiei rezultatelor.


Cocoaşa poate fi ascuţită şi atunci vorbim de o distribuţie ascuţită sau leptocurtică,
poate fi turtită, distribuţia turtită, plată sau platicurtică sau normală, distribuţie
mezocurtică. O distribuţie normală este întotdeauna o distribuţie mezocurtică.

În figura alăturată, distribuţia „C”


este o distribuţie leptocurtică, ascuţită.
Distribuţia „B” este o distribuţie

70
platicurtică, turtită, iar distribuţia „A” este o distribuţie normală sub aspectul boltirii,
sau mezocurtică.

Figura nr. 7

Se observă că boltirea nu este altceva decât simetria pe axa verticală (O Y), spre
deosebire de simetria propriu zisă, deplasarea valorilor pe axa orizontală (O X). Dacă la
simetrie se vorbeşte de frecvenţe (care sunt cele mai frecvente scoruri obţinute, unde
se concentrează acestea? În eşantionul sunt mai degrabă subiecţi scunzi sau subiecţi
înalţi? Ori poate există un echilibru între subiecţii scunzi şi cei înalţi), la boltire se
discută de valori, de modul în care aceste valori se grupează în jurul tendinţei centrale
(sunt mai grupate valorile în jurul mediei sau, din contra, foarte împrăştiate.)
La fel ca şi simetria, boltirea nu poate fi apreciată pur „ochiometric” ci avem
nevoie şi aici de anumiţi coeficienţi de boltire. Pearson a discutat despre boltire în
termeni de momente, la fel ca şi simetria, rezultând astfel coeficientul de boltire sau
coeficientul kurtosis.

O distribuţie leptocurtică, ascuţită, arată că datele sunt foarte grupate şi


apropiate de medie, lotul de subiecţi având un mare grad de omogenitate a scorurilor.
Această distribuţie nu ridică nici un fel de probleme atunci când trebuie să diferenţiem
subiecţii care obţin scoruri mici sau mari. Avem însă dificultăţi atunci când trebuie să
diferenţiem subiecţii din zona medie a distribuţiei.

De exemplu, dacă într-o clasă de 30 de elevi, 27 obţin medii anuale între 7,9 şi
8,1. Iată că, doar două zecimi diferenţiază între aproape întreg efectivul de elevi. Nu
avem nici o problemă cu repartizarea celorlalţi trei elevi. Pe aceia îi vom considera ori
foarte buni, ori foarte slabi, în funcţie de media obţinută – sub 7,9 sau peste 8,1. Ce
putem face însă cu cei 27 de subiecţi? Suntem, iată, în imposibilitatea de ai-i ierarhiza

71
în vreun fel. Dacă presupunem că cei trei subiecţi au note mai mici de 7,9, atunci cine
va lua, dintre cei 27 de elevi, premiul I, cine va lua premiul II şi cine va lua premiul
III. Decizia ar fi, după cum se poate vedea, extrem de dificilă, dacă nu chiar
imposibilă. Singura variantă în acest caz, ar putea fi creşterea preciziei. Nu calculăm
media cu o singură zecimală, ci cu 2, 3 sau 4 zecimale. Totuşi, sunt situaţii în care un
asemenea nivel de precizie este ridicol. O evaluare în care distribuţia rezultatelor este
leptocurtică, este o evaluare ce nu poate diferenţia între subiecţii de nivel mediu, iar o
curbă leptokurtică nu este o distribuţie normală;

O distribuţie platicurtică, plată, este o distribuţie în care rezultatele sunt foarte


împrăştiate faţă de medie şi indică un grad ridicat de eterogenitate a scorurilor.
Problema generală a acestei distribuţii, în opoziţie cu distribuţia leptokurtică, este
aceea că diferenţiază greu la extreme şi destul de bine în zona mediei. Va fi greu,
utilizând o asemenea distribuţie, să facem diferenţieri între elevii slabi şi între elevii
buni, deşi putem diferenţia relativ uşor elevii medii. Datorită acestui fapt, o distribuţie
platicurtică nu este nici ea o distribuţie normală.

O distribuţie normală este o distribuţie mezocurtică.

Analiza unei distribuţii sub aspectul normalităţii este primul pas pe care îl facem
în orice prelucrare de date. Deoarece, în funcţie de rezultatul acestei analize, vom
putea alege tehnicile şi procedeele statistice pe care le putem folosi, această etapă o
întâlnim, de obicei, la începutul oricărui raport de cercetare, imediat după descrierea
eşantionului.

72
CURS 6
Coeficienţi de corelaţie.
Coeficienţi de corelaţie Pearson şi Spearman.

Corelaţia este o metodă statistică utilizată pentru a determina relaţiile dintre


două sau mai multe variabile. Există mai multe tipuri de corelaţii atât parametrice cât
şi neparametrice.
Coeficientul de corelaţie este o valoare cantitativă ce descrie relaţia dintre două
sau mai multe variabile. El variază între (-1 si +1), unde valorile extreme presupun o
relaţie perfectă între variabile în timp ce 0 înseamnă o lipsa totala de relaţie liniară. O
interpretare mai adecvată a valorilor obţinute se face prin compararea rezultatului
obţinut cu anumite valori prestabilite în tabele de corelaţii în funcţie de numărul de
subiecţi, tipul de legătură şi pragul de semnificaţie dorit.
Cel mai comun şi cel mai folositor este coeficientul de corelaţie Pearson şi
coeficientul de corelaţie Spearman.
Corelaţia Pearson(r) evaluează gradul de asociere dintre două variabile
măsurate pe scală de interval/raport. Aceasta se referă la intensitatea şi sensul de
variaţie concomitentă a valorilor unei variabile în raport cu cealaltă, după un model de
tip liniar. Dacă valorile unei variabile urmează, în sens direct, crescător, sau invers,
descrescător, valorile celeilalte variabile, atunci cele două variabile corelează între ele.
Domeniul de variaţie a coeficientului de corelaţie Pearson(r) este între r = -1 (corelaţie
perfectă negativă: ceea ce înseamnă că în timp ce scorurile unei variabile cresc,

73
scorurile pentru cealaltă variabilă descresc) şi r = +1 (corelaţie perfectă pozitivă: ceea
ce înseamnă că scorurile unei variabile se măresc odată cu creşterea scorurilor
celeilalte variabile). Absenţa oricărei legături (corelaţii) dintre variabile se traduce prin
r =0.
O corelaţie de 1,00 indică o asociere perfectă între cele două variabile. Cu alte
cuvinte, o diagramă scatter a celor două variabile va arăta că toate punctele sunt
conţinute de o singură dreaptă. O valoare de 0,00 indică faptul că toate punctele din
diagrama scatter sunt dispersate aleatoriu în jurul oricărei drepte desenate pe această
diagramă a datelor sau sunt aranjate într-o manieră curbilinie.
În continuare vom ilustra calculul corelaţiei Pearson, o diagramă scatter şi coeficientul de
corelaţie Spearman, folosind pentru aceasta datele din tabelul următor, care reprezintă scoruri ale
abilităţilor muzicale şi matematice pentru 10 copii.
muzica 3 7 8 9 9 6 4 3 4 7
matematică 7 5 4 4 5 8 9 9 7 6

Introducerea datelor.
Pasul 1:
În „Variable „View” din „Data Editor” se
denumeşte primul
rând „muzică”
şi al doilea rând „matematică”. * Se înlătură cele două zecimale.

Pasul 2:

În „Data View” din „Data editor”


se introduc datele pentru:
- muzică în prima coloană;
- matematică în a doua coloană.

Corelaţia Pearson.

Pasul 1:

74
Se selectează:
„Analyze”,
„Corelate”,
„Bivariate…”

Pasul 2:
Se selectează „Muzică” şi
„Matematică” şi apoi se apasă
butonul ►pentru a le introduce
în lista de variabile aşa cum este
arătat în figura din dreapta.

Se apasă „OK”.

Interpretarea output-ului.
Corelaţia dintre
„matematică” şi „muzică”
este - 0,845 La un test de
semnificaţie, two-tailed la
nivelul de probabilitate 0,01
sau mai mic, corelaţia este
statistic semnificativă.

Numărul cazurilor pe care este bazată corelaţia este 10. Informaţia apare şi în această
celulă.
*One tailed – dacă distribuţia este unidirecţională.
Two-tailed – dacă distribuţia este bidirecţională.

Raportarea output-ului.

 Corelaţia dintre abilităţile muzicale şi cele matematice este – 0,845.


* Se obişnuieşte să se rotunjească corelaţia cu două zecimale, deci aceasta va deveni 0,90, acesta
fiind un rezultat mult mai precis pentru majoritatea măsurătorilor psihologice.

75
 Nivelul de semnificaţie exact, cu trei zecimale, este 0,002. Înseamnă că nivelul de
semnificaţie este mai mic decât 0,01.
 Interpretarea psihologică va fi: „Există o relaţie negativă semnificativă între
abilităţile muzicale şi cele matematice , ceea ce înseamnă că, copii cu nivel ridicat al
abilităţilor muzicale au un nivel scăzut al abilităţii matematice”.
Un coeficient de corelatie poate fi calculat corect numai când datele ambelor variabile se refera
la esantioane si fiecare este ales independent.
Un coeficient de corelatie poate fi apropiat de ą1, deci ne va indica o corelatie puternica, dar ea
poate fi nesemnificativa din cauza volumului mic a esantionului studiat.
Corelatia nu trebuie identificata cu cauzalitatea, in sensul ca observatiile a 2 variabile se pot
corela foarte bine fara sa avem motive logice si stiintifice ca una dintre variabile poate fi cauza
celeilalte.

Coeficientul de corelaţie Spearman.

Pasul 1:
Identic corelaţiei Pearson se
selectează „Analyze”, „Correlate”,
„Bivariate” şi variabilele care se
doresc pentru corelaţie.
Se selectează „Spearman” şi se
deselectează Pearson (dacă nu se
doreşte ca şi corelaţie).

Se apasă „OK”.

76
Interpretarea output-ului.

Coeficientul de corelaţie Spearman Numărul cazurilor este 10.


între muzică şi matematică este – 0,842.
Nivelul de semnificaţie este 0,001 sau
mai mic, deci corelaţia este statistic
semnificativă.

Raportarea output-ului.
 Corelaţia raportată cu două zecimale este – 0,84.
 Interpretarea psihologică va fi: „Există o corelaţie negativă semnificativă între
abilităţile muzicale şi cele matematice, ceea ce semnifică faptul că, cei cu un nivel
ridicat al abilităţii muzicale au abilităţi matematice scăzute şi viceversa”.
 Coeficientul de corelatie al rangurilor (Spearman) testeaza gradul de corelare intre 2 variabile
calitative; este alternativa neparametrica a “coeficientului de corelatie Pearson”.
 Acest coeficient variaza intre -1 si +1. O valoare apropiata de +1, inseamna ca suma patratelor
diferentelor este aproape nula, deci avem clasamente identice.
 O valoare apropiata de 0, inseamna necorelarea variabilelor, iar valoarea apropiata de -1 pune in
evidenta discordanta maxima a variabilelor.

Diagrama scatter.

Pasul 1:
Se selectează:
„Graphs”

77
„Legacy Dialogs”
„Scatter Dot”

Pasul 2:

Se selectează „define”
din moment ce „simple”
este deja selectat.

Pasul 3:

Pentru a avea variabila


„muzică” ca axă verticală,
se selectează şi apoi se
apasă butonul ►de lângă
căsuţa „Y Axis”

Pentru a avea variabila


„matematică” ca axă
orizontală, se selectează
apoi se apasă butonul ◄ de
lângă căsuţa „X Axis”.

Se apasă „OK”.

Interpretarea output-ului.

În diagrama scatter, răspândirea punctelor este


relativ îngustă, ceea ce indică o corelaţie mare.

78
Forma împrăştierii rezultatelor este relativ în linie dreaptă, indicând mai degrabă o
relaţie în linie dreaptă decât o relaţie curbilinie.

Linia este de la colţul stânga sus până în dreapta jos, ceea ce indică o corelaţie
negativă.
*Dacă relaţia este curbilinie atunci corelaţiile Pearson şi Spearman pot fi înşelătoare.

Raportarea output-ului.

Despre diagrama scatter s-ar putea scrie următoarele afirmaţii: „ A fost


examinată o diagramă scatter pentru relaţia dintre abilităţile muzicale şi matematice.
Nu există nicio dovadă privind o relaţie curbilinie sau asupra influenţei avute de
rezultatele atipice”.

79
CURS 7

DEMERSUL TESTĂRII UNEI IPOTEZE STATISTICE.

Demersul testarii unei ipoteze presupune parcurgerea unor etape şi rezolvarea


problemelor pe care le implică, şi anume (Jaba, 2004, p. 331-336):
Se formulează ipotezele, în funcţie de problema pusă;
Se alege un test statistic în funcţie de distribuţia de selecţie a statisticii
considerate;
Se alege un prag de semnificaţie pentru test;
Se stabilesc regulile de decizie, definind regiunile de „acceptare” şi de
„respingere” a ipotezei H0;
Se calculează valoarea statisticii test, folosind datele înregistrate prin sondaj;
Se compară valoarea calculată a statisticii test cu valoarea teoretică;
Se ia decizia de a nu respinge sau de a respinge ipoteza admisă.

În urma extragerii unui eşantion dintr-o populaţie statistică prin prelucrarea


datelor provenite din sondaj se obţine un estimator al parametrului urmărit în populaţia
de origine. Problema care se pune este în ce măsură parametrul estimat pe baza
rezultatelor sondajului asigură „credibilitatea” aprecierilor făcute asupra întregii
colectivităţi.

Estimatorul este, o „presupunere” a parametrului, adică, o ipoteză statistică.

80
Definiţie: O ipoteză reprezintă o prezumţie clară, explicită şi verificabilă,
referitoare la relţiile sau diferenţele existente între două sau mai multe variabile.
(Opariuc, 2009, p. 197).

Ipotezele se folosesc atât în cazul studiilor care urmăresc stabilirea unor relaţii
dintre variabile (studii corelaţionale) cât şi pentru cercetările care vizează existenţa
unor diferenţe dintre variabile (studii factoriale).
În toate domeniile ştiinţelor aplicate este necesar să se recurgă la
experimentarea unor noi metode, tehnologii, produse, făcându-se presupuneri asupra
superiorităţii lor faţă de procedeele curent folosite în vederea luării unei anumite
decizii. Totodată este necesar să verificăm dacă în timp s-au produs modificări în ceea
ce priveşte parametrii populaţiei sau există diferenţe semnificative între diferite
grupuri ale aceleiaşi populaţii. Toate aceste presupuneri constituie nişte ipoteze a căror
valabilitate trebuie verificată şi deoarece această verificare se face statistic (operându-
se cu date obţinute în urma unei selecţii statistice dintr-o populaţie) ele se denumesc
ipoteze statistice.
Verificarea concordanţei rezultatelor experienţei cu una dintre ipoteze se face pe
baza unui criteriu statistic furnizat de un ansamblu de reguli de prelucrare a datelor
numit test statistic. Cu ajutorul lui se ajunge la decizia de a respinge o ipoteză şi a
accepta alta. Luarea unei decizii cu privire la o ipoteză statistică se numeşte testarea
ipotezei.
O ipoteză se numeşte simplă dacă ea determină în mod univoc repartiţia
specificată a variabilei aleatoare şi compusă dacă este formată dintr-un număr finit de
ipoteze simple.
Testele statistice furnizează criterii pe baza cărora se acceptă sau se respinge o
ipoteză cu privire la o populaţie statistică pe baza observaţiilor făcute într-un eşantion
aleator extras din ea.

81
Alegerea testului nu depinde de eşantion, de aceea procedeul de testare a
ipotezei şi ipoteza se pot specifica înainte de selecţie.
Trebuie subliniat faptul că printr-un test statistic nu se stabileşte adevărul ci doar
dacă rezultatele selecţiei sprijină ipoteza formulată şi cu ce probabilitate.

ERORI ÎN TESTAREA IPOTEZELOR STATISTICE

În statistică, ipotezele apar întotdeauna în perechi: ipoteza nulă şi ipoteza


alternativă.

Ipoteza statistică ce urmează a fi testată se numeşte ipoteza nulă şi se notează H0.

Ea constă întotdeauna în admiterea caracterului întâmplător al deosebirilor,


adică în presupunerea că nu există deosebiri esenţiale.

Respingerea ipotezei nule implică acceptarea unei alte ipoteze numită


alternativă, notată cu H1.

Definiţie: Procedeul de verificare a unei ipoteze statistice se numeşte test sau criteriu
de semnificaţie.

Verificarea ipotezei nule se face pe baza unui eşantion de volum n, extras din
populaţia X. Dacă punctul definit de vectorul de sondaj x1, x2, ... , xn cade în regiunea
critică Rc, ipoteza H0 se respinge, iar dacă cade în afara regiunii critice R c, ipoteza H0
se acceptă.
Eroarea pe care o facem eliminând o ipoteză nulă, deşi este adevărată se
numeşte eroare de genul întâi.(Popa, 2008).

Probabilitatea comiterii unei astfel de erori reprezintă riscul de genul întâi (α) şi
se numeşte nivel sau prag de semnificaţie.

82
Nivelul de încredere al unui test statistic este (1- α), iar (1- α)·100 reprezintă
probabilitatea de garantare a rezultatelor.

Eroarea pe care o facem acceptând o ipoteză nulă, deşi este falsă se numeşte
eroare de genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se
notează cu β. Puterea testului statistic este (1- β).

Erorile de tip I pot fi micşorate de cercetător fixând nivelul de semnificaţie α cât


mai mic. Erorile de tip II pot fi micşorate prin creşterea volumului eşantionului. Dacă
variaţia selecţiei este mai mică se reduc ambele erori.
“Deoarece evitarea unui tip de eroare sporeşte şansa celeilalte devine important de
ştiut care tip de eroare trebuie mai atent evitat.”

Compararea a două eşantioane de scoruri corelate/relaţionate.


(Testul „t”)

Testul este publicat în 1908 de W.S. Gosset sub pseudonimul Student.


Principala diferenţă între distribuţiile de eşantionare ale statisticilor z şi t este aceea
că distribuţia t are o cantitate de variabilitate mai mare decât z.

Testul „t”:
Este folosit pentru evaluarea semnificaţiei statistice a diferenţei dintre
mediile pentru două seturi de scoruri; ele ajută la elucidarea întrebărilor comune ale
cercetătorilor dacă valoarea medie pentru un set de scoruri diferă de valoarea medie
pentru alt set de scoruri;

83
Deoarece, în cercetare, în mod invariabil, se lucrează cu eşantioane de oameni
extrase din populaţia latentă, trebie să estimăm dacă orice diferenţă pe care o obţinem
între cele două seturi de valori este semnificativă statistic.

Există două variante ale testului „t”:


1. Pentru eşantioane perechi
- folosit când cele două seturi de scoruri ce trebuie comparate provin dintr-un
singur eşantion;
- când coeficientul de corelaţie între cele două seturi este mare.
Uneori ne lovim de situaţii în care eşantioanele din care provin mediile ce trebuie
comparate sunt dependente (procedeul de selecţie al unui eşantion este legat de
procedeul de selecţie al celuilalt).
Când elementele celor două eşantioane sunt asociate într-un anumit mod două
câte două (de exemplu: rezultatele înregistrate înainte şi după acţiunea unui factor
experimental), procedeul cel mai simplu constă în a raţiona asupra diferenţelorpe care
le prezintă fiecare pereche de date asociate, corelate.

2. Pentru eşantioane independente


- se foloseşte când cele două seturi de valori provin din grupuri diferite de
participanţi, pentru a calcula dacă mediile acestora sunt diferite semnificativ una faţă
de cealaltă.
În cazul eşantioanelor independente, probele de semnificaţie diferă în funcţie
de două situaţii:
 Când numărul de măsurători (N) în fiecare eşantion este destul de mate (mai
mare ca 30);
 Când numărul de măsurători sau volumul eşantionului este mai mic deâct 30.
84
Testul t.
Compararea a două eşantioane
de scopuri corelate/relaţionate.
_________________________________________________________________________________________________________________

Testul t este folosit pentru evaluarea semnificaţiei statistice a diferenţei dintre


mediile pentru două seturi de scoruri. Cu ajutorul testului t se pune în evidenţă dacă
valoarea medie pentru un set de scoruri diferă în medie de valoarea medie pentru alt
set de scoruri.
Testul t are două variante:
1. prima variantă este folosită atunci când cele două seturi de scoruri ce
trebuie comparate provin dintr-un singur eşantion sau când coeficientul
de corelaţie între cele două seturi este mare – testul t pentru eşantioane
perechi;
2. a doua variantă a testului t este utilizată în momentul în care două seturi
diferite de valori provin din grupe diferite de participanţi. – testul t pentru
eşantioane independente.
* Testul t pentru eşantioane perechi este optim dacă distribuţia diferenţelor dintre cele două
seturi de valori se prezintă (aproximativ) sub formă de clopot (atunci când distribuţia este normală).
Dacă distribuţia este foarte diferită de forma de clopot ar trebui luată în considerare utilizarea unei
tehnici statistice relaţionate nonparametrică pentru eşantioane perechi, cum ar fi testul de perechi
Wilcoxon.
Procesarea unui Test t este ilustrată cu datele din tabelul următor unde sunt
prezentate numărul de cuvinte pe care aceeaşi copii le-au verbalizat cu mamele lor la
18 luni şi la 24 luni.
Numărul de cuvinte verbalizate într-un minut la vârste diferite.

Alina Cristina Raluca Carmen Simona Radu Cristi Dan

85
18 luni 3 2 4 5 2 3 2 4
24 luni 5 4 7 8 3 4 4 6

Introducerea datelor.

Pasul 1:
În „Variable View” din „Data Editor” se
etichetează primul rând cu „optsprezece” şi al
doilea rând cu „douăzeci şi patru”.
* Se înlătură cele două zecimale.
Pasul 2:

În „Data View” din „Data Editor”


se introduc datele în primele două
coloane.

Testul t pentru eşantioane perechi

Pasul 1:

Se selectează:
„Analyze”
„Compare Means”
„Paired-Samples T Test…”
Pasul 2:
Se selectează „optsprezece”
şi se pune această variabilă
lângă eticheta „Variable1”
sub „Curent Selections”.
Se selectează „douăzeci şi
patru” şi se pune această
variabilă lângă eticheta
„Variable2” sub „Curent
Selections”.
Se apasă butonul ►pentru a
pune aceste două variabile
în lista variabilelor relaţionale.
Se apasă „OK”.

86
Interpretarea output-ului.

Primul tabel arată media, numărul de cazuri şi abaterea standard pentru cele
două grupuri. Media pentru „optsprezece” este 3,13 şi abaterea standard este 1,126.

Al doilea tabel arată gradul în care cele două seturi de valori sunt corelate.
Corelaţia dintre ele 0,94. Aceasta este o corelaţie mare, nivelul de semnificaţie fiind de
0,00.
Primele trei coloane care conţin cifre sunt componentele fundamentale ale
calcului unui Test t relaţionat. Media de -2,000 este de fapt diferenţa dintre mediile pe
18 şi 24 luni, deci în realitate este media diferenţei. Valoarea lui t este bazată pe
această medie a diferenţei (-2,00), divizată cu eroarea standard a mediei (0,267).
Calculul oferă valoarea lui t (-7,483).

87
Raportarea output-ului.

Rezultatele obţinute ar putea fi prezentate astfel: „Media numărului de cuvinte


verbalizate la 18 luni diferă semnificativ de media cuvintelor verbalizate la 24 de luni.

Testul t.
Compararea a două eşantioane de
scoruri necorelate/nerelaţionate.
_________________________________________________________________________________________________________________

Atunci cînd o investigaţie de tip statistic se efectuează pe un eşantion, orice


rezultat obţinut are o valoare relativă, în sensul că datele respective nu numai că nu
coincid cu cele referitoare la populaţie, dar nici măcar nu se poate şti cu certitudine
care este diferenţa dintre cele două genuri de date, de vreme ce starea populaţiei este,
de regulă, necunoscută. Teoria matematică a probabilităţilor oferă însă proceduri
pentru evaluarea rezultatelor studiilor selective, permiţînd o estimare, în termeni de
probabilitate, a marjei maxime de eroare ce se poate comite prin utilizarea mărimilor
din eşantion în locul celor care caracterizează populaţia.
Testul t este în esenţă o procedură de testare a semnificaţiei diferenţei dintre
două medii.
Ca urmare, el este potrivit atunci când variabila dependentă este măsurată pe
scală cantitativă (interval-raport). Distribuţia teoretică de referinţă (distribuţia de nul)
este cea normală, pentru eşantioane mai mari de 30 de subiecţi, şi distribuţia t
(Student), pentru eşantioane mai mici de 30 de subiecţi. Chiar dacă formulele de calcul
sunt diferite, forma de prezentare a rezultatelor şi ra ţionamentul decizional sunt
similare pentru ambele situaţii.
Testul t pentru eşantioane independente este utilizat pentru a calcula dacă
mediile pentru două seturi de variabile sunt diferite semnificativ una faţă de cealaltă.

88
* Testul t pentru eşantioane independente este cel mai des folosit.
Testul t pentru eşantioane independente este utilizat atunci când cele două
seturi de variabile provin din două eşantioane diferite de oameni.
Procesarea unui Test t pentru eşantioane independente este ilustrată cu datele
din tabelul următorcare arată valorile la un test de emotivitate pentru 10 copii care
provin din familii biparentale şi 10 copii care provin din familii monoparentale.
Scopul analizei este de a aprecia dacă valorile emotivităţii sunt diferite la copii care
provin din familii cu doi părinţi faţă de copii care provin din familii monoparentale.
Familii 12 18 14 10 19 8 15 11 10 13
biparentale
monoparentale 6 9 4 13 14 9 8 12 11 9

Introducerea datelor

Pasul 1:
În „Variable View” din „Data Editor”, se etichetează pe rând „Familii”. Aceasta
va defini cele două tipuri de familii.

Se etichetează al doilea rând


„Emotivitate” (aici vor fi introduse
rezultatele la testul de emotivitate).
Se înlătură cele două zecimale.
Pasul 2:

În „Data View” din


„Data Editor” se introduc
valorile pentru cele două
variabile în primele două
coloane.
* Se observă că sunt două coloane
de date: A doua coloană conţine
cele 20 de valori ale testului de
emotivitate de la ambele grupe de
copii. Datele nu sunt păstrate

89
separat pentru cele două grupe; valorile 1 din prima coloană indică copii proveniţi din familiile
biparentale şi valorile 2 indică copii proveniţi din familiile monoparentale. Astfel, este utilizată o
singura variabilă dependentă (în cazul nostru „emotivitatea”) şi altă coloană pentru variabila
independentă (familia). Cu alte cuvinte, fiecare rând în parte reprezintă un anumit copil şi variabilele
sale dependente şi independente sunt introduse separat în „Data Editor”.

Efectuarea Testului t pentru eşantioane independente.

Pasul 1:

Se selectează:
„Analyze”
„Compare Means”
„Independent Samples T test…”

Pasul 2:
Se selectează „Emotivitate” şi
apoi se apasă butonul ► pentru
a introduce această variabilă în
lista variabilelor de test.

Se selectează „Familie” şi apoi


se apasă butonul ◄pentru a
introduce această variabilă în
căsuţa „Grouping Variable”.

Se selectează „Define Groups…” pentru a defini cele două grupuri.

Pasul 3:
Se introduce:
- valoarea 1 (codul pentru familiile
- biparentale) lături de eticheta
- „Group 1”
90
- valoarea 2 (codul pentru familiile
- monoparentale) alături de eticheta
- „Group 2”.

Se selectează „Continue”

Se apasă „OK” din ecranul precedent, care reapare.

Interpretarea output-ului.

Primul tabel arată, pentru fiecare grup în parte, numărul de cazuri, media şi
abaterea standard. Media pentru familiile biparentale este 13,00. După cum se observă
există o diferenţă între cele două tipuri de familii, dar, întrebarea este dacă mediile
diferă semnificativ.
Valoarea lui t este media diferenţei (3,500) divizată cu eroarea standard a
diferenţei (1,493), diviziune ce produce valoarea 2,345.

Dacă valoarea semnificaţiei pentru Pentru varianţe egale, t este 2,345,


Testul Levene este mai mare de 0,05, care la 18 grade de libertate este

91
lucru care se întâmplă aici (0,642) semnificativ la 0,031 pentru nivelul
se foloseşte informaţia de pe acest two-tailed.
prim rând.
Dacă valoarea semnificaţiei pentru
Testul Levene este mai mică de 0,05,
se foloseşte informaţia de pe al doilea
rând (al doilea rând oferă cifrele pentru
cazul în care varianţele sunt diferite
semnificativ).

Raportarea output-ului.

Rezultatele obţinute se pot raporta astfel: „Media pentru valorile testelor de


emotivitate ale copiilor ce provin din familii cu doi părinţi este semnificativ mai mare
decât cea a copiilor proveniţi din familiile cu un singur părinte”.
Dacă se preferă folosirea intervalelor de încredere , se poate scrie: „Diferenţa
dintre valorile testelor de emotivitate ale copiilor ce provin din familii cu doi părinţi
(M=13,00, SD=3,55) şi cei proveniţi din familii cu un singur părinte (M=9,50,
SD=3,10) este de 3,50. Intervalul de încredere de 95% pentru această diferenţă este de
la 0,36 la 6,63.Deoarece intervalul nu conţine punctul 0,00 diferenţa este statistic
semnificativă la nivelul de semnificaţie two-tailed de 5%.

CURSUL 8

Testul Z pentru eşantioane independente, dispersii cunoscute

92
Câ nd am discutat de abaterea standard, am vă zut că aceasta reprezintă
um mijloc de raportare a modului în care rezultatele se „împră ştie” în jurul ei. De
asemenea, am spus că , dacă cunoaştem media şi abaterea standard, putem foarte
uşor să preciză m probabilitatea ca un scor pară se situeze într-o anumită poziţie.
Pentru disciplinele socio-umane, acest lucru este vital, deoarece atunci câ nd
mă sură m, practic preciză m poziţia pe care o are un subiect în raport cu o
populaţie de referinţă .

Este ideal ca această poziţie să poată fi prezentată într-o manieră


standardizată . Acest lucru poate fi uşor de îndeplinit dacă avem în vedere
conceptual de note standardizate.

La baza acestui concept stau notele „z”. Notele „z” reprezintă diferenţa
dintre scorul observat şi medie, în termeni de abatere standard, cu alte
cuvinte, notele „z” nu sunt altceva decâ t distanţele la care se situează scorurile
particulare în raport cu media grupului iar această distanţă este exprimată
standardizat.

93
Teoretic, notele „z” sunt note
obţinute pe o „curbă” cu media 0 şi
abaterea standard 1. În acest caz, o
distribuţie normală are practic notele
„z” cuprinse între -3 şi +3, între
aceste note regăsindu-se peste 99%
din populaţie, după cum observaţi în
figura de alături. (Opariuc, 2009, p.
164).

Multe cazuri de analiză statistică implică o comparaţie între mediile a două


colectivităţi generale.

Exemplu: Un patron al unui restaurant doreşte să vadă dacă există diferenţe


între vânzările realizate înainte şi după o campanie de publicitate;

Exemplu: Un grup de consumatori doreşte să vadă dacă există o diferenţă


semnificativă între consumul electric pentru două tipuri de cuptoare cu microunde.

Notele „z” au şi ele o serie de proprietă ţi cu aplicabilitate practică de-


osebită , dintre care:

• Media unei distribuţii „z” este egală cu zero, afirmaţie ce rezultă din
proprietatea acestui indicator de a se diminua atunci câ nd scă dem o constantă
din fiecare scor particular. Deoarece din formulă rezultă această diferenţă (se
scade fiecare scor particular din medie), în final media va ajunge la valoarea zero;

• Abaterea standard a unei distribuţii „z” este întotdeauna 1. Şi această


afirmaţie rezultă din proprietă ţile abaterii standard. Ştim că dacă împă rţim
abaterea standard la o constantă , valoarea acesteia se divide corespunză tor. Din

94
formulă , observă m că acea constantă la care împă rţim este chiar abaterea
standard iar împă rţirea a două numere egale are ca rezultat 1.

Notele „z” sunt note direct calculabile, utilizâ ndu-se media şi abaterea
standard şi reprezintă „temelia” orică rui proces de standardizare.

Scorurile Z

Pasul 1:
La pasul 4 selectaţi „Save
standardized values as variables”.

Se apasă „OK”.

Pasul 2:

Scorurile Z sau standard


sunt în a doua coloană din
„Data View” în „Data Editor”
şi sunt numite „ZVârstă”.

Raportarea output-ului.

Abaterea standard pentru o variabilă este uşor de menţionat în textul raportului:


„A fost determinată abaterea standard a vârstei ca fiind 5,74 ani (N= 10)”.
*Este posibil ca abaterea standard să fie înregistrată împreună cu alte statistici, cum ar fi
media, rangul, etc.

95
Totuşi, principalul dezavantaj al notelor „z” este acela că sunt puţin intuitive.
Trebuie să ştim bine ce înseamnă distribuţia normală pentru a înţelege corect
semnificaţia acestor note. În plus, au valori pozitive şi negative, ceea ce le face, iarăşi,
greu de utilizat.

Testul Chi-Square.
Diferenţe între frecvenţele eşantioanelor.
_________________________________________________________________________________________________________________

În general Testul chi-square este folosit pentru evaluarea existenţei unei


diferenţe semnificative între două eşantioane formate din date de frecvenţă (date
nominale). Acesta, analizează tabelele de asociere sau contingenţă pe baza a două
variabile categoriale nominale.

De asemenea, poate fi folosit şi pentru testarea faptului că un singur eşantion


este semnificativ diferit faţă de o populaţie cunoscută.
Observaţie: Această aplicaţie este cea mai puţin comună, deoarece
caracteristicile unei populaţii sunt rareori cunoscute în cercetare.
Observaţie: Trebuie avut în vedere faptul că o analiză chi-square trebuie să
includă datele fiecărui individ o singură dată. Frecvenţele totale trebuie să fie egale
cu numărul de persoane folosite în analiză.

*Testul chi-square analizează frecvenţe. Niciodată acestea nu trebuie să fie transformate în


procente pentru a fi introduse în SPSS, deoarece vor da rezultate eronate atunci când se va calcula
valoarea şi semnificaţia chi-square.
* O analiză chi-square trebuie să includă datele fiecărui individ o singură dată, astfel încât
frecvenţele totale să fie egale cu numărul persoanelor folosite în analiză.

96
Tabel 1. Relaţia dintre site-urile accesate şi genul biologic.
Respondenţi Site-uri anunţuri muzică
matrimoniale
Feminin 27 14 19
Masculin 17 33 9

Introducerea datelor din tabelul anterior


folosind procedura „Weighing cases”.

Procesarea Testului chi-square folosind două sau mai multe eşantioane este
exemplificată cu datele din tabelul anterior, care arată care dintre cele trei tipuri de
site-uri este preferat de către un eşantion de 119 adolescenţi de ambele sexe.

Pasul 1:

În meniul „Variable View” Se îndepărtează cele Se etichetează valorile


din „Data Editor” se etichetează două zecimale. „gen” şi „program”.
primele trei coloane cu „gen
biologic”, „Site” şi „Frecvenţă”.

Pasul 2:

97
Se introduc valorile adecvate în meniul
„Data View” din meniul „Data Editor”.
Fiecare rând reprezintă una dintre cele şase
celule din tabelul prezentat anterior

Paul 3:

Pentru a pondera aceste celule


se selectează:
„Data”
„Weight Cases…”

Pasul 4:

Se selectează „Frecvenţa”, „Weight


cases by” şi apoi se apasă butonul
◄.

Se apasă „OK”.

Inroducerea datelor din tabelul 1 caz cu caz.

Se introduc valorile pentru


cele două variabile în fiecare
dintre cele 119 cazuri.

Efectuarea Testului chi-square pe baza tabelului 1.


Pasul 1:

Se selectează:
„Analyze”
„descriptives statistics”

98
„Crosstabs…”(tabele de asociere)

Pasul 2:

Se selectează „Gen” şi se
apasă butonul ► pentru
„Row(s)”: pentru a-l
introduce în caseta respectivă.

Se selectează „Site” şi se apasă


butonul ◄ pentru „Column(s)”:
pentru a-l introduce în caseta
respectivă.

Se selectează „Statistics…”

Pasul 3:

Se selectează „Chi-square”.
Se selectează „Continue”
Pasul 4:

Se selectează „Cells..”
Pasul 5:
În secţiunea „Counts” se selectează
„Expected”. Se selectează
„Unstandardized” în secţiunea
„Residuals”. Se selecteaze „Continue”,
99
apoi se apasă „OK în ecranul anterior
care reapare.
* Termenul „rezidual” se referă la diferenţe.

Interpretarea output-ului pentru Testul chi-square.


Acest al doilea tabel din output indică frecvenţa (Count), frecvenţa aşteptată
(Expected Count” şi diferenţa (Residual) dintre cele două pentru fiecare dintre cele
şase celule ale tabelului.

100
De exemplu: Frecvenţa sau numărul de
fete care spun că preferă site-rile de
matrimoniale este de 17, iar numărul anticipat
de probabilitate este 21,8, diferenţa dintre cele
două valori fiind de – 4,8.

Al treilea tabel, şi ultimul


indică valoarea coeficientului
(Pearson) chi-square (13,518),
gradele de libertate (2) şi
semnificaţia two-tailed
(0,001). Din moment ce
această valoare este mai mică
de 0,05, coeficientul chi-
square este semnificativ.

 Al doilea tabel indică


frecvenţele observate şi cele aşteptate ale cazurilor şi diferenţa (valoarea reziduală)
dintre acestea pentru fiecare celulă. Frecvenţa observată (numită „Count”) este
prezentată prima, apoi frecvenţa aşteptată (numită „Expected Count”. Frecvenţele
observate sunt întotdeauna numere întregi, astfel încât să fie uşor de localizat.
 Coloana finală din tabel etichetată „Total” conţine numărul de cazuri din
respectivul rând, urmat de numărul aşteptat de cazuri din tabel.
Astfel primul rând are 60 de cazuri, urmat de numărul aşteptat de cazuri din
tabel. Astfel, primul rând are 60 de cazuri, număr care va fi identic numărului de
cazuri aşteptate (adică 60).
 În mod similar, rândul final din acest tabel (etichetat „Total) prezintă mai întâi
numărul de cazuri din respectiva coloană urmat de numărul aşteptat de cazuri din tabel
pentru coloana respectivă. Astfel, prima coloană are 44 de cazuri, număr care ca fi
întotdeauna egal cu numărul aşteptat de cazuri (adică 44,0).
 Valoarea chi-square, gradul său de liberate şi nivelul său de semnificaţie sunt
afişate în al treilea tabel care începe cu „Pearson” (cel care a elaborat acest test).

101
Valoarea chi-square este de 13,518, care, rotunjită la un număr cu două zecimale,
devine 13,52. Gradul său de libertate este 2, iar probabilitatea two-tailed exactă este
0,001.
 Sub acest tabel se mai poate vedea şi mărimea „minimum expected count” a
oricărei celule din tabel, care este 13,88 pentru ultima celulă (fetele care preferă site-
urile cu muzică). Dacă diferenţa minimă aşteptată este mai mică decât 5.0, atunci
trebuie să se acorde foarte multă atenţie Testului chi-square.
* Dacă se foloseşte un tabel 2x2 de tip chi-square şi apar frecvenţe anticipate reduse, este recomandat
să se folosească testul Fisher, pe care aplicaţia SPSS îl include în output în astfel de situaţii.

Raportarea output-ului pentru Testul chi-square.

Există două modalităţi de descriere a rezultatelor.

* Pentru o persoană neexperimentată aceste două posibilităţi de interpretare pot părea foarte
diferite, dar, practic, ele înseamnă acelaşi lucru.

 Rezultatele se pot descrie astfel: „A existat o diferenţă semnificativă între


frecvenţele observate şi cele aşteptate în cazul adolescenţilor băieţi şi fete
în ceea ce priveşte preferinţa lor pentru cele trei tipuri de site-uri ( χ 2 = 13,51.
DF = 2, p = 0,001)”.
 O altă posibilitate de interpretare a rezultatelor obţinute ar putea fi:
„ Există o asociere semnificativă între genul biologic şi tipul de site preferat ( χ 2
= 13,51. DF = 2, p = 0,001)”.
 Raportarea şi direcţia rezultatelor se poate face astfel: „ Fetele tind mai mult
decât băieţii să prefere site-urile cu anunţuri (de toate genurile) şi preferă mai puţin
site-urile despre matrimoniale sau pe cele cu muzică”.

102
CURS 9

REGRESIA SIMPLĂ LINIARĂ.

REGRESIA

Metoda regresiei presupune explicarea unei variabile rezultative y pe baza


uneia sau mai multor variabile factoriale, utilizând un model (o funcţie de regresie).
Într-un astfel de model este folosită noţiunea de cauzalitate adică
schimbările în variabila independentă determină sau cauzează schimbări în variabila
dependentă.

103
Relaţii exacte între fenomene şi procese social-economice nu pot fi însă
descrise oricât de multe caracteristici factoriale am lua în consideraţie, datorită
fenomenelor aleatoare care nu pot fi modelate sau explicate.
În cazul în care se ia în considerare o singură variabilă cauzală, regresia se
numeşte simplă, iar unul dintre modelele clasice cele mai utilizate pentru a explica
comportamentul unei variabile efect în funcţie de o singură variabilă independentă este
linia dreaptă.
Regresia mai poate fi:

1. Regresie multiplă stepwise.


Este o modalitate de alegere a predictorilor (probă psihologică cu valoare de
anticipare a reușitei în activitatea ulterioară) unei anumite variabile
dependente pe baza criteriilor statistice.
Practic, procedura hotărăşte care variabilă independentă reprezintă cel mai
bun predictor, al doilea ca valoare, etc.
Se pune accentul pe identificarea celor mai buni predictori pentru fiecare
etapă. Când predictorii se află într-o relaţie strânsă de corelaţie atât între ei
cât şi cu variabila dependentă, adeseori, o varibilă ajunge să fie enumerată ca
fiind predictor, iar cealaltă nu. Acest lucru înseamnă că a doua variabilă nu
constituie un predictor, ci doar că nu adaugă nicio informaţie în plus
predicţiei faţă de cele oferite de primul predictor.
2. Regresia multiplă ierarhică.
 Permite cercetătorului în ce ordine să folosească o listă de predictori. Acest
lucru se realizează prin asocierea predictorilor sau a grupurilor de predictori
în blocuri de variabile.

104
Regresia.
Predicţia cu precizie.
_________________________________________________________________________________________________________________

Dacă există o relaţie între două variabile atunci sunt posibile estimarea sau
predicţia scorului unei persoane la o variabilă pornind de la scorul obţinut la cealaltă
variabilă. Cu cât este mai puternică corelaţia cu atât este mai bună predicţia. Variabila
independentă este variabila folosită pentru a realiza predicţia, aceasta fiind cunoscută
şi ca variabilă predictor sau variabila X.
*Este foarte important a nu se confunda variabila independentă cu cea dependentă. Cel mai
bun mod de a evita aceste probleme este de a examina scatterplot-ul sau diagrama scatter a relaţiei
dintre cele două variabile. Axa orizontală X este variabila independentă şi axa verticala Y este
variabila dependentă. Se poate investiga şi punctul de tăiere, acesta fiind punctul în care panta se
intersectează cu axa verticală.
Regresia devine o tehnică mult mai importantă atunci când sunt folosite mai
multe variabile pentru predicţia valorilor unei alte variabile.

În continuare este ilustrată procesarea unei regresii simple şi a unei diagrame de regresie
folosind datele din tabelul următor.
Scor muzica 3 7 8 9 9 6 4 3 4 7
Scor 7 5 4 4 5 8 9 9 7 6
matematică

Unul din principalele capitole ale statisticii are în vedere posibilitatea de a face predictii.
Desi nu se gasesc relatii perfecte în lumea reala, prin intermediul regresiei se pot face predictii ale
unei variabile, în functie de valoarea alteia. Predictia este procesul de estimare a valorii unei
variabile cunoscând valoarea unei alte variabile.
Regresia se leaga foarte mult de conceptul de corelatie. O asociere puternica între
doua elemente conduce la cresterea preciziei predictiei unei variabile pe seama alteia. Daca am
avea o corelatie perfecta (+1 sau –1) estimarea ar fi extrem de precisa

105
Introducerea datelor.
Pasul 1:
În „Variable „View” din „Data
Editor” se denumeşte primul
rând „muzică”
şi al doilea rând „matematică”.
* Se înlătură cele două zecimale.

Pasul 2:

În „Data View” din „Data editor” se


introduc datele pentru:
- muzică în prima coloană;
- matematică în a doua coloană.

Regresia simplă.

Pasul 1:
Se selectează:
„Analyze”
„Regression”
„Linear…”

Pasul 2:

Se selectează „Muzică” şi apoi


se apasă butonul ► de lângă
eticheta „Dependent”, pentru a
introduce această variabilă în
căsuţa variabilei dependente.

Se selectează „matematica”
şi apoi se apasă butonul ◄ de
lângă eticheta „Independent(s)
pentru a introduce această
variabilă în căsuţa variabilei
(lor) independente.
Se selectează „Statistics…”
106
Pasul 3:

Se selectează „Confidence Intervals”.

Se selectează „Continue”.
Se apasă „OK” din ecranul precedent
care reapare.

Interpretarea output-ului.
Acest tabel conţine datele esenţiale pentru analiza regresiei.
Constanta este 12,716. Acesta este punctul în care linia de regresie
intersectează axa verticală.

Coeficientul nestandardizat Coeficientul standardizat Intervalul de


al regresiei este – 1,049. al regresiei este – 0,845. încredere ia valori
Acesta semnifică faptul că, Acesta este mai mult sau de la -1,591 la -0,507.
pentru fiecare creştere cu 1 mai puţin coeficientul de

107
a variabilei “matematică” corelaţie Pearson dintre
valoarea variabilei “muzică” abilităţile muzicale şi
descreşte cu – 1,049. cele matematice.
 În acest tabel, B este panta liniei de regresie (în SPSS fiind denumită coeficient de
regresie nestandardizat).
 Intervalul de încredere de 95% pentru aceşti coeficienţi este de la -1,59 la -0,50.
Intervalul de încredere de 95% arată intervalul pantelor de regresie în care putem fi
siguri într-o proporţie de 95% că panta pentru populaţie se va găsi.
 Cota denumită „Beta” are valoarea -0,845. Aceasta este de fapt corelaţia Pearson
între cele două variabile.
Regresia simplă - o variabila dependenta si una independentă

Scatterplot-ul de regresie.
Atunci când se realizează o regresie este recomandabilă cercetarea diagramei
scatter pentru cele două variabile.

Pasul 1:
Se selectează:
„Graphs”
„Legacy Dialog”
„Scatter/Dot”

Pasul 2:

Se selectează „define”;
„simple” este deja selectat.

Pasul 3:

108
Pentru a avea variabila „muzică” ca axă verticală, se selectează şi apoi se apasă
butonul ►de lângă căsuţa „Y Axis”

Pentru a avea variabila „matematică” ca axă orizontală, se selectează apoi se apasă


butonul ◄ de lângă căsuţa „X Axis”.
Se apasă „OK”

Pasul 4:

Pentru a încadra o linie de


regresie în scatterplot, se dă
dublu clic oriunde în interior şi
se va deschide „Chart Editor”.

Se selectează „Elements” şi
„Fit Line at Total”.

Interpretarea output-ului.

Punctele de pe scatterplot sunt apropiate de linia de regresie. În plus, punctele


par să formeze o linie dreaptă (relaţia nu este curbilinie).
În regresie, axa verticală este
variabila-criteriu sau dependentă (în
cazul nostru = muzica).

Linia de regresie are o pantă negativă


în acest caz; de exemplu: de la stânga
sus spre dreapta jos. În consecinţă B
are valoare negativă.

În regresie axa orizontală


este variabila predictor sau
independentă (în cazul nostru „matematică”).

109
* Linia de regresie oblică, de la stânga sus spre dreapta jos, indică o relaţie negativă între cele două
variabile.

Punctele par relativ apropiate de line, ceea ce sugerează că beta (corelaţia) ar


trebui sa fie un număr mare (negativ) şi că intervalul de încredere este relativ mic.
Regresia liniară - relatia dintre cele doua variabile poate fi descrisa printr-o dreapta în cadrul norului
de puncte.

Raportarea output-ului.

Interpretarea diagramei se poate realiza în felul următor:


„Diagrama scatterplot a relaţiei dintre abilităţile matematice şi muzicale
sugerează o relaţie liniară negativă între cele două variabile. Este posibilă predicţia cu
acurateţe a abilităţii muzicale a unei persoane cunoscând abilitatea sa matematică.

Eroarea standard
_________________________________________________________________________________________________________________

Eroarea standard este un indice pentru variabilitatea mediilor mai multor


eşantioane extrase din populaţie; cu alte cuvinte este media măsurii cu care media
eşantioanelor diferă faţă de media populaţiei din care au fost extrase.
Eroarea standard poate fi folosită ca un pas intermediar în alte tehnici
statistice, cum ar fi Testul t şi este un concept important pentru calculul intervalelor de
încredere.
Calcularea erorii standard estimate pentru medie este ilustrată cu un set de şase
scoruri ale stimei de sine, prezentate în tabelul următor.

Stima de sine 5 7 3 6 4 5

110
IX. 1. Introducerea datelor.

Pasul 1:
Se introduc datele în „Data Editor”.
Se etichetează variabila „Stima”.

IX. 2. Eroarea standard estimată a mediei.

Pasul 1:
Se selectează:
„Analyze”
„Descriptive Statistics”
„Descriptive…”

Pasul 2:

Se selectează „stima de sine” şi apoi


se apasă butonul ◄pentru a
introduce variabila „Stima de sine”
în „variable(s)”.
Se selectează „Options…”

Pasul 3:

Se selectează „ S-E mean”.

Se selectează „continue”.

Se apasă „OK” din ecranul anterior care reapare.

111
IX. 3. Interpretarea output-ului.

Eroarea standard (estimată) pentru medie a acestui eşantion este 0,577. este o
indicaţie a mediei cu care mediile eşantioanelor diferă de media populaţiei din care au
fost extrase.

 testul oferă valoarea erorii standard a mediilor eşantioanelor ca fiind 0,58 (suma este
rotunjită la două zecimale) aceasta fiind valoarea medie cu care mediile eşantioanelor
(N=6) diferă faţă de media populaţiei.
 tabelul include şi alte informaţii cum ar fi media (5,00), abaterea standard estimată a
populaţiei bazată pe acest eşantion, valorile minime şi maxime ale datelor.
 ultima coloană oferă abaterea standard (estimată) a celor şase scopuri, care este 1,41.
CURS 10
Testele rangurilor.
Statistici nonparametrice.

Testele nonparametrice sunt folosite atunci când nu este îndeplinită


condiţia ca scorurile fiecărei variabile să fie cât de cât normal distribuite (în
formă de clopot). Aceste teste fac mai puţine presupuneri referitoare la
caracteristicile populaţiei de la care provin datele, trăsătură care nu este caracteristică
testelor parametrice (cum ar fi Testul t). Metodele statistice nonparametrice nu
testează diferenţele dintre medii, deoarece acestea folosesc scoruri transformate în
ranguri. De obicei, prin aceste metode se verifică dacă rangurile dintr-un grup sunt mai
mari sau mai mici decât rangurile din celălalt grup.

112
În acest capitol vom vorbi despre Testul semnului şi Testul Wilcoxon
pentru date corelate (eşantioane perechi). Cu alte cuvinte, aceste teste sunt
echivalentele nonparametrice ale Testului t pentru eşantioane perechi.
Testul U Mann-Witney se foloseşte pentru date nerelaţionate, acesta fiind
echivalentul nonparametric al Testului T pentru eşantioane independente.

Scoruri relaţionate: TESTUL SEMNULUI

Procesarea a două teste nonparametrice pentru scoruri relaţionate este


exemplificată folosind datele din tabelul următor, care a fost folosit şi în capitolul X şi
care indică numărul de cuvinte pe care aceeaşi copii le-au verbalizat cu mamele lor la
18 luni şi la 24 luni.

Numărul de cuvinte verbalizate într-un minut la vârste diferite.

Alina Cristina Raluca Carmen Simona Radu Cristi Dan


18 luni 3 2 4 5 2 3 2 4
24 luni 5 4 7 8 3 4 4 6

Scoruri relaţionate: testul semnului.


Pasul 1:

În „Data View” din „Data Editor”


se introduc datele în primele două
coloane.

Pasul 2:

113
Se selectează:
„Analyze”
„Nonparametric Tests”

„Legacy dialog”

„2 Related Samples…”

Pasul 3:
Se selectează „Optsprezece”
şi „douăzecisipatru” şi se
apasă butonul ◄ pentru a
introduce aceste două
variabile în caseta „Test Pair
(s) List”.
Se deselectează „Wilcoxon”.
Se selectează „Sign”.
Se apasă „OK”.

Interpretarea output-ului pentru testul semnului.

Se poate ignora primul dintre cele două


tabele care indică numărul de diferenţe
negative (0), pozitive (8) şi inexistente
(0) în ceea ce priveşte numărul de
cuvinte verbalizate la cele două vârste.

Al doilea tabel indică nivelul de


semnificaţie al acestui test. Probabilitatea
two-tailed este de 0,008 ceea ce este
semnificativ la nivelul de 5%.

114
Raportarea output-ului pentru testul semnului.

Rezultatele obţinute pot fi raportate astfel: „Există o schimbare semnificativă la


nivelul numărului de cuvinte verbalizate de la 18 luni la 24 de luni (Testul semnului:
N=0,008).
*Testul semnului este utilizat pentru a testa diferenţa dintre valori. Dacă nu ar exista nicio
diferenţă între valorile pereche, atunci numărul diferenţelor pozitive ar trebui să fie egal cu numărul
diferenţelor negative. Cu cât numărul diferenţelor de un anumit semn este mai mare, comparativ cu
cel al diferenţelor de semn opus, cu atât creşte probabilitatea ca diferenţa dintre variabile să fie
semnificativă. (Popa, 2008, p. 323).

Scoruri relaţionate: testul Wilcoxon.

Testul Wilcoxon reprezintă opţiunea predefinită în caseta de dialog a testelor


cu două eşantioane perechi. Dacă s-a deselectat anterior, se selectează din nou. Se
apasă „OK” pentru a obţine output-ul Testului Wilcoxon.

Interpretarea output-ului pentru Testul Wilcoxon.

Se poate ignora primul dintre cele două tabele de output. Acestea indică
numărul de diferenţe negative (0), pozitive (8) şi inexistente (0) în ceea ce priveşte
115
datele ordonate după cele două vârste, şi media şi suma catalogate negative şi pozitive.
Valorile pentru „două zeci şi patru„ de luni sunt mai mari decât cele pentru
„optsprezece” luni.
Al doilea tabel indică nivelul de
semnificaţie al acestui test. În loc să
folosească tabelul valorilor critice,
computerul utilizează o formulă care
stabileşte o conexiune cu distribuţia Z.
Scorul Z este de – 2,558, care are o
probabilitate two-tailed de 0,011. Aceasta înseamnă că diferenţele dintre cele două
variabile sunt semnificative din punct de vedere statistic la un nivel de 5%.
Notele „z” reprezintă diferenţa dintre scorul observat şi medie, în termeni de abatere
standard, cu alte cuvinte, notele „z” nu sunt altceva decât distanţele la care se situează scorurile
particulare în raport cu media grupului iar această distanţă este exprimată standardizat.
Teoretic, notele „z” sunt note obţinute pe o „curbă” cu media 0 şi abaterea standard 1. În acest caz, o
distribuţie normală are practic notele „z” cuprinse între -3 şi +3, între aceste note regăsindu-se peste
99% din populaţie, după cum observaţi în figura de alături. (Opariuc, 2009, p. 164).

Raportarea output-ului pentru Testul Wilcoxon.

Rezultatele obţinute pot fi raportate astfel: „Există o diferenţă semnificativă


între numărul de cuvinte verbalizate de copii între 18 şi 24 de luni (Wilcoxon: N=8, z
=2,56, two-tailed p = 0,011)”.
Tesul Wilcoxon – se foloseşte atunci când subiecţii sunt evaluaţi de două ori pe o scală de
interval, iar variabilele nu întrunesc condiţiile pentru utilizarea testului t al diferenţelor pentru
eşantioane perechi. Testul utilizează proceduri de tip neparametric şi apelează la diferenţele dintre
valorile-pereche şi la ordonarea lor.

116
Scoruri nerelaţionate: Testul U Mann-Whitney.

Pentru procesarea unui test nonparametric pentru scoruri necorelate, vom folosi
datele din tabelul următor, care indică scoruri ale emotivităţii obţinute de 10 copii care
provin din familii biparentale şi 10 copii care provin din familii monoparentale.

Familii 12 18 14 10 19 8 15 11 10 13
biparentale
monoparentale 6 9 4 13 14 9 8 12 11 9

Pasul 1:
- este acelaşi ca şi cel prezenta la capitolul XI.

Pasul 2:

Se selectează:
„Analyze”
„Nonparametric tests”
„Legacy dialog”
„2 Independent Samples…

Pasul 3:

Se selectează „Emotivitate” şi
se apasă butonul
►pentru a introduce parametrul
„Emotivitate” în caseta „Test
Variable List”.
117
Se selectează „Familie” şi se
apasă butonul ◄pentru a
introduce „Familie” în caseta
„Grouping Variables”.

Se selectează „Define Groups…”

Pasul 4:

Se scrie 1 (pentru un singur părinte) în c aseta de


lângă „Group 1”.
Se scrie 2 (pentru 2 părinţi) în caseta de lângă
„Group 2”.
Se selectează „Continue”.
Se apasă „OK” din ecranul anterior care va
reapărea.

*Testul Mann-Whitney este utilizat pentru testarea diferenţelor dintre grupuri independente pentru
care variabila dependentă este exprimată în valori ordinale (de rang) sau atunci când nu suportă un
test parametric (testul t). (Popa, 2008, p. 333).

XV.8. Interpretarea output-ului pentru testul U Mann-Whitney.

Se poate ignora primul dintre cele două tabele de output. Acest tabel indică
faptul că rangul mediu dat parametrului „Emotivitate” pentru primul grup (adică
valoarea 2) este 13,15, iar rangul mediu pentru al
doilea grup (adică valoarea 1) este de 7,85. Aceasta
înseamnă că valorile din grupul 2 (biparentale) au
tendinţa să fie mai mari decât cele din grupul 1
(monoparentale).

118
Al doilea tabel indică statistica de bază mann-Whitney, valoarea U fiind de 23,500,
ceea ce este semnificativ din punct de vedere statistic la un nivel de 0,043.
Computerul a listat şi un scor Z de -2,011, care este semnificativ la nivel de 0,044.

Aceasta este valoarea Testului Mann-Whitney atunci când se aplică o corecţie pentru
ranguri înrudite. După cum se poate vedea, aceasta a modificat nivelul de semnificaţie
doar marginal, de la 0,44 la 0,44.

Raportarea output-ului pentru Testul U Mann-Whitney.

Rezultatele obţinute în urma acestei analize se pot raporta astfel: „ Testul U


Mann-Whitney a concluzionat că scorurile emotivităţii la copii din familiile cu doi
părinţi sunt semnificativ mai mari decât la cei din familiile cu un singur părinte
(U=23,5, N1,2=10, p two-tailed p= 0,044)”.
Testul Man-Whitney se aplică ragurilor pe care le au datele şi este sensibil la numărul de
cazuri.
Este un test statistic pentru date ordinale şi se utilizează atunci când (Popa, 2008):
- Variabila dependentă este exprimată pe scală de tip ordinal;
- Variabila dependentă este măsurată pe scală de interval/raport – aici are loc o transformare de
rang, adică, se înlocuieşte fiecare valoare a distribuţiei cu poziţia pe care o are în cadrul
distribuţiei, sub aspectul ordinii de mărime.

119
CURS 12

ELEMENTE DE ANALIZĂ DISPERSIONALĂ

Studierea fenomenelor şi proceselor sociale şi economice prin metode


statistice presupune folosirea unor indicatori cu conţinut de valori sintetice, care
să prezinte proprietatea de a fi reprezentative pentru cel mai mare număr de
valori individuale din care s-au calculat.

Statistica dispune de procedee care permit să se verifice în ce măsură aceste


valori calculate, de regulă sub formă de mărimi medii sau ecuaţii de tendinţă au
caracter de valori tipice pentru grupa sau colectivitatea de fenomene la care se referă.

ANALIZA DE VARIANŢĂ (ANOVA)

120
Analiza de varianţă indică măsura în care câteva (două sau mai multe grupuri)
au medii foarte diferite. Această analiză resupune că fiecare dintre grupurile de scoruri
provine de la indivizi diferiţi.
Cu ajutorul testului parametric de analiză dispersională ANOVA se pot examina
două sau mai multe eşantioane independente pentru a determina dacă mediile
populaţiilor din care provin ar putea fi egale, putându-se pune astfel în evidenţă
influenţa factorului considerat sau a tratamentului efectuat.
Există mai multe tipuri de ANOVA, dar două dintre acestea sunt cele mai
frcevent folosite (Popa, 2008, p. 129):
- ANOVA unifactorială – se aplică atunci când avem o variabilă
depedentă măsurată pe o scală de interval/raport măsurată pentru trei sau
mai multe valori ale unei variabile independente categoriale.
Exemplu: scorul obţinut la testul de cunoştinţe statistice ale studenţilor de
la psihologie în funcţie de tipul de liceu absolvit (real, umanist, etc).
- ANOVA multifactorială – se aplică atunci când avem o singură variabilă
dependentă şi două sau mai multe variabile independente, fiecare având
două sau mai multe valori măurate pe o scală categorială (nominală sau
ordinală).
Exemplu: scorul obţinut la testul de cunoştinţe statistice ale studenţilor de
la psihologie în funcţie de tipul de liceu absolvit (real, umanist, etc) şi de
gen (masculin, feminin).

Observaţie: Nu este o condiţie esenţială să avem scoruri egale în fiecare set.

Grupurile diferite aparţin variabilei independente; valorile numerice corespund


variabilei dependente.

121
Practic, analiza de varianţă calculează variaţia dintre scoruri şi pe cea dintre
nivelul pe eşantioane.
Dacă două valori estimative sunt foarte diferite, înseamnă că variaţia datorată
variabilei independente este mai mare decât ne-am putea aştepta pe baza variaţiei
dintre scoruri. Dacă această disparitate este suficient de mare, diferenţa de la nivelul
variabilităţii este semnificativă din punct de vedere statistic. Acest lucru înseamnă că
variabila independentă are efect asupra scorurilor.
Analiza de varianţă poate fi dificil de interpretat atunci când se folosesc două
sau mai mult de două grupuri.
Cu ajutorul acestui tip de varianţă se studiază mărimea şi frecvenţa cu care
valorile reale ale unei caracteristici statistice se abat de la valorile teoretice calculate,
precum şi măsura în care aceste variaţii sunt dependente sau independente de factorul
de grupare.
Exemplu: variaţia salariilor primite de muncitori în funcţie de gradul lor de
calificare (se verifică în ce măsură gradul de variaţie a calificării muncitorilor
determină variaţia salariilor).
Analiza dispersională se aplică în special când datele provin dintr-o cercetare
selectivă, iar din cercetările anterioare se dispune de informaţii cu privire la gradul şi
forma de distribuţie a caracteristicilor în colectivitatea generală.
Pentru a efectua analiza dispersională trebuie să se înregistreze variaţia unei
caracteristici statistice, condiţionată de unul sau mai mulţi factori de grupare. În acest
sens, caracteristica a cărei variaţie se studiază se consideră ca variabilă rezultativă şi
se notează cu y, iar caracteristicile după care se face gruparea datelor se consideră
variabile independente sau factoriale şi se notează x1, x2, ... , xn.

122
Analiza de varianţă bifactorială pentru
scoruri nerelaţionate/necorelate.
_________________________________________________________________________________________________________________

Analiza two-way de varianţă permite compararea mediilor unei variabile


dependente atunci când există două variabile independente.
Dacă există mai mult de o variabilă dependentă, atunci analiza se realizează
separat pentru fiecare variabilă.
Realizarea unei analize two-way pentru scoruri nerelaţionate de varianţă este
exemplificată în tabelul următor, care indică scorurile obţinute de către diferiţi
participanţi în şase condiţii, reflectând cei doi factori ai privării de somn şi alcool.
Scopul acestei analize este acela de a aprecia dacă diferitele combinaţii de cafea şi
deprivare de somn afectează diferenţiat numărul mediu de greşeli făcute.

Datele pentru un experiment referitor la privarea de somn:


Numărul de erori în cazul unui test video.

privare de somn
3 ore 6 ore 9 ore
Consum alcool 14 16 20
10 14 22
15 23 30
Fără alcool 9 11 10
9 8 14
12 11 12

Metoda two-way ANOVA pentru scoruri


nerelaţionate.

Pasul 1:

123
Se introduc datele. Cele ouă coduri pentru „Alcool” (1=alcool; 2= fără alcool) – în
prima coloană.

Cele trei coduri pentru „Privare de somn” se regăsesc în a doua coloană (1= 3 ore, 2=
6 ore, 3= 9 ore).

Greşelile sunt prezentate în a treia coloană.

Se elimină cele două zecimale din mediul „Variable View”.

Pasul 2:

Se selectează:
„Analyze”
„General Linear Model”
„Univariate…”

Pasul 3:

Se selectează „Erori” şi se apasă butonul


► de lângă caseta „Dependent Variable
”pentru a introduce parametrul acolo.
Se selectează „Alcool” şi „Privare de
somn” fie împreună, fie separat, şi se
apasă butonul „Fixed factor(s)” pentru
a le introduce în casetă.
Se selectează „Options…”

Pasul 4:

Se selectează „Descriptives
statistics” şi „Homogeneity test”.

124
Se selectează „Continue”.

În ecranul anterior, care va


reapărea, se selectează „Plots…”.
Pasul 5:

Se selectează „Alcool” şi se apasă


butonul ► de lângă caseta
„Horizontal axis” – pentru a
introduce parametrul acolo.

Se selectează „Privare de somn” şi


se apasă butonul ◄ de lângă caseta
„Separate Lines” - pentru a
introduce opţiunea în casetă.

Se selectează „Add”
.
Se selectează „Continue”. Se apasă „OK” din ecranul anterior
care va reapărea-

Interpretarea output-ului.

Acest tabel conţine


mediile , abaterile
standard şi numărul
(N) de cazuri pentru
cele două variabile
„Alcool” şi „Privare
de somn”. Luate
separat sau
împreună.
Media pentru
condiţia „Alcool”
este comparată cu „Totalul” pentru
„Privare de somn” (adică 18,22). Media pentru privare de 3 ore de somn este
comparată cu „Total” pentru
„Alcool” (adică 11,50).

125
Al treilea tabel de oferă informaţii referitoare la Testul Levene, care verifică
similaritatea varianţelor. Din moment ce semnificaţia acestui test este 0,085 (valoarea
care este mai mare decât 0,05), varianţele sunt similare

Al patrulea
tabel indică
nivelele de
semnificaţie
pentru cele două
variabile
„Alcool” şi
„Privare de
somn”, şi
interacţiunea
dintre acestea.

 În tabelul de analiză a varianţei, raportul F pentru cele două efecte principale


(Alcool şi Privare de somn) este prezentat primul.

 Pentru prima variabilă, cea a alcoolului, Raportul F este 22,891, ceea ce este
semnificativ la nivelul 0,000. Deoarece sunt numai două condiţii pentru ca acest efect
să se producă, se poate conhide că scorul mediu al uneia dintre condiţii este mult mai
mare decât pentru cealaltă.
 Pentru a doua variabilă a privării de somn, aceasta este egală cu 5,797, valoare care
are un nivel exact de semnificaţie de 0,017. Astfel, Raportul f este semnificativ din
punct de vedere statistic la un nivel de 0,05, ceea ce înseamnă că mediile celor trei
condiţii legate de somn nu sunt similare.
 Mediile care diferă de celelalte pot fi determinate ulterior prin folosirea testelor de
comparaţii multiple, cum este Testul t pentru eşantioane independente.
 raportul F pentru interacţiunile dintre cele două variabile (Alcool şi Privare de
somn) este de 2,708 → nivelul de semnificaţie al acestui raport este de 0,107→ nu este
nicio interacţiune semnificativă.

126
Acest grafic este realizat pentru mediile celor şase condiţii. El a fost editat cu
ajutorul comenzii “Chart Editor”.

Estimated Marginal Means of erori

privare de somn
3 ore
22,50 6 ore
9 ore
Estimated Marginal Means
20,00

17,50

15,00

12,50

10,00

alcool fara alcool

alcool

Raportarea output-ului.

 Rezultatele din output se pot raporta astfel: „O analiză de varianţă two-way


ANOVA demonstrează obţinerea unor efecte semnificative în cazul alcoolului (F =
22,981, p< 0,001) şi al privării de somn (F=5,80, p = 0,017), dar nu şi în cazul
interacţiunii celor două variabile (F =2,70, p= 0,107).

Comparaţii multiple cu ANOVA.


_________________________________________________________________________________________________________________

Acest capitol extinde aria de acoperire a Testelor t multiple prezentate în


capitolele anterioare şi explică modul în care se decide care perechi de medii sunt
diferite în mod semnificativ între ele, în cazul analizei de varianţă.
Această tehnică se foloseşte atunci când sunt mai mult de două medii.

127
Pentru a prezenta această procedură vor fi folosite informaţiile prezentate la
capitolul XV.
Date studiu
Grup 1 Grup 2 Grup 3
Tratament hormonal Tratament hormonal Placebo
8 4 4
11 2 6
8 4 4

Pasul 1:

Se introduc datele.
Se codifică cele trei
condiţii cu valorile 1, 2, 3.
Se etichetează „Hormon 1”,
„Hormon 2” şi „Placebo”

Pasul 2:

Se selectează:
„Analyze”
„Comparea Means”
„One-Way ANOVA”.

Pasul 3:
Se selectează „depresie” şi se
apasă butonul ►de lângă caseta
„Dependent List” – pentru a
introduce parametrul în casetă.

Se selectează „Condiţie” şi se
apasă butonul ◄ de lângă caseta
128
„Factor” – pentru a introduce
parametrul acolo.

Se selectează „Post Hoc…”

Pasul 4:

Se selectează:
„Tukey”
„Duncan”
„Scheffe”.

Se apasă
„Continue”.

Se selectează „OK” în
ecranul care va apărea
din nou.

Interpretarea output-ului.

Primul tabel reprezintă rezultatele analizei de varianţă. Raportul F pentru efectul


dintre grupuri (adică efectul hormonilor) este 13,941, care are un nivel exact de
semnificaţie de 0,006. Acest lucru înseamnă că efectul dintre grupuri este
semnificativ; per total, mediile pentru cele trei grupuri diferă.

Al doilea tabel şi ultimul oferă rezultatele celor trei teste de comparaţii


multiple.

129
Dacă se foloseşte Testul Tukey al diferenţei semnificative oneste (HSD),
media de la grupul hormonului 1 este semnificativ diferită de media de la grupul
hormonului 2 (semnificaţia=0,06) şi semnificaţia de la media grupului Controlului
placebo (semnificaţia=0,020).

Subgrupele omogene.

Grupul hormonului 2 şi al
controlului Placebo
aparţin aceleiaşi
subgrupe, ceea ce
înseamnă că nu sunt
semnificativ diferite.

Grupul hormonului 1 este


singurul din această a
doua subgrupă, motiv
pentru care aceasta este
semnificativ diferită de
mediile celorlalte două
grupe.
* Sunt reprezentate mediile grupelor din subgrupele omogene.
a. Foloseşte Media armonică a dimensiunilor eşantioanelor
=3,000.

130
 Tabelul final, numit „Subgrupele omogene”, enumeră grupurile de medii care nu
sunt semnificativ diferite între ele.
Dacă se ia în calcul aceste două rânduri pentru a se folosi în Testul Tukey HSD, în
acest caz există două subgrupe de medii. Subgrupa 1 indică faptul că mediile grupelor
hormonului 2 şi ale controlului placebo cu valorile 3,33 şi 4,67 nu diferă semnificativ.
Subgrupa 2 conţine doar media grupei hormonului 1, în valoare de 9,00. Astfel, media
grupului hormonului 1 este semnificativ diferită atât de media grupei hormonului 2,
cât şi de cea a gupelor de control placebo .
 Toate cele trei teste prin comparaţii multiple sugerează acelaşi lucru: faptul că
există diferenţe semnificative între grupele hormonului 1 şi hormonului 2 şi între
grupele hormonului 1 şi cele ale controlului placebo. Alte diferenţe nu mai există.

Raportarea output-ului.

Rezultatele output-ului pot fi raportate astfel: „O analiză de varianţă


unifactorială pentru scoruri necorelate a demonstrat producerea unui efect general
semnificativ pe tip de tratament medicamentos (F=13,94, p= 0,06). Prin Metoda
Scheffe de analiză a intervalului s-a descoperit că grupul hormonului 1 era diferit de
grupul hormonului 2 (p= 0,07) şi de grupul controlului placebo (p=0,24), dar nu s-au
mai găsit alte diferenţe semnificative”.

131
CURS 14

ETAPELE CERCETĂRII ÎN ŞTIINŢELE SOCIOUMANE


_________________________________________________________________________________________________________________

Orice demers statistic presupune un proces care trebuie să parcurgă mai multe
etape (Popa, 2008):
 Prezentarea cadrului general al cercetării;
 Prezentarea metodei şi a lotului de subiecţi;
 Prelucrarea datelor;
 Discutarea şi interpretarea rezultatelor;
 Formularea concluziilor.

132
1. PREZENTAREA CADRULUI GENERAL AL CERCETĂRII.

Deşi pare cea mai simplă etapă a demersului ştiinţific, ea nu este deloc simplă
şi necesită un volum mare de cunoştinţe.
Se urmă reşte exprimarea cu claritate a tipului de studiu statistic care a fost
efectuat şi a obiectivelor urmă rite.

Obiectivele generale vizează cercetarea în ansamblul ei. Un studiu ştiinţific


are unul, maxim două obiective generale. Nu ne putem concentra eforturile pe
mai multe planuri – ori planurile sunt ghidate exact de modul de formulare al
obiectivelor generale.

Obiectivele generale ale unei cercetă ri sunt formulate în urma unui cumul
de observaţii şi, eventual, în urma unui studiu metaanalitic. În ultima situaţie, este
necesară prezentarea rezultatelor studiului metaanalitic care a ghidat formularea
obiectivului general şi prin care se demonstrează lipsa de abordare sau
abordarea nepertinetă a problemei studiate.

Obiectivele specifice reprezintă aspecte detaliate ale investigaţiei


ştiinţifice, derivă din obiectivul general şi creează baza formulă rii ipotezelor de
cercetare (alternative). În funcţie de dimensiunile cercetă rii şi de resursele pe
care le are la dispoziţie cercetă torul, se pot formula unul, două , trei… două zeci de
obiective specifice, aflate în legă tură cu obiectivul general.

Formularea ipotezelor este cea de-a doua etapă a unei cercetări ştiinţifice.
Definiţie: O ipoteză reprezintă o prezumţie clară, explicită şi verificabilă,
referitoare la relaţiile sau diferenţele existente între două sau mai multe variabile.
Ipotezele sunt formulate atât în cazul studiilor care urmăresc stabilirea unor
relaţii dintre variabile (numite şi studii corelaţionale) cât şi pentru cercetările ce
vizează existenţa unor diferenţe dintre variabile (studii factoriale). Clocotici (2000),
133
face diferenţa între ipotezele unilaterale, care se folosesc atunci când se cunoaşte
sensul, direcţia în care evoluează variabilele, şi ipoteze bilaterale, (care nu impun
direcţia de evoluţie a variabilelor).
 Ipotezele unilaterale se utilizează în momentul în care avem o idee de
sensul, direcţia în care evoluează variabilele. Aceste ipoteze sunt mai precise şi
permit dezvoltarea unor studii pertinente, existâ nd şanse mai mari să fie
susţinute de analiza da-telor. O ipoteză unilaterală se recunoaşte după modul de
formulare, deoarece în enunţul acesteia regă sim direcţia de evoluţie a
variabilelor. De exemplu, dacă desfă şură m o cercetare care are ca scop analiza
legă turii dintre anxietate şi depresie, am putea formula o ipoteză unidirecţională
de tipul există o legătură pozitivă între nivelul anxietăţii şi nivelul depresiei”. În
această situaţie, ipoteza va fi susţinută numai în cazul în care legă tura dintre
anxietate şi depresie este pozitivă , adică în situ-aţia în care subiecţii cu anxietate
care manifestă şi puternice simptome depresive sau subiecţii cu anxietate mică
nu prezintă simptome depresive. Ipoteza nu se susţine dacă , de exemplu, subiecţii
cu anxietate mică manifestă puternice simptome de-presive (cazul unei corelaţii
negative). Deşi mult mai precisă , există în permanenţă riscul să nu putem susţine
ipoteza în condiţiile în care sensul formulat nu este reprezentat de datele cer-
cetă rii, chiar dacă în urma analizei pot rezulta şi alte sensuri specifice;

 Ipotezele bilaterale nu impun direcţia de evoluţie a variabilelor. Deşi


mai puţin precise în comparaţie cu cele unilaterale, ipotezele bilaterale oferă o
mai mare libertate cercetă torului. O formulare de genul „există o legătură între
nivelul de anxietate şi predominanţa simptomelor depresive” poate fi susţinută atâ t
în cazul în care corelaţia este pozitivă câ t şi în situaţia unei corelaţii negative.
Ipoteza nu este susţinută doar în condiţiile în care, cu o mare probabilitate, se
demonstrează inexistenţa unei asemenea relaţii.

134
Ipoteza nulă şi ipoteza alternativă.

Este foarte important să se cunoască noţiunea de ipoteză nulă şi ipoteză


alternativă.
Astfel, reluând exemplul de mai sus, ipoteza alternativă (specifică), se notează
cu Hs, poate fi enunţată astfel:
„H1: se presupune că există o legătură între prezenţa la ore şi performanţa
academică”.

Din punct de vedere statistic, nu putem verifica direct această ipoteză .


Singura modalitate prin care putem sprijini ipoteza alternativă este să enunţă m şi
apoi să testă m ipoteza nulă . De obicei, ipoteza nulă – notată cu H0 – este o negare
logică a ipotezei alternative şi poate fi formulată astfel:

„H0: Un există nicio legătură între prezenţa la ore şi performanţa academică.”

Observaţie: Într-o cercetare statistică există o singură ipoteză nulă şi una sau
mai multe ipoteze specifice.
Observaţie: Atât ipoteza nulă (H0) cât şi ipoteza alternativă (Hs) se referă la
populaţie, nu la eşantioane ca atare.

Semnificaţie şi eroare în testarea ipotezelor.


Putem respinge ipoteza nulă dacă probabilitatea să fie adevărată este foarte
mică. Dar aici poate apare întrebarea „Cât de mică?”, „Care este pragul la care se pote
respinge ipoteza nulă?”
Într-o cercetare ştiinţifică se lucrează cu două praguri de cercetare:

135
 Primul prag reprezintă probabilitatea de 0,05 (5% sau 1 caz din 20
de cazuri);
 Al doilea prag reprezintă probabilitatea de 0,01 (1% sau 1 caz din
100 de cazuri).
 În litertura de specialitate, pragul de semnificaţie se notează cu p
sau
Observaţie: Pragul de semnificaţie permite respingerea ipotezei nule
atunci când există valori mai mici decât p (p < 0,05).
Aşa cum am precizat în capitolul anterior, cele mai multe cercetări riscă
apariţia unei erori de tip I (care este cea mai gravă eroare), având tendinţa de a
neglija apariţia erorii de tip II.
Eroarea de tip I corespunde pragului de semnificaţie de de 0,05 (5%), adică,
sunt şanse de 5% să se respingă ipoteza nulă în condiţiile în care s-ar dovedi
adevărată.
Eroarea de tip II corespunde pragului de semnificaţie de (0,1%), ceea ce
înseamnă că putem respinge ipoteza nulă dacă s-ar dovedi adevărată, şi mai multe
şanse să nu o respingem atunci când ea ar trebui respinsă.
Populaţia de interes trebuie definită cu claritate, aceasta fiind privită ca o
colecţie de date care descriu o anumită caracteristică a respectivelor obiecte.

Se descrie modul de constituire a eşantionului, se insist pe criteriile de


includere sau excludere a unor indivizi (sau valori). Dacă eşantionul este
stratificat atunci se vor descrie criteriile de stratificare şi volumul de subiecţi
pentru fiecare grup.

Concluzionâ nd, prezentarea cadrului general al cercetă rii reprezintă prima


etapă a demersului ştiinţific. Ea este însoţită de un studiu al cercetă rilor în

136
domeniu şi de prezentarea clară şi precisă , în termeni cuantificabili, a obiectivelor
generale, specifice şi a eşantionului.

2.PREZENTAREA METODEI ŞI A LOTULUI DE SUBIECŢI

Variabilele analizate trebuie să fie descrise explicit, se indică denumirea şi


semnificaţia fiecăreia precum şi modul în care au fost măsurate.
Instrumentele de măsurare folosite trebuie să fie descrise, să li se prezinte
caracteristicile psihometrice (validitate).
Nu în ultimul rînd, în această etapă, se va prezenta modul în care a decurs
procedura de investigare, descrierea condiţiilor, a duratei, a locului şi a personalului
care a contribuit la aceasta.

3. PRELUCRAREA DATELOR;

Pentru a putea proiecta o cercetare, trebuie să dăm răspunsul la o serie de


întrebări, cum ar fi:
Ce condiţii vor fi aplicate subiecţilor în vederea testării ipotezelor;
Care sunt varibilele cercetării şi cum vor fi tratate acestea;
La ce nivel de precizie vor fi efectuate măsurătorile;
Care va fi lotul de subiecţi pe care se va desfăşura cercetarea.
În ceea ce priveşte prelucrarea datelor, se începe cu eventualele complicaţii care
au apărut pe parcursul studiului (se includ valorile lipsă, dificultăţile de organizare
care au influenţat calitatea informaţiilor recoltate, etc.

137
Analiza statistică va începe întotdeauna cu o inspecţie a valorilor obţinute (se va
face analiza sub aspectul formei, indicatorilor tendinţei centrale, valorilor excesive,
etc). Această analiză are ca scop obţinerea unei imagini de ansamblu a variabilelor de
interes (frecvenţe, tendinţa centrală, împrăştierea, grafice).
Momentul cel mai important în această etapă îl constituie verificarea ipotezelor
statistice. Rezultatele obţinute depind de calitatea cu care au fost parcurse etapele
menţionate anterior.
Tabelele sunt cele mai utilizate pentru includerea în textul rapoartelor de
cercetare a rezultatelor obţinute, deoarece ele indică cu exactitate valorile şi susţin cu
precizie, concluziile. Figurile, prezintă informaţia într-o formă intuitivă şi accesibilă.
Este recomandat ca fiecare grafic să prezinte o singură idee.

DISCUTAREA ŞI INTERPRETAREA REZULTATELOR;

Dacă rezultatele sunt recoltate şi înregistrate corect, atunci, prelucrarea acestora


se face foarte uşor cu ajutorul programelor computerizate (cum ar fi SPSS). O
interpretare consistentă are la bază suportul teoretic, claritatea şi consistenţa ipotezelor
cercetării.
Un aspect foarte important îl constituie şi interpretarea semificaţiei statistice
(atingerea pragului de semnificaţie). Aşa cum menţiona Opariuc (2009), prin metode
statistice se stabileşte doar la ce nivel de încredere se poate respinge ipoteza nulă.

FORMULAREA CONCLUZIILOR.

138
Formularea concluziilor reprezintă etapa finală a unei cercetări ştiinţifice şi
rezumă întregul demers ştiinţific. Dacă pragul de semnificaţie este mai mare decât
pragul acceptat, atunci probabil ipoteza nulă este adevărată şi va trebui acceptată. În
caz contrar putem respinge ipoteza nulă.
Observaţie: Ipoteza specifică nu poate fi respinsă sau acceptată. Singura
decizie pe care o putem lua se referă la ipoteza nulă.

BIBLIOGRAFIE

1. Clocotici Valentin., Stan Aurel., 2000 – „Statistică aplicată în psihologie”, ed.


Polirom, IaşI
2. Howitt, D, Cramer, D, 2010 – Introducere în SPSS pentru psihologie, Ediţia a II-a,
Ed. Polirom, Bucureşti;
3. Opariuc, C.D., 2009 - Statistică aplicată în științele socio-umane. Noțiuni de bază.
Statistici univariate, Editura ASCR, Cluj-Napoca;
4. Opariuc, C.D., 2011 - Statistică aplicată în ştiinţele socio-umane. Analiza
relaţiilor şi a diferenţelor statistice, Editura Arhip-Art, Sibiu;
5. Opariuc-Dan, Cristian, 2009 - "Statistica aplicata in stiintele socio-umane. Notiuni
de baza - Statistici univariate" Editura ASCR, Cluj-Napoca;
6. Rotariu Traian. şi coord., 2006 – Metode statistice aplicate în ştiinţele sociale, Ed.
Polirom, Iaşi;

139
7. Rus Mihaela, Naidin Mihaela, 2010 – „Elemente de statistică aplicată”, Editura
Bren, Bucureşti.
8. Sandu, M. 2012 – „Aspecte teoretice și practice ale programului SPSS”, Editura
Fundației Andrei Șaguna;
9. Sava, F. A. 2004. Analiza datelor în cercetarea psihologică. Metode statistice
complementare. Cluj-Napoca : ASCR;
10.Ţiţan, E, Ghiţă, S,, Trandaş, C, 2003 – Bazele statisticii, Ediţia a 2-a, Ed. Meteor
Press, Bucureşti;
11.Voineagu, V; Mitruţ, C; Isaic-Maniu, Al, ş.a, 2004 – Statistica, Ed. Universitară,
Bucureşti;
12.Voineagu, V; Ţiţan, E, 2004 – Sondaje şi anchete, vol. 1 şi II, Ed. Fundaţiei
„Andrei Şaguna”, Constanţa.

140

S-ar putea să vă placă și