Documente Academic
Documente Profesional
Documente Cultură
Chişinău, 2012
I. Cadrul conceptual
Cercetologia şi Statistica aplicată este disciplina care permite evidenţierea şi soluţionarea
problemelor psihologiei, argumentarea bazelor metodologice. O funcţie importantă a acestei
discipline este metodologia demersului experimental argumentat din punct de vedere teoretic şi
practic, cu analiza statistică ulterioară a rezultatelor experimentale.
Cursul prevede studierea relaţiilor calitative şi cantitative dintre fenomenele de masă,
generalizând rezultatele înregistrate pe eşantion la întreaga populaţie, utilizând facilităţile unui
Pachet de Programe de Prelucrare Statistică (PPPS) – SPSS, STATISTICA etc. Statistica este
abordată ca un instrument al metodei ştiinţifice în Psihologie.
La nivel de cunoaştere:
Să identifice terminologia, noţiunile, conceptele de bază, metodologia psihologiei şi statisticii
aplicate în psihologie;
Să identifice problematica, teoriile, principiile statisticii aplicate în psihologie;
Să determine sursele de informaţie statistică;
Să completeze tabele în baza datelor statistice, să reprezinte grafic rezultatele prelucrării statistice.
Să selecteze metodele şi instrumentele adecvate de prelucrare a datelor;
Să clasifice modurile de prezentare a datelor statistice.
La nivel de integrare:
Să stabilească condiţiile de aplicare a diferitor metode de cercetare în psihologie;
Să argumenteze raportarea rezultatelor obţinute cu ajutorul metodelor statistice;
Să dezvolte înţelegerea relaţiei statisticii cu cercetarea în domeniul psihologiei;
Să dezvolte capacităţii de rezolvare a problemelor de natură statistică specifice problemelor din
domeniul psihologiei;
Să promoveze atitudini bazate pe raţionament critic în raport cu opiniile sau teoriile din domeniul
psihologiei;
Să respecte criteriile etice în analiza statistică.
Temele de bază:
V. Conţinutul temelor
1. Introducere în statistică
1.1. Metode, tehnici şi instrumente de cercetare în Psihologie. Statistica, instrument al metodei
ştiinţifice în Psihologie.
1.2. Scurt istoric al Statisticii în Psihologie.
1.3. Concepte fundamentale: Noţiunea de variabilă. Scale de măsurare. Individ, populaţie statistică,
eşantion.
Definiţia statisticii
O altă definiţie:
statistica este o ramură a matematicii al cărui obiect de studiu îl reprezintă elaborarea
unor metode de analiză a unor ”fenomene de masă”, indiferent de natura acestora.
Psihologia are ca obiect de studiu cunoaşterea omului sub diferite aspecte ale
comportamentului acestuia. Cum acestea sunt greu de cuantificat, iar statistica
lucrează cu numere, s-ar părea că cele două ştiinţe nu au nimic în comun.
La prima vedere pare cel puţin ciudată legătura între statistică şi psihologie. De a
lungul timpului oamanii de ştiinţă au găsit această legătură: mai întâi filozofii, apoi
matematicienii.
Se pot distinge trei modalităţi ”neştiinţifice” de fundamentare a cunoaşterii
umane(Spata 2003):
Tradiţionalismul sau argumentul autorităţii, care se bazează pe adevăruri
prestabilite. Cunoaşterea bazată pe autoritate decurge din din supunerea
necondiţionată faţă de exponentul autorităţii respective, care poate fi
savant, divinitate etc.
Raţionalismul. Baza acestuia este deducţia. O teorie este adevărată prin
simplu fapt că este logică. Celebrul silogism antic: ”Toţi oamenii sunt
muritori. Socrates este om. Deci, Socrates este muritor” este adevărat şi nu
are nevoie de studiu pentru a fi demonstrat.
Raţionamentul poate fi de tip:
deductiv
inductiv
Raţonamentul deductiv nu este întotdeauna valabil deoarece se bazează pe
adevăruri care par general valabile şi care nu se regăsesc întotdeauna în
cazuri particulare.
Raţonamentul inductiv porneşte de la cazuri specifice pentru a obţine
concluzii generale.
Bunul simţ sau experienţa. Se bazează pe observaţii sau experienţă
îndelungată, care îl fac credibil. De exemplu, am fi tentaţi să apreciem că o
persoană care suferă o criză într-un spaţiu public are mai multe şanse să
primească ajutor dacă este mai multă lume în jur. În realitate, rezultatele
unor cercetări ştiinţifice arată că în astfel de situaţii are loc un fenomen de
”diminuare a responsabilităţii”, iar ajutorul primit este mai puţin prompt
decât dacă în jur ar fi mai puţini oameni.
Modalităţile de cunoaştere prezentate mai sus sunt importante, dar nu pot
constitui argumente pentru enunţarea de concluzii generalizatoare. Ele pot
fi utilizate pentru ipoteze de cercetare, dar nu pot înlocui demersul
doveditor.
Societatea modernă este construită pe cuantificare numerică şi
interpretarea datelor de acelaşi tip, de la evaluarea ratei şomajului şi
calcularea indicelui de inflaţie până la studiile care estimează eficienţa
unui medicament sau a unei metode de psihoterapie.
În domeniul psihologiei, obiectivele fundamentale al metodei ştiinţifice
sunt:
înţelegerea
explicarea
predicţia comportamentului uman şi a proceselor mintale.
Rolul statisticii:
să confere credibilitate datelor de observaţie
să confirme sau infirme ipoteze, ca urmare a prelucrării acestora.
Exemple.
1.Să presupunem că un psihoterapeut intueşte că depresia cronică a uneia
dintre pacientele sale poate fi pusă în legătură cu înălţimea mică a acesteia.
În raport cu acest caz singular, el îşi poate vesrifica intuiţia prin dialogul
terapeutic, dar, dacă doreşte să probeze faptul că în general femeile scunde
sunt mai predispuse la depresie cronică, va trebui să iniţieze un proces de
cercetare. În cazul în care rezultatele acestuia vor confirma intuiţia,
devenită astfel ipoteză, atunci demersul terapeutic adresat femeilor scunde
cu manifestări depresive va putea fi mai precis orientat pe una dintre
sursele potenţiale ale tulburării.
Scurt istoric
Se spune că psihologia are un trecut îndelungat, dar o istorie scurtă.
Afirmaţia se referă la faptul că psihologia a apărut o dată cu începuturile
civilizaţiei umane, dar ştiinţific s-a dezvoltat în ultima vreme.
Utilizarea statisticii în psihologie datează după anii 50, datorită facilităţilor
oferite de mijloacele de calcul.
Statistica face parte din istoria psihologiei prin personalităţi ale psihologiei
care şi-au adus contribuţii importante prin introducerea metodelor
cantitative în psihologie şi în dezvoltarea analizei statistice.
Ronald Aymer Fisher (1890 -1962) este cel care si-a adus o contribuţie
majoră la utilizarea statisticii în psihologie.
Fisher are contribuţii remarcabile în matematică, astronomie, biologie şi
genetică.
Fisher a manifestat un interes deosebit pentru studiul erorilor şi analizei de
varianţă, procedură foarte utilizată în statistica psihologică.
Se poate spune că psihologia face parte din categoria ştiinţelor care au
apărut mai târziu, dacă ţinem seama de faptul că a fost acceptată abia în a
doua jumătate a secolului al XIX ca ştiinţă de sine stătătoare.
Date şi informaţii
În viaţa de toate zilele se întîlnesc la tot pasul mărimi ale căror valori se
schimbă sub influenţa diferiţilor factori.
variabilă
măsurare
explorări sistematice
explorări specifice.
Datele pe care le prelucrează un psiholog provin din metode de
investigaţie specifice:
experiment
test
observaţie
chestionar
convorbire psihologică
anchetă psihologică etc.
Variabile în psihologie:
Exemple:
Un alt tip este acela de variabilă categorială, atunci când valorile acesteia
descriu categorii.
Măsurarea în psihologie
trăsături de personalitate
opinii
atitudini
motivaţii
stări emoţionale etc.
Dacă se măsoară greutatea şi înălţimea unui grup de sportivi se vor atribui
nişte numere care înseamnă Kg şi respectiv centimetri.
Codificările de mai sus sun arbitrare, iar prin convenţie pot fi înlocuite cu
altele.
Variabilele măsurate pe scale nominale pun în evidenţă diferenţele
calitative şi nu pe cele cantitative.
Exemple.
Scale Proceduri
statistice
adecvate
NEPAAMETRICE
Calitative
NOMINALE
INTERVAL
condiţii)
Erori de măsurare
oboseală
efort fizic
emoţii
precizia aparatului etc.
Organizarea datelor
Statistica descriptivă are drept obiective organizarea, sintetizarea şi descrierea datelor.
Rezultatul măsurării se traduce în obţinerea unei colecţii de date. Să presupunem că am aplicat un
test de cunoştinţe unui grup de 25 de elevi / studenţi şi am obţinut următoarele valori pentru
variabila „răspunsuri corecte”:
8, 6, 10, 9, 6, 6, 8, 7, 4, 9, 6, 2, 8, 6, 10, 4, 5, 6, 8, 4, 7, 9, 4, 6, 4.
Datele de mai sus reprezintă o „serie statistică” sau o „distribuţie statistică”, compusă din 25 de
„valori” sau „scoruri”. Ele se mai numesc şi „valori brute”.
Distribuţii de frecvenţe.
Frecvenţa este o altă noţiune fundamentală a statisticii, derivată din cea de individ, populaţie şi
caracteristică. Ea este legată de răspunsurile la întrebările de tipul “Câţi indivizi sunt de un fel, câţi
sunt de alt fel?”
Dacă avem o caracteristică A, cu clasele A1, A2, ..., As şi dacă cei n indivizi, k1 sunt A1, k2 sunt
A2, ..., ks sunt As, atunci se realizează o cirespondenţă biunivocă între mulţimea A{A1, A2, ..., As} şi
mulţimea K={k1, k2,..., ks}, adică între mulţimea claselor şi mulţimea frcvenţelor. În acest caz
mulţimea K poartă denumirea de distribuţie de frecvenţe.
Forma obişnuită sub care se prezintă distribuţia de frecvenţă este cea a tabelului cu două linii (sau
cu două coloane).
Clase A1 A2 ...... As Total
Frecvenţe k1 k2 .... ks n
Iată câteva exemple de distribuţii de frecvenţe.
Răspunsuri 2 3 4 5 6 7 8 9 10
Corecte
Frecvenţa 1 0 5 1 7 2 4 3 2
Tabelul 1. Distribuţia femeilor căsătorite în 1995, după starea civilă anterioară căsătoriei, conform
Anuarului demografic al României, 1996, p.295. Caracteristici calitative
Starea civilă Necăsătorită Văduvă Divorţată Total
Frecvenţe 134 371 3 232 16 340 153 943
Tabelul 2. Gospodăriile din România, după numărul persoanelor din gospodărie, la recensământul
din 1992, conform Anuarului demografic al României, 1996, p.p.80-81. Caracteristici cantitative.
Nr. 1 2 3 4 5
Persoane
Nr. 1.246.889 1.882.145 1.529.256 1.392.464 651.885
gospodării
6 7 8 10şi 9
Total
peste
333.403 152.604 55.087 23.404 21.539 7.288.676
Tabelul 3. Distribuţia femeilor căsătorite în 1995, având starea civilă anterioară “divorţată”, în
funcţie de vârsta de căsătorie. Conform Anuarului demografic al României, 1996, p.295. Tabel cu
intervale de grupare
Frecvenţa relativă raportată la unitate fr(1) este raportul dintre frecvenţa absolută şi suma
frecvenţelor absolute (fa/∑fa).
Frecvenţa relativă procentuală fr(%) exprimă procentul valorilor care corespunde unei anumite
valori din cadrul distribuţiei. Suma frecvenţelor relative procentuale este întotdeauna egală cu 100.
Acest tip de grupare a datelor poate fi utilizata la fel de eficient si în cazul datelor de tip categorial
sau ordinal.
De exemplu, la întrebarea unui psiholog preocupat de reclamele comerciale care sunt caracteristicile
produselor pe care clientii le pretuiesc cel mai mult s-au primit 20 de raspunsuri:
X = (calitatea, pretul, cantitatea, calitatea, pretul, calitatea, pretul, pretul, pretul, utilitatea, calitatea,
pretul, utilitatea, utilitatea, cantitatea, pretul, calitatea, calitatea,pretul, pretul).
Mult mai utilizată, este gruparea datelor pe intervale. Pentru aceasta vom ţine cont de distribuţia
grupată a datelor, fiind necesară împarţirea valorilor în clase de intervale egale. Există două metode
principale de împarţire a datelor pe intervale.
Prima este propusa de Spatz (1997), are în vedere patru pasi de urmat:
1. Numarul de intervale trebuie să fie între 10 si 20 (alţi autori recomandă între 5 şi 15 intervale [1].
Această condiţie are rolul de a maximiza grafic conceptul de distribuţie normală a datelor. Un
numar mai mic de clase (intervale) conduce la o estompare grafică a distribuţiei normale a datelor.
Un numar mai mare de 20 de intervale ne apropie de distributia grafică simplă, eliminând câştigul
realizat de gruparea datelor.
2. Stabilirea mărimii intervalului (notat cu i). Trei sau cinci constitue marimea cel mai des întâlnită
a intervalelor. Dacă un i de 5 produce mai mult de 20 de clase, atunci se trece la o mărime a
intervalului superioară, de obicei 10 sau un multiplu de 10. Există şi cazuri în care este nevoie de un
interval i=2 pentru a pastra minimul de 10 intervale.
3. Primul interval începe cu o valoare multiplu de i ales. De exemplu, daca 22 este cel mai mic
rezultat, iar marimea intervalului este 3, atunci vom începe cu valoarea 21 deoarece este multiplu de
trei. O situaţie diferită apare daca luam un i=5. În acest caz se obişnuieşte să se utilizeze o valoare
de start astfel încât mijlocul intervalului sa fie un multiplu de 5. În cazul aminitit, în care 22 este cel
mai mic rezultat, ar fi indicat sa se porneasca de la 18 (intervalul ar fi 18-22), iar mijlocul său 20
(multiplu de cinci).
4. Deşi, se porneşte de la valorile mici în stabilirea intervalelor, în tabel acestea sunt trecute într-o
ordine descrescatoare.
Vom ordona în continuare, rezultatele a 48 de subiecti.
X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7, 10, 14, 18, 23, 25, 18, 17, 16,
29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10, 24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18).
Vom parcurge urmatorii pasi:
1. Notăm valorile extreme (4 si 31)
2. Calculăm diferenţa dintre cele două valori 31-4 = 27
3. Stabilim marimea intervalului astfel încât sa obtinem între 10 si 20 de intervale. Daca împartim
27 la 5 vom obtine 5,4 intervale, fapt de nedorit deoarece este prea departat de numarul intervalelor
dorite (10-20). Daca împartim 27 la o alta marime (i=3) vom obtine 9 intervale. Deoarece patru (cea
mai mica valoare) nu este multiplul lui trei va trebui sa începem de la valoarea trei (chiar daca
aceasta nu exista), ca urmare distanta dintre valorile extreme se va mari cu o unitate si va deveni 28.
Împartind din nou 28 la trei vom obtine 9,33, o valoarea care ne lasa noua posibilitatea de a alege
între o distributie cu 9 clase sau una cu 10.
4. Vom alege distributia cu 10 intervale, tinând cont de recomandarea autorului acestui algoritm, ca
minumul intervalelor sa fie 10.
5. Sa începe de la capatul de jos al tabelului (de la valorile mai mici). În cazul de faţă vom porni de
la trei, ca multiplu al mărimii intervalului i=3) si vom scrie intervalele gasite. În coloana a doua a
tabelului vor fi trecute valorile centrale ale intervalelor. Toate intervalele sunt egale în marime însa
pot diferi în ce priveste frecventa. Fiecare interval începe cu o valoare divizibila cu marimea
intervalului (i=3).
6. Se calculează frecvenţa de apariţie a tuturor valorilor cuprinse într-un interval şi le trecem în
tabel în coloana trei.
Intervalul (I) Mijlocul clasei Frecventa (f)
30-32 31 1
27-29 28 2
24-26 25 2
21-23 22 6
18-20 19 9
15-17 16 11
12-14 13 8
9-11 10 4
6-8 7 3
3-5 4 2
În alte surse se propune o astfel de grupare a datelor:
[20,p.61-62] Valorile extreme reprezintă valori neobişnuit de mari sau mici faţă de celelalte valori
ale unei distribuţii. Identificarea lor este necesar[ pentru a se evita efectul pe care ]l au asupra
valorilor tendinţei centrale, în primul rând asupra mediei. Una din metodele de identificare este
analiza grafică de tip Box-and-Whisker-Plot (boxplot). Reprezentarea boxplot este constituită
dintr-o casetă (dreptunghi) a cărei limită inferioară este plasată în dreptul percentilei 25, iar limita
superioară în dreptul percentilei 75. Deci, caseta cuprinde 50% din valorile distribuţiei. Distanţa
dintre valorile limită ale casetei se notează cu H. H Q3 Q1 . Linia din interiorul
caseteimarchează valoarea mediană ( Me Q2 ) . “Mustăţile” care pornesc de la limitele superioară
şi inferioară ale casetei au o lungime maximă egală cu 1,5H. În acel punct se plasează ultimele
valori „normale” ale distribuţiei. Orice valoare mai mică sau mai mare decât acestea sunt definite
ca extreme (outliers).
Modul de reprezentare a boxplot-ului poate fi urmărit pe baza exemplilui de mai jos. În tabel este
dată distribuţia scorurilor IQ pentru 52 de persoane.
Valori QI fa fr% Frc%
Rang percentil
142 1 1,9 100 Ilustrarea este142
142modului este
devaloarea
valoare extremă extremă
construire a reprezentării
Limita boxplot
de sus a boxplot-ului
135 este135 este valoarea
valoare extremă extremă
poate urca până la valoarea 128
135 1 1,9 98,1
125 1 1,9 96,2 Se fixează 125 pentru că 133,5 nu există, iar celelalte
valori sunt mai
124 1 1,9 94,2 114+13x1,5=133,5 mari de 133,5
123 1 1,9 92,3
121 1 1,9 90,4
118 2 3,8 88,5
117 1 1,9 84,6
116 2 3,8 82,7
115 2 3,8 78,8 114 Percentila 75 este valoarea 114
114 3 5,8 75,0
113 2 3,8 69,2
112 1 1,9 65,4 Punctele marcate dincolo de limitele orizontale ale
reprezentarii marcheaza valorile marginale ale
110 1 1,9 63,5
distributiei (O=Outliers) si valorile extreme (E).
109 4 7,7 61,5 107
107
108 3 5,8 53,8 Mediana = apr.107
107 3 5,8 48,1 H=114-101=13
106 2 3,8 42,3
105 1 1,9 38,5
104 1 1,9 36,5
102 3 5,8 34,6
101 4 7,7 28,8
101
98 1 1,9 21,2 Per centila 25 este valoarea 101, pentru
97 2 3,8 19,2 că 28,8 este rangul percentil cel
96 1 1,9 15,4 mai apropiat de 25
94 1 1,9 13,5
92 2 3,8 11,5
91 1 1,9 7,7
89 1 1,9 5,8
87 1 1,9 3,8
Limita de jos a
86 1 1,9 1,9
101-13 x 1,5=81,5 boxplotului
Total 52 100 poate coborâ până la valoarea 81,5
Se fixează la 86, care este valoarea minimă a distribuţiei
Graficul stem-and-leaf (stemplot) (tulpină-şi-frunză)
Observăm că valorile sunt cuprinse între 86 şi 125. Alegem o valoare convenabilă pentru „tulpină”,
care va juca rolul de interval de clasă. În cazul nostru aceasta va fi caloarea 10. „Tulpina”
reprezentării stemplot este în acest caz numărul de zeci din fiecare valoare individuală. Valorile din
coloana stem (tulpina) indică numărul de zeci, iar valorile din coloana leaf (frunza) – numărul de
unităţi. Stemplotul poate fi privită ca o histogramă orizontală. Valorile dis4tibuţiei se reconstituie
astfel: se înmulţeşte „tulpina” cu mări,ea ei, la care se adaugă „frunza”.
Steam-and-Leaf
8. 679
9. 12246778
10. 111122245667778889999
11. 02334445566788
12. 1345
Mărimea “tulpinii”: 10
Fiecare “frunză”: 1 caz
Steam-and-Leaf
8. 679
9. 1224
9. 6778
10. 111122245
10. 667778889999
11. 023344455
11. 66788
12. 1345
Mărimea “tulpinii”: 10
Fiecare “frunză”: 1 caz
Reprezentare stem-and-leaf.
Indicatori sintetici ai distribuţiilor statistice
[20, p.58]
Vom aminti că tehnicile statisticii descriptive sunt globale şi sintetice. Statisticile descriptive
globale sunt numerice (analiza de frecvenţe simple şi grupate) şi grafice. Dar analiza de frecvenţe
presupune manipularea întregii cantităţi de date. Pentru a elimina acest neajuns sunt utilizaţi
indicatorii sintetici. Aceştea sunt descriptori numerici care condensează într-o valoare unică o
anumită caracteristică a întregii distribuţii de valori. Principalele avantaje pe care le oferă sunt
concentrarea semnificaţiei şi uşurinţa utilizării. Dar, dată fiind natura lor sintetică, fiecare indicator
pierde o anumită cantitate de informaţie care ţine de alte caracteristici, pe care nu le surprinde.
Modul (Mo)
Modul este expresia cea mai directă a valorii tipice (reprezentative). În cazul unei distribuţii simple
este valoarea cu frecvenţa cea mai mare de apariţie. În cazul unei distribuţii de frecvenţe grupate,
este clasa de interval cu frecvenţa cea mai mare de apariţie. Distribuţiile pot avea un singur mod
(unimodale), două moduri (bimodale) sau mai multe moduri (multimodale).
Mediana (Me)
Mediana este valoarea „din mijlocul” unei distribuţii, adică aceea care are 50% dintre valori mai
mare şi 50% dintre valori mai mici decât ea. Mediana este, în acelaşi timp, percentila 50 sau quartila
a doua Q2 . Pentru determinarea medianei, tabelul distribuţiei se ordonează crescător sau
descrescător. În cazul distribuţiilor cu un număr impar de valori, Me coincide cu valoarea
elementului din mijlocul distribuţiei. În cazul distribuţiilor pare, Me se calculează ca medie a celor
două valori din mijlocul distribuţiei.
De exemplu, în seria de valori 5, 8, 3, 2, 5, 4, 7 ordonată crescător (2, 3, 4, 5, 5, 7, 8), Me 5 , iar
în distribuţia pară 5, 3, 2, 5, 4, 7 ordonată crescător (2, 3, 4, 5, 5, 7), Me 4,5
n
s
x k i i
k
i 1
i
Pentru o distribuţie
123456789101112131415604522201616161514141412121212
Media pătratică se aplică atunci când în locul valorilor individuale ale distribuţiei sunt date
pătratele valorilor datelor iniţiale. Средняя квадратическая величина применяется тогда,
когда вместо индивидуальных значений признака представлены квадраты исходных величин.
n
x 2
i
x patr i 1
n
Proprietăţile mediei aritmetice
1. Adunarea/scăderea unei cinstante la fiecare valoare a distribuţiei măreşte/scade
media cu acea constantă.
2. Înmulţirea/împărţirea fiecărei valori a distribuţiei cu o constantă multiplică/divide
media cu acea constantă.
3. Suma abaterii valorilor de la medie este întotdeauna egală cu zero.
4. Suma pătratelor abaterilor de la medie va fi întotdeauna, mai mică decât suma
pătratelor abaterilor în raport cu oricare alt punct al distribuţiei.
Să urmărim un exemplu. Un psiholog terapeut vrea să vadă efectul unei metode de creştere a
încrederii în sine pe un lot de subiecţi. În acest scop, el evaluează încrederea în sine (уверенность в
себе) înainte şi după şedinţele de psihoterapie. Distribuţia valorilor este reprezentată în figura de
mai jos.
Amplitudinea absolută (R) este dată de diferenţa dintre valoarea maximă şi valoarea minimă ale
unei distribuţii (notaţia R provine din engleză range, „serie”) - размах
R X max X min
Utilitatea ei constă în faptul că ne indică în mod absolut plaja de valori între care se întinde
distribuţia. Principalul dezavantaj constă în faptul că poate fi influenţată de o singură valoare aflată
la extremitatea distribuţiei.
R
Amplitudinea relativă R% 100% - este dată de raportul procentual dintre amplitudinea absolută şi
m
media distrbuţiei. Este utilă atunci când cunoaştem plaja teoretică de variaţie a distribuţiei, putâns
astfel să facem o comparaţie cu plaja reală, obţinută prin formula de mai sus.
Amplitudinea este un indicator imprecis al distribuţiei, pentru că utilizează doar două valori
extreme ale distribuţiei.
Abaterea quartilă
Abaterea cuartilă (intercuartilă) –квартильное (межквартильное) отклонение I Q3 Q1 .
Abaterea cuartilă (intercuartilă) relativă – относительное квартильное (межквартильное) отклонение.
Q Q1
I rel 3
Q2
Indicele lui Gini – reprezintă media aritmetică a diferenţelor dintre toate perechile de valori, diferenţe luate
în valoare absolută – представляет собой среднее значение разностей между всех пар значений, взятых
по модулю.
n n s s
x
i 1 j 1
i xj
sau
x
i 1 j 1
i x j ki k j
în cazul caracteristicilor cu frecvenţe, s
G ,i j G ,i j
n(n 1) n( n 1)
fiind numărul valorilor distincte.
n s
n n
numeşte abaterea medie de la a. Dacă în loc de a se foloseşte media, atunci se obţine abaterea
N
medie de la medie. x i m
. Pentru cazul frecvenţelor grupate în s grupuri
Am d i 1
N
s
x m fi N
(x
i
m)
d i 1
. Vom avea în vedere că i
, aceasta fiind o proprietate a mediei.
s i 1
0
f
i 1
i N
Abaterea standard (deviaţia standard, ecart tip – écart-type, standard deviation)
Notaţii uzuale:
- s – pentru eşantioane
- σ – pentru populaţie
- SD – Standard Deviation
- Ab.std. – abatere standard
n s
n n
Cea mai mică abatere medie pătratică este cea faţă de medie. Această formă particulară a abaterii
medii pătratice poartă denumirea de abatere standard.
n s
( xi x ) 2 sau k (x i i x)2
i 1
i 1
n n
Vloarea se numeşte dispersie/varianţă.
2
N 1 N
Coeficientul de variaţie (variabilitate) – exprimă un raport procentual dintre abaterea standard şi medie. Cu
cât este mai mare, cu atât putemspunecămedia este mai puţin „reprezentativă” pentru distribuţia respectivă.
Коэффициент вариации вообще не имеет размерности, что позволяет сравнивать вариативность
случайных величин, имеющих различную природу:
s
cv 100%
m
Sunt propuse anumite limite de interpretare a a cestui indicator:
Dacă cv < 15%, împrăştierea este mică, deci media este reprezentativă;
Dacă cv este cuprinsă între 15 şi 30%, împrăştierea este mijlocie şi media este suficient de
reprzentativă;
Dacă cv este mai mare de 30%, împrăştierea este mare, iar media are o reprezentativitate redusă.
S.E.mean – eroarea standard a mediei (стандартная ошибка). (В интервале шириной, равной
удвоенной стандартной ошибке, отложенному вокруг среднего значения, располагается
среднее значение генеральной совокупности с вероятностью примерно 67%).
Tipuri de variabile
Thorndike afirma că "tot ceea ce există se găseste într-o anumită cantitate". McCall
merge mai departe afirmând că "tot ce se găseşte într-o anumită cantitate poate fi
masurat".
Prin variabilă se înţelege o anumită categorie care a fost cuantificata sau masurata. Cea
mai întâlnita clasificare a lor, împarte variabilele în patru tipuri: nominale (categoriale),
ordinale, de tip interval si de tip raport. Primele două tipuri sunt calitative, ultimele două
cantitative (numerice).
Scalele ordinale sunt tot calitative. În acest caz, numerele sunt ierarhii si exprima locul
sau ordinea într-un sir de date. Un exemplu banal este locul ocupat de cineva la o
competitie anumita (primul, al doilea, …, ultimul). În acest caz, numerele pot fi
comparate între ele în termeni de "mai mult, mai putin sau egal". Trebuie însa subliniata
valoarea ordinala a numerelor. Daca un subiect ocupa locul doi, nu putem spune ca el
este la egala distanta între locul unu si locul trei. Sa luam exemplul unui student care a
obtinut 9,80 la examenul de admitere si a ocupat locul al doilea. Locul unu ar fi ocupat
de un alt student care a avut media de 9.85, în timp ce pe locul trei s-a situat o persoana
cu media 9.30. În cazul datelor ordinale, diferenta numerica în clasament nu este necesar
egala cu diferenta numerica exprimata în unitatea de masura utilizata în acel caz (cinci
sutimi, respectiv cincizeci de sutimi).
Cele doua tipuri de masuratori amintite pâna acum presupun întotdeauna utilizarea unor
teste statistice neparametrice.
Un al treilea tip de scala este de interval. Acest tip de masuratoare permite comparatia
dintre date. Diferenta dintre doua rezultate 4 si 2 este egala cu diferenta dintre 6 si 4. În
cazul unui test de inteligenta diferenta între 100 IQ si 50 IQ este egala cu diferenta dintre
100 IQ si 150 IQ. Deficienta majora a acestei scale este ca valorile respective nu pot fi
multiplicate sau divizate. Astfel noi nu putem concluziona ca un subiect care a obtinut
150IQ este de 1,5 ori mai inteligent decât un altul care a obtinut 100IQ si nici de 3 ori
mai inteligent decât unul care a obtinut 50IQ.
Un ultim tip de masuratori sunt scalele de raport. Acestea poseda toate calitatile unei
scale de interval si are în plus doua noi. Permite multiplicarea sau divizarea datelor (2 kg
sunt jumatate din 4kg si dublul unui kg). Acest tip de masurare indica de asemenea
valoarea zero absolut, ce arata lipsa totala a cantitatii masurate. Cele mai multe
caracteristici fizice (greutate; înaltime; timp de reactie; nivelul adrenalinei) pot fi
masurate astfel.
Ultimele doua tipuri de scale (de interval, respectiv de raport) sunt expresii cantitative
ale variabilelor care pot fi supuse analizei statisticii parametrice cu mici exceptii.
Organizarea datelor
Datele variabilelor pot fi prezentate fie simplu, fie grupat. Primul tip de organizare
consta în stabilirea frecventei de aparitie a fiecarei valori. Pentru aceasta este necesara o
ierarhizare initiala a valorilor în functie de marimea lor.
Pentru a organiza datele utilizând o distributie simpla a frecventei sunt necesari urmatorii
pasi:
1. Se cauta valorile extreme din sirul de date (valoarea cea mai mare si cea mai
mica);
2. Se scriu toate valorile cuprinse între cele doua extreme într-o ordine descendenta
pe o coloana;
3. Se numara de câte ori apare fiecare valoare în sirul de date;
4. Se trece apoi în tabel, frecventa de aparitie a fiecarui numar.
Valoarea X Frecventa f
1 2
2 0
3 1
4 3
5 4
6 4
7 9
8 7
9 3
10 2
N=35
Acest tip de grupare a datelor poate fi utilizata la fel de eficient si în cazul datelor de tip
categorial sau ordinal.
Cantitate 2
Calitate 6
Utilitate 3
Pret 9
N=20
Mult mai utilizata, este gruparea datelor pe intervale. Pentru aceasta vom tine cont de
distributia grupata a datelor, fiind necesara împartirea valorilor în clase de intervale
egale. Exista doua metode principale de împartire a datelor pe intervale.
Prima este propusa de Spatz (1997) are în vedere patru pasi de urmat:
1. Numarul de intervale trebuie sa fie între 10 si 20. Aceasta conditie are rolul de a
maximiza grafic conceptul de distributie normala a datelor. Un numar mai mic de clase
(intervale) conduce la o estompare grafica a distributiei normale a datelor. Un numar mai
mare de 20 de intervale ne apropie de distributia grafica simpla, eliminând câstigul
realizat de gruparea datelor.
2. Stabilirea marimii intervalului (notat cu i). Trei sau cinci constitue marimea cel
mai des întâlnita a intervalelor. Daca un i de 5 produce mai mult de 20 de clase, atunci se
trece la o marime a intervalului superioara, de obicei 10 sau un multiplu de 10. Exista si
cazuri în care este nevoie de un interval i=2 pentru a pastra minimul de 10 intervale.
3. Primul interval începe cu o valoare multiplu de i ales. De exemplu, daca 22 este
cel mai mic rezultat, iar marimea intervalului este 3, atunci vom începe cu valoarea 21
deoarece este multiplu de trei. O situatie diferita apare daca luam un i=5. În acest caz se
obisnuieste sa se utilizeze o valoare de start astfel încât mijlocul intervalului sa fie un
multiplu de 5. În cazul aminitit, în care 22 este cel mai mic rezultat, ar fi indicat sa se
porneasca de la 18 (intervalul ar fi 18-22), iar mijlocul sau 20 (multiplu de cinci).
4. Desi, se porneste de la valorile mici în stabilirea intervalelor, în tabel acestea sunt
trecute într-o ordine descrescatoare.
X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7, 10, 14, 18, 23, 25,
18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10, 24, 17, 19, 15, 16, 12, 4, 22, 31, 19,
18).
Vom parcurge urmatorii pasi:
30-32 31 1
27-29 28 2
24-26 25 2
21-23 22 6
18-20 19 9
15-17 16 11
12-14 13 8
9-11 10 4
6-8 7 3
3-5 4 2
În aceasta situatie este recomandabila utilizarea unui interval cu o lungime de 4 sau 5 unitati (i = 4
sau 5). Se obisnuieste utilizarea intervalelor a caror lungime are o valoare impara pentru a usura
gasirea centrului intervalului. Ca urmare, utilizând formula lui Sturges la aceleasi exemplu, vom
obtine în loc de zece intervale, doar sase, deoarce am ales un interval i=5. Mijlocul intervalului este
astfel ales încât sa pastreze propietatea de a fi multiplu al marimii intervalului (în cazul dat multiplu
de cinci). Distributia frecventelor datelor grupate în acest caz este:
28-32 30 2
23-27 25 5
18-22 20 13
13-17 15 16
8-12 10 8
3-7 5 4
N= 48
Frecventa cumulata a unei clase este egala cu suma frecventelor din clasa respectiva si frecventele
din toate clasele cu valori inferioare. Astfel, pentru cazul de fata în cea de a doua situatie vom avea:
23-27 25 5 46 (5+41)
18-22 20 13 41 (13+28)
13-17 15 16 28 (16+12)
8-12 10 8 12 (8+4)
3-7 5 4 4
Exista mai multe tipuri de reprezentare grafica. Noi vom aborda urmatoarele forme
grafice adecvate statisticii descriptive: poligonul frecventelor, histogramele - pentru
variabile cantitative de tip interval ori rapoarte; histogramele si cercurile de tip
"placinta" - pentru variabile calitative, nominale.
Poligonul frecventelor
Utilizând un sir de date prezentat anterior (n=48) care a fost împartit în prealabil în 6
clase, vom obtine urmatorul poligon al frecventelor ca reprezentare grafica a sirului de
date.
Histogramele
Acest tip de grafic poate fi utilizat pentru variabile exprimate atât cantitativ cât si
calitativ.
Diferenta dintre cele doua tipuri de histograme consta în faptul ca pentru datele
cantitative sunt trecute pe ordonata frecventele grupate, în timp ce pentru datele
calitative frecventele sunt specificate paralel cu abscisa. Pe baza exemplelor date, vom
construi doua histograme (una pentru date cantitative – sirul de date împartit în 10 clase;
cealalta pentru date calitative – sirul de date prezentat în cazul psihologului intersat de
publicitate.
Diagrama circulară
În cazul datelor calitative se utilizeaza frecvent un alt tip de reprezentare grafica sub
forma unui cerc "placinta" – în engleza "pie".
Xi f
41-60 25
61-80 39
81-100 48
101-120 33
121-140 19
4. Reprezentați prin diagrama circulară urmă toarele date:
41 12 17 19 21 26 23
25 14 17 21 24 29 33
37 35 19 27 26 26 26
13 16 27 29 32 31 36
30 27 26 25 28 27 26
18 25 23 22 24 21 20
28 24 27 21 20 25 26
8. Stabiliti tabelul de distributie a frecventelor pentru urmatoarele profesiuni -
Psiholog (Ps), Logoped (L), Asistent Social (A), Consilier (C), Psihopedagog (Pp):
1. Adrian Vicenţiu Labăr. SPSS pentru ştiinţele educaţiei. Iaşi, Polirom, 2008
2. Marian Popa. Statistică pentru Psihologie. Teorie şi aplicaţii SPSS. Polirom, 2008.
3. Nicoleta Laura Popa, Liviu Antonesei (coordonator), Adrian Vicenţiu Labăr. Ghid pentru
cercetarea educaţiei. Polirom, Iaşi, 2009.
4. Dumitru Gheorghiu. Statistică pentru psihologi. Editura Trei, Bucureşti, 2004.
5. Valeriu Cabac. Evaluarea prin teste în învăţământ. Bălţi, 1999.
6. Ovidiu Lungu. Ghid introductiv pentru SPSS, EROTA TIPO, 2001.
7. A.C.Crocker. Statistics for the Teacher. The NFER-NELSON Publishing Company, 1988.
8. Douglas M. McIintosh. Statistics for the Teacher. Pergamon International Library, 1976.
9. Traian Rotariu (coordonator). Metode statistice aplicate în ştiinţele sociale. Polirom, 2000.
10. Ioan Văleanu, Maria Hâncu. Elemente de statistică generală. Litera, 1990.
11. Dennis Howit, Duncan Cramer. Introducere în SPSS pentru psihologie. Polirom, 2010.
12. Achim Buhl, Peter Zofel. SPSS Version 10. DiaSoft, 2002.
13. О.Ю.Ермолаев. Математическая статистика для психологов. Учебник. Москва, Изд-во
«Флинта» НОУ ВПО «МПСИ», 2011.
14. И.Г.Переяслова и др. Статистика. Феникс, 2005.
15. http://window.edu.ru/window_catalog/files/r41026/dvgu147.pdf
16. http://www.abcbooks.ru/books/Mathematic/Book-SPSS/index.html
17. http://dist-economics.eu.spb.ru/HTML/predmet/econometrics.htm#2
18. http://window.edu.ru/window_catalog/files/r28133/nsu012.pdf
19. http://window.edu.ru/window_catalog/files/r42159/text.pdf
20. http://books.dore.ru/bs/f6sid289.html
21. http://www.learnspss.ru/handbooks.htm
22. http://statisticasociala.tripod.com/
23. http://www.scribd.com/doc/78514490/2/Rolul-statisticii-in-cercetarea-psihologic
Rolul statisticii în cercetarea psihologică (vezi [4, p.10-11])