Sunteți pe pagina 1din 22

Statistica

Prelucrările descriptive

Obiectivul general: cunoaşterea tipurilor de prelucrări descriptive şi


realizarea acestora.

Obiectivele specifice:

Cunoaşterea tipurilor de prelucrări descriptive


Calcularea indicilor tendinţei centrale
Calcularea indicilor de împrăştiere
Reprezentarea grafică a setului de date
Cunoaşterea modului de interpretare a rezultatelor prelucrărilor descriptive

Structura modulului:
 Tipuri de analiză a datelor
 Realizarea prelucrărilor descriptive
 Indicii tendinţei centrale
 Indicii de împrăştiere
 Realizarea prelucrărilor descriptive cu ajutorul programului PSPP
 Reprezentarea grafică a datelor – poligonul de frecvenţe şi histograma

3.1 Tipuri de analiză a datelor

În analiza cantitativă a datelor avem două tipuri de prelucrări:


 Prelucrările descriptive – prin care descriem situaţia, fenomenul investigat, îi facem
o radiografie pe baza rezultatelor obţinute de eşantionul inclus în studiu
 Prelucrările inferenţiale – prin care verificăm dacă putem să generalizăm rezultatele
de la eşantionul inclus în studiu la întreaga populaţie

Tabelul 3.1 Grupul la care se referă rezulatele tipurilor de prelucrări


Prelucrările descriptive eşantion
Prelucrările inferenţiale populaţie

Pagina | 1
Statistica

3.2 Realizarea prelucrărilor descriptive

Prelucrările descriptive sunt prelucrările cu ajutorul cărora încercăm să descriem


fenomenul, referindu-ne doar la eşantionul inclus în studiu. În urma realizării prelucrărilor
descriptive vom obţine următorii indici:
 Indicii tendinţei centrale: media, mediana, modul, care ne permit identificare unor
valori caracteristice pentru setul de date.
 Indicii de împrăştiere: abaterea standard, varianţa, care ne permit să vedem care este
omogenitatea sau eterogenitatea grupului.
 Reprezentarea grafică: poligonul de frecvenţă, histograma, graficul plăcintă, graficul
cu bare.

3.2.1 Paşii realizării prelucrărilor descriptive

Paşii realizării prelucrărilor descriptive sunt:


1. Ordonarea datelor
a. Identificarea valorilor minime şi maxime
b. Notarea tuturor valorilor posibile
c. Stabilirea frecvenţei pentru fiecare valoare posibilă
2. Reprezentarea grafică şi/ sau
3. Calcularea indicilor tendinţei centrale şi a indicilor de împrăştiere

De exemplu:
La întrebarea „Cât de stresat aţi fost în ultimele 2 săptămâni?” putem obţine
răspunsuri pe o scală de la 0 la 10, unde 0 înseamnă „deloc stresat” şi 10
înseamnă „extrem de stresat”.
Având următoarele răspunsuri de la un grup de subiecţi, ce putem spune despre aceste
date?
4 7 7 7 8 8 7 8 9 4 7 3 6 9 10 5 7 10 6 8 7 8 7 8 7 4 5 10 10 0 9 8 3 7 9 7
9 5 8 5 0 4 6 6 7 5 3 2 8 5 10 9 10 6 4 8 8 8 4 8 7 3 7 8 8 8 7 9 7 5 6 3
4 8 7 5 7 3 3 6 5 7 5 7 8 8 7 10 5 4 3 7 6 3 9 7 8 5 7 9 9 3 1 8 6 6 4 8 5
10 4 8 10 5 5 4 9 4 7 7 7 6 6 4 4 4 9 7 10 4 7 5 10 7 9 2 7 5 9 10 3 7 2 5
9 8 10 10 6 8 3
Constatăm că nu putem să spunem nimic despre aceste date înainte să le prelucrăm.
Pentru a putea să spunem ceva despre nivelul de stres al persoanelor investigate, va trebui
să parcurgem paşii prezentaţi mai sus.
1. ordonarea datelor
a. identificăm valoarea minimă şi valoarea maximă din setul de date. Acestea sunt: 0
(minim) şi 10 (maxim)

Pagina | 2
Statistica

b. notăm într-un tabel toate valorile posibile dintre aceste extreme


c. pentru ficare valoare notăm frecvenţa cu care apare în setul de date (de câte ori apare în
setul de date)
Drept rezultat vom obţine un tabel precum cel prezentat mai jos:
Nivelul de stres Frecvenţa
10 14
9 15
8 26
7 31
6 13
5 18
4 16
3 12
2 3
1 1
0 2

2. reprezentarea grafică şi/ sau calculul indicilor tendinţei centrale şi a indicilor de


împrăştiere

3.2.2 Indicii tendinţei centrale

Media se notează cu „m” şi reprezintă media artimetică a datelor. Pentru a calcula


media facem suma tuturor datelor obţinute şi împărţim această sumă la numărul de subiecţi
din grup (adică la numărul total de date) după formula:

m=∑x/ N

unde m este media, x este valoarea răspunsului bifat de un subiect şi N este numărul de
subiecţi.
Mediana, notată cu „med”, este valoarea de pe poziţia centrală din şirul ordonat de
date.
Mediana este un alt indice al tendinţei centrale, care se utilizează mai ales când avem de-a face cu distribuţii
asimetrice. De exemplu, în cronometrări se înregistrează succesiv timpul de execuţie a unei operaţii de
producţie la un muncitor; distribuţia empirică obţinută este, de regulă, asimetrică şi atunci se reţine mediana
ca măsură a timpului de lucru.
Pentru a găsi mediana – pe care o notăm cu med – trebuie să aranjăm, în cazuri mai simple, toate
datele (valorile) în ordine crescândă sau descrescândă.
Mediana este acea valoare care împarte şirul ordonat în două grupe egale ca număr. Cu alte
cuvinte, mediana se găseşte la mijlocul şirului: jumătate din valori se află deasupra, iar cealaltă jumătate
dedesubt. Locul sau rangul pe care îl ocupă mediana în şirul ordonat se determină cu ajutorul formulei
(N+1)/2 (care nu este formula de definiţie pentru med).
Când valorile constituie un număr fără soţ, mediana va corespunde determinantei din mijloc. Astfel,
în seria valorilor: 4, 4, 5, 6, 6, 7, 7, 7, 7, 8, 9, med = 7 pentru că 7 este valoarea care împarte şirul ordonat
exact în două. Formula (N + 1)/2 ne indică locul pe care se găseşte mediana. În cazul nostru med este

Pagina | 3
Statistica

valoarea situată pe locul al 6-lea în şirul ordonat [(11 + 1)/2 = 6].


Dacă valorile ordonate sunt în număr cu soţ, mediana se va găsi la mijlocul şirului, între două valori
consecutive.
Fie datele ordonate: 3, 4, 4, 5, 6, 7, 7, 8, 8, 9; deci 10 valori. Mediana se va găsi pe locul 5,5
deoarece (N + 1)/2 este în cazul acesta (10 + 1)/2, adică 5,5. Căutând în şirul dat valoarea situată pe locul
5,5 constatăm că ea se găseşte între două valori consecutive: 6 şi 7. În consecinţă vom face media celor
două valori: med va fi egală cu 6,5.

(Radu, I. (2002). Metodologie psihologică şi analiza datelor. Curs universitar

Modul este valoarea cu frecvenţa cea mai mare, adică cu numărul cel mai mare de
apariţii în setul de date. Putem să avem două valori care au frecvenţa cea mai mare – în
această situaţie spunem că avem o distribuţie bimodală. Dacă există mai multe valori cu
frecvenţa cea mai mare vom spune că avem o districuţie multimodală.

3.2.3 Indicii de împrăştiere

Indicii de împrăştiere, numiţi şi indici de dispersie, ne arată cât de împrăştiate sunt


datele obţinute. Indicii de dispersie pe care îi folosim cel mai frecvent sunt abaterea standard
şi varianţa.

Figura 3.1 Distribuţii cu aceeaşi medie şi indici de împrăştiere diferiţi

După cum se poate vedea din figura de mai sus, rezultatele a trei grupuri de subiecţi au
aceeaşi medie, dar împrăştierea datelor este diferită. Cea mai mare abatere standard (sd=1,5) o
are distribuţia reprezentată cu roşu, iar cea mai mică abatere standard (sd=0,7) o are
distribuţia notată cu albastru.
Abaterea standard (dispersia) se calculează după formula:

Sd=

Varianţa este pătratul abaterii standard: v=s= sd2

Pagina | 4
Statistica

Dacă analizăm formula de definiţie a dispersiei ne dăm seama că numai expresia de la numărător, adică
suma pătratelor abaterilor de la medie, ridică probleme mai dificile pentru calcul. Vom numi pe scurt această
expresie suma pătratelor.
Determinarea sumei pătratelor -când se lucrează manual- nu se face utilizând expresia de definiţie
Σ(x-m)2 deoarece comportă operaţii laborioase şi de cele mai multe ori cu numere zecimale (calculatorul are
propriile sale programe). Transformând expresia de definiţie, se obţine o formulă convenabilă de calcul:
T2
 ( x  m) 2
  x2 
N

în care notaţiile sunt deja cunoscute. Σx2 reprezintă totalul pătratelor celor N rezultate (valori) care compun
grupul iniţial de date.
Formula de calcul a dispersiei devine astfel:

T2
x 2

N

2 
N 1

De notat că T2 şi Σx2 sunt valori cu totul diferite.

(Radu, I. (2002). Metodologie psihologică şi analiza datelor. Curs universitar)

3.2.4 Realizarea prelucrărilor descriptive cu ajutorul programului PSPP

Toate aceste prelucrări pot fi uşor realizate cu ajutorul programului de analiză


statistică PSPP. Primul pas necesar în realizarea prelucrărilor descriptive se referă la
construirea bazei de date.
Pentru exemplul prezentat anterior, referitor la nivelul de stres al participanţilor la
studiu, în primul rând vom defini variabilele care sunt incluse în baza de date. Deoarece
singurul lucru pe care il cunoaştem este nivelul de stres, vom defini o singură variabilă:
„nivstres”, care este o variabilă numerică, adică este măsurată pe o scală de interval.

Pagina | 5
Statistica

Figura 3.2 Definirea variabilei „nivelul de stres”

Figura 3.3 Baza de date în urma definirii variabilei

Revenind în ferestra de introducere a datelor (Data View), adică în baza de date,


putem începe să introducem datele participanţilor la studiu. Vom introduce, astfel, valorile
prezentate de către fiecare participant ca reprezentând nivelul de stres.

Pagina | 6
Statistica

Figura 3.4 Introducerea tuturor datelor

După realizarea bazei de date putem să trecem la realizarea prelucrărilor descriptive.


În acest sens, selectăm din meniul Analyze, opţiunea Descriptive Statistics şi apoi
Frequencies, după cum se poate observa în Figura 3.5.

Figura 3.5 Realizarea prelucrărilor descriptive

În urma selectării acestei comenzi se deschide o fereastră de dialog, ca în Figura 3.6.

Pagina | 7
Statistica

Figura 3.6 Fereastra de dialog pentru realizarea prelucrărilor descriptive

În această fereastră de dialog vom defini variabila pentru care dorim să facem
prelucrările descriptive. Vom selecta variabila şi o vom trece în câmpul Variable(s) cu
ajutorul săgeţii dintre câmpuri. În câmpul Statistics vom bifa prelucrările pe care dorim să le
realizăm: media, mediana, modul, abaterea standard, minim şi maxim.

Figura 3.7 Precizarea variabilei dependente şi a prelucrărilor descriptive care să fie realizate

Pentru a cunoaşte care sunt frecvenţa şi procentul cu care apare fiecare valoare, avem
nevoie de realizarea tabelului de frecvenţe. Acesta este selectat automat de către program. În
situaţia în care a fost deselectat, îl putem selecta din nou de la butonul Frequency Table,
bifând opţiunea Always a câmpului Display frequency tables, după cum este ilustrat în figura
3.8.

Pagina | 8
Statistica

Figura 3.8 Realizarea tabelului de frecvenţă

Pentru a selecta calcularea modului, în câmpul Statistics, vom merge cu cursorul în jos
până întâlnim opţiunea Mode, ca şi în figura de mai jos. Bifăm această opţiune.

Figura 3.9 Selectarea modului

La fel procedăm şi pentru selectarea altor prelucrări, precum mediana, minim, maxim
sau varianţă.

Pagina | 9
Statistica

Figura 3.10 Selectarea medianei

După definirea variabilei şi selectarea prelucrărilor pe care vrem să le realizăm, vom


da click pe butonul Ok. În urma acestei operaţiuni se va deschide ferestra de rezultate
(Output), în care vor fi prezentate sub formă de tabele rezultatele prelucrărilor. Primul tabel
care apare în figura de mai jos, este tabelul de frecvenţă. În acest tabel, pe prima coloană
avem valorile posibile, iar pe coloanele care urmează avem numărul de apariţii ale acestor
valori în baza de date (frecvenţa) şi procentul în care apar.
Al doilea tabel cuprinde rezultatele prelucrărilor descriptive: media, mediana, modul,
abaterea standard, minim şi maxim.

Figura 3.11 Rezultatele obţinute

Pagina | 10
Statistica

3.2.5 Realizarea prelucrărilor descriptive pe grupuri

Exemplul de realizare a prelucrărilor descriptive cu ajutorul programului PSPP,


prezentat mai sus, se referă la un set de date obţinute de la un singur grup de participanţi. În
cercetarea psihologică, însă, de cele mai multe ori avem de realizat prelucrări descriptive
pentru două sau mai multe grupuri pe care dorim să le comparăm. Realizarea prelucrărilor
descriptive va urma aceiaşi paşi, doar că va fi precedată de o comandă prin care se precizează
că dorim ca rezultatele să fie prezentate separat pentru fiecare grup.
Pentru a fi mai uşor de înţeles, vom relua exemplul dat la construirea bazei de date:
cercetarea privind influenţa culorii textului asupra capacităţii de memorare. Considerăm că
avem baza de date construită şi dorim să aflăm dacă există diferenţe între grupul care a primit
textul scris cu roşu şi grupul care a primit textul scris cu verde în ceea ce priveşte numărul de
cuvinte corect reactualizate. În acest scop, avem nevoie să calculăm indicii tendinţei centrale
şi de împrăştiere pentru fiecare grup în parte.
Primul pas în realizarea prelucrărilor descriptive pentru fiecare grup în parte este
setarea rezultatelor pe grupuri. În lipsa acestei setări, prelucrările se relizează pentru întreaga
colecţie de date. Pentru setarea rezultatelor pe grupuri, alegem din meniul Data opţiunea Split
File, ca în figura 3.12.

Figura 3.12 Setarea rezultatelor în funcţie de grupuri

Pagina | 11
Statistica

În urma alegerii acestei opţiuni se deschide o fereastră de dialog ca şi cea din figura
3.13. Constatăm că automat este selectată opţiunea de analizare a tuturor cazurilor: Analyze
all cases. Do not create groups.

Figura 3.13 Fereastra de dialog pentru setarea rezultatelor în funcţie de grupuri


Pentru a obţine rezultatele prezentate pentru fiecare grup în parte vom selecta cea de-a
treia opţiune: Organize output by groups.

Figura 3.14 Alegerea opţiunii de organizare a rezultatelor pe grupuri

Pentru a preciza care sunt grupurile în funcţie de care vrem să fie grupate rezultatele,
va trebui să specificăm care este variabila care ne defineşte grupurile. Întotdeauna aceasta va
fi variabila independentă. În cazul exemplului dat, aceasta este culoarea textului. Prin urmare,
vom selecta culoarea textului (cultext) şi o vom trece cu ajutorul săgeţii în câmpul: Groups
based on, după care dăm click pe butonul Ok.

Pagina | 12
Statistica

Figura 3.15 Trecerea variabilei independente în câmpul de definire a grupurilor

După setarea rezultatelor pe grupuri, putem să trecem la realizarea prelucrărilor


descriptive, la fel ca în Figura 3.16: Analyze – Descriptive Statistics – Frequencies.

Figura 3.16 Realizarea prelucrărilor descriptive

În fereastra de dialog care se deschide, vom trece variabila dependentă (numărul de


cuvinte) în câmpul Variable(s). După specificarea variabilei pentru care se realizează
prelucrările, vom bifa prelucrările pe care le dorim: media, mediana, modul, abaterea
standard, minim şi maxim.

Pagina | 13
Statistica

Figura 3.17 Trecerea variabilei dependente în câmpul Variable(s) şi selectarea prelucrărilor

În fereastra de rezultate, acestea vor fi prezentate separat pentru fiecare grup în parte,
după cum se poate vedea în Figura 3.18.

Figura 3.18 Rezultatele obţinute pentru fiecare grup

Pagina | 14
Statistica

3.2.6 Realizarea prelucrărilor descriptive pentru un design intrasubiecţi

În situaţiile în care avem un design intrasubiecţi, adică acelaşi grup de participanţi este
evaluat în mod repetat, există mici diferenţe faţă de situaţiile în care avem două grupuri
diferite.
Având următorul exemplu vom prezenta diferenţele şi asemănările faţă de prelucrările
deja explicate:
Un cercetător a dorit să vadă dacă pentru populaţia românească se menţine stereotipul conform căruia
persoanele rele sunt urâte. În acest scop le-a arătat unor subiecţi imagini cu persoane considerate frumoase,
respectiv urâte şi le-a cerut să evalueze în ce măsură este posibil ca persoanele respective să comită acte
criminale. Cu cât punctajul acordat de subiecţi era mai mare, cu atât actele comise erau mai criminale.

Subiect 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Urâte 7 5 6 9 7 6 7 10 4 9 7 8 5 6 8
Frumoase 9 2 5 8 6 5 4 4 5 7 6 7 3 4 5

Aceiaşi participanţi la studiu au primit şi au evaluat gradul de criminalitate atât pentru


persoanele frumoase, cât şi pentru cele urâte. Pentru fiecare persoană, avem punctajul acordat
persoanelor frumoase şi punctajul acordat persoanelor urâte. În consecinţă, avem câte două
informaţii despre fiecare participant. Vom ţine cont de acest lucru în definirea bazei de date
astfel: vom defini două variabile: urâte şi frumoase. În fereastra de date vom avea pe prima
coloană titlul variabilei „urâte”, iar pe a doua coloană titlul variabilei „frumoase„ (vezi Figura
3.19).

Pagina | 15
Statistica

Figura 3.19 Definirea bazei de date pentru un design intrasubiecţi

În dreptul fiecărui subiect vom introduce punctajul acordat pentru persoanele urâte,
respectiv, pentru persoanele frumoase. Baza de date obţinută este ilustrată în figura 3.20

Pagina | 16
Statistica

Figura 3.20 Baza de date pentru exemplul dat în cazul designului intrasubiecţi

Prelucrările descriptive, în cazul designului intrasubiecţi, se realizează la fel ca şi în


cazul exemplelor prezentate anterior. Singura diferenţă constă în faptul că putem trece în
câmpul Variable(s), ambele variabile în acelaşi timp. Desigur, acestea pot fi prelucrate şi
analizate şi separat.

Figura 3.21 Realizarea prelucrărilor descriptive

Pagina | 17
Statistica

Figura 3.22 Rezultatele obţinute

3.3 Reprezentarea grafică a datelor – poligonul de frecvenţe şi histograma

Până acum ne-am referit, în realizarea prelucrărilor descriptive, doar la calcularea


indicilor tendinţei centrale şi de împrăştiere. În continuare vom prezenta modul de realizare a
reprezentărilor grafice.

3.3.1 Tipuri de reprezentări grafice şi distribuţii

Poligonul de frecvenţă este graficul prin care reprezentăm frecvenţa cu care apare
fiecare valoare în setul de date. În figura umătoare avem reprezentat un poligon de frecvenţă.
Observăm că valorile obţinute (nivelul de stres) sunt reprezentate pe axa orizontală, iar
frecvenţa este reprezentată pe axa verticală. Pentru fiecare din cele 11 valori care reprezintă
nivelul stresului marcăm frecvenţa. Unind punctele astfel obţinute, trasăm graficul care poartă
denumirea de poligon de frecvenţe.

Pagina | 18
Statistica

30
25
20
Frequency

15
10
5
0
0 2 4 6 8 10

Stress Rating

Figura 3.23 Poligonul de frecvenţe

Distribuţia rezultatelor mai poate fi reprezentată printr-o histogramă. Deosebirea


dintre histogramă şi poligonul de frecvenţe constă în faptul că în cazul histogramei frecvenţele
sunt reprezentate pentru un interval de valori, nu pentru fiecare valoare în parte.

Figura 3.24 Reprezentarea aceloraşi date sub formă de histogramă şi poligon de frecvenţe

O distribuţie în care rezultatele sunt simetric reprezentate faţă de medie se numeşte


distribuţie simetrică sau distribuţie gaussiană sau distribuţie normală.

Pagina | 19
Statistica

Figura 3.25 Distribuţia normală

Într-o distribuţie normală, media, mediana şi modul sunt egale.

Aminteşte-ţi! distribuţia simetrică = distribuţia gaussiană = distribuţia normală

Într-o distribuţie normală, m = med = mod.

3.3.2 Realizarea histogramei cu ajutorul programului PSPP

Figura 3.26 Opțiunile din meniu pentru realizarea histogramei

Pagina | 20
Statistica

Figura 3.27 Selectarea opțiunii de realizare a histogramei din fereastra Charts...

Pagina | 21
Statistica

Figura 3.28 Fereastra cu rezultatele prelucrărilor grafice

Figura 3.29 Histograma rezultată

Pagina | 22

S-ar putea să vă placă și