Sunteți pe pagina 1din 16

Prelucrarea informațională a datelor – Statistică

Capitolul I - Introducere
Ce este statistica?

Statistica este un corp de metode utilizate pentru a colecta, a descrie și a analiza date numerice din
observații sau investigații științifice.

Statistica descriptivă – metode de caracterizare a faptelor, a fenomenelor și a conjuncturilor.

 Exprimată în general prin valori numerice (însoțite sau nu de reprezentări grafice)


 Fiecare dintre criteriile de diferențiere este o variabilă. Variabila este o entitate care ia diferite
valori pentru componenții colectivității.
 Variația valorilor unei caracteristici date este conceptul primar al descrierii statistice.
 Distribuția variabilei respective este mulțimea valorilor înregistrate pentru o caracteristică
particulară.

Statistica inferențială – metode și tehnici de estimare a caracteristicilor unei populații statistice din
observații efectuate asupra unei submulțimi de componenți ai populației.

 Submulțimea utilizata este denumită eșantion.


 În cadrul populației vorbim despre parametrii și în cadrul eșantionului vorbim despre estimații.

Variabilitate și măsurare

 Statistica are drept concept primar variabilitatea datelor.


 Sursele de variabilitate se separă în două categorii:
- Surse previzibile – variații previzibile – asociate la surse sistematice (care au fost clar
stabilite în ipoteza de lucru)
- Surse imprevizibile – variații imprevizibile – nu sunt asociate unor surse sistematice.

 Cuantificarea datelor are la bază un proces de măsurare1.


 Atribuirea numerelor în cercetările psihologice poate fi invocată în:
- Timpul necesar pentru rezolvarea unei sarcini (excitație și reacție)
- Cuantificarea unei aserțiuni (stabilirea prezenței sau absenței unei trăsături)
- Indicații dobândite despre frecvența unui fenomen de un anumit fel
- Reacția corectă la un stimul de un anumit gen
 Instrumentele de măsurare în psihologie sunt testul și chestionarul.
 O scală de măsură implică în mod automat existența unui dispozitiv suport (instrument de
măsură).

1
Măsurare = procesul de determinare a diferitelor valori ale unei variabile; măsurarea reprezintă orice set
consistent de reguli pentru asocierea de numere la fenomene.

1
Prelucrarea informațională a datelor – Statistică

 O scală de măsură trebuie să fie consistentă (produce rezultate <<aproape>> identice atunci
când este folosită în mod repetat pentru același obiect sau fenomen) și corectă (dacă produce
informația pe care o așteptăm).
 Din punct de vedere al exigențelor de raportare la obiectele și fenomenele măsurate o scală de
măsură trebuie să fie exhausivă2 (scala poate măsura toate entitățile cărora le este destinată) și
mutual exclusivă (fiecare entitate primește în urma măsurării o singură valoare).
 Tipuri principale de scale:
a. Scala nominală
b. Scala ordinală
c. Scala de interval
d. Scala de raport

Capitolul II – Scale de măsură și statistici


I. Scala nominală – scală discretă

Cunoscută și sub numele de scală calitativă, scală categorială sau scală de clasificare.

Alcătuire:

- Se procedează la inventarierea cât mai completă a caracteristicilor posibile


- Fiecare categorie distinctă constituie o gradație a scalei
- Mulțimea tuturor categoriilor formează scala nominală
 Codificarea datelor = transformarea unei mulțimi de obiecte, date, itemi, dintr-o forma
sistematică de prezentare în altă formă sistematică de prezentare.

Exemplu:

Tip temperamental COD


1.1 Exemplu de codificare
Coleric 1
Sangvinic 2
Melancolic 3
Flegmatic 4

Dacă ne propunem, de exemplu, să caracterizăm 150 de subiecți după apartenența la un tip


tempetamental

Tip temperamental Nr. subiecți 1.2 Distribuția tipurilor temperamentale


1 32
2 48
3 37
4 33
2
DEX: EXHAUSTÍV, -Ă, exhaustivi, -e, adj. (Livr.) Care epuizează un subiect; complet, în întregime. [Pr.: -ha-us-] – Din
fr. exhaustif.

2
Prelucrarea informațională a datelor – Statistică

 În coloana din stânga avem coduri (lipsite de semnificație cantitativă)


 În coloana a doua avem distribuția tipurilor temperamentale din grupul studiat. Fiecare valoare
reprezintă frecvența absolută a diviziunii respective.

Uneori, ca necesitate a cercetării apare nevoia de a realiza o comparație cu alte studii. Pentru ca acest
lucru să fie posibil este necesar să utilizăm frecvențele relative. Frecvența relativă se obține prin
împărțirea frecvenței absolute la numărul total de subiecți:

frecve nța absolută


Frecvența relativă =
număr subiecți

frecvența absolută
Frecvența relativă exprimată ca procentaj = ∙ 100
număr subiecți

Exemplu:

Pentru a putea exemplifica, luăm în calcul un alt studiu (studiul 2) efectuat pe un număr de 250 de
subiecți.

Tip Nr. subiecți


temperamental Tip Nr. subiecți
1 32 temperamental
2 48 1 58
3 37 2 73
4 33 3 80
Studiul 1 4 39
Studiul 2

Distribuția tipurilor temperamentale: comparație între studiul 1 și studiul 2


Studiul 1 Studiul 2
Tip (cod) Frecvența Frecvența Procent Frecvența Frecvența Procent
absolută relativă absolută relativă
1 32 32/150=0,2 21,33% 58 58/250=0,23 23,3%
1
2 48 0,32 32% 73 0,29 29,2%
3 37 0,25 24,67% 80 0,32 32%
4 33 0,22 22% 39 0,16 15,6%

 Prin trecerea la frecvența relativă (procentaje), măsurătorile efectuate pe eșantioane de volume


diferite sunt transformate într-un sistem de raportare comun, ceea ce permite comparații.

Mai departe, în alcătuire, putem să discutăm despre reprezentarea grafică a rezultatelor.

 Histograma = Reprezentarea grafică în care o serie de date este figurată într-un sistem de
referință bi- sau tridimensional, prin dreptunghiuri proporționale cu valorile date ale seriei.

3
Prelucrarea informațională a datelor – Statistică

Frectențe relative
0.35

0.3 0.32

0.25
0.25
0.2 0.22 Studiul 1
0.21

0.15

0.1

0.05

0
1 (coleric) 2 (sangvinic) 3 (melancolic) 4 (flegmatic)

Comparație intre studiul 1 și studiul 2 (frectențe relative)


0.35

0.3 0.32 0.32


0.29
0.25
0.25
0.23 Studiul 1
0.2 0.22
0.21 Studiul 2

0.15 0.16

0.1

0.05

0
1 (coleric) 2 (sangvinic) 3 (melancolic) 4 (flegmatic)

Operații asupra categoriilor unei scale nominale:

Două mari operații:

1. Gruparea (condensarea) = din două sau mai multe categorii se obține o singură categorie (care
va avea o etichetă noua distinctă).
2. Rafinarea (diversificarea) = operația prin care dintr-o categorie se obțin două sau mai multe
categorii noi, disctinct etichetate.

4
Prelucrarea informațională a datelor – Statistică

Exemplu:

Set extins de categorii: Prin grupare:

1. I A. Numere romane (din 1,2 și 3)

2. II B. Litere (din 4, 5, și 6)

3. III C. Simboluri (din 7, 8 și 9)

4. a

5. b

6. c

7. @

8. %

9. &

Statistici la nivelul unei scale nominale

 Rezumat statistic sau statistică = descrierea unei distribuții printr-o singură valoare numerică
 Valoarea mod (modul, modul brut sau moda) = cea mai frecventă observație; reprezintă
categoria cu efectivul cel mai mare.

Categoria de comunicare Număr


A 73 În acest caz, modul este ”A” care
B 55 întrunește cele mai multe intervenții
C 40
D 62
- O distribuție cu o singură valoare mod se numește unimodală, iar cu mai multe valori mod –
multimodală.
- Operațiile efectuate asupra unei scale nominale pot să modifice valoarea mod.

 Rezumatele statistice se divid în două categorii:


1. Statistici privind tendința centrală

- Valoarea mod este o statistică de tendință centrală

2. Statistici privind împrăștierea datelor

5
Prelucrarea informațională a datelor – Statistică

- Indicele de variație calitativă notat cu IVC, compară variația observată cu variația


așteptată.
Formula este:

variația observată
IVC= ∙ 100
variația așteptată

Tabele pentru exemplificare:

Tabel 1 – Eșantion A Tabel 2 – Eșantion B


Categorie Număr Categorie Număr
1 8 1 2
2 20 2 20
3 8 3 14
4 8 4 2
5 8 5 14

Tabel 1 – Eșantion A Tabel 2 – Eșantion B Pentru distribuția cu


(distribuția cu împrăștierea maximă) (distribuția cu împrăștierea maximă)
împrăștierea maximă este
Categorie Număr Categorie Număr
necesar să repartizăm
1 11 1 11
2 11 2 11 numărul de cazuri cât mai
3 10 3 10 uniform în categoriile
4 10 4 10 scalei. Se adună variabilele
5 10 5 10 și se împart în cantități
aproximativ egale.

Variația observată = suma tuturor produselor posibile de câte două frecvențe, fiecare pereche de
frecvențe fiind luată o singură dată.

∑ ni ∙ n j=n1 ( n2 +n 3+... +n k )+ n2 ( n3 +...+nk ) +...+ nk−1 n k


i≠ j

Variația așteptată (distribuția cu împrăștierea maximă) = suma tuturor produselor posibile de câte două
frecvențe, fiecare pereche de frecvențe fiind luată o singură dată.

∑ ni ∙ n j=n1 ( n2 +n 3+... +n k )+ n2 ( n3 +...+nk ) +...+ nk−1 n k


i≠ j

Exemplu:

Pentru eșantionul A

variațiaobservată=8 ( 20+8+8+ 8 ) +20 ( 8+8+ 8 ) +8 ( 8+8 )+ 8∙ 8=1024

variațiaașteptată=11 ( 11+ 10+10+10 ) +11 ( 10+10+10 ) +10 ( 10+10 ) +10 ∙ 10=1081

6
Prelucrarea informațională a datelor – Statistică

astfel,

1024
IVC= ∙ 100=94,73 % => 97.73 este foarte apropiat de 100% => distribuția este uniformă,
1081
repartizarea datelor fiind suficient de echilibrată.

Pentru eșantionul B

variațiaobservată=2 (20+ 14+2+14 )+ 20 (14 +2+14 )+14 ( 2+ 14 ) +2 ∙14=952

variațiaașteptată=11 ( 11+ 10+10+10 ) +11 ( 10+10+10 ) +10 ( 10+10 ) +10 ∙ 10=1081

astfel,

952
IVC= ∙100=88,6 % => 88.6 este foarte apropiat de 100% => distribuția este uniformă,
1081
repartizarea datelor fiind suficient de echilibrată.

De aici putem afirma că distribuția de la “eșantionul A” are un grad mai mare de concentrare a datelor.

II. Scala ordinală – scală discretă

Alcătuirea unei scale ordinale

 Presupune stabilirea unei relații de ordine între valorile posibile ale variabilei studiate
 Presupune ca observațiile să poată fi diferențiate undle de altele

Prezentarea datelor ordinale

 Observațiile efectuate vor fi raportate sub formă de frecențe


 Simbolurile care se atribuie categoriilor scalei ordinale nu vor mai fi doar simple etichete, ci
ordonări sau simboluri ordonate.
 Datorită “înghețării” ordinii diviziunilor, putem sa vorbim despre forma distribuției
- Simetrie/asimetrie
- Asimetrie stânga (negativă)/asimetrie dreapta (pozitivă)
- Grad de asimetrie
- Grad de aplatizare
 Cunoașterea formei distribuției oferă indicii asupra repartizării cazurilor în diverse categorii
 Prezentarea sub formă de tabel a datelor ordinale conține în plus, față de prezentarea datelor
nominale, frecvențele cumulate.
 Frecvanța cumulată = suma tuturor frecvențelor anterioare plus frecvența curentă

7
Prelucrarea informațională a datelor – Statistică

 Frecvența cumulată este ascendentă sau descendentă

Tabel statistic (model de exemplificare)


Frecvențe Frecvențe Frecvențe Frecvențe
Frecvențe absolute absolute relative relative
Frecvențe
Nivel relative cumulate cumulate cumulate cumulate
absolute
(%) ascendent descendent ascendent ascendent
(%) (%) (%) (%)
1 75 47,8 75 157 47,8 100,0
2 52 33,1 127 82 80,9 52,2
3 20 12,7 147 30 93,6 19,1
4 6 3,8 153 10 97,4 6,4
5 4 2,6 157 4 100,00 2,6
TOTAL 157 100

 Reprezentările grafice ale datelor ordinale trebuie să reflecte proprietatea de ordonare specifică
scalei
 Se utilizează diagramele sub forma de bare verticale

Exemplu
Frecvențe relative
60.00%

50.00% 47.80%

40.00%
33.10%
30.00%

20.00%
12.70%
10.00%
3.80% 2.60%
0.00%
1 2 3 4 5

Operații asupra scalelor ordinale

 Noile scale obținute prin rarefiere sau condensare trebuie gradate după regulile unei scale
ordinale
 În asemenea cazuri se preferă renumerotarea întregii scale

Statistici la nivelul unei scale ordinale

8
Prelucrarea informațională a datelor – Statistică

Valoarea mod este definită ca fiind categoria cu frecvența cea mai mare.

Mediana (notată cu Me) = acea categorie a scalei de măsură care împarte observațiile în două jumătăți.
Frecvența valorilor mai mici decât mediana este egală cu frecvența valorilor mai mari decât mediana.

Cazul datelor negrupate

Avem șiru obținut prin ordonarea crescătoare sau descrescătoare a datelor observate:

X1 , X2 , X3 … XN

Dacă N este impar: Me= X( N +1 )


2

Dacă N este par: Me= X (


N
)
2
În limba română acest lucru se traduce prin două exemple:

Pentru şirul impar: 12, 5, 8, 19, 11, 9, 7 care prin oronare devine 5, 7, 8, 9, 11, 12, 19 mediana
este valoarea din mijloc. Adică Me= 9.

Pentru șirul par: 5, 7, 9, 9, 9, 9, 10, 12, 12, 19; N=10 (că sunt 10 elemente în șir). Mediana
trebuie fixată între poziția de mijloc, în cazul nostru discutăm despre pozițiile cinci și șase, adică
cele cu valorile 9 și 10. Avem de ales între cele două. Dacă alegem 9, trebuie să afirmăm ca mai
mult de jumătate dintre valori sunt mai mici decât valoarea 9, ceea ce este fals. Așa că alegem
valoarea 10.

Cazul datelor grupate

Dacă luăm ca exemplu cazul tabelului anterior, vedem ca N=157.


- Trebuie să găsim categoria scalei care depășește jumătate din observații. Asta înseamna
ca vom calcula N/2 = 78.
- Din coloana frecvențelor absolute cumulate ascendente observăm ca a 79-a observație
este in categoria 2 (pentru că în categoria 1 sunt doar 75 de observații).
- Mai aproape de jumatatea numărului de observații este coloana 2
- Același calcul poate fi făcut și frecvențele relative cumulate ascendent.

Quantile = clasă de indicatori

 quantilă reprezintă o categorie a scalei de măsură care depășește o proporție precizată de


observații.

9
Prelucrarea informațională a datelor – Statistică

 Se notează cu Q p quantila de ordin p

 Etape pentru a determina quantila de ordin p:


a. Se ordonează observațiile
b. Se deternimă rangul quantilei dorite folosim k =[ pN ]+1

p = ordinul quantilei
N = numărul de observații

De exemplu:
N = 125
p = 2/10

2
k=
[( ) ]
10
∙ 125 +1=26

Quartile = realizează o împărțire a observațiilor în patru părți egale

 Sunt quantile de ordinele 1/4 , 2/4 = 1/2 , 3/4.

Q1 = Q 14 ...25%

1
Q2 = Q 2 ... 50%

Q3 = Q 34 ... 75%

 Intervalele dintre quartile se numesc intervale interquartile.

Decile = realizează o împărțire a eșantionului în zece părți egale.

Centile (percentile) = realizează o împărțire a eșantionului în 100 de părți egale.

 Formulă care definește rangul centilic al categoriei i al scalei de măsură ordinale:

100 fi
c i= ( Fc ↑− )
N 2
c i = rangul centilic
F c ↑ = frecvența absolută cumulată ascendent
f i = frecvența absolută a categoriei i

III. Scala de intervale – scală continuă

10
Prelucrarea informațională a datelor – Statistică

 Scala de intervale are o complexitate mai mare


 Are în plus față de celelalte scale luarea în considerare a distanțelor dintre categoriile scalelor
 Determină cantitatea exactă de caracteristică existentă în observații

Alcătuirea unei scale de intervale

1. Definirea a ceea ce se înțelege când cineva spune că distanța sau diferența dintre două aspecte
cercetate este egală cu distanța dintre alte două aspecte.
2. Se atribuie numere caracteristicilor studiate, în așa fel încât la două distanțe experimentale
egale să corespundă două diferențe numerice egale.
3. Limitele clasei de diferențiere se stabilesc printr-un postulat: în momentul în care o limită este
percepută ca fiind mai mică sau mai mare în 50% din cazuri.
 O scală de interval este divizibilă la infinit.
 Înainte de prelucrarea statistică propriu-zisă, datele trebuie să fie ordonate.

Prezentarea datelor de interval

 Pentru că este mai dificil de înțeles se va lucra direct pe un exemplu.

Exemplu

Luăm ca exemplu timpul de reacție, în miimi de secundă pentru 200 de subiecți. Valorile obținute le
ordonăm și le grupăm ca în fotografia de mai jos.

11
Prelucrarea informațională a datelor – Statistică

Observăm timpii extremi:

- Timpul minim: 160


- Timpul maxim: 339

Pentru că avem un număr foarte ridicat de date, este necesar să apelăm la operația de condensare.
Acest lucru se întâmplă în două etape:

Etapa 1 – marcarea valorilor multiple și raportarea lor sub formă de frecvențe.

Timp înregistrat Frecvența


160 1
163 2
168 1
... ...
254 6
Tabelul este doar schițat ca exemplu.
... ... Într-o situație reală se completeaza
338 1 toate cele aproximativ 110 linii.
339 1

Etapa 2 – gruparea datelor în intervale de grupare

Pentru că încă este un volum prea mare de operare, este necesară gruparea datelor sub formă de
frecvențe de interval. Se obține astfel un tabel de forma următoare:

Interval Frecvența
160-179 8
180-199 14
200-219 20
220-239 32
240-259 56
260-279 26
280-299 22
300-319 12
320-339 10

Limitele de grupare

 Există două tipuri de categorii de limite de grupare:


1. Limite de raportare (numere întregi)
2. Limite exacte (valorile care prin rotunjire aparțin intervalului avut în vedere)

12
Prelucrarea informațională a datelor – Statistică

- De exemplu, pentru cazul nostru, limitele de raportare 160 și 179 au ca limite exacte
159,5 și 179,5.

 Ca formă de notare:
l i−¿ limita inverioară exactă
l s −¿ limita superioară exactă
l−¿ lungimea intervalului; se calculează cu formula l=l s−l i

Centrele intervalelor

Numim centrul unui interval, notat cu c valoarea situată în mijlocul intervalului respectiv.

l i +l s
Formulă: c=
2

159+ 179
Formulă aplicată pe exemplu: =169,5
2

Reprezentări grafice ale datelor de interval

Se folosesc diagramele cu bare verticale pentru frecvențele brute sau frecvențele cumulate. Se
recomandă ca barele să fie unite între ele.

Series 1
60

50

40
Series 1
30

20

10

0
169 179 199 219 239 259 279 299 319

13
Prelucrarea informațională a datelor – Statistică

 Prin unirea punctelor de mijloc ale laturilor superioare dintr-o histogramă se obține poligonul
frecvențelor.

Statistici pentru date de interval3

 Aspecte privind concentrarea valorilor (tendința centrală a datelor)


 Aprecierea simetriei distribuției
 Gradul de aplatizare

Valoarea mod

Reprezintă valoarea cea mai frecventă (în cazul datelor negrupate). Adică:

în șirul: 12, 15, 15, 21, 23, 35, 32, 45, 52, 57 valoarea mod este 15 pentru că are frecvența = 2.

În exemplul pe care lucrăm valoarea mod este 249,5 (mijlocul intervalului care are frecvența maximă).

Mediana

 Dacă șirul ordonat este par, mediana este valoarea din mijloc.
 Dacă șirul odronat este impar, mediana se calculează prin realizarea mediei aritmetice între cele
două valori aflate la mijloc.

În cazul datelor grupate (și ordonate):

- Se determină întâi intervalul median4. Intervalul median este intervalul care conține
observația din mijlocul seriei ordonate. Poate fi indentificat din șirul frecvențelor
cumulate drept intervalul (clasa) a cărui frecvență cumulată depășește jumătatea
numărului de observații.

- Se calculează cu formula:

n
−f ↓
2 i−1
Me=l i +l∙
fi

Legenda:
l i−¿ limita inferioară
l−¿ lungimea intervalului median
f i−1 ↓−¿ frecvența cumulată pentru intervalul anterior intervalului median

3
Momentan vom discuta doar despre tendința centrală a datelor pentru ca există un alt capitol separat pentru
aprecierea simetriei și a gradului de aplatizare.
4
Intervalul median = intervalul care conține mediana.

14
Prelucrarea informațională a datelor – Statistică

f i−¿ frecvența (necumulată) a intervalului median

Interval fi f i↓
160-179 8 8
180-199 14 22
200-219 20 42
220-239 32 74
240-259 56 130
260-279 26 156
280-299 22 178
300-319 12 190
320-339 10 200

Pe exemplul 200
−74
nostru: 2
Me=239,5+20 ∙ =¿
56
n = 200
Me=248,79
l i = 239,5

l = 20

f i−1 ↓ = 74

f i = 56

Media aritmetică

O calculăm după formula uzuală:

x 1+ x 2 +…+ x n
x́=
n

unde n este numărul de observații iar x 1 , x 2 … x n este seria de valori observate.

În cazul datelor grupate, formula devine:

15
Prelucrarea informațională a datelor – Statistică

f 1 c 1+ f 2 c 2+ ...+ f k c k
x́=
n

unde k = numărul de intervale de grupare, f = frecvențele, c = centrele intervalelor, n = numărul de


observații.

16