Sunteți pe pagina 1din 97

UNIVERSITATEA ”CONSTANTIN BRÂNCUȘI” DIN TÂRGU JIU

FACULTATEA DE ȘTIINȚE ECONOMICE

Prof. univ. dr. ANA-GABRIELA BABUCEA

ANALIZA DATELOR
Suport de curs și aplicații practice

Pentru uzul studenților de la programul de masterat:


 Contabilitate, Audit și Evaluare Financiar-Contabilă
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Analiza datelor este o etapă importantă a cercetării statistice, etapă în care pe baza datelor colectate,
în urma prelucrării lor statistice, se extrag informații ce vor fundamenta decizii ulterioare.
Acest demers necesită formularea unor ipoteze de lucru, iar cea mai bună cale de a alege dintre
acestea pe cele mai apropiate de realitate este instrumentarea testelor statistice cu ajutorul
programelor software care fac aplicarea acestor teste mult mai ușoară.
IBM SPSS Statistics este un astfel de pachet de programe, puternic și multivalent, care oferă multiple
modalități de a explora rapid datele și de a testa ipotezele cercetărilor științifice.
Pachetul de programe a fost lansat cu numele SSPS (Statistical Package for the Social Sciences) de
compania SPSS Inc. încă din 1968. În 2010 compania SPSS Inc. a fost preluată de IBM Corporation,
astfel că începând cu versiunea 19 pachetul de programe poartă numele de IBM SPSS Statistics.

Cursul Analiza datelor pune accentul pe utilizarea programului SPSS, trecând doar în revistă noțiuni,
concepte și metode statistice fundamentale, considerând că acestea sunt anterior asimilate.

2
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

CUPRINS

Capitolul 1
ORGANIZAREA ȘI PREZENTAREA DATELOR STATISTICE …………… 5
1.1. Date și variabile statistice – noțiuni și concepte fundamentale …………………….. 5
1.2. Organizarea datelor în IBM SPSS Statistics ……………………………………….. 6
1.2.1. Definirea variabilelor SPSS ………………….……………………………… 7
1.2.2. Introducerea datelor ………………………………………………………….. 12
1.2.3. Filtrarea cazurilor …………………………………………………………….. 13
1.2.4. Sortarea cazurilor ……………………………………………………………. 15
1.2.5. Sortarea variabilelor …………………………………………………………. 15
1.2.6. Generarea de noi variabile prin transformarea variabilelor bazei de date …… 16

Capitolul 2
ANALIZA UNIVARIATĂ A DATELOR STATISTICE ……………………… 23
2.1. Descrierea variabilelor statistice – sinteze teoretice ……………………………….. 23
2.1.1. Tabelele de frecvență ………………………………..……………………….. 23
2.1.2. Reprezentări grafice ………………………………………………………….. 25
2.1.3. Indicatori statistici de descriere a variabilelor ………………………………... 25
2.2. Analiza descriptivă a variabilelor statistice cu IBM SPSS Statistics ……………….. 32
2.2.1. Procedura Frequencies ..................................................................................... 33
2.2.2. Procedura Descriptives ..................................................................................... 41
2.2.3. Procedura Explore ............................................................................................ 42

Capitolul 3
ANALIZA BIVARIATĂ A DATELOR STATISTICE ………………………… 49
3.1. Asociere, cauzalitate și covariație - aspecte teoretice ……………..……………….. 49
3.1.1. Analiza bivariată a două variabile categoriale ………………………………….. 50
3.1.1.a. Stabilirea existenței legăturii de asociere între variabile categoriale ……… 50
3.1.1.b. Măsuri ale asocierii a două variabile categoriale ………………………….. 53

3
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

3.1.2. Analiza bivariată a două variabile continue …………………………………….. 60


3.1.2.a. Analiza corelației ………………………………………………………….. 60
3.1.2.b. Analiza de regresie simplă liniară …………………………………………. 60
3.2. Analiza legăturii între două variabile cu IBM SPSS Statistics …………………….. 66
3.2.1. Analiza legăturii dintre două variabile categoriale cu IBM SPSS Statistics …… 66
3.2.1.a. Analiza legăturii a două variabile nominale ……………………………….. 66
3.2.1.b. Testarea asocierii a două variabile categoriale ordinale …………………… 78
3.2.2. Analiza legăturii dintre o variabilă categorială și o variabilă cantitativ continuă
82
cu IBM SPSS Statistics …………………………………………………………………
3.2.3. Analiza legăturii dintre două variabile cantitative continue cu IBM SPSS
84
Statistics ………………………………………………………………………………..
3.2.3.a. Analiza corelației …………………………………………………………... 85
3.2.3.b. Analiza de regresie simplă liniară …………………………………………. 92
BIBLIOGRAFIE ……………………………………………………………………...

4
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

CAPITOLUL 1

ORGANIZAREA ȘI PREZENTAREA DATELOR STATISTICE

1.1. DATE ȘI VARIABILE STATISTICE – NOȚIUNI ȘI CONCEPTE


FUNDAMENTALE
Datele primare colectate sunt mai întâi înregistrate și sistematizate, transformate în așa fel încât
să faciliteze înțelegerea și interpretarea lor, să permită emiterea ipotezelor și alegerea testelor statistice
care să valideze acele ipoteze cele mai apropiate de adevăr.
De obicei, datele colectate, indiferent de procedură (recensământ - adică prin investigarea
întregii populații, sau sondaj - adică prin investigarea unui eșantion), sunt organizate într-o ”bază de
date” care îmbracă forma unui tabel în care pe rânduri sunt înscrise unitățile statistice de analiză
(observațiile sau indivizii/observațiile statistice), iar pe coloane, caracteristicile sau atributele acestora
(de obicei pe prima poziție fiind un atribut ”identificator” colectat sau surogat).
Datele primare se prezintă deci în tabele bidimensional – matrice de date – având forma
generală ca în figura 1.1. Dacă dispunem de n unități statistice (observații/indivizi) incluse în
populația cercetată, cărora le studiem p caracteristici sau atribute, notate X1, X2, …, Xp., matricea de
date este X  xij i 1,n; j 1, p unde xij reprezintă valoarea măsurată a observației i pentru caracteristica
j.
Tabel de prezentare a datelor primare

Fiecare caracteristică are asociată o scală de măsurare conformă informației conținute. După
precizarea scalei de măsurare, caracteristica respectivă va fi reprezentată printr-o variabilă statistică
ale cărei variante depind de scala de măsurare, plasându-se într-un anume domeniu de valori.
Astfel, fiecărei unități statistice i îi corespunde în matricea X o linie, practic un vector cu p
elemente xi1 ,..., xij ...xip  și fiecărei variabile j îi corespunde în matricea X o coloană cu n elemente,
x 1j ,..., xij ...x nj  .
T

După modul de exprimare, variabilele pot fi: calitative - cu exprimare în cuvinte ca de


exemplu: funcția, sexul, studiile, sau cantitative – cu exprimare numerică ca de exemplu: salariul,
vârsta, vechimea în muncă, cantitatea, productivitatea muncii.

5
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Variabilele cantitative pot prezenta variație continuă – caz în care variante pot lua orice valoare
într-un domeniu dat, ca de exemplu: impozitul, media de absolvire, consumul de materiale, prețurile,
sau discontinuă/discretă – caz în care variantele sunt doar numere întregi, ca de exemplu: numărul de
muncitori, numărul de produse, vârsta în ani împliniți, producția exprimată în bucăți.
De asemenea, după forma de manifestare la nivelul unităților simple, variabilele pot fi:
alternative – cele a căror formă de manifestare este fie directă, fie opusul său ca de exemplu: sexul cu
cele două variante ”femeie” sau ”bărbat”, starea civilă cu cele două variante ”căsătorit” sau
”necăsătorit”, etc.), sau pot fi nealternative – cele care au variante distincte de exprimare ca de
exemplu: vârsta angajaților care poate lua orice valoare între 15 și 70 de ani, localitatea de domiciliu
a angajaților, etc ).
În funcție de modul de măsurare a valorilor individuale variabilele pot fi: nominale – variabile
calitative măsurate la nivel nominal (de exemplu: statutul ocupațional cu variante de realizare:
agricultor, salariat, antreprenor, șomer etc., religia cu variantele: ortodox, catolic, protestant, etc.,
mediul de rezidență cu variantele: rural, urban); ordinale - variabile calitative măsurate la nivel ordinal
(de exemplu: calificativele școlare cu variantele: insuficient, suficient, bine și foarte bine, sau
satisfacția față de un produs cu variantele: nesatisfăcător, indiferent, satisfăcător, etc.) sau
proporționale - variabile numerice, măsurate la nivel de raport/proporțional (de exemplu: vârsta,
salariul, PIB, cifra de afaceri, etc.)
Identificarea corectă a nivelului de măsurare a variabilelor este foarte importantă deoarece
influențează metodologia statistică utilizată în prelucrarea ulterioară și de analiză a datelor.

1.2. ORGANIZAREA DATELOR ÎN IBM SPSS STATISTICS

IBM SPSS Statistics gestionează datele organizate în linii și coloane, într-un astfel de tabel:
liniile reprezentând unitățile statistice (observațiile/indivizii/cazurile), iar coloanele variabilele
cercetării.
Fereastra de afișare a fișierului SPSS ce conține baza de date (.sav) dispune de două tab-uri în
partea din stânga jos, Data View (Vizualizare date) și Variable View (Vizualizare variabile).
Data View este în mod obișnuit vizualizarea de lucru a fișierului, datele fiind vizualizate în
același mod ca într-o foaie de lucru Excel.

6
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

1.2.1. Definirea variabilelor SPSS


Pentru ca analiza datelor să fie corectă, este important să se declare corect fiecare variabilă.
Pentru a introduce datele trebuie mai întâi definite variabilele. Variabilele se memorează în
fișierul de date prin intermediul ecranului Data Editor activat de butonul Variable View. Acesta
conține practic meta-datele (datele despre date) în același format tabelar.

Deși nu este importată, ordinea definirii variabilelor va determina ordinea coloanelor în tabelul
de lucru. Definirea variabilelor presupune specificarea următoarelor elemente pentru fiecare dintre
acestea.

Pentru exemplificare vom folosi fișierul angajati.sav


 Numele variabilei sau identificatorul - Name. Poate avea maxim 8 caractere. Nu se poate
termina cu punct. Sistemul nu acceptă utilizarea spațiilor și a caracterelor speciale &, !, ?, ', *);

 Tipul variabilei – Type. Există doar două tipuri de variabile: categoriale sau calitative și
cantitative sau continue.
Variabile categoriale sau calitative – sunt acele variabile care au un număr limitat de valori
sau categorii distincte. Acestea pot fi declarate de tip șir de caractere – String (de exemplu: variabila
sex sau statut ocupațional) sau variabile de tip numeric – Numeric dacă utilizează coduri numerice
pentru a reprezenta categoriile (de exemplu, 0 = Necăsătorit și 1 = Căsătorit).
Variabilele de tip șir - String - se mai numesc variabile alfanumerice sau variabile de caractere
- au valori care sunt tratate ca text. Ca valori ale variabilei șir se pot include numere, litere sau

7
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

simboluri. Valorile șirului lipsă apar necompletate, spații goale. De exemplu: Codurile poștale sau
numerele de telefon, deși sunt compuse din numere, ele nu sunt considerate semnificative în calcule.
Pot fi scrise/afișate în două formate: short string (până la 8 caractere) sau long string (până la 256
caractere);
Majoritatea variabilelor sunt însă cantitative continue - Numeric și pentru acestea sistemul
acceptă cel mult 40 de caractere, dintre care 16 la partea zecimală.

Pentru afișarea variabilelor numerice, sistemul oferă în afara formatului general și alte formate,
ca de exemplu: comma – care va afișa numărul 1897,98 în formatul 1,897.98; dot – îl va afișa în
formatul 1.897,98; scientific notation – în formatul 1,90E+003, dollar – va plasa caracterul monetar $
ca prefix al valorii numerice, oferind în același timp posibilitatea oricărui format de scriere a valorilor
numerice. Tot în categoria variabilelor numerice intră și cele de tip date (data calendaristică) cu
diferite formate de afișare ce trebuie selectate din listele afișate.

Este indicat, ca variabilele din baza de date să fie majoritar numerice având în vedere că
prelucrările datelor implică prelucrări statistice, cantitative.

 Dimensiunea - Width – valoarea specificată în celula width va impune numărul maxim de


caractere reținute la introducerea valorilor variabilei respective (datelor), în timp ce Columns
precizează numărul de caractere afişate;
 Numărul de zecimale – Decimals – specifică numărul de zecimale pentru variabilele numerice.
Valoarea implicită este 0. Numărul de zecimale și semnul grafic de separare a fracției zecimale
sunt incluse în dimensiunea Width. Dacă variabila a fost declarată de tip string. Nu este
permisă operarea în celula Decimals corespunzătoare.

 Eticheta variabilei – Label (este de asemenea opţională). Este un text ce descrie explicit
conținutul și semnificația variabilei. Declararea ei determină afișarea acestui text în antetul
tabelelor rezultat de output în locul numelui variabilei. De exemplu, variabila id are ca etichetă

8
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
textul “Marca angajat”.

Textul etichetă se introduce efectiv în caseta corespunzătoare care implicit conține doar spații.
Nu sunt restricții pentru textul introdus, putând avea o lungime de max. 255 caractere inclusiv spatii
sau oricare alt semn grafic de pe tastatură.

 Valoarea lipsă - Missing value (are specificare opțională – implicit luând valoarea None),
adică cum este interpretată lipsa valorii variabilei pentru unele unități statistice (cazuri).
Acestea pot fi:
 system missing values - valori care lipsesc din baza de date deoarece nu au fost
introduse. Sunt evidenţiate la afișare pe ecran printr-un punct plasat în celula cu valoare
lipsă.
 user missing values - valori declarate lipsă de utilizator, ele putând fi fizic ăn baza de
date, dar utilizatorul nu doreşte să le ia în calcul. Deși declarate lipsă aceste valori un
sunt evidențiate în vreun mod la afișare și nici nu sunt şterse din baza de date.

Pentru declararea valorilor lipsă user missing values se acționează butonul Missing Values
din dreptul variabilei a cărei definire se realizează, care determină apariția casetei de dialog cu același
nume.
Se observă că există mai multe opţiuni:
- declararea a trei valori distincte ca fiind lipsă (Discrete missing values)
- declarea unui domeniu de valori lipsă (Range of missing values)
- declararea unui domeniu la care se poate adăuga şi o valoare distinctă (Range plus one
discrete missing value)

9
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Declararea valorilor lipsă de către utilizator se impune destul de des în prelucrarea datelor,
atunci când apar valori extreme, foarte diferite de celelalte, includerea lor în prelucrări alterând
semnificația statisticilor sintetizatoare, valori care nu trebuie totuşi şterse. (Valorile lipsă se pot inlocui
cu un cod pentru valorile lipsă, de exemplu 9).
 Codurile variantelor variabilelor dihotomice – Values: sunt utilizate în general pentru
variabilele calitative cu un număr redus de variante alternative. IBM SPSS Statistics permite
definirea și memorarea codificărilor utilizate pentru fiecare variantă. (de exemplu, pentru
variabila sex: s-a codificat 0=”Barbat” și 1=”Femeie” etc.),
Activarea celulei din coloana Values va conduce la afișarea casetei de dialog Value Labels în
care se permite codificarea variantelor variabilei respective. Se completează, rând pe rând perechile
de valori Value – Value Label în zonele respective și se adăugă la lista de coduri prin acționarea
butonului Add etc. Etichetele de valori, împreună cu etichetele de variabile conduc la o formă explicită
a rezultatelor. Tot în acesta casetă se pot modifica sau șterge codificările din lista de coduri..

 Nivelul de măsurare utilizat – Measure: sistemul IBM SPSS Statistics oferă trei variante de
măsuri, utilizatorul fiind cel care va selecta una dintre acestea: Scale, Ordinal sau Nominal în
funcție de natura și conținutul variabilei respective.
De specificarea corectă a măsurii depinde alegerea metodologiei statistice de analiză, fiind
esențială mai ales că există prelucrări statistice specifice pentru fiecare dintre tipurile de variabile
ordinale, nominale sau scalare. Chiar dacă variantele variabilelor calitative au fost codificate,
variabilele fiind declarate numerice, nu trebuie uitată natura și conținutul lor, nivelul de măsurare fiind
selectat corespunzător.

10
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Astfel:
 pentru variabilele categoriale nivelul de măsurare poate fi:
- Nominal – nu se poate stabili o ordine între valori sau categorii. De exemplu, variabila sex –
între variantele Femeie și Bărbat nu se poate stabili o ordine.
- Ordinale – între valori sau categorii există o ordine semnificativă, dar nu există o distanță
măsurabilă între acestea. De exemplu variabila Calificative școlare cu variantele ordonabile:
insuficient, suficient, bine și foarte bine
 pentru variabilele cantitative (continue):
- Scale – datele sunt măsurate metric cu scală interval sau raport, unde valorile variabilei indică
atât ordinea lor, cât și distanța dintre acestea. De exemplu, un preț de 100 lei este mai mare decât un
preț de 25 lei, iar distanța dintre cele două valori este de 75 lei.

 Aliniamentul – Align. Se completează implicit de sistem după selectarea nivelului de măsurare.


Variantele variabilelor măsurate scalar vor fi afișate aliniate la dreapta, în timp ce cele
măsurate ordinal sau nominal vor fi afișate aliniate la stânga.
 Rolul variabilei – Role. Indică rolul pe care valiabila îl joacă în analiza datelor din baza de
date, adică variabilă independentă, variabilă dependentă, atât independentă cât și dependentă.
La crearea bazei de date variabile sunt declarate implicit variabile de Input (de intrare),
independente.

Pentru definirea rolului unei variabile în analiză din celula corespunzătoare coloanei Role
pentru variabila respectivă, lista derulantă se selectează una din variantele:
- Target - variabila este utiliată ca variabilă de ieșire (țintă), ca rezultat (variabilă dependentă),
- Both (ambele) - variabilă ce se dorește a fi utilizată atât ca variabilă de intrare cât și ca variabilă
rezultat, de ieșire (variabilă independentă și dependentă),
- None - variabilă care nu are atribuire de rol,
- Partition (partiție) - variabilă prin intermediul căreia se dorește partitionarea datelor în
eșantioane separate pentru testare sau validare.

11
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

- Split (divizare) - acest rol a fost inclus pentru compatibilitatea cu modelatorul IBM SPSS.
În exemplul considerat, s-a creat fișierul angajati.sav conținând variabilele: id – marca
angajatului, salinit – salariul la angajare, sex – genul angajatului, varsta – vârsta, sal – salariul curent,
studii – nivelul educațional (număr de ani), vechime – vechimea în muncă, functia – funcția postului
ocupat și disabilitati – încadrat ca personal cu dizabilități.
Ecranul Variable View se prezintă ca în figura de mai jos. Toate variabilele au fost declarate
numerice, variantele variabilelor calitative, nominale sau ordinale fiind codificate).

1.2.2. Introducerea datelor


După definirea variabilelor, datele se introduc înregistrare cu înregistrare (rând cu rând) în
ecranul Data View de la tastatură. Trebuie respectate toate elementele definite, altfel sistemul refuză
să valideze și să salveze datele. Dacă unei variabile i se asociază de exemplu tipul numeric cu 0
zecimale, valorile cazurilor ce prezintă fracție zecimală vor fi rotunjite la cel mai apropiat întreg,

Datele pot fi importate și din alte programe ce organizează datele tabelar, de exemplu Ms Excel
sau Ms Access. Pentru aceasta, din meniul File se selectează Open Database>New Query care va
activa caseta de dialog Database Wizard care va îndruma utilizatorul în crearea fițierului de date prin
importarea datelor dintr-un alt fișier.

12
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Pentru a importa datele dintr-o foaia de calcul Excel, aceasta trebuie să îndeplinească câteva
condiții:
- Să aibă un singur rând de nume de variabile în partea de sus a foii de calcul din primul rând;
- Denumirile variabilelor ar trebui să includă litere și cifre și scrise și să nu includă caractere
speciale, nici măcar spațiul;
- Datele ar trebui să înceapă cu prima coloană, al doilea rând (sub rândul de nume variabile) al
foii de calcul;
- Toate textele suplimentare, etichetele, graficele, tabelel pivot, în general orice nu este o dată
în sine, trebui eliminate anterior importului de date în IBM SPSS;
- Valorile care lipsesc pentru variabilele string sau numerice au celule goale sau un cod
corespunzător de valori care lipsește (cum ar fi - 999).

1.2.3. Filtrarea cazurilor


Există situații în care se impune prelucrarea doar a unui subset de înregistrări din baza de date.
De exemplu, se dorește analiza unor aspecte ce privesc doar angajații de sex masculin. Sistemul SPSS
oferă posibilitatea filtrării datelor cu comanda Data > Select Cases care generează caseta de dialog
Select Cases. Ca rezultat se construiește o nouă variabilă care are ca variante doar acele situații, cazuri,
pentru care condiția de filtrare este îndeplinită.

13
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

În zona de formare a condiției se pot utiliza denumiri de variabile (selectate din lista din
stânga), operatori, funcții din lista din dreapta casetei de dialog. Pentru toate prelucrările ulterioare
vor rămâne valide doar înregistrările pentru care condiția este adevărată.
Dacă nu se optează pentru ștergerea datelor neselectate, ele vor fi păstrate și vor putea fi
reintroduse în analiză. Procedura este Data - Select Cases....
Pentru exemplificare, în imaginile de mai sus, am filtrat baza de date angajati.sav reținând doar
cazurile de angajați bărbați, adică cele pentru care variabila sex are valoarea 0 – ”bărbat”.
În caseta de dialog Select Cases se observă:
- în stânga este zona cu lista de variabile conținute de baza de date;
- în dreapta-sus este zona de fixare a condițiilor de selectare Select, cu opțiunile:

- All cases – setarea implicită, care determină aplicarea


condiției de selectare asupra tuturor datelor; Se folosește
pentru revenirea la forma inițială după o operație de filtrare
anterioară.
- If condition is satisfied, opțiune care bifată permite
introducerea unei condiții de selectare bazată pe o expresie
algebrică prin activarea butonului IF. Butonul IF deschide
caseta Select Cases: if.
În cazul considerat pentru exemplificare, am trecut variabila sex în zona de editare a funcției
și am declarat-o egală cu 0, respectiv ”bărbat”. Astfel, vor deveni baza de analiză toate cazurile din
baza de date pentru care au sex=0 (bărbat), toate celelalte fiind ignorate. Se pot declara condiții de
selecție complexe bazate pe funcții matematice compuse ce pot include combinații de variabile din
lista din stânga;
- Random sample of cases, bifată determină selectarea unui set aleatoriu de cazuri din baza
de date;
- Based on time or case range, bifată permite selectarea cazurilor în funcție de numărul de
ordine în baza de date. Butonul Range permite specificarea primei și ultimei poziții
selectate;

14
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

- Use filter variable, selectează pe baza valorile unei variabile filtru;


- În dreapta-jos, zona cu specificații de Output. Sunt permise trei acțiuni :
 filtrarea cazurilor neselectate (Filter out unselected cases);
 eliminarea lor (Deleted), sau
 copierea datelor selectate într-un nou set de date (Copy selected cases to a new
dataset).

1.2.4. Sortarea cazurilor


Deși pentru procesarea datelor cu diferitele proceduri de calcul oferite de IBM SPSS Statistics,
ordinea înregistrărilor (cazurilor) în tabel nu are nici-o importanță, sistemul oferă posibilitatea sortării
acestora cu comanda: Data> Sort Cases.
În caseta de dialog Sort Cases afișată se transferă variabilele criteriu de sortare din lista de
variabile din stânga casetei, în zona Sort By, din dreapta, rând pe rând, apăsând butonul .

Pentru fiecare variabilă criteriu în parte se selectează


sensul de ordonare Ascending/Descending. Implicit este
Ascending.
Datele pot fi sortate în același fișier, sau se poate crea un
nou fișier dacă se bifează opțiunea Save file with sorted date și se
specifică numele și folderul în care se salvează acționând butonul
File.

1.2.5. Sortarea variabilelor


Așa cum ordinea coloanelor nu are nicio importanță într-un tabel la fel și ordinea variabilelor
în baza de date SPSS. Totuși, atunci când fișierul bază de date conține multe variabile, unele dintre
ele obținute ca rezultate ale executării diverselor proceduri, pentru ușurarea identificării lor,
variabilele pot fi sortate cu comanda Data > Sort Variables…

15
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Sortarea se poate face după oricare atribut al variabilelor, Nume, Tip, Dimensiune, etc. în
ordine crescătoare/alfabetic sau invers.

1.2.6. Generarea de noi variabile prin transformarea variabilelor bazei de date

Uneori este nevoie de recodificări ale datelor sau de o nouă variabilă, derivată din variabile
primare având un alt nivel de măsurare. SPSS oferă posibilitatea generării automate de astfel de
variabile.
În funcție de situație, se optează pentru una din procedurile:
 Transform > Compute Variable…
 Transform > Recode into same Variables…, sau Transform > Recode into
Different Variables…
 Transform > Visual Binning…

Prima opțiune permite generarea unei noi variabile în baza unui model de calcul, în timp ce
celelalte două presupun recodificarea variantelor fie prin modificarea lor în aceeași variabilă fie prin
generarea unei noi variabile.

16
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

 Procedura Transform > Compute Variable


Se utilizează pentru construirea de noi variabile ale căror variante se calculează conform unei
expresii de calcul matematic ce are ca operanzi variabile existente în baza de date.
Spre exemplificare s-a construit o nouă variabilă în fișierul angajați.sav, cu numele DifSal –
cu eticheta Majorare salarială ca diferență între salariul actual și salariul la angajare pentru fiecare
angajat (caz din baza de date).
Procedura afișează caseta de dialog Compute Variable ca în figura de mai jos:
- în zona Target Variable se va introduce denumirea variabilei noi. Acesteia i se poate preciza
tipul și eticheta prin acționarea butonului Type & Label.
- în zona de declarare a expresiei algebrice de calcul, Numeric Expression, se introduce expresia
de calcul utilizând butoanele de tastatura existente în partea de jos a zonei și funcțiile din lista
din dreapta sau pur și simplu se tastează direct de la tastatură.
Denumirile variabilelor bază de calcul pot fi inserate în expresia algebrică de calcul ca
operanzi prin selectarea lor lista variabilelor, dând dublu click sau acționând butonul . Expresia de
calcul poate conține orice funcție matematică din lista Function group.

Imaginile reflectă crearea unei noi variabile ce reflectă creșterea salarială (salariul curent –
salariul de la angajare) pentru toți salariații. Variabila nou creată este cantitativ continuă cu nivel de
măsurare interval. (Scale)

De asemenea, dacă se impune se poate efectua simultan filtrarea înregistrărilor bază de calcul
prin acționarea butonul IF. În acest caz, variabila obținută prin transformare, va avea pentru cazurile
neselectate valori lipsă, system-missing.

17
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

 Procedura: Transform > Recode…


Procedura poate fi utilă, de regulă, în două situații:
- transformarea unei variabile cantitative continue (scale) într-o variabilă ordinală, respectiv
gruparea datelor cu scopul unei analize de asociere în raport cu alte variabile ordinale;
- recodificarea unei variabile de tip string în tip numerică pentru a putea fi prelucrată ulterior
și analizată statistic, recodificarea afectând efectiv variabila respectivă (Recode into Same
Variables…) , sau vizând crearea unei noi variabile pentru valorile numerice ale acesteia (Recode Into
Different Variables...).
În caseta de dialog Recode Into Different Variables..., după transferul variabilei ce trebuie
recodificată în zona Input Variable-Output Variable, se va specifica denumirea variabilei rezultat în
spațiul Name din zona Output Variable.
Se poate completa pe lângă numele variabilei noi și eticheta acesteia în spațiul Label, apoi se
acționează butonul Change pentru a transfera numele variabilei noi lângă cea veche în zona Input
Variable-Output Variable.

În ambele casete de dialog de recodificare, există opțiunea de selecție a variantelor ce sunt


supuse recodificării prin declararea unei condiții de selecție în caseta de dialog activată de acționarea
butonului IF. Acționarea butonului deschide o casetă de dialog similară celei prezentate la filtrarea
datelor.
Pentru a specifica modul în care se face recodificarea, în ambele situații, se acționează butonul
Old and New Values… care va deschide caseta de dialog cu același nume.
Din zona Old Value se selectează modul de specificare a recodificărilor care poate fi:
- Codificare variantă cu variantă: Value. Valorile lipsă (Old value) pot fi și ele codificate
selectând system missing sau system or user missing,
- Codificare interval cu interval: Range care va determina codificarea cu aceeași valoare indicată
în zona New Value a unui întreg set de variante cuprins în intervalul ale căror limite sunt
indicate în zona Old Value, trecerea corespondența definită în lista făcându-se acționând rând
pe rând butonul.
- Codificarea poate fi făcută și pentru seturi de date începând de la cea mai mică valoare până
la o valoare indicată de utilizator: Range, LOWEST through value, sau de la o anumită valoare
indicată până la cea mai mare valoare: Range, value through HIGHEST (cea mai mică și cea
mai mare valoare sunt depistate de sistem), toate celelalte variante fiind codificate cu aceeași
valoare nouă indicată: All other values.

18
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

După completarea zonei Old Value, respectiv New Value, trecerea corespondenței definită în
lista Old→New se realizează prin acționarea butonului Add.
Exemplul prezentat în imaginile de mai jos vizează generarea unei noi variabile, salariu,
obținută prin codificarea variantelor variabilei numerice sal grupate pe 5 intervale de variație.

19
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

 Transform > Visual Binning…


Procedura Visual Binning oferă posibilitatea transformării unei variabile cantitative continue
într-una categorială ordinală.
La lansarea procedurii, Transforma > Visual Binning…, în caseta de dialog afișată se
transferă variabila ce urmează a fi transformată, din lista de variabile din zona din stânga, în zona
Variables to Bin din dreapta.
În cazul prezentat, variabila continuă ce a făcut obiectul transformării în variabilă categorială
(ordinală) a fost salinit - Salariul la angajare.

Acționarea butonului Continue determină afișarea casetei de dialog Visusal Binning.

În această casetă trebuie specificat numele noii variabile în spațiul Binned Variable, eventual
o nouă etichetă.
În casetă, este în mod automat specificată valoarea minimă și cea maximă a variabilei de
transformat astfel încât să orienteze utilizatorul cu privire la numărul de categorii necesare.
Se specifică de asemenea numărul cazurilor (474) și al valorilor lipsă (în cazul prezentat – 0).

20
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Cel mai simplu mod de a defini categoriile noii


variabile este prin intermediul casetei de subdialog
afișate prin acționarea butonului Make Cutpoints…
Există mai multe variante posibile de a împărți datele
în intervale (categorii) cu specificarea „punctelor de
tăiere” (cutpoints). Una dintre cele mai simple este
specificarea numărului de intervale de variație pe care
se vor grupa variantele individuale prin specificarea
numărului puncte de tăiere a șirului de valori la
opțiunea Equal Percentiles based on scanned cases,
respectiv 4, astfel încât în fiecare dintre cele 5
intervale să se cuprindă 20% dintre cazuri. În mod
automat sistemul completează secțiunea Width%, cu
respectiv 20%.

Prin acționarea butonului Apply, sunt generate limitele intervalelor de variație pentru cele 5
intervale stabilite în caseta Visual Binning, și în funcție de opțiunea setată pentru stabilirea limitelor
superioare ale intervalelor de variație, prin acționarea butonului Make Labels, se generează automat
etichetele categoriilor respective.

Prin acționarea butonului OK, se definește automat noua variabilă categorială ordinală în
ecranul VariableView.

21
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

De asemenea, se generează codurile (de la 1 la 5) corespunzătoare fiecărui caz, după cum se


plasează într-unul dintre intervalele de variație definite cu procedura Visual Binning.

22
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

CAPITOLUL 2

ANALIZA DESCRISTIVĂ A DATELOR STATISTICE

Înainte de testarea unor ipoteze statistice sau de construirea unui model pentru setul de date
înregistrate, este întotdeauna nevoie de o examinare a acestora folosind indicatori statistici descriptivi
și reprezentări grafice adecvate. Acest proces poartă numele de analiza univariată a datelor și deși
este o etapă preliminară a oricărui proiect de cercetare este foarte importantă. Analiza univariată are
un rol deosebit în analizele statistice preliminare ale datelor fiind utilă în depistarea unor erori în seriile
de date, pentru centralizarea și sistematizarea datelor, pentru descrierea sintetică a unor
fenomene/procese simple.

2.1. DESCRIEREA VARIABILELOR STATISTICE – SINTEZE TEORETICE

Analiza univariată a datelor vizează „cunoașterea și înțelegerea” datelor de care se dispune în


următorii termeni: care sunt valorile tipice?, există valori neobișnuite în setul de date?, unde este
valoarea centrală?, cât sunt de împrăștiate datele față de valorile tipice?, care sunt valorile extreme?,
etc. Această etapă este esențială mai ales pentru că oferă posibilitatea de a identifica și corecta diverse
neajunsuri, ca de exemplu valori lipsă, colectivități neomogene, cu variație foarte mare, etc, care
necesită un tratament special.
Simpla consultare a datelor "brute" ale unei variabile nu va putea oferi prea multe informații
despre fenomenul pe care îl măsoară, mai ales în cazul unui număr foarte mare de cazuri. Pentru
aceasta este nevoie de niște măsuri capabile să ofere o imagine de ansamblu, sintetică a situației
analizate. Aceste măsuri statistice poartă numele de indicatori sau statistici descriptive.
Modul în care sunt ”explorate” variabilele depinde în mare măsură de tipul acestora, cantitative
continue sau categoriale, metodologia statistică punând la dispoziție indicatori specifici diferitelor
aspecte descriptive ale acestora. Există o varietate mare de astfel de indicatori, obținuți prin
centralizarea și prelucrarea datelor primare, cu modele de calcul diverse. Fiecare categorie de
indicatori descrie anumite aspecte ale populației pentru care s-au colectat datele respective. Deși
oricare dintre acești indicatori poate fi utilizat independent, deoarece pune în evidență doar un anumit
aspect al fenomenului/procesului sau colectivității cercetate, de regulă se apelează la mai mulți
indicatori, care împreună pot descrie complet conținutul ansamblului, numit sistem de indicatori.
În funcție de scopul urmărit și de natura datelor individuale se pot determina sisteme de
indicatori de frecvență, ai tendinței centrale, ai variației, ai formei de distribuție, etc. cu diverse
metodologii de calcul, condiții specifice de utilizare și semnificație în funcție de tipul și nivelul de
măsurare a variabilei pentru care se calculează.

2.1.1. Tabelele de frecvență


Lista variantelor distincte ale unei variabilei, însoțite de numărul de unități statistice pentru
care s-au înregistrat respectivele valori (observații) poartă numele de distribuție de frecvente.
Aceste frecvențe, numite și frecvențe absolute sunt notate, de obicei, cu 𝑓𝑖 , iar suma lor este
egală cu numărul total de cazuri, N, dimensiunea colectivității studiate. În cazul variabilelor cu un

23
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

număr mare de variante distincte, se recurge mai întâi la o "grupare" a datelor în mai puține
categorii/grupe.
Tabelul de prezentare al distribuției poartă numele de tabel de frecvențe și conține pe
lângă ”grupele” în care au fost ”grupate” datele inițiale, și aparițiile pentru fiecare grupă – frecvențele
absolute, încă două tipuri de indicatori de frecvențe, calculate pe baza frecvențelor absolute, și anume
frecvențe relative și frecvențe cumulate.
Prima coloană a tabelului conține valorile variabilei X , distribuite pe grupe/categorii. Cea de-
a doua coloană conține frecvențele de apariție ale acestor valori, sau cu alte cuvinte numărul de
observații aflate în fiecare grupă/categorie. Ce-a de-a treia coloană a tabelului conține frecvențele
relative, adică ponderea sau proporția observațiilor din fiecare categorie în totalul observațiilor.
fi
Formula de calcul a frecvențelor relative este: f i *  , sau exprimate în procente:
N
f
f i*  i (100) ,
N
unde:
- f i * este frecvența relativă a categoriei (valorii variabilei) i
- f i este frecvența absolută a categoriei i (numărul de cazuri sau observații care aparțin
respectivei categorii)
- N este numărul total de observații
Cea de-a patra coloană a tabelului conține frecvențele cumulate, practic suma dintre frecvența
relativă a respectivei categorii și frecvențele relative ale categoriilor inferioare.
i
Fi   f j
* *

j 1

Uneori, pentru o mai bună semnificație statistică frecvențele relative se exprimă în procente,
caz în care poartă numele de ponderi. Indicatorii de frecvență sunt o măsură a structurii colectivității.

Calculul frecvențelor cumulate nu are sens pentru variabilele nominale, din moment ce valorile
acestui tip de variabile nu pot fi ordonate.

2.1.2. Reprezentări grafice

24
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Reprezentarea grafică a unui tabel de frecvențe se face de obicei cu ajutorul histogramelor


(histograms) sau diagramelor prin coloane (Bar Charts) sau diagramele de structură (Pie). În cazul
primelor două tipuri de grafice pe axa verticală sunt reprezentate frecvențele (absolute sau relative),
iar pe axa orizontală sunt reprezentate valorile variabilei analizate, în cazul celui de-al treilea tip,
unghiul la centru al unui sector de cerc este proporțional cu raportul dintre frecvența absolută a acelei
clase/grupe și volumul total al colectivității, adică cu frecvența relativă corespunzătoare.
Histograma este specifică doar variabilelor măsurate la nivel de interval sau de raport (scale),
diagrama prin coloane se folosește de preferință pentru variabile categoriale, nominale sau ordinale.
Diagrama de structură este fi folosită pentru evidențierea structurii unei colectivități, grupate după
orice tip de caracteristică atributivă, cantitativă sau calitativă.

2.1.3. Indicatori statistici de descriere a variabilelor


 Cazul variabilelor cantitative continue
Pentru analiza exploratorie a unei variabile numerice cu variație continuă, notată
X  x1 , x2 ,..., xn  , în care xi , i=1,...,n reprezintă valorile înregistrate ale variabila X la nivelul fiecărei
unități statistice, se calculează și interpretează următorii indicatori specifici:
 Indicatorii tendinței centrale
O primă evaluare a valorilor variabilei cantitative continue X  x1 , x2 ,..., xn  , vizează calculul
valorilor ”tipice” care descriu tendința centrală a acesteia, practic centru distribuției. Cele mai uzuale
măsuri statistice în acest sens sunt: media, mediana și modul.
 Media. Este o valoare reprezentativă pentru toate variantele individuale pe care
le sintetizată, putând substitui orice nivel individual xi . Substituirea se poate face fie din punct
de vedere cantitativ (nivelul total al caracteristicii supuse cercetării, calculat prin totalizarea
nivelurilor individuale este identic cu același total calculat cu mediile care substituie nivelurile
individuale), fie din punct de vedere calitativ (semnificația și conținutul mediei depind de
gradul înalt de omogenitate al unității statistice).
În funcție de aceasta, există mai multe modele de calcul pentru medie, ca de exemplu: media
aritmetică, media armonică, media pătratică și media geometrică, fiecare dintre acestea fiind potrivite
unui anume tipar al distribuției setului de date. Dintre acestea, cea mai utilizată este media aritmetică,
notată x . Se calculează cu formula:
n
 x
i
x  i 1 .
n
Totuși, semnificația și relevanța mediei depinde de alegerea modului de calcul potrivit,
calculul ei fiind în același timp condiționat de existența unui număr suficient de mare de valori
individuale xi din care majoritatea trebuie să fie dispuse în jurul ei (să aibă valori asemănătoare
mediei). Media devine irelevantă în descrierea variabilei dacă valorile individuale xi prezintă un grad
accentuat de împrăștiere, tinzând către valorile extreme ale șirului de date, sau chiar doar către una
dintre acestea.
 Modul, notat (Mo), sau valoarea dominantă a caracteristicii, este valoarea xi ”cea mai
probabilă”, adică cea care se înregistrează cu frecvența cea mai mare.

25
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

 Mediana, notată (Me), este acea valoare a caracteristicii care ocupă locul central în șirul
valorilor individuale xi ordonate crescător sau descrescător. Altfel spus, mediana împarte seria
în două părți egale, numărul valorilor individuale mai mari ca mediana fiind egal cu numărul
valorilor individuale mai mici decât aceasta. Mediana este unul din cazurile speciale de măsură
a localizării, fiind indicator de poziție.
Uneori, în șirul valorilor individuale înregistrate apar valori outliers (aberante ca mărime în
raport cu celelalte, neobișnuite), ca urmare indicatorii de localizare centrală sunt mult denaturați
(deplasați). În acest caz se calculează mediile robuste. Acestea elimină o parte a efectului valorilor
aberante fără a afecta semnificația mediei. Se pot calcula două tipuri de medii robuste:
 Media winsorizată 95%, în calculul căreia primele 2.5% dintre valorile ordonate sunt
înlocuite cu „cuantila 2.5” și ultimele 2.5% dintre valori sunt înlocuite cu „cuantila 97.5”.
 Media trimmed 95%, este calculată excluzând primele 2.5% și ultimele 2.5% dintre
valorile șirului ordonat de date.
Valorile determinate pentru cei trei indicatori de poziție pot indica diverse aspecte privitor la
variabila pentru care au fost determinate:
- Cu cât distanțele dintre medie și mod, respectiv dintre medie și mediană, sunt mai mici (cei
trei indicatori au valori asemănătoare), cu atât media este mai reprezentativă, atât modul cât și mediana
pot înlocui media.
- Ei se plasează în zona centrală a distribuțiilor unidimensionale moderat asimetrice, între cei
trei indicatori stabilindu-se relația:
Mo  3Me  2 x .

 Indicatorii de poziție
Media, mediana și modul sunt cei trei indicatori ai localizării „centrului” valorilor șirului de
date. Există și alte măsuri ale localizării datelor în analiza distribuției valorilor observate, numite
indicatori de poziție sau cuantile (în limba engleză percentiles), asociate unui șir de valori, astfel:
 Cuantila (Percentila) de ordinul p este acea valoare xi , care are proprietatea că p% dintre
valorile șirului de date ordonate sunt mai mici decât ea și (100 – p)% dintre valori sunt mai
mari decât ea.
Cele mai utilizate cuantile în descrierea distribuției unei variabile sunt:
 Cuartilele - Sunt trei cuartile care împart șirul ordonat al valorilor individuale
ale variabilei în 4 părți egale:
 Cuartila inferioară, notată Q1, este cuantila 25.
 Cuartila de mijloc, notată Q2, este cuantila 50. Se observă faptul că cuartila Q2
este tocmai mediana.
 Cuartila superioară, notată Q3, este cuantila 75.
Cuartilele se folosesc pentru a analiza dispersia valorilor x1 , x2 ,..., xn  calculându-se cu
ajutorul lor așa-numitul indicator inter-quartile (notat IQR), calculat ca diferența dintre percentila 75
și percentila 25, care pentru distribuții normale ar trebui să fie aproximativ 1.35 din abaterea standard
a variantelor respectivei variabile.

26
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

 Indicatorii variației
Chiar și așa, indicatorii tendinței centrale sunt măsuri suficiente, pentru descrierea completă a
unei variabile fiind important să se cunoască și cât de "împrăștiate" sunt valorile acesteia în jurul
tendinței centrale sau, altfel spus, cât de omogenă sau eterogenă este colectivitatea studiată în raport
cu o caracteristic respectivă. Pentru a evalua împrăștierea datelor se utilizează indicatorii simpli și
indicatorii sintetici ai variației, dintre care cei mai relevanță sunt:
 Amplitudinea (Range) este calculată ca diferență între valoarea maximă și valoarea minimă a
valorilor
2
 Dispersia (Variance) sau varianța (  ). Se calculează cu formula:
1 n

2    x x 2
n i 1 i


n

Abaterea medie pătratică (Standard deviation), (  ). Se calculează cu:   1   x  x 2 .
n i 1 i

Cu cât este mai mică abaterea standard (dispersia), cu atât valorile individuale xi sunt mai
apropiate, față de medie. O abatere standard mai mare poate să indice o tendință de concentrare a
valorilor xi la extremitățile șirului ordonat al datelor.
Când în cadrul unei analize se dorește să se compare acești parametri pentru două variabile
care au unități diferite de măsură, se folosește coeficientul de variație:
 Coeficientul de variație (v). Se calculează ca raport între abaterea medie pătratică și nivelul
mediu al seriei. De obicei se exprimă sub formă de procente
Coeficientului de variație se poate calcula cu una dintre formule:
σ
v  100 ;
x
Prin modul de calcul, coeficientul de variație are avantajul de a fi o măsură adimensională
(fără unitate de măsură), deoarece unitatea de măsură a abaterii standard este aceeași cu cea a mediei.
În consecință, el este foarte util în compararea variației a două variabile măsurate pe aceeași
populație/eșantion.
Coeficientul de variație poate să ia valori începând cu zero. Cu cât are o valoare mai mică, cu
atât seria statistică este mai omogenă și deci media este mai reprezentativă. Se apreciază că în cazul
unui coeficient de peste 35 - 40% media nu mai este reprezentativă și datele trebuie regrupate.
Acest indicator este cel mai expresiv fiind folosit la aprecierea gradului de semnificație al
mediei pentru o serie de distribuție precum și a omogenității colectivității statistice din punctul de
vedere al caracteristicii cercetate.

 Indicatori ai formei distribuției


Distribuțiile empirice se pot compara cu repartițiile teoretice ai căror parametri se cunosc
(media, mediana, dispersia, etc) din punctul de vedere al formei distribuției frecvențelor. Cea mai
frecventă comparație este cea în raport cu repartiția lui Gauss, o repartiție simetrică, normală.
Compararea unei serii empirice de distribuție de frecvențe cu repartiția normală urmărește două
aspecte:
- modul în care frecvențele distribuției empirice se abat de la curba normală a frecvențelor,

27
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

respectiv asimetria, iar pe de altă parte


- gradul de concentrare a frecvențelor în zona centrală a acesteia, respectiv curtozis-ul sau exces-
ul.
Pentru aceasta, metodologia statistică pune la dispoziție indicatori specifici asimetriei și
curtozis-ului cunoscuți ca indicatori ai formei distribuției.
 Asimetria. Noțiunea de asimetrie se referă la faptul că frecvențele unei distribuții se abat de la
curba normală a frecvențelor, cea pentru care frecvențele se distribuie simetric de o parte și de
alta a frecvenței maxime plasată în centrul seriei având graficul de forma unui clopot (clopotul
lui Gauss-Laplace). Distribuțiile empirice pot fi moderat asimetrice sau pronunțat asimetrice.
Astfel, se impune problema caracterizării asimetriei prin cuantificarea ei. Pentru cuantificarea
gradului de asimetrie se folosesc mai multe metode dintre care metoda lui Pearson și metoda lui Fisher
sunt cele mai cunoscute.
 Asimetria absolută (as) calculată ca diferență între media seriei și modul ei.
as  x  Mo
- Valori pozitive ale as indică o asimetrie la stânga sau pozitivă (înclinare la dreapta);
- Valorile negative ale as indică asimetrie la dreapta sau negativă (înclinare la stânga).
 Coeficientul empiric de asimetrie propus de Pearson este raportul dintre asimetria calculată
și abaterea medie pătratică, adică:
as x  Mo
K  
asP σ σ
Domeniul de valori pentru acest coeficient este -1KasP+1 și poate indica mărimea și tipul
asimetriei astfel:
KasP=0 - indică faptul că seria este simetrică;
KasP0 - indică o asimetrie slabă;
KasP1 - indică o asimetrie pronunțată.
Se consideră asimetrie moderată situațiile în care -0,3  KasP  +0,3.
KasP<0 - indică o asimetrie la dreapta sau negative (înclinare la stânga);
KasP>0 - indică o asimetrie la stânga sau pozitivă (înclinare la dreapta);
KasP=0 - indică o serie simetrică.
 Coeficientul de asimetrie propus de Fisher
3x  Me
K 
asF σ
Acest coeficient de asimetrie al lui Fischer ia valori cuprinse în intervalul -3,+3 și cu cât se
apropie de zero cu atât seria este mai aproape de simetrie.
Se poate aprecia asimetria unei distribuții și pe baza poziției relative, unul față de celălalt, a
celor trei indicatori ai tendinței centrale: media, mediana și modul, astfel:
x  Me  Mo - serie simetrică;
Mo  Me  x - serie asimetrică la stânga sau pozitivă (înclinare la dreapta);
x  Me  Mo - serie asimetrică la dreapta sau negative (înclinare la stânga).

28
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

 Curtozisul sau excesul se referă la forma distribuției uni-modale prin comparație cu distribuția
normală.
Dacă într-o distribuție variantele variabilei sunt concentrate în jurul nivelului său mediu mai
mult decât în cazul distribuției normale atunci distribuția este leptocurtică.
Dacă din contră, variantele sunt mai împrăștiate față de nivelul mediu decât în cazul distribuției
normale, atunci distribuția este platicurtică. Distribuția normală este numită mezocurtică.
Pentru aprecierea curtozisului se apelează la coeficienții de boltire (de aplatizare) propuși de
Pearson și Fisher:
 Coeficientul de boltire al lui Pearson:
μ μ
β  4  4
2
 σ 2 
2 μ2 2
 
unde:

  4
 xi  x  fi  2

 xi  x  f i
4  i 2  i 2
 fi  fi
i i
 Coeficientul de boltire al lui Fisher:
μ4 μ 4  3σ 4
γ2  β2  3   3 
σ4 σ4
Astfel,
- Dacă  2  3 , respectiv  2  0 , caz în care distribuția este leptocurtică, cu vârf ascuțit sau cu
coada lungă;
- Dacă  2  3 , respectiv  2  0 , caz în care distribuția este platicurtică, cu vârful plat sau cu
coada scurtă;
- Dacă  2  3   2  0 , caz în care distribuția este mezocurtică sau normală.

29
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Uneori, între nivelurile variantelor unor variabile numerice există discrepanțe foarte mari ca
urmare a unităților de măsură diferite. Standardizarea datelor reprezintă o modalitate de transformare
a variabilelor recomandată tocmai pentru a evita aceste discrepanțe, care îngreunează înțelegerea
semnificației diferiților indicatori pentru care se constituie în bază de calcul. Această operație vizează
variabilele cantitative.
Variantele tuturor variabilelor din tabelul de date se înlocuiesc cu valori noi numite scoruri
standard, sau scoruri z, calculate cu formula:
xi  x
zi 
i
unde 𝑥̅ este valoarea medie a variabilei şi 𝜎 - abaterea medie pătratică (abaterea standard):
n
 x
 
i
x  i 1 ,   1   x  x 2
n
n n i 1 i

Rezultatul unei astfel de transformări este o nouă variabilă Z care va avea întotdeauna media
egală cu 0 și abaterea standard egală cu 1, ca urmare a formulei de calcul cu care s-au obținut variantele
sale.
Scorurile z semnifică distanta la care se găsesc fiecare dintre variantele xi față de media seriei
de date, 𝑥̅ , distanță măsurată în abateri standard ale variabilei originale X. Această transformare a unei
variabile nu va modifica forma distribuției acesteia.

 Cazul variabilelor categoriale


Pentru descrierea structurii eșantionului (colectivității) în raport cu o variabilă categorială, se
pot determina indicatorii de frecvențe (frecvențe absolute, relative, cumulate, ponderi), construindu-
se tabelul de frecvențe pe categorii; Modul de calcul și semnificația acestora este similar cazului
variabilelor cantitative continue.
Aspectele referitoare la tendința centrală a variabilelor categoriale depind de scala de
măsurare, putând fi exprimate prin:
 Mod și Mediană pentru variabilele categoriale ordinale .
 Modul variabilele categoriale nominale .
 Pentru nicio variabilă categorială (nominală/ordinală) nu se calculează media, chiar dacă
variantele acesteia sunt numerice, ca urmare a codificării valorilor calitative.
Modul și mediana au același mod de determinare și aceeași semnificație ca în cazul

30
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
variabilelor cantitative continue (Scalare).
În ceea ce privește împrăștierea variantelor, aceasta poate fi apreciată doar în cazul
variabilelor ordinale, după ierarhizarea/ordonarea valorilor în raport cu un anumit criteriu, prin
indicatori de poziție, de exemplu:
- cuartile, care necesită împărțirea populației în patru părți egale;
- decile, care înseamnă împărțirea populației în 10 părți egale.
Valorile corespunzătoare cuartilelor și decilelor se determină pe baza acelorași principii după
care se află valoarea mediană.
Într-un tablou sintetic, comparativ, analiza exploratorie, preliminară, a variabilelor statistice
vizează interpretarea semnificației următorilor indicatori statistici:

Indicatori statistici de descriere primară a datelor statistice


Aspectul Tipul variabilei după scala de măsurare
descris Indicatorul statistic Cantitativă
Ordinală Nominală
continuă
Frecvențe absolute Da Da Da
Structura
colectivității Frecvențe relative Da Da Da
(eșantionului) Frecvențe cumulate Da Da Da

Mod Da Da Da
Tendința
Mediana Da Da Nu
centrală
Media aritmetică Da Nu Nu
Amplitudine Da Nu Nu
Cuantilele Da Da Nu
Împrăștierea
Abatere standard Da Nu Nu
(variația)
Dispersie Da Nu Nu
Coeficientul de variație Da Nu Nu
Indicatorii Coeficienți de asimetrie Da Nu Nu
formei Da Nu Nu
distribuției Coeficienți de boltire

31
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

2.2. ANALIZA DESCRISPTIVĂ A VARIABILELOR STATISTICE CU


IBM SPSS STATISTICS

Descrierea variabilelor necesită prelucrări statistice ale căror comenzi de execuție a


procedurilor de calcul se găsesc în meniul Analyze. Utilizatorul are la dispoziție trei variante de lucru
disponibile din submeniul Descriptive Statistics, respectiv: Frequencies…, Descriptives… și
Explore.

Practica cercetării statistice dovedește faptul că, în cele mai multe situații, subiectul cercetării
este reprezentat de eșantioane aleatorii ale populației totale. Pentru a avea garanția că generalizarea
indicatorilor ce descriu eșantionul pentru populația totală din care respectivul eșantion a fost extras,
este semnificativă, trebuie avut în vedere ca datele din componența eșantionului să fie omogene,
continue și normal distribuite, deoarece determinarea celor mai mulți dintre indicatorii descriptivi se
bazează pe conceptul de normalitate a datelor din care aceștia sunt calculați.
Un poligon al frecvențelor de formă asemănătoare unui clopot indică faptul că datele sunt
normal distribuite. De asemenea, indicatorii statistici parametrici (calculați din valorile individuale
ale variabilelor) sunt relevanți doar dacă datele respective sunt omogene.
În situația încălcării grave a acestor cerințe, pentru descrierea variabilelor este mai sigură
utilizarea unor statistici non-parametrici, respectiv a unor teste de verificare a unor ipoteze. Deoarece
ceste teste au o capacitate redusă de a identifica diferențe semnificative, utilizarea acestora se face
doar dacă este necesar.
Singura procedură SPSS care oferă posibilitatea unei analize exhaustive a uneia sau mai multor
variabile cantitative este procedura Explore… cea mai complexă dintre cele trei. Primele două,
procedurile Frequencies… și Descriptives…, deși cu aplicabilitate diferită în funcție de tipul
variabilei și nivelul de măsurare, oferă doar posibilitatea determinării unor măsuri statistice, însă
pentru utilizarea lor este nevoie de să cunoaștem dacă eșantionul respectă condițiile generalizării
parametrilor săi.
Pentru exemplificarea modului de lucru și a semnificației rezultatelor, în continuare se vor
prezenta, fiecare dintre cele trei proceduri. Se va ține cont de aplicabilitatea acestora în funcție de tipul
variabilei categorială sau cantitativ continuă. Datele supuse prelucrărilor primare sunt conținute în
baza de date angajați.sav.

32
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

2.2.1. Varianta de lucru 1: Procedura Frequencies...


 Cazul 1 - Descrierea variabilelor cantitative continue
Variabilele cantitative sunt variabilele numerice care au ca nivel de măsurare scară ”scale”.
Deoarece la introducerea datelor variabile precum sex, funcția, studii și dizabilități au fost codificate
sau declarate ordinale sau nominale, chiar dacă sunt declarat de tip numeric, nu fac obiectul celor
prezentate în continuare.
Am considerat semnificativ de prezentat prelucrarea variabilei sal – salariul curent al
angajaților, variabilă cantitativă definită cu nivel de măsurare ”scale”. În mod asemănător pot fi
prelucrate în vederea descrierii variabilele salinit – salariul angajatului la angajare, varsta – vârsta
angajatului și vechime – vechimea în muncă a angajatului, toate variabile cantitative cu nivelul de
măsurare scale. Stabilirea în mod corect și consultarea definiției variabilei înainte de procesarea
datelor este esențială deoarece, anumiți indicatori statistice nu se aplică decât unora dintre variabile.
Lansarea comenzii Analyze > Descriptive Statistics > Frequencies... determină afișarea
casetei de dialog Frequencies, în care se transferă din lista de variabile în zona centrală a variabilelor
de prelucrat Variable(s), variabila sau dacă este cazul variabilele cantitative supuse analizei.

Indicatorii statistici ce urmează a se calcula sunt specificați în caseta de dialog afișată de


acționarea butonul Statistics din caseta Frequencies.
Aceștia sunt grupați se categorii de indicatori în funcție de aspectul pe care îl descriu:
cuantilele (Percentile Values), indicatori de tendință centrală (Central Tendency), de împrăștiere
(Dispersion) și de caracterizare a curbei distribuției (Distribution), rămânând în grija utilizatorului
dacă unul sau altul dintre indicatori este adecvat variabilei considerate.

33
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Spre exemplificare, s-au considerat relevanți


indicatorii selectați ca în imaginea alăturată. De
reținut că în multe situații indicatorul Suma
(Sum) nu are semnificație, însă suma salariilor
actuale poate fi interpretată ca fond total de
salarii și ca urmare s-a optat pentru calcularea lui.
În ceea ce privește abaterea standard (Std.
deviation) și dispersia (Variance), deși s-a optat
pentru determinarea lor, nu vor putea fi
interpretați decât prin comparare cu indicatori
similari calculați pentru alte variabile ca de
exemplu salinit (salariul de la angajare) putând
indica o împrăștiere mai mică sau mai mare
pentru cele două variabile comparate.
Acționarea butonului Continue determină revenirea la
caseta Frequencies de unde există posibilitatea ca prin acționarea
butonului Charts să se construiască un grafic specific variabilei
considerate. S-a optat pentru histogram - with normal curve, care
afișează curba normală peste histogramă dând posibilitatea
aprecierii abaterii variabilei empirice cu cea a repartiție teoretice.
De asemenea, tot din caseta de dialog Frequencies se poate
opta pentru afișarea tabelului de frecvențe. Trebuie avut în vedere
că este singura dintre cele trei variante de lucru care permite
utilizatorului analiza de frecvențe, fapt pentru care procedura poartă
acest nume în condițiile în care oferă posibilitatea de calcul a întregii
game de indicatori ce descriu o variabilă atributivă.
Din lista de grafice Pie charts este singurul care ar mai putea fi selectat pentru variabila
considerată, Bar charts fiind specific variabilelor calitative.
Un al treilea buton prezent pe caseta de dialog
Frequencies este Format care permite specificarea
opțiunilor de afișare a tabelului de frecvențe în zona
Order by în cazul în care au fost selectate mai multe
variabile, iar în zona Multiple variables permite
optarea între un format care include toate variabilele
selectate, însă pentru a putea fi comparate trebuie să
fie de același tip și un format în care fiecare variabilă
este raportată separat. Revenirea la caseta principală
se face acționând butonul Continue.
Pentru finalizare și lansare în execuție a procedurii în condițiile specificate, se apasă butonul
OK din caseta de dialog principală Frequencies. Rezultatul este scris în fereastra Output, unde la
începutul listingului de rezultat este afișată și sintaxa corespunzătoare comenzii executate.

34
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Astfel, indicatorii calculați prezentați în tabelul de rezultat Statistics, descriu următoarele aspecte:
Baza de date conține 474 cazuri valide, nicio valoare lipsă pentru
variabila sal – salariul actual.
 Media (Mean) – indică faptul că salariul mediu actual al celor
474 angajați este de 13,77 mii lei
 Mediana (Median) – 11,55 mii lei, indică valoarea centrală a
salariului în șirul ordonat al salariilor angajaților.
 Modul (Mode) – 12 mii lei, indică salariul pe care-l au cei mai
mulți dintre angajați.
 Eroarea standard a mediei (Std. error of mean) numită și
abaterea standard a distribuției de eșantionare a mediei, se calculează
în cazul eșantioanelor aleatorii prin împărțirea abaterii standard (Std.
Deviation) la rădăcina pătrată a numărului de cazuri. Eroarea standard
permite calcularea marjei de eroare a estimării mediei din colectivitate
după formula: Δ=1,96SE (la pragul de încredere de 95%). S-a optat
pentru calcul ei având în vedere valorile variabilei id – marca
angajaților, cele 474 de cazuri putând fi considerat un eșantion.
 Abaterea standard (Std. Deviation) – este 6,83, însă nu are semnificație statistică în lipsa unei
valori cu care să se compare, în sensul că nu se poate aprecia împrăștierea medie a variantelor de la
media lor este mare sau mică. Dacă totuși utilizatorul dorește cuantificarea gradului de
omogenitate/variație poate determina coeficientul de variație pe baza abaterii standard și a mediei, al
cărui nivel poate fi interpretat.
 Dispersia (Variance) – 46,653 are aceeași utilitate cu abaterea standard. Dispersia este pătratul
abaterii standard și practic nu se impune calculul ambilor indicatori, unul dintre aceștia fiind suficient.
 Coeficientul de asimetrie (Skewness) - este o măsură a asimetriei distribuției. Când indicele
are valori pozitive, în cazul de față +2,125, indică o asimetrie la stânga sau pozitivă (este înclinată la
dreapta). Valori mai mici ca 0 (negative) indică asimetrie la dreapta. Valoarea 0 semnifică o distribuție
simetrică.
 Boltirea (Kurtosis) este o măsură a înălțimii distribuției. Valori mai mari ca 3 indică o
distribuție leptocurtică sau alungită, ca în cazul prezentat, 5,378, valori egale cu 0 indică o distribuție
mezocurtică sau normală, iar valori mai mici ca 0 – distribuție platicurtică sau turtită.
Acești ultimi doi indicatori, măsuri ai formei distribuției, servesc la a stabili gradul în care

35
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

distribuția analizată se abate de la normalitate. Pentru aceasta, valorile calculate pentru Skewness,
respectiv pentru Kurtosis se împart la erorile standard corespunzătoare afișate în tabelul de output
Statistics imediat sub acestea. Dacă rezultatul este mai mare ca 2, distribuția se abate semnificativ de
la ipoteza de normalitate.
În cazul prezentat se obțin valori mult mai mari ca 2, în ambele situații, ca urmare, se respinge
ipoteza de normalitate. De altfel Histograma distribuției prin comparare cu curbă normală de mai jos
indică faptul că distribuția salariului actual al celor 474 de angajați nu este normală.
 Amplitudinea (Range) – 48 mii lei semnifică diferența dintre salariul minim (Minimum)- 6
mii lei și salariul maxim (Maximum) – 54 mii lei.
 Cuantilele (Percentilele) 25, 50 şi 75 sunt de fapt cele 3 cuartile.
Cel de-al doilea rezultat de output vizează tabelul de frecvențe, care având dimensiuni foarte
mari se prezintă secvențial în imaginea de mai jos.
Se constată calculul tuturor indicatorilor de
frecvență: absoluți, relativi exprimați în procente
(ponderi) și ponderi cumulate.
În exemplul considerat, la declararea
variabilei s-aceasta s-a definit numerică cu 0
zecimale, însă datele de intrare prezintă fracție
zecimală.
Se poate observa că în tabel, aceeași variantă
este specificată de mai multe ori. În realitate valorile
numerice sunt rotunjite la cel mai apropiat întreg la
afișare.
Rezultatul arată că deși cel mai mare salariu este de 54 mii lei, jumătate dintre angajați, 50%,
au salarii de cel mult 12 mii lei.
Histograma din imaginea de mai jos întărește semnificația indicatorilor din tabelul Statistics
privind forma distribuției. Aceasta este leptocurtică (nu este normală), și este asimetrică la stânga
(adică alungită la dreapta).

36
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

 Cazul 2 - Descrierea variabilelor categoriale


Varianta Frequencies este cea mai potrivită descrierii variabilelor categoriale atât nominale
cât și ordinale, deoarece permite construirea tabelelor de frecvență, a graficelor specifice, diagrame
prin coloane și grafice sectoriale (Pie) precum și calculul indicatorilor descriptivi adecvați.

Cazul 2.1. – Descrierea Variabilelor nominale


Considerăm cazul variabilei sex – genul angajaților, care deși prin codificare este numerică,
codifică de fapt o variabilă tip categorial, măsurată nominal cu două variante alternative de realizare,
femeie și Bărbat. Pentru descrierea variabilei se apelează la opțiunea Frequencies.
La fel ca și în cazul variabilelor cantitative continue, în caseta de dialog Frequencies se
transferă variabila sex din lista din stânga în zona Variable(s). Simultan se pot selecta și alte variabile
nominale, de exemplu funcția sau dizabilități. Aceste variabile, au fost declarate numerice ca urmare
a codificării variantelor.
Pentru calculul indicatorilor descriptivi se activează opțiunea Display Frequency Tables și se
acționează butonul Statistics. În caseta de dialog Statistics și se optează doar pentru Mode –indicator
de tendinţă centrală singurul relevant pentru variabile nominale. Dacă există alte opțiuni selectate
anterior, se deselectează.

Prin acționarea butonului Charts se poate opta pentru unul din graficele specifice variabilelor
nominale, respectiv Bar charts sau Pie charts indicându-se valorile pe baza cărora se va construi,
frecvențe absolute, sau frecvențe relative (procente); Dacă se analizează mai multe variabile simultan,
opțiunile selectate sunt valabile pentru toate acestea.

Butonul Format afișează caseta de dialog prin intermediul căreia se indică ordinea de afișare.

37
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Revenirea în caseta principală de dialog se face apăsând butonul Continue, iar finalizarea
comenzii, apăsând butonul OK din caseta principală Frequencies. Rezultatul este afișat în fereastra
de Output.
Astfel, singurul indicator calculat prezentat în
tabelul de rezultat Statistics, este Modul. Pentru
variabila nominală Sex (cu eticheta Genul) este
specificată valoarea 0 – care cuantifica varianta
”bărbat” cu semnificația – cei mai mulți angajați
sunt bărbați, pentru variabila Funcția (cu
eticheta Postul) e indicată valoarea 1 care
semnifică faptul că cei mai mulți dintre angajați sunt ”îngrijitor”, iar pentru variabila Dizabilități,
valoarea 0 – Fără dizabilități. Rezultatele privind indicatorii de frecvență: frecvente absolute, ponderi
și ponderi cumulate, sunt afișate în tabele separate purtând numele variabilelor pentru care s-au
calculat.

Se constată că din 474 cazuri: 54,4% (258


angajați) sunt bărbați, iar restul 45,6% (216)
sunt femei.

În ceea ce privește variabila Funcția (cu


eticheta Postul actual) pe prima coloană a
tabelului se constată variantele distincte ale
variabilei,
Dintre cei 474 angajați, ponderea cea mai
mare a angajaților 41,1% (195 angajați) sunt
funcționari, urmați de îngrijitori cu 30,6% din
total (145 angajați). Cea mai mică pondere o
au Inginerii, doar 1,3% (6 angajați).

38
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Pentru variabila nominală Dizabilități,


se constată că 77,8% (368 angajați) nu
au declarate dizabilități în schimb
22,2% (105 angajați) au.

Pentru reprezentarea grafică s-a optat pentru înscrierea ponderilor pe sectoarele de cerc
corespunzătoare fiecărei variante a caracteristicii.

Cazul 2.2. – Descrierea Variabilelor ordinale


Pentru descrierea variabilelor ordinale utilizând procedura Analyze>Descriptive>
Frequencies… se procedează asemănător cazurilor anterioare, doar că pe lângă afișarea tabelelor de
frecvență selectate prin bifarea opțiunii Display frequency tables din caseta de dialog Frequencies, în
caseta de subdialog Statistics se poate opta alături de mod și pentru calculul medianei ca indicatori ai
tendinței centrale, iar ca măsuri ale variației se poate opta în plus pentru cuantile (Percentiles Values).
Pentru exemplificare am optat pentru variabila ”Ani de studii”, care semnifică numărul total
de ani petrecuți în sistemul de învățământ.

39
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Rezultatul de output pentru indicatorii descriptivi afișat în


tabelul Statistics indică faptul că dintre cei 474 angajați, cei mai mulți
au 12 ani de studiu (modul), de asemenea, varianta de pe poziția
centrală, cea care împarte șirul ordonat al angajaților după numărul de
ani de studii în două părți egale, mediana, este tot de 12 ani de studiu.
Cât privește cuartilele (indicatorii de poziție care împart seria ordonată
în 4 părți egale) sunt 12, 12 și 15 ani de studiu. Asta înseamnă că 75%
dintre angajați au cel mult 15 ani de studii.
Semnificații similare oferă și tabelul frecvențelor din imaginea de mai jos.

Se constată că 53 de angajați din cei 474


(11,2%) au studii generale de 8 clase, cei mai mulți,
190 de angajați (40,1%) au 12 ani de studii – studii
liceale, 6 dintre angajați (1,3% au studii postliceale – în
total 14 ani), 116 (24,5%) au studii universitare de
licență de 3 ani, în total 15 ani de studii 59 (12,4%) au
studii universitare de licență de 4 ani (în total 16 ani de
studii), restul de 10,5% (50 de angajați au între 17 și 21
de ani de studii, masterat, doctorat, postdoctorat)
Ca reprezentări grafice se poate solicita diagrama prin
coloane Bar Chart sau Pie Chart ca grafic de structură.

40
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

2.2.2. Varianta de lucru 2: Procedura Descriptives...


Procedura lansată din același meniu Analyze > Descriptive Statistics > Descriptives este o
alternativă doar pentru descrierea variabilelor cantitative continue. Față de procedura
Frequencies…, procedura Descriptives vizează doar calculul indicatorilor statistici descriptivi, însă,
oferă în plus posibilitatea standardizării valorilor variabilelor.
Comanda Descriptives afișează caseta de dialog cu același nume, unde în mod asemănător
procedurii precedente, în zona Variable(s) se transferă variabila/variabilele numerice (continue) ce
urmează a fi prelucrate. Dacă se dorește calcularea scorurilor z, în partea din stânga-jos se poate bifa
opțiunea. Specificarea indicatorilor descriptivi ce se dorește a fi calculați se face în caseta de dialog
Descriptives Options afișată prin acționarea butonului Options….
Pentru exemplificare s-a optat pentru descrierea variabilelor salinit – salariul la angajare și a
variabilei sal – salariul actual.

Deoarece s-a solicitat calculul scorurilor s-au creat două noi variabile în baza de date,
denumite de sistem Zsalinit și Zsal având ca variante, scorurile variabilelor pe vaza cărora s-au
determinat.

Indicatorii statistici descriptivi sunt afișați în fereastra de output sub forma unui tabel ce poartă

41
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

numele Descriptiv Statistics, prezentat în imaginea de mai jos:

Statisticile calculate pentru descrierea variabilei salinit indică faptul că baza de calcul conține
474 cazuri (angajați), toate valide, amplitudinea salariului la angajare fiind de 28 mii lei, în timp ce
pentru salariul actual este mult mai mare, 48 de mii lei. Salariul la încadrare cel mai mic este de 4 mii
lei, iar cel mai mare 32 mii lei, în timp ce cel mai mic salariu actual este de 6 mii lei, iar cel mai mare
de 54 mii lei.
Media salariului de încadrare este 6,81 mii lei, iar a salariului actual de 13,77 mii lei.
Nivelurile abaterilor standard și ale dispersiilor indică o împrăștiere (variație) mult mai mare la nivelul
salariilor actuale față de salariile la angajare.
Ambele distribuții prezintă asimetrie pozitivă, la stânga (+2, 853, respectiv +2,125 – valori
pozitive) și sunt leptocurtică (12,390, respectiv 5,379 - valori mai mari ca 0). În plus, Testul de
normalitate aplicat ambilor indicatori ai formei de distribuție, ambelor variabile indică valori mult mai
mari de 2, așa că este respinsă ipoteza că distribuțiile acestora ar fi normale.

2.2.3. Varianta de lucru 3: Explore...

Procedura produce statistici și grafice univariate detaliate pentru variabile numerice (scale)
pentru un întreg eșantion sau pentru subseturi ale unui eșantion. Prin urmare, poate fi, de asemenea,
utilizat pentru a evalua normalitatea unei variabile cantitative continue (scale) pe baza unor statistici
inferențiale speciale. Se pretează, de asemenea, foarte bine și pentru descrierea legăturilor
unifactoriale între variabile.
La lansare în execuție, se afișează caseta de dialog Explore.

Zona Dependent List din caseta de dialog Explore este zona în care, din lista variabilelor din

42
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
baza de date, din stânga casetei, se transferă variabila (variabilele) ce face obiectul analizei;
Zona Factor List este zona în care se transferă eventualele variabile considerate factori de
influență pentru variabila considerată și în funcție de care se dorește analiza variabilei dependente –
completarea acestei zone este opțională, funcție de scopul urmărit. Variabilele transferate trebuie să
fie categoriale (pe variante) Analizele obținute for fi afișate pe total și pe fiecare categorie în parte;
Label cases by, permite etichetarea cazurilor la afișare, asociind un „nume” pentru fiecare caz.
Aceste etichete apar în rapoartele de rezultat. Dacă nu este specificat, SPSS va utilizeze numărul
rândului pentru a eticheta fiecare caz.
Display, oferă posibilitatea de alegere a opțiunilor de afișare a rezultatelor descriptive
numerice (Statistics), a reprezentărilor grafice (Plots) sau ambele modalități, statistici și grafice
(Both), variantă implicită;
Acționarea butonului Statistics deschide o casetă de dialog cu același nume pentru alegerea
unor indicatori (implicit procedura calculează toți indicatorii statistici descriptivi de bază), respectiv
Descriptives (enabled by default), M-estimators, Outliers, și Percentiles cu următoarea
semnificație:
- Descriptives returnează un set de statistici descriptive (implicit cu 95% nivel de încredere),
media, mediana, dispersia, abaterea standard, varianta minimă, varianta maximă,
amplitudinea, intervalele intercuartile, coeficientul de asimetria, kurtozisul și erori standard
pentru media, coeficientul de asimetrie și kurtozis. Acestea se vor calcula în bloc, neexistând
posibilitatea selectării lor. De aici și obligativitatea ca variabila de analiză să fie numerică
continuă, cu nivel de măsurare ”scale”.
- M-estimators returnează estimatori ai mediei și medianei.
- Outliers afișează primele cinci variante cele mai mari și cinci cele mai mici, cu valorile cu
care sunt asociate. Dacă s-a optat inițial pentru o variabilă de etichetare a cazurilor, acea
variabilă va fi afișată în raport în locul numărului cazurilor (numărul liniei) din baza de date.
- Percentiles returnează indicatorii de poziție pentru primele 5%, 10%, 25%, 50%, 75%, 90%
și 95% din variantele ordonate ale variabilei analizate.
Acționarea butonului Plots, permite alegerea din caseta de dialog afișată a reprezentărilor
grafice ce se vor construi. Se oferă posibilitatea de testare a normalității, astfel se poate opta pentru
grafic boxplots, grafic stem-and-leaf, histogramă și grafic de apreciere a normalității: normality plots.
În mod implicit, procedura Explore produce boxplots and stem-and-leaf plots pentru fiecare variabilă
numerică continuă.
Opțiunile din zona Boxplots sunt relevante numai dacă se analizează mai multe variabile
continue sau dacă este specificată o variabilă factor.
Acționarea butonului Options, permite specificarea modului de tratare a valorilor lipsă.
- Exclude cases Listwise: sistemul va exclude din analiză cazurile cu valori lipsă pentru
oricare dintre variabilele selectate. Dacă este selectată această opțiune, numărul de cazuri
valide pentru fiecare variabilă va fi același.
- Exclude cases Pairwise: sistemul calculează media fiecărei variabile folosind toate cazurile
cu variante nonlipsă. Dacă este selectată această opțiune, numărul de cazuri valide pentru
fiecare variabilă poate fi diferit.
Report values: afectează doar analizele de impact care includ o variabilă factor. Dacă este
selectată această opțiune, cazurile cu valori lipsă pentru variabila de factor vor fi tratate ca o
categorie distinctă.

43
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Pentru exemplificare am considerat cazul variabilelor Experiența în muncă – vechimea, și


Vârsta, ambele variabile numerică continue (la definire s-a optat pentru afișarea lor cu 0 zecimale) și
fără specificarea vreunei variabile factor, cazul descrierii influențelor factoriale fiind prezentat într-un
capitol următor.
Utilizarea analizei Explore se prezintă astfel:

Rezultatele analizei Explore sunt afișate în fereastra Output. Primul tabel, Case Processing
Summary, rezumatul procesării cazurilor, arată câte variante valide au existat.

S-a selectat gestionarea datelor care lipsesc în mod Exclude cases Pairwise, analiza utilizând
toate informațiile complete pentru fiecare dintre variabile. Se constată că nu lipsesc valori pentru
niciuna dintre variabilele considerate.
Cel de-al doilea tabel rezultat, Descriptives, conține statistici descriptive detaliate univariate
pentru fiecare dintre variabilele continue selectate, incluzând indicatori ai formei distribuției,

44
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
asimetria și kurtozisul.
Distribuția normală are skewness = 0 și
kurtosis = 0, așa încât este ușor de stabilit și
interpretat asimetria și boltirea eșantionului
variabilelor considerate în raport cu aceasta. Pentru
experiența în muncă, coeficientul de asimetrie este de
1.51 (pozitivă sau ușor asimetrică), iar kurtozisul este
0.224 (ușor alungită, leptocurtică, față de odistribuție
normală, dar nu cu mult). În ceea ce privește vârsta,
asimetria este de aproximativ 0,864 (aproape 1)
(pozitivă, puternic asimetrică la stânga), iar kurtozisul
este de - 0,562 (este mai turtită față de o distribuție
normală - platicurtică).
Totuși, aceste mărimi nu sunt indicatori foarte
buni ai abaterilor de la normalitate, dar pot
suplimenta graficele și testele de normalitate fiind
suficient de semnificativi. Având afișate și erorile
standard pentru indicatorii de asimetrie și kurtozis, se
pot raporta nivelurile indicatorilor la erorile lor
standard și obținându-se în toate situațiile valori
superioare lui 2 – adică niciuna din variabile nu este
normală.
Aprecierile asupra normalității celor două distribuții se confirmă de testele de normalitate, care
în ambele situații sunt foarte semnificative, Sig.= .000, ceea ce semnifică că ambele distribuții sunt
nenormale.

Testul Kolmogorov-Smirnov este un test de normalitate pentru eșantioanele mari, cu peste


2000 de date. Testul verifică dacă datele din eșantion se potrivesc unei distribuții normale. Dacă
rezultatele sunt semnificative, atunci ipoteza nulă cum că nu ar fi nicio diferență între distribuția de
date empirice și o distribuție normală este respinsă. Altfel spus, orice valoare mai mică de 0,05 a
testului indică faptul că datele sunt nenormale.
Testul Shapiro - Wilks este considerat în literatura de specialitate ca fiind cel mai bun test de
normalitate. Shapiro - Wilks este un test pentru eșantioane mici, de până la 2000 de date. La fel ca și
testul Kolmogorov - Smirnov, un rezultat este considerat semnificativ dacă are valori mai mici de 0,05
și indică faptul că date pentru care s-a aplicat testul sunt nenormale.
Reprezentările grafice selectate returnează ca rezultat graficele din imaginile de mai jos.

45
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Procedura Explore este utilă însă mai ales pentru că oferă posibilitatea evaluării normalității
distribuției și omogenității datelor.
Pentru exemplificare se transferă variabila sal – Salariul actual, variabilă cantitativ continuă
în zona Dependent List și variabila sex – Genul în zona Factor List în caseta de dialog Explore… În
caseta de subdialog afișată la acționarea butonului Plots…, se selectează Histogram, Normality plots
with tests și Untransformed, ca în imaginile de mai jos.

Chiar dacă în fereastra de dialog Statistics nu se selectează nicio opțiune, Explore… va


returna în mod implicit setul complet de indicatori statistici descriptivi;

46
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Dacă analizăm statisticile returnate se


observă că atât în categoria Bărbat cât și în
categoria Femeie, valoarea medianelor
salariilor actuale sunt destul de apropiate de
mediile pe categorie; distribuțiile prezentând
asimetrie pozitivă (la stânga) fiind
leptocurtice în ambele situații, deci
distribuțiile nu sunt normale.
Deși pe baza statisticile descriptive din
tabelul Descriptives există posibilitatea
aprecierii formei distribuției, în situația
prezentată s-a testat direct această
presupunere prin opțiunile selectate în caseta
de dialog Plots…
IBM SPSS Statistics calculează două
statistici pentru testarea normalității,
Komogorov - Smirnov și Shapiro - Wilk,
afișate în fereastra de Output, în tabelul Test
of Normality, prezentat mai jos.

În situația prezentată, SPSS raportează valori foarte semnificative ale testelor de normalitate
„.000” pentru ambele categorii. Chiar dacă, având în vedere dimensiunea eșantionului, testul Shapiro
- Wilks este cel potrivit, se poate constata că ambele teste indică faptul că pentru ambele categorii de
rezultate, atât pentru bărbați, cât și pentru femei, salariile actuale nu sunt distribuite în mod normal.
Aceasta indică faptul că mai potrivit ar fi să se recurgă la teste ne-parametrice pentru verificarea
ipotezelor cercetării.

Pe lângă testele de normalitate, s-a optat și pentru testarea omogenității în acest eșantion.

Acest test este indicat doar dacă există grupuri de comparat. În cazul nostru grupul femeilor
se compară cu cel al bărbaților. Prin urmare ca factor trebuie aleasă o variabilă categorială. În cazul
prezentat variabila Sex – Genul.

47
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Există mai multe teste pentru omogenitatea variației; însă IBM SPSS Statistics folosește testul
Levene. Există mai multe statistici raportate a căror semnificație poate fi interpretată. Testul Levene
este extrem de semnificativ considerat (valoarea de sub "Sig." este mai mică de 0,05), pentru toate în
cazul. Aceasta înseamnă că variația salariului actual la nivelul celor două grupe este semnificativ
diferită, ceea ce reprezintă un avertisment de luat în calcul, acesta indicând utilizarea unui test
neparametric mai degrabă decât unul parametric.

48
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

CAPITOLUL 3

ANALIZA BIVARIATĂ A DATELOR STATISTICE

În general, cercetarea statistică are drept scop, mai ales analiza relațiilor ce se pot stabili între
fenomenele a căror analiză univariată a scos în evidență diferite aspecte cu referire la tendința centrală,
împrăștiere, sau formă de distribuție. Analiza bivariată este deci etapa firească ce urmează unei analize
univariate, etapă în care variabilele incluse în studiu sunt analizate simultan, putând fi privită și ca un
caz particular al analizei multivariate (doar două variabile), analiză care vizează relațiile multiple ce
se stabilesc între mai multe variabile ce se examinează simultan.
Mai precis, analiza bivariate explorează modul în care o variabilă (numită dependentă)
depinde sau este explicată de variabila independentă („explicativă”) (analiza bivariată asimetrică) sau
explorează asocierea între două variabile fără a lua în calcul o relație de cauză - efect (analiza bivariată
simetrică).

3.1. ASOCIERE, CAUZALITATE ȘI COVARIAȚIE - ASPECTE TEORETICE

Unul dintre obiectivele principale ale cercetării statistice este studierea asocierii dintre
variabile. Între două variabile există o asociere dacă una dintre variabile tinde să ia valori anumite
valori atunci când cealaltă își modifică valorile.
De obicei, când este analizată o asociere între două variabile, una dintre variabile este
considerată variabilă de rezultat și valorile acesteia sunt comparate pe baza diferitelor valori ale
celeilalte variabile, care este numită variabilă explicativă.
Două variabile sunt asociate dacă, în distribuția comună a variabilelor, anumite grupuri de
valori au probabilități mai mari de realizare simultană decât alte grupuri de valori. Variabilele asociate
variază una în funcție de cealaltă, adică, valorilor de un anumit tip ale primei variabile le corespund
mai ales valori de un anumit tip ale celeilalte variabile.
Analiza legăturii a două variabile este utilă mai ales în studii de prognoză ținând cont că dacă
o valoare a primei variabile se schimbă, atunci și probabilitatea de a avea asociată o anumită valoare
a celei de-a doua variabilă, se schimba.
Analiza bivariată se poate realiza, doar intuitiv pe baza tabelelor de contingență, care permit
formarea unei idei cu privire la existenta unor diferențe între grupele populației, dar și pe baza unor
teste statistice, care permit luarea unor decizii privind semnificația respectivelor diferențe la nivelul
populației totale (Constantin, 2006, p.135).
În plus, cunoscând cum se asociază valorile celor două variabile se pot explica și o serie de
aspecte ce pot descrie relația dintre acestea:
 dacă există într-adevăr o legătură între valorile variabilelor și cât de semnificativă este
aceasta;
 cât de puternică este legătura dintre variabile adică cât de bine pot fi prezise valorile unei
variabile în funcție de valorile celeilalte;
 dacă este posibilă generalizarea rezultatelor;

49
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

 dacă legătura dintre cele două variabile este sau nu de tip cauzal, deoarece,
simultaneitatea variației lor poate fi rezultatul asocierii comune cu o a treia variabilă.
În general, răspunsurile la întrebări ce vizează astfel de aspecte, necesită măsurarea și testarea
gradului de asociere dintre variabile cu metode statistice specifice, adecvate pe de o parte nivelului de
măsurare a acestora (nominal, ordinal, interval/raport), iar pe de altă parte naturii eșantioanelor din
care provin observațiile și numărului acestora.
Practic analiza bivariată a datelor urmărește măsurarea gradului de asociere a două variabile
din perspectiva: direcției, intensității și semnificației statistice a acesteia. Orice analiză bivariată se
desfășoară parcurgând următoarele etape:
1. Formularea ipotezelor de lucru;
2. Construirea tabelului de frecvențe (de contingență);
3. Efectuarea testului de semnificație statistică a asocierii:
4. Calcularea măsurilor de asociere adecvate datelor;
5. Formularea concluziilor .
Există numeroase măsuri statistice cu ajutorul cărora se poate evalua existența și semnificația
unei relații de asociere între două variabile statistice, iar dacă există, de stabilire a direcției și/sau
măsurare a intensității acesteia.

3.1.1. Analiza bivariată a două variabile categoriale


3.1.1.a. Stabilirea existenței legăturii de asociere între variabile categoriale
Legătura dintre două variabile categoriale este prezentată într-un tabel de contingență.
Semnificația statistică a legăturii dintre ele, și deci existența asocierii variabilelor respective, se
evaluează pe baza testului neparametric de independență Chi-Square,  2 .
 Tabelul de contingență
Tabelul de contingență (numit și ”încrucișat” sau ”cu dublă intrare”) este un tip special de tabel
de distribuție a frecvențelor, de formă matriceală conținând R rânduri și C coloane (RxC), în care sunt
prezentate simultan două variabile categoriale. Sunt utilizate în statistică pentru a pune în evidență
legătura dintre două variabile categoriale prin compararea subgrupurilor și evaluarea efectului unei
variabile asupra celeilalte.
Tabelul se obține în urma grupării unei colectivități după două variabile de grupare, din care
una este variabila principală (dependentă) și ale cărei categorii se înscriu pe coloane, iar cealaltă
secundară (independentă) ale cărei categorii se înscriu pe rânduri.
În tabel trebuie să existe minimum 2 rânduri (2 categorii ale variabilei înscrise pe rânduri) și
2 coloane (2 categorii ale variabilei înscrisă pe coloane).
Prezentarea unui tabel de contingență
Categorii după Categorii după variabila Y Total
variabila X G(y1) ... G(yj) ... G(yp) categoria i
p
G(x1) f11 ... f1j ... f1p f
j 1
1j

p
G(x2) f21 ... f2j ... f2p f
j 1
2j

50
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
... ... ... ... ... ... ...
p
G(xi) fi1 ... fij ... fip f
j 1
ij

... ... ... ... ... ... ...


p
G(xk) fk1 ... fkj ... fkp f
j 1
kj

k k k k p p k
Total categoria j  fi1
i 1
… i 1
f ij … 
i 1
f ip 
i 1 j 1
f ij   f ij N
j 1 i 1

Tabelul conține enumerarea tuturor categoriilor (grupurilor sau variantelor) unei variabile pe rânduri
și tuturor categoriilor (grupuri sau variantelor) celeilalte variabile sub formă de coloane, iar
frecvențele sunt înscrise în celule. Frecvențele din celulele tabelului, fij , indică numărul de cazuri
(unități statistice) plasate în categoria i a variabilei X, cât în categoria j a variabilei Y.
Frecvențele celulelor sunt totalizate atât pe rânduri cât și pe coloane. Aceste totaluri se numesc
frecvențe marginale.
Suma tuturor frecvențelor absolute fij este egală cu mărimea colectivității:
k p

 f
i 1 j 1
ij N

Dacă se notează:
f i. - totalul frecvențelor absolute fij însumate după j;
f. j - totalul frecvențelor absolute fij însumate după i;
f .. - totalul frecvențelor absolute fij însumate și după i și după j;

k p
f i.   f ij , f . j   f ij
i 1 j 1

În celule tabelului se pot înscrie și frecvențele relative exprimate în procente. Totalul fiecărei
coloane va fi 100%, după cum totalul fiecărui rând reprezintă 100%.
La interpretarea tabelului de contingență este important, dacă una sau ambele variabile sunt
nominale sau ordinale.
Se asemenea, este important dacă variabilele categorice sunt dihotomice (2 categorii),
multinomiale (mai mult de 2 categorii nominale), sau ordinale (există o ierarhizare a categoriilor).
Această distincție determină modul în care sunt interpretate rezultatele (procentele %) și mai
ales ce măsură a asocierii/corelației este potrivit a se folosi.
Atunci când se apelează la un tabel de contingență este bine ca în prealabil să fie exprimată
ipoteza de cercetare, deoarece pe baza acesteia se definesc cele două variabile și eventual relația
dintre ele, variabila dependentă și cea independentă (cea care explică variabila dependentă).
Modul în care se distribuie frecvențele absolute (sau după caz cele relative exprimate în
procente) în tabel, dar și compararea nivelurilor acestora cu frecvențele marginale pot indica asocierea
variabilelor.

51
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

 Testul de independență Chi Square (2)


Pentru testarea existenței asocierii a două variabile categoriale se utilizează testul de
independență 2. Testul se bazează de tabelul de contingență și presupune compararea frecvențelor
observate, cu frecvențele așteptate, adică cu frecvențele care au la bază o teorie despre distribuția
populației, sau anumite proporții pe care le presupunem conform ipoteze.
Ca în cazul oricărui test de semnificație, pentru luarea deciziei cu privire la semnificația
statistică, se testează ipoteza nulă H0 prin compararea valorii calculate a statisticii Chi Square cu
valoarea sa critică.
În acest sens se impune parcurgerea următorilor pași:
Pasul 1: Formularea ipotezei nule - H0 și a ipotezei alternative - H1;
Ipoteza nulă presupune că între frecvențele observate și cele așteptate nu există diferențe
semnificative, în timp ce ipoteza alternativă afirmă că există diferențe semnificative între frecvențele
respective;
Ipotezele testului sunt:
Ipoteza nulă H0: variabilele X și Y nu sunt asociate;
Ipoteza alternativă H1: variabilele X și Y sunt asociate.
Pasul 2: Stabilirea nivelului de semnificație  care poate fi de cel mult 0,05.
Pasul 3: Construirea tabelului de contingență a frecvențelor observate;
Pasul 4: Calcularea frecvențelor teoretice așteptate presupunând că ipoteza nulă ar fi
adevărată. Frecvențele așteptate, notate cu Eij, se determină pornind de la frecvențele observate astfel:
Eij 
total linia i   total coloana j
total general
Pasul 5: Determinarea valorii critice 2calc.

 2
r
 
c O
ij  Eij 
2

calc
i 1 j 1 Eij
unde: Oij = frecvența observată în celula ij
Eij = frecvența așteptată în celula ij
Pasul 6: Stabilirea regulii de decizie privind ipoteza nulă.
Aceasta presupune mai întâi compararea valorii critice a statisticii 2calc. cu valoarea teoretică 2; df
din tabelul repartiției 2 având în vedere nivelul de semnificație ales și numărul gradelor de libertate
calculat cu relația: (r-1)(c-1), unde r este numărul de rânduri și c este numărul de coloane al tabelului
de contingență.
Regula de decizie este:
- Dacă 2calc.  2; df , rezultatul testului este nesemnificativ din punct de vedere statistic și
atunci nu se respinge ipoteza nulă H0. Concluzia este că, diferențele între categorii se datorează
întâmplării, deci nu există asociere între cele două variabile
- Dacă 2calc.  2; df , rezultatul testului este semnificativ din punct de vedere statistic și atunci
se respinge ipoteza H0 adică se acceptă ipoteza alternativă H1 . Concluzia este că: valorile observate
nu se datorează întâmplării, adică există asociere între cele două variabile;
De reținut că: În cazul în care nu se respinge ipoteza nulă nu înseamnă că între cele două

52
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

variabile nu există asociere. Trebuie interpretat că asocierea nu a putut fi pusă în evidentă de datele
existente, sau că asocierea nu este statistic semnificativă. Prin respingerea ipotezei nule se afirmă doar
existenta asocierii dintre variabile, nu și măsurarea gradului de asociere.
Testul Chi Square este cel mai utilizat test neparametric de independență pentru evaluarea
existenței asocierilor atât între variabile nominale cât și ordinale cu două sau mai multe modalități de
realizare. Există totuși câteva limitări de utilizare semnalate de literatura de specialitate:
 Limite de aplicabilitate:
 eșantionul trebuie să fie suficient de mare;
 variabila ale cărei categorii sunt înscrise pe coloane (dependenta) trebuie să fie nominală;
 variabila de pe linii (independenta)
 frecvențele așteptate (probabile) trebuie să fie cel puțin egale cu 1 în orice celulă a tabelului
de contingență;
 cel mult de 20% din celule trebuie să conțină valori mai mici de 5 ale frecventelor așteptate.
 pentru tabelele de contingenta de tip 2 x 2 este necesar ca numărul total de cazuri (N) să fie cel
puțin 20;
 Limite de semnificație:
 oferă doar informații despre existența relației de asociere;
 nu oferă nicio indicație referitoare la intensitatea asocierii celor două variabile și nici a direcției
acesteia (atunci când variabilele sunt ordinale)

3.1.1.b. Măsuri ale asocierii a două variabile categoriale


Există o gamă largă de măsuri statistice ale asocierilor dintre variabilele. Sunt prezentați în
continuare doar coeficienții disponibili în IBM SPSS Statistics din perspectiva condițiilor specifice de
aplicabilitate și a interpretării semnificațiilor acestora în scopul facilitării înțelegerii rezultatelor
returnate la rularea procedurilor SPSS specifice.

 Coeficienți de măsurare a asocierii între două variabile categoriale


IBM SPSS Statistics are oferă trei categorii de măsuri ale asocieri care completează
informațiile referitoare la intensitatea și/sau direcția asocierii, criteriul de grupare fiind nivelul de
măsurare al variabilelor supuse analizei bivariate a asocierii:

 Grupul 1. - Nominal

53
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Din această categorie fac parte patru dintre cei mai uzuali coeficienți de măsură a asocierii
dintre două variabile măsurate la nivel nominal: coeficientul de contingență C, coeficienții φ și V ai
lui Cramer, coeficientul Lambda (λ Goodman-Kruskal) și coeficientul de incertitudine (coeficientul
de entropie).
Dintre aceștia, coeficientul de contingență C și coeficienții φ și V ai lui Cramer se bazează pe
testul 2, fiind utilizați pentru a completa limitările de aplicabilitate și semnificație ale acestuia.
Ceilalți doi, Lambda și coeficientul de incertitudine se bazează pe reducerea erorilor fiind
numiți și măsuri direcționale ale asocierilor nominale. Ele cuantifică reducerea ”erorii” de prezicere a
unei categorii a variabilei dependente, când se cunoaște categoria asociată a variabilei independente
și invers. Diferența dintre acești coeficienți este că folosesc definiții diferite pentru „eroare”.

 Coeficientul φ
Aplicabilitate:
 se utilizează pentru a măsura intensitatea asocierii dintre două variabile nominale dicotomice,
fiecare dintre acestea având doar două categorii;
 poate fi aplicat și pentru analiza asocierii unei variabile nominale cu o variabilă ordinală, în
aceleași condiții.
2
Se determină cu relația: 𝜑 = √ 𝑛 , depinzând de nivelul lui 2 și de dimensiunea eșantionului
pentru care se calculează.
Interpretarea și semnificație:
 ia valori pozitive fără limită teoretică superioară ceea ce îngreunează interpretarea intensității
asocierii pe măsură ce nivelul său crește.
 valori apropiate de zero indică asociere slabă până la lipsa asocierii când ia valoarea 0.

 Coeficientul Cramer - V
Aplicabilitate:
 este utilizat pentru a măsura intensitatea asocierii dintre o variabilă nominală cu o altă variabilă
nominală, sau ordinală;
 ambele variabile pot avea mai mult de 2 categorii.

2
Se calculează cu relația: V  , unde t = min [(r-1), (c-1)], depinzând de nivelul lui 2
nt
și de dimensiunea eșantionului pentru care se calculează.
Interpretare:
 este o standardizare a lui φ, astfel încât poate lua valori situate în intervalul [0 și 1], având
următoarea semnificație:
0 - nu există relație de asociere.
(0,00 – 0,15) - relație foarte slabă, de regulă, nu este acceptată existența asocierii;
[0,15 – 0,20) - asociere slabă;
[0,20 – 0,25) - asociere moderată;

54
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
[0,25 – 0,30) - asociere destul de puternică;
[0,30 – 0,35) - asociere puternică;
[0,35 – 0,40) - asociere foarte puternică;
[0,40 – 0,50) - asociere extrem de puternică, sau ambele variabile măsoară aceeași
caracteristică/însușire;
[0,50 – 0,99) - ambele variabile se referă la aceeași caracteristică/însușire;
1,00 - asociere perfectă. Categoriile variabilei independentă ”explică”
perfect categoriile asociate ale variabilei dependentă.

 Coeficientul de contingență (C)


Aplicabilitate:
 este utilizat pentru variabile nominale cu număr mare de categorii (tabele de
contingență de dimensiuni mari, peste 5x5).

Valoarea coeficientului se determină cu formula:


2
C , fiind dependent de condițiile de calcul ale χ 2 și dimensiunea eșantionului.
2  n

Interpretare:
 k 1 
 ia valori în intervalul 0,  , unde k = min (I, J) cu I și J fiind numărul de linii și
k 
 
de coloane al tabelului de contingență. Pentru interpretarea intensității legăturii se
poate împărți intervalul de variație în 5 subintervale egale cu semnificația: asociere
foarte slabă, asociere slabă, asociere moderată, asociere puternică, asociere foarte
puternică.
 valoarea 0 – lipsa asocierii, valoarea 1 - nu se poate atinge chiar dacă între variabile
există asociere perfectă. De exemplu, la dimensiunea 5×5 maximul lui C este numai
0,80 când asocierea este perfectă.
Limite:
 Coeficienții de contingență nu pot fi comparați decât dacă provin din tabele de
contingență de aceeași dimensiune.
 Nu există un test de semnificație al coeficientului de contingență

 Coeficientul Lambda al lui Goodman și Kruskal


Este cel mai popular coeficient al asocierii nominale bazat pe reducerea erorilor, fiind cunoscut
și cu numele de ”reducere proporțională a erorii”. Ori de câte ori este selectat coeficientul „Lambda”,
IBM SPSS Statistics determină și afișează în Output coeficientul τ (tau) al lui Goodman și Kruskal.
Este o măsură asimetrică, deși este disponibilă în SPSS o versiune simetrică.
”Eroarea” este definită ca o alocare incorectă a unui caz într-o anumită categorie. Cazurile sunt
clasificate în categoria j cu o probabilitate egală cu frecvența observată a categoriei respective. O altă

55
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

versiune a coeficientului Lambda a lui Goodman și Kruskal (λ), definește ”eroarea” în același mod,
respectiv o atribuire incorectă a unui caz, însă cazurile sunt clasificate corespunzător categoriei
modale (cea mai frecventă).
Calculul acestui coeficient se bazează pe reducerea acestor ”erori” prin cunoașterea unei
variabile, considerată anterioară sau independentă ce permite predicția celeilalte, devenită posterioară
sau dependentă. Formulă utilizată pentru calculul măsurii asocierii este:
e e
 1 2
e1 , unde:
e1 - eroarea comisă în predicția variabilei fără a lua în calcul variabila factorială, independentă;
e2 - suma erorilor comise pentru predicția validabilei dependente calculate pentru fiecare
grupă determinată de variabila independentă.
Interpretare:
 coeficient ia valori cuprinse între 0 și 1,
 0 - indică faptul că variabila independentă (anterioară) nu are vreun rol în ”predicția”
variabilei dependente (posterioare),
 1 - indică faptul că variabila independentă (anterioară) determină perfect modalitățile
variabilei dependente (posterioare).
Cu toate acestea, coeficientul Lambda are anumite limitări în aplicabilitate în sensul că poate
lua valoarea 0 chiar dacă variabilele nu sunt independente, în special atunci când una dintre categoriile
unei variabile conține un număr foarte mare de cazuri in raport cu celelalte categorii.

 Coeficientul de incertitudine U
Este de asemenea un coeficient al asocierii nominale bazat pe reducerea erorilor. Definește
”eroarea” ca fiind o entropie (măsură a conținutului informațional).
Din acest motiv se mai numește și coeficient de entropie, fiind o măsură a entropiei/
incertitudinii de realizare a unei variabile dependente (înscrisă în tabelul de contingență pe coloane),
explicată de o variabilă independentă (înscrisă în tabel pe rânduri).
Coeficientul de incertitudine este ”reducerea procentuală a incertitudinii în predicția variabilei
dependente pe baza cunoașterii variabilei independente”.
Interpretare:
 Coeficientul ia valori cuprinse între 0 și 1;
 0 – indică faptul că variabila independentă nu este de niciun ajutor în predicție – lipsă de
asociere (variabile independente);
 1 – indică faptul că cunoașterea variabilei independente reduce total eroarea prezicerea
variantelor variabilei dependente – asociere perfectă.
 orice altă valoare a coeficientului trebuie interpretată în termenii reducerii incertitudinii
de predicție, de exemplu: o valoare a coeficientului 0,75 indică faptul că cunoașterea
variabilei independente reduce eroarea la predicția variantelor variabilei dependente cu
75%.

56
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

 Grupul 2. - Ordinal
Pentru variabilele ordinale, IBM SPSS Statistic dispune de următoarele măsuri statistice ale
asocierii: coeficientul Gamma, coeficientul Somer’s și coeficienții Tau-b sau Tau-c al lui Kendall,
grupați în categoria de teste Ordinal.
În cazul variabilelor ordinale, spre deosebire de cele nominale, se poate pune, pe lângă
problema existenței, a semnificației și a intensității legăturii și problema direcției. Asocierile pot fi
pozitive sau negative, după cum semnul coeficientului utilizat este pozitiv sau negativ.
Dacă valorile mari ale unei variabile ordinale se asociază cu valori mari ale celeilalte variabile,
după cum valorile mici ale primei variabile sunt asociate cu valori mici ale celei de-a doua, legătura
este directă. Dacă valorile mari ale unei variabile ordinale se asociază cu valori mici ale celeilalte
variabile, după cum valorile mici ale primei variabile sunt asociate cu valori mari ale celei de-a doua,
legătura este inversă.

 Coeficienți de corelare a rangurilor


În cazul variabilelor ordinale, există posibilitatea de ordonare a valorilor variabilelor și de
acordare de ranguri cazurilor în funcție de valorile pe care acestea le au pentru variabilele respective.
Rangurile reprezintă numărul de ordine a nivelurilor individuale ale variabilelor corelate în
șirul ordonat al acestora.
Aceasta permite stabilirea sensului sau semnului asocierii. La modul general, o măsură a
asocierii dintre două variabile ordinale va fi:
- pozitivă dacă un caz cu un rang mare pentru variabila independentă - X tinde să aibă
un rang mare și pentru variabila dependentă –Y, sau dacă cazurile pentru care rangurile
după variabila independentă - X sunt mici au de asemenea ranguri mici și pentru
variabila dependentă - Y. În aceste situații, între cele două variabile ordinale corelarea
este directă.
- negativă atunci când cazurile cu rang mare pentru variabila X tind să aibă ranguri mici
pentru Y și invers. În aceste situații, între cele două variabile ordinale corelarea este
inversă.
IBM SPSSS Statistics are proceduri disponibile pentru două variante de aplicabilitate a
coeficientului de corelare a rangurilor a lui Kendall,  (tau): Kendall tau-b și Kendall tau-c, dar și pentru
un alt coeficient, coeficientul lui Spearman disponibil într-o altă procedură, împreună cu tau-c pentru
analiza bivariată a variabilelor numerice.
a) În esență, construirea coeficientului de corelare al lui Kendall se bazează pe aflarea
numărului de perechi discordante și a celor concordante dintre perechile de observări.
Două observări sunt concordante dacă xi < xj și, în același timp, dacă yi < yj. Acestea sunt
discordante dacă xi < xj , dar în schimb, yi > yj.
Notând: dij = 1 când i și j sunt concordante și dij = -1 când i și j sunt discordante, atunci:
n n
Q  d
i 1 j 1
ij

Relația pe baza căreia se calculează coeficientul de corelare a rangurilor a lui Kendall este:
2Q
 ( X ,Y ) 
nn  1

57
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Disponibile în IBM SPSS Statistics sunt variantele cunoscute cu numele Tau-b și Tau-c. Există
și o a treia variantă Tau-a nedisponibilă în pachetul software fiind mai restrictivă în aplicare.
Aplicabilitate:
- Tau-b și Tau-a sunt utilizate de obicei când ambele variabile sunt ordinale și au același
număr de categorii. (tabele de contingență pătrate). Diferența între acestea este că Tau-
b se aplică și în cazul în care există ranguri repetate;
- Tau-c este utilizat pentru două variabile ordinale cu număr diferit de categorii (tabele
de contingență dreptunghiulare). Tau-c poate fi utilizat și pentru tabele pătrate,
valoarea sa fiind aceeași cu cea a lui Tau-b.
Interpretare:
 Coeficientul ia valori între –1 și +1 cu semnificația prezentată mai sus;
Pentru o mai bună interpretare, plasarea coeficientului în subintervale ale intervalului de valori
[-1,+1] poate fi interpretată astfel:
- valoarea 0 indică lipsa unei asocieri între cele două variabile (sunt independente);
- în intervalele: [-0,15, 0) sau (0, 0,15] indică o relație foarte slabă, care de regulă, nu este
acceptată ca o existență a asocierii;
- în intervalele: [-0,25, -0,15) sau (0,15, 0,25] indică o asociere slabă;
- în intervalele: [-0,50, -0,25) sau (0,25, 0,50] - asociere moderată, destul de puternică;0
- în intervalele: [-0,75, -0,50) sau (0,50, 0,75] - asociere puternică;
- în intervalele: [-0,95, -0,75) sau (0,75, 0,95] - asociere foarte puternică;
- în intervalele: (-1, -0,95) sau (0,95, 1) - asociere extrem de puternică;
- valorile -1 sau 1 - asociere perfectă.
- valorile pozitive indică o asociere directă, în timp ce valorile negative indică o asociere
inversă;

b) Coeficientul lui Spearman de corelare a rangurilor se calculează, de asemenea, pe baza


rangurilor.
Rangurile se obțin prin ordonarea prealabilă a nivelurilor individuale ale celor două variabile.
Formula de calcul este:
6 d 2
C  1 i
S 3
n n
unde:
di - este diferența de rang între variabilele corelate pentru același caz;
n - numărul perechilor corelative sau altfel spus numărul rangurilor.
Coeficientul lui Spearman ia valori cuprinse în intervalul -1CS1 și se poate deduce pe baza
coeficientului de corelație liniară al lui Pearson unde considerăm că rangurile celor două variabile
sunt de fapt primele n numere naturale și ca urmare:
 ui n1  wi n  1
u  ; w 
n 2 n 2

58
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
deci:
u  w;  u   w
i i

Interpretare:
 Coeficientul ia valori între –1 și +1 cu semnificația prezentată la coeficientul Tau al lui
Kendall.

 Coeficientul Gamma - Goodman si Kruskall γ


Acest coeficient se poate utiliza atunci când alți coeficienți nu oferă valori concludente.
Relația de calcul este:
P Q
 
PQ
unde:
P - se calculează înmulțind valoarea frecvenței din colțul din stânga sus a tabelului de frecvențe
asociat cu valorile de pe rândul următor, fără cea care se află imediat sub ea, și cu celelalte valori ale
tabelului, după care se însumează cu produsul dintre prima valoare a rândului următor și suma
frecvențelor începând de pe rândul următor, însă din nou fără valoarea aflată imediat sub ea, iterativ.
Q - se calculează după aceleași reguli, însă începând din dreapta sus.
Interpretare:
- valoarea lui γ poate lua valori în intervalul -1 si +1.
- valoarea 0 indică lipsa unei asocieri între cele două variabile;
- valorile apropiate de o valoare absolută egală cu 1 indică o relație puternică.
- valori pozitive indică asociere directă;
- valori negative indică asociere inversă.

 Coeficientul Delta al lui Somers - d


Coeficientul delta al lui Somers este o extensie asimetrică a coeficientului Gamma, o măsură
de concordanță între perechi de variabile ordinale. Spre deosebire de Gama, coeficientul Delta face
diferența între variabila independentă și variabila dependentă.
Coeficientul lui Somers poate fi definit pe baza coeficientului Tau-b al lui Kendall:
D (Y | X) = τ (X, Y) / τ (X, X)
Unde (X, Y) este perechea de variabile.
Diferența dintre Delta și Tau-b este doar că Delta măsoară cu cât se îmbunătățește predicția
pentru variabila dependentă, pe baza cunoașterii unei valori a variabilei independente. Pentru
determinarea acestui coeficient trebuie stabilit care este variabilă dependentă și care este
independentă, deoarece rezultatele testului nu vor fi aceleași în ambele cazuri.

Interpretare:
- Coeficientul poate lua valori de la -1 la +1;
- Valoarea -1 indică faptul toate perechile sunt toate discordante,
- Valoarea +1 indică faptul că toate perechile sunt concordante.

59
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

- Valorile care tind spre -1 sau spre +1 indică faptul că valorile variabilei dependente
sunt bine prezise de cunoașterea variabilei independente;
- Valori care tind spre zero în ambele direcții indică faptul că valorile variabilei
dependente sunt slab prezise de cunoașterea variabilei independente;
De exemplu pentru un Delta de .351 – variabila independentă îmbunătățește valoarea
variabilei dependente cu 35,1%
Limite de interpretare:
- Valoare coeficientului crește pe măsură ce dimensiunea tabelului de contingență crește,
însă în același timp tinde să subestimeze gradul real al asocierii.

3.1.2. Analiza bivariată a două variabile continue


În cazul variabilelor continue, asocierea variabilelor este, de regulă, studiată sub denumirea de
corelație denumire preluată de la denumirea coeficienților de corelare a rangurilor, pentru date
ordinale.
Analiza bivariată în acest caz presupune două direcții:
1. Analiza corelației – care vizează evaluarea existenței legăturii, măsurarea cu ajutorul unor
coeficienți specifici a intensității acesteia precum și stabilirea direcției legăturii de corelație;
2. Analiza de regresie - care vizează modelarea statistice-matematică a legăturii printr-un
model care să permită estimarea valorilor variabilei dependente pe baza valorilor variabilei
independente.

3.1.2.a. Analiza corelației

 Coeficientul lui Parsons


Coeficientul de corelație simplă liniară este unul dintre cei mai importanți indicatori ai
corelației, coeficientul de corelație, arată cât de puternică este legătura dintre variabilele corelate,
adică intensitatea legăturii. Este cunoscut și sub numele de coeficientul lui Pearson.
Se calculează ca o medie a produselor abaterilor normale normate ale variabilelor cuplului
corelativ.
x x y  y
 i 
  i 
 σx σ
y 
r  
y/x n
Acest indicator este un parametru ce caracterizează legătura simplă liniară dintre cele două
variabile. Ia valori cuprinse între -1 și +1
Interpretare:
- dacă ry/x ia valori pozitive, legătura este directă, iar dacă ia valori negative, legătura este
inversă;
- dacă ry/x=±1, corelație perfectă, valori apropiate de ±1 indică corelații foarte puternice, iar
valori egale cu 0 indică lipsa corelației dintre cele două variabile;
Pentru o mai bună interpretare a sa, intervalul de valori ale coeficientului de corelație [-1,+1]
poate fi divizat astfel:

60
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
- 0<ry/x <0,2 : între cele două variabile nu există corelație sau este foarte slabă;
- 0,2 ry/x <0,5: corelație slabă;
- 0,5 ry/x <0,75: corelație de intensitate medie;
- 0,75 ry/x <0,95: corelație puternică;
- 0,95< ry/x 1: corelație extreme de puternică.

 Coeficienții de corelație a rangurilor


Cei doi coeficienți, Spearman și Kendall tau-c sunt aplicabili și variabilelor numerice, cu
aceeași semnificație și interpretare prezentată în cazul analizei bivariate a variabilelor ordinale.
În SPSS aceștia sunt disponibili în procedura Analyse >Correlate >Bivariate, alături de
coeficientul de corelație al lui Pearson.
3.1.2.b. Analiza de regresie simplă liniară
Regresia simplă permite caracterizarea precisă a legăturii de cauzalitate dintre două variabile
prin intermediul unui model statistico-matematic precum și a influenței exercitate de variabila sau
variabilele factoriale asupra celei rezultative. Cu toate că cercetează și estimează relațiile dintre
variabile, regresia nu are drept scop să demonstreze cauzalitatea dintre variabile ci se ocupă cu
studierea naturii și gradului asocierii dintre ele.
Dacă se consideră cazul a două variabile corelate, dintre care X – variabila independentă și Y
– variabila dependentă, regresia unifactorială descrie legătura dintre aceste două variabile,
considerând că toți ceilalți factori au o acțiune constantă și neglijabilă asupra rezultativei Y.
Ecuația de regresie este: Y  f (x) .
Dintre acestea, vom analiza doar cazul regresiei simple liniare. Fiind vorba de o legătură
statistică, bineînțeles că alături de variabila X acționează și alte variabile, nespecificate, care pot fi
sintetizate în variabila aleatorie ε numită și variabilă de perturbație. Variabilele X este variabila
independentă, ε este variabila aleatorie sau reziduală, Y este variabila dependentă, ale cărei valori sunt
estimate de modelul de regresie pe baza valorilor cunoscute ale variabilei X.
În cazul regresiei simple liniare, cele două variabile independente, variabila cunoscută X și
variabila aleatorie ε își exercită simultan și aditiv influența în concordanță cu modelul liniar teoretic:
Y  α  βx  ε ,
Acest model se estimează printr-o ecuație medie de tendință:
Yx  a  bxi  ε
unde:
a și b - parametri de regresie ce necesită determinarea;
a - este nivelul funcției de regresie în punctul x=0. Altfel spus, în sens geometric, este
ordonata la origine, adică punctul în care dreapta de regresie intersectează axa Ox;
b - este numit coeficient de regresie și arată cantitatea cu care se modifică variabila Y la
o modificare cu o unitate a variabilei X. În sens geometric, b exprimă panta dreptei de regresie.
În sens statistic, un nivel b>0 indică o corelație directă, b<0 o corelație inversă, iar b=0 indică
lipsă de corelație;
xi - nivelurile variabilei independente X;
Yxi - nivelurile variabilei dependente Y ajustate pe baza lui X;

61
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

ε - variabila reziduală (aleatorie).


Pentru a determina ecuația funcției de regresie și cu ajutorul ei, valorile ajustate ale variabilei
Y, este necesar să se calculeze parametri a și b. Acest lucru este posibil cu ajutorul metodei celor mai
mici pătrate. Ca urmare, se pune condiția ca suma pătratelor abaterilor valorilor empirice yi de la
funcția de regresie Yx, să fie minimă.
2
 
 
  y i  Y x    y i  a  bxi 2  f  min .
i i  i
Cum o funcție de două variabile are valoarea extremă într-un punct când ambele derivate
parțiale sunt nule, pe baza sistemului următor, numit și sistem de ecuații normale, se determină
parametri a și b, și deci ecuația funcției de regresie.
 δf

 δa  2 y i  a  bxi  0 
 i

 δb

 δf  2 y  a  bx x  0
i i i

 i
Pentru testarea semnificației modelului de regresie se pot folosi:
- coeficienții de determinație și nedeterminație, relația dintre ei indicând importanța validabilei
independente considerate pentru descrierea modelului,
- testele de verificare a parametrilor ecuației de regresie, sau
- analiza dispersională.

 Coeficientul de determinație - R2
Coeficientul de determinație se bazează pe descompunerea dispersiei totale a variabilei
dependente în dispersia valorilor empirice față de valorile teoretice calculate prin funcția de regresie
Yx și dispersia valorilor teoretice de la media valorilor empirice.

2

 y y2
i

- dispersia totală: σ 
y n
- dispersia sistemică, care măsoară variația explicată a variabilei Y prin influența variabilei
independente X;

2 Y y2
xi
 
σ 
y/x n

- dispersia reziduală: care măsoară variația neexplicată:  2y / r 



 yi  Yxi 2
n
Între aceste dispersii există relația:
σ 2y  σ 2y / x  σ 2y / r

62
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Pentru a măsura intensitatea legăturii dintre Y și X se calculează coeficientul de determinație


ca raport între variația explicată și variația totală a caracteristicii Y:

σ 2y / x
R 2y / x 
σ 2y

Coeficientul de determinație arată ponderea influenței variabilei independente X în variația


rezultativei Y. Cu cât aceasta este mai mare de 50% cu atât mai semnificativă este variabila X pentru
variabilitatea lui Y.
Rădăcina pătrată din coeficientul de determinație este raportul de corelație Ry/x .
Interpretarea raportului de corelație:
De reținut, deci, că raportul de corelație măsoară intensitatea legăturilor indiferent de forma
acestora, liniare sau neliniare, dar în cazul în care aceasta este liniară raportul de corelație constituie
o metodă de verificare a liniarității nivelul său trebuind în acest caz să fie egal cu valoarea absolută a
coeficientului de corelație.
 Testarea parametrilor modelului
În cazul modelului simplu liniar pentru a verifica ipoteza conform căreia parametrul a din
cadrul ecuației de regresie diferă semnificativ de 0, se utilizează testul t, astfel:
a
t calc  n
s
unde:

 y i  Yxi 
s i

n2
este estimatorul abaterii medii pătratice și semnifică abaterea medie pătratică a valorilor înregistrate
ale caracteristicii Y față de linia de regresie Yx , iar n este numărul perechilor înregistrate xi , yi  .
Valoarea tcalc se compară cu valoarea teoretică corespunzătoare unui prag de semnificație q și
un număr de grade de libertate egal cu n-2, t q ,n  2 . Dacă:

t calc  t q ,n 2 se consideră ipoteza a  0 este adevărată, deci ecuația de regresie nu este bine
aleasă.
t calc  t q ,n 2 se consideră că a diferă semnificativ de 0, deci ecuația de regresie e bine aleasă.

Intervalul de încredere pentru parametrul teoretic a este definit de relația:


s s
a  t q ,n 2  α  a  t q ,n2
n n
Cu alte cuvinte, parametrul teoretic trebuie să se găsească în intervalul:
 s s 
α  a  t q , n  2 ; a  t q ,n 2 ;
 n n 

63
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

altfel ecuația de regresie nefiind validă.


Același test se aplică și pentru verificarea ipotezei că b – coeficientul de regresie liniară diferă
semnificativ de 0:

  xi  x 
b
t calc 
2

s i
Intervalul de încredere pentru coeficientul de regresie teoretic β este:

 
s s
β  b  t q ,n  2 ; b  t q ,n 2 
 
  xi  x   x  x
2 2
 i 
În funcție de valorile variabilei dependente Y se calculează limitele de încredere pentru linia
de regresie teoretică Yx, astfel:
 1 xi  x 2 1 xi  x 2 
Yxi   yi  t q ,n 2 s  ; y  t s  
 n  xi  x 2 n  xi  x 2 
i q ,n 2
 

 Aprecierea modelului pe baza analizei dispersionale


Pentru aplicarea analizei dispersionale pentru aprecierea modelului de regresie simplu liniar
se pleacă de la descompunerea abaterilor valorilor variabilei de la media lor:
yi  y   yi  Yxi   Yxi  y 
și deci, ridicând la pătrat și însumând avem:
n n n

 y  y    yi  Yxi   Yxi  y 
2 2 2
i
i 1 i 1 i 1

în condițiile unei distribuții normale și de medie nulă a reziduurilor avem:


n

 y
i 1
i  Yxi Yxi  y   0

cu:
n

 y  y  - variația totală a lui Y;


2
i
i 1

y  Yxi  - variația reziduală a lui Y;


2
i
i 1

 Y  y  - variația factorială datorată regresiei.


2
xi
i 1

Fiecărei sume de pătrate i se asociază un număr de grade de libertate egal cu numărul valorilor
yi necesar calculului sumei respective.

64
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Calculul variației totale se bazează pe n-1 grade de libertate deoarece doar n-1 dintre valorile
yi  y sunt independente, suma lor fiind nulă conform definiției mediei.
Pentru calculul variației datorate regresiei este necesar un singur grad de libertate, deoarece
poate fi dedusă din expresia coeficientului de regresie b, care este funcție unică de yi.
Pornind de la expresia funcției de regresie simplă liniară:
Yxi  a  bxi
și ținând cont că a  y  bx , deducem succesiv: Yxi  y  bx  bxi și deci:

Yxi  y  bxi  x 
Ridicând la pătrat și însumând se obține tocmai variația factorială explicată de regresie:
n n

 Yxi  y   b 2   xi  x 
2 2

i 1 i 1

Numărul gradelor de libertate pentru variația reziduală se calculează prin diferență:


n  2  n  1  1
Dispersiile corespunzătoare se calculează raportând variațiile la numărul de grade de liberate
respectiv.
Testarea semnificației modelului de regresie se face cu testul F la baza căruia stă compararea
a două estimații ale dispersiei.
Raportul acestora determină valoarea calculată a testului ce va fi calculată cu valoarea teoretică
corespunzătoare unui prag de semnificație ales și gradelor de libertate asociate estimaților dispersiilor
factoriale și reziduale.
ANOVA pentru regresia unifactorială liniară
Suma pătratelor
Grade de
Sursa variației abaterilor Estimațiile dispersiilor Fcalculat Fteoretic
libertate
(varianța)
n

 Y  y s F2
n 2

 Yxi  y  Fc 
2 xi
Regresie 1 i 1
Fq ,1,n  2
i 1 s F2  sT2
1
n

 y  Yxi 
n 2

  yi  Yxi 
2
Reziduală n-2 i

i 1 s R2  i 1

n2
n

 y  y
2
Totală i n-1
i 1

65
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

n n

 Yxi  y  b 2   xi  x 
2

s F2
Fc   i 1
 i 1

sT2 n
s R2
  yi  Yxi 
2

i 1

n2
Dacă Fcalculat  Fteoretic se deduce că dreapta de regresie este semnificativă pentru pragul de
semnificație q (cel mult egal cu 0,05) și invers.

3.2. ANALIZA LEGĂTURII ÎNTRE DOUĂ VARIABILE CU SPSS

IBM SPSS Statistics deține proceduri specifice destinate analizei bivariate a legăturii dintre
datele statistice cu o ofertă bogată în ceea ce privește măsurile acesteia, grupate în funcție de tipul
variabilei și nivelul de măsurare al acestora.

3.2.1. Analiza legăturii dintre două variabile categoriale cu IBM SPSS Statistics
În oricare dintre situațiile în care intervin variabile categoriale, analiza bivariată a asocierii
dintre variabile se instrumentează utilizând procedura IBM SPSS Statistics, Analyze > Descriptives
Statistics> Crosstabs…. Pornind de la tabelul de contingență.

3.2.1.a. Analiza legăturii a două variabile nominale


Pentru exemplificare, ne propunem să analizăm dacă ”angajații cu dizabilități sunt mai
degrabă bărbați decât femei” având ca sursă de date eșantionul din fișierul angajați.sav, respectiv
variabila sex – cu eticheta Genul (nominală) cu două categorii: Barbat și Femeie și variabila
dizabilități (nominală) de asemenea cu două categorii: DA și NU.
Ca în orice analiză bivariată a datelor provenite dintr-un eșantion, analiza legăturii dintre cele
două variabile nominale începe cu formularea ipotezelor de lucru:

Ipoteza nulă H0: Nu există diferențe între bărbați și femei în ceea ce privește prezența
dizabilităților (Nu există asociere între cele două variabile)
Ipoteza alternativă H1: Există diferențe între bărbați și femei în ceea ce privește prezența
dizabilităților (Există asociere între cele două variabile)
IBM SPSS Statistics permite ca pentru parcurgerea următoarelor etape până la formularea
concluziilor să se instrumenteze aceeași procedură: Analyze > Descriptives Statistics> Crosstabs….
Prin intermediul casetei de dialog Crosstabs… și a subdialogurilor acesteia se pot realiza
simultan construirea și afișarea tabelului de contingență pentru examinarea de către utilizator a
frecvențelor observate și așteptate, calculul diverșilor coeficienți de măsurare a intensității asocierii și
testului de semnificație Chi-Square, rezultatele fiind afișate în fereastra de Output pentru ca
utilizatorul să poată să interpreteze semnificația acestora și să decidă dacă respinge sau nu ipoteza

66
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

nulă și în raport cu aceasta să formuleze concluziile referitoare la legătura dintre variabilele implicate
în analiza bivariată.
Se lansează procedura din meniul Analyze > Descriptives Statistics > Crosstabs…
 2 testează ipoteza nulă H0 fără a impune care dintre variabile să fie trecută pe linii
(independentă), și care pe coloane (dependentă), în tabelul de contingență, impune însă ca variabila
trecută pe coloane (dependentă) să fie nominală.
În cazul considerat ambele variabile sunt nominale, deci din perspectiva testului de
semnificație nu contează care dintre ele este considerată dependentă și care independentă.
S-a optat ca în caseta de dialog Cross tabs…, afișată după lansarea în execuție a procedurii cu
același nume, să se transferare pe linii (Rows) variabila sex - Genul (independentă) și pe coloane
(Columns) variabila dizabilități (dependentă) ca în imaginea de mai jos.

Procedura oferă posibilitatea analizei asocierii pentru mai multe perechi de variabile simultan.
De asemenea, dacă se dorește crearea unei reprezentări grafice a asocierii dintre variabile, se poate
bifa opțiunea Display clustered bar charts.
Construirea tabelului de contingență se realizează implicit, dacă nu se fac precizări
suplimentare fiind afișate doar frecvențele absolute. Pentru a afișa diverse alte valori se activează
caseta de subdialog Crosstabs: Cells… prin acționarea butonului Cells… și se specifică modul de
prezentare a frecvențelor în celulele tabelului de frecvențe, ca în imaginile de mai jos.

67
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

La executarea procedurii se va afișa în fereastra de rezultat, Output, împreună cu tabelul ce


contingență și un sumar al distribuției bidimensionale referitor la numărul total de cazuri, cazuri valide
și cazuri lipsă.

Tabel de contingență este practic o distribuție bidimensională construită de sistem prin


gruparea angajaților (cazurilor) pe două categorii după genul acestora, Bărbat și Femeie, și în cadrul
fiecărei categorii, grupați pe subcategorii după prezentarea de dizabilități DA sau NU.
În celulele tabelului se afișează valorile solicitate prin procedură. De exemplu, pentru genul
Bărbat (prima linie), datele din tabel au următoarea semnificație:
- Count 194 indică numărul de angajați
bărbați care nu prezintă dizabilități, iar
Count 64 este numărul bărbaților cu
dizabilități; în total fiind 258 angajați cu
genul bărbat.
- Expected Count 200,8 indică numărul
așteptat de angajați bărbați care nu prezintă
dizabilități, iar Count 57,2 este numărul
așteptat al bărbaților cu dizabilități; în total
fiind 258 angajați cu genul bărbat.
- %within Genul 75,2% indică procentul
bărbaților fără dizabilități din totalul
bărbaților; 24,8% procentul bărbaților cu
dizabilități din totalul bărbaților;
La o primă examinare, vizuală, a
frecvențelor din tabelul de contingență, utilizatorul poate remarca, de exemplu, că cei mai mulți
angajați cu dizabilități sunt bărbați, 64, respectiv 24,8%, dintre bărbați. Valoarea așteptată este de
numai 57,2. În cazul femeilor angajate, 41 prezintă dizabilități, adică 19% din totalul femeilor.
După cum se poate constata, tabelul în sine permite aprecierea modului de asociere a
variabilelor, examinarea tabelului constând într-o simplă comparare a frecvențelor observate de pe
liniile tabelului (cu condiția de a pune categoriile variabilei independente în coloane și variabila
dependentă pe rânduri) cu frecvențele așteptate (calculate), sau cu cele de pe linia total. Ca o primă
concluzie, se poate afirma că pe baza frecvențelor din tabel nu se poate afirma existența unei legături
între cele două variabile.
Acționarea butonului Statistics determină afișarea casetei de dialog Crosstabs Statistics… ce
oferă utilizatorului o gamă largă de statistici dintre care utilizatorul va selecta pe cele adecvate
scopului și tipului de variabile supuse analizei bivariate.
Pentru testarea semnificației statistice a asocierii celor două variabile considerate se utilizează
testul Chi Square, iar pentru măsurarea acesteia oricare dintre statisticile din zona Nominal.

68
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Utilizarea testului Chi Square permite să se evalueze dacă relația de asociere observată între
cele două variabile nominale într-un anumit eșantion este probabil să se manifeste și în populația
totală, adică dacă poate fi generalizată. Trebuie precizat că acest test poate fi neadecvat dacă
dimensiunea eșantionului nu este suficientă.
Selectarea testului Chi Square, în cazul prezentat, a afișat următorul tabel de rezultat:

Pe primul rând în tabelul Chi-Square Tests este trecut rezultatul testului Pearson Chi-Square,
a cărei semnificație trebuie luată în calcul în cazul variabilelor categoriale, nominale. Pe baza sa va
face evaluarea în vederea luării deciziei de a respinge sau nu ipoteza nulă formulată. (valoarea testului,
χ2 = 2.313, numărul gradelor de libertate, DF = 1 și pragul de semnificație al acestuia, p = 0,128).
Rezultatul obținut nu este semnificativ din punct de vedere statistic, 0,128> 0.05, asta
înseamnă că valoarea calculată a testului, 2,313, este mai mare decât valoarea critică, prin urmare
decizia este de a nu se respinge ipoteza nulă.
Concluzia este că: Nu există o diferență semnificativă între bărbați și femei în ceea ce privește
prezența dizabilităților, faptul că unii dintre aceștia prezintă dizabilități se datorează întâmplării, ca
urmare nu există o asociere semnificativă între genul angajaților.
Faptul că nu se respinge ipoteza nulă nu înseamnă neapărat că între cele două variabile nu
există asociere. Această situație trebuie interpretată prin faptul că asocierea nu a putut fi pusă în
evidentă de datele existente, sau că asocierea nu este statistic semnificativă.
De remarcat, că sub tabelul Chi-Square Tests sunt precizate două mesaje referitoare la testul
Pearson Chi Square: că valoarea minimă așteptată a unei celule din tabelul frecvențelor, „minimum
expected count”, este 47,85, valoare așteptată înscrisă în celula Femei cu dizabilități din tabelul de
contingență și că nu există nicio celulă cu diferență așteptată mai mică de 5 în tabelul de contingență.

69
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Testul se poate aplica doar dacă toate frecvențele teoretice sunt mai mari sau egale cu 5. Dacă
există frecvențe teoretice mai mici ca 5 în proporție mai mare de 20% din totalul celulelor, se aplică
un alt test, testul Fisher exact.
Pentru aceasta, în aceeași casetă Crosstabs… se acționează butonul Exact…și în caseta de
dialog afișată se selectează opțiunea Exact cu Time limit per test implicit (5 minute) ca în imaginea
de mai jos:

Însă, trebuie reținut faptul că situația existenței celulelor cu valori așteptate mai mici ca 5 poate
poate fi edificată cu testul Fisher doar pentru tabele 2x2.
Pentru că s-a bifat opțiunea Display clustered bar charts, în fereastra de Output se afișează
diagrama prin coloane a distribuției bidimensionale, care permite vizualizarea relației de asociere
dintre cele două variabile.
Atunci când coloanele corespunzătoare
categoriilor variabilei dependente (dizabilități) au
aproximativ înălțimi egale pentru toate categoriile
variabilei de grupare independente (genul) semnificația
reprezentării grafice este lipsa unei asocieri între
variabile.
Acest aspect este reflectat și diagrama afișată în
Output ca urmare a solicitării Display clustered bar
charts.

Unul dintre neajunsurile lui Chi Square este că, nefiind măsurat pe o scală de la 0 la 1 nu poate
fi utilizat decât pentru evaluarea existenței legăturii de asociere fără a putea indica măsura intensității
acesteia.
Din acest motiv pentru completarea informațiilor aduse de Chi-Square trebuie utilizați alți coeficienți
specifică măsurării asocierii. IBM SPSS Statistics pune la dispoziție o parte dintre aceștia:

70
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

 Coeficientul de contingență
Este o măsură potrivită pentru evaluarea legăturii de asociere între două variabile cu număr
mare de categorii fiind atunci când tabele de contingență au cel puțin 5 linii x 5 coloane.
Pentru exemplificarea utilizării acestui coeficient s-au considerat variabilele nominale sex cu
două modalități (0 - Barbat, 1 - Femeie) și funcția (Postul actual) cu 7 modalități (1 - Îngrijitor, 2 –
Funcționar, 3 – Ofițer de securitate a datelor, 4 – Auditor, 5 – Expert financiar-contabil, 6 – Jurist, 7
- Inginer), ambele declarate nominale în baza de date din fișierul angajați.sav.
Se urmărește să se evalueze dacă există asociere între cele două variabile, considerând
variabilă dependentă (pe coloane) variabila funcția, în sensul că angajați de același gen ocupă cu
precădere cam același tip de funcții. Pentru măsurarea asocierii se apelează la coeficientul de
contingență.
Se formulează ipotezele de lucru:
Ipoteza nulă H0: Nu există diferențe între bărbați și femei în ceea ce privește funcțiile
deținute (posturile ocupate). Sau: Nu există asociere între cele două
variabile.
Ipoteza alternativă H1: Există diferențe între bărbați și femei în ceea ce privește funcțiile
(posturile ocupate. Sau: Există asociere între cele două variabile.

Se utilizează în acest sens procedura Analyze – Descritive Statistics – Crosstabs... care va


afișa fereastra Crosstabs… unde se vor transfera variabilele ce se vor înscrie în tabelul de contingență
pe coloane (Columns) – variabila funcția - dependentă, respectiv pe linii (Rows) – variabila sex -
independentă.
În caseta de dialog Statistics se bifează Chi-Square pentru a testa semnificația asocierii dintre
cele două variabile.
Testul Chi Square este potrivit deoarece: variabila dependentă funcția este nominală (chiar
dacă variantele sunt codificate de la 1 la 7 nu se poate considera că există vreo ordine între funcții),
iar variabila independentă sex este dihotomică, cu număr mic de categorii atât pentru variabila
independentă cât și pentru cea dependentă.
în zona Nominal (tipul variabilelor) se optează pentru Contingency coefficient.

71
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Se rețin următoarele rezultate afișate în fereastra Output:


- Tabelul cu distribuția bidimensională:

Deoarece nu s-au făcut specificații speciale în caseta de subdialog Crosstabs: Cells…, tabelul
de contingență conține doar valori implicite în celule, respectiv frecvențele absolute.
- Testul de asociere Chi Square:

Cum valoarea calculată a testului, 64,398, este mai mare decât valoarea critică, rezultatul
obținut fiind foarte semnificativ din punct de vedere statistic (0.000<0.05), decizia ar trebui să fie de
respingere a ipoteza nule, iar concluzia ar fi că: Există o diferență semnificativă între bărbați și femei
în ceea ce privește funcția (postul) ocupat. Adică ”există o asociere între genul angajaților și
funcțiile pe care le ocupă”.

72
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

De remarcat însă, că sub tabelul Chi-Square Tests există avertismentul că există 28,6% celule
cu valoarea așteptată mai mică de 5. Acest lucru pune sub semnul întrebării rezultatul testului Chi
Square. Avertismentul indică utilizarea testului fără a fi respectate parte din condițiile de aplicare și
deci decizia de a se respinge ipoteza nulă conform rezultatului testării, nu înseamnă neapărat că există
o asociere.

- Coeficientul de contingență:

Deși, cu o semnificație statistică foarte mare (0,000< 0.05), coeficientul de contingență are din
start două deficiențe în aplicare:
 pe de o parte este faptul că se calculează pe baza valorii lui 2 pentru care s-a primit
avertisment că se depășește numărul de celule cu valoare mai mică de 5 pentru
fervențele calculate în tabelul de contingență (28%), și
 pe de altă parte, este faptul că tabelul de contingență are doar 2x7 celule (variabila sex
– 2 categorii și variabila funcția – 7 categorii), mai mic decât se indică ca dimensiune
în aplicare pentru o bună semnificație a valorii calculate (5 x 5).
Valoarea coeficientului 0,346, deși este semnificativă statistic, are un nivel destul de mic, care
indică o asociere între cele două de intensitate scăzută. Acest aspect poate fi însă subestimat, în
condițiile în care, pentru un tabel 5 x 5, și o asociere perfectă între variabile coeficientul ar produce o
valoare de cel mult 0,8.
În aceste condiții, mai ales că testul Chi Square ridică oarecare suspiciuni, se poate concluziona
că deși există o oarecare asociere între variabile, eșantionul de date disponibile nu a produs suficiente
dovezi că genul angajatului explică postul (funcția) ocupat și deci o astfel de ipoteză nu poate fi
generalizată.
De remarcat că, coeficientul de contingență este o măsură simetrică, neavând importanță care
variabilă este considerată dependentă și care independentă.

 Coeficientul Goodman-Kruskal Lambda - λ


Coeficientul Lambda, , este de asemenea o măsură de evaluare a asocierii între două variabile
categoriale nominale. Se utilizează în special în cazul în care acestea au mai mult de două modalități
de realizare. Lambda este interpretată ca fiind ”procentul de eroare care se reduce la predicția unei
variabile dependente prin cunoașterea variabilei independente”. Practic, nivelul coeficientului
Lambda indică gradul în care cunoașterea uneia dintre variabile ajută la predicția celeilalte variabile.
Lambda nu oferă însă și o direcție a asocierii, ci doar sugerează o asociere între două variabile și
măsoară intensitatea acesteia.

73
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Considerăm deci, cazul a două variabile categoriale nominale, variabila funcția – cu eticheta
Postul actual, și variabila FunctInit – cu eticheta Postul ocupat la angajare, cu aceleași variante de
realizare.
Analizând tabelele de frecvență pentru cele două variabile se constată că mulți dintre angajați,
în special cei angajați inițial pe poziții de ”Îngrijitor”, ”Funcționar” și ”Ofițer de securitate a datelor”,
codificate 1, 2, 3 (nicio legătură cu scala ordinală) și-au schimbat pozițiile (funcțiile) în firmă față de
cele ocupate la angajare, mai degrabă decât cei care s-au angajat pe celelalte poziții, producând
modificări în structură mai evidente.

Se dorește să se investigheze dacă există asociere între postul actual (funcția) ocupat de un
angajat și poziția (postul) ocupată la angajare, adică dacă există o tendință de schimbare a postului pe
parcursul perioadei lucrate într-o firmă în special ei angajați inițial ”Îngrijitor”, ”Funcționar” și ”Ofițer
de securitate a datelor”.
În acest sens, se filtrat mai întâi datele luându-se în calcul doar angajații (cazurile) pentru care
funcția actuală este una dintre cele trei enumerate.

74
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Ca și în cazul anterior, apelează la procedura: Analyze > Descritive Statistics >Crosstabs...


care va afișa fereastra Crosstabs… unde vor fi specificate cele două variabilele, dependenta pe coloane
(Columns) și independenta pe linii (Rows). De data aceasta, este foarte importantă alegerea
variabilelor ca dependentă, respectiv independentă.
Prin acționarea butonului Statistics se activează caseta Crosstabs: Statistics în care se bifează
Chi-Square pentru a testa existența asocierii dintre cele două variabile și în zona Nominal (tipul
variabilelor) se optează pentru coeficientul Lambda.

Se rețin rezultatele afișate în fereastra de Output:


- Tabelul de contingență (distribuția bidimensională) cu un număr de cazuri de 375 față de 474
înainte de filtrare:

75
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Se constată o singură celulă cu valoare așteptată mai mică decât 5, cea corespunzătoare
ofițerilor de securitate a datelor care și-au păstrat poziția, 2.3. Prin urmare testul Chi Square are
îndeplinite condițiile de aplicare (mai puțin de 20% celule cu valori așteptate mai mici ca 5).

- Rezultatul testării existenței asocierii:

Testarea ipotezei nule indică ca aceasta să trebuie respinsă, rezultatul testului fiind foarte
semnificativ din punct de vedere statistic (0,000<0,05), respectându-se condițiile de aplicare.
Concluzia este: Există o asociere semnificativă statistic între funcția (postul) angajatului la încadrare
și funcția actuală.

- Coeficienții de măsurare a intensității asocierii, Lambda și Goodman si Kruskall

Testul Lambda este semnificativ statistic (0,000 <0,05) confirmând existența asocierii celor
două variabile. În același timp este simetric, adică variabilele analizate putând fi considerate
dependente una de cealaltă cu aceeași intensitate valorile testului pentru fiecare caz fiind aproape
egale. Totuși, valorile destul de mari pe care le ia acest test, aproape de 0,7, în condițiile în care poate
lua valori în intervalul [0,1], semnifică o intensitate redusă a asocierii, în sensul că variabila
independentă are o influență din ce în ce de mică în distribuirea angajaților (cazurilor) pe categorii ale
variabilei dependente pe măsură ce coeficientul ia valori din ce în ce mai apropiate de 1.

 Coeficientul lui Cramer (V).


Coeficientul V al lui Cramer este cea mai comună măsură a intensității asocierii utilizat atunci
când a fost obținut un rezultat Chi-pătrat semnificativ.
Pentru exemplificare s-a utilizat baza de date filtrată anterior. Adică au fost luați în calcul doar

76
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

angajații care în prezent ocupă funcții de ”Îngrijitor”, ”Funcționar” și ”Ofițer de securitate a datelor”,
evaluându-se asocierea între genul angajaților și funcția ocupată în prezent.
Se procedează asemănător ca în cazurile precedente, optându-se pentru coeficientul V al lui
Cramer.

Se rețin ca rezultate în fereastra Output:

- Tabelul de contingență:

- Tabelul cu rezultatele testului Chi-Square:

77
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

- Tabelul cu coeficienții de măsurare a asocierii.

Cu aceeași semnificație în interpretarea datelor ca în exemplificările precedente, se poate


respinge ipoteza nulă, cum că nu există diferențe de gen în ocuparea posturilor, testul Chi-Square
indicând o asociere semnificativă între genul angajatului și poziția ocupată de acesta (0,000<0,05), în
sensul că este acceptabil să se considere că anumite posturi sunt ocupate mai degrabă de femei, iar
altele mai degrabă de bărbați, intensitatea asocierii fiind moderată (0,233 este în intervalul [0,20 –
0,25]).
Rezultatul ar trebui interpretat în sensul că datele disponibile prezintă suficiente informații
pentru a concluziona că genul angajatului explică într-o măsură destul de mare postul (funcția) ocupat.
Deși se calculează implicit, coeficientul Phi, φ, nu este relevant fiind o măsură a asocierilor
dihotomice (2x2).

3.2.1.b. Testarea asocierii a două variabile categoriale ordinale


Cei mai cunoscuți coeficienți de asociere ordinală, care se bazează pe compararea perechilor
posibile de observații, disponibili în IBM SPSS Statistics sunt: coeficientul tau-b al lui Kendall,
coeficientul tau-c al lui Kendall, coeficientul Gama al lui Goodman și Kruskal și coeficientul lui
Somer, toți disponibili din caseta de dialog Crosstabs: Statistics, în același mod cu cei disponibili
pentru asocierile nominale.

78
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Vom considera pentru exemplificare cazul variabilelor ordinale discrete: SalAng – Salariul la
angajare, cu o scară ordinală cu 5 variante (categorii) de realizare de la 1-5 (definită prin transformarea
variabilei SalInit prin gruparea variantelor pe categorii de salarii (intervale de variație)) și variabila
NivelEduc – Nivel Educațional (definită prin recodificarea variabilei studii) cu o scară ordinală cu 5
modalități de realizare de la 1-5.

Tabelul de contingență este unul pătrat (5 x 5), prin urmare nu are importanță care dintre
coeficienți este utilizat (sunt aplicabili ambii coeficienți Kendall). Acesta se obțin prin executarea
procedurii Crosstabs… este prezentat în imaginea de mai jos.

79
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Variabila dependentă este SalAngaj (pe coloane) și variabila independentă este NivelEduc (pe
linii).

Există în mod evident o legătură între cele două variabile. Se pune problema care dintre
coeficienții de asociere disponibili în SPSS reprezintă o măsură adecvată legăturii dintre cele două
variabile?
În continuare sunt prezentate rezultatele SPSS pentru fiecare dintre coeficienții Gamma,
Somer’s, Tau-b sau Tau-c al lui Kendall. În acest sens, în caseta Statistic se bifează toți coeficienții
de asociere ordinali.

80
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Este evident că indiferent ce coeficient ar fi fost utilizat individual, rezultatul testării indică
același lucru: respingerea ipotezei nulă, adică admiterea că există o asociere semnificativă între cele
două variabile ordinale. Intensitatea asocierii este una puternică (valoarea coeficienților fiind, după
caz, în jur de 0,6 - 0,7).
În plus, având în vedere faptul că avem de a face cu variabile ordinale, pe lângă intensitatea
asocierii se pune și problema direcției acesteia. Cum toți coeficienții calculați au valoare pozitivă,
asocierea este directă, adică angajații cu nivel educațional ridicat au niveluri mari ale salariului la
angajare în timp ce angajații cu nivele educaționale scăzute au salarii mici la angajare.
O alternativă pentru întreaga clasă de măsuri ale asocierii ordinale este coeficientul lui
Spearman, coeficient de corelație a rangurilor disponibil (alături de coeficientul tau-b al lui Kendall),
în procedura Analyze > Correlation > Bivariate… procedură ce pune la dispoziție și măsuri

81
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

neparametrice de corelație a rangurilor pentru variabilele cantitative, care implicit prezintă


proprietatea ordonării variantelor.

Se poate constata că nu se pune problema unei variabile dependente, respectiv independente,


ambele variabile fiind transferate în aceeași zonă a casetei de dialog.

Rezultatul are aceeași semnificație: există o legătură semnificativă, de intensitate moderată,


directă între nivelul educațional și salariul la angajare.

3.2.2. Analiza legăturii dintre o variabilă categorială și o variabilă cantitativ continuă


cu IBM SPSS Statistics
Dacă avem de analizat asocierea dintre o variabilă categorială și una cantitativ continuă se
poate utiliza tot Testul Chi Square.
Să presupunem că se dorește să se evalueze dacă salariul la angajare – variabilă cantitativ
continuă și sex – genul, variabilă categorială, din fișierul angajați.sav, se asociază.
Pentru o astfel de analiză avem nevoie de transformarea variabilei cantitative continue în
variabilă categorială, ordinală. Modalitatea de transformare face referire la procedura Transform >

82
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Binning… pentru transformarea variabilei salinit în variabila ordinală SalAng (prezentată în capitolul
1).
Evaluarea asocierii se reduce deci la evaluarea asocierii dintre două variabile categoriale,
variabila sex – cu eticheta Genul și variabila SalAng – cu eticheta Salariul la angajare (Binned),
transformată a variabilei continue salinit, din fișierul angajați.sav, putând fi utilizat testul Chi Square
cu procedura Analyze > Descriptives Statistics > Crosstabs…

Rezultatul testului permite evaluarea independenței/asocierii între salariul la angajare și genul


angajatului. Se constată o asociere extrem de semnificativă între salariul de la angajare și genul
angajatului (p <0,005).
Analizând valorile reziduurile standardizate din tabelul rezultat de mai jos, acesta pare a fi în
mare parte determinat de categoria Femei, care au o frecvență mult mai mare la salariile de angajare
mici față de cât se aștepta, și o fervență mult mai mică la salariile mari.

Cât privește rezultatul testului Pearson Chi-Square, valoarea acestuia este 214,172, și este
foarte semnificativ .000 (<0,05). Sub tabel este specificată și valoarea minimă așteptată a oricărei
celule din tabelul frecvențelor, „minimum expected count”, respectiv 36,91, care este valoarea
așteptată din celula Femei cu salariul cuprins între 5,70 și 6,29 mii lei la angajare. Nu există nicio
celulă cu diferență așteptată mai mică de 5.

83
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Rezultatul testului Chi-Square semnifică faptul că există o diferență semnificativă între


frecvențele observate și cele așteptate în cazul angajaților bărbați și femei în ceea ce privește salariul
la angajare, adică există o asociere semnificativă între cele două variabile, în sensul că la angajare
femeile au mai degrabă salarii mici, iar bărbații mai degrabă salarii mari.
Prin respingerea ipotezei nule se afirmă doar existența asocierii dintre variabile, nu și
măsurarea gradului de asociere.
În acest sens, se poate utiliza oricare dintre măsurile asocierii nominale, după modelul celor
prezentate anterior, deoarece, orice variabila ordinală, poate fi considerată nominală (scala ordinală
presupunând proprietățile scalei nominale având în plus proprietatea ordonării categoriilor).

3.2.3. Analiza legăturii dintre două variabile cantitative continue


În cazul variabilelor cantitative continue, asociere lor este cunoscută sub numele de corelație.
Studiul corelației a două variabile continue, vizează două aspecte distincte:
- pe de o parte calcularea unui indicator care să măsoare intensitatea și direcția corelației (datele
cantitative implică o ordonare, deci implicit o direcție)
- modelarea legăturii dintre cele două variabile cu un model de regresie.
Principalul indicator de testare și măsurare a corelației este coeficientul de corelație Pearson.
Condiția principală pentru utilizarea acestui coeficient este, pe de o parte ca variabilele considerate să
fie cantitative continue (Scale) și pe de altă parte să aibă distribuții aproximativ normale.
Dacă condiția de normalitate nu este îndeplinită, se pot utiliza măsuri neparametrice după
transformarea anterioară a variabilelor cantitativ continue în variabile categoriale așa cum s-a
prezentat în capitolul 1.
După transformare, variabilele pot fi nominale – și atunci se poate utiliza testul Chi-Square
(specific datelor nominale) sau pot fi ordinale, caz în care se apelează la coeficienții de corelație
Spearman sau Kendall (specifici datelor ordinale). Aplicarea și semnificația acestora este similară
celor prezentate în paragrafele anterioare, după caz.
Având în vedere datele din eșantionul din fișierul angajați.sav, pentru care s-au efectuat în
capitolul 1 teste de normalitate pentru variabilele cantitative toate 4 dovedindu-se nenormale, s-a
procedat la extragerea unui set de date pentru care s-a retestat normalitatea variabilelor cantitative.
Astfel s-a filtrat baza de date păstrându-se doar cazurile de angajați având funcția de
”Îngrijitor”, cu maxim 8 clase și vârsta de cel mult 30 de ani.

84
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

S-a retestat normalitatea variabilelor cantitative din baza de date și s-a constat că pentru setul
de date extras acestea sunt normale. (orice valoare mai mare de 0,05 a testului indică faptul că
datele sunt normale).

3.2.3.a. Analiza corelației


 Coeficientul de corelație Pearson
Având în vedere conținutul variabilelor, toate fiind conforme din perspectiva condițiilor de
aplicare a coeficientului Pearson, pentru analiza corelației dintre acestea se apelează la procedura:
Analyze > Corellate > Bivariate…
Se deschide fereastra de dialog Bivariate Correlations. Sunt luate în considerare toate cele
patru variabile cantitative continue, procedura testând asocierile dintre variabile pentru toate perechile
de câte două variabile.

85
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Se constată faptul că nu se pune problema cauzalității în testarea corelației, sistemul tratând


toate variabile în mod similar, nefiind nevoie să se indice care variabile sunt dependente și care
independente.
De asemenea, se observă că testul implicit este Pearson - ca măsură specifică a asocierii a două
variabile cantitative continue, însă procedura permite și calculul coeficienților de corelație a rangurilor
Spearman și tau – b Kendall, mărimi specifice măsurii variabilelor ordinale pentru care se poate opta
dacă variabilele nu respectă cerința de normalitate, sau aceasta nu se cunoaște.
S-a optat pentru calculul simultan al coeficienților de corelație Pearson pentru fiecare pereche
de variabile din setul de 4 considerat. S-a bifat, de asemenea, opțiunea Flag significant correlations
pentru ca sistemul să semnaleze cazul legăturilor de corelației semnificativă.
Rezultatul returnat în fereastra de Output este un tabel ce poartă numele de matricea
coeficienților de corelație. Se poate observa că se testează corelația inclusiv fiecare variabilă cu ea
însăși, caz în care valoarea coeficienților Pearson este 1, adică corelație perfectă.

Ca la orice test statistic, decizia de a nu se respinge ipoteza lipsei de corelație (nule) se ia în


situația în care probabilitatea critică este mai mare ca pragul de semnificație ales. În caz contrar,
ipoteza nulă se respinge, sistemul IBM SPSS Statistics semnalând corelațiile semnificative prin
marcare automată cu * (pentru un prag de semnificație α=0,05) sau ** (pentru un prag de semnificație
α=0,01) dacă se bifează opțiunea Flag significant correlations din caseta de dialog principală.

86
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Astfel, în matricea coeficienților de corelație de rezultat, este semnalată cu un * corelația dintre


vârstă și experiență în muncă – vechime, și evident între vechime și vârstă, pentru aceasta, coeficientul
Pearson având un nivel de 0,758. Se poate spune că între cele două variabile există o legătură de
corelație directă ( coeficientul este pozitiv) și destul de intensă (valoarea este destul de apropiată de
nivelul 1 – corelație perfectă).
Celelalte corelații testate prezintă niveluri mici ale coeficientului Pearson, adică intensități
slabe ale legăturii, unele dintre ele fiind negative adică de direcție inversă.
Corelația marcată semnificativă pentru un prag de semnificație de 0,05, cea dintre vârstă și
experiență în muncă – vechimea, poate fi apreciată vizual pe baza graficului specific – graficul
ScatterDot (sau graficul norului de puncte ori corelograma). Alura acestuia poate da indicații și cu
referire la forma legăturii liniară sau neliniară.
Cum coeficientul de corelație Pearson este o măsură a corelației liniare, tendința centrală a
norului de puncte ar trebui să fie liniară.
Pentru generarea corelogramei, se activează din meniul procedura Graphs > Legacy Dialogs
> ScatterDot…

Fiind vorba doar de legătura dintre două variabile se păstrează setarea implicită Simple Scatter
și se acționează butonul Define pentru a defini condițiile construirii graficului în caseta de dialog
afișată.

87
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Corelograma se construiește în sistemul de axe ortogonal xOy, prin urmare, fără a fi însoțită
de semnificația cauzalității, se poate transfera pentru reprezentare pe axele Oy și Ox oricare dintre
variabile, semnificația legăturii nefiind modificată.
Transferul variabilei Marca angajatului în secțiunea Label Cases by permite asocierea
variantelor variabilelor în perechi corespunzătoare cazurilor (angajaților).
Acționarea butonului OK determină afișarea în fereastra de Output, a graficului.

Este evidentă tendința liniară a norului de puncte, crescătoare, adică directă (în general valorile
mici ale uneia dintre variabile și se asociază cu valori mici ale celeilalte variabile și valorile mari cu
valori mari). În plus fâșia este suficient de îngustă pentru a descrie o legătură intensă.
De altfel, toate corelațiile pot fi reprezentate grafic simultan, corelogramele indicând aspecte
legate de existență, intensitate, direcție și formă.
Pentru aceasta, se optează pentru Matrix Scatter. Și se transferă în listă toate cele patru
variabile

88
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

În fereastra de Output de afișează matricea corelogramelor. Vizual, se desprind aceleași


aspecte cu privire la corelațiile analizate, ca și cele indicate de valorile calculate ale coeficienților
Pearson corespunzători.

 Coeficienții de corelație a rangurilor tau-b Kendall și Spearman


În ceea ce privește utilizarea măsurilor de corelație a rangurilor, s-a revenit la setul inițial de
date prin anularea condițiilor de filtrare a cazurilor și s-a luat în analiză aceeași pereche de variabile
care și în cazul precedent s-a dovedit corelată, vârsta și vechimea – Experiența în muncă, pentru care
în Capitolul 1 li s-a verificat normalitatea distribuțiilor cu testele de normalitate Kolmogorov-Smirnov
și Shapiro – Wilks.
Reluăm mai jos rezultatul testului pentru a proba ne-normalitatea acestora.

89
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Orice valoare mai mică de 0,05 a testului indică faptul că datele sunt nenormale.
Având în vedere că ambele variabile sunt neconforme din perspectiva condițiilor de aplicare a
coeficientului Pearson, pentru analiza corelației dintre acestea se apelează la procedura: Analyze >
Corellate > Bivariate… cu utilizarea coeficienților de corelație a rangurilor, Spearman sau tau –
Kendall. Se deschide fereastra de dialog Bivariate Correlations:

Se constată faptul că nu se pune problema cauzalității în testarea corelației, sistemul tratând


ambele variabile în mod similar, nefiind nevoie să se indice care este variabila dependentă și care
independentă.
Se observă de asemenea, că testul implicit este Pearson - ca măsură specifică a asocierii a două
variabile cantitative continue, însă procedura permite și calculul coeficienților de corelație a rangurilor
Spearman și tau – b Kendall, mărimi specifice măsurii variabilelor ordinale pentru care se poate opta
dacă variabilele nu respectă cerința de normalitate, sau aceasta nu se cunoaște.
Utilizarea acestor măsuri neparametrice pentru descrierea legăturilor între două variabile
cantitative este de înțeles, nivelul de măsurare interval (scale) incluzând proprietatea de ordonare a
variantelor variabilei a nivelului de măsurare ordinal.

90
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

S-a optat pentru calculul simultan al coeficienților de corelație a rangurilor, condiția de


normalitate pentru apelarea coeficientului Pearson nefiind îndeplinită. S-a bifat, de asemenea,
opțiunea Flag significant correlations pentru ca sistemul să semnaleze cazul unei legături de corelației
semnificativă.
Rezultatul returnat în fereastra de Output este:

Datele din matricea de corelație indică niveluri foarte ridicate ale celor doi coeficienți. (0,662
pentru tau-b Kendall, și 0,830 pentru Spearman) în raport cu limitele intervalului de valori în care
aceștia se poate înscrie [-1,1], ambii indicând o corelație destul de puternică, directă, coeficienții fiind
pozitivi. Bifarea opțiunii Flag significant correlations, a determinat marcarea cu câte două asterisc-
uri a coeficienților, aceștia fiind semnificativi la un prag de semnificație p=0.01. Acest lucru scoate în
evidență valorile semnificative ale lui coeficientului. Se constată de asemenea simetria măsurii.
Se poate concluziona că între cele două variabile există o legătură de corelație directă și foarte
intensă.

91
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

3.2.3.b. Analiza de regresie simplă liniară


Analiza de regresie presupune ca într-o primă etapă să se determine coeficientul lui Pearson și
să se construiască graficul norului de puncte pentru a stabili existența unei astfel de legături între
variabile. Considerăm exemplul anterior pentru care s-a verificat anterior existența corelației simple
liniare între experiența în muncă (vechime) și vârsta.
Astfel, în matricea coeficienților de corelație de rezultat, este semnalată cu un * corelația dintre
vârstă și experiență în muncă – vechime, și evident între vechime și vârstă, pentru aceasta, coeficientul
Pearson având un nivel de 0,758. Între cele două variabile există o legătură de corelație directă (
coeficientul este pozitiv) și destul de intensă (valoarea este destul de apropiată de nivelul 1 – corelație
perfectă), fapt confirmat și de corelogramă. În imaginile de mai jos sunt reluate rezultatele de Output
pentru analiza de corelație.

IBM SPSS Statistica returnează odată cu construirea corelogramei și nivelul coeficientului de


determinație R2 , un indicator mult mai expresiv care indică cât la sută din variația vechimii în muncă
este explicată de variația vârstei, restul fiind explicată de alte variabile neincluse în model.
Pentru a se afișa acest indicator după construirea corelogramei, se selectează aceasta cu dublu
click și în caseta Chart Editor se optează pentru afișarea de elemente suplimentare din meniul principal
Elements, respectiv Fit Line at Total (linia de regresie).

92
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

Coeficientul de determinație, R2 indică faptul că 57,4% din variația vechimii este influențată
de variația vârstei ceea ce este considerat determinant (este mai mare de 50%), iar coeficientul lui
Pearson de corelație simplă liniară este 0,758 care este semnalat ca semnificativ din punct de vedere
statistic de sistemul software cu *.
Se certifică astfel posibilitatea exprimării legăturii dintre aceste variabile printr-un model de
tip liniar cu ajutorul unei funcții de regresie se apelează la procedura utilizată în acest sens este:
Statistics-Regression-Linear...

Se va activa fereastra principală Linear Regression, unde se vor trece variabilele a căror
legătură este analizată din lista de variabile a bazei de date în zona Dependent - variabila Experiența
în muncă – cu eticheta vechime, iar în zona Independent(s)- variabila Vârsta;
Din lista Method se păstrează metoda de analiză implicită – Enter, celelalte metode fiind
aplicabile în situații cu mai multe variabile independente.

93
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

Butonul Statistics activează fereastra cu același nume în care se păstrează bifată opțiunea
Eestimates pentru obținerea coeficienților de regresie (opțiune implicită) cu stabilirea intervalului de
încredere pentru coeficienții de regresie pentru probabilitatea de 95% selectată în confidence intervals;
Opțiunea Covariance matrix asigură construirea matricei de varianță - covarianță pentru
coeficienții de regresie;
Opțiunea Model fit – permite calcularea raportului de corelație R, coeficientul de determinație
R2, R2 ajustat, eroarea standard, și afișarea rezultatelor analizei ANOVA;
Opțiunea Descriptives – afișează pentru fiecare variabilă Media, Abaterea standard, Matricea
corelațiilor;
Opțiunea Part and Partial correlations – calculează corelații parțiale dacă este cazul, iar
Opțiunea Collinearity diagnostics – realizează analiza coliniarității.
În cazul considerat s-a optat pentru Estimates implicit și Model fit.

Cu aceste opțiuni, rezultatul procesării datelor se afișează în fereastra Output astfel:


Regression

94
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

În primul tabel sunt specificate variabilele modelului și metoda aleasă: Enter.

Tabelul Model Summary oferă informații despre indicatorii ce ne relevă bonitatea modelului
adică ”cât de bun” este modelul pe care îl estimăm.
În acest tabel sunt afișați: raportul de corelație, notat cu R, care este egal cu coeficientul de
corelație dintre cele două variabile. Faptul că est egal cu coeficientul de corelație simplă liniară
confirmă liniaritatea legăturii. , la fel ca și pentru R2, R Square, coeficientul de determinare al lui R.
Cu cât R Square și Adjusted R Square au valori mai apropiate de 1 cu atât regresia este mai
bună.
Valoarea lui R Square în cazul prezentat semnifică faptul că 57,4% din variația experienței în
muncă (vechime) este explicată de variația variabilei vârsta angajatului.
În tabelul ANOVA este prezentat rezultatul analizei dispersionale. Modelul de regresie simplu
liniar este destul de semnificativ (0,048<0,05), putând fi utilizat în analize de prognoză.

Este afișată descompunerea variației totale a variabilei dependente, Total, în două


componente: varianța explicată prin regresie, Regression și varianța neexplicată sau varianța
reziduală, Residual. Aici identificăm și gradele de libertate asociate descompunerii, mai precis, dacă
avem k variabile de regresie în model și n observații, avem egalitatea n  1  k  (n  k  1) .
Există două informații importante afișate în tabelul ANOVA și anume: F și Significance F.
Valorile acestora ne dau elemente importante ce stau la baza validării modelului de regresie (în
totalitatea sa). Ele ne furnizează informații privind valoarea calculată a statisticii test F și erorii pe
care putem s-o facem când respingem modelului de regresie ca fiind neadecvat. Regula de decizie
privind acceptarea modelului este: valori mari pentru statistica test F și valori mici pentru Significance

95
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice

F unde Significance F reprezintă valoarea erorii pe care o facem prin respingerea ipotezei nule când
de fapt ea este adevărată.
Pe datele noastre, cum F = 6,741 este o puțin mai mare decât valoarea critică a lui F, fapt
pentru care Significance F = 0,048. Significance F trebuie să fie în general mai mic de 5%(0.05), deci
0,048 este valoare încă mai mică, și deci putem accepta că modelul ales ajustează bine datele din
eșantion.

În acest tabel ne sunt oferite informații despre valorile estimate ale coeficienților modelului de
regresie în coloana Unstandardized Coefficients - B, erorile standard ale coeficienților în coloana Std.
Error, elemente pentru aplicarea testului de semnificație t-Student pentru fiecare coeficient (coloanele
t și Sig.).
Deci, valoarea din coloana t se obține împărțind pentru fiecare estimator al modelului, valoarea
estimației la eroarea standard a estimatorului și astfel obținem valoarea calculată a testului t pentru
fiecare estimator al modelului. Această valoare calculată se compara cu valoarea tabelară preluată din
tabelul repartiției Student.
 Constant este termenul liber al modelului, egal cu-8,800. Termenul liber este punctul în care
variabila independentă este 0. Deci, nivelul salariului este de -8,800, dacă vechimea este 0.
Deoarece t a0 = 2,183, iar pragul de semnificație (p=0,05), și Sig.= 0,081>0,05 înseamnă că
acest coeficient nu este semnificativ.
 Coeficientul de regresie B este 0,401, ceea ce însemnă că la creșterea vârstei cu 1 an, nivelul
vechimii va creste 0,401 ani. Deoarece t a1 = 2,596, iar pragul de semnificație P-value este 0,05
Sig. = 0,048<0,05 înseamnă că acest coeficient este semnificativ.
Trasarea dreptei de regresie se face activând graficul Scatterplot și executând următoarele
operații:
- se acționează dublu clic de mouse pe imaginea graficului din Viewer. prin care se deschide
graficul într-o fereastră individuală de editare, apoi se execută procedura Chart – Elements -
Fit line at Total și apare fereastra de dialog Properties unde se marchează Fit Method - Linear.

96
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA

BIBLIOGRAFIE

1. Arkkelin, D. (2014). Using SPSS to Understand Research and Data Analysis, dosponibil la
https://scholar.valpo.edu/cgi/viewcontent.cgi?article=1000&context=psych_oer
2. Babucea, A.G. (2010). Analiza datelor – Metode statistice avansate, Editura Universitaria,
Craiova.
3. Babucea, A.G. (2009). Statistică – Fundamente teoretice, Editura Scrisul Românesc, Craiova.
4. IBM Corp., IBM SPSS Statistics Base 20, disponibil în format digital la
https://www.csun.edu/sites/default/files/statistics20-base-32bit.pdf
5. IBM Corp., IBM SPSS Statistics Brief Guide, disponibil în format digital la
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/en/client/Manu
als/IBM_SPSS_Statistics_Brief_Guide.pdf
6. Miller, R.L., Acton, C., Fullerton, D.A. and Maltby, J., - SPSS for Social Scientists, disponibil
la http://gtu.ge/Agro-Lib/1%20(1).pdf

97

S-ar putea să vă placă și