Documente Academic
Documente Profesional
Documente Cultură
ANALIZA DATELOR
Suport de curs și aplicații practice
Analiza datelor este o etapă importantă a cercetării statistice, etapă în care pe baza datelor colectate,
în urma prelucrării lor statistice, se extrag informații ce vor fundamenta decizii ulterioare.
Acest demers necesită formularea unor ipoteze de lucru, iar cea mai bună cale de a alege dintre
acestea pe cele mai apropiate de realitate este instrumentarea testelor statistice cu ajutorul
programelor software care fac aplicarea acestor teste mult mai ușoară.
IBM SPSS Statistics este un astfel de pachet de programe, puternic și multivalent, care oferă multiple
modalități de a explora rapid datele și de a testa ipotezele cercetărilor științifice.
Pachetul de programe a fost lansat cu numele SSPS (Statistical Package for the Social Sciences) de
compania SPSS Inc. încă din 1968. În 2010 compania SPSS Inc. a fost preluată de IBM Corporation,
astfel că începând cu versiunea 19 pachetul de programe poartă numele de IBM SPSS Statistics.
Cursul Analiza datelor pune accentul pe utilizarea programului SPSS, trecând doar în revistă noțiuni,
concepte și metode statistice fundamentale, considerând că acestea sunt anterior asimilate.
2
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
CUPRINS
Capitolul 1
ORGANIZAREA ȘI PREZENTAREA DATELOR STATISTICE …………… 5
1.1. Date și variabile statistice – noțiuni și concepte fundamentale …………………….. 5
1.2. Organizarea datelor în IBM SPSS Statistics ……………………………………….. 6
1.2.1. Definirea variabilelor SPSS ………………….……………………………… 7
1.2.2. Introducerea datelor ………………………………………………………….. 12
1.2.3. Filtrarea cazurilor …………………………………………………………….. 13
1.2.4. Sortarea cazurilor ……………………………………………………………. 15
1.2.5. Sortarea variabilelor …………………………………………………………. 15
1.2.6. Generarea de noi variabile prin transformarea variabilelor bazei de date …… 16
Capitolul 2
ANALIZA UNIVARIATĂ A DATELOR STATISTICE ……………………… 23
2.1. Descrierea variabilelor statistice – sinteze teoretice ……………………………….. 23
2.1.1. Tabelele de frecvență ………………………………..……………………….. 23
2.1.2. Reprezentări grafice ………………………………………………………….. 25
2.1.3. Indicatori statistici de descriere a variabilelor ………………………………... 25
2.2. Analiza descriptivă a variabilelor statistice cu IBM SPSS Statistics ……………….. 32
2.2.1. Procedura Frequencies ..................................................................................... 33
2.2.2. Procedura Descriptives ..................................................................................... 41
2.2.3. Procedura Explore ............................................................................................ 42
Capitolul 3
ANALIZA BIVARIATĂ A DATELOR STATISTICE ………………………… 49
3.1. Asociere, cauzalitate și covariație - aspecte teoretice ……………..……………….. 49
3.1.1. Analiza bivariată a două variabile categoriale ………………………………….. 50
3.1.1.a. Stabilirea existenței legăturii de asociere între variabile categoriale ……… 50
3.1.1.b. Măsuri ale asocierii a două variabile categoriale ………………………….. 53
3
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
4
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
CAPITOLUL 1
Fiecare caracteristică are asociată o scală de măsurare conformă informației conținute. După
precizarea scalei de măsurare, caracteristica respectivă va fi reprezentată printr-o variabilă statistică
ale cărei variante depind de scala de măsurare, plasându-se într-un anume domeniu de valori.
Astfel, fiecărei unități statistice i îi corespunde în matricea X o linie, practic un vector cu p
elemente xi1 ,..., xij ...xip și fiecărei variabile j îi corespunde în matricea X o coloană cu n elemente,
x 1j ,..., xij ...x nj .
T
5
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Variabilele cantitative pot prezenta variație continuă – caz în care variante pot lua orice valoare
într-un domeniu dat, ca de exemplu: impozitul, media de absolvire, consumul de materiale, prețurile,
sau discontinuă/discretă – caz în care variantele sunt doar numere întregi, ca de exemplu: numărul de
muncitori, numărul de produse, vârsta în ani împliniți, producția exprimată în bucăți.
De asemenea, după forma de manifestare la nivelul unităților simple, variabilele pot fi:
alternative – cele a căror formă de manifestare este fie directă, fie opusul său ca de exemplu: sexul cu
cele două variante ”femeie” sau ”bărbat”, starea civilă cu cele două variante ”căsătorit” sau
”necăsătorit”, etc.), sau pot fi nealternative – cele care au variante distincte de exprimare ca de
exemplu: vârsta angajaților care poate lua orice valoare între 15 și 70 de ani, localitatea de domiciliu
a angajaților, etc ).
În funcție de modul de măsurare a valorilor individuale variabilele pot fi: nominale – variabile
calitative măsurate la nivel nominal (de exemplu: statutul ocupațional cu variante de realizare:
agricultor, salariat, antreprenor, șomer etc., religia cu variantele: ortodox, catolic, protestant, etc.,
mediul de rezidență cu variantele: rural, urban); ordinale - variabile calitative măsurate la nivel ordinal
(de exemplu: calificativele școlare cu variantele: insuficient, suficient, bine și foarte bine, sau
satisfacția față de un produs cu variantele: nesatisfăcător, indiferent, satisfăcător, etc.) sau
proporționale - variabile numerice, măsurate la nivel de raport/proporțional (de exemplu: vârsta,
salariul, PIB, cifra de afaceri, etc.)
Identificarea corectă a nivelului de măsurare a variabilelor este foarte importantă deoarece
influențează metodologia statistică utilizată în prelucrarea ulterioară și de analiză a datelor.
IBM SPSS Statistics gestionează datele organizate în linii și coloane, într-un astfel de tabel:
liniile reprezentând unitățile statistice (observațiile/indivizii/cazurile), iar coloanele variabilele
cercetării.
Fereastra de afișare a fișierului SPSS ce conține baza de date (.sav) dispune de două tab-uri în
partea din stânga jos, Data View (Vizualizare date) și Variable View (Vizualizare variabile).
Data View este în mod obișnuit vizualizarea de lucru a fișierului, datele fiind vizualizate în
același mod ca într-o foaie de lucru Excel.
6
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Deși nu este importată, ordinea definirii variabilelor va determina ordinea coloanelor în tabelul
de lucru. Definirea variabilelor presupune specificarea următoarelor elemente pentru fiecare dintre
acestea.
Tipul variabilei – Type. Există doar două tipuri de variabile: categoriale sau calitative și
cantitative sau continue.
Variabile categoriale sau calitative – sunt acele variabile care au un număr limitat de valori
sau categorii distincte. Acestea pot fi declarate de tip șir de caractere – String (de exemplu: variabila
sex sau statut ocupațional) sau variabile de tip numeric – Numeric dacă utilizează coduri numerice
pentru a reprezenta categoriile (de exemplu, 0 = Necăsătorit și 1 = Căsătorit).
Variabilele de tip șir - String - se mai numesc variabile alfanumerice sau variabile de caractere
- au valori care sunt tratate ca text. Ca valori ale variabilei șir se pot include numere, litere sau
7
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
simboluri. Valorile șirului lipsă apar necompletate, spații goale. De exemplu: Codurile poștale sau
numerele de telefon, deși sunt compuse din numere, ele nu sunt considerate semnificative în calcule.
Pot fi scrise/afișate în două formate: short string (până la 8 caractere) sau long string (până la 256
caractere);
Majoritatea variabilelor sunt însă cantitative continue - Numeric și pentru acestea sistemul
acceptă cel mult 40 de caractere, dintre care 16 la partea zecimală.
Pentru afișarea variabilelor numerice, sistemul oferă în afara formatului general și alte formate,
ca de exemplu: comma – care va afișa numărul 1897,98 în formatul 1,897.98; dot – îl va afișa în
formatul 1.897,98; scientific notation – în formatul 1,90E+003, dollar – va plasa caracterul monetar $
ca prefix al valorii numerice, oferind în același timp posibilitatea oricărui format de scriere a valorilor
numerice. Tot în categoria variabilelor numerice intră și cele de tip date (data calendaristică) cu
diferite formate de afișare ce trebuie selectate din listele afișate.
Este indicat, ca variabilele din baza de date să fie majoritar numerice având în vedere că
prelucrările datelor implică prelucrări statistice, cantitative.
Eticheta variabilei – Label (este de asemenea opţională). Este un text ce descrie explicit
conținutul și semnificația variabilei. Declararea ei determină afișarea acestui text în antetul
tabelelor rezultat de output în locul numelui variabilei. De exemplu, variabila id are ca etichetă
8
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
textul “Marca angajat”.
Textul etichetă se introduce efectiv în caseta corespunzătoare care implicit conține doar spații.
Nu sunt restricții pentru textul introdus, putând avea o lungime de max. 255 caractere inclusiv spatii
sau oricare alt semn grafic de pe tastatură.
Valoarea lipsă - Missing value (are specificare opțională – implicit luând valoarea None),
adică cum este interpretată lipsa valorii variabilei pentru unele unități statistice (cazuri).
Acestea pot fi:
system missing values - valori care lipsesc din baza de date deoarece nu au fost
introduse. Sunt evidenţiate la afișare pe ecran printr-un punct plasat în celula cu valoare
lipsă.
user missing values - valori declarate lipsă de utilizator, ele putând fi fizic ăn baza de
date, dar utilizatorul nu doreşte să le ia în calcul. Deși declarate lipsă aceste valori un
sunt evidențiate în vreun mod la afișare și nici nu sunt şterse din baza de date.
Pentru declararea valorilor lipsă user missing values se acționează butonul Missing Values
din dreptul variabilei a cărei definire se realizează, care determină apariția casetei de dialog cu același
nume.
Se observă că există mai multe opţiuni:
- declararea a trei valori distincte ca fiind lipsă (Discrete missing values)
- declarea unui domeniu de valori lipsă (Range of missing values)
- declararea unui domeniu la care se poate adăuga şi o valoare distinctă (Range plus one
discrete missing value)
9
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Declararea valorilor lipsă de către utilizator se impune destul de des în prelucrarea datelor,
atunci când apar valori extreme, foarte diferite de celelalte, includerea lor în prelucrări alterând
semnificația statisticilor sintetizatoare, valori care nu trebuie totuşi şterse. (Valorile lipsă se pot inlocui
cu un cod pentru valorile lipsă, de exemplu 9).
Codurile variantelor variabilelor dihotomice – Values: sunt utilizate în general pentru
variabilele calitative cu un număr redus de variante alternative. IBM SPSS Statistics permite
definirea și memorarea codificărilor utilizate pentru fiecare variantă. (de exemplu, pentru
variabila sex: s-a codificat 0=”Barbat” și 1=”Femeie” etc.),
Activarea celulei din coloana Values va conduce la afișarea casetei de dialog Value Labels în
care se permite codificarea variantelor variabilei respective. Se completează, rând pe rând perechile
de valori Value – Value Label în zonele respective și se adăugă la lista de coduri prin acționarea
butonului Add etc. Etichetele de valori, împreună cu etichetele de variabile conduc la o formă explicită
a rezultatelor. Tot în acesta casetă se pot modifica sau șterge codificările din lista de coduri..
Nivelul de măsurare utilizat – Measure: sistemul IBM SPSS Statistics oferă trei variante de
măsuri, utilizatorul fiind cel care va selecta una dintre acestea: Scale, Ordinal sau Nominal în
funcție de natura și conținutul variabilei respective.
De specificarea corectă a măsurii depinde alegerea metodologiei statistice de analiză, fiind
esențială mai ales că există prelucrări statistice specifice pentru fiecare dintre tipurile de variabile
ordinale, nominale sau scalare. Chiar dacă variantele variabilelor calitative au fost codificate,
variabilele fiind declarate numerice, nu trebuie uitată natura și conținutul lor, nivelul de măsurare fiind
selectat corespunzător.
10
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Astfel:
pentru variabilele categoriale nivelul de măsurare poate fi:
- Nominal – nu se poate stabili o ordine între valori sau categorii. De exemplu, variabila sex –
între variantele Femeie și Bărbat nu se poate stabili o ordine.
- Ordinale – între valori sau categorii există o ordine semnificativă, dar nu există o distanță
măsurabilă între acestea. De exemplu variabila Calificative școlare cu variantele ordonabile:
insuficient, suficient, bine și foarte bine
pentru variabilele cantitative (continue):
- Scale – datele sunt măsurate metric cu scală interval sau raport, unde valorile variabilei indică
atât ordinea lor, cât și distanța dintre acestea. De exemplu, un preț de 100 lei este mai mare decât un
preț de 25 lei, iar distanța dintre cele două valori este de 75 lei.
Pentru definirea rolului unei variabile în analiză din celula corespunzătoare coloanei Role
pentru variabila respectivă, lista derulantă se selectează una din variantele:
- Target - variabila este utiliată ca variabilă de ieșire (țintă), ca rezultat (variabilă dependentă),
- Both (ambele) - variabilă ce se dorește a fi utilizată atât ca variabilă de intrare cât și ca variabilă
rezultat, de ieșire (variabilă independentă și dependentă),
- None - variabilă care nu are atribuire de rol,
- Partition (partiție) - variabilă prin intermediul căreia se dorește partitionarea datelor în
eșantioane separate pentru testare sau validare.
11
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
- Split (divizare) - acest rol a fost inclus pentru compatibilitatea cu modelatorul IBM SPSS.
În exemplul considerat, s-a creat fișierul angajati.sav conținând variabilele: id – marca
angajatului, salinit – salariul la angajare, sex – genul angajatului, varsta – vârsta, sal – salariul curent,
studii – nivelul educațional (număr de ani), vechime – vechimea în muncă, functia – funcția postului
ocupat și disabilitati – încadrat ca personal cu dizabilități.
Ecranul Variable View se prezintă ca în figura de mai jos. Toate variabilele au fost declarate
numerice, variantele variabilelor calitative, nominale sau ordinale fiind codificate).
Datele pot fi importate și din alte programe ce organizează datele tabelar, de exemplu Ms Excel
sau Ms Access. Pentru aceasta, din meniul File se selectează Open Database>New Query care va
activa caseta de dialog Database Wizard care va îndruma utilizatorul în crearea fițierului de date prin
importarea datelor dintr-un alt fișier.
12
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Pentru a importa datele dintr-o foaia de calcul Excel, aceasta trebuie să îndeplinească câteva
condiții:
- Să aibă un singur rând de nume de variabile în partea de sus a foii de calcul din primul rând;
- Denumirile variabilelor ar trebui să includă litere și cifre și scrise și să nu includă caractere
speciale, nici măcar spațiul;
- Datele ar trebui să înceapă cu prima coloană, al doilea rând (sub rândul de nume variabile) al
foii de calcul;
- Toate textele suplimentare, etichetele, graficele, tabelel pivot, în general orice nu este o dată
în sine, trebui eliminate anterior importului de date în IBM SPSS;
- Valorile care lipsesc pentru variabilele string sau numerice au celule goale sau un cod
corespunzător de valori care lipsește (cum ar fi - 999).
13
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
În zona de formare a condiției se pot utiliza denumiri de variabile (selectate din lista din
stânga), operatori, funcții din lista din dreapta casetei de dialog. Pentru toate prelucrările ulterioare
vor rămâne valide doar înregistrările pentru care condiția este adevărată.
Dacă nu se optează pentru ștergerea datelor neselectate, ele vor fi păstrate și vor putea fi
reintroduse în analiză. Procedura este Data - Select Cases....
Pentru exemplificare, în imaginile de mai sus, am filtrat baza de date angajati.sav reținând doar
cazurile de angajați bărbați, adică cele pentru care variabila sex are valoarea 0 – ”bărbat”.
În caseta de dialog Select Cases se observă:
- în stânga este zona cu lista de variabile conținute de baza de date;
- în dreapta-sus este zona de fixare a condițiilor de selectare Select, cu opțiunile:
14
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
15
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Sortarea se poate face după oricare atribut al variabilelor, Nume, Tip, Dimensiune, etc. în
ordine crescătoare/alfabetic sau invers.
Uneori este nevoie de recodificări ale datelor sau de o nouă variabilă, derivată din variabile
primare având un alt nivel de măsurare. SPSS oferă posibilitatea generării automate de astfel de
variabile.
În funcție de situație, se optează pentru una din procedurile:
Transform > Compute Variable…
Transform > Recode into same Variables…, sau Transform > Recode into
Different Variables…
Transform > Visual Binning…
Prima opțiune permite generarea unei noi variabile în baza unui model de calcul, în timp ce
celelalte două presupun recodificarea variantelor fie prin modificarea lor în aceeași variabilă fie prin
generarea unei noi variabile.
16
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Imaginile reflectă crearea unei noi variabile ce reflectă creșterea salarială (salariul curent –
salariul de la angajare) pentru toți salariații. Variabila nou creată este cantitativ continuă cu nivel de
măsurare interval. (Scale)
De asemenea, dacă se impune se poate efectua simultan filtrarea înregistrărilor bază de calcul
prin acționarea butonul IF. În acest caz, variabila obținută prin transformare, va avea pentru cazurile
neselectate valori lipsă, system-missing.
17
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
18
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
După completarea zonei Old Value, respectiv New Value, trecerea corespondenței definită în
lista Old→New se realizează prin acționarea butonului Add.
Exemplul prezentat în imaginile de mai jos vizează generarea unei noi variabile, salariu,
obținută prin codificarea variantelor variabilei numerice sal grupate pe 5 intervale de variație.
19
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
În această casetă trebuie specificat numele noii variabile în spațiul Binned Variable, eventual
o nouă etichetă.
În casetă, este în mod automat specificată valoarea minimă și cea maximă a variabilei de
transformat astfel încât să orienteze utilizatorul cu privire la numărul de categorii necesare.
Se specifică de asemenea numărul cazurilor (474) și al valorilor lipsă (în cazul prezentat – 0).
20
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Prin acționarea butonului Apply, sunt generate limitele intervalelor de variație pentru cele 5
intervale stabilite în caseta Visual Binning, și în funcție de opțiunea setată pentru stabilirea limitelor
superioare ale intervalelor de variație, prin acționarea butonului Make Labels, se generează automat
etichetele categoriilor respective.
Prin acționarea butonului OK, se definește automat noua variabilă categorială ordinală în
ecranul VariableView.
21
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
22
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
CAPITOLUL 2
Înainte de testarea unor ipoteze statistice sau de construirea unui model pentru setul de date
înregistrate, este întotdeauna nevoie de o examinare a acestora folosind indicatori statistici descriptivi
și reprezentări grafice adecvate. Acest proces poartă numele de analiza univariată a datelor și deși
este o etapă preliminară a oricărui proiect de cercetare este foarte importantă. Analiza univariată are
un rol deosebit în analizele statistice preliminare ale datelor fiind utilă în depistarea unor erori în seriile
de date, pentru centralizarea și sistematizarea datelor, pentru descrierea sintetică a unor
fenomene/procese simple.
23
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
număr mare de variante distincte, se recurge mai întâi la o "grupare" a datelor în mai puține
categorii/grupe.
Tabelul de prezentare al distribuției poartă numele de tabel de frecvențe și conține pe
lângă ”grupele” în care au fost ”grupate” datele inițiale, și aparițiile pentru fiecare grupă – frecvențele
absolute, încă două tipuri de indicatori de frecvențe, calculate pe baza frecvențelor absolute, și anume
frecvențe relative și frecvențe cumulate.
Prima coloană a tabelului conține valorile variabilei X , distribuite pe grupe/categorii. Cea de-
a doua coloană conține frecvențele de apariție ale acestor valori, sau cu alte cuvinte numărul de
observații aflate în fiecare grupă/categorie. Ce-a de-a treia coloană a tabelului conține frecvențele
relative, adică ponderea sau proporția observațiilor din fiecare categorie în totalul observațiilor.
fi
Formula de calcul a frecvențelor relative este: f i * , sau exprimate în procente:
N
f
f i* i (100) ,
N
unde:
- f i * este frecvența relativă a categoriei (valorii variabilei) i
- f i este frecvența absolută a categoriei i (numărul de cazuri sau observații care aparțin
respectivei categorii)
- N este numărul total de observații
Cea de-a patra coloană a tabelului conține frecvențele cumulate, practic suma dintre frecvența
relativă a respectivei categorii și frecvențele relative ale categoriilor inferioare.
i
Fi f j
* *
j 1
Uneori, pentru o mai bună semnificație statistică frecvențele relative se exprimă în procente,
caz în care poartă numele de ponderi. Indicatorii de frecvență sunt o măsură a structurii colectivității.
Calculul frecvențelor cumulate nu are sens pentru variabilele nominale, din moment ce valorile
acestui tip de variabile nu pot fi ordonate.
24
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
25
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Mediana, notată (Me), este acea valoare a caracteristicii care ocupă locul central în șirul
valorilor individuale xi ordonate crescător sau descrescător. Altfel spus, mediana împarte seria
în două părți egale, numărul valorilor individuale mai mari ca mediana fiind egal cu numărul
valorilor individuale mai mici decât aceasta. Mediana este unul din cazurile speciale de măsură
a localizării, fiind indicator de poziție.
Uneori, în șirul valorilor individuale înregistrate apar valori outliers (aberante ca mărime în
raport cu celelalte, neobișnuite), ca urmare indicatorii de localizare centrală sunt mult denaturați
(deplasați). În acest caz se calculează mediile robuste. Acestea elimină o parte a efectului valorilor
aberante fără a afecta semnificația mediei. Se pot calcula două tipuri de medii robuste:
Media winsorizată 95%, în calculul căreia primele 2.5% dintre valorile ordonate sunt
înlocuite cu „cuantila 2.5” și ultimele 2.5% dintre valori sunt înlocuite cu „cuantila 97.5”.
Media trimmed 95%, este calculată excluzând primele 2.5% și ultimele 2.5% dintre
valorile șirului ordonat de date.
Valorile determinate pentru cei trei indicatori de poziție pot indica diverse aspecte privitor la
variabila pentru care au fost determinate:
- Cu cât distanțele dintre medie și mod, respectiv dintre medie și mediană, sunt mai mici (cei
trei indicatori au valori asemănătoare), cu atât media este mai reprezentativă, atât modul cât și mediana
pot înlocui media.
- Ei se plasează în zona centrală a distribuțiilor unidimensionale moderat asimetrice, între cei
trei indicatori stabilindu-se relația:
Mo 3Me 2 x .
Indicatorii de poziție
Media, mediana și modul sunt cei trei indicatori ai localizării „centrului” valorilor șirului de
date. Există și alte măsuri ale localizării datelor în analiza distribuției valorilor observate, numite
indicatori de poziție sau cuantile (în limba engleză percentiles), asociate unui șir de valori, astfel:
Cuantila (Percentila) de ordinul p este acea valoare xi , care are proprietatea că p% dintre
valorile șirului de date ordonate sunt mai mici decât ea și (100 – p)% dintre valori sunt mai
mari decât ea.
Cele mai utilizate cuantile în descrierea distribuției unei variabile sunt:
Cuartilele - Sunt trei cuartile care împart șirul ordonat al valorilor individuale
ale variabilei în 4 părți egale:
Cuartila inferioară, notată Q1, este cuantila 25.
Cuartila de mijloc, notată Q2, este cuantila 50. Se observă faptul că cuartila Q2
este tocmai mediana.
Cuartila superioară, notată Q3, este cuantila 75.
Cuartilele se folosesc pentru a analiza dispersia valorilor x1 , x2 ,..., xn calculându-se cu
ajutorul lor așa-numitul indicator inter-quartile (notat IQR), calculat ca diferența dintre percentila 75
și percentila 25, care pentru distribuții normale ar trebui să fie aproximativ 1.35 din abaterea standard
a variantelor respectivei variabile.
26
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Indicatorii variației
Chiar și așa, indicatorii tendinței centrale sunt măsuri suficiente, pentru descrierea completă a
unei variabile fiind important să se cunoască și cât de "împrăștiate" sunt valorile acesteia în jurul
tendinței centrale sau, altfel spus, cât de omogenă sau eterogenă este colectivitatea studiată în raport
cu o caracteristic respectivă. Pentru a evalua împrăștierea datelor se utilizează indicatorii simpli și
indicatorii sintetici ai variației, dintre care cei mai relevanță sunt:
Amplitudinea (Range) este calculată ca diferență între valoarea maximă și valoarea minimă a
valorilor
2
Dispersia (Variance) sau varianța ( ). Se calculează cu formula:
1 n
2 x x 2
n i 1 i
n
Abaterea medie pătratică (Standard deviation), ( ). Se calculează cu: 1 x x 2 .
n i 1 i
Cu cât este mai mică abaterea standard (dispersia), cu atât valorile individuale xi sunt mai
apropiate, față de medie. O abatere standard mai mare poate să indice o tendință de concentrare a
valorilor xi la extremitățile șirului ordonat al datelor.
Când în cadrul unei analize se dorește să se compare acești parametri pentru două variabile
care au unități diferite de măsură, se folosește coeficientul de variație:
Coeficientul de variație (v). Se calculează ca raport între abaterea medie pătratică și nivelul
mediu al seriei. De obicei se exprimă sub formă de procente
Coeficientului de variație se poate calcula cu una dintre formule:
σ
v 100 ;
x
Prin modul de calcul, coeficientul de variație are avantajul de a fi o măsură adimensională
(fără unitate de măsură), deoarece unitatea de măsură a abaterii standard este aceeași cu cea a mediei.
În consecință, el este foarte util în compararea variației a două variabile măsurate pe aceeași
populație/eșantion.
Coeficientul de variație poate să ia valori începând cu zero. Cu cât are o valoare mai mică, cu
atât seria statistică este mai omogenă și deci media este mai reprezentativă. Se apreciază că în cazul
unui coeficient de peste 35 - 40% media nu mai este reprezentativă și datele trebuie regrupate.
Acest indicator este cel mai expresiv fiind folosit la aprecierea gradului de semnificație al
mediei pentru o serie de distribuție precum și a omogenității colectivității statistice din punctul de
vedere al caracteristicii cercetate.
27
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
28
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Curtozisul sau excesul se referă la forma distribuției uni-modale prin comparație cu distribuția
normală.
Dacă într-o distribuție variantele variabilei sunt concentrate în jurul nivelului său mediu mai
mult decât în cazul distribuției normale atunci distribuția este leptocurtică.
Dacă din contră, variantele sunt mai împrăștiate față de nivelul mediu decât în cazul distribuției
normale, atunci distribuția este platicurtică. Distribuția normală este numită mezocurtică.
Pentru aprecierea curtozisului se apelează la coeficienții de boltire (de aplatizare) propuși de
Pearson și Fisher:
Coeficientul de boltire al lui Pearson:
μ μ
β 4 4
2
σ 2
2 μ2 2
unde:
4
xi x fi 2
xi x f i
4 i 2 i 2
fi fi
i i
Coeficientul de boltire al lui Fisher:
μ4 μ 4 3σ 4
γ2 β2 3 3
σ4 σ4
Astfel,
- Dacă 2 3 , respectiv 2 0 , caz în care distribuția este leptocurtică, cu vârf ascuțit sau cu
coada lungă;
- Dacă 2 3 , respectiv 2 0 , caz în care distribuția este platicurtică, cu vârful plat sau cu
coada scurtă;
- Dacă 2 3 2 0 , caz în care distribuția este mezocurtică sau normală.
29
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Uneori, între nivelurile variantelor unor variabile numerice există discrepanțe foarte mari ca
urmare a unităților de măsură diferite. Standardizarea datelor reprezintă o modalitate de transformare
a variabilelor recomandată tocmai pentru a evita aceste discrepanțe, care îngreunează înțelegerea
semnificației diferiților indicatori pentru care se constituie în bază de calcul. Această operație vizează
variabilele cantitative.
Variantele tuturor variabilelor din tabelul de date se înlocuiesc cu valori noi numite scoruri
standard, sau scoruri z, calculate cu formula:
xi x
zi
i
unde 𝑥̅ este valoarea medie a variabilei şi 𝜎 - abaterea medie pătratică (abaterea standard):
n
x
i
x i 1 , 1 x x 2
n
n n i 1 i
Rezultatul unei astfel de transformări este o nouă variabilă Z care va avea întotdeauna media
egală cu 0 și abaterea standard egală cu 1, ca urmare a formulei de calcul cu care s-au obținut variantele
sale.
Scorurile z semnifică distanta la care se găsesc fiecare dintre variantele xi față de media seriei
de date, 𝑥̅ , distanță măsurată în abateri standard ale variabilei originale X. Această transformare a unei
variabile nu va modifica forma distribuției acesteia.
30
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
variabilelor cantitative continue (Scalare).
În ceea ce privește împrăștierea variantelor, aceasta poate fi apreciată doar în cazul
variabilelor ordinale, după ierarhizarea/ordonarea valorilor în raport cu un anumit criteriu, prin
indicatori de poziție, de exemplu:
- cuartile, care necesită împărțirea populației în patru părți egale;
- decile, care înseamnă împărțirea populației în 10 părți egale.
Valorile corespunzătoare cuartilelor și decilelor se determină pe baza acelorași principii după
care se află valoarea mediană.
Într-un tablou sintetic, comparativ, analiza exploratorie, preliminară, a variabilelor statistice
vizează interpretarea semnificației următorilor indicatori statistici:
Mod Da Da Da
Tendința
Mediana Da Da Nu
centrală
Media aritmetică Da Nu Nu
Amplitudine Da Nu Nu
Cuantilele Da Da Nu
Împrăștierea
Abatere standard Da Nu Nu
(variația)
Dispersie Da Nu Nu
Coeficientul de variație Da Nu Nu
Indicatorii Coeficienți de asimetrie Da Nu Nu
formei Da Nu Nu
distribuției Coeficienți de boltire
31
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Practica cercetării statistice dovedește faptul că, în cele mai multe situații, subiectul cercetării
este reprezentat de eșantioane aleatorii ale populației totale. Pentru a avea garanția că generalizarea
indicatorilor ce descriu eșantionul pentru populația totală din care respectivul eșantion a fost extras,
este semnificativă, trebuie avut în vedere ca datele din componența eșantionului să fie omogene,
continue și normal distribuite, deoarece determinarea celor mai mulți dintre indicatorii descriptivi se
bazează pe conceptul de normalitate a datelor din care aceștia sunt calculați.
Un poligon al frecvențelor de formă asemănătoare unui clopot indică faptul că datele sunt
normal distribuite. De asemenea, indicatorii statistici parametrici (calculați din valorile individuale
ale variabilelor) sunt relevanți doar dacă datele respective sunt omogene.
În situația încălcării grave a acestor cerințe, pentru descrierea variabilelor este mai sigură
utilizarea unor statistici non-parametrici, respectiv a unor teste de verificare a unor ipoteze. Deoarece
ceste teste au o capacitate redusă de a identifica diferențe semnificative, utilizarea acestora se face
doar dacă este necesar.
Singura procedură SPSS care oferă posibilitatea unei analize exhaustive a uneia sau mai multor
variabile cantitative este procedura Explore… cea mai complexă dintre cele trei. Primele două,
procedurile Frequencies… și Descriptives…, deși cu aplicabilitate diferită în funcție de tipul
variabilei și nivelul de măsurare, oferă doar posibilitatea determinării unor măsuri statistice, însă
pentru utilizarea lor este nevoie de să cunoaștem dacă eșantionul respectă condițiile generalizării
parametrilor săi.
Pentru exemplificarea modului de lucru și a semnificației rezultatelor, în continuare se vor
prezenta, fiecare dintre cele trei proceduri. Se va ține cont de aplicabilitatea acestora în funcție de tipul
variabilei categorială sau cantitativ continuă. Datele supuse prelucrărilor primare sunt conținute în
baza de date angajați.sav.
32
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
33
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
34
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Astfel, indicatorii calculați prezentați în tabelul de rezultat Statistics, descriu următoarele aspecte:
Baza de date conține 474 cazuri valide, nicio valoare lipsă pentru
variabila sal – salariul actual.
Media (Mean) – indică faptul că salariul mediu actual al celor
474 angajați este de 13,77 mii lei
Mediana (Median) – 11,55 mii lei, indică valoarea centrală a
salariului în șirul ordonat al salariilor angajaților.
Modul (Mode) – 12 mii lei, indică salariul pe care-l au cei mai
mulți dintre angajați.
Eroarea standard a mediei (Std. error of mean) numită și
abaterea standard a distribuției de eșantionare a mediei, se calculează
în cazul eșantioanelor aleatorii prin împărțirea abaterii standard (Std.
Deviation) la rădăcina pătrată a numărului de cazuri. Eroarea standard
permite calcularea marjei de eroare a estimării mediei din colectivitate
după formula: Δ=1,96SE (la pragul de încredere de 95%). S-a optat
pentru calcul ei având în vedere valorile variabilei id – marca
angajaților, cele 474 de cazuri putând fi considerat un eșantion.
Abaterea standard (Std. Deviation) – este 6,83, însă nu are semnificație statistică în lipsa unei
valori cu care să se compare, în sensul că nu se poate aprecia împrăștierea medie a variantelor de la
media lor este mare sau mică. Dacă totuși utilizatorul dorește cuantificarea gradului de
omogenitate/variație poate determina coeficientul de variație pe baza abaterii standard și a mediei, al
cărui nivel poate fi interpretat.
Dispersia (Variance) – 46,653 are aceeași utilitate cu abaterea standard. Dispersia este pătratul
abaterii standard și practic nu se impune calculul ambilor indicatori, unul dintre aceștia fiind suficient.
Coeficientul de asimetrie (Skewness) - este o măsură a asimetriei distribuției. Când indicele
are valori pozitive, în cazul de față +2,125, indică o asimetrie la stânga sau pozitivă (este înclinată la
dreapta). Valori mai mici ca 0 (negative) indică asimetrie la dreapta. Valoarea 0 semnifică o distribuție
simetrică.
Boltirea (Kurtosis) este o măsură a înălțimii distribuției. Valori mai mari ca 3 indică o
distribuție leptocurtică sau alungită, ca în cazul prezentat, 5,378, valori egale cu 0 indică o distribuție
mezocurtică sau normală, iar valori mai mici ca 0 – distribuție platicurtică sau turtită.
Acești ultimi doi indicatori, măsuri ai formei distribuției, servesc la a stabili gradul în care
35
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
distribuția analizată se abate de la normalitate. Pentru aceasta, valorile calculate pentru Skewness,
respectiv pentru Kurtosis se împart la erorile standard corespunzătoare afișate în tabelul de output
Statistics imediat sub acestea. Dacă rezultatul este mai mare ca 2, distribuția se abate semnificativ de
la ipoteza de normalitate.
În cazul prezentat se obțin valori mult mai mari ca 2, în ambele situații, ca urmare, se respinge
ipoteza de normalitate. De altfel Histograma distribuției prin comparare cu curbă normală de mai jos
indică faptul că distribuția salariului actual al celor 474 de angajați nu este normală.
Amplitudinea (Range) – 48 mii lei semnifică diferența dintre salariul minim (Minimum)- 6
mii lei și salariul maxim (Maximum) – 54 mii lei.
Cuantilele (Percentilele) 25, 50 şi 75 sunt de fapt cele 3 cuartile.
Cel de-al doilea rezultat de output vizează tabelul de frecvențe, care având dimensiuni foarte
mari se prezintă secvențial în imaginea de mai jos.
Se constată calculul tuturor indicatorilor de
frecvență: absoluți, relativi exprimați în procente
(ponderi) și ponderi cumulate.
În exemplul considerat, la declararea
variabilei s-aceasta s-a definit numerică cu 0
zecimale, însă datele de intrare prezintă fracție
zecimală.
Se poate observa că în tabel, aceeași variantă
este specificată de mai multe ori. În realitate valorile
numerice sunt rotunjite la cel mai apropiat întreg la
afișare.
Rezultatul arată că deși cel mai mare salariu este de 54 mii lei, jumătate dintre angajați, 50%,
au salarii de cel mult 12 mii lei.
Histograma din imaginea de mai jos întărește semnificația indicatorilor din tabelul Statistics
privind forma distribuției. Aceasta este leptocurtică (nu este normală), și este asimetrică la stânga
(adică alungită la dreapta).
36
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Prin acționarea butonului Charts se poate opta pentru unul din graficele specifice variabilelor
nominale, respectiv Bar charts sau Pie charts indicându-se valorile pe baza cărora se va construi,
frecvențe absolute, sau frecvențe relative (procente); Dacă se analizează mai multe variabile simultan,
opțiunile selectate sunt valabile pentru toate acestea.
Butonul Format afișează caseta de dialog prin intermediul căreia se indică ordinea de afișare.
37
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Revenirea în caseta principală de dialog se face apăsând butonul Continue, iar finalizarea
comenzii, apăsând butonul OK din caseta principală Frequencies. Rezultatul este afișat în fereastra
de Output.
Astfel, singurul indicator calculat prezentat în
tabelul de rezultat Statistics, este Modul. Pentru
variabila nominală Sex (cu eticheta Genul) este
specificată valoarea 0 – care cuantifica varianta
”bărbat” cu semnificația – cei mai mulți angajați
sunt bărbați, pentru variabila Funcția (cu
eticheta Postul) e indicată valoarea 1 care
semnifică faptul că cei mai mulți dintre angajați sunt ”îngrijitor”, iar pentru variabila Dizabilități,
valoarea 0 – Fără dizabilități. Rezultatele privind indicatorii de frecvență: frecvente absolute, ponderi
și ponderi cumulate, sunt afișate în tabele separate purtând numele variabilelor pentru care s-au
calculat.
38
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Pentru reprezentarea grafică s-a optat pentru înscrierea ponderilor pe sectoarele de cerc
corespunzătoare fiecărei variante a caracteristicii.
39
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
40
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Deoarece s-a solicitat calculul scorurilor s-au creat două noi variabile în baza de date,
denumite de sistem Zsalinit și Zsal având ca variante, scorurile variabilelor pe vaza cărora s-au
determinat.
Indicatorii statistici descriptivi sunt afișați în fereastra de output sub forma unui tabel ce poartă
41
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Statisticile calculate pentru descrierea variabilei salinit indică faptul că baza de calcul conține
474 cazuri (angajați), toate valide, amplitudinea salariului la angajare fiind de 28 mii lei, în timp ce
pentru salariul actual este mult mai mare, 48 de mii lei. Salariul la încadrare cel mai mic este de 4 mii
lei, iar cel mai mare 32 mii lei, în timp ce cel mai mic salariu actual este de 6 mii lei, iar cel mai mare
de 54 mii lei.
Media salariului de încadrare este 6,81 mii lei, iar a salariului actual de 13,77 mii lei.
Nivelurile abaterilor standard și ale dispersiilor indică o împrăștiere (variație) mult mai mare la nivelul
salariilor actuale față de salariile la angajare.
Ambele distribuții prezintă asimetrie pozitivă, la stânga (+2, 853, respectiv +2,125 – valori
pozitive) și sunt leptocurtică (12,390, respectiv 5,379 - valori mai mari ca 0). În plus, Testul de
normalitate aplicat ambilor indicatori ai formei de distribuție, ambelor variabile indică valori mult mai
mari de 2, așa că este respinsă ipoteza că distribuțiile acestora ar fi normale.
Procedura produce statistici și grafice univariate detaliate pentru variabile numerice (scale)
pentru un întreg eșantion sau pentru subseturi ale unui eșantion. Prin urmare, poate fi, de asemenea,
utilizat pentru a evalua normalitatea unei variabile cantitative continue (scale) pe baza unor statistici
inferențiale speciale. Se pretează, de asemenea, foarte bine și pentru descrierea legăturilor
unifactoriale între variabile.
La lansare în execuție, se afișează caseta de dialog Explore.
Zona Dependent List din caseta de dialog Explore este zona în care, din lista variabilelor din
42
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
baza de date, din stânga casetei, se transferă variabila (variabilele) ce face obiectul analizei;
Zona Factor List este zona în care se transferă eventualele variabile considerate factori de
influență pentru variabila considerată și în funcție de care se dorește analiza variabilei dependente –
completarea acestei zone este opțională, funcție de scopul urmărit. Variabilele transferate trebuie să
fie categoriale (pe variante) Analizele obținute for fi afișate pe total și pe fiecare categorie în parte;
Label cases by, permite etichetarea cazurilor la afișare, asociind un „nume” pentru fiecare caz.
Aceste etichete apar în rapoartele de rezultat. Dacă nu este specificat, SPSS va utilizeze numărul
rândului pentru a eticheta fiecare caz.
Display, oferă posibilitatea de alegere a opțiunilor de afișare a rezultatelor descriptive
numerice (Statistics), a reprezentărilor grafice (Plots) sau ambele modalități, statistici și grafice
(Both), variantă implicită;
Acționarea butonului Statistics deschide o casetă de dialog cu același nume pentru alegerea
unor indicatori (implicit procedura calculează toți indicatorii statistici descriptivi de bază), respectiv
Descriptives (enabled by default), M-estimators, Outliers, și Percentiles cu următoarea
semnificație:
- Descriptives returnează un set de statistici descriptive (implicit cu 95% nivel de încredere),
media, mediana, dispersia, abaterea standard, varianta minimă, varianta maximă,
amplitudinea, intervalele intercuartile, coeficientul de asimetria, kurtozisul și erori standard
pentru media, coeficientul de asimetrie și kurtozis. Acestea se vor calcula în bloc, neexistând
posibilitatea selectării lor. De aici și obligativitatea ca variabila de analiză să fie numerică
continuă, cu nivel de măsurare ”scale”.
- M-estimators returnează estimatori ai mediei și medianei.
- Outliers afișează primele cinci variante cele mai mari și cinci cele mai mici, cu valorile cu
care sunt asociate. Dacă s-a optat inițial pentru o variabilă de etichetare a cazurilor, acea
variabilă va fi afișată în raport în locul numărului cazurilor (numărul liniei) din baza de date.
- Percentiles returnează indicatorii de poziție pentru primele 5%, 10%, 25%, 50%, 75%, 90%
și 95% din variantele ordonate ale variabilei analizate.
Acționarea butonului Plots, permite alegerea din caseta de dialog afișată a reprezentărilor
grafice ce se vor construi. Se oferă posibilitatea de testare a normalității, astfel se poate opta pentru
grafic boxplots, grafic stem-and-leaf, histogramă și grafic de apreciere a normalității: normality plots.
În mod implicit, procedura Explore produce boxplots and stem-and-leaf plots pentru fiecare variabilă
numerică continuă.
Opțiunile din zona Boxplots sunt relevante numai dacă se analizează mai multe variabile
continue sau dacă este specificată o variabilă factor.
Acționarea butonului Options, permite specificarea modului de tratare a valorilor lipsă.
- Exclude cases Listwise: sistemul va exclude din analiză cazurile cu valori lipsă pentru
oricare dintre variabilele selectate. Dacă este selectată această opțiune, numărul de cazuri
valide pentru fiecare variabilă va fi același.
- Exclude cases Pairwise: sistemul calculează media fiecărei variabile folosind toate cazurile
cu variante nonlipsă. Dacă este selectată această opțiune, numărul de cazuri valide pentru
fiecare variabilă poate fi diferit.
Report values: afectează doar analizele de impact care includ o variabilă factor. Dacă este
selectată această opțiune, cazurile cu valori lipsă pentru variabila de factor vor fi tratate ca o
categorie distinctă.
43
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Rezultatele analizei Explore sunt afișate în fereastra Output. Primul tabel, Case Processing
Summary, rezumatul procesării cazurilor, arată câte variante valide au existat.
S-a selectat gestionarea datelor care lipsesc în mod Exclude cases Pairwise, analiza utilizând
toate informațiile complete pentru fiecare dintre variabile. Se constată că nu lipsesc valori pentru
niciuna dintre variabilele considerate.
Cel de-al doilea tabel rezultat, Descriptives, conține statistici descriptive detaliate univariate
pentru fiecare dintre variabilele continue selectate, incluzând indicatori ai formei distribuției,
44
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
asimetria și kurtozisul.
Distribuția normală are skewness = 0 și
kurtosis = 0, așa încât este ușor de stabilit și
interpretat asimetria și boltirea eșantionului
variabilelor considerate în raport cu aceasta. Pentru
experiența în muncă, coeficientul de asimetrie este de
1.51 (pozitivă sau ușor asimetrică), iar kurtozisul este
0.224 (ușor alungită, leptocurtică, față de odistribuție
normală, dar nu cu mult). În ceea ce privește vârsta,
asimetria este de aproximativ 0,864 (aproape 1)
(pozitivă, puternic asimetrică la stânga), iar kurtozisul
este de - 0,562 (este mai turtită față de o distribuție
normală - platicurtică).
Totuși, aceste mărimi nu sunt indicatori foarte
buni ai abaterilor de la normalitate, dar pot
suplimenta graficele și testele de normalitate fiind
suficient de semnificativi. Având afișate și erorile
standard pentru indicatorii de asimetrie și kurtozis, se
pot raporta nivelurile indicatorilor la erorile lor
standard și obținându-se în toate situațiile valori
superioare lui 2 – adică niciuna din variabile nu este
normală.
Aprecierile asupra normalității celor două distribuții se confirmă de testele de normalitate, care
în ambele situații sunt foarte semnificative, Sig.= .000, ceea ce semnifică că ambele distribuții sunt
nenormale.
45
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Procedura Explore este utilă însă mai ales pentru că oferă posibilitatea evaluării normalității
distribuției și omogenității datelor.
Pentru exemplificare se transferă variabila sal – Salariul actual, variabilă cantitativ continuă
în zona Dependent List și variabila sex – Genul în zona Factor List în caseta de dialog Explore… În
caseta de subdialog afișată la acționarea butonului Plots…, se selectează Histogram, Normality plots
with tests și Untransformed, ca în imaginile de mai jos.
46
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
În situația prezentată, SPSS raportează valori foarte semnificative ale testelor de normalitate
„.000” pentru ambele categorii. Chiar dacă, având în vedere dimensiunea eșantionului, testul Shapiro
- Wilks este cel potrivit, se poate constata că ambele teste indică faptul că pentru ambele categorii de
rezultate, atât pentru bărbați, cât și pentru femei, salariile actuale nu sunt distribuite în mod normal.
Aceasta indică faptul că mai potrivit ar fi să se recurgă la teste ne-parametrice pentru verificarea
ipotezelor cercetării.
Pe lângă testele de normalitate, s-a optat și pentru testarea omogenității în acest eșantion.
Acest test este indicat doar dacă există grupuri de comparat. În cazul nostru grupul femeilor
se compară cu cel al bărbaților. Prin urmare ca factor trebuie aleasă o variabilă categorială. În cazul
prezentat variabila Sex – Genul.
47
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Există mai multe teste pentru omogenitatea variației; însă IBM SPSS Statistics folosește testul
Levene. Există mai multe statistici raportate a căror semnificație poate fi interpretată. Testul Levene
este extrem de semnificativ considerat (valoarea de sub "Sig." este mai mică de 0,05), pentru toate în
cazul. Aceasta înseamnă că variația salariului actual la nivelul celor două grupe este semnificativ
diferită, ceea ce reprezintă un avertisment de luat în calcul, acesta indicând utilizarea unui test
neparametric mai degrabă decât unul parametric.
48
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
CAPITOLUL 3
În general, cercetarea statistică are drept scop, mai ales analiza relațiilor ce se pot stabili între
fenomenele a căror analiză univariată a scos în evidență diferite aspecte cu referire la tendința centrală,
împrăștiere, sau formă de distribuție. Analiza bivariată este deci etapa firească ce urmează unei analize
univariate, etapă în care variabilele incluse în studiu sunt analizate simultan, putând fi privită și ca un
caz particular al analizei multivariate (doar două variabile), analiză care vizează relațiile multiple ce
se stabilesc între mai multe variabile ce se examinează simultan.
Mai precis, analiza bivariate explorează modul în care o variabilă (numită dependentă)
depinde sau este explicată de variabila independentă („explicativă”) (analiza bivariată asimetrică) sau
explorează asocierea între două variabile fără a lua în calcul o relație de cauză - efect (analiza bivariată
simetrică).
Unul dintre obiectivele principale ale cercetării statistice este studierea asocierii dintre
variabile. Între două variabile există o asociere dacă una dintre variabile tinde să ia valori anumite
valori atunci când cealaltă își modifică valorile.
De obicei, când este analizată o asociere între două variabile, una dintre variabile este
considerată variabilă de rezultat și valorile acesteia sunt comparate pe baza diferitelor valori ale
celeilalte variabile, care este numită variabilă explicativă.
Două variabile sunt asociate dacă, în distribuția comună a variabilelor, anumite grupuri de
valori au probabilități mai mari de realizare simultană decât alte grupuri de valori. Variabilele asociate
variază una în funcție de cealaltă, adică, valorilor de un anumit tip ale primei variabile le corespund
mai ales valori de un anumit tip ale celeilalte variabile.
Analiza legăturii a două variabile este utilă mai ales în studii de prognoză ținând cont că dacă
o valoare a primei variabile se schimbă, atunci și probabilitatea de a avea asociată o anumită valoare
a celei de-a doua variabilă, se schimba.
Analiza bivariată se poate realiza, doar intuitiv pe baza tabelelor de contingență, care permit
formarea unei idei cu privire la existenta unor diferențe între grupele populației, dar și pe baza unor
teste statistice, care permit luarea unor decizii privind semnificația respectivelor diferențe la nivelul
populației totale (Constantin, 2006, p.135).
În plus, cunoscând cum se asociază valorile celor două variabile se pot explica și o serie de
aspecte ce pot descrie relația dintre acestea:
dacă există într-adevăr o legătură între valorile variabilelor și cât de semnificativă este
aceasta;
cât de puternică este legătura dintre variabile adică cât de bine pot fi prezise valorile unei
variabile în funcție de valorile celeilalte;
dacă este posibilă generalizarea rezultatelor;
49
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
dacă legătura dintre cele două variabile este sau nu de tip cauzal, deoarece,
simultaneitatea variației lor poate fi rezultatul asocierii comune cu o a treia variabilă.
În general, răspunsurile la întrebări ce vizează astfel de aspecte, necesită măsurarea și testarea
gradului de asociere dintre variabile cu metode statistice specifice, adecvate pe de o parte nivelului de
măsurare a acestora (nominal, ordinal, interval/raport), iar pe de altă parte naturii eșantioanelor din
care provin observațiile și numărului acestora.
Practic analiza bivariată a datelor urmărește măsurarea gradului de asociere a două variabile
din perspectiva: direcției, intensității și semnificației statistice a acesteia. Orice analiză bivariată se
desfășoară parcurgând următoarele etape:
1. Formularea ipotezelor de lucru;
2. Construirea tabelului de frecvențe (de contingență);
3. Efectuarea testului de semnificație statistică a asocierii:
4. Calcularea măsurilor de asociere adecvate datelor;
5. Formularea concluziilor .
Există numeroase măsuri statistice cu ajutorul cărora se poate evalua existența și semnificația
unei relații de asociere între două variabile statistice, iar dacă există, de stabilire a direcției și/sau
măsurare a intensității acesteia.
p
G(x2) f21 ... f2j ... f2p f
j 1
2j
50
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
... ... ... ... ... ... ...
p
G(xi) fi1 ... fij ... fip f
j 1
ij
k k k k p p k
Total categoria j fi1
i 1
… i 1
f ij …
i 1
f ip
i 1 j 1
f ij f ij N
j 1 i 1
Tabelul conține enumerarea tuturor categoriilor (grupurilor sau variantelor) unei variabile pe rânduri
și tuturor categoriilor (grupuri sau variantelor) celeilalte variabile sub formă de coloane, iar
frecvențele sunt înscrise în celule. Frecvențele din celulele tabelului, fij , indică numărul de cazuri
(unități statistice) plasate în categoria i a variabilei X, cât în categoria j a variabilei Y.
Frecvențele celulelor sunt totalizate atât pe rânduri cât și pe coloane. Aceste totaluri se numesc
frecvențe marginale.
Suma tuturor frecvențelor absolute fij este egală cu mărimea colectivității:
k p
f
i 1 j 1
ij N
Dacă se notează:
f i. - totalul frecvențelor absolute fij însumate după j;
f. j - totalul frecvențelor absolute fij însumate după i;
f .. - totalul frecvențelor absolute fij însumate și după i și după j;
k p
f i. f ij , f . j f ij
i 1 j 1
În celule tabelului se pot înscrie și frecvențele relative exprimate în procente. Totalul fiecărei
coloane va fi 100%, după cum totalul fiecărui rând reprezintă 100%.
La interpretarea tabelului de contingență este important, dacă una sau ambele variabile sunt
nominale sau ordinale.
Se asemenea, este important dacă variabilele categorice sunt dihotomice (2 categorii),
multinomiale (mai mult de 2 categorii nominale), sau ordinale (există o ierarhizare a categoriilor).
Această distincție determină modul în care sunt interpretate rezultatele (procentele %) și mai
ales ce măsură a asocierii/corelației este potrivit a se folosi.
Atunci când se apelează la un tabel de contingență este bine ca în prealabil să fie exprimată
ipoteza de cercetare, deoarece pe baza acesteia se definesc cele două variabile și eventual relația
dintre ele, variabila dependentă și cea independentă (cea care explică variabila dependentă).
Modul în care se distribuie frecvențele absolute (sau după caz cele relative exprimate în
procente) în tabel, dar și compararea nivelurilor acestora cu frecvențele marginale pot indica asocierea
variabilelor.
51
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
2
r
c O
ij Eij
2
calc
i 1 j 1 Eij
unde: Oij = frecvența observată în celula ij
Eij = frecvența așteptată în celula ij
Pasul 6: Stabilirea regulii de decizie privind ipoteza nulă.
Aceasta presupune mai întâi compararea valorii critice a statisticii 2calc. cu valoarea teoretică 2; df
din tabelul repartiției 2 având în vedere nivelul de semnificație ales și numărul gradelor de libertate
calculat cu relația: (r-1)(c-1), unde r este numărul de rânduri și c este numărul de coloane al tabelului
de contingență.
Regula de decizie este:
- Dacă 2calc. 2; df , rezultatul testului este nesemnificativ din punct de vedere statistic și
atunci nu se respinge ipoteza nulă H0. Concluzia este că, diferențele între categorii se datorează
întâmplării, deci nu există asociere între cele două variabile
- Dacă 2calc. 2; df , rezultatul testului este semnificativ din punct de vedere statistic și atunci
se respinge ipoteza H0 adică se acceptă ipoteza alternativă H1 . Concluzia este că: valorile observate
nu se datorează întâmplării, adică există asociere între cele două variabile;
De reținut că: În cazul în care nu se respinge ipoteza nulă nu înseamnă că între cele două
52
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
variabile nu există asociere. Trebuie interpretat că asocierea nu a putut fi pusă în evidentă de datele
existente, sau că asocierea nu este statistic semnificativă. Prin respingerea ipotezei nule se afirmă doar
existenta asocierii dintre variabile, nu și măsurarea gradului de asociere.
Testul Chi Square este cel mai utilizat test neparametric de independență pentru evaluarea
existenței asocierilor atât între variabile nominale cât și ordinale cu două sau mai multe modalități de
realizare. Există totuși câteva limitări de utilizare semnalate de literatura de specialitate:
Limite de aplicabilitate:
eșantionul trebuie să fie suficient de mare;
variabila ale cărei categorii sunt înscrise pe coloane (dependenta) trebuie să fie nominală;
variabila de pe linii (independenta)
frecvențele așteptate (probabile) trebuie să fie cel puțin egale cu 1 în orice celulă a tabelului
de contingență;
cel mult de 20% din celule trebuie să conțină valori mai mici de 5 ale frecventelor așteptate.
pentru tabelele de contingenta de tip 2 x 2 este necesar ca numărul total de cazuri (N) să fie cel
puțin 20;
Limite de semnificație:
oferă doar informații despre existența relației de asociere;
nu oferă nicio indicație referitoare la intensitatea asocierii celor două variabile și nici a direcției
acesteia (atunci când variabilele sunt ordinale)
Grupul 1. - Nominal
53
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Din această categorie fac parte patru dintre cei mai uzuali coeficienți de măsură a asocierii
dintre două variabile măsurate la nivel nominal: coeficientul de contingență C, coeficienții φ și V ai
lui Cramer, coeficientul Lambda (λ Goodman-Kruskal) și coeficientul de incertitudine (coeficientul
de entropie).
Dintre aceștia, coeficientul de contingență C și coeficienții φ și V ai lui Cramer se bazează pe
testul 2, fiind utilizați pentru a completa limitările de aplicabilitate și semnificație ale acestuia.
Ceilalți doi, Lambda și coeficientul de incertitudine se bazează pe reducerea erorilor fiind
numiți și măsuri direcționale ale asocierilor nominale. Ele cuantifică reducerea ”erorii” de prezicere a
unei categorii a variabilei dependente, când se cunoaște categoria asociată a variabilei independente
și invers. Diferența dintre acești coeficienți este că folosesc definiții diferite pentru „eroare”.
Coeficientul φ
Aplicabilitate:
se utilizează pentru a măsura intensitatea asocierii dintre două variabile nominale dicotomice,
fiecare dintre acestea având doar două categorii;
poate fi aplicat și pentru analiza asocierii unei variabile nominale cu o variabilă ordinală, în
aceleași condiții.
2
Se determină cu relația: 𝜑 = √ 𝑛 , depinzând de nivelul lui 2 și de dimensiunea eșantionului
pentru care se calculează.
Interpretarea și semnificație:
ia valori pozitive fără limită teoretică superioară ceea ce îngreunează interpretarea intensității
asocierii pe măsură ce nivelul său crește.
valori apropiate de zero indică asociere slabă până la lipsa asocierii când ia valoarea 0.
Coeficientul Cramer - V
Aplicabilitate:
este utilizat pentru a măsura intensitatea asocierii dintre o variabilă nominală cu o altă variabilă
nominală, sau ordinală;
ambele variabile pot avea mai mult de 2 categorii.
2
Se calculează cu relația: V , unde t = min [(r-1), (c-1)], depinzând de nivelul lui 2
nt
și de dimensiunea eșantionului pentru care se calculează.
Interpretare:
este o standardizare a lui φ, astfel încât poate lua valori situate în intervalul [0 și 1], având
următoarea semnificație:
0 - nu există relație de asociere.
(0,00 – 0,15) - relație foarte slabă, de regulă, nu este acceptată existența asocierii;
[0,15 – 0,20) - asociere slabă;
[0,20 – 0,25) - asociere moderată;
54
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
[0,25 – 0,30) - asociere destul de puternică;
[0,30 – 0,35) - asociere puternică;
[0,35 – 0,40) - asociere foarte puternică;
[0,40 – 0,50) - asociere extrem de puternică, sau ambele variabile măsoară aceeași
caracteristică/însușire;
[0,50 – 0,99) - ambele variabile se referă la aceeași caracteristică/însușire;
1,00 - asociere perfectă. Categoriile variabilei independentă ”explică”
perfect categoriile asociate ale variabilei dependentă.
Interpretare:
k 1
ia valori în intervalul 0, , unde k = min (I, J) cu I și J fiind numărul de linii și
k
de coloane al tabelului de contingență. Pentru interpretarea intensității legăturii se
poate împărți intervalul de variație în 5 subintervale egale cu semnificația: asociere
foarte slabă, asociere slabă, asociere moderată, asociere puternică, asociere foarte
puternică.
valoarea 0 – lipsa asocierii, valoarea 1 - nu se poate atinge chiar dacă între variabile
există asociere perfectă. De exemplu, la dimensiunea 5×5 maximul lui C este numai
0,80 când asocierea este perfectă.
Limite:
Coeficienții de contingență nu pot fi comparați decât dacă provin din tabele de
contingență de aceeași dimensiune.
Nu există un test de semnificație al coeficientului de contingență
55
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
versiune a coeficientului Lambda a lui Goodman și Kruskal (λ), definește ”eroarea” în același mod,
respectiv o atribuire incorectă a unui caz, însă cazurile sunt clasificate corespunzător categoriei
modale (cea mai frecventă).
Calculul acestui coeficient se bazează pe reducerea acestor ”erori” prin cunoașterea unei
variabile, considerată anterioară sau independentă ce permite predicția celeilalte, devenită posterioară
sau dependentă. Formulă utilizată pentru calculul măsurii asocierii este:
e e
1 2
e1 , unde:
e1 - eroarea comisă în predicția variabilei fără a lua în calcul variabila factorială, independentă;
e2 - suma erorilor comise pentru predicția validabilei dependente calculate pentru fiecare
grupă determinată de variabila independentă.
Interpretare:
coeficient ia valori cuprinse între 0 și 1,
0 - indică faptul că variabila independentă (anterioară) nu are vreun rol în ”predicția”
variabilei dependente (posterioare),
1 - indică faptul că variabila independentă (anterioară) determină perfect modalitățile
variabilei dependente (posterioare).
Cu toate acestea, coeficientul Lambda are anumite limitări în aplicabilitate în sensul că poate
lua valoarea 0 chiar dacă variabilele nu sunt independente, în special atunci când una dintre categoriile
unei variabile conține un număr foarte mare de cazuri in raport cu celelalte categorii.
Coeficientul de incertitudine U
Este de asemenea un coeficient al asocierii nominale bazat pe reducerea erorilor. Definește
”eroarea” ca fiind o entropie (măsură a conținutului informațional).
Din acest motiv se mai numește și coeficient de entropie, fiind o măsură a entropiei/
incertitudinii de realizare a unei variabile dependente (înscrisă în tabelul de contingență pe coloane),
explicată de o variabilă independentă (înscrisă în tabel pe rânduri).
Coeficientul de incertitudine este ”reducerea procentuală a incertitudinii în predicția variabilei
dependente pe baza cunoașterii variabilei independente”.
Interpretare:
Coeficientul ia valori cuprinse între 0 și 1;
0 – indică faptul că variabila independentă nu este de niciun ajutor în predicție – lipsă de
asociere (variabile independente);
1 – indică faptul că cunoașterea variabilei independente reduce total eroarea prezicerea
variantelor variabilei dependente – asociere perfectă.
orice altă valoare a coeficientului trebuie interpretată în termenii reducerii incertitudinii
de predicție, de exemplu: o valoare a coeficientului 0,75 indică faptul că cunoașterea
variabilei independente reduce eroarea la predicția variantelor variabilei dependente cu
75%.
56
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Grupul 2. - Ordinal
Pentru variabilele ordinale, IBM SPSS Statistic dispune de următoarele măsuri statistice ale
asocierii: coeficientul Gamma, coeficientul Somer’s și coeficienții Tau-b sau Tau-c al lui Kendall,
grupați în categoria de teste Ordinal.
În cazul variabilelor ordinale, spre deosebire de cele nominale, se poate pune, pe lângă
problema existenței, a semnificației și a intensității legăturii și problema direcției. Asocierile pot fi
pozitive sau negative, după cum semnul coeficientului utilizat este pozitiv sau negativ.
Dacă valorile mari ale unei variabile ordinale se asociază cu valori mari ale celeilalte variabile,
după cum valorile mici ale primei variabile sunt asociate cu valori mici ale celei de-a doua, legătura
este directă. Dacă valorile mari ale unei variabile ordinale se asociază cu valori mici ale celeilalte
variabile, după cum valorile mici ale primei variabile sunt asociate cu valori mari ale celei de-a doua,
legătura este inversă.
Relația pe baza căreia se calculează coeficientul de corelare a rangurilor a lui Kendall este:
2Q
( X ,Y )
nn 1
57
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Disponibile în IBM SPSS Statistics sunt variantele cunoscute cu numele Tau-b și Tau-c. Există
și o a treia variantă Tau-a nedisponibilă în pachetul software fiind mai restrictivă în aplicare.
Aplicabilitate:
- Tau-b și Tau-a sunt utilizate de obicei când ambele variabile sunt ordinale și au același
număr de categorii. (tabele de contingență pătrate). Diferența între acestea este că Tau-
b se aplică și în cazul în care există ranguri repetate;
- Tau-c este utilizat pentru două variabile ordinale cu număr diferit de categorii (tabele
de contingență dreptunghiulare). Tau-c poate fi utilizat și pentru tabele pătrate,
valoarea sa fiind aceeași cu cea a lui Tau-b.
Interpretare:
Coeficientul ia valori între –1 și +1 cu semnificația prezentată mai sus;
Pentru o mai bună interpretare, plasarea coeficientului în subintervale ale intervalului de valori
[-1,+1] poate fi interpretată astfel:
- valoarea 0 indică lipsa unei asocieri între cele două variabile (sunt independente);
- în intervalele: [-0,15, 0) sau (0, 0,15] indică o relație foarte slabă, care de regulă, nu este
acceptată ca o existență a asocierii;
- în intervalele: [-0,25, -0,15) sau (0,15, 0,25] indică o asociere slabă;
- în intervalele: [-0,50, -0,25) sau (0,25, 0,50] - asociere moderată, destul de puternică;0
- în intervalele: [-0,75, -0,50) sau (0,50, 0,75] - asociere puternică;
- în intervalele: [-0,95, -0,75) sau (0,75, 0,95] - asociere foarte puternică;
- în intervalele: (-1, -0,95) sau (0,95, 1) - asociere extrem de puternică;
- valorile -1 sau 1 - asociere perfectă.
- valorile pozitive indică o asociere directă, în timp ce valorile negative indică o asociere
inversă;
58
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
deci:
u w; u w
i i
Interpretare:
Coeficientul ia valori între –1 și +1 cu semnificația prezentată la coeficientul Tau al lui
Kendall.
Interpretare:
- Coeficientul poate lua valori de la -1 la +1;
- Valoarea -1 indică faptul toate perechile sunt toate discordante,
- Valoarea +1 indică faptul că toate perechile sunt concordante.
59
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
- Valorile care tind spre -1 sau spre +1 indică faptul că valorile variabilei dependente
sunt bine prezise de cunoașterea variabilei independente;
- Valori care tind spre zero în ambele direcții indică faptul că valorile variabilei
dependente sunt slab prezise de cunoașterea variabilei independente;
De exemplu pentru un Delta de .351 – variabila independentă îmbunătățește valoarea
variabilei dependente cu 35,1%
Limite de interpretare:
- Valoare coeficientului crește pe măsură ce dimensiunea tabelului de contingență crește,
însă în același timp tinde să subestimeze gradul real al asocierii.
60
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
- 0<ry/x <0,2 : între cele două variabile nu există corelație sau este foarte slabă;
- 0,2 ry/x <0,5: corelație slabă;
- 0,5 ry/x <0,75: corelație de intensitate medie;
- 0,75 ry/x <0,95: corelație puternică;
- 0,95< ry/x 1: corelație extreme de puternică.
61
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Coeficientul de determinație - R2
Coeficientul de determinație se bazează pe descompunerea dispersiei totale a variabilei
dependente în dispersia valorilor empirice față de valorile teoretice calculate prin funcția de regresie
Yx și dispersia valorilor teoretice de la media valorilor empirice.
2
y y2
i
- dispersia totală: σ
y n
- dispersia sistemică, care măsoară variația explicată a variabilei Y prin influența variabilei
independente X;
2 Y y2
xi
σ
y/x n
62
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
σ 2y / x
R 2y / x
σ 2y
y i Yxi
s i
n2
este estimatorul abaterii medii pătratice și semnifică abaterea medie pătratică a valorilor înregistrate
ale caracteristicii Y față de linia de regresie Yx , iar n este numărul perechilor înregistrate xi , yi .
Valoarea tcalc se compară cu valoarea teoretică corespunzătoare unui prag de semnificație q și
un număr de grade de libertate egal cu n-2, t q ,n 2 . Dacă:
t calc t q ,n 2 se consideră ipoteza a 0 este adevărată, deci ecuația de regresie nu este bine
aleasă.
t calc t q ,n 2 se consideră că a diferă semnificativ de 0, deci ecuația de regresie e bine aleasă.
63
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
xi x
b
t calc
2
s i
Intervalul de încredere pentru coeficientul de regresie teoretic β este:
s s
β b t q ,n 2 ; b t q ,n 2
xi x x x
2 2
i
În funcție de valorile variabilei dependente Y se calculează limitele de încredere pentru linia
de regresie teoretică Yx, astfel:
1 xi x 2 1 xi x 2
Yxi yi t q ,n 2 s ; y t s
n xi x 2 n xi x 2
i q ,n 2
y y yi Yxi Yxi y
2 2 2
i
i 1 i 1 i 1
y
i 1
i Yxi Yxi y 0
cu:
n
Fiecărei sume de pătrate i se asociază un număr de grade de libertate egal cu numărul valorilor
yi necesar calculului sumei respective.
64
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Calculul variației totale se bazează pe n-1 grade de libertate deoarece doar n-1 dintre valorile
yi y sunt independente, suma lor fiind nulă conform definiției mediei.
Pentru calculul variației datorate regresiei este necesar un singur grad de libertate, deoarece
poate fi dedusă din expresia coeficientului de regresie b, care este funcție unică de yi.
Pornind de la expresia funcției de regresie simplă liniară:
Yxi a bxi
și ținând cont că a y bx , deducem succesiv: Yxi y bx bxi și deci:
Yxi y bxi x
Ridicând la pătrat și însumând se obține tocmai variația factorială explicată de regresie:
n n
Yxi y b 2 xi x
2 2
i 1 i 1
Y y s F2
n 2
Yxi y Fc
2 xi
Regresie 1 i 1
Fq ,1,n 2
i 1 s F2 sT2
1
n
y Yxi
n 2
yi Yxi
2
Reziduală n-2 i
i 1 s R2 i 1
n2
n
y y
2
Totală i n-1
i 1
65
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
n n
Yxi y b 2 xi x
2
s F2
Fc i 1
i 1
sT2 n
s R2
yi Yxi
2
i 1
n2
Dacă Fcalculat Fteoretic se deduce că dreapta de regresie este semnificativă pentru pragul de
semnificație q (cel mult egal cu 0,05) și invers.
IBM SPSS Statistics deține proceduri specifice destinate analizei bivariate a legăturii dintre
datele statistice cu o ofertă bogată în ceea ce privește măsurile acesteia, grupate în funcție de tipul
variabilei și nivelul de măsurare al acestora.
3.2.1. Analiza legăturii dintre două variabile categoriale cu IBM SPSS Statistics
În oricare dintre situațiile în care intervin variabile categoriale, analiza bivariată a asocierii
dintre variabile se instrumentează utilizând procedura IBM SPSS Statistics, Analyze > Descriptives
Statistics> Crosstabs…. Pornind de la tabelul de contingență.
Ipoteza nulă H0: Nu există diferențe între bărbați și femei în ceea ce privește prezența
dizabilităților (Nu există asociere între cele două variabile)
Ipoteza alternativă H1: Există diferențe între bărbați și femei în ceea ce privește prezența
dizabilităților (Există asociere între cele două variabile)
IBM SPSS Statistics permite ca pentru parcurgerea următoarelor etape până la formularea
concluziilor să se instrumenteze aceeași procedură: Analyze > Descriptives Statistics> Crosstabs….
Prin intermediul casetei de dialog Crosstabs… și a subdialogurilor acesteia se pot realiza
simultan construirea și afișarea tabelului de contingență pentru examinarea de către utilizator a
frecvențelor observate și așteptate, calculul diverșilor coeficienți de măsurare a intensității asocierii și
testului de semnificație Chi-Square, rezultatele fiind afișate în fereastra de Output pentru ca
utilizatorul să poată să interpreteze semnificația acestora și să decidă dacă respinge sau nu ipoteza
66
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
nulă și în raport cu aceasta să formuleze concluziile referitoare la legătura dintre variabilele implicate
în analiza bivariată.
Se lansează procedura din meniul Analyze > Descriptives Statistics > Crosstabs…
2 testează ipoteza nulă H0 fără a impune care dintre variabile să fie trecută pe linii
(independentă), și care pe coloane (dependentă), în tabelul de contingență, impune însă ca variabila
trecută pe coloane (dependentă) să fie nominală.
În cazul considerat ambele variabile sunt nominale, deci din perspectiva testului de
semnificație nu contează care dintre ele este considerată dependentă și care independentă.
S-a optat ca în caseta de dialog Cross tabs…, afișată după lansarea în execuție a procedurii cu
același nume, să se transferare pe linii (Rows) variabila sex - Genul (independentă) și pe coloane
(Columns) variabila dizabilități (dependentă) ca în imaginea de mai jos.
Procedura oferă posibilitatea analizei asocierii pentru mai multe perechi de variabile simultan.
De asemenea, dacă se dorește crearea unei reprezentări grafice a asocierii dintre variabile, se poate
bifa opțiunea Display clustered bar charts.
Construirea tabelului de contingență se realizează implicit, dacă nu se fac precizări
suplimentare fiind afișate doar frecvențele absolute. Pentru a afișa diverse alte valori se activează
caseta de subdialog Crosstabs: Cells… prin acționarea butonului Cells… și se specifică modul de
prezentare a frecvențelor în celulele tabelului de frecvențe, ca în imaginile de mai jos.
67
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
68
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Utilizarea testului Chi Square permite să se evalueze dacă relația de asociere observată între
cele două variabile nominale într-un anumit eșantion este probabil să se manifeste și în populația
totală, adică dacă poate fi generalizată. Trebuie precizat că acest test poate fi neadecvat dacă
dimensiunea eșantionului nu este suficientă.
Selectarea testului Chi Square, în cazul prezentat, a afișat următorul tabel de rezultat:
Pe primul rând în tabelul Chi-Square Tests este trecut rezultatul testului Pearson Chi-Square,
a cărei semnificație trebuie luată în calcul în cazul variabilelor categoriale, nominale. Pe baza sa va
face evaluarea în vederea luării deciziei de a respinge sau nu ipoteza nulă formulată. (valoarea testului,
χ2 = 2.313, numărul gradelor de libertate, DF = 1 și pragul de semnificație al acestuia, p = 0,128).
Rezultatul obținut nu este semnificativ din punct de vedere statistic, 0,128> 0.05, asta
înseamnă că valoarea calculată a testului, 2,313, este mai mare decât valoarea critică, prin urmare
decizia este de a nu se respinge ipoteza nulă.
Concluzia este că: Nu există o diferență semnificativă între bărbați și femei în ceea ce privește
prezența dizabilităților, faptul că unii dintre aceștia prezintă dizabilități se datorează întâmplării, ca
urmare nu există o asociere semnificativă între genul angajaților.
Faptul că nu se respinge ipoteza nulă nu înseamnă neapărat că între cele două variabile nu
există asociere. Această situație trebuie interpretată prin faptul că asocierea nu a putut fi pusă în
evidentă de datele existente, sau că asocierea nu este statistic semnificativă.
De remarcat, că sub tabelul Chi-Square Tests sunt precizate două mesaje referitoare la testul
Pearson Chi Square: că valoarea minimă așteptată a unei celule din tabelul frecvențelor, „minimum
expected count”, este 47,85, valoare așteptată înscrisă în celula Femei cu dizabilități din tabelul de
contingență și că nu există nicio celulă cu diferență așteptată mai mică de 5 în tabelul de contingență.
69
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Testul se poate aplica doar dacă toate frecvențele teoretice sunt mai mari sau egale cu 5. Dacă
există frecvențe teoretice mai mici ca 5 în proporție mai mare de 20% din totalul celulelor, se aplică
un alt test, testul Fisher exact.
Pentru aceasta, în aceeași casetă Crosstabs… se acționează butonul Exact…și în caseta de
dialog afișată se selectează opțiunea Exact cu Time limit per test implicit (5 minute) ca în imaginea
de mai jos:
Însă, trebuie reținut faptul că situația existenței celulelor cu valori așteptate mai mici ca 5 poate
poate fi edificată cu testul Fisher doar pentru tabele 2x2.
Pentru că s-a bifat opțiunea Display clustered bar charts, în fereastra de Output se afișează
diagrama prin coloane a distribuției bidimensionale, care permite vizualizarea relației de asociere
dintre cele două variabile.
Atunci când coloanele corespunzătoare
categoriilor variabilei dependente (dizabilități) au
aproximativ înălțimi egale pentru toate categoriile
variabilei de grupare independente (genul) semnificația
reprezentării grafice este lipsa unei asocieri între
variabile.
Acest aspect este reflectat și diagrama afișată în
Output ca urmare a solicitării Display clustered bar
charts.
Unul dintre neajunsurile lui Chi Square este că, nefiind măsurat pe o scală de la 0 la 1 nu poate
fi utilizat decât pentru evaluarea existenței legăturii de asociere fără a putea indica măsura intensității
acesteia.
Din acest motiv pentru completarea informațiilor aduse de Chi-Square trebuie utilizați alți coeficienți
specifică măsurării asocierii. IBM SPSS Statistics pune la dispoziție o parte dintre aceștia:
70
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Coeficientul de contingență
Este o măsură potrivită pentru evaluarea legăturii de asociere între două variabile cu număr
mare de categorii fiind atunci când tabele de contingență au cel puțin 5 linii x 5 coloane.
Pentru exemplificarea utilizării acestui coeficient s-au considerat variabilele nominale sex cu
două modalități (0 - Barbat, 1 - Femeie) și funcția (Postul actual) cu 7 modalități (1 - Îngrijitor, 2 –
Funcționar, 3 – Ofițer de securitate a datelor, 4 – Auditor, 5 – Expert financiar-contabil, 6 – Jurist, 7
- Inginer), ambele declarate nominale în baza de date din fișierul angajați.sav.
Se urmărește să se evalueze dacă există asociere între cele două variabile, considerând
variabilă dependentă (pe coloane) variabila funcția, în sensul că angajați de același gen ocupă cu
precădere cam același tip de funcții. Pentru măsurarea asocierii se apelează la coeficientul de
contingență.
Se formulează ipotezele de lucru:
Ipoteza nulă H0: Nu există diferențe între bărbați și femei în ceea ce privește funcțiile
deținute (posturile ocupate). Sau: Nu există asociere între cele două
variabile.
Ipoteza alternativă H1: Există diferențe între bărbați și femei în ceea ce privește funcțiile
(posturile ocupate. Sau: Există asociere între cele două variabile.
71
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Deoarece nu s-au făcut specificații speciale în caseta de subdialog Crosstabs: Cells…, tabelul
de contingență conține doar valori implicite în celule, respectiv frecvențele absolute.
- Testul de asociere Chi Square:
Cum valoarea calculată a testului, 64,398, este mai mare decât valoarea critică, rezultatul
obținut fiind foarte semnificativ din punct de vedere statistic (0.000<0.05), decizia ar trebui să fie de
respingere a ipoteza nule, iar concluzia ar fi că: Există o diferență semnificativă între bărbați și femei
în ceea ce privește funcția (postul) ocupat. Adică ”există o asociere între genul angajaților și
funcțiile pe care le ocupă”.
72
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
De remarcat însă, că sub tabelul Chi-Square Tests există avertismentul că există 28,6% celule
cu valoarea așteptată mai mică de 5. Acest lucru pune sub semnul întrebării rezultatul testului Chi
Square. Avertismentul indică utilizarea testului fără a fi respectate parte din condițiile de aplicare și
deci decizia de a se respinge ipoteza nulă conform rezultatului testării, nu înseamnă neapărat că există
o asociere.
- Coeficientul de contingență:
Deși, cu o semnificație statistică foarte mare (0,000< 0.05), coeficientul de contingență are din
start două deficiențe în aplicare:
pe de o parte este faptul că se calculează pe baza valorii lui 2 pentru care s-a primit
avertisment că se depășește numărul de celule cu valoare mai mică de 5 pentru
fervențele calculate în tabelul de contingență (28%), și
pe de altă parte, este faptul că tabelul de contingență are doar 2x7 celule (variabila sex
– 2 categorii și variabila funcția – 7 categorii), mai mic decât se indică ca dimensiune
în aplicare pentru o bună semnificație a valorii calculate (5 x 5).
Valoarea coeficientului 0,346, deși este semnificativă statistic, are un nivel destul de mic, care
indică o asociere între cele două de intensitate scăzută. Acest aspect poate fi însă subestimat, în
condițiile în care, pentru un tabel 5 x 5, și o asociere perfectă între variabile coeficientul ar produce o
valoare de cel mult 0,8.
În aceste condiții, mai ales că testul Chi Square ridică oarecare suspiciuni, se poate concluziona
că deși există o oarecare asociere între variabile, eșantionul de date disponibile nu a produs suficiente
dovezi că genul angajatului explică postul (funcția) ocupat și deci o astfel de ipoteză nu poate fi
generalizată.
De remarcat că, coeficientul de contingență este o măsură simetrică, neavând importanță care
variabilă este considerată dependentă și care independentă.
73
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Considerăm deci, cazul a două variabile categoriale nominale, variabila funcția – cu eticheta
Postul actual, și variabila FunctInit – cu eticheta Postul ocupat la angajare, cu aceleași variante de
realizare.
Analizând tabelele de frecvență pentru cele două variabile se constată că mulți dintre angajați,
în special cei angajați inițial pe poziții de ”Îngrijitor”, ”Funcționar” și ”Ofițer de securitate a datelor”,
codificate 1, 2, 3 (nicio legătură cu scala ordinală) și-au schimbat pozițiile (funcțiile) în firmă față de
cele ocupate la angajare, mai degrabă decât cei care s-au angajat pe celelalte poziții, producând
modificări în structură mai evidente.
Se dorește să se investigheze dacă există asociere între postul actual (funcția) ocupat de un
angajat și poziția (postul) ocupată la angajare, adică dacă există o tendință de schimbare a postului pe
parcursul perioadei lucrate într-o firmă în special ei angajați inițial ”Îngrijitor”, ”Funcționar” și ”Ofițer
de securitate a datelor”.
În acest sens, se filtrat mai întâi datele luându-se în calcul doar angajații (cazurile) pentru care
funcția actuală este una dintre cele trei enumerate.
74
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
75
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Se constată o singură celulă cu valoare așteptată mai mică decât 5, cea corespunzătoare
ofițerilor de securitate a datelor care și-au păstrat poziția, 2.3. Prin urmare testul Chi Square are
îndeplinite condițiile de aplicare (mai puțin de 20% celule cu valori așteptate mai mici ca 5).
Testarea ipotezei nule indică ca aceasta să trebuie respinsă, rezultatul testului fiind foarte
semnificativ din punct de vedere statistic (0,000<0,05), respectându-se condițiile de aplicare.
Concluzia este: Există o asociere semnificativă statistic între funcția (postul) angajatului la încadrare
și funcția actuală.
Testul Lambda este semnificativ statistic (0,000 <0,05) confirmând existența asocierii celor
două variabile. În același timp este simetric, adică variabilele analizate putând fi considerate
dependente una de cealaltă cu aceeași intensitate valorile testului pentru fiecare caz fiind aproape
egale. Totuși, valorile destul de mari pe care le ia acest test, aproape de 0,7, în condițiile în care poate
lua valori în intervalul [0,1], semnifică o intensitate redusă a asocierii, în sensul că variabila
independentă are o influență din ce în ce de mică în distribuirea angajaților (cazurilor) pe categorii ale
variabilei dependente pe măsură ce coeficientul ia valori din ce în ce mai apropiate de 1.
76
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
angajații care în prezent ocupă funcții de ”Îngrijitor”, ”Funcționar” și ”Ofițer de securitate a datelor”,
evaluându-se asocierea între genul angajaților și funcția ocupată în prezent.
Se procedează asemănător ca în cazurile precedente, optându-se pentru coeficientul V al lui
Cramer.
- Tabelul de contingență:
77
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
78
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Vom considera pentru exemplificare cazul variabilelor ordinale discrete: SalAng – Salariul la
angajare, cu o scară ordinală cu 5 variante (categorii) de realizare de la 1-5 (definită prin transformarea
variabilei SalInit prin gruparea variantelor pe categorii de salarii (intervale de variație)) și variabila
NivelEduc – Nivel Educațional (definită prin recodificarea variabilei studii) cu o scară ordinală cu 5
modalități de realizare de la 1-5.
Tabelul de contingență este unul pătrat (5 x 5), prin urmare nu are importanță care dintre
coeficienți este utilizat (sunt aplicabili ambii coeficienți Kendall). Acesta se obțin prin executarea
procedurii Crosstabs… este prezentat în imaginea de mai jos.
79
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Variabila dependentă este SalAngaj (pe coloane) și variabila independentă este NivelEduc (pe
linii).
Există în mod evident o legătură între cele două variabile. Se pune problema care dintre
coeficienții de asociere disponibili în SPSS reprezintă o măsură adecvată legăturii dintre cele două
variabile?
În continuare sunt prezentate rezultatele SPSS pentru fiecare dintre coeficienții Gamma,
Somer’s, Tau-b sau Tau-c al lui Kendall. În acest sens, în caseta Statistic se bifează toți coeficienții
de asociere ordinali.
80
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Este evident că indiferent ce coeficient ar fi fost utilizat individual, rezultatul testării indică
același lucru: respingerea ipotezei nulă, adică admiterea că există o asociere semnificativă între cele
două variabile ordinale. Intensitatea asocierii este una puternică (valoarea coeficienților fiind, după
caz, în jur de 0,6 - 0,7).
În plus, având în vedere faptul că avem de a face cu variabile ordinale, pe lângă intensitatea
asocierii se pune și problema direcției acesteia. Cum toți coeficienții calculați au valoare pozitivă,
asocierea este directă, adică angajații cu nivel educațional ridicat au niveluri mari ale salariului la
angajare în timp ce angajații cu nivele educaționale scăzute au salarii mici la angajare.
O alternativă pentru întreaga clasă de măsuri ale asocierii ordinale este coeficientul lui
Spearman, coeficient de corelație a rangurilor disponibil (alături de coeficientul tau-b al lui Kendall),
în procedura Analyze > Correlation > Bivariate… procedură ce pune la dispoziție și măsuri
81
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
82
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Binning… pentru transformarea variabilei salinit în variabila ordinală SalAng (prezentată în capitolul
1).
Evaluarea asocierii se reduce deci la evaluarea asocierii dintre două variabile categoriale,
variabila sex – cu eticheta Genul și variabila SalAng – cu eticheta Salariul la angajare (Binned),
transformată a variabilei continue salinit, din fișierul angajați.sav, putând fi utilizat testul Chi Square
cu procedura Analyze > Descriptives Statistics > Crosstabs…
Cât privește rezultatul testului Pearson Chi-Square, valoarea acestuia este 214,172, și este
foarte semnificativ .000 (<0,05). Sub tabel este specificată și valoarea minimă așteptată a oricărei
celule din tabelul frecvențelor, „minimum expected count”, respectiv 36,91, care este valoarea
așteptată din celula Femei cu salariul cuprins între 5,70 și 6,29 mii lei la angajare. Nu există nicio
celulă cu diferență așteptată mai mică de 5.
83
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
84
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
S-a retestat normalitatea variabilelor cantitative din baza de date și s-a constat că pentru setul
de date extras acestea sunt normale. (orice valoare mai mare de 0,05 a testului indică faptul că
datele sunt normale).
85
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
86
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Fiind vorba doar de legătura dintre două variabile se păstrează setarea implicită Simple Scatter
și se acționează butonul Define pentru a defini condițiile construirii graficului în caseta de dialog
afișată.
87
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Corelograma se construiește în sistemul de axe ortogonal xOy, prin urmare, fără a fi însoțită
de semnificația cauzalității, se poate transfera pentru reprezentare pe axele Oy și Ox oricare dintre
variabile, semnificația legăturii nefiind modificată.
Transferul variabilei Marca angajatului în secțiunea Label Cases by permite asocierea
variantelor variabilelor în perechi corespunzătoare cazurilor (angajaților).
Acționarea butonului OK determină afișarea în fereastra de Output, a graficului.
Este evidentă tendința liniară a norului de puncte, crescătoare, adică directă (în general valorile
mici ale uneia dintre variabile și se asociază cu valori mici ale celeilalte variabile și valorile mari cu
valori mari). În plus fâșia este suficient de îngustă pentru a descrie o legătură intensă.
De altfel, toate corelațiile pot fi reprezentate grafic simultan, corelogramele indicând aspecte
legate de existență, intensitate, direcție și formă.
Pentru aceasta, se optează pentru Matrix Scatter. Și se transferă în listă toate cele patru
variabile
88
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
89
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Orice valoare mai mică de 0,05 a testului indică faptul că datele sunt nenormale.
Având în vedere că ambele variabile sunt neconforme din perspectiva condițiilor de aplicare a
coeficientului Pearson, pentru analiza corelației dintre acestea se apelează la procedura: Analyze >
Corellate > Bivariate… cu utilizarea coeficienților de corelație a rangurilor, Spearman sau tau –
Kendall. Se deschide fereastra de dialog Bivariate Correlations:
90
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Datele din matricea de corelație indică niveluri foarte ridicate ale celor doi coeficienți. (0,662
pentru tau-b Kendall, și 0,830 pentru Spearman) în raport cu limitele intervalului de valori în care
aceștia se poate înscrie [-1,1], ambii indicând o corelație destul de puternică, directă, coeficienții fiind
pozitivi. Bifarea opțiunii Flag significant correlations, a determinat marcarea cu câte două asterisc-
uri a coeficienților, aceștia fiind semnificativi la un prag de semnificație p=0.01. Acest lucru scoate în
evidență valorile semnificative ale lui coeficientului. Se constată de asemenea simetria măsurii.
Se poate concluziona că între cele două variabile există o legătură de corelație directă și foarte
intensă.
91
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
92
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Coeficientul de determinație, R2 indică faptul că 57,4% din variația vechimii este influențată
de variația vârstei ceea ce este considerat determinant (este mai mare de 50%), iar coeficientul lui
Pearson de corelație simplă liniară este 0,758 care este semnalat ca semnificativ din punct de vedere
statistic de sistemul software cu *.
Se certifică astfel posibilitatea exprimării legăturii dintre aceste variabile printr-un model de
tip liniar cu ajutorul unei funcții de regresie se apelează la procedura utilizată în acest sens este:
Statistics-Regression-Linear...
Se va activa fereastra principală Linear Regression, unde se vor trece variabilele a căror
legătură este analizată din lista de variabile a bazei de date în zona Dependent - variabila Experiența
în muncă – cu eticheta vechime, iar în zona Independent(s)- variabila Vârsta;
Din lista Method se păstrează metoda de analiză implicită – Enter, celelalte metode fiind
aplicabile în situații cu mai multe variabile independente.
93
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
Butonul Statistics activează fereastra cu același nume în care se păstrează bifată opțiunea
Eestimates pentru obținerea coeficienților de regresie (opțiune implicită) cu stabilirea intervalului de
încredere pentru coeficienții de regresie pentru probabilitatea de 95% selectată în confidence intervals;
Opțiunea Covariance matrix asigură construirea matricei de varianță - covarianță pentru
coeficienții de regresie;
Opțiunea Model fit – permite calcularea raportului de corelație R, coeficientul de determinație
R2, R2 ajustat, eroarea standard, și afișarea rezultatelor analizei ANOVA;
Opțiunea Descriptives – afișează pentru fiecare variabilă Media, Abaterea standard, Matricea
corelațiilor;
Opțiunea Part and Partial correlations – calculează corelații parțiale dacă este cazul, iar
Opțiunea Collinearity diagnostics – realizează analiza coliniarității.
În cazul considerat s-a optat pentru Estimates implicit și Model fit.
94
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
Tabelul Model Summary oferă informații despre indicatorii ce ne relevă bonitatea modelului
adică ”cât de bun” este modelul pe care îl estimăm.
În acest tabel sunt afișați: raportul de corelație, notat cu R, care este egal cu coeficientul de
corelație dintre cele două variabile. Faptul că est egal cu coeficientul de corelație simplă liniară
confirmă liniaritatea legăturii. , la fel ca și pentru R2, R Square, coeficientul de determinare al lui R.
Cu cât R Square și Adjusted R Square au valori mai apropiate de 1 cu atât regresia este mai
bună.
Valoarea lui R Square în cazul prezentat semnifică faptul că 57,4% din variația experienței în
muncă (vechime) este explicată de variația variabilei vârsta angajatului.
În tabelul ANOVA este prezentat rezultatul analizei dispersionale. Modelul de regresie simplu
liniar este destul de semnificativ (0,048<0,05), putând fi utilizat în analize de prognoză.
95
Ana-Gabriela BABUCEA ANALIZA DATELOR – Suport de curs și aplicații practice
F unde Significance F reprezintă valoarea erorii pe care o facem prin respingerea ipotezei nule când
de fapt ea este adevărată.
Pe datele noastre, cum F = 6,741 este o puțin mai mare decât valoarea critică a lui F, fapt
pentru care Significance F = 0,048. Significance F trebuie să fie în general mai mic de 5%(0.05), deci
0,048 este valoare încă mai mică, și deci putem accepta că modelul ales ajustează bine datele din
eșantion.
În acest tabel ne sunt oferite informații despre valorile estimate ale coeficienților modelului de
regresie în coloana Unstandardized Coefficients - B, erorile standard ale coeficienților în coloana Std.
Error, elemente pentru aplicarea testului de semnificație t-Student pentru fiecare coeficient (coloanele
t și Sig.).
Deci, valoarea din coloana t se obține împărțind pentru fiecare estimator al modelului, valoarea
estimației la eroarea standard a estimatorului și astfel obținem valoarea calculată a testului t pentru
fiecare estimator al modelului. Această valoare calculată se compara cu valoarea tabelară preluată din
tabelul repartiției Student.
Constant este termenul liber al modelului, egal cu-8,800. Termenul liber este punctul în care
variabila independentă este 0. Deci, nivelul salariului este de -8,800, dacă vechimea este 0.
Deoarece t a0 = 2,183, iar pragul de semnificație (p=0,05), și Sig.= 0,081>0,05 înseamnă că
acest coeficient nu este semnificativ.
Coeficientul de regresie B este 0,401, ceea ce însemnă că la creșterea vârstei cu 1 an, nivelul
vechimii va creste 0,401 ani. Deoarece t a1 = 2,596, iar pragul de semnificație P-value este 0,05
Sig. = 0,048<0,05 înseamnă că acest coeficient este semnificativ.
Trasarea dreptei de regresie se face activând graficul Scatterplot și executând următoarele
operații:
- se acționează dublu clic de mouse pe imaginea graficului din Viewer. prin care se deschide
graficul într-o fereastră individuală de editare, apoi se execută procedura Chart – Elements -
Fit line at Total și apare fereastra de dialog Properties unde se marchează Fit Method - Linear.
96
ANALIZA DATELOR – Suport de curs și aplicații practice Ana-Gabriela BABUCEA
BIBLIOGRAFIE
1. Arkkelin, D. (2014). Using SPSS to Understand Research and Data Analysis, dosponibil la
https://scholar.valpo.edu/cgi/viewcontent.cgi?article=1000&context=psych_oer
2. Babucea, A.G. (2010). Analiza datelor – Metode statistice avansate, Editura Universitaria,
Craiova.
3. Babucea, A.G. (2009). Statistică – Fundamente teoretice, Editura Scrisul Românesc, Craiova.
4. IBM Corp., IBM SPSS Statistics Base 20, disponibil în format digital la
https://www.csun.edu/sites/default/files/statistics20-base-32bit.pdf
5. IBM Corp., IBM SPSS Statistics Brief Guide, disponibil în format digital la
ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/en/client/Manu
als/IBM_SPSS_Statistics_Brief_Guide.pdf
6. Miller, R.L., Acton, C., Fullerton, D.A. and Maltby, J., - SPSS for Social Scientists, disponibil
la http://gtu.ge/Agro-Lib/1%20(1).pdf
97