Documente Academic
Documente Profesional
Documente Cultură
STATISTICĂ APLICATĂ
Forma cea mai veche a statisticii moderne este statistica practică folosită în
scopuri demografice, administrative şi fiscale. Încă din mileniile IV şi III îen chinezii
dispuneau de date cu privire la numărul populaţiei, structura terenurilor şi chiar
utilizau tabele statistice pentru unele aspecte ale activităţii agricole. Recensămintele
populaţiei efectuate, începând cu anul 550 îen, de romani, greci şi egipteni sunt, de
asemenea, exemple pentru rădăcinile istorice ale statisticii practice (etapa
prestatistică).
Dezvoltarea statelor feudale a dus la evoluţia şi perfecţionarea evidenţelor
privind situaţia geografică, economică şi politică. Se elaborează lucrări în care se
3
prezintă detaliat situaţia social-economică folosind date statistice. Apare, astfel,
statistica descriptivă care se ocupă de culegerea datelor despre un fenomen şi cu
înregistrarea acestor date.
Fondatorul Şcolii descriptive şi autorul primului Curs de Statistică, în 1660,
a fost Herman Conring (1606-1681) profesor la Universitatea din Helmstedt. Reluând
ideile lui Conring, un secol mai târziu, Gottfried Achenwall (1719-1772), profesor la
Universitatea din Göttingen, defineşte statistica drept o ştiinţă descriptivă folosită
pentru prezentarea particularităţilor unui stat, introducând pentru prima oară
termenul de statistică (statistik). (Benţea, Munteanu, 2007, p. 11.)
Bazele statisticii descriptive au fost puse de către Dimitrie Cantemir prin
monografia, de talie europeană, „Descriptio Moldavie”, apărută în 1716. O altă lucrare
de referinţă poate fi considerată şi „Expunere statistică asupra Moldovei” întocmită în
1782 de către un înalt funcţionar al Curţii de la Viena, Wenzel von Brognard.
Statistica s-a dezvoltat şi s-a perfecţionat odată cu dezvoltarea societăţii
româneşti şi în deplină concordanţă cu alte ştiinţe cu care se află în permanentă
legătură (Psihologia, Contabilitatea, Finanţele, Econometria, Informatica, etc.)
4
NOŢIUNI ŞI CONCEPTE DE BAZĂ UTILIZATE ÎN STATISTICĂ
5
colectivităţile dinamice caracterizează un proces, o devenire în timp (înregistrarea
elementelor componente făcându-se pe un interval de timp).
6
obţinându-se indicatori statistici. În a doua etapă, etapa de inferenţă statistică,
rezultatele se vor extinde la colectivitatea generală.
4. Variabile statistice.
7
Exemplul 3: „Vârsta” poate lua valori de la 0 ani la peste 100 de ani. –
variabilă numerică;
Variabila „Vârsta” poate fi şi variabilă categorială şi lua diferite valori in
funcţie de categoriile stabilite. (se stabilesc categorii de vârste).
Exemplu: 1. 10-20 ani
2. 21-30 ani
3. 31-40 ani.
O variabilă, reprezintă un concept cheie în statistică şi nu este altceva decât un
nume pentru un element a cărui proprietate principală este aceea că variază, îşi
modifică parametrii. (Opariuc, 2009) Mulţimea valorilor înregistrate pentru o
caracteristică particulară constituie distribuţia variabilei respective.
a. Variabile discrete.
Variabilele discrete sunt cele care sunt exprimate prin numere întregi (număr
finit de valori pe care le poate lua). (Popa, 2008).
8
Exemplu:
numărul de copii pe care îi are o familie;
numărul de oraşe dintr-un judeţ;
genul biologic;
Gradul didactic;
În cazul variabilelor discrete, mulţimea de definiţie a valorilor sale este o mulţime
discontinuă iar între două valori nu poate fi interpusă o valoare intermediară.
Variabilele discrete pot fi categoriale sau de rang.
b. Variabile continue
Sunt variabile „de tip numeric (cantitativ, de tip interval/raport) care au un
număr teoretic infinit de niveluri de măsurare...poate lua orice valoarea (exprimabilă
şi prin numere fracţionate), permiţând utilizarea zecimalelor” (Popa, 2008, p. 25).
Exemplu:
greutatea → între un subiect de 76 kg şi un subiect de 78 kg putem găsi oricând
un subiect de 77,5 kg;
cifra de afaceri a unei firme;
înălţimea subiecţilor.
În cazul acestor variabile, mulţimea de definiţie a valorilor sale este una
continuă, ne-numărabilă. Aceste variabile se mai numesc şi variabile scalare (de
interval sau de raport).
Deoarece cercetarea unei colectivităţi numeroase poate implica valori mari,
putem extrage din colectivitatea iniţială o subcolectivitate (sau mai multe) al cărui
studiu este mai simplu. În acest caz vorbim despre „eşantion” – reprezintă un subset
de elemente selectate dintr-o colectivitate statistică.
Eşantionul reprezintă „unităţile de informaţie selecţionate pentru a fi efectiv
studiate” (Popa, 2008, p. 38).
9
„Calitatea unui eşantion de a permite extinderea concluziilor la întreaga
populaţie din care a fost extras se numeste reprezentativitate” (Popa, 2008, p. 39).
După Rotariu (2006), reprezentativitatea este „capacitatea eşantionului de a
reproduce cât mai fidel structurile şi caracteristicile populaţiei din care a fost extras”.
Gradul de reprezentativitate al unui esantion depinde de:
- caracteristicile populaţiei;
- mărimea eşantionului;
- procedura de eşantionare folosită.
Definiţie: Frecvenţa de apariţie a unei variante/valori reprezintă numărul de
apariţii ale acestei variante/valori în colectivitate. (Benţea, Munteanu, 2007, p. 23)
Exemplu:
10
(selectare, reconfigurare, creare de date noi) şi pentru documentarea datelor (există un
dicţionar metadata, care reţine caracteristici ale datelor). Se mai poate adăuga
flexibilitatea privind tipurile de date acceptate ca şi modul de construire a rapoartelor.
I.1. Accesarea SPSS-ului.
Pasul 2:
11
celulă la alta se realizează prin clic de mouse în noua celulă sau de la tastatură cu ajutorul tastelor de
control (taste săgeţi, Page Up, Page Down).
Pasul 3:
Aceasta este fereastra Data Editor a SPSS-ului şi este un spaţiu de lucru cu linii
şi coloane în care pot fi introduse datele.
Pasul 4:
Pasul 5:
Pasul 6:
Pasul 7:
Selectând „File”→ „Save As” datele se vor
salva sub forma unui fişier. Fişierul salvat
va primi automat de la SPSS extensia „.sav”.
* Se recomandă folosirea unor nume
de fişiere distincte (ex. date1) pentru
a face conţinutul lor cât mai clar. Salvarea
datelor este recomandat să se facă într-un fişier
diferit de cel al SPSS-ului.
Pasul 8:
Pentru a alege locaţia unde va fi salvat
fişierul de date, se alege calea în mediul
„Save In” (se foloseşte săgeata pentru a
ajunge la locaţia dorită).
Salvarea unui fişier se realizează prin pictograma
Save din bara de instrumente Standard sau cu
ajutorul comenzilor Save sau Save As şi meniul
File. Aceste comenzi deschid fereastra Save Data
13
As în care se pot stabili: numele fişierului
(File name); tipul fişierului (Save as type);
locaţia în care să aibă loc salvarea (Save In).
Pasul 9:
Apăsarea meniului „Variable
View”, situat în josul paginii,
schimbă fereastra „Data View”
(spaţiul de lucru pentru introducerea
datelor) în altă fereastră în
care pot fi introduse informaţii
despre variabilele create.
14
Pasul 10:
Acesta este spaţiul de lucru „Variable View”. În acest caz, o variabilă este deja
înscrisă fiind introdusă la pasul 8. Variabila poate fi redenumită şi pot fi adăugate alte
variabile selectând celula corespunzătoare şi tastând numele variabilei.
Pasul 11:
La versiunea SPSS 19 nu există
limită pentru lungimea numărului
unei variabile.
Se selectează o celulă din coloana
„Name” şi se scrie un nume diferit
de variabilă. Celelalte variabile vor
primi valori care vor fi implicit
schimbate ulterior.
*La editarea unei variabile trebuie să se ţină cont de următoarele restricţii: numele variabilei să fie
unic, primul caracter să fie o literă, sa nu conţină simboluri speciale folosite în SPSS sau spaţi
15
Pasul 12:
Apare acest buton:
se dă clic pe el.
Pasul 13:
Pasul 14:
Pasul 15:
16
* Cele mai frecvent utilizate ferestre in SPSS sunt „data Editor”, „Syntax Editor” şi „Output
Viewer”, „Pivot Table (Pivot Table Editor)”, “Chart Editor”.
Fereastra de sintaxă (Syntax Editor) este folosită pentru a genera programe de comenzi pe care
le vom executa asupra datelor (exemplu: calculul unor noi variabile). Opţiunile selectate în casetele
de dialog sunt afişate în fereastra de sintaxă sub formă de comenzi. Aceste ferestre îi sunt specifice
fişierele de tip .sps.
Fereastra de rezultate (Output Viewer) devine disponibilă automat după ce a fost efectuată o
comandă de analiză a datelor. În această fereastră, sunt afişate rezultatele statistice, tabele şi grafice
care au asociate ferestre distincte. Fereastra de editare a rezultatelor (Text Output Editor) este folosită
pentru modificarea textului rezultat, care nu a fost afişat în tabele pivot.
* Fereastra de rezultate (Output Viewer) devine disponibilă automat după ce a fost efectuată o
comandă de analiză a datelor. În această fereastră, sunt afişate rezultatele statistice, tabele şi grafice
care au asociate ferestre distincte. Fereastra de editare a rezultatelor (Text Output Editor) este folosită
pentru modificarea textului rezultat, care nu a fost afişat în tabele pivot. Toate rezultatele obţinute din
analizele statistice sunt afişate în fereastra Output Viewer. Această fereastră se aseamănă cu fereastra
Windows Explorer şi se deschide doar dacă s-au lansat comenzi din meniurile Statistics sau Graphs.
Fereastra Output Wiewer este structurată în două cadre/zone. Cadrul din stânga (cuprinsul/structura)
prezintă, sub forma unei schiţe, obiectele conţinute în fereastră. Elementele din schiţă se referă la
titlu, note şi denumirea rezultatelor statistice propriu-zise.
Fereastra Pivot Table (Pivot Table Editor) oferă multiple posibilităţi de modificare a tabelelor
pivot: editare text, schimbarea datelor din rânduri şi coloane, adăugarea de culori, crearea unor tabele
multidimensionale, ascunderea sau afişarea selectivă a rezultatelor.
Fereastra de editare a graficelor (Chart Editor) permite modificarea elementelor unui grafic (axe,
scale, diagramă, legendă etc.)
Pasul 16:
Pentru a calcula media de
vârstă se urmăresc următoarele
etape:
-se dă clic pe „Analyze”;
-Se selectează „Descriptive
statistics”;
-Se selectează „Descriptive…”
17
Pasul 17:
Se selectează „atenţie”.
Se apasă butonul ► pentru a
muta „atentie” în căsuţa
„Variable(s)” cu ajutorul săgeţii.
Se dă clic pe „OK”.
Pasul 18:
Fereastra „Data Editor” este înlocuită de output-ul SPSS-ului. Acest tabel apare
pentru analiza realizată anterior.
18
CURS II
SCALE DE MĂSURARE
Raport
Parametric
Interval
Cuantificare
Ordinal
Neparametri
c
Nominal
Scala nominală este cunoscută şi sub numele de scală calitativă, categorială sau
de clasificare, este cel mai simplu tip de scală şi presupune doar diferenţierea calitativă
a fenomenelor şi a obiectelor măsurate. Scala nominală constă în categorii care permit
clasificarea (sortarea) obiectelor sau fenomenelor după o caracteristică sau un atribut.
20
Observaţie: Variabilele care sunt măsurate pe scale de tip nominal, pun în evidenţă
diferenţele calitative între valori!
Coleric 1
Sangvinic 2
Melancolic 3
Flegmatic 4
21
Observaţie: Între toate categoriile (gradaţiile) unei scale nominale nu există
relaţie de ierarhie, ordinea prezentării lor fiind indiferentă, lipsită de importanţă din
punctul de vedere al consistenţei scalei (utilizarea codificării poate crea iluzia unei
ierarhii (1 este mai mic decât 2 etc.), dar aceasta este doar o iluzie, utilizată uneori în
scopuri de manipulare).
Ne propunem să caracterizăm 150 de indivizi după apartenenţa la un tip de temperament.
După investigaţie, rezultă 32 de colerici, 48 de sangvinici, 37 melancolici, 33 de flegmatici. Potrivit
codificării date pot fi prezentate astfel:
n*i =
22
II.1.2. Scala ordinală (de rang sau topologică)
Scala ordinală este cunoscută şi sub numele de scală de ordine, de rang, scală
ierarhică. O scală ordinală permite ordonarea observaţiilor, persoanelor, situaţiilor de
la mic la mare, de la simplu la complex, atunci când în empiricul relativ se introduc,
pe lângă relaţiile de echivalenţă şi relaţiile de ordine.
Spre deosebire de scala nominală (ale cărei proprietăţi le include), scala ordinală
permite stabilirea unei relaţii de ordine între date.
Observaţie: În cazul scalelor ordinale se poate stabili ierarhia a „n” gradaţii ale
variabilei, dar nu se poate preciza valoarea diferenţei dintre două gradaţii.
Valorile de tip ordinal, ne spun dacă o valoare este mai mare sau mai mică decât alta,
dar este limitată la raportul de măsime, adică, nu ne poate preciza care este diferenţa
de cantitate a caracteristicii măsurate.
Crearea unei scale ordinale presupune, cu prioritate, stabilirea unei relaţii de
ordine între valorile posibile ale variabilei studiate.
Proprietăţile scalei:
Proprietăţile specifice scalei ordinale le includ pe cele ale scalei nominale, dar
se adaugă (Vasilescu, 1992):
23
o Coeficienţi de corelaţie de rang: Spearman, sau Kendall.
24
Scara Taylor privind clasificarea creativităţii după criteriul efectivităţii
comunicării:
1. creativitate expresivă;
2. creativitate productivă;
3. creativitate inventivă;
4. creativitate inovatoare;
5. creativitate emergentă.
Frecvenţa
relativă
creativ
T 157 100
25
II.2. SCALE PARAMETRICE
26
Observaţie : Se recomandă utilizarea unui număr moderat de grupe (între 4 şi 10).
h = (6)
Xmin = 221
Xmax = 321.
27
r=4
h=
Intervale Frecvenţă
221 - 246 8
246 - 271 8
271 - 296 5
296 - 321 4
28
II.2.2. Scala de raport (proporţii)
Ultimul nivel de măsurare şi este reprezentat de scala de raport care are toate
caracteristicile unei scale de interval la care se adaugă existenţa unui zero absolut.
Această scală permite să răspundem la întrebarea „de câte ori”, deoarece existenţa unui
zero absolut face posibilă compararea proporţiilor.(Opariuc, 2009, p. 38)
Scala de raport are proprietăţile scalei de interval, iar raportul dintre două
puncte ale scalei după care unităţile sunt clasificate are semnificaţie, indiferent de
unitatea de măsură utilizată în stabilirea scalei.
29
Descrierea variabilelor.
Tabele şi diagrame.
Frecvenţa procentuală.
Pasul 1:
Se defineşte variabila.
Pasul 2:
Se selectează:
„Analize”,
„Descriptive Statistics”
„Frequencies…”
30
Pasul 3:
Se apasă „OK”
Pasul 4:
31
Diagrama circulară pentru date categoriale.
Pasul 1:
Se selectează:
„Graphs”
„Legacy dialogs”
„Pie”.
Pasul 2:
Se selectează „Define”.
Pasul 3:
Se selectează „specializarea”
şi se transferă prin apăsarea
butonului ►(◄) în rubrica
„define slices by”.
Se apasă „OK”.
32
categorie a variabilei nominale.
Pasul 4:
Pasul 1:
Se selectează:
„Elements”
„Show Data Labels”.
33
Pasul 2:
Se selectează „Count” şi
„X”-ul roşu pentru a nu afişa.
Pasul 3:
34
Diagrama cu bare pentru date categoriale.
Pasul 1:
Se selectează:
„Graphs”
„Legacy dialogs”
„Bar…”.
Pasul 2:
Selectaţi „Define”.
„Simple” este preselectat.
Pasul 3:
35
Se selectează „% of cases”.
Se apasă „OK”
Diagrama cu bare.
* Diagrama cu bare este folosită pentru a reprezenta grafic mediile diferitelor grupe dintr-o
colectivitate (Summaries for groups of cases) sau valorile medii ale diferitelor variabile pentru
aceeaşi colectivitate (Summaries of separate variables).
Diagrama Bar este folosită pentru a ilustra categoriile unei distribuţii în formă convenabilă.
Diagrama prezintă atâtea bare câte categorii are o variabilă. Barele au aceeaşi bază, egală cu unitatea,
iar înălţimea proporţională cu frecvenţa categoriei astfel încât aria fiecărei bare reprezintă numărul
cazurilor categoriei considerate.
Pentru a fi interpretat un grafic trebuie să conţină următoarele elementele:
- titlul graficului – oferă informaţii asupra fenomenului reprezentat (Titlul graficului coincide cu
titlul tabelului de date);
- axele de coordonate sunt folosite pentru a reprezenta variabilele. Pe abscisă se înscrie
variabila de distribuţie, iar pe ordonată frecvenţa.
- legenda – este folosită pentru a explica elementele din diagramă;
- sursa – precizează originea datelor reprezentate.
Histograme.
Pentru a ilustra procesul de realizare a unei histograme vom folosi datele
obţinute din răspunsurile subiecţilor la întrebarea „Vă place statistica?”. (răspunsuri: a.
foarte mult; b. mult; c. puţin d. foarte puţin; e. deloc).
Pasul 1:
Se selectează:
„Graphs”
„Legacy Dialog”
36
„Hitogram”
Pasul 2:
Se selectează întrebarea „Vă place
statistica?” şi se apasă butonul ►de lângă
„Variable” pentru a duce întrebarea în căsuţa
din dreapta.
Se apasă „OK”.
Histograma
37
CURS 3
În foarte multe cercetări se studiază relaţiile dintre două sau mai multe
variabile. Procedurile statistice univariate (cu o singura variabilă) care au fost descrise
până acum pot fi utilizate pentru analiza oricăror date. Dar, cercetarea poate necesita
ca relaţiile şi corelaţiile dintre diferitele variabile să fie studiate.
La fel ca statistica univariată, statistica bivariată a datelor necesită studierea
tendinţelor fundamentale ale datelor utilizând tabele şi diagrame. Modelele de
prezentare a relaţiilor bivariate includ crearea tabelelor scatter.
O condiţie esenţială o constituie etichetarea tabelelor şi diagramelor şi
denumirea acestora.
În continuare se va ilustra elaborarea unui tabel de asociere şi a unei diagrame
cu bare.
Introducerea datelor.
38
Se înlătură cele două zecimal
Pasul 2:
Pasul 3:
Se introduc aceste numere în „Data
View” din „Data Editor”.
Primul rând se referă la fetele care
au fost instituţionalizate: sunt în număr
de 5.
Al doilea rând se referă la băieţii
care au fost instituţionalizaţi:
sunt în număr de 6.
Al treilea rând se referă la fetele neinstituţionalizate: sunt în număr de 4.
Al patrulea rând se referă la băieţii neinstituţionalizaţi: sunt în număr de 5
Ponderea datelor
Pasul 4:
39
Pasul 5:
Se selectează „Frecvenţa”,
„Weight cases by” şi apoi
se apasă butonul
►pentru transfer în
căsuţa
variabilei„Frequency
Variable”.Se apasă „OK”
VI.3. Crearea tabelelor de asociere (Crosstabs).
Pasul 6:
Se selectează:
„Analize”
„Descriptivesc statistics”
„Crosstabs…”.
Pasul 7:
Pentru a pune „instituţionalizare”
pe rândurile tabelului, se selectează
şi apoi se apasă butonul ►de lângă
eticheta „Row(s)”.
Se apasă „OK”.
Pasul 8:
În tabel sunt
prezentate valorile
celor două variabile.
Se observă că sunt 5
fete şi 6 băieţi
40
instituţionalizaţi (în total 11) şi 4 fete şi 5 băieţi neinstituţionalizaţi (în total 9).
(N=20).
Tabelul de asociere este folosit pentru prezentarea relaţiilor dintre două variabile categoriale. În
fiecare celulă a tabelului este prezentată frecvenţa parţială (adică efectivul care poartă simultan o
valoare a fiecărei variabile).
Observaţie:
1. Dacă într-un crosstabs numărul categoriilor unei variabile este mai mare decât al alteia, atunci
categoriile acelei variabile se plasează pe rânduri.
2. O celulă din crosstabs oferă informaţia despre intersecţia celor două variabile. Pentru aceasta
alegem din fereastra Crosstabs butonul de comandă Cell ce are ca efect afişarea ferestrei
Crosstabs Cell Display.
Recodificarea variabilelor.
* Scorurile abilităţilor muzicale şi matematice sunt aceleaşi care au fost prezentate anterior în
capitolul VIII.1.
41
este important să se stabilească numărul de grupe de vârstă dorite. În acest caz se vor
alege două grupe de vârstă: copii mai mici de 10 ani şi copii mai mari de 10 ani.
Recodificarea rezultatelor
Pasul 1:
Pasul 2:
Se selectează „Transform”,
„recode”
Şi „Into Different Variables”
Pasul 3:
Se selecteaă „Vârstă” şi se
apasă butonul ◄ pentru a
introduce „Vârsta” în
caseta „Numeric Variable
– Output variable”.
Se introduce numele noii
variabile.
Se selectează „Change”
pentru a adăuga acest nume Se selectează „Old and New values”.
nou în caseta „Numeric variable
– Output Variable”.
42
Pasul 4:
Se selectează „Lowest
through” şi se scrie 9 în
caseta alăturată.
Se selectează „Value”
din meniul „new value”
şi se scrie 1 în căsuţa
alăturată.
Se selectează „Add” şi
se introduce „lowest
throught 9→1 „ în caseta
„Old→New”.
Pasul 5:
Se selectează
„Range: through
highest” şi se scrie
10 în caseta de
lângă el.
Se selectează
„value” şi se scrie
2 în caseta
alăturată.
Se selectează
„Add” şi se
introduce „10
through
Highest→2” în
caseta „Old→New”. Se apasă „OK” în ecranul care va reapărea.
43
Pasul 6:
Noua variabilă şi valorile sale sunt
afişate în meniul „Data View”.
CURS 4
INDICATORI STATISTICI
44
Noţiunea de indicator şi funcţiile indicatorilor
Compararea se face prin diferenţă sau prin raport. Prin diferenţă se compară
numai indicatorii absoluţi cu acelaşi conţinut şi exprimaţi în aceeaşi unitate de măsură.
Prin raport se pot compara indicatorii cu acelaşi conţinut sau conţinut diferit, dar aflaţi
în relaţie de interdependenţă.
17
Benţea, M, Munteanu, G , 2007 – Elemente de statistică economică şi socială, Ed. “Andrei Şaguna”, Constanţa,p. 59
45
Indicatorii tendinţei centrale sunt indicatori sintetici cu ajutorul cărora se
exprimă într-o singură măsură ceea ce este tipic, esenţial, stabil, obiectiv şi
caracteristic într-o serie de date numerice.
Media aritmetică ( )
Considerăm că termenul de medie este cel mai uşor de înţeles din întreaga
statistică.
46
Deci ce este media? Media aritmetică este indicatorul care se utilizează cel
mai frecvent pentru caracterizarea tendinţei centrale.
Media reprezintă valoarea care înlocuind toţi termenii unei serii nu modifică
nivelul totalizator şi se calculează ca suma valorilor unei variabile raportată la numărul
măsurătorilor. Aceasta este media aritmetică (Opariuc, 2009, p. 75), deoarece în
statistică mai discutăm şi de media geometrică, media caracteristicilor alternative,
media pătratică, media rangurilor etc. Aceste concepte le întâlnim însă mai rar în
domeniul ştiinţelor socio-umane şi prin urmare nu vom face decât să le amintim.
Media este un model ipotetic , un model statisatic care reprezintă tendinţa, direcţia
spre care connverg datele (ibidem).
Exemplu: Vârsta a 7 studenţi de la facultatea de psihologie este de 25, 26, 32, 33, 40,
22, 26, 24. Vârsta medie este :
Modul (M0 )
47
Modul este categoria cu frecvenţa cea mai mare, el reprezintă valoarea cel
mai des întâlnită într-o serie statistică sau cea care are cea mai mare frecvenţă de
apariţie. Modul se mai numeşte şi dominanta seriei sau valoarea modală.
unde:
48
O serie de date statistice poate să aibă una sau mai multe valori modale. O
distribuţie cu un singur mod se numeşte unimodală, dacă are două valori dominante se
numeşte bimodală, iar dacă are mai mult de două moduri se numeşte multimodală.
Mediana (Me)
LocMe =
49
Exemplu: În cazul unui şir impar, mediana este valoarea de la mijlocul unui şir. Dacă
reluăm exemplul anterior, şi mai adăugăm un scor, obţinem:
De data aceasta, la mijlocul acestui şir găsim valoarea 17, valoarea medianei.
Observăm că n = 7.
LocMe = =
Altfel spus, mediana nu este altceva decât poziţia rangului din mijloc în şirul
ordonat de date. Într-o serie de la 1 la 7, pozi ţia din mijlocul şirului este evident, poziţia 4.
Acesta este de altfel şi locul în care găsim mediana.
Scoruri: 9, 14, 15, 17, 18, 19, 20
Poziţia: 1, 2, 3, 4, 5, 6, 7
b) Dacă n este un număr par, există două valori situate în mijlocul
seriei.
- dacă datele sunt cantitative, mediana este media celor două valori din
mijloc
50
Exemplu: Se consideră următorul şir de date:
20, 10, 15, 18, 21, 22
Pentru a calcula mediana, primul pas este acela de a ordo na crescător sau
descrescător aceste date. Ordonând crescător şirul de mai sus, obţinem:
Să se calculeze mediana.
Se ordonează datele crescător, astfel : 10, 15, 18, 20, 21, 22.
Me =
După definiţia medianei, în cazul nostru avem 6 valori. Prin urmare, mediana
va fi valoarea care împarte acest şir ordonat în două părţi egale. Fiind 6 valori,
mediana este situată la limita primelor 3 valori.
Deoarece şirul este un şir par, mediana se situează, în cazul nostru, între
valoarea 18 şi valoarea 20, mai precis la valoarea 19.
Exemplul 1: Pentru 80 de familii dintr-un bloc s-au sistematizat date privind numărul
membrilor de familie, rezultând distribuţia:
51
Numărul membrilor Numărul de familii Frecvenţe cumulate
de familie ni Fci
1 12 12
2 23 35
3 30 65
4 8 73
5 7 80
80
mai mare decât 40,5 este 65 varianta „trei membrii de familie” reprezintă varianta
mediană situată în mijlocul distribuţiei.
Exemplul 2: Se dă distribuţia:
Intervale ni Fci↑
10-20 20 20
20-30 10 30
30-40 10 40
40-50 15 55
LocMe =
50-60 25 80
; n = 90 60-70 10 90
Me =
52
unde:
Me = = 43,66
Me = 43,66
este mai puţin afectată de valorile extreme, luând în considerare doar poziţia
valorilor nu şi magnitudinea lor efectivă;
poate fi folosită într-o distribuţie pe intervale chiar şi în cazul în care primul
sau ultimul interval sunt deschise;
este un indicator ce poate fi folosit şi pentru date ordinale;
Dezavantajele medianei:
53
Cuvântul „amplitudine” provine de la termenul englezesc „range” şi se calculează ca
diferenţa între nivelul maxim şi nivelul minim al caracteristicii.
A = xmax - xmin
Amplitudinea absolută are dezavantajul că poate fi influenţată de o singură valoare
aflată la extremitatea distribuţiei (Popa, 2008).
A% =
QUARTIELE
Quartilele (Q) sunt percentile care împart distribuţia în patru segmente egale,
ele delimitând cele 25% din observaţii. Quartilele sunt în număr de trei: Q 1 (percentila
25), Q2 (percentila 50 sau mediana), Q3 (percentila 75).
54
Q3 – este cuartila superioară;
Se mai numeşte variaţie medie, deviaţie medie, abatere absolută medie sau
abatere liniară medie şi se poate calcula atunci când media este un bun indicator al
tendinţei centrale. Acest indicator informează asupra modului în care se abat, în valori
absolute, rezultatele de la medie, acordând aceeaşi pondere tuturor variabilelor.
Abaterea medie se poate calcula pe date grupate sau pe date discrete. (Opariuc, 2009,
p. 123).
Abaterea patratică medie este radacina patrată din media aritmetică a pătratelor
abaterilor valorilor observate în raport cu media lor aritmetică 22
. Ea măsoară
modul în care rezultatele se împrăştie în jurul mediei, valorile mari indicând un grad
mare de împrăştiere. Cu alte cuvinte, abaterea standard este un indicator care ne arată
în ce măsură modelul statistic se potriveşte cu modelul real (Opariuc, 2009, p. 129).
Abaterile mici, indică faptul că valorile sunt uşor distanţate de medie, în
timp ce abaterile mari, arată că datele sunt distanţate, împrăştiate în jurul mediei, care,
nu mai este reprezentativă. Abaterea standard se exprimă în aceleaşi unităţi de măsură
ca şi media
Proprietăţile abaterii standard (Popa, 2008, p. 70):
- dacă se adaugă /scade o constntă la fiecare valoare a unei distribuţii,
abaterea standard nu este afectată;
- dacă se multiplică/divide fiecare valoarea a unei distribuţii cu o constantă,
abaterea stabdard se multiplică/divide cu acea constantă.
22
Petruş, Al., 2005 – Introducere în statistica socială, Editura Paralela 45, Piteşti, p. 52
56
Coeficientul de variaţie ( )
Cu cât nivelul lui este mai apropiat de zero cu atât variaţia este mai redusă,
colectivitatea este mai omogenă, media având un grad mai ridicat de
reprezentativitate; cu cât valoarea sa este mai departe de zero, cu atât variaţia este mai
intensă, colectivitatea mai eterogenă, iar media are un nivel de semnificaţie mai scăzut.
57
- abaterea standard – este cea mai utilizată pentru scalele de măsurare
interval /raport, deoarece realizează cea mai bună combinaţie între
calitatea estimării şi posibilitatea de a fundamenta inferenţe statistice;
- amplitudinea - este un indicator nesigur, care nu poate fi calculat în cazul
scalelor nominale;
Abaterea standard.
Abaterea standard este un indice care arată cât de mult deviază (diferă) unele
scoruri „în medie” faţă de media setului de scoruri din care acestea fac parte.
Abaterea standard poate fi folosită şi pentru a transforma scoruri pentru
variabile foarte diferite în scoruri Z (sau standard), care sunt uşor de comparat şi
însumat.
Vârstă 20 22 25 26 35 38 28 24 23 34
Introducerea datelor.
Pasul 1:
Pasul 3:
Se selectează:
„Analyze”
„Descriptive Statistics”
„Descriptives…”
Pasul 4:
Se selectează „vârsta” şi apoi se
apasănbutonul ► pentru a o i
ntroduce în lista de variabile.
Se selectează „Options…”
Pasul 5:
Se deselectează „Mean”,
„Minimum”, „Maximum”.
Se selectează „Continue”.
59
reapare.
Interpretarea output-ului.
CURS 5
Varsta 10 5,740
Forma unei distribuţii de frecvenţe se Valid N (listwise) 10
60
Asimetria se observă prin reprezentarea grafică prin histogramă sau poligonul
frecvenţelor, dar poate să fie măsurată prin indicatori specifici.
Poziţia indicatorilor tendinţei centrale în funcţie de forma distribuţiei (Popa,
2008, p. 72):
- perfect simetrice: (fig. 1);
- cu asimetrie pozitivă: (fig. 2);
- cu asimetrie negativă: (fig.3).
Mo me medie
Fig.1 fig.2
Medie Me mo
Fig.3
61
au poziţii diferite: mediana se plasează întotdeauna între mod şi medie, motiv pentru
care, ea este cea mai reprezentativă valoare pentru distribuţiile simetrice.
Media este afectată de valorile extreme şi din această cauză, ea nu est un indicator
veridic al tendinţei centrale atunci când este vorba de distribuţii puternic asimetrice.
(Popa, 2008).
Dar o distribuţie este caracterizată şi prin variabilitatea datelor. O serie care
are variabilitatea mai mică va fi mai pronunţată oblică, iar într-o serie mai împrăştiată
oblicitatea se va atenua.
Coeficientul Yule
Acest coeficient este foarte uşor de calculat, însă ţine cont doar de câteva valori
– valorile quartile – şi nu de toate valorile din distribuţie, fapt care îi limitează precizia
şi se consideră că este doar un coeficient elementar al simetriei.
Exemplu:
Pentru o distribuţie s-au stabilit următoarele rezultate:
Q1= 150
Me= 130
Q3=140.
62
Să se calculeze valoarea coeficientului de asimetrie Yule.
Răspuns. Coeficientul de asimetrie yule se calculează după relaţia:
Casq= = = = = -3
63
Pentru ca o distribuţie să fie considerată normală, trebuiesc îndeplinite
simultan următoarele condiţii:
Să fie unimodală – adică să existe un singur mod, o singură categorie cu
frecvenţă maximă;
Să fie simetrică faţă de medie – adică să nu fie deplasată spre stânga sau spre
dreapta;
Să fie normal boltită – adică să nu fie nici ascuţită şi nici „turtită”;
Toţi aceşti termeni se referă la acelaşi lucru, distribuţia normală.
De asemenea, limitele din stânga şi din dreapta ale unei distribuţii normale tind
spre valoarea zero, pe care însă nu o întâlnesc niciodată. O distribuţie perfect normală
are aceeaşi valoare pentru toţi cei trei indicatori ai tendinţei centrale (media, mediana
şi modulul), adică media = mediana = modul.
În practică, acest lucru se întâlneşte extrem de rar şi, de aceea, ne punem
problema între ce limite putem considera o distribuţie ca fiind normală.
În exemplul următor este elaborat un tabel de frecvenţă şi o histogramă cu
scorurile obţinute la evaluarea coeficientului de inteligenţă pentru 20 de jurişti.
Introducerea datelor.
Pasul 1:
Pasul 2:
În „Data View”
din „Data Editor”
se introduc
scorurile obţinute
la „Atenţie” în
prima coloană.
64
Pasul 3:
Se selectează
„Analyze”,
„Descriptives
Statistics” şi
Frequencies…”
Pasul 4:
Se selectează
„atenţie” şi apoi
se apasă butonul
►pentru a
introduce în lista
de variabile.
Se apasă „OK”.
Interpretarea Output-ului
65
Histograme.
Interpretarea output-ului
IV.5. Modalitatea.
Frecvenţa de apariţie
66
Înălţimea subiecţilor.
determină distribuţii bimodale, trimodale, în general polimodale, distribuţii ce nu pot fi
considerate ca fiind distribuţii normale.
Figura nr. 1.
O distribuţie similară distribuţiei din figura 1, este o distribuţie bimodală (figura 2),
deoarece observăm existenţa a două categorii cu frecvenţa egală şi maximă.
Figura nr. 2.
IV.6. Simetria.
67
centrale. Atunci când rezultatele tind către valori mici, sunt aglomerate în partea
stângă a distribuţiei, avem de a
spre dreapta (sau distribuţie skewness pozitiv). Când rezultatele tind către valori mari,
se aglomerează în partea dreaptă a distribuţiei, vorbim despre o distribuţie asimetrică
la stânga (skewness negativ). Iată că, asimetria este dată de panta distribuţiei şi nu de
vârful acesteia, aşa cum tratează şi consideră unii.
În figura nr. 3, distribuţia „B” este o distribuţie simetrică. Distribuţia „A” este o
distribuţie asimetrică la dreapta (skewness pozitiv) unde predomină scorurile scăzute
(mici), în timp ce distribuţia „C” este o distribuţie asimetrică la stânga (skewness
negativ) în care predomină scorurile mari.
68
mai mici decât media este perfect simetrică cu grupa subiecţilor cu scoruri mai mari
decât media. Acest aspect este menţionat din raţiuni teoretice. În practică nu vom
întâlni o distribuţie perfect normală, ci o distribuţie care poate fi acceptată ca fiind
normală.
iar dacă în distribuţie predomină scorurile mici, atunci scorurile mari sunt considerate
ca scoruri extreme. Ştim de la analiza preciziei indicatorilor tendinţei centrale, că într-
o serie de date în care întâlnim scoruri extreme mari, media tinde să le pună în valoare.
Iată că acest fapt este ilustrat grafic în figura de mai sus. Observaţi relaţia existentă
într-o asemenea distribuţie: Mo<Me<m. Această relaţie este relaţia caracteristică a
unei distribuţii asimetrice pozitiv.
Într-o distribuţie
asimetrică la stânga (distribuţie
skewness negativ, vezi figura
69
alăturată), predomină scorurile mari. În acest caz, modulul este valoarea situată cel mai
la dreapta în şirul de date, iar mediana este mai mare decât media. Evident, mediana
fiind valoarea care împarte şirul ordonat de date în două părţi egale,
Figura nr. 6
iar dacă în distribuţie predomină scorurile mari, atunci scorurile mici sunt considerate
ca scoruri extreme. Ştim, de la analiza preciziei indicatorilor tendinţei centrale, că într-
o serie de date în care întâlnim scoruri extreme mici, media tinde să le pună în valoare.
Iată că acest fapt este ilustrat grafic în figura de mai sus. Observaţi relaţia existentă
într-o asemenea distribuţie: Mo>Me>m. Această relaţie este relaţia caracteristică a
unei distribuţii asimetrice negativ.
70
platicurtică, turtită, iar distribuţia „A” este o distribuţie normală sub aspectul boltirii,
sau mezocurtică.
Figura nr. 7
Se observă că boltirea nu este altceva decât simetria pe axa verticală (O Y), spre
deosebire de simetria propriu zisă, deplasarea valorilor pe axa orizontală (O X). Dacă la
simetrie se vorbeşte de frecvenţe (care sunt cele mai frecvente scoruri obţinute, unde
se concentrează acestea? În eşantionul sunt mai degrabă subiecţi scunzi sau subiecţi
înalţi? Ori poate există un echilibru între subiecţii scunzi şi cei înalţi), la boltire se
discută de valori, de modul în care aceste valori se grupează în jurul tendinţei centrale
(sunt mai grupate valorile în jurul mediei sau, din contra, foarte împrăştiate.)
La fel ca şi simetria, boltirea nu poate fi apreciată pur „ochiometric” ci avem
nevoie şi aici de anumiţi coeficienţi de boltire. Pearson a discutat despre boltire în
termeni de momente, la fel ca şi simetria, rezultând astfel coeficientul de boltire sau
coeficientul kurtosis.
De exemplu, dacă într-o clasă de 30 de elevi, 27 obţin medii anuale între 7,9 şi
8,1. Iată că, doar două zecimi diferenţiază între aproape întreg efectivul de elevi. Nu
avem nici o problemă cu repartizarea celorlalţi trei elevi. Pe aceia îi vom considera ori
foarte buni, ori foarte slabi, în funcţie de media obţinută – sub 7,9 sau peste 8,1. Ce
putem face însă cu cei 27 de subiecţi? Suntem, iată, în imposibilitatea de ai-i ierarhiza
71
în vreun fel. Dacă presupunem că cei trei subiecţi au note mai mici de 7,9, atunci cine
va lua, dintre cei 27 de elevi, premiul I, cine va lua premiul II şi cine va lua premiul
III. Decizia ar fi, după cum se poate vedea, extrem de dificilă, dacă nu chiar
imposibilă. Singura variantă în acest caz, ar putea fi creşterea preciziei. Nu calculăm
media cu o singură zecimală, ci cu 2, 3 sau 4 zecimale. Totuşi, sunt situaţii în care un
asemenea nivel de precizie este ridicol. O evaluare în care distribuţia rezultatelor este
leptocurtică, este o evaluare ce nu poate diferenţia între subiecţii de nivel mediu, iar o
curbă leptokurtică nu este o distribuţie normală;
Analiza unei distribuţii sub aspectul normalităţii este primul pas pe care îl facem
în orice prelucrare de date. Deoarece, în funcţie de rezultatul acestei analize, vom
putea alege tehnicile şi procedeele statistice pe care le putem folosi, această etapă o
întâlnim, de obicei, la începutul oricărui raport de cercetare, imediat după descrierea
eşantionului.
72
CURS 6
Coeficienţi de corelaţie.
Coeficienţi de corelaţie Pearson şi Spearman.
73
scorurile pentru cealaltă variabilă descresc) şi r = +1 (corelaţie perfectă pozitivă: ceea
ce înseamnă că scorurile unei variabile se măresc odată cu creşterea scorurilor
celeilalte variabile). Absenţa oricărei legături (corelaţii) dintre variabile se traduce prin
r =0.
O corelaţie de 1,00 indică o asociere perfectă între cele două variabile. Cu alte
cuvinte, o diagramă scatter a celor două variabile va arăta că toate punctele sunt
conţinute de o singură dreaptă. O valoare de 0,00 indică faptul că toate punctele din
diagrama scatter sunt dispersate aleatoriu în jurul oricărei drepte desenate pe această
diagramă a datelor sau sunt aranjate într-o manieră curbilinie.
În continuare vom ilustra calculul corelaţiei Pearson, o diagramă scatter şi coeficientul de
corelaţie Spearman, folosind pentru aceasta datele din tabelul următor, care reprezintă scoruri ale
abilităţilor muzicale şi matematice pentru 10 copii.
muzica 3 7 8 9 9 6 4 3 4 7
matematică 7 5 4 4 5 8 9 9 7 6
Introducerea datelor.
Pasul 1:
În „Variable „View” din „Data Editor” se
denumeşte primul
rând „muzică”
şi al doilea rând „matematică”. * Se înlătură cele două zecimale.
Pasul 2:
Corelaţia Pearson.
Pasul 1:
74
Se selectează:
„Analyze”,
„Corelate”,
„Bivariate…”
Pasul 2:
Se selectează „Muzică” şi
„Matematică” şi apoi se apasă
butonul ►pentru a le introduce
în lista de variabile aşa cum este
arătat în figura din dreapta.
Se apasă „OK”.
Interpretarea output-ului.
Corelaţia dintre
„matematică” şi „muzică”
este - 0,845 La un test de
semnificaţie, two-tailed la
nivelul de probabilitate 0,01
sau mai mic, corelaţia este
statistic semnificativă.
Numărul cazurilor pe care este bazată corelaţia este 10. Informaţia apare şi în această
celulă.
*One tailed – dacă distribuţia este unidirecţională.
Two-tailed – dacă distribuţia este bidirecţională.
Raportarea output-ului.
75
Nivelul de semnificaţie exact, cu trei zecimale, este 0,002. Înseamnă că nivelul de
semnificaţie este mai mic decât 0,01.
Interpretarea psihologică va fi: „Există o relaţie negativă semnificativă între
abilităţile muzicale şi cele matematice , ceea ce înseamnă că, copii cu nivel ridicat al
abilităţilor muzicale au un nivel scăzut al abilităţii matematice”.
Un coeficient de corelatie poate fi calculat corect numai când datele ambelor variabile se refera
la esantioane si fiecare este ales independent.
Un coeficient de corelatie poate fi apropiat de ą1, deci ne va indica o corelatie puternica, dar ea
poate fi nesemnificativa din cauza volumului mic a esantionului studiat.
Corelatia nu trebuie identificata cu cauzalitatea, in sensul ca observatiile a 2 variabile se pot
corela foarte bine fara sa avem motive logice si stiintifice ca una dintre variabile poate fi cauza
celeilalte.
Pasul 1:
Identic corelaţiei Pearson se
selectează „Analyze”, „Correlate”,
„Bivariate” şi variabilele care se
doresc pentru corelaţie.
Se selectează „Spearman” şi se
deselectează Pearson (dacă nu se
doreşte ca şi corelaţie).
Se apasă „OK”.
76
Interpretarea output-ului.
Raportarea output-ului.
Corelaţia raportată cu două zecimale este – 0,84.
Interpretarea psihologică va fi: „Există o corelaţie negativă semnificativă între
abilităţile muzicale şi cele matematice, ceea ce semnifică faptul că, cei cu un nivel
ridicat al abilităţii muzicale au abilităţi matematice scăzute şi viceversa”.
Coeficientul de corelatie al rangurilor (Spearman) testeaza gradul de corelare intre 2 variabile
calitative; este alternativa neparametrica a “coeficientului de corelatie Pearson”.
Acest coeficient variaza intre -1 si +1. O valoare apropiata de +1, inseamna ca suma patratelor
diferentelor este aproape nula, deci avem clasamente identice.
O valoare apropiata de 0, inseamna necorelarea variabilelor, iar valoarea apropiata de -1 pune in
evidenta discordanta maxima a variabilelor.
Diagrama scatter.
Pasul 1:
Se selectează:
„Graphs”
77
„Legacy Dialogs”
„Scatter Dot”
Pasul 2:
Se selectează „define”
din moment ce „simple”
este deja selectat.
Pasul 3:
Se apasă „OK”.
Interpretarea output-ului.
78
Forma împrăştierii rezultatelor este relativ în linie dreaptă, indicând mai degrabă o
relaţie în linie dreaptă decât o relaţie curbilinie.
Linia este de la colţul stânga sus până în dreapta jos, ceea ce indică o corelaţie
negativă.
*Dacă relaţia este curbilinie atunci corelaţiile Pearson şi Spearman pot fi înşelătoare.
Raportarea output-ului.
79
CURS 7
80
Definiţie: O ipoteză reprezintă o prezumţie clară, explicită şi verificabilă,
referitoare la relţiile sau diferenţele existente între două sau mai multe variabile.
(Opariuc, 2009, p. 197).
Ipotezele se folosesc atât în cazul studiilor care urmăresc stabilirea unor relaţii
dintre variabile (studii corelaţionale) cât şi pentru cercetările care vizează existenţa
unor diferenţe dintre variabile (studii factoriale).
În toate domeniile ştiinţelor aplicate este necesar să se recurgă la
experimentarea unor noi metode, tehnologii, produse, făcându-se presupuneri asupra
superiorităţii lor faţă de procedeele curent folosite în vederea luării unei anumite
decizii. Totodată este necesar să verificăm dacă în timp s-au produs modificări în ceea
ce priveşte parametrii populaţiei sau există diferenţe semnificative între diferite
grupuri ale aceleiaşi populaţii. Toate aceste presupuneri constituie nişte ipoteze a căror
valabilitate trebuie verificată şi deoarece această verificare se face statistic (operându-
se cu date obţinute în urma unei selecţii statistice dintr-o populaţie) ele se denumesc
ipoteze statistice.
Verificarea concordanţei rezultatelor experienţei cu una dintre ipoteze se face pe
baza unui criteriu statistic furnizat de un ansamblu de reguli de prelucrare a datelor
numit test statistic. Cu ajutorul lui se ajunge la decizia de a respinge o ipoteză şi a
accepta alta. Luarea unei decizii cu privire la o ipoteză statistică se numeşte testarea
ipotezei.
O ipoteză se numeşte simplă dacă ea determină în mod univoc repartiţia
specificată a variabilei aleatoare şi compusă dacă este formată dintr-un număr finit de
ipoteze simple.
Testele statistice furnizează criterii pe baza cărora se acceptă sau se respinge o
ipoteză cu privire la o populaţie statistică pe baza observaţiilor făcute într-un eşantion
aleator extras din ea.
81
Alegerea testului nu depinde de eşantion, de aceea procedeul de testare a
ipotezei şi ipoteza se pot specifica înainte de selecţie.
Trebuie subliniat faptul că printr-un test statistic nu se stabileşte adevărul ci doar
dacă rezultatele selecţiei sprijină ipoteza formulată şi cu ce probabilitate.
Definiţie: Procedeul de verificare a unei ipoteze statistice se numeşte test sau criteriu
de semnificaţie.
Verificarea ipotezei nule se face pe baza unui eşantion de volum n, extras din
populaţia X. Dacă punctul definit de vectorul de sondaj x1, x2, ... , xn cade în regiunea
critică Rc, ipoteza H0 se respinge, iar dacă cade în afara regiunii critice R c, ipoteza H0
se acceptă.
Eroarea pe care o facem eliminând o ipoteză nulă, deşi este adevărată se
numeşte eroare de genul întâi.(Popa, 2008).
Probabilitatea comiterii unei astfel de erori reprezintă riscul de genul întâi (α) şi
se numeşte nivel sau prag de semnificaţie.
82
Nivelul de încredere al unui test statistic este (1- α), iar (1- α)·100 reprezintă
probabilitatea de garantare a rezultatelor.
Eroarea pe care o facem acceptând o ipoteză nulă, deşi este falsă se numeşte
eroare de genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se
notează cu β. Puterea testului statistic este (1- β).
Testul „t”:
Este folosit pentru evaluarea semnificaţiei statistice a diferenţei dintre
mediile pentru două seturi de scoruri; ele ajută la elucidarea întrebărilor comune ale
cercetătorilor dacă valoarea medie pentru un set de scoruri diferă de valoarea medie
pentru alt set de scoruri;
83
Deoarece, în cercetare, în mod invariabil, se lucrează cu eşantioane de oameni
extrase din populaţia latentă, trebie să estimăm dacă orice diferenţă pe care o obţinem
între cele două seturi de valori este semnificativă statistic.
85
18 luni 3 2 4 5 2 3 2 4
24 luni 5 4 7 8 3 4 4 6
Introducerea datelor.
Pasul 1:
În „Variable View” din „Data Editor” se
etichetează primul rând cu „optsprezece” şi al
doilea rând cu „douăzeci şi patru”.
* Se înlătură cele două zecimale.
Pasul 2:
Pasul 1:
Se selectează:
„Analyze”
„Compare Means”
„Paired-Samples T Test…”
Pasul 2:
Se selectează „optsprezece”
şi se pune această variabilă
lângă eticheta „Variable1”
sub „Curent Selections”.
Se selectează „douăzeci şi
patru” şi se pune această
variabilă lângă eticheta
„Variable2” sub „Curent
Selections”.
Se apasă butonul ►pentru a
pune aceste două variabile
în lista variabilelor relaţionale.
Se apasă „OK”.
86
Interpretarea output-ului.
Primul tabel arată media, numărul de cazuri şi abaterea standard pentru cele
două grupuri. Media pentru „optsprezece” este 3,13 şi abaterea standard este 1,126.
Al doilea tabel arată gradul în care cele două seturi de valori sunt corelate.
Corelaţia dintre ele 0,94. Aceasta este o corelaţie mare, nivelul de semnificaţie fiind de
0,00.
Primele trei coloane care conţin cifre sunt componentele fundamentale ale
calcului unui Test t relaţionat. Media de -2,000 este de fapt diferenţa dintre mediile pe
18 şi 24 luni, deci în realitate este media diferenţei. Valoarea lui t este bazată pe
această medie a diferenţei (-2,00), divizată cu eroarea standard a mediei (0,267).
Calculul oferă valoarea lui t (-7,483).
87
Raportarea output-ului.
Testul t.
Compararea a două eşantioane de
scoruri necorelate/nerelaţionate.
_________________________________________________________________________________________________________________
88
* Testul t pentru eşantioane independente este cel mai des folosit.
Testul t pentru eşantioane independente este utilizat atunci când cele două
seturi de variabile provin din două eşantioane diferite de oameni.
Procesarea unui Test t pentru eşantioane independente este ilustrată cu datele
din tabelul următorcare arată valorile la un test de emotivitate pentru 10 copii care
provin din familii biparentale şi 10 copii care provin din familii monoparentale.
Scopul analizei este de a aprecia dacă valorile emotivităţii sunt diferite la copii care
provin din familii cu doi părinţi faţă de copii care provin din familii monoparentale.
Familii 12 18 14 10 19 8 15 11 10 13
biparentale
monoparentale 6 9 4 13 14 9 8 12 11 9
Introducerea datelor
Pasul 1:
În „Variable View” din „Data Editor”, se etichetează pe rând „Familii”. Aceasta
va defini cele două tipuri de familii.
89
separat pentru cele două grupe; valorile 1 din prima coloană indică copii proveniţi din familiile
biparentale şi valorile 2 indică copii proveniţi din familiile monoparentale. Astfel, este utilizată o
singura variabilă dependentă (în cazul nostru „emotivitatea”) şi altă coloană pentru variabila
independentă (familia). Cu alte cuvinte, fiecare rând în parte reprezintă un anumit copil şi variabilele
sale dependente şi independente sunt introduse separat în „Data Editor”.
Pasul 1:
Se selectează:
„Analyze”
„Compare Means”
„Independent Samples T test…”
Pasul 2:
Se selectează „Emotivitate” şi
apoi se apasă butonul ► pentru
a introduce această variabilă în
lista variabilelor de test.
Pasul 3:
Se introduce:
- valoarea 1 (codul pentru familiile
- biparentale) lături de eticheta
- „Group 1”
90
- valoarea 2 (codul pentru familiile
- monoparentale) alături de eticheta
- „Group 2”.
Se selectează „Continue”
Interpretarea output-ului.
Primul tabel arată, pentru fiecare grup în parte, numărul de cazuri, media şi
abaterea standard. Media pentru familiile biparentale este 13,00. După cum se observă
există o diferenţă între cele două tipuri de familii, dar, întrebarea este dacă mediile
diferă semnificativ.
Valoarea lui t este media diferenţei (3,500) divizată cu eroarea standard a
diferenţei (1,493), diviziune ce produce valoarea 2,345.
91
lucru care se întâmplă aici (0,642) semnificativ la 0,031 pentru nivelul
se foloseşte informaţia de pe acest two-tailed.
prim rând.
Dacă valoarea semnificaţiei pentru
Testul Levene este mai mică de 0,05,
se foloseşte informaţia de pe al doilea
rând (al doilea rând oferă cifrele pentru
cazul în care varianţele sunt diferite
semnificativ).
Raportarea output-ului.
CURSUL 8
92
Câ nd am discutat de abaterea standard, am vă zut că aceasta reprezintă
um mijloc de raportare a modului în care rezultatele se „împră ştie” în jurul ei. De
asemenea, am spus că , dacă cunoaştem media şi abaterea standard, putem foarte
uşor să preciză m probabilitatea ca un scor pară se situeze într-o anumită poziţie.
Pentru disciplinele socio-umane, acest lucru este vital, deoarece atunci câ nd
mă sură m, practic preciză m poziţia pe care o are un subiect în raport cu o
populaţie de referinţă .
La baza acestui concept stau notele „z”. Notele „z” reprezintă diferenţa
dintre scorul observat şi medie, în termeni de abatere standard, cu alte
cuvinte, notele „z” nu sunt altceva decâ t distanţele la care se situează scorurile
particulare în raport cu media grupului iar această distanţă este exprimată
standardizat.
93
Teoretic, notele „z” sunt note
obţinute pe o „curbă” cu media 0 şi
abaterea standard 1. În acest caz, o
distribuţie normală are practic notele
„z” cuprinse între -3 şi +3, între
aceste note regăsindu-se peste 99%
din populaţie, după cum observaţi în
figura de alături. (Opariuc, 2009, p.
164).
• Media unei distribuţii „z” este egală cu zero, afirmaţie ce rezultă din
proprietatea acestui indicator de a se diminua atunci câ nd scă dem o constantă
din fiecare scor particular. Deoarece din formulă rezultă această diferenţă (se
scade fiecare scor particular din medie), în final media va ajunge la valoarea zero;
94
formulă , observă m că acea constantă la care împă rţim este chiar abaterea
standard iar împă rţirea a două numere egale are ca rezultat 1.
Notele „z” sunt note direct calculabile, utilizâ ndu-se media şi abaterea
standard şi reprezintă „temelia” orică rui proces de standardizare.
Scorurile Z
Pasul 1:
La pasul 4 selectaţi „Save
standardized values as variables”.
Se apasă „OK”.
Pasul 2:
Raportarea output-ului.
95
Totuşi, principalul dezavantaj al notelor „z” este acela că sunt puţin intuitive.
Trebuie să ştim bine ce înseamnă distribuţia normală pentru a înţelege corect
semnificaţia acestor note. În plus, au valori pozitive şi negative, ceea ce le face, iarăşi,
greu de utilizat.
Testul Chi-Square.
Diferenţe între frecvenţele eşantioanelor.
_________________________________________________________________________________________________________________
96
Tabel 1. Relaţia dintre site-urile accesate şi genul biologic.
Respondenţi Site-uri anunţuri muzică
matrimoniale
Feminin 27 14 19
Masculin 17 33 9
Procesarea Testului chi-square folosind două sau mai multe eşantioane este
exemplificată cu datele din tabelul anterior, care arată care dintre cele trei tipuri de
site-uri este preferat de către un eşantion de 119 adolescenţi de ambele sexe.
Pasul 1:
Pasul 2:
97
Se introduc valorile adecvate în meniul
„Data View” din meniul „Data Editor”.
Fiecare rând reprezintă una dintre cele şase
celule din tabelul prezentat anterior
Paul 3:
Pasul 4:
Se apasă „OK”.
Se selectează:
„Analyze”
„descriptives statistics”
98
„Crosstabs…”(tabele de asociere)
Pasul 2:
Se selectează „Gen” şi se
apasă butonul ► pentru
„Row(s)”: pentru a-l
introduce în caseta respectivă.
Se selectează „Statistics…”
Pasul 3:
Se selectează „Chi-square”.
Se selectează „Continue”
Pasul 4:
Se selectează „Cells..”
Pasul 5:
În secţiunea „Counts” se selectează
„Expected”. Se selectează
„Unstandardized” în secţiunea
„Residuals”. Se selecteaze „Continue”,
99
apoi se apasă „OK în ecranul anterior
care reapare.
* Termenul „rezidual” se referă la diferenţe.
100
De exemplu: Frecvenţa sau numărul de
fete care spun că preferă site-rile de
matrimoniale este de 17, iar numărul anticipat
de probabilitate este 21,8, diferenţa dintre cele
două valori fiind de – 4,8.
101
Valoarea chi-square este de 13,518, care, rotunjită la un număr cu două zecimale,
devine 13,52. Gradul său de libertate este 2, iar probabilitatea two-tailed exactă este
0,001.
Sub acest tabel se mai poate vedea şi mărimea „minimum expected count” a
oricărei celule din tabel, care este 13,88 pentru ultima celulă (fetele care preferă site-
urile cu muzică). Dacă diferenţa minimă aşteptată este mai mică decât 5.0, atunci
trebuie să se acorde foarte multă atenţie Testului chi-square.
* Dacă se foloseşte un tabel 2x2 de tip chi-square şi apar frecvenţe anticipate reduse, este recomandat
să se folosească testul Fisher, pe care aplicaţia SPSS îl include în output în astfel de situaţii.
* Pentru o persoană neexperimentată aceste două posibilităţi de interpretare pot părea foarte
diferite, dar, practic, ele înseamnă acelaşi lucru.
102
CURS 9
REGRESIA
103
Relaţii exacte între fenomene şi procese social-economice nu pot fi însă
descrise oricât de multe caracteristici factoriale am lua în consideraţie, datorită
fenomenelor aleatoare care nu pot fi modelate sau explicate.
În cazul în care se ia în considerare o singură variabilă cauzală, regresia se
numeşte simplă, iar unul dintre modelele clasice cele mai utilizate pentru a explica
comportamentul unei variabile efect în funcţie de o singură variabilă independentă este
linia dreaptă.
Regresia mai poate fi:
104
Regresia.
Predicţia cu precizie.
_________________________________________________________________________________________________________________
Dacă există o relaţie între două variabile atunci sunt posibile estimarea sau
predicţia scorului unei persoane la o variabilă pornind de la scorul obţinut la cealaltă
variabilă. Cu cât este mai puternică corelaţia cu atât este mai bună predicţia. Variabila
independentă este variabila folosită pentru a realiza predicţia, aceasta fiind cunoscută
şi ca variabilă predictor sau variabila X.
*Este foarte important a nu se confunda variabila independentă cu cea dependentă. Cel mai
bun mod de a evita aceste probleme este de a examina scatterplot-ul sau diagrama scatter a relaţiei
dintre cele două variabile. Axa orizontală X este variabila independentă şi axa verticala Y este
variabila dependentă. Se poate investiga şi punctul de tăiere, acesta fiind punctul în care panta se
intersectează cu axa verticală.
Regresia devine o tehnică mult mai importantă atunci când sunt folosite mai
multe variabile pentru predicţia valorilor unei alte variabile.
În continuare este ilustrată procesarea unei regresii simple şi a unei diagrame de regresie
folosind datele din tabelul următor.
Scor muzica 3 7 8 9 9 6 4 3 4 7
Scor 7 5 4 4 5 8 9 9 7 6
matematică
Unul din principalele capitole ale statisticii are în vedere posibilitatea de a face predictii.
Desi nu se gasesc relatii perfecte în lumea reala, prin intermediul regresiei se pot face predictii ale
unei variabile, în functie de valoarea alteia. Predictia este procesul de estimare a valorii unei
variabile cunoscând valoarea unei alte variabile.
Regresia se leaga foarte mult de conceptul de corelatie. O asociere puternica între
doua elemente conduce la cresterea preciziei predictiei unei variabile pe seama alteia. Daca am
avea o corelatie perfecta (+1 sau –1) estimarea ar fi extrem de precisa
105
Introducerea datelor.
Pasul 1:
În „Variable „View” din „Data
Editor” se denumeşte primul
rând „muzică”
şi al doilea rând „matematică”.
* Se înlătură cele două zecimale.
Pasul 2:
Regresia simplă.
Pasul 1:
Se selectează:
„Analyze”
„Regression”
„Linear…”
Pasul 2:
Se selectează „matematica”
şi apoi se apasă butonul ◄ de
lângă eticheta „Independent(s)
pentru a introduce această
variabilă în căsuţa variabilei
(lor) independente.
Se selectează „Statistics…”
106
Pasul 3:
Se selectează „Continue”.
Se apasă „OK” din ecranul precedent
care reapare.
Interpretarea output-ului.
Acest tabel conţine datele esenţiale pentru analiza regresiei.
Constanta este 12,716. Acesta este punctul în care linia de regresie
intersectează axa verticală.
107
a variabilei “matematică” corelaţie Pearson dintre
valoarea variabilei “muzică” abilităţile muzicale şi
descreşte cu – 1,049. cele matematice.
În acest tabel, B este panta liniei de regresie (în SPSS fiind denumită coeficient de
regresie nestandardizat).
Intervalul de încredere de 95% pentru aceşti coeficienţi este de la -1,59 la -0,50.
Intervalul de încredere de 95% arată intervalul pantelor de regresie în care putem fi
siguri într-o proporţie de 95% că panta pentru populaţie se va găsi.
Cota denumită „Beta” are valoarea -0,845. Aceasta este de fapt corelaţia Pearson
între cele două variabile.
Regresia simplă - o variabila dependenta si una independentă
Scatterplot-ul de regresie.
Atunci când se realizează o regresie este recomandabilă cercetarea diagramei
scatter pentru cele două variabile.
Pasul 1:
Se selectează:
„Graphs”
„Legacy Dialog”
„Scatter/Dot”
Pasul 2:
Se selectează „define”;
„simple” este deja selectat.
Pasul 3:
108
Pentru a avea variabila „muzică” ca axă verticală, se selectează şi apoi se apasă
butonul ►de lângă căsuţa „Y Axis”
Pasul 4:
Se selectează „Elements” şi
„Fit Line at Total”.
Interpretarea output-ului.
109
* Linia de regresie oblică, de la stânga sus spre dreapta jos, indică o relaţie negativă între cele două
variabile.
Raportarea output-ului.
Eroarea standard
_________________________________________________________________________________________________________________
Stima de sine 5 7 3 6 4 5
110
IX. 1. Introducerea datelor.
Pasul 1:
Se introduc datele în „Data Editor”.
Se etichetează variabila „Stima”.
Pasul 1:
Se selectează:
„Analyze”
„Descriptive Statistics”
„Descriptive…”
Pasul 2:
Pasul 3:
Se selectează „continue”.
111
IX. 3. Interpretarea output-ului.
Eroarea standard (estimată) pentru medie a acestui eşantion este 0,577. este o
indicaţie a mediei cu care mediile eşantioanelor diferă de media populaţiei din care au
fost extrase.
testul oferă valoarea erorii standard a mediilor eşantioanelor ca fiind 0,58 (suma este
rotunjită la două zecimale) aceasta fiind valoarea medie cu care mediile eşantioanelor
(N=6) diferă faţă de media populaţiei.
tabelul include şi alte informaţii cum ar fi media (5,00), abaterea standard estimată a
populaţiei bazată pe acest eşantion, valorile minime şi maxime ale datelor.
ultima coloană oferă abaterea standard (estimată) a celor şase scopuri, care este 1,41.
CURS 10
Testele rangurilor.
Statistici nonparametrice.
112
În acest capitol vom vorbi despre Testul semnului şi Testul Wilcoxon
pentru date corelate (eşantioane perechi). Cu alte cuvinte, aceste teste sunt
echivalentele nonparametrice ale Testului t pentru eşantioane perechi.
Testul U Mann-Witney se foloseşte pentru date nerelaţionate, acesta fiind
echivalentul nonparametric al Testului T pentru eşantioane independente.
Pasul 2:
113
Se selectează:
„Analyze”
„Nonparametric Tests”
„Legacy dialog”
„2 Related Samples…”
Pasul 3:
Se selectează „Optsprezece”
şi „douăzecisipatru” şi se
apasă butonul ◄ pentru a
introduce aceste două
variabile în caseta „Test Pair
(s) List”.
Se deselectează „Wilcoxon”.
Se selectează „Sign”.
Se apasă „OK”.
114
Raportarea output-ului pentru testul semnului.
Se poate ignora primul dintre cele două tabele de output. Acestea indică
numărul de diferenţe negative (0), pozitive (8) şi inexistente (0) în ceea ce priveşte
115
datele ordonate după cele două vârste, şi media şi suma catalogate negative şi pozitive.
Valorile pentru „două zeci şi patru„ de luni sunt mai mari decât cele pentru
„optsprezece” luni.
Al doilea tabel indică nivelul de
semnificaţie al acestui test. În loc să
folosească tabelul valorilor critice,
computerul utilizează o formulă care
stabileşte o conexiune cu distribuţia Z.
Scorul Z este de – 2,558, care are o
probabilitate two-tailed de 0,011. Aceasta înseamnă că diferenţele dintre cele două
variabile sunt semnificative din punct de vedere statistic la un nivel de 5%.
Notele „z” reprezintă diferenţa dintre scorul observat şi medie, în termeni de abatere
standard, cu alte cuvinte, notele „z” nu sunt altceva decât distanţele la care se situează scorurile
particulare în raport cu media grupului iar această distanţă este exprimată standardizat.
Teoretic, notele „z” sunt note obţinute pe o „curbă” cu media 0 şi abaterea standard 1. În acest caz, o
distribuţie normală are practic notele „z” cuprinse între -3 şi +3, între aceste note regăsindu-se peste
99% din populaţie, după cum observaţi în figura de alături. (Opariuc, 2009, p. 164).
116
Scoruri nerelaţionate: Testul U Mann-Whitney.
Pentru procesarea unui test nonparametric pentru scoruri necorelate, vom folosi
datele din tabelul următor, care indică scoruri ale emotivităţii obţinute de 10 copii care
provin din familii biparentale şi 10 copii care provin din familii monoparentale.
Familii 12 18 14 10 19 8 15 11 10 13
biparentale
monoparentale 6 9 4 13 14 9 8 12 11 9
Pasul 1:
- este acelaşi ca şi cel prezenta la capitolul XI.
Pasul 2:
Se selectează:
„Analyze”
„Nonparametric tests”
„Legacy dialog”
„2 Independent Samples…
Pasul 3:
Se selectează „Emotivitate” şi
se apasă butonul
►pentru a introduce parametrul
„Emotivitate” în caseta „Test
Variable List”.
117
Se selectează „Familie” şi se
apasă butonul ◄pentru a
introduce „Familie” în caseta
„Grouping Variables”.
Pasul 4:
*Testul Mann-Whitney este utilizat pentru testarea diferenţelor dintre grupuri independente pentru
care variabila dependentă este exprimată în valori ordinale (de rang) sau atunci când nu suportă un
test parametric (testul t). (Popa, 2008, p. 333).
Se poate ignora primul dintre cele două tabele de output. Acest tabel indică
faptul că rangul mediu dat parametrului „Emotivitate” pentru primul grup (adică
valoarea 2) este 13,15, iar rangul mediu pentru al
doilea grup (adică valoarea 1) este de 7,85. Aceasta
înseamnă că valorile din grupul 2 (biparentale) au
tendinţa să fie mai mari decât cele din grupul 1
(monoparentale).
118
Al doilea tabel indică statistica de bază mann-Whitney, valoarea U fiind de 23,500,
ceea ce este semnificativ din punct de vedere statistic la un nivel de 0,043.
Computerul a listat şi un scor Z de -2,011, care este semnificativ la nivel de 0,044.
Aceasta este valoarea Testului Mann-Whitney atunci când se aplică o corecţie pentru
ranguri înrudite. După cum se poate vedea, aceasta a modificat nivelul de semnificaţie
doar marginal, de la 0,44 la 0,44.
119
CURS 12
120
Analiza de varianţă indică măsura în care câteva (două sau mai multe grupuri)
au medii foarte diferite. Această analiză resupune că fiecare dintre grupurile de scoruri
provine de la indivizi diferiţi.
Cu ajutorul testului parametric de analiză dispersională ANOVA se pot examina
două sau mai multe eşantioane independente pentru a determina dacă mediile
populaţiilor din care provin ar putea fi egale, putându-se pune astfel în evidenţă
influenţa factorului considerat sau a tratamentului efectuat.
Există mai multe tipuri de ANOVA, dar două dintre acestea sunt cele mai
frcevent folosite (Popa, 2008, p. 129):
- ANOVA unifactorială – se aplică atunci când avem o variabilă
depedentă măsurată pe o scală de interval/raport măsurată pentru trei sau
mai multe valori ale unei variabile independente categoriale.
Exemplu: scorul obţinut la testul de cunoştinţe statistice ale studenţilor de
la psihologie în funcţie de tipul de liceu absolvit (real, umanist, etc).
- ANOVA multifactorială – se aplică atunci când avem o singură variabilă
dependentă şi două sau mai multe variabile independente, fiecare având
două sau mai multe valori măurate pe o scală categorială (nominală sau
ordinală).
Exemplu: scorul obţinut la testul de cunoştinţe statistice ale studenţilor de
la psihologie în funcţie de tipul de liceu absolvit (real, umanist, etc) şi de
gen (masculin, feminin).
121
Practic, analiza de varianţă calculează variaţia dintre scoruri şi pe cea dintre
nivelul pe eşantioane.
Dacă două valori estimative sunt foarte diferite, înseamnă că variaţia datorată
variabilei independente este mai mare decât ne-am putea aştepta pe baza variaţiei
dintre scoruri. Dacă această disparitate este suficient de mare, diferenţa de la nivelul
variabilităţii este semnificativă din punct de vedere statistic. Acest lucru înseamnă că
variabila independentă are efect asupra scorurilor.
Analiza de varianţă poate fi dificil de interpretat atunci când se folosesc două
sau mai mult de două grupuri.
Cu ajutorul acestui tip de varianţă se studiază mărimea şi frecvenţa cu care
valorile reale ale unei caracteristici statistice se abat de la valorile teoretice calculate,
precum şi măsura în care aceste variaţii sunt dependente sau independente de factorul
de grupare.
Exemplu: variaţia salariilor primite de muncitori în funcţie de gradul lor de
calificare (se verifică în ce măsură gradul de variaţie a calificării muncitorilor
determină variaţia salariilor).
Analiza dispersională se aplică în special când datele provin dintr-o cercetare
selectivă, iar din cercetările anterioare se dispune de informaţii cu privire la gradul şi
forma de distribuţie a caracteristicilor în colectivitatea generală.
Pentru a efectua analiza dispersională trebuie să se înregistreze variaţia unei
caracteristici statistice, condiţionată de unul sau mai mulţi factori de grupare. În acest
sens, caracteristica a cărei variaţie se studiază se consideră ca variabilă rezultativă şi
se notează cu y, iar caracteristicile după care se face gruparea datelor se consideră
variabile independente sau factoriale şi se notează x1, x2, ... , xn.
122
Analiza de varianţă bifactorială pentru
scoruri nerelaţionate/necorelate.
_________________________________________________________________________________________________________________
privare de somn
3 ore 6 ore 9 ore
Consum alcool 14 16 20
10 14 22
15 23 30
Fără alcool 9 11 10
9 8 14
12 11 12
Pasul 1:
123
Se introduc datele. Cele ouă coduri pentru „Alcool” (1=alcool; 2= fără alcool) – în
prima coloană.
Cele trei coduri pentru „Privare de somn” se regăsesc în a doua coloană (1= 3 ore, 2=
6 ore, 3= 9 ore).
Pasul 2:
Se selectează:
„Analyze”
„General Linear Model”
„Univariate…”
Pasul 3:
Pasul 4:
Se selectează „Descriptives
statistics” şi „Homogeneity test”.
124
Se selectează „Continue”.
Se selectează „Add”
.
Se selectează „Continue”. Se apasă „OK” din ecranul anterior
care va reapărea-
Interpretarea output-ului.
125
Al treilea tabel de oferă informaţii referitoare la Testul Levene, care verifică
similaritatea varianţelor. Din moment ce semnificaţia acestui test este 0,085 (valoarea
care este mai mare decât 0,05), varianţele sunt similare
Al patrulea
tabel indică
nivelele de
semnificaţie
pentru cele două
variabile
„Alcool” şi
„Privare de
somn”, şi
interacţiunea
dintre acestea.
Pentru prima variabilă, cea a alcoolului, Raportul F este 22,891, ceea ce este
semnificativ la nivelul 0,000. Deoarece sunt numai două condiţii pentru ca acest efect
să se producă, se poate conhide că scorul mediu al uneia dintre condiţii este mult mai
mare decât pentru cealaltă.
Pentru a doua variabilă a privării de somn, aceasta este egală cu 5,797, valoare care
are un nivel exact de semnificaţie de 0,017. Astfel, Raportul f este semnificativ din
punct de vedere statistic la un nivel de 0,05, ceea ce înseamnă că mediile celor trei
condiţii legate de somn nu sunt similare.
Mediile care diferă de celelalte pot fi determinate ulterior prin folosirea testelor de
comparaţii multiple, cum este Testul t pentru eşantioane independente.
raportul F pentru interacţiunile dintre cele două variabile (Alcool şi Privare de
somn) este de 2,708 → nivelul de semnificaţie al acestui raport este de 0,107→ nu este
nicio interacţiune semnificativă.
126
Acest grafic este realizat pentru mediile celor şase condiţii. El a fost editat cu
ajutorul comenzii “Chart Editor”.
privare de somn
3 ore
22,50 6 ore
9 ore
Estimated Marginal Means
20,00
17,50
15,00
12,50
10,00
alcool
Raportarea output-ului.
127
Pentru a prezenta această procedură vor fi folosite informaţiile prezentate la
capitolul XV.
Date studiu
Grup 1 Grup 2 Grup 3
Tratament hormonal Tratament hormonal Placebo
8 4 4
11 2 6
8 4 4
Pasul 1:
Se introduc datele.
Se codifică cele trei
condiţii cu valorile 1, 2, 3.
Se etichetează „Hormon 1”,
„Hormon 2” şi „Placebo”
Pasul 2:
Se selectează:
„Analyze”
„Comparea Means”
„One-Way ANOVA”.
Pasul 3:
Se selectează „depresie” şi se
apasă butonul ►de lângă caseta
„Dependent List” – pentru a
introduce parametrul în casetă.
Se selectează „Condiţie” şi se
apasă butonul ◄ de lângă caseta
128
„Factor” – pentru a introduce
parametrul acolo.
Pasul 4:
Se selectează:
„Tukey”
„Duncan”
„Scheffe”.
Se apasă
„Continue”.
Se selectează „OK” în
ecranul care va apărea
din nou.
Interpretarea output-ului.
129
Dacă se foloseşte Testul Tukey al diferenţei semnificative oneste (HSD),
media de la grupul hormonului 1 este semnificativ diferită de media de la grupul
hormonului 2 (semnificaţia=0,06) şi semnificaţia de la media grupului Controlului
placebo (semnificaţia=0,020).
Subgrupele omogene.
Grupul hormonului 2 şi al
controlului Placebo
aparţin aceleiaşi
subgrupe, ceea ce
înseamnă că nu sunt
semnificativ diferite.
130
Tabelul final, numit „Subgrupele omogene”, enumeră grupurile de medii care nu
sunt semnificativ diferite între ele.
Dacă se ia în calcul aceste două rânduri pentru a se folosi în Testul Tukey HSD, în
acest caz există două subgrupe de medii. Subgrupa 1 indică faptul că mediile grupelor
hormonului 2 şi ale controlului placebo cu valorile 3,33 şi 4,67 nu diferă semnificativ.
Subgrupa 2 conţine doar media grupei hormonului 1, în valoare de 9,00. Astfel, media
grupului hormonului 1 este semnificativ diferită atât de media grupei hormonului 2,
cât şi de cea a gupelor de control placebo .
Toate cele trei teste prin comparaţii multiple sugerează acelaşi lucru: faptul că
există diferenţe semnificative între grupele hormonului 1 şi hormonului 2 şi între
grupele hormonului 1 şi cele ale controlului placebo. Alte diferenţe nu mai există.
Raportarea output-ului.
131
CURS 14
Orice demers statistic presupune un proces care trebuie să parcurgă mai multe
etape (Popa, 2008):
Prezentarea cadrului general al cercetării;
Prezentarea metodei şi a lotului de subiecţi;
Prelucrarea datelor;
Discutarea şi interpretarea rezultatelor;
Formularea concluziilor.
132
1. PREZENTAREA CADRULUI GENERAL AL CERCETĂRII.
Deşi pare cea mai simplă etapă a demersului ştiinţific, ea nu este deloc simplă
şi necesită un volum mare de cunoştinţe.
Se urmă reşte exprimarea cu claritate a tipului de studiu statistic care a fost
efectuat şi a obiectivelor urmă rite.
Obiectivele generale ale unei cercetă ri sunt formulate în urma unui cumul
de observaţii şi, eventual, în urma unui studiu metaanalitic. În ultima situaţie, este
necesară prezentarea rezultatelor studiului metaanalitic care a ghidat formularea
obiectivului general şi prin care se demonstrează lipsa de abordare sau
abordarea nepertinetă a problemei studiate.
Formularea ipotezelor este cea de-a doua etapă a unei cercetări ştiinţifice.
Definiţie: O ipoteză reprezintă o prezumţie clară, explicită şi verificabilă,
referitoare la relaţiile sau diferenţele existente între două sau mai multe variabile.
Ipotezele sunt formulate atât în cazul studiilor care urmăresc stabilirea unor
relaţii dintre variabile (numite şi studii corelaţionale) cât şi pentru cercetările ce
vizează existenţa unor diferenţe dintre variabile (studii factoriale). Clocotici (2000),
133
face diferenţa între ipotezele unilaterale, care se folosesc atunci când se cunoaşte
sensul, direcţia în care evoluează variabilele, şi ipoteze bilaterale, (care nu impun
direcţia de evoluţie a variabilelor).
Ipotezele unilaterale se utilizează în momentul în care avem o idee de
sensul, direcţia în care evoluează variabilele. Aceste ipoteze sunt mai precise şi
permit dezvoltarea unor studii pertinente, existâ nd şanse mai mari să fie
susţinute de analiza da-telor. O ipoteză unilaterală se recunoaşte după modul de
formulare, deoarece în enunţul acesteia regă sim direcţia de evoluţie a
variabilelor. De exemplu, dacă desfă şură m o cercetare care are ca scop analiza
legă turii dintre anxietate şi depresie, am putea formula o ipoteză unidirecţională
de tipul există o legătură pozitivă între nivelul anxietăţii şi nivelul depresiei”. În
această situaţie, ipoteza va fi susţinută numai în cazul în care legă tura dintre
anxietate şi depresie este pozitivă , adică în situ-aţia în care subiecţii cu anxietate
care manifestă şi puternice simptome depresive sau subiecţii cu anxietate mică
nu prezintă simptome depresive. Ipoteza nu se susţine dacă , de exemplu, subiecţii
cu anxietate mică manifestă puternice simptome de-presive (cazul unei corelaţii
negative). Deşi mult mai precisă , există în permanenţă riscul să nu putem susţine
ipoteza în condiţiile în care sensul formulat nu este reprezentat de datele cer-
cetă rii, chiar dacă în urma analizei pot rezulta şi alte sensuri specifice;
134
Ipoteza nulă şi ipoteza alternativă.
Observaţie: Într-o cercetare statistică există o singură ipoteză nulă şi una sau
mai multe ipoteze specifice.
Observaţie: Atât ipoteza nulă (H0) cât şi ipoteza alternativă (Hs) se referă la
populaţie, nu la eşantioane ca atare.
135
Primul prag reprezintă probabilitatea de 0,05 (5% sau 1 caz din 20
de cazuri);
Al doilea prag reprezintă probabilitatea de 0,01 (1% sau 1 caz din
100 de cazuri).
În litertura de specialitate, pragul de semnificaţie se notează cu p
sau
Observaţie: Pragul de semnificaţie permite respingerea ipotezei nule
atunci când există valori mai mici decât p (p < 0,05).
Aşa cum am precizat în capitolul anterior, cele mai multe cercetări riscă
apariţia unei erori de tip I (care este cea mai gravă eroare), având tendinţa de a
neglija apariţia erorii de tip II.
Eroarea de tip I corespunde pragului de semnificaţie de de 0,05 (5%), adică,
sunt şanse de 5% să se respingă ipoteza nulă în condiţiile în care s-ar dovedi
adevărată.
Eroarea de tip II corespunde pragului de semnificaţie de (0,1%), ceea ce
înseamnă că putem respinge ipoteza nulă dacă s-ar dovedi adevărată, şi mai multe
şanse să nu o respingem atunci când ea ar trebui respinsă.
Populaţia de interes trebuie definită cu claritate, aceasta fiind privită ca o
colecţie de date care descriu o anumită caracteristică a respectivelor obiecte.
136
domeniu şi de prezentarea clară şi precisă , în termeni cuantificabili, a obiectivelor
generale, specifice şi a eşantionului.
3. PRELUCRAREA DATELOR;
137
Analiza statistică va începe întotdeauna cu o inspecţie a valorilor obţinute (se va
face analiza sub aspectul formei, indicatorilor tendinţei centrale, valorilor excesive,
etc). Această analiză are ca scop obţinerea unei imagini de ansamblu a variabilelor de
interes (frecvenţe, tendinţa centrală, împrăştierea, grafice).
Momentul cel mai important în această etapă îl constituie verificarea ipotezelor
statistice. Rezultatele obţinute depind de calitatea cu care au fost parcurse etapele
menţionate anterior.
Tabelele sunt cele mai utilizate pentru includerea în textul rapoartelor de
cercetare a rezultatelor obţinute, deoarece ele indică cu exactitate valorile şi susţin cu
precizie, concluziile. Figurile, prezintă informaţia într-o formă intuitivă şi accesibilă.
Este recomandat ca fiecare grafic să prezinte o singură idee.
FORMULAREA CONCLUZIILOR.
138
Formularea concluziilor reprezintă etapa finală a unei cercetări ştiinţifice şi
rezumă întregul demers ştiinţific. Dacă pragul de semnificaţie este mai mare decât
pragul acceptat, atunci probabil ipoteza nulă este adevărată şi va trebui acceptată. În
caz contrar putem respinge ipoteza nulă.
Observaţie: Ipoteza specifică nu poate fi respinsă sau acceptată. Singura
decizie pe care o putem lua se referă la ipoteza nulă.
BIBLIOGRAFIE
139
7. Rus Mihaela, Naidin Mihaela, 2010 – „Elemente de statistică aplicată”, Editura
Bren, Bucureşti.
8. Sandu, M. 2012 – „Aspecte teoretice și practice ale programului SPSS”, Editura
Fundației Andrei Șaguna;
9. Sava, F. A. 2004. Analiza datelor în cercetarea psihologică. Metode statistice
complementare. Cluj-Napoca : ASCR;
10.Ţiţan, E, Ghiţă, S,, Trandaş, C, 2003 – Bazele statisticii, Ediţia a 2-a, Ed. Meteor
Press, Bucureşti;
11.Voineagu, V; Mitruţ, C; Isaic-Maniu, Al, ş.a, 2004 – Statistica, Ed. Universitară,
Bucureşti;
12.Voineagu, V; Ţiţan, E, 2004 – Sondaje şi anchete, vol. 1 şi II, Ed. Fundaţiei
„Andrei Şaguna”, Constanţa.
140