Sunteți pe pagina 1din 26

NOTITE SEMINAR STATISTICA

Definirea variabilelor
Avem urmatoarele date:
Nume
P.P.
G.G.
A.H.
A.B.
M.I.
M.A.
A.T.
T.A.
D.F.
F.E.

Gen
M
F
F
M
M
M
F
F
M
M

Varsta
35
27
44
18
25
32
45
23
39
19

Scor test
109
112
99
90
110
92
111
105
99
78

Introducem (definim) variabilele (nume, gen, ) in sheetul Variable View:


Name: trecem numele variabilei
Type: le setam ca si variabile Nominale sau, dupa caz, String (variabila ce
contine litere si cifre);
Width: nr de caractere ale variabilei,
Decimals: nr de zecimale;
Labels: va contine explicatia variabilei;
Measure:
- Scale(ex: varsta; aici variabila varsta poate fi cuantificata pe
intervale);
Ordinal (ex: variabile de genul scala: foarte multumit, multumit,
nemultumit; aceste variabile se pot pune intr-o ordine, dar distanta
dintre ele nu se poate cuantifica);
- Nominal (ex: nume, culori, genul, etc.; la acest gen de variabile nu
exista distante intre elementele aceleiasi ctegorii).
Apoi introducem datele in sheetul Data View, unde vor aparea ca si capete de
coloana variabilele definite anterior.

Minim, maxim
Vom calcula minimul varstei si maximumul scorului, de pe sheetul Variable
View:
Analyze -> Descriptive Statistics ->selectam variabila Varsta
->Options : bifam Minim (debifam pe celelalte) -> Ok
Analog,
Analyze -> Descriptive statistics ->selectam variabila Scor (si
deselectam variabila varsta) -> options: bifam Max ->Ok

Page 1

Output-ul va fi de forma (Fig.1):

Indicatorii tendintei centrale


Indicatori: Media aritmetica, Mediana si Modul.
Exemplu sir:
10, 12, 25, 7, 9, 11, 15
Media aritmetica: 12, 7
Pentru stabilirea Medianei, intai se ordoneaza sirul de mai sus in ordine
crescatoare:
7, 9, 10, 11, 12, 15, 25
Apoi Mediana va fi numarul de la mijlocul sirului, in cazul de fata: 11.
In cazul in care sirul contine un numar par de numere, Mediana va fi
definita de media aritmetica a celor doua numere de la mijlocul sirului.
Intr-un sir de numere, Mediana va exclude extremele (numere prea mari
sau prea mici comparativ cu tendinta sirului), ceea ce face ca valoarea ei (fie
numarul de la mijlocul sirului, fie media aritmetica dintre numerele de la mijlocul

Page 2

sirului) sa reflecte nivelul multimii de valori pe care o ia variabila respectiva,


spre deosebire de Media aritmetica, ce ia in calcul toate valorile variabilei
(inclusiv extremele), ceea ce duce la o diferenta (+ sau -) fata de nivelul real al
multimii respective.
Modul arata numerele din sir care se repeta.
Exemplu: 7, 9, 10, 11, 12, 15, 25, 25
Mod=25. (serie unimodala)
In cazul in care seria are doua moduri (2 valori care se repeta), se numeste
bimodala.
Media aritmetica, Mediana si Modul se mai numesc si Indicatorii tendintei
centrale.
Pe tabelul urmator vom aplica Min si Max pe variabila Varsta, vom
recodifica variabila Varsta pe intervale, apoi vom calcula Media aritmetica,
Mediana si Modul (Fig.2):

Definire categorii de varsta:


Intai stabilim Min si Max varsta:
Analyze -> Descriptive statistics ->Descriptives -> selectie variabila
Varsta, bifam Min si Max -> Continue ->Ok
Apar valorile cerute: Min=18, Max=45.

Page 3

Observatie: Pentru recodificare calculam intai min si max, scadem min din max
si impartim la numarul de unitati la care facem referire, pentru a avea intervale
cat mai apropiate ca numar de valori,daca dorim sa avem intervale omogene.
Stiind acum min si max, le putem recodifica pe intervale de varste, carora
le artibuim alte valori, ca de exemplu:
18-25 ani ->1
26-35 ani ->2
36-45 ani ->3
Pentru a recoda aceste variabile vom face urmatorii pasi:
Transform -> Recode into different variables -> selectam variabila
Varsta, apoi denumin Output variable (Name: numele intervalelor
varsta, Label: explicatia intervalelor) -> Old and new values -> In
cadranul Old value bifam Range: 18 through 25, in cadranul New Value:
1 -> Add.
Analog, introducem toate intervalele, iar la sfarsit -> Continue ->Ok
Rezultatul va fi o noua coloana cu recodarea variabilelor respective, la care
trebuie sa mai modificam Decimals =0.
Pentru variabilele Scor, vom aplica Media aritmetica, Mediana si Modul
pentru Scor:
Analyze Descriptive statistics -> Frequencies -> selectam variabila->
debifam Min si Max, si bifam Mean (media aritmetica), Median si Mode.
-> Continue ->Ok
Va aparea urmatorul Output (Fig.3):

Page 4

Analog, putem calcula Media aritmetica, Mediana si Modul si pe Varsta.

Esantionarea
Esantionarea aleatoare urmareste stabilirea unui esantion aleator. Se
poate face prin numerotarea elementelor totale , apoi extragerea biletelelor din
caciula la intamplare. De cate ori trag un biletel, il bag la loc . Intotdeauna extrag
din toate, pana cand extrag unul care nu se repeta. Principalul neajuns este
acela ca exista posibilitatea extragerii unui esantion nereprezentativ.
La esantionarea stratificata stabilesc esantionul pe baza de pondere.
Asa o sa stiu cate elemente trebuie sa intervievez din fiecare grup . Dupa
stabilirea numarului de elemente din fiecare grup, trec la esantionare aleatoare.
Esantionarea cluster: se aplica un studiu asupra a trei blocuri cu cate 10
locatari din aceeasi zona, strazi diferite. Grupez elementele componente ale
fiecarui bloc pe strazi si prin esantionare aleatoare aleg strada pe care merg sa
studiez.
Esantionarea sistematica presupune existenta unui algoritm . Pasul
unu: pornesc de la a doua casa. Regula stabilita : chestionez fiecare a cincea
casa. Se numeste pas statistic.
Definitii: Avem 20 de subiecti.
Lot lotul de subiecti nu are reprezentativitate (lot de 20 de subiecti)

Page 5

Esantion este reprezentativ pentru ca cei 20 de subiecti sunt alesi raportat la


populatia supusa cercetarii (din cei 20 de subiecti, alegem: 2 din intervalul a, 3
din intervalul b, etc)
Estantionarea stratificata exemplu:
Avem impartire pe trei categorii de variabile (valori atribuite fiecarei variabile):
A (7 valori), B(5 valori), C (8 valori) = 20 valori existente intr-un sir (aleator)
de forma (primul strat de esantionare) :

A A C B C C B A C B C A B A A C C A B C
Apoi esantionam variabilele de mai sus, dup acum urmeaza:
3 -> A
2 -> B
5 -> C
I.e., vom avea un esantion reprezentativ pentru multimea anterioara,
cu un total de 10 valori.

Variante si abaterea standard


Abaterea standard medie a imprastierii
Adunand toate elementele unei multimi date, teoretic media aritmetica ar
trebui sa fie aceeasi cu valoarea de referinta de la mijlocul multimii.
Exemplu:
Caz I: avem sirul cu 5 valori: 7 7 7 7 7
Mean: 7, Median: 7 , Mode: 7. Graficul va fi de forma (Fig. 4):

Caz II: avem sirul: 7 6 7 7 8

Page 6

Mean: 7, Median: 7 si Mode:7, dar graficul va fi de forma (Fig. 5):

Abaterea standard distanta fiecarui punct fata de medie; aceasta se


calculeaza prin diferenta intre valoarea luata de variabila si valoarea datei de
referinta.
(Xi-X )-> ecuatia aceasta reprezinta abaterea standard, adica distanta
fiecarei valori luate de variabila fata de valoarea de referinta (media), situate pe
o axa (+/-), unde:
X - media (valoare de referinta)
Xi valoarea luata de variablia
- varianta (suma totala a imprastierii)
n numarul de elemente Xi
Formula variantei este:
=(Xi - X)/n = >
=(( Xi - X)/n)
Observatii:
Cu cat abaterea standard creste, cu atat datele sunt mai imprastiate.
Daca abaterea standard este mai mica, imprastierea este mai mica (datele
sunt mai apropiate de valoarea de referinta).
Amplitudinea (Range) este data de diferenta dintre valoarea maxima luata
de variabila si valoarea minima:
A = Xmax Xmin
Unde: A amplitudinea; Xmax valoarea maxima a variabilei; Xmin valoarea
minima a variabilei.
In SPSS avem functiile :
Std Deviation abaterea standard
Variance varianta ()
Range amplitudinea

Page 7

Analyze -> Descriptive Statstics -> Frequencies -> selectam Variabilele


Varsta si Scor -> Statistics -> bifam Std Deviation, Variance si Range,
precum si Min, Max. -> Continue ->OK
Am bifat Min si Max alaturi de celelalte functii pentru a evidentia si formula
Amplitudinii. Output:

Hystograma- reprezentare grafica a frecventelor


Analyze -> Descriptive Statstics -> Frequencies -> selectam Variabila ->
Charts -> bifam Hystogram (with normal curve) -> Continue
Apare un graphic de forma XoY, (axa OX: Valorile luate de variabile; Axa OY:
numarul de aparitii), adica Outputul pe variabila Varsta si pe variabila Scor (Fig.
7,8):

Page 8

Unde: Frequencies numar de aparitii


Important!!! Calculul abaterii standard, amplitudinii si variantei se
aplica doar pentru variabilele de tip Scale!!

Distributii normale si Scorurile Z

Page 9

Exemplul 1. Presupunem ca avem o populatie cu IQ-ul mediu de 100, avem


varianta de valoarea 15 si avem doua valori observate ale IQ-ului: 85, respectiv
115. In concluzie, datele problemei sunt:
X=100
= 15
iar valorile observate X in cele doua cazuri, sunt 85, respectiv 115, adica:
a)X=85; b) X=115
Histograma este de forma:

Pentru a putea standardiza distributia, vom calcula Scorul Z, dupa formula:


Z = (X-X)/,
Unde:
Z Scorul Z;
X valoarea observata;
X - valoarea medie;
varianta.
Adica:
a) Pentru X=85, Z=(X-X)/ =( 85-100)/15=-15/15 = -1
b) Pentru X=115, Z=(115-100)/15=15/15= 1
In ambele cazuri, rezultatele +1 si -1 arata ca cele doua valori ale lui X
sunt la distanta de o abatere standard fata de X (1S). Pentru aceasta
avem notatia 1S cu valoarea 0,3413. In concluzie, din tabele avem:
1S= 0,3413

Page 10

Pentru a afla in procente cat e abaterea standard, inmultim cu 100


valoarea de mai sus, rezultand: 34,13 % din populatia data in problema de mai
sus, are in IQ cuprins intre 85 si 100, respectiv 34.13% din populatia data
are un IQ cuprins intre 100 si 115.
Asadar 68,26% din populatia data , are un IQ cuprins intre 85 si
115. Daca facem diferenta intre acest procent si cel de 95%, va rezulta
ca procentul de 26,74% din totalul populatiei e reprezentat de
presoanele care au un IQ <85 si de cele care au IQ>115.
Exemplul 2. Avem: X=100; =15; si doua cazuri pentru valoarea observata
X, adica 70 si 130, iar histograma este asemanatoare cu cea anterioara:

Calculam:
Z=(X-X)/ =(70-100)/15=-30/15= -2 , iar pentru cea de-a doua valoare:
Z=(X-X)/=(130-100)/15=2
In ambele cazuri, rezultatele +2 si -2 arata ca cele doua valori ale lui X sunt la
distanta de doua abateri standard fata de X (2S).
2S = 0,4772
Analog, pentru a afla procentajul, inmultim valoarea de mai sus cu 100
47,72 % din populatia data in problema de mai sus, are in IQ cuprins intre 70
si 100 (si respectiv 100 si 130).
Observatie: Intr-o distributie normala 95% dintre date se afla in intervalul [-2,
+2] abatere standard (2S); intervalul [-3, +3] abatere standard reprezinta 99%
din populatia data. Vom explica pe histograma urmatoare:

Page 11

Exercitiu: Pentru variabila varsta, (din tabelul de date) in SPSS vom calcula
Scorul Z:
Analyze -> Descriptive Statistics -> Descriptives -> selectam variabila
-> bifam Standardized values as variables -> OK
Va rezulta Outputul:

In Variable View apare o variabila noua Zvarsta(Zscore Varsta):

Page 12

Iar in Data View apare coloana Zvarsta (cu valorile abaterilor standard):

Observatii:
1. Media unei distributii Z este intotdeauna 0.
2. Abaterea standard a unei distributii Z este intotdeauna 1.

Testul T

Page 13

Testul T compara mediile unor grupuri, pentru a verifica daca exista


diferente semnificative.
Statistica descriptiva: descrie datele pe care le avem.
Statistica inferentiala: Atunci cand avem un grup de control si unul

experimental, le testam si obtinem anumite performante diferite intre cele


doua grupuri (in mod normal). Statistica inferentiala verifica daca puteam
obtine aceeasi diferenta cu cea pe care o avem in mod concret, daca am fi
ales esantioane diferite, sau daca exista diferente seminificative intre
aceste doua esantioane.
Pentru a verifica datele de mai sus se foloseste Testul T.
1. Testul T pentru esantioane/variabile independente
Esantioanele independente sunt cele care nu au nici o legatura intre ele
(ex: barbati/femei, gemeni, etc..). Vom avea doua categorii de rezultate:
una din grupul de control si una din grupul experimental. Practic vom avea
aceeasi variabila, doar valorile rezultate de la esantioanele respective
sunt diferite. Pe noi ne intereseaza diferenta dintre ele, adica schimbarea
produsa: mo-me
Definitii:
Ipoteza nula (H0) nu exista diferente semnificative intre media
variabilelor grupului de control si cea a grupului supus experimentului.
Ipoteza alternativa (HA) exista diferente semnificative intre mediile
variabilelor celor doua grupuri.
T = (diferenta dintre abaterile celor doua grupuri)/(varianta intre
grupuri)
df degrees of freedom (gradele de libertate) - reprezinta numarul
de subiecti din toate grupurile(control+experiment) minus numarul de
grupuri (in exemplul de mai jos, vom avea 30 de subiecti, din doua grupuri
(M/F), adica: df = 30 2 = 28 grade de libertate)
Oricarei valoari luate de T ii corespunde o valoare p (care la randul ei ne
spune care dintre cele doua ipoteze se aplica)
Daca p < 0.05 , atunci se aplica Ipoteza alternativa (HA)
Daca p > 0.05 , atunci se aplica Ipoteza Nula (H0)
In SPSS valoarea lui p este reprezentata de Sig. (2-tailed)

Exemplu:

Page 14

Vom verifica daca media de la bac data pe un grup de 30 de persoane


difera in functie de gen. Vom define variabilele in SPSS si vom introduce
valorile:

Apoi vom urma calea:

Page 15

Analyze -> Compare Means -> Independent Sample Test ->


selectam variabila notebac si o mutam in Test variable, selectam
variabila gen si o mutam in Grouping Variable
Click pe Define Groups -> Grup 1 = 1 ; Grup 2 = 2 (aici atribuim
valorile grupurilor M/F, ca in figura de mai jos) -> Continue -> OK:

Va rezulta Output-ul de forma:

Page 16

sig. = 0.094; 0.094 > 0.05 ceea ce inseamna ca se aplica Ipoteza de


Nul (H0)
df = 28 de grade de libertate
sig-2-tailed -> valoarea lui p ; aici, sig-2-tailed = 0.518 > 0.05 , ceea ce
inseamna ca se aplica ipoteza de Nul (H0) , conform careia nu exista
diferente semnificative ale mediilor variabilei mediebac intre cele doua
grupuri (M/F).
In cazul in care, de exemplu sig-2-tailed ar lua valoarea 0.002, atunci
rezulta ca 0.002 < 0.05 deci se ia in considerare Ipoteza alternativa(HA),
conform careia exista diferente semnificative intre valorile celor doua
grupuri.
2. Testul T pentru esantioane/variabile dependente:
Esantioane identice sau aproape identice, de exemplu daca testam aceiasi
oameni de doua ori (inainte si dupa)
Vom nota cu d diferenta dintre performanta unui individ la
masuratoarea de control si performanta la masuratoarea dupa
manipularea experimentala: d=x0-xe
md = media tuturor diferentelor calculate la fiecare individ in parte.
Analog, pentru esantioanele dependente, luam ca exemplu variabilele
nume, nota1 (nota inainte de pregatire) si nota2 (nota dupa pregatire):

Apoi vom urma pasii:


Analyze -> Compare Means -> Paired Sample T-Test -> Mutam variabila nota1 in
Variable1 si nota2 in Variable2 -> OK

Page 17

Avem tabelul:

Ne apar rezultatele urmatoare:


Sig 2-Tailed = 0.000, ceea ce inseamna ca 0.000 , 0.05 Asadar, vom lua in
considerare Ipoteza Alternativa conforma careia exista diferente semnificative
intre mediile celor doua valori luate in calcul (inainte si dupa interventia
respectiva). Df=29 (grade de libertate).

3. One Sample T Test

Page 18

Presupunem ca stim media pentru o anumita variabila, pe care vrem sa o comparam cu media
aceleiasi variabile din grupul nostru. Pentru tabelul de mai sus, vom avea, de exemplu,
media=8.2
Vom avea urmatorii pasi:
Analyze -> Compare Means -> One Sample T-Test -> selectam mediebac -> o mutam in
Test Variables -> la Test Values, trecem valoarea 8.2 -> OK ca in figura de mai jos:

Rezulta Output-ul:

Page 19

Sig. 2-tailed = 0.775 > 0.05 => acceptam ipoteza de Nul (H0), conform careia
nu exista diferente semnificative intre valoarea de referinta si media variabilei
din tabelul nostru. Mai avem si df=29 (grade de libertate).
Notiuni de filtrare a datelor in SPSS
In cazul in care avem rapoarte foarte mari cu care trebuie sa operam, avem
posibilitatea de le filtra, cu scopul de a folosi doar variabilele care ne sunt
necesare.
Avem, de exemplu, tabelul SPSS:

Ne propunem sa facem diverse calcule doar pentru datele care intrunesc conditia
ca variabila varsta sa fie >=25 (adica luam in calcul doar persoanele mai mari de
25 de ani), iar variabila scor >=99 (luam in calcul persoanele care au un scor
mai mare sau egal cu 99) si aplicam pe acel grup diverse formule statistice.
Data -> Select cases -> bifam IF -> IF (if condition is satisfied) -> IF ->
selectam variabila varsta -> adaugam criteriul (aici vom folosi >=25) ->
imediat adaugam separatorul | ->selectam variabila Scor -> adaugam
criteriul >=99 ->Continue ->OK.

Page 20

Vom inchide Output-ul, si vom vedea pe coloana cu Nr Crt din stanga tabelului o
bara diagonala la pozitia care nu intruneste conditiile setate de noi:

Aceasta inseamna ca orice formula am aplica pe acest tabel filtrat, valorile din
pozitia 4 si 10 nu vor fi luate in considerare.
Daca dorim, de exemplu, sa suspendam pentru moment , pentru variabila
Varsta, unde sunt deja atribuite intervale (prin recodare: 1= 18-24 ani, 2= 25-40
ani si 3=41-50 ani), aplicam:

Page 21

Data -> Select cases -> bifam IF -> IF (if condition is satisfied) -> IF ->
selectam variabila Categ -> adaugam criteriul ( categ=2) -> Continue ->
OK
In Data view vom avea:

Dupa cum se vede, pozitiile care cunt neluate in calcul sunt taiate, iar la
penultima coloana, apare cu 0 si 1 ce nu a fost si ce a fost luat in calcul.

Testul
Testul se foloseste atunci cand ne dorim sa verificam daca exista sau
nu diferente intre valorile observate si cele asteptate.
Exemplul 1:
Avem un zar (cu cifre de la 1 la 6). Ne asteptam ca la 36 de aruncari,
fiecare cifra de pe zar sa apara de cate 6 ori. In realitate exista o
probabilitate mica sa se intample asa ceva
Exemplul 2:
La un numar de 30 de aruncari ale unei monede ne asteptam sa avem un
raport in care in urma a 15 de aruncari sa avem ban, iar in celelalte 15
sa avem stema. Valorile observate in urma experimentului pot diferi de
valorile asteptate.
In SPSS vom avea un tabel in care vom defini variabilele Asteptata si
Observata (String, Scale, atribuim 1 pentru ban, 2 pentru
stema), apoi vom trece pe coloana cu variabila Asteptata ban de 15
ori, stema de 15 ori. Vom trece rezultatele observate in urma auncarii
monedei de 30 de ori si apoi vom calcula Testul :

Page 22

Analyze -> Descriptive Statistics -> Crosstabs -> Select -> Rows:
Observata, Columns: Asteptata -> Click pe Statistics -> bifam Chisquare -> Continue ->OK

Output-ul este:

Valoarea testului este data in SPSS de:


Page 23

Asymp. Sig. (2-sided) = 0.705 >= 0.05 ceea ce inseamna ca admitem


Ipoteza de Nul (H0) conform careia nu exista in acest caz diferente
semnificative intre mediile variabilelor Observata si Asteptata.

Corelatii
Avem, spre exemplu, doua variabile: X1 si X2
r coeficientul de corelatie
Coeficientul de corelatie (r) poate lua valori in intervalul [-1; +1]
Daca r +1 , atunci exista o corelatie pozitiva intre cele doua
variabile, adica:
X1 => X2 (daca variabila X1 creste, atunci variabila X2 creste).
Aici avem:
r 0.70-0.80 => corelatie pozitiva puternica
r 0.40-0.70 => corelatie pozitiva medie
r 0.10-0.40 => corelatie pozitiva slaba
Daca r = 0 , atunci nu exista niciun fel de corelatie intre cele doua X1
si X2
Daca r -1 , atunci exista o corelatie negativa intre cele doua
variabile, adica:
X1 => X2 (daca variabila X1 creste, atunci variabila X2 scade)
Aici avem:
r -0.70/ -0.80 => corelatie negativa puternica
r -0.40/-0.70 => corelatie negativa medie
r -0.10/-0.40 => corelatie negativa slaba
Concluzie: cu cat r se apropie mai mult de valoarile +1 sau -1, cu atat
corelatia (pozitiva/negativa) este mai puternica.
Exemplu: Dorim sa vedem atat daca exista corelatie intre cele doua
variabile Varsta si Scor (luate ca exemplu si in situatiile anterioare), cat si
cu ce fel de corelatie ne confruntam. In SPSS vom avea urmatoarea cale:

Page 24

Analyze -> Correlate -> Bivariate Correlations -> selectam


variabilele X1 si X2 -> Bifam: Pearson; Two-tailed; Flag significant
correlations -> OK

Page 25

Va rezulta un Output de forma:

Rezultatele vor fi interpretate in felul urmator:

Pearson Correlation = 0.413 => avem o corelatie pozitiva medie


Sig.(Two-tailed) = 0.235 > 0.05 => nu exista diferente semnificative intre
cele doua variabile
Concluzie: avem o corelatie pozitiva medie, fara diferente semnificative
intre cele doua variabile.
Pentru a verifica daca exista corelatii intre mai multe variabile, se
urmeaza aceeasi cale si se selecteaza toate variabilele (tip Scale).

Page 26

S-ar putea să vă placă și