Sunteți pe pagina 1din 168

Introducere in analiza

statistica utilizand SPSS


CLAUDIA HRABAC – CONSULTANT SOFTWARE STATISTIC
@ROMSYM DATA
Agenda ziua 1
1. Introducere in analiza statistica
2. Examinarea variabilelor individuale
3. Teste de ipoteza
4. Ipoteze legate de variabile individuale
5. Testarea relatiilor dintre variabilele categoriale

2
Introducere in analiza statistica
CAPITOLUL 1.
Obiectivele capitolului
• Definiti procesul cercetarii

• Explicati diferenta dintre o variabila independenta si una


dependenta

• Explicati diferenta dintre un esantion si populatie

• Explicati diferenta dintre un design experimental si un design non-


experimental

4
Procesul unei cercetari (1)
Am descoperit un aspect
ce trebuie explicat

Generam o explicatie

Realizam o predictie

5
Procesul unei cercetari (1) - verificare

• Bazat pe ce am discutat pana acum, ce calitati credeti ca ar trebui sa aiba o


teorie stiintica?
• Credeti ca exista diferente intre o teorie buna si una utila?

Markeri ai unei teorii bune Markeri ai unei teorii utile

• Predictii fezabile • Predictii relevante


• Predictii testabile • Predictii specifice

6
Colectarea de date: Ce masuram?

• Variabile
O variabila considearata cauza unui anumit effect.
• Independente In cercetari experimentale utilizata pentru a nota o
variabila pe care experimentatorul o manipuleaza.
O variabila considerata ca fiind afectata de
• Dependente schimbari ale variabilei independente. Poate fi
considerata un efect / rezultat.

7
Populatie vs Esantion

8
Cum adunam datele?

• Design experimental

• Studii corelationale / cros-sectionale

• Studii experimentale

9
Cum adunam datele?

• Stabilirea unei relatii cauzale intre doua variabile (David Hume)

• Contiguitate – cauza si efectul trebuie sa fie apropiate in timp

• Cauza apare inaintea efectului

• Efectul nu ar trebui sa se produca fara prezenta cauzei

10
RECAPITULARE / AUTOEVALUARE
• Care sunt cele 5 etape mari ale procesului de cercetare?

• Care este diferenta dintre o variabila independenta si una


dependenta?

• Care este diferenta dintre un esantion si o populatie?

• Care este diferenta fundamentala intre un studu corelational si unul


experimental?

11
Examinarea variabilelor individuale
CAPITOLUL 2.
Obiectivele capitolului

• Descrieti nivelul de masurare al variabilelor in SPSS

• Examinati variabilele cu ajutorul graficelor

• Rulati proceduri de sumarizare a variabilelor

• Definiti distributia normala

• Explicati scorurile standardizate si utilizarea lor

13
Nivelul de masurare al variabilelor in SPSS
Variabile binare Variabile nominale
• Nivel de masurare

• Categorial
• Binar / dihotomic
• Nominal
Variabile ordinale Variabile continue
• Ordinal

• Continuu / Discret
• Interval SPSS nu face diferenta intre
• Raport
aceste doua niveluri de
masurare

14
Examinarea variabilelor cu ajutorul graficelor

• Chart Builder - Cum creăm și folosim graficele

15
Examinarea variabilelor cu ajutorul graficelor
• Un grafic bun realizeaza urmatoarele lucruri (Tufte, 2001)

• Prezinta datele
• Motiveaza audienta sa se gandeasca la datele prezentate (in comparatie cu
alte aspecte precum culorile graficului)
• Evita distorsionarea datelor
• Prezinta multe puncte utilizand minimul de cerneala posibila
• Aduce coerenta in seturi mari de date
• Incurajeaza cititorul sa compare diferite parti din date
• Scoate la iveala aspecte din setul de date

16
Examinarea variabilelor cu ajutorul graficelor

• Exemplu de grafic nu foarte util– ce este gresit?

• Barele graficului sunt puțin vizibile

• Barele in sine sunt 3D

17
Examinarea variabilelor cu ajutorul graficelor

• Exemplu de grafic OK – ce este in regula aici?

• Axa Y este etichetate adecvat

• Exista putine elemente care sa

ne distraga atentia

• Este utilizat un minim de cerneala

18
Examinarea variabilelor cu ajutorul graficelor

Modificarea axey Y poate duce la interpretari diferite ale datelor


19
Examinarea variabilelor cu ajutorul graficelor
• Concluzii pentru crearea unui grafic bun

• Evitati incarcarea inutila a graficului


• Evitati utilizarea excesiva de cerneala
• Nu creati impresii false legate de ce arata datele prin scalarea axei Y

20
Examinarea variabilelor cu ajutorul graficelor
• CHART BUILDER

21
Examinarea variabilelor cu ajutorul graficelor
• Histograme

• Simple histogram

• Stacked histogram

• Frequency polygon

• Population pyramid

22
Examinarea variabilelor cu ajutorul graficelor

• EXERCITIU (Histograme) [asistat]

23
Examinarea variabilelor cu ajutorul graficelor

24
Examinarea variabilelor cu ajutorul graficelor

• Bar Plot
• Frecvente/medii sau alte statistici ale variabilelor calitive

25
Examinarea variabilelor cu ajutorul graficelor

• Exercitiu (Bar Plot – masuratori independente) [asistat]


• Frecvente/medii sau alte statistici ale variabilelor calitive

26
Examinarea variabilelor cu ajutorul graficelor
• Exercitiu (Bar Plot – masuratori independente) - Rezultat

27
Examinarea variabilelor cu ajutorul graficelor
• EXERCITIU (Clustered bar chart – masuratori independente)
[individual]

• Realizati un grafic care sa prezinte care dintre diete a condus catre


slabirea mai multor kg si in acelasi timp sa prezinte si diferentele
dintre genuri pentru fiecare dieta in parte (ex. Cate kg au slabit
barbatii comparativ cu femeile care au tinut aceeasi dieta).

28
Examinarea variabilelor cu ajutorul graficelor
• Exercitiu (Bar Plot – masuratori repetate) [asistat]

29
Examinarea variabilelor cu ajutorul graficelor
• Boxplot

30
Examinarea variabilelor cu ajutorul graficelor

• EXERCIȚIU (boxplot) [asistat]

31
Examinarea variabilelor cu ajutorul graficelor

• Pie Chart

32
Examinarea variabilelor cu ajutorul graficelor

• EXERCITIU (Pie chart) [asistat]

33
Distributia normala

34
Distributia normala

35
Distributia normala
• Modul, mediana, media

36
Scoruri standardizate si distributii probabilistice

37
Scoruri standardizate si distributii probabilistice

• PROVOCARE

38
Frequencies, explore si descriptives
• Frequencies

39
Frequencies, explore si descriptives
• Explore

40
Frequencies, explore si descriptives
• Descriptives

41
Recapitulare
• Ce niveluri de masurare pot fi alese pentru variabilele introduse in
SPSS?
• Ce este o distributie normala? Ce proprietati are aceasta?
• Ce este un scor standardizat (scoz Z)?
• Cum se pot utiliza in practica scorurile Z?

42
Testarea ipotezelor - teorie
CAPITOLUL 3.
Obiectivele capitolului
• Identificați diferența dintre un eșantion și o populație
• Formulați un test de ipoteza
• Nivelul Alfa si valoarea P
• Semnificatie statistica vs. semnificatie practica
• Erori de decizie

44
Esantion vs. Populatie

• Populatie -> toate elementele dintr-un set de date

• Esantion -> una sau mai multe observatii din populatie


• Esantionare randomizata simpla
• Esantionare randomizata cu inlocuire

45
Esantion vs. Populatie
• PROVOCARE

• Care dintre urmatoarele afirmatii sunt adevarate?


• Media populatiei este notata cu x.
• Marimea unui esantion nu este niciodata mai mare decat marimea
populatiei.
• Media populatiei este o statistica.

46
Formularea unui test de ipoteza
• “Daca … (actionam asupra variabile independente) … atunci …
(aceasta se va intampla cu variabila dependenta).”

• O ipoteza buna:
• Include un “daca” si “atunci”

• Include atat variabila independenta cat si pe cea dependenta

• Este testabila prin experiment, chestionar sau alta tehnica stiintifica valida

• Este bazata pe informatii din cercetari anterioare (ale noastre, sau ale altor persoane)

• Include criterii de design (pentru proiecte de inginerie si programare)

47
Formularea unui test de ipoteza
• Ipoteza de nul
Un cercetator considera ca daca pacientii care au fost operati la
genunchi se vor duce la terapie fizica de doua ori pe saptamana (in loc
de 3), perioada de recuperare a lor va fi mai lunga. Perioada de
recuperare medie pentru un pacient de acest tip este de 8,2
saptamani.
H1: μ > 8.2
H0 μ ≤ 8.2

48
Formularea unui test de ipoteza
• Ipoteza de nul: Exercitiu 1
• Un director al unei scoli sustine ca studentii sai au o inteligenta peste medie.
Un esantion randomizat de 30 de studenti din acea scoala are un scor mediu IQ
de 112. Este aceasta medie o dovada suficienta pentru a sustine afirmatia
directorului? Media IQ-ului populatiei este de 100 cu o deviatie standard de 15.

H0 H0: μ<=100
H1 H1: μ > 100

49
Formularea unui test de ipoteza
• Ipoteza de nul: Exercitiu 2
• Nivelul de glucoza al pacientilor obezi are o medie de 100 si o deviatie standard
de 15. Un cercetator crede ca o dieta bogata in amidon crud va avea un effect
pozitiv sau negativ asupra nivelului de glucoza din sange al acestor pacienti. Un
esantion de 30 de pacienti au incercat dieta de amidon crud si au un nivel al
glucozei din sange de 140.

H0 H0: μ=100
H1 H1:≠100

50
Nivelul Alfa si valoarea P
• α = probabilitatea de a rejecta ipoteza de nul in momentul in care
aceasta este de fapt adevarata
• p = probabilitatea de a obtine acelasi rezultat (al testului) sau unul
chiar mai extrem decat ce am obtinut deja, in conditiile in care
ipoteza de nul este adevarata

51
Semnificatie statistica vs. semnificatie practica

• Semnificatie statistica: exista sau nu exista in contextul studiului

• Semnificatie practica: diferenta este interesanta? Care este


marimea efectului?

52
Erori de decizie

53
Testarea ipotezelor legate de
variabile individuale
CAPITOLUL 4.
Obiectivele capitolului
• Explicați distribuția de eșantionare a unei statistici
• Explicați diferența dintre abaterea standard și eroarea standard
• Utilizați testul One-Sample T pentru a testa o ipoteză cu privire la
media populației
• Utilizați testul T pentru esantioane perechi pentru a testa daca
exista diferente dupa tratament
• Utilizați testul binomial pentru a testa o ipoteză despre proporțiile
populației

55
Explicați distribuția de eșantionare a unei statistici
Definiti distributia statisticilor pentru toate esantioanele posibile
dintr-o populatie

56
Abatere/deviatie standard vs. eroare standard
• Deviatia standard
• Statistica descriptiva
• Descrie variatia masuratorilor individuale fata de media esantionului

• Eroarea standard
• Declaratie probabilistica
• Estimarea probabilitatii mediei esantionului fata de media populatiei

57
Testul t pentru un singur esantion

• Utilizare
• Determina daca un esantion provine dintr-o populatie cu o anumita medie

58
Testul t pentru un singur esantion

Asumptii
1. Variabila masurata trebuie sa fie continua (interval/raport)
2. Observatiile sunt independente
3. Nu exista valori extreme
4. Datele sunt distribuite aproximativ normal

59
Testul t pentru un singur esantion
• LABORATOR: demo.sav
• Deschideți fișierul demo.sav
• Vrem să vedem dacă media de vârstă este de 40 de ani, dorind să
facem o inferență asupra populației.
• Intrați în meniul Analyze – Compare Means – One-Sample T-test
• În caseta Test Variable(s) mutați variabila age.
• În caseta Test Value tastați valoarea 40.
• Dați click pe OK.
60
Teste T pentru esantioane pereche / dependente

• Utilizare
• Exista diferente intre valorile unei variabile inainte si dupa tratament?

61
Teste T pentru esantioane pereche / dependente
Asumptii
1. Variabila masurata trebuie sa fie continua (interval/raport)
2. Variabila independenta este formata din doua grupuri
perechi/inrudite
3. Nu exista valori extreme in diferentele dintre grupuri
4. Distributia diferentelor variabilei intre cele doua esantioane este
distribuita aproximativ normal

62
Teste T pentru esantioane pereche / dependente
• LABORATOR: CrimeData.sav
• Vrem să determinăm dacă s-a mărit rata criminalității pe o perioadă de
zece ani și dacă a scăzut șomajul pe o perioadă de 10 ani.
• Intrați în meniul Analyze – Compare Means – Paired Samples T-Test
• La Pair 1, Variable 1 > variabila CrimeRate.
• La Pair 1, Variable 2 > variabila CrimeRate10.
• La Pair 2, Variable 1 > variabila MatureUnemployment.
• La Pair 2, Variable 2 > variabila MatureUnemploy10.
• OK.
63
Teste T pentru esantioane pereche / dependente
• Rezultate si interpretare

64
Testul binomial pentru testarea proportiilor unei
populatii

• Testul binomial este utilizat pentru testarea afirmatiilor legate de


proportiile unei variabile dihotomice

65
Testul binomial pentru testarea proportiilor unei
populatii

• Asumptii
• Independenta observatiilor

66
Testul binomial pentru testarea proportiilor unei
populatii
• Deschideti fisierul spiders.sav
• Data > Sort cases > gender >ascending
• Analyze > Nonparametric tests > One Sample
• Din acest meniu dam click pe tab-ul Fields > Test fields alegem doar
Gender of the spider
• Din tabul Tests alegem testul binomial si apasam Options
• Din meniul de options completam proportia pe care vrem sa o
testam: Hypothesized proportion: 0.75
• Apasam OK si Run
67
Testul binomial pentru testarea proportiilor unei
populatii

68
Testarea relatiilor dintre doua
variabile categoriale
CAPITOLUL 5.
Obiectivele capitolului
• Vizualizati grafic relatiile dintre doua variabile categoriale
• Realizati tabele de contingenta pentru vizualizarea relatiilor dintre
variabile categoriale
• Utilizați testului chi-patrat pentru a verifica relatia dintre doua
variabile categoriale

70
Vizualizarea grafica a relatiilor dintre doua variabile
categoriale

• Deschideti fisierul EducationalAttainment.sav


• Data > Weight Cases > Weight cases by count
• Chart Builder > Clustered bar > X –axis – EducationalLevel, Color -
Age

71
Vizualizarea grafica a relatiilor dintre doua variabile
categoriale

72
Tabele de contingenta pentru vizualizarea relatiilor
dintre variabile categoriale
• EducationalAttainment.sav

• Analyze > Descriptive statistics > Crosstabs


• Rows > EducationalLevel
• Columns > Age_Group
• Cells > Counts>observed, Percentages > column
• Click Continue si OK

73
Tabele de contingenta pentru vizualizarea relatiilor
dintre variabile categoriale

74
Utilizarea testului chi-patrat pentru verificarea relatiei
dintre doua variabile categoriale

• Asumpțiile testului CHI pătrat pentru tabele 2x2.


• Doua variabile categoriale
• Doua sau mai multe categorii pentru fiecare variabila
• Esantioane independente
• Variabilele nu sunt “pereche” (ex. Pre-test/post-test)
• Esantion destul de mare
• Fiecare celula a tabelului trebuie sa aiba o frecventa asteptata de minim 1.
• 80% din celulele tabelului trebuie sa aiba o frecventa de minim 5 cazuri

75
Utilizarea testului chi-patrat pentru verificarea relatiei
dintre doua variabile categoriale
• Deschideți fișierul EducationalAttainment.sav.
• Analyze – Descriptive Statistics – Crosstabs.
• Row(s) > Education.
• Column(s) > Age Group.
• Dați click pe butonul „Statistics”, apoi bifați «Chi-Square» si «Phi
and Cramer’s V».

76
Utilizarea testului chi-patrat pentru verificarea relatiei
dintre doua variabile categoriale

77
Agenda ziua 2
6. Testarea diferentelor dintre mediile a doua grupuri
7. Testarea diferentelor dintre mai mult de doua grupuri
8. Testarea legaturilor dintre variabilele continue
9. Predictia unei variabile continue
10. Teste nonparametrice

78
Testarea diferentelor dintre
mediile a doua grupuri
CAPITOLUL 6.
Obiectivele capitolului
• Utilizati grafice pentru a ilustra diferenta dintre mediile a doua
grupuri
• Utilizati meniul Explore pentru a descrie diferentele intre doua
grupuri
• Utilizati meniul Means pentru a descrie diferentele intre doua
grupuri
• Utilizati testul T pentru esantioane independente pentru a testa
daca diferentele dintre mediile celor doua grupuri sunt
semnificative

80
Utilizarea graficelor pentru a ilustra diferenta dintre
mediile a doua grupuri
• Deschideti fisierul CrimaData.sav
• Intrati in ChartBuilder si realizati un simple bar plot in care sa
ilustrati diferentele intre media ratei criminalitatii in statele sudice si
cele nordice.

81
Utilizarea graficelor pentru a ilustra diferenta dintre
mediile a doua grupuri

82
Utilizarea meniului Explore pentru a descrie
diferentele intre doua grupuri
• CrimeData.sav
• Analyze > Descriptive statistics > Explore…
• Dependent list: Crime rate
• Factor List: Southern state
• OK

83
Utilizarea meniului Explore pentru a descrie
diferentele intre doua grupuri

84
Utilizarea meniului Explore pentru a descrie
diferentele intre doua grupuri

85
Utilizarea meniului Means pentru a descrie diferentele
intre doua grupuri
• CrimeData.sav
• Analyze > Compare means > Means
• Dependent list> crime rate
• Independent list > southern state
• Options > alegeti ce statistici doriti sa fie afisate in output
• OK

86
Utilizarea meniului Means pentru a descrie diferentele
intre doua grupuri

87
Utilizarea testului T pentru esantioane independente pentru
a testa daca diferentele dintre mediile celor doua grupuri
sunt semnificative

• Se folosește când dorim testarea egalității a două populații.

88
Utilizarea testului T pentru esantioane independente pentru
a testa daca diferentele dintre mediile celor doua grupuri
sunt semnificative
Asumpțiile testului:

• Variabila dependenta continua


• Variabila independenta formata din doua grupuri categoriale
independente (variabila de grupare)
• Observatii independente
• Fara valori extreme
• Variabila dependenta distribuita aproximativ normal
• Exista omogenitate a variantelor intre cele doua grupuri
89
Utilizarea testului T pentru esantioane pentru a testa daca
diferentele dintre mediile celor doua grupuri sunt
semnificative
• Analyze – Compare Means – Independent-Samples T-test.
• Test Variable(s) > CrimeRate.
• Grouping Variable > Southern.
• Define Groups > Use Specified Values. La Group 1 folosiți valoarea
0. La Group 2 folosiți valoarea 1.
• Observăm că la variabila Southern, 1 este codificat ca fiind un stat
din sudul SUA, si 0 daca nu este

90
Utilizarea testului T pentru esantioane independente pentru
a testa daca diferentele dintre mediile celor doua grupuri
sunt semnificative

91
Testarea diferentelor dintre
mai mult de doua grupuri
CAPITOLUL 7.
Obiectivele capitolului
• ANOVA unifactoriala si testarea diferentelor dintre mai multe
grupuri
• Utilizati testele post hoc pentru a identifica diferentele dintre
mediile grupurilor
• BONUS: ANOVA bifactoriala

93
ANOVA unifactoriala si testarea diferentelor dintre mai
multe grupuri

• Exista diferente intre mediile a mai mult de doua grupuri?

94
ANOVA unifactoriala si testarea diferentelor dintre mai
multe grupuri

• Asumptii
• Variabila dependenta continua
• Variabila independenta formata din doua grupuri categoriale independente
• Observatii independente
• Fara valori extreme
• Variabila dependenta distribuita aproximativ normal
• Exista omogenitate a variantelor intre grupuri

95
ANOVA unifactoriala si testarea diferentelor dintre mai
multe grupuri

• Teste Post-hoc
• Dacă variabila independentă conține trei sau mai multe grupe,
folosim teste post-hoc pentru a determina CARE din grupuri diferă.
Cele mai folosite sunt testele Bonferroni și Tukey.

96
ANOVA unifactoriala si testarea diferentelor dintre mai
multe grupuri
• Diet.sav
• Analyze – Compare Means – One-way ANOVA.
• Dependent List > weightLOST.
• Factor > Diet.
• Options > Descriptives, Homogeneity of Variance Test și Means Plot.
• La Post-hoc bifați Bonferroni.

97
ANOVA unifactoriala si testarea diferentelor dintre mai
multe grupuri

98
ANOVA unifactoriala si testarea diferentelor dintre mai
multe grupuri

99
ANOVA unifactoriala si testarea diferentelor dintre mai
multe grupuri

100
ANOVA unifactoriala si testarea diferentelor dintre mai
multe grupuri

101
ANOVA unifactoriala si testarea diferentelor dintre mai
multe grupuri

102
ANOVA unifactoriala si testarea diferentelor dintre mai
multe grupuri
• LABORATOR: CancerSurvival.sav
• Recodificăm variabila Organ. Transform – Automatic Recode
>Organ_recoded
• Graphs – Chart Builder > Boxplot. Ox > Organ_recoded. Oy >
Survival.
• Graphs – Chart Builder.
• Histogram > Stacked Histogram.
• Set Color > Organ_Recoded.
• Ox > Survival.
103
ANOVA unifactoriala si testarea diferentelor dintre mai
multe grupuri

• Transform – Compute Variable.


• Target Variable > sqrt_survival.
• Numeric Expression > sqrt(Survival).
• OK.
• Intrați din nou în Graphs – Chart Builder, repetând pașii anteriori.

104
ANOVA unifactoriala si testarea diferentelor dintre mai
multe grupuri

• Analyze – Compare Means – One-Way ANOVA


• Dependent List > Survival.
• Factors > Organ Recoded.
• Options > Means Plot.

105
BONUS: ANOVA bifactorială (Two-Way ANOVA)

• ANOVA bifactoriala compara diferentele de medii intre grupuri care


au fost impartite de doua variabile independente (numite factori).

106
ANOVA bifactorială (Two-Way ANOVA)

• Asumpțiile testului:
• 1. Observații independente.
• 2. Omogenitatea varianțelor grupelor (Testul Levene).
• 3. Normaliteatea variabilei dependente (aprox).
• 4. Variabila dependenta = interval/raport
• 5. Variabilele independente = categoriale

107
ANOVA bifactorială (Two-Way ANOVA)
• workprog.sav
• Analyze – General Linear Model – Univariate.
• Dependent > Income after program
• Fixed Factors> Gender, Educational level
• La Model și la Contrasts lăsați setările implicite.
• Plots, Horizontal Axis > Ed, click pe Add.
• Plots, Horizontal Axis > Gender, click pe Add.
• Plots, Horizontal Axis > Gender, Separate Lines > Ed, click pe Add.
• Plots, la Horizontal Axis > Ed, Separate Lines >Gender, click peAdd.

108
ANOVA bifactorială (Two-Way ANOVA)

• Post-hoc > Ed
• Options, mutați tot ce în caseta Factor(s) and Factor interactions în caseta
Display Means for.
• Display > Descriptive Statistics, Estimates of Effect size, Homogeneity Tests.
• Confidence Interval Adjustments > Bonferroni.

109
ANOVA bifactorială (Two-Way ANOVA)

110
ANOVA bifactorială (Two-Way ANOVA)

111
Testarea asociatiei dintre
variabilele continue
CAPITOLUL 8.
Obiectivele capitolului
• Utilizati coeficientul lui Pearson pentru a descrie asociatia dintre
doua variabile
• Asumptiile testului Pearson
• Controlati pentru efectul unei variabile ruland o corelatie partiala
• Asumtiile corelatiei partiale

113
Testarea legaturilor dintre variabilele continue

• Coeficientul Pearson
• Măsura a puterii și direcției de asociere dintre două variabile

• Realizează o linie de potrivire optimă prin datele a doua variabile

114
Testarea legaturilor dintre variabilele continue
• Asumptii (1)
• Cele doua variabile sunt continue
• Exista o relatie liniara intre cele doua variabile

115
Testarea legaturilor dintre variabilele continue
• Asumptii (2)
• Nu ar trebui sa existe valori extreme

116
Testarea legaturilor dintre variabilele continue
• distance.sav
• Graphs – Chart builder > Scatter/Dot.
• X-axis > Year.
• Y-axis > Distance.
• Veți observa o corelație pozitivă a variabilelor.
• Să verificăm acest lucru!

117
Testarea legaturilor dintre variabilele continue

118
Testarea legaturilor dintre variabilele continue

• Verificare
• Analyze – Correlate – Bivariate.
• Deoarece avem variabile de tip „Scale” lăsați bifată opțiunea cu
„Pearson Correlation”.

119
Testarea legaturilor dintre variabilele continue

120
Testarea legaturilor dintre variabilele continue
• EXERCITIU: car_sales.sav

• Analyze – Correlate – Bivariate.


• Variable(s) > variabilele price, engine_s, horsepow, wheelbas,
width, length
• OK

121
Testarea legaturilor dintre variabilele continue
• EXERCITIU: car_sales.sav
• Pentru a vizualiza mai usor aceste corelatii, putem utiliza un script!

122
Testarea legaturilor dintre variabilele continue –
Corelatia partiala

• Corelația parțială se folosește atunci când avem două variabile (cel


mai probabil foarte puternic corelate) datorită unei a treia variabile
care le influențează.
• Corelația parțială ne permite să eliminăm efectul celei de-a treia
variabile.

123
Testarea legaturilor dintre variabilele continue –
Corelatia partiala

• Asumptii
• O variabila independenta si una dependenta masurate toate pe o scala
continua (interval/raport)
• Una sau mai multe variabile covariate (de control) masurate toate pe o scala
continua (interval/raport)
• Intre variabila dependenta si cea independenta exista o relatie liniara
• Nu exista valori extreme
• Variabilele sunt distribuite aproximativ normal

124
Testarea legaturilor dintre variabilele continue –
Corelatia partiala

• Deschideți fișierul survey_partial_corr.sav


• Intrați în meniul Analyze – Correlate – Partial.
• Variables > tpcoiss și tpstress.
• Controlling > tmarlow.
• Options > Zero-order correlations.

125
Testarea legaturilor dintre variabilele continue –
Corelatia partiala

126
Predictia unei variabile
continue
CAPITOLUL 9.
Obiectivele capitolului

• Rulati o regresie liniara simpla pentru a prezice valoarea unei


variabile pe baza alteia
• Intelegeti asumptiile regresiei liniare simple
• Rulati o regresie liniara multipla pentru a prezice valoarea unei
variabile pe baza mai multor alte variabile
• Intelegeti asumptiile regresiei liniare multiple

128
Predictia unei variabile continue (cu un predictor)

• Este o metodă de a cerceta relația între o variabilă Y (numită


„variabilă dependentă”) și o alta variabila (independenta).

• Practic, prin acest procedeu putem determina cum se modifică


variabila Y în funcție de cele n variabile.

129
Predictia unei variabile continue (cu un predictor)

• Asumptii ale regresiei lineare simple (1)


• Variabile continue
• Relatie liniara intre cele doua
• Nu exista outlieri
• Rezidualii nu sunt corelati

130
Predictia unei variabile continue (cu un predictor)

• Asumptii ale regresiei lineare simple (2)


• Datele sunt homoskedastice

131
Predictia unei variabile continue (cu un predictor)

• Asumptii ale regresiei lineare simple (3)


• Rezidualii sunt distribuiti aproximativ normal

132
Predictia unei variabile continue (cu un predictor)
• LABORATOR: anscombe.csv
• Import folosind Read Text Data…
• Setați variabilele x1,x2,x3,x4 ca fiind de tip Scale.
• Intrați în Analyze – Regression – Linear.
• La independent puneți variabila x1, la dependent variabila y1.
• Pentru a nu mai repeta procedeul de încă trei ori, puteți folosi
scriptul:
• Scrpt_regresie.sps, sau scrieti chiar dvs. Scriptul!
133
Predictia unei variabile continue (cu un predictor)

134
Predictia unei variabile continue (cu un predictor)

135
Predictia unei variabile continue (cu un predictor)
• Ce observați?
• Să le reprezentam grafic!
• Faceți un scatterplot folosind variabilele x1 și y1. Dați Paste la scriptul generat.
• Faceți un scatterplot folosind variabilele x2 și y2. Dați Paste la scriptul generat.
• Faceți un scatterplot folosind variabilele x3 și y3. Dați Paste la scriptul generat.
• Faceți un scatterplot folosind variabilele x4 și y4. Dați Paste la scriptul generat.
• Alternativ, folosiți scriptul de mai jos:
• script_regresie_plot.sps

136
Predictia unei variabile continue

• Mai tineti minte asumptiile testului?

137
Predictia unei variabile continue (cu mai mult de un
predictor)

• Regresia liniară multiplă este asemănătoare cu regresia liniară


simplă, diferența fiind că avem mai multe variabile independente.

138
Predictia unei variabile continue (cu mai mult de un
predictor)
• Asumptii ale regresiei lineare multiple
• Variabile continue
• Relatie liniara intre cele doua
• Nu exista outlieri
• Rezidualii nu sunt corelati
• Datele sunt homoskedastice
• Rezidualii sunt distribuiti aproximativ normal
• Variabilele independente nu prezinta multicoliniaritate

139
Predictia unei variabile continue (cu mai mult de un
predictor)
• Verificati daca exista outliers pentru variabila WAGE
• wages.sav
• Intrați în Analyze – Descriptive Statistics – Explore
• La statistics bifați doar Outliers, debifând restul opțiunilor.
• Stergem cazurile extreme din setul nostru de date – ATENTIE!
Incercati stergea acestor date incepand cu ultimele intrari!

140
Predictia unei variabile continue (cu mai mult de un
predictor)
• Pentru a observa dinainte care variabile sunt puternic corelate
(pentru a preveni multicoliniaritatea):
• Analyze – Correlate – Bivariate.
• Variables > WAGE, AGE și SCHOOL.

• La output veți observa că variabilele WAGE și SCHOOL sunt puternic


corelate

141
Predictia unei variabile continue (cu mai mult de un
predictor)

• Pentru a observa dinainte care variabile sunt puternic corelate


(ALTERNATIV):
• Graphs – Graphboard Template Chooser, selectați cele trei variabile,
apoi selectați Scatterplot Matrix (SPLOM).

142
Predictia unei variabile continue (cu mai mult de un
predictor)
• Acum să facem regresia liniară multiplă
• Analyze – Regression – Linear.
• Dependent > HRS.
• Independent(s) > WAGE, AGE și SCHOOL.
• La Statistics bifati Estimates, Confidence Intervals, Model Fit, si
Durbin Watson.
• Method > Stepwise.

143
Predictia unei variabile continue (cu mai mult de un
predictor)

144
Predictia unei variabile continue (cu mai mult de un
predictor)

145
Predictia unei variabile continue (cu mai mult de un
predictor)

146
Predictia unei variabile continue (cu mai mult de un
predictor)

147
Predictia unei variabile continue (cu mai mult de un
predictor)

Ecuatia de regresie a modelului creat este urmatoarea

148
Predictia unei variabile continue (cu mai mult de un
predictor)

149
Teste nonparametrice
CAPITOLUL 10.
Obiectivele capitolului

• Descrieți când trebuie și pot fi utilizate teste nonparametrice


• Testarea legaturilor dintre doua variabile nonparametrice – Corelatii
neparametrice
• Utilizați teste nonparametrice pentru două sau mai multe
esantioane independente
• Utilizați teste nonparametrice pentru două esantioane dependente

151
Cand utilizam teste nonparametrice?

• Atunci când variabila este o variabilă ordinală sau un categoriala,


• Când există valori extreme
• Atunci cand rezultatele testelor de normalitate indica faptul ca
variabila nu este distribuita in mod normal

152
Testarea legaturilor dintre doua variabile
nonparametrice – Corelatii neparametrice

• Corelații nonparametrice (Spearman Rank Correlation si Kendall’s


tau-b)

• Aceste tipuri de corelație se folosesc atunci când avem de a face cu


variabile care nu sunt contiune (Interval/Raport), deoarece nu
putem ști cu exactitate „distanța” între două valori ale unei variabile
ordinale.

153
Testarea legaturilor dintre doua variabile
nonparametrice – Corelatii neparametrice
• Asumptii pentru corelatia Spearman
• Doua variabile fie ordinale, fie interval/raport (care incalca asumptiile
corelatiei Pearson)
• Relatia dintre variabile este monotonica

154
Testarea legaturilor dintre doua variabile
nonparametrice – Corelatii neparametrice
• note_la_teste.sav
• Vrem să determinăm dacă există o corelație între notele la
matematică și notele la fizică.
• Analyze – Correlate – Bivariate. Selectați Spearman’s rho și Kendall’s
Tau-b.
• Variables - folosiți toate variabilele din fișier.
• OK.

155
Teste nonparametrice pentru două sau mai multe
esantioane independente

• Mann-Whitney U – echivalentul nonparametric pentru testul t


pentru esantioane independente

156
Teste nonparametrice pentru două sau mai multe
esantioane independente
• Asumptii
• Variabila dependenta masurata ordinal/continuu
• Variabila independenta – categoriala cu doua grupuri (ex. Gen)
• Independenta observatiilor
• Distributia celor doua esantioane este non-normala

157
Teste nonparametrice pentru două sau mai multe
esantioane independente
• Exercitiu
• Deschideti fisierul HivTherapy.sav
• Faceți clic pe Analyze > Nonparametric Tests > Legacy Dialogs >
2 Independent Samples...
• Transferați variabila dependentă, ViralLoad, în caseta Test Variable List: și
variabila independentă, Therapy, în câmpul Grouping Variable:
• Bifati caseta de selectare Mann-Whitney U în zona -Test Type- și caseta
Variabilă grupare: este marcată cu galben. Dacă nu este evidențiată cu
galben, faceți clic pur și simplu în caseta Grouping variable: pentru a o
evidenția.
• Faceti clic pe butonul Define Groups

158
Teste nonparametrice pentru două sau mai multe
esantioane independente
• Exercitiu (cont.)
• Tastati 1 in caseta Group 1: si 2 in caseta Group 2:
• Clic pe Continue
• Daca doriti generarea de statistici descriptive, dati clic pe Options si
activati Descriptive si Quartille din sectiunea –Statistics-
• Cicl pe Continue, apoi OK

159
Teste nonparametrice pentru două sau mai multe
esantioane independente
• Exercitiu (interpretare)

160
Teste nonparametrice pentru două sau mai multe
esantioane dependente

• Wilcoxon signed-rank – testul nonparametric pentru esantioane


dependente

161
Teste nonparametrice pentru două sau mai multe
esantioane dependente
• Asumptii Wilcoxon signed-rank

• Variabila dependenta masurata pe o scala ordinala sau continua

• Variabila independenta formata din doua grupuri pereche

• Distributia diferentelor dintre grupuri este simetrica

162
Teste nonparametrice pentru două sau mai multe
esantioane dependente
• Exercitiu (Wilcoxon Signed-Rank)

163
Teste nonparametrice pentru două sau mai multe
esantioane dependente
• Exercitiu (Wilcoxon Signed-Rank)
• Analyze > Nonparametric Tests > Legacy Dialogs > 2 Related
Samples...
• Introduceti in fereastra noua QuestionA in caseta Variable1 si
QuestionB in caseta Variable2
• Pentru generarea de statistici aditionale, apasati Options si selectati
Descriptive si Quartiles din sectiunea –Statistics-
• Clic pe Continue si OK

164
Teste nonparametrice pentru două sau mai multe
esantioane dependente

165
Teste nonparametrice pentru două sau mai multe
esantioane dependente

166
Teste nonparametrice pentru două sau mai multe
esantioane dependente

167
Recapitulare
• Cand utilizam testele neparametrice?
• Ce statistica utilizam pentru a testa gradul de asociere intre doua
variabile nonparametrice?
• Ce teste utilizam pentru a testa diferenta intre doua esantioane
independente?
• Ce teste utilizam pentru a testa diferenta intre doua esantioane
dependente?

168

S-ar putea să vă placă și