Sunteți pe pagina 1din 20

Curs VII

SNSPA statistica
Analiza de varianta
• ANOVA factoriala
Se bazează pe un raționament similar analizei unifactoriale:
ANOVA= evaluarea diferenței dintre medii prin analiza împrăștierii lor. Acest lucru se realizează prin
descompunerea variabilității totale a variabilei independente într-o variablitatea indusă de valorile factorului
și o variabilitate indusă de hazard

Varianța totală

Varianța indusă Varianța indusă


de hazard de factor
(intra-grup) (inter-grup)
ANOVA= raportul dintre varianța inter-grup/varianta intra-grup
ANOVA
• ANOVA FACTORIALA
Varianța inter-grup este impărțită în trei componente: varianța determinată de factorul A, varianța
determinat de factorul B, varianța determinatp de interacțiunea factorilor A si B
ANOVA FACTORIALA (F)= pentru fiecare situatie
Varianța indusă
de hazard Datorata
factorului A
(intra-grup)
Varianța totală
Varianța indusă
de factor Datorata
factorului B
(inter-grup)

Datorata
interactiunii
ANOVA FACTORIALA
General Linear Model – Univariate
Model Full factorial
Post Hoc Bonferoni
Test de omogenitate a variantei
Testul lui Levene al egalitatii variantelor. P
valoare a lui p mai mica de 5% indica o
dispersie inegala in subgrupuri.
ANOVA FACTORIALA

Corrected model – testeaza efectul global alcasatoriei si varstei asupra comunicarii


Intercept – factor de corectie in functie de volumul esantionului ..in mod obisnuit nu se interpreteaza
Marimea efectului – partial eta squared – 0,01 efect mic, 0,06 efect mediu, 0,14 efect mare
0-20/21-30/31 -
Regresia liniară
• Să presupunem că ne interesează relația dintre nivelul INTELIGENȚEI și PERFORMANȚA
ȘCOLARĂ
• Selectăm un eșantion, evaluăm nivelul inteligenței și al performanței școlare
• Aplicăm un test de corelație liniară Pearson între cele două distribuții de valori
• Coeficientul r indică intensitatea relației dintre cele două variabile . Cu cât r este mai
mare cu atât relația dintre inteligență și performanța școlară este mai mare.
• Pe această proprietate se poate construi o procedură prin care valorile unei variabile să
fie prezise (estimate) pornind de la valorile celeilalte variabile…Procedură numită:
REGRESIE
• În acest context variabila ale cărei valori dorim să le prezicem se numește CRITERIU iar
variabila ale cărei valori le utilizăm pentru a prezice valorile criteriului se numește
PREDICTOR
Regresia liniară
1. Predecția perfectă r=±1
În situația ideală în care avem două variabile ce corelează perfect r=±1 - orice valoare a criteriului
corespunde unei valori identice a predictorului
Presupunem că avem două variabile exprimate în valori z Inteligență și performanța școlară
Zps`=Zi – (pentru că performanța școlară este prezisă se notează cu indicele „prim”)
2. Predicția în cazul corelației imperfecte
INTELIGENȚA – predictor
PERFORMANȚA ȘCOLARĂ - criteriu
Ignorăm influența pe care instruirea școlară o poate avea asupra dezvoltării inteligenței
Regresia liniară
Subiect Coeficient de inteligență Performanță școlară
1 123 96
2 119 83
3 115 85
4 120 90
5 124 96
6 113 73
7 110 78
8 112 89
9 132 100
10 128 99
Regresia liniară
• 2. Predicția în cazul unei corelații imperfecte
Coeficientul de corelație r=0.86
În contextul regresiei simple coeficientul de corelație devine coeficient de regresie și se notează cu R
R se interpretează la fel ca și coeficientul de corelație…la fel și R2
R*R= 0,74: 74% din variabilitatea valorilor performanței școlare are legătură cu variabilitatea valorilor
inteligenței.
Predicția nu este perfectă, prezintă o anumită eroare dată de faptul că o parte din variația performanțelor
școlare este explicată de alte variabile, în afara inteligenței.
Ecuația de predicție este:
Performanța școlară=r * IQ unde r= valoarea coeficientului de corelație dintre cele două variabile
Regresia liniară
• Performanța școlară=r * IQ unde r
În cazul corelației perfecte r = 1 se păstrează identitatea dintre variabila predictor și variabila criteriu.
Semnificația statistică a coeficientului de regresie R este supusă unui test F, ipoteza de nul respingându-se dacă
valoarea lui p este mai mică de 0.05
3. Dreapta de regresie
Graficul Scatter dot din
Legacy Dialogs
Elements
Fit line
Regresia liniară
• 3. Dreapta de regresie
Măsura în care norul de puncte descrie o relație liniară între variabile poate fi ilustrată prin trasarea unei
drepte prin acest nor de puncte, numită dreaptă de regresie
Traiectoria optimă a acestei drepte se fixează pe baza unui model matematic numit „metoda celor mai mici
pătrate” care asigură minimizarea distanțelor dintre punctele reale și linia de predicție/regresie
Pentru a trasa dreapta de regresie dintre două variabile sunt necesare punctul de origine al acesteia și
înclinarea (panta)
Formula liniei de regresie:
Y’= a+b*X
Y’= variabila prezisă / a=originea dreptei sau punctul de intercepție / b= panta liniei de regresie
X= variabila predictor
Regresia liniară
• Eroarea de predicție – valori reziduale
= Diferența dintre valoarea reală și valoarea prezisă

Eroarea de
predicție
Regresia liniară
Model de predicție multivariată
• Ecuația de regresie devine:
Y’= a + b1*X1 + b2*X2 + b3*X3……

Y’= variabila prezisă / a=originea dreptei sau punctul de intercepție / b= panta liniei de
regresie
X 1= variabila predictor 1
X 2= variabila predictor 2
X 3= variabila predictor 3
Regresia liniară
• Condiții:
Variabila dependentă – criteriul
- Trebuie să fie măsurată pe o scală interval raport
- Respectarea condiției de normalitate
Variabila independenta – predictorii
- De preferat variabile măsurate la nivel interval
- Trebuie sa fie ortogonale: sa nu coreleze între ele, variabilele independente cu o corelație mai mare de
0,10 ridică probleme…scade precizia predicției
Erorile nu corelează cu variabilele independente nu corelează între ele.
Regresia liniară
• O măsură specifică pentru coliniaritate este VIF (variation inflation factor) care trebuie să fie mai mic decât
10. Valori peste 10 indică o situați de multicoliniaritate
• Toleranta – o altă măsură specifică colinearității (0 – 1). Pt valori mai mici de 0.10 indică colinearitate
Rualarea în SPSS
• Analyze/Regression/Liniar
Din meniul STATISTICS alegem:
Estimates – coeficienții de regresie
Durbin Watson - pentru valorile reziduale: ne oferă informații cu privire la condiția de independență a
erorilor Valoare ideală situată în intervalul 1 - 3
Model fit – valoarea lui R și R2
Regresia liniară
Din meniul SAVE:
Unstandardized – valorile prezise pe baza modelului de predicție
Adjusted – valorile prezise pentru fiecare caz, dacă acel caz ar fi exclus din analiză, util pentru evidențierea
cazurilor cu influență excesivă asupra predicției
Mahalanobis – cât de mult diferă un caz de media tuturor cazurilor
nu ar trebui să depășească 25 pt N=500, 15 pt N=100 și 11 pt N=30

D al lui Cook – cât de mult s-ar modifica valoarea reziduală totală dacă acel caz ar fi eliminat
Nu ar trebui să aibă valori mai mari de 1
Standardized DFIT (sdf1) – schimbarea valorilor standardizate dacă acel caz ar fi exclus
Este exprimat în valori z – val 0 = cazul nu are nico influență asupra valorilor reziduale totale
Regresia liniară
Interpretare
Model Summaryb

Model R R Square Adjusted R Std. Error of the Durbin-Watson


Square Estimate

1 .857a .734 .701 4.98746 2.571

a. Predictors: (Constant), iq
b. Dependent Variable: perf_sc

R- corelația
R Square- proporția variației valorilor prezise
Adjusted R Square – Corecția lui R2 în funcție de numărul de predictori și de numărul de subiecți
Standard error of the Estimeate - indică acuratețea modelului de predicție
Dubrbin Watson oferă informații cu privire la condiția de independență a erorilor ideal in intervalul 1 - 3
Regresia liniară
ANOVAa

Model Sum of Squares df Mean Square F Sig.

Regression 549.902 1 549.902 22.107 .002b


1 Residual 198.998 8 24.875

Total 748.900 9

a. Dependent Variable: perf_sc


b. Predictors: (Constant), iq

Pragul sub 0,05 indică un model de predicție semnificativ statistic


Regresia liniară
Coefficientsa

Model Unstandardized Coefficients Standardized t Sig. Collinearity Statistics


Coefficients

B Std. Error Beta Tolerance VIF

(Constant) -40.412 27.548 -1.467 .181


1
iq 1.081 .230 .857 4.702 .002 1.000 1.000

a. Dependent Variable: perf_sc

Coeficienții Beta standardizați și nestandardizați


Cu cât coeficientul predictorului este mai mare cu atât predictorul respectiv contribuie mai mult la
variabilitatea criteriului …de dotit predictori cu coeficient mare indiferent de semn.
Coeficienții standardizațI pot fi utilizați în predicția valorilor standardizate z.
Tolerance >0.10
VIF <10
Regresia liniară
Modelul de analiză
• Enter – model neselectiv standard, în care toți predictorii sunt introduși simultan Se utilizează când
cercetătorul nu are un model teoreti al relațiilor dintre predictori și criteriu
• Modele cu selecție FORWARD selecție anterogradă: predictorii sunt introduși succesiv în ecuație în ordinea
intensității relației lor cu criteriul
• Modele cu selecție BACKWARD selecție retrogradă Sunt introduse toți predictorii în model apoi sunt scoși pe
rând predictorii cu contribuția cea mai slabă

S-ar putea să vă placă și