Documente Academic
Documente Profesional
Documente Cultură
• În ce măsură cele doua seturi de valori, dupa variabila X şi după variabila Y, sunt sau nu concordante.
• Concordanțe: Indivizii care iau valori mari (mici) dupa o variabilă, iau în medie, valori mari (mici) si după
cealaltă variabilă.
• Discordanţe: Indivizii care iau valori mari dupa o variabilă, iau în medie, valori valori mici după cealaltă
variabilă (şi invers)
( 𝑥𝑖 − ´
𝑥 ) ( 𝑦𝑖 − ´𝑦 )
•
r=
r=
r ia valori între: -1 (corelaţie negativă perfectă) şi
+1 (corelaţie pozitivă perfectă).
0 – lispă corelaţie.
Exemplu:
X (nota la statistica) Y (nota la TSM) 𝒙 − 𝒙´ 𝒚 − ´𝒚 ( 𝒙 − 𝒙´ ) ( 𝒚 − ´𝒚 ) ( 𝒙 − 𝒙´ )𝟐 ( 𝒚 − ´𝒚 )𝟐
4 3 -3 -4.4 13.3 9 19.8
4 6 -3 -1.4 4.3 9 2.1
5 5 -2 -2.4 4.9 4 6.0
6 7 -1 -0.4 0.4 1 0.2
7 9 0 1.6 0.0 0 2.4
8 9 1 1.6 1.6 1 2.4
9 9 2 1.6 3.1 4 2.4
10 9 3 1.6 4.7 9 2.4
10 10 3 2.6 7.7 9 6.5
Media pt X =7 Media pt Y = 7.4 Suma= 40.0 Suma= 46.0 Suma= 44.2
Poate să fie explicat nivelul de venit al indivizilor prin numărul de ani de educaţie?
Vreau să îmi
vând casa?
Mă uit la casele din carti er...
Cât au
costat?
Grafi c cu cele mai recente vânzări (ultimii 2 ani) – scatterplot
y
O vânzare Terminologie:
anterioară x – p redictor (var.
Preţ ($)
independentă)
y – observaţe, răspuns, var.
dependentă
y
Mă uit la preţul mediu din zonă
Doar 2 case!
f w (x) = a+b*x
funcţia
are coeficienţii/parametrii
Metri pătraţi (mp) x W = (a, b)
Care linie?
y
pret ($)
f w (x) = a+b*x
Parametrii diferiţi w
y Minimizez costul
general posibil a,b
RSS(a,b) =
preţ ($)
y fw(x) = a + b* x
preţ ($)
ŷ = F(x) = + ß*x
Model Summary
Std. Error
Nota la BAC în functie de nota la simularea examenului Adjusted of the
11 Model R R Square R Square Estimate
1 ,904a ,816 ,811 ,6352
10 a. Predictors: (Constant), Test1 (Simulare BAC)
8 ANOVAb
Sum of Mean
7 Model Squares df Square F Sig.
1 Regression 61,030 1 61,030 151,237 ,000a
6 Residual 13,720 34 ,404
Nota la BAC
Total 74,750 35
5 a. Predictors: (Constant), Test1 (Simulare BAC)
b. Dependent Variable: Nota la BAC
4 Rsq = 0,8165
2 4 6 8 10 12
Standardi
zed
Unstandardized Coefficien
Coefficients ts
Model B Std. Error Beta t Sig.
Interpretare? 1 (Constant)
Test1
3,204 ,385 8,331 ,000
Asumăm că distribuţia valorilor lui Y în jurul mediei (estimatei) pentru o anumită valoare a lui X este distribuţie
normală. Identificarea modelului de regresie înseamnă găsirea soluţiilor la acest set de ecuaţii de gradul I astfel
încât suma erorilor de estimare să fie minimă.
Asumpţia că valorile observate yij pentru o anumită valoarea lui X se distribuie normal în jurul estimatei ŷi
înseamnă că erorile au o distribuţie normală, cu media 0 şi abaterea standard 1.
Metoda Pătratelor Minime (celor mai mici pătrate)
Pentru fiecare individ statistic (i) avem o valoare y i (care corespunde efectiv individului respectiv), mai avem o valoare estimată
a lui Y (ŷi) (care rezultă prin calcul introducând pe x i în formulă) şi o valoare reziduală y i – ŷi.
Putem măsura eroarea estimării (eroarea de predicţie) calculând suma pătratelor reziduurilor (Sum of Squared Errors):
SSE=Σ (yi – ŷi)2
Metoda pătratelor minime este o procedură de a determina coeficienţii de regresie a şi b pentru ecuaţia de predicţie Ŷ= a + b*X
astfel încât valoarea sumei pătratelor reziduurilor să fie minimă.
Pe baza metodei celor mai mici pătrate (soluţionarea ecuaţiei de regresie astfel încât suma erorilor de estimare să fie minimă)
se pot calcula coeficienţii de regresie:
Σ(xi –media(x))*(yi-media(y))
b= a =media(Y)-b*media(X)
Σ(xi –media(x))2
Agars:
Y = a1 + b1*X
Terriers:
Y = a2 + b2*X
Canish:
Y = a3 + b3*X
Group A:
Y = a1 +b1*X
Group B:
Y = a2 + b2*X
• Coeficientul constant a indică punctul în care dreapta de regresie intersectează axa Oy.
Coeficientul b (panta dreptei de regresie) arată cu câte unităţi se modifică, în medie, variabila
dependentă atunci când variabila independentă se schimbă cu o unitate de măsură proprie.
• R2 - ne arată cu cât se reduc erorile de predicţie atunci când în locul mediei folosim ecuaţia de
predicţie (ecuaţia dreptei de regresie).
• r – coeficientul de corelaţie, cât de puternică este legătura dintre cele două variabile
Agresti şi Finley (2009) – cap. 9: Linear Regression and
Referințe Correlation, pp. 255 – 288
bibliografice Rotariu (2006) – cap. 7: Corelaţie şi regresie simplă liniară, pp.
169 - 182
Data viitoare