Sunteți pe pagina 1din 44

CORELAȚII

și
REGRESII
LEGATURA DINTRE MAI MULTE VARIABILE
CANTITATIVE

1
Statistici descriptive în două dimensiuni

• Vârsta X: X1, X2,..., Xn


• TAS Y: Y1, Y2,..., Yn.
• Să se stabilească dacă există o legătură între
variabilele X şi Y şi să se determine o
modalitate de a măsura intensitatea acestei
legături.

2
Două
variabile
cantitative

Corelație Regresii

Determinarea
Mărimea
legăturii
asocierii
(funcției)

Studiul Realizarea de
cauzalității predicții
3
DIAGRAMA DE DISPERSIE

• Diagrama de dispersie
asociată unei tabel de
date bidimensional:
• X: X1, X2,..., Xn
II I
• Y: Y1, Y2,..., Yn *
* *
• se obţine reprezentând *
*
* *
*
grafic punctele de Y
*
*
*
*
coordonate (Xi,Yi) *
*
*
*
*
* *

*
i=1,2,...,n. * * *
* III IV
*
X

4
Diagrama de dispersie

II I
*
* *
*
* *
* *
* *
*
Y *
* * * *
*
* *
*
* * *
* II IV
* I
X
5
Diagrama de dispersie

II I

* *
*
*
* *
* * *
* *
*
Y *
* * *
* * *
*
* *
* * *
*
III IV

X
6
Diagrama de dispersie

* II I

* *
*
* *
* *
* *
* *
* *
*
Y *
* * * *
* *
* * *
* *
* * * *
*
III IV

X
7
Indici de corelaţie – Suma produselor ecart

O măsură a intensităţii relaţiei dintre variabilele X şi Y este dată de suma:

n
SPE =  ( X i − X )(Yi − Y )
i =1

Un dezavantaj evident al SPE este faptul că acest coeficient depinde de


numărul de puncte din seria statistică şi de unităţile de măsură ale
variabilelor

8
Indici de corelaţie – Suma produselor ecart
Pentru a descrie "intensitatea" relaţiei dintre cele două variabile X şi Y se
utilizează observaţia că dacă punctul (Xi,Yi) se află în cadranele I sau III ale
diagramei de dispersie atunci produsul este pozitiv iar atunci când este
situat în cadranele II şi IV este negativ.

II I
II I
* *
*
* * *
* *
* * * *
* * * *
* * *
* *
* *
Y * Y *
* * * * * * *
* * * *
* * *
* *
* *
* * * * *
*
* II IV III IV
* I
X X

SPE va fi cu atât mai mare în valoare absolută cu cât norul de puncte


este mai apropiat de o alură generală crescătoare (SPE > 0 ) sau
descrescătoare (SPE < 0). 9
Indici de corelaţie –Covarianţa COV(X,Y)

Pentru a obţine o mărime independentă faţă de volumul seriei


statistice se utilizează covarianţa seriilor X şi Y, calculată prin:

1 n
COV ( X , Y ) =  ( X i − X )(Yi − Y )
n i =1

10
Coeficientul de corelaţie Bravais-Pearson

Pentru a obţine un indicator independent şi de unităţile de


măsură ale celor două variabile se utilizează coeficientul de
corelaţie sau coeficientul Pearson:

COV ( X , Y ) n XY − (  X )(  Y )
r= =
Sx  Sy  n X 2 −
 (  X ) n Y − (  Y )
2 2 2

unde SX şi SY reprezintă abaterile standard pentru seriile X şi


respectiv Y:
n

S = s2  i
( X − X ) 2

s2 = i =1

n
unde s este variatia. 11
Interpretarea coeficientului de corelaţie
• Coeficientul de corelaţie măsoară intensitatea relaţiei dintre
variabilele X şi Y şi valoarea sa r este totodată cuprinsă între -1
şi 1.
• Dacă r=1 punctele sunt situate pe o dreaptă de pantă pozitivă
(crescătoare).
• Dacă 0 < r < 1, norul de puncte poate fi înlocuit (ajustat) printr-
o dreaptă de pantă pozitivă.
• Când r este pozitiv relaţia între variabilele X şi Y este "pozitivă",
adică o creştere a lui X determină în general o creştere a lui X.

II I
*
* *
*
* *
* *
* *
*
Y *
* * * *
*
* *
*
* * *
* II IV
* I
X 12
Interpretarea coeficientului de corelaţie

• Dispersia punctelor în jurul dreptei de regresie va fi cu atât mai


mare cu cât r se apropie de 0 şi cu atât mai mică cu cât r se
apropie de 1.

* II I

* *
*
* *
* *
* *
* *
* *
*
Y *
* * * *
* *
* * *
* *
* * * *
*
III IV

13
X
Interpretarea coeficientului de corelaţie
• Dacă -1 < r < 0 atunci norul de puncte poate fi aproximat cu o
dreaptă de pantă negativă. Dispersia punctelor faţă de dreaptă
va fi cu atât mai mică cu cât r este mai apropiat de -1.
• Dacă r=-1 atunci toate punctele sunt situate pe o dreaptă de
pantă negativă.
• Când r < 0 relaţia între cele două variabile este "negativă" adică
o creştere a lui X are în general ca şi consecinţă o diminuare a
lui Y.

II I

* *
*
*
* *
* * *
* *
*
Y *
* * *
* * *
*
* *
* * *
*
III IV
14
X
Regulile empirice Colton (1974)

• un coeficient de corelaţie de la -0.25 la 0,25


înseamnă o corelaţie slabă sau nulă,
• un coeficient de corelaţie de la 0.25 la 0.50 (sau de
la -0.25 la -0.50) înseamnă un grad de asociere
acceptabil
• un coeficient de corelaţie de la 0.5 la 0.75 (sau de la
-0.5 la -0.75) înseamnă o corelaţie moderată spre
bună
• un coeficient de corelaţie mai mare decât 0.75 (sau
mai mic decât -0.75) înseamnă o foarte bună
asociere sau corelaţie
15
Testul de semnificaţie pentru coeficientul de
corelaţie Pearson
• Semnificaţia coeficientului de corelaţie Pearson poate
fi evaluată dacă valoarea observată a apărut datorită
întâmplării
• dacă testul este semnificativ probabilitatea este mai mică
de 0,05
• Interpretarea este dată de valorile lui r
• Dacă p este mai mare de 0,05 interpretarea este că
datele experimentale nu ne permit enunţarea
existenţei unei relaţii (la nivelul întregii populații)
între variabilele luate în calcul
• r=0

16
Interpretarea r,p
Valoarea r p > 0,05 p < 0,05
-0.25 la 0,25 corelaţie slabă corelaţie slabă
sau nulă sau nulă
0.25 la 0.50 Nu are un grad de
(-0.25 la -0.50) semnificatie asociere
statistica acceptabil
0.5 la 0.75 Nu are o corelaţie
(-0.5 la -0.75) semnificatie moderată spre
statistica bună
0.75 (sau mai Nu are o foarte bună
mic decât -0.75) semnificatie asociere sau
statistica corelaţie
r < -1; r > 1 Eroare Eroare
17
Interpretarea r,p
• p >= 0,05 coeficientul descrie doar esantionul din
care a fost extras
• Variabilele corelate trebuie să fie cantitative
• Variabilele corelate trebuie să fie normal
distribuite
• Variabilele corelate nu trebuie să poată fi deduse
una din alta printr-o relație matematică (ex. IMC și
greutate)
• Intre variabilele pentru care se calculează corelație
trebuie sa existe o relație de cauzalitate descrisă în
studiu 18
Coeficientul de corelaţie Spearman

• Coeficientul de corelaţie Spearman, notat rs,


este analogul nonparametric al coeficientul de
corelaţie Pearson, calculat pentru a fi utilizat cu
date ordinale.
• Semnificaţia coeficientului de corelaţie
Spearman poate fi evaluată printr-un test care
determină dacă valoarea observată a apărut
datorită întâmplării (dacă este semnificativ este
mai mic de 0,05).
• Se folosește pentru date ordinale sau pentru
variabile care nu respectă distribuția normală 19
Coeficientul de determinare

• este pătratul coeficientului de corelaţie r, adică d = r*r.


• Prin definiţie, coeficientul de determinare reprezintă partea
din variaţia totală a lui Y explicată prin relaţia liniară existentă
între X şi Y.
• Acest coeficient, în procente (adică înmulţit cu 100) exprimă
procentajul în care variaţia lui Y este dată prin relaţia liniară
între cele două variabile.

20
21
22
23
180

160

140 y = 2,7788x - 25,123


R² = 0,8932
120

100

80

60

40

20

0
0 10 20 30 40 50 60
-20

-40

24
De reținut

• Într-un studiu s-a testat dacă există corelații


între temperatura corporală, înălțimea și
localitatea de proveniență a studenților

Atenție:
Variabilele corelate trebuie să fie cantitative
Intre variabilele pentru care se calculează
corelație trebuie să existe o relație de
cauzalitate

25
REGRESIA
26
Exemplu
Obținerea dreptei de regresie

Dreapta de regresie este acea funcție matematică pentru care

are o valoare minimă (metoda celor mai mici pătrate).

! Corolar pentru regresia liniară coeficienții dreptei a și b se deduc din


valorile seriei, pentru alte forme de funcții de cele mai multe ori softurile
de regresie folosesc soluții iterative.
Reziduale...

• Orice punct care nu se află pe dreapta de


regresie este la o distanță de aceasta
numită reziduală
Componenta de regresie și cea
reziduală

• O regresie “bună” are o componentă de


regresie în general mai mare decât cea
reziduală
• Metoda de apreciere a calității regresiei
REGRESIA
MULTIPLĂ 31
Interpretarea în SPSS a regresiei multiple

• Corelațiile pereche
• Average Female Life Expectancy (Y),
• Daily Calorie Intake (X1)
• People who Read (X2).
• 0.776 Y cu X1,
• 0.869 Y cu X2,
• 0.682 X1 cu X2 Correlations

Average
female life Daily calorie People who
expectancy intake read (%)
Pears on Correlation Average female life
r YX1 expectancy
1.000 .776 .869

Daily calorie intake .776 1.000 .682


People who read (%) .869 .682 1.000 r X1X2
Sig. (1-tailed) Average female life
r YX2
. .000 .000
expectancy
Daily calorie intake .000 . .000
People who read (%) .000 .000 .
N Average female life
74 74 74
expectancy
Daily calorie intake 74 74 74
People who read (%) 74 74 74
Interpretarea regresiei multiple

Coefficientsa

Uns tandardized Standardized


Coefficients Coefficients 95% Confidence Interval for B Correlations Collinearity Statis tics
Model B Std. Error Beta t Sig. Lower Bound Upper Bound Zero-order Partial Part Tolerance VIF
1 (Cons tant) 25.838 2.882 8.964 .000 20.090 31.585
People who read (%) .315 .034 .636 9.202 .000 .247 .383 .869 .738 .465 .535 1.868
Daily calorie intake .007 .001 .342 4.949 .000 .004 .010 .776 .506 .250 .535 1.868
a. Dependent Variable: Average female life expectancy

Valorile brute, raw, (nestandardizate) si valorile standardizate ale


ponderilor regresiilor pentru speranța de viață a femeilor în funcție de
aportul zilnic de calorii și de procentul celor care citesc din anturaj.
Valorile standardizate ale coeficientilor de regresie (beta weight)
pentru daily caloric intake este 0.342 iar pentru percentage of people
who read este mult mai mare 0.636.
Interpretare: pentru fiecare unitate din percentage of people who read
variabila Y (female life expectancy) va crește cu un multiplu de 0.636
SD. Amândoi coeficienții de corelație sunt semnificativi statistic, p <
.001
140

120 Four Parameter Logistic Curve

%Relative luciferase activity (RLA)


Conc DHT (pM) vs %RLA
95% Confidence Band
100 95% Prediction Band

80

60

40

20

0,01 0,1 1 10 100 1000 10000

Conc DHT (pM) -0,2


0,0
0,2
0,4
1,4 0,6
0,8
1,2 1,0
1,2
1,0 1,4

0,8
R

0,6

0,4
100
0,2
80
0,0
60

BP
-0,2

nc
40

co
250
butylparaben (BuPB) 200 20
butylated hydroxytoluene (BHT)
150
100
34
concB 50
5-alpha-dihydrotestosterone (DHT) HT
REGRESIA LOGISTICĂ
35
Ce este regresia logistică?

• Tip de regresie care permite predicția unei


variabile discrete printr-un mix de predictori,
variabile atât continue cât și discrete
• Răspunde la aceiași întrebare: există o funcție
de discriminare dar nu este necesară existența
unor condiții pentru predictori: normalitate,
relație liniară...
• Extrem de utilizată când nu se găsește o
funcție de predicție
Limitare

• Clasificarea poate să fie doar discretă


Definiții
Exemplu- obținerea fețelor
Termeni pare la un zar

• Probabilitate
• PROBABILITY
• ZAR
• Șansă = p/(1-p)
• Probabilitate = 3/6 = 0,50
• ODDS
• Șansa = p/(1-p) = 0,5/0,5=1
• Raportul șanselor
• ODDS RATIO

38
Regresia liniară
𝑦ො

𝑦ො = 𝐸(𝑌|𝑋) = 𝛽መ0 + 𝛽መ1 𝑥

𝛽መ1 𝑥
^
b0

0 x
Transformarea logit
• Clasificarea poate să fie doar discretă

𝑝
ln șansă = ln = 𝛽𝑜 + 𝛽1 𝑋
1−𝑝

𝑒 𝛽𝑜 +𝛽1𝑋
𝑝=
1 + 𝑒𝛽𝑜 +𝛽1𝑋
Regresia logistică

• Dacă variabila dependentă este de


formă binară
• Estimarea probabilității și a șansei
clasificării corecte

1.0 1.0

0.8 0.8
Probability of Outcome

Probability of Outcome

0.6 0.6

0.4 0.4

0.2 0.2

0.0 0.0

20 30 40 50 60 70 80 90 0 20 40 60 80

Weight (KG) Weight (KG)


Exemplu
Poate fi prezis succesul unui
doctorand?
• Variabile predictori ai succesului
• Lot: 315 doctoranzi
• Obiectiv (variabilă dependentă):
• Succes (1 - DA 0 - NU).
• Predictori:
• Markeri ai inteligenței (IQ), pregătirii (medie
facultate)
• Date calitative: sex

Slide 42
Poate fi prezis succesul unui doctorand
folosind predictori multipli?

ln(șansă)=-18,046+1,431(sex)+0,144*IQ+0,556*Medie

Șansa=e[18,046+1,431(sex)+0,144*IQ+0,556*Medie]

43

S-ar putea să vă placă și