C13 - Corelatii Si Regresii

CORELAȚII
și
REGRESII
LEGATURA DINTRE MAI MULTE VARIABILE
CANTITATIVE
1
Statistici descriptive în două dimensiuni
• Vârsta X: X1, X2,..., Xn

• TAS Y: Y1, Y2,..., Yn.
• Să se stabilească dacă există o legătură între
variabilele X şi Y şi să se determine o
modalitate de a măsura intensitatea acestei
legături.
2
Două
variabile
cantitative
Corelație Regresii
Determinarea
Mărimea
legăturii
asocierii
(funcției)
Studiul Realizarea de
cauzalității predicții
3
DIAGRAMA DE DISPERSIE
• Diagrama de dispersie
asociată unei tabel de
date bidimensional:
• X: X1, X2,..., Xn
II I
• Y: Y1, Y2,..., Yn *
* *
• se obţine reprezentând *
*
* *
*
grafic punctele de Y
*
*
*
*
coordonate (Xi,Yi) *
*
*
*
*
* *
*
i=1,2,...,n. * * *
* III IV
*
X
4
Diagrama de dispersie
II I
*
* *
*
* *
* *
* *
*
Y *
* * * *
*
* *
*
* * *
* II IV
* I
X
5
II I
* *
*
*
* *
* * *
* *
*
Y *
* * *
* * *
*
* *
* * *
*
III IV
X
6
* II I
* *
*
* *
* *
* *
* *
* *
*
Y *
* * * *
* *
* * *
* *
* * * *
*
III IV
X
7
Indici de corelaţie – Suma produselor ecart
O măsură a intensităţii relaţiei dintre variabilele X şi Y este dată de suma:
n
SPE =  ( X i − X )(Yi − Y )
i =1
Un dezavantaj evident al SPE este faptul că acest coeficient depinde de

numărul de puncte din seria statistică şi de unităţile de măsură ale
variabilelor
8
Indici de corelaţie – Suma produselor ecart
Pentru a descrie "intensitatea" relaţiei dintre cele două variabile X şi Y se
utilizează observaţia că dacă punctul (Xi,Yi) se află în cadranele I sau III ale
diagramei de dispersie atunci produsul este pozitiv iar atunci când este
situat în cadranele II şi IV este negativ.
II I
II I
* *
*
* * *
* *
* * * *
* * * *
* * *
* *
* *
Y * Y *
* * * * * * *
* * * *
* * *
* *
* *
* * * * *
*
* II IV III IV
* I
X X
SPE va fi cu atât mai mare în valoare absolută cu cât norul de puncte

este mai apropiat de o alură generală crescătoare (SPE > 0 ) sau
descrescătoare (SPE < 0). 9
Indici de corelaţie –Covarianţa COV(X,Y)
Pentru a obţine o mărime independentă faţă de volumul seriei

statistice se utilizează covarianţa seriilor X şi Y, calculată prin:
1 n
COV ( X , Y ) =  ( X i − X )(Yi − Y )
n i =1
10
Coeficientul de corelaţie Bravais-Pearson
Pentru a obţine un indicator independent şi de unităţile de

măsură ale celor două variabile se utilizează coeficientul de
corelaţie sau coeficientul Pearson:
COV ( X , Y ) n XY − (  X )(  Y )
r= =
Sx  Sy  n X 2 −
 (  X ) n Y − (  Y )
2 2 2
unde SX şi SY reprezintă abaterile standard pentru seriile X şi

respectiv Y:
n
S = s2  i
( X − X ) 2
s2 = i =1
n
unde s este variatia. 11
Interpretarea coeficientului de corelaţie
• Coeficientul de corelaţie măsoară intensitatea relaţiei dintre
variabilele X şi Y şi valoarea sa r este totodată cuprinsă între -1
şi 1.
• Dacă r=1 punctele sunt situate pe o dreaptă de pantă pozitivă
(crescătoare).
• Dacă 0 < r < 1, norul de puncte poate fi înlocuit (ajustat) printr-
o dreaptă de pantă pozitivă.
• Când r este pozitiv relaţia între variabilele X şi Y este "pozitivă",
adică o creştere a lui X determină în general o creştere a lui X.
II I
*
* *
*
* *
* *
* *
*
Y *
* * * *
*
* *
*
* * *
* II IV
* I
X 12
• Dispersia punctelor în jurul dreptei de regresie va fi cu atât mai

mare cu cât r se apropie de 0 şi cu atât mai mică cu cât r se
apropie de 1.
* II I
* *
*
* *
* *
* *
* *
* *
*
Y *
* * * *
* *
* * *
* *
* * * *
*
III IV
13
X
• Dacă -1 < r < 0 atunci norul de puncte poate fi aproximat cu o
dreaptă de pantă negativă. Dispersia punctelor faţă de dreaptă
va fi cu atât mai mică cu cât r este mai apropiat de -1.
• Dacă r=-1 atunci toate punctele sunt situate pe o dreaptă de
pantă negativă.
• Când r < 0 relaţia între cele două variabile este "negativă" adică
o creştere a lui X are în general ca şi consecinţă o diminuare a
lui Y.
II I
* *
*
*
* *
* * *
* *
*
Y *
* * *
* * *
*
* *
* * *
*
III IV
14
X
Regulile empirice Colton (1974)
• un coeficient de corelaţie de la -0.25 la 0,25

înseamnă o corelaţie slabă sau nulă,
• un coeficient de corelaţie de la 0.25 la 0.50 (sau de
la -0.25 la -0.50) înseamnă un grad de asociere
acceptabil
• un coeficient de corelaţie de la 0.5 la 0.75 (sau de la
-0.5 la -0.75) înseamnă o corelaţie moderată spre
bună
• un coeficient de corelaţie mai mare decât 0.75 (sau
mai mic decât -0.75) înseamnă o foarte bună
asociere sau corelaţie
15
Testul de semnificaţie pentru coeficientul de
corelaţie Pearson
• Semnificaţia coeficientului de corelaţie Pearson poate
fi evaluată dacă valoarea observată a apărut datorită
întâmplării
• dacă testul este semnificativ probabilitatea este mai mică
de 0,05
• Interpretarea este dată de valorile lui r
• Dacă p este mai mare de 0,05 interpretarea este că
datele experimentale nu ne permit enunţarea
existenţei unei relaţii (la nivelul întregii populații)
între variabilele luate în calcul
• r=0
16
Interpretarea r,p
Valoarea r p > 0,05 p < 0,05
-0.25 la 0,25 corelaţie slabă corelaţie slabă
sau nulă sau nulă
0.25 la 0.50 Nu are un grad de
(-0.25 la -0.50) semnificatie asociere
statistica acceptabil
0.5 la 0.75 Nu are o corelaţie
(-0.5 la -0.75) semnificatie moderată spre
statistica bună
0.75 (sau mai Nu are o foarte bună
mic decât -0.75) semnificatie asociere sau
statistica corelaţie
r < -1; r > 1 Eroare Eroare
17
Interpretarea r,p
• p >= 0,05 coeficientul descrie doar esantionul din
care a fost extras
• Variabilele corelate trebuie să fie cantitative
• Variabilele corelate trebuie să fie normal
distribuite
• Variabilele corelate nu trebuie să poată fi deduse
una din alta printr-o relație matematică (ex. IMC și
greutate)
• Intre variabilele pentru care se calculează corelație
trebuie sa existe o relație de cauzalitate descrisă în
studiu 18
Coeficientul de corelaţie Spearman
• Coeficientul de corelaţie Spearman, notat rs,

este analogul nonparametric al coeficientul de
corelaţie Pearson, calculat pentru a fi utilizat cu
date ordinale.
• Semnificaţia coeficientului de corelaţie
Spearman poate fi evaluată printr-un test care
determină dacă valoarea observată a apărut
datorită întâmplării (dacă este semnificativ este
mai mic de 0,05).
• Se folosește pentru date ordinale sau pentru
variabile care nu respectă distribuția normală 19
Coeficientul de determinare
• este pătratul coeficientului de corelaţie r, adică d = r*r.

• Prin definiţie, coeficientul de determinare reprezintă partea
din variaţia totală a lui Y explicată prin relaţia liniară existentă
între X şi Y.
• Acest coeficient, în procente (adică înmulţit cu 100) exprimă
procentajul în care variaţia lui Y este dată prin relaţia liniară
între cele două variabile.
20
21
22
23
180
160
140 y = 2,7788x - 25,123

R² = 0,8932
120
100
80
60
40
20
0
0 10 20 30 40 50 60
-20
-40
24
De reținut
• Într-un studiu s-a testat dacă există corelații

între temperatura corporală, înălțimea și
localitatea de proveniență a studenților
Atenție:
Variabilele corelate trebuie să fie cantitative
Intre variabilele pentru care se calculează
corelație trebuie să existe o relație de
cauzalitate
25
REGRESIA
26
Exemplu
Obținerea dreptei de regresie
Dreapta de regresie este acea funcție matematică pentru care
are o valoare minimă (metoda celor mai mici pătrate).
! Corolar pentru regresia liniară coeficienții dreptei a și b se deduc din

valorile seriei, pentru alte forme de funcții de cele mai multe ori softurile
de regresie folosesc soluții iterative.
Reziduale...
• Orice punct care nu se află pe dreapta de

regresie este la o distanță de aceasta
numită reziduală
Componenta de regresie și cea
reziduală
• O regresie “bună” are o componentă de

regresie în general mai mare decât cea
reziduală
• Metoda de apreciere a calității regresiei
REGRESIA
MULTIPLĂ 31
Interpretarea în SPSS a regresiei multiple
• Corelațiile pereche
• Average Female Life Expectancy (Y),
• Daily Calorie Intake (X1)
• People who Read (X2).
• 0.776 Y cu X1,
• 0.869 Y cu X2,
• 0.682 X1 cu X2 Correlations
Average
female life Daily calorie People who
expectancy intake read (%)
Pears on Correlation Average female life
r YX1 expectancy
1.000 .776 .869
Daily calorie intake .776 1.000 .682

People who read (%) .869 .682 1.000 r X1X2
Sig. (1-tailed) Average female life
r YX2
. .000 .000
expectancy
Daily calorie intake .000 . .000
People who read (%) .000 .000 .
N Average female life
74 74 74
expectancy
Daily calorie intake 74 74 74
People who read (%) 74 74 74
Interpretarea regresiei multiple
Coefficientsa
Uns tandardized Standardized

Coefficients Coefficients 95% Confidence Interval for B Correlations Collinearity Statis tics
Model B Std. Error Beta t Sig. Lower Bound Upper Bound Zero-order Partial Part Tolerance VIF
1 (Cons tant) 25.838 2.882 8.964 .000 20.090 31.585
People who read (%) .315 .034 .636 9.202 .000 .247 .383 .869 .738 .465 .535 1.868
Daily calorie intake .007 .001 .342 4.949 .000 .004 .010 .776 .506 .250 .535 1.868
a. Dependent Variable: Average female life expectancy
Valorile brute, raw, (nestandardizate) si valorile standardizate ale

ponderilor regresiilor pentru speranța de viață a femeilor în funcție de
aportul zilnic de calorii și de procentul celor care citesc din anturaj.
Valorile standardizate ale coeficientilor de regresie (beta weight)
pentru daily caloric intake este 0.342 iar pentru percentage of people
who read este mult mai mare 0.636.
Interpretare: pentru fiecare unitate din percentage of people who read
variabila Y (female life expectancy) va crește cu un multiplu de 0.636
SD. Amândoi coeficienții de corelație sunt semnificativi statistic, p <
.001
140
120 Four Parameter Logistic Curve
%Relative luciferase activity (RLA)

Conc DHT (pM) vs %RLA
95% Confidence Band
100 95% Prediction Band
80
60
40
20
0,01 0,1 1 10 100 1000 10000
Conc DHT (pM) -0,2

0,0
0,2
0,4
1,4 0,6
0,8
1,2 1,0
1,2
1,0 1,4
0,8
R
0,6
0,4
100
0,2
80
0,0
60
BP
-0,2
nc
40
co
250
butylparaben (BuPB) 200 20
butylated hydroxytoluene (BHT)
150
100
34
concB 50
5-alpha-dihydrotestosterone (DHT) HT
REGRESIA LOGISTICĂ
35
Ce este regresia logistică?
• Tip de regresie care permite predicția unei

variabile discrete printr-un mix de predictori,
variabile atât continue cât și discrete
• Răspunde la aceiași întrebare: există o funcție
de discriminare dar nu este necesară existența
unor condiții pentru predictori: normalitate,
relație liniară...
• Extrem de utilizată când nu se găsește o
funcție de predicție
Limitare
• Clasificarea poate să fie doar discretă

Definiții
Exemplu- obținerea fețelor
Termeni pare la un zar
• Probabilitate
• PROBABILITY
• ZAR
• Șansă = p/(1-p)
• Probabilitate = 3/6 = 0,50
• ODDS
• Șansa = p/(1-p) = 0,5/0,5=1
• Raportul șanselor
• ODDS RATIO
38
Regresia liniară
𝑦ො
෠
𝑦ො = 𝐸(𝑌|𝑋) = 𝛽መ0 + 𝛽መ1 𝑥
𝛽መ1 𝑥
^
b0
0 x
Transformarea logit
• Clasificarea poate să fie doar discretă
𝑝
ln șansă = ln = 𝛽𝑜 + 𝛽1 𝑋
1−𝑝
𝑒 𝛽𝑜 +𝛽1𝑋
𝑝=
1 + 𝑒𝛽𝑜 +𝛽1𝑋
Regresia logistică
• Dacă variabila dependentă este de

formă binară
• Estimarea probabilității și a șansei
clasificării corecte
1.0 1.0
0.8 0.8
Probability of Outcome
Probability of Outcome
0.6 0.6
0.4 0.4
0.2 0.2
0.0 0.0
20 30 40 50 60 70 80 90 0 20 40 60 80
Weight (KG) Weight (KG)

Exemplu
Poate fi prezis succesul unui
doctorand?
• Variabile predictori ai succesului
• Lot: 315 doctoranzi
• Obiectiv (variabilă dependentă):
• Succes (1 - DA 0 - NU).
• Predictori:
• Markeri ai inteligenței (IQ), pregătirii (medie
facultate)
• Date calitative: sex
Slide 42
Poate fi prezis succesul unui doctorand
folosind predictori multipli?
ln(șansă)=-18,046+1,431(sex)+0,144*IQ+0,556*Medie
Șansa=e[18,046+1,431(sex)+0,144*IQ+0,556*Medie]
43

C13 - Corelatii Si Regresii

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

C13 - Corelatii Si Regresii

Încărcat de

Drepturi de autor:

Formate disponibile

CORELAȚII

• Vârsta X: X1, X2,..., Xn

O măsură a intensităţii relaţiei dintre variabilele X şi Y este dată de suma:

Un dezavantaj evident al SPE este faptul că acest coeficient depinde de

SPE va fi cu atât mai mare în valoare absolută cu cât norul de puncte

Pentru a obţine o mărime independentă faţă de volumul seriei

Pentru a obţine un indicator independent şi de unităţile de

unde SX şi SY reprezintă abaterile standard pentru seriile X şi

• Dispersia punctelor în jurul dreptei de regresie va fi cu atât mai

• un coeficient de corelaţie de la -0.25 la 0,25

• Coeficientul de corelaţie Spearman, notat rs,

• este pătratul coeficientului de corelaţie r, adică d = r*r.

140 y = 2,7788x - 25,123

• Într-un studiu s-a testat dacă există corelații

Dreapta de regresie este acea funcție matematică pentru care

are o valoare minimă (metoda celor mai mici pătrate).

! Corolar pentru regresia liniară coeficienții dreptei a și b se deduc din

• Orice punct care nu se află pe dreapta de

• O regresie “bună” are o componentă de

Daily calorie intake .776 1.000 .682

Uns tandardized Standardized

Valorile brute, raw, (nestandardizate) si valorile standardizate ale

120 Four Parameter Logistic Curve

%Relative luciferase activity (RLA)

0,01 0,1 1 10 100 1000 10000

Conc DHT (pM) -0,2

• Tip de regresie care permite predicția unei

• Clasificarea poate să fie doar discretă

• Dacă variabila dependentă este de

Weight (KG) Weight (KG)

S-ar putea să vă placă și