Documente Academic
Documente Profesional
Documente Cultură
și
REGRESII
LEGATURA DINTRE MAI MULTE VARIABILE
CANTITATIVE
1
Statistici descriptive în două dimensiuni
2
Două
variabile
cantitative
Corelație Regresii
Determinarea
Mărimea
legăturii
asocierii
(funcției)
Studiul Realizarea de
cauzalității predicții
3
DIAGRAMA DE DISPERSIE
• Diagrama de dispersie
asociată unei tabel de
date bidimensional:
• X: X1, X2,..., Xn
II I
• Y: Y1, Y2,..., Yn *
* *
• se obţine reprezentând *
*
* *
*
grafic punctele de Y
*
*
*
*
coordonate (Xi,Yi) *
*
*
*
*
* *
*
i=1,2,...,n. * * *
* III IV
*
X
4
Diagrama de dispersie
II I
*
* *
*
* *
* *
* *
*
Y *
* * * *
*
* *
*
* * *
* II IV
* I
X
5
Diagrama de dispersie
II I
* *
*
*
* *
* * *
* *
*
Y *
* * *
* * *
*
* *
* * *
*
III IV
X
6
Diagrama de dispersie
* II I
* *
*
* *
* *
* *
* *
* *
*
Y *
* * * *
* *
* * *
* *
* * * *
*
III IV
X
7
Indici de corelaţie – Suma produselor ecart
n
SPE = ( X i − X )(Yi − Y )
i =1
8
Indici de corelaţie – Suma produselor ecart
Pentru a descrie "intensitatea" relaţiei dintre cele două variabile X şi Y se
utilizează observaţia că dacă punctul (Xi,Yi) se află în cadranele I sau III ale
diagramei de dispersie atunci produsul este pozitiv iar atunci când este
situat în cadranele II şi IV este negativ.
II I
II I
* *
*
* * *
* *
* * * *
* * * *
* * *
* *
* *
Y * Y *
* * * * * * *
* * * *
* * *
* *
* *
* * * * *
*
* II IV III IV
* I
X X
1 n
COV ( X , Y ) = ( X i − X )(Yi − Y )
n i =1
10
Coeficientul de corelaţie Bravais-Pearson
COV ( X , Y ) n XY − ( X )( Y )
r= =
Sx Sy n X 2 −
( X ) n Y − ( Y )
2 2 2
S = s2 i
( X − X ) 2
s2 = i =1
n
unde s este variatia. 11
Interpretarea coeficientului de corelaţie
• Coeficientul de corelaţie măsoară intensitatea relaţiei dintre
variabilele X şi Y şi valoarea sa r este totodată cuprinsă între -1
şi 1.
• Dacă r=1 punctele sunt situate pe o dreaptă de pantă pozitivă
(crescătoare).
• Dacă 0 < r < 1, norul de puncte poate fi înlocuit (ajustat) printr-
o dreaptă de pantă pozitivă.
• Când r este pozitiv relaţia între variabilele X şi Y este "pozitivă",
adică o creştere a lui X determină în general o creştere a lui X.
II I
*
* *
*
* *
* *
* *
*
Y *
* * * *
*
* *
*
* * *
* II IV
* I
X 12
Interpretarea coeficientului de corelaţie
* II I
* *
*
* *
* *
* *
* *
* *
*
Y *
* * * *
* *
* * *
* *
* * * *
*
III IV
13
X
Interpretarea coeficientului de corelaţie
• Dacă -1 < r < 0 atunci norul de puncte poate fi aproximat cu o
dreaptă de pantă negativă. Dispersia punctelor faţă de dreaptă
va fi cu atât mai mică cu cât r este mai apropiat de -1.
• Dacă r=-1 atunci toate punctele sunt situate pe o dreaptă de
pantă negativă.
• Când r < 0 relaţia între cele două variabile este "negativă" adică
o creştere a lui X are în general ca şi consecinţă o diminuare a
lui Y.
II I
* *
*
*
* *
* * *
* *
*
Y *
* * *
* * *
*
* *
* * *
*
III IV
14
X
Regulile empirice Colton (1974)
16
Interpretarea r,p
Valoarea r p > 0,05 p < 0,05
-0.25 la 0,25 corelaţie slabă corelaţie slabă
sau nulă sau nulă
0.25 la 0.50 Nu are un grad de
(-0.25 la -0.50) semnificatie asociere
statistica acceptabil
0.5 la 0.75 Nu are o corelaţie
(-0.5 la -0.75) semnificatie moderată spre
statistica bună
0.75 (sau mai Nu are o foarte bună
mic decât -0.75) semnificatie asociere sau
statistica corelaţie
r < -1; r > 1 Eroare Eroare
17
Interpretarea r,p
• p >= 0,05 coeficientul descrie doar esantionul din
care a fost extras
• Variabilele corelate trebuie să fie cantitative
• Variabilele corelate trebuie să fie normal
distribuite
• Variabilele corelate nu trebuie să poată fi deduse
una din alta printr-o relație matematică (ex. IMC și
greutate)
• Intre variabilele pentru care se calculează corelație
trebuie sa existe o relație de cauzalitate descrisă în
studiu 18
Coeficientul de corelaţie Spearman
20
21
22
23
180
160
100
80
60
40
20
0
0 10 20 30 40 50 60
-20
-40
24
De reținut
Atenție:
Variabilele corelate trebuie să fie cantitative
Intre variabilele pentru care se calculează
corelație trebuie să existe o relație de
cauzalitate
25
REGRESIA
26
Exemplu
Obținerea dreptei de regresie
• Corelațiile pereche
• Average Female Life Expectancy (Y),
• Daily Calorie Intake (X1)
• People who Read (X2).
• 0.776 Y cu X1,
• 0.869 Y cu X2,
• 0.682 X1 cu X2 Correlations
Average
female life Daily calorie People who
expectancy intake read (%)
Pears on Correlation Average female life
r YX1 expectancy
1.000 .776 .869
Coefficientsa
80
60
40
20
0,8
R
0,6
0,4
100
0,2
80
0,0
60
BP
-0,2
nc
40
co
250
butylparaben (BuPB) 200 20
butylated hydroxytoluene (BHT)
150
100
34
concB 50
5-alpha-dihydrotestosterone (DHT) HT
REGRESIA LOGISTICĂ
35
Ce este regresia logistică?
• Probabilitate
• PROBABILITY
• ZAR
• Șansă = p/(1-p)
• Probabilitate = 3/6 = 0,50
• ODDS
• Șansa = p/(1-p) = 0,5/0,5=1
• Raportul șanselor
• ODDS RATIO
38
Regresia liniară
𝑦ො
𝑦ො = 𝐸(𝑌|𝑋) = 𝛽መ0 + 𝛽መ1 𝑥
𝛽መ1 𝑥
^
b0
0 x
Transformarea logit
• Clasificarea poate să fie doar discretă
𝑝
ln șansă = ln = 𝛽𝑜 + 𝛽1 𝑋
1−𝑝
𝑒 𝛽𝑜 +𝛽1𝑋
𝑝=
1 + 𝑒𝛽𝑜 +𝛽1𝑋
Regresia logistică
1.0 1.0
0.8 0.8
Probability of Outcome
Probability of Outcome
0.6 0.6
0.4 0.4
0.2 0.2
0.0 0.0
20 30 40 50 60 70 80 90 0 20 40 60 80
Slide 42
Poate fi prezis succesul unui doctorand
folosind predictori multipli?
ln(șansă)=-18,046+1,431(sex)+0,144*IQ+0,556*Medie
Șansa=e[18,046+1,431(sex)+0,144*IQ+0,556*Medie]
43