RL Master Suport Curs 3 2019

Regresia logisitcă 11/22/2019
1. Introducere
2. Regresia logistică binomială
• 2.1 Șanse, raport de șanse
• 2.2 Distribuţii de probabilitate
• 2.3 Regresia logistică binomială simplă
REGRESIA LOGISTICĂ • Aplicare

• Condiții
• Modelul de regresie logistică binomială simplă
• Estimarea prin metoda verosimilității maxime
MASTER DATA MINING • 2.4 Inferența pentru regresia logistică
• 2.5 Regresia logistică binomială multiplă
3. Regresia logistică multinomială
4. Regresia logistică ordinală
5. Regresia logistică în data mining
1 2
2.3 REGRESIA LOGISTICĂ 2.3 REGRESIA LOGISTICĂ

BINOMIALĂ SIMPLĂ - APLICARE BINOMIALĂ SIMPLĂ - APLICARE
RL se aplică în:
• Regresia logistică se folosește când variabila dependentă (răspuns) este categorială.
• modelarea probabilităților unei variabile răspuns ca funcție de variabilele explicative;
• Variabilele explicative pot fi categoriale și/sau numerice.
• Alte metode de analiză pentru variabila dependentă categorială:
• analiza diferențelor dintre indivizi/organizații (unități statistice) grupați/grupate în 2 sau
• Analiza logit ( toate variabilele explicative sunt categoriale); mai multe clase ca funcție de variabilele explicative;
• Analiza discriminant (toate variabilele explicative sunt numerice).
3 4
CONDIȚII DE APLIC ARE A REGRESIEI LOGISTICE

2.3 REGRESIA LOGISTICĂ
BINOMIALE
BINOMIALĂ SIMPLĂ - APLICARE
11/22/2019
• estimarea probabilităților ca un individ/o firmă să aparțină uneia din două sau mai
multe categorii ca funcție de o serie de variabile explicative; deoarece se calculează • Variabila răspuns/dependentă este categorială
probabilitatea de succes raportată la probabilitatea de eșec, rezutatele analizei sunt
sub forma raportului de șanse. • Variabila dependentă NU este necesar să urmeze o distribuție normală.
• clasificarea unităților (indivizi /firme/țări) în două sau mai multe categorii pe baza • Modelul binomial de regresie logistică presupune distribuția binomială a
variabilelor explicative. variabilei răspuns.
6
5 6
prof. dr. Laura Asandului 1

CONDIȚII DE APLIC ARE A REGRESIEI CONDIȚII DE APLIC ARE A REGRESIEI

LOGISTICE BINOMIALE LOGISTICE BINOMIALE
• Variabilele explicative/independente nu este necesar să fie numerice, nici • Erorile trebuie să fie independente, dar NU este necesar să fie distribuite
11/22/2019
distribuite normal. normal.
11/22/2019
• Regresia logistică NU presupune o relație liniară între variabila dependentă și • Pentru estimarea paramerilor se folosește metoda verosimilității maxime.
variabila independentă;
• Regresia logistică presupune o relație liniară între logitul variabilei răspuns și

variabila explicativă 7 8
7 8
CONDIȚII DE APLIC ARE A REGRESIEI LOGISTICE

BINOMIALE
11/22/2019
• Categoriile (grupurile) trebuie să fie mutual exclusive și exhaustive: un caz
11/22/2019
poate aparține doar unui grup și fiecare caz trebuie să aparțină unuia dintre • Pentru normalizarea distribuției este necesară transformarea logaritmică.
grupuri). • Transformarea log a valorilor p într-o distribuție log permite crearea unei
legături (link ) cu ecuația de regresie clasică.
• Sunt necesare eșantioane mai mari decât în cazul regresiei liniare deoarece • Distribuția log (transformarea logistică a lui p) se mai numește și logitul lui
coeficienții estimați cu metoda verosimilității maxime sunt folosiți pentru p sau logit(p).
eșantioane mari. Se recomandă un minim de 50 cazuri per predictor.
9 10
9 10
MODELUL DE REGRESIE LOGISTICĂ MODELUL DE REGRESIE LOGISTICĂ

11/22/2019
11/22/2019
B I N O M I AL Ă SIMPLĂ B I N O M I AL Ă SIMPLĂ
• O regresie simplă reprezintă o medie a variabilei dependente Y condiționată • poate lua orice valoare, pentru X variind de la
de o variabilă independentă X, .
• În cazul regresiei liniare, această medie este exprimată printr-o ecuație liniară: • Graficul este o dreapta de pantă .
𝐸 𝑌 𝑋 =𝛽 + 𝛽 𝑋 + 𝑒 Ecuația de
regresie • Pentru o variabilă dependentă binară, , pentru orice
11 12
11 12

MODELUL DE REGRESIE LOGISTICĂ

B I N O M I AL Ă SIMPLĂ
MODELUL DE REGRESIE LOGISTICĂ
11/22/2019
11/22/2019
B I N O M I AL Ă SIMPLĂ exp(𝒃 + 𝒃 𝐱)
𝛑𝐢 = 𝐏𝐫(𝐘𝐢 = 1|𝐗) =
1 + exp(𝒃 + 𝒃 𝐱)
• Un mod de a exprima o relație non-liniară într-o relație liniară este transformarea

𝟏
• 𝑷 𝒀 = ecuația regresiei
𝟏 𝒆 (𝒃𝟎 𝒃𝟏𝒙)
logaritmică. liniare
• Ecuația de regresie:
• Semnul lui b indică scăderea sau creșterea lui 𝜋.
𝑙𝑜𝑔𝑖𝑡 (𝜋 ) = ln =β +β X+e
• 𝜋 > dacă ∝ > 0
,
• 𝜋= ln = ln = ln 1 = 0
,
13 • 𝒃𝟎 + 𝒃𝟏 𝒙 = 0 𝑥=− 14
13 14
MODELUL DE REGRESIE LOGISTICĂ MODELUL DE REGRESIE LOGISTICĂ

11/22/2019
11/22/2019
B I N O M I AL Ă SIMPLĂ B I N O M I AL Ă SIMPLĂ
• Șansele = =𝑒 • Termenul 𝑙𝑜𝑔 este denumit şi funcţia logit (logaritmul şanselor).

( )
• Când x crește cu o unitate, =𝑒 =𝑒 𝑒
• Când b=0, 𝑒 = 1. • Logit se interpretează ca logaritmul şanselor.
15 16
15 16
Relația între probabilitatea de succes (p) MODELUL DE REGRESIE LOGISTICĂ

și logit(p)
11/22/2019
11/22/2019
B I N O M I AL Ă SIMPLĂ
p 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,95 0,99

logit(p) -0,847 -0,405 0,0 0,405 0,847 1,386 2,197 2,944 4,595
Scala logit este aproximativ liniară în mijloc și logaritmică la extreme.
17 18
17 18

EXEMPLU
11/22/2019
11/22/2019
i ii iii iv v vi vii
• X – vârsta gestațională a bebelușului (săptămâni) la momentul nașterii
Y Raportul
• Y – dacă bebelușul a fost hrănit la sân în perioada spitalizării (la momentul șanselor
ieșirii din spital); pentru Log
Total Y=1 Odds
• ” Nu” 0 X 0 1 ii+iii Prob (Y=1) Ratio
• ” Da” 1 28 4 2 6 0,3333 0,5000 -0,6931
29 3 2 5 0,4000 0,6667 -0,4055
30 2 7 9 0,7778 3,5000 1,2528
31 2 7 9 0,7778 3,5000 1,2528
19 32 4 16 20 0,8000 20 4,0000 1,3863
33 1 14 15 0,9333 14,0000 2,6391
19 20
2.4 INFERENȚA PENTRU REGRESIA

LOGISTICĂ
LOGISTICĂ METODA VEROSIMILITĂȚII MAXIME
Metoda verosimilității maxime

• Verosimilitate maximă completă (VMC)
• Metoda verosimilității maxime presupune estimarea parametrilor necunoscuți prin acea • Verosimilitate maxime restrânsă (VMR)
valoare ce maximizează funcția de verosimilate.
• Estimatorii obținuți prin verosimilitatea maximă necesită eșantioane mari pentru a fi

nedeplasați, dar sunt consistenți, asimptotic eficienți și asimptotic normal distribuiți.
• Estimatorul verosimilității maxime (ML) este valoarea parametrului pentru care datele
observate au cea mai mare probabilitate de apariție. (Agresti A.).
21 22
2.4 INFERENȚA PENTRU REGRESIA 2.4 INFERENȚA PENTRU REGRESIA

LOGISTICĂ LOGISTICĂ
METODA VEROSIMILITĂȚII MAXIME METODA VEROSIMILITĂȚII MAXIME
• Estimarea prin verosimilitate maximă completă (VMC) include în funcția de verosimilitate Pentru obținerea de estimatori de verosimilitate maximă, în literatura de specialitate au
atât coeficienții de regresie cât și componentele varianței. fost propuși o varietate de procedee și algoritmi. Printre aceștia se numără:
• algoritmul EM
• Funcția de verosimilitate aferentă estimării prin verosimilitate maximă restrânsă (VMR) • cele mai mici pătrate generalizate calculate iterativ (IGLS) pentru
include numai componentele varianței, coeficienții de regresie fiind estimați într-o a doua verosimilitatea maximă completă: cele mai mici pătrate generalizate restricționate
etapă. calculate iterativ (RIGLS) pentru verosimilitatea maximă restrânsă, algoritmul Fisher,
pentru modelele cu coeficienți aleatori, algoritmul Newton-Raphson.
• Estimarea prin verosimilitate maximă restrânsă este, de obicei, metoda standard în cele
mai multe pachete soft de analiză statistică.
23 24


LOGISTICĂ
LOGISTICĂ
METODA VEROSIMILITĂȚII MAXIME
Estimatorii verosimilității maxime au următoarele proprietăți:

• Au distribuții normale pentru eșantioane mari; • Valoarea parametrului care maximizează funcția de verosimilitate (likelihood
• Sunt consistenți asimptotic; converg către parametru pe măsură ce n function) maximixează și logaritmul acestei funcții.
crește;
• Este mai ușor de maximizat log verosimilitatea (log likelihood) deoarece
• Sunt eficienți asimptotic, producând erori standard pentru eșantioane
mari cel mult la fel de mari ca cele produse cu alte metode de este o sumă de termeni (Agresti, A.).
estimare (Agresti, A.).
25 26
2.4 INFERENȚA PENTRU REGRESIA LOGISTICĂ

METODA VEROSIMILITĂȚII MAXIME Metoda verosimilității maxime (maximum likelihood) estimează valoarea
adevărată (θ0) a parametrilor prin găsirea acelui estimator θ ce maximizează funcția
• Considerând 𝑦 , 𝑦 ,.., 𝑦 observații independente și identic distribuite, atunci funcția de
de verosimilitate L: max L(θ| 𝑦 , 𝑦 , . . , 𝑦 )
densitate, condiționată de un set de parametri θ, este dată de ecuația
𝑙 𝛽 =∏ 𝑓 𝑦 ,𝜋 𝑥 =∏ 𝜋(𝑥 ) ) 1 − 𝜋 𝑥
f(Y|θ) = f (𝑦 , 𝑦 ,.., 𝑦 | θ) = f (𝑦 | θ) * f (𝑦 | θ) * …* f (𝑦 | θ) = L(θ| 𝑦 , 𝑦 ,.., 𝑦 ) = L(θ|Y)
Această funcție de densitate este funcția de verosimilitate. f 𝑦 ,𝜋 𝑥 = 𝜋(𝑥 ) ) 1 − 𝜋 𝑥
unde este funcţia de frecvenţe corespunzătoare variabilei discrete Y.

28
27 28

LOGISTICĂ METODA VEROSIMILITĂȚII MAXIME
Estimatorul verosimilității maxime este:
θ = arg max L(θ| 𝑦 , 𝑦 , . . , 𝑦 )
Funcția de log verosimilitate:
Întrucât orice funcție își atinge maximul odată cu logaritmul ei natural, iar calculul
numeric este mai simplu de aplicat pe logaritmul funcției, procedeul de găsire a
L(β ) = ln[𝑙 β ] = ∑ 𝑙𝑛 [𝑓(𝑦 ,𝜋(𝑥 ))] maximului se aplică logaritmului funcției de verosimilitate (log verosimilitate).
ln L(θ| 𝑦 , 𝑦 ,.., 𝑦 ) = ln (∏ f(𝑦 | θ)) = ∑ ln(f(𝑦 | θ))

L(β ) = ∑ {𝑦 𝑙𝑛 [𝜋(𝑥 )] + (1-𝑦 )ln[1- 𝜋(𝑥 )]}
Funcția de verosimilitate este monoton crescătoare, deci pentru estimarea

f(𝑦 ,𝜋(𝑥 )) = 𝜋(𝑥 ) 1 − 𝜋(𝑥 ) verosimilității maxime se poate utiliza funcția de log-verosimilitate, dacă maximul
29
funcției există.
29 30


LOGISTICĂ
LOGISTICĂ Testarea semnificației coeficientului de regresie presupune compararea valorilor
observate ale variabilei explicate cu valorile prognozate obținute pornind de la un
• Estimarea parametrilor prin interval
model, cu sau fără variabila independentă luată în considerare.
𝛽 ± 𝑧 𝑆𝐸 (𝛽 )
• Estimatorul transformării logit

În regresia logistică, compararea acestor valori se face cu ajutorul funcției de
𝑔 𝑥 = 𝛽 +𝛽 x
logverosimilitate.
• Intervalul de încredere pentru transformarea logit
Cu cât funcția de logverosimilitate se apropie de zero, cu atât estimarea
𝑔 𝑥 ± 𝑧 𝑆𝐸 (𝑔(𝑥))
modelului este mai bună.
31 32
31 32

• Un model saturat conține un număr de parametri egal cu numărul

• testul raportului de verosimilitate (likelihood ratio test) combinațiilor posibile între categoriile variabilelor independente nominale.
• testul Wald
• testul Score
• Compararea valorilor observate cu cele estimate pornind de la funcția de
verosimilitate se bazează pe relaţia
33 34
33 34

• Pentru a evalua gradul de semnificație a variabilei independente, se compară
valoarea devianței D în cele două modele (cu și fără variabila independentă).
• Statistica D (numită de unii autori devianță) joacă, în regresia logistică, același
rol ca și suma pătratelor erorilor în regresia liniară.
• În cazul în care variabila dependentă poate lua doar valorile 0 sau 1, • Schimbarea devianței determinate de includerea în ecuație a variabilei
verosimilitatea modelului saturat este egală cu 1. independente se obține astfel:
• Devianța va avea valoarea G = D (modelul fără variabilă) – D (modelul cu variabilă)
D = - 2 ln (verosimilitatea modelului estimat) sau
35 36
35 36


LOGISTICĂ
• Testul Wald
W=
37
37

RL Master Suport Curs 3 2019

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

RL Master Suport Curs 3 2019

Încărcat de

Drepturi de autor:

Formate disponibile

Regresia logisitcă 11/22/2019

REGRESIA LOGISTICĂ • Aplicare

2.3 REGRESIA LOGISTICĂ 2.3 REGRESIA LOGISTICĂ

CONDIȚII DE APLIC ARE A REGRESIEI LOGISTICE

prof. dr. Laura Asandului 1

CONDIȚII DE APLIC ARE A REGRESIEI CONDIȚII DE APLIC ARE A REGRESIEI

distribuite normal. normal.

• Regresia logistică presupune o relație liniară între logitul variabilei răspuns și

CONDIȚII DE APLIC ARE A REGRESIEI LOGISTICE

MODELUL DE REGRESIE LOGISTICĂ MODELUL DE REGRESIE LOGISTICĂ

prof. dr. Laura Asandului 2

MODELUL DE REGRESIE LOGISTICĂ

• Un mod de a exprima o relație non-liniară într-o relație liniară este transformarea

MODELUL DE REGRESIE LOGISTICĂ MODELUL DE REGRESIE LOGISTICĂ

• Șansele = =𝑒 • Termenul 𝑙𝑜𝑔 este denumit şi funcţia logit (logaritmul şanselor).

Relația între probabilitatea de succes (p) MODELUL DE REGRESIE LOGISTICĂ

p 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,95 0,99

Scala logit este aproximativ liniară în mijloc și logaritmică la extreme.

prof. dr. Laura Asandului 3

2.4 INFERENȚA PENTRU REGRESIA

Metoda verosimilității maxime

• Estimatorii obținuți prin verosimilitatea maximă necesită eșantioane mari pentru a fi

2.4 INFERENȚA PENTRU REGRESIA 2.4 INFERENȚA PENTRU REGRESIA

prof. dr. Laura Asandului 4

2.4 INFERENȚA PENTRU REGRESIA

Estimatorii verosimilității maxime au următoarele proprietăți:

2.4 INFERENȚA PENTRU REGRESIA LOGISTICĂ

Această funcție de densitate este funcția de verosimilitate. f 𝑦 ,𝜋 𝑥 = 𝜋(𝑥 ) ) 1 − 𝜋 𝑥

unde este funcţia de frecvenţe corespunzătoare variabilei discrete Y.

2.4 INFERENȚA PENTRU REGRESIA

ln L(θ| 𝑦 , 𝑦 ,.., 𝑦 ) = ln (∏ f(𝑦 | θ)) = ∑ ln(f(𝑦 | θ))

Funcția de verosimilitate este monoton crescătoare, deci pentru estimarea

prof. dr. Laura Asandului 5

2.4 INFERENȚA PENTRU REGRESIA

• Estimatorul transformării logit

2.4 INFERENȚA PENTRU REGRESIA 2.4 INFERENȚA PENTRU REGRESIA

• Un model saturat conține un număr de parametri egal cu numărul

2.4 INFERENȚA PENTRU REGRESIA 2.4 INFERENȚA PENTRU REGRESIA

prof. dr. Laura Asandului 6

2.4 INFERENȚA PENTRU REGRESIA

prof. dr. Laura Asandului 7

S-ar putea să vă placă și