Sunteți pe pagina 1din 7

Regresia logisitcă 11/22/2019

1. Introducere
2. Regresia logistică binomială
• 2.1 Șanse, raport de șanse
• 2.2 Distribuţii de probabilitate
• 2.3 Regresia logistică binomială simplă

REGRESIA LOGISTICĂ • Aplicare


• Condiții
• Modelul de regresie logistică binomială simplă
• Estimarea prin metoda verosimilității maxime
MASTER DATA MINING • 2.4 Inferența pentru regresia logistică
• 2.5 Regresia logistică binomială multiplă
3. Regresia logistică multinomială
4. Regresia logistică ordinală
5. Regresia logistică în data mining

1 2

2.3 REGRESIA LOGISTICĂ 2.3 REGRESIA LOGISTICĂ


BINOMIALĂ SIMPLĂ - APLICARE BINOMIALĂ SIMPLĂ - APLICARE

RL se aplică în:
• Regresia logistică se folosește când variabila dependentă (răspuns) este categorială.
• modelarea probabilităților unei variabile răspuns ca funcție de variabilele explicative;
• Variabilele explicative pot fi categoriale și/sau numerice.
• Alte metode de analiză pentru variabila dependentă categorială:
• analiza diferențelor dintre indivizi/organizații (unități statistice) grupați/grupate în 2 sau
• Analiza logit ( toate variabilele explicative sunt categoriale); mai multe clase ca funcție de variabilele explicative;
• Analiza discriminant (toate variabilele explicative sunt numerice).

3 4

CONDIȚII DE APLIC ARE A REGRESIEI LOGISTICE


2.3 REGRESIA LOGISTICĂ
BINOMIALE
BINOMIALĂ SIMPLĂ - APLICARE
11/22/2019

• estimarea probabilităților ca un individ/o firmă să aparțină uneia din două sau mai
multe categorii ca funcție de o serie de variabile explicative; deoarece se calculează • Variabila răspuns/dependentă este categorială
probabilitatea de succes raportată la probabilitatea de eșec, rezutatele analizei sunt
sub forma raportului de șanse. • Variabila dependentă NU este necesar să urmeze o distribuție normală.

• clasificarea unităților (indivizi /firme/țări) în două sau mai multe categorii pe baza • Modelul binomial de regresie logistică presupune distribuția binomială a
variabilelor explicative. variabilei răspuns.
6

5 6

prof. dr. Laura Asandului 1


Regresia logisitcă 11/22/2019

CONDIȚII DE APLIC ARE A REGRESIEI CONDIȚII DE APLIC ARE A REGRESIEI


LOGISTICE BINOMIALE LOGISTICE BINOMIALE

• Variabilele explicative/independente nu este necesar să fie numerice, nici • Erorile trebuie să fie independente, dar NU este necesar să fie distribuite
11/22/2019

distribuite normal. normal.

11/22/2019
• Regresia logistică NU presupune o relație liniară între variabila dependentă și • Pentru estimarea paramerilor se folosește metoda verosimilității maxime.
variabila independentă;

• Regresia logistică presupune o relație liniară între logitul variabilei răspuns și


variabila explicativă 7 8

7 8

CONDIȚII DE APLIC ARE A REGRESIEI LOGISTICE


BINOMIALE

11/22/2019
• Categoriile (grupurile) trebuie să fie mutual exclusive și exhaustive: un caz
11/22/2019

poate aparține doar unui grup și fiecare caz trebuie să aparțină unuia dintre • Pentru normalizarea distribuției este necesară transformarea logaritmică.
grupuri). • Transformarea log a valorilor p într-o distribuție log permite crearea unei
legături (link ) cu ecuația de regresie clasică.
• Sunt necesare eșantioane mai mari decât în cazul regresiei liniare deoarece • Distribuția log (transformarea logistică a lui p) se mai numește și logitul lui
coeficienții estimați cu metoda verosimilității maxime sunt folosiți pentru p sau logit(p).
eșantioane mari. Se recomandă un minim de 50 cazuri per predictor.

9 10

9 10

MODELUL DE REGRESIE LOGISTICĂ MODELUL DE REGRESIE LOGISTICĂ


11/22/2019

11/22/2019

B I N O M I AL Ă SIMPLĂ B I N O M I AL Ă SIMPLĂ

• O regresie simplă reprezintă o medie a variabilei dependente Y condiționată • poate lua orice valoare, pentru X variind de la

de o variabilă independentă X, .

• În cazul regresiei liniare, această medie este exprimată printr-o ecuație liniară: • Graficul este o dreapta de pantă .
𝐸 𝑌 𝑋 =𝛽 + 𝛽 𝑋 + 𝑒 Ecuația de
regresie • Pentru o variabilă dependentă binară, , pentru orice

11 12

11 12

prof. dr. Laura Asandului 2


Regresia logisitcă 11/22/2019

MODELUL DE REGRESIE LOGISTICĂ


B I N O M I AL Ă SIMPLĂ
MODELUL DE REGRESIE LOGISTICĂ

11/22/2019

11/22/2019
B I N O M I AL Ă SIMPLĂ exp(𝒃 + 𝒃 𝐱)
𝛑𝐢 = 𝐏𝐫(𝐘𝐢 = 1|𝐗) =
1 + exp(𝒃 + 𝒃 𝐱)

• Un mod de a exprima o relație non-liniară într-o relație liniară este transformarea


𝟏
• 𝑷 𝒀 = ecuația regresiei
𝟏 𝒆 (𝒃𝟎 𝒃𝟏𝒙)
logaritmică. liniare
• Ecuația de regresie:
• Semnul lui b indică scăderea sau creșterea lui 𝜋.
𝑙𝑜𝑔𝑖𝑡 (𝜋 ) = ln =β +β X+e
• 𝜋 > dacă ∝ > 0

,
• 𝜋= ln = ln = ln 1 = 0
,
13 • 𝒃𝟎 + 𝒃𝟏 𝒙 = 0 𝑥=− 14

13 14

MODELUL DE REGRESIE LOGISTICĂ MODELUL DE REGRESIE LOGISTICĂ


11/22/2019

11/22/2019
B I N O M I AL Ă SIMPLĂ B I N O M I AL Ă SIMPLĂ

• Șansele = =𝑒 • Termenul 𝑙𝑜𝑔 este denumit şi funcţia logit (logaritmul şanselor).


( )
• Când x crește cu o unitate, =𝑒 =𝑒 𝑒
• Când b=0, 𝑒 = 1. • Logit se interpretează ca logaritmul şanselor.

15 16

15 16

Relația între probabilitatea de succes (p) MODELUL DE REGRESIE LOGISTICĂ


și logit(p)
11/22/2019

11/22/2019

B I N O M I AL Ă SIMPLĂ

p 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,95 0,99


logit(p) -0,847 -0,405 0,0 0,405 0,847 1,386 2,197 2,944 4,595

Scala logit este aproximativ liniară în mijloc și logaritmică la extreme.

17 18

17 18

prof. dr. Laura Asandului 3


Regresia logisitcă 11/22/2019

EXEMPLU

11/22/2019

11/22/2019
i ii iii iv v vi vii
• X – vârsta gestațională a bebelușului (săptămâni) la momentul nașterii
Y Raportul
• Y – dacă bebelușul a fost hrănit la sân în perioada spitalizării (la momentul șanselor
ieșirii din spital); pentru Log
Total Y=1 Odds
• ” Nu” 0 X 0 1 ii+iii Prob (Y=1) Ratio
• ” Da” 1 28 4 2 6 0,3333 0,5000 -0,6931
29 3 2 5 0,4000 0,6667 -0,4055
30 2 7 9 0,7778 3,5000 1,2528
31 2 7 9 0,7778 3,5000 1,2528
19 32 4 16 20 0,8000 20 4,0000 1,3863
33 1 14 15 0,9333 14,0000 2,6391

19 20

2.4 INFERENȚA PENTRU REGRESIA


2.4 INFERENȚA PENTRU REGRESIA
LOGISTICĂ
LOGISTICĂ METODA VEROSIMILITĂȚII MAXIME

Metoda verosimilității maxime


• Verosimilitate maximă completă (VMC)
• Metoda verosimilității maxime presupune estimarea parametrilor necunoscuți prin acea • Verosimilitate maxime restrânsă (VMR)
valoare ce maximizează funcția de verosimilate.

• Estimatorii obținuți prin verosimilitatea maximă necesită eșantioane mari pentru a fi


nedeplasați, dar sunt consistenți, asimptotic eficienți și asimptotic normal distribuiți.

• Estimatorul verosimilității maxime (ML) este valoarea parametrului pentru care datele
observate au cea mai mare probabilitate de apariție. (Agresti A.).

21 22

2.4 INFERENȚA PENTRU REGRESIA 2.4 INFERENȚA PENTRU REGRESIA


LOGISTICĂ LOGISTICĂ
METODA VEROSIMILITĂȚII MAXIME METODA VEROSIMILITĂȚII MAXIME

• Estimarea prin verosimilitate maximă completă (VMC) include în funcția de verosimilitate Pentru obținerea de estimatori de verosimilitate maximă, în literatura de specialitate au
atât coeficienții de regresie cât și componentele varianței. fost propuși o varietate de procedee și algoritmi. Printre aceștia se numără:
• algoritmul EM
• Funcția de verosimilitate aferentă estimării prin verosimilitate maximă restrânsă (VMR) • cele mai mici pătrate generalizate calculate iterativ (IGLS) pentru
include numai componentele varianței, coeficienții de regresie fiind estimați într-o a doua verosimilitatea maximă completă: cele mai mici pătrate generalizate restricționate
etapă. calculate iterativ (RIGLS) pentru verosimilitatea maximă restrânsă, algoritmul Fisher,
pentru modelele cu coeficienți aleatori, algoritmul Newton-Raphson.

• Estimarea prin verosimilitate maximă restrânsă este, de obicei, metoda standard în cele
mai multe pachete soft de analiză statistică.

23 24

prof. dr. Laura Asandului 4


Regresia logisitcă 11/22/2019

2.4 INFERENȚA PENTRU REGRESIA


2.4 INFERENȚA PENTRU REGRESIA
LOGISTICĂ
LOGISTICĂ
METODA VEROSIMILITĂȚII MAXIME
METODA VEROSIMILITĂȚII MAXIME

Estimatorii verosimilității maxime au următoarele proprietăți:


• Au distribuții normale pentru eșantioane mari; • Valoarea parametrului care maximizează funcția de verosimilitate (likelihood

• Sunt consistenți asimptotic; converg către parametru pe măsură ce n function) maximixează și logaritmul acestei funcții.
crește;
• Este mai ușor de maximizat log verosimilitatea (log likelihood) deoarece
• Sunt eficienți asimptotic, producând erori standard pentru eșantioane
mari cel mult la fel de mari ca cele produse cu alte metode de este o sumă de termeni (Agresti, A.).
estimare (Agresti, A.).

25 26

2.4 INFERENȚA PENTRU REGRESIA LOGISTICĂ


METODA VEROSIMILITĂȚII MAXIME
2.4 INFERENȚA PENTRU REGRESIA LOGISTICĂ
METODA VEROSIMILITĂȚII MAXIME Metoda verosimilității maxime (maximum likelihood) estimează valoarea
adevărată (θ0) a parametrilor prin găsirea acelui estimator θ ce maximizează funcția
• Considerând 𝑦 , 𝑦 ,.., 𝑦 observații independente și identic distribuite, atunci funcția de
de verosimilitate L: max L(θ| 𝑦 , 𝑦 , . . , 𝑦 )
densitate, condiționată de un set de parametri θ, este dată de ecuația

𝑙 𝛽 =∏ 𝑓 𝑦 ,𝜋 𝑥 =∏ 𝜋(𝑥 ) ) 1 − 𝜋 𝑥
f(Y|θ) = f (𝑦 , 𝑦 ,.., 𝑦 | θ) = f (𝑦 | θ) * f (𝑦 | θ) * …* f (𝑦 | θ) = L(θ| 𝑦 , 𝑦 ,.., 𝑦 ) = L(θ|Y)

Această funcție de densitate este funcția de verosimilitate. f 𝑦 ,𝜋 𝑥 = 𝜋(𝑥 ) ) 1 − 𝜋 𝑥

unde este funcţia de frecvenţe corespunzătoare variabilei discrete Y.


28

27 28

2.4 INFERENȚA PENTRU REGRESIA


2.4 INFERENȚA PENTRU REGRESIA LOGISTICĂ
LOGISTICĂ METODA VEROSIMILITĂȚII MAXIME
METODA VEROSIMILITĂȚII MAXIME
Estimatorul verosimilității maxime este:
θ = arg max L(θ| 𝑦 , 𝑦 , . . , 𝑦 )
Funcția de log verosimilitate:
Întrucât orice funcție își atinge maximul odată cu logaritmul ei natural, iar calculul
numeric este mai simplu de aplicat pe logaritmul funcției, procedeul de găsire a
L(β ) = ln[𝑙 β ] = ∑ 𝑙𝑛 [𝑓(𝑦 ,𝜋(𝑥 ))] maximului se aplică logaritmului funcției de verosimilitate (log verosimilitate).

ln L(θ| 𝑦 , 𝑦 ,.., 𝑦 ) = ln (∏ f(𝑦 | θ)) = ∑ ln(f(𝑦 | θ))


L(β ) = ∑ {𝑦 𝑙𝑛 [𝜋(𝑥 )] + (1-𝑦 )ln[1- 𝜋(𝑥 )]}

Funcția de verosimilitate este monoton crescătoare, deci pentru estimarea


f(𝑦 ,𝜋(𝑥 )) = 𝜋(𝑥 ) 1 − 𝜋(𝑥 ) verosimilității maxime se poate utiliza funcția de log-verosimilitate, dacă maximul
29
funcției există.

29 30

prof. dr. Laura Asandului 5


Regresia logisitcă 11/22/2019

2.4 INFERENȚA PENTRU REGRESIA


LOGISTICĂ
2.4 INFERENȚA PENTRU REGRESIA
LOGISTICĂ Testarea semnificației coeficientului de regresie presupune compararea valorilor
observate ale variabilei explicate cu valorile prognozate obținute pornind de la un
• Estimarea parametrilor prin interval
model, cu sau fără variabila independentă luată în considerare.
𝛽 ± 𝑧 𝑆𝐸 (𝛽 )

• Estimatorul transformării logit


În regresia logistică, compararea acestor valori se face cu ajutorul funcției de
𝑔 𝑥 = 𝛽 +𝛽 x
logverosimilitate.
• Intervalul de încredere pentru transformarea logit
Cu cât funcția de logverosimilitate se apropie de zero, cu atât estimarea
𝑔 𝑥 ± 𝑧 𝑆𝐸 (𝑔(𝑥))
modelului este mai bună.
31 32

31 32

2.4 INFERENȚA PENTRU REGRESIA 2.4 INFERENȚA PENTRU REGRESIA


LOGISTICĂ LOGISTICĂ

• Un model saturat conține un număr de parametri egal cu numărul


• testul raportului de verosimilitate (likelihood ratio test) combinațiilor posibile între categoriile variabilelor independente nominale.
• testul Wald
• testul Score
• Compararea valorilor observate cu cele estimate pornind de la funcția de
verosimilitate se bazează pe relaţia

33 34

33 34

2.4 INFERENȚA PENTRU REGRESIA 2.4 INFERENȚA PENTRU REGRESIA


LOGISTICĂ LOGISTICĂ
• Pentru a evalua gradul de semnificație a variabilei independente, se compară
valoarea devianței D în cele două modele (cu și fără variabila independentă).
• Statistica D (numită de unii autori devianță) joacă, în regresia logistică, același
rol ca și suma pătratelor erorilor în regresia liniară.
• În cazul în care variabila dependentă poate lua doar valorile 0 sau 1, • Schimbarea devianței determinate de includerea în ecuație a variabilei
verosimilitatea modelului saturat este egală cu 1. independente se obține astfel:
• Devianța va avea valoarea G = D (modelul fără variabilă) – D (modelul cu variabilă)
D = - 2 ln (verosimilitatea modelului estimat) sau

35 36

35 36

prof. dr. Laura Asandului 6


Regresia logisitcă 11/22/2019

2.4 INFERENȚA PENTRU REGRESIA


LOGISTICĂ

• Testul Wald

W=

37

37

prof. dr. Laura Asandului 7

S-ar putea să vă placă și