Curs Regresie Logistica 22

AACPI, CSIE, 2022
Regresie logistică
Sunt foarte multe situaţii în care fenomenul pe care dorim sa-l explicăm este evaluat prin intermediul unei variabile calitative.
De exemplu, în analiza performanţelor la nivel de firmă, variabila dependentă Y considerată poate avea doar două nivele: (1)
firma a înregistrat profit, (2) firma a înregistrat pierdere.
Variabilele explicative disponibile 𝑋1 , 𝑋2 , . . 𝑋𝑛 (regresorii) a căror influenţă se poate analiza ar putea fi: sectorul de activitate
al firmei, numărul de angajaţi, cifra de afaceri, vechimea firmei, etc.
Dacă în cazul unui model de regresie în care variabila Y dependentă este cantitativă obiectivul este acela de a determina
valoarea aşteptată a lui Y condiţionată de valorile regresorilor 𝑋𝑗 :
𝐸(𝑌 | 𝑋1 , 𝑋2 , . . 𝑋𝑛 ) (1)
iar regresorii pot fi variabile de tip calitativ sau cantitativ, în cazul unei variabile endogene Y de tip categorial scopul modelării
este diferit, rezultatul constând în estimarea probabilităţii ca această variabilă să ia o categorie anume.
Data mining în afaceri

AACPI, CSIE, 2022
Folosirea OLS pentru estimare (modelul liniar) în cazul în care variabila dependentă este binară
Să presupunem că variabila dependentă Y considerată are doar valorile 0 („evenimentul nu se realizează”) şi 1 („evenimentul
se realizează”). În acest caz, media condiţionată 𝐸(𝑌|𝑋) va exprima probabilitatea ca evenimentul analizat să se realizeze
atunci când se ştie X, anume:
Pr(𝑌 = 1| 𝑋).
În aceste condiţii, dacă notăm cu 𝑝 probabilitatea ca evenimentul studiat să se realizeze (adică 𝑌 = 1), atunci variabila Y va
urma o repartiţie de tip Bernoulli:
0 1
𝑌=( ) (2)
1−𝑝 𝑝
despre care se cunoaşte că:
𝐸(𝑌) = 𝑝 (3)
𝑉𝑎𝑟(𝑌) = 𝑝(1 − 𝑝) (4)
Având în vedere interpretarea rezultatului, se impune următoarea restricţie:
0 ≤ 𝐸(𝑌|𝑋) ≤ 1 (5)

AACPI, CSIE, 2022
Utilizarea metodei celor mai mici pătrate în acest context ar presupune – plecând de la datele disponibile, culese dintr-un
eşantion (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), … , (𝑋𝑛 , 𝑌𝑛 ) – estimarea parametrilor modelului
𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝑢𝑖 (6)
cu restricţia ca fiecare variabilă dependentă 𝑌𝑖 să urmeze o repartiţie Bernoulli (de parametru 𝑝𝑖 ). Ca o consecinţă a acestei
restricţii, repartiţiile erorilor vor trebui să fie şi ele de tip Bernoulli (şi nu normale):
−𝛼 − 𝛽𝑋𝑖 1 − 𝛼 − 𝛽𝑋𝑖
𝑢𝑖 = ( )
1 − 𝑝𝑖 𝑝𝑖
Aşadar, ipoteza de normalitate a erorilor este clar încălcată. Din relaţia (4) observăm că nici ipoteza de
homoscedasticitate a erorilor nu este verificată, fiecare eroare 𝑢𝑖 având posibil o altă varianţă. De aceea metoda OLS nu este
aplicabilă în mod direct.

AACPI, CSIE, 2022
Dacă problemele ridicate mai sus s-ar putea rezolva prin aplicarea unor proceduri de corecţie a modelului1, atunci pentru
respectarea condiţiei din relaţia (5) avem nevoie de o tehnică de estimare care să ne garanteze încadrarea estimaţiilor 𝑌̂𝑖 în
intervalul [0, 1].
În plus, din considerente legate de interpretarea rezultatelor unor astfel de modele, dependenţele dintre probabilităţile
𝑝 şi variabilele exogene X ar trebui să fie de natură neliniară, fapt ce s-ar transpune grafic astfel:
1
De exemplu prin aplicarea metodei celor mai mici pătrate ponderate (pentru îndeplinirea ipotezei de homoscedasticitate) şi prin creşterea volumului
eşantionului pentru reducerea efectelor negative provocate de nerespectarea normalităţii

AACPI, CSIE, 2022
Modelul LOGIT
Graficul de mai sus ne poate duce cu gândul la o logistică. Mai precis, funcţiile de repartiţie logistice, parametrizate de doi
parametri pe care îi vom nota 𝛼 şi 𝛽, au următoarea descriere:
1
𝑝(𝑋) = (7)
1+𝑒 −𝑧
unde 𝑧 = 𝛼 + 𝛽𝑋. (8)
Se observă că lim 𝑝(𝑋) = 0, lim 𝑝(𝑋) = 1.

𝑧→−∞ 𝑧→+∞
Modelul Logit este creat pe baza perechilor (𝑌𝑖 , 𝑝𝑖 ), i = 1, 2, …, n, unde 𝑝𝑖 este probabilitatea ca 𝑌𝑖 = 1. Specificitatea lui
este dată de presupunerea că dependenţa lui 𝑝𝑖 de valoarea 𝑋𝑖 este logistică:
1
𝑝𝑖 = 𝐸(𝑌 = 1|𝑋𝑖 ) = (9)
1+𝑒 −(∝+𝛽𝑋𝑖 )
Remarcăm următoarele:
• toate valorile 𝑝𝑖 aparţin intervalului [0, 1]
• modelul este neliniar atât în 𝛼 cât şi în 𝛽.
Neliniaritatea în parametrul 𝛽 implică inutilitatea metodei OLS de estimare.

AACPI, CSIE, 2022
Transformarea modelului
Dacă 𝑝 reprezintă probabilitatea ca evenimentul studiat să se realizeze, atunci probabilitatea ca evenimentul să nu se producă
este:
1
1−𝑝= (10)
1+𝑒 𝑧
Raportul dintre cele două probabilităţi (numit odds ratio) care arată care sunt şansele de realizare ale evenimentului, devine:
𝑝
= 𝑒𝑧 (11)
1−𝑝
Prin logaritmarea relaţiei (11) se obţine o formă liniară atât în variabila X cât şi în parametri:
𝑝
𝐿 = 𝑙𝑛 ( ) = 𝑧 = 𝛼 + 𝛽𝑋 (12)
1−𝑝
Atunci când variabila p ia valori în [0, 1], variabila L („logit”) va lua valori în intervalul (−∞, ∞).
Funcţia L este liniară în X, deşi dependenţa de X a probabilităţii (şi a raportului probabilităţilor) este neliniară.
Valori pozitive ale logitului L se obţin pentru valori supraunitare ale raportului probabilităţilor (odds ratio).

AACPI, CSIE, 2022
Interpretarea modelului logit este imediată: panta 𝛽 exprimă modificarea lui L pentru modificarea cu o unitate a valorii lui
X. După ce valorile 𝛼 şi 𝛽 au fost estimate, se poate afla probabilitatea ca evenimentul studiat să se producă (adică Y = 1) în
caz că se observă o anumită valoare a lui X.
Estimarea modelului LOGIT
Plecând de la datele disponibile, culese dintr-un eşantion (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), … , (𝑋𝑛 , 𝑌𝑛 ), şi presupunând că fiecărei valori 𝑌𝑖 i
se ataşează probabilitatea 𝑝𝑖 , rămâne să estimăm parametrii modelului:
𝑝𝑖
𝑙𝑛 ( ) = 𝛼 + 𝛽𝑋𝑖 + 𝑢𝑖 (13)
1−𝑝𝑖
Metoda de estimare va fi metoda verosimilităţii maxime, ceea ce presupune maximizarea funcţiei de verosimilitate.
Prin definiţie, funcţia de verosimilitate este densitatea comună de probabilitate a variabilelor (𝑌1 , 𝑌2 , … , 𝑌𝑛 ). Având în vedere
faptul că variabilele 𝑌𝑖 sunt presupuse independente între ele, densitatea comună este produsul densităţilor individuale.
Iar densitatea de probabilitate pentru o variabilă Y de tip Bernoulli, descrisă de Pr(Y = 1) = p, este 𝑓(𝑌) = 𝑝𝑌 (1 − 𝑝)1−𝑌 .
Prin urmare, în cazul nostru funcţia de verosimilitate LF (iniţialele de la likelihood function) este:
𝑌
𝐿𝐹(𝑌1 , 𝑌2 , … , 𝑌𝑛 ) = ∏𝑛𝑖=1 𝑓𝑖 (𝑌𝑖 ) = ∏𝑛𝑖=1 𝑝𝑖 𝑖 (1 − 𝑝𝑖 )1−𝑌𝑖 (14)

AACPI, CSIE, 2022
În loc de a maximiza această funcţie LF, vom maximiza o alta, anume cea care se obţine prin logaritmarea funcţiei de
verosimilitate:
𝑝𝑖
𝐿𝐿𝐹 = 𝑙𝑛(𝐿𝐹(𝑌1 , 𝑌2 , … , 𝑌𝑛 )) = ∑𝑛𝑖=1[𝑌𝑖 𝑙𝑛(𝑝𝑖 ) + (1 − 𝑌𝑖 ) 𝑙𝑛(1 − 𝑝𝑖 )] = ∑𝑛𝑖=1 [𝑌𝑖 𝑙𝑛 ( )] + ∑𝑛𝑖=1 𝑙𝑛 (1 − 𝑝𝑖 ) (15)
1−𝑝𝑖
Estimaţiile 𝛼̂, 𝛽̂ vor fi obţinute rezolvând sistemul care se obţine anulând derivatele parţiale (în raport cu 𝛼, 𝛽) ale funcţiei
LLF. Odată obţinute aceste estimaţii, vom putea calcula imediat estimaţii pentru probabilităţi:
1
𝑝̂𝑖 = ̂𝑋 )
̂ +𝛽
(16)
1+𝑒 −(∝ 𝑖
(Atenţie, obţinerea estimaţiilor 𝛼̂, 𝛽̂ nu este uşoară; e nevoie de proceduri aproximative…)
Măsura bonităţii modelului va fi pseudo 𝑅2 (de exemplu EViews va returna McFadden 𝑅2 ) care ia valori tot în intervalul
(0, 1). Având în vedere că variabila dependentă într-un model logit poate lua valorile 0 sau 1, cea mai simpla măsură a bonităţii
este count 𝑅2 definit ca raportul dintre numărul predicţiilor efectuate corect şi numărul total de observaţii. (Dacă probabilitatea
estimată este mai mare decât 0.5, atunci observaţia este clasificată 1, altfel este clasificată 0.)
Echivalentul testului F din regresia liniară este statistica LR (likelihood ratio) care urmează o repartiţie 𝜒 2 cu k (= numărul de
regresori) grade de libertate. Coeficienţii 𝛽̂ estimaţi ai acestor modele arată modificarea logitului la modificarea cu o unitate
̂
a variabilei exogene respective. Interpretările însă se vor face pe baza valorii 𝑒 𝛽 , care va indica efectul asupra raportului
𝑝𝑖 ⁄(1 − 𝑝𝑖 ).

AACPI, CSIE, 2022
MĂSURI ALE PERFORMANȚEI CLASIFICATORILOR
Receiver Operating Characteristics (ROC)- instrument pentru vizualizarea performanţelor clasificatorilor
Area under the ROC curve (AUC)-măsura a capacităţii de predicţie a unuiclasificator𝝐 (𝟎,𝟏)
Receiver Operating Characteristics (ROC)
- Un grafic bidimensional pentru diferite valori ale pragului:
- pe OX: Rata celor clasificate ”pozitiv” în mod eronat (False positive rate)- costuri
- Peaxa OY: rata celor clasificate pozitiv corect (True pozitive rate)-beneficii
Area under the ROC curve (AUC) –aria de sub curba clasificatorului ca procent din aria pătratului de latură 1

AACPI, CSIE, 2022
De ce să folosim regresie logistică?
1. Erorile modelului nu respectă ipoteza de normalitate

2. Impactul outlierilor este mult diminuat în regresia logistică
În cazul în care outputul este o variabilă binară atunci funcţia obiectiv (funcţia de verosimilitate maxima) este:
𝑦
𝐿 = ∏𝑛𝑖=1 𝑦̂𝑖 𝑖 (1 − 𝑦̂𝑖 )1−𝑦𝑖 ,
Această funcţie va lua valori cu atât mai mari cu cât valoarea ajustată este mai mare atunci când valoarea reală a outputului
este 1 şi cu cât valoarea ajustată este mai mică atunci când valoarea reală este zero.
În cazul regresiei logistice, funcţia care face legătura între combinaţia liniară de variabile explicative şivariabila output are
următoarea formă:
1
𝑦̂(𝑥) =
1 + 𝑒 −𝑓(𝑥)
Unde f(x) este o combinaţie liniară de variabile indpendente:
𝑓(𝑥) = 𝛽0 + 𝛽1 𝑥

Curs Regresie Logistica 22

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs Regresie Logistica 22

Încărcat de

Drepturi de autor:

Formate disponibile

AACPI, CSIE, 2022

Data mining în afaceri

despre care se cunoaşte că:

𝑉𝑎𝑟(𝑌) = 𝑝(1 − 𝑝) (4)

Având în vedere interpretarea rezultatului, se impune următoarea restricţie:

Data mining în afaceri

Data mining în afaceri

Data mining în afaceri

unde 𝑧 = 𝛼 + 𝛽𝑋. (8)

Se observă că lim 𝑝(𝑋) = 0, lim 𝑝(𝑋) = 1.

Neliniaritatea în parametrul 𝛽 implică inutilitatea metodei OLS de estimare.

Data mining în afaceri

Data mining în afaceri

Estimarea modelului LOGIT

Data mining în afaceri

(Atenţie, obţinerea estimaţiilor 𝛼̂, 𝛽̂ nu este uşoară; e nevoie de proceduri aproximative…)

Data mining în afaceri

MĂSURI ALE PERFORMANȚEI CLASIFICATORILOR

Receiver Operating Characteristics (ROC)- instrument pentru vizualizarea performanţelor clasificatorilor

Receiver Operating Characteristics (ROC)

- Un grafic bidimensional pentru diferite valori ale pragului:

Data mining în afaceri

De ce să folosim regresie logistică?

1. Erorile modelului nu respectă ipoteza de normalitate

Unde f(x) este o combinaţie liniară de variabile indpendente:

Data mining în afaceri

S-ar putea să vă placă și