Sunteți pe pagina 1din 10

AACPI, CSIE, 2022

Regresie logistică

Sunt foarte multe situaţii în care fenomenul pe care dorim sa-l explicăm este evaluat prin intermediul unei variabile calitative.
De exemplu, în analiza performanţelor la nivel de firmă, variabila dependentă Y considerată poate avea doar două nivele: (1)
firma a înregistrat profit, (2) firma a înregistrat pierdere.

Variabilele explicative disponibile 𝑋1 , 𝑋2 , . . 𝑋𝑛 (regresorii) a căror influenţă se poate analiza ar putea fi: sectorul de activitate
al firmei, numărul de angajaţi, cifra de afaceri, vechimea firmei, etc.

Dacă în cazul unui model de regresie în care variabila Y dependentă este cantitativă obiectivul este acela de a determina
valoarea aşteptată a lui Y condiţionată de valorile regresorilor 𝑋𝑗 :

𝐸(𝑌 | 𝑋1 , 𝑋2 , . . 𝑋𝑛 ) (1)

iar regresorii pot fi variabile de tip calitativ sau cantitativ, în cazul unei variabile endogene Y de tip categorial scopul modelării
este diferit, rezultatul constând în estimarea probabilităţii ca această variabilă să ia o categorie anume.

Data mining în afaceri


AACPI, CSIE, 2022

Folosirea OLS pentru estimare (modelul liniar) în cazul în care variabila dependentă este binară

Să presupunem că variabila dependentă Y considerată are doar valorile 0 („evenimentul nu se realizează”) şi 1 („evenimentul
se realizează”). În acest caz, media condiţionată 𝐸(𝑌|𝑋) va exprima probabilitatea ca evenimentul analizat să se realizeze
atunci când se ştie X, anume:

Pr(𝑌 = 1| 𝑋).

În aceste condiţii, dacă notăm cu 𝑝 probabilitatea ca evenimentul studiat să se realizeze (adică 𝑌 = 1), atunci variabila Y va
urma o repartiţie de tip Bernoulli:

0 1
𝑌=( ) (2)
1−𝑝 𝑝

despre care se cunoaşte că:

𝐸(𝑌) = 𝑝 (3)

𝑉𝑎𝑟(𝑌) = 𝑝(1 − 𝑝) (4)

Având în vedere interpretarea rezultatului, se impune următoarea restricţie:

0 ≤ 𝐸(𝑌|𝑋) ≤ 1 (5)

Data mining în afaceri


AACPI, CSIE, 2022

Utilizarea metodei celor mai mici pătrate în acest context ar presupune – plecând de la datele disponibile, culese dintr-un
eşantion (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), … , (𝑋𝑛 , 𝑌𝑛 ) – estimarea parametrilor modelului

𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝑢𝑖 (6)

cu restricţia ca fiecare variabilă dependentă 𝑌𝑖 să urmeze o repartiţie Bernoulli (de parametru 𝑝𝑖 ). Ca o consecinţă a acestei
restricţii, repartiţiile erorilor vor trebui să fie şi ele de tip Bernoulli (şi nu normale):

−𝛼 − 𝛽𝑋𝑖 1 − 𝛼 − 𝛽𝑋𝑖
𝑢𝑖 = ( )
1 − 𝑝𝑖 𝑝𝑖

Aşadar, ipoteza de normalitate a erorilor este clar încălcată. Din relaţia (4) observăm că nici ipoteza de
homoscedasticitate a erorilor nu este verificată, fiecare eroare 𝑢𝑖 având posibil o altă varianţă. De aceea metoda OLS nu este
aplicabilă în mod direct.

Data mining în afaceri


AACPI, CSIE, 2022

Dacă problemele ridicate mai sus s-ar putea rezolva prin aplicarea unor proceduri de corecţie a modelului1, atunci pentru
respectarea condiţiei din relaţia (5) avem nevoie de o tehnică de estimare care să ne garanteze încadrarea estimaţiilor 𝑌̂𝑖 în
intervalul [0, 1].

În plus, din considerente legate de interpretarea rezultatelor unor astfel de modele, dependenţele dintre probabilităţile
𝑝 şi variabilele exogene X ar trebui să fie de natură neliniară, fapt ce s-ar transpune grafic astfel:

1
De exemplu prin aplicarea metodei celor mai mici pătrate ponderate (pentru îndeplinirea ipotezei de homoscedasticitate) şi prin creşterea volumului
eşantionului pentru reducerea efectelor negative provocate de nerespectarea normalităţii

Data mining în afaceri


AACPI, CSIE, 2022

Modelul LOGIT

Graficul de mai sus ne poate duce cu gândul la o logistică. Mai precis, funcţiile de repartiţie logistice, parametrizate de doi
parametri pe care îi vom nota 𝛼 şi 𝛽, au următoarea descriere:

1
𝑝(𝑋) = (7)
1+𝑒 −𝑧

unde 𝑧 = 𝛼 + 𝛽𝑋. (8)

Se observă că lim 𝑝(𝑋) = 0, lim 𝑝(𝑋) = 1.


𝑧→−∞ 𝑧→+∞

Modelul Logit este creat pe baza perechilor (𝑌𝑖 , 𝑝𝑖 ), i = 1, 2, …, n, unde 𝑝𝑖 este probabilitatea ca 𝑌𝑖 = 1. Specificitatea lui
este dată de presupunerea că dependenţa lui 𝑝𝑖 de valoarea 𝑋𝑖 este logistică:

1
𝑝𝑖 = 𝐸(𝑌 = 1|𝑋𝑖 ) = (9)
1+𝑒 −(∝+𝛽𝑋𝑖 )

Remarcăm următoarele:
• toate valorile 𝑝𝑖 aparţin intervalului [0, 1]
• modelul este neliniar atât în 𝛼 cât şi în 𝛽.

Neliniaritatea în parametrul 𝛽 implică inutilitatea metodei OLS de estimare.

Data mining în afaceri


AACPI, CSIE, 2022

Transformarea modelului

Dacă 𝑝 reprezintă probabilitatea ca evenimentul studiat să se realizeze, atunci probabilitatea ca evenimentul să nu se producă
este:

1
1−𝑝= (10)
1+𝑒 𝑧

Raportul dintre cele două probabilităţi (numit odds ratio) care arată care sunt şansele de realizare ale evenimentului, devine:
𝑝
= 𝑒𝑧 (11)
1−𝑝

Prin logaritmarea relaţiei (11) se obţine o formă liniară atât în variabila X cât şi în parametri:

𝑝
𝐿 = 𝑙𝑛 ( ) = 𝑧 = 𝛼 + 𝛽𝑋 (12)
1−𝑝

Atunci când variabila p ia valori în [0, 1], variabila L („logit”) va lua valori în intervalul (−∞, ∞).

Funcţia L este liniară în X, deşi dependenţa de X a probabilităţii (şi a raportului probabilităţilor) este neliniară.

Valori pozitive ale logitului L se obţin pentru valori supraunitare ale raportului probabilităţilor (odds ratio).

Data mining în afaceri


AACPI, CSIE, 2022

Interpretarea modelului logit este imediată: panta 𝛽 exprimă modificarea lui L pentru modificarea cu o unitate a valorii lui
X. După ce valorile 𝛼 şi 𝛽 au fost estimate, se poate afla probabilitatea ca evenimentul studiat să se producă (adică Y = 1) în
caz că se observă o anumită valoare a lui X.

Estimarea modelului LOGIT

Plecând de la datele disponibile, culese dintr-un eşantion (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), … , (𝑋𝑛 , 𝑌𝑛 ), şi presupunând că fiecărei valori 𝑌𝑖 i
se ataşează probabilitatea 𝑝𝑖 , rămâne să estimăm parametrii modelului:

𝑝𝑖
𝑙𝑛 ( ) = 𝛼 + 𝛽𝑋𝑖 + 𝑢𝑖 (13)
1−𝑝𝑖

Metoda de estimare va fi metoda verosimilităţii maxime, ceea ce presupune maximizarea funcţiei de verosimilitate.

Prin definiţie, funcţia de verosimilitate este densitatea comună de probabilitate a variabilelor (𝑌1 , 𝑌2 , … , 𝑌𝑛 ). Având în vedere
faptul că variabilele 𝑌𝑖 sunt presupuse independente între ele, densitatea comună este produsul densităţilor individuale.

Iar densitatea de probabilitate pentru o variabilă Y de tip Bernoulli, descrisă de Pr(Y = 1) = p, este 𝑓(𝑌) = 𝑝𝑌 (1 − 𝑝)1−𝑌 .
Prin urmare, în cazul nostru funcţia de verosimilitate LF (iniţialele de la likelihood function) este:

𝑌
𝐿𝐹(𝑌1 , 𝑌2 , … , 𝑌𝑛 ) = ∏𝑛𝑖=1 𝑓𝑖 (𝑌𝑖 ) = ∏𝑛𝑖=1 𝑝𝑖 𝑖 (1 − 𝑝𝑖 )1−𝑌𝑖 (14)

Data mining în afaceri


AACPI, CSIE, 2022

În loc de a maximiza această funcţie LF, vom maximiza o alta, anume cea care se obţine prin logaritmarea funcţiei de
verosimilitate:
𝑝𝑖
𝐿𝐿𝐹 = 𝑙𝑛(𝐿𝐹(𝑌1 , 𝑌2 , … , 𝑌𝑛 )) = ∑𝑛𝑖=1[𝑌𝑖 𝑙𝑛(𝑝𝑖 ) + (1 − 𝑌𝑖 ) 𝑙𝑛(1 − 𝑝𝑖 )] = ∑𝑛𝑖=1 [𝑌𝑖 𝑙𝑛 ( )] + ∑𝑛𝑖=1 𝑙𝑛 (1 − 𝑝𝑖 ) (15)
1−𝑝𝑖

Estimaţiile 𝛼̂, 𝛽̂ vor fi obţinute rezolvând sistemul care se obţine anulând derivatele parţiale (în raport cu 𝛼, 𝛽) ale funcţiei
LLF. Odată obţinute aceste estimaţii, vom putea calcula imediat estimaţii pentru probabilităţi:
1
𝑝̂𝑖 = ̂𝑋 )
̂ +𝛽
(16)
1+𝑒 −(∝ 𝑖

(Atenţie, obţinerea estimaţiilor 𝛼̂, 𝛽̂ nu este uşoară; e nevoie de proceduri aproximative…)

Măsura bonităţii modelului va fi pseudo 𝑅2 (de exemplu EViews va returna McFadden 𝑅2 ) care ia valori tot în intervalul
(0, 1). Având în vedere că variabila dependentă într-un model logit poate lua valorile 0 sau 1, cea mai simpla măsură a bonităţii
este count 𝑅2 definit ca raportul dintre numărul predicţiilor efectuate corect şi numărul total de observaţii. (Dacă probabilitatea
estimată este mai mare decât 0.5, atunci observaţia este clasificată 1, altfel este clasificată 0.)
Echivalentul testului F din regresia liniară este statistica LR (likelihood ratio) care urmează o repartiţie 𝜒 2 cu k (= numărul de
regresori) grade de libertate. Coeficienţii 𝛽̂ estimaţi ai acestor modele arată modificarea logitului la modificarea cu o unitate
̂
a variabilei exogene respective. Interpretările însă se vor face pe baza valorii 𝑒 𝛽 , care va indica efectul asupra raportului
𝑝𝑖 ⁄(1 − 𝑝𝑖 ).

Data mining în afaceri


AACPI, CSIE, 2022

MĂSURI ALE PERFORMANȚEI CLASIFICATORILOR

Receiver Operating Characteristics (ROC)- instrument pentru vizualizarea performanţelor clasificatorilor

Area under the ROC curve (AUC)-măsura a capacităţii de predicţie a unuiclasificator𝝐 (𝟎,𝟏)

Receiver Operating Characteristics (ROC)

- Un grafic bidimensional pentru diferite valori ale pragului:

- pe OX: Rata celor clasificate ”pozitiv” în mod eronat (False positive rate)- costuri

- Peaxa OY: rata celor clasificate pozitiv corect (True pozitive rate)-beneficii

Area under the ROC curve (AUC) –aria de sub curba clasificatorului ca procent din aria pătratului de latură 1

Data mining în afaceri


AACPI, CSIE, 2022

De ce să folosim regresie logistică?

1. Erorile modelului nu respectă ipoteza de normalitate


2. Impactul outlierilor este mult diminuat în regresia logistică

În cazul în care outputul este o variabilă binară atunci funcţia obiectiv (funcţia de verosimilitate maxima) este:
𝑦
𝐿 = ∏𝑛𝑖=1 𝑦̂𝑖 𝑖 (1 − 𝑦̂𝑖 )1−𝑦𝑖 ,

Această funcţie va lua valori cu atât mai mari cu cât valoarea ajustată este mai mare atunci când valoarea reală a outputului
este 1 şi cu cât valoarea ajustată este mai mică atunci când valoarea reală este zero.

În cazul regresiei logistice, funcţia care face legătura între combinaţia liniară de variabile explicative şivariabila output are
următoarea formă:

1
𝑦̂(𝑥) =
1 + 𝑒 −𝑓(𝑥)

Unde f(x) este o combinaţie liniară de variabile indpendente:

𝑓(𝑥) = 𝛽0 + 𝛽1 𝑥

Data mining în afaceri

S-ar putea să vă placă și