Sunteți pe pagina 1din 18

Capitolul 6 Analiza discriminantă, ianuarie 2020

Analiza discriminantă

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

Aplicații practice

- Răspunsul/atitudinea la o anumită ofertă


- Previzionarea comportamentului unui solicitant de credit
- Previzionarea unor fenomene meteorologice (pe baza variabilelor
ce caracterizează condițiile atmosferice)
- În medicină pentru estimarea probabilității unei anumite afecțiuni (
pe baza rezultatelor analizelor sau simptomelor)

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

Cadrul analizei discriminant


- Analizează o populație împărțită pe clase
- Pentru fiecare entitate se cunosc caracteristicile (x), variabile
predictor și apartenența la clasă (prin intermediul unei variabile
calitative y)

{(𝑥1 , 𝑦1 ) … . (𝑥𝑛 , 𝑦𝑛 )}

 Eșantionul pe care se face estimarea = set de estimare (de


antrenare)- (volum m)
 Eșantionul pe care se face testarea= set de testare (volum n-m)

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

Cuantificarea accurateții estimatorului 𝑓̂ (clasificatorului)

1, 𝑑𝑎𝑐ă 𝑦𝑖 ≠ 𝑦̂𝑖
𝐼 (𝑦𝑖 ≠ 𝑦̂𝑖 ) = {
0, 𝑑𝑎𝑐ă 𝑦𝑖 = 𝑦̂𝑖

1
Rata clasificărilor greșite : ∑𝑖 𝐼 (𝑦𝑖 ≠ 𝑦̂𝑖 )
𝑛−𝑚

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

Clasificatori:

- Clasificatorul Bayesian
- Clasificator liniar Fisher
- Regresie logistică
- Arbori de clasificare
- KNN
- Analiză discriminantă pătratică
- SVM (support vector machine)

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

Clasificatorul Bayesian

𝑃𝑟(𝑌 = 𝑘|𝑋 = 𝑥)

Unitatea descrisă de vectorul de caracteristici x va fi clasificată în clasa


k pentru care valoarea probabilității condiționate de mai sus este
maximă

În cazul a două clase,


𝑃𝑟(𝑌 = 1|𝑋 = 𝑥 ) > 0.5 => clasa estimată este clasa 1

Pr= 0.5- frontieră

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

! În practică nu se cunoaște distribuția variabilei Y|X. În primul rând ar


trebui estimată distribuția acestei variabile și apoi o anumită observație
se va clasifica în clasa pentru care obține cea mai mare probabilitate.

P(AB)=P(A)*P(B|A)=P(B)*P(A|B)

𝑃 (𝐵)𝑃(𝐴|𝐵)
𝑃(𝐵|𝐴) =
𝑃(𝐴)

H- ipoteză de testat/ un eveniment pentru care dorim să estimăm


probabilitatea de realizare ,

E- observat

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

𝑃(𝐻 )𝑃(𝐸|𝐻)
𝑃(𝐻 |𝐸 ) =
𝑃(𝐸)

În problema clasificării:

𝑃(𝑌 = 𝑘)𝑃(𝑥|𝑌 = 𝑘)
𝑃(𝑌 = 𝑘|𝑥) =
𝑃(𝑥)

𝑃(𝑌 = 𝑘|𝑥)- probabilități aposteriorice

𝑃(𝑌 = 𝑘)- probabilități apriorice (se poate estima prin intermediul


ponderii entităților care aparțin clasei k)

𝑃(𝑥|𝑌 = 𝑘)- cât de frecvente sunt caracteristicile x în interiorul clasei k


(de exemplu, ponderea entităților clasei k care au caracteristicile x)

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

P(x)- cât de comune sunt caracteristicile x (de exemplu frecvența lui x


în total eșantion)

𝑥 = (𝑥1 , 𝑥2 … 𝑥𝑚 )

𝑃(𝑥|𝑌 = 𝑘) = 𝑃(𝑥1 ∧ 𝑥2… ∧ 𝑥𝑚 |𝑘)

Clasificatorul Bayesian (naiv)

- 2 evenimente sunt independente: 𝑷(𝑨𝑩|𝑪) = 𝑷(𝑨|𝑪)𝑷(𝑩|𝑪)

Ipoteze: normalitatea variabilelor, independența variabilelor

𝑃(𝑥1 |𝑘0 )𝑃(𝑥2 |𝑘0 ) ⋅ … ∙ 𝑃 (𝑥𝑚 |𝑘0 )


𝑃 (𝑘0 |𝑥) =
𝑃(𝑥)

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

𝑃(𝑥1 |𝑘1 )𝑃(𝑥2 |𝑘1 ) ⋅ … ∙ 𝑃(𝑥𝑚 |𝑘1 )


𝑃(𝑘1 |𝑥) =
𝑃(𝑥)

! Numitorul este întotdeauna același => maximizăm numărătorul

𝑃(𝑥) = 𝑃(𝑥1 |𝑘0 )𝑃(𝑥2 |𝑘0 ) ⋅ … ∙ 𝑃 (𝑥𝑚 |𝑘0 ) + 𝑃(𝑥1 |𝑘1 )𝑃(𝑥2 |𝑘1 ) ⋅ …
∙ 𝑃(𝑥𝑚 |𝑘1 )

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

Exemplu: baza de date Default (ISLR)


Default (ISLR)
 10000 observații
 default – var categorială – Da(a întârziat în efectuarea plății)
 student – Da (student)
 balance- suma medie rămasă pe cardul de credit după efectuarea plăților lunare
 Income – venit

Biblioteca e1071, naiveBayes()

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

# Clasificator bayesian ---------------------------------------------------

install.packages("e1071")
library(e1071)
?naiveBayes()
library(ISLR)
data(Default)
View(Default)
?Default
clasificator <- naiveBayes(default~student+balance+income, data=Default)

CSIE
Capitolul 6 Analiza discriminantă, ianuarie 2020

predictii <- predict(clasificator,Default,type="raw") # predictiile au fost realizate pentru toate observatiile


predictii <- predict(clasificator,Default,type="class")
?predict.naiveBayes()
predictii[1:100]
clasificator
table(Default$default)
table(predictii,Default$default)

CSIE

S-ar putea să vă placă și