Sunteți pe pagina 1din 5

ANALIZA DISCRIMINANTA Analiza discriminant este o metoda ce face parte din grupa metodelor explicative de analiz a datelor.

Ea utilizeaz o variabil de explicat (Y) i mai multe variabile explicative ( X 1 , X 2 ,..., X p ) cantitative sau binare. Problema de rezolvat poate fi formulat astfel: fiind dat o variabil de explicat (Y) avnd k stri i p variabile explicative ( X 1 , X 2 ,..., X p ) trebuie gsit una sau mai multe combina!ii liniare de variabile explicative de forma
Z = a i X i
i =1 p

diferen!iind cel mai bine cele k grupe formate prin raportare la strile variabilei de explicat (Y). Procedeul de rezolvare este fundamentat pe faptul c matricea de varian!"covarin! total # poate fi descompus $n dou pr!i: matricea de varian!"covarian! $ntre grupe (%)& matricea de varian!"covarian! din interiorul grupelor (') determinat ca o sum de k matrici fiecare matrice fiind cea de varian!"covarian! din cadrul grupei. #(%)' *ai $nti trebuie studiat puterea de discriminare a fiecrei variabile utiliznd analiza varian!ei. +vnd ecua!ia de descompunere a varian!ei totale pentru o variabil X i respectiv:

( X
k Nh h =1 j =1

ijh

Xi

) = N (X
2 n h =1 h

ih

Xi

) + (X
2 k Nh h =1 j =1

ijh

X ih

,arian!a total ( ,arian!a dintre grupe ) ,arian!a din grupe Pentru msurarea puterii de discriminare a variabilei X i se utilizeaz raportul de determina!ie
r 2 ( X i ,Y ) = Variatia int regrupe Variatiatotala

-u ct acest raport tinde la . cu att puterea de discriminare a variabilei X i este mai mare. ,ariabila /is0er / unde:
F = Variatiad int regrupe / k 1 Variatiadingrupe / N k

pentru un nivel de semnifica!ie P = prob( F ( k 1; N k ) F ) precizeze care sunt variabilele semnificativ discriminante.

permite s se

1n ceea ce privete variabilele explicative acestea nu trebuie s fie corelate $ntre ele sau s fie pu!in corelate. 2ac variabilele explicative ini!iale sunt corelate $ntre ele recomand aplicarea $n prealabil a analizei componentelor principale i utilizarea noilor variabile ca variabile explicative.

Problema analizei discriminante const $n a cuta o direc!ie sau mai multe $n care varian!a total # se descompune $n cele dou componente minimiznd pe ' i maximiznd pe %. 3umrul axelor discriminante (4) este egal cu min(p&5".). 2e asemenea axele discriminante (4) sunt vectori proprii a matricii (T 1 B ) iar prima ax ( Z 1 ) este asociat celei mai mari valori proprii. ,ariabilei discriminante ( Z 1 ) $i va corespunde cel mai mare raport de corela!ie R ( Z 1 , Y ) i este asociat celei mai mari valori proprii. -ea de"a doua variabil discriminant ( Z 2 ) necorelat cu prima variabil cor ( Z 1 , Z 2 ) = 0 corespunde celei de"a doua valori proprii iar raportul de corela!ie dintre ( Z 2 ) i variabila de explicat Y respectiv R ( Z 2 , Y ) este mai mic dect $n cazul primei variabile discriminante .a.m.d. 2eci variabilele discriminante nu sunt corelate $ntre ele. Prentru precizarea numrului de variabile discriminante ce trebuie luate $n considerare se folosete un test privind nulitatea ultimelor 6 rapoarte de corela!ie. Pentru aceasta exist statistica lui 'il5s:

q =

m =k q + 1

[1 R ( Z
k 2 m

,Y )

7poteza este respins pentru valori mici ale lui . %artlett i 8ao au propus diferite legi de aproximare a distribu!iei care s q permit calcularea nivelului de semnifica!ie. +stfel %artlett a considerat c statistica:
2 = [ n 1 ( p + q ) / 2] ln q

ar putea fi aproximat cu o lege 2 cu q(k-1) grade de libertate. +ceast aproximare este folosit mai ales $n cazul $n care numrul de clase k este mai mare dect 9 sau :. 2eci statistica lui 'il5s msoar puterea global de discriminare a noilor variabile (axe). -u ct $nregistreaz o valoare mai mic cu att este mai mare puterea de discriminare a axelor. +cele variabile (axe) de discriminare Z m care au o putere de discriminare sczut nu prezint interes pentru a fi luate $n considerare. Pentru ca axele discriminante (4) s poat fi interpretate din punctul de vedere al semnifica!iei statistice trebuie studiat legtura dintre ele i variabilele explicative. +ceasta poate fi realizat cu a;utorul: coeficien!ilor func!iilor care se interpreteaz ca pondere a variabilelor explicative $n formarea axelor& coeficien!ii de corela!ie dintre axa discriminant i fiecare variabil explicativ care vor pune $n eviden! variabilele cu care sunt cel mai bine corelate axele discriminante.

,ariabilele discriminate sunt utilizate pentru repartizarea unit!ilor $n grupe pe baza unei reguli de decizie. +ceast regul de decizie este uor de stabilit atunci cnd axele discriminante sunt cel mult dou $n celelalte situa!ii elaborarea ei este foarte

dificil. 1ntr"o astfel de situa!ie se recomand calcularea probabilit!ilor de apartenen! la diferitele grupe respectiv:
p h ( x ) = Pr ob (Y = h / X 1 = x1 ,..., X p = x p )

1n ipoteza c vectorul < al variabilelor explicative ( X 1 , X 2 ,..., X p ) urmeaz o lege multi"normal ( h , ) pe fiecare subpopula!ie (fiecare grup) probabilit!ile se determin astfel:

p h ( x) =

exp g h ( x )

exp g
h =1

( x)

,ariabilele g h ( x ) sunt denumite func!ii discriminante i sunt estimate prin g h ( x ) unde:


1 ' 1 g h ( x) = X h S X h + X h S 1 X ' 2
X h =( X 1 , X 2 ,..., X p )

=" matricea de varian! i covarian! din grupe. Probabilitatea


p h ( x ) fiind estimat prin:

exp g h ( x) ph ( x) = k exp g h ( x)
h= 1

fiecare unitate va putea fi repartizat $ntr"o grup i anume $n aceea pentru care se $nregistreaz probabilitatea cea mai mare. >tiliznd aceast regul de decizie optimal se pot repartiza $n grupele de;a formate noile unit!i pe baza nivelului $nregistrat de cele p variabile explicative ( X 1 , X 2 ,..., X p ) . +vnd func!iile discriminante estimate se pot calcula valorile $nregistrate de acestea pentru fiecare nou unitate ce trebuie repartizat $ntr"o grup respectiv g h ( x ) . 2e asemenea se pot calcula probabilit!ile estimate p h ( x ) exprimnd ansa noii unit!i de a apar!ine fiecrei grupe $n parte. 3oua unitate va fi repartizat $n acea grup pentru care se $nregistreaz probabilitatea cea mai mare. Pentru aprecierea eficien!ei regulii de decizie stabilit se compar situa!ia ini!ial de repartizare a unit!ilor $n grupe (cea dat) cu situa!ia rezultat $n urma utilizrii func!iilor discriminante respectiv se construiete aa numita matrice a ?@ confuziilor@@ de urmtoarea form: Arupare dup . Aruparea ini!ial 9 B #otal

regul

5
N 11
N 1k

1
2
.
k

N 12 N 22

B. B B . B B

N 1.
N 2.

N 21
N 2k

.
N k.

.
N k1 N kk

.
Nk2 N .2

#otal

N .1 N .k

=e calculeaz un aa numit CCscor discriminantCC ob!inut prin raportarea numrului de unit!i ce coincid $n ambele grupri la numrul totat de unit!i de grupat respectiv:
d= N11 + N 22 + ... + N kk N

-u ct acest scor este mai aproape de valoarea . cu att gruparea unit!ilor folosind func!iile discriminante devine mai eficient. 1n concluzie analiza discriminant are trei obiective respectiv: S determine variabilele explicative care contribuie cel mai mult la diferenierea claselor definite de variabila de explicat astfel se identific ponderea influen!ei variabilelor explicative $n varia!ia variabilei de explicat construind mai multe combina!ii liniare alegnd"o pe cea mai bun.2e exemplu o societate productoare are informa!ii privind distribuitorii si care sunt $mpr!i!i $n : grupe in func!ie de cantitatea pe care o cumpr lunar astfel: ."cumpr in cantit!i mici 9"cumpr in cantit!i medii :" cumpr in cantit!i mari. =e impune identificarea variabilelor ce conduc la aceast diferen!iere cum ar fi cifra de afaceri mrimea foe!ei de vnzare numr de ani de activitate $n acest domeniu etc. S se construiasc un spaiu discriminant . 1n cazul analizei discriminante simpl (Y are dou stri) se determin o ax discriminant 4 care explic apartenen!a unei unit!i la o clas sau alta. 1n cazul analizei discriminante multipl se determin mai multe combina!ii liniare independente (axe discriminante) de variabile explicative i trebuie analizat spa!iu determinat de acele axe care separ cel mai bine unit!ile studiate in clasele determinate de strile variabilei Y. 1n exemplu prezentat vom avea dou func!ii discriminante dar trebuie s le cutm pe acelea care repartizeaz ct mai exact unitatile distribuitoare $n cele : grupe. +precierea calit!ii discriminrii de realizeaz cu a;utorul scorului discriminant (acesta trebuie s fie ct mai aproape de .).

S repartizeze la o clas existent unitile ce nu au fost clasate. 8espectiv cunoscnd nivelul variabilelor explicative i utiliznd func!iile discriminante vor fi repartizate noile unit!i in clasele de;a formate. +ceast se poate realiza prin dou procedee: unul determinist care repartizeaz unitatea la clasa pentru care distan!a la centroid este cea mai mic i unul probabilist unde se calculeaz probabilit!i de apartenen! la diferite clase unitatea se aloc la clasa care are probabilitatea cea mai mare.

>n exemplu clasic de aplica!ie de acest tip este credit scoring bancar unde $n func!ie de caracteristicile candidatului la un imprumut se acord sau nu acesta $n raport cu valoarea unui scor ce permite s se estimeze riscul de nerembursarea. >n alt domeniul de aplicare a analizei discriminante este cel al comportamentului consumatorului unde se poate prevedea probabilistic comportamentul unui individ fa! de un anumit produs sau serviciu $n functie de starea $nregistrat de variabilele explicative ce definesc o anumit atitudine. +cestea sunt doar cteva exemple de aplica!ii ale analizei discriminante ca urmare studiul va fi continuat cu o derulare analitic a acestei metode pe un caz dat. BIBLIOGRAFIE .. Buiga A !"##$%& etodologie de sonda! "i analiza datelor #n studiile de pia Presa >niversitar -lu;ean -lu;"3apoca. 9. E'rard A D & (ras B & R)u* E !$++,%& $%&'(. )tudes et rec*erc*es en marketing. +ondaments. ,t*odes- Ed. 3at0an Paris. :. L-.art L & M)rin-au A & (ir)n M !$++/%& multidimensionnelle Ed. 2unod Paris. Statistique exploratoire

D. 0)ll- M !$++1%& $nal.se des donn,es Ed. Economica Paris.

S-ar putea să vă placă și