Sunteți pe pagina 1din 5

ANALIZA DISCRIMINANT I

APLICAIILE EI N ECONOMIE

Analiza discriminant este o metoda ce face parte din grupa metodelor


explicative de analiz a datelor. Ea utilizeaz o variabil de explicat (Y) i mai multe
variabile explicative X 1 , X 2 ,..., X p cantitative sau binare.
Problema de rezolvat poate fi formulat astfel: fiind dat o variabil de explicat (Y)
avnd k stri i p variabile explicative X 1 , X 2 ,..., X p , trebuie gsit una sau mai
multe combinaii liniare de variabile explicative de forma
p
Z ai X i
i 1

difereniind cel mai bine cele k grupe formate prin raportare la strile variabilei de
explicat (Y). Procedeul de rezolvare este fundamentat pe faptul c matricea de
varian-covarin total T, poate fi descompus n dou pri:
matricea de varian-covarian ntre grupe (B);
matricea de varian-covarian din interiorul grupelor (W), determinat ca o
sum de k matrici, fiecare matrice fiind cea de varian-covarian din cadrul
grupei.
T=B+W
Mai nti trebuie studiat puterea de discriminare a fiecrei variabile utiliznd
analiza varianei. Avnd ecuaia de descompunere a varianei totale pentru o
variabil X i , respectiv:

X N X X
k Nh n k Nh
2 2 2
ijh Xi h ih Xi ijh X ih
h 1 j 1 h 1 h 1 j 1

Variana total = Variana dintre grupe + Variana din grupe


Pentru msurarea puterii de discriminare a variabilei X i , se utilizeaz raportul de
determinaie
Variatia int regrupe
r 2 ( X i ,Y )
Variatiato tala
Cu ct acest raport tinde la 1 cu att puterea de discriminare a variabilei X i este mai
mare. Variabila Fisher F, unde:
Variatiad int regrupe / k 1
F
Variatiadi ngrupe / N k
pentru un nivel de semnificaie P probF k 1; N k F permite s se
precizeze care sunt variabilele semnificativ discriminante.
n ceea ce privete variabilele explicative, acestea nu trebuie s fie corelate ntre
ele sau s fie puin corelate. Dac variabilele explicative iniiale sunt corelate ntre
ele recomand aplicarea n prealabil a analizei componentelor principale i utilizarea
noilor variabile ca variabile explicative.
Problema analizei discriminante const n a cuta o direcie sau mai multe n care
variana total T se descompune n cele dou componente, minimiznd pe W i
maximiznd pe B.
Numrul axelor discriminante (Z) este egal cu min(p;k-1). De asemenea axele
discriminante (Z) sunt vectori proprii a matricii T 1 B
, iar prima ax Z1 este
asociat celei mai mari valori proprii.
Variabilei discriminante Z1 i va corespunde cel mai mare raport de
corelaie R(Z1 , Y ) i este asociat celei mai mari valori proprii. Cea de-a doua
variabil discriminant ( Z 2 ) necorelat cu prima variabil cor (Z1 , Z 2 ) 0 ,
corespunde celei de-a doua valori proprii, iar raportul de corelaie dintre ( Z 2 ) i
variabila de explicat Y, respectiv R(Z 2 , Y ) este mai mic dect n cazul primei
variabile discriminante, .a.m.d. Deci variabilele discriminante nu sunt corelate ntre
ele.
Prentru precizarea numrului de variabile discriminante ce trebuie luate n
considerare se folosete un test privind nulitatea ultimelor q rapoarte de corelaie.
Pentru aceasta exist statistica lui Wilks:

1 R Z
k
q 2
m m ,Y
m k q 1

Ipoteza este respins pentru valori mici ale lui .


Bartlett i Rao au propus diferite legi de aproximare a distribuiei q care s
permit calcularea nivelului de semnificaie. Astfel Bartlett a considerat c statistica:
2 n 1 p q / 2ln q

ar putea fi aproximat cu o lege 2 cu q(k-1) grade de libertate. Aceast


aproximare este folosit mai ales n cazul n care numrul de clase k este mai mare
dect 2 sau 3.
Deci statistica lui Wilks msoar puterea global de discriminare a noilor variabile
(axe). Cu ct nregistreaz o valoare mai mic cu att este mai mare puterea de
discriminare a axelor. Acele variabile (axe) de discriminare Z m care au o putere de
discriminare sczut nu prezint interes pentru a fi luate n considerare.
Pentru ca axele discriminante (Z) s poat fi interpretate din punctul de vedere al
semnificaiei statistice, trebuie studiat legtura dintre ele i variabilele explicative.
Aceasta poate fi realizat cu ajutorul:
coeficienilor funciilor, care se interpreteaz ca pondere a variabilelor
explicative n formarea axelor;
coeficienii de corelaie dintre axa discriminant i fiecare variabil explicativ,
care vor pune n eviden variabilele cu care sunt cel mai bine corelate axele
discriminante.
Variabilele discriminate sunt utilizate pentru repartizarea unitilor n grupe, pe baza
unei reguli de decizie. Aceast regul de decizie este uor de stabilit atunci cnd
axele discriminante sunt cel mult dou, n celelalte situaii, elaborarea ei este foarte
dificil. ntr-o astfel de situaie se recomand calcularea probabilitilor de
apartenen la diferitele grupe, respectiv:
ph ( x) Pr obY h / X 1 x1 ,..., X p x p

n ipoteza c vectorul X al variabilelor explicative X 1 , X 2 ,..., X p urmeaz o lege


multi-normal ( h , ) pe fiecare subpopulaie (fiecare grup), probabilitile se
determin astfel:
exp g h ( x)
p h ( x) k

exp g
h 1
h ( x)


Variabilele g h (x) sunt denumite funcii discriminante i sunt estimate prin g h (x) ,
unde:
1
g h ( x) X h' S 1 X h X h S 1 X '
2
X h ( X 1 , X 2 ,..., X p )

S- matricea de varian i covarian din grupe.


Probabilitatea p h (x) fiind estimat prin:

exp g h ( x)
p h ( x) k

exp g h ( x)
h 1

fiecare unitate va putea fi repartizat ntr-o grup i anume n aceea pentru care se
nregistreaz probabilitatea cea mai mare.
Utiliznd aceast regul de decizie optimal se pot repartiza n grupele deja
formate noile uniti pe baza nivelului nregistrat de cele p variabile explicative
X 1 , X 2 ,..., X p . Avnd funciile discriminante estimate se pot calcula valorile
nregistrate de acestea pentru fiecare nou unitate ce trebuie repartizat ntr-o

grup, respectiv g h (x) .

De asemenea se pot calcula probabilitile estimate p h (x) , exprimnd ansa noii
uniti de a aparine fiecrei grupe n parte. Noua unitate va fi repartizat n acea
grup pentru care se nregistreaz probabilitatea cea mai mare.
Pentru aprecierea eficienei regulii de decizie stabilit se compar situaia iniial
de repartizare a unitilor n grupe (cea dat) cu situaia rezultat n urma utilizrii
funciilor discriminante, respectiv se construiete aa numita matrice a confuziilor,
de urmtoarea form:
Grupare Gruparea iniial Total
dup 1 2
regul k
1 N 11 N12 . N1k N 1.
2 N 21 N 22 N 2k N 2.
.
. . . .
N k1 Nk2 N kk N k.
k
Total N .1 N .2 N .k N

Se calculeaz un aa numit ''scor discriminant'' obinut prin raportarea numrului de


uniti ce coincid n ambele grupri la numrul totat de uniti de grupat, respectiv:
N11 N 22 ... N kk
sd
N
Cu ct acest scor este mai aproape de valoarea 1 cu att gruparea unitilor folosind
funciile discriminante devine mai eficient.
n concluzie analiza discriminant are trei obiective, respectiv:
S determine variabilele explicative care contribuie cel mai mult la
diferenierea claselor definite de variabila de explicat, astfel se identific
ponderea influenei variabilelor explicative n variaia variabilei de explicat
construind mai multe combinaii liniare, alegnd-o pe cea mai bun.De
exemplu, o societate productoare, are informaii privind distribuitorii si, care
sunt mprii n 3 grupe in funcie de cantitatea pe care o cumpr lunar,
astfel: 1-cumpr in cantiti mici, 2-cumpr in cantiti medii, 3- cumpr in
cantiti mari. Se impune identificarea variabilelor ce conduc la aceast
difereniere, cum ar fi cifra de afaceri, mrimea foeei de vnzare, numr de
ani de activitate n acest domeniu etc.
S se construiasc un spaiu discriminant . n cazul analizei discriminante
simpl (Y are dou stri) se determin o ax discriminant Z care explic
apartenena unei uniti la o clas sau alta. n cazul analizei discriminante
multipl se determin mai multe combinaii liniare independente (axe
discriminante) de variabile explicative i trebuie analizat spaiu determinat de
acele axe care separ cel mai bine unitile studiate, in clasele determinate
de strile variabilei Y. n exemplu prezentat vom avea dou funcii
discriminante, dar trebuie s le cutm pe acelea care repartizeaz ct mai
exact unitatile distribuitoare n cele 3 grupe. Aprecierea calitii discriminrii
de realizeaz cu ajutorul scorului discriminant (acesta trebuie s fie ct mai
aproape de 1).
S repartizeze la o clas existent unitile ce nu au fost clasate. Respectiv,
cunoscnd nivelul variabilelor explicative i utiliznd funciile discriminante vor
fi repartizate noile uniti in clasele deja formate. Aceast se poate realiza prin
dou procedee: unul determinist, care repartizeaz unitatea la clasa pentru
care distana la centroid este cea mai mic i unul probabilist, unde se
calculeaz probabiliti de apartenen la diferite clase, unitatea se aloc la
clasa care are probabilitatea cea mai mare. n cazul analizat, o nou unitate
de distribuie va putea fi repartizat intr-o clas din cele trei, n funcie de
nivelul cifrei de afaceri, mrimii forei de vnzare, numrul de ani de activitate
in domeniu. Astfel societatea productoare i va orienta activitatea de
marketing difereniat n funcie de posibilul comportament al noilor uniti n
ceea ce privete volumul de produse ce vor cumprate.
Un alt exemplu clasic de aplicaie de acest tip este ,, credit scoring,, bancar, unde
n funcie de caracteristicile candidatului la un imprumut, se acord sau nu acesta,
n raport cu valoarea unui scor ce permite s se estimeze riscul de nerembursarea.
Un alt domeniul de aplicare a analizei discriminante este cel al comportamentului
consumatorului, unde se poate prevedea probabilistic comportamentul unui individ
fa de un anumit produs sau serviciu, n functie de starea nregistrat de variabilele
explicative ce definesc o anumit atitudine.

BIBLIOGRAFIE
1. Buiga A.(2001), Metodologie de sondaj i analiza datelor n studiile de pia,
Presa Universitar Clujean, Cluj-Napoca.
2. Evrard A.D., Pras B., Roux E.(1993), MARKET. tudes et recherches en
marketing. Fondaments. Mthodes, Ed. Nathan, Paris.
3. Lebart L., Morineau A., Piron M.(1995), Statistique exploratoire
multidimensionnelle, Ed. Dunod, Paris.
4. Volle M.(1997), Analyse des donnes, Ed. Economica, Paris.