Sunteți pe pagina 1din 5

ANALIZA DISCRIMINANTĂ ŞI

APLICAŢIILE EI ÎN ECONOMIE

Analiza discriminantă este o metoda ce face parte din grupa metodelor


explicative de analiză a datelor. Ea utilizează o variabilă de explicat (Y) şi mai multe
variabile explicative  X 1 , X 2 ,..., X p  cantitative sau binare.
Problema de rezolvat poate fi formulată astfel: fiind dată o variabilă de explicat (Y)
având k stări şi p variabile explicative  X 1 , X 2 ,..., X p  , trebuie găsită una sau mai
multe combinaţii liniare de variabile explicative de forma
p
Z   ai X i
i 1

diferenţiind cel mai bine cele k grupe formate prin raportare la stările variabilei de
explicat (Y). Procedeul de rezolvare este fundamentat pe faptul că matricea de
varianţă-covarinţă totală T, poate fi descompusă în două părţi:
 matricea de varianţă-covarianţă între grupe (B);
 matricea de varianţă-covarianţă din interiorul grupelor (W), determinată ca o
sumă de k matrici, fiecare matrice fiind cea de varianţă-covarianţă din cadrul
grupei.
T=B+W
Mai întâi trebuie studiată puterea de discriminare a fiecărei variabile utilizând
analiza varianţei. Având ecuaţia de descompunere a varianţei totale pentru o
variabilă X i , respectiv:

  X   N X     X 
k Nh n k Nh
2 2 2
ijh  Xi h ih  Xi ijh  X ih
h 1 j 1 h 1 h 1 j 1

Varianţa totală = Varianţa dintre grupe + Varianţa din grupe


Pentru măsurarea puterii de discriminare a variabilei X i , se utilizează raportul de
determinaţie
Variatia int regrupe
r 2 ( X i ,Y ) 
Variatiato tala
Cu cât acest raport tinde la 1 cu atât puterea de discriminare a variabilei X i este mai
mare. Variabila Fisher F, unde:
Variatiad int regrupe / k  1
F 
Variatiadi ngrupe / N  k

pentru un nivel de semnificaţie P  prob  F  k  1; N  k   F  permite să se


precizeze care sunt variabilele semnificativ discriminante.
În ceea ce priveşte variabilele explicative, acestea nu trebuie să fie corelate între
ele sau să fie puţin corelate. Dacă variabilele explicative iniţiale sunt corelate între
ele recomand aplicarea în prealabil a analizei componentelor principale şi utilizarea
noilor variabile ca variabile explicative.
Problema analizei discriminante constă în a căuta o direcţie sau mai multe în care
varianţa totală T se descompune în cele două componente, minimizând pe W şi
maximizând pe B.
Numărul axelor discriminante (Z) este egal cu min(p;k-1). De asemenea axele
discriminante (Z) sunt vectori proprii a matricii T 1 B  , iar prima axă  Z 1  este
asociată celei mai mari valori proprii.
Variabilei discriminante  Z 1  îi va corespunde cel mai mare raport de corelaţie
R ( Z 1 , Y ) şi este asociată celei mai mari valori proprii. Cea de-a doua variabilă
discriminantă ( Z 2 ) necorelată cu prima variabilă cor ( Z 1 , Z 2 )  0 , corespunde
celei de-a doua valori proprii, iar raportul de corelaţie dintre ( Z 2 ) şi variabila de
explicat Y, respectiv R ( Z 2 , Y ) este mai mic decât în cazul primei variabile
discriminante, ş.a.m.d. Deci variabilele discriminante nu sunt corelate între ele.
Prentru precizarea numărului de variabile discriminante ce trebuie luate în
considerare se foloseşte un test privind nulitatea ultimelor q rapoarte de corelaţie.
Pentru aceasta există statistica lui Wilks:

 1  R  Z 
k
q  2
m m ,Y 
m  k  q 1

Ipoteza este respinsă pentru valori mici ale lui  .


Bartlett şi Rao au propus diferite legi de aproximare a distribuţiei  q care să
permită calcularea nivelului de semnificaţie. Astfel Bartlett a considerat că statistica:
 2   n  1   p  q  / 2 ln  q

ar putea fi aproximată cu o lege  2 cu q(k-1) grade de libertate. Această


aproximare este folosită mai ales în cazul în care numărul de clase k este mai mare
decât 2 sau 3.
Deci statistica lui Wilks măsoară puterea globală de discriminare a noilor variabile
(axe). Cu cât  înregistrează o valoare mai mică cu atât este mai mare puterea de
discriminare a axelor. Acele variabile (axe) de discriminare Z m care au o putere de
discriminare scăzută nu prezintă interes pentru a fi luate în considerare.
Pentru ca axele discriminante (Z) să poată fi interpretate din punctul de vedere al
semnificaţiei statistice, trebuie studiată legătura dintre ele şi variabilele explicative.
Aceasta poate fi realizată cu ajutorul:
 coeficienţilor funcţiilor, care se interpretează ca pondere a variabilelor
explicative în formarea axelor;
 coeficienţii de corelaţie dintre axa discriminantă şi fiecare variabilă explicativă,
care vor pune în evidenţă variabilele cu care sunt cel mai bine corelate axele
discriminante.
Variabilele discriminate sunt utilizate pentru repartizarea unităţilor în grupe, pe baza
unei reguli de decizie. Această regulă de decizie este uşor de stabilit atunci când
axele discriminante sunt cel mult două, în celelalte situaţii, elaborarea ei este foarte
dificilă. Într-o astfel de situaţie se recomandă calcularea probabilităţilor de
apartenenţă la diferitele grupe, respectiv:
p h ( x)  Pr obY  h / X 1  x1 ,..., X p  x p 

În ipoteza că vectorul X al variabilelor explicative  X 1 , X 2 ,..., X p  urmează o lege


multi-normală  (  h ,  ) pe fiecare subpopulaţie (fiecare grupă), probabilităţile se
determină astfel:
exp g h ( x)
p h ( x)  k

 exp g
h 1
h ( x)

Variabilele g h (x) sunt denumite funcţii discriminante şi sunt estimate prin g h (x) ,
unde:
 1
g h ( x)   X h' S 1 X h  X h S 1 X '
2
X h  ( X 1 , X 2 ,..., X p )

S- matricea de varianţă şi covarianţă din grupe.


Probabilitatea p h (x ) fiind estimată prin:

 exp g h ( x )
p h ( x)  k

 exp g h ( x)
h 1

fiecare unitate va putea fi repartizată într-o grupă şi anume în aceea pentru care se
înregistrează probabilitatea cea mai mare.
Utilizând această regulă de decizie optimală se pot repartiza în grupele deja
formate noile unităţi pe baza nivelului înregistrat de cele p variabile explicative
 X 1 , X 2 ,..., X p  . Având funcţiile discriminante estimate se pot calcula valorile
înregistrate de acestea pentru fiecare nouă unitate ce trebuie repartizată într-o

grupă, respectiv g h (x) .

De asemenea se pot calcula probabilităţile estimate p h (x) , exprimând şansa noii
unităţi de a aparţine fiecărei grupe în parte. Noua unitate va fi repartizată în acea
grupă pentru care se înregistrează probabilitatea cea mai mare.
Pentru aprecierea eficienţei regulii de decizie stabilită se compară situaţia iniţială
de repartizare a unităţilor în grupe (cea dată) cu situaţia rezultată în urma utilizării
funcţiilor discriminante, respectiv se construieşte aşa numita matrice a ‘’ confuziilor’’,
de următoarea formă:
Grupare Gruparea iniţială Total
după 1 2 …
regulă k
1 N 11 N 12 …. N 1.
2 N 1k
N 2.
. N 21 N 22 … .
N 2k
N k.
k . . … .
N k1 Nk2 …
N kk

Total N .1 N .2 … N
N .k

Se calculează un aşa numit ''scor discriminant'' obţinut prin raportarea numărului de


unităţi ce coincid în ambele grupări la numărul totat de unităţi de grupat, respectiv:
N 11  N 22  ...  N kk
sd 
N
Cu cât acest scor este mai aproape de valoarea 1 cu atât gruparea unităţilor folosind
funcţiile discriminante devine mai eficientă.
În concluzie analiza discriminantă are trei obiective, respectiv:
 Să determine variabilele explicative care contribuie cel mai mult la
diferenţierea claselor definite de variabila de explicat, astfel se identifică
ponderea influenţei variabilelor explicative în variaţia variabilei de explicat
construind mai multe combinaţii liniare, alegând-o pe cea mai bună.De
exemplu, o societate producătoare, are informaţii privind distribuitorii săi, care
sunt împărţiţi în 3 grupe in funcţie de cantitatea pe care o cumpără lunar,
astfel: 1-cumpără in cantităţi mici, 2-cumpără in cantităţi medii, 3- cumpără in
cantităţi mari. Se impune identificarea variabilelor ce conduc la această
diferenţiere, cum ar fi cifra de afaceri, mărimea foeţei de vânzare, număr de
ani de activitate în acest domeniu etc.
 Să se construiască un spaţiu discriminant . În cazul analizei discriminante
simplă (Y are două stări) se determină o axă discriminantă Z care explică
apartenenţa unei unităţi la o clasă sau alta. În cazul analizei discriminante
multiplă se determină mai multe combinaţii liniare independente (axe
discriminante) de variabile explicative şi trebuie analizat spaţiu determinat de
acele axe care separă cel mai bine unităţile studiate, in clasele determinate
de stările variabilei Y. În exemplu prezentat vom avea două funcţii
discriminante, dar trebuie să le căutăm pe acelea care repartizează cât mai
exact unitatile distribuitoare în cele 3 grupe. Aprecierea calităţii discriminării
de realizează cu ajutorul scorului discriminant (acesta trebuie să fie cât mai
aproape de 1).
 Să repartizeze la o clasă existentă unităţile ce nu au fost clasate. Respectiv,
cunoscând nivelul variabilelor explicative şi utilizând funcţiile discriminante vor
fi repartizate noile unităţi in clasele deja formate. Această se poate realiza prin
două procedee: unul determinist, care repartizează unitatea la clasa pentru
care distanţa la centroid este cea mai mică şi unul probabilist, unde se
calculează probabilităţi de apartenenţă la diferite clase, unitatea se alocă la
clasa care are probabilitatea cea mai mare. În cazul analizat, o nouă unitate
de distribuţie va putea fi repartizată intr-o clasă din cele trei, în funcţie de
nivelul cifrei de afaceri, mărimii forţei de vânzare, numărul de ani de activitate
in domeniu. Astfel societatea producătoare îşi va orienta activitatea de
marketing diferenţiat în funcţie de posibilul comportament al noilor unităţi în
ceea ce priveşte volumul de produse ce vor cumpărate.
Un alt exemplu clasic de aplicaţie de acest tip este ,, credit scoring,, bancar, unde
în funcţie de caracteristicile candidatului la un imprumut, se acordă sau nu acesta,
în raport cu valoarea unui scor ce permite să se estimeze riscul de nerembursarea.
Un alt domeniul de aplicare a analizei discriminante este cel al comportamentului
consumatorului, unde se poate prevedea probabilistic comportamentul unui individ
faţă de un anumit produs sau serviciu, în functie de starea înregistrată de variabilele
explicative ce definesc o anumită atitudine.
Acestea sunt doar câteva exemple de aplicaţii ale analizei discriminante, ca
urmare studiul va fi continuat cu o derulare analitică a acestei metode pe un caz dat.
BIBLIOGRAFIE
1. Buiga A.(2001), Metodologie de sondaj şi analiza datelor în studiile de piaţă,
Presa Universitară Clujeană, Cluj-Napoca.
2. Evrard A.D., Pras B., Roux E.(1993), MARKET. Études et recherches en
marketing. Fondaments. Méthodes, Ed. Nathan, Paris.
3. Lebart L., Morineau A., Piron M.(1995), Statistique exploratoire
multidimensionnelle, Ed. Dunod, Paris.
4. Volle M.(1997), Analyse des données, Ed. Economica, Paris.

S-ar putea să vă placă și