Sunteți pe pagina 1din 18

Capitolul 55

Analiza funciei discriminant

Analiza funciei discriminant, numit pe scurt i analiza discriminantului (sau


discriminant) este att o metod de grupare ct i o tehnic explicativ sau predictiv. Scopul ei
este acela de a prezice valorile unei variabile de grupare dependent pornind de la valorile
unor variabile explicative. Variabila de grupare este nominal (cel mai adesea dihotomic), iar
variabilele explicative sunt continue (dei se folosesc adesea i variabile ordinale).
Analiza discriminantului ajut la repartizarea cazurilor din eantion pe categoriile
variabilei de grupare, pe baza scorurilor variabilelor explicative pentru fiecare caz. Aceast
analiz se folosete aadar atunci cnd grupurile sunt cunoscute dinainte (spre deosebire de
analiza cluster, unde grupurile sunt definite la final). n urma analizei funciei discriminant vom
ti care dintre variabilele explicative difereniaz (discrimineaz) cel mai puternic grupurile
variabilei dependente de unde i denumirea procedurii.
Funcia care st la baza acestei proceduri de analiz este una de forma:

y=b 0+ b1 x1 +b 2 x 2+ +b k x k (55.1)

unde y este variabila de grupare, cu x sunt notate variabilele predictive (independente), iar b sunt
coeficienii funciei. Aceti coeficieni arat contribuia fiecrei variabile independente la
explicarea variabilei de grupare sau, altfel spus, la clasificarea cazurilor ntr-unul sau altul
dintre grupuri.
Analiza disciminantului poate fi inclus fr teama de a grei n categoria tehnicilor de
clasificare, deoarece, la fel ca la analiza cluster, cazurile asemntoare ntre ele sunt incluse n
aceeai categorie sau clas.
Iat un exemplu de situaie n care analiza discriminantului i gsete utilitatea. S
presupunem c trebuie s prezicem probabilitatea ca o persoan s-i cumpere main de teren,
n funcie de o serie de caracteristici ale sale, att economice i demografice (vrsta, venitul,
numrul de membri ai familiei, distana de la locuin pn la serviciu etc.), ct i psihometrice
(imaginea despre sine, nclinaia spre risc i aventur etc.). Analiza funciei discriminant va grupa
subiecii n aceste dou categorii (cumpr/nu cumpr main de teren), utiliznd variabilele
explicative menionate. Astfel, cunoscnd profilul demografic i psihografic al unei persoane
vom putea cunoate, cu un oarecare grad de precizie, dac exist anse ca persoana respectiv s
cumpere o main de teren n viitorul apropiat.
Tot n marketing, analiza discriminantului se folosete pentru a releva deosebirile dintre
categoriile de clieni ai firmei, cu scopul de a stabili strategii de marketing difereniate pe
segmente, n functie de aceste deosebiri. Vom apela la aceast tehnic dac dorim s aflm prin
ce trsturi se difereniaz clienii tineri de cei n vrst, clienii cu venituri mari de cei cu
venituri modeste, clienii din mediul urban de cei din mediul rural, clienii care cumpr frecvent
de cei care cumpr rar .a.m.d.
Condiiile care trebuie ndeplinite pentru a putea folosi analiza funciei discriminant sunt
urmtoarele:
1. Variabila dependent este nominal, grupurile sale fiind disjuncte.
2. Variabilele independente sunt continue sau ordinale.
3. Observaiile (msurtorile) sunt independente subiecii sunt selectai aleator.
4. Variabilele independente nu prezint valori extreme semnificative.
5. Variabilele independente sunt distribuite normal pe toate grupurile variabilei
dependente.
6. Varianele variabilelor independente sunt egale pentru toate grupurile variabilei
dependente.
7. Covarianele variabilelor independente sunt egale pentru toate grupurile variabilei
dependente.
8. Nu exist multicoliniaritate (corelaii foarte puternice ntre variabilele independente).
Trebuie s precizm c ndeplinirea tuturor condiiilor de mai sus (mai ales 5, 6 i 7) este
de multe ori greu de realizat n practic. Avnd n vedere c analiza discriminantului este relativ
robust la ncalcrile uoare ale acestor condiii, unii cercettori aleg s o foloseasc n orice
situaie. Totui, muli statisticieni prefer regresia logistic n locul analizei discriminatului, dac
nclcrile sunt semnificative.
Analiza functiei discriminant este de dou tipuri: simpl, dac variabila de grupare este
dihotomic, i multipl, dac variabila de grupare este multinomial. n continuare vom prezenta
cte un exemplu de analiz pentru fiecare din aceste tipuri, separat.

Analiza funciei discriminant simpl

Pentru a ilustra modul de utilizare a acestei tehnici, vom folosi fiierul Employee
Data.sav (cu care cititorul este poate familiarizat). Reamintim c acest fiier (vezi figura 4.1)
conine informaii privind 474 de angajai ai unei bnci din Statele Unite ale Americii, la
nceputul anilor 90. Dorim s aflm care sunt cele mai importante diferene dintre angajaii
brbai i femei, prin prisma urmtoarelor variabile: salariul anual n dolari (salary), nivelul de
educaie n ani (educ), vechimea n banc n luni (jobtime) i experiena anterioar n luni
(prevexp).
Primele trei condiii din lista de mai sus sunt respectate. Acelai lucru se poate spune i
despre ultima condiie: corelaiile dintre cele patru variabile independente, luate dou cte dou,
sunt mai mici de 0.80. n ceea ce privete condiiile 4, 5 i 6, ele nu sunt din pcate ndeplinite:
unele variabile explicative (de exemplu salary) prezint valori extreme, majoritatea acestor
variabile nu sunt distribuite normal, iar varianele grupurilor nu sunt egale. De dragul exemplului
vom trece peste aceste inconveniente i vom efectua analiza discriminant. S nu uitm totui c
n practic avem ntotdeauna opinuea de a utiliza regresia logistic binomial n astfel de
situaii.
Penultima condiie, privind egalitatea covarianelor, o vom verifica n cursul analizei.
nainte de a trece la analiza discriminantului, avem de executat o operaiune preliminar:
recodificarea variabilei dependente gender. ntruct aceast variabil este de tip text, nu poate fi
introdus n analiz. Vom crea aadar o nou variabil (pe care o vom numi gen2), prin care
brbaii vor fi codificai cu 1, iar femeile cu 2. Caseta de dialog a operaiunii de recodificare va
arta astfel (pentru detalii vezi capitolul 3):

Fig. 55.1. Caseta de dialog pentru recodificarea variabilei gender

Acestea fiind spuse, putem apela procedura analizei discriminantului prin comanda
Analyze>Classify>Discriminant:
Fig. 55.2. Apelarea analizei discriminant

n cmpul Grouping Variable introducem variabila gen2, iar n fereastra Independents


variabilele explicative:

Fig. 55.3. Caseta de dialog a analizei discriminant

Selectnd apoi variabila gen2 apsm butonul Range. n noua caset de dialog
introducem cele dou valori ale variabilei n cmpurile Minimum i Maximum, dup cum se arat
n figura de mai jos:
Fig. 55.4. Definirea categoriilor variabilei dependente

Dup aceast operaiune, valorile 1 i 2 vor aprea ntre paranteze, n locul semnelor de
ntrebare, n cmpul Grouping Variable (figura 55.3).
Apsm apoi butonul Statistics i operm urmtoarele selecii n caseta de dialog:

Fig. 55.5. Caseta de dialog Statistics

n continuare apsm butonul Classify i selectm opiunea Summary table:


Fig. 55.6. Caseta de dialog Classification

Ultimul buton pe care l apsm este Save, dup care selectm opiunile urmtoare:

Fig. 55.7. Caseta de dialog Save

Apsam apoi OK pentru a executa procedura.


nainte de a trece la interpretarea rezultatelor analizei, vom inspecta tabelul cu rezultatele
testului M pentru egalitatea covarianelor, prezentat n figura ce urmeaz:
Fig. 55.8. Rezultatul testului M al lui Box

Covarianele grupurilor sunt semnificativ diferite, ntruct avem Sig.<0.0005. Aadar,


condiia 7 de mai sus nu este ndeplinit. Decizia pe care o lum n momentul de fa este aceea
de trece peste acest inconvenient i de a continua analiza. Desigur, cititorul are libertatea de a lua
orice decizie dorete, inclusiv aceea de a renuna la analiza discriminantului i de a folosi
regresia logistic pentru a studia relaiile dintre variabilele noastre.
Primul tabel pe care l vom examina este cel ce conine valoarea proprie ale funciei
disciminant (eigenvalue).

Fig. 55.9. Valoarea proprie a funciei discriminant

ntruct analiza simpl a discriminantului genereaz o singur funcie discriminant,


valoarea sa proprie nu are foarte mare importan. n schimb, ceea ce ne intereseaz aici este
coeficientul corelaiei canonice din ultima coloan (notat de regul cu Rc), care ne arat
intensitatea legturii dintre variabila de grupare i cele explicative. Cu ct Rc este mai apropiat
de 1, cu att aceast legtur este mai puternic. n cazul nostru coeficientul este de 0.515, deci
avem de-a face cu o corelaie medie.
Dac ridicm acest coeficient la ptrat obinem o estimare a varianei variabilei de
grupare care este explicat de variabilele independente. n cazul nostru avem
R2c =0.515 2=0.265 . Aadar, variabila dependent este explicat n proporie de circa 26.5%.

Aceast ultim cifr poate fi considerat o mrime a efectului pentru analiza discriminantului.
Tabelul de mai jos ne arat dac diferenele dintre mediile grupurilor, pentru fiecare
variabil explicativ n parte, sunt semnificative statistic:

Fig. 55.10. Testele diferenelor dintre mediile grupurilor

Pentru fiecare variabil programul a calculat indicatorul al lui Wilks i a efectuat testul
F pentru acest indicator. Se observ c acest test nu este semnificativ pentru variabila jobtime,
ceea ce nseamn c vechimea n banc are o contribuie foarte redus la clasificarea angajailor
(sau, cu alte cuvinte, o putere de discriminare foarte mic). Indicatorul poate lua valori ntre 0
i 1; cu ct este mai mare, cu att contribuia variabilei respective la funcia discriminat este mai
slab.
Programul calculeaz i un indicator global, pentru ntreg modelul, precum i un test hi
ptrat pentru acest indicator:

Fig. 55.11. Indicatorul al lui Wilks

Cu ct indicatorul din figura 55.11 este mai mic (mai apropiat de 0), cu att variabilele
independente explic mai bine variabila de grupare. Dac valoarea Sig. a testului hi ptrat este
mai mic dect 0.0005 (aa cum se ntmpl n cazul nostru) putem spune c modelul este
adecvat cu alte cuvinte, puterea de discriminare a variabilelor independente este suficient de
mare.
Tabelul de mai jos afieaz coeficienii b ai funciei discriminant (vezi ecuaia 55.1):
Fig. 55.12. Coeficienii funciei discriminant

Cu ajutorul acestor coeficieni, programul a calculat pentru fiecare caz o valoare a


funciei, pe care a stocat-o n variabila Dis1_1 din figura de mai jos.

Fig. 55.13. Variabila Dis1_1 coninnd valorile funciei discriminant pentru fiecare caz
(fragment)

Tabelul din figura 55.14 afieaz centroizii celor dou grupuri, adic mediile funciei
discriminant pentru brbai i femei:
Fig. 55.14. Centroizii grupurilor variabilei dependente

Cu ct centroizii sunt mai ndeprtai, cu att sunt anse mai mari ca funcia discriminant
s clasifice corect angajaii n cele dou grupuri. Testul hi ptrat din figura 55.11 ne spune dac
distana dintre centroizi este semnificativ statistic; n cazul nostru este, ntruct pentru testul
respectiv avem Sig.<0.0005.
Tabelul urmtor este foarte important pentru analiz. El ne arat care sunt variabilele
independente care discrimineaz cel mai bine cele dou categorii ale variabilei de grupare.

Fig. 55.15. Tabelul Structure Matrix

Acest tabel conine coeficienii de corelaie dintre funcia discriminant i fiecare variabil
explicativ. Coeficienii sunt afiai n ordinea descesctoare a valorilor absolute. Cu ct valoarea
absolut a unui coeficient de corelaie este mai apropiat de 1, cu att puterea de discriminare a
respectivei variabile este mai mare. n cazul nostru putem observa c brbaii i femeile din
populaia noastr se difereniaz cel mai bine prin prisma salariului anual i a nivelului de
educaie. Din punctul de vedere al vechimii i al experienei anterioare, cele dou grupuri sunt
oarecum asemntoare.
Aceast concluzie este confirmat n urma examinrii tabelului indicatorilor statistici pe
cele dou grupuri:
Fig. 55.16. Indicatorii statistici ai variabilelor independente pe cele dou grupuri

Se observ c diferenele dintre mediile celor dou grupuri sunt vizibile mai ales pentru
variabilele salary, educ i prevexp. Pentru variabila jobtime diferena este nesemnificativ.
Ultimul tabel care ne intereseaz este cel al clasificrii cazurilor, prezentat n figura
55.17.

Fig. 55.17. Tabelul clasificrii cazurilor

Cititorul care a parcurs capitolele privitoare la regresia logistic cunoate deja tabelele de
acest fel. n tabelul de mai sus se observ c din totalul de 258 de angajai brbai, 161 (62.4%)
au fost clasificai corect. Restul de 97 (37.6%) au fost repartizai eronat n categoria femeilor
(aceasta nseamn c respectivii angajai sunt asemntori femeilor din punctul de vedere al
valorilor variabilelor explicative, n special salariul i nivelul de educaie). n ceea ce privete
femeile, 173 (adic 80.1% din total) au fost clasificate corect, iar 43 (19.9% din total) au fost
incluse eronat n categoria brbailor (aadar, angajatele respective sunt asemntoare
brbailor din punctul de vedere al valorilor variabilelor explicative).
ntruct un procentaj foarte bun dintre cazuri a fost corect repartizat (70.5%), putem trage
concluzia c puterea de discriminare a variabilelor noastre este satisfctoare.
S mai precizm c programul a calculat, la cerea noastr, probabilitile de apartenen
ale fiecrui caz n parte (variabilele Dis1_2 i Dis2_2 din figura 55.18 de mai jos). Pe baza
acestor probabiliti, fiecare caz a fost repartizat fie n grupul brbailor (1), fie n cel al femeilor
(2) vezi variabila Dis_1 din figura 55.13. De exemplu, pentru primul caz, probabilitatea ca
angajatul respectiv s fie brbat este de 88.29%, iar probabilitatea de a fi femeie este de 11.71%.
Aadar, respectivul caz a primit codul 1 i a fost repartizat n grupul brbailor (variabila Dis_1
are valoarea 1).

Fig. 55.18. Probabilitile de apartenen a cazurilor la grupurile variabilei dependente

Tabelul clasificrii din figura 55.17 a fost construit prin ncruciarea variabilelor gen2
(reprezentnd apartenena real a cazurilor la un grup sau altul) i variabila Dis_1 din figura
55.13 (reprezentnd apartenena prezis pe baza funciei discriminant).

Analiza funciei discriminant multipl

Pentru exemplul din seciunea de fa vom folosi tot baza de date Employee Data, cu
deosebirea c variabila de grupare va fi n acest caz categoria profesional a angajatului
funcionar, agent de paz sau manager. Aceste informaii sunt stocate n variabila jobcat,
codificat aa cum se arat n figura 4.4. ntruct variabila de grupare are trei categorii,
programul va folosi analiza multipl a discriminatului n acest caz.
Variabilele independente ale modelului sunt aceleai ca n seciunea anterioar. Aadar,
dup ce apelm procedura (figura 55.2), introducem variabilele dup cum urmeaz:
Fig. 55.19. Caseta de dialog a analizei discriminant

n continuare apsm butonul Range, iar n cmpurile Minimum si Maximum introducem


codurile primei i ultimei categorii ale variabilei de grupare, adic 1 i 3 (vezi figura 4.4).

Fig. 55.20. Definirea categoriilor variabilei dependente

Celelalte opiuni le vom selecta la fel ca pentru analiza simpl (figurile 55.5-55.7).
Analiza multipl a discriminantului nu genereaz o singur funcie discriminant, ci un
numr de funcii calculat prin formula min(c-1, k), unde c este numrul categoriilor variabilei
dependente, iar k numrul de variabile independente. ntruct aici avem 3 categorii i 4 variabile
independente, programul a generat dou funcii discriminant.
Pentru ca cititorul s neleag mai uor explicaiile ce urmeaz, vom spune c se poate
face o oarecare analogie ntre aceste funcii discriminant i componentele extrase prin analiza
componentelor principale, studiat n capitolul 52. La fel ca i acolo, fiecrei funcii i poate fi
atribuit un nume sau o semnificaie n funcie de variabilele independente cu care este corelat
mai puternic. Fiecare funcie discrimineaz categoriile variabilei dependente pe baza unora sau
altora dintre variabilele explicative. Cu ajutorul acestor funcii se calculeaz pentru fiecare caz
probabilitile de apartenen la cele trei categorii, iar pornind de la aceste probabiliti se prezice
apartenena cazurilor la o categorie sau alta.
Tabelul valorilor proprii ale celor dou funcii discriminant este prezentat n figura
urmtoare:

Fig. 55.21. Tabelul valorilor proprii ale funciilor discriminant

Valorile proprii ne arat importana fiecrei funcii n modelul total. Prima funcie este
cea mai important, deoarece are valoarea proprie 1.954 i explic 84% din variana total a
modelului. A doua funcie are valoarea proprie de 0.373 i explic restul de 16% din varian,
Coeficientul de corelaie canonic Rc, ridicat la ptrat, ne arat ct de bine explic fiecare
funcie variaia variabilei dependente. Prima funcie explic aceast variaie n proporie de
66.09% (0.8132), iar a doua n proporie de 27.14% (0.5212).
Tabelul de mai jos ne arat valorile indicatorului al lui Wilks pentru modelul nostru:

Fig. 55.22. Coeficienii ai lui Wilks

Primul rnd al tabelului, 1 through 2, afieaz valoarea indicatorului pentru ambele


funcii deci pentru ntregul model iar urmtorul rnd numai pentru a doua funcie
discriminant. ntruct testul hi ptrat este semnificativ pe ambele linii (Sig<0.0005), deducem c
puterea de discriminare a variabilelor noastre este bun; aadar, modelul nostru este suficient de
solid.
Din faptul c testul hi ptrat din figura 55.22 este semnificativ statistic rezult c
distanele dintre dintre centroizii grupurilor sunt suficient de mari; drept urmare, exist anse ca
funciile discriminant s clasifice corect cazurile din eantion. Centroizii grupurilor se gsesc n
figura de mai jos:

Fig. 55.23. Centroizii grupurilor variabilei dependente

Tabelul din figura urmtoare afieaz valorile indicatorului pentru fiecare variabil
independent n parte:

Fig. 55.24. Testul pentru egalitatea mediilor grupurilor

Variabila care contribuie cel mai puin la diferenierea grupurilor este jobtime, pentru care
nu exist diferene semnificative ntre mediile acestor grupuri (Sig.>0.05). De reinut c o
variabil independent este cu att mai important cu ct i corespunde o valoare mai mic a lui
.
Tabelul din figura urmtoare conine coeficienii celor dou funcii discriminant:
Fig. 55.25. Coeficienii funciilor discriminant

Cu ajutorul acestor coeficieni, programul a calculat valorile celor dou funcii i le-a
stocat n variabilele Dis1_3 i Dis2_3 din figura de mai jos:

Fig. 55.26. Noile variabile create prin procedura de analiz discriminant

S examinm acum matricea de structur a modelului, care prezint corelaiile dintre cele
dou funcii discriminant i variabilele explicative:
Fig. 55.27. Tabelul Structure Matrix

n continuare vom ncerca s atribuim fiecrei funcii o semnificaie, pornind de la aceste


corelaii, cam aa cum am procedat la analiza componentelor principale. Se observ c prima
funcie discrimineaz cele trei categorii dup salariu i nivelul de educaie (aici sunt corelaiile
cele mai mari, 0.971 i 0.559). Ea este asociat cu angajaii care au salariu mare i nivel de
educaie ridicat (ntruct corelaiile sunt pozitive). ntre vechimea anterioar i aceast funcie
exist o uoar corelaie negativ (-0.055); aadar, aceast funcie este asociat i cu angajaii
care aveau o experien anterioar relativ redus atunci cnd s-au angajat n banc cu alte
cuvinte, angajaii mai tineri.
Cea de-a doua funcie este corelat puternic i direct cu vechimea anterioar (0.878) i
invers cu nivelul de educaie (-0.495); n consecin, ea este asociat cu angajaii cu vechime
anterioar mare deci mai n vrst i cu nivel de educaie mai sczut.
Recapitulnd, putem afirma urmtoarele:
- prima funcie discriminant separ angajaii tineri, cu studii superioare i salarii mari,
de cei mai n vrst, cu studii medii i salarii mai mici
- a doua funcie discriminant separ angajaii n vrst (cu vechime anterioar mare) i
cu studii medii de cei mai tineri i cu studii superioare.
Dup cum s-a vzut n tabelul 55.21, cea de-a doua funcie are o putere de discriminare
mai mare (avnd o valoare proprie superioar), dar testul hi ptrat din tabelul 55.22 arat c
ambele funcii sunt eficiente.
Pe baza funciei discriminant, programul a calculat i probabilitile de apartenen pentru
fiecare caz n parte (variabilele Dis1_4, Dis2_4 i Dis3_4 din figura 55.26). Cele trei variabile
corespund celor trei categorii ale variabilei de grupare: funcionari, ageni de paz i manageri,
respectiv. Pornind de la aceste probabiliti, fiecare caz a fost repartizat ntr-o categorie;
apartenena prezis (estimat) a fost salvat n variabila Dis_2 din figura 55.26.
Prin ncruciarea acestei ultime variabile, Dis_2, cu variabila de grupare jobcat, se obine
tabelul clasificrii din figura 55.28:

Fig. 55.28. Tabelul clasificrii cazurilor

n urma inspectrii acestui tabel observm urmtoarele:


- categoria cu cel mai mare procentaj al clasificrilor corecte este ce a paznicilor (25
din 27, adic 92.6%)
- urmtoarea categorie este cea a funcionarilor, cu 316 clasificri corecte din 363
(87.1%)
- n categoria managerilor au fost operate 71 clasificri corecte din 84 (84.5%)
Per total, exist un procentaj remarcabil de cazuri clasificate corect (86.9%), ceea ce
demonstreaz nc o dat puterea funciilor discriminant create prin modelul nostru.

S-ar putea să vă placă și