Sunteți pe pagina 1din 4

1. Ce este si la ce se foloseste analiza discriminantului?

Definire
Analiza discriminantului este o tehnica pentru a analiza care caracteristici
diferentiaza membrii unui grup. Analiza discriminantului are doua ntrebuintari
majore: estimare si ntelegere. n scopul estimarii, analiza discriminantului
furnizeaza o metoda simpla cu ajutorul careia putem determina n care grup este
cel mai probabil ca o observatie sa se ncadreze. Dect sa calculati probabilitatea
unei distributii normale multivariate puteti doar sa calculati un index(valoarea unei
functii) si sa-l comparati cu o valoare cutoff (limita). De exemplu un student
promoveaza anul daca combinatia ponderata a mediei, numarului de credite si
numarului de restante se situeaza peste o anumita valoare, care este cutoff-ul.
Ponderile din index indica impactul variabilelor: de exemplu numarul de restante
poate avea o influenta mai mare dect media examenelor promovate.
Totusi procedura analizei discriminantului poate fi folosita deasemeni pentru:
" identificarea variabilelor ce sunt mai folositoare la diferentierea grupurilor;
" daca un set de variabile are rezultate la fel de bune ca celelalte;
" care grupuri se aseamana cel mai mult
" care cazuri sunt outlieri
Conditii
Analizarea datelor prin folosirea discriminantului se poate efectua numai atunci
cnd:
" criteriul sau variabila dependenta este categoriala
si
" predictorul sau variabilele independente sunt de natura interval
De exemplu variabila dependenta ar putea fi alegerea pentru o bautura racoritoare:
Coca-Cola, Fanta sau Sprite, iar variabilele independente ar putea fi: evaluari are
caracteristicilor sucului: continut de zahar: scazut, mediu, ridicat, aroma, aciditate,
etc.
Clasificare
Analiza discriminantului este clasificata n functie de numarul de categorii pe care le
are variabila criteriu: daca are 2 categorii atunci avem analiza discriminantului pe
doua grupe, daca are 3 sau mai multe atunci este vorba despre analiza multipla a
discriminatului.
Relatia analizei discriminantului cu regresia si ANOVA
ANOVA Regresie Analiza discriminantului
Similaritati
una
una
una
Nr. de variabile dependente
Nr. de variabile independente
multiple
multiple
multiple
Diferente
de interval
de interval
categoriala
Natura variabilei dependente

Natura variabilei dependente


categoriala
de interval
de interval
Modelul de analiza a discriminantului:
Modelul de analiza a discriminantului implica combinatii liniare de urmatoarea
forma:
D=b0 +b1X1 + b2X2 + b3X3 +....+ bkXk
D=valoarea discriminantului
b=coeficientii discriminatului sau ponderi
X=predictor sau variabila independenta
Coeficintii sau ponderile sunt astfel estimate nct grupurile sa difere la valoarea
functiei discriminantului ct de mult posibil. Acesta se ntmpla cnd raportul sumei
de patrate intergrupe si cnd raportul sumei de patrate intragrupe are nivelul
maxim. Orice alta combinatie liniara a predictorilor va rezulta ntr-o proportie mai
mica.
Statistici asociate cu analiza discriminantului:
Urmatoarele sunt cele mai importante statistici asociate cu analiza discriminantului:
Canonical correlation - Corelatia canonica masoara gradul de asociere dintre
valorile discriminantului si grupuri. Este o masura a asocierii dintre functia simpla a
discriminantului si setul de variabile binare care definesc ncadrarea n grupuri.
Centroid- Centriodul este valoarea(valorile) medii ale scorurilor discriminantului
pentru un grup particular. Exista attia centroizi cte grupuri sunt, pentru ca exista
cte unul pentru fiecare grup. Mediile pentru un grup asupra tuturor functiilor sunt
centroizi de grup.
Classification matrix matricea de clasificare mai este denumita confusion sau
prediction matrix matrice de estimare contine numarul de cazuri ce sunt corect
clasificate si cele gretit clasificate. Cazurile corect clasificate apar pe diagonala,
deoarece grupele estimate(predictionate) si cele reale sunt aceleasi. Elementele ce
nu se regasesc pe diagonala reprezinta cazuri care au fost incorect clasificate. Suma
elementelor de pe diagonala mpartita la numarul total de cazuri reprezinta hit
ratio- rata ncadrarilor corecte.

Capitolul 1. Analiza de discriminant


1.1 Concepte de baza
Analiza de discriminant este o tehnica de analiza a datelor ce construieste o
combinatie liniara a mai multor variabile independente si pe baza valorilor acestora,
elaboreaza cate un index pentru fiecare nregistrare.
Aceasta tehnica de analiza a datelor poate fi utilizata atunci cnd variabila
dependenta este de categorie, iar variabilele independente sunt de interval sau de
proportie si trebuie s urmeze o distributie normala.
Obiectivele analizei de discriminant sunt urmatoarele:
1. Alcatuirea functiilor discriminant sau a combinatiilor liniare de variabilele

independente, care caracterizeaza cel mai bine diferentele dintre grupuri.


2. Examinarea diferentelor semnificative intre grupuri in ceea ce priveste variabilele
independente.
3. Identificarea predictorilor care contribuie cel mai mult la diferentele intergrup.
4. Clasificarea cazurilor ca apartinand unui grup sau altuia pe baza valorilor
variabilelor predictorii.
5. Evaluarea preciziei clasificarii.
Exista 3 tipuri de analiza discriminanta :
-Analiza directa care presupune ca toate variabilele sunt introduce simultan
-Analiza erarhica ordinea variabilelor este determinate de catre cercetatori
-Analiza stepwise- care determina ordinea de introducere a variabilelor pe baza
puterilor de discriminare
Tehnicile analizei de discriminant sunt descrise de numarul categoriilor detinute de
variabila dependenta (de criteriu). Cand variabila dependenta are 2 categorii,
tehnica este cunoscuta sub numele de analiza de discriminant pe 2 grupuri. Atunci
cind sint implicate 2 sau mai multe categorii, aceasta tehnica este cunoscuta sub
numele de analiza de discriminant multipla. Principala diferenta consta in faptul ca
in cazul analizei de discriminant pe 2 grupuri se poate construi o singura functie, in
timp ce cu ajutorul analizei de discriminant multipla se pot construi mai multe
functii.
Analiza discriminanta construieste o functie de discriminare care este o combinatie
liniara de variabile de urmatoarea forma:
f = b0+b1x1+b2x2+ bnxn.
unde: f = scor (index) discriminant
bi = coeficient de discriminare
xi = variabile independente
Coeficientii bi sunt estimati astfel incat cele doua grupuri (in cazul nostru clientii
bun platnici si cei rau platnici) sa difere cat mai mult, iar variatia in interiorul
grupului sa fie cat mai mica.
Analiza discriminanta are doua scopuri principale:
-un scop descriptiv, care permite descrierea si intelegerea variabilelor ce
discrimineaza cel mai bine intre grupuri ;
-un scop decizional, de previziune, anticipativ pe baza scorului de discriminare se
incadreaza fiecare nou caz intr-unul din grupuri. Se realizeaza si o verificare a
corectitudinii incadrarii cazurilor existente.
1.2. Prezumtii in analiza de disriminant
Analiza de discriminant:
-variabila dependenta este de categorie
- variabilele independente sunt de interval sau de proportie
-fiecare grup trebuie sa faca parte dintr-o populatie cu o distributie normala
multivariate si toate populatiile sa aiba aceeasi matrice de covarianta.
Datorita acestui fapt, inainte de a incepe efectuarea analizei de discriminant,
trebuie sa verificam daca distributia pentru fiecare variabila este normala. Acest
lucru il vom face utilizind testul Kolmogorov-Smirnov.
In cazul in care distributia in interiorul unui grup este asimetrica, atunci mediile
esantionului si deviatiile standard indica intr-o slaba masura covarianta. Trebuie sa
verificam daca variantele sunt egale in cadrul grupurilor. Scatterplot (norul de
puncte)

este un procedeu cu ajutorul caruia ne putem face o impresie despre covarianta


variabilelor.

S-ar putea să vă placă și