Sunteți pe pagina 1din 7

Seminar 9 – noiembrie 2022

Analiza discriminantă1
Prof. coordonator: Prof.univ.dr. Cristina Boboc

Fie o baza de date cu informatii privind stilul de viață Date_seminar_8.sav contine informații privind 62
de variabile pentru 271 de observatii.

Identificați cine contribuie la starea de bine a respondenților din timpul săptămânii ?

Variabila care se dorește a fi previzionată este variabila binară:

Do you feel refreshed weekdays? Cu variantele de raspuns Yes(1) si No(0).

Predictorii alesi a-i include în analiză din cele 62 de variabile sunt:

1. Numar de ore de somn in weekend (ore_somn_weekend)


2. Numar de ore de somn pe saptamana (ore_somn_sapt)
3. Numar de tigari (cigsgp3)
4. Varsta (varsta)
5. Alcool (alchohol)
6. Cofeina (caffeine)
7. Stres (nivel_stres)
8. Conditie fizica (fitrate)
9. Statutul marital (marital)

1. TRANSFORMAREA VARIBILELOR

În cazul variabilei ”Numărul de țigări fumate” - cigsgp3 se observă că cei ce nu fumează nu au completat
această variabilă. Pentru a putea folisi aceasta variabilă în analiză voi recodifica această variabilă astfel
incat toate valorile missing să fie înlocuite cu zero, deci sa fie specificat faptul că respondentul nu a fumat
nici o tigară. Pentru recodificare se va folosi Task-ul Recode Values.

1
Materialul a fost pregatit cu ajutorul studentelor : Ivan Petruta si Stan Alexandru, An 3 Promortia
2019-2020

DATA - WORK.IMPORT (baza de date pentru care dorim sa aplicam care metoda)
Variable to recode - alegem varibila pentru care vrem sa modificam valuarea
Recoded variable name - alegem numele noii variabile
Creem un nou set de date pe care le denumim work.newtable

In sectiunea VALUES punem la Old value 1 si la New value 0 mai apoi modificam in
CODE(edit).
Si rulam noul program scris.
Vom observa crearea unei noi baze de date care contine toate cele 62 de variabile plus variabila
nou creata.

2. ANALIZA DISCRIMINANTĂ

Prin urmare vom aplica metoda analizei discriminante pe noul set de date creat unde o sa
avem si variabila nou tigari_pe zi.

Dupa ce verificam tot setul de date si obtinem un rezultat optim pentru analiza discriminanta
urmatorul pas este:
DATA – WORK.NEWTABLE (baza de date nou creata)
*Group variable – refreshd (variabila de interes )
*Quantitative variables – cele 9 variabile introduse in analiza

METHODS
Classification criterion method – Parametric
Discriminant function – Linear
Canonical analysis – Plot first two canonical variates
VALIDATION
Perform cross validation – Display misclassified observations
STATISTICS
Posterior probability error-rate estimates
Simple descriptive statistics
Classification results
Selection method
– alegem metoda Stepwise selection

Rulam metoda (RUN).

3. INTERPRETAREA REZULTATELOR

Results : Discriminant Analysis

1. Variabilele care au influență semnificativă asupra stării de bine a respondenților


din timpul săptămânii (Pr >F) < 0.05

Din cele 9 variabile incluse în analiză, semnificative pentru împărțirea în cele două grupe doar 4
au o valoarea p-value sub 0,05. Deci, doar nivelul stresului din ultima luna, statutul marital,
numărul de ore de somn pe noapte din timpul săptămânii și numărul de ore de somn pe noapte
din weekend sunt semnificative pentru clasificare.

2. Câți indivizi sunt bine identificati ?

1-0.3359 = 0.6641 => 66.41% sunt bine clasificati per total.


Din cei ce se simt bine în timpul săptămânii 42% sunt bine identificati iar dintre cei ce nu se simt
bine în timpul săptămânii 81.48% sunt bine identificați. Deci variabilele exmplicative contribuie
mai bine la identificarea celor ce nu se simt bine în timpul săptămânii.
Cei ce nu se simt bine în timpul săptămânii, au un nivel de stress mai ridicat, dorm mai mult in
weekend si mai putin in timpul săptămânii si sunt necasatoriti.

Daca nu as fi aplicat analiza discriminantă, procentul celor ce nu se simt bine în timpul


săptămânii este de 61.8%, deci daca i-as considera pe toti ca nu sunt bine, atunci as gasi acest
procent de 61,8% corect. În cazul în care folosesc Analiza discriminantă voi identifica corect
66.41%, în una din cele două categorii, reușind să identific corect si 42% dintre cei ce se simt
bine. Totuși modelul nu este performant.
Din analiza proiectiei observatiilor pe planul determinat de primele două axe discriminante se
observă că cele două grupe de indivizi nu sunt foarte bine separate, ceea ce mă conduce la
aceeași idee că modelul nu este performant. Pentru obținerea unui model mai bun, ar trebui să
alegem noi variabile în analiză care să ne aducă informații suplimentare.

S-ar putea să vă placă și